DE112019001138T5

DE112019001138T5 - Objekterfassungsvorrichtung, Objekterfassungsverfahren und Programm

Info

Publication number: DE112019001138T5
Application number: DE112019001138.3T
Authority: DE
Inventors: Shun Sakai; Masahiko Ogawa
Original assignee: Omron Corp; Omron Tateisi Electronics Co
Current assignee: Omron Corp
Priority date: 2018-03-07
Filing date: 2019-01-18
Publication date: 2020-12-03
Also published as: JP2019159391A; CN111699509B; US20200394797A1; JP6977624B2; US11494906B2; CN111699509A; WO2019171779A1

Abstract

Objekterfassungsvorrichtung zum Erfassen eines Zielobjekts aus einem Bild, die umfasst: eine erste Erkennungseinheit, die so konfiguriert ist, dass sie eine Vielzahl von Kandidatenregionen, in denen das Zielobjekt existiert, aus dem Bild erfasst; eine Regionsintegrationseinheit, die so konfiguriert ist, dass sie eine oder mehrere integrierte Regionen auf Basis der Vielzahl von Kandidatenregionen bestimmt, die von der ersten Erkennungseinheit erfasst werden; eine Auswahleinheit, die so konfiguriert ist, dass sie wenigstens einen Teil der integrierten Regionen auswählt; und eine zweite Erkennungseinheit, die so konfiguriert ist, dass sie das Zielobjekt aus der ausgewählten integrierten Region unter Verwendung eines Erkennungsalgorithmus erfasst, der sich von einem von der ersten Erkennungseinheit verwendeten Erkennungsalgorithmus unterscheidet.

Description

TECHNISCHES GEBIET
Die vorliegende Erfindung bezieht sich auf eine Technik zur Erfassung eines Objekts aus einem Bild.
STAND DER TECHNIK
Konventionell ist eine Technik bekannt, mit der aus einem Bild ein vorbestimmtes Objekt wie z.B. ein menschliches Gesicht erkannt werden kann (Patentdokumente 1 und 2). In den letzten Jahren hat sich die Genauigkeit der Bilderkennung mit dem Aufkommen des tiefen Lernens (Deep Learning) dramatisch verbessert. Allerdings erfordert tiefes Lernen viel mehr Rechenaufwand als herkömmliche Verfahren.
Da der Rechenaufwand für tiefes Lernen, wie oben beschrieben, hoch ist, wird tiefes Lernen als ungeeignet für eingebettete Geräte wie z.B. mobile Geräte angesehen. Selbst unter Berücksichtigung der jüngsten technologischen Innovationen ist es nicht einfach, tiefes Lernen Algorithmen in eingebetteten Geräten auszuführen. In Anbetracht einer solchen Situation besteht ein Bedarf an einem schnellen und hochgenauen Objekterkennungsalgorithmus, der auch in einem Gerät mit einer kleinen Rechenressource wie einem eingebetteten Gerät betrieben werden kann.
DOKUMENTE ZUM STAND DER TECHNIK
PATENTDOKUMENTE

Patentdokument 1: Japanische ungeprüfte Patentanmeldung mit Veröffentlichungsnummer 2007-133840
Patentdokument 2: Japanische ungeprüfte Patentanmeldung mit Veröffentlichungsnummer 2008-102611

ZUSAMMENFASSUNG DER ERFINDUNG
DIE DURCH DIE ERFINDUNG ZU LÖSENDE AUFGABE
Um eine schnelle und hochgenaue Objekterfassung auch in einem Gerät mit kleinen Rechenressourcen durchzuführen, ist es denkbar, die Erfassung zunächst mit einem Algorithmus durchzuführen, der einen geringe Rechenaufwand erfordert (Niedriglast-Algorithmus), und dann die Erfassung nur für die erfasste Region mit einem Algorithmus durchzuführen, der einen hohen Rechenaufwand erfordert, aber genau ist (hochgenauer Algorithmus), wie z.B. tiefes Lernen. Zum jetzigen Zeitpunkt ist es als Maßnahme gegen viele Regionen, die bei der Erfassung mit dem Niedriglast-Algorithmus erfasst werden, auch denkbar, die Vielzahl der Regionen zu integrieren und die Erfassung der Region nach der Integration mit einem hochgenauen Algorithmus durchzuführen. Nach einem solchen Verfahren ist es möglich, eine Erfassung durchzuführen, die fast genauso genau ist wie eine Erfassung, bei der nur ein hochgenauer Algorithmus verwendet wird, die aber schneller ist.
Wenn jedoch eine große Anzahl von Erfassungszielobjekten in einem Bild enthalten ist, ist die Anzahl der integrierten Regionen groß, so dass eine ausreichende Beschleunigung nicht erreicht werden kann. Wenn z.B. die Gesichtserkennung auf einem Gruppenfoto durchgeführt wird, ist die Anzahl der integrierten Regionen gleich oder größer als die Anzahl der Personen auf dem Bild, so dass die Erfassung auf allen integrierten Regionen unter Verwendung eines hochgenauen Algorithmus zu einer großen Menge an Rechenzeit führt.
In Anbetracht dieser Schwierigkeit ist die vorliegende Erfindung darauf ausgerichtet, eine Technik zur Verfügung zu stellen, die in der Lage ist, ein Objekt mit hoher Geschwindigkeit und hoher Genauigkeit zu erkennen.
MITTEL ZUM LÖSEN DER AUFGABE
Die vorliegende Erfindung umfasst eine erste Erkennungseinheit und eine zweite Erkennungseinheit, die so konfiguriert sind, dass sie ein vorbestimmtes Objekt aus einem Bild unter Verwendung unterschiedlicher Erkennungsalgorithmen erkennen, Kandidatenregionen integrieren, die von der ersten Erkennungseinheit erkannt wurden, und die Objekterkennung durch die zweite Erkennungseinheit nur an Kandidatenregionen durchführen, die nach der Integration aus den Kandidatenregionen ausgewählt wurden. Bei dem Zielobjekt kann es sich um ein beliebiges Objekt handeln; Beispiele hierfür sind ein menschlicher Körperteil, wie etwa ein menschliches Gesicht und ein menschlicher Körper, ein Tier oder ein Teil davon, ein Automobil und ein Produkt.
Genauer gesagt ist eine Objekterfassungsvorrichtung nach einem Aspekt der vorliegenden Erfindung eine Objekterfassungsvorrichtung zum Erfassen eines Zielobjekts aus einem Bild und umfasst eine erste Erkennungseinheit, eine zweite Erkennungseinheit, eine Regionsintegrationseinheit und eine Auswahleinheit. Die erste Erkennungseinheit und die zweite Erkennungseinheit sind beide so konfiguriert, dass sie ein vorgegebenes Zielobjekt aus einem Bild erkennen, aber die von ihnen verwendeten Erkennungsalgorithmen sind unterschiedlich. Hier kann der Erkennungsalgorithmus der zweiten Erkennungseinheit ein Erkennungsalgorithmus sein, der genauer als der der ersten Erkennungseinheit ist, aber einen größeren Rechenaufwand erfordert.
Die erste Erkennungseinheit ist so konfiguriert, dass sie aus dem Bild eine Vielzahl von Kandidatenregionen erkennt, in denen die Existenz eines Zielobjekts geschätzt wird. Die Regionsintegrationseinheit ist so eingerichtet, dass sie eine oder mehrere integrierte Regionen auf der Grundlage der Mehrzahl an Kandidatenregionen bestimmt. Die Auswahleinheit wählt zumindest einen Teil der integrierten Regionen aus, die von der Regionsintegrationseinheit bestimmt werden. Die zweite Erkennungseinheit ist so konfiguriert, dass sie die Objekterfassung in der von der Auswahleinheit ausgewählten integrierten Region durchführt.
Bei einer solchen Konfiguration kann die Objekterfassung durch die zweite Erkennungseinheit nur auf integrierten Regionen durchgeführt werden, so dass eine Beschleunigung des Prozesses erreicht und die Erkennungsgenauigkeit des zweiten Detektors ebenfalls beibehalten werden kann. Da insbesondere die Anzahl der integrierten Regionen, die von der zweiten Erkennungseinheit verarbeitet werden sollen, durch die Auswahleinheit eingegrenzt wird, ist es möglich, eine Verringerung der Verarbeitungsgeschwindigkeit zu unterdrücken, selbst wenn eine große Anzahl von Zielobjekten in einem Bild enthalten ist und daher eine große Anzahl von integrierten Regionen bestimmt wird. Das heißt, dass mittels der Objekterfassungsvorrichtung der vorliegenden Erfindung eine schnelle und hochgenaue Objekterkennung erreicht werden kann.
Die Objekterfassungsvorrichtung gemäß dem vorliegenden Aspekt, die ferner eine zur Verfolgung eines Zielobjekts konfigurierte Verfolgungseinheit umfasst, kann vorzugsweise verwendet werden, wenn ein Zielobjekt aus einem bewegten Bild erkannt wird. Das heißt, die Objekterfassungsvorrichtung kann so konfiguriert werden, dass es mit Hilfe der Verfolgungseinheit ein Objekt oder eine Region verfolgt, das bzw. die durch das vorherige Einzelbild als Zielobjekt bestätigt wurde, und die Erfassung der anderen Regionen mit Hilfe der ersten Erkennungseinheit, der Regionsintegrationseinheit, der Auswahleinheit und der zweiten Erkennungseinheit durchführt. Hier schließt „ein Objekt (eine Region), das durch das vorherige Bild als Zielobjekt bestätigt wurde“ sowohl ein Objekt (eine Region) ein, das von der zweiten Erfassungseinheit in dem auf dem vorherigen Einzelbild durchgeführten Prozess als Zielobjekt erkannt wurde, als auch ein Objekt (eine Region), das von der Verfolgungseinheit erkannt wurde.
In diesem Fall kann die Verfolgungseinheit im aktuellen Einzelbild den Verfolgungsprozess für das Objekt durchführen, das im vorherigen Einzelbild als Zielobjekt bestätigt wurde. Die Auswahleinheit kann so konfiguriert werden, dass sie zumindest einen Teil der integrierten Regionen an anderen Positionen auswählt als eine Region, die im vorigen Einzelbild als Zielobjekt bestätigt wurde. Mit dieser Konfiguration kann die Gesichtserkennung durch die Verfolgungseinheit durchgeführt werden, selbst wenn die Anzahl der neu zu erkennenden Gesichter mit der zweiten Erkennungseinheit in jedem Einzelbild begrenzt ist. Selbst wenn eine große Anzahl von Zielobjekten in einem Bild vorhanden ist, erhöht sich daher die Anzahl der von der zweiten Erkennungseinheit als Zielobjekte erkannten Objekte, wenn sich die Zusammensetzung nicht ändert, und es wird erwartet, dass alle Zielobjekte von der Verfolgungseinheit in wenigen Einzelbild verfolgt werden. Da zudem die integrierten Regionen, die von der zweiten Erkennungseinheit in jedem Einzelbild verarbeitet werden sollen, begrenzt sind, kann verhindert werden, dass die Berechnungsmenge in jedem Einzelbild zu groß wird.
Das Auswahlkriterium der Auswahleinheit ist nicht besonders eingeschränkt, solange die Auswahleinheit so konfiguriert ist, dass sie eine vorgegebene oder geringere Anzahl integrierter Regionen auswählt. Beispielsweise kann die Auswahleinheit eine vorgegebene Anzahl integrierter Regionen mit einer Zuverlässigkeit gleich oder höher als ein Schwellenwert aus integrierten Regionen an anderen Positionen als der Region auswählen, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde. Die Zuverlässigkeit ist hier ein Wert, der sich auf die Wahrscheinlichkeit bezieht, dass ein Zielobjekt in der integrierten Region enthalten ist. Darüber hinaus kann die Auswahleinheit eine vorbestimmte Anzahl von integrierten Regionen mit größeren Abmessungen aus integrierten Regionen an anderen Positionen als der Region auswählen, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde. Zusätzlich zur Zuverlässigkeit und Größe kann ein Attribut eines Zielobjekts, das in der integrierten Region enthalten ist (z.B. Alter, Geschlecht und ähnliches, wenn es sich bei dem Objekt um eine Person handelt), berücksichtigt werden, oder es kann die Anzahl der Kandidatenregionen, die in die integrierte Region integriert wurden, berücksichtigt werden. Darüber hinaus können eine Vielzahl von Kriterien kombiniert und integrierte Regionen nach diesen Kriterien ausgewählt werden. Darüber hinaus kann in einem Fall, in dem die Erkennung durch die zweite Erkennungseinheit im vorhergehenden Einzelbild durchgeführt wurde, deren Zuverlässigkeit in Betracht gezogen werden. Beispielsweise kann die Auswahleinheit so konfiguriert werden, dass sie keine integrierte Region auswählt, dessen Zuverlässigkeit bei der Erkennung durch die zweite Erkennungseinheit im vorherigen Einzelbild gering ist oder dessen Auswahlpriorität im aktuellen Einzelbild niedriger ist. Die Auswahleinheit muss nicht immer eine „vorgegebene Anzahl“ von integrierten Regionen auswählen und kann nur integrierte Regionen auswählen, die die Bedingung erfüllen, wenn eine vorgegebene Anzahl von integrierten Regionen, die die Bedingung erfüllen, nicht vorhanden ist.
Im vorliegenden Aspekt kann die Auswahleinheit eine integrierte Region unter Berücksichtigung eines Detektionswertes durch die zweite Erkennungseinheit in einem vorherigen Einzelbild auswählen. Es kann eine Region geben, für den die erste Erkennungseinheit einen hohen Detektionswert (Zuverlässigkeit) berechnet hat, während die zweite Erkennungseinheit einen niedrigen Detektionswert berechnet hat. In einem solchen Fall kann durch die Auswahl unter Berücksichtigung des Detektionswertes durch die zweite Erkennungseinheit im vorherigen Einzelbild ermöglicht werden, zu verhindern, dass dieselbe integrierte Region ausgewählt wird. Es ist zu beachten, dass nicht nur der Detektionswert im letzten Einzelbild, sondern auch die Detektionswerte in früheren früheren Einzelbildern berücksichtigt werden können. In diesem Fall ist es vorzuziehen, die Detektionswerte durch eine zeitliche Gewichtung zu berücksichtigen. Die Auswahl kann durchgeführt werden, indem der Grad der Ähnlichkeit der Regionen zwischen den Einzelbildern weiter untersucht wird.
Im vorliegenden Aspekt kann die Auswahleinheit so konfiguriert werden, dass sie schließlich „zumindest einen Teil der integrierten Regionen an anderen Positionen als einer Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde“ auswählt. Eine Methode, um dies zu erreichen, besteht darin, zu verhindern, dass eine „integrierte Region an einer Position einer Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde“, in integrierte Regionen aufgenommen wird, die in die Auswahleinheit eingegeben werden. Eine anderes Verfahren besteht darin, dass die Auswahleinheit die „integrierte Region an einer Position einer Region, die im vorhergehenden Einzelbild als Zielobjekt bestätigt wurde“ von den eingegebenen integrierten Regionen ausschließt.
Um das zuvorgenannte Verfahren zu erreichen, kann die Objekterfassungsvorrichtung gemäß dem vorliegenden Aspekt ferner eine Vorverarbeitungseinheit enthalten, die so konfiguriert ist, dass sie eine Vorverarbeitung an einer Region in einem aktuellen Vollbild durchführt, der einer Region eines Objekts entspricht, das in einem früheren Einzelbild als Zielobjekt bestätigt wurde, und der Prozess bewirkt, dass die Region nicht als das Objekt erkannt wird. Als Beispiel für eine solche Vorverarbeitung ist es denkbar, die Region durch ein vorgegebenes Muster zu ersetzen (z.B. ein einziges farbgefülltes Muster). Als weiteres Beispiel ist auch ein Filterverfahren denkbar, doch sollte der Verarbeitungsaufwand so gering wie möglich gehalten werden. Durch die Durchführung einer solchen Vorverarbeitung wird ein Objekt von der ersten Erkennungseinheit nicht aus einer Region erkannt, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde, und somit enthalten integrierte Regionen, die in die Auswahleinheit eingegeben werden, nicht die oben beschriebene Region.
Um das letztgenannte Verfahren zu erreichen, kann die Objekterkennungseinrichtung gemäß dem vorliegenden Aspekt ferner eine Speichereinheit enthalten, die eine Position der Region speichert, die im vorhergehenden Einzelbild als Zielobjekt bestätigt wurde. Durch Bezugnahme auf eine solche Speichereinheit kann die Auswahleinheit integrierte Regionen an in der Speichereinheit gespeicherten Positionen vom Auswahlziel ausschließen.
Die spezifischen Prozessinhalte der Regionalintegrationseinheit sind nicht besonders begrenzt, solange die Regionalintegrationseinheit Kandidatenregionen integriert, die von der ersten Erkennungseinheit erkannt wurden. Die Regionsintegrationseinheit kann eine repräsentative Region aus Kandidatenregionen bestimmen und dann andere Regionen innerhalb einer vorgegebenen Entfernung von der repräsentativen Region mit der repräsentativen Region integrieren. Durch Verwendung des Detektionswerts oder der Regionsgröße als Kriterium bei der Bestimmung der repräsentativen Region kann die Wahrscheinlichkeit erhöht werden, dass ein Zielobjekt in der integrierten Region existiert. Durch Berücksichtigung des Ähnlichkeitsgrades der Regionsgrößen und des Ähnlichkeitsgrades der Attribute der Zielobjekte bei der Integration kann die Integration so durchgeführt werden, dass nur ein Zielobjekt in einer integrierten Region enthalten ist.
Die vorliegende Erfindung kann als eine Objekterfassungsvorrichtung angesehen werden, die zumindest einen Teil der oben beschriebenen Einheiten umfasst. Darüber hinaus kann die vorliegende Erfindung als ein Objekterfassungsverfahren betrachtet werden. Darüber hinaus kann die vorliegende Erfindung als ein Computerprogramm betrachtet werden, das einen Computer veranlasst, die Schritte des Objekterfassungsverfahrens auszuführen, und als ein computerlesbares Speichermedium, das das Programm nicht temporär speichert. Die oben beschriebenen Komponenten und Prozesse können miteinander kombiniert werden, um die vorliegende Erfindung zu konfigurieren, solange kein technischer Widerspruch auftritt.
WIRKUNG DER ERFINDUNG
Nach der vorliegenden Erfindung ist eine schnelle und hochgenaue Objekterkennung möglich, und die Erfindung kann selbst in einem Computer mit geringen Rechenressourcen genutzt werden.
Figurenliste

1 ist ein Blockdiagramm, das eine Konfiguration eines Anwendungsbeispiels der vorliegenden Erfindung veranschaulicht.
2 ist ein Diagramm, das eine Hardwarekonfiguration einer Gesichtserkennungsvorrichtung nach einer Ausführungsform einer Plattform zeigt.
3 ist ein Blockdiagramm, das eine Konfiguration einer Gesichtserkennungsvorrichtung entsprechend der ersten Ausführungsform zeigt.
Die 4A und 4B sind Ansichten zur Beschreibung eines Gesichtserkennungsprozesses durch einen ersten Detektor 112.
5A und 5B sind Ansichten zur Beschreibung eines Gesichtserkennungsprozesses durch den ersten Detektor 112.
6 ist ein Flussdiagramm, das den Ablauf eines Regionsintegrationsprozesses durch einen Regionsauswähler 114 veranschaulicht.
Die 7A und 7B sind Flussdiagramme, die ein Beispiel für die Bestimmung der integrierten Region im Regionsintegrationsprozess zeigen.
8 ist ein Diagramm zur Veranschaulichung eines Beispiels des Regionsintegrationsprozesses.
9 ist ein Flussdiagramm, das den Ablauf des Regionsauswahlprozesses durch den Regionsauswähler 114 veranschaulicht.
10 ist ein Flussdiagramm, das den Ablauf des Gesichtserkennungsprozesses durch die Gesichtserkennungsvorrichtung gemäß der ersten Ausführungsform darstellt.
Die 11 A bis 11D sind Diagramme, die den Gesichtserkennungsprozess veranschaulichen, den die Gesichtserkennungsvorrichtung gemäß der ersten Ausführungsform durchführt.
12 ist ein Blockdiagramm, das eine Konfiguration einer Gesichtserkennungsvorrichtung nach einer Modifikation der ersten Ausführungsform zeigt.
Die 13A und 13B sind Ansichten zur Beschreibung eines Beispiels einer Vorverarbeitung nach einer Modifikation der ersten Ausführungsform.

ART UND WEISE ZUR AUSFÜHRUNG DER ERFINDUNG
Anwendungsbeispiel
Ein Objekt, das von einer Objekterkennungsvorrichtung der vorliegenden Erfindung erkannt werden soll, kann jedes beliebige Objekt sein, aber ein Anwendungsbeispiel, das auf die Gesichtserkennung angewendet wird, soll hier beschrieben werden. Das folgende Erfassungsverfahren ist in einer Gesichtserkennungsvorrichtung mit einem ersten Gesichtsdetektor, der pseudo-Haar Merkmale (Haar-like features) und Adaboost verwendet, und einem zweiten Gesichtsdetektor, der tiefes Lernen verwendet, denkbar. Zunächst führt der erste Gesichtsdetektor eine Erfassung auf dem gesamten Eingangsbild durch, um eine Region zu bestimmen, in der wahrscheinlich ein Gesicht vorhanden ist (Gesichtskandidatenregion). Da der erste Gesichtsdetektor eine große Anzahl von Gesichtskandidatenregionen erkennt, wird eine Vielzahl von Regionen integriert, die demselben Gesicht entsprechen, und der zweite Gesichtsdetektor führt die Gesichtserkennung nur für die integrierte Region durch. Dadurch kann in kurzer Zeit eine hochpräzise Gesichtserkennung durch tiefes Lernen realisiert werden. Wenn das Eingangsbild jedoch eine große Anzahl von Personen enthält, ist die Anzahl der integrierten Regionen groß, so dass eine ausreichende Beschleunigung nicht erreicht werden kann.
1 ist ein Blockdiagramm, das eine Konfiguration einer Gesichtserkennungsvorrichtung 10 zeigt, auf die die vorliegende Erfindung angewendet wird. Die Gesichtserkennungsvorrichtung 10 umfasst einen ersten Detektor 12, eine Regionsintegrationseinheit 13, einen Regionsauswähler 14 und einen zweiten Detektor 15. Jede dieser Einheiten kann durch eine CPU, die ein Programm ausführt, oder durch eine dedizierte Logikschaltung wie einen ASIC implementiert werden.
Eine Bildeingabeeinheit 11 erfasst Bilddaten als Ziel für die Gesichtserkennung. Das Eingangsbild kann ein Standbild oder ein bewegtes Bild sein.
Der erste Detektor 12 führt die Gesichtserkennung mit einem relativ schnellen und belastungsarmen Algorithmus durch. Beispielsweise kann ein Algorithmus mit pseudo-Haar Merkmalen und Adaboost verwendet werden. Eine Region, in der ein Gesicht von einem ersten Detektor 112 als vorhanden eingeschätzt wird, wird im Folgenden als Gesichtskandidatenregion bezeichnet. Der erste Detektor 112 detektiert typischerweise eine Vielzahl von Gesichtskandidatenregionen um ein Gesicht herum. Der erste Detektor 112 ist ein Beispiel einer ersten Erkennungseinheit der vorliegenden Erfindung. Der erste Detektor 12 kann z.B. jedes beliebige Merkmal wie z.B. Histgram of Gradient (HoG)-Merkmal, Skaleninvariante-Merkmalstransformations-Merkmal (SIFT-Merkmal) und beschleunigtes, robustes Merkmal (SURF-Merkmal) als Merkmal verwenden. Darüber hinaus kann als Lernmethode jede beliebige Lernmethode wie z.B. eine andere Boost-Methode als Adaboost, eine Stützvektormaschine (Support Vector Machine (SVM)), ein neuronales Netz oder das Lernen mit Entscheidungsbäumen verwendet werden.
Eine Regionsintegrationseinheit 113 integriert Gesichtskandidatenregionen, die vom ersten Detektor 112 erkannt wurden. Da der erste Detektor 112, wie oben beschrieben, eine Vielzahl von Gesichtskandidatenregionen um eine Fläche herum detektiert, integriert die Regionsintegrationseinheit 113 eine Vielzahl von Gesichtskandidatenregionen, die schätzungsweise einem Gesicht entsprechen, um eine integrierte Region zu erzeugen. Die Regionsintegrationseinheit 113 ist ein Beispiel für die Regionsintegrationseinheit der vorliegenden Erfindung.
Ein Regionsauswähler 114 wählt aus den von der Regionsintegrationseinheit 113 bestimmten integrierten Regionen eine integrierte Region als Ziel des Prozesses ds zweiten Detektors 115 aus. Für die Anzahl der integrierten Regionen, die vom Regionsauswähler 114 ausgewählt werden, kann eine Obergrenze festgelegt werden. Anhand eines vorgegebenen Kriteriums wählt der Regionsauswähler 114 eine vorgegebene (oder geringere) Anzahl integrierter Regionen mit einem höheren Grad der Erfüllung des Kriteriums aus. Als vorbestimmtes Kriterium kann ein Detektionswert (Zuverlässigkeit) der Erfassung durch den ersten Detektor 112, die Größe der integrierten Region, die Attribute (Alter, Geschlecht und dergleichen) des Gesichts (der Person), die in der integrierten Region enthalten sind, und dergleichen verwendet werden. Der Regionsauswähler 114 ist ein Beispiel einer ersten Auswahleinheit der vorliegenden Erfindung.
Ein zweiter Detektor 115 führt die Gesichtserkennung mit einem relativ hochgenauen, aber langsamen Algorithmus durch. Zum Beispiel kann ein Algorithmus mit tiefem Lernen wie ein faltendes neuronales Netzwerk (Convolutional Neural Network (CNN)) verwendet werden. Die Gesichtserkennung wird auf einer integrierten Region durchgeführt, die durch den zweiten Detektor 115 und den Regionsauswähler 114 ausgewählt wird. Der zweite Detektor 115 ist ein Beispiel einer zweiten Erkennungseinheit der vorliegenden Erfindung. Der Algorithmus des zweiten Detektors 15 ist nicht auf ein faltendes neuronales Netzwerk (Convolutional Neural Network (CNN)) beschränkt, sondern es können alle Verfahren wie Rekurrente neuronale Netze (Recurrent Neural Network (RNN)), Stacked Auto Encoder (SAE) und Deep Belief Network (DBN) verwendet werden.
Gemäß der oben beschriebenen Konfiguration der Gesichtserkennungsvorrichtung 10 ist die Anzahl der integrierten Regionen, die Ziele der Erfassung durch den zweiten Detektor 15 sein sollen, begrenzt. So ist selbst bei einer großen Anzahl von Gesichtern in einem Eingangsbild eine schnelle und hochgenaue Gesichtserkennung möglich.
Die Gesichtserkennungsvorrichtung 10 hat eine Beschränkung, dass die maximale Anzahl von Gesichtern, die von einem Bild (Einzelbild) erkannt werden können, eine vorgegebene Anzahl ist, aber durch Anwendung eines Gesichtsverfolgungsprozesses auf ein bewegtes Bild in Kombination können alle Gesichter in einem bewegten Bild erkannt werden. Das heißt, die Gesichtserkennungsvorrichtung 10 verfolgt ein bereits erkanntes Gesicht durch den Gesichtsverfolgungsprozess und erkennt ein neues Gesicht durch den ersten Detektor 12 und den zweiten Detektor 15. So wird in jedem Einzelbild durch den zweiten Detektor 15 ein neues Gesicht erfasst und das Gesicht als Verfolgungsziel des Gesichtsverfolgungsprozesses verwendet, und schließlich werden alle Gesichter in einem Bild als Verfolgungsziele des Gesichtsverfolgungsprozesses verwendet, wobei der Berechnungsbetrag in jedem Einzelbild unterdrückt wird. Da es sich bei der Gesichtsverfolgung um einen Prozess mit geringer Belastung und ausreichender Genauigkeit handelt, kann eine solche Konfiguration alle Gesichter in einem bewegten Bild mit hoher Genauigkeit erkennen und gleichzeitig eine Verringerung der Verarbeitungsgeschwindigkeit minimieren.
Erste Ausführungsform
Eine im Folgenden beschriebene Ausführungsform bezieht sich auf eine Gesichtserkennungsvorrichtung (Objekterkennungsvorrichtung), die an einem mobilen Informationsterminal wie einem Smartphone angebracht ist und die ein Gesicht aus einem bewegten Bild erkennt. Dies ist jedoch nur ein Beispiel, und ein Objekt, das aus einem Bild erkannt wird, muss kein Gesicht sein und kann jedes beliebige Objekt sein. Ferner kann die Gesichtserkennungsvorrichtung (Objekterkennungsvorrichtung) zusätzlich zum mobilen Informationsterminal auf jedem beliebigen Informationsverarbeitungsgerät (Computer) montiert werden.
Die Gesichtserkennungsvorrichtung wird je nach Ausführungsform z.B. für Anwendungen wie Autofokus (AF), Personenzählung, Überwachung von Fahrzeugführern (Fahrerüberwachung) und Personenerkennung mit einer Sicherheitskamera, die an einem Ort installiert ist, an dem sich eine große Anzahl von Personen aufhält, verwendet.
Konfiguration
2 ist ein Diagramm, das eine Hardwarekonfiguration einer Gesichtserkennungsvorrichtung 100 entsprechend der Ausführungsform darstellt. Die Gesichtserkennungsvorrichtung 100 umfasst eine Bildeingabeeinheit 101, ein Rechengerät 102, ein Speichergerät 103, ein Kommunikationsgerät 104, ein Eingabegerät 105 und ein Ausgabegerät 106. Die Bildeingabeeinheit 101 ist eine Schnittstelle, die Bilddaten von einer Kamera 110 empfängt. Obwohl die Bilddaten direkt von der Kamera 110 in der Ausführungsform empfangen werden, können Bilddaten über das Kommunikationsgerät 104 oder über ein Aufzeichnungsmedium empfangen werden. Die Recheneinheit 102 ist ein Allzweckprozessor, wie z.B. eine zentrale Recheneinheit (CPU), und führt ein in der Speichereinheit 103 gespeichertes Programm aus, um nachfolgend zu beschreibende Prozesse auszuführen. Die Speichervorrichtung 103 umfasst eine Hauptspeichervorrichtung und eine Hilfsspeichervorrichtung, speichert ein von der Recheneinheit 102 ausgeführtes Programm und speichert Bilddaten und temporäre Daten während der Programmausführung. Das Kommunikationsgerät 104 ist eine Vorrichtung für die Gesichtserkennungsvorrichtung 100 zur Kommunikation mit einem externen Computer. Der Kommunikationsmodus kann drahtgebunden oder drahtlos sein und jedem Kommunikationsstandard entsprechen. Das Eingabegerät 105 umfasst einen Touchscreen, eine Taste, eine Tastatur oder ähnliches und ist ein Gerät, mit dem der Benutzer eine Anweisung in die Gesichtserkennungsvorrichtung eingeben kann. Das Ausgabegerät 106 enthält ein Anzeigegerät, einen Lautsprecher oder ähnliches und ist eine Vorrichtung für die Gesichtserkennungsvorrichtung, um eine Ausgabe an einen Benutzer durchzuführen.
Funktion und Prozess der Gesichtserkennungsvorrichtung
Die Recheneinheit 102 führt ein Programm aus, um einen Prozess für jede der in 3 dargestellten Einheiten durchzuführen. Das heißt, die Recheneinheit 102 führt Prozesse durch, die von einer Bildeingabeeinheit 111, dem ersten Detektor 112, der Regionsintegrationseinheit 113, dem Regionsauswähler 114, dem zweiten Detektor 115, einer Gesichtsverfolgungseinheit 116 und einer Ergebnisausgabeeinheit 117 durchgeführt werden. Der Prozessinhalt jeder Einheit wird im Folgenden beschrieben.
Bildeingabeeinheit 111
Die Bildeingabeeinheit 111 erfasst Bilddaten als Ziel für die Gesichtserkennung. In dieser Ausführungsform wird als Eingangsbild ein bewegtes Bild angenommen, aber das Eingangsbild kann ein Standbild sein. Das Eingangsbild kann von der Kamera 20 über die Bildeingabeeinheit 101, von einem anderen Computer über das Kommunikationsgerät 104 oder von einem Speichermedium über das Speichergerät 103 erfasst werden.
Erster Detektor 112
Der erste Detektor 112 detektiert aus einem Eingangsbild eine Gesichtskandidatenregion (Region, in der die Existenz eines Gesichts geschätzt wird). Der erste Detektor 112 ist so konfiguriert, dass er in der Lage ist, Gesichter unterschiedlicher Größe und in verschiedenen Richtungen aus einem Eingangsbild zu erkennen. Der erste Detektor 112 schätzt auch den Sicherheitsfaktor/die Gesichtsrichtung bei der Erfassung. Der erste Detektor 112 kann Attribute wie Geschlecht, Alter und Rasse abschätzen, eine Gesichtsauthentifizierung durchführen und die Ergebnisse dieser Prozesse in späteren Prozessen verwenden.
In der Ausführungsform ist der erste Detektor 112 so konfiguriert, dass er pseudo-Haar Merkmale als Bildmerkmale und AdaBoost als Lernalgorithmus verwendet. Im Folgenden wird der erste Detektor 112 in der Verkörperung unter Bezugnahme auf die 4A und 4B beschrieben.
Wie in 4A dargestellt, schneidet der erste Detektor 112 zur Erfassung von Gesichtern unterschiedlicher Größe aus den verkleinerten Bildern 301 bis 303, die durch Verkleinerung eines Eingangsbildes um mehrere Vergrößerungen aufgenommen wurden, jeweils eine rechteckige Region 310 mit einer vorgegebenen Größe aus und unterscheidet mit Hilfe eines Diskriminators 320, ob ein Gesicht in den Regionen enthalten ist. Durch Scannen der rechteckigen Region 310 in jedem der verkleinerten Bilder 301 bis 303 können in den Bildern enthaltene Gesichter unterschiedlicher Größe erkannt werden. Obwohl in der Ausführungsform rechteckige Regionen ausgeschnitten werden, kann die ausgeschnittene Region zusätzlich zu einem Rechteck eine beliebig geformte Region sein.
Wie in 4B dargestellt, unterscheidet der Diskriminator 320, ob es sich bei einem durch die rechteckige Region 310 ausgeschnittenen übereinstimmenden Muster um ein Gesicht handelt. Der Diskriminator 320 extrahiert ein Merkmal (pseudo-Haar Merkmal) auf der Grundlage der Hell-Dunkel-Beziehung aus jeder einer Vielzahl von lokalen Regionen im übereinstimmenden Muster. Der Diskriminator 320 hat eine Vielzahl von schwachen Diskriminatoren, und jeder schwache Diskriminator unterscheidet, ob es sich bei dem übereinstimmenden Muster um ein Gesicht handelt, das auf einer kleinen Anzahl von Merkmalen beruht. Obwohl die schwachen Diskriminatoren jeweils eine geringe Diskriminierungsleistung aufweisen, ist es möglich, durch Kombination der Pluralität der schwachen Diskriminatoren mit hoher Genauigkeit zu unterscheiden, ob es sich um ein Gesicht handelt. Der Diskriminator 320 gibt als Ausgabewert die Wahrscheinlichkeit (Zuverlässigkeit) aus, dass das übereinstimmende Muster ein Gesichtsmuster ist. Daher wird eine Region mit einer Zuverlässigkeit, die gleich oder höher als ein vorher festgelegter Schwellenwert ist, als eine Region behandelt, die als Gesichtskandidatenregion in Frage kommt.
Ein spezifisches Beispiel für den Gesichtserkennungsprozess durch den ersten Detektor 112 in Schritt S2 wird unter Bezugnahme der 4A und 4B beschrieben. 5A veranschaulicht ein Eingangsabbild 400. Die Personen 401 und 402 befinden sich im Eingangsbild 400. Wenn der Gesichtserkennungsprozess auf dem Eingangsbild 400 durch den ersten Detektor 112 durchgeführt wird, wird eine Vielzahl von Gesichtskandidatenregionen um die Gesichter der Personen 401 und 402 herum erkannt. Das liegt daran, dass um ein Gesicht herum die übereinstimmenden Muster als Gesichter bestimmt werden, auch wenn die Positionen oder Größen der übereinstimmenden Muster leicht voneinander abweichen.
5B zeigt ein beispielhaftes Erkennungsergebnis für das Eingangsbild 400. Drei Gesichtskandidatenregionen 411, 412 und 413 werden um das Gesicht der Person 401 herum erkannt, und drei Gesichtskandidatenregionen 414, 415 und 416 werden um das Gesicht der Person 402 herum erkannt. Darüber hinaus wird eine Gesichtskandidatenregion 417 auch aus einer Region erkannt, in der tatsächlich kein Gesicht existiert. Dies wird verursacht, wenn das Hintergrundmuster zufällig einem Gesicht ähnelt.
Regionsintegrationseinheit 113
Die Regionsintegrationseinheit 113 integriert eine Vielzahl von Kandidatenregionen, die vom ersten Detektor 112 detektiert wurden. Die Regionsintegrationseinheit 113 teilt die Vielzahl der Kandidatenregionen in Gruppen ein und bestimmt aus den Kandidatenregionen jeder Gruppe eine integrierte Region. 6 ist ein Flussdiagramm, das Einzelheiten eines Integrierte-Region-Bestimmungsprozesses durch die Regionsintegrationseinheit 113 veranschaulicht. Im Folgenden wird eine Beschreibung gemäß dem Flussdiagramm in 6 gegeben.
In Schritt S31 wählt die Regionsintegrationseinheit 113 aus der Vielzahl der in Schritt S2 ermittelten Kandidatenregionen diejenige als repräsentative Region aus, die die höchste Zuverlässigkeit aufweist. Die repräsentative Region muss nicht nur auf der Grundlage der Zuverlässigkeit bestimmt werden, sondern kann auch unter Berücksichtigung anderer Informationen wie der Größe der Region und der Blickrichtung bestimmt werden. Wenn die Größe der Region in Betracht gezogen wird, kann eine Region mit einer größeren Größe oder eine Region mit einer Größe nahe einer vorbestimmten Größe priorisiert werden. Eine repräsentative Region kann auf der Grundlage der Größe der Region oder anderer Informationen bestimmt werden, ohne die Zuverlässigkeit zu nutzen.
Eine Prozessschleife L1 der Schritte S32 bis S34 wird an der Mehrzahl der erkannten Kandidatenregionen mit Ausnahme der repräsentativen Region durchgeführt. Hier wird eine Kandidatenregion, die ein Prozessziel in der Schleife L1 sein soll, als eine Kandidatenregion von Interesse bezeichnet.
In Schritt S32 berechnet die Regionsintegrationseinheit 113 einen Verhältniswert zwischen der repräsentativen Region und der Kandidatenregion von Interesse. Der Verhältniswert ist ein Wert, der die Wahrscheinlichkeit angibt, dass die repräsentative Region und die Kandidatenregion von Interesse Regionen mit dem gleichen Gesicht sind. Der Verhältniswert kann auf der Grundlage des Abstands zwischen den Regionen (z.B. dem Abstand zwischen den Zentren der Regionen) und der Größe der Kandidatenregion berechnet werden. Je näher die Regionen beieinander liegen, desto größer wird beispielsweise der Verhältniswert berechnet. Je kleiner der Unterschied zwischen den Größen der Regionen ist, desto größer wird der Verhältniswert berechnet.
Der Abstand zwischen den Regionen und der Grad der Ähnlichkeit der Regionsgrößen können als Beispiele für den Grad der Ähnlichkeit der Detektionsergebnisse des ersten Detektors 112 angesehen werden. Der Verhältniswert kann auf der Grundlage des Ähnlichkeitsgrads anderer Elemente des Detektionsergebnisses durch den ersten Detektor 112 bestimmt werden. Beispielsweise kann der Verhältniswert auf der Grundlage des Ähnlichkeitsgrads der erkannten Gesichtsrichtung und des Ähnlichkeitsgrads der erkannten Gesichtsattribute (z. B. Alter, Geschlecht, Rasse und Gesichtsausdruck) berechnet werden. Wenn der Verhältniswert unter Berücksichtigung einer Vielzahl von Elementen bestimmt wird, kann eine Funktion verwendet werden, die die Vielzahl von Elementen als Variablen enthält. Der Verhältniswert kann einfach durch den Durchschnitt oder den gewichteten Durchschnitt des Ähnlichkeitsgrads der Elemente bestimmt werden. Die Gewichte im gewichteten Durchschnitt können in geeigneter Weise bestimmt werden.
In Schritt S33 bestimmt die Regionsintegrationseinheit 113, ob der Verhältniswert der Kandidatenregion von Interesse gleich oder größer als ein Schwellenwert T1 ist. Wenn der Verhältniswert gleich oder höher als der Schwellenwert T1 (S33-JA) ist, bestimmt die Regionsintegrationseinheit 113 in Schritt S34, dass die Kandidatenregion von Interesse eine verwandte Region der repräsentativen Region ist. Das heißt, die Kandidatenregion von Interesse wird in derselben Gruppe zusammengefasst wie die repräsentative Region.
Durch Ausführen der obigen Schritte S32 bis S34 für alle Kandidatenregionen können Kandidatenregionen bestimmt werden, die mit der repräsentativen Region in Beziehung stehen.
Beachten Sie, dass hier Kandidatenregionen, deren Verhältniswerte gleich oder höher als der Schwellenwert T1 sind, als verwandte Regionen bestimmt werden, wobei jedoch eine vorbestimmte Anzahl von Kandidatenregionen mit dem höchsten Verhältniswert als verwandte Regionen bestimmt werden können. Alternativ kann unter den Kandidatenregionen, deren Verhältniswerte gleich oder höher als der Schwellenwert T1 sind, eine vorbestimmte Anzahl von Kandidatenregionen mit höheren Verhältniswerten als verwandte Regionen bestimmt werden.
In Schritt S35 integriert die Regionsintegrationseinheit 113 die repräsentative Region und die mit ihr verbundenen Regionen, um eine integrierte Region zu bestimmen. Das Verfahren zur Bestimmung der integrierten Region ist nicht besonders begrenzt. Hier werden zwei Verfahren zur Bestimmung von integrierten Regionen unter Bezugnahme auf die 7A und 7B beschrieben.
Zum Beispiel kann, wie in 7A dargestellt, im Prozess zur Bestimmung von integrierten Regionen S35 die repräsentative Region selbst als integrierte Region bestimmt werden (Schritt S351). Alternativ kann, wie in 7B dargestellt, der Prozess zur Bestimmung von integrierten Regionen S35 die folgenden Schritte umfassen. Zunächst werden verwandte Regionen, die zur gleichen Gruppe wie die repräsentative Region gehören, erworben (S352). Als nächstes wird der Durchschnittswert jedes Parameters zur Bestimmung der Region für die repräsentative Region und die zugehörigen Regionen berechnet (Schritt S353). Schließlich wird eine Region mit dem berechneten Durchschnittswert als Parameter als integrierte Region bestimmt (S354). Beispiele für den Parameter sind ein Durchschnittswert der Zentren der Regionen und ein Durchschnittswert der Regionsgrößen. Weitere Beispiele für diesen Parameter sind Zuverlässigkeit, Gesichtsrichtung, Alter, Geschlecht, Rasse, Gesichtsausdruck und ähnliches.
In Schritt S36 wird bestimmt, ob es noch eine Kandidatenregion mit einer Zuverlässigkeit gibt, die gleich oder größer als ein Schwellenwert T2 ist. Insbesondere wird bestimmt, ob es eine Kandidatenregion mit einer Zuverlässigkeit gibt, die gleich oder größer als der Schwellenwert T2 unter den Kandidatenregionen ist, außer den Regionen, die als die repräsentative Region bestimmt wurden, oder den verwandten Regionen unter den Kandidatenregionen, die vom ersten Detektor 112 erkannt wurden. Wenn es eine Kandidatenregion mit einer Zuverlässigkeit gibt, die gleich oder höher als ein Schwellenwert G2 ist, kehren die Prozesse zu Schritt S31 zurück und die oben beschriebenen Prozesse werden wiederholt. Zu diesem Zeitpunkt werden die Regionen, die als repräsentative Region bestimmt wurden, und die damit verbundenen Regionen vom Prozessziel ausgeschlossen, und dann werden die Prozesse der Schritte S31 bis S35 durchgeführt.
8 ist ein Diagramm, das ein Prozessbeispiel veranschaulicht, bei dem der oben beschriebene Integrationsprozess an dem in 5B dargestellten Erkennungsergebnis durchgeführt wird. Unter den Kandidatenregionen 411 bis 417 werden beispielsweise die Kandidatenregionen 411, 415 und 417 als repräsentative Regionen bestimmt. Dann werden eine integrierte Region 421, die aus den Kandidatenregionen 411 bis 413 gebildet wird, eine integrierte Region 422, die aus den Kandidatenregionen 414 bis 416 gebildet wird, und eine integrierte Region 423, die nur aus der Kandidatenregion 417 gebildet wird, bestimmt.
Regionsauswähler 114
Der Regionsauswähler 114 wählt eine integrierte Region als Ziel der Gesichtserkennung durch den zweiten Detektor 115 aus der Vielzahl der integrierten Regionen aus, die sich aus der Integration durch die Regionsintegrationseinheit 113 ergeben haben. Der Regionsauswähler 114 wählt eine integrierte Region nach folgendem Kriterium aus.

(1) Wählen Sie keine integrierte Region an einer Position, die im vorherigen Einzelbild als Gesicht bestimmt wurde
(2) Auswahl einer vorgegebenen Anzahl von integrierten Regionen mit höheren Bewertungswerten unter den integrierten Regionen, die nicht unter (1) definiert sind.

Ein Regionsauswahlprozess mit dem Regionsauswähler 114 wird anhand des Flussdiagramms in 9 beschrieben.
In Schritt S91 erfasst der Regionsauswähler 114 die Position einer Gesichtsregion, die im vorherigen Bild erkannt wurde. Das endgültige Gesichtserkennungsergebnis in jedem Bild wird durch den zweiten Detektor 115 oder die Gesichtsverfolgungseinheit 116 erfasst, und Informationen wie Position, Größe, Zuverlässigkeit, Attribut der erkannten Gesichtsregion werden im Detektionsergebnisspeicher 118 gespeichert. Der Regionsauswähler 114 kann die Position der im vorherigen Bild erkannten Gesichtsregion anhand des Detektionsergebnisspeichers 118 erfassen.
In Schritt S92 vergleicht der Regionsauswähler 114 die Position der integrierten Region im aktuellen Einzelbild mit der Position der Gesichtsregion im vorherigen Einzelbild, um die integrierte Region an der Position, die als das Gesicht im vorherigen Einzelbild bestimmt wurde, von den Auswahlzielen auszuschließen. Darüber hinaus können nicht nur die Position, sondern auch die Größe der Region, der Grad der Ähnlichkeit der Bilder in der Region und Ähnliches berücksichtigt werden, um festzustellen, ob die integrierte Region des aktuellen Einzelbilds mit der Gesichtsregion des vorherigen Einzelbilds übereinstimmt.
In Schritt S93 berechnet der Regionsauswähler 114 die Bewertungswerte für die nach Schritt S92 verbleibenden integrierten Regionen. Der Bewertungswert der integrierten Region ist ein Wert, der umso höher berechnet wird, je höher die Wahrscheinlichkeit ist, dass eine Fläche in der integrierten Region enthalten ist. Als Beispiel für den Bewertungswert kann die Zuverlässigkeit der integrierten Region herangezogen werden. Die Zuverlässigkeit der integrierten Region kann auf der Grundlage der Zuverlässigkeit (Detektionswert) des ersten Detektors 112 für jede der Gesichtskandidatenregionen, die eine integrierte Region bilden, bestimmt werden. Zum Beispiel kann der Mittelwert der Zuverlässigkeiten des ersten Detektors 112 als Zuverlässigkeit der integrierten Region verwendet werden. Darüber hinaus kann die Größe der integrierten Region als Bewertungswert der integrierten Region verwendet werden, und der Bewertungswert kann höher angesetzt werden, wenn die Größe größer ist. Denn es wird davon ausgegangen, dass die Wahrscheinlichkeit, dass das Gesicht eingeschlossen wird, umso größer ist, je größer die Region ist. Die Richtung des Zielobjekts in der integrierten Region kann als Bewertungswert der integrierten Region verwendet werden. Obwohl es möglich ist, in geeigneter Weise festzulegen, in welche Richtung die Bewertung höher vorgenommen werden soll, ist es denkbar, dass der Bewertungswert am höchsten ist, wenn das Zielobjekt nach vorne zeigt, gefolgt von diagonal, seitlich und rückwärts in dieser Reihenfolge. Der Bewertungswert kann unter Berücksichtigung einer Vielzahl von Elementen bestimmt werden. Beispielsweise kann der Bewertungswert aus einem Durchschnitt (einfacher Durchschnitt oder gewichteter Durchschnitt) des ersten Bewertungswerts auf der Grundlage der Zuverlässigkeit und des zweiten Bewertungswerts auf der Grundlage der Größe der Region bestimmt werden. Außerdem kann der Bewertungswert unter Berücksichtigung der Detektionszuverlässigkeit des zweiten Detektors 115 bestimmt werden, wenn der Detektionsprozess durch den zweiten Detektor 115 im vorhergehenden Einzelbild durchgeführt wurde.
In Schritt S94 wählt der Regionsauswähler 114 eine vorgegebene Anzahl von integrierten Regionen mit höheren Bewertungswerten aus. Die vorgegebene Anzahl wird als ein Wert festgelegt, so dass der Gesichtserkennungsprozess innerhalb einer Einzelbildperiode abgeschlossen wird. Daher ist die vorgegebene Anzahl ein Parameter, der entsprechend der Menge der Berechnungsressource der Gesichtserkennungsvorrichtung 100 zu bestimmen ist. Darüber hinaus kann als Bedingung für die Auswahl der integrierten Region eine Bedingung hinzugefügt werden, dass der Bewertungswert gleich oder höher als der Schwellenwert ist. Auf diese Weise kann verhindert werden, dass eine Region, in der die Wahrscheinlichkeit, dass ein Gesicht existiert, gering ist, ein Prozessziel des zweiten Detektors 115 ist. Der Schwellenwert ist hier ein Wert, der so definiert ist, dass, wenn der Bewertungswert einer integrierten Region darunter liegt, davon ausgegangen werden kann, dass ein Gesicht nicht in der integrierten Region enthalten ist.
Zweiter Detektor 115
Der zweite Detektor 115 bestimmt, ob eine Fläche in jeder der integrierten Regionen enthalten ist, die mit dem Regionsauswähler 114 ausgewählt wurden. Der zweite Detektor 115 ist ein Diskriminator, der mit Hilfe eines mehrschichtigen neuronalen Netzes gelernt hat, das als faltendes neuronales Netzwerk (Convolutional Neural Network (CNN)) bezeichnet wird. Durch heterogenes Lernen ist es möglich, nicht nur zwischen Gesicht und Nicht-Gesicht zu unterscheiden, sondern auch eine Vielzahl von Aufgaben wie Gesichtsrichtung, Alter, Geschlecht, Rasse und Gesichtsausdruck zu unterscheiden. Auch der zweite Detektor 115 der Ausführungsform setzt diese Diskriminierungsaufgaben um.
Informationen über die Region, die vom zweiten Detektor 115 als Gesicht erkannt wurde, werden im Detektionsergebnisspeicher 118 gespeichert. Beachten Sie, dass Informationen über die integrierte Region, die vom zweiten Detektor 115 als kein Gesicht erkannt wurde, auch im Detektionsergebnisspeicher 118 gespeichert werden können.
Gesichtsverfolgungseinheit 116
Die Gesichtsverfolgungseinheit 116 erkennt im aktuellen Einzelbild ein Gesicht, das im vorherigen Einzelbild erkannt wurde. Der von der Gesichtsverfolgungseinheit 116 durchgeführte Verfolgungsprozess kann jeden bekannten Verfolgungsalgorithmus verwenden. Die Gesichtsverfolgungseinheit 116 erkennt das Gesicht nur aus einer Region um die im vorherigen Einzelbild erkannte Gesichtsregion. Da der Verfolgungsprozess auf diese Weise durchgeführt wird, kann er schnell durchgeführt werden. Informationen über die Gesichtsregion, die von der Gesichtsverfolgungseinheit 116 erfasst wird, werden im Detektionsergebnisspeicher 118 gespeichert.
Ergebnisausgabeeinheit 117
Die Ergebnisausgabeeinheit 117 gibt das Detektionsergebnis der Gesichtsregionen aus, die vom zweiten Detektor 115 und der Gesichtsverfolgungseinheit 116 erkannt wurden. Die Ergebnisausgabeeinheit 117 gibt Ergebnisinformationen aus, die anzeigen, dass ein Gesicht in der integrierten Region erkannt wurde, für das die Zuverlässigkeit des Erkennungsergebnisses gleich oder größer als der Schwellenwert ist. Eine integrierte Region, für die die Zuverlässigkeit unter dem Schwellenwert liegt, muss nicht in die Ergebnisinformation aufgenommen werden. Es ist vorzuziehen, dass die Informationen über das Detektionsergebnis mindestens eine Gesichtsregion und zusätzlich eine oder mehrere der folgenden Angaben enthalten: Zuverlässigkeit, Gesichtsrichtung, Alter, Geschlecht, Rasse, Gesichtsausdruck und Ähnliches.
Die Ergebnisausgabeeinheit 117 kann die Erkennungsergebnisinformationen in beliebiger Form ausgeben. Beispielsweise kann die Ergebnisausgabeeinheit 117 die Erkennungsergebnisinformationen auf einem Bildschirm anzeigen, in einem Speichergerät speichern, andere Module oder andere Geräte benachrichtigen oder die Erkennungsergebnisinformationen in einer Vielzahl dieser Formen ausgeben.
Detektionsergebnisspeicher 118
Der Detektionsergebnisspeicher 118 speichert Informationen wie Position, Größe, Attribut u.ä. der Gesichtsregion, der vom zweiten Detektor 115 und der Gesichtsverfolgungseinheit 116 detektiert wurde. Darüber hinaus kann der Detektionsergebnisspeicher 118 auch die Zuverlässigkeit (Detektionswert) der Gesichtsdetektion für jede der integrierten Regionen speichern, die dem Detektionsprozess durch den zweiten Detektor 115 unterzogen wurden, einschließlich der integrierten Region, für die festgestellt wurde, dass sie kein Gesicht enthält.
Prozessablauf
Der Gesichtserkennungsprozess in der Ausführungsform wird mit Bezug auf das Flussdiagramm in 10 beschrieben. Es ist zu beachten, dass dieses Flussdiagramm den Gesichtserkennungsprozess in der Ausführungsform konzeptionell beschreibt und der Prozess nicht wie in Bezug auf das Flussdiagramm in der Ausführungsform beschrieben implementiert werden muss.
In Schritt S1001 wird ein zu behandelndes Einzelbild aus den von der Bildeingabeeinheit 111 erfassten Bewegtbilddaten erfasst. Beachten Sie, dass es nicht notwendig ist, alle Einzelbilder des bewegten Bildes als Ziele des Gesichtserkennungsprozesses zu verwenden, und der Gesichtserkennungsprozess kann alle paar Einzelbilder durchgeführt werden. Im Folgenden wird das in Schritt S1001 aufgenommene Einzelbild als aktuelles Einzelbild bezeichnet. Das Einzelbild, das bis dahin ein Prozessziel war, wird als vorheriges Einzelbild bezeichnet.
Als nächstes wird in Schritt S1002 das Erkennungsergebnis für das vorherige Einzelbild erfasst, und die Region, die im vorherigen Einzelbild als Gesichtsregion erkannt wurde, wird erfasst. Im aktuellen Einzelbild wird die Gesichtserkennung durch die Prozesse der Schritte S1003 bis S1006 an Regionen durchgeführt, die im vorherigen Einzelbild nicht als Gesichtsregion bestimmt wurden. Auf der anderen Seite wird bei Regionen, die im vorherigen Einzelbild als Gesichtsregionen bestimmt wurden, die Gesichtsverfolgung in Schritt S1007 durchgeführt.
Mit Bezug auf das Flussdiagramm in 10 wird beschrieben, dass die Prozesse der Schritte S1003 bis S1006 auf Regionen durchgeführt werden, die im vorherigen Einzelbild nicht als Gesichtsregion bestimmt wurden, aber Gesichtsregionen, die im vorherigen Einzelbild detektiert wurden, können den Prozessen der Schritte S1003 bis S1005 unterzogen werden, solange sie nicht zu Prozesszielen des zweiten Detektionsprozesses von Schritt S1006 werden. In Schritt S1003 führt der erste Detektor 112 in Schritt S1003 einen Gesichtserkennungsprozess für das gesamte aktuelle Einzelbild durch, wobei ein Algorithmus mit relativ geringer Belastung verwendet wird, der pseudo-Haar Merkmale und Adaboost verwendet. Der Gesichtserkennungsprozess durch den ersten Detektor 112 ist wie in den 4 und 5 beschrieben.
Da der erste Detektor 112 wie oben beschrieben eine Vielzahl von Gesichtskandidatenregionen um ein Gesicht herum detektiert, integriert die Regionsintegrationseinheit 113 eine Vielzahl von Gesichtskandidatenregionen, die schätzungsweise einem Gesicht entsprechen, um in Schritt S1004 eine integrierte Region zu erzeugen. Der Regionsintegrationsprozess verläuft wie in den 6 und 7 beschrieben.
In Schritt S1005 wählt der Regionsauswähler 114 einen Teil aus der integrierten Region aus, die aus der Integration in Schritt S1005 hervorgegangen ist. Wie oben beschrieben, schließt der Regionsauswähler 114 die integrierte Region an der Position aus, die im vorherigen Einzelbild als Gesicht bestimmt wurde, und wählt eine vorbestimmte Anzahl von integrierten Regionen mit höheren Bewertungswerten aus. In der Ausführungsform, im Regionsauswahlprozess, werden integrierte Regionen, die den im vorherigen Einzelbild detektierten Gesichtsregionen entsprechen, ausgeschlossen, so dass andere Regionen als die im vorherigen Einzelbild detektierten Gesichtsregionen dem Prozess durch den zweiten Detektor 115 unterzogen werden.
In Schritt S1006 führt der zweite Detektor 115 den Gesichtserkennungsprozess unter Verwendung des Algorithmus für tiefes Lernen an integrierten Regionen durch, die in Schritt S1005 ausgewählt wurden. Das Detektionsergebnis des zweiten Detektors 115 wird im Detektionsergebnisspeicher 118 gespeichert.
In Schritt S1007 führt die Gesichtsverfolgungseinheit 116 den Verfolgungsprozess der im vorherigen Einzelbild erkannten Gesichter durch und erkennt die Positionen im aktuellen Einzelbild. Die Gesichtsverfolgungseinheit 116 speichert das Ergebnis des Verfolgungsprozesses im Detektionsergebnisspeicher 118.
Das Ergebnis der Addition des Detektionsergebnisses des zweiten Detektors 115 und des Verfolgungsergebnisses der Gesichtsverfolgungseinheit 116 ist das Ergebnis der Gesichtserkennung im aktuellen Einzelbild. In Schritt S1008 wird nach Abschluss sowohl des Erkennungsprozesses durch den zweiten Detektor 115 als auch des Verfolgungsprozesses durch die Gesichtsverfolgungseinheit 116 das Erkennungsergebnis für das aktuelle Einzelbild bestätigt.
In Schritt S1009 gibt die Ergebnisausgabeeinheit 117 ein Detektionsergebnis aus. Beispielsweise wird ein Bild, das durch Überlagerung eines Rechtecks, das eine Gesichtsregion anzeigt, mit einem Einzelbild aufgenommen wurde, auf dem Ausgabegerät 106 (Display) angezeigt.
In Schritt S1010 wird bestimmt, ob der Gesichtserkennungsprozess endet. Das Ende der Gesichtserkennung kann explizit von einem Benutzer befohlen werden, oder die Gesichtserkennung kann zu dem Zeitpunkt beendet werden, zu dem die Bildeingabe endet. Wenn der Gesichtserkennungsprozess fortgesetzt wird, kehren die Prozesse zu Schritt S1001 zurück und die gleichen Prozesse werden für das nächste Einzelbild wiederholt.
Ein Ausführungsbeispiel, bei dem der Gesichtserkennungsprozess gemäß der Ausführungsform auf sequentielle Einzelbilder angewendet wird, wird unter Bezugnahme auf die 11 A bis 11 D beschrieben. Hier wird ein Beispiel beschrieben, bei dem ein Bild mit drei Personen verarbeitet wird, wobei davon ausgegangen wird, dass die Anzahl der integrierten Prozessen (vorgegebene Anzahl), die durch den Regionsauswähler 114 ausgewählt werden, zwei beträgt.
11A ist ein Diagramm, das einen Prozess auf dem ersten Einzelbild illustriert. Hier werden als Ergebnis der Prozesse durch den ersten Detektor 112 und die Regionsintegrationseinheit 113 fünf integrierte Regionen A bis E erfasst. Bei der Verarbeitung des ersten Einzelbildes gibt es kein bereits detektiertes Gesicht, so dass alle integrierten Regionen Kandidaten für den Detektionsprozess mit dem zweiten Detektor 115 sind. Dabei wird davon ausgegangen, dass als Ergebnis der Regionenauswahl durch den Regionsauswähler 114 die beiden integrierten Regionen B und C mit höheren Bewertungswerten ausgewählt werden. Der zweite Detektor 115 führt den Gesichtserkennungsprozess mit Hilfe eines tiefen Lernalgorithmus auf den integrierten Regionen B und C durch und erkennt Gesichter aus den beiden integrierten Regionen B und C. Folglich werden im ersten Einzelbild die integrierten Regionen B und C als Gesichtsregionen bestimmt.
11B ist ein Diagramm, das einen Prozess für das zweite Einzelbild illustriert. Diesmal sind die in den Regionen B und C vorhandenen Gesichter die Ziele des Verfolgungsprozesses durch die Gesichtsverfolgungseinheit 116. Die Gesichtsverfolgungseinheit 116 erkennt Gesichter aus Positionen, die denen des ersten Einzelbildes nahezu ähnlich sind.
Da davon ausgegangen wird, dass es keine signifikante Änderung der Zusammensetzung zwischen den Einzelbildern gibt, sind die Ergebnisse des ersten Detektors 112 und der Regionsintegrationseinheit 113 die gleichen wie im ersten Einzelbild, und die fünf integrierten Regionen A bis E werden erfasst. Da die Regionen B und C im ersten Einzelbild als Gesichtsregionen B und C festgelegt wurden, sind sie hier nicht Ziel der Auswahl durch den Regionsauswähler 114. Es wird angenommen, dass der Regionsauswähler 114 zwei integrierte Regionen A und D mit höheren Bewertungswerten aus den Regionen A, D und E auswählt. Der zweite Detektor 115 führt den Gesichtserkennungsprozess unter Verwendung eines tiefen Lernalgorithmus an den integrierten Regionen A und D durch und bestimmt, dass die integrierte Region D eine Gesichtsregion ist, die integrierte Region A jedoch keine Gesichtsregion ist.
Als Ergebnis der oben beschriebenen Prozesse werden im zweiten Einzelbild die integrierten Regionen B, C und D als Gesichtsregionen bestimmt.
11C ist ein Diagramm, das einen Prozess für das dritte Einzelbild illustriert. Diesmal sind die Gesichter, die in den Regionen B, C und D vorhanden sind, die Ziele des Verfolgungsprozesses durch die Gesichtsverfolgungseinheit 116. Die Gesichtsverfolgungseinheit 116 erkennt Gesichter von Positionen aus, die denen des zweiten Einzelbildes nahezu ähnlich sind.
Da davon ausgegangen wird, dass es keine signifikante Änderung der Zusammensetzung zwischen den Einzelbildern gibt, sind die Ergebnisse des ersten Detektors 112 und der Regionsintegrationseinheit 113 die gleichen wie im ersten Einzelbild, und die fünf integrierten Regionen A bis E werden erfasst. Da die Regionen B, C und D im ersten Einzelbild als Gesichtsregionen bestimmt wurden, werden sie hier nicht durch den Regionsauswähler 114 ausgewählt. Daher wählt der Regionsauswähler 114 die Region E aus. Der zweite Detektor 115 führt den Gesichtserkennungsprozess unter Verwendung eines tiefen Lernalgorithmus für die integrierte Region E durch und bestimmt, dass die integrierte Region E keine Gesichtsregion ist.
Als Ergebnis der oben beschriebenen Prozesse werden im dritten Einzelbild die integrierten Regionen B, C und D zu Gesichtsregionen bestimmt.
11D ist ein Diagramm, das einen Prozess für das vierte Einzelbild veranschaulicht. Auch diesmal sind die Gesichter, die in den Regionen B, C und D vorhanden sind, die Ziele des Verfolgungsprozesses durch die Gesichtsverfolgungseinheit 116. Die Gesichtsverfolgungseinheit 116 erkennt Gesichter aus Positionen, die denen des dritten Einzelbildes nahezu ähnlich sind.
Ein Beispiel, bei dem nur drei Gesichter in einem Bild enthalten sind, wurde hier beschrieben. Aber selbst wenn mehr Gesichter enthalten sind, können alle Gesichter schließlich vom zweiten Detektor 115 erfasst und dann von der Gesichtsverfolgungseinheit 116 durch Wiederholung der oben beschriebenen Prozesse verfolgt werden.
Es wurde beschrieben, dass im dritten Einzelbild nur die integrierte Region E ausgewählt wird, aber die integrierte Region A kann auch ausgewählt werden. In ähnlicher Weise kann die integrierte Region E auch im vierten und folgenden Einzelbild ausgewählt werden. In der Beschreibung von 11 erkennt der erste Detektor 112 immer, dass die Regionen A und E Gesichtsregionen sind. Da die integrierten Regionen A und E jedoch Nicht-Gesichtsregionen sind, ist zu erwarten, dass der erste Detektor 112 sie irgendwann nicht mehr als Gesichtsregionen erkennen wird.
Wirkung der Ausführungsform
Vergleicht man den Gesichtserkennungsprozess von pseudo-Haar Merkmalen + Adaboost-Lernen mit dem Gesichtserkennungsprozess des tiefen Lernens (CNN), so ist letzterer genauer, erfordert aber mehr Rechenaufwand. Daher wird in einem Computer mit relativ kleinen Rechenressourcen, wie z.B. einem mobilen Informationsterminal, die Prozesszeit sehr lang, wenn eine tief lernende Gesichtserkennung auf dem gesamten Eingabebild durchgeführt wird. Andererseits werden in der Ausführungsform zunächst die Regionen, in denen ein Gesicht wahrscheinlich existiert, durch einen vereinfachten Gesichtserkennungsprozess eingegrenzt, Kandidatenregionen integriert und die tief lernende Gesichtserkennung nur auf der integrierten Region durchgeführt. Infolgedessen kann sowohl die Erkennungsgenauigkeit als auch die Erkennungsgeschwindigkeit erwartet werden, aber wenn die Anzahl der in einem Bild enthaltenen Gesichter groß ist, kann sich der Berechnungsaufwand erhöhen und der Prozess möglicherweise nicht rechtzeitig abgeschlossen werden. Daher kann durch die (einschränkende) Auswahl von Regionen, die als Ziel für die Gesichtserkennung mittels tiefen Lernens dienen sollen, aus integrierten Regionen eine schnelle Verarbeitung unabhängig von der Anzahl der im Bild enthaltenen Gesichter durchgeführt werden.
Eine Begrenzung der Anzahl der integrierten Regionen, in denen die Gesichtserkennung mit tiefem Lernen durchgeführt wird, kann die Prozessbelastung unterdrücken, begrenzt jedoch die Anzahl der Gesichter, die gleichzeitig erkannt werden können. Daher wird dieses Verfahren auf ein bewegtes Bild angewendet, um bereits erkannte Gesichter durch den Gesichtsverfolgungsprozess und nicht erkannte Gesichter durch den tief lernenden Gesichtserkennungsprozess zu erkennen. So können alle Gesichter im Bild in wenigen Einzelbildern erkannt werden.
erste Abwandlung
In der oben beschriebenen Ausführungsform schließt der Regionsauswähler 114 die integrierten Regionen an den Positionen der im vorhergehenden Einzelbild detektierten Gesichtsregionen von den Auswahlzielen aus, so dass die integrierten Regionen an den Positionen der im vorhergehenden Einzelbild detektierten Gesichter durch den zweiten Detektor 115 daran gehindert werden, Ziele des Detektionsprozesses zu sein. Der gleiche Effekt kann jedoch auch durch eine anderes als das oben beschriebene Verfahren erzielt werden.
12 ist ein Diagramm, das eine Ausgestaltung einer Gesichtserkennungsvorrichtung 100 entsprechend der Abwandlung darstellt. Die Gesichtserkennungsvorrichtung 100 unterscheidet sich von der ersten Ausführungsform dadurch, dass dem ersten Detektor 112 eine Vorverarbeitungseinheit 119 vorgeschaltet ist. Die Vorverarbeitungseinheit 119 bezieht sich auf den Detektionsergebnisspeicher 118, um eine Region zu verarbeiten, in der im vorherigen Einzelbild ein Gesicht erkannt wurde, so dass der erste Detektor 112 das Gesicht in dieser Region nicht erkennt.
Die Beschreibung wird unter Bezugnahme auf die 13A und 13B gegeben. Zum Beispiel wird, wie in 13A dargestellt, angenommen, dass Gesichter in den integrierten Regionen B und C in einem Bild des ersten Einzelbildes erkannt werden. In diesem Fall wird, wie in 13B dargestellt, ein Prozess zum Füllen der Positionen der Gesichtsregionen (integrierte Regionen B und C) mit einem einfarbigen Muster als Vorprozess auf einem Bild des zweiten Einzelbildes durchgeführt. Die Gesichtsregionen können durch andere Musterbilder als das einfarbige Muster ersetzt werden, oder es kann ein Filterprozess auf den Gesichtsregionen durchgeführt werden. Darüber hinaus muss eine zu bearbeitende Region nicht die gesamte Gesichtsregion sein und kann auch nur ein Teil der Gesichtsregion sein, solange die Gesichtsregion nicht als Gesicht erkannt wird.
Somit enthalten eine Gesichtskandidatenregion, die vom ersten Detektor 112 erkannt wurde, und dann eine integrierte Region, die von der Regionsintegrationseinheit 113 bestimmt wurde, keine Region, die im vorherigen Einzelbild als Gesichtsregion bestimmt wurde. Daher muss sich in der vorliegenden Abwandlung der Regionsauswähler 114 nicht auf das Detektionsergebnis im vorherigen Einzelbild beziehen und kann integrierte Regionen einfach entsprechend den Bewertungswerten auswählen.
Zweite Abwandlung
Der Regionsauswähler 114 kann so konfiguriert werden, dass er bei der Auswahl einer integrierten Region keine integrierten Regionen auswählt, die vom zweiten Detektor 115 im vorhergehenden Einzelbild als Nicht-Gesichtsregionen erkannt wurden, wobei ein Erkennungsergebnis im vorhergehenden Einzelbild verwendet wird, das vom zweiten Detektor 115 erhalten wurde und anzeigt, dass die Regionen keine Gesichter sind. Dies liegt daran, dass die Erkennungsgenauigkeit der Gesichtserkennung durch den zweiten Detektor 115 hoch ist und es daher sehr gut möglich ist, dass in dieser Region kein Gesicht enthalten ist.
Es ist jedoch nicht wünschenswert, Regionen nicht kontinuierlich auszuwählen, wenn einmal festgestellt wurde, dass sie kein Gesicht sind, in der Annahme, dass sich die Zusammensetzung mit der Zeit ändert. Daher ist es vorzuziehen, dass der Regionsauswähler 114 solche Regionen nicht nur während einiger Einzelbilder auswählt, wenn der zweite Detektor 115 feststellt, dass die Regionen keine Gesichter sind. Alternativ kann der Regionsauswähler 114 so konfiguriert werden, dass er eine Region nicht auswählt, die im vorherigen Einzelbild nicht als Gesichtsregion bestimmt wurde und die einen Grad der Bildähnlichkeit aufweist, der einem Schwellenwert entspricht oder diesen überschreitet.
Der hier beschriebene Prozess wird nicht zwingend durchgeführt. Dies liegt daran, dass es unwahrscheinlich ist, dass der erste Detektor 112 weiterhin eine Region als Gesicht erkennt, wenn die Region kein Gesicht ist. Ein weiterer Grund ist, dass, selbst wenn der erste Detektor 112 eine Region erkennt, die kein Gesicht ist, die Zuverlässigkeit gering ist und die vom Regionsauswähler zu wählende Priorität herabgesetzt wird. Ein weiterer Grund ist, dass selbst wenn der Regionsauswähler 114 eine solche Region als Prozessziel des zweiten Detektors 115 auswählt, die Anzahl der vom zweiten Detektor 115 verarbeiteten Regionen begrenzt ist und somit vermieden wird, dass die Prozesslast ein Problem verursacht.
Andere Ausführungsformen
In der obigen Beschreibung ist der erste Detektor 112 ein Detektor, der pseudo-Haar Merkmale und Adaboost Lernen verwendet, aber die vorliegende Erfindung ist nicht auf diese Konfiguration beschränkt. Als Merkmal kann z.B. jedes Merkmal wie das HoG-Merkmal(Histgram of Gradient), SIFT-Merkmal, SURF-Merkmal, Sparse-Merkmal und Ähnliches verwendet werden. Darüber hinaus kann als Lernmethode jede beliebige Lernmethode wie z.B. eine andere Boost-Methode als Adaboost, eine Support Vector Machine (SVM), ein neuronales Netz oder das Lernen mit Entscheidungsbäumen verwendet werden. Zusätzlich zu diesen können Merkmalsmengenextraktion (feature quantity extraction) unter Verwendung eines integralen Bildes, ein Diskriminator unter Verwendung einer Kaskadenstruktur (cascade structure) und ähnliches verwendet werden.
Darüber hinaus ist der zweite Detektor 115 nicht auf CNN beschränkt, sondern kann ein Detektor sein, der eine beliebige Methode wie Recurrent Neural Network (RNN), Stacked Auto Encoder (SAE), Deep Belief Network (DBN) und Deep Neural Network (DNN) verwendet. Der zweite Detektor 115 muss kein Detektor mit tiefem Lernen sein. Es ist jedoch wünschenswert, dass der Erkennungsalgorithmus des zweiten Detektors 115 eine höhere Detektionsgenauigkeit aufweist und einen größeren Rechenaufwand erfordert als der Detektionsalgorithmus des ersten Detektors 112.
Beachten Sie, dass der Algorithmus des ersten Detektors 112 kein anderes Verfahren als tiefes Lernen sein muss und der Algorithmus des zweiten Detektors 115 keine tief lernendes Verfahren sein muss, solange sich die jeweiligen Verfahren voneinander unterscheiden. Bei den beiden Algorithmen kann es sich sowohl um nicht-tief lernende Algorithmen als auch um tief lernende Algorithmen handeln. Zum Beispiel kann der Algorithmus des ersten Detektors 112 eine Methode sein, die Haar-Merkmale und eine Boosting-Lernmethode verwendet, und der Algorithmus des zweiten Detektors 115 kann eine Methode sein, die HoG-Merkmale und eine Boosting-Lernmethode verwendet. Alternativ kann der Algorithmus des ersten Detektors 112 CNN und der Algorithmus des zweiten Detektors 115 DNN sein.
Obwohl das Erfassungszielobjekt ein Gesicht in der obigen Beschreibung ist, kann das Erfassungszielobjekt jedes beliebige Objekt sein. Das heißt, die vorliegende Erfindung kann auf eine Objekterfassungsvorrichtung angewendet werden, die jedes beliebige vorbestimmte Objekt erkennt. Ein menschlicher Körper, ein bestimmtes Tier, ein Automobil und ein bestimmtes Produkt sind nur einige Beispiele für ein Erfassungszielobjekt.
Ferner wird in der obigen Beschreibung die Objekterfassungsvorrichtung auf einem mobilen Informationsterminal wie einem Smartphone montiert, sie kann jedoch auf jedem beliebigen Gerät montiert werden. Die erfindungsgemäße Objekterfassungsvorrichtung kann auf jeder beliebigen Informationsverarbeitungsvorrichtung (Computer) montiert werden, wie z.B. einem Desktop-Computer, einem Notebook-Computer, einem Tablet-Computer, einem Smartphone, einem Mobiltelefon, einer Digitalkamera und einer digitalen Videokamera. Die Wirkung der vorliegenden Erfindung wird jedoch deutlicher, wenn die Objekterfassungsvorrichtung auf einer Vorrichtung mit relativ kleinen Rechenressourcen montiert ist.
Ergänzende Anmerkung
Eine Objekterfassungsvorrichtung (10, 100) zum Erfassen eines Zielobjekts aus einem Bild, umfassend:

eine erste Erkennungseinheit (12, 112), die so konfiguriert ist, dass sie eine Vielzahl von Kandidatenregionen, in denen das Zielobjekt existiert, aus dem Bild erkennt;
eine Regionsintegrationseinheit (13, 113), die so konfiguriert ist, dass sie einen oder mehrere integrierte Regionen auf der Grundlage der Vielzahl von Kandidatenregionen bestimmt, die von der ersten Erkennungseinheit erfasst werden; eine Auswahleinheit (14, 114), die so konfiguriert ist, dass sie zumindest einen Teil der integrierten Regionen auswählt; und eine zweite Erkennungseinheit (15, 115), die so konfiguriert ist, dass sie das Zielobjekt aus dem ausgewählten integrierten Regionen unter Verwendung eines Erkennungsalgorithmus erfasst, der sich von einem von der ersten Erkennungseinheit verwendeten Erkennungsalgorithmus unterscheidet.

Bezugszeichenliste

1100: Gesichtserkennungsvorrichtung
111: Bildeingabeeinheit
112: erster Detektor
113: Regionsintegrationseinheit
114: Regionsauswähler
115: zweiter Detektor
116: Gesichtsverfolgungseinheit
117: Ergebnisausgabeeinheit
118: Detektionsergebnisspeicher

Claims

Eine Objekterfassungsvorrichtung zum Erfassen eines Zielobjekts aus einem Bild, umfassend: eine erste Erkennungseinheit, die so konfiguriert ist, dass sie eine Vielzahl von Kandidatenregionen, in denen das Zielobjekt existiert, aus dem Bild erkennt; eine Regionsintegrationseinheit, die so konfiguriert ist, dass sie eine oder mehrere integrierte Regionen auf der Grundlage der Vielzahl der von der ersten Erkennungseinheit erkannten Kandidatenregionen bestimmt; eine Auswahleinheit, die so konfiguriert ist, dass sie zumindest einen Teil der integrierten Regionen auswählt; und eine zweite Erkennungseinheit, die so konfiguriert ist, dass sie das Zielobjekt aus der ausgewählten integrierten Region unter Verwendung eines Erkennungsalgorithmus erkennt, der sich von einem von der ersten Erkennungseinheit verwendeten Erkennungsalgorithmus unterscheidet.
Objekterfassungsvorrichtung gemäß Anspruch 1, wobei das Bild ein bewegtes Bild ist, die Objekterfassungsvorrichtung ferner eine Verfolgungseinheit umfasst, die so konfiguriert ist, dass sie ein Zielobjekt verfolgt, wobei ein Ergebnis der zweiten Erkennungseinheit oder der Verfolgungseinheit als endgültiges Erkennungsergebnis in jedem Einzelbild definiert wird, in einem aktuellen Einzelbild verfolgt die Verfolgungseinheit das Objekt, das in einem vorherigen Einzelbild als Zielobjekt bestätigt wurde, und die Auswahleinheit zumindest einen Teil der integrierten Regionen auswählt, wobei sich die ausgewählte integrierte Region an einer anderen Position befindet als eine Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde.
Objekterfassungsvorrichtung nach Anspruch 2, wobei die Auswahleinheit eine vorbestimmte Anzahl von integrierten Regionen, welche Zuverlässigkeiten gleich oder größer als ein Schwellenwert haben, aus integrierten Regionen auswählt, wobei die ausgewählten integrierten Regionen an anderen Positionen als der Region liegen, die im vorhergehenden Einzelbild als Zielobjekt bestätigt wurde.
Objekterfassungsvorrichtung nach Anspruch 2, wobei die Auswahleinheit aus integrierten Regionen eine vorbestimmte Anzahl von integrierten Regionen, welche mit größeren Abmessungen versehen sind, an anderen Positionen als der Region auswählt, die im vorhergehenden Einzelbild als Zielobjekt bestätigt wurde.
Objekterfassungsvorrichtung nach einem der Ansprüche 2 bis 4, wobei die Auswahleinheit eine integrierte Region unter Berücksichtigung einer Erfassungsbewertung durch die zweite Erkennungseinheit im vorhergehenden Einzelbild auswählt.
Objekterfassungsvorrichtung nach einem der Ansprüche 2 bis 5, wobei die Auswahleinheit eine integrierte Region unter Berücksichtigung einer Richtung des Zielobjekts auswählt.
Objekterfassungsvorrichtung nach einem der Ansprüche 2 bis 6, die ferner eine Vorverarbeitungseinheit umfasst, die so konfiguriert ist, dass sie eine Vorverarbeitung an einer Region in einem aktuellen Einzelbild durchführt, die der Region des Objekts entspricht, die im vorhergehenden Einzelbild als das Zielobjekt bestätigt wurde, wobei der Vorprozess bewirkt, dass die Region nicht als das Objekt erfasst wird, wobei die erste Erkennungseinheit erkennt das Zielobjekt aus dem vorverarbeiteten aktuellen Einzelbild, um zu verhindern, dass die Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde, eine integrierte Region ist.
Objekterfassungsvorrichtung nach einem der Ansprüche 2 bis 6, die ferner eine Speichereinheit umfasst, die eine Position der Region speichert, die in dem vorhergehenden Einzelbild als Zielobjekt bestätigt wurde, wobei die Auswahleinheit eine integrierte Region an einer in der Speichereinheit gespeicherten Position von Auswahlzielen ausschließt.
Objekterfassungsvorrichtung nach einem der Ansprüche 1 bis 8, wobei ein Berechnungsbetrag des Erkennungsalgorithmus der zweiten Erkennungseinheit größer ist als der des Erkennungsalgorithmus der ersten Erkennungseinheit.
Objekterfassungsvorrichtung nach einem der Ansprüche 1 bis 9, wobei das Zielobjekt ein menschliches Gesicht oder ein menschlicher Körper ist.
Ein Objekterfassungsverfahren zum Erfassen eines Zielobjekts aus einem Bild, durchgeführt durch einen Computer, umfassend: einen ersten Erkennungsschritt zum Erkennen einer Vielzahl von Kandidatenregionen, in denen das Zielobjekt existiert; einen Regionsintegrationsschritt, bei dem eine oder mehrere integrierte Regionen auf der Grundlage der Vielzahl der im ersten Erkennungsschritt erkannten Kandidatenregionen bestimmt werden; einen Auswahlschritt, bei dem zumindest ein Teil der integrierten Regionen ausgewählt wird; und einen zweiten Erkennungsschritt, bei dem das Zielobjekt aus der ausgewählten integrierten Region unter Verwendung eines Erkennungsalgorithmus erkannt wird, der sich von einem im ersten Erkennungsschritt verwendeten Erkennungsalgorithmus unterscheidet.
Objekterfassungsverfahren nach Anspruch 11, wobei das Bild ein bewegtes Bild ist, das Objekterfassungsverfahren ferner einen Verfolgungsschritt zum Verfolgen eines Zielobjekts umfasst, ein Ergebnis des zweiten Erkennungsschritts oder des Verfolgungsschritts als endgültiges Erkennungsergebnis in jedem Einzelbild definiert wird, im Verfolgungsschritt das Objekt, das in einem vorherigen Einzelbild als Zielobjekt bestätigt wurde, in einem aktuellen Einzelbild verfolgt wird, und im Auswahlschritt mindestens ein Teil der integrierten Regionen ausgewählt wird, wobei die ausgewählte integrierte Region sich an einer anderen Position befindet als eine Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde.
Objekterfassungsverfahren nach Anspruch 12, wobei in dem Auswahlschritt eine vorbestimmte Anzahl von integrierten Regionen mit höheren Bewertungswerten auf der Grundlage von mindestens einer der Zuverlässigkeiten, Größen oder Richtungen von Zielobjekten aus integrierten Regionen an anderen Positionen als der Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde, ausgewählt wird.
Objekterfassungsverfahren nach einem der Ansprüche 11 bis 13, ferner umfassend einen Vorverarbeitungsschritt des Durchführens einer Vorverarbeitung an einer Region in einem aktuellen Einzelbild, die einer Region eines Objektes entspricht, das in einem vorherigen Einzelbild als das Zielobjekt bestätigt wurde, wobei die Vorverarbeitung bewirkt, dass die Region nicht als das Objekt erfasst wird, wobei im ersten Erkennungsschritt das Zielobjekt aus dem vorverarbeiteten aktuellen Einzelbild erkannt wird , um zu verhindern, dass eine Region, die im vorherigen Einzelbild als Zielobjekt bestätigt wurde, eine integrierte Region ist.
Das Objekterfassungsverfahren nach einem der Ansprüche 11 bis 14, ferner umfassend einen Speicherschritt zum Speichern einer Position einer Region, die in einem vorhergehenden Einzelbild als das Zielobjekt bestätigt wurde, wobei im Auswahlschritt eine integrierte Region an einer im Speicherschritt gespeicherten Position von den Auswahlzielen ausgeschlossen wird .
Ein Programm, das den Computer veranlasst, die Schritte des Verfahrens nach einem der Ansprüche 11 bis 15 auszuführen.