DE112021006829T5 - Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren - Google Patents

Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren Download PDF

Info

Publication number
DE112021006829T5
DE112021006829T5 DE112021006829.6T DE112021006829T DE112021006829T5 DE 112021006829 T5 DE112021006829 T5 DE 112021006829T5 DE 112021006829 T DE112021006829 T DE 112021006829T DE 112021006829 T5 DE112021006829 T5 DE 112021006829T5
Authority
DE
Germany
Prior art keywords
moving object
detection
rectangle
confidence
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021006829.6T
Other languages
English (en)
Inventor
Junichi SUGIO
Kiyoaki Tanaka
Takahiro Takayama
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Publication of DE112021006829T5 publication Critical patent/DE112021006829T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Geometry (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

Ein Informationsverarbeitungsvorrichtung umfasst einen Detektor, der ein bewegliches Objekt in einem Einzelrahmen eines Videos detektiert, einen Rechner, der die Wahrscheinlichkeit berechnet, dass es sich bei dem detektierten beweglichen Objekt um ein vorbestimmtes Objekt handelt, und einen Erfassungsbereichsbestimmer, der einen Erfassungsbereich für ein erstes bewegliches Objekt, das in einem ersten Einzelbild detektiert wird, anhand einer Wahrscheinlichkeit des ersten beweglichen Objekts, die mit einem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt, und anhand einer Wahrscheinlichkeit des ersten beweglichen Objekts in dem ersten Einzelrahmen, die mit einem Erfassungsbereich für ein zweites bewegliches Objekt berechnet wird, das in einem zweiten Einzelrahmen, das dem ersten Einzelrahmen vorausgeht, detektiert wird, bestimmt und den bestimmten Erfassungsbereich in einem Aufzeichnungsgerät aufzeichnet.

Description

  • GEBIET
  • Die vorliegende Erfindung bezieht sich auf eine Informationsverarbeitungsvorrichtung und ein Informationsverarbeitungsverfahren.
  • HINTERGRUND
  • Ein bekanntes Verfahren zur Erkennung eines beweglichen Objekts aus einem Video extrahiert Pixel, die eine Bewegung in einem Bild aufweisen, als einen Bereich für ein bewegliches Objekt, indem das Video unter Verwendung einer Differenz in einem beweglichen Objekt (unter Verwendung von Interframe-Subtraktion oder Hintergrundsubtraktion) verarbeitet wird. In der Patentliteratur 1 wird ein Verfahren beschrieben, mit dem ein bewegliches Objekt als Erkennungsziel und andere bewegliche Objekte anhand physikalischer Größeninformationen, wie z. B. einer erfassten Position, gezielt von beweglichen Objekten unterschieden und erkannt werden können.
  • ZITIERLISTE
  • PATENTLITERATUR
  • Patentliteratur 1: Japanische ungeprüfte Patentanmeldung mit Veröffentlichungs-Nr. 2000-105835
  • ÜBERBLICK ÜBER DIE ERFINDUNG
  • DURCH DIE ERFINDUNG ZU LÖSENDE AUFGABE
  • Ein Differenzbereich, der unter Verwendung der Differenz des beweglichen Objekts extrahiert wird, kann jedoch aufgrund eines Unterschieds in der Bewegungsgeschwindigkeit oder eines Unterschieds in der Art der Bewegung variieren. Obwohl ein solcher Differenzbereich als Erkennungsrechteck (Erfassungsbereich) ausgegeben werden kann, das auf eine Änderung zum letzten Zeitpunkt reagiert, kann der extrahierte Bereich des beweglichen Objekts aufgrund der geringen Genauigkeit der Interframe-Subtraktion oder der Hintergrundsubtraktion instabil sein. Ein Mensch, der ohne Ortswechsel arbeitet, hat zum Beispiel bewegliche Teile, die sich im Laufe der Zeit verändern. In diesem Fall ist es weniger wahrscheinlich, dass das Rechteck für das bewegliche Objekt mit einer stabilen Größe ausgegeben wird.
  • Ein oder mehrere Aspekte der vorliegenden Erfindung sind auf ein Verfahren zur Erhöhung der Erkennungsgenauigkeit eines beweglichen Objekts in einem Video und zur stabilen Ausgabe von Erfassungsbereichen gerichtet.
  • MITTEL ZUR LÖSUNG DER AUSFGABE
  • Das Verfahren gemäß einem oder mehreren Aspekten der vorliegenden Erfindung liefert die unten beschriebene Struktur.
  • Eine Informationsverarbeitungsvorrichtung gemäß einem ersten Aspekt der vorliegenden Erfindung umfasst einen Detektor, der ein bewegliches Objekt in einem Einzelbild (auch: Rahmenbild oder einfach nur Rahmen) eines Videos erfasst, einen Rechner, der eine Wahrscheinlichkeit berechnet, dass das erfasste bewegliche Objekt ein vorbestimmtes Objekt ist, und einen Erfassungsbereichsbestimmer, der einen Erfassungsbereich für ein erstes bewegliches Objekt, das in einem ersten Rahmen erfasst wird, anhand einer Konfidenz des ersten beweglichen Objekts, die mit einem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt, und anhand einer Konfidenz des ersten beweglichen Objekts in dem ersten Rahmen, die mit einem Erfassungsbereich für ein zweites bewegliches Objekt berechnet wird, das in einem zweiten Bild, das dem ersten Bild vorausgeht, erfasst wird, bestimmt und den bestimmten Erfassungsbereich in einem Aufzeichnungsgerät aufzeichnet.
  • Die Informationsverarbeitungsvorrichtung bestimmt den Erfassungsbereich für ein bewegliches Objekt (erstes bewegliches Objekt), das im aktuellen Rahmen (erster Rahmen, erstes Bild) erfasst wird, basierend auf der Konfidenz, das mit dem Erfassungsbereich für ein bewegliches Objekt (zweites bewegliches Objekt) berechnet wird, das im vorherigen Rahmen (zweiter Rahmen, zweites Bild) erfasst wird. Durch die Verwendung des Erfassungsbereichs mit größerer Konfidenz erhöht die Informationsverarbeitungsvorrichtung die Genauigkeit der Erfassung eines beweglichen Objekts und gibt die Erfassungsbereiche stabil aus. Das vorbestimmte Objekt ist ein bewegliches Objekt als Erfassungsziel, wie z.B. ein Mensch.
  • Die Informationsverarbeitungsvorrichtung kann ferner einen Bestimmer für bewegliche Objekte enthalten, das gezielt aus einer Vielzahl von in dem zweiten Bild erfassten beweglichen Objekten bestimmt, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist. Die Informationsverarbeitungsvorrichtung bestimmt aus den im zweiten Bild erfassten beweglichen Objekten gezielt das gleiche Objekt korrekter als das erste bewegliche Objekt und gibt somit die Erfassungsbereiche für das gleiche Objekt stabil aus.
  • Der Bestimmer für bewegliche Objekte kann bestimmen, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist, und zwar anhand eines Abstands zwischen einer Mitte des Bereichs, der das erste bewegliche Objekt umschreibt, und einer Mitte eines Erfassungsbereichs für jedes der mehreren beweglichen Objekte, die in dem zweiten Rahmen erfasst werden. Die Informationsverarbeitungsvorrichtung bestimmt das zweite bewegliche Objekt als das dasselbe Objekt wie das erste bewegliche Objekt mit einem einfachen Verfahren, das eine geringere Verarbeitungslast aufweist.
  • Der Bestimmer für bewegliche Objekte kann das zweite bewegliche Objekt, das dasselbe Objekt wie das erste bewegliche Objekt ist, anhand eines Verhältnisses eines Überlappungsbereichs zwischen dem Bereich, der das erste bewegliche Objekt umschreibt, und dem Erfassungsbereich für jedes der mehreren beweglichen Objekte, die in dem zweiten Rahmen erfasst werden, zu einem Bereich, der von dem Bereich, der das erste bewegliche Objekt umschreibt, und dem Erfassungsbereich abgedeckt wird, bestimmen. Die Informationsverarbeitungsvorrichtung bestimmt das zweite bewegliche Objekt, das dasselbe Objekt wie das erste bewegliche Objekt ist, mit einem einfachen Verfahren, das eine geringere Verarbeitungslast hat.
  • Der Bestimmer für bewegliche Objekte kann das zweite bewegliche Objekt als dasselbe Objekt wie das erste bewegliche Objekt durch Abgleich zwischen dem ersten beweglichen Objekt und jedem der mehreren beweglichen Objekte, die in dem zweiten Bild erfasst wurden, unter Verwendung eines auf maschinellem Lernen basierenden Abgleichalgorithmus bestimmen. Die Informationsverarbeitungsvorrichtung bestimmt genau, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist.
  • Der Bestimmer für bewegliche Objekte kann t aus beweglichen Objekten, die in jedem einer Vielzahl von Rahmen vor dem ersten Rahmen erfasst wurden, gezielt ein bewegliches Objekt bestimmen, das dasselbe Objekt ist wie das erste bewegliche Objekt in jedem der Vielzahl von Rahmen. Als Reaktion darauf, dass von den Konfidenzen des ersten beweglichen Objekts, die mit Erfassungsbereichen für bewegliche Objekte berechnet wurden, die als dasselbe Objekt wie das erste bewegliche Objekt in der Vielzahl von Rahmen bestimmt wurden, eine größte Konfidenz größer ist als die Konfidenz des ersten beweglichen Objekts, die mit dem Bereich berechnet wurde, der das erste bewegliche Objekt umschreibt, kann der Erfassungsbereichsbestimmer einen Erfassungsbereich mit der größten Konfidenz als den Erfassungsbereich für das erste bewegliche Objekt bestimmen. Die Informationsverarbeitungsvorrichtung prüft eine Vielzahl vorhergehender Rahmen, um einen Erfassungsbereich mit einer größeren Konfidenz zu verwenden, wodurch die mit dem ausgegebenen Erfassungsbereich berechnete Konfidenz erhöht und stabile Erfassungsbereiche ausgegeben werden.
  • In Reaktion darauf, dass die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts größer als ein erster Schwellenwert ist, kann der Erfassungsbereichsbestimmer den das erste bewegliche Objekt umschreibenden Bereich als den Erfassungsbereich für das erste bewegliche Objekt bestimmen. In Reaktion darauf, dass die mit dem Begrenzungsbereich berechnete Konfidenz größer als der erste Schwellenwert ist, bestimmt die Informationsverarbeitungsvorrichtung den Erfassungsbereich ohne Vergleich mit der Konfidenz, die mit dem Erfassungsbereich im vorherigen Rahmen berechnet wurde, und hat somit eine geringere Verarbeitungslast.
  • In Reaktion darauf, dass die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnete Konfidenz des ersten beweglichen Objekts größer als die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts ist, kann der Erfassungsbereichsbestimmer den Erfassungsbereich für das zweite bewegliche Objekt als den Erfassungsbereich für das erste bewegliche Objekt bestimmen. Die Informationsverarbeitungsvorrichtung verwendet den Erfassungsbereich mit einer größeren Sicherheit, um die Genauigkeit der Erfassung eines beweglichen Objekts zu erhöhen.
  • In Reaktion darauf, dass die mit dem ermittelten Erfassungsbereich für das erste bewegliche Objekt berechnete Konfidenz größer als ein zweiter Schwellenwert ist, kann der Erfassungsbereichsbestimmer den Erfassungsbereich für das erste bewegliche Objekt in dem Aufzeichnungsgerät aufzeichnen. Ein Bereich mit einer Konfidenz, die kleiner oder gleich dem zweiten Schwellenwert ist, wird nicht in dem Aufzeichnungsgerät aufgezeichnet. Die Informationsverarbeitungsvorrichtung gibt somit stabile Erfassungsbereiche aus.
  • In Reaktion darauf, dass die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnete Konfidenz des ersten beweglichen Objekts größer als die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts ist und dass eine Anzahl aufeinanderfolgender Rahmen, die jeweils eine Differenz größer als ein dritter Schwellenwert zwischen dem das erste bewegliche Objekt umschreibenden Bereich und dem Erfassungsbereich für das zweite bewegliche Objekt aufweisen, kleiner oder gleich einer vorbestimmten Anzahl ist, kann der Erfassungsbereichsbestimmer den Erfassungsbereich für das zweite bewegliche Objekt als den Erfassungsbereich für das erste bewegliche Objekt bestimmen und den bestimmten Erfassungsbereich für das erste bewegliche Objekt in dem Aufzeichnungsgerät aufnehmen. Die Differenz kann z. B. eine Änderung der Fläche zwischen dem Erfassungsbereich für das zweite bewegliche Objekt und dem Bereich, der das erste bewegliche Objekt umgibt, oder das Verhältnis einer solchen Flächenänderung zur Fläche des Erfassungsbereichs für das zweite bewegliche Objekt sein. Als Reaktion auf aufeinanderfolgende Rahmen, von denen jeder eine Differenz größer als der dritte Schwellenwert zwischen dem Begrenzungsbereich im aktuellen Rahmen und dem Erfassungsbereich im vorherigen Rahmen aufweist, zeichnet die Informationsverarbeitungsvorrichtung keinen Erfassungsbereich für das erste bewegliche Objekt auf und kann die Ausgabe von fehlerhaften Erfassungsbereichen reduzieren.
  • Die Informationsverarbeitungsvorrichtung kann ferner eine Ausgabeeinheit enthalten, die den Erfassungsbereich für das erste bewegliche Objekt, der im Aufzeichnungsgerät aufgezeichnet wurde, dem ersten Bild überlagert und den dem ersten Bild überlagerten Erfassungsbereich ausgibt. Bei höherer Erkennungsgenauigkeit eines beweglichen Objekts in einem Video gibt die Informationsverarbeitungsvorrichtung stabile Erfassungsbereiche aus.
  • In Reaktion darauf, dass eine Konfidenz, die mit dem Erfassungsbereich für das erste bewegliche Objekt, das in dem Aufzeichnungsgerät aufgezeichnet wurde, berechnet wurde, größer als ein zweiter Schwellenwert ist, kann die Ausgabeeinheit den Erfassungsbereich für das erste bewegliche Objekt ausgeben. Die Informationsverarbeitungsvorrichtung gibt Erfassungsbereiche mit einer Konfidenz größer als der zweite Schwellenwert stabil aus.
  • In Reaktion darauf, dass die Konfidenz des ersten beweglichen Objekts, die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnet wurde, größer als die Konfidenz des ersten beweglichen Objekts ist, die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnet wurde, und dass eine Anzahl aufeinanderfolgender Rahmen, von denen jeder eine Differenz aufweist, die größer als ein dritter Schwellenwert zwischen dem das erste bewegliche Objekt umschreibenden Bereich und dem Erfassungsbereich für das zweite bewegliche Objekt ist, kleiner oder gleich einer vorbestimmten Anzahl ist, kann die Ausgabeeinheit den Erfassungsbereich für das erste bewegliche Objekt ausgeben, der im Aufzeichnungsgerät aufgezeichnet wurde. Als Reaktion auf aufeinanderfolgende Rahmen, von denen jeder eine Differenz größer als der dritte Schwellenwert zwischen dem Begrenzungsbereich im aktuellen Rahmen und dem Erfassungsbereich im vorherigen Rahmen aufweist, gibt die Informationsverarbeitungsvorrichtung keinen Erfassungsbereich für das erste bewegliche Objekt aus und kann die Ausgabe von fehlerhaften Erfassungsbereichen reduzieren.
  • In Reaktion auf eine Anzahl von aufeinanderfolgenden Rahmen, von denen jeder eine Konfidenz aufweist, die mit dem ermittelten Erfassungsbereich für das erste bewegliche Objekt berechnet wurde und größer als ein erster Schwellenwert ist, kann die Ausgabeeinheit den Erfassungsbereich für das erste bewegliche Objekt ausgeben. In Reaktion auf aufeinanderfolgende Rahmen, bei denen jeweils eine Konfidenz berechnet wurde, bei der der Erfassungsbereich für das erste bewegliche Objekt größer als der erste Schwellenwert ist, gibt die Informationsverarbeitungsvorrichtung den Erfassungsbereich für das erste bewegliche Objekt aus, um ständig Erfassungsbereiche mit größeren Konfidenzen auszugeben.
  • Die Informationsverarbeitungsvorrichtung kann ferner einen Korrektor enthalten, der den Erfassungsbereich für das zweite bewegliche Objekt anhand einer Änderung der Position und Größe von dem Erfassungsbereich für das zweite bewegliche Objekt zu einem Erfassungsbereich für ein bewegliches Objekt korrigiert, das als dasselbe Objekt wie das erste bewegliche Objekt in einem dem zweiten Bild vorausgehenden Bild bestimmt wurde. Der Korrektor 125 korrigiert den Erfassungsbereich für das bewegliche Objekt, das in dem vorhergehenden Bild erkannt wurde, und verwendet den korrigierten Erfassungsbereich für das aktuelle Bild, um die Konfidenz des beweglichen Objekts zu verbessern.
  • Der Detektor kann das bewegliche Objekt durch mindestens eine der Methoden Interframe-Subtraktion oder Hintergrundsubtraktion erkennen. Der Rechner kann die Wahrscheinlichkeit berechnen, dass es sich bei dem erkannten beweglichen Objekt um das vorgegebene Objekt handelt, indem er einen Diskriminator verwendet, der auf mindestens einem neuronalen Netzwerk, Boosting oder einer Support-Vector-Maschine basiert.
  • Ein Informationsverarbeitungsverfahren gemäß einem zweiten Aspekt der vorliegenden Erfindung ist mit einem Computer implementierbar. Das Verfahren umfasst das Erfassen eines ersten beweglichen Objekts in einem ersten Bild (Rahmen) in einem Video, das Berechnen einer Wahrscheinlichkeit, dass das erste bewegliche Objekt ein vorbestimmtes Objekt ist, unter Verwendung eines Bereichs, der das erste bewegliche Objekt umschreibt, und unter Verwendung eines Erfassungsbereichs für ein zweites bewegliches Objekt, das in einem zweiten Bild vor dem ersten Bild erfasst und in einem Aufzeichnungsgerät aufgezeichnet wurde, und Bestimmen eines Erfassungsbereichs für das erste bewegliche Objekt anhand einer mit dem das erste bewegliche Objekt umschreibenden Bereich berechneten Konfidenz des ersten beweglichen Objekts und einer mit dem Erfassungsbereich für das zweite bewegliche Objekt berechneten Konfidenz des ersten beweglichen Objekts in dem ersten Bild und Aufzeichnen des bestimmten Erfassungsbereichs in dem Aufzeichnungsgerät.
  • Ein oder mehrere Aspekte der vorliegenden Erfindung können sich auf ein Programm beziehen, das einen Computer veranlasst, das obige Verfahren durchzuführen, oder auf ein nichtflüchtiges Speichermedium, das das Programm speichert. Die obigen Elemente und Verfahren können in jeder möglichen Weise miteinander kombiniert werden, um einen oder mehrere Aspekte der vorliegenden Erfindung zu bilden.
  • VORTEILHAFTE WIRKUNGEN DER ERFINDUNG
  • Die Technik gemäß den obigen Aspekten der vorliegenden Erfindung erhöht die Genauigkeit der Erkennung eines beweglichen Objekts in einem Video und gibt die Erfassungsbereiche stabil aus.
  • KURZBESCHREIBUNG DER ZEICHNUNGSFIGUREN
    • 1 ist eine schematische Ansicht, die ein Beispiel für die Verwendung einer Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform beschreibt.
    • 2 ist eine schematische Ansicht der Informationsverarbeitungsvorrichtung, die ihre beispielhafte Hardwarekonfiguration zeigt.
    • 3 ist ein funktionelles Blockdiagramm der Informationsverarbeitungsvorrichtung.
    • 4 ist ein Flussdiagramm eines Beispiels für die Ausgabe eines Erkennungsrechtecks.
    • Die 5A bis 5C sind Ansichten, die jeweils ein Verfahren zur Objektidentifizierung beschreiben.
    • 6 ist ein Flussdiagramm eines Beispiels für einen Erkennungsrechteck-Ausgabevorgang in einer zweiten Ausführungsform.
    • 7 ist ein Flussdiagramm eines Beispiels für einen Erkennungsrechteck-Ausgabevorgang in einer dritten Ausführungsform.
    • 8 ist ein Flussdiagramm eines weiteren Beispiels eines Erkennungsrechteck-Ausgabevorganges in der dritten Ausführungsform.
    • Die 9A und 9B sind Ansichten, die jeweils ein Anwendungsbeispiel für eine Struktur gemäß einer vierten Ausführungsform beschreiben.
    • 10 ist ein Flussdiagramm eines Beispiels eines Erkennungsrechteck-Ausgabevorganges in der vierten Ausführungsform.
    • 11 ist ein Flussdiagramm eines weiteren Beispiels eines Erkennungsrechteck-Ausgabevorganges in der vierten Ausführungsform.
    • 12 ist ein Flussdiagramm eines Beispiels eines Erkennungsrechteck-Ausgabevorganges in einer fünften Ausführungsform.
    • 13 ist ein Flussdiagramm eines Beispiels für einen Erkennungsrechteck-Ausgabevorgang in einer sechsten Ausführungsform.
    • 14 ist ein funktionelles Blockdiagramm einer Informationsverarbeitungsvorrichtung gemäß einer siebten Ausführungsform.
    • 15 ist eine Ansicht, die die Korrektur eines Erkennungsrechtecks in der siebten Ausführungsform beschreibt.
    • 16 ist ein Flussdiagramm eines Beispiels eines Erkennungsrechteck-Ausgabevorganges in der siebten Ausführungsform.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Eine oder mehrere Ausführungsformen der vorliegenden Erfindung werden nun unter Bezugnahme auf die Zeichnungsfiguren beschrieben.
  • <Anwendungsbeispiel>
  • 1 ist eine schematische Ansicht, die ein Anwendungsbeispiel für eine Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform beschreibt. Die Informationsverarbeitungsvorrichtung erhält eine Videoeingabe von einer Kamera und erkennt ein bewegliches Objekt in jedem Bild (Rahmen) des erhaltenen Videos. Beispiele für die Kamera sind eine feststehende Kamera, wie z. B. eine Überwachungskamera.
  • Die Informationsverarbeitungsvorrichtung erkennt einen beweglichen Objektbereich beispielsweise durch Hintergrundsubtraktion, die einen Bereich mit einer Änderung zwischen einem Einzelbild und einem vorgespeicherten Hintergrundbild extrahiert, durch Interframe-Subtraktion, die einen Bereich mit einer Änderung zwischen Einzelbildern extrahiert, oder durch beides. Im Beispiel von 1 wird ein bewegliches Objekt A1 zum Zeitpunkt T extrahiert. Die Informationsverarbeitungsvorrichtung erzeugt ein begrenzendes Rechteck A2, das das extrahierte bewegliche Objekt A1 umschreibt. Im vorliegenden Beispiel und in allen nachfolgend beschriebenen Ausführungsformen ist die Form des Bereichs, der den Bereich des beweglichen Objekts definiert, rechteckig. In einigen Ausführungsformen kann die Form des Bereichs elliptisch oder polygonal sein oder mit jeder anderen Form definiert werden, die den Bereich des beweglichen Objekts umgibt, z. B. mit einer gekrümmten Linie, die den Bereich des beweglichen Objekts umschreibt.
  • Die Informationsverarbeitungsvorrichtung erhält die Konfidenz eines erfassten beweglichen Objekts, indem sie beispielsweise das erfasste bewegliche Objekt in einen auf maschinellem Lernen basierenden Diskriminator eingibt. Im Beispiel von 1 ist die Konfidenz die Wahrscheinlichkeit, dass es sich bei dem erkannten Objekt um einen Menschen handelt. Das Begrenzungsrechteck A2 umfasst als extrahierten Bereich des beweglichen Objekts einen Bereich eines Menschen ohne Kopf. Das Bild des von dem begrenzenden Rechteck A2 umgebenen Bereichs, das in den Diskriminator eingegeben wird, ergibt eine Konfidenz von 500.
  • Wenn die Konfidenz des im aktuellen Bild erfassten beweglichen Objekts kleiner oder gleich einem vorbestimmten Schwellenwert ist, berechnet die Informationsverarbeitungsvorrichtung die Konfidenz eines aus dem aktuellen Bild ausgeschnittenen Bildes unter Verwendung des Erkennungsrechtecks für dasselbe im vorherigen Bild erfasste Objekt. Die Informationsverarbeitungsvorrichtung vergleicht die berechnete Konfidenz mit der Konfidenz, die mit dem Begrenzungsrechteck für das im aktuellen Bild erfasste bewegliche Objekt berechnet wurde.
  • Im Beispiel von 1, bei dem der vorbestimmte Schwellenwert 700 beträgt, ist die mit dem Begrenzungsrechteck A2 zum Zeitpunkt T (aktuelles Bild) berechnete Konfidenz 500 für das bewegliche Objekt A1 kleiner als der vorbestimmte Schwellenwert 700. Die Informationsverarbeitungsvorrichtung berechnet daher die Konfidenz des aus dem aktuellen Bild zum Zeitpunkt T ausgeschnittenen Bildes unter Verwendung eines Erkennungsrechtecks A3 für dasselbe Objekt wie das bewegliche Objekt A1 zum Zeitpunkt T - 1 (im vorherigen Bild). Die berechnete Konfidenz 1000 ist größer als die Konfidenz des beweglichen Objekts A1, die mit dem Begrenzungsrechteck A2 zum Zeitpunkt T berechnet wurde.
  • Wenn die mit dem Erkennungsrechteck im vorherigen Rahmen berechnete Konfidenz größer ist als die mit dem Begrenzungsrechteck im aktuellen Rahmen berechnete Konfidenz, bestimmt die Informationsverarbeitungsvorrichtung das Erkennungsrechteck im vorherigen Rahmen als das Erkennungsrechteck für das bewegliche Objekt im aktuellen Rahmen. Im Beispiel von 1 bestimmt die Informationsverarbeitungsvorrichtung, wenn die mit dem Erkennungsrechteck A3 zum Zeitpunkt T - 1 berechnete Konfidenz 1000 größer ist als die Konfidenz 500 zum Zeitpunkt T, das Erkennungsrechteck A3 als das Erkennungsrechteck für das bewegliche Objekt A1, das im aktuellen Bild zum Zeitpunkt T erfasst wird. Die Verwendung des Erkennungsrechtecks A3 mit einer größeren Konfidenz als das Begrenzungsrechteck A2, das den Bereich des Menschen mit Ausnahme des Kopfes umgibt, erhöht die Erfassungsgenauigkeit zum Zeitpunkt T.
  • Wie oben beschrieben, bestimmt die Informationsverarbeitungsvorrichtung das Erkennungsrechteck für ein bewegliches Objekt, das im aktuellen Bild erkannt wird, anhand der Konfidenz, das mit dem Begrenzungsrechteck für das bewegliche Objekt im aktuellen Bild berechnet wird, und der Konfidenz, die mit dem Erkennungsrechteck für das gleiche bewegliche Objekt berechnet wird, das im vorherigen Bild erkannt wird. Die Informationsverarbeitungsvorrichtung verwendet das Rechteck mit einer größeren Konfidenz als Erkennungsrechteck, um die Genauigkeit der Erfassung eines beweglichen Objekts zu erhöhen. Für jedes bewegliche Objekt, das in einem Video angehalten wird oder sich leicht bewegt, gibt die Informationsverarbeitungsvorrichtung stabilere Erkennungsrechtecke aus, indem sie das Erkennungsrechteck im vorherigen Bild verwendet. Dies erhöht die Genauigkeit der Erkennung eines stationären Objekts, wenn ein bewegliches Objekt durch Interframe-Subtraktion erkannt wird.
  • <Erste Ausführungsform>
  • (Hardware-Konfiguration)
  • Eine beispielhafte Hardwarekonfiguration einer Informationsverarbeitungsvorrichtung 1 wird nun unter Bezugnahme auf 2 beschrieben. 2 ist eine schematische Ansicht der Informationsverarbeitungsvorrichtung 1, das ihre beispielhafte Hardwarekonfiguration zeigt. Die Informationsverarbeitungsvorrichtung 1 umfasst einen Prozessor 101, einen Hauptspeicher 102, einen Hilfsspeicher 103, eine Kommunikationsschnittstelle 104 und ein Ausgabegerät 105. Der Prozessor 101 lädt ein im Hilfsspeicher 103 gespeichertes Programm in den Hauptspeicher 102 und führt das Programm aus, um die Funktionen der mit Bezug auf 3 beschriebenen Funktionskomponenten zu erreichen. Die Kommunikationsschnittstelle 104 ermöglicht eine drahtgebundene oder drahtlose Kommunikation. Das Ausgabegerät 105 dient der Ausgabe und ist z. B. ein Display.
  • Bei der Informationsverarbeitungsvorrichtung 1 kann es sich um einen Allzweckcomputer, wie einen Personalcomputer, einen Servercomputer, ein Tablet-Terminal oder ein Smartphone, oder um einen eingebauten Computer, wie einen Bordcomputer, handeln. Die Informationsverarbeitungsvorrichtung 1 kann z. B. durch verteiltes Rechnen mit mehreren Computergeräten implementiert werden. Mindestens eine der Funktionseinheiten kann mit Hilfe eines Cloud-Servers implementiert werden. Mindestens eine der Funktionseinheiten der Informationsverarbeitungsvorrichtung 1 kann durch eine spezielle Hardwarevorrichtung, wie eine anwendungsspezifische integrierte Schaltung (ASIC) oder ein feldprogrammierbares Gate-Array (FPGA), implementiert werden.
  • Das Informationsverarbeitungsvorrichtung 1 ist mit einer Kamera 2 über ein Kabel, wie z. B. ein USB-Kabel oder ein LAN-Kabel, oder drahtlos, z. B. über Wi-Fi, verbunden und empfängt mit der Kamera 2 aufgenommene Bilddaten. Die Kamera 2 ist ein bildgebendes Gerät, das ein optisches System mit einem Objektiv und einem Bildsensor, z. B. einem ladungsgekoppelten Gerät (CCD) oder einem komplementären Metalloxid-Halbleiter (CMOS), umfasst.
  • Die Informationsverarbeitungsvorrichtung 1 kann mit der Kamera 2 integriert sein. Zumindest ein Teil der von der Informationsverarbeitungsvorrichtung 1 durchgeführten Verarbeitung, z. B. die Erkennung beweglicher Objekte oder das Bestimmen von Personen für ein aufgenommenes Bild, kann von der Kamera 2 durchgeführt werden. Ferner können die Ergebnisse der von der Informationsverarbeitungsvorrichtung 1 durchgeführten Personenerkennung an ein externes Gerät übertragen und dem Benutzer angezeigt werden.
  • (Funktionale Konfiguration)
  • 3 ist ein funktionelles Blockdiagramm der Informationsverarbeitungsvorrichtung 1. Die Informationsverarbeitungsvorrichtung 1 umfasst einen Bildempfänger 11, eine Verarbeitungseinheit 12, eine Erkennungsrechteckdatenbank (DB) 13 und eine Ausgabeeinheit 14. Die Verarbeitungseinheit 12 umfasst einen Detektor 121, einen Rechner 122, einen Bestimmer für bewegliche Objekte und einen Bestimmer 124 für Erkennungsrechtecke.
  • Der Bildempfänger 11 überträgt die von der Kamera 2 erhaltenen Videodaten an die Verarbeitungseinheit 12. Der Detektor 121 in der Verarbeitungseinheit 12 detektiert ein bewegliches Objekt in jedem Einzelbild des von dem Bildempfänger 11 empfangenen Videos. Der Detektor 121 kann das bewegliche Objekt z. B. durch Hintergrundsubtraktion oder Interframe-Subtraktion erkennen.
  • Der Rechner 122 berechnet die Wahrscheinlichkeit, dass es sich bei dem erkannten beweglichen Objekt um ein vorgegebenes Objekt (z. B. einen Menschen) handelt. Der Rechner 122 kann die Konfidenz unter Verwendung eines Algorithmus für ein neuronales Netz, wie z. B. ein faltungsneuronales Netz (CNN), berechnen. Der Rechner 122 kann die Konfidenz unter Verwendung eines auf maschinellem Lernen basierenden Diskriminators wie Boosting oder einer Support-Vektor-Maschine (SVM) berechnen.
  • Der Bestimmer 123 für bewegliche Objekte bestimmt aus den im vorherigen Bild erfassten beweglichen Objekten gezielt das gleiche bewegliche Objekt wie das im aktuellen Bild erfasste bewegliche Objekt. Die Informationen über das im vorhergehenden Bild erfasste bewegliche Objekt und das Erkennungsrechteck für das bewegliche Objekt werden in der Erkennungsrechteck-Datenbank 13 gespeichert. Der Bestimmer 123 für bewegliche Objekte bestimmt, ob das im aktuellen Bild erfasste bewegliche Objekt dasselbe Objekt ist wie das im vorherigen Bild erfasste bewegliche Objekt, beispielsweise anhand eines Abstands zwischen dem Mittelpunkt des Begrenzungsrechtecks für das im aktuellen Bild erfasste bewegliche Objekt und dem Mittelpunkt des Erkennungsrechtecks für das im vorherigen Bild erfasste bewegliche Objekt.
  • Der Bestimmer 124 für Erkennungsrechtecke bestimmt das Erkennungsrechteck für das im aktuellen Bild erkannte bewegliche Objekt anhand der vom Rechner 122 berechneten Konfidenz und registriert das bestimmte Erkennungsrechteck in der Erkennungsrechteck-Datenbank 13. Wenn beispielsweise die mit dem Begrenzungsrechteck für das bewegliche Objekt, das in dem aktuellen Rahmen erfasst wird, berechnete Konfidenz größer als der vorbestimmte Schwellenwert ist, bestimmt der Bestimmer 124 für Erkennungsrechtecke das Begrenzungsrechteck als das Erkennungsrechteck für das bewegliche Objekt in dem aktuellen Rahmen und registriert das bestimmte Erkennungsrechteck in der Erkennungsrechteck-Datenbank 13.
  • Wenn die mit dem Begrenzungsrechteck im aktuellen Rahmen berechnete Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert ist, verwendet der Bestimmer 124 für Erkennungsrechtecke das Erkennungsrechteck für das gleiche Objekt, das im vorherigen Rahmen erfasst wurde, für den aktuellen Rahmen, um die Konfidenz zu berechnen. Der Bestimmer 124 für Erkennungsrechtecke bestimmt aus dem Begrenzungsrechteck im aktuellen Bild und dem Erkennungsrechteck für dasselbe Objekt im vorherigen Bild das Rechteck mit einer größeren Konfidenz als das Erkennungsrechteck für das bewegliche Objekt, das im aktuellen Bild (Rahmen) erkannt wurde, und registriert das bestimmte Erkennungsrechteck in der Erkennungsrechteck-Datenbank 13.
  • Die Erkennungsrechteck-Datenbank 13 speichert das in jedem Einzelbild des Videos erkannte bewegliche Objekt zusammen mit dem entsprechenden Erkennungsrechteck, das von dem Bestimmer 124 für Erkennungsrechtecke bestimmt wurde. Die Erkennungsrechteckdatenbank 13 speichert als Informationen über jedes Erkennungsrechteck beispielsweise die Position und die Größe jedes Erkennungsrechtecks innerhalb des Bildes. In der Erkennungsrechteckdatenbank 13 kann als Information über jedes Erkennungsrechteck die vom Rechner 122 berechnete Sicherheit des entsprechenden beweglichen Objekts gespeichert werden. Die Erkennungsrechteckdatenbank 13 ist ein Beispiel für ein Aufzeichnungsgerät.
  • Die Ausgabeeinheit 14 legt das Erkennungsrechteck für das erkannte bewegliche Objekt, basierend auf den Informationen über jedes bewegliche Objekt und das entsprechende Erkennungsrechteck, auf jedes Einzelbild, das in der Erkennungsrechteckdatenbank 13 gespeichert ist, und gibt das überlagerte Bild an das Ausgabegerät 105, wie z.B. ein Display, aus.
  • (Erkennungsrechteck-Ausgabevorgang)
  • Unter Bezugnahme auf 4 wird nun ein allgemeiner Vorgang zur Ausgabe von Erkennungsrechtecken beschrieben. 4 ist ein Flussdiagramm eines beispielhaften Erkennungsrechteck-Ausgabevorgangs. Der Prozess zur Ausgabe des Erkennungsrechtecks beginnt beispielsweise, wenn ein Bild eines mit der Bildaufnahmevorrichtung 11 berechneten Videos an die Verarbeitungseinheit übertragen wird. Der in 4 dargestellte Vorgang der Ausgabe des Erkennungsrechtecks wird für jedes Bild des Videos durchgeführt.
  • In S101 detektiert der Detektor 121 ein bewegliches Objekt aus einem Bild eines zu verarbeitenden Rahmens (im Folgenden als aktueller Rahmen bezeichnet), das vom Bildempfänger 11 empfangen wird. Der Detektor 121 kann das bewegliche Objekt durch Hintergrundsubtraktion erkennen, die einen Bereich mit einer Änderung zwischen einem Einzelbild und einem vorgespeicherten Hintergrundbild extrahiert, oder durch Interframe-Subtraktion, die einen Bereich mit einer Änderung zwischen Einzelbildern extrahiert.
  • In S102 erzeugt der Detektor 121 ein Begrenzungsrechteck, das jedes bewegliche Objekt umschreibt, das im aktuellen Bild erkannt wird. Jedes bewegliche Objekt i (i = 1 bis N), das im aktuellen Bild erkannt wird, durchläuft wiederholt die Verarbeitung in S103 bis S109.
  • In S103 berechnet der Rechner 122 die Konfidenz eines aus dem aktuellen Bild ausgeschnittenen Bildes mit dem in S102 erzeugten Begrenzungsrechteck. Die Konfidenz stellt die Wahrscheinlichkeit dar, dass es sich bei dem beweglichen Objekt i in dem ausgeschnittenen Bild um ein vorbestimmtes Objekt handelt, z. B. um einen Menschen. Der Rechner 122 kann die Konfidenz unter Verwendung eines Algorithmus für ein neuronales Netz wie ein CNN oder eines auf maschinellem Lernen basierenden Diskriminators wie Boosting oder SVM berechnen.
  • In S104 bestimmt der Bestimmer 124 für Erkennungsrechtecke, ob die mit dem in S103 berechneten Begrenzungsrechteck berechnete Konfidenz größer ist als ein vorbestimmter Schwellenwert TH1 (erster Schwellenwert). Wenn die mit dem Begrenzungsrechteck berechnete Konfidenz größer ist als der vorbestimmte Schwellenwert TH1 (Ja in S104), schreitet die Verarbeitung zu S109 fort. Wenn die mit dem Begrenzungsrechteck berechnete Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert TH1 ist (Nein in S104), geht die Verarbeitung weiter zur Schleifenverarbeitung L2, die die Verarbeitung in S105 bis S108 einschließt.
  • In der Schleifenverarbeitung L2 berechnet der Rechner 122 die Konfidenz des beweglichen Objekts i im aktuellen Frame, indem er gezielt aus Erkennungsrechtecken für bewegliche Objekte j (j = 1 bis M), die im vorherigen Frame erfasst wurden, das Erkennungsrechteck für ein bewegliches Objekt jm verwendet, das dasselbe Objekt wie das bewegliche Objekt i ist. Der Bestimmer 124 für Erkennungsrechtecke bestimmt ein Erkennungsrechteck für das bewegliche Objekt i im aktuellen Frame anhand der berechneten Konfidenz und der mit dem Begrenzungsrechteck für das bewegliche Objekt i berechneten Konfidenz.
  • In S105 bestimmt der Bestimmer 123 für bewegliche Objekte, ob das im vorherigen Bild erfasste bewegliche Objekt j dasselbe Objekt ist wie das bewegliche Objekt i im aktuellen Bild. Wenn festgestellt wird, dass das im vorherigen Bild erfasste bewegliche Objekt j dasselbe Objekt ist wie das bewegliche Objekt i im aktuellen Bild (Ja in S106), wird die Verarbeitung zu S107 fortgesetzt. Wenn festgestellt wird, dass sich das bewegliche Objekt j von dem beweglichen Objekt i im aktuellen Bild unterscheidet (Nein in S106), wird die Verarbeitung zur Schleifenverarbeitung L2 fortgesetzt, die auf dem Erkennungsrechteck für das nächste bewegliche Objekt j + 1 durchgeführt wird.
  • Unter Bezugnahme auf die 5A bis 5C werden nun drei Beispiele für ein Objektidentifizierungsverfahren beschrieben, mit dem in S105 und S106 festgestellt werden kann, ob das bewegliche Objekt j im vorherigen Bild das gleiche Objekt ist wie das bewegliche Objekt i im aktuellen Bild. Die drei nachstehenden Beispielverfahren können innerhalb eines zulässigen Bereichs kombiniert werden, um festzustellen, ob die Objekte gleich sind.
  • 5A zeigt ein erstes Beispiel des Objektidentifikationsverfahrens. Der Bestimmer 123 für bewegliche Objekte bestimmt basierend auf einem Abstand d zwischen dem Mittelpunkt eines begrenzenden Rechtecks A512, das das bewegliche Objekt i im aktuellen Bild umschreibt, und dem Mittelpunkt eines Erkennungsrechtecks A511 für das bewegliche Objekt j im vorherigen Bild, ob das bewegliche Objekt j im vorherigen Bild dasselbe Objekt ist wie das bewegliche Objekt i im aktuellen Bild.
  • Ist zum Beispiel der Abstand d zwischen den Zentren kleiner als ein vorbestimmter Schwellenwert, so bestimmt der Bestimmer für bewegliche Objekte 123, dass das bewegliche Objekt j im vorherigen Bild das gleiche Objekt ist wie das bewegliche Objekt i im aktuellen Bild. Der vorbestimmte Schwellenwert für den Abstand d zwischen den Zentren kann beispielsweise die Hälfte der Breite des begrenzenden Rechtecks A512 sein, das das bewegliche Objekt i im aktuellen Bild (Rahmen) umschreibt.
  • 5B zeigt ein zweites Beispiel für das Objektidentifikationsverfahren. Der Bestimmer 123 für bewegliche Objekte bestimmt, basierend auf der Überschneidung über die Vereinigung (IoU) zwischen einem begrenzenden Rechteck A522, das das bewegliche Objekt i im aktuellen Bild umschreibt, und einem Erkennungsrechteck A521 für das bewegliche Objekt j im vorherigen Bild, ob das bewegliche Objekt j im vorherigen Bild dasselbe Objekt ist wie das bewegliche Objekt i im aktuellen Bild. IoU gibt das Verhältnis der Überlappungsfläche zwischen dem Begrenzungsrechteck A522, das das bewegliche Objekt i im aktuellen Bild umschreibt, und dem Erkennungsrechteck A521 für das bewegliche Objekt j im vorherigen Bild zu der Fläche (Vereinigungsfläche) an, die von dem Begrenzungsrechteck A522 und dem Erkennungsrechteck A521 abgedeckt wird.
  • Wenn zum Beispiel der IoU größer als ein vorbestimmter Schwellenwert ist, bestimmt der Bestimmer 123 für bewegliche Objekte, dass das bewegliche Objekt j, das im vorherigen Bild erkannt wurde, das gleiche Objekt ist wie das bewegliche Objekt i im aktuellen Bild. Der vorgegebene Schwellenwert für IoU kann beispielsweise 80 % betragen.
  • 5C zeigt ein drittes Beispiel des Objektidentifikationsverfahrens. Der Bestimmer 123 für bewegliche Objekte bestimmt, indem er das bewegliche Objekt i im aktuellen Bild und das bewegliche Objekt j im vorherigen Bild mit einem auf maschinellem Lernen basierenden Anpassungsalgorithmus (Re-Id) vergleicht, ob das bewegliche Objekt j, das im vorherigen Bild erkannt wurde, dasselbe Objekt wie das bewegliche Objekt i im aktuellen Bild ist.
  • Im Beispiel von 5C wird ein bewegliches Objekt A531 der zum Zeitpunkt T-1 erfassten beweglichen Objekte A531 und A541 als dasselbe Objekt wie ein zum Zeitpunkt T erfasstes bewegliches Objekt A532 bestimmt. Das bewegliche Objekt A541 wird als dasselbe Objekt wie ein zum Zeitpunkt T erfasstes bewegliches Objekt A542 bestimmt.
  • Der Bestimmer 123 für bewegliche Objekte ermittelt beispielsweise die Ähnlichkeit zwischen dem im aktuellen Bild erfassten beweglichen Objekt und jedem von mehreren im vorherigen Bild erfassten beweglichen Objekten. Der Bestimmer 123 für bewegliche Objekte kann gezielt aus den beweglichen Objekten, von denen jedes einen Ähnlichkeitsgrad hat, der größer oder gleich einem Schwellenwert ist (z.B. 0,5 für den Maximalwert 1), das bewegliche Objekt mit dem größten Ähnlichkeitsgrad als das gleiche Objekt wie das im aktuellen Bild erfasste bewegliche Objekt bestimmen.
  • In S107 in 4 berechnet der Rechner 122 die Konfidenz des beweglichen Objekts i, das aus dem aktuellen Bild ausgeschnitten wurde, unter Verwendung des Erkennungsrechtecks für das bewegliche Objekt jm, das als das gleiche Objekt wie das bewegliche Objekt i im aktuellen Bild bestimmt wurde.
  • In S108 vergleicht der Bestimmer 124 für Erkennungsrechtecke die in S107 berechnete Konfidenz mit dem Erkennungsrechteck für das bewegliche Objekt jm im vorherigen Rahmen mit der in S103 berechneten Konfidenz mit dem Begrenzungsrechteck. Wenn die Konfidenz mit dem Begrenzungsrechteck für das bewegliche Objekt i im aktuellen Rahmen größer als die Konfidenz mit dem Erkennungsrechteck für das bewegliche Objekt jm im vorherigen Rahmen ist, bestimmt der Bestimmer 124 für Erkennungsrechtecke das Begrenzungsrechteck als das Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild. Wenn die Konfidenz mit dem Erkennungsrechteck für das bewegliche Objekt jm im vorherigen Bild größer ist als die Konfidenz mit dem Begrenzungsrechteck, bestimmt der Bestimmer 124 für Erkennungsrechtecke das Erkennungsrechteck für das bewegliche Objekt jm im vorherigen Bild als das Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild.
  • Wenn mehrere bewegliche Objekte jm von den beweglichen Objekten j im vorherigen bild gezielt als das gleiche Objekt wie das bewegliche Objekt i im aktuellen Rahmen bestimmt werden, kann das Erkennungsrechteck mit der größten in S107 berechneten Konfidenz mit der in S103 berechneten Konfidenz mit dem Begrenzungsrechteck verglichen werden.
  • In S109 speichert der Bestimmer 124 für Erkennungsrechtecke in der Erkennungsrechteck-Datenbank 13 Informationen über das in S108 bestimmte Erkennungsrechteck als Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild. Die Informationen über das Erkennungsrechteck umfassen die Bildinformationen über das bewegliche Objekt i, die Position und die Größe des ermittelten Erkennungsrechtecks und den mit dem ermittelten Erkennungsrechteck berechneten Konfidenzwert für das bewegliche Objekt i.
  • Das Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild, das in der Erkennungsrechteck-Datenbank 13 in S109 aufgezeichnet wurde, wird verwendet, um die Konfidenz eines beweglichen Objekts zu berechnen, das im nächsten Bild erfasst werden soll. Nachdem die Schleifenverarbeitung L1 einschließlich der Verarbeitung in S103 bis S109 für jedes bewegliche Objekt, das im aktuellen Bild erkannt wurde, beendet ist, wird die Verarbeitung zu S110 fortgesetzt.
  • In S110 überlagert die Ausgabeeinheit 14 das in S108 ermittelte Erkennungsrechteck mit dem Bild des aktuellen Bildes. Damit ist die Ausgabe des Erkennungsrechtecks im aktuellen Bild beendet.
  • (Wirkungen)
  • In der oben beschriebenen ersten Ausführungsform vergleicht die Informationsverarbeitungsvorrichtung 1 die Konfidenz eines beweglichen Objekts im aktuellen Bild, die mit dem Begrenzungsrechteck berechnet wird, das das bewegliche Objekt umschreibt, mit der Konfidenz des beweglichen Objekts im aktuellen Bild, die mit dem Erkennungsrechteck für dasselbe bewegliche Objekt berechnet wird, das im vorherigen Bild erfasst wurde. Die Informationsverarbeitungsvorrichtung 1 bestimmt von den dem Konfidenzvergleich unterzogenen Rechtecken ein Rechteck mit einer größeren Konfidenz als das Erkennungsrechteck für das bewegliche Objekt im aktuellen Bild. Mit dem Erkennungsrechteck, das eine größere Konfidenz hat, erfasst die Informationsverarbeitungsvorrichtung 1 das bewegliche Objekt mit höherer Genauigkeit und gibt Erkennungsrechtecke stabil aus.
  • Wenn die Konfidenz des beweglichen Objekts, die mit dem Begrenzungsrechteck im aktuellen Bild berechnet wird, größer als der vorbestimmte Schwellenwert (erster Schwellenwert) ist, zeichnet die Informationsverarbeitungsvorrichtung 1 das Begrenzungsrechteck als das Erkennungsrechteck für das bewegliche Objekt im aktuellen Rahmen auf. Wenn die Konfidenz größer als der vorbestimmte Schwellenwert ist, führt die Informationsverarbeitungsvorrichtung 1 keinen Vergleich mit der Konfidenz durch, die mit dem Erkennungsrechteck im vorherigen Rahmen berechnet wurde, und hat somit eine geringere Verarbeitungslast.
  • Die Informationsverarbeitungsvorrichtung 1 bestimmt, ob das im aktuellen Bild erfasste bewegliche Objekt dasselbe Objekt ist wie das im vorherigen Bild erfasste bewegliche Objekt in S105 und S106 in dem in 4 gezeigten Erkennungsrechteck-Ausgabevorgang. Das Objektidentifizierungsverfahren unter Verwendung des Abstands zwischen den Zentren, die unter Bezugnahme auf 5A beschrieben ist, und das Objektidentifizierungsverfahren unter Verwendung von IoU, die unter Bezugnahme auf 5B beschrieben ist, können mit einem geringeren Aufwand als die Objektidentifizierungsverfahren unter Verwendung von maschinellem Lernen, die unter Bezugnahme auf 5C beschrieben ist, bestimmen, ob die Objekte gleich sind. Das mit Bezug auf 5C beschriebene Objektidentifizierungsverfahren mit maschinellem Lernen kann genauer bestimmen, ob die Objekte gleich sind als das Objektidentifizierungsverfahren mit dem Abstand zwischen den Zentren und das Objektidentifizierungsverfahren mit IoU.
  • < Zweite Ausführungsform>
  • In der ersten Ausführungsform, wenn die mit dem Begrenzungsrechteck für das im aktuellen Bild erfasste bewegliche Objekt berechnete Konfidenz größer als der vorbestimmte Schwellenwert ist, bestimmt die Informationsverarbeitungsvorrichtung 1 das Begrenzungsrechteck im aktuellen Bild als das Erkennungsrechteck für das erfasste bewegliche Objekt ohne Vergleich mit der mit dem Erkennungsrechteck im vorherigen Bild berechneten Konfidenz. Die Informationsverarbeitungsvorrichtung 1 gemäß einer zweiten Ausführungsform führt unabhängig von der mit dem Begrenzungsrechteck für das im aktuellen Bild erfasste bewegliche Objekt berechneten Konfidenz einen Vergleich mit der mit dem Erkennungsrechteck für dasselbe im vorherigen Bild erfasste bewegliche Objekt berechneten Konfidenz durch und bestimmt das Rechteck mit einer größeren Konfidenz als das Erkennungsrechteck für das im aktuellen Bild erfasste bewegliche Objekt.
  • Die Hardwarekonfiguration und die funktionellen Komponenten der Informationsverarbeitungsvorrichtung 1 gemäß der zweiten Ausführungsform sind die gleichen wie bei der ersten Ausführungsform und werden nicht beschrieben. 6 ist ein Flussdiagramm eines Beispiels eines Erkennungsrechteck-Ausgabevorganges in der zweiten Ausführungsform. Der Ausgabevorgang des Erkennungsrechtecks in der zweiten Ausführungsform unterscheidet sich von dem in 4 dargestellten Ausgabevorgang des Erkennungsrechtecks in der ersten Ausführungsform durch die Eliminierung des Bestimmungsvorgangs in S104. Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie bei dem Erkennungsrechteck-Ausgabevorgang in der ersten in 4 gezeigten Ausführungsform, und diese Verarbeitung wird nicht beschrieben. Der Erkennungsrechteck-Ausgabevorgang in der zweiten, in 6 dargestellten Ausführungsform kann auch durch Einstellen des Schwellenwerts TH1 in S104 auf den maximalen Konfidenzwert in dem in 4 dargestellten Erkennungsrechteck-Ausgabevorgang durchgeführt werden.
  • In der zweiten Ausführungsform vergleicht der Bestimmer 123 für bewegliche Objekte, unabhängig davon, ob die mit dem Begrenzungsrechteck berechnete Konfidenz des beweglichen Objekts i größer als der Schwellenwert TH1 ist, die mit dem Begrenzungsrechteck berechnete Konfidenz mit der mit dem Erkennungsrechteck für das im vorherigen Rahmen erfasste bewegliche Objekt j berechneten Konfidenz des beweglichen Objekts i. Unabhängig von der mit dem Begrenzungsrechteck berechneten Konfidenz des beweglichen Objekts i wird ein Rechteck aus Rechtecken, die das Erkennungsrechteck im vorherigen Bild enthalten, mit einer größeren Konfidenz verwendet. Dies erhöht die Genauigkeit eines auszugebenden Erkennungsrechtecks.
  • < Dritte Ausführungsform >
  • In einer dritten Ausführungsform wird kein Erkennungsrechteck ausgegeben, wenn die mit dem vom Bestimmer 124 für Erkennungsrechtecke ermittelten Erkennungsrechteck berechnete Konfidenz kleiner als oder gleich einem vorgegebenen Schwellenwert ist. Wenn die Konfidenz größer als der vorgegebene Schwellenwert ist, wird das Erkennungsrechteck ausgegeben. Die Informationsverarbeitungsvorrichtung 1 gibt kein Erkennungsrechteck aus, wenn die Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert ist, und gibt somit ständig Erkennungsrechtecke mit einer stabilen Konfidenz aus.
  • Die Hardwarekonfiguration und die funktionellen Komponenten der Informationsverarbeitungsvorrichtung 1 gemäß der dritten Ausführungsform sind die gleichen wie bei der ersten Ausführungsform und werden nicht beschrieben. Die 7 und 8 sind Flussdiagramme, die jeweils einen beispielhaften Erkennungsrechteck-Ausgabevorgang in der dritten Ausführungsform zeigen. Jeder Erkennungsrechteck-Ausgabevorgang in der dritten Ausführungsform umfasst zusätzlich zum Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform, der in 4 dargestellt ist, das Bestimmen, ob die mit dem Erkennungsrechteck berechnete Konfidenz größer als der vorbestimmte Schwellenwert ist (S701 und S801). Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie bei der Ausgabe des Erkennungsrechtecks in der in 4 gezeigten ersten Ausführungsform, und eine solche Verarbeitung wird hier nicht beschrieben.
  • Der Erkennungsrechteck-Ausgabevorgang in 7 und der Erkennungsrechteck-Ausgabevorgang in 8 unterscheiden sich voneinander durch den Zeitpunkt, zu dem bestimmt wird, ob die mit dem Erkennungsrechteck berechnete Konfidenz größer ist als ein vorbestimmter Schwellenwert TH2 (zweiter Schwellenwert). In 7 wird das Bestimmen, ob die mit dem Erkennungsrechteck berechnete Konfidenz größer als der vorbestimmte Schwellenwert TH2 ist, durchgeführt, bevor die Informationen über das Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 in S109 gespeichert werden. Wenn, mit anderen Worten, die mit dem Erkennungsrechteck berechnete Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert TH2 ist, wird kein Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 gespeichert oder ausgegeben. In 8 wird das Bestimmen, ob die mit dem Erkennungsrechteck berechnete Konfidenz größer als der vorbestimmte Schwellenwert TH2 ist, durchgeführt, bevor das Erkennungsrechteck in S110 ausgegeben wird. Mit anderen Worten: Wenn die mit dem Erkennungsrechteck berechnete Konfidenz kleiner oder gleich dem vorgegebenen Schwellenwert TH2 ist, wird das Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 gespeichert, aber nicht ausgegeben.
  • Im Beispiel von 7 wird als Reaktion auf das Bestimmen des Erkennungsrechtecks für das bewegliche Objekt i in der Schleifenverarbeitung L2 die Verarbeitung zu S701 fortgesetzt. In S701 bestimmt der Bestimmer 124 für Erkennungsrechtecke, ob die mit dem bestimmten Erkennungsrechteck berechnete Konfidenz größer als der vorbestimmte Schwellenwert TH2 ist. Der vorgegebene Schwellenwert TH2 kann beispielsweise auf einen Wert kleiner oder gleich dem Schwellenwert TH1 eingestellt werden. Wenn die mit dem ermittelten Erkennungsrechteck berechnete Konfidenz größer ist als der vorgegebene Schwellenwert TH2 (Ja in S701), wird die Verarbeitung mit S109 fortgesetzt. Wenn die mit dem ermittelten Erkennungsrechteck berechnete Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert TH2 ist (Nein in S701), geht die Verarbeitung weiter zur Schleifenverarbeitung L1 für das nächste bewegliche Objekt i + 1.
  • In S109 wird die Information über das ermittelte Erkennungsrechteck mit der Konfidenz größer als der vorbestimmte Schwellenwert TH2 in der Erkennungsrechteckdatenbank 13 gespeichert. In S110 gibt die Ausgabeeinheit 14 das in der Erkennungsrechteckdatenbank 13 gespeicherte Erkennungsrechteck für das im aktuellen Bild erfasste bewegliche Objekt aus. Mit anderen Worten, die Ausgabeeinheit 14 gibt in S104 das Begrenzungsrechteck für das bewegliche Objekt i aus, dessen Konfidenz größer als der vorbestimmte Schwellenwert TH1 ist, und in S701 das Erkennungsrechteck, dessen Konfidenz größer als der vorbestimmte Schwellenwert TH2 ist. Die Informationsverarbeitungsvorrichtung 1 gibt kein Rechteck mit einer Konfidenz aus, die kleiner oder gleich dem vorbestimmten Schwellenwert ist, und gibt somit ständig Erkennungsrechtecke mit einer stabilen Konfidenz aus.
  • Im Beispiel von 8 wird als Reaktion darauf, dass das Erkennungsrechteck für jedes bewegliche Objekt, das im aktuellen Bild erfasst wird, in der Erkennungsrechteck-Datenbank 13 in der Schleifenverarbeitung L1 aufgezeichnet wird, die Verarbeitung zu S801 fortgesetzt. In S801 bestimmt die Ausgabeeinheit 14, ob die mit dem Erkennungsrechteck für jedes in der Erkennungsrechteck-Datenbank 13 aufgezeichnete bewegliche Objekt berechnete Konfidenz größer als der vorbestimmte Schwellenwert TH2 ist.
  • Für jedes bewegliche Objekt mit einer Konfidenz, die größer ist als der vorgegebene Schwellenwert TH2 (Ja in S801), wird die Verarbeitung mit S110 fortgesetzt. Für jedes bewegliche Objekt mit einer Konfidenz, die kleiner oder gleich dem vorgegebenen Schwellenwert TH2 ist (Nein in S801), wird kein Erkennungsrechteck ausgegeben. Der in 8 gezeigte Ausgabevorgang des Erkennungsrechtecks für das aktuelle Bild endet.
  • In S110 gibt die Ausgabeeinheit 14 gezielt aus den in der Erkennungsrechteckdatenbank 13 gespeicherten Erkennungsrechtecken dasjenige Erkennungsrechteck aus, für das in S801 festgestellt wurde, dass seine Konfidenz größer als der vorgegebene Schwellenwert TH2 ist. Die Informationsverarbeitungsvorrichtung 1 gibt kein Rechteck mit einer Konfidenz aus, die kleiner oder gleich dem vorbestimmten Schwellenwert ist, und gibt somit ständig Erkennungsrechtecke mit einer stabilen Konfidenz aus.
  • < Vierte Ausführungsform >
  • Die Struktur gemäß einer vierten Ausführungsform ist darauf ausgelegt, die Situation zu vermeiden, in der ein Erkennungsrechteck für ein stationäres Objekt mit einer größeren Sicherheit als das Begrenzungsrechteck für ein bewegliches Objekt im aktuellen Bild ausgewählt und als Erkennungsrechteck für das bewegliche Objekt gespeichert wird. Die Hardwarekonfiguration und die funktionellen Komponenten de Informationsverarbeitungsvorrichtungsl gemäß der vierten Ausführungsform sind die gleichen wie bei der ersten Ausführungsform und werden nicht beschrieben.
  • Die Informationsverarbeitungsvorrichtung 1 identifiziert die Anzahl der aufeinanderfolgenden Rahmen (Bilder), von denen jeder eine Differenz größer als ein vorbestimmter Schwellenwert zwischen dem Begrenzungsrechteck für das bewegliche Objekt, das im aktuellen Rahmen erkannt wurde, und dem Erkennungsrechteck für das bewegliche Objekt, das im vorherigen Rahmen als dasselbe Objekt bestimmt wurde, aufweist. Wenn die Anzahl der aufeinanderfolgenden Bilder größer als eine vorbestimmte Anzahl ist, gibt die Informationsverarbeitungsvorrichtung 1 kein Erkennungsrechteck aus. Die Differenz kann z.B. eine Änderung der Fläche des Erkennungsrechtecks im vorhergehenden Rahmen zum Begrenzungsrechteck im aktuellen Rahmen sein, oder das Verhältnis einer solchen Flächenänderung zur Fläche des Erkennungsrechtecks im vorhergehenden Rahmen sein. Mit anderen Worten, wenn die Anzahl der Rahmen, die jeweils eine Differenz größer als der vorbestimmte Schwellenwert zwischen dem Begrenzungsrechteck für das bewegliche Objekt im aktuellen Rahmen und dem Erkennungsrechteck im vorherigen Rahmen aufweisen, kleiner als oder gleich der vorbestimmten Anzahl ist, zeichnet die Informationsverarbeitungsvorrichtung 1 das Erkennungsrechteck, das durch den Bestimmer 124 für Erkennungsrechtecke bestimmt wurde, als das Erkennungsrechteck für das bewegliche Objekt auf. Auf diese Weise kann die Informationsverarbeitungsvorrichtung 1 vermeiden, dass in den nachfolgenden Bildern das Erkennungsrechteck für das stationäre Objekt fälschlicherweise als Erkennungsrechteck für das bewegliche Objekt ausgewählt wird.
  • Ein Beispiel für die Verwendung der Struktur gemäß der vierten Ausführungsform wird nun unter Bezugnahme auf die 9A und 9B beschrieben. Im Beispiel von 9A wird ein Mensch als Erfassungsziel in einem Einzelbild erkannt. Ein Objekt 902 ist als bewegliches Objekt detektierbar und kann z. B. ein Ventilator sein. Ein Objekt 903 überlagert das Objekt 902 im Bild. Das Objekt 903 kann fälschlicherweise als Mensch erkannt werden. Bei dem Objekt 903 handelt es sich um ein beliebiges Objekt, wie z. B. einen Roboter, ein Poster, das einen fotografierten Menschen zeigt, einen Kleiderhaken oder ein Wandmuster, das das Objekt 902 überlappt und möglicherweise als Mensch erkannt wird. 9A zeigt ein Beispiel für die Verwendung der Struktur gemäß der vorliegenden Ausführungsform. Von der Kamera 2 aus gesehen, geht ein Mensch 901 vorbei und überlappt das Objekt 902.
  • 9B zeigt ein Beispielergebnis der Erkennung eines beweglichen Objekts in der Situation von 9A von Zeitpunkt T - 1 bis Zeitpunkt T + 1. Der Zeitpunkt T ist unmittelbar nachdem der Mensch 901 an der Position vorbeigegangen ist, die das Objekt 902 von der Kamera 2 aus gesehen überlappt.
  • In dem Einzelbild zum Zeitpunkt T - 1 wird der Mensch 901 in der Nähe des Objekts 902 erkannt, und ein Erkennungsrechteck A91 wird in der Erkennungsrechteckdatenbank 13 als das Erkennungsrechteck für den Menschen 901 aufgezeichnet. Wenn das Objekt 902 zum Zeitpunkt T erkannt wird, wird erwartet, dass der Bestimmer 123 für bewegliche Objekte anhand des Abstands zwischen dem Mittelpunkt eines Begrenzungsrechtecks A92 für das Objekt 902 und dem Mittelpunkt des Erkennungsrechtecks A91 für den Menschen 901 feststellt, dass der Mensch 901 zum Zeitpunkt T - 1 dasselbe Objekt ist wie das Objekt 902. In diesem Fall berechnet der Rechner 122 die Konfidenz des Objekts 902 anhand des Erkennungsrechtecks A91 für den Menschen 901. Aufgrund des Vorhandenseins des Objekts 903 ist die mit dem Erkennungsrechteck A91 berechnete Konfidenz des Objekts 902 (Konfidenz als Wahrscheinlichkeit, dass das Objekt ein Mensch ist) größer als die mit dem Begrenzungsrechteck A92 berechnete Konfidenz des Objekts 902. Dies veranlasst den Bestimmer 124 für Erkennungsrechtecke, das Erkennungsrechteck A91 zum Zeitpunkt T - 1 als das Erkennungsrechteck für das Objekt 902 zu bestimmen.
  • Wenn das Objekt 903 ein stationäres Objekt ist, bestimmt der Bestimmer 124 für Erkennungsrechtecke das Erkennungsrechteck A91 zum Zeitpunkt T - 1 und zum Zeitpunkt T als Erkennungsrechteck für das Objekt 902 auch zum Zeitpunkt T + 1, in der gleichen Weise wie für den Zeitpunkt T. Auch zu Zeitpunkten nach dem Zeitpunkt T + 1 wird das Erkennungsrechteck A91 fälschlicherweise in der Erkennungsrechteck-Datenbank 13 als Erkennungsrechteck für das Objekt 902 gespeichert.
  • Um diese Situation zu vermeiden, zeichnet die Informationsverarbeitungsvorrichtung 1 das Erkennungsrechteck A91 nicht in der Erkennungsrechteck-Datenbank 13 auf, wenn die vorbestimmte Anzahl von aufeinanderfolgenden Rahmen jeweils eine Differenz größer als ein vorbestimmter Schwellenwert TH3 zwischen dem Begrenzungsrechteck im aktuellen Rahmen und dem Erkennungsrechteck im vorherigen Rahmen aufweist.
  • Zum Beispiel kann die Differenz in dem Beispiel von 9B das Verhältnis der Änderung der Fläche von dem Erkennungsrechteck A91 zu dem Begrenzungsrechteck A92 zu der Fläche des Erkennungsrechtecks A91 in dem vorherigen Rahmen sein. In diesem Fall speichert die Informationsverarbeitungsvorrichtung 1 das Erkennungsrechteck A91 nicht in der Erkennungsrechteckdatenbank 13, wenn mehr als fünf aufeinanderfolgende Bilder jeweils eine Differenz aufweisen, die größer als der vorbestimmte Schwellenwert TH3 von 50 % ist. Mit anderen Worten, wenn weniger als fünf aufeinanderfolgende Rahmen jeweils eine Differenz aufweisen, die größer als der vorbestimmte Schwellenwert TH3 von 50 % ist, zeichnet die Informationsverarbeitungsvorrichtung 1 das Erkennungsrechteck A91 auf. Die Informationsverarbeitungsvorrichtung 1 bestimmt, ob jedes Erkennungsrechteck anhand der Differenz zwischen dem Erkennungsrechteck im vorherigen Rahmen und dem Begrenzungsrechteck im aktuellen Rahmen aufgezeichnet werden soll, um zu vermeiden, dass ständig mehr als eine vorbestimmte Anzahl von fehlerhaften Erkennungsrechtecken ausgegeben wird.
  • Die 10 und 11 sind Flussdiagramme, die jeweils einen beispielhaften Erkennungsrechteck-Ausgabevorgang in der vierten Ausführungsform zeigen. Jeder Erkennungsrechteck-Ausgabevorgang in der vierten Ausführungsform umfasst zusätzlich zu dem Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform, die in 4 dargestellt ist, das Bestimmen (S1001 bis S1004 und S1101 bis S1104) der Anzahl aufeinanderfolgender Rahmen, die jeweils einen Unterschied in den Rechtecken aufweisen, der größer als ein vorbestimmter Schwellenwert ist. Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie im Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform, die in 4 gezeigt ist, und eine solche Verarbeitung wird nicht beschrieben.
  • Der Erkennungsrechteck-Ausgabevorgang in 10 und der Erkennungsrechteck-Ausgabevorgang in 11 unterscheiden sich voneinander durch den Zeitpunkt, zu dem das Bestimmen durchgeführt wird, ob die Anzahl der aufeinanderfolgenden Rahmen, die jeweils einen Unterschied in den Rechtecken aufweisen, der größer ist als der vorbestimmte Schwellenwert TH3 (dritter Schwellenwert), größer ist als eine vorbestimmte Anzahl TH4. In 10 wird das Bestimmen, ob die Anzahl der aufeinanderfolgenden Rahmen größer als die vorbestimmte Anzahl TH4 ist, durchgeführt, bevor die Information über das Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 in S109 gespeichert wird. Mit anderen Worten, wenn die Anzahl der aufeinanderfolgenden Bilder kleiner oder gleich der vorbestimmten Anzahl ist, wird kein Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 gespeichert oder ausgegeben. In 11 wird das Bestimmen, ob die Anzahl der aufeinanderfolgenden Bilder größer als die vorgegebene Anzahl TH4 ist, vor der Ausgabe des Erkennungsrechtecks in S110 durchgeführt. Mit anderen Worten: Wenn die Anzahl der aufeinanderfolgenden Bilder kleiner oder gleich der vorgegebenen Anzahl TH4 ist, wird das Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 gespeichert, aber nicht ausgegeben.
  • Im Beispiel von 10 wird als Reaktion auf das Bestimmen des Erkennungsrechtecks für das bewegliche Objekt i in der Schleifenverarbeitung L2 die Verarbeitung zu S1001 fortgesetzt. In S1001 wird die Differenz zwischen dem Erkennungsrechteck im vorherigen Rahmen und dem Begrenzungsrechteck im aktuellen Rahmen berechnet. Die Differenz zwischen den Rechtecken kann beispielsweise als die Änderung der Fläche zwischen dem Begrenzungsrechteck für das bewegliche Objekt i und dem in S108 ermittelten Erkennungsrechteck für das bewegliche Objekt i berechnet werden. Die Differenz zwischen den Rechtecken wird zusammen mit den Informationen über das Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 gespeichert.
  • Der Bestimmer 124 für Erkennungsrechtecke bestimmt, ob die Differenz zwischen den Rechtecken für das bewegliche Objekt i größer als der vorbestimmte Schwellenwert TH3 ist. Wenn die Differenz zwischen den Rechtecken für das bewegliche Objekt i größer als der vorbestimmte Schwellenwert TH3 ist (Ja in S1001), wird die Verarbeitung zu S1002 fortgesetzt. Wenn die Differenz zwischen den Rechtecken für das bewegliche Objekt i kleiner oder gleich dem vorbestimmten Schwellenwert TH3 ist (Nein in S1001), geht die Verarbeitung zu S1003 weiter. In S1003 initialisiert der Bestimmer 124 für Erkennungsrechtecke die Anzahl F1 aufeinanderfolgender Rahmen, die jeweils eine Änderung der Differenz zwischen den Rechtecken aufweisen, die größer ist als der vorbestimmte Schwellenwert TH3. Die Verarbeitung geht dann zu S109 über, in dem das für das bewegliche Objekt i in S108 bestimmte Erkennungsrechteck in der Erkennungsrechteckdatenbank 13 aufgezeichnet wird.
  • In S1002 erhöht der Bestimmer 124 für Erkennungsrechtecke die Anzahl F1 von aufeinanderfolgenden Rahmen, die jeweils eine Differenz größer als der vorbestimmte Schwellenwert TH3 zwischen den Rechtecken für das bewegliche Objekt i aufweisen, um 1. Die Anzahl F1 von aufeinanderfolgenden Rahmen, die jeweils eine Differenz größer als der vorbestimmte Schwellenwert TH3 zwischen den Rechtecken für das bewegliche Objekt i aufweisen, wird in der Erkennungsrechteck-Datenbank 13 als Referenz bei der Verarbeitung jedes Rahmens aufgezeichnet.
  • In S1004 bestimmt der Bestimmer 124 für Erkennungsrechtecke, ob die Anzahl F1 der aufeinanderfolgenden Rahmen größer ist als die vorbestimmte Anzahl TH4. Wenn die Anzahl F1 der aufeinanderfolgenden Bilder größer ist als die vorbestimmte Anzahl TH4 (Ja in S1004), wird das Erkennungsrechteck für das bewegliche Objekt i nicht in der Erkennungsrechteck-Datenbank 13 aufgezeichnet, und die Verarbeitung geht weiter zur Schleifenverarbeitung L1. Wenn die Anzahl F1 der aufeinanderfolgenden Bilder kleiner oder gleich der vorbestimmten Anzahl TH4 ist (Nein in S1004), geht die Verarbeitung zu S109 weiter, in der das Erkennungsrechteck für das bewegliche Objekt i in der Erkennungsrechteckdatenbank 13 aufgezeichnet wird.
  • Die Informationsverarbeitungsvorrichtung 1 gibt kein Erkennungsrechteck aus, wenn die Anzahl der aufeinanderfolgenden Rahmen, die jeweils eine Differenz in den Rechtecken aufweisen, die größer als der vorbestimmte Schwellenwert ist, größer als die vorbestimmte Anzahl ist, wodurch die Ausgabe von fehlerhaften Erkennungsrechtecken reduziert wird.
  • Im Beispiel von 11 ist die Verarbeitung in S1101 bis S1103 ähnlich wie die Verarbeitung in S1001 bis S1003 in 10. Nach dem Inkrementieren der Anzahl F1 von aufeinanderfolgenden Frames um 1 in S1102 oder dem Initialisieren der Anzahl F1 auf 0 in S1103 speichert der Bestimmer 124 für Erkennungsrechtecke die Anzahl F1 von aufeinanderfolgenden Frames in der Erkennungsrechteck-Datenbank 13. In S109 speichert der Bestimmer 124 für Erkennungsrechtecke für eine beliebige Anzahl F1 von aufeinanderfolgenden Bildern die Informationen über das bewegliche Objekt i und das Erkennungsrechteck für das bewegliche Objekt i in der Erkennungsrechteck-Datenbank 13.
  • In Reaktion darauf, dass das Erkennungsrechteck für jedes im aktuellen Bild erfasste bewegliche Objekt in der Erkennungsrechteck-Datenbank 13 aufgezeichnet wurde, geht die Verarbeitung zu S1104 über. In S1104 bestimmt die Ausgabeeinheit 14, ob die Anzahl F1 der aufeinanderfolgenden Bilder größer ist als die vorgegebene Anzahl TH4.
  • Für jedes bewegliche Objekt i mit einer Anzahl F1 von aufeinanderfolgenden Rahmen, die größer ist als die vorbestimmte Anzahl TH4 (Ja in S1104), wird kein Erkennungsrechteck ausgegeben, und der in 11 gezeigte Erkennungsrechteck-Ausgabevorgang für den aktuellen Rahmen endet. In diesem Fall initialisiert die Ausgabeeinheit 14 die Anzahl F1 der aufeinanderfolgenden Bilder für das bewegliche Objekt i, das in der Erkennungsrechteckdatenbank 13 gespeichert ist, auf 0. Für jedes bewegliche Objekt i mit der Anzahl F1 der aufeinanderfolgenden Bilder, die kleiner oder gleich der vorbestimmten Anzahl TH4 ist (Nein in S1104), geht die Verarbeitung weiter zu S110.
  • In S110 gibt die Ausgabeeinheit 14 gezielt aus den in der Erkennungsrechteckdatenbank 13 gespeicherten Erkennungsrechtecken dasjenige Erkennungsrechteck aus, bei dem in S1104 festgestellt wurde, dass die Anzahl F1 der aufeinanderfolgenden Rahmen kleiner oder gleich der vorbestimmten Anzahl TH4 ist. Die Informationsverarbeitungsvorrichtung 1 gibt kein Erkennungsrechteck aus, wenn die Anzahl der aufeinanderfolgenden Rahmen, die jeweils eine Differenz in den Rechtecken aufweisen, die größer als der vorbestimmte Schwellenwert ist, größer als die vorbestimmte Anzahl ist, wodurch die Ausgabe von fehlerhaften Erkennungsrechtecken reduziert wird.
  • < Fünfte Ausführungsform >
  • Die Struktur gemäß einer fünften Ausführungsform gibt ein Erkennungsrechteck aus, wenn eine vorbestimmte Anzahl von aufeinanderfolgenden Bildern mit einer Konfidenz größer als ein vorbestimmter Schwellenwert erscheint. Wenn die Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert ist, gibt die Informationsverarbeitungsvorrichtung 1 kein Erkennungsrechteck aus und gibt somit ständig Erkennungsrechtecke mit einer stabilen Konfidenz aus.
  • Die Hardwarekonfiguration und die funktionellen Komponenten einer Informationsverarbeitungsvorrichtung 1 gemäß der fünften Ausführungsform sind die gleichen wie bei der ersten Ausführungsform und werden nicht beschrieben. 12 ist ein Flussdiagramm eines beispielhaften Erkennungsrechteck-Ausgabevorganges in der fünften Ausführungsform. Der Erkennungsrechteck-Ausgabevorgang in der fünften Ausführungsform umfasst zusätzlich zum Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform, die in 4 dargestellt ist, das Bestimmen (S1201 bis S1204) der Anzahl aufeinanderfolgender Bilder, die jeweils eine Konfidenz aufweisen, die größer ist als der vorgegebene Schwellenwert. Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie bei dem Erkennungsrechteck-Ausgabevorgang in der ersten in 4 gezeigten Ausführungsform, und eine solche Verarbeitung wird nicht beschrieben.
  • Im Beispiel von 12 wird, wenn die mit dem begrenzenden Rechteck berechnete Konfidenz größer als der vorbestimmte Schwellenwert TH1 in S104 ist (Ja in S104), die Verarbeitung zu S1202 fortgesetzt.
  • In S1202 erhöht der Bestimmer 124 für Erkennungsrechtecke die Anzahl F2 der aufeinanderfolgenden Rahmen, die jeweils eine Konfidenz größer als der vorbestimmte Schwellenwert aufweisen, um 1. Die Anzahl F2 der aufeinanderfolgenden Rahmen, die jeweils eine Konfidenz größer als der vorbestimmte Schwellenwert aufweisen, wird in der Erkennungsrechteckdatenbank 13 als Referenz bei der Verarbeitung jedes Rahmens gespeichert.
  • Als Reaktion auf das Bestimmen des Erkennungsrechtecks für das bewegliche Objekt i in der Schleifenverarbeitung L2 in 12 geht die Verarbeitung weiter zu S1201. In S1201 bestimmt der Bestimmer 124 für Erkennungsrechtecke, ob die mit dem in der Schleifenverarbeitung L2 bestimmten Erkennungsrechteck berechnete Konfidenz des beweglichen Objekts i größer als der vorbestimmte Schwellenwert TH1 ist. Wenn die mit dem ermittelten Erkennungsrechteck berechnete Konfidenz größer ist als der vorgegebene Schwellenwert TH1 (Ja in S1201), wird die Verarbeitung mit S1202 fortgesetzt. Wenn die mit dem ermittelten Erkennungsrechteck berechnete Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert TH1 ist (Nein in S1201), geht die Verarbeitung zu S109 weiter.
  • In S1202 erhöht der Bestimmer 124 für Erkennungsrechtecke die Anzahl F2 aufeinanderfolgender Rahmen, von denen jeder eine Konfidenz hat, die größer als der vorbestimmte Schwellenwert ist, um 1. In S109 zeichnet der Bestimmer 124 für Erkennungsrechtecke für eine beliebige Anzahl F2 aufeinanderfolgender Rahmen die Informationen über das bewegliche Objekt i und das Erkennungsrechteck für das bewegliche Objekt i in der Erkennungsrechteck-Datenbank 13 auf.
  • In S1203, wenn die in S1201 ermittelte Konfidenz kleiner oder gleich dem vorbestimmten Schwellenwert TH1 ist, ohne dass irgendwelche aufeinanderfolgenden Rahmen jeweils eine Konfidenz größer als der vorbestimmte Schwellenwert haben, initialisiert der Bestimmer 124 für Erkennungsrechtecke die Anzahl F2 der aufeinanderfolgenden Rahmen für das bewegliche Objekt i auf 0.
  • In Reaktion darauf, dass das Erkennungsrechteck für jedes im aktuellen Bild erfasste bewegliche Objekt in der Erkennungsrechteck-Datenbank 13 aufgezeichnet wurde, geht die Verarbeitung zu S1204 über. In S1204 bestimmt die Ausgabeeinheit 14, ob die Anzahl F2 der aufeinanderfolgenden Bilder größer als eine vorbestimmte Anzahl TH5 ist.
  • Für jedes bewegliche Objekt i, bei dem die Anzahl F2 der aufeinanderfolgenden Bilder größer als die vorgegebene Anzahl TH5 ist (Ja in S1204), geht die Verarbeitung weiter zu S110. Für jedes bewegliche Objekt i, bei dem die Anzahl F2 der aufeinanderfolgenden Bilder kleiner oder gleich der vorbestimmten Anzahl TH5 ist (Nein in S1204), wird kein Erkennungsrechteck ausgegeben, und der in 12 gezeigte Prozess der Ausgabe des Erkennungsrechtecks für das aktuelle Bild endet.
  • In S110 gibt die Ausgabeeinheit 14 gezielt aus den in der Erkennungsrechteckdatenbank 13 gespeicherten Erkennungsrechtecken dasjenige Erkennungsrechteck aus, bei dem in S1204 festgestellt wurde, dass die Anzahl F2 der aufeinanderfolgenden Bilder größer als die vorgegebene Anzahl TH5 ist. Wenn die Anzahl F2 der aufeinanderfolgenden Bilder kleiner oder gleich der vorgegebenen Anzahl TH5 ist, gibt die Informationsverarbeitungsvorrichtung 1 kein Erkennungsrechteck aus und gibt somit ständig Erkennungsrechtecke mit einer hohen Konfidenz aus.
  • < Sechste Ausführungsform >
  • In den obigen Ausführungsformen wird die mit dem Begrenzungsrechteck für das bewegliche Objekt im aktuellen Bild berechnete Konfidenz mit derjenigen Konfidenz verglichen, die mit dem Erkennungsrechteck für dasselbe bewegliche Objekt im vorherigen Bild berechnet wurde. In einer sechsten Ausführungsform wird die mit dem Begrenzungsrechteck für das bewegliche Objekt im aktuellen Rahmen berechnete Konfidenz mit der Konfidenz verglichen, die mit jedem der Erkennungsrechtecke für dasselbe bewegliche Objekt berechnet wurde, das in mehreren vorangegangenen Rahmen erfasst wurde. In der sechsten Ausführungsform gibt die Informationsverarbeitungsvorrichtung 1 als Erkennungsrechteck für das bewegliche Objekt im aktuellen Rahmen gezielt aus dem Begrenzungsrechteck im aktuellen Rahmen und den Erkennungsrechtecken in den mehreren vorangegangenen Rahmen dasjenige Rechteck mit der größten Konfidenz aus.
  • Die Hardwarekonfiguration und die funktionellen Komponenten der Informationsverarbeitungsvorrichtung 1 gemäß der sechsten Ausführungsform sind die gleichen wie bei der ersten Ausführungsform und werden nicht beschrieben. 13 ist ein Flussdiagramm eines beispielhaften Erkennungsrechteck-Ausgabevorganges in der sechsten Ausführungsform. Der Erkennungsrechteck-Ausgabevorgang in der sechsten Ausführungsform umfasst zusätzlich zu dem in 4 dargestellten Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform die Schleifenverarbeitung L3 der Prüfung vorangehender Bilder. Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie im Erkennungsrechteck-Ausgabevorgang in der ersten, in 4 dargestellten Ausführungsform, und eine solche Verarbeitung wird nicht beschrieben.
  • Im Beispiel von 13 wird die Schleifenverarbeitung L4 in S105, S106 und S1301 für jedes von k (k = 1 bis L) vorangehenden Bildern wiederholt. Die Anzahl L der zu untersuchenden vorangehenden Bilder kann z. B. fünf betragen und kann entsprechend der Verarbeitungszeit und der Verarbeitungslast festgelegt werden. In S1301 berechnet der Rechner 122 in der gleichen Weise wie in S107 in 4 die Sicherheit des beweglichen Objekts i, das aus dem aktuellen Bild herausgeschnitten wurde, unter Verwendung des Erkennungsrechtecks für das bewegliche Objekt jm, das als dasselbe Objekt wie das bewegliche Objekt i im aktuellen Bild bestimmt wurde.
  • In S1302 vergleicht der Bestimmer 124 für Erkennungsrechtecke die in jedem vorhergehenden Rahmen berechnete Konfidenz mit derjenigen Konfidenz, die mit dem in S103 berechneten Begrenzungsrechteck berechnet wurde. Der Bestimmer 124 für Erkennungsrechtecke bestimmt von den Rechtecken mit den zu vergleichenden Konfidenzen dasjenige Rechteck mit der größten Konfidenz als Erkennungsrechteck für das bewegliche Objekt i. Der Konfidenzvergleich in S1302 kann nach der Konfidenzberechnung in S1301 durchgeführt werden.
  • In der sechsten Ausführungsform vergleicht die Informationsverarbeitungsvorrichtung 1 die mit dem Erkennungsrechteck in jedem von mehreren vorangehenden Rahmen berechnete Konfidenz mit der mit dem Begrenzungsrechteck im aktuellen Rahmen berechneten Konfidenz. Die Informationsverarbeitungsvorrichtung 1 untersucht mehrere vorangehende Rahmen zusätzlich zu dem unmittelbar vorangehenden Rahmen, um die mit dem ausgegebenen Erkennungsrechteck berechnete Konfidenz zu erhöhen und stabile Erkennungsrechtecke auszugeben.
  • < Siebte Ausführungsform >
  • In einer siebten Ausführungsform werden die Position und die Größe des Erkennungsrechtecks im vorherigen Bild korrigiert, und das korrigierte Erkennungsrechteck wird zur Berechnung der Konfidenz des im aktuellen Bild erfassten beweglichen Objekts verwendet. Die Verwendung des Erkennungsrechtecks im vorherigen Bild für das aktuelle Bild kann aufgrund der Bewegung des beweglichen Objekts im aktuellen Bild gegenüber dem vorherigen Bild nicht die beabsichtigte Konfidenz ergeben. Die Informationsverarbeitungsvorrichtung 1 korrigiert daher die Position oder die Größe des Erkennungsrechtecks im vorherigen Bild, um die Konfidenz anhand des Erkennungsrechtecks im vorherigen Bild zu verbessern.
  • Die Hardwarekonfiguration der Informationsverarbeitungsvorrichtung 1 gemäß der siebten Ausführungsform ist die gleiche wie bei der ersten Ausführungsform und wird nicht beschrieben. 14 ist ein funktionales Blockdiagramm der Informationsverarbeitungsvorrichtung gemäß der siebten Ausführungsform. Die Informationsverarbeitungsvorrichtung 1 in der siebten Ausführungsform enthält zusätzlich zu den in der ersten Ausführungsform in 3 gezeigten Funktionskomponenten einen Korrektor 125. Die gleichen Bezugsziffern bezeichnen die gleichen funktionellen Komponenten wie in 3, und solche Komponenten werden nicht beschrieben.
  • Der Korrektor 125 korrigiert das Erkennungsrechteck im vorherigen Bild für dasselbe Objekt wie das im aktuellen Bild erfasste bewegliche Objekt. Die Korrektur des Erkennungsrechtecks wird nun unter Bezugnahme auf 15 beschrieben. Das aktuelle Bild wird zum Zeitpunkt T aufgenommen, das vorherige Bild zum Zeitpunkt T - 1 und das Bild vor dem vorherigen Bild zum Zeitpunkt T - 2. Ein Rechteck A151 ist das Erkennungsrechteck für das bewegliche Objekt, das in dem Bild vor dem vorherigen Bild erfasst wurde. Ein Rechteck A152 ist das Erkennungsrechteck für das bewegliche Objekt, das im vorherigen Bild erfasst wurde. Die Informationen über die Rechtecke A151 und A152 werden in der Erkennungsrechteck-Datenbank 13 gespeichert. Ein Rechteck A153 ist das Begrenzungsrechteck für das im aktuellen Bild erkannte bewegliche Objekt. Im Beispiel von 15 wird der Kopf des Menschen nicht als bewegliches Objekt erkannt, und das Rechteck A153 umgibt den Bereich ohne den Kopf.
  • Wenn das Rechteck A152 aus dem vorherigen Bild ohne Korrektur für das aktuelle Bild verwendet wird, weist das Rechteck A152 aufgrund der Bewegung des beweglichen Objekts eine Differenz in der Position des beweglichen Objekts gegenüber dem aktuellen Bild auf. Daher kann die mit dem Rechteck A152 berechnete Konfidenz geringer sein als die mit dem Rechteck A153 berechnete Konfidenz, in dem der Kopf nicht als bewegliches Objekt erkannt wird.
  • Die Korrektureinrichtung 125 korrigiert die Position und die Größe des Rechtecks A152 im vorherigen Bild, um es an der Position des beweglichen Objekts im aktuellen Bild auszurichten. Die Korrektureinrichtung 125 kann eine geschätzte Breite, Höhe und Mittelkoordinaten des Rechtecks im aktuellen Bild berechnen, beispielsweise anhand der Änderungen der Breite, Höhe und Mittelkoordinaten des Rechtecks A152 im vorherigen Bild und des Rechtecks A151 im Bild vor dem vorherigen Bild.
  • Genauer gesagt kann der Korrektor 125 die Richtung und den Abstand der Bewegung des beweglichen Objekts anhand der Mittelkoordinaten der Erkennungsrechtecke im vorherigen Bild und im Bild vor dem vorherigen Bild schätzen und die Mittelkoordinaten im aktuellen Bild berechnen. Der Korrektor 125 kann den Durchschnitt der Breiten und Höhen der Erkennungsrechtecke im vorherigen Bild und im Bild vor dem vorherigen Bild als die Breite und Höhe im aktuellen Bild berechnen. Die Korrektureinrichtung 125 erzeugt anhand der berechneten Schätzungen ein korrigiertes Rechteck A154.
  • Mit der anhand des korrigierten Rechtecks A154 berechneten Konfidenz des beweglichen Objekts im aktuellen Rahmen gibt die Informationsverarbeitungsvorrichtung 1 das Erkennungsrechteck mit einer größeren Konfidenz aus. Das korrigierte Rechteck kann anhand der Informationen über das Begrenzungsrechteck im aktuellen Rahmen und die Erkennungsrechtecke in mehreren vorhergehenden Rahmen erzeugt werden, nicht anhand der Informationen über die Erkennungsrechtecke im vorherigen Rahmen und im Rahmen vor dem vorherigen Rahmen.
  • 16 ist ein Flussdiagramm eines Beispiels eines Erkennungsrechteck-Ausgabevorganges in der siebten Ausführungsform. Der Erkennungsrechteck-Ausgabevorgang in der siebten Ausführungsform beinhaltet anstelle der Verarbeitung in S107 und S108 im Erkennungsrechteck-Ausgabevorgang in der ersten Ausführungsform, die in 4 gezeigt ist, die Korrektur des Erkennungsrechtecks im vorherigen Rahmen und die Berechnung der Konfidenz mit dem korrigierten Rechteck (S1601 bis S1603). Die gleichen Bezugsziffern bezeichnen die gleiche Verarbeitung wie bei der Ausgabe des Erkennungsrechtecks in der ersten in 4 gezeigten Ausführungsform, und eine solche Verarbeitung wird nicht beschrieben.
  • Im Beispiel von 16 wird für das bewegliche Objekt jm, das in S106 als dasselbe Objekt wie das bewegliche Objekt i im aktuellen Bild bestimmt wurde, die Verarbeitung zu S1601 fortgesetzt. In S1601 korrigiert die Korrektureinrichtung 125 das Erkennungsrechteck für das bewegliche Objekt jm anhand der Positions- und Größenänderung zwischen dem Erkennungsrechteck für das bewegliche Objekt jm und dem Erkennungsrechteck für das bewegliche Objekt, das als dasselbe Objekt wie das bewegliche Objekt i in dem Bild vor dem vorherigen Bild bestimmt wurde.
  • In S1602 berechnet der Rechner 122 die Konfidenz des aus dem aktuellen Bild ausgeschnittenen beweglichen Objekts i mit dem in S1601 korrigierten Rechteck. In S1603 vergleicht der Bestimmer 124 für Erkennungsrechtecke die in S1602 berechnete Konfidenz mit der in S103 mit dem Begrenzungsrechteck berechneten Konfidenz. Wenn die mit dem Begrenzungsrechteck für das bewegliche Objekt i im aktuellen Bild berechnete Konfidenz größer ist als die mit dem korrigierten Rechteck berechnete Konfidenz, bestimmt der Bestimmer 124 für Erkennungsrechtecke das Begrenzungsrechteck als das Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild. Wenn die mit dem korrigierten Rechteck berechnete Konfidenz größer ist als die mit dem Begrenzungsrechteck berechnete Konfidenz, bestimmt der Bestimmer 124 für Erkennungsrechtecke das korrigierte Rechteck als das Erkennungsrechteck für das bewegliche Objekt i im aktuellen Bild.
  • In der siebten Ausführungsform korrigiert der Korrektor 125 das Erkennungsrechteck für das bewegliche Objekt, das im vorherigen Bild erfasst wurde, anhand des Erkennungsrechtecks im Bild vor dem vorherigen Bild. Die Informationsverarbeitungsvorrichtung 1 korrigiert das Erkennungsrechteck im vorherigen Bild und verwendet das korrigierte Rechteck für das aktuelle Bild, wodurch die Konfidenz des beweglichen Objekts verbessert wird.
  • <Sonstiges>
  • Die obigen Ausführungsbeispiele beschreiben beispielhafte Strukturen gemäß einem oder mehreren Aspekten der vorliegenden Erfindung. Die Komponenten in den obigen Ausführungsformen sind nicht auf die oben beschriebenen spezifischen Beispiele beschränkt, sondern können miteinander kombiniert werden, wie im Rahmen der technischen Erfindungsideen der vorliegenden Erfindung geeignet. Die vorliegende Erfindung kann auch auf verschiedene Weise modifiziert werden, ohne den Rahmen der technischen Erfindungsideen zu verlassen.
  • In jeder der oben beschriebenen Ausführungsformen ist die Konfidenz als Wahrscheinlichkeit, dass es sich bei einem Objekt um einen Menschen handelt, die Konfidenz als Wahrscheinlichkeit, dass es sich bei einem Objekt um keine bestimmte Person handelt, aber die Konfidenz ist nicht darauf beschränkt. Die Konfidenz kann die Wahrscheinlichkeit sein, dass es sich bei einem Objekt um eine bestimmte Person als Erkennungsziel handelt.
  • In jeder der oben beschriebenen Ausführungsformen sind der vorherige Rahmen oder die mehreren vorhergehenden Rahmen aufeinanderfolgend, aber die Rahmen sind nicht darauf beschränkt. Die Informationsverarbeitungsvorrichtung 1 kann alle zwei oder drei oder mehr vorangegangenen Rahmen untersuchen und ein Rechteck mit einer größeren Sicherheit als das Erkennungsrechteck im aktuellen Rahmen ausgeben.
  • In jeder der oben beschriebenen Ausführungsformen wird das Erkennungsrechteck für das bewegliche Objekt, das in einem Bild vor dem aktuellen Bild erfasst wurde, verwendet, um die Konfidenz des beweglichen Objekts im aktuellen Bild zu berechnen, aber das für die Berechnung verwendete Bild ist nicht darauf beschränkt. Die Informationsverarbeitungsvorrichtung 1 kann für ein bereits aufgenommenes Video ein Begrenzungsrechteck für ein bewegliches Objekt in einem Bild verwenden, das später als das aktuelle Bild liegt, um die Konfidenz des beweglichen Objekts im aktuellen Bild zu berechnen. Wenn in diesem Fall die mit dem Begrenzungsrechteck für das bewegliche Objekt, das in einem späteren Bild erkannt wurde, berechnete Konfidenz größer als die mit dem Begrenzungsrechteck für das bewegliche Objekt im aktuellen Bild berechnete Konfidenz ist, bestimmt das Informationsverarbeitungsvorrichtung 1 das Begrenzungsrechteck im späteren Bild als das Erkennungsrechteck im aktuellen Bild.
  • <Anhang 1 >
  • (1) Ein Informationsverarbeitungsvorrichtung (1), die Folgendes umfasst:
    • einen Detektor (121), der eingerichtet ist, ein bewegliches Objekt in einem Einzelbild eines Videos zu erkennen;
    • einen Rechner (122), der eingerichtet ist, die Wahrscheinlichkeit zu berechnen, dass das erfasste bewegliche Objekt ein vorbestimmtes Objekt ist; und
    • einen Erfassungsbereichsbestimmer (124), der eingerichtet ist, Erfassungsbereich für ein erstes bewegliches Objekt, das in einem ersten Rahmen erfasst wird, anhand einer Konfidenz des ersten beweglichen Objekts, das mit einem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt, und anhand einer Konfidenz des ersten beweglichen Objekts in dem ersten Rahmen, das mit einem Erfassungsbereich für ein zweites bewegliches Objekt berechnet wird, das in einem zweiten Rahmen vor dem ersten Rahmen erfasst wird, zu bestimmen und den bestimmten Erfassungsbereich in einem Aufzeichnungsgerät aufzuzeichnen.
  • (2) Ein Informationsverarbeitungsverfahren, das mit einem Computer implementierbar ist, wobei das Verfahren umfasst:
    • (S101) Erkennen eines ersten beweglichen Objekts in einem ersten Bild in einem Video;
    • (S103, S107) Berechnen einer Wahrscheinlichkeit, dass das erste bewegliche Objekt ein vorbestimmtes Objekt ist, unter Verwendung eines Bereichs, der das erste bewegliche Objekt umschreibt, und unter Verwendung eines Erfassungsbereichs für ein zweites bewegliches Objekt, das in einem zweiten Rahmen, der dem ersten Rahmen vorausgeht, erfasst wird, wobei der Erfassungsbereich in einem Aufzeichnungsgerät aufgezeichnet wird; und
    • (S108, S109) Bestimmen eines Erfassungsbereichs für das erste bewegliche Objekt anhand einer Konfidenz des ersten beweglichen Objekts, die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnet wird, und anhand einer Konfidenz des ersten beweglichen Objekts in dem ersten Rahmen, die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnet wird, und Aufzeichnen des bestimmten Erfassungsbereichs in dem Aufzeichnungsgerät.
  • Bezugszeichenliste
  • 1
    Informationsverarbeitungsvorrichtung
    2
    Kamera
    11
    Bildempfänger
    12
    Verarbeitungseinheit
    121
    Detektor
    122
    Rechner
    123
    Bestimmer
    124
    Bestimmer
    125
    Korrektor
    13
    Erkennungsrechteckdatenbank
    14
    Ausgabeeinheit
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2000105835 [0003]

Claims (19)

  1. Informationsverarbeitungsvorrichtung, umfassend: einen Detektor, der eingerichtet ist, ein bewegliches Objekt in einem Einzelbild eines Videos zu erkennen; einen Rechner, der eingerichtet ist, die Wahrscheinlichkeit zu berechnen, dass das erfasste bewegliche Objekt ein vorbestimmtes Objekt ist; und einen Erfassungsbereichsbestimmer, der eingerichtet ist, einen Erfassungsbereich für ein erstes bewegliches Objekt, das in einem ersten Rahmen erfasst wird, anhand einer Konfidenz des ersten beweglichen Objekts, die mit einem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt, und anhand einer Konfidenz des ersten beweglichen Objekts in dem ersten Rahmen, die mit einem Erfassungsbereich für ein zweites bewegliches Objekt berechnet wird, das in einem zweiten Rahmen, der dem ersten Rahmen vorausgeht, erfasst wird, zu bestimmen und den bestimmten Erfassungsbereich in einem Aufzeichnungsgerät aufzuzeichnen.
  2. Informationsverarbeitungsvorrichtung nach Anspruch 1, ferner umfassend: ein Bestimmer für bewegliche Objekte, die eingerichtet ist, aus einer Vielzahl von beweglichen Objekten, die in dem zweiten Bild erfasst werden, gezielt zu bestimmen, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist.
  3. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei der Bestimmer für bewegliche Objekte anhand eines Abstands zwischen einer Mitte des Bereichs, der das erste bewegliche Objekt umschreibt, und einer Mitte eines Erfassungsbereichs für jedes der mehreren beweglichen Objekte, die in dem zweiten Rahmen erfasst werden, bestimmt, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist.
  4. Informationsverarbeitungsvorrichtung nach Anspruch 2 oder Anspruch 3, wobei der Bestimmer für bewegliche Objekte anhand eines Verhältnisses eines Überlappungsbereichs zwischen dem Bereich, der das erste bewegliche Objekt umschreibt, und dem Erfassungsbereich für jedes der mehreren beweglichen Objekte, die in dem zweiten Rahmen erfasst werden, zu einem Bereich, der von dem Bereich, der das erste bewegliche Objekt umschreibt, und dem Erfassungsbereich abgedeckt wird, bestimmt, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist.
  5. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 2 bis 4, wobei der Bestimmer für bewegliche Objekte indem er das erste bewegliche Objekt und jedes der mehreren beweglichen Objekte, die in dem zweiten Bild erfasst wurden, unter Verwendung eines auf maschinellem Lernen basierenden Anpassungsalgorithmus abgleicht, bestimmt, dass das zweite bewegliche Objekt dasselbe Objekt wie das erste bewegliche Objekt ist.
  6. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 2 bis 5, wobei der Bestimmer für bewegliche Objekte gezielt aus beweglichen Objekten, die in jedem einer Vielzahl von Rahmen vor dem ersten Rahmen erfasst wurden, ein bewegliches Objekt bestimmt, das dasselbe Objekt ist wie das erste bewegliche Objekt in jedem der Vielzahl von Rahmen, und als Reaktion auf die Konfidenz des ersten beweglichen Objekts, die mit Erfassungsbereichen für bewegliche Objekte berechnet wird, die in der Vielzahl von Rahmen als dasselbe Objekt wie das erste bewegliche Objekt bestimmt werden, wobei eine größte Konfidenz größer als die Konfidenz des ersten beweglichen Objekts ist, die mit dem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt und der Erfassungsbereichsbestimmer einen Erfassungsbereich mit der größten Konfidenz als den Erfassungsbereich für das erste bewegliche Objekt bestimmt.
  7. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 6, wobei In Reaktion auf die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts größer als ein erster Schwellenwert ist, der Erfassungsbereichsbestimmer den das erste bewegliche Objekt umschreibenden Bereich als den Erfassungsbereich für das erste bewegliche Objekt bestimmt.
  8. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 7, wobei in Reaktion darauf, dass die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnete Konfidenz des ersten beweglichen Objekts größer ist als die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts, der Erfassungsbereichsbestimmer den Erfassungsbereich für das zweite bewegliche Objekt als den Erfassungsbereich für das erste bewegliche Objekt bestimmt.
  9. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 8, wobei in Reaktion darauf, dass die mit dem ermittelten Erfassungsbereich für das erste bewegliche Objekt berechnete Konfidenz größer als ein zweiter Schwellenwert ist, der Erfassungsbereichsbestimmer den Erfassungsbereich für das erste bewegliche Objekt in dem Aufzeichnungsgerät aufzeichnet.
  10. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 9, wobei in Reaktion darauf, dass die Konfidenz des ersten beweglichen Objekts, die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnet wird, größer ist als die Konfidenz des ersten beweglichen Objekts, die mit dem Bereich berechnet wird, der das erste bewegliche Objekt umschreibt, und dass eine Anzahl aufeinanderfolgender Rahmen, von denen jeder eine Differenz aufweist, die größer als ein dritter Schwellenwert zwischen dem Bereich, der das erste bewegliche Objekt umschreibt, und dem Erfassungsbereich für das zweite bewegliche Objekt ist, kleiner oder gleich einer vorbestimmten Anzahl ist, der Erfassungsbereichsbestimmer den Erfassungsbereich für das zweite bewegliche Objekt als den Erfassungsbereich für das erste bewegliche Objekt bestimmt und den bestimmten Erfassungsbereich für das erste bewegliche Objekt in dem Aufzeichnungsgerät aufzeichnet.
  11. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 10, ferner umfassend: eine Ausgabeeinheit, die eingerichtet ist, den im Aufzeichnungsgerät aufgezeichneten Erfassungsbereich für das erste bewegliche Objekt dem ersten Rahmen zu überlagern und den dem ersten Rahmen überlagerten Erfassungsbereich auszugeben.
  12. Informationsverarbeitungsvorrichtung nach Anspruch 11, wobei in Reaktion auf eine Konfidenz, die damit berechnet wird, dass der Erfassungsbereich für das erste bewegliche Objekt, das im Aufzeichnungsgerät aufgezeichnet ist, größer als ein zweiter Schwellenwert ist, die Ausgabeeinheit den Erfassungsbereich für das erste bewegliche Objekt ausgibt.
  13. Informationsverarbeitungsvorrichtung nach Anspruch 11 oder Anspruch 12, wobei in Reaktion darauf, dass die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnete Konfidenz des ersten beweglichen Objekts größer ist als die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnete Konfidenz des ersten beweglichen Objekts und dass eine Anzahl aufeinanderfolgender Rahmen, von denen jeder eine Differenz aufweist, die größer als ein dritter Schwellenwert zwischen dem das erste bewegliche Objekt umschreibenden Bereich und dem Erfassungsbereich für das zweite bewegliche Objekt ist, kleiner als oder gleich einer vorbestimmten Anzahl ist, die Ausgabeeinheit den im Aufzeichnungsgerät aufgezeichneten Erfassungsbereich für das erste bewegliche Objekt ausgibt.
  14. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 11 bis 13, wobei in Reaktion auf eine Anzahl aufeinanderfolgender Rahmen, von denen jeder eine berechnete Konfidenz aufweist, bei der der ermittelte Erfassungsbereich für das erste bewegliche Objekt größer ist als ein erster Schwellenwert, der größer ist als eine vorbestimmte Anzahl, die Ausgabeeinheit den Erfassungsbereich für das erste bewegliche Objekt ausgibt.
  15. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 14, ferner umfassend: eine Korrektureinrichtung, die eingerichtet ist, den Erfassungsbereich für das zweite bewegliche Objekt anhand einer Änderung der Position und der Größe von dem Erfassungsbereich für das zweite bewegliche Objekt zu einem Erfassungsbereich für ein bewegliches Objekt zu korrigieren, das als dasselbe Objekt wie das erste bewegliche Objekt in einem dem zweiten Rahmen vorausgehenden Rahmen bestimmt wurde.
  16. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 15, wobei der Detektor das bewegliche Objekt durch Interframe-Subtraktion und/oder Hintergrund-Subtraktion erkennt.
  17. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 16, wobei der Rechner die Wahrscheinlichkeit berechnet, dass es sich bei dem erkannten beweglichen Objekt um das vorbestimmte Objekt handelt, indem er einen Diskriminator verwendet, der auf mindestens einem neuronalen Netzwerk, Boosting oder einer Support-Vektor-Maschine basiert.
  18. Informationsverarbeitungsverfahren, das mit einem Computer implementierbar ist, wobei das Verfahren umfasst: Erkennen eines ersten beweglichen Objekts in einem ersten Rahmen in einem Video; Berechnen der Wahrscheinlichkeit, dass es sich bei dem ersten beweglichen Objekt um ein vorbestimmtes Objekt handelt, unter Verwendung eines Bereichs, der das erste bewegliche Objekt umschreibt, und unter Verwendung eines Erfassungsbereichs für ein zweites bewegliches Objekt, das in einem zweiten Rahmen vor dem ersten Rahmen erfasst wird, wobei der Erfassungsbereich in einem Aufzeichnungsgerät aufgezeichnet wird; und Bestimmen eines Erfassungsbereichs für das erste bewegliche Objekt anhand einer Konfidenz des ersten beweglichen Objekts, die mit dem das erste bewegliche Objekt umschreibenden Bereich berechnet wird, und anhand einer Konfidenz des ersten beweglichen Objekts in dem ersten Rahmen, die mit dem Erfassungsbereich für das zweite bewegliche Objekt berechnet wird, und Aufzeichnen des bestimmten Erfassungsbereichs in dem Aufzeichnungsgerät.
  19. Programm, das einen Computer veranlasst, Operationen auszuführen, die in dem Informationsverarbeitungsverfahren nach Anspruch 18 enthalten sind.
DE112021006829.6T 2021-01-18 2021-09-14 Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren Pending DE112021006829T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2021-005855 2021-01-18
JP2021005855A JP2022110441A (ja) 2021-01-18 2021-01-18 情報処理装置および情報処理方法
PCT/JP2021/033706 WO2022153599A1 (ja) 2021-01-18 2021-09-14 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
DE112021006829T5 true DE112021006829T5 (de) 2023-11-16

Family

ID=82447070

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021006829.6T Pending DE112021006829T5 (de) 2021-01-18 2021-09-14 Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren

Country Status (5)

Country Link
US (1) US20240071028A1 (de)
JP (1) JP2022110441A (de)
CN (1) CN116802679A (de)
DE (1) DE112021006829T5 (de)
WO (1) WO2022153599A1 (de)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105835A (ja) 1998-07-28 2000-04-11 Hitachi Denshi Ltd 物体認識方法及び物体追跡監視装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4832894B2 (ja) * 2005-12-28 2011-12-07 セコム株式会社 画像センサ
CN106663325B (zh) * 2014-08-06 2020-06-16 索尼半导体解决方案公司 图像处理装置及其图像处理方法
JP6488647B2 (ja) * 2014-09-26 2019-03-27 日本電気株式会社 物体追跡装置、物体追跡システム、物体追跡方法、表示制御装置、物体検出装置、プログラムおよび記録媒体
JP6280020B2 (ja) * 2014-10-28 2018-02-14 セコム株式会社 移動物体追跡装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105835A (ja) 1998-07-28 2000-04-11 Hitachi Denshi Ltd 物体認識方法及び物体追跡監視装置

Also Published As

Publication number Publication date
WO2022153599A1 (ja) 2022-07-21
CN116802679A (zh) 2023-09-22
JP2022110441A (ja) 2022-07-29
US20240071028A1 (en) 2024-02-29

Similar Documents

Publication Publication Date Title
DE112019002547B4 (de) System und verfahren zum bestimmen eines standortes zur platzierung eines pakets
EP1119822B1 (de) Verfahren und system zur personenerkennung mit modellbasierter gesichtsfindung
DE60215743T2 (de) Verfahren und Rechnerprogrammprodukt zur Lagebestimmung von Gesichtsmerkmalen
DE60307583T2 (de) Auswertung der Schärfe eines Bildes der Iris eines Auges
DE102017111203B4 (de) Videoverarbeitungsvorrichtung, videoverarbeitungsverfahren und programm
DE602004002837T2 (de) Objekterkennung
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
CN111027504A (zh) 人脸关键点检测方法、装置、设备及存储介质
DE112016005412T5 (de) Überwachungsvorrichtung, Überwachungssystem und Überwachungsverfahren
DE19634768A1 (de) Vorrichtung und Verfahren zur Erfassung eines Gesichts in einem Videobild
DE112007000371T5 (de) Objekterkennungssystem und -Verfahren
DE102015102113A1 (de) Verfahren zum warnen eines benutzers über einen abstand zwischen augen des benutzers und einem bildschirm
DE112020001202T5 (de) Objektverfolgungsvorrichtung und Objektverfolgungsverfahren
DE102009038364A1 (de) Verfahren und System zur automatischen Objekterkennung und anschließenden Objektverfolgung nach Maßgabe der Objektform
DE112017007246T5 (de) Bildanalysevorrichtung, bildanalyseverfahren und bildanalyseprogramm
DE102008001076A1 (de) Verfahren, Vorrichtung sowie Computerprogramm zur Auflösungsreduktion eines Eingangsbilds
DE112021003775T5 (de) Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
EP2590141B1 (de) Verfahren und Vorrichtung zur Detektion bewegter Objekte in einer Videobildsequenz
DE112020001706T5 (de) Personenerkennungsvorrichtung und personenerkennungsverfahren
DE112019006414T5 (de) Vorrichtung und Verfahren zur Detektion von Menschen
DE112017004394T5 (de) Gestenbeurteilungseinrichtung, Gestenbedienungseinrichtung und Gestenbeurteilungsverfahren
DE112019006463T5 (de) Personendetektionsvorrichtung und personendetektionsverfahren
DE112021005703T5 (de) Informationsverarbeitungseinrichtung und informationsverarbeitungsverfahren
DE112013003541T5 (de) Verfahren, Programm und System zur Merkmalextraktion
DE112021006829T5 (de) Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren

Legal Events

Date Code Title Description
R012 Request for examination validly filed