DE112021003775T5 - Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren - Google Patents

Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren Download PDF

Info

Publication number
DE112021003775T5
DE112021003775T5 DE112021003775.7T DE112021003775T DE112021003775T5 DE 112021003775 T5 DE112021003775 T5 DE 112021003775T5 DE 112021003775 T DE112021003775 T DE 112021003775T DE 112021003775 T5 DE112021003775 T5 DE 112021003775T5
Authority
DE
Germany
Prior art keywords
moving object
person
information processing
coordinates
captured image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021003775.7T
Other languages
English (en)
Inventor
Daiki Shinkawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Omron Corp
Original Assignee
Omron Corp
Omron Tateisi Electronics Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Omron Corp, Omron Tateisi Electronics Co filed Critical Omron Corp
Publication of DE112021003775T5 publication Critical patent/DE112021003775T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

Eine Informationsverarbeitungsvorrichtung umfasst eine Bewegliches-Objekt-Erkennungsvorrichtung, die ein bewegliches Objekt aus einem mit einer Fischaugenkamera aufgenommenen Bild erkennt, einen Personen-Bestimmer, der bestimmt, ob das bewegliche Objekt eine Person ist, indem er einen Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, der das bewegliche Objekt enthält, mit einem Schwellenbereich vergleicht, der basierend auf einer Körpergröße der Person, die an einer Position des beweglichen Objekts in dem aufgenommenen Bild gemessen wird, eingestellt wird, und einen Personen-Detektor, der die Person aus dem Bewegungsobjektbereich, der das bewegliche Objekt enthält, das von dem Personen-Detektor als die Person bestimmt wird, erkennt.

Description

  • TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft eine Informationsverarbeitungsvorrichtung und ein Informationsverarbeitungsverfahren.
  • HINTERGRUND DER ERFINDUNG
  • Auf dem Markt der Fertigungsautomatisierung (FA) wurden Anwendungen zur Fertigungsoptimierung und Verbesserung der Sicherheit eingesetzt, um die Arbeitszeiten der Arbeiter in einer Produktionsstätte zu analysieren oder ihre Bewegungen anhand von Informationen über Personen, die mit Bildsensoren erkannt wurden, zu analysieren. Das mit Deep Learning unterstützte Erkennen von Personen ist jedoch sehr zeitaufwändig und eignet sich nicht für eine Echtzeitanalyse. In der Patentschrift 1 wird eine Technik beschrieben, mit welcher die Last der Verarbeitung beim Erkennen eines Objekts in einem bewegten Bild verringert werden kann, indem als Zielerfassungsbereich ein Bewegungsobjektbereich verwendet wird, der sich zwischen den Einzelbildern des bewegten Bildes ändert.
  • ENTGEGENHALTUNGEN
  • PATENTSCHRIFTEN
  • [Patentveröffentlichung 1] Die japanische Offenlegungsschrift Phase Nr. 2018-128885
  • FAZIT
  • TECHNISCHE AUFGABE
  • Der auf den Bewegungsobjektbereich begrenzte Zielerkennungsbereich kann als zu analysierende Objekte auch bewegliche Objekte in einer Fabrik umfassen, die keine Personen sind, beispielsweise Wellpappestücke, die auf einer Förderanlage transportiert werden. Die Last der Verarbeitung für das Erkennen von Personen wird dadurch nicht ausreichend reduziert. Das Erkennen von Objekten anhand von Informationen über die Gestalt eines Objekts kann eine Person, die ihre Gestalt je nach ihrer Körperhaltung ändert, möglicherweise nicht genau erkennen.
  • Ein oder mehrere Aspekte der vorliegenden Erfindung betreffen ein Verfahren zum Erkennen einer Person in Echtzeit mit hoher Genauigkeit.
  • LÖSUNG DER AUFGABE
  • Die vorliegende Erfindung betrifft eine Informationsverarbeitungsvorrichtung und ein Informationsverarbeitungsverfahren.
  • Eine Informationsverarbeitungsvorrichtung gemäß einem ersten Aspekt der vorliegenden Offenbarung umfasst eine Bewegliches-Objekt-Erkennungsvorrichtung, welche ein bewegliches Objekt aus einem mit einer Fischaugenkamera aufgenommenen Bild erkennt, einen Personen-Bestimmer, der bestimmt, ob das bewegliche Objekt eine Person ist, indem er einen Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenwertbereich vergleicht, welcher basierend auf einer Körpergröße der Person, die an einer Position des beweglichen Objekts in dem aufgenommenen Bild gemessen wird, eingestellt wird, und einen Personen-Detektor, welcher die Person aus dem Bewegungsobjektbereich, welcher das bewegliche Objekt enthält, das von dem Personen-Bestimmer als die Person bestimmt wird, erkennt.
  • Bei einem beweglichen Objekt, welches eine Person ist, bezieht sich der Abstand zwischen den beiden vorgegebenen Punkten auf dem Umriss des Bewegungsobjektbereichs, welcher das bewegliche Objekt umfasst, auf den Abstand, welcher der Körpergröße der Person entspricht. Der Abstand kann nachfolgend auch als die Länge des beweglichen Objekts bezeichnet werden. Für eine Person, von der ein Bild aufgenommen wird, kann der Schwellenwertbereich als der Bereich möglicher Werte für die Körpergröße der Person an der Position im aufgenommenen Bild definiert werden. Zur Erkennung einer Person verwendet die Informationsverarbeitungsvorrichtung einen begrenzten Zielerkennungsbereich für das Erkennen eines beweglichen Objekts und kann außerdem eine Person anhand eines beweglichen Objekts erkennen, das auf eine Person beschränkt ist. Diese Struktur verringert die Last der Verarbeitung für das Erkennen von Personen und ermöglicht ein genaues Erkennen von Personen in Echtzeit.
  • Der Abstand zwischen den beiden vorgegebenen Punkten auf dem Umriss des Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, kann ein Abstand zwischen ersten und zweiten Koordinaten sein. Die ersten Koordinaten können einen Punkt angeben, der am nächsten oder am weitesten im Bewegungsobjektbereich von den Mittelpunktskoordinaten entfernt ist, welche den Mittelpunkt des aufgenommenen Bildes angeben, und die zweiten Koordinaten können sich von den ersten Koordinaten unterscheiden und einen Schnittpunkt zwischen dem Umriss des Bewegungsobjektbereichs und einer geraden Linie angeben, welche die Mittelpunktskoordinaten und die ersten Koordinaten enthält. Die Informationsverarbeitungsvorrichtung kann die Länge des beweglichen Objekts mit einer einfachen Methode berechnen.
  • Der Abstand zwischen den beiden vorbestimmten Punkten auf dem Umriss des Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, kann ein Abstand zwischen zwei Punkten sein, an welchen eine gerade Linie, welche die Schwerpunktkoordinaten des Bewegungsobjektbereichs und die Mittelpunktskoordinaten des aufgenommenen Bildes enthält, den Umriss des Bewegungsobjektbereichs kreuzt. Jede Veränderung der Gestalt einer Person als Bewegungsobjektbereich als Reaktion auf eine Veränderung der Körperhaltung der Person oder beispielsweise als Reaktion darauf, dass die Person ihren Arm ausstreckt, bewirkt, dass der Schwerpunkt des Bewegungsobjektbereichs im Körper der Person verbleibt, da der Arm der Person dünner ist als der Körper. Die Informationsverarbeitungsvorrichtung kann also die Körpergröße der Person genau erhalten, indem sie den Abstand zwischen zwei Punkten berechnet, an denen eine gerade Linie, die durch die Schwerpunktkoordinaten und die Mittelpunktoordinaten des aufgenommenen Bildes verläuft, den Umriss des Bewegungsobjektbereichs kreuzt.
  • Der Schwellenwertbereich kann für einen Bereich aus einer Vielzahl von Bereichen eingestellt werden, die in dem aufgenommenen Bild enthalten sind. Das aufgenommene Bild kann eine Person enthalten, die je nach Position im Bild eine andere Gestalt hat. Die Informationsverarbeitungsvorrichtung definiert somit die Länge der Person, welche in jedem der mehreren Bereiche erwartet wird, als Schwellenbereich. Die Informationsverarbeitungsvorrichtung kann also genau bestimmen, ob das erkannte bewegliche Objekt eine Person ist.
  • Die Bewegliches-Objekt-Erkennungsvorrichtung kann das bewegliche Objekt durch Hintergrundsubtraktion oder Interframe-Subtraktion erkennen. Die Bewegliches-Objekt-Erkennungsvorrichtung kann das bewegliche Objekt basierend auf der Bewegung und der Bewegungsrichtung eines Objekts erkennen, das in kontinuierlichen Einzelbildern des aufgenommenen Bildes aufgenommen wurde. Die Informationsverarbeitungsvorrichtung erkennt ein bewegliches Objekt und verwendet einen Zielerkennungsbereich für das Erkennen von Personen, der auf einen Bewegungsobjektbereich, welcher das erkannte bewegliche Objekt enthält, begrenzt ist, wodurch die Last, die durch unbeabsichtigtes Erkennen von Personen erhöht werden kann, reduziert wird.
  • Die Informationsverarbeitungsvorrichtung kann ferner eine Ausgabeeinheit umfassen, die Informationen über die von dem Personen-Detektor erkannte Person ausgibt. Die Informationsverarbeitungsvorrichtung kann das vom Personen-Detektor erhaltene Erkennungsergebnis der Person beispielsweise auf einer Anzeige in Echtzeit ausgeben, um es dem Benutzer zu präsentieren.
  • Die Informationsverarbeitungsvorrichtung kann außerdem eine Bildaufnahmeeinheit enthalten, die das aufgenommene Bild erfasst. Die Informationsverarbeitungsvorrichtung kann mit der Bildaufnahmeeinheit integriert sein und kann eine einfache Struktur haben.
  • Ein Informationsverarbeitungsverfahren gemäß einem zweiten Aspekt der vorliegenden Erfindung ist ein Verfahren, das mit einem Computer durchgeführt werden kann. Das Verfahren umfasst das Erkennen eines beweglichen Objekts aus einem mit einer Fischaugenkamera aufgenommenen Bild, das Bestimmen, ob das bewegliche Objekt eine Person ist, durch Vergleichen eines Abstands zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenbereich, welcher basierend auf einer Körpergröße der Person, welche an einer Position des beweglichen Objekts in dem aufgenommenen Bild gemessen wird, eingestellt wird, und das Erkennen der Person aus dem Bewegungsobjektbereich, welcher das als die Person bestimmte bewegliche Objekt enthält.
  • VORTEILHAFTE WIRKUNGEN
  • Mit Hilfe der Technik gemäß den vorstehenden Aspekten der vorliegenden Erfindung kann eine Person in Echtzeit genau erkannt werden.
  • Figurenliste
    • 1 ist ein schematisches Diagramm, das ein Beispiel für die Verwendung einer Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform beschreibt.
    • 2 ist ein schematisches Diagramm der Informationsverarbeitungsvorrichtung, welches ihre Hardware-Konfiguration veranschaulicht.
    • 3 ist ein funktionelles Blockdiagramm der Informationsverarbeitungsvorrichtung.
    • 4 ist ein Flussdiagramm eines Menschen-Erkennungsprozesses.
    • 5 ist ein Diagramm, welches die Erkennung eines beweglichen Objekts beschreibt.
    • 6 ist ein Diagramm, welches das Berechnen der Länge eines beweglichen Objektes in einem ersten Beispiel beschreibt.
    • 7A und 7B sind Diagramme, welche jeweils das Berechnen der Länge eines beweglichen Objekts in einem zweiten Beispiel beschreiben.
    • 8 ist ein Diagramm, das die Länge einer Person in Abhängigkeit von dem Abstand zum Mittelpunkt veranschaulicht.
    • 9A und 9B sind Diagramme mit beispielhaften Schwellenwerten, welche für die jeweiligen Bereiche eines Bildgebungsbereich definiert wurden.
    • 10 ist ein Diagramm, in welchem beispielhaft bestimmt wird, ob ein bewegliches Objekt eine Person ist.
    • 11A und 11 B sind Diagramme, die jeweils eine Methode zum Erkennen einer Person in einem Bewegungsobjektbereich beschreiben.
  • DETAILLIERTE BESCHREIBUNG
  • Es werden nun eine oder mehrere Ausführungsformen gemäß einem Aspekt der vorliegenden Erfindung mit Bezug auf die Zeichnungen beschrieben.
  • <Anwendungsbeispiel>
  • 1 ist ein schematisches Diagramm, welches ein Beispiel für die Verwendung einer Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform beschreibt. Die Informationsverarbeitungsvorrichtung 1 erhält ein Kamerabild (aufgenommenes Bild), welches mit einer Kamera 10 („Bildaufnahmeeinheit“) aufgenommen wurde. Die Kamera 10 ist beispielsweise eine Ultraweitwinkelkamera mit einem Fisheye-Objektiv, das Bildinformationen für einen großen Bereich erhalten kann. Eine Kamera mit einem Fisheye-Objektiv kann auch als Fischaugenkamera, omnidirektionale Kamera oder sphärische 360-Grad-Kamera bezeichnet werden. Der Begriff „Fischaugenkamera“ wird hier verwendet.
  • Ein mit einer Fischaugenkamera aufgenommenes Bild kann ein Zielobjekt enthalten, welches je nach Position im aufgenommenen Bild verzerrt erscheinen kann. Beispielsweise kann ein Bild einer Person, welches mit einer an der Decke installierten und auf den Boden blickenden Fischaugenkamera aufgenommen wurde, eine Person zeigen, bei welcher die Füße zur Mitte und die Kopfspitze nach außen gerichtet sind. Ein aufgenommenes Bild kann eine Person enthalten, welche als vorderes Bild, als hinteres Bild oder als seitliches Bild am Rand des aufgenommenen Bildes und als oberes Bild in dem Mittelpunkt des aufgenommenen Bildes erscheint.
  • Die Informationsverarbeitungsvorrichtung 1 erkennt ein bewegliches Objekt aus dem von der Kamera 10 aufgenommenen Bild und bestimmt, ob das bewegliche Objekt eine Person ist. Ein mit einer Fischaugenkamera aufgenommenes Bild einer Person veranschaulicht eine Verzerrung. Der Abstand zwischen den Füßen der Person und der Kopfspitze (die Körpergröße der Person) variiert je nach Position im aufgenommenen Bild.
  • Die Informationsverarbeitungsvorrichtung 1 speichert den Abstand zwischen den Füßen und dem Kopf, der an der Position im aufgenommenen Bild erwartet wird, als Schwellenwert, um zu bestimmen, ob das erkannte bewegliche Objekt eine Person ist. Die Informationsverarbeitungsvorrichtung 1 kann bestimmen, ob das bewegliche Objekt eine Person ist, indem sie den Abstand zwischen zwei vorbestimmten Punkten (die Länge des beweglichen Objekts) auf dem Umriss des Bewegungsobjektbereichs, welcher das erkannte bewegliche Objekt enthält, mit einem vordefinierten Schwellenbereich vergleicht, der der Position im aufgenommenen Bild entspricht.
  • Die Informationsverarbeitungsvorrichtung 1 analysiert den Bewegungsobjektbereich, welcher als Person bestimmt wurde, und erkennt die Person. Die Informationsverarbeitungsvorrichtung 1 kann eine Person unter Verwendung eines üblichen Objekterkennungsalgorithmus erkennen. Beispielsweise kann ein solches Erkennen von Personen mit einem Algorithmus durchgeführt werden, wobei ein Diskriminator verwendet wird, welcher ein Bildmerkmal wie das Histogramm der orientierten Gradienten (HoG) oder ein Haar-ähnliches Merkmal und Boosting kombiniert. Das Erkennen von Personen kann unter Verwendung eines Algorithmus erfolgen, der auf dem Erkennen von Personen unter Verwendung von Deep Learning basiert, wie beispielsweise regionenbasierte Faltungsneuronale Netze (R-CNN), Faster R-CNN, You only look once (YOLO) oder ein Single Shot Multibox-Detektor (SSD).
  • Die Informationsverarbeitungsvorrichtung 1 kann, wie vorstehend beschrieben, ein bewegliches Objekt aus einem aufgenommenen Bild erkennen und das erkannte bewegliche Objekt mit dem vordefinierten Schwellenwertbereich vergleichen, der der Position im aufgenommenen Bild entspricht, um zu bestimmen, mit welcher Wahrscheinlichkeit es sich um eine Person handelt. Die Informationsverarbeitungsvorrichtung 1 erkennt eine Person in dem aufgenommenen Bild aus dem Bereich, der auf den Bewegungsobjektbereich begrenzt ist, welcher das bewegliche Objekt enthält, das als Person bestimmt wurde. Die Informationsverarbeitungsvorrichtung 1 reduziert somit die Last des Erkennen von Personen.
  • <Ausführungsformen>
  • (Hardware-Konfiguration)
  • Die Hardware-Konfiguration der Informationsverarbeitungsvorrichtung 1 wird nun mit Bezug auf 2 beschrieben. 2 ist ein schematisches Diagramm der Informationsverarbeitungsvorrichtung 1, welches ihre Hardware-Konfiguration veranschaulicht. Die Informationsverarbeitungsvorrichtung 1 umfasst einen Prozessor 101, einen Hauptspeicher 102, einen Hilfsspeicher 103, eine Kommunikationsschnittstelle (I/F) 104 und eine Ausgabeeinheit 105. Der Prozessor 101 lädt ein im Hilfsspeicher 103 gespeichertes Programm in den Hauptspeicher 102 und führt das Programm durch, um die Funktionen der in 3 beschriebenen Funktionskomponenten zu erreichen. Die Kommunikationsschnittstelle 104 ermöglicht eine drahtgebundene oder drahtlose Kommunikation. Die Ausgabevorrichtung 105 ist eine Vorrichtung zur Ausgabe, wie beispielsweise eine Anzeige.
  • Die Informationsverarbeitungsvorrichtung 1 kann ein Allzweckcomputer sein, wie beispielsweise ein Personalcomputer, ein Servercomputer, ein Tablet-Endgerät oder ein Smartphone, oder ein eingebauter Computer, wie beispielsweise ein Bordcomputer. Die Informationsverarbeitungsvorrichtung 1 kann beispielsweise durch verteiltes Rechnen mit mehreren Computergeräten implementiert werden. Mindestens eine der Funktionseinheiten kann mit Hilfe eines Cloud-Servers implementiert werden. Die Informationsverarbeitungsvorrichtung 1 kann mindestens eine der Funktionseinheiten durch eine spezielle Hardware, wie beispielsweise eine anwendungsspezifische integrierte Schaltung (ASIC) oder ein feldprogrammierbares Gate-Array (FPGA), implementieren.
  • Die Informationsverarbeitungsvorrichtung 1 ist mit der Kamera 10 über ein Kabel, beispielsweise ein USB-Kabel (Universal Serial Bus) oder ein LAN-Kabel (Local Area Network), oder drahtlos, beispielsweise über Wi-Fi, verbunden und empfängt Bilddaten, welche mit der Kamera 10 aufgenommen wurden. Die Kamera 10 ist eine bildgebende Vorrichtung, welche ein optisches System mit einem Objektiv und einem Bildsensor, beispielsweise einem CCD (Charge-Coupled Device) oder einem CMOS (Complementary Metal-Oxide Semiconductor), umfasst.
  • Die Informationsverarbeitungsvorrichtung 1 kann mit der Kamera 10 (Bildaufnahmeeinheit) integriert sein. Zumindest ein Teil der von der Informationsverarbeitungsvorrichtung 1 durchgeführten Verarbeitung, beispielsweise die Erkennung beweglicher Objekte oder das Bestimmen von Personen für ein aufgenommenes Bild, kann von der Kamera 10 durchgeführt werden. Ferner können die Ergebnisse des von der Informationsverarbeitungsvorrichtung 1 durchgeführten Erkennens von Personen an eine externe Vorrichtung übertragen und dem Benutzer präsentiert werden.
  • (Funktionelle Komponenten)
  • Beispielhafte Funktionskomponenten der Informationsverarbeitungsvorrichtung 1 werden nun mit Bezug auf 3 beschrieben.
  • 3 ist ein funktionelles Blockdiagramm der Informationsverarbeitungsvorrichtung 1. Die Informationsverarbeitungsvorrichtung 1 umfasst eine Bewegliches-Objekt-Erkennungsvorrichtung 11, einen Personen-Bestimmer 12, einen Personen-Detektor 13, eine Ausgabeeinheit 14 und eine Bestimmungsinformationsdatenbank 15 (Bestimmungsinformations-DB 15).
  • Die Bewegliches-Objekt-Erkennungsvorrichtung 11 erkennt ein bewegliches Objekt aus einem von der Kamera 10 aufgenommenen Bild. Die Bewegliches-Objekt-Erkennungsvorrichtung 11 kann ein bewegliches Objekt beispielsweise durch Hintergrundsubtraktion erkennen, die einen Bereich mit einer Änderung zwischen einem aufgenommenen Bild und einem vorgespeicherten Hintergrundbild erkannt, oder durch Interframe-Subtraktion, welche einen Bereich mit einer Änderung zwischen Einzelbildern erkannt. Ein bewegliches Objekt kann anhand von Unterschieden erkannt werden, welche sowohl auf der Hintergrundsubtraktion als auch auf der Interframe-Subtraktion basieren. Ein bewegliches Objekt kann auch mit einer Methode erkannt werden, welche einen optischen Fluss verwendet, welcher die Bewegung eines Objekts und die Richtung der Bewegung schätzt, indem ein Teil eines Bildes verwendet wird, der kontinuierlichen Einzelbildern gemeinsam ist.
  • Mit dem Personendetektor 12 wird bestimmt, ob ein bewegliches Objekt, welches von der Vorrichtung 11 für bewegliche Objekte erkannt wird, eine Person ist. Der Personendetektor 12 kann bestimmen, ob das bewegliche Objekt eine Person ist, indem er beispielsweise die Länge des erkannten beweglichen Objekts mit einem Schwellenwertbereich vergleicht, der basierend auf der an der Position des beweglichen Objekts gemessenen Körpergröße der Person definiert ist.
  • Der Personendetektor 13 erkennt eine Person aus dem Bereich des beweglichen Objekts, der durch den Personendetektor 12 als Person bestimmt wurde. Das Erkennen von Personen kann mit einer gängigen Objekterkennungstechnik, beispielsweise Deep Learning, durchgeführt werden.
  • Die Ausgabeeinheit 14 gibt Informationen über die erkannte Person an die Ausgabeeinheit 105 aus (zeigt sie an), bei welcher es sich beispielsweise um eine Anzeige handelt. Die Ausgabeeinheit 14 kann die vom Personendetektor 13 erkannte Person auf einer Anzeige darstellen, indem sie die Person mit einem Einzelbild umgibt oder indem sie die Person aus dem aufgenommenen Bild extrahiert.
  • Die Bestimmungsinformationsdatenbank 15 speichert Informationen, die vom Personendetektor 12 verwendet werden, um zu bestimmen, ob das bewegliche Objekt, das von dem aufgenommenen Bild erkannt wird, eine Person ist. Die Informationen, anhand derer bestimmt wird, ob das bewegliche Objekt eine Person ist, sind beispielsweise die Länge („Körpergröße“) einer Person, die in dem mit der Kamera 10 aufgenommenen Bild in Abhängigkeit von dem Abstand zum Mittelpunkt erwartet wird. Der Personendetektor 12 kann bestimmen, ob das bewegliche Objekt eine Person ist, indem er die Länge des beweglichen Objekts mit der Länge der Person vergleicht, die in der Bestimmungsinformationsdatenbank 15 als Schwellenbereich gespeichert ist.
  • (Prozess zum Erkennen von Personen)
  • Ein Prozess zum Erkennen von Personen in der vorliegenden Ausführungsform wird nun mit Bezug auf 4 beschrieben. 4 ist ein Flussdiagramm des Prozesses zum Erkennen von Personen. Der Prozess zum Erkennen von Personen wird gestartet, wenn beispielsweise die Kamera 10 eingeschaltet ist und die Informationsverarbeitungsvorrichtung 1 ein von der Kamera 10 aufgenommenes Bild empfängt. Der in 4 dargestellte Prozess zum Erkennen von Personen wird für jedes Einzelbild des aufgenommenen Bildes durchgeführt. In dem Flussdiagramm in 4 ist das aufgenommene Bild ein Einzelbild, welches in dem aufgenommenen Bild enthalten ist.
  • In S101 erhält die Bewegliches-Objekt-Erkennungsvorrichtung 11 ein aufgenommenes Bild. Die Bewegliches-Objekt-Erkennungsvorrichtung 11 erhält das aufgenommene Bild von der Kamera 10 über die Kommunikationsschnittstelle 104. Für die Informationsverarbeitungsvorrichtung 1, die mit der Kamera (Bildaufnahmeeinheit) integriert ist, erhält die Bewegliches-Objekt-Erkennungsvorrichtung 11 ein aufgenommenes Bild, das von der Bildaufnahmeeinheit aufgenommen wurde.
  • In S102 erkennt die Bewegliches-Objekt-Erkennungsvorrichtung 11 ein bewegliches Objekt aus dem aufgenommenen Bild, das in S101 erhalten wurde. Das bewegliche Objekt in dem aufgenommenen Bild wird mit der unten mit Bezug auf 5 beschriebenen Methode erkannt. Die Informationsverarbeitungsvorrichtung 1 enthält ein Hintergrundbild 501, das ohne ein bewegliches Objekt, wie beispielsweise eine Person, aufgenommen und beispielsweise im Hilfsspeicher 103 gespeichert wurde. Die Bewegliches-Objekt-Erkennungsvorrichtung 11 extrahiert einen Bereich mit einer Differenz zwischen dem aufgenommenen Bild 502 und dem Hintergrundbild 501 als einen Bewegungsobjektbereich. In einem in 5 veranschaulichten Ausgabebild 503 umgeben Einzelbilder den entsprechenden extrahierten Bewegungsobjektbereich. Das Ausgabebild 503 ist ein Beispielbild, in dem ein Regal, das keine Person ist, als bewegliches Objekt aufgrund seiner Positionsveränderung oder fehlerhaften Erkennung erkannt wird.
  • Eine Methode zum Erkennen eines beweglichen Objekts ist nicht auf das mit Bezug auf 5 beschriebene Beispiel beschränkt. Die Methode kann den optischen Fluss verwenden, um die Bewegung eines Objekts und die Richtung der Bewegung zu schätzen, wobei ein Teil eines Bildes verwendet wird, der allen Einzelbildern gemeinsam ist.
  • Wenn mehrere bewegliche Objekte in S102 erkannt werden, wird die Verarbeitung von S103 bis S105 für jedes bewegliche Objekt wiederholt.
  • In S103 berechnet der Personen-Bestimmer 12 die Länge des beweglichen Objekts, das bestimmt werden soll. Mit Bezug auf die 6, 7A und 7B werden nun zwei Beispiele für das Berechnen der Länge eines beweglichen Objekts beschrieben, das in einem mit der Fischaugenkamera (Kamera 10) aufgenommenen Bild erkannt wurde.
  • Im Beispiel von 6, wenn das bewegliche Objekt eine Person ist, wird der Personen-Bestimmer 12 den Abstand zwischen den Koordinaten der Position, die voraussichtlich die Füße sind, und der Position, die voraussichtlich der Kopf ist, als die Länge des beweglichen Objekts berechnen. Im Beispiel von 7A berechnet der Personen-Bestimmer 12 den Abstand zwischen zwei Punkten, an welchen die gerade Linie, die die Schwerpunktkoordinaten des beweglichen Objekts und die Mittelpunkkoordinaten des aufgenommenen Bildes verbindet, den Umriss des Bewegungsobjektbereichs kreuzt, als die Länge des beweglichen Objekts.
  • 6 ist ein Diagramm, welches das Berechnen der Länge eines beweglichen Objektes in einem ersten Beispiel beschreibt. Ein Bild 600A veranschaulicht Bewegungsobjektbereiche 601 bis 605, von welchen jeder ein in S102 erkanntes bewegliches Objekt enthält. Der Mittelpunkt des aufgenommenen Bildes ist durch die Markierung x gekennzeichnet. Wie in Bild 600A sind bei einem Bild einer Person, das mit einer Fischaugenkamera aufgenommen wurde, die Füße zum Mittelpunkt hin ausgerichtet und der Kopf nach außen gerichtet.
  • Ein Bild 600B, welches das bewegliche Objekt, welches eine Person ist, enthält die Koordinaten der Position, von der angenommen wird, dass es sich um die Füße jeder Person handelt (im nachfolgenden als Fußkoordinaten bezeichnet), angezeigt durch einen Kreis. Der Personen-Bestimmer 12 kann beispielsweise die Koordinaten, die den Koordinaten des Mittelpunkts des aufgenommenen Bildes am nächsten liegen (nachfolgend als Mittelpunktskoordinaten bezeichnet), aus den Bereichen der beweglichen Objekte erhalten und die erhaltenen Koordinaten als Fußkoordinaten verwenden.
  • Ein Bild 600C, welches ein bewegliches Objekt, welches eine Person ist, enthält die Koordinaten der Position, von der man annimmt, dass sie die Kopfoberseite jeder Person ist (nachfolgend als die Kopfoberseiten-Koordinaten bezeichnet), die durch ein Dreieck angezeigt werden. Der Personen-Bestimmer 12 kann beispielsweise die Koordinaten eines anderen Schnittpunkts zwischen der geraden Linie, die die Fußkoordinaten und die Mittelpunktskoordinaten enthält, und dem Umriss des Bewegungsobjektbereichs erhalten und die erhaltenen Koordinaten als die Kopfoberseiten-Koordinaten verwenden. Der Personen-Bestimmer 12 kann auch die am weitesten von den Mittelpunktkoordinaten entfernten Koordinaten unter den beweglichen Objektbereichen erhalten und sie als die Kopfoberteil-Koordinaten verwenden.
  • Der Personen-Bestimmer 12 berechnet den Abstand zwischen den erhaltenen Fußkoordinaten und den Kopfkoordinaten als die Länge des beweglichen Objekts (die Körpergröße der Person). Obwohl in dem Beispiel von 6 veranschaulicht wird, wie zuerst die Fußkoordinaten erhalten werden, kann der Personendetektor 12 auch zuerst die Kopfkoordinaten erhalten. Genauer gesagt kann der Personen-Bestimmer 12 die Koordinaten erhalten, die unter den Bewegungsobjektbereichen am weitesten von den Kopfoberseiten-Koordinaten entfernt sind. Der Personen-Bestimmer 12 kann auch die Koordinaten eines anderen Schnittpunkts zwischen der geraden Linie, welche die Kopfoberseiten-Koordinaten und die Mittelpunktkoordinaten enthält, und dem Umriss des beweglichen Objektbereichs erhalten und sie als Fußkoordinaten verwenden.
  • 7A und 7B sind Diagramme, welche jeweils das Berechnen der Länge eines beweglichen Objekts in einem zweiten Beispiel beschreiben. Ein Bild 700 in 7A veranschaulicht Bewegungsobjektbereiche 601 bis 605, von welchen jeder ein in S102 erkanntes bewegliches Objekt enthält. Der Mittelpunkt des aufgenommenen Bildes ist durch die Markierung x gekennzeichnet. Das Bild 700 enthält die Koordinaten des Schwerpunkts jedes Bewegungsobjektbereichs (nachfolgend als Schwerpunktkoordinaten bezeichnet), die mit einem Stern gekennzeichnet sind.
  • Der Personen-Bestimmer 12 berechnet den Abstand zwischen den beiden Punkten, an welchen die gerade Linie, welche die Schwerpunktkoordinaten und die Mittelpunktkoordinaten verbindet, den Umriss des Bewegungsobjektbereichs kreuzt, als die Länge des beweglichen Objekts. Im zweiten Beispiel kann der Personen-Bestimmer 12 die Körpergröße einer Person genauer berechnen, wenn die Person einen Arm ausstreckt.
  • Wenn beispielsweise, wie in 7B veranschaulicht, die Handspitze dem Mittelpunkt des aufgenommenen Bildes am nächsten ist, kann die Methode im ersten Beispiel die Handspitze fälschlicherweise als Füße erkennen. In diesem Fall darf die gerade Linie, die die Mittelpunktskoordinaten und die Koordinaten der Handspitze verbindet, nicht durch den Kopf des Menschen verlaufen, wie durch eine gepunktete Linie 701 angedeutet.
  • Im Gegensatz dazu bleibt der Schwerpunkt des Bewegungsobjektbereichs typischerweise im Körperbereich, da die Hand- und Armteile der Person dünner sind als der Körperbereich, obwohl die Person einen Arm ausstreckt. In diesem Fall verläuft eine gerade Linie 702, die die Mittelpunktskoordinaten und die Schwerpunktskoordinaten des beweglichen Objektbereichs verbindet, durch die Kopfoberseite des Menschen. Auf diese Weise kann der Personen-Bestimmer 12 mit der Methode des zweiten Beispiels unter Verwendung des Schwerpunkts des beweglichen Objektbereichs unabhängig von der Körperhaltung der Person die Körpergröße der Person genau berechnen.
  • In S104 in 4 bestimmt der Personen-Bestimmer 12, ob das bewegliche Objekt eine Person ist, indem er die in S103 erhaltene Länge des erfassten beweglichen Objekts mit dem vordefinierten Schwellenwertbereich vergleicht, welcher der Position des beweglichen Objekts in dem aufgenommenen Bild entspricht. In den 8 bis 10 wird nun der Schwellenwertbereich für das Bestimmen, ob es das bewegliche Objekt eine Person ist, beschrieben.
  • Unter Bezugnahme auf 8 wird nun die Länge einer Person in dem mit einer Fischaugenkamera aufgenommenen Bild beschrieben. 8 ist ein Diagramm, das die Länge einer Person in Abhängigkeit von dem Abstand zum Mittelpunkt veranschaulicht. Die horizontale Achse gibt den Abstand von dem Mittelpunkt des aufgenommenen Bildes an. Der Abstand von der Mitte zum beweglichen Objekt kann beispielsweise der Abstand zwischen dem Schwerpunkt des beweglichen Objektbereichs und der Mittelpunkt des aufgenommenen Bildes sein. Die vertikale Achse zeigt die Länge (Körpergröße) einer Person auf dem aufgenommenen Bild an.
  • Eine Person, welche unmittelbar unter der an der Decke installierten Fischaugenkamera steht, befindet sich mit ihren Füßen und ihrem Kopf oben in dem Mittelpunkt des Bildgebungsbereichs und hat im aufgenommenen Bild die Länge Null. Wenn sich die Person von dem Mittelpunkt des Bildgebungsbereich entfernt, nimmt die Länge der Person zu. In dem in 8 dargestellten Beispiel nimmt die Länge der Person ab, wenn der Abstand vom Mittelpunkt der Person den Wert r überschreitet. In dem mit der Fischaugenkamera aufgenommenen Bild nimmt die Länge der Person zu, wenn sie sich vom Mittelpunkt entfernt, nimmt aber allmählich ab, wenn der Abstand zum Mittelpunkt einen bestimmten Wert überschreitet.
  • Unter Bezugnahme auf die 9A und 9B wird nun der Schwellenwertbereich für die vordefinierte Länge der Person beschrieben, welcher der Position des beweglichen Objekts im aufgenommenen Bild entspricht. 9A und 9B sind Diagramme mit beispielhaften Schwellenwerten, welche für die jeweiligen Bereiche eines Bildgebungsbereichs definiert wurden. Der im Beispiel von 9A gezeigte Bildgebungsbereich ist ein Beispielplan für einen vollen sphärischen 360-Grad-Bildbereich, der mit einer Fischaugenkamera aufgenommen wurde. Der Bildgebungsbereich ist in Abhängigkeit von dem Abstand vom Mittelpunkt in mehrere Bereiche der Gruppen 1 bis 5 unterteilt. Für jede Gruppe wird eine Spanne von erwarteten Längen der Personen zugewiesen.
  • Der in 9A dargestellte Schwellenwertbereich ist ein Beispiel für Schwellenwerte, die basierend auf Daten definiert wurden, welche die Länge einer Person angeben, die anhand eines Bildes mit 1600 × 1200 Pixeln (px) gemessen wurde, welches mit einer in 3 m Höhe installierten Fischaugenkamera aufgenommen wurde.
  • In einem Bereich der Gruppe 1 im Mittelpunkt des Bildgebungsbereichs wird erwartet, dass die Länge einer Person zwischen 0 und 100 px liegt. In den Gebieten der Gruppe 2, die an das Gebiet der Gruppe 1 angrenzen, ist die Länge einer Person größer als in der Gruppe 1 und beträgt voraussichtlich 100 bis 200 px. In den Bereichen der Gruppe 3, die an die Bereiche der Gruppe 2 angrenzen und weiter außerhalb liegen, ist die Länge einer Person größer als in der Gruppe 2 und beträgt voraussichtlich 200 bis 300 px.
  • Kürzere Längen von Personen werden Bereichen zugeordnet, die außerhalb der Bereiche der Gruppe 3 liegen. In den Bereichen der Gruppe 4, die an die Bereiche der Gruppe 3 angrenzen und weiter außerhalb liegen, ist die Länge einer Person geringer als in der Gruppe 3 und beträgt voraussichtlich 100 bis 200 px. In den Bereichen der Gruppe 5, die an die Bereiche der Gruppe 4 angrenzen und weiter außerhalb liegen, ist die Länge einer Person geringer als in der Gruppe 4 und beträgt voraussichtlich 10 bis 100 px.
  • So wird der Bildgebungsbereich in mehrere Bereiche unterteilt, und die Informationen über die Länge einer Person, die in jedem Bereich zu erwarten ist, werden in Abhängigkeit von der Installationsposition der Kamera 10 und der Anzahl der Pixel im aufgenommenen Bild vordefiniert. Die Information über die definierte Länge einer Person (Schwellenwertbereich) wird in der Bestimmungsinformationsdatenbank 15 vorgespeichert. Der Personen-Bestimmer 12 kann bestimmen, ob das bewegliche Objekt eine Person ist, indem er die in S103 ermittelte Länge des beweglichen Objekts mit den in der Bestimmungsinformationsdatenbank 15 gespeicherten Informationen über den Schwellenbereich vergleicht.
  • Befindet sich kein Objekt, das größer als eine Person ist, im Bildgebungsbereich, darf die Obergrenze für den Schwellenwertbereich für jede Gruppe nicht eingestellt werden. In diesem Fall kann durch den Personen-Bestimmer 12 bestimmt werden, dass ein bewegliches Objekt, das größer als die untere Grenze des in 9A veranschaulichten Schwellenbereichs ist, eine Person ist.
  • Obwohl 9A ein Beispiel für das Unterteilen eines Bildgebungsbereichs in mehrere rechteckige Bereiche und das Definieren eines Schwellenbereichs für jeden Bereich zeigt, ist der Bildgebungsbereich nicht darauf beschränkt. Wie in 9B dargestellt, kann der mit dem Kreis gekennzeichnete Bildgebungsbereich durch mehrere konzentrische Kreise unterteilt sein, wobei jeder Bereich den Schwellenbereich für die Länge einer Person definiert.
  • In 10 wird nun eine Methode beschrieben, mit welcher bestimmt wird, ob ein bewegliches Objekt eine Person ist, wobei der in 9A beschriebene Schwellenwertbereich verwendet wird. 10 ist ein Diagramm, in welchem beispielhaft bestimmt wird, ob ein bewegliches Objekt eine Person ist. Der Personen-Bestimmer 12 berechnet die Länge eines beweglichen Objekts, indem er die Fußkoordinaten und die Kopfkoordinaten für den erkannten Bewegungsobjektbereich erhält, wie anhand des Bildes 600C in 6 beschrieben.
  • Der Personen-Bestimmer 12 wird auch die Gruppe bestimmen, welche den Bewegungsobjektbereich innerhalb des Bildgebungsbereichs enthält. Beispielsweise kann der Personen-Bestimmer 12 basierend auf den Koordinaten des Kopfes im Bewegungsobjektbereich die Gruppe bestimmen, die den Bewegungsobjektbereich enthält. Der Personen-Bestimmer 12 kann die Gruppe bestimmen, die den Bereich mit dem beweglichen Objekt basierend auf der Position der Fußkoordinaten, der Schwerpunktkoordinaten oder eines Mittelpunkts zwischen den Fußkoordinaten und den Kopfkoordinaten umfasst, anstatt das Bestimmen basierend auf den Kopfkoordinaten.
  • Der Personen-Bestimmer 12 erhält den Schwellenwertbereich für die Gruppe, in welcher der Bewegungsobjektbereich liegt, aus der Bestimmungsinformationsdatenbank 15. Der Personen-Bestimmer 12 vergleicht die in S103 berechnete Länge des beweglichen Objekts mit dem Schwellenwertbereich aus der Bestimmungsinformationsdatenbank 15. Der Personen-Bestimmer 12 bestimmt, dass das erkannte bewegliche Objekt eine Person ist, wenn die Länge des beweglichen Objekts innerhalb des Schwellenbereichs liegt.
  • Im Beispiel von 10 enthält der Bewegungsobjektbereich 605 im Bild 600C ein bewegliches Objekt, dessen berechnete Länge nicht innerhalb des Schwellenbereichs liegt. Es wird also bestimmt, dass der Bewegungsobjektbereich 605 keine Person ist. Ein Bild 1000 enthält die Markierung x, die anzeigt, dass der Bewegungsobjektbereich 605 nicht als Person bestimmt wurde. Das Bild 1000 umfasst Rechtecke, welche die Bewegungsobjektbereiche 601 bis 604 umgeben, um anzuzeigen, dass diese Bewegungsobjektbereiche als Personen bestimmt wurden.
  • Wenn in S104 in 4 vom Personen-Bestimmer 12 bestimmt wird, dass das erkannte bewegliche Objekt eine Person ist (Ja in S104), geht die Verarbeitung zu S105 über. Wenn durch den Personen-Bestimmer 12 nicht bestimmt wird, dass das bewegliche Objekt eine Person ist (Nein in S104), wird die Verarbeitung mit S106 fortgesetzt.
  • In S105 identifiziert und erkennt der Personen-Detektor 13 eine Person aus dem Bewegungsobjektbereich, welcher das bewegliche Objekt enthält, das in S104 als eine Person bestimmt wurde. Der Personen-Detektor 13 kann eine Person mit einem typischen Objekterkennungsalgorithmus erkennen.
  • In den 11 A und 11 B wird nun eine Methode zum Erkennen einer Person aus einem Bewegungsobjektbereich unter Verwendung eines CNN beschrieben. 11A veranschaulicht ein Beispiel für ein bewegliches Objekt, welches basierend auf einem Unterschied des beweglichen Objekts zwischen mehreren Einzelbildern in S102 erkannt wird. Der Personen-Detektor 13 kann eine Person erkennen, indem er einen Bewegungsobjektbereich, der basierend auf dem Unterschied des beweglichen Objekts erkannt wird, direkt in das CNN eingibt.
  • Zum Erkennen eines beweglichen Objekts basierend auf dem Unterschied des beweglichen Objekts wird der Bewegungsobjektbereich aus Bereichen erkannt, welche in mehreren Einzelbildern erfasst sind. So kann erkannt werden, dass die Person größer als ihre tatsächliche Größe ist, wie in 11A veranschaulicht. Wie in 11B veranschaulicht, kann der Personen-Detektor 13 eine Person basierend auf unterteilten Bereichen erkennen, welche mit Hilfe von Fenstern nacheinander im Bewegungsobjektbereich erhalten und in den CNN eingegeben werden. Durch die Suche im Bewegungsobjektbereich mit Hilfe von Fenstern kann der Personen-Detektor 13 die Länge einer Person genau erkennen.
  • Der Personen-Detektor 13 kann eine Person aus einem Bewegungsobjektbereich mit Hilfe eines Diskriminators erkennen, der ein Bildmerkmal wie ein HoG oder ein Haar-ähnliches Merkmal und Boosting kombiniert. Auch in diesem Fall kann das Bestimmen, ob ein bewegliches Objekt eine Person ist, für den gesamten Bewegungsobjektbereich durchgeführt werden, oder die Person mit einer beliebigen Länge innerhalb des Bewegungsobjektbereichs kann identifiziert und erkannt werden, indem der Bewegungsobjektbereich mit Hilfe von Fenstern durchsucht wird, wie beispielsweise in 11 B.
  • In Schritt S106 in 4 bestimmt der Personen-Bestimmer 12, ob ein anderes bewegliches Objekt erkannt wird und dem Bestimmen für das Erkennen von Personen in S102 unterzogen werden soll. Wenn ein anderes bewegliches Objekt bestimmt werden soll (Ja in S106), kehrt die Verarbeitung zu S103 zurück. Wenn kein anderes bewegliches Objekt erkannt wird (Nein in S106), endet der in 4 dargestellte Prozess zum Erkennen von Personen.
  • Nach Beendigung des Prozesses zum Erkennen von Personen legt die Ausgabeeinheit 14 beispielsweise ein rechteckiges Einzelbild, das eine erkannte Person anzeigt, über das aufgenommene Bild und gibt das Bild beispielsweise auf eine Anzeige aus.
  • (Auswirkungen)
  • Die Informationsverarbeitungsvorrichtung 1 erkennt ein bewegliches Objekt in einem aufgenommenen Bild und bestimmt, ob das erkannte bewegliche Objekt eine Person ist. Wenn das bewegliche Objekt als Person bestimmt wird, erkennt die Informationsverarbeitungsvorrichtung 1 die Person aus dem Bewegungsobjektbereich, welcher das erfasste bewegliche Objekt enthält, beispielsweise mithilfe von Deep Learning. Daher verwendet die Informationsverarbeitungsvorrichtung 1 den Zielerkennungsbereich zum Erkennen einer Person, der auf den Bewegungsobjektbereich, welcher das bewegliche Objekt, das als Person bestimmt ist, enthält, begrenzt ist, und reduziert die Last des Erkennens von Personen, beispielsweise durch Deep Learning, wodurch das genaue Erkennen einer Person in Echtzeit ermöglicht wird.
  • Beim Bestimmen, ob das erfasste bewegliche Objekt eine Person ist, vergleicht die Informationsverarbeitungsvorrichtung 1 die Länge des beweglichen Objekts mit dem vordefinierten Schwellenbereich, welcher der Position des beweglichen Objekts im aufgenommenen Bild entspricht. Ein mit einer Fischaugenkamera aufgenommenes Bild kann eine aufgenommene Person enthalten, welche je nach Position im aufgenommenen Bild verzerrt erscheinen kann. Die erwartete Länge einer Person hängt von der Position der Person im aufgenommenen Bild ab. Der Schwellenwertbereich für das Bestimmen, ob ein bewegliches Objekt eine Person ist, wird also entsprechend der Position im aufgenommenen Bild festgelegt. Die Informationsverarbeitungsvorrichtung 1 verwendet den Schwellenwertbereich, welcher entsprechend der Position oder einem Bereich in dem aufgenommenen Bild definiert ist, und kann somit genau bestimmen, ob das erkannte bewegliche Objekt eine Person ist, indem sie die Eigenschaften des mit der Fischaugenkamera aufgenommenen Bildes wiedergibt.
  • <Sonstiges>
  • Die obige Ausführungsform beschreibt beispielhafte Strukturen gemäß einem oder mehreren Aspekten der vorliegenden Erfindung. Die vorliegende Erfindung ist nicht auf die vorstehend beschriebene spezifische Ausführungsform beschränkt, sondern kann im Rahmen der technischen Ideen der Erfindung auf verschiedene Weise modifiziert werden.
  • In der vorstehenden Ausführungsform ist der Schwellenwertbereich für das Bestimmen, ob ein bewegliches Objekt eine Person ist, für jeden der mehreren Bereiche, in die der Bildgebungsbereich unterteilt ist, vordefiniert. Die Ausführungsform ist jedoch nicht auf diese Struktur beschränkt. Beispielsweise kann der Schwellenwertbereich für das Bestimmen, ob ein bewegliches Objekt eine Person ist, anhand einer vorgegebenen Formel in Abhängigkeit von dem Abstand vom Mittelpunkt des aufgenommenen Bildes zum Schwerpunkt des Bewegungsobjektbereichs berechnet werden.
  • Der Schwellenwertbereich, mit dem bestimmt wird, ob ein bewegliches Objekt eine Person ist, kann entsprechend dem Geschlecht oder der Altersgruppe einer Person, die als Hauptabbildungsziel dient, auf einen Bereich unterschiedlicher Werte festgelegt werden.
  • <Anhang 1>
    • (1) Informationsverarbeitungsvorrichtung (1), umfassend:
      • eine Bewegliches-Objekt-Erkennungsvorrichtung (11), welche dazu eingerichtet ist, ein bewegliches Objekt aus einem aufgenommenen Bild zu erkennen, welches mit einer Fischaugenkamera aufgenommen wurde;
      • einen Personen-Bestimmer (12), welcher dazu eingerichtet ist, zu bestimmen, ob das bewegliche Objekt eine Person ist, indem er einen Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenbereich vergleicht, welcher basierend auf einer Körpergröße der Person, gemessen an einer Position des beweglichen Objekts in dem aufgenommenen Bild, eingestellt ist; und
      • einen Personen-Detektor (13), welcher dazu eingerichtet ist, die Person aus dem Bewegungsobjektbereich zu erkennen, welcher das bewegliche Objekt enthält, das von dem Personen-Bestimmer als Person bestimmt wurde.
    • (2) Informationsverarbeitungsverfahren, welches mit einem Computer implementierbar ist, das Verfahren umfassend:
      • (S102) Erkennen eines beweglichen Objekts aus einem aufgenommenen Bild, das mit einer Fischaugenkamera aufgenommen wurde;
      • (S103, S104) Bestimmen, ob das bewegliche Objekt eine Person ist, indem ein Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenbereich verglichen wird, der basierend auf einer Körpergröße der Person, welche an einer Position des beweglichen Objekts in dem aufgenommenen Bild gemessen wird, eingestellt ist; und
      • (S105) Erkennen der Person aus dem Bewegungsobjektbereich, welcher das bewegliche Objekt enthält, das als Person bestimmt wurde.
  • Bezugszeichenliste
  • 1
    Informationsverarbeitungsvorrichtung,
    10
    Kamera,
    11
    Bewegliches-Objekt-Erkennungsvorrichtung,
    12
    Personen-Bestimmer,
    13
    Personen-Detektor,
    14
    Ausgabeeinheit,
    15
    Bestimmungsinformationsdatenbank
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2018128885 [0003]

Claims (10)

  1. Informationsverarbeitungsvorrichtung, umfassend: eine Bewegliches-Objekt-Erkennungsvorrichtung, welche dazu eingerichtet ist, ein bewegliches Objekt aus einem aufgenommenen Bild zu erkennen, welches mit einer Fischaugenkamera aufgenommen wurde; einen Personen-Bestimmer, welcher dazu eingerichtet ist, zu bestimmen, ob das bewegliche Objekt eine Person ist, indem er einen Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenbereich vergleicht, welcher basierend auf einer Körpergröße der Person, gemessen an einer Position des beweglichen Objekts in dem aufgenommenen Bild, eingestellt ist; und einen Personen-Detektor, welcher dazu eingerichtet ist, die Person aus dem Bewegungsobjektbereich zu erkennen, welcher das bewegliche Objekt enthält, das von dem Personen-Bestimmer als Person bestimmt wurde.
  2. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei der Abstand zwischen den beiden vorbestimmten Punkten auf dem Umriss des Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, ein Abstand zwischen ersten Koordinaten und zweiten Koordinaten ist, die ersten Koordinaten einen nächstgelegenen Punkt oder einen am weitesten entfernten Punkt in dem Bewegungsobjektbereich von Mittelpunktskoordinaten anzeigen, welche einen Mittelpunkt des aufgenommenen Bildes anzeigen, und die zweiten Koordinaten sich von den ersten Koordinaten unterscheiden und einen Schnittpunkt zwischen dem Umriss des Bewegungsobjektbereichs und einer geraden Linie anzeigen, welche die Mittelpunktskoordinaten und die ersten Koordinaten umfasst.
  3. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei der Abstand zwischen den beiden vorbestimmten Punkten auf dem Umriss des Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, ein Abstand zwischen zwei Punkten ist, an welchen eine gerade Linie, welche die Schwerpunktkoordinaten des Bewegungsobjektbereichs und die Mittelpunktskoordinaten des aufgenommenen Bildes enthält, den Umriss des Bewegungsobjektbereichs kreuzt.
  4. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Schwellenwertbereich für einen Bereich aus einer Vielzahl von Bereichen eingestellt ist, die in dem aufgenommenen Bild enthalten sind.
  5. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bewegliches-Objekt-Erkennungsvorrichtung das bewegliche Objekt durch Hintergrundsubtraktion oder Interframe-Subtraktion erkennt.
  6. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass die Bewegliches-Objekt-Erkennungsvorrichtung das bewegliche Objekt basierend auf der Bewegung und der Bewegungsrichtung eines Objekts erkennt, das in kontinuierlichen Einzelbildern des aufgenommenen Bildes aufgenommen wurde.
  7. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 6, ferner umfassend: eine Ausgabeeinheit, welche dazu eingerichtet ist, Informationen über die Person auszugeben, die vom Personen-Detektor erkannt wurde.
  8. Informationsverarbeitungsvorrichtung nach einem der Ansprüche 1 bis 7, ferner umfassend: eine Bildaufnahmeeinheit, welche dazu eingerichtet ist, das aufgenommene Bild zu erfassen.
  9. Informationsverarbeitungsverfahren, welches mit einem Computer implementierbar ist, das Verfahren umfassend: Erkennen eines beweglichen Objekts aus einem aufgenommenen Bild, das mit einer Fischaugenkamera aufgenommen wurde; Bestimmen, ob das bewegliche Objekt eine Person ist, indem ein Abstand zwischen zwei vorbestimmten Punkten auf einem Umriss eines Bewegungsobjektbereichs, welcher das bewegliche Objekt enthält, mit einem Schwellenbereich verglichen wird, der basierend auf einer Körpergröße der Person, welche an einer Position des beweglichen Objekts in dem aufgenommenen Bild gemessen wird, eingestellt ist; und Erkennen der Person aus dem Bewegungsobjektbereich, welcher das bewegliche Objekt enthält, das als Person bestimmt wurde.
  10. Programm, das einen Computer veranlasst, Operationen durchzuführen, die in dem Verfahren nach Anspruch 9 enthalten sind.
DE112021003775.7T 2020-07-15 2021-06-17 Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren Pending DE112021003775T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020121087A JP7419999B2 (ja) 2020-07-15 2020-07-15 情報処理装置および情報処理方法
JP2020-121087 2020-07-15
PCT/JP2021/023104 WO2022014252A1 (ja) 2020-07-15 2021-06-17 情報処理装置および情報処理方法

Publications (1)

Publication Number Publication Date
DE112021003775T5 true DE112021003775T5 (de) 2023-06-01

Family

ID=79555408

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021003775.7T Pending DE112021003775T5 (de) 2020-07-15 2021-06-17 Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren

Country Status (5)

Country Link
US (1) US20230237676A1 (de)
JP (1) JP7419999B2 (de)
CN (1) CN115803780A (de)
DE (1) DE112021003775T5 (de)
WO (1) WO2022014252A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022102947A (ja) * 2020-12-25 2022-07-07 富士通株式会社 検知プログラム、検知方法、および検知装置
JP2022184574A (ja) * 2021-06-01 2022-12-13 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP2024008196A (ja) * 2022-07-07 2024-01-19 オムロン株式会社 情報処理装置および情報処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128885A (ja) 2017-02-09 2018-08-16 グローリー株式会社 顔検出装置、顔検出方法、顔検出プログラム、及び対象物検出装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6137234B2 (ja) 2015-05-25 2017-05-31 株式会社ニコン 検出装置
JP7059054B2 (ja) 2018-03-13 2022-04-25 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2020086844A (ja) 2018-11-22 2020-06-04 キヤノン株式会社 画像処理装置、画像処理方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018128885A (ja) 2017-02-09 2018-08-16 グローリー株式会社 顔検出装置、顔検出方法、顔検出プログラム、及び対象物検出装置

Also Published As

Publication number Publication date
JP7419999B2 (ja) 2024-01-23
WO2022014252A1 (ja) 2022-01-20
CN115803780A (zh) 2023-03-14
JP2022018173A (ja) 2022-01-27
US20230237676A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
DE112021003775T5 (de) Informationsverarbeitungsvorrichtung und informationsverarbeitungsverfahren
DE102013205810B4 (de) System und verfahren zum einschätzen von verfügbaren parkplätzen zum parken auf der strasse mit mehreren plätzen
DE102016120775A1 (de) System und Verfahren zum Erkennen von Linien in einem Bild mit einem Sichtsystem
DE112018002314T5 (de) Verfahren und vorrichtung zur erkennung eines objektstatus
DE112009000480T5 (de) Dynamische Objektklassifikation
DE102016013274A1 (de) Bildverarbeitungsvorrichtung und verfahren zur erkennung eines bilds eines zu erkennenden objekts aus eingabedaten
DE102013210478A1 (de) Geometrische vorkorrektur zur automatischen nummernschilderkennung
DE102015104954A1 (de) Sichtbasiertes Überwachungssystem zur Validierung von Aktivitätssequenzen
DE112014001658T5 (de) Nachverfolgungsverarbeitungsvorrichtung und Nachverfolgungsverarbeitungssystem, das damit ausgestattet ist, und Nachverfolgungsverarbeitungsverfahren
DE102017122362A1 (de) Objekterkennungsvorrichtung und Objekterkennungsverfahren
DE112019006414T5 (de) Vorrichtung und Verfahren zur Detektion von Menschen
DE112011105435B4 (de) Augenliderfassungsvorrichtung
EP3245943A1 (de) Verfahren zur berührungslosen ermittlung und aufbereitung von schlafbewegungsdaten
DE102020007045A1 (de) Objektdetektionssystem mit Laufzeitsensor
DE112019006463T5 (de) Personendetektionsvorrichtung und personendetektionsverfahren
DE102016201741A1 (de) Verfahren zur Höhenerkennung
DE112019001138T5 (de) Objekterfassungsvorrichtung, Objekterfassungsverfahren und Programm
DE102014105567A1 (de) Verfahren zur Verfolgung von Objekten unter Verwendung hyperspektraler Bilder
DE112019006186T5 (de) Verfahren und vorrichtung zur steuerung von lichtemittern einer mobilen automatisierungsvorrichtung
WO2016087202A1 (de) Bildverarbeitung mittels kreuzkorrelation
DE102019115224A1 (de) System und verfahren zum auffinden und klassifizieren von linien in einem bild mittels eines schichtsystems
DE112017006794T5 (de) Bilddatenbank-bildungsvorrichtung, orts- und neigungsschätzvorrichtung und bilddatenbank-bildungsverfahren
DE202020004150U1 (de) System basierend auf Edge Devices mit einem oder mehreren Tiefensensoren zur präzisen Detektion und Zählung von Menschen, Tieren und Objekten in Echtzeit
EP3728995A1 (de) Verfahren zum bestimmen von entfernungsinformation aus einer abbildung eines raumbereichs
DE112019007278T5 (de) Bilderfassungseinrichtung zum Finden eines Objekts

Legal Events

Date Code Title Description
R012 Request for examination validly filed