-
Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Aufbereitung eines aus Ausgangspixeln aufgebauten Bilddatenstroms mit einer Ausgangsauflösung zur Verwendung in einer Einrichtung zur automatischen Erkennung von Bildinhalten sowie eine entsprechende Einrichtung zur automatischen Erkennung von Bildinhalten.
-
Stand der Technik
-
Videoüberwachungssysteme umfassen üblicherweise eine oder mehrere Überwachungskameras, welche auf relevante Überwachungsbereiche, z. B. Kreuzungen, Parkplätze, Fabrikhallen etc. gerichtet sind, wobei die durch die Überwachungskameras aufgenommenen Bilddatenströme häufig in einer Überwachungszentrale zusammengeführt werden. In dieser Überwachungszentrale werden die Bilddatenströme üblicherweise durch Überwachungspersonal oder auch durch automatische Bildverarbeitungssysteme ausgewertet. In anderen Systemen findet die Bildanalyse in der Kamera selbst statt, so dass in diesem Fall Bilddatenströme sowie Bildinhaltsdaten zur Darstellung oder zur Speicherung gesendet werden. Die Darstellung und insbesondere auch die Speicherung müssen ebenfalls nicht zwingend zentral durchgeführt werden.
-
Zur automatisierten Auswertung von Bilddatenströmen sind Verfahren bekannt, welche eine Detektion bewegter Objekte in einem Überwachungsbereich, eine Verfolgung dieser Objekte, und, auf dieser Grundlage, eine entsprechende Auswertung und weitergehende Aussagen ermöglichen.
-
So offenbart die
DE 199 04 093 A1 ein Verfahren zur automatischen Erfassung von Parkplatzbelegungen einer Parkfläche. Es wird vorgeschlagen, zumindest die Zu- und Abfahrtbereiche mindestens einer Zone der Parkfläche mit einer Videokamera zu überwachen, wobei durch eine Untersuchung der Bewegungsrichtung erfasster Fahrzeuge, wozu eine Auswertung der entsprechenden Bildsequenzen vorgenommen wird, der aktuelle Belegungszustand des Parkplatzes ermittelt werden kann.
-
Die
DE 10 2008 004 396 A1 offenbart ein Überwachungsmodul für ein Videoüberwachungssystem, das mit mindestens einer Überwachungskamera gekoppelt ist, wobei die Überwachungskamera auf einen Überwachungsbereich gerichtet ist und der Überwachungsbereich als eine Überwachungsszene dargestellt wird. Die Überwachungsszene kann bewegte Vordergrundobjekte und einen Szenenhintergrund umfassen. Das Überwachungsmodul, das zur Analyse der Überwachungsszene und zur Ausgabe eines Signals auf Basis der Analyse ausgebildet ist, nimmt eine Überwachung und eine entsprechende Signalausgabe auf Grundlage der Analyse des Szenenhintergrunds und/oder auf Grundlage einer Abweichung von vorgegebenen Grundzuständen vor.
-
Zur Betrachtung und Auswertung einer Überwachungsszene durch den Menschen ist eine hohe Auflösung der Bilddaten erwünscht und durch die derzeitige Entwicklung von Bildsensoren und Videokompressionsalgorithmen auch möglich. Diese geht jedoch naturgemäß mit sehr großen Datenmengen einher. In den genannten Verfahren, die auch unter dem Oberbegriff ”Intelligente Videoanalyse” zusammengefasst werden können, sind jedoch zusätzliche Faktoren wie Kosten und Leistungsaufnahme (insbesondere bei einer Bildanalyse in der Kamera) zu berücksichtigen. In derartigen Systemen werden daher häufig Designentscheidungen getroffen, die beinhalten, geringer aufgelöste Bilddaten einem komplexeren Verarbeitungsalgorithmus zu unterwerfen anstatt – bei gleicher Rechenleistung – einen einfacheren Algorithmus zu wählen, der dann auf Grundlage der vollen Bildauflösung arbeitet. Daher wird in derartigen Systemen die Videoauflösung üblicherweise um einen bestimmten Faktor, beispielsweise um den Faktor 2 oder 4 pro Bilddimension (Höhe und Breite des Bildes), verringert, um die Komplexität der involvierten Berechnungen zu vermindern. Eine weitere Reduktion kann dadurch stattfinden, dass auch die Zeitauflösung entsprechend verringert wird indem, beispielsweise, nur jedes zweite oder dritte Bild einer Bildserie verwendet wird. Die weiteren Schritte der Videoanalyse werden dann an den Daten mit verringerter Auflösung durchgeführt. Der Reduktionsschritt wird in einem späteren Schritt durch erneutes (Hoch-)Skalieren der Koordinaten von detektierten Objekten auf die volle Auflösung kompensiert, bevor das analysierte Videobild beispielsweise zur visuellen Überprüfung bereitgestellt wird.
-
Wenngleich eine Auflösungsreduzierung eine Verringerung der Komplexität entsprechender Berechnungen erlaubt, werden die räumliche Sensitivität, d. h. der Detailumfang, der durch das Videoanalyseverfahren erfasst werden kann, und gegebenenfalls die zeitliche Auflösung, signifikant verringert. Dieser Nachteil kommt insbesondere deshalb zum Tragen, weil die Auswahl eines Kameraobjektivs einer Überwachungskamera und die Anordnung einer entsprechenden Kamera üblicherweise bereits das Ergebnis von Optimierungsüberlegungen darstellt, die im Spannungsfeld zwischen einer erwünschten Abdeckung einer Szene (mit möglichst großem Blickwinkel) und einer maximal erreichbaren Auflösung (durch eine möglichst gute Detailauflösung bzw. Vergrößerung) stehen. Für eine feste Anzahl von rechnerisch erlaubten Pixeln führt, mit anderen Worten, ein höherer Blickwinkel zu einer verringerten Auflösung, umgekehrt geht ein größerer Detailreichtum mit einem reduzierten Blickwinkel einher. Zwar wird die Pixelanzahl moderner Sensoren immer größer, allerdings steigt die zur Verarbeitung der erhöhten Pixelzahl benötigte installierte Rechenleistung (aus Kosten- und Designgründen) nicht im gleichen Maße.
-
Es besteht daher der Bedarf nach einer verbesserten Aufbereitung von Bilddatenströmen zur Verwendung in Systemen zur automatischen Erkennung von Bildinhalten, insbesondere in Systemen zur intelligenten Videoanalyse.
-
Offenbarung der Erfindung
-
Vor diesem Hintergrund schlägt die vorliegende Erfindung ein Verfahren zur Aufbereitung eines aus Ausgangspixeln aufgebauten Bilddatenstroms mit einer Ausgangsauflösung zur Verwendung in einer Einrichtung zur automatischen Erkennung von Bildinhalten, insbesondere in einem System zur intelligenten Videoanalyse, sowie eine entsprechende Einrichtung zur automatischen Erkennung von Bildinhalten mit den Merkmalen der jeweiligen unabhängigen Patentansprüche vor. Vorteilhafte Ausgestaltungen sind Gegenstand der Unteransprüche sowie der nachfolgenden Beschreibung.
-
Vorteile der Erfindung
-
Den erfindungsgemäß vorgeschlagenen Maßnahmen liegen die nachfolgenden Überlegungen zugrunde:
Das Ansichtsverhältnis der im Rahmen eines entsprechenden Erkennungsverfahrens interessierenden Bildbereiche entspricht in der Regel nicht bzw. nicht exakt einem 4:3- bzw. 16:9-Format, welches üblicherweise verwendete Kameramodule liefern. Somit ist eine reine Skalierung mit gleichen Faktoren für die Breite und Höhe eines Bildes nicht zweckmäßig. Die interessierenden Bildbereiche sind auch häufig nicht rechteckig ausgebildet, sondern geneigt und/oder, beispielsweise aufgrund perspektivischer Verhältnisse, räumlich verzerrt. Aufgrund perspektivischer Gegebenheiten können bestimmte, in der Realität gleich große Objekte (beispielsweise sich in unterschiedlichen Beobachtungsdistanzen bewegende Personen) in sehr unterschiedlichen Größen im Bild erscheinen und sich, abhängig von ihrer Entfernung zum Aufnahmestandpunkt, mit sehr unterschiedlichen Geschwindigkeiten bewegen. Unterschiedliche Bereiche eines Bildes können dabei unterschiedliche Wichtigkeit im Hinblick auf ein später durchzuführendes Erkennungsverfahren aufweisen. Die Erkennungsvorschriften bzw. -algorithmen eines Videoanalysesystems sind den unterschiedlichen Gegebenheiten anzupassen, was in der Praxis häufig im Hinblick auf die perspektivische Verzerrung nicht oder aber nur unzureichend gelingt.
-
Die rechteckigen oder andersartig (beispielsweise trapezförmig) ausgebildeten Bildbereiche können jedoch durch einfache geometrische Verfahren in rechtwinklige Formen überführt werden. Der erfindungsgemäß vorgeschlagene Ansatz zur Überwindung dieser Probleme beinhaltet daher, die Funktionalität eines üblicherweise verwendeten Moduls zur Verringerung der Auflösung in einem Videoanalysesystem (das, wie oben angegeben, typischerweise zur Reduktion der Auflösung um den Faktor 4 in den beiden Raumrichtungen eingerichtet ist) dahingehend zu ergänzen oder abzuändern, dass räumlich variierende Faktoren verwendet werden können. Wenngleich in der nachfolgenden Beschreibung von einem Reduktionsfaktor von 4 die Rede ist, kann auch mit anderen, beliebig anpassbaren Reduktionsfaktoren gearbeitet werden. Hierdurch kann in bestimmten Bereichen des Bildes eine Auflösung höher, in anderen Bildbereichen hingegen niedriger eingestellt werden, so dass durch eine gezielte Anpassung der Auflösung, beispielsweise an perspektivische Gegebenheiten und/oder unterschiedliche ”Wichtigkeit” einzelner Bildbereiche, Rücksicht genommen werden kann. Die Gesamtzahl der Pixel in dem derart aufbereiteten Bild entspricht insgesamt jedoch vorteilhafterweise jener eines auf herkömmliche Weise skalierten Bildes, so dass auch durch die Verwendung des erfindungsgemäßen Verfahrens insgesamt eine Reduzierung der Pixelzahl um den entsprechenden Faktor, beispielsweise 4, in beiden Raumdimensionen erreicht werden kann. Die lokale Auflösungsanpassung wird derart eingestellt, dass sie eine lokale Wichtigkeit bestimmter Bildbereiche widerspiegelt, eine Szenenperspektive kompensiert oder sich einer voreingestellten Region in einem Bild anpasst, in welcher ein Bildanalysesystem Objekte und/oder Bewegungen von Objekten ”erwartet” (nachfolgend ”interessierender Bereich” genannt).
-
Eine Kombination dieser Aspekte ist, auch in Einzelbildern, möglich. Durch die genannten Maßnahmen wird zwar, wie unten erläutert, zwangsläufig eine räumliche Verzerrung in dem Bild erzielt, was jedoch, beispielsweise im Rahmen des Videoanalyseverfahrens oder in einem Nachbearbeitungsschritt, entsprechend kompensiert werden kann. Es sei betont, dass die erfindungsgemäß erhaltenen, aufbereiteten Bilddatenströme (zunächst) nicht zur visuellen Inspektion bzw. Überwachung verwendet werden, sondern ausschließlich Eingang in automatisierte Videoanalyseverfahren finden. Visuell gegebenenfalls nachteilig erscheinende Verzerrungen sind jedoch für diesen Zweck nur von untergeordneter Bedeutung. Ist eine visuelle Inspektion erwünscht, können die Verzerrungen, wie erwähnt, wieder rückgängig gemacht werden. Damit können z. B. extrahierte Objekte als Overlay auf dem unverzerrten Originalvideobild für den menschlichen Betrachter hervorgehoben werden. Dies trifft im Übrigen auch auf die herkömmlicherweise verwendete Auflösungsreduzierung um den Faktor 4 zu. Weitere Vorteile und Ausgestaltungen der Erfindung ergeben sich aus der Beschreibung und der beiliegenden Zeichnung.
-
Es versteht sich, dass die vorstehend genannten und die nachfolgend noch zu erläuternden Merkmale nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen oder in Alleinstellung verwendbar sind, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
-
Die Erfindung ist anhand von Ausführungsbeispielen in der Zeichnung schematisch dargestellt und wird im Folgenden unter Bezugnahme auf die Zeichnung ausführlich beschrieben.
-
Kurze Beschreibung der Zeichnungen
-
1 zeigt ein Verfahren zur automatischen Videoanalyse gemäß einer besonders bevorzugten Ausführungsform der Erfindung.
-
2 zeigt ein Reduktionsverfahren gemäß einer besonders bevorzugten Ausführungsform der Erfindung.
-
3A und 3B zeigen Videobilder mit Bildbereichen zur Veranschaulichung eines Verfahrens gemäß einer besonders bevorzugten Ausführungsform der Erfindung.
-
4 zeigt ein Videobild zur Veranschaulichung eines Verfahrens gemäß einer besonders bevorzugten Ausführungsform der Erfindung.
-
5A bis 5C zeigen ein Ausgangsbild, ein gemäß einer bevorzugten Ausführungsform der Erfindung aufbereitetes Ausgangsbild sowie ein gemäß dem Stand der Technik aufbereitetes Ausgangsbild.
-
Ausführungsform(en) der Erfindung
-
In 1 ist ein Verfahren 100 zur Verwendung in einer Einrichtung zur automatischen Erkennung von Bildinhalten, beispielsweise in einem automatischen Videoanalysesystem, dargestellt.
-
In Schritt 101 wird, beispielsweise durch ein Kameramodul oder durch Abruf von einem Speichermedium, ein Bilddatenstrom bereitgestellt. Der Bilddatenstrom wird in einem Schritt 102 gemäß einer bevorzugten Ausführungsform der Erfindung, und wie unten erläutert, in seiner Auflösung reduziert.
-
Anschließend wird in einem Schritt 110 (der beispielsweise die Teilschritte 103 bis 106 beinhalten kann) die eigentliche intelligente Videoanalyse in einem Videoanalysesystem durchgeführt, deren Ergebnis Informationen bezüglich der Positionen (z. B. in der Einheit Pixel) von Objekten darstellen.
-
Die Videoanalyse beinhaltet typischerweise, aber nicht zwingend, eine Veränderungsdetektion auf Pixel- oder Blockebene in einem Teilschritt 103, gefolgt von einer darauf basierenden Objektdetektion und/oder -verfolgung in einem Teilschritt 104. Die Positionen der detektierten und/oder verfolgten Objekte liegen dabei in der Regel zunächst in Form von Koordinaten des durch Schritt 102 verarbeiteten Bildes vor. Um die Koordinaten auf Bilder des Schrittes 101 zu beziehen, wird ein Teilschritt 105 erforderlich.
-
Weitere Analyseschritte, die beispielsweise auf einer kalibrierten Szene beruhen oder aus anderen Gründen unverzerrte Koordinaten benötigen, können nun in einem folgenden Teilschritt 106 durchgeführt werden. Ein nach Teilschritt 106 erhaltenes Bild liegt vorzugsweise in einer Form vor, die die zuvor vorgenommene Verzerrung und Entzerrung visuell nicht mehr oder nur noch teilweise erkennen lässt. Die resultierenden Objektkoordinaten können (unmittelbar oder nach Speicherung) in einem Schritt 107 dazu verwendet werden, die Bilddaten aus Schritt 101 mit Detektionsergebnissen, z. B. zur Visualisierung, anzureichern oder nach in Bildkoordinaten definierten Regeln zu prüfen.
-
Eine Ausgestaltung des erfindungsgemäßen, adaptiven Auflösungs-Reduzierungsverfahrens (vgl. Schritt 102 der 1) ist in 2 dargestellt, wo Ausgangspixel 200 und Positionen entsprechend verarbeiteter bzw. definierter Zielpixel 201 dargestellt sind. Herkömmlicherweise erfolgt eine Auflösungsreduzierung durch Anlegen eines Tiefpassfilters und ein Verwerfen aller Pixel außer der Zielpixel.
-
Demgegenüber wird in einfacher Ausgestaltung vorgeschlagen, ein adaptives Reduktionsmodul in jeder Raumrichtung anzuwenden und sv[m] bzw. sh[n] Pixel zu verwerfen, wobei sv[m] und sh[n] jedoch lokal adaptiv ausgewählt werden, d. h. an Bildinhalte angepasst sind. Eine Beispielimplementierung wird nachfolgend erläutert. Die Eingabewerte für das Reduktionsmodul sind das Bild (”Ausgangsbild”) mit voller Auflösung (”Ausgangsauflösung”) und eine Look-Up-Tabelle (LUT) zur Darstellung des Filters. Die Look-Up-Tabelle enthält hier im Wesentlichen Offsetwerte für die entsprechenden, individuell zu berücksichtigenden Bildbereiche. Für jede Ausgabezeile m, m + 1, ... enthält die Look-Up-Tabelle die Anzahl sv[m], sv[m + 1], ... von Zeilen, die von den Eingabebilddaten zu verwerfen sind. Für jede Zielspalte n, n + 1, ... enthält die Look-Up-Tabelle ferner die Anzahl sh[n], sh[n + 1], ... von Eingabespalten, die verworfen werden sollen. Der herkömmliche Fall der einheitlichen Reduktion um den Faktor 4 wird von dieser Look-Up-Tabelle abgedeckt, wenn die Look-Up-Tabelle für die Faktoren sh und sv lediglich den Wert 3 enthält.
-
Alternativ oder zusätzlich wird die Anwendung eines adaptiven Mittelwertfilters (Tiefpassfilter) vorgeschlagen, wobei über mh × mv Pixel gemittelt wird, wobei mh und mv adaptiv, d. h. an Bildinhalte angepasst, ausgewählt werden. Eine Beispielimplementierung wird nachfolgend anhand der gestrichelten Bereiche 210 der 2 erläutert. Die Eingabewerte für das Reduktionsmodul sind wieder das Bild (”Ausgangsbild”) mit voller Auflösung (”Ausgangsauflösung”) und eine Look-Up-Tabelle (LUT) zur Darstellung des Filters. Eine weitere Look-Up-Tabelle enthält nun die Anzahlen der Pixel, über die für die entsprechenden, individuell zu berücksichtigenden Bildbereiche zu mitteln ist. Für jede Ausgabezeile m, m + 1, ... enthält die Look-Up-Tabelle die Anzahl mv[m], mv[m + 1], ... von Zeilen, über die zu mitteln ist. Für jede Zielspalte n, n + 1, ... enthält die Look-Up-Tabelle ferner die Anzahl mh[n], mh[n + 1], ... von Eingabespalten, über die gemittelt werden sollen.
-
Es versteht sich, dass Reduktion und Mittelung auf einen Bilddatenstrom derart kombiniert angewendet werden können, dass nicht mh = sh + 1 und mv = sv + 1, wobei bspw. unterschiedliche Bildbereiche unterschiedliche gefiltert (unterschiedliche Art und/oder unterschiedlicher Umfang der Filterung).
-
In Fortführung der Erfindung wird eine besonders einfache Bedienmöglichkeit bereitgestellt, um die Bildbereiche von Interesse zu definieren. Bspw. kann dem Anwender die Möglichkeit gegeben werden, mittels Linien im Ausgangsbild die Bereiche von Interesse zu definieren (vgl. 4 oder 5A). So kann der Anwender innerhalb des Ausgangsbildes einen Rahmen um Bildbereiche von Interesse legen und ggf. den Grad der Wichtigkeit angeben, so dass die das erfindungsgemäße Verfahren durchführende Recheneinheit automatisch die anzuwenden Filter definiert, bspw. die LUTs befüllt.
-
In der Praxis werden die Ergebnisse, bspw. detektierte Bewegungen, die auf Grundlage der reduzierten Bilder erlangt wurden, zweckmäßigerweise auch rücktransformiert, so dass sie im Ausgangsbild angezeigt werden können. Dies kann gleichbedeutend mit einer Umkehr der adaptiven Auflösungsreduktion, wie sie in den vorigen Schritten dargestellt wurde, sein, und durch Anwenden einer zweiten Look-Up-Tabelle oder Rechenvorschrift erfolgen, welche zusammen bzw. gleichzeitig mit der ersten Look-Up-Tabelle bzw. Rechenvorschrift erzeugt wird.
-
In 3A ist ein Videobild eines überwachten Bereichs dargestellt. Zwei Bereiche A, B von Interesse sind beispielhaft für unterschiedliche Szenarien angegeben. Es sei zunächst der Bereich A näher betrachtet. Zur Erfassung dieses Bereichs wurde die in 3 insgesamt dargestellte Ansicht ausgewählt, um die gesamte Szene horizontal abzudecken. Es kann jedoch festgestellt werden, dass die über und unterhalb der Region A liegenden Bereiche für das nachgeordnete Videoanalyseverfahren eigentlich nicht von Interesse sind, eine ”nähere” Ansicht (größere Zoomstufe) in vertikaler Richtung also ausgereicht hätte. Dieser Tatsache kann dadurch Rechnung getragen werden, dass nur eine horizontale 1:4-Auflösungsreduktion vorgenommen wird, während vertikal die Ausgangsauflösung beibehalten und unerwünschte bzw. nicht aussagekräftige Bildbereiche entfernt werden. Das Bild wird also durch ”Cropping” auf den in 3B dargestellten Bereich 300 reduziert. Jedes Pixel in den derart aufbereiteten Bilddaten deckt daher nur ein Viertel der Fläche eines entsprechenden, gemäß einem herkömmlichen Auflösungsreduzierungsverfahren aufbereiteten Pixels ab.
-
Als alternatives Beispiel in derselben Szene sei Bereich B der 3A der für die Analyse relevante Bereich. Für diesen Fall fällt auf, dass dieser Bereich nicht nur gegenüber dem Bereich A geneigt ist, sondern zusätzlich auch perspektivische Merkmale beinhaltet. Objekte, die sich in oder in Nähe der Region B1 befinden, werden im Bild scheinbar größer erscheinen als im Bereich B2 und sich (in Bezug auf eine Anzahl von Pixel pro Zeiteinheit) schneller bewegen. Ein Videoanalysesystem muss hieran angepasst sein, um derartige Bewegungs- und Größenunterschiede zu kompensieren. Dieser Sachverhalt ist in 4 durch die Angabe eines perspektivischen Bereichs 400 dargestellt.
-
Durch eine Anpassung der Auflösung kann ein Eingangsbild für ein Videoanalysesystem erzeugt werden, in dem perspektivischen Unterschieden und/oder Wichtigkeitsunterschieden Rechnung getragen wird. Diese Grundidee der vorliegenden Erfindung ist in den 5A bis 5C veranschaulicht. Die 5A zeigt eine Konfiguration einer Überwachungsszene, wobei ein Bereich von Interesse, der zur Konfigurationszeit definiert wurde, mit den Linien 21 abgegrenzt ist. Die Linie 22 definiert eine weitere Grenze des Bereichs von Interesse, der sich damit zu 10 ergibt. Außerhalb des Bereichs 10 liegende Bereiche 20 und 30 sind für die nachgeordnete Videoanalyse von geringerem Interesse und können daher in ihrer Auflösung stärker reduziert oder ganz weggelassen werden. Eine aus der gewählten Konfiguration resultierende Mittenlinie ist mit 23 angegeben. In 5C sind entsprechend aufbereitete Bilddaten dargestellt, in denen im Bereich 10 die Zielauflösung, veranschaulicht durch ein überlagertes Raster, hoch eingestellt wurde, also eine nur geringe oder keine Auflösungsreduktion vorgenommen wurde. 5B zeigt demgegenüber eine lineare 1:4-Auflösungsverringerung gemäß dem Stand der Technik.
-
Es sei in diesem Zusammenhang nochmals darauf hingewiesen, dass diese verzerrte Darstellung lediglich für die interne Verarbeitung durch das System genutzt wird und vor der Darstellung an einen Betrachter gegebenenfalls einer entsprechenden Aufbereitung, beispielsweise einer Entzerrung, zu unterwerfen ist.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 19904093 A1 [0004]
- DE 102008004396 A1 [0005]