DE102018008979A1

DE102018008979A1 - Autonome Kameraverfolgungs- und Bildmischungsvorrichtung

Info

Publication number: DE102018008979A1
Application number: DE102018008979.8A
Authority: DE
Inventors: Auf Nichtnennung Antrag
Original assignee: Vst Vertriebsgesellschaft Fuer Video System und Kommunikationstechnik Mbh
Current assignee: Vst Vertriebsgesellschaft Fuer Video System und Kommunikationstechnik Mbh
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2020-05-14

Abstract

Bekannte Vorrichtungen zur automatischen Steuerung von Kamera-, Bildmischungs- und Aufnahmesystemen in Vortrags- oder Konferenzsituationen können nicht das Qualitätsmaß einer manuellen Durchführung erreichen. So können Personen irrtümlich aufgenommen oder nicht genügend Personen erfasst und von Kameras verfolgt werden. Das neue Verfahren soll zuverlässig ermöglichen einen oder mehrere Vortragende ohne die Notwendigkeit eines Markers zu erkennen, Kameras auf die Personen auszurichten und die beste Perspektive zu wählen.Zur Verbesserung der Personenerkennung und Reduzierung von nicht erfassbaren Bereichen werden mindestens zwei Laserscanner Sensoren abhängig von der Raumsituation an bestimmten Positionen montiert. Der gemeinsame Erkennungsbereich aller Sensoren wird in Zonen eingeteilt. Jeder Zone wird eine Bedeutsamkeit zugeordnet. Abhängig von der Bedeutsamkeit der Zonen, in denen sich eine Person bewegt, wird über die Einbeziehung der Person in die Aufnahme entschieden. Wenn die relevanten Positionen aus den Messdaten erfasst wurden, wird die Kamera gewählt, die alle Personen und eventuell Objekte, mit denen die Personen interagieren, erfassen kann. Die gewählte Kamera wird den sich bewegenden Personen dynamisch nachgeführt.Die Vorrichtung dient zur Aufnahme von Lehrveranstaltungen, Vorträgen oder Konferenzen, bei denen manuelle Aufzeichnungen aufgrund hoher Kosten oder Personalmangel nicht durchgeführt werden könnten.

Description

Die Erfindung betrifft eine Vorrichtung entsprechend dem Oberbegriff des Anspruchs 1.
Um vollständig automatisierte Aufzeichnungen von Veranstaltungen, insbesondere Lehrveranstaltungen in Einrichtungen der niederen, mittleren und höheren Bildung, Konferenzen, Vorträgen, Versammlungen, Präsentationen, oder ähnlichen Veranstaltungen durchführen zu können, ist eine automatische Steuerung von Kameras unabdingbar. Vor allem in Kombination mit automatisierten Recorder Systemen ist eine Automatisierung der Kamerabewegungen und Bildmischvorgänge vonnöten, da nur so qualitativ hochwertige Aufnahmen ohne Personal vor Ort durchgeführt werden können. Abhängig von den agierenden Personen muss ohne einen manuellen Eingriff die korrekte Steuerung möglich sein. Um die Qualität und Nutzbarkeit der automatischen Aufnahme gewährleisten zu können, muss die Erkennung der zu verfolgenden Personen stetig zuverlässig erfolgen.
Zur besseren Lesbarkeit wird im folgenden Text das Wort Lehrveranstaltungen allein verwendet. Damit wird der Komplex der Lehrveranstaltungen in Einrichtungen der niederen, mittleren und höheren Bildung, als auch Konferenzen, Vorträge, Versammlungen, Präsentationen und weiteren dazu ähnlichen Veranstaltungen zusammengefasst. Ebenso wird mit PTZ-Kamera jegliche Kameratechnik bezeichnet, die durch ein motorisiertes Modul zur ferngesteuerten Bewegung befähigt wird, unabhängig von einer Integration des Bewegungsmoduls in das Kameragehäuse.
Es ist bekannt, automatische Kameraverfolgungssysteme im Rahmen von automatisierten Aufzeichnungen von Lehrveranstaltungen einzusetzen. Zur Bestimmung der Zielposition werden verschiedene Methoden genutzt.
Grundsätzlich kann man bei aktuell verfügbaren Tracking Systemen für den Einsatz in Lehrveranstaltungen zwischen dem Tracking anhand von Markertechniken oder einem Bildanalyseverfahren unterscheiden. Im Fall von Markertechniken muss der Dozent einen Sender tragen, der beispielsweise Infrarotlicht aussendet. Zusätzliche Infrarotkameras stellen daraufhin die Positionserkennung sicher. Bildanalysesysteme nutzen im Gegensatz dazu die Videostreams von den Pan-Tilt-Zoom (PTZ) Hauptkameras oder dedizierten Übersichtskameras. Aus diesem Videostream kann dann anhand von Bewegungen oder erkannten Gesichtern abgeleitet werden, wo sich die zu verfolgende Person befindet. Daraufhin steuern die Systeme eine PTZ-Kamera so an, dass sie den Bewegungen der erkannten Person folgt.
Diese Systeme sind jedoch nur für die Verfolgung einer einzelnen Person vorgesehen. Bei mehr als einer relevanten Person in wichtigen Bereichen wird eine Person zufällig ausgewählt oder es wird versucht die zuerst im Bild befindliche Person aufzunehmen. Situationen, bei denen zeitweise zwei Personen aufgenommen werden müssten, wie bei einem Wechsel der Vortragenden während der Veranstaltung, können nicht von den Systemen erfasst werden. Es hat sich weiterhin gezeigt, dass die verfügbaren Systeme die Zielperson nicht zuverlässig erkennen. Die Optische Erkennung kann fehlschlagen, wenn schwierige Lichtverhältnisse vorliegen, Bewegung im Hintergrund durch bewegliche Tafeln oder Projektionen vorkommen oder sich nicht zu verfolgende Personen durch das Bild bewegen. So können fehlerhafte oder gänzlich unbrauchbare Aufnahmen entstehen, wenn das System einen vorbeilaufenden Studenten verfolgt und den Dozenten aus dem Bild verliert. Markersysteme erfordern eine Interaktion des Dozenten und stellen dadurch einen bedeutenden Nachteil zu den optischen Systemen dar, die ohne Interaktion des Dozenten funktionieren können. Sobald mehrere PTZ-Kameras verwendet werden sollen, vervielfältigt sich die nötige Rechenleistung um dasselbe Maß, wie zunächst bei der ersten Kamera nötig war. Ein System mit vielen Kameras benötigt so kostenintensive Computerhardware. Zudem muss bei einer Interaktion des Dozenten mit Objekten das zu erfassende Objekt zufällig neben dem verfolgten Dozenten zu sehen sein. Eine automatische Einbeziehung von Objekten ist nicht vorgesehen.
Bekannt ist weiterhin, dass 2D-Laserscanner zur Ortung von Personen eingesetzt werden können. Vor allem in der Überwachungstechnik findet auch eine Kombination von 2D-Laserscannern mit beweglichen PTZ-Kameras statt. Bekannte Trackingsysteme aus dem Bereich der Überwachungstechnik, die auf Lasersensoren aufbauen, sind durch grundsätzliche Unterschiede der Aufnahmesituation nicht identisch auf Aufzeichnungen von Lehrveranstaltungen übertragbar. In einem Hörsaal ist nicht jede Bewegung innerhalb eines potentiell relevanten Bereiches aufzunehmen. Studenten, die während der Veranstaltung durch den Aufnahmebereich laufen, sollen selbstredend nicht aufgenommen werden, wenn der Dozent gleichzeitig an der Tafel steht. Falls sich der Dozent während eines Vortrags allerdings frei im Raum bewegt, muss trotzdem sichergestellt sein, dass er in Bereichen, die von Studenten betreten werden könnten, aufgenommen werden kann. Eine reine Bewegungserkennung, eine manuelle Auswahl eines der erkannten Ziele oder starre Festlegung eines einfachen Erkennungsbereiches sind demzufolge nicht ausreichend. Auch die reine Erkennung eines Menschen als solchen reicht nicht aus. Außerdem muss eine ästhetisch optimale Kameraansteuerung möglich sein, wenn mehr als eine Person aufgenommen werden muss. Ein zufälliges Umschalten zwischen den Dozierenden und vorbeilaufenden Studenten oder der reine Aufruf einer voreingestellten weitwinkeligen Kameraposition ist nicht zielführend. Weiterhin sind bestehende Systeme nicht auf einen Hörsaal oder vergleichbaren Vortragsraum anwendbar, weil diese Systeme von weitgehend freien Überwachungsräumen ausgehen. Fest platzierte Objekte in einem Hörsaal, wie Pulte, oder frei bewegliche Objekte wie Stühle rufen Abschattungsbereiche hervor, in denen ein einzelner 2D-Laserscanner keine Objekte erfassen könnte. Ebenso können sich zwei stehende Personen so platzieren, dass nur Eine erfasst werden kann. Weiterhin werden nur grundlegende Mechaniken zur Erfassung mehrerer Personen vorgestellt, die einem Beobachter beziehungsweise Wachmann ermöglichen mehr als eine Person zu sehen. Es findet keine Steuerung anhand von ästhetischen Maßstäben statt. 2D-Laserscanner allein können zudem nicht die Körpergröße erfassen. Eine hohe Brennweite die eine Nahaufnahme des Gesichts zeigt, kann demzufolge nicht genutzt werden.
Literatur

B. Wulff und A. Fecke. „LectureSight - An Open Source System for Automatic Camera Control in Lecture Recordings“. In: 2012 IEEE International Symposium on Multimedia. Dez. 2012, S. 461-466. doi: 10.1109/ISM.2012.94.
B. Wulff u. a. „The LectureSight System in Production Scenarios and Its Impact on Learning from Video Recorded Lectures“. In: 2013 IEEE International Symposium on Multimedia. Dez. 2013, S. 474-479. doi: 10.1109/ISM.2013.91.
PTC500 User Manual. http://communication.aver.com/download-center/08/ 343/1507. Abruf am 17. Oktober 2018. AVer Communications, Juli 2017.
AW-SF100G Autotracking-Software - Integrierte Pt Kameras - Panasonic Business. https://business.panasonic.de/professional- kamera/remote- kameras/ integrierte-pt-kameras/AW-SF100G. Abruf am 17. Oktober 2018. Panasonic Corporation.
Integrator's Complete Guide to the RoboTRAK Presenter Tracking System. http:// www.vaddio.com/library?path=d&file=342-1229-reve-robotrak-integrators-complete-guide.pdf. .Abruf am 17. Oktober 2018. Vaddio, Nov. 2016.

Patentliteratur
DE112014001201 (T5) - 2016-03-31
Der im Patentanspruch 1 angegebenen Erfindung liegt das Problem zugrunde, dass eine große Anzahl von manuellen Aufzeichnungen von Lehrveranstaltungen einen dauerhaft hohen Aufwand bezüglich der Kosten und der Planung verursachen. Die verfügbaren Systeme zur Automatisierung von Kamerabewegungen und Bildmischern für Lehrveranstaltungen, die mit Systemen zur Planung von Aufzeichnungen und automatisierten Recordern kombiniert werden können, liefern ein ungenügendes Verfolgungsergebnis oder können das Qualitätsmaß von manuellen Aufzeichnungen nicht erreichen.
Trackingtechnologien, die mithilfe von 2D-Laserscannern eine Kamerasteuerung für Überwachungs-zwecke sicherstellen, sind unter den speziellen Anforderungen in einem Hörsaal nicht anwendbar und bieten keinen Automationsgrad, der den Umfang von manuellen Aufzeichnungen abdeckt.
Dieses Problem wird durch die im Patentanspruch 1 aufgeführten Merkmale gelöst. Diese Merkmale umfassen im speziellen die Anordnung und Kombination der Laserscanner, das Vorhandensein von mehr als einem 2D-Laserscanner, die Ansteuerung von mehr als einer PTZ-Kamera, die dynamische Veränderung des Zooms, die Anbindung an ein vorhandenes Planungssystem in Verbindung mit Mechaniken zum Start und Stopp der Aufnahmesequenz, die sinnvolle Einbeziehung von mehreren Personen, die fein abgestimmte Unterscheidbarkeit von einen zufällig vorbeilaufenden Studenten und den Vortragenden oder dem Vortragenden durch die Definierbarkeit vieler spezifischer Zonen , die Erkennung und gegebenenfalls gewünschte Vernachlässigung von stationären Objekten im Erkennungsbereich durch die Analyse und Klassifizierung der gemessenen Abstandswerte und die Beachtung von speziellen Positionen der Vortragenden oder des Vortragenden in Verbindung mit den hinterlegbaren Positionen von Objekten.
Die mit der Erfindung erzielten Vorteile gegenüber Systemen für die Aufzeichnung von Vorlesungen bestehen insbesondere darin, dass die Erkennung von mehreren Personen erfolgen kann. Abhängig von der bestimmten Bedeutsamkeit der Person kann eine Person vollautomatisch in die Aufnahme einbezogen werden oder explizit ausgespart werden. Momente, in denen auch nur kurzzeitig mehrere Personen aufzunehmen sind, wie die Übergabe an einen zweiten Redner, kann so sicher abgedeckt werden. Zudem ist die Erkennung sicherer. Lediglich vorbeilaufende und nicht aufzunehmende Personen stören den Verfolgungsvorgang nicht. Des Weiteren finden ästhetische Problemstellungen Beachtung. Es ist eine Automatisierung einer Start- und Endsequenz möglich.
Im Vergleich mit auf Überwachungsaspekte ausgelegten Systemen werden auch Objekte im Erkennungsbereich beachtet. Die vorgestellte Methode kann in einem Umfeld eingesetzt werden, in dem feststehende Objekte im Erkennungsbereich liegen. Auch bewegliche Objekte können erkannt und von der Verfolgung ausgenommen werden. Andere Objekte, die bewusst verfolgt werden sollen, können bei einer Interaktion einer verfolgten Person mit dem Objekt mit einbezogen werden. Somit wird eine Annäherung an die Standards von manuellen Aufzeichnungen erreicht. Zudem wird eine optimalere Positionierung der Person in dem Bild durch die Kombination mit einer Bildanalysemechanik erzielt.
Weiterhin kann das Hinzufügen weiterer Kameras einfach erfolgen, da sich der Rechenaufwand mit jeder Kamera nur gering um die langsam durchgeführte Bilderkennung und das Senden der nötigen Steuerungsbefehle erhöht. Somit ist das System besser skalierbar.
Ebenso ist eine Übergabe zu einer manuellen Steuerung vorgesehen. Damit wird die Flexibilität des Systems verbessert und eine Integration in vorhandene Strukturen ermöglicht.
Ein Ausführungsbeispiel der Erfindung ist in der Zeichnung dargestellt und wird im folgenden Abschnitt näher beschrieben.
Es zeigen:

1: Skizzenhafter Grundriss eines Hörsaals mit eingezeichneten Schlüsselobjekten, die für den Kameraverfolgungsvorgang maßgeblich sind. Dargestellt ist das Auditorium, das sich in einen linken (A1) und rechten (A2) Teil durch einen Mittelgang A3 getrennt ist. Vor der Tafel T1 Steht ein Pult O1. Zwischen Pult O1 und Tafel T1 ist ein Stuhl O2 abgebildet. Neben der Tafel T1 ist ein interaktives Display oder beliebiges Objekt, mit dem ein Vortragender während der Veranstaltung interagieren kann, D1 dargestellt.
2: Skizzenhafter Grundriss eines Hörsaals mit zwei verbauten Laserscannern. Die Laserscanner sind an der Wand hinter dem Dozenten, auf die das Auditorium blickt, angebracht. Die PTZ-Kameras sind beispielhaft an den möglichen Kamerapositionen K1, K2, K3, K4 und K5 dargestellt. Ein Vortragender ist durch den Menschen M1 dargestellt. Durch die Abschattung durch das Display D1 kann der Bereich hinter dem Display nicht von den Laserscannern erfasst werden. Der Bereich B0 vor dem Pult kann nicht durch die Laserscanner erfasst werden, da das Pult insbesondere diesen Bereich abschattet.
3: Diese Abbildung stellt die Situation aus nach. Der Unterschied besteht in dem Hinzugefügten Laserscanner L3. Bei einer Möglichkeit zur Montage eines solchen Scanners im Raum, kann so der abgeschattete Bereich vor dem Pult vermieden werden.
4: Identische Raumsituation wie in 2, 3, 4, 5 und 6. Die Laserscanner L1 und L2 sind an der gleichen Position, wie in 2, angebracht. Um den abgeschatteten Bereich vor dem Pult zu erfassen, wurde ein zusätzlicher Laserscanner L 3 am Pult befestigt.
5: Identische Raumsituation wie in 2 und 3. In diesem Fall wird die Abschattungsproblematik durch die Montage der Laserscanner an den seitlichen Wänden vermieden.
6: Identische Raumsituation wie in 2, 3 und 4. In diesem Fall sind die Laserscanner am Pult 01 auf der gleichen Seite befestigt.
7: Identische Raumsituation wie in 6. In diesem Fall ist ein zusätzlicher Laserscanner L3 am Pult 01 befestigt, um einen nicht zu überwachenden Bereich vor dem Pult auszuschließen.
8: Identische Raumsituation wie in 6 und 7. In diesem Fall sind die zusätzlichen Laserscanner L3 und L4 am Pult 01 befestigt, um auch den Bereich vor dem Pult optimal zu erfassen und auch mehr als eine Person sicher erkennen zu können.
9: Identische Raumsituation wie in 2, 3, 4 und 5. In diesem Fall sind die Laserscanner am Pult 01 auf der gegenüberliegenden Seite befestigt.
10: Diese Abbildung zeigt eine mögliche softwareinterne Einteilung der maximal erfassbaren Fläche aus 7 in Zonen. Die kleinteilige Einteilung dient als Grundlage zur späteren Bestimmung der zu verfolgenden Personen aus der Menge der erfassten Personen. Die Zonen Z1, Z2, Z3, Z4 stellen Beispiele für besondere Zonen dar, die in der folgenden Beschreibung genauer erläutert werden.
11: Die Abbildung zeigt eine schematische Übersicht aller zentralen Komponenten des Systems, deren Verbindung untereinander und den Datenfluss innerhalb des Systems. Weiterhin wird die Anbindung externer Komponenten aufgezeigt.

Legende:

A1 - linker Teil des Auditoriums.
A2 - rechter Teil des Auditoriums.
A3 - Mittelgang im Auditorium.
D1 - interaktives Display oder beliebiges Objekt, mit dem ein Vortragender während der Veranstaltung interagieren kann.
T1 - Tafel
O1 - festes Objekt im Erkennungsbereich; Hier beispielsweise ein Pult
O2 - bewegliches Objekt im Erkennungsbereich; Hier beispielsweise ein Stuhl
L1, L2, L3, L4 - Laserscanner
M1, M2, M3 - Menschen
B0 - von keinem Laserscanner abgedeckter Bereich
B1 - von Laserscanner L1 maximal abdeckbarer Erkennungsbereich
B2 - von Laserscanner L1 maximal abdeckbarer Erkennungsbereich
B3 - von Laserscanner L3 maximal abdeckbarer Erkennungsbereich
B4 - von Laserscanner L4 maximal abdeckbarer Erkennungsbereich
K1, K2, K3, K4, K5 - beispielhaft mögliche Kamerapositionen; detaillierte Positionierung und tatsächliche Anzahl abhängig von den Gegebenheiten eines realen Hörsaals.
G1 - Grenze des Erkennungsbereiches B1 Richtung Pult; Hervorgerufen durch das Pult O1
G2 - Grenze des Erkennungsbereiches B2 Richtung Pult; Hervorgerufen durch das Pult 01
Z1, Z2, Z3, Z4 - besondere Zonen innerhalb des gesamten maximal möglichen Erkennungsbereiches.
E1 - Eingangstür

Das System besteht aus vier zentralen Elementen oder Gruppen von Elementen, die in 9 aufgezeigt werden. Die Elemente und Gruppen von Elementen sind Sensoren in Form von Laserscannern, ein Computer auf dem eine Datenverarbeitung stattfindet, steuerbare PTZ-Kameras und bei der Verwendung von mehreren Kameras ebenfalls ein Bildmischer.
Die Erfassung der Positionsdaten wird maßgeblich durch Laserscanner umgesetzt. Laserscanner sind Sensorbauteile, die einen, durch eine Laserdiode erzeugten, Laserstahl auf einen beweglichen Spiegel werfen. Der bewegliche Spiegel lenkt den Laserstrahl so ab, dass er aus dem Gehäuse austritt. An festgelegten Punkten der Rotation des Spiegels wird mithilfe des Laserstrahls eine Abstandsmessung vorgenommen, die den Abstand vom Sensor bis zum nächsten reflektierenden Objekt bestimmt. Da bei einer Messung je nach Sensortyp das gesamte Umfeld oder ein wesentlicher Teil des Sensorumfeldes erfasst wird und viele Messungen innerhalb einer Sekunde möglich sind, können die Daten in Echtzeit genutzt werden. Die erfassten Daten werden über eine Netzwerkschnittstelle bereitgestellt und über ein Netzwerk zu der nächsten Komponente, einem Computer, weitergeleitet.
Die Laserscanner können, abhängig vom Raum, in dem das System genutzt werden soll, an verschiedenen Positionen montiert werden. In 2 - 7 werden alle sinnvollen Positionen aufgezeigt, die für die Installation in einem Hörsaal anzuwenden sind. Abhängig von der Raumgröße, Positionen von festen Objekten und weiteren Gegebenheiten des Raumes können Kombinationen der in den Abbildungen gezeigten Positionen verwendet werden. Auch Bereiche ohne feste Objekte, wie Pult O1 sind inbegriffen. Ebenso ist das System nicht auf die dargestellten 2 bis 4 Laserscanner beschränkt. Ziel der Platzierung ist die höchstmögliche Abdeckung der vom Dozenten oft genutzten Fläche, während möglichst wenig Laserscanner verbaut werden müssen. Der Grundlegende Systemaufbau, wie in 2 dargestellt, benötigt nur zwei Laserscanner L1 und L2. Gleichzeitig ist eine Überlappung der Erfassungsbereiche gegeben. Das Maß an Überlappung hängt von der Reichweite der Laserscanner und der Raumgröße ab. Wichtige Bereiche, wie die Fläche zwischen Tafel T1 und Pult O1 müssen von mindestens zwei Sensoren abgedeckt werden, um die Abdeckung auch dann sicherzustellen, wenn mehrere Personen agieren. In 2 ist die Abdeckung skizziert, die nicht unterschritten werden sollte. Würde der Bereich nur von einem Sensor abgedeckt werden und sich zwei Personen und der Laserscanner auf einer Geraden befinden, könnte die weiter vom Laserscanner entfernte Person nicht mehr von dem Laserscanner erfasst werden. 2 zeigt weiterhin den Bereich B0, der von keinem der Sensoren erfasst werden kann, da beide Laserscanner L1 und L2 nur bis zum Pult O1 reichen. Um trotzdem zu erkennen, dass eine Person diesen Bereich betritt, kann im Zuge der späteren Datenverarbeitung erkannt werden, dass die Grenze G1 oder G2 überschritten wurde. Beim überschreiten der Grenze muss sich eine Person in dem Bereich aufhalten, bis ein Verlassen über die Grenzen G1 oder G2 registriert werden kann. Dennoch sollte diese Variante nur genutzt werden, wenn es sich um einen kleinen Raum handelt, die Laserscanner L1 und L2 weit links und rechts vom Pult O1 platziert werden können, oder ein Betreten der Fläche B0 aufgrund externer Umstände als unüblich erachtet werden kann.
Falls ein Bereich B0 wie in 2 nicht in Kauf genommen werden kann, ist eine Erweiterung des Aufbaus nach 3 oder 4 möglich. Der zuvor nicht erfassbare Bereich wird nun durch einen zusätzlichen dritten Laserscanner L3 abgedeckt. In 3 ist zu sehen, wie ein zusätzlicher Laserscanner L3 im Aufnahmeraum montiert wird. Da eine solche Montage nicht immer möglich ist, ist eine Positionierung des Laserscanners L3 wie in 4 dargestellt am Pult ebenso möglich.
5 zeigt die Montage der Laserscanner an den Seitenwänden des Raumes. Diese Montageart kann in Ausnahmefällen eigenständig eingesetzt werden, falls eine Montage von Sensoren am Pult O1 oder and der Wand, an der sich die Tafel T1 befindet, nicht möglich ist. In der Regel ist jedoch eine Kombination mit Laserscannern praktikabel, die sich an Positionen aus anderen Fig. orientieren.
Die in 6 gezeigte Montageart ist optimal, wenn Sensoren nur am Pult O1 befestigt werden können und keine zu verfolgende Person vor dem Pult zu erwarten ist. Da diese Annahme aber wie bei 2 nur in Ausnahmefällen getroffen werden kann, ist eine Erweiterung dieser Einsatzart in 7. zu sehen. 7 zeigt die Erweiterung mithilfe eines Laserscanners L3, der am Pult befestigt ist und den Bereich vor dem Pult erfasst. Falls auch vor dem Pult eine zuverlässige Verfolgung von mehreren Personen sicherzustellen ist, kann die Positionierung, die in 8 dargestellt ist, genutzt werden. Hierbei werden die zusätzlichen Laserscanner L3 und L4 vorn am Pult befestigt.
Falls der Sonderfall vorliegt, in dem nur eine Person verfolgt werden muss, aber eine große Fläche erfasst werden soll, kann ein Ansatz nach 9 gewählt werden. Diese Positionierung der Laserscanner L1 und L2 ermöglicht die größtmögliche Abdeckung.
Die Montagehöhe der Sensoren variiert gleichermaßen in Abhängigkeit von der Beschaffenheit des Aufnahmeraums. Möglich ist eine Montage in einer Höhe von 15-25 cm oder 70 - 120 cm über dem Boden.
Die Verarbeitung der reinen Abstandsmesswerte erfolgt in einem Computer. Der Computer kann dabei abhängig von den räumlichen und organisatorischen Gegebenheiten im Aufnahmeraum selbst, in einem Regieraum am Aufnahmeraum oder in einem entfernten Rechenzentrum lokalisiert sein. Da die Datenübertragung von den Laserscannern selbst netzwerkbasiert vorgenommen wird, und die anzusteuernden Komponenten, insbesondere PTZ-Kameras und Bildmischer auch über Netzwerkschnittstellen steuerbar sind, wird die räumliche Anordnung des Steuerungscomputers nicht durch das System festgelegt. Jede Kamerabewegung wird durch den Computer gesteuert.
Als Kameras werden fernsteuerbare Pan-Tilt-Zoom Kameras (PTZ-Kameras) oder Kameras auf fernsteuerbaren Schwenk-Neige-Köpfen verwendet. Die Kameras sind dafür über teilweise Herstellerspezifische Steuerungsprotokolle über Netzwerkverbindungen anzusteuern. Die Positionierung der Kameras im Raum orientiert sich an herkömmlichen Positionierungen von PTZ-Kameras in Hörsälen, wie in 2 - 10 an den Kameras K1, K2, K3, K4, und K5 zu erkennen ist. Die genaue Anzahl der Kameras, die Montagehöhe und die genaue Positionierung ist abhängig von den örtlichen Gegebenheiten im Aufnahmeraum.
Der Bildmischer ist die Komponente, bei der die Videosignale aller Kameras zusammengeführt werden. Die Videosignale können Netzwerkbasiert oder über dedizierte Videosignalkabel von den Kameras zu dem Bildmischer übertragen werden. Die gesteuerte Ausgabe des Bildmischers wird anschließend zu einem externen ferngesteuerten Recorder aufgezeichnet oder in Echtzeit genutzt.
Während das System deaktiviert ist, kann eine spezielle voreingestellte Position mit allen Kameras angefahren sein. So sind beispielsweise alle Kameras vom Geschehen abwendbar, um ein inaktives System transparent erkennbar zu machen. Die Aktivierung des Systems kann vollautomatisch, halbautomatisch oder alternativ auch manuell vorgenommen werden. Um das System automatisch zu starten, wird auf existierende Planungs- und Aufzeichnungsinfrastruktur zurückgegriffen oder eine separate Kalenderanwendung genutzt, über die Lehrveranstaltungen im Voraus geplant werden. Sobald der Startzeitpunkt erreicht ist, werden im Fall eines vollautomatischen Starts die PTZ-Kameras von aus der abgewandten Ruheposition zum Geschehen geschwenkt. Der folgende Ablauf ist anpassbar, folgt jedoch der beschriebenen Vorgehensweise. Zunächst wird eine Totale der gesamten Szenerie von einer PTZ-Kamera erfasst. Sobald sich eine Person oder mehrere Personen im Erkennungsbereich aufhalten und als tatsächliche Ziele erkannt werden, beginnt die Kamera eine Zoomfahrt automatisch eine Zoomfahrt auf das Ziel oder die Ziele. Im Fall einer halbautomatischen Betriebsweise wird zum Startzeitpunkt eine Meldung über die bevorstehende Aufzeichnung auf einem Touchpanel auf dem Pult O1 in 1 einer externen Steuerungsanlage angezeigt. Nur bei einer Bestätigung durch den Vortragenden startet der gleiche Ablauf wie im Fall einer vollautomatischen Aufzeichnung. Bei einem manuellen Startvorgang kann der Verfolgungsprozess, der auch bei dem vollautomatischen Betriebsmodus abgerufen wird, aus der Regie oder von einem Touchpanel im Aufnahmeraum gestartet werden.
Wie in dem vorrangegangenen Text bereits beschrieben wurde, messen die Laserscanner die Abstände zu dem nächsten reflektierenden Objekt und senden die Daten an einen Computer. Der Computer unternimmt eine Analyse und Verarbeitung nach dem folgenden Schema: Zu jedem Laserscanner wird zunächst separat eine Verbindung aufgebaut. Die Messdaten werden in ein kartesisches Koordinatensystem übertragen. Die Messdaten werden dabei analog zu den Positionen der Laserscanner verschoben, um bei der späteren Zusammenführung ein Abbild des gesamten Raumes zu ermöglichen. Während der ersten Konfiguration des Systems wurde der maximal mögliche Erkennungsbereich in viele Verschiedene Zonen unterteilt. Die Zonen sind in 10 beispielhaft an Z1, Z2, Z3 und Z4 erkennbar. Feste Objekte, wie Wände, Tische, Säulen oder Pulte (O1) und Bereiche, die nicht erfasst werden sollen, werden aus den Zonen ausgenommen. Alle Bereiche, die in den Zonen liegen wird gleichzeitig ein Wahrscheinlichkeitswert zugeordnet, der eine Aussage über die Bedeutsamkeit dieser Fläche macht. Zonen am Pult (Z3 oder an der Tafel (Z2) werden als bedeutsamer definiert, als eine Randzone, wie Z4, da eine Person am Pult im Zweifel von dem Auswertungsprozess wichtiger einzustufen ist, als eine Person am Rand der Aktionsfläche. Bereiche, die durch nicht aufzunehmende Personen hochfrequentiert sind, wie der Bereich vor dem Eingang E1, können durch spezielle Formen der Zonen, wie Zone Z4, direkt von der Verarbeitung ausgenommen werden. Die definierbaren Zonen bilden die Grundlage für die folgenden automatisierten Schritte. Alle Messwerte die außerhalb der definierten Zonen liegen werden verworfen.
Die übrigen Messwerte werden auf potentielle Personen untersucht. Dazu werden auffällige Gruppen von Messwerten hinsichtlich der Gruppenlänge, Abstand zum Sensor und der Form der aus den Messwerten gebildeten Kurve untersucht. Alle Gruppen, bei denen die Untersuchung ein negatives Ergebnis aufweist, werden verworfen. Zu den übrigen Gruppen werden mittlere Positionen gesucht, die die Position der gefundenen Personen widerspiegelt. Am Ende dieses Verarbeitungsschrittes liegen alle gefundenen Personenpositionen im aktuellen Messergebnis vor. Dieser Prozess wird mit einer Frequenz von 10 - 30Hz durchgeführt. Im Anschluss werden die Daten aller Sensoren in einem gleichförmigen Format zusammengeführt.
Um die Positionsdaten über die Zeit zu verfolgen, werden die Daten der aktuellen Messung mit den Daten der vorherigen Messungen abgeglichen, falls es sich nicht um die erste Messung handelt. Die Daten werden bezüglich der Position, Bewegungsrichtung und Bewegungsgeschwindigkeit auf Zusammenhänge geprüft. Passen neue Daten zu dem Bewegungsverlauf einer bereits erkannten Person, werden sie der entsprechenden Person zugeordnet. Passen sie nicht, wird über mehrere Messvorgänge hinweg geprüft, ob eine neue Person hinzugefügt werden kann.
Aus den Abständen der erkannten Personen, Drehung und Blickrichtung wird nun die Kamera ausgewählt, die die Personen und ggf. Objekte aufgrund ihrer Positionierung möglichst frontal erfassen kann. Sobald die Kamera bestimmt ist, wird die Kamera selbst angesteuert. Dazu werden die Schwenk- und Neigewerte so angepasst, dass die Kamera auf die von einem Laserscanner erkannte Position zeigt. Um mehrere Objekte und Personen zu erfassen, wird weiterhin der Zoomwert dynamisch den Bewegungen angepasst. Sind Personen besonders weit auseinander, werden vorrangig die Personen erfasst, die in wichtigen Zonen, wie am Pult, stehen.
Bewegen sich die Personen so, dass eine andere Kamera sie optimaler erfassen kann, wird der Bildmischer angesteuert. Bevor ein anderes Kamerabild angezeigt wird, wird die folgende Kamera schon an die richtige Ausgangsposition bewegt, während die vorhergehende Kamera weiterhin dynamisch angesteuert wird. Sobald die folgende Kamera bereit ist, wechselt der Bildmischer auf das entsprechende Signal. Um viele störende Bildwechsel zu verhindern, wird eine minimale Zeit gesetzt, die zwischen zwei Schnitten vergehen muss. Würde ein Schnitt nötig werden, bevor die Zeit abgelaufen ist, wechselt das System auf eine weitwinkelige Einstellung der geeignetsten Kamera und behält diese bei, bis sich die Bewegung reduziert hat. Ab dem Bildmischer erfolgt eine Übergabe an externe Aufzeichnungs- oder Wiedergabesysteme.
Damit eine Person oder mehrere Personen optimal im Bildausschnitt platziert sind, wird das verwendete Kamerabild in einer sehr geringen Frequenz < 1 Hz zurück in den Computer geleitet und dort analysiert. Da die grundsätzliche Verfolgung der Personen und Objekte anhand der Laserscannerdaten umgesetzt wird, dient dieser Schritt lediglich zur Verbesserung der Platzierung der Personen im Bildausschnitt aus ästhetischen Gründen. Dazu wird im Kamerabild eine Gesichtserkennung durchgeführt. Wenn ein Gesicht erkannt wird, werden die Schwenk- und Neigewerte dieser Kamera so angepasst, dass das Gesicht oder die Gesichter optimal im Bild liegen. So werden vor allem Abweichungen ausgeglichen, die durch unterschiedliche Körpergrößen der zu verfolgenden Personen ausgelöst werden.
Um eine manuelle Steuerung der verbauten Kameras und des Bildmischers weiterhin zu ermöglichen, ist das System über eine Steuerungsschnittstelle ansprechbar. Sobald das System über diese Schnittstelle pausiert wird, werden keine Steuerungsbefehle an die PTZ-Kameras oder den Bildmischer gesendet. Damit ist ein manueller Eingriff über herkömmliche Steuerungsgeräte wieder möglich.
Weitere Einstellungen hinsichtlich der Konfiguration von Zonen oder dem Anpassen von vorgegebenen Werten zur Beeinflussung des Verfolgungsergebnisses, sind über ein Webinterface einstellbar.

Claims

Eine Methode zur automatisierten Steuerung beweglicher Pan-Tilt-Zoom (PTZ) - Kameras oder Kameras auf einer beweglichen und fernsteuerbaren Plattform zur Verfolgung von Personen innerhalb eines vorgegebenen Beobachtungsbereichs, dadurch gekennzeichnet, dass die Methode folgende Schritte umfasst: Erfassung der Raumsituation durch mehr als einen 2D-Laserscanner; Gruppierung und Klassifizierung der gemessenen Abstände; Einordnung der erkannten Messwert-Gruppen anhand der Position innerhalb von kleinteilig definierten Zonen innerhalb des maximal erreichbaren Erkennungsbereiches; Zusammenführung der Daten aller 2D-Laserscannern unter Berücksichtigung der Positionierung der Messgeräte; Betrachtung der Positionsverläufe über einen Bestimmten Zeitraum zur Analyse der Bewegungsverläufe; Auswahl der relevanten Ziele für die Kameraverfolgung; Verfolgung einer oder mehrerer Ziele durch verbaute PTZ-Kameras
Die Methode in Anspruch 1, dadurch gekennzeichnet, dass die Positionierung der 2D Laserscanner beispielhaft entsprechend 2 bis 9 gewählt werden, um nicht erfassbare Bereiche vor großen Objekten zu reduzieren oder zu verhindern.
Die Methode in Anspruch 1 und 2, dadurch gekennzeichnet, dass grundlegend zur Bestimmung der Bedeutsamkeit der potentiellen Ziele kleinteilig Zonen innerhalb des Erkennungsbereiches definiert werden, denen durch eine Zuordnung eines Prozentwertes eine Wichtigkeit zugesprochen wird, aufgrund derer automatisch eine Entscheidung über die Einbeziehung potentieller Ziele in die Kameraverfolgung getroffen wird.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass die Bewegungsverläufe und die Daten der zu den Personen zugeordneten Zonen genutzt werden, um mehrere Personen in die Aufnahme einzubeziehen und gleichzeitig mehrere nicht aufzunehmende Personen aus der Aufnahme auszuschließen.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass anhand der erfassten Positionen der zu verfolgenden Ziele, der Lauf- und Blickrichtung der Ziele, dem Kamerawinkel zu den Zielen und die Positionierung von Personen im Bezug zu Objekten automatisch eine Entscheidung über die zu wählende Kamera getroffen und als Steuerungssignal zu einem Bildmischer gesendet wird.
Die Methode in den Ansprüchen 1 bis 4, dadurch gekennzeichnet, dass die Frequenz der Bildwechselvorgänge durch eine minimale und gegebenenfalls maximale Anzeigedauer limitiert ist und bei einer zu hohen Frequenz der Bildwechsel die Aufnahme auf wesentlichere Personen reduziert wird, oder eine Kameraeinstellung mit einer geringeren Brennweite gewählt wird.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass abhängig von der Anzahl und dem Abstand von Personen in besonders wichtigen oder gleichberechtigten Bereichen die Brennweite so angepasst wird, dass alle wichtigen Personen erfasst werden können.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass zur Verbesserung der Positionierung der Ziele im Bild eine Kombination der Positionserkennung mithilfe von 2D-Laserscannern mit einer Erkennung von Menschen oder deren Gesichtern mit einer geringen Frequenz < 1Hz in Einzelbildern des Videosignals der PTZ-Kameras vorgenommen wird und die so gewonnen Daten zur Anpassung der Pan-, Tilt- und Zoom - Werte der jeweiligen Kamera genutzt werden.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass die Positionen fester Objekte, mit denen die zu verfolgenden Personen interagieren können, hinterlegt und dynamisch in das Bild einbezogen werden, falls eine Person durch Annäherung an das Objekt eine Interaktion mit ebendiesen suggeriert.
Die Methode in den Ansprüchen 1 bis 3, dadurch gekennzeichnet, dass abhängig von externen Planungsdaten eine automatische, halbautomatische oder manuelle Einleitung von Start- und Stoppsequenzen, insbesondere Zoomfahrten und speziellen Schwenk- und Neigeabläufen, automatisiert vorgenommen werden.