DE102010052527A1

DE102010052527A1 - Verfahren und Anordnung zur verbesserten Tondarstellung von Geräuschen bei einer Videoaufzeichnung

Info

Publication number: DE102010052527A1
Application number: DE102010052527A
Authority: DE
Inventors: Iris Gerstlberger; Michael Meier; Christian Hartmann
Original assignee: Institut fuer Rundfunktechnik GmbH
Current assignee: Institut fuer Rundfunktechnik GmbH
Priority date: 2010-11-25
Filing date: 2010-11-25
Publication date: 2012-05-31
Also published as: CN103329145A; JP2014500669A; BR112013012550A2; TWI548277B; TW201234849A; EP2643791B8; US20140003796A1; EP2643791A1; US9240213B2; EP2643791B1; PL2643791T3; CN103329145B; JP5868991B2; ES2923639T3; WO2012069614A1

Abstract

Um eine verbesserte Tondarstellung von Geräuschen, insbesondere sportartspezifischen Geräuschen, bei beliebigen Videoaufzeichnungen mit verringertem technischen Aufwand zu erreichen, wird vorgeschlagen, Bildinhalte von Videobildern sensorisch zu erfassen und auszuwerten. Aus den hierdurch gewonnen Informationen werden nach zuvor definierten Kriterien aus einer Audio-Datenbank passende Geräuschereignisse (Audio-Samples) ausgewählt. Die ausgewählten Geräuschereignisse werden automatisch den Bestandteilen eines Videobegleittons zugespielt.

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Anordnung zur verbesserten Tondarstellung von Geräuschen, insbesondere sportartspezifischen Geräuschen, bei einer Videoaufzeichnung. Eine derartiges Verfahren und eine derartige Anordnung sind aus der DE 10 2008 045 397 A1 bekannt.
Durch die Einführung von hochauflösenden Fernsehbildern im Breitbildformat mit mehrkanaligem Fernsehton wird der Fernsehzuschauer insbesondere bei der Übertragung von Sportereignissen wesentlich stärker als bei herkömmlichen Fernsehtechniken in das Sportgeschehen einbezogen, da deutlich mehr Details wahrnehmbar sind. Bei der Bild- und Tonaufzeichnung von aktuellen Sportereignissen lassen sich jedoch Mikrofone häufig nicht in ausreichender Zahl oder in der erwünschten Nähe zu wichtigen Tonquellen aufstellen. Dabei handelt es sich vor allem um Geräusche, welche für die jeweilige Sportart charakteristisch sind und die Unmittelbarkeit der Bildinhalte unterstreichen. So sind beispielsweise in der Fernsehaufzeichnung von Fußballspielen meist nur wenige oder gar keine spielspezifischen Geräusche auf dem Spielfeld wahrnehmbar, da die Abstände zu den das Spielfeld umgebenden Richtmikrofonen in Anbetracht der lauten Stadionatmosphäre zu groß sind. Bei der Fernsehaufzeichnung von Skirennläufen wäre eine vollständige Abdeckung der kilometerlangen Skipiste mit Mikrofonen zu aufwendig. Bei Nahaufnahmen von Spielszenen oder von Rennläufen werden daher die charakteristischen Geräusche von der Tonaufzeichnung in der Regel nicht erfasst.
Aus der DE 10 2008 045 397 A1 ist es zur Erfassung von sportartspezifischen Geräuschen bei einer Videoaufzeichnung von Ballsportereignissen bekannt, ein stark richtendes Mikrofon-System mit wenigstens zwei Richtmikrofonen vorzusehen, die jeweils mit Hilfe einer in allen Raumachsen schwenkbaren Nachführungseinrichtung auf die momentane Position des Balls ausgerichtet werden. Die Nachführung der Mikrofone während der Produktion erfolgt automatisch ohne ein manuelles Eingreifen in Abhängigkeit von Ballpositionsdaten, die mit Hilfe eines Balltracking-Verfahrens generiert werden.
Diese bekannte Tonaufnahmetechnik ist jedoch nicht bei jeder Videoaufzeichnung verwendbar und erfordert einen vergleichsweise hohen technischen Aufwand.
Die Aufgabe der Erfindung besteht darin, ein Verfahren und eine Anordnung der eingangs erwähnten Art zu schaffen, welche(s) eine verbesserte Tondarstellung von Geräuschen bei beliebigen Videoaufzeichnungen mit verringertem technischen Aufwand ermöglicht.
Diese Aufgabe wird erfindungsgemäß bei einem Verfahren dadurch gelöst, dass Bildinhalte zunächst sensorisch erfasst und ausgewertet werden. Mit Hilfe der hierdurch gewonnen Informationen werden nach zuvor definierten Kriterien aus einer Geräuschdatenbank passende Geräuschereignisse ausgewählt. Die ausgewählten Geräuschereignisse werden automatisch zu den weiteren Bestandteilen der gesamten Videotonmischung, im Folgenden als Videobegleitton bezeichnet, zugespielt.
Eine Anordnung zur Durchführung des Verfahrens nach der Erfindung besteht aus drei Kernkomponenten: Einer Sensorik zur Detektion von charakteristischen Bildinhalten eines Videobildes, einer zentralen Steuereinheit, welche die detektierten Bildinhalte analysiert und hierauf basierend aus einer Audio-Datenbank zu den detektierten Bildinhalten passende Audio-Samples auswählt, die in einem Mischpult dem Videobegleitton zugemischt werden.
Die Erfindung wird nachstehend anhand von Zeichnungen näher erläutert. Es zeigt:
1 ein schematisches Blockschaltbild einer Anordnung zur Durchführung des erfindungsgemäßen Verfahrens mit den drei Kernkomponenten: Sensorik, zentrale Steuereinheit und Audio-Datenbank;
2 Einzelheiten der zentralen Steuereinheit der Anordnung nach 1, und
3 ein Beispiel für die Einteilung von Audio-Samples in unterschiedliche Kategorien (Sample-Mapping) in der Audio-Datenbank.
Die in 1 schematisch dargestellte Anordnung 1 zur Durchführung des erfindungsgemäßen Verfahrens umfasst eine Sensorik 10 zur Detektion des Bildinhaltes von Videobildern. Der detektierte Bildinhalt wird von der Sensorik 10 in Form von Daten 11 einer softwarebasierten Analyse- und Verarbeitungseinheit 30 zugeführt, die in 2 näher gezeigt ist und später erläutert werden soll.
Als Videobilder für die Detektion des Bildinhaltes können beispielsweise die von einer Fernsehkamera gelieferten Echzeitbilder eines Sportereignisses (in 1 und in der folgenden Beschreibung als „Sendebild” bezeichnet) hergenommen werden. Die Sensorik 10 führt beispielsweise eine Analyse des Sendebildes unter Einsatz von Algorithmen aus dem Bereich ”maschinelles Sehen” (Computer Vision) durch. Diese Algorithmen ermöglichen unter anderem die Separation und Verfolgung bewegter Objekte vor einem Bildhintergrund sowie die Bestimmung deren Positionen in Abhängigkeit des Bildausschnitts. Am Beispiel eines Fußballspiels lassen sich somit der Standort des Balles auf dem Platz sowie die Position und Größe aller im Bildausschnitt gezeigten Fußballspieler ermitteln. Weiterhin ist es möglich, die Spieler anhand ihrer Trikots verschiedenen Mannschaften zuzuordnen sowie die Bewegungsrichtung und Geschwindigkeit des Balles zu errechnen. Die Detektion (und spätere Analyse in der Analyse- und Verarbeitungseinheit 30; 1) des Sendebildes bietet zudem den Vorteil, bei einer Spielaufzeichnung mit mehreren Fernsehkameras den Standort und die Brennweite der aktuell von der Bildregie ausgewählten („geschnittenen”) Fernsehkamera ableiten zu können.
Ergänzend sind ferner in der Sensorik 10 und in der Analyse- und Verarbeitungseinheit 30 die Aufzeichnung und automatische Analyse von Audiosignalen (in 1 und in der folgenden Beschreibung als „Sendeton” bezeichnet) möglich, die bestimmte Handlungen innerhalb einer Szene des Sendebildes charakterisieren. Die aus dem Sendeton gewonnenen Informationen werden beispielsweise dazu verwendet, das durch Videoanalyse detektierte Bildgeschehen akustisch zu verifizieren. Ferner können in der Sensorik 10 zur näheren Definition und Erfassung von Bewegungsabläufen Sensoren vorgesehen werden, welche die Handlungen der im Sendebild auftretenden Akteure auf physikalischem Wege ermitteln. Hierzu zählt beispielsweise die Bestimmung der momentanen Position von Akteuren per GPS oder Funk-Peilsystem. Auch die genannten, zusätzlichen Informationen werden von der Sensorik 10 als Daten 11 der softwarebasierten Analyse- und Verarbeitungseinheit 30 zugeführt.
Eine technisch weniger aufwendige Möglichkeit zur Detektion des Bildinhaltes besteht darin, für die Videoanalyse in der Sensorik 10 anstatt des Sendebildes das Signal einer dedizierten und statisch angebrachten Tracking-Kamera herzunehmen. Die Tracking-Kamera kann zuvor auf die entsprechende Szene kalibriert werden und vereinfacht damit das automatische Auffinden von Objekten und Interaktionen im Videobild. Informationen über das eigentliche Sendebild müssen dann allerdings extern von einer Einheit 20 zugeführt werden, beispielsweise über (später erläuterte) Kamera-Metadaten oder GPIO-Signale eines in den Zeichnungen nicht dargestellten Bildmischpultes.
Die Analyse und Verarbeitung der von der Sensorik 10 gelieferten Daten 11 erfolgt in der Einheit 30, die in 2 näher dargestellt ist. Die Einheit 30 leitet aus den Daten 11 der Sensorik 10 Steuerbefehle 31 für eine Audio-Datenbank 40 ab, beispielsweise im Rahmen einer PC- oder DSP-basierten Verarbeitung. In der Einheit 30 werden in einer ersten Analyse-Stufe 32 (welche sendebildunabhängige Szenen analysiert) die sensorisch bestimmten Parameter zur Beschreibung des Videobildes nach zuvor definierten Regeln logisch miteinander verknüpft und anhand der resultierenden Information Steuerbefehle 31 für die Auswahl von archivierten Einzelgeräuschen, sogenannten „Audiosamples”, generiert, die in der Audio-Datenbank 40 gespeichert sind. Die zuvor definierten Regeln wiederum sind anwendungsabhängig und müssen im Vorfeld für jeden Einsatzzweck gezielt festgelegt und in die Software der Analyse- und Verarbeitungseinheit 30 eingebracht werden. Die Datenbank 40 gibt die per Steuerbefehl 31 ausgewählten Audio-Samples als Audiosignal 41 ab, das anschließend direkt dem Produktionsmischpult 50 zugespielt und dort zusammen mit anderen Bestandteilen des Videobegleittons, wie beispielsweise mit Umgebungsgeräuschen („Original-Ton”) sowie gegebenenfalls dem „Dialog-Ton” des Spiel-Kommentators gemischt werden kann. Hierbei gilt es zu beachten, dass es zwischen Audio-Samples und Videobegleitton nicht zu störenden, zeitlich versetzten Dopplungen kommt. Bei der Auswahl der Audio-Samples für die Zuspielung zum Videobegleitton wird zwischen folgenden Merkmalen unterschieden, um eine realistisch klingende Nachvertonung einer Videoszene zu erreichen (in der Reihenfolge ihrer Relevanz):

1. Art des Geräuschs
2. Lautstärke des Geräuschs (Velocity)
3. Hallzugabe (Räumlichkeit)
4. Panning (Richtungszuordnung des Geräuschs)

Bei der Anwendung des erfindungsgemäßen Verfahrens bei Fußballspielen bedeutet eine derartige Festlegung von Regeln in der Stufe 32, dass beispielsweise auf Grund einer der Videoanalyse zu entnehmenden Information über die Vektoränderung der Ballbewegung auf den Ursprung eines neuen Schusses geschlossen werden kann. Die Beschleunigung des Balles sowie die Länge des Bewegungsvektors auf dem Spielfeld geben Auskunft darüber, ob es sich um einen Fernschuss oder einen Pass mit divergierenden klanglichen Eigenschaften handelt und wie laut („velocity”-Wert) ein entsprechendes Geräusch (Audiosignal 41) sein soll, das nach Maßgabe des von der Einheit 32 generierten Steuerbefehls 31 von der Audio-Datenbank 40 dem Produktions-Mischpult 50 (1) zugespielt wird. Die Lautstärke des dem Produktions-Mischpult 50 zugespielten Geräusches kann ferner in Abhängigkeit von der Position des Balles auf dem Spielfeld variiert werden, wodurch sich die Distanz des Geräuschursprungs in Bezug zum Zuschauer nachbilden lässt.
In einer zweiten Analyse-Stufe 33 (2), welche sendebildabhängige Parameter analysiert, werden Informationen über den Bildausschnitt des Sendebildes in die Geräuschauswahl mit einbezogen. Diese Informationen werden als Daten 21 von der Einheit 20 geliefert. Erfolgt die Videoanalyse direkt im Sendebild, kann anhand der Größe untersuchter Objekte auf Kameraposition und Brennweite geschlossen werden. Kommen eine separate Trackingkamera (1) oder andere Sensorsysteme für die Detektion des Bildinhaltes in der Sensorik 10 zum Einsatz, werden externe Informationen über die Beschaffenheit des Sendebildes hergenommen. Hierzu eignen sich unter anderem Kamera-Metadaten, welche der Steuereinheit einer Fernsehkamera entnommen werden. Ferner eignen sich GPIO-Signale eines Bildmischpultes, die signalisieren, welche von mehreren Fernsehkameras aktuell im Sendebild ausgewählt (”geschnitten”) ist. Auf Basis dieser Daten generiert die zweite Analyse-Stufe 33 einen Steuerbefehl 34 zur Variation der Lautstärke der Audio-Samples 410, die dem Produktionsmischpult 50 zugespielt werden. Diese Variation erfolgt durch eine von dem Steuerbefehl 34 gesteuerte Stufe 70 zur Echtzeit-Klangbearbeitung des Audiosignals 41 der Audio-Datenbank 40. Mit Hilfe dieser weiteren Variation der Lautstärke der dem Mischpult 50 zugespielten Audio-Samples 410 lässt sich ansatzweise auditiv simulieren, in welcher optischen Distanz sich der Zuschauer zum Mittelpunkt des Bildgeschehens befindet. Am Beispiel eines Fußballspiels kann durch eine unterschiedliche Pegelung der Ballgeräusche auditiv die Nahaufnahme eines Zweikampfes oder eine Totalaufnahme des gesamten Spielfeldes nachempfunden werden, bei denen der Zuschauer jeweils eine andere optische Distanz zum Geschehen einnimmt.
Ergänzend kann durch die zweite Analyse-Stufe 33 die der Audio-Datenbank 40 nachgeordnete Stufe 70 für die dynamische Echtzeit-Klangbearbeitung dahingehend gesteuert werden, dass mit Hilfe von Equalizing und Zugabe von Hallanteilen in Abhängigkeit der Objektposition im Videobild der Einfluss von Luftdissipation und Räumlichkeit nachgebildet wird.
Bei der erläuterten Echtzeit-Zuspielung der Audio-Samples 41 bzw. 410 zu dem Mischpult 50 entsteht infolge der Detektion und Analyse des Bildinhaltes ein gewisser zeitlicher Versatz zwischen Audiosignal 41 und dem Videobild. Dieser zeitliche Versatz lässt sich jedoch auf einen Bereich von weniger als vier Vollbildern begrenzen, womit eine eindeutige Zuordnung korrespondierender Audio/Video-Ereignisse möglich ist.
Ein Beispiel für die Organisation der Audio-Datenbank 40 ist in 3 anhand eines „Sample-Mapping” für Fußball veranschaulicht. Unter „Sample-Mapping” versteht man die Einteilung der in der Datenbank 40 gespeicherten Audio-Samples in unterschiedliche Kategorien. Die Audio-Datenbank 40 kann sowohl hardware- als auch softwarebasiert realisiert werden und beruht beispielsweise auf einem handelsüblichen Hardware-/Softwaresampler oder einem universellen Datenbankformat. Die Übermittlung der Steuerbefehle 31 und 34 an die Datenbank 40 kann beispielsweise über das MIDI-Protokoll erfolgen. Zur Sortierung der Audio-Samples in der Audio-Datenbank 40 in Abhängigkeit von den spezifischen Merkmalen der Audio-Samples ist ein von Einsatzzweck zu Einsatzzweck variierendes ”Sample-Mapping” vorgesehen.
Am Beispiel eines mit wirklichkeitsnahen Geräuschen zu unterlegenden Fußballspiels werden Audio-Samples für unterschiedliche Spieltechniken in Form von Ballannahmen und Ballabgaben durch den Körper, Fuß und Kopf eines Spielers unterschieden. Bei Spieltechniken mit dem Körper werden zusätzlich Ballannahmen und -abgaben mit Brust, Knie und Kopf diversifiziert. Fußannahmen- und abgaben unterteilen sich wiederum in die Gruppen „Schüsse” und „Pässe”.
Bei dem Ausführungsbeispiel nach 3 werden die Audio-Samples mit variierender Lautstärke („velocity”) in Abhängigkeit der in der Analysestufe 33 (2) aus dem Videobild ermittelten Schussstärke ausgewählt und durch Einsatz unterschiedlicher Audio-Samples auch die tonalen Unterschiede verschiedener Spielintensitäten berücksichtigt. Beispielsweise besitzt das knallartige Geräusch eines harten Schusses eine größere Lautstärke und eine andere Frequenzzusammensetzung als das Geräusch eines weniger kräftigen Schusses. Das Geräusch eines weniger kräftigen Schusses wird deshalb nicht lediglich mit niedrigerer Lautstärke eingespielt, sondern es findet zusätzlich ein anderes Audio-Sample Verwendung. Die Audio-Samples werden hierzu bereits bei der Erstellung mit variierendem Aufnahmeabstand zur Geräuschquelle (2 Meter, 6 Meter oder 12 Meter) aufgezeichnet, um einen direkten Klangcharakter bei harten Schüssen sowie einen indirekten Klangcharakter bei weniger kräftigen Schüssen nachzubilden.
Parameter wie Lautstärke, Hallanteil, Panning und Equalizing werden in Abhängigkeit der Steuerbefehle 34 bei der Wiedergabe von der Stufe 70 vorwiegend in Echtzeit verändert. Dies bietet den Vorteil, dass nicht für jede mögliche Parametrisierung ein eigenes Audio-Sample gespeichert werden muss, was sowohl den Speicherbedarf, als auch den Aufwand bei der Erstellung derartiger Audio-Datenbanken drastisch reduziert. Um einen authentischen Gesamteindruck der vertonten Szene zu fördern ist es überdies erforderlich, auch bei aufeinander folgenden, ähnlichen Bildinhalten unterschiedliche Audio-Samples einzusetzen. Hierfür kann eine zufällige Rotation von Audio-Samples vorgesehen werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 102008045397 A1 [0001, 0003]

Claims

Verfahren zur verbesserten Tondarstellung von Geräuschen, insbesondere von sportartspezifischen Geräuschen, bei einer Videoaufzeichnung, dadurch gekennzeichnet, dass Bildinhalte von Videobildern sensorisch erfasst und ausgewertet werden, dass aus den hierdurch gewonnen Informationen nach zuvor definierten Kriterien aus einer Audio-Datenbank passende Geräuschereignisse (Audio-Samples) ausgewählt werden, und dass die ausgewählten Geräuschereignisse automatisch den Bestandteilen eines Videobegleittons zugespielt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der sensorischen Erfassung der Bildinhalte von aktuelle gesendeten Videobildern (Sendebildern) eine Analyse der Sendebilder unter Einsatz von Algorithmen aus dem Bereich ”maschinelles Sehen” durchgeführt wird, wobei mit Hilfe dieser Algorithmen bewegte Objekte vor einem Bildhintergrund separiert und verfolgt sowie deren Positionen in Abhängigkeit des Bildausschnitts bestimmt werden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass bei der sensorischen Erfassung der Bildinhalte anstelle von aktuellen gesendeten Videobildern (Sendebildern) das Signal einer dedizierten und statisch angebrachten Tracking-Kamera hergenommen wird, welche auf die entsprechende Bildszene kalibriert wird, und dass zusätzlich externe Informationen über das Sendebild für die Auswertung herangezogen werden, beispielsweise Kamera-Metadaten oder GPIO-Signale eines Bildmischpultes.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass zur näheren Definition und Erfassung von Bewegungsabläufen zusätzliche Parameter sensorisch erfasst werden, welche die Handlungen der im Sendebild auftretenden Akteure auf physikalischem Wege ermitteln, beispielsweise die Bestimmung der momentanen Position von Akteuren per GPS oder Funk-Peilsystem.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass Informationen über den Bildausschnitt des Sendebildes in die Geräuschauswahl mit einbezogen werden.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die sensorisch erfassten Parameter zur Beschreibung des Videobildes nach zuvor definierten Regeln logisch miteinander verknüpft und anhand der resultierenden Information Steuerbefehle für die Auswahl von archivierten Einzelgeräuschen, sogenannten „Audiosamples”, generiert werden.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass in Abhängigkeit einer Analyse des Sendebildes eine Echtzeit-Klangbearbeitung der aus der Audio-Datenbank ausgespielten Audio-Samples erfolgt.
Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass bei der Auswahl der Audio-Samples aus der Audio-Datenbank und Echtzeit-Klangbearbeitung zwischen folgenden Merkmalen unterschieden wird: – Art des Geräuschs – Lautstärke des Geräuschs (Velocity) – Hallzugabe (Räumlichkeit) – Panning (Richtungszuordnung des Geräuschs)
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die Audio-Samples in der Audio-Datenbank in Abhängigkeit von den spezifischen Merkmalen der Audio-Samples sortiert werden (”Sample-Mapping”).
Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass für das ”Sample-Mapping” im Falle eines mit wirklichkeitsnahen Geräuschen zu unterlegenden Fußballspiels Audio-Samples in den Gruppen „Körper”, „Schüsse” und „Pässe” für unterschiedliche Spieltechniken in Form von Ballannahmen und -abgaben durch den Körper oder Fuß eines Spielers unterschieden werden.
Verfahren nach Anspruch 9 und 10, dadurch gekennzeichnet, dass beim ”Sample-Mapping” im Falle eines mit wirklichkeitsnahen Geräuschen zu unterlegenden Fußballspiels Audio-Samples mit variierender Lautstärke je nach detektierter Spielintensität angeordnet werden und unterschiedliche Audio-Samples auch die tonalen Unterschiede verschiedener Spielstärken von Schüssen, Pässen und Körperannahmen berücksichtigen.
Anordnung zur Durchführung des Verfahrens nach einem oder mehreren der Ansprüche 1 bis 11, gekennzeichnet durch folgende Komponenten: – eine Sensorik (10) zur Detektion von charakteristischen Bildinhalten eines Videobildes, – eine zentrale Steuereinheit (30), welche die detektierten Bildinhalte analysiert, und – eine Audio-Datenbank (40), in welcher Einzelgeräusche (Audio-Samples) archiviert sind, wobei die zentrale Steuereinheit (30) basierend auf den detektierten charakteristischen Bildinhalten eines Videobildes aus der Audio-Datenbank (40) zu den detektierten Bildinhalten passenden Audio-Samples auswählt, die in einem Mischpult (50) den Bestandteilen eines Videobegleittons zugemischt werden.