-
Die
vorliegende Erfindung bezieht sich auf das Gebiet der Audiosignalverarbeitung
und insbesondere auf die Erzeugung mehrerer Ausgangskanäle
aus weniger Eingangskanälen, wie z. B. einem (mono) Kanal oder
zwei (stereo) Eingangskanälen.
-
Multikanal-Audiomaterial
wird mehr und mehr populär. Dies hat dazu geführt,
dass inzwischen auch viele Endbenutzer Multikanal-Wiedergabesysteme
besitzen. Dies ist hauptsächlich darauf zurückzuführen, dass
DVDs immer populärer werden, und dass daher auch viele
Benutzer von DVDs inzwischen 5.1-Multikanal-Ausrüstungen
haben. Solche Wiedergabesysteme bestehen im allgemeinen aus drei
Lautsprechern L (Links), C (Center) und R (Rechts), die typischerweise
vor dem Benutzer angeordnet sind, und zwei Lautsprechern Ls und
Rs, die hinter dem Benutzer angeordnet sind, und typischerweise
noch aus einem LFE-Kanal, der auch Niederfrequenz-Effekt-Kanal oder
Subwoofer genannt wird. Ein solches Kanal-Szenario ist in 5b und
in 5c angedeutet. Während die Positionierung
der Lautsprecher L, C, R, Ls, Rs, bezüglich des Benutzers
wie in den 10 und 11 gezeichnet
vorgenommen werden sollte, damit der Benutzer einen möglichst guten
Höreindruck bekommt, ist die Positionierung des LFE-Kanals
(in 5b und 5c nicht
gezeigt) nicht so entscheidend, da das Ohr bei derart niedrigen
Frequenzen keine Lokalisierung vornehmen kann und der LFE-Kanal
somit irgendwo, wo er aufgrund seiner beträchtlichen Größe
nicht stört, angeordnet werden kann.
-
Ein
solches Mehrkanalsystem erzeugt mehrere Vorteile gegenüber
einer typischen Stereo-Reproduktion, die eine Zweikanal-Reproduktion
ist, wie sie z. B. in 5a gezeigt ist.
-
Auch
außerhalb der optimalen mittigen Hörposition ergibt
sich eine verbesserte Stabilität des vorderen Höreindrucks,
der auch als "Front Image" bezeichnet wird, und zwar aufgrund des
Mitten-Kanals. Es ergibt sich somit ein größerer „Sweet-Spot",
wobei „Sweet Spot" für die optimale Hörposition
steht.
-
Ferner
hat der Zuhörer ein besseres Gefühl des "Eintauchens"
in die Audioszene aufgrund der beiden hinteren Lautsprecher Ls und
Rs.
-
Dennoch
existiert eine riesige Anzahl an im Besitz des Benutzers befindlichen
oder allgemein verfügbaren Audiomaterials, das nur als
Stereomaterial existiert, das also nur zwei Kanäle hat,
nämlich den linken Kanal und den rechten Kanal. Typische
Tonträger für solche Stereostücke sind
Kompakt-Disks.
-
Um
ein solches Stereomaterial über eine 5.1-Multikanal-Audioanlage
abzuspielen, hat man zwei Optionen, die gemäß der
ITU empfohlen werden.
-
Die
erste Option besteht darin, den linken und den rechten Kanal über
den linken und den rechten Lautsprecher des Multikanal-Wiedergabesystems
abzuspielen. Nachteilig an dieser Lösung ist jedoch, dass man
die Vielzahl der bereits bestehenden Lautsprecher nicht ausnutzt,
dass man also das Vorhandensein des Center-Lautsprechers und der
beiden hinteren Lautsprecher nicht vorteilhaft ausnutzt.
-
Eine
andere Option besteht darin, die zwei Kanäle in ein Multikanalsignal
umzuwandeln. Dies kann während der Wiedergabe oder durch
eine spezielle Vorverarbeitung geschehen, welche alle sechs Lautsprecher
des beispielsweise vorhandenen 5.1-Wiedergabesystems vorteilhaft
ausnutzt und damit zu einem verbesserten Höreindruck führt,
wenn das Hochmischen oder der "Upmix" von zwei Kanälen
auf 5 bzw. 6 Kanäle fehlerfrei durchgeführt wird.
-
Nur
dann hat die zweite Option, also die Verwendung sämtlicher
Lautsprecher des Mehrkanalsystems einen Vorteil gegenüber
der ersten Lösung, wenn man also keine Upmix-Fehler begeht.
Solche Upmix-Fehler können insbesondere störend
sein, wenn Signale für die hinteren Lautsprecher, welche
auch als Ambience-Signale oder Umgebungssignale bekannt sind, nicht
fehlerfrei erzeugt werden.
-
Eine
Möglichkeit, diesen sogenannten Tipmix-Prozess durchzuführen,
ist unter dem Stichwort "Direct Ambience-Konzept" bekannt. Die Direktschallquellen
werden durch die drei vorderen Kanäle derart wiedergegeben,
dass sie von dem Benutzer an der gleichen Position wie in der ursprünglichen
Zweikanalversion wahrgenommen werden. Die ursprüngliche
Zweikanalversion ist in 5a schematisch
dargestellt, und zwar am Beispiel verschiedener Drum-Instrumente.
-
5b zeigt
eine hochgemischte Version des Konzepts, bei der alle ursprünglichen
Schallquellen, also die Drum-Instrumente wieder von den drei vorderen
Lautsprecher L, C und R wiedergegeben werden, wobei zusätzlich
von den beiden hinteren Lautsprechern spezielle Umgebungssignale
ausgegeben werden. Der Ausdruck "Direkt-Schallquelle" wird somit
dazu verwendet, um einen Ton zu beschreiben, der nur und direkt von
einer diskreten Schallquelle wie beispielsweise einem Drum-Instrument
oder einem anderen Instrument oder allgemein einem speziellen Audioobjekt
kommt, wie es schematisch z. B. in 5a anhand
eines Drum-Instruments dargestellt ist. Irgendwelche zusätzlichen
Töne, wie beispielsweise aufgrund von Wandreflexionen etc.
sind in einer solchen Direktschallquelle nicht vorhanden. In diesem
Szenario bestehen die Schallsignale, die von den beiden hinteren
Lautsprechern Ls, Rs in 5b abgegeben
werden, nur aus Umgebungssignalen, die in der ursprünglichen
Aufzeichnung vorhanden sind oder nicht. Solche Umgebungssignale
oder "Ambience"-Signale gehören nicht zu einer einzigen
Schallquelle, sondern tragen zur Reproduktion der Raumakus tik einer
Aufzeichnung bei und führen somit zu dem sogenannten "Eintauch"-Gefühl
des Zuhörers.
-
Ein
weiteres Alternativkonzept, das als "In-the-Band"-Konzept bezeichnet
ist, ist in 5c schematisch dargestellt.
Jeder Schalltyp, also Direktschallquellen und umgebungs-artige Töne
werden alle um den Zuhörer herum positioniert. Die Position
eines Tons ist unabhängig von seiner Charakteristik (Direktschallquellen oder
umgebungs-artige Töne) und hängt nur von dem spezifischen
Entwurf des Algorithmus ab, wie es z. B. in 5c dargestellt
ist. So wurde in 5c durch den Upmix-Algorithmus
bestimmt, dass die beiden Instrumente 1100 und 1102 seitlich
bezüglich des Zuhörers positioniert werden, während
die beiden Instrumente 1104 und 1106 vor dem Benutzer
positioniert werden. Dies führt dazu, dass die beiden hinteren
Lautsprecher Ls, Rs nunmehr auch Anteile der beiden Instrumente 1100 und 1102 enthalten
und nicht mehr nur umgebungs-artige Töne, wie es bei 5b noch
der Fall war, wo dieselben Instrumente alle vor dem Benutzer positioniert
worden sind.
-
Die
Fachveröffentlichung "C. Avendano und J. M. Jot:
"Ambience Extraction and Synthesis from Stereo Signals for Multichannel
Audio Upmix", IEEE International Conference an Acoustics, Speech
and Signal Processing, ICASSP 02, Orlando, Fl, May 2002"
offenbart eine Frequenzbereichstechnik, um Umgebungsinformationen
in Stereo-Audiosignalen zu identifizieren und zu extrahieren. Dieses
Konzept basiert auf der Berechnung einer Inter-Kanal-Kohärenz
und einer nichtlinearen Abbildungsfunktion, die es erlauben soll, Zeit-Frequenz-Regionen
in dem Stereosignal zu bestimmen, die hauptsächlich aus
Umgebungs-Komponenten bestehen. Umgebungssignale werden dann synthetisiert
und verwendet, um die hinteren Kanäle oder "Surround"-Kanäle
Ls, Rs (10 und 11)
eines Multikanal-Wiedergabesystems zu speichern.
-
In
der Fachveröffentlichung "
R. Irwan und Ronald M.
Aarts: "A method to convert stereo to multi-channel sound", The proceedings
of the AES 19th International Conference, Schloss Elmau, Deutschland,
Juni 21–24, Seiten 139–143, 2001" wird
ein Verfahren präsentiert, um ein Stereosignal in ein Multikanalsignal
umzuwandeln. Das Signal für die Surround-Kanäle
wird unter Verwendung einer Kreuzkorrelationstechnik berechnet.
Eine Hauptkomponentenanalyse (PCA; PCA = Principle Component Analysis)
wird verwendet, um einen Vektor zu berechnen, der eine Richtung
des dominanten Signals anzeigt. Dieser Vektor wird dann von einer Zwei-Kanal-Darstellung
auf eine Drei-Kanal-Darstellung abgebildet, um die drei vorderen
Kanäle zu erzeugen.
-
Alle
bekannten Techniken versuchen auf verschiedene Arten und Weisen
die Ambience-Signale bzw. Umgebungssignale aus dem ursprünglichen
Stereosignal zu extrahieren oder sogar aus Rauschen bzw. weiteren
Informationen zu synthetisieren, wobei zur Synthese der Ambience-Signale
auch Informationen, welche nicht im Stereosignal sind, verwendet
werden können. Letztendlich geht es jedoch immer darum,
Informationen aus dem Stereosignal zu extrahieren bzw. Informationen
in ein Wiedergabe-Szenario einzuspeisen, die nicht explizit vorliegen,
da typischerweise nur ein Zweikanal-Stereosignal und gegebenenfalls
irgendwelche Zusatzinformationen bzw. Metainformationen zur Verfügung
stehen.
-
Nachfolgend
wird auf weitere bekannte Upmix- bzw. Hochmisch-Verfahren eingegangen,
die ohne Steuerparameter arbeiten. Solche Hochmisch-Verfahren werden
auch als Blind-Hochmischverfahren oder „Blind-Upmixing"-Verfahren
bezeichnet.
-
Die
meisten derartigen Techniken, um aus einem Monokanal ein so genanntes
Pseudo-Stereophonie-Signal zu erzeugen (also ein 1-auf-2-Upmix),
sind nicht signaladaptiv. Dies bedeutet, dass sie ein Monosignal
immer gleich verarbeiten, unabhängig davon, welcher Inhalt
in dem Monosignal enthalten ist. Solche Systeme arbeiten oft mit
einfachen Filterstrukturen und/oder Zeitverzögerungen,
um die erzeugten Signale zu dekorrelieren, beispielsweise durch
Verarbeiten des Einkanal-Eingangssignals durch ein Paar von so genannten komplementären
Kammfiltern, wie es in M. Schroeder, „An artificial
stereophonic effect obtained from using a single signal", JAES,
1957, beschrieben ist. Ein weiterer Überblick
solcher Systeme findet sich in C. Faller, „Pseudo
stereophony revisited", Proceedings of the AES 118nd Convention,
2005.
-
Darüber
hinaus existiert auch die Technik der Umgebungssignal-Extraktion
(Ambience Extraktion) unter Verwendung einer nicht-negativen Matrixfaktorisierung,
insbesondere im Kontext eines 1-auf-N-Upmix, wobei N größer
als zwei ist. Hier wird eine Zeit-Frequenz-Verteilung (TFD; TFD
= timefrequency distribution) des Eingangssignals berechnet, beispielsweise
mittels einer Kurzzeit-Fourier-Transformation. Ein Schätzwert
der TFD der Direktsignal-Komponenten wird mittels eines numerischen
Optimierungsverfahrens abgeleitet, das als nicht-negative Matrixfaktorisierung
bezeichnet wird. Ein Schätzwert für die TFD des
Umgebungssignals wird durch Berechnen der Differenz der TFD des
Eingangssignals und des Schätzwerts der TFD für
das Direktsignal bestimmt. Die Re-Synthese bzw. Synthese des Zeitsignals
des Umgebungssignals wird unter Verwendung des Phasenspektrogramms
des Eingangssignals ausgeführt. Eine zusätzliche
Nachverarbeitung wird optional durchgeführt, um die Hörerfahrung
des erzeugten Multikanalsignals zu verbessern. Dieses Verfahren
ist ausführlich in C. Uhle, A. Walther, O. Hellmuth
und J. Herre in „Ambience separation from mono recordings
using non-negative matrix factorization", Proceedings of the AES
30th Conference 2007, beschrieben.
-
Beim
Hochmischen von Stereoaufzeichnungen existieren verschiedene Techniken.
Eine Technik besteht in der Verwendung von Matrix-Decodierern. Matrix-Decodierer
sind unter dem Stichwort Dolby Pro Logic II, DTS Neo: 6 oder HarmanKardon/Lexicon
Logic 7 bekannt und in nahezu jedem Au dio/Video-Empfänger
enthalten, der heutzutage verkauft wird. Als Nebenprodukt ihrer
beabsichtigten Funktionalität sind diese Verfahren auch
in der Lage, ein blindes Hochmischen durchzuführen. Diese
Decodierer verwenden Interkanal-Differenzen und signaladaptive Steuermechanismen,
um Multikanal-Ausgangssignale zu erzeugen.
-
Wie
es bereits dargelegt worden ist, werden auch Frequenzbereichs-Techniken
verwendet, die von Avendano und Jot beschrieben worden sind, um
die Umgebungs-Information (ambience information) in Stereoaudiosignalen
zu identifizieren und zu extrahieren. Dieses Verfahren basiert auf
der Berechnung eines Interkanal-Kohärenz-Index und einer
nichtlinearen Abbildungsfunktion, wodurch es ermöglicht
wird, die Zeit-Frequenz-Regionen zu bestimmen, die hauptsächlich
aus Umgebungssignal-Komponenten bestehen. Die Umgebungssignale werden
nachfolgend synthetisiert und verwendet, um die Surround-Kanäle
des Multikanal-Wiedergabesystems zu speisen.
-
Ein
Bestandteil des Direkt/Umgebungs-Hochmisch-Prozesses besteht in
der Extraktion eines Umgebungssignals, das in die beiden hinteren
Kanäle Ls, Rs eingespeist wird. Es existieren bestimmte
Anforderungen an ein Signal, dass es als umgebungsartiges Signal
im Kontext eines Direkt/Umgebungs-Hochmisch-Prozesses verwendet
wird. Eine Voraussetzung besteht darin, dass keine relevanten Teile
der Direktschallquellen hörbar sein sollen, um die Direktschallquellen
sicher vor dem Hörer lokalisieren zu können. Dies
ist besonders dann wichtig, wenn das Audiosignal Sprache oder einen
oder mehrere unterscheidbare Sprecher enthält. Sprachsignale,
die dagegen von einer Menschenmenge erzeugt werden, müssen
nicht unbedingt den Hörer stören, wenn sie nicht
vor dem Hörer lokalisiert sind.
-
Wenn
eine spezielle Menge an Sprachkomponenten durch die hinteren Kanäle
reproduziert werden würde, würde dies dazu führen,
dass die Position des oder der wenigen Sprecher von vorne nach hinten
bzw. ein Stück weit zum Benutzer oder sogar hinter den
Benutzer platziert wird, was in einer sehr störenden Schallwahrnehmung
resultiert. Besonders in dem Fall, in dem Audio- und Videomaterial
gleichzeitig dargeboten wird, wie beispielsweise in einem Kino,
ist ein solcher Eindruck besonders störend.
-
Eine
Grundvoraussetzung für das Tonsignal eines Kinofilms (eines
Soundtracks) besteht darin, dass der Höreindruck mit dem
Eindruck konform gehen soll, der durch die Bilder erzeugt wird.
Hörbare Hinweise zur Lokalisation sollten also nicht zu
sichtbaren Hinweisen zur Lokalisation im Gegensatz stehen. Folglich
sollte die entsprechende Sprache dann, wenn ein Sprecher auf dem
Bildschirm zu sehen ist, ebenfalls vor dem Benutzer platziert sein.
-
Dasselbe
gilt für alle anderen Audiosignale, d. h. ist nicht unbedingt
auf Situationen begrenzt, bei denen gleichzeitig Audiosignale und
Videosignale dargeboten werden. Solche anderen Audiosignale sind
beispielsweise Rundfunksignale oder Hörbücher.
Ein Hörer ist daran gewöhnt, dass Sprache von
den vorderen Kanälen erzeugt wird, wobei er sich dann,
wenn auf einmal Sprache von den hinteren Kanälen kommen
würde, wahrscheinlich umdrehen würde, um seinen üblichen
Eindruck wiederherzustellen.
-
Um
die Qualität der Umgebungssignale zu verbessern, wird in
der deutschen Patentanmeldung
DE
10 2006 017 280.9-55 vorgeschlagen, ein einmal extrahiertes
Umgebungssignal einer Transientendetektion zu unterziehen und eine
Transientenunterdrückung herbeizuführen, ohne
wesentliche Einbußen an Energie in dem Umgebungssignal
zu erreichen. Hierzu wird eine Signalsubstitution vorgenommen, um
Bereiche mit Transienten durch entsprechende Signale ohne Transienten,
jedoch mit annähernd der gleichen Energie, zu ersetzen.
-
Das AES
Convention Paper „Descriptor-based specialization", J.
Monceaux, F. Pachet u. a., 28.–31. Mai 2005, Barcelona,
Spanien, offenbart eine deskriptorenbasierte Spatialisierung,
bei der auf der Basis von extrahierten Deskriptoren detektierte
Sprache gedämpft werden soll, indem nur der Mitte-Kanal
stumm geschaltet wird. Hierzu wird ein Sprachextraktor verwendet.
Eine Anschlag- und Einschwingzeit werden verwendet, um Modifikationen
des Ausgangssignals zu glätten. So kann ein Multikanal-Soundtrack
ohne Sprache aus einem Film extrahiert werden. Wenn eine bestimmte
Stereo-Nachhalleigenschaft in dem ursprünglichen Stereo-Downmixsignal
vorhanden ist, führt dies dazu, dass ein Hochmisch-Tool
diesen Nachhall auf jeden Kanal mit Ausnahme des Mitten-Kanals verteilt,
so dass ein Nachhall zu hören ist. Um dies zu unterbinden,
wird eine dynamische Pegelsteuerung für L, R, Ls und Rs
durchgeführt, um den Nachhall einer Stimme zu dämpfen.
-
Die
Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum
Erzeugen eines Multikanalsignals mit einer Anzahl von Ausgangskanälen
zu schaffen, das einerseits flexibel und andererseits ein qualitativ hochwertiges
Produkt liefert.
-
Diese
Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Multikanalsignals
gemäß Patentanspruch 1, ein Verfahren zum Erzeugen
eines Multikanalsignals gemäß Anspruch 23 oder
ein Computerprogramm gemäß Patentanspruch 24 gelöst.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass Sprachkomponenten
in den hinteren Kanälen, also in den Umgebungskanälen
unterdrückt werden, damit die hinteren Kanäle
sprachkomponentenfrei sind. Hierzu wird ein Eingangssignal mit einem
oder mehreren Kanälen hoch gemischt, um einen Direktsignalkanal
zu liefern und um einen Umgebungssignalkanal oder je nach Implementierung
bereits den modifizierten Umgebungssignalkanal zu liefern. Ein Sprachdetektor
ist vorgesehen, um in dem Eingangssignal, dem Direktkanal oder dem
Umgebungskanal nach Sprachkomponenten zu suchen, wobei solche Sprachkomponenten
in zeitlichen und/oder frequenzmäßigen Abschnitten
oder auch in Bestandteilen einer orthogonalen Zerlegung beispielsweise
auftreten können. Ein Signalmodifizierer ist vorgesehen,
um das vom Hochmischer erzeugte Direktsignal oder eine Kopie des
Eingangssignals dahin gehend zu modifizieren, dass dort die Sprachsignalkomponenten
unterdrückt werden, während die Direktsignalkomponenten
in den entsprechenden Abschnitten, die Sprachsignalkomponenten umfassen,
weniger oder nicht gedämpft werden. Ein solches modifiziertes
Umgebungskanalsignal wird dann zur Erzeugung von Lautsprechersignalen
für entsprechende Lautsprecher verwendet.
-
Wurde
jedoch das Eingangssignal modifiziert, so wird das vom Hochmischer
erzeugte Umgebungssignal direkt verwendet, da dort bereits die Sprachkomponenten
unterdrückt sind, da das das zugrunde liegende Audiosignal
ebenfalls bereits unterdrückte Sprachkomponenten hatte.
In diesem Fall wird jedoch dann, wenn der Hochmisch-Prozess auch
einen Direktkanal erzeugt, der Direktkanal nicht auf der Basis des
modifizierten Eingangssignals berechnet, sondern auf der Basis des
unmodifizierten Eingangssignals, um zu erreichen, dass selektiv
die Sprachkomponenten unterdrückt werden, und zwar nur
in dem Umgebungskanal, nicht jedoch in dem Direktkanal, in dem die
Sprachkomponenten ja ausdrücklich erwünscht sind.
-
Damit
wird verhindert, dass eine Reproduktion von Sprachkomponenten in
den hinteren Kanälen bzw. Umgebungssignalkanälen
stattfindet, die ansonsten den Zuhörer stören
oder sogar verwirren würde. Folglich wird erfindungsgemäß sichergestellt,
dass Dialoge und andere Sprache, die von einem Zuhörer
verstehbar ist, die also eine Spektralcharakteristik hat, die für
Sprache typisch ist, vor dem Zuhörer platziert wird.
-
Dieselben
Anforderungen existieren auch für das In-Band-Konzept,
bei dem ebenfalls erwünscht wird, dass Direktsignale nicht
in den hinteren Kanälen platziert werden, son dern vor den
Zuhörer und gegebenenfalls seitlich vom Zuhörer,
jedoch nicht hinter dem Zuhörer, wie es in 5c gezeigt
ist, bei dem die Direktsignalkomponenten (und auch die Umgebungssignalkomponenten)
alle vor dem Hörer platziert sind.
-
Erfindungsgemäß wird
also eine signalabhängige Verarbeitung vorgenommen, um
die Sprachkomponenten in den hinteren Kanälen bzw. in dem
Umgebungssignal zu entfernen oder zu unterdrücken. Hierzu
werden zwei wesentliche Schritte vorgenommen, nämlich das
Erfassen des Auftretens von Sprache und das Unterdrücken
von Sprache, wobei das Erfassen des Auftretens von Sprache im Eingangssignal,
im Direktkanal oder im Umgebungskanal vorgenommen werden kann, und
wobei das Unterdrücken von Sprache im Umgebungskanal direkt
oder indirekt im Eingangssignal vorgenommen werden kann, das dann
verwendet wird, um den Umgebungskanal zu erzeugen, wobei dieses
modifizierte Eingangssignal nicht dazu verwendet wird, um den Direktkanal
zu erzeugen.
-
Erfindungsgemäß wird
also erreicht, dass dann, wenn man ein Multikanal-Surround-Signal
aus einem Audiosignal mit weniger Kanälen erzeugt, welches
Sprachkomponenten enthält, sichergestellt wird, dass die resultierenden
Signale für die vom Benutzer aus gesehen hinteren Kanäle
eine minimale Menge an Sprache umfassen, um das ursprüngliche
Ton-Bild vor dem Benutzer (Front-Image) zu erhalten. Wenn eine spezielle Menge
an Sprachkomponenten durch die hinteren Kanäle reproduziert
werden würde, würde die Position der Sprecher
außerhalb des vorderen Bereichs positioniert werden, und
zwar irgendwo zwischen dem Zuhörer und den vorderen Lautsprechern
oder in extremen Fällen sogar hinter dem Zuhörer.
Dies würde in einer sehr störenden Schallwahrnehmung
resultieren, besonders wenn die Audiosignale gleichzeitig mit visuellen
Signalen dargeboten werden, wie es beispielsweise in Filmen der
Falls ist. Daher enthalten viele Multikanal-Film-Soundtracks kaum
Sprachkomponenten in den hinteren Kanälen. Erfindungsgemäß werden
Sprachsignal komponenten detektiert und an geeigneter Stelle unterdrückt.
-
Bevorzugte
Ausführungsbeispiele der vorliegenden Erfindung werden
nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert
erläutert. Es zeigen:
-
1 ein
Blockschaltbild eines Ausführungsbeispiels der vorliegenden
Erfindung;
-
2 eine
Zuordnung von Zeit/Frequenz-Abschnitten eines Analysesignals und
eines Umgebungskanals bzw. Eingangssignals zur Erläuterung
der „entsprechenden Abschnitte";
-
3 eine
Umgebungssignalmodifikation gemäß einem bevorzugten
Ausführungsbeispiel der vorliegenden Erfindung;
-
4 eine
Kooperation zwischen einem Sprachdetektor und einem Umgebungssignalmodifizierer
gemäß einem weiteren Ausführungsbeispiel
der vorliegenden Erfindung;
-
5a ein
Stereo-Wiedergabe-Szenario mit Direktquellen (Schlaginstrumenten)
und diffusen Komponenten;
-
5b ein
Multikanal-Wiedergabe-Szenario, bei dem alle Direktschaltquellen
durch die vorderen Kanäle wiedergegeben werden und diffuse
Komponenten durch alle Kanäle wiedergegeben werden, wobei
dieses Szenario auch als Direkt-Umgebung-Konzept bezeichnet wird;
-
5c ein
Multikanal-Wiedergabe-Szenario, bei dem diskrete Schaltquellen auch
durch hintere Kanäle zumindest teilweise wiedergegeben
werden können und bei dem Umgebungskanäle nicht
oder weniger als in 5b durch die hinteren Lautsprecher
wiedergegeben werden;
-
6a ein
weiteres Ausführungsbeispiel mit einer Sprachdetektion
im Umgebungskanal und einer Modifikation des Umgebungskanals;
-
6b ein
Ausführungsbeispiel mit Sprachdetektion im Eingangssignal
und Modifikation des Umgebungskanals;
-
6c ein
Ausführungsbeispiel mit einer Sprachdetektion im Eingangssignal
und einer Modifikation des Eingangssignals;
-
6d ein
weiteres Ausführungsbeispiel mit einer Sprachdetektion
im Eingangssignal und einer Modifikation im Umgebungssignal, wobei
die Modifikation speziell auf die Sprache abgestimmt ist;
-
7 ein
Ausführungsbeispiel mit bandweiser Verstärkungsfaktorberechnung
basierend auf einem Bandpasssignal/Subbandsignal; und
-
8 eine
detailliertere Darstellung eines Verstärkungsberechnungsblocks
von 7.
-
1 zeigt
ein Blockschaltbild einer Vorrichtung zum Erzeugen eines Multikanalsignals 10,
das in 1 derart gezeigt ist, dass es einen linken Kanal
L, einen rechten Kanal R, einen Mitte-Kanal C, einen LFE-Kanal,
einen linken hinteren Kanal LS und einen rechten hinteren Kanal
RS aufweist. Es sei darauf hingewiesen, dass die vorliegende Erfindung
jedoch auch für beliebige andere Darstellungen als für
diese gewählte 5.1-Darstellung geeignet ist, beispielsweise
für eine 7.1-Darstellung oder auch für eine 3.0-Darstellung, wobei
hier nur ein linker Kanal, ein rechter Kanal und ein Mitte-Kanal
erzeugt wird. Das Multi kanalsignal 10 mit den beispielsweise
sechs Kanälen, die in 1 gezeigt
sind, wird aus einem Eingangssignal 12 bzw. „x"
erzeugt, das eine Anzahl von Eingangskanälen hat, wobei
die Anzahl von Eingangskanälen 1 oder größer
als 1 ist und beispielsweise gleich 2 ist, wenn ein Stereo-Downmix
eingegeben wird. Generell ist jedoch die Anzahl der Ausgangskanäle
größer als die Anzahl der Eingangskanäle.
-
Die
in 1 gezeigte Vorrichtung umfasst einen Hochmischer 14 zum
Hochmischen des Eingangssignals 12, um wenigstens einen
Direktsignalkanal 15 und einen Umgebungssignalkanal 16 oder
gegebenenfalls einen modifizierten Umgebungssignalkanal 16' zu
erzeugen. Ferner ist ein Sprachdetektor 18 vorgesehen,
der ausgebildet ist, um als Analysesignal das Eingangssignal 12 zu
verwenden, wie es bei 18a vorgesehen ist, oder um den Direktsignalkanal 15 zu
verwenden, wie es bei 18b vorgesehen ist, oder um ein anderes Signal
zu verwenden, das im Hinblick auf das zeitliche/frequenzmäßige
Auftreten bzw. im Hinblick auf seine Charakteristik, was Sprachkomponenten
betrifft, ähnlich zum Eingangssignal 12 ist. Der
Sprachdetektor detektiert einen Abschnitt des Eingangssignals, des
Direktkanals oder z. B. auch des Umgebungskanals, wie es bei 18c dargestellt
ist, in dem ein Sprachanteil auftritt. Dieser Sprachanteil kann
ein signifikanter Sprachanteil sein, also z. B. ein Sprachanteil,
dessen Spracheigenschaft abhängig von einem bestimmten
qualitativen oder quantitativen Maß abgeleitet worden ist,
wobei das qualitative Maß und das quantitative Maß eine
Schwelle überschreitet, die auch als Spracherfassungsschwelle
bezeichnet wird.
-
Bei
einem quantitativen Maß wird eine Spracheigenschaft mit
einem numerischen Wert quantifiziert, und dieser numerische Wert
wird mit einer Schwelle verglichen. Bei einem qualitativen Maß wird
eine Entscheidung pro Abschnitt vorgenommen, die durch eines oder
mehrere Entscheidungskriterien vorgenommen werden kann. Solche Entscheidungskriterien
können beispielsweise verschiedene quantitative Merkmale
sein, die untereinander verglichen/gewichtet oder irgendwie verarbeitet
werden, um zu einer Ja/Nein-Entscheidung zu kommen.
-
Die
in 1 gezeigte Vorrichtung umfasst ferner einen Signalmodifizierer 20,
der ausgebildet ist, um das ursprüngliche Eingangssignal
zu modifizieren, wie es bei 20a gezeigt ist, oder der ausgebildet
ist, um den Umgebungskanal 16 zu modifizieren. Wenn der
Umgebungskanal 16 modifiziert wird, gibt der Signalmodifizierer 20 einen
modifizierten Umgebungskanal 21 aus, während dann,
wenn das Eingangssignal 20a modifiziert wird, ein modifiziertes
Eingangssignal 20b zum Hochmischer 14 ausgegeben
wird, der dann den modifizierten Umgebungskanal 16' z.
B. durch denselben Hochmischvorgang erzeugt, der für den
Direktkanal 15 verwendet worden ist. Sollte dieser Hochmischprozess
aufgrund des modifizierten Eingangssignals 20b ebenfalls
zu einem Direktkanal führen, so würde dieser Direktkanal
verworfen werden, da als Direktkanal ein Direktkanal erfindungsgemäß verwendet
wird, der von dem unmodifizierten (ohne Sprachunterdrückung)
Eingangssignal 12 und nicht von dem modifizierten Eingangssignal 20b abgeleitet
worden ist.
-
Der
Signalmodifizierer ist ausgebildet, um Abschnitte des wenigstens
einen Umgebungskanals oder des Eingangssignals zu modifizieren,
wobei diese Abschnitte zeitliche oder frequenzmäßige
Abschnitte oder Anteile einer orthogonalen Zerlegung beispielsweise
sein können. Insbesondere werden die Abschnitte modifiziert,
die den Abschnitten entsprechen, die von dem Sprachdetektor detektiert
worden sind, so dass der Signalmodifizierer, wie es dargestellt
worden ist, den modifizierten Umgebungskanal 21 oder das
modifizierte Eingangssignal 20b erzeugt, in dem ein Sprachanteil
gedämpft oder eliminiert ist, wobei der Sprachanteil in
dem entsprechenden Abschnitt des Direktkanals weniger oder am besten überhaupt
nicht gedämpft worden ist.
-
Darüber
hinaus umfasst die in 1 gezeigte Vorrichtung eine
Lautsprechersignalausgabeeinrichtung 22 zum Ausgeben von
Lautsprechersignalen in einem Wiedergabeszenario, wie beispielsweise
dem in 1 beispielhaft gezeigten 5.1-Szenario, wobei jedoch
auch ein 7.1-Szenario, ein 3.0-Szenario oder ein anderes oder noch
höheres Szenario ebenfalls möglich ist. Insbesondere
werden zum Erzeugen der Lautsprechersignale für ein Wiedergabeszenario
der wenigstens eine Direktkanal und der wenigstens eine modifizierte
Umgebungskanal verwendet, wobei der modifizierte Umgebungskanal
entweder vom Signalmodifizierer 20 stammen kann, wie es
bei 21 gezeigt ist, oder vom Hochmischer 14 stammen
kann, wie es bei 16' gezeigt ist.
-
Wenn
beispielsweise zwei modifizierte Umgebungskanäle 21 geliefert
werden, so könnten diese beiden modifizierten Umgebungskanäle
direkt in die beiden Lautsprechersignale Ls, Rs eingespeist werden,
während die Direktkanäle nur in die drei vorderen
Lautsprecher L, R, C eingespeist werden, so dass eine komplette Aufteilung
zwischen Umgebungssignalkomponenten und Direktsignalkomponenten
stattgefunden hat. Die Direktsignalkomponenten befinden sich dann
alle vor dem Benutzer und die Umgebungssignalkomponenten befinden
sich alle hinter dem Benutzer. Alternativ können auch Umgebungssignalkomponenten
typischerweise zu einem kleineren Prozentsatz auch in die vorderen
Kanäle eingebracht werden, so dass z. B. das in 5b gezeigte
Direkt/Umgebungs-Szenario entsteht, bei dem nicht nur von Surround-Kanälen
Umgebungssignale erzeugt werden, sondern auch von den vorderen Lautsprechern
z. B. L, C, R.
-
Wird
dagegen das In-Band-Szenario bevorzugt, so werden Umgebungssignalkomponenten
ebenfalls hauptsächlich von den vorderen Lautsprechern
z. B. L, R, C ausgegeben, wobei jedoch auch Direktsignalkomponenten
zumindest teilweise in die beiden hinteren Lautsprecher Ls, Rs eingespeist
werden. Um nämlich eine Platzierung der beiden Direktsignalquellen 1100 und 1102 in 5c an
den gezeigten Orten zu erreichen, wird der Anteil der Quelle 1100 im
Lautsprecher L etwa genauso groß sein wie im Lautsprecher
Ls, damit gemäß einer typischen Panning-Regel
die Quelle 1100 in der Mitte zwischen L und Ls platziert
werden kann. Die Lautsprechersignalausgabeeinrichtung 22 kann
somit je nach Implementierung ein direktes Durchleiten eines eingangsseitig
eingespeisten Kanals bewirken oder kann eine Abbildung der Umgebungskanäle
und der Direktkanäle, beispielsweise durch ein In-Band-Konzept
oder ein Direkt/Umgebungs-Konzept vornehmen, derart, dass eine Verteilung
der Kanäle auf die einzelnen Lautsprecher stattfindet und
letztendlich, um das tatsächliche Lautsprechersignal zu
erzeugen, eine Aufsummation der Anteile aus den einzelnen Kanälen
erfolgen kann.
-
2 zeigt
eine Zeit/Frequenz-Aufteilung eines Analysesignals im oberen Abschnitt
und eines Umgebungskanals oder Eingangssignals in einem unteren
Abschnitt. Insbesondere ist entlang der horizontalen Achse die Zeit
aufgetragen und ist entlang der vertikalen Achse die Frequenz aufgetragen.
Dies bedeutet, dass in 2 für jedes Signal 15 Zeit/Frequenz-Kacheln
oder Zeit/Frequenz-Abschnitte gezeichnet sind, die im Analysesignal
und im Umgebungskanal/Eingangssignal die gleiche Nummer haben. Dies
bedeutet, dass der Signalmodifizierer 20 z. B. dann, wenn
der Sprachdetektor 18 im Abschnitt 22 ein Sprachsignal
detektiert, den Abschnitt des Umgebungskanals/Eingangssignals irgendwie
verarbeitet, wie beispielsweise dämpft, komplett eliminiert
oder durch ein Synthesesignal substituiert, das keine Spracheigenschaft
hat. Es sei darauf hingewiesen, dass bei der vorliegenden Erfindung
die Aufteilung nicht so selektiv sein muss, wie es in 2 gezeigt ist.
Stattdessen kann auch bereits eine zeitliche Detektion einen zufrieden
stellenden Effekt liefern, wobei dann ein bestimmter zeitlicher
Abschnitt des Analysesignals, beispielsweise von Sekunde 2 zu Sekunde
2,1 als Sprachsignal enthaltend detektiert wird, um dann den Abschnitt
des Umgebungskanals oder des Eingangssignals ebenfalls zwischen
Sekunde 2 und 2,1 zu verarbeiten, um eine Sprachunterdrückung
zu erreichen.
-
Alternativ
kann auch eine orthogonale Zerlegung durchgeführt werden,
z. B. mittels einer Hauptkomponentenanalyse, wobei dann sowohl im
Umgebungskanal oder Eingangssignal als auch im Analysesignal dieselbe
Komponentenzerlegung verwendet wird. Dann werden bestimmte Komponenten,
die als Sprachkomponenten im Analysesignal detektiert worden sind,
im Umgebungskanal bzw. Eingangssignal gedämpft oder komplett
unterdrückt bzw. eliminiert. Es wird also je nach Implementierung
ein Abschnitt im Analysesignal detektiert, wobei dann dieser Abschnitt
nicht unbedingt im Analysesignal, sondern gegebenenfalls auch in
einem anderen Signal verarbeitet wird.
-
3 zeigt
eine Implementierung eines Sprachdetektors in Kooperation mit einem
Umgebungskanalmodifizierer, wobei der Sprachdetektor lediglich eine
Zeitinformation liefert, also, wenn 2 betrachtet
wird, lediglich breitbandig den ersten, zweiten, dritten, vierten
oder fünften Zeitabschnitt identifiziert und diese Information
dem Umgebungskanalmodifizierer 20 über eine Steuerleitung 18d (1)
mitteilt. Der Sprachdetektor 18 und der Umgebungskanalmodifizierer 20,
die synchron arbeiten oder die gepuffert arbeiten, erreichen zusammen,
dass in dem zu modifizierenden Signal, das beispielsweise das Signal 12 oder
das Signal 16 sein kann, das Sprachsignal bzw. die Sprachkomponente
gedämpft ist, während sichergestellt wird, dass
eine solche Dämpfung des entsprechenden Abschnitts im Direktkanal
nicht oder nur weniger auftritt. Je nach Implementierung kann dies
dadurch erreicht werden, dass der Hochmischer 14 ohne Rücksicht
auf Sprachkomponenten arbeitet, wie beispielsweise in einem Matrixverfahren
oder in einem anderen Verfahren, das keine spezielle Sprachverarbeitung
durchführt. Das dadurch gewonnene Direktsignal wird dann
ohne weitere Verarbeitung der Ausgabeeinrichtung 22 zugeführt,
während das Umgebungssignal im Hinblick auf eine Sprachunterdrückung
verarbeitet wird.
-
Alternativ
kann dann, wenn der Signalmodifizierer das Eingangssignal einer
Sprachunterdrückung unterzieht, der Hochmischer 14 gewissermaßen
zweimal arbeiten, um einerseits auf der Basis des ursprünglichen
Eingangssignals die Direktkanalkomponente zu extrahieren, um aber
auf der Basis des modifizierten Eingangssignals 20b den
modifizierten Umgebungskanal 16' zu extrahieren. Hier würde
derselbe Hochmisch-Algorithmus zweimal ablaufen, jedoch unter Verwendung
eines jeweils anderen Eingangssignals, wobei in dem einen Eingangssignal
die Sprachkomponente gedämpft ist und im anderen Eingangssignal
die Sprachkomponente nicht gedämpft ist.
-
Je
nach Implementierung hat der Umgebungskanalmodifizierer eine Funktionalität
einer Breitbanddämpfung oder eine Funktionalität
einer Hochpassfilterung, wie es nachfolgend noch dargelegt wird.
-
Nachfolgend
werden anhand der 6a, 6b, 6c und 6d verschiedene
Implementierungen der erfindungsgemäßen Vorrichtung
dargelegt.
-
In 6a wird
das Umgebungssignal a aus dem Eingangssignal x extrahiert, wobei
diese Extraktion ein Teil der Funktionalität des Hochmischens 14 ist.
Das Auftreten von Sprache wird in dem Umgebungssignal a detektiert.
Das Detektionsergebnis d wird im Umgebungskanalmodifizierer 20 verwendet,
der das modifizierte Umgebungssignal 21 berechnet, in dem
Sprachanteile unterdrückt sind.
-
6b zeigt
eine zur 6a dahin gehend unterschiedliche
Konfiguration, dass das Eingangssignal und nicht das Umgebungssignal
dem Sprachdetektor 18 als Analysesignal 18a zugeführt
wird. Insbesondere wird das modifizierte Umgebungskanalsignal as ähnlich der Konfiguration von 6a berechnet,
wobei jedoch die Sprache im Eingangssignal detektiert wird. Dies
wird dadurch motiviert, dass die Sprachkomponenten im Allgemeinen
im Eingangssignal x deut licher auffindbar sind als im Umgebungssignal
a. Somit kann durch die in 6b gezeigte
Konfiguration eine höhere Zuverlässigkeit erreicht
werden.
-
In 6c wird
das sprachmodifizierte Umgebungssignal as aus
einer Version xs des Eingangssignals extrahiert,
das bereits einer Sprachsignalunterdrückung unterzogen
worden ist. Da die Sprachkomponenten in x typischerweise prominenter
hervortreten als in einem extrahierten Umgebungssignal ist ihre
Unterdrückung sicherer und nachhaltiger durchzuführen
als in 6a. Nachteil der in 6c gezeigten
Konfiguration im Vergleich zu der Konfiguration in 6a ist,
dass mögliche Artefakte der Sprachunterdrückung
und den Umgebungsextraktionsprozess abhängig vom Typ des
Extraktionsverfahrens noch vergrößert werden könnten.
Allerdings wird in 6c die Funktionalität
des Umgebungskanalextraktors 14 nur dazu verwendet, den
Umgebungskanal aus dem modifizierten Audiosignal zu extrahieren.
Der Direktkanal wird jedoch nicht aus dem modifizierten Audiosignal
xs (20b) extrahiert, sondern auf
der Basis des ursprünglichen Eingangssignals x (12).
-
Bei
der in 6d gezeigten Konfiguration wird
das Umgebungssignal a aus dem Eingangssignal x durch den Hochmischer
extrahiert. Das Auftreten von Sprache wird im Eingangssignal x detektiert.
Ferner werden durch einen Sprachanalysator 30 zusätzliche
Seiteninformationen e berechnet, die die Funktionalität
des Umgebungskanalmodifizierers 20 zusätzlich
steuern. Diese Seiteninformationen werden direkt aus dem Eingangssignal
berechnet und können die Position von Sprachkomponenten
in einer Zeit/Frequenz-Darstellung, beispielsweise in Form eines
Spektrogramms von 2 sein oder können
weitere Zusatzinformationen sein, auf die nachfolgend noch näher
eingegangen wird.
-
Nachfolgend
wird detaillierter auf die Funktionalität des Sprachdetektors 18 eingegangen.
Die Aufgabe einer Sprachdetektion besteht darin, eine Mischung aus
Audiosignalen zu analysieren, um eine Wahrscheinlichkeit abzuschätzen,
dass Sprache präsent ist. Das Eingangssignal kann ein Signal
sein, das aus einer Vielzahl von unterschiedlichen Typen von Audiosignalen
zusammengesetzt sein kann, beispielsweise aus einem Musiksignal,
aus Rauschen oder aus speziellen Toneffekten, wie sie von Kinofilmen
bekannt sind. Eine Möglichkeit zur Sprachdetektion besteht
darin, ein Mustererkennungssystem einzusetzen. Unter Mustererkennung versteht
man das Analysieren von Rohdaten und das Durchführen einer
speziellen Verarbeitung basierend auf einer Kategorie eines Musters,
das man in den Rohdaten entdeckt hat. Insbesondere beschreibt der
Ausdruck „Muster" oder „Pattern" eine zugrunde
liegende Ähnlichkeit, die zwischen den Messungen von Objekten
gleicher Kategorien (Klassen) zu finden ist. Die Basisoperationen
eines Mustererkennungssystems bestehen in dem Erfassen, also der
Aufnahme der Daten unter Verwendung eines Wandlers, einer Vorverarbeitung,
einer Merkmalsextraktion und einer Klassifikation, wobei diese Grundoperationen
in der angegebenen Reihenfolge durchgeführt werden können.
-
Üblicherweise
werden Mikrophone als Sensoren für ein Spracherfassungssystem
eingesetzt. Eine Vorbereitung kann eine A/D-Wandlung, ein Resampling
oder eine Rauschreduktion umfassen. Die Merkmalsextraktion ist die
Berechnung von charakteristischen Merkmalen für jedes Objekt
aus den Messungen. Die Merkmale werden derart gewählt,
dass sie unter Objekten derselben Klasse ähnlich sind,
dass also eine gute Intra-Klassen-Kompaktheit erreicht wird und
dass sie unterschiedlich sind für Objekte unterschiedlicher
Klassen, so dass eine Inter-Klassen-Trennbarkeit erreicht wird.
Eine dritte Anforderung besteht darin, dass die Merkmale robust
bezüglich Rauschen, Umgebungsbedingungen und für
die menschliche Wahrnehmung irrelevanten Transformationen des Eingangssignals
sein sollten. Die Merkmalsextraktion kann in zwei getrennte Stufen
aufgeteilt werden. Die erste Stufe ist die Merkmalsberechnung und
die zweite Stufe ist die Merkmalsprojektion oder Transformation
auf eine im Allgemeinen orthogonale Basis, um eine Korrelation zwischen Merkmalsvektoren
zu minimieren und um die Dimensionalität der Merkmale zu
reduzieren, indem Elemente mit niedriger Energie nicht verwendet
werden.
-
Die
Klassifikation ist der Prozess der Entscheidung, ob Sprache vorhanden
ist oder nicht, und zwar basierend auf den extrahierten Merkmalen
und einem trainierten Klassifizierer. So sei folgende Gleichung
gegeben.
-
In
der obigen Gleichung wird eine Menge von Trainingsvektoren ΩXY definiert, wobei Merkmalsvektoren durch
xi bezeichnet werden und der Satz von Klassen
durch Y. Für eine grundsätzliche Spracherfassung gilt
also, dass Y zwei Werte hat, nämlich {Sprache, Nicht-Sprache}.
-
In
der Trainingsphase werden die Merkmale xi aus
bezeichneten Daten berechnet, d. h. aus Audiosignalen, bei denen
bekannt ist, zu welcher Klasse y dieselben gehören. Nach
einer Vollendung des Trainings hat der Klassifizierer die Charakteristika
aller Klassen gelernt.
-
In
der Anwendungsphase des Klassifizierers werden die Merkmale aus
den unbekannten Daten wie in der Trainingsphase berechnet und projiziert
und vom Klassifizierer aufgrund der im Training erlangten Kenntnis über
die Charakteristika der Klassen klassifiziert.
-
Nachfolgend
wird auf spezielle Implementierungen der Sprachunterdrückung
eingegangen, wie sie beispielsweise durch den Signalmodifizierer 20 durchgeführt
werden können. So können verschiedene Verfahren
eingesetzt werden, um Sprache in einem Audiosignal zu unterdrücken.
Hierbei gibt es Verfahren, die aus dem Gebiet der Sprachverstärkung
und Rauschreduktion für Kommunikationsanwendungen bekannt
sind. Ursprünglich wurden Sprachverstärkungsverfahren
dazu ver wendet, um die Sprache in einer Mischung aus Sprache und
Hintergrundrauschen zu verstärken. Solche Methoden können
modifiziert werden, um auch das Gegenteil zu bewirken, nämlich
eine Unterdrückung von Sprache, wie sie für die
vorliegende Erfindung durchgeführt wird.
-
So
existieren Lösungsansätze zur Sprachverstärkung
und Rauschreduktion, die die Koeffizienten einer Zeit/Frequenz-Darstellung
gemäß einem Schätzwert des Grads des
Rauschens, das in einem solchen Zeit/Frequenz-Koeffizienten enthalten
ist, dämpfen oder verstärken. Wenn keine zusätzlichen
Informationen über ein Hintergrundrauschen bekannt sind,
beispielsweise a-priori-Informationen oder Informationen, die durch
einen speziellen Rauschsensor gemessen werden, wird eine Zeit/Frequenz-Darstellung
aus einer verrauschten Messung gewonnen, beispielsweise unter Verwendung
spezieller Minimal-Statistik-Verfahren. Eine Rauschunterdrückungsregel
berechnet einen Dämpfungsfaktor unter Verwendung des Rauschschätzwerts. Dieses
Prinzip ist als Kurzzeit-Spektraldämpfung oder Spektral-Gewichtung
bekannt, wie es beispielsweise in G. Schmid, „Single-channel
noise suppression based an spectral weighting", Eurasip Newsletter
2004, bekannt ist. Signalverarbeitungsmethoden, die gemäß dem
Prinzip der Kurzzeit-Spektraldämpfung (STSA) arbeiten,
bestehen in der Spektralsubtraktion, der Wiener-Filterung und dem
Ephraim-Malah-Algorithmus. Eine allgemeinere Formulierung des STSA-Ansatzes
führt zu einem Signal-Subspace-Verfahren, das auch als
Methode des reduzierten Rangs bekannt ist und in P. Hansen
und S. Jensen, „Fir filter representation of reduced-rank noise
reduction", IEEE TSP, 1998, beschrieben ist.
-
Prinzipiell
können also alle Verfahren, die Sprache verstärken
oder Nicht-Sprach-Komponenten unterdrücken, auf entgegengesetzte
Art und Weise mit Blick auf ihre bekannte Verwendung eingesetzt
werden, um Sprache zu unterdrücken bzw. um Nicht-Sprache
zu verstärken. Das allgemeine Modell der Sprachverstärkung
oder Rauschunterdrückung besteht darin, dass das Eingangssignal
eine Mischung aus erwünschtem Signal (Sprache) und dem
Hintergrundrauschen (Nicht-Sprache) ist. Eine Unterdrückung
der Sprache wird z. B. durch Invertieren der Dämpfungsfaktoren
in einem STSA-basierten Verfahren oder durch Austauschen der Definition
des erwünschten Signals und des Hintergrundrauschens erreicht.
-
Eine
wichtige Anforderung bei der Sprachunterdrückung besteht
jedoch darin, dass im Hinblick auf den Kontext des Hochmischens
das resultierende Audiosignal als Audiosignal hoher Audioqualität
wahrgenommen wird. Es ist bekannt, dass Sprachverbesserungsverfahren
und Rauschreduktionsverfahren hörbare Artefakte in das
Ausgangssignal einführen. Ein Beispiel eines solchen Artefakts
wird als Musikrauschen oder Musiktöne bekannt und resultiert
aus einer fehlerhaften Schätzung von Rauschböden
(noise floors) und schwankenden Subband-Dämpfungsfaktoren.
-
Alternativ
können auch blinde Quellentrennverfahren eingesetzt werden,
um die Sprachsignalanteile von dem Umgebungssignal zu separieren
und beide anschließend getrennt zu manipulieren.
-
Für
die spezielle Anforderung nach der Erzeugung hochqualitativer Audiosignale
werden jedoch bestimmte nachfolgend dargelegte Verfahren aufgrund
der Tatsache, dass sie im Vergleich zu anderen Verfahren wesentlich
besser abschneiden, bevorzugt. Ein Verfahren besteht in der Breitbanddämpfung,
wie sie in 3 bei 20 angedeutet
ist. Das Audiosignal wird zu den Zeitabschnitten, wo Sprache vorhanden
ist, gedämpft. Spezielle Verstärkungsfaktoren
liegen im Bereich zwischen –12 dB und –3 dB, wobei
eine bevorzugte Dämpfung bei 6 dB liegt. Da andere Signalkomponenten/anteile
genauso unterdrückt werden, könnte man meinen,
dass der gesamte Verlust an Audiosignalenergie deutlich wahrgenommen
wird. Es hat sich jedoch herausgestellt, dass dieser Effekt nicht
störend ist, da sich der Benutzer ohnehin besonders auf
die vorderen Lautsprecher L, C, R konzentriert, wenn eine Sprachsequenz
beginnt, so dass der Benutzer die Energieabnahme der hinteren Kanäle
bzw. des Umgebungssignals, dann, wenn er sich gerade auf ein Sprachsignal
konzentriert, nicht wahrnehmen wird. Dies wird insbesondere durch
den weiteren typischen Effekt verstärkt, dass der Pegel
des Audiosignals ohnehin aufgrund einer einsetzenden Sprache zunimmt.
Durch Einführen einer Dämpfung im Bereich zwischen –12
dB und 3 dB wird die Dämpfung nicht als störend
wahrgenommen. Stattdessen empfindet es der Benutzer wesentlich angenehmer,
dass aufgrund der Unterdrückung von Sprachkomponenten in
den hinteren Kanälen ein Effekt erreicht wird, der dazu
führt, dass für den Benutzer die Sprachkomponenten
ausschließlich in den vorderen Kanälen positioniert
sind.
-
Ein
alternatives Verfahren, das ebenfalls in 3 bei 20 angedeutet
wird, besteht in einer Hochpassfilterung. Das Audiosignal wird dort,
wo Sprache vorhanden ist, einer Hochpassfilterung unterzogen, wobei eine
Grenzfrequenz im Bereich zwischen 600 Hz und 3.000 Hz liegt. Die
Einstellung der Grenzfrequenz ergibt sich aus der Signalcharakteristik
von Sprache im Hinblick auf die vorliegenden Erfindung. Das Langzeit-Leistungsspektrum
eines Sprachsignals konzentriert sich auf einen Bereich unter 2,5
kHz. Der bevorzugte Bereich der Grundfrequenz von tonaler Sprache
(voiced speech) liegt im Bereich zwischen 75 Hz und 330 Hz. Ein
Bereich zwischen 60 Hz und 250 Hz ergibt sich für männliche
Erwachsene. Mittelwerte liegen bei 120 Hz für männliche
Sprecher und 215 Hz für weibliche Sprecherinnen. Aufgrund
der Resonanzen im Vokaltrakt werden bestimmte Signalfrequenzen verstärkt.
Die entsprechenden Peaks in dem Spektrum werden auch als Formant-Frequenzen
oder einfach als Formanten bezeichnet. Typischerweise existieren
etwa drei signifikante Formanten unter 3.500 Hz. Folglich zeigt
die Sprache eine 1/F-Natur, d. h. die spektrale Energie nimmt mit
zunehmender Frequenz ab. Daher können Sprachkomponenten
zu Zwecken der vorliegenden Erfindung gut durch eine Hochpass filterung
mit dem angegebenen Grenzfrequenzbereich gefiltert werden.
-
Eine
weitere bevorzugte Implementierung besteht in der Sinus-Signal-Modellierung,
die anhand von 4 dargestellt wird. So wird
in einem ersten Schritt 40 die Grundwelle einer Sprache
detektiert, wobei diese Detektion im Sprachdetektor 18 oder
aber, wie es in 6e gezeigt ist, in
dem Sprachanalysator 30 stattfinden kann. Hierauf wird
in einem Schritt 41 eine Untersuchung durchgeführt,
um die zu der Grundwelle gehörenden Oberwellen herauszufinden.
Diese Funktionalität kann im Sprachdetektor/Sprachanalysator
oder auch sogar bereits im Umgebungssignalmodifizierer durchgeführt
werden. Hierauf wird für das Umgebungssignal ein Spektrogramm
berechnet, und zwar auf der Basis einer blockweise ausgeführten
Hin-Transformation, wie es bei 42 dargelegt ist. Hierauf
wird die eigentliche Sprachunterdrückung in einem Schritt 43 durchgeführt,
in dem die Grundwelle und die Oberwellen im Spektrogramm gedämpft
werden. In einem Schritt 44 wird dann das modifizierte
Umgebungssignal, in dem die Grundwelle und die Oberwellen gedämpft
oder eliminiert sind, wieder einer Rücktransformation unterzogen,
um das modifizierte Umgebungssignal oder das modifizierte Eingangssignal
zu erreichen.
-
Diese
sinusartige Signalmodellierung wird oft für die Tonsynthese,
die Audiocodierung, die Quellentrennung, die Tonmanipulation und
zur Rauschunterdrückung eingesetzt. Hier wird ein Signal
als Zusammensetzung aus Sinuswellen mit zeitlich variierenden Amplituden
und Frequenzen dargestellt. Tonale Sprachsignalkomponenten werden
manipuliert, indem die Partialtöne, d. h. die Grundwelle
und deren Harmonische (Oberwellen), identifiziert und modifiziert
werden.
-
Die
Partialtöne werden mittels eines Partialton-Finders identifiziert,
wie es bei 41 dargelegt ist. Typischerweise wird das Partialton-Finden
in der Zeit/Frequenz-Domäne durchgeführt. Ein
Spektrogramm wird mittels einer Kurzzeit-Fourier-Transformation,
wie es bei 42 angedeutet ist, durchgeführt. Lokale
Maxima in jedem Spektrum des Spektrogramms werden detektiert und
Trajektorien durch lokale Maxima benachbarter Spektren bestimmt.
Eine Schätzung der Grundfrequenz kann den Spitzen-Such-Prozess
(Peak Picking) unterstützen, wobei diese Abschätzung
der Grundfrequenz bei 40 durchgeführt wird. Eine
Sinussignaldarstellung wird dann aus den Trajektorien erreicht.
Es sei darauf hingewiesen, dass also die Reihenfolge zwischen dem Schritt 40, 41 und
dem Schritt 42 auch variiert werden kann, so dass zunächst
eine Hin-Transformation 42 ausgeführt wird, die
im Sprachanalysator 30 von 6d erfolgt.
-
Verschiedene
Erweiterungen der Ableitung einer Sinussignaldarstellung wurden
vorgeschlagen. Ein Multi-Auflösungs-Verarbeitungs-Lösungsansatz
zur Rauschreduktion ist in D. Andersen und M. Clements, „Audio
signal noise reduction using multi-resolution sinusoidal modeling",
Proceedings of ICASSP 1999, dargestellt. Ein iterativer
Prozess für das Ableiten der Sinusdarstellung wurde in J.
Jensen und J. Hansen, „Speech enhancement using a constrained
iterative sinusoidal model", IEEE TSAP 2001, vorgestellt.
-
Unter
Verwendung der sinusförmigen Signaldarstellung wird ein
verbessertes Sprachsignal durch Verstärken der Sinuskomponente
erhalten. Die erfindungsgemäße Sprachunterdrückung
möchte jedoch genau das Gegenteil erreichen, nämlich
die Partialtöne unterdrücken, wobei die Partialtöne
die Grundwelle und deren Harmonische umfassen, und zwar für
ein Sprachsegment mit tonaler Sprache. Typischerweise sind die Sprachkomponenten
mit hoher Energie tonal. So wird eine Sprache bei einem Pegel von
60–75 dB für Vokale und etwa 20–30 dB
niedriger für Konsonanten gesprochen. Für tonale
Sprache (Vokale) ist die Erregung ein periodisches pulsartiges Signal.
Das Erregungssignal wird durch den Vokaltrakt gefiltert. Folglich
ist nahezu die gesamte Energie eines tonalen Sprachsegments in der
Grundwelle und ihren Harmonischen konzentriert. Durch Unterdrückung
dieser Partialtöne werden die Sprachkomponenten signifikant
unterdrückt.
-
Eine
weitere Art und Weise, um eine Sprachunterdrückung zu erreichen,
ist in 7 und 8 dargestellt. 7 und 8 erläutern
das Grundprinzip der Kurzzeit-Spektraldämpfung oder Spektralgewichtung. Hier
wird zunächst das Leistungsdichtespektrum des Hintergrundrauschens
geschätzt. Das dargestellte Verfahren schätzt
die Menge an Sprache, die in einer Zeit/Frequenz-Kachel enthalten
ist, unter Verwendung von so genannten Low-Level-Merkmalen, die
ein Maß für die „Sprachartigkeit" eines
Signals in einem bestimmten Frequenzabschnitt geben. Low-Level-Features
bzw. Merkmale niederer Ebene sind Merkmale mit niedrigem Niveau
bezüglich der Interpretation ihrer Bedeutung und des Aufwands
ihrer Berechnung.
-
Das
Audiosignal wird in eine Anzahl von Frequenzbändern mittels
einer Filterbank oder einer Kurzzeit-Fourier-Transformation zerlegt,
die in 7 bei 70 dargestellt ist. Hierauf werden,
wie es bei 71a und 71b beispielhaft dargestellt
ist, zeitlich variierende Verstärkungsfaktoren für
alle Subbänder aus solchen Merkmalen niederer Ebenen (Low-Level-Features)
berechnet, um Subbandsignale proportional zu der Menge an Sprache,
die sie enthalten, zu dämpfen. Geeignete Merkmale auf niedriger
Ebene sind das spektrale Flachheitmaß (SFM; SFM = spectral
flatness measure) und die 4-Hz-Modulationsenergie (4 HzME). Das
SFM misst den Grad an Tonalität eines Audiosignals und
ergibt sich für ein Band aus dem Quotienten des geometrischen
Mittelwerts aller Spektralwerte in einem Band und des arithmetischen
Mittelwerts der Spektralkomponenten in dem Band. Das 4 HzME wird
dadurch motiviert, dass Sprache einen charakteristischen Energiemodulations-Peak
bei etwa 4 Hz hat, was der mittleren Silbenrate eines Sprechers
entspricht.
-
8 zeigt
eine detailliertere Darstellung des Verstärkungsberechnungsblocks 71a und 71b von 7.
Es wird auf der Basis eines Subbands xi eine
Mehrzahl von verschiedenen Low-Level-Features, also LLF1, ..., LLFn
berechnet. Diese Features werden dann in einem Kombinierer 80 kombiniert,
um zu einem Verstärkungsfaktor gi für
ein Subband zu kommen.
-
Es
sei darauf hingewiesen, dass je nach Implementierung nicht unbedingt
Merkmale niedriger Ordnung, sondern jegliche Merkmale verwendet
werden können, wie beispielsweise auch Energiemerkmale
etc., die dann gemäß der Implementierung von 8 in
einem Kombinierer miteinander kombiniert werden können, um
zu einem quantitativen Verstärkungsfaktor gi zu
kommen, derart, dass jedes Band (zu jedem Zeitpunkt) variabel gedämpft
wird, um eine Sprachunterdrückung zu erreichen.
-
Abhängig
von den Gegebenheiten kann das erfindungsgemäße
Verfahren in Hardware oder in Software implementiert werden. Die
Implementierung kann auf einem digitalen Speichermedium, insbesondere
einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen
erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken
können, dass das Verfahren ausgeführt wird. Allgemein
besteht die Erfindung somit auch in einem Computer-Programm-Produkt
mit einem auf einem maschinenlesbaren Träger gespeicherten
Programmcode zur Durchführung des erfindungsgemäßen
Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner
abläuft. In anderen Worten ausgedrückt, kann die
Erfindung somit als ein Computer-Programm mit einem Programmcode
zur Durchführung des Verfahrens realisiert werden, wenn
das Computer-Programm auf einem Computer abläuft.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
-
Zitierte Nicht-Patentliteratur
-
- - C. Avendano
und J. M. Jot: "Ambience Extraction and Synthesis from Stereo Signals
for Multichannel Audio Upmix", IEEE International Conference an
Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl,
May 2002 [0014]
- - R. Irwan und Ronald M. Aarts: "A method to convert stereo
to multi-channel sound", The proceedings of the AES 19th International
Conference, Schloss Elmau, Deutschland, Juni 21–24, Seiten
139–143, 2001 [0015]
- - M. Schroeder, „An artificial stereophonic effect
obtained from using a single signal", JAES, 1957 [0018]
- - C. Faller, „Pseudo stereophony revisited", Proceedings
of the AES 118nd Convention, 2005 [0018]
- - C. Uhle, A. Walther, O. Hellmuth und J. Herre in „Ambience
separation from mono recordings using non-negative matrix factorization",
Proceedings of the AES 30th Conference 2007 [0019]
- - AES Convention Paper „Descriptor-based specialization",
J. Monceaux, F. Pachet u. a., 28.–31. Mai 2005, Barcelona,
Spanien [0027]
- - G. Schmid, „Single-channel noise suppression based
an spectral weighting", Eurasip Newsletter 2004 [0075]
- - P. Hansen und S. Jensen, „Fir filter representation
of reduced-rank noise reduction", IEEE TSP, 1998 [0075]
- - D. Andersen und M. Clements, „Audio signal noise
reduction using multi-resolution sinusoidal modeling", Proceedings
of ICASSP 1999 [0084]
- - J. Jensen und J. Hansen, „Speech enhancement using
a constrained iterative sinusoidal model", IEEE TSAP 2001 [0084]