DE102007048973A1 - Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung - Google Patents

Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung Download PDF

Info

Publication number
DE102007048973A1
DE102007048973A1 DE102007048973A DE102007048973A DE102007048973A1 DE 102007048973 A1 DE102007048973 A1 DE 102007048973A1 DE 102007048973 A DE102007048973 A DE 102007048973A DE 102007048973 A DE102007048973 A DE 102007048973A DE 102007048973 A1 DE102007048973 A1 DE 102007048973A1
Authority
DE
Germany
Prior art keywords
signal
channel
speech
input signal
direct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102007048973A
Other languages
English (en)
Other versions
DE102007048973B4 (de
Inventor
Christian Uhle
Oliver Hellmuth
Jürgen HERRE
Harald Popp
Thorsten Kastner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to DE102007048973A priority Critical patent/DE102007048973B4/de
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to RU2010112890/08A priority patent/RU2461144C2/ru
Priority to DE502008003378T priority patent/DE502008003378D1/de
Priority to KR1020107007771A priority patent/KR101100610B1/ko
Priority to PCT/EP2008/008324 priority patent/WO2009049773A1/de
Priority to CN2008801112350A priority patent/CN101842834B/zh
Priority to BRPI0816638-2A priority patent/BRPI0816638B1/pt
Priority to PL08802737T priority patent/PL2206113T3/pl
Priority to US12/681,809 priority patent/US8731209B2/en
Priority to JP2010528297A priority patent/JP5149968B2/ja
Priority to AU2008314183A priority patent/AU2008314183B2/en
Priority to ES08802737T priority patent/ES2364888T3/es
Priority to AT08802737T priority patent/ATE507555T1/de
Priority to EP08802737A priority patent/EP2206113B1/de
Priority to MX2010003854A priority patent/MX2010003854A/es
Priority to CA2700911A priority patent/CA2700911C/en
Publication of DE102007048973A1 publication Critical patent/DE102007048973A1/de
Application granted granted Critical
Publication of DE102007048973B4 publication Critical patent/DE102007048973B4/de
Priority to HK11100278.0A priority patent/HK1146424A1/xx
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Dot-Matrix Printers And Others (AREA)
  • Color Television Systems (AREA)

Abstract

Zum Erzeugen eines Multikanalsignals mit einer Anzahl von Ausgangskanälen, die größer ist als die Anzahl von Eingangskanälen, wird ein Mischer zum Hochmischen des Eingangsignals in wenigstens ein Direktkanalsignal und wenigstens ein Umgebungskanalsignal eingesetzt. Ein Sprachdetektor ist vorgesehen, um einen Abschnitt des Eingangssignals, des Direktkanalsignals oder des Umgebungskanalsignals zu detektieren, in dem Sprachteile auftreten. Basierend auf dieser Detektion führt ein Signalmodifizierer eine Modifikation des Eingangssignals oder des Umgebungskanalsignals durch, um Sprachanteile im Umgebungskanalsignal zu dämpfen, während solche Sprachanteile in dem Direktkanalsignal weniger start oder nicht gedämpft werden. Eine Lautsprechersignalausgabeeinrichtung für dann eine Abbildung der Direktkanalsignale und der Umgebungskanalsignale auf Lautsprechersignale durch, die einem definierten Wiedergabeschema, wie beispielsweise einem 5.1-Schema, zugeordnet sind.

Description

  • Die vorliegende Erfindung bezieht sich auf das Gebiet der Audiosignalverarbeitung und insbesondere auf die Erzeugung mehrerer Ausgangskanäle aus weniger Eingangskanälen, wie z. B. einem (mono) Kanal oder zwei (stereo) Eingangskanälen.
  • Multikanal-Audiomaterial wird mehr und mehr populär. Dies hat dazu geführt, dass inzwischen auch viele Endbenutzer Multikanal-Wiedergabesysteme besitzen. Dies ist hauptsächlich darauf zurückzuführen, dass DVDs immer populärer werden, und dass daher auch viele Benutzer von DVDs inzwischen 5.1-Multikanal-Ausrüstungen haben. Solche Wiedergabesysteme bestehen im allgemeinen aus drei Lautsprechern L (Links), C (Center) und R (Rechts), die typischerweise vor dem Benutzer angeordnet sind, und zwei Lautsprechern Ls und Rs, die hinter dem Benutzer angeordnet sind, und typischerweise noch aus einem LFE-Kanal, der auch Niederfrequenz-Effekt-Kanal oder Subwoofer genannt wird. Ein solches Kanal-Szenario ist in 5b und in 5c angedeutet. Während die Positionierung der Lautsprecher L, C, R, Ls, Rs, bezüglich des Benutzers wie in den 10 und 11 gezeichnet vorgenommen werden sollte, damit der Benutzer einen möglichst guten Höreindruck bekommt, ist die Positionierung des LFE-Kanals (in 5b und 5c nicht gezeigt) nicht so entscheidend, da das Ohr bei derart niedrigen Frequenzen keine Lokalisierung vornehmen kann und der LFE-Kanal somit irgendwo, wo er aufgrund seiner beträchtlichen Größe nicht stört, angeordnet werden kann.
  • Ein solches Mehrkanalsystem erzeugt mehrere Vorteile gegenüber einer typischen Stereo-Reproduktion, die eine Zweikanal-Reproduktion ist, wie sie z. B. in 5a gezeigt ist.
  • Auch außerhalb der optimalen mittigen Hörposition ergibt sich eine verbesserte Stabilität des vorderen Höreindrucks, der auch als "Front Image" bezeichnet wird, und zwar aufgrund des Mitten-Kanals. Es ergibt sich somit ein größerer „Sweet-Spot", wobei „Sweet Spot" für die optimale Hörposition steht.
  • Ferner hat der Zuhörer ein besseres Gefühl des "Eintauchens" in die Audioszene aufgrund der beiden hinteren Lautsprecher Ls und Rs.
  • Dennoch existiert eine riesige Anzahl an im Besitz des Benutzers befindlichen oder allgemein verfügbaren Audiomaterials, das nur als Stereomaterial existiert, das also nur zwei Kanäle hat, nämlich den linken Kanal und den rechten Kanal. Typische Tonträger für solche Stereostücke sind Kompakt-Disks.
  • Um ein solches Stereomaterial über eine 5.1-Multikanal-Audioanlage abzuspielen, hat man zwei Optionen, die gemäß der ITU empfohlen werden.
  • Die erste Option besteht darin, den linken und den rechten Kanal über den linken und den rechten Lautsprecher des Multikanal-Wiedergabesystems abzuspielen. Nachteilig an dieser Lösung ist jedoch, dass man die Vielzahl der bereits bestehenden Lautsprecher nicht ausnutzt, dass man also das Vorhandensein des Center-Lautsprechers und der beiden hinteren Lautsprecher nicht vorteilhaft ausnutzt.
  • Eine andere Option besteht darin, die zwei Kanäle in ein Multikanalsignal umzuwandeln. Dies kann während der Wiedergabe oder durch eine spezielle Vorverarbeitung geschehen, welche alle sechs Lautsprecher des beispielsweise vorhandenen 5.1-Wiedergabesystems vorteilhaft ausnutzt und damit zu einem verbesserten Höreindruck führt, wenn das Hochmischen oder der "Upmix" von zwei Kanälen auf 5 bzw. 6 Kanäle fehlerfrei durchgeführt wird.
  • Nur dann hat die zweite Option, also die Verwendung sämtlicher Lautsprecher des Mehrkanalsystems einen Vorteil gegenüber der ersten Lösung, wenn man also keine Upmix-Fehler begeht. Solche Upmix-Fehler können insbesondere störend sein, wenn Signale für die hinteren Lautsprecher, welche auch als Ambience-Signale oder Umgebungssignale bekannt sind, nicht fehlerfrei erzeugt werden.
  • Eine Möglichkeit, diesen sogenannten Tipmix-Prozess durchzuführen, ist unter dem Stichwort "Direct Ambience-Konzept" bekannt. Die Direktschallquellen werden durch die drei vorderen Kanäle derart wiedergegeben, dass sie von dem Benutzer an der gleichen Position wie in der ursprünglichen Zweikanalversion wahrgenommen werden. Die ursprüngliche Zweikanalversion ist in 5a schematisch dargestellt, und zwar am Beispiel verschiedener Drum-Instrumente.
  • 5b zeigt eine hochgemischte Version des Konzepts, bei der alle ursprünglichen Schallquellen, also die Drum-Instrumente wieder von den drei vorderen Lautsprecher L, C und R wiedergegeben werden, wobei zusätzlich von den beiden hinteren Lautsprechern spezielle Umgebungssignale ausgegeben werden. Der Ausdruck "Direkt-Schallquelle" wird somit dazu verwendet, um einen Ton zu beschreiben, der nur und direkt von einer diskreten Schallquelle wie beispielsweise einem Drum-Instrument oder einem anderen Instrument oder allgemein einem speziellen Audioobjekt kommt, wie es schematisch z. B. in 5a anhand eines Drum-Instruments dargestellt ist. Irgendwelche zusätzlichen Töne, wie beispielsweise aufgrund von Wandreflexionen etc. sind in einer solchen Direktschallquelle nicht vorhanden. In diesem Szenario bestehen die Schallsignale, die von den beiden hinteren Lautsprechern Ls, Rs in 5b abgegeben werden, nur aus Umgebungssignalen, die in der ursprünglichen Aufzeichnung vorhanden sind oder nicht. Solche Umgebungssignale oder "Ambience"-Signale gehören nicht zu einer einzigen Schallquelle, sondern tragen zur Reproduktion der Raumakus tik einer Aufzeichnung bei und führen somit zu dem sogenannten "Eintauch"-Gefühl des Zuhörers.
  • Ein weiteres Alternativkonzept, das als "In-the-Band"-Konzept bezeichnet ist, ist in 5c schematisch dargestellt. Jeder Schalltyp, also Direktschallquellen und umgebungs-artige Töne werden alle um den Zuhörer herum positioniert. Die Position eines Tons ist unabhängig von seiner Charakteristik (Direktschallquellen oder umgebungs-artige Töne) und hängt nur von dem spezifischen Entwurf des Algorithmus ab, wie es z. B. in 5c dargestellt ist. So wurde in 5c durch den Upmix-Algorithmus bestimmt, dass die beiden Instrumente 1100 und 1102 seitlich bezüglich des Zuhörers positioniert werden, während die beiden Instrumente 1104 und 1106 vor dem Benutzer positioniert werden. Dies führt dazu, dass die beiden hinteren Lautsprecher Ls, Rs nunmehr auch Anteile der beiden Instrumente 1100 und 1102 enthalten und nicht mehr nur umgebungs-artige Töne, wie es bei 5b noch der Fall war, wo dieselben Instrumente alle vor dem Benutzer positioniert worden sind.
  • Die Fachveröffentlichung "C. Avendano und J. M. Jot: "Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix", IEEE International Conference an Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002" offenbart eine Frequenzbereichstechnik, um Umgebungsinformationen in Stereo-Audiosignalen zu identifizieren und zu extrahieren. Dieses Konzept basiert auf der Berechnung einer Inter-Kanal-Kohärenz und einer nichtlinearen Abbildungsfunktion, die es erlauben soll, Zeit-Frequenz-Regionen in dem Stereosignal zu bestimmen, die hauptsächlich aus Umgebungs-Komponenten bestehen. Umgebungssignale werden dann synthetisiert und verwendet, um die hinteren Kanäle oder "Surround"-Kanäle Ls, Rs (10 und 11) eines Multikanal-Wiedergabesystems zu speichern.
  • In der Fachveröffentlichung "R. Irwan und Ronald M. Aarts: "A method to convert stereo to multi-channel sound", The proceedings of the AES 19th International Conference, Schloss Elmau, Deutschland, Juni 21–24, Seiten 139–143, 2001" wird ein Verfahren präsentiert, um ein Stereosignal in ein Multikanalsignal umzuwandeln. Das Signal für die Surround-Kanäle wird unter Verwendung einer Kreuzkorrelationstechnik berechnet. Eine Hauptkomponentenanalyse (PCA; PCA = Principle Component Analysis) wird verwendet, um einen Vektor zu berechnen, der eine Richtung des dominanten Signals anzeigt. Dieser Vektor wird dann von einer Zwei-Kanal-Darstellung auf eine Drei-Kanal-Darstellung abgebildet, um die drei vorderen Kanäle zu erzeugen.
  • Alle bekannten Techniken versuchen auf verschiedene Arten und Weisen die Ambience-Signale bzw. Umgebungssignale aus dem ursprünglichen Stereosignal zu extrahieren oder sogar aus Rauschen bzw. weiteren Informationen zu synthetisieren, wobei zur Synthese der Ambience-Signale auch Informationen, welche nicht im Stereosignal sind, verwendet werden können. Letztendlich geht es jedoch immer darum, Informationen aus dem Stereosignal zu extrahieren bzw. Informationen in ein Wiedergabe-Szenario einzuspeisen, die nicht explizit vorliegen, da typischerweise nur ein Zweikanal-Stereosignal und gegebenenfalls irgendwelche Zusatzinformationen bzw. Metainformationen zur Verfügung stehen.
  • Nachfolgend wird auf weitere bekannte Upmix- bzw. Hochmisch-Verfahren eingegangen, die ohne Steuerparameter arbeiten. Solche Hochmisch-Verfahren werden auch als Blind-Hochmischverfahren oder „Blind-Upmixing"-Verfahren bezeichnet.
  • Die meisten derartigen Techniken, um aus einem Monokanal ein so genanntes Pseudo-Stereophonie-Signal zu erzeugen (also ein 1-auf-2-Upmix), sind nicht signaladaptiv. Dies bedeutet, dass sie ein Monosignal immer gleich verarbeiten, unabhängig davon, welcher Inhalt in dem Monosignal enthalten ist. Solche Systeme arbeiten oft mit einfachen Filterstrukturen und/oder Zeitverzögerungen, um die erzeugten Signale zu dekorrelieren, beispielsweise durch Verarbeiten des Einkanal-Eingangssignals durch ein Paar von so genannten komplementären Kammfiltern, wie es in M. Schroeder, „An artificial stereophonic effect obtained from using a single signal", JAES, 1957, beschrieben ist. Ein weiterer Überblick solcher Systeme findet sich in C. Faller, „Pseudo stereophony revisited", Proceedings of the AES 118nd Convention, 2005.
  • Darüber hinaus existiert auch die Technik der Umgebungssignal-Extraktion (Ambience Extraktion) unter Verwendung einer nicht-negativen Matrixfaktorisierung, insbesondere im Kontext eines 1-auf-N-Upmix, wobei N größer als zwei ist. Hier wird eine Zeit-Frequenz-Verteilung (TFD; TFD = timefrequency distribution) des Eingangssignals berechnet, beispielsweise mittels einer Kurzzeit-Fourier-Transformation. Ein Schätzwert der TFD der Direktsignal-Komponenten wird mittels eines numerischen Optimierungsverfahrens abgeleitet, das als nicht-negative Matrixfaktorisierung bezeichnet wird. Ein Schätzwert für die TFD des Umgebungssignals wird durch Berechnen der Differenz der TFD des Eingangssignals und des Schätzwerts der TFD für das Direktsignal bestimmt. Die Re-Synthese bzw. Synthese des Zeitsignals des Umgebungssignals wird unter Verwendung des Phasenspektrogramms des Eingangssignals ausgeführt. Eine zusätzliche Nachverarbeitung wird optional durchgeführt, um die Hörerfahrung des erzeugten Multikanalsignals zu verbessern. Dieses Verfahren ist ausführlich in C. Uhle, A. Walther, O. Hellmuth und J. Herre in „Ambience separation from mono recordings using non-negative matrix factorization", Proceedings of the AES 30th Conference 2007, beschrieben.
  • Beim Hochmischen von Stereoaufzeichnungen existieren verschiedene Techniken. Eine Technik besteht in der Verwendung von Matrix-Decodierern. Matrix-Decodierer sind unter dem Stichwort Dolby Pro Logic II, DTS Neo: 6 oder HarmanKardon/Lexicon Logic 7 bekannt und in nahezu jedem Au dio/Video-Empfänger enthalten, der heutzutage verkauft wird. Als Nebenprodukt ihrer beabsichtigten Funktionalität sind diese Verfahren auch in der Lage, ein blindes Hochmischen durchzuführen. Diese Decodierer verwenden Interkanal-Differenzen und signaladaptive Steuermechanismen, um Multikanal-Ausgangssignale zu erzeugen.
  • Wie es bereits dargelegt worden ist, werden auch Frequenzbereichs-Techniken verwendet, die von Avendano und Jot beschrieben worden sind, um die Umgebungs-Information (ambience information) in Stereoaudiosignalen zu identifizieren und zu extrahieren. Dieses Verfahren basiert auf der Berechnung eines Interkanal-Kohärenz-Index und einer nichtlinearen Abbildungsfunktion, wodurch es ermöglicht wird, die Zeit-Frequenz-Regionen zu bestimmen, die hauptsächlich aus Umgebungssignal-Komponenten bestehen. Die Umgebungssignale werden nachfolgend synthetisiert und verwendet, um die Surround-Kanäle des Multikanal-Wiedergabesystems zu speisen.
  • Ein Bestandteil des Direkt/Umgebungs-Hochmisch-Prozesses besteht in der Extraktion eines Umgebungssignals, das in die beiden hinteren Kanäle Ls, Rs eingespeist wird. Es existieren bestimmte Anforderungen an ein Signal, dass es als umgebungsartiges Signal im Kontext eines Direkt/Umgebungs-Hochmisch-Prozesses verwendet wird. Eine Voraussetzung besteht darin, dass keine relevanten Teile der Direktschallquellen hörbar sein sollen, um die Direktschallquellen sicher vor dem Hörer lokalisieren zu können. Dies ist besonders dann wichtig, wenn das Audiosignal Sprache oder einen oder mehrere unterscheidbare Sprecher enthält. Sprachsignale, die dagegen von einer Menschenmenge erzeugt werden, müssen nicht unbedingt den Hörer stören, wenn sie nicht vor dem Hörer lokalisiert sind.
  • Wenn eine spezielle Menge an Sprachkomponenten durch die hinteren Kanäle reproduziert werden würde, würde dies dazu führen, dass die Position des oder der wenigen Sprecher von vorne nach hinten bzw. ein Stück weit zum Benutzer oder sogar hinter den Benutzer platziert wird, was in einer sehr störenden Schallwahrnehmung resultiert. Besonders in dem Fall, in dem Audio- und Videomaterial gleichzeitig dargeboten wird, wie beispielsweise in einem Kino, ist ein solcher Eindruck besonders störend.
  • Eine Grundvoraussetzung für das Tonsignal eines Kinofilms (eines Soundtracks) besteht darin, dass der Höreindruck mit dem Eindruck konform gehen soll, der durch die Bilder erzeugt wird. Hörbare Hinweise zur Lokalisation sollten also nicht zu sichtbaren Hinweisen zur Lokalisation im Gegensatz stehen. Folglich sollte die entsprechende Sprache dann, wenn ein Sprecher auf dem Bildschirm zu sehen ist, ebenfalls vor dem Benutzer platziert sein.
  • Dasselbe gilt für alle anderen Audiosignale, d. h. ist nicht unbedingt auf Situationen begrenzt, bei denen gleichzeitig Audiosignale und Videosignale dargeboten werden. Solche anderen Audiosignale sind beispielsweise Rundfunksignale oder Hörbücher. Ein Hörer ist daran gewöhnt, dass Sprache von den vorderen Kanälen erzeugt wird, wobei er sich dann, wenn auf einmal Sprache von den hinteren Kanälen kommen würde, wahrscheinlich umdrehen würde, um seinen üblichen Eindruck wiederherzustellen.
  • Um die Qualität der Umgebungssignale zu verbessern, wird in der deutschen Patentanmeldung DE 10 2006 017 280.9-55 vorgeschlagen, ein einmal extrahiertes Umgebungssignal einer Transientendetektion zu unterziehen und eine Transientenunterdrückung herbeizuführen, ohne wesentliche Einbußen an Energie in dem Umgebungssignal zu erreichen. Hierzu wird eine Signalsubstitution vorgenommen, um Bereiche mit Transienten durch entsprechende Signale ohne Transienten, jedoch mit annähernd der gleichen Energie, zu ersetzen.
  • Das AES Convention Paper „Descriptor-based specialization", J. Monceaux, F. Pachet u. a., 28.–31. Mai 2005, Barcelona, Spanien, offenbart eine deskriptorenbasierte Spatialisierung, bei der auf der Basis von extrahierten Deskriptoren detektierte Sprache gedämpft werden soll, indem nur der Mitte-Kanal stumm geschaltet wird. Hierzu wird ein Sprachextraktor verwendet. Eine Anschlag- und Einschwingzeit werden verwendet, um Modifikationen des Ausgangssignals zu glätten. So kann ein Multikanal-Soundtrack ohne Sprache aus einem Film extrahiert werden. Wenn eine bestimmte Stereo-Nachhalleigenschaft in dem ursprünglichen Stereo-Downmixsignal vorhanden ist, führt dies dazu, dass ein Hochmisch-Tool diesen Nachhall auf jeden Kanal mit Ausnahme des Mitten-Kanals verteilt, so dass ein Nachhall zu hören ist. Um dies zu unterbinden, wird eine dynamische Pegelsteuerung für L, R, Ls und Rs durchgeführt, um den Nachhall einer Stimme zu dämpfen.
  • Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zum Erzeugen eines Multikanalsignals mit einer Anzahl von Ausgangskanälen zu schaffen, das einerseits flexibel und andererseits ein qualitativ hochwertiges Produkt liefert.
  • Diese Aufgabe wird durch eine Vorrichtung zum Erzeugen eines Multikanalsignals gemäß Patentanspruch 1, ein Verfahren zum Erzeugen eines Multikanalsignals gemäß Anspruch 23 oder ein Computerprogramm gemäß Patentanspruch 24 gelöst.
  • Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass Sprachkomponenten in den hinteren Kanälen, also in den Umgebungskanälen unterdrückt werden, damit die hinteren Kanäle sprachkomponentenfrei sind. Hierzu wird ein Eingangssignal mit einem oder mehreren Kanälen hoch gemischt, um einen Direktsignalkanal zu liefern und um einen Umgebungssignalkanal oder je nach Implementierung bereits den modifizierten Umgebungssignalkanal zu liefern. Ein Sprachdetektor ist vorgesehen, um in dem Eingangssignal, dem Direktkanal oder dem Umgebungskanal nach Sprachkomponenten zu suchen, wobei solche Sprachkomponenten in zeitlichen und/oder frequenzmäßigen Abschnitten oder auch in Bestandteilen einer orthogonalen Zerlegung beispielsweise auftreten können. Ein Signalmodifizierer ist vorgesehen, um das vom Hochmischer erzeugte Direktsignal oder eine Kopie des Eingangssignals dahin gehend zu modifizieren, dass dort die Sprachsignalkomponenten unterdrückt werden, während die Direktsignalkomponenten in den entsprechenden Abschnitten, die Sprachsignalkomponenten umfassen, weniger oder nicht gedämpft werden. Ein solches modifiziertes Umgebungskanalsignal wird dann zur Erzeugung von Lautsprechersignalen für entsprechende Lautsprecher verwendet.
  • Wurde jedoch das Eingangssignal modifiziert, so wird das vom Hochmischer erzeugte Umgebungssignal direkt verwendet, da dort bereits die Sprachkomponenten unterdrückt sind, da das das zugrunde liegende Audiosignal ebenfalls bereits unterdrückte Sprachkomponenten hatte. In diesem Fall wird jedoch dann, wenn der Hochmisch-Prozess auch einen Direktkanal erzeugt, der Direktkanal nicht auf der Basis des modifizierten Eingangssignals berechnet, sondern auf der Basis des unmodifizierten Eingangssignals, um zu erreichen, dass selektiv die Sprachkomponenten unterdrückt werden, und zwar nur in dem Umgebungskanal, nicht jedoch in dem Direktkanal, in dem die Sprachkomponenten ja ausdrücklich erwünscht sind.
  • Damit wird verhindert, dass eine Reproduktion von Sprachkomponenten in den hinteren Kanälen bzw. Umgebungssignalkanälen stattfindet, die ansonsten den Zuhörer stören oder sogar verwirren würde. Folglich wird erfindungsgemäß sichergestellt, dass Dialoge und andere Sprache, die von einem Zuhörer verstehbar ist, die also eine Spektralcharakteristik hat, die für Sprache typisch ist, vor dem Zuhörer platziert wird.
  • Dieselben Anforderungen existieren auch für das In-Band-Konzept, bei dem ebenfalls erwünscht wird, dass Direktsignale nicht in den hinteren Kanälen platziert werden, son dern vor den Zuhörer und gegebenenfalls seitlich vom Zuhörer, jedoch nicht hinter dem Zuhörer, wie es in 5c gezeigt ist, bei dem die Direktsignalkomponenten (und auch die Umgebungssignalkomponenten) alle vor dem Hörer platziert sind.
  • Erfindungsgemäß wird also eine signalabhängige Verarbeitung vorgenommen, um die Sprachkomponenten in den hinteren Kanälen bzw. in dem Umgebungssignal zu entfernen oder zu unterdrücken. Hierzu werden zwei wesentliche Schritte vorgenommen, nämlich das Erfassen des Auftretens von Sprache und das Unterdrücken von Sprache, wobei das Erfassen des Auftretens von Sprache im Eingangssignal, im Direktkanal oder im Umgebungskanal vorgenommen werden kann, und wobei das Unterdrücken von Sprache im Umgebungskanal direkt oder indirekt im Eingangssignal vorgenommen werden kann, das dann verwendet wird, um den Umgebungskanal zu erzeugen, wobei dieses modifizierte Eingangssignal nicht dazu verwendet wird, um den Direktkanal zu erzeugen.
  • Erfindungsgemäß wird also erreicht, dass dann, wenn man ein Multikanal-Surround-Signal aus einem Audiosignal mit weniger Kanälen erzeugt, welches Sprachkomponenten enthält, sichergestellt wird, dass die resultierenden Signale für die vom Benutzer aus gesehen hinteren Kanäle eine minimale Menge an Sprache umfassen, um das ursprüngliche Ton-Bild vor dem Benutzer (Front-Image) zu erhalten. Wenn eine spezielle Menge an Sprachkomponenten durch die hinteren Kanäle reproduziert werden würde, würde die Position der Sprecher außerhalb des vorderen Bereichs positioniert werden, und zwar irgendwo zwischen dem Zuhörer und den vorderen Lautsprechern oder in extremen Fällen sogar hinter dem Zuhörer. Dies würde in einer sehr störenden Schallwahrnehmung resultieren, besonders wenn die Audiosignale gleichzeitig mit visuellen Signalen dargeboten werden, wie es beispielsweise in Filmen der Falls ist. Daher enthalten viele Multikanal-Film-Soundtracks kaum Sprachkomponenten in den hinteren Kanälen. Erfindungsgemäß werden Sprachsignal komponenten detektiert und an geeigneter Stelle unterdrückt.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend Bezug nehmend auf die beiliegenden Zeichnungen detailliert erläutert. Es zeigen:
  • 1 ein Blockschaltbild eines Ausführungsbeispiels der vorliegenden Erfindung;
  • 2 eine Zuordnung von Zeit/Frequenz-Abschnitten eines Analysesignals und eines Umgebungskanals bzw. Eingangssignals zur Erläuterung der „entsprechenden Abschnitte";
  • 3 eine Umgebungssignalmodifikation gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung;
  • 4 eine Kooperation zwischen einem Sprachdetektor und einem Umgebungssignalmodifizierer gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;
  • 5a ein Stereo-Wiedergabe-Szenario mit Direktquellen (Schlaginstrumenten) und diffusen Komponenten;
  • 5b ein Multikanal-Wiedergabe-Szenario, bei dem alle Direktschaltquellen durch die vorderen Kanäle wiedergegeben werden und diffuse Komponenten durch alle Kanäle wiedergegeben werden, wobei dieses Szenario auch als Direkt-Umgebung-Konzept bezeichnet wird;
  • 5c ein Multikanal-Wiedergabe-Szenario, bei dem diskrete Schaltquellen auch durch hintere Kanäle zumindest teilweise wiedergegeben werden können und bei dem Umgebungskanäle nicht oder weniger als in 5b durch die hinteren Lautsprecher wiedergegeben werden;
  • 6a ein weiteres Ausführungsbeispiel mit einer Sprachdetektion im Umgebungskanal und einer Modifikation des Umgebungskanals;
  • 6b ein Ausführungsbeispiel mit Sprachdetektion im Eingangssignal und Modifikation des Umgebungskanals;
  • 6c ein Ausführungsbeispiel mit einer Sprachdetektion im Eingangssignal und einer Modifikation des Eingangssignals;
  • 6d ein weiteres Ausführungsbeispiel mit einer Sprachdetektion im Eingangssignal und einer Modifikation im Umgebungssignal, wobei die Modifikation speziell auf die Sprache abgestimmt ist;
  • 7 ein Ausführungsbeispiel mit bandweiser Verstärkungsfaktorberechnung basierend auf einem Bandpasssignal/Subbandsignal; und
  • 8 eine detailliertere Darstellung eines Verstärkungsberechnungsblocks von 7.
  • 1 zeigt ein Blockschaltbild einer Vorrichtung zum Erzeugen eines Multikanalsignals 10, das in 1 derart gezeigt ist, dass es einen linken Kanal L, einen rechten Kanal R, einen Mitte-Kanal C, einen LFE-Kanal, einen linken hinteren Kanal LS und einen rechten hinteren Kanal RS aufweist. Es sei darauf hingewiesen, dass die vorliegende Erfindung jedoch auch für beliebige andere Darstellungen als für diese gewählte 5.1-Darstellung geeignet ist, beispielsweise für eine 7.1-Darstellung oder auch für eine 3.0-Darstellung, wobei hier nur ein linker Kanal, ein rechter Kanal und ein Mitte-Kanal erzeugt wird. Das Multi kanalsignal 10 mit den beispielsweise sechs Kanälen, die in 1 gezeigt sind, wird aus einem Eingangssignal 12 bzw. „x" erzeugt, das eine Anzahl von Eingangskanälen hat, wobei die Anzahl von Eingangskanälen 1 oder größer als 1 ist und beispielsweise gleich 2 ist, wenn ein Stereo-Downmix eingegeben wird. Generell ist jedoch die Anzahl der Ausgangskanäle größer als die Anzahl der Eingangskanäle.
  • Die in 1 gezeigte Vorrichtung umfasst einen Hochmischer 14 zum Hochmischen des Eingangssignals 12, um wenigstens einen Direktsignalkanal 15 und einen Umgebungssignalkanal 16 oder gegebenenfalls einen modifizierten Umgebungssignalkanal 16' zu erzeugen. Ferner ist ein Sprachdetektor 18 vorgesehen, der ausgebildet ist, um als Analysesignal das Eingangssignal 12 zu verwenden, wie es bei 18a vorgesehen ist, oder um den Direktsignalkanal 15 zu verwenden, wie es bei 18b vorgesehen ist, oder um ein anderes Signal zu verwenden, das im Hinblick auf das zeitliche/frequenzmäßige Auftreten bzw. im Hinblick auf seine Charakteristik, was Sprachkomponenten betrifft, ähnlich zum Eingangssignal 12 ist. Der Sprachdetektor detektiert einen Abschnitt des Eingangssignals, des Direktkanals oder z. B. auch des Umgebungskanals, wie es bei 18c dargestellt ist, in dem ein Sprachanteil auftritt. Dieser Sprachanteil kann ein signifikanter Sprachanteil sein, also z. B. ein Sprachanteil, dessen Spracheigenschaft abhängig von einem bestimmten qualitativen oder quantitativen Maß abgeleitet worden ist, wobei das qualitative Maß und das quantitative Maß eine Schwelle überschreitet, die auch als Spracherfassungsschwelle bezeichnet wird.
  • Bei einem quantitativen Maß wird eine Spracheigenschaft mit einem numerischen Wert quantifiziert, und dieser numerische Wert wird mit einer Schwelle verglichen. Bei einem qualitativen Maß wird eine Entscheidung pro Abschnitt vorgenommen, die durch eines oder mehrere Entscheidungskriterien vorgenommen werden kann. Solche Entscheidungskriterien können beispielsweise verschiedene quantitative Merkmale sein, die untereinander verglichen/gewichtet oder irgendwie verarbeitet werden, um zu einer Ja/Nein-Entscheidung zu kommen.
  • Die in 1 gezeigte Vorrichtung umfasst ferner einen Signalmodifizierer 20, der ausgebildet ist, um das ursprüngliche Eingangssignal zu modifizieren, wie es bei 20a gezeigt ist, oder der ausgebildet ist, um den Umgebungskanal 16 zu modifizieren. Wenn der Umgebungskanal 16 modifiziert wird, gibt der Signalmodifizierer 20 einen modifizierten Umgebungskanal 21 aus, während dann, wenn das Eingangssignal 20a modifiziert wird, ein modifiziertes Eingangssignal 20b zum Hochmischer 14 ausgegeben wird, der dann den modifizierten Umgebungskanal 16' z. B. durch denselben Hochmischvorgang erzeugt, der für den Direktkanal 15 verwendet worden ist. Sollte dieser Hochmischprozess aufgrund des modifizierten Eingangssignals 20b ebenfalls zu einem Direktkanal führen, so würde dieser Direktkanal verworfen werden, da als Direktkanal ein Direktkanal erfindungsgemäß verwendet wird, der von dem unmodifizierten (ohne Sprachunterdrückung) Eingangssignal 12 und nicht von dem modifizierten Eingangssignal 20b abgeleitet worden ist.
  • Der Signalmodifizierer ist ausgebildet, um Abschnitte des wenigstens einen Umgebungskanals oder des Eingangssignals zu modifizieren, wobei diese Abschnitte zeitliche oder frequenzmäßige Abschnitte oder Anteile einer orthogonalen Zerlegung beispielsweise sein können. Insbesondere werden die Abschnitte modifiziert, die den Abschnitten entsprechen, die von dem Sprachdetektor detektiert worden sind, so dass der Signalmodifizierer, wie es dargestellt worden ist, den modifizierten Umgebungskanal 21 oder das modifizierte Eingangssignal 20b erzeugt, in dem ein Sprachanteil gedämpft oder eliminiert ist, wobei der Sprachanteil in dem entsprechenden Abschnitt des Direktkanals weniger oder am besten überhaupt nicht gedämpft worden ist.
  • Darüber hinaus umfasst die in 1 gezeigte Vorrichtung eine Lautsprechersignalausgabeeinrichtung 22 zum Ausgeben von Lautsprechersignalen in einem Wiedergabeszenario, wie beispielsweise dem in 1 beispielhaft gezeigten 5.1-Szenario, wobei jedoch auch ein 7.1-Szenario, ein 3.0-Szenario oder ein anderes oder noch höheres Szenario ebenfalls möglich ist. Insbesondere werden zum Erzeugen der Lautsprechersignale für ein Wiedergabeszenario der wenigstens eine Direktkanal und der wenigstens eine modifizierte Umgebungskanal verwendet, wobei der modifizierte Umgebungskanal entweder vom Signalmodifizierer 20 stammen kann, wie es bei 21 gezeigt ist, oder vom Hochmischer 14 stammen kann, wie es bei 16' gezeigt ist.
  • Wenn beispielsweise zwei modifizierte Umgebungskanäle 21 geliefert werden, so könnten diese beiden modifizierten Umgebungskanäle direkt in die beiden Lautsprechersignale Ls, Rs eingespeist werden, während die Direktkanäle nur in die drei vorderen Lautsprecher L, R, C eingespeist werden, so dass eine komplette Aufteilung zwischen Umgebungssignalkomponenten und Direktsignalkomponenten stattgefunden hat. Die Direktsignalkomponenten befinden sich dann alle vor dem Benutzer und die Umgebungssignalkomponenten befinden sich alle hinter dem Benutzer. Alternativ können auch Umgebungssignalkomponenten typischerweise zu einem kleineren Prozentsatz auch in die vorderen Kanäle eingebracht werden, so dass z. B. das in 5b gezeigte Direkt/Umgebungs-Szenario entsteht, bei dem nicht nur von Surround-Kanälen Umgebungssignale erzeugt werden, sondern auch von den vorderen Lautsprechern z. B. L, C, R.
  • Wird dagegen das In-Band-Szenario bevorzugt, so werden Umgebungssignalkomponenten ebenfalls hauptsächlich von den vorderen Lautsprechern z. B. L, R, C ausgegeben, wobei jedoch auch Direktsignalkomponenten zumindest teilweise in die beiden hinteren Lautsprecher Ls, Rs eingespeist werden. Um nämlich eine Platzierung der beiden Direktsignalquellen 1100 und 1102 in 5c an den gezeigten Orten zu erreichen, wird der Anteil der Quelle 1100 im Lautsprecher L etwa genauso groß sein wie im Lautsprecher Ls, damit gemäß einer typischen Panning-Regel die Quelle 1100 in der Mitte zwischen L und Ls platziert werden kann. Die Lautsprechersignalausgabeeinrichtung 22 kann somit je nach Implementierung ein direktes Durchleiten eines eingangsseitig eingespeisten Kanals bewirken oder kann eine Abbildung der Umgebungskanäle und der Direktkanäle, beispielsweise durch ein In-Band-Konzept oder ein Direkt/Umgebungs-Konzept vornehmen, derart, dass eine Verteilung der Kanäle auf die einzelnen Lautsprecher stattfindet und letztendlich, um das tatsächliche Lautsprechersignal zu erzeugen, eine Aufsummation der Anteile aus den einzelnen Kanälen erfolgen kann.
  • 2 zeigt eine Zeit/Frequenz-Aufteilung eines Analysesignals im oberen Abschnitt und eines Umgebungskanals oder Eingangssignals in einem unteren Abschnitt. Insbesondere ist entlang der horizontalen Achse die Zeit aufgetragen und ist entlang der vertikalen Achse die Frequenz aufgetragen. Dies bedeutet, dass in 2 für jedes Signal 15 Zeit/Frequenz-Kacheln oder Zeit/Frequenz-Abschnitte gezeichnet sind, die im Analysesignal und im Umgebungskanal/Eingangssignal die gleiche Nummer haben. Dies bedeutet, dass der Signalmodifizierer 20 z. B. dann, wenn der Sprachdetektor 18 im Abschnitt 22 ein Sprachsignal detektiert, den Abschnitt des Umgebungskanals/Eingangssignals irgendwie verarbeitet, wie beispielsweise dämpft, komplett eliminiert oder durch ein Synthesesignal substituiert, das keine Spracheigenschaft hat. Es sei darauf hingewiesen, dass bei der vorliegenden Erfindung die Aufteilung nicht so selektiv sein muss, wie es in 2 gezeigt ist. Stattdessen kann auch bereits eine zeitliche Detektion einen zufrieden stellenden Effekt liefern, wobei dann ein bestimmter zeitlicher Abschnitt des Analysesignals, beispielsweise von Sekunde 2 zu Sekunde 2,1 als Sprachsignal enthaltend detektiert wird, um dann den Abschnitt des Umgebungskanals oder des Eingangssignals ebenfalls zwischen Sekunde 2 und 2,1 zu verarbeiten, um eine Sprachunterdrückung zu erreichen.
  • Alternativ kann auch eine orthogonale Zerlegung durchgeführt werden, z. B. mittels einer Hauptkomponentenanalyse, wobei dann sowohl im Umgebungskanal oder Eingangssignal als auch im Analysesignal dieselbe Komponentenzerlegung verwendet wird. Dann werden bestimmte Komponenten, die als Sprachkomponenten im Analysesignal detektiert worden sind, im Umgebungskanal bzw. Eingangssignal gedämpft oder komplett unterdrückt bzw. eliminiert. Es wird also je nach Implementierung ein Abschnitt im Analysesignal detektiert, wobei dann dieser Abschnitt nicht unbedingt im Analysesignal, sondern gegebenenfalls auch in einem anderen Signal verarbeitet wird.
  • 3 zeigt eine Implementierung eines Sprachdetektors in Kooperation mit einem Umgebungskanalmodifizierer, wobei der Sprachdetektor lediglich eine Zeitinformation liefert, also, wenn 2 betrachtet wird, lediglich breitbandig den ersten, zweiten, dritten, vierten oder fünften Zeitabschnitt identifiziert und diese Information dem Umgebungskanalmodifizierer 20 über eine Steuerleitung 18d (1) mitteilt. Der Sprachdetektor 18 und der Umgebungskanalmodifizierer 20, die synchron arbeiten oder die gepuffert arbeiten, erreichen zusammen, dass in dem zu modifizierenden Signal, das beispielsweise das Signal 12 oder das Signal 16 sein kann, das Sprachsignal bzw. die Sprachkomponente gedämpft ist, während sichergestellt wird, dass eine solche Dämpfung des entsprechenden Abschnitts im Direktkanal nicht oder nur weniger auftritt. Je nach Implementierung kann dies dadurch erreicht werden, dass der Hochmischer 14 ohne Rücksicht auf Sprachkomponenten arbeitet, wie beispielsweise in einem Matrixverfahren oder in einem anderen Verfahren, das keine spezielle Sprachverarbeitung durchführt. Das dadurch gewonnene Direktsignal wird dann ohne weitere Verarbeitung der Ausgabeeinrichtung 22 zugeführt, während das Umgebungssignal im Hinblick auf eine Sprachunterdrückung verarbeitet wird.
  • Alternativ kann dann, wenn der Signalmodifizierer das Eingangssignal einer Sprachunterdrückung unterzieht, der Hochmischer 14 gewissermaßen zweimal arbeiten, um einerseits auf der Basis des ursprünglichen Eingangssignals die Direktkanalkomponente zu extrahieren, um aber auf der Basis des modifizierten Eingangssignals 20b den modifizierten Umgebungskanal 16' zu extrahieren. Hier würde derselbe Hochmisch-Algorithmus zweimal ablaufen, jedoch unter Verwendung eines jeweils anderen Eingangssignals, wobei in dem einen Eingangssignal die Sprachkomponente gedämpft ist und im anderen Eingangssignal die Sprachkomponente nicht gedämpft ist.
  • Je nach Implementierung hat der Umgebungskanalmodifizierer eine Funktionalität einer Breitbanddämpfung oder eine Funktionalität einer Hochpassfilterung, wie es nachfolgend noch dargelegt wird.
  • Nachfolgend werden anhand der 6a, 6b, 6c und 6d verschiedene Implementierungen der erfindungsgemäßen Vorrichtung dargelegt.
  • In 6a wird das Umgebungssignal a aus dem Eingangssignal x extrahiert, wobei diese Extraktion ein Teil der Funktionalität des Hochmischens 14 ist. Das Auftreten von Sprache wird in dem Umgebungssignal a detektiert. Das Detektionsergebnis d wird im Umgebungskanalmodifizierer 20 verwendet, der das modifizierte Umgebungssignal 21 berechnet, in dem Sprachanteile unterdrückt sind.
  • 6b zeigt eine zur 6a dahin gehend unterschiedliche Konfiguration, dass das Eingangssignal und nicht das Umgebungssignal dem Sprachdetektor 18 als Analysesignal 18a zugeführt wird. Insbesondere wird das modifizierte Umgebungskanalsignal as ähnlich der Konfiguration von 6a berechnet, wobei jedoch die Sprache im Eingangssignal detektiert wird. Dies wird dadurch motiviert, dass die Sprachkomponenten im Allgemeinen im Eingangssignal x deut licher auffindbar sind als im Umgebungssignal a. Somit kann durch die in 6b gezeigte Konfiguration eine höhere Zuverlässigkeit erreicht werden.
  • In 6c wird das sprachmodifizierte Umgebungssignal as aus einer Version xs des Eingangssignals extrahiert, das bereits einer Sprachsignalunterdrückung unterzogen worden ist. Da die Sprachkomponenten in x typischerweise prominenter hervortreten als in einem extrahierten Umgebungssignal ist ihre Unterdrückung sicherer und nachhaltiger durchzuführen als in 6a. Nachteil der in 6c gezeigten Konfiguration im Vergleich zu der Konfiguration in 6a ist, dass mögliche Artefakte der Sprachunterdrückung und den Umgebungsextraktionsprozess abhängig vom Typ des Extraktionsverfahrens noch vergrößert werden könnten. Allerdings wird in 6c die Funktionalität des Umgebungskanalextraktors 14 nur dazu verwendet, den Umgebungskanal aus dem modifizierten Audiosignal zu extrahieren. Der Direktkanal wird jedoch nicht aus dem modifizierten Audiosignal xs (20b) extrahiert, sondern auf der Basis des ursprünglichen Eingangssignals x (12).
  • Bei der in 6d gezeigten Konfiguration wird das Umgebungssignal a aus dem Eingangssignal x durch den Hochmischer extrahiert. Das Auftreten von Sprache wird im Eingangssignal x detektiert. Ferner werden durch einen Sprachanalysator 30 zusätzliche Seiteninformationen e berechnet, die die Funktionalität des Umgebungskanalmodifizierers 20 zusätzlich steuern. Diese Seiteninformationen werden direkt aus dem Eingangssignal berechnet und können die Position von Sprachkomponenten in einer Zeit/Frequenz-Darstellung, beispielsweise in Form eines Spektrogramms von 2 sein oder können weitere Zusatzinformationen sein, auf die nachfolgend noch näher eingegangen wird.
  • Nachfolgend wird detaillierter auf die Funktionalität des Sprachdetektors 18 eingegangen. Die Aufgabe einer Sprachdetektion besteht darin, eine Mischung aus Audiosignalen zu analysieren, um eine Wahrscheinlichkeit abzuschätzen, dass Sprache präsent ist. Das Eingangssignal kann ein Signal sein, das aus einer Vielzahl von unterschiedlichen Typen von Audiosignalen zusammengesetzt sein kann, beispielsweise aus einem Musiksignal, aus Rauschen oder aus speziellen Toneffekten, wie sie von Kinofilmen bekannt sind. Eine Möglichkeit zur Sprachdetektion besteht darin, ein Mustererkennungssystem einzusetzen. Unter Mustererkennung versteht man das Analysieren von Rohdaten und das Durchführen einer speziellen Verarbeitung basierend auf einer Kategorie eines Musters, das man in den Rohdaten entdeckt hat. Insbesondere beschreibt der Ausdruck „Muster" oder „Pattern" eine zugrunde liegende Ähnlichkeit, die zwischen den Messungen von Objekten gleicher Kategorien (Klassen) zu finden ist. Die Basisoperationen eines Mustererkennungssystems bestehen in dem Erfassen, also der Aufnahme der Daten unter Verwendung eines Wandlers, einer Vorverarbeitung, einer Merkmalsextraktion und einer Klassifikation, wobei diese Grundoperationen in der angegebenen Reihenfolge durchgeführt werden können.
  • Üblicherweise werden Mikrophone als Sensoren für ein Spracherfassungssystem eingesetzt. Eine Vorbereitung kann eine A/D-Wandlung, ein Resampling oder eine Rauschreduktion umfassen. Die Merkmalsextraktion ist die Berechnung von charakteristischen Merkmalen für jedes Objekt aus den Messungen. Die Merkmale werden derart gewählt, dass sie unter Objekten derselben Klasse ähnlich sind, dass also eine gute Intra-Klassen-Kompaktheit erreicht wird und dass sie unterschiedlich sind für Objekte unterschiedlicher Klassen, so dass eine Inter-Klassen-Trennbarkeit erreicht wird. Eine dritte Anforderung besteht darin, dass die Merkmale robust bezüglich Rauschen, Umgebungsbedingungen und für die menschliche Wahrnehmung irrelevanten Transformationen des Eingangssignals sein sollten. Die Merkmalsextraktion kann in zwei getrennte Stufen aufgeteilt werden. Die erste Stufe ist die Merkmalsberechnung und die zweite Stufe ist die Merkmalsprojektion oder Transformation auf eine im Allgemeinen orthogonale Basis, um eine Korrelation zwischen Merkmalsvektoren zu minimieren und um die Dimensionalität der Merkmale zu reduzieren, indem Elemente mit niedriger Energie nicht verwendet werden.
  • Die Klassifikation ist der Prozess der Entscheidung, ob Sprache vorhanden ist oder nicht, und zwar basierend auf den extrahierten Merkmalen und einem trainierten Klassifizierer. So sei folgende Gleichung gegeben.
    Figure 00220001
  • In der obigen Gleichung wird eine Menge von Trainingsvektoren ΩXY definiert, wobei Merkmalsvektoren durch xi bezeichnet werden und der Satz von Klassen durch Y. Für eine grundsätzliche Spracherfassung gilt also, dass Y zwei Werte hat, nämlich {Sprache, Nicht-Sprache}.
  • In der Trainingsphase werden die Merkmale xi aus bezeichneten Daten berechnet, d. h. aus Audiosignalen, bei denen bekannt ist, zu welcher Klasse y dieselben gehören. Nach einer Vollendung des Trainings hat der Klassifizierer die Charakteristika aller Klassen gelernt.
  • In der Anwendungsphase des Klassifizierers werden die Merkmale aus den unbekannten Daten wie in der Trainingsphase berechnet und projiziert und vom Klassifizierer aufgrund der im Training erlangten Kenntnis über die Charakteristika der Klassen klassifiziert.
  • Nachfolgend wird auf spezielle Implementierungen der Sprachunterdrückung eingegangen, wie sie beispielsweise durch den Signalmodifizierer 20 durchgeführt werden können. So können verschiedene Verfahren eingesetzt werden, um Sprache in einem Audiosignal zu unterdrücken. Hierbei gibt es Verfahren, die aus dem Gebiet der Sprachverstärkung und Rauschreduktion für Kommunikationsanwendungen bekannt sind. Ursprünglich wurden Sprachverstärkungsverfahren dazu ver wendet, um die Sprache in einer Mischung aus Sprache und Hintergrundrauschen zu verstärken. Solche Methoden können modifiziert werden, um auch das Gegenteil zu bewirken, nämlich eine Unterdrückung von Sprache, wie sie für die vorliegende Erfindung durchgeführt wird.
  • So existieren Lösungsansätze zur Sprachverstärkung und Rauschreduktion, die die Koeffizienten einer Zeit/Frequenz-Darstellung gemäß einem Schätzwert des Grads des Rauschens, das in einem solchen Zeit/Frequenz-Koeffizienten enthalten ist, dämpfen oder verstärken. Wenn keine zusätzlichen Informationen über ein Hintergrundrauschen bekannt sind, beispielsweise a-priori-Informationen oder Informationen, die durch einen speziellen Rauschsensor gemessen werden, wird eine Zeit/Frequenz-Darstellung aus einer verrauschten Messung gewonnen, beispielsweise unter Verwendung spezieller Minimal-Statistik-Verfahren. Eine Rauschunterdrückungsregel berechnet einen Dämpfungsfaktor unter Verwendung des Rauschschätzwerts. Dieses Prinzip ist als Kurzzeit-Spektraldämpfung oder Spektral-Gewichtung bekannt, wie es beispielsweise in G. Schmid, „Single-channel noise suppression based an spectral weighting", Eurasip Newsletter 2004, bekannt ist. Signalverarbeitungsmethoden, die gemäß dem Prinzip der Kurzzeit-Spektraldämpfung (STSA) arbeiten, bestehen in der Spektralsubtraktion, der Wiener-Filterung und dem Ephraim-Malah-Algorithmus. Eine allgemeinere Formulierung des STSA-Ansatzes führt zu einem Signal-Subspace-Verfahren, das auch als Methode des reduzierten Rangs bekannt ist und in P. Hansen und S. Jensen, „Fir filter representation of reduced-rank noise reduction", IEEE TSP, 1998, beschrieben ist.
  • Prinzipiell können also alle Verfahren, die Sprache verstärken oder Nicht-Sprach-Komponenten unterdrücken, auf entgegengesetzte Art und Weise mit Blick auf ihre bekannte Verwendung eingesetzt werden, um Sprache zu unterdrücken bzw. um Nicht-Sprache zu verstärken. Das allgemeine Modell der Sprachverstärkung oder Rauschunterdrückung besteht darin, dass das Eingangssignal eine Mischung aus erwünschtem Signal (Sprache) und dem Hintergrundrauschen (Nicht-Sprache) ist. Eine Unterdrückung der Sprache wird z. B. durch Invertieren der Dämpfungsfaktoren in einem STSA-basierten Verfahren oder durch Austauschen der Definition des erwünschten Signals und des Hintergrundrauschens erreicht.
  • Eine wichtige Anforderung bei der Sprachunterdrückung besteht jedoch darin, dass im Hinblick auf den Kontext des Hochmischens das resultierende Audiosignal als Audiosignal hoher Audioqualität wahrgenommen wird. Es ist bekannt, dass Sprachverbesserungsverfahren und Rauschreduktionsverfahren hörbare Artefakte in das Ausgangssignal einführen. Ein Beispiel eines solchen Artefakts wird als Musikrauschen oder Musiktöne bekannt und resultiert aus einer fehlerhaften Schätzung von Rauschböden (noise floors) und schwankenden Subband-Dämpfungsfaktoren.
  • Alternativ können auch blinde Quellentrennverfahren eingesetzt werden, um die Sprachsignalanteile von dem Umgebungssignal zu separieren und beide anschließend getrennt zu manipulieren.
  • Für die spezielle Anforderung nach der Erzeugung hochqualitativer Audiosignale werden jedoch bestimmte nachfolgend dargelegte Verfahren aufgrund der Tatsache, dass sie im Vergleich zu anderen Verfahren wesentlich besser abschneiden, bevorzugt. Ein Verfahren besteht in der Breitbanddämpfung, wie sie in 3 bei 20 angedeutet ist. Das Audiosignal wird zu den Zeitabschnitten, wo Sprache vorhanden ist, gedämpft. Spezielle Verstärkungsfaktoren liegen im Bereich zwischen –12 dB und –3 dB, wobei eine bevorzugte Dämpfung bei 6 dB liegt. Da andere Signalkomponenten/anteile genauso unterdrückt werden, könnte man meinen, dass der gesamte Verlust an Audiosignalenergie deutlich wahrgenommen wird. Es hat sich jedoch herausgestellt, dass dieser Effekt nicht störend ist, da sich der Benutzer ohnehin besonders auf die vorderen Lautsprecher L, C, R konzentriert, wenn eine Sprachsequenz beginnt, so dass der Benutzer die Energieabnahme der hinteren Kanäle bzw. des Umgebungssignals, dann, wenn er sich gerade auf ein Sprachsignal konzentriert, nicht wahrnehmen wird. Dies wird insbesondere durch den weiteren typischen Effekt verstärkt, dass der Pegel des Audiosignals ohnehin aufgrund einer einsetzenden Sprache zunimmt. Durch Einführen einer Dämpfung im Bereich zwischen –12 dB und 3 dB wird die Dämpfung nicht als störend wahrgenommen. Stattdessen empfindet es der Benutzer wesentlich angenehmer, dass aufgrund der Unterdrückung von Sprachkomponenten in den hinteren Kanälen ein Effekt erreicht wird, der dazu führt, dass für den Benutzer die Sprachkomponenten ausschließlich in den vorderen Kanälen positioniert sind.
  • Ein alternatives Verfahren, das ebenfalls in 3 bei 20 angedeutet wird, besteht in einer Hochpassfilterung. Das Audiosignal wird dort, wo Sprache vorhanden ist, einer Hochpassfilterung unterzogen, wobei eine Grenzfrequenz im Bereich zwischen 600 Hz und 3.000 Hz liegt. Die Einstellung der Grenzfrequenz ergibt sich aus der Signalcharakteristik von Sprache im Hinblick auf die vorliegenden Erfindung. Das Langzeit-Leistungsspektrum eines Sprachsignals konzentriert sich auf einen Bereich unter 2,5 kHz. Der bevorzugte Bereich der Grundfrequenz von tonaler Sprache (voiced speech) liegt im Bereich zwischen 75 Hz und 330 Hz. Ein Bereich zwischen 60 Hz und 250 Hz ergibt sich für männliche Erwachsene. Mittelwerte liegen bei 120 Hz für männliche Sprecher und 215 Hz für weibliche Sprecherinnen. Aufgrund der Resonanzen im Vokaltrakt werden bestimmte Signalfrequenzen verstärkt. Die entsprechenden Peaks in dem Spektrum werden auch als Formant-Frequenzen oder einfach als Formanten bezeichnet. Typischerweise existieren etwa drei signifikante Formanten unter 3.500 Hz. Folglich zeigt die Sprache eine 1/F-Natur, d. h. die spektrale Energie nimmt mit zunehmender Frequenz ab. Daher können Sprachkomponenten zu Zwecken der vorliegenden Erfindung gut durch eine Hochpass filterung mit dem angegebenen Grenzfrequenzbereich gefiltert werden.
  • Eine weitere bevorzugte Implementierung besteht in der Sinus-Signal-Modellierung, die anhand von 4 dargestellt wird. So wird in einem ersten Schritt 40 die Grundwelle einer Sprache detektiert, wobei diese Detektion im Sprachdetektor 18 oder aber, wie es in 6e gezeigt ist, in dem Sprachanalysator 30 stattfinden kann. Hierauf wird in einem Schritt 41 eine Untersuchung durchgeführt, um die zu der Grundwelle gehörenden Oberwellen herauszufinden. Diese Funktionalität kann im Sprachdetektor/Sprachanalysator oder auch sogar bereits im Umgebungssignalmodifizierer durchgeführt werden. Hierauf wird für das Umgebungssignal ein Spektrogramm berechnet, und zwar auf der Basis einer blockweise ausgeführten Hin-Transformation, wie es bei 42 dargelegt ist. Hierauf wird die eigentliche Sprachunterdrückung in einem Schritt 43 durchgeführt, in dem die Grundwelle und die Oberwellen im Spektrogramm gedämpft werden. In einem Schritt 44 wird dann das modifizierte Umgebungssignal, in dem die Grundwelle und die Oberwellen gedämpft oder eliminiert sind, wieder einer Rücktransformation unterzogen, um das modifizierte Umgebungssignal oder das modifizierte Eingangssignal zu erreichen.
  • Diese sinusartige Signalmodellierung wird oft für die Tonsynthese, die Audiocodierung, die Quellentrennung, die Tonmanipulation und zur Rauschunterdrückung eingesetzt. Hier wird ein Signal als Zusammensetzung aus Sinuswellen mit zeitlich variierenden Amplituden und Frequenzen dargestellt. Tonale Sprachsignalkomponenten werden manipuliert, indem die Partialtöne, d. h. die Grundwelle und deren Harmonische (Oberwellen), identifiziert und modifiziert werden.
  • Die Partialtöne werden mittels eines Partialton-Finders identifiziert, wie es bei 41 dargelegt ist. Typischerweise wird das Partialton-Finden in der Zeit/Frequenz-Domäne durchgeführt. Ein Spektrogramm wird mittels einer Kurzzeit-Fourier-Transformation, wie es bei 42 angedeutet ist, durchgeführt. Lokale Maxima in jedem Spektrum des Spektrogramms werden detektiert und Trajektorien durch lokale Maxima benachbarter Spektren bestimmt. Eine Schätzung der Grundfrequenz kann den Spitzen-Such-Prozess (Peak Picking) unterstützen, wobei diese Abschätzung der Grundfrequenz bei 40 durchgeführt wird. Eine Sinussignaldarstellung wird dann aus den Trajektorien erreicht. Es sei darauf hingewiesen, dass also die Reihenfolge zwischen dem Schritt 40, 41 und dem Schritt 42 auch variiert werden kann, so dass zunächst eine Hin-Transformation 42 ausgeführt wird, die im Sprachanalysator 30 von 6d erfolgt.
  • Verschiedene Erweiterungen der Ableitung einer Sinussignaldarstellung wurden vorgeschlagen. Ein Multi-Auflösungs-Verarbeitungs-Lösungsansatz zur Rauschreduktion ist in D. Andersen und M. Clements, „Audio signal noise reduction using multi-resolution sinusoidal modeling", Proceedings of ICASSP 1999, dargestellt. Ein iterativer Prozess für das Ableiten der Sinusdarstellung wurde in J. Jensen und J. Hansen, „Speech enhancement using a constrained iterative sinusoidal model", IEEE TSAP 2001, vorgestellt.
  • Unter Verwendung der sinusförmigen Signaldarstellung wird ein verbessertes Sprachsignal durch Verstärken der Sinuskomponente erhalten. Die erfindungsgemäße Sprachunterdrückung möchte jedoch genau das Gegenteil erreichen, nämlich die Partialtöne unterdrücken, wobei die Partialtöne die Grundwelle und deren Harmonische umfassen, und zwar für ein Sprachsegment mit tonaler Sprache. Typischerweise sind die Sprachkomponenten mit hoher Energie tonal. So wird eine Sprache bei einem Pegel von 60–75 dB für Vokale und etwa 20–30 dB niedriger für Konsonanten gesprochen. Für tonale Sprache (Vokale) ist die Erregung ein periodisches pulsartiges Signal. Das Erregungssignal wird durch den Vokaltrakt gefiltert. Folglich ist nahezu die gesamte Energie eines tonalen Sprachsegments in der Grundwelle und ihren Harmonischen konzentriert. Durch Unterdrückung dieser Partialtöne werden die Sprachkomponenten signifikant unterdrückt.
  • Eine weitere Art und Weise, um eine Sprachunterdrückung zu erreichen, ist in 7 und 8 dargestellt. 7 und 8 erläutern das Grundprinzip der Kurzzeit-Spektraldämpfung oder Spektralgewichtung. Hier wird zunächst das Leistungsdichtespektrum des Hintergrundrauschens geschätzt. Das dargestellte Verfahren schätzt die Menge an Sprache, die in einer Zeit/Frequenz-Kachel enthalten ist, unter Verwendung von so genannten Low-Level-Merkmalen, die ein Maß für die „Sprachartigkeit" eines Signals in einem bestimmten Frequenzabschnitt geben. Low-Level-Features bzw. Merkmale niederer Ebene sind Merkmale mit niedrigem Niveau bezüglich der Interpretation ihrer Bedeutung und des Aufwands ihrer Berechnung.
  • Das Audiosignal wird in eine Anzahl von Frequenzbändern mittels einer Filterbank oder einer Kurzzeit-Fourier-Transformation zerlegt, die in 7 bei 70 dargestellt ist. Hierauf werden, wie es bei 71a und 71b beispielhaft dargestellt ist, zeitlich variierende Verstärkungsfaktoren für alle Subbänder aus solchen Merkmalen niederer Ebenen (Low-Level-Features) berechnet, um Subbandsignale proportional zu der Menge an Sprache, die sie enthalten, zu dämpfen. Geeignete Merkmale auf niedriger Ebene sind das spektrale Flachheitmaß (SFM; SFM = spectral flatness measure) und die 4-Hz-Modulationsenergie (4 HzME). Das SFM misst den Grad an Tonalität eines Audiosignals und ergibt sich für ein Band aus dem Quotienten des geometrischen Mittelwerts aller Spektralwerte in einem Band und des arithmetischen Mittelwerts der Spektralkomponenten in dem Band. Das 4 HzME wird dadurch motiviert, dass Sprache einen charakteristischen Energiemodulations-Peak bei etwa 4 Hz hat, was der mittleren Silbenrate eines Sprechers entspricht.
  • 8 zeigt eine detailliertere Darstellung des Verstärkungsberechnungsblocks 71a und 71b von 7. Es wird auf der Basis eines Subbands xi eine Mehrzahl von verschiedenen Low-Level-Features, also LLF1, ..., LLFn berechnet. Diese Features werden dann in einem Kombinierer 80 kombiniert, um zu einem Verstärkungsfaktor gi für ein Subband zu kommen.
  • Es sei darauf hingewiesen, dass je nach Implementierung nicht unbedingt Merkmale niedriger Ordnung, sondern jegliche Merkmale verwendet werden können, wie beispielsweise auch Energiemerkmale etc., die dann gemäß der Implementierung von 8 in einem Kombinierer miteinander kombiniert werden können, um zu einem quantitativen Verstärkungsfaktor gi zu kommen, derart, dass jedes Band (zu jedem Zeitpunkt) variabel gedämpft wird, um eine Sprachunterdrückung zu erreichen.
  • Abhängig von den Gegebenheiten kann das erfindungsgemäße Verfahren in Hardware oder in Software implementiert werden. Die Implementierung kann auf einem digitalen Speichermedium, insbesondere einer Diskette oder CD mit elektronisch auslesbaren Steuersignalen erfolgen, die so mit einem programmierbaren Computersystem zusammenwirken können, dass das Verfahren ausgeführt wird. Allgemein besteht die Erfindung somit auch in einem Computer-Programm-Produkt mit einem auf einem maschinenlesbaren Träger gespeicherten Programmcode zur Durchführung des erfindungsgemäßen Verfahrens, wenn das Computer-Programm-Produkt auf einem Rechner abläuft. In anderen Worten ausgedrückt, kann die Erfindung somit als ein Computer-Programm mit einem Programmcode zur Durchführung des Verfahrens realisiert werden, wenn das Computer-Programm auf einem Computer abläuft.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - DE 102006017280 [0026]
  • Zitierte Nicht-Patentliteratur
    • - C. Avendano und J. M. Jot: "Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix", IEEE International Conference an Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002 [0014]
    • - R. Irwan und Ronald M. Aarts: "A method to convert stereo to multi-channel sound", The proceedings of the AES 19th International Conference, Schloss Elmau, Deutschland, Juni 21–24, Seiten 139–143, 2001 [0015]
    • - M. Schroeder, „An artificial stereophonic effect obtained from using a single signal", JAES, 1957 [0018]
    • - C. Faller, „Pseudo stereophony revisited", Proceedings of the AES 118nd Convention, 2005 [0018]
    • - C. Uhle, A. Walther, O. Hellmuth und J. Herre in „Ambience separation from mono recordings using non-negative matrix factorization", Proceedings of the AES 30th Conference 2007 [0019]
    • - AES Convention Paper „Descriptor-based specialization", J. Monceaux, F. Pachet u. a., 28.–31. Mai 2005, Barcelona, Spanien [0027]
    • - G. Schmid, „Single-channel noise suppression based an spectral weighting", Eurasip Newsletter 2004 [0075]
    • - P. Hansen und S. Jensen, „Fir filter representation of reduced-rank noise reduction", IEEE TSP, 1998 [0075]
    • - D. Andersen und M. Clements, „Audio signal noise reduction using multi-resolution sinusoidal modeling", Proceedings of ICASSP 1999 [0084]
    • - J. Jensen und J. Hansen, „Speech enhancement using a constrained iterative sinusoidal model", IEEE TSAP 2001 [0084]

Claims (23)

  1. Vorrichtung zum Erzeugen eines Multikanalsignals (10) mit einer Anzahl von Ausgangskanälen, die größer als eine Anzahl von Eingangskanälen eines Eingangssignals (12) ist, wobei die Anzahl von Eingangskanälen gleich 1 oder größer ist, mit folgenden Merkmalen: einem Hochmischer (14) zum Hochmischen des Eingangssignals, um wenigstens einen Direktsignalkanal und wenigstens einen Umgebungskanal oder einen modifizierten Umgebungskanal zu liefern; einem Sprachdetektor (18) zum Detektieren eines Abschnitts des Eingangssignals, des Direktsignalkanals oder des Umgebungssignalkanals, in dem ein Sprachanteil auftritt; und einem Signalmodifizierer (20) zum Modifizieren eines Abschnitts des Umgebungskanals oder des Eingangssignals, der dem Abschnitt entspricht, der von dem Sprachdetektor (18) detektiert wurde, um einen modifizierten Umgebungssignalkanal oder ein modifiziertes Eingangssignal zu erhalten, in dem der Sprachanteil gedämpft oder eliminiert ist, wobei der Abschnitt in dem Direktkanalsignal weniger oder nicht gedämpft ist; und einer Lautsprechersignalausgabeeinrichtung (22) zum Ausgeben von Lautsprechersignalen in einem Wiedergabeschema unter Verwendung des Direktkanals und des modifizierten Umgebungskanals.
  2. Vorrichtung gemäß Anspruch 1, bei der die Lautsprechersignalausgabeeinrichtung (22) ausgebildet ist, um nach einem Direkt/Umgebungs-Schema zu arbeiten, bei dem jeder Direktkanal auf einen eigenen Lautsprecher abbildbar ist, und jeder Umgebungskanal auf einen ei genen Lautsprecher abbildbar ist, wobei die Lautsprechersignalausgabeeinrichtung (22) ausgebildet ist, um auf Lautsprechersignale für Lautsprecher hinter einem Zuhörer in dem Wiedergabeschema lediglich den Umgebungskanal und nicht den Direktkanal abzubilden.
  3. Vorrichtung gemäß Anspruch 1, bei der die Lautsprechersignalausgabeeinrichtung (22) ausgebildet ist, um nach einem In-Band-Schema zu arbeiten, bei dem jeder Direktsignalkanal auf einen oder mehrere Lautsprecher abhängig von seiner Position abbildbar ist, und bei dem die Lautsprechersignalausgabeeinrichtung (22) ausgebildet ist, um den Umgebungskanal und den Direktkanal oder einen Anteil des Umgebungskanals oder des Direktkanals, welche für einen Lautsprecher bestimmt sind, zu addieren, um ein Lautsprecher-Ausgabesignal für den Lautsprecher zu erhalten.
  4. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der die Lautsprechersignalausgabeeinrichtung ausgebildet ist, um Lautsprechersignale für wenigstens drei Kanäle zu liefern, die in dem Wiedergabeschema vor einem Hörer platzierbar sind, und um wenigstens zwei Kanäle zu erzeugen, die in dem Wiedergabeschema hinter dem Hörer platzierbar sind.
  5. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Sprachdetektor (18) ausgebildet ist, um zeitlich blockweise zu arbeiten, und um jeden zeitlichen Block bandweise frequenzselektiv zu analysieren, um ein frequenzmäßiges Band für einen zeitlichen Block zu detektieren, und bei dem der Signalmodifizierer (20) ausgebildet ist, um ein frequenzmäßiges Band in einem solchen zeitlichen Block des Umgebungssignalkanals oder des Ein gangssignals zu modifizieren, das dem Band entspricht, das von dem Sprachdetektor (18) detektiert worden ist.
  6. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Signalmodifizierer ausgebildet ist, um das Umgebungskanalsignal oder das Eingangssignal oder Teile des Umgebungskanalsignals oder des Eingangssignals in einem Zeitintervall zu dämpfen, das von dem Sprachdetektor (18) detektiert worden ist, und wobei der Hochmischer (14) und die Lautsprechersignalausgabeeinrichtung (22) ausgebildet sind, um den wenigstens einen Direktkanal so zu erzeugen, dass derselbe zeitliche Abschnitt weniger oder nicht gedämpft wird, so dass der Direktkanal eine Sprachkomponente aufweist, die bei einer Wiedergabe stärker wahrnehmbar ist als eine Sprachkomponente in dem modifizierten Umgebungskanalsignal oder in dem modifizierten Eingangssignal.
  7. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Signalmodifizierer (20) ausgebildet ist, um den wenigstens einen Umgebungskanal oder das Eingangssignal dann einer Hochpassfilterung zu unterziehen, wenn der Sprachdetektor (18) einen zeitlichen Abschnitt detektiert hat, in dem ein Sprachanteil auftritt, wobei eine Grenzfrequenz des Hochpassfilters zwischen 400 Hz und 3.500 Hz liegt.
  8. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Sprachdetektor (18) ausgebildet ist, um ein zeitliches Auftreten einer Sprachsignalkomponente zu detektieren, und bei der der Signalmodifizierer (20) ausgebildet ist, um eine Grundfrequenz der Sprachsignalkomponente zu ermitteln, und um Töne in dem Umgebungskanal oder dem Eingangssignal bei der Grundfrequenz und den Oberwellen selektiv zu dämpfen (43), um das modifizierte Umgebungskanalsignal oder das modifizierte Eingangssignal zu erhalten.
  9. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Sprachdetektor ausgebildet ist, um pro Frequenzband ein Maß für einen Sprachgehalt zu ermitteln, und bei der der Umgebungskanalmodifizierer ausgebildet ist, um ein entsprechendes Band des Umgebungskanals gemäß dem Maß mit einem Dämpfungsfaktor zu dämpfen (72a, 72b), wobei ein höheres Maß in einem höheren Dämpfungsfaktor und ein niedrigeres Maß in einem niedrigeren Dämpfungsfaktor resultiert.
  10. Vorrichtung gemäß Anspruch 9, bei der der Signalmodifizierer (20) folgende Merkmale aufweist: einen Zeit-Frequenzbereichsumsetzer (70) zum Umsetzen des Umgebungssignals oder des Eingangssignals in eine spektrale Darstellung; einen Dämpfer (72a, 72b) zum frequenzselektiven variablen Dämpfen der spektralen Darstellung; und einen Frequenz-Zeitbereichsumsetzer (73) zum Umsetzen der variabel gedämpften spektralen Darstellung in dem Zeitbereich, um das modifizierte Umgebungskanalsignal oder das modifizierte Eingangssignal zu erhalten.
  11. Vorrichtung gemäß Anspruch 9 oder 10, bei der der Sprachdetektor (18) folgende Merkmale aufweist: einen Zeit-Frequenzbereichsumsetzer (42) zum Liefern einer spektralen Darstellung eines Analysesignals; eine Einrichtung zum Berechnen von einem oder mehreren Merkmalen (71a, 71b) pro Band des Analysesignals; und eine Einrichtung (80) zum Berechnen eines Maßes für einen Sprachgehalt basierend auf einer Kombination des einen oder der mehreren Merkmale pro Band.
  12. Vorrichtung gemäß Anspruch 11, bei der der Signalmodifizierer (20) ausgebildet ist, um als Merkmale ein spektrales Flachheitsmaß (SFM) oder eine 4-Hz-Modulationsenergie (4 HzME) zu berechnen.
  13. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Sprachdetektor (18) ausgebildet ist, um das Umgebungskanalsignal (18c) zu analysieren, und bei der der Signalmodifizierer (20) ausgebildet ist, um das Umgebungskanalsignal (16) zu modifizieren.
  14. Vorrichtungen gemäß einem der Ansprüche 1 bis 12, bei der der Sprachdetektor (18) ausgebildet ist, um das Eingangssignal (18a) zu analysieren, und bei der der Signalmodifizierer (20) ausgebildet ist, um das Umgebungskanalsignal (16) basierend auf Steuerinformationen (18d) von dem Sprachdetektor (18) zu modifizieren.
  15. Vorrichtungen gemäß einem der Ansprüche 1 bis 12, bei der der Sprachdetektor (18) ausgebildet ist, um das Eingangssignal (18a) zu analysieren, und bei der der Signalmodifizierer (20) ausgebildet ist, um das Eingangssignal basierend auf Steuerinformationen (18d) von dem Sprachdetektor (18) zu modifizieren, und bei der der Hochmischer (14) einen Umgebungskanalextraktor aufweist, der ausgebildet ist, um auf der Basis des modifizierten Eingangssignals das modifizierte Umgebungskanalsignal (16') zu ermitteln, wobei der Hochmischer (14) ferner ausgebildet ist, um auf der Basis des Eingangssignals (12) am Eingang des Signalmodifizierers (20) das Direktkanalsignal (15) zu ermitteln.
  16. Vorrichtungen gemäß einem der Ansprüche 1 bis 12, bei der der Sprachdetektor (18) ausgebildet ist, um das Eingangssignal (18a) zu analysieren, bei der ferner ein Sprachanalysator (30) vorgesehen ist, um das Eingangssignal einer Sprachanalyse zu unterziehen, und bei der der Signalmodifizierer (20) ausgebildet ist, um das Umgebungskanalsignal (16) basierend auf Steuerinformationen (18d) von dem Sprachdetektor (18) und basierend auf Sprachanalyseinformationen (18e) von dem Sprachanalysator (30) zu modifizieren.
  17. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Hochmischer (14) als Matrix-Decodierer ausgebildet ist.
  18. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Hochmischer (14) als Blind-Hochmischer ausgebildet ist, der lediglich auf der Basis des Eingangssignals (12), aber ohne zusätzlich übertragene Hochmisch-Informationen das Direktkanalsignal (15), das Umgebungskanalsignal (16) oder das modifizierte Umgebungskanalsignal (16') erzeugt.
  19. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der der Hochmischer (14) ausgebildet ist, um eine statistische Analyse des Eingangssignals (12) durchzuführen, um das Direktkanalsignal (15), das Umgebungs kanalsignal (16) oder das modifizierte Umgebungskanalsignal (16') zu erzeugen.
  20. Vorrichtungen gemäß einem der vorhergehenden Ansprüche, bei der das Eingangssignal ein Monosignal mit einem Kanal ist und bei der das Ausgangsignal ein Multikanalsignal mit zwei oder mehr Kanalsignalen ist.
  21. Vorrichtungen gemäß einem der Ansprüche 1 bis 20, bei der der Hochmischer (14) ausgebildet ist, um als Eingangssignal ein Stereosignal mit zwei Stereokanalsignalen zu erhalten, und bei der der Hochmischer (14) ferner ausgebildet ist, um das Umgebungskanalsignal (16) oder das modifizierte Umgebungskanalsignal (16') auf der Basis einer Kreuzkorrelationsberechnung der Stereokanalsignale durchzuführen.
  22. Verfahren zum Erzeugen eines Multikanalsignals (10) mit einer Anzahl von Ausgangskanälen, die größer als eine Anzahl von Eingangskanälen eines Eingangssignals (12) ist, wobei die Anzahl von Eingangskanälen gleich 1 oder größer ist, mit folgenden Schritten: Hochmischen (14) des Eingangssignals, um wenigstens einen Direktsignalkanal und wenigstens einen Umgebungskanal oder einen modifizierten Umgebungskanal zu liefern; Detektieren (18) eines Abschnitts des Eingangssignals, des Direktsignalkanals oder des Umgebungssignalkanals, in dem ein Sprachanteil auftritt; und Modifizieren (20) eines Abschnitts des Umgebungskanals oder des Eingangssignals, der dem Abschnitt entspricht, der im Schritt des Detektierens (18) detektiert wurde, um einen modifizierten Umgebungssignalkanal oder ein modifiziertes Eingangssignal zu erhalten, in dem der Sprachanteil gedämpft oder eliminiert ist, wobei der Abschnitt in dem Direktkanalsignal weniger oder nicht gedämpft ist; und Ausgeben (22) von Lautsprechersignalen in einem Wiedergabeschema unter Verwendung des Direktkanals und des modifizierten Umgebungskanals.
  23. Computerprogramm mit einem Programm, zum Ausführen des Verfahrens gemäß Patentanspruch 23, wenn das Programm auf einem Rechner abläuft.
DE102007048973A 2007-10-12 2007-10-12 Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung Active DE102007048973B4 (de)

Priority Applications (17)

Application Number Priority Date Filing Date Title
DE102007048973A DE102007048973B4 (de) 2007-10-12 2007-10-12 Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
AT08802737T ATE507555T1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
KR1020107007771A KR101100610B1 (ko) 2007-10-12 2008-10-01 음성 신호 처리를 이용한 멀티-채널 신호 발생 장치 및 방법
PCT/EP2008/008324 WO2009049773A1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
CN2008801112350A CN101842834B (zh) 2007-10-12 2008-10-01 包括语音信号处理在内的生成多声道信号的设备和方法
BRPI0816638-2A BRPI0816638B1 (pt) 2007-10-12 2008-10-01 Dispositivo e método para geração de sinal multicanal incluindo processamento de sinal de voz
PL08802737T PL2206113T3 (pl) 2007-10-12 2008-10-01 Urządzenie i sposób wytwarzania sygnału wielokanałowego z przetwarzaniem sygnałów mowy
US12/681,809 US8731209B2 (en) 2007-10-12 2008-10-01 Device and method for generating a multi-channel signal including speech signal processing
RU2010112890/08A RU2461144C2 (ru) 2007-10-12 2008-10-01 Устройство и способ для генерации многоканального сигнала, использующие обработку голосового сигнала
AU2008314183A AU2008314183B2 (en) 2007-10-12 2008-10-01 Device and method for generating a multi-channel signal using voice signal processing
ES08802737T ES2364888T3 (es) 2007-10-12 2008-10-01 Dispositivo y procedimiento para generar una señal multicanal con un procesamiento de señal de voz.
DE502008003378T DE502008003378D1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
EP08802737A EP2206113B1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung
MX2010003854A MX2010003854A (es) 2007-10-12 2008-10-01 Dispositivo y metodo para generar una se?al multicanal que incluye el procesamiento de se?al auditiva de voz.
CA2700911A CA2700911C (en) 2007-10-12 2008-10-01 Device and method for generating a multi-channel signal including speech signal processing
JP2010528297A JP5149968B2 (ja) 2007-10-12 2008-10-01 スピーチ信号処理を含むマルチチャンネル信号を生成するための装置および方法
HK11100278.0A HK1146424A1 (en) 2007-10-12 2011-01-12 Device and method for generating a multi-channel signal using voice signal processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007048973A DE102007048973B4 (de) 2007-10-12 2007-10-12 Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung

Publications (2)

Publication Number Publication Date
DE102007048973A1 true DE102007048973A1 (de) 2009-04-16
DE102007048973B4 DE102007048973B4 (de) 2010-11-18

Family

ID=40032822

Family Applications (2)

Application Number Title Priority Date Filing Date
DE102007048973A Active DE102007048973B4 (de) 2007-10-12 2007-10-12 Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
DE502008003378T Active DE502008003378D1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE502008003378T Active DE502008003378D1 (de) 2007-10-12 2008-10-01 Vorrichtung und verfahren zum erzeugen eines multikanalsignals mit einer sprachsignalverarbeitung

Country Status (16)

Country Link
US (1) US8731209B2 (de)
EP (1) EP2206113B1 (de)
JP (1) JP5149968B2 (de)
KR (1) KR101100610B1 (de)
CN (1) CN101842834B (de)
AT (1) ATE507555T1 (de)
AU (1) AU2008314183B2 (de)
BR (1) BRPI0816638B1 (de)
CA (1) CA2700911C (de)
DE (2) DE102007048973B4 (de)
ES (1) ES2364888T3 (de)
HK (1) HK1146424A1 (de)
MX (1) MX2010003854A (de)
PL (1) PL2206113T3 (de)
RU (1) RU2461144C2 (de)
WO (1) WO2009049773A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2252083A1 (de) * 2009-05-14 2010-11-17 Yamaha Corporation Signalverarbeitungsvorrichtung
RU2520420C2 (ru) * 2010-03-08 2014-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078224A1 (en) * 2009-09-30 2011-03-31 Wilson Kevin W Nonlinear Dimensionality Reduction of Spectrograms
JP5299327B2 (ja) * 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
WO2011121782A1 (ja) * 2010-03-31 2011-10-06 富士通株式会社 帯域拡張装置および帯域拡張方法
EP2581904B1 (de) * 2010-06-11 2015-10-07 Panasonic Intellectual Property Corporation of America Gerät und Verfahren zur Audiokodierung/-dekodierung
EP2661746B1 (de) * 2011-01-05 2018-08-01 Nokia Technologies Oy Mehrkanalige kodierung und/oder dekodierung
EP2523473A1 (de) 2011-05-11 2012-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Erzeugung eines Ausgabesignals mithilfe einer Dekompositionsvorrichtung
JP5057535B1 (ja) 2011-08-31 2012-10-24 国立大学法人電気通信大学 ミキシング装置、ミキシング信号処理装置、ミキシングプログラム及びミキシング方法
KR101803293B1 (ko) 2011-09-09 2017-12-01 삼성전자주식회사 입체 음향 효과를 제공하는 신호 처리 장치 및 신호 처리 방법
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
MY181365A (en) * 2012-09-12 2020-12-21 Fraunhofer Ges Forschung Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
WO2014112792A1 (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 사운드 바를 위한 오디오 신호 처리 장치 및 방법
SG11201507066PA (en) * 2013-03-05 2015-10-29 Fraunhofer Ges Forschung Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
EP2830061A1 (de) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Codierung und Decodierung eines codierten Audiosignals unter Verwendung von zeitlicher Rausch-/Patch-Formung
EP3503095A1 (de) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybride wellenformcodierte und parametercodierte spracherweiterung
EP2866227A1 (de) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Dekodierung und Kodierung einer Downmix-Matrix, Verfahren zur Darstellung von Audioinhalt, Kodierer und Dekodierer für eine Downmix-Matrix, Audiokodierer und Audiodekodierer
US10176818B2 (en) * 2013-11-15 2019-01-08 Adobe Inc. Sound processing using a product-of-filters model
KR101808810B1 (ko) * 2013-11-27 2017-12-14 한국전자통신연구원 음성/무음성 구간 검출 방법 및 장치
CN104683933A (zh) 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
KR101841380B1 (ko) * 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
JP6274872B2 (ja) * 2014-01-21 2018-02-07 キヤノン株式会社 音処理装置、音処理方法
WO2016019130A1 (en) * 2014-08-01 2016-02-04 Borne Steven Jay Audio device
US20160071524A1 (en) * 2014-09-09 2016-03-10 Nokia Corporation Audio Modification for Multimedia Reversal
CN104409080B (zh) * 2014-12-15 2018-09-18 北京国双科技有限公司 语音端点检测方法和装置
PL3257270T3 (pl) * 2015-03-27 2019-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie i sposób przetwarzania sygnałów stereo do odtwarzania w samochodach dla uzyskania indywidualnego dźwięku trójwymiarowego przez przednie głośniki
CN106205628B (zh) * 2015-05-06 2018-11-02 小米科技有限责任公司 声音信号优化方法及装置
WO2017136573A1 (en) * 2016-02-02 2017-08-10 Dts, Inc. Augmented reality headphone environment rendering
WO2017202680A1 (en) * 2016-05-26 2017-11-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for voice or sound activity detection for spatial audio
CN109416912B (zh) * 2016-06-30 2023-04-11 杜塞尔多夫华为技术有限公司 一种对多声道音频信号进行编码和解码的装置和方法
CN106412792B (zh) * 2016-09-05 2018-10-30 上海艺瓣文化传播有限公司 对原立体声文件重新进行空间化处理并合成的系统及方法
CA3179080A1 (en) * 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
EP3382702A1 (de) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur bestimmung einer im voraus bestimmten eigenschaft bezüglich der künstlichen bandbreitenbeschränkungsverarbeitung eines audiosignals
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
BR112020010819A2 (pt) 2017-12-18 2020-11-10 Dolby International Ab método e sistema para tratar transições locais entre posições de escuta em um ambiente de realidade virtual
US11019201B2 (en) 2019-02-06 2021-05-25 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
US12015637B2 (en) 2019-04-08 2024-06-18 Pindrop Security, Inc. Systems and methods for end-to-end architectures for voice spoofing detection
US20230215456A1 (en) * 2019-12-31 2023-07-06 Brainsoft Inc. Sound processing method using dj transform
KR102164306B1 (ko) * 2019-12-31 2020-10-12 브레인소프트주식회사 디제이변환에 기초한 기본주파수 추출 방법
CN111654745B (zh) * 2020-06-08 2022-10-14 海信视像科技股份有限公司 多声道的信号处理方法及显示设备
CN114630057B (zh) * 2022-03-11 2024-01-30 北京字跳网络技术有限公司 确定特效视频的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070041592A1 (en) * 2002-06-04 2007-02-22 Creative Labs, Inc. Stream segregation for stereo signals
WO2007096792A1 (en) * 2006-02-22 2007-08-30 Koninklijke Philips Electronics N.V. Device for and a method of processing audio data
DE102006017280A1 (de) 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03236691A (ja) 1990-02-14 1991-10-22 Hitachi Ltd テレビジョン受信機用音声回路
JPH07110696A (ja) 1993-10-12 1995-04-25 Mitsubishi Electric Corp 音声再生装置
JP3412209B2 (ja) 1993-10-22 2003-06-03 日本ビクター株式会社 音響信号処理装置
CN1116737C (zh) 1998-04-14 2003-07-30 听觉增强有限公司 用户可调节的适应听力的音量控制
US6928169B1 (en) * 1998-12-24 2005-08-09 Bose Corporation Audio signal processing
JP2001069597A (ja) 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
FR2797343B1 (fr) * 1999-08-04 2001-10-05 Matra Nortel Communications Procede et dispositif de detection d'activite vocale
JP4463905B2 (ja) 1999-09-28 2010-05-19 隆行 荒井 音声処理方法、装置及び拡声システム
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7177808B2 (en) * 2000-11-29 2007-02-13 The United States Of America As Represented By The Secretary Of The Air Force Method for improving speaker identification by determining usable speech
US20040086130A1 (en) * 2002-05-03 2004-05-06 Eid Bradley F. Multi-channel sound processing systems
US7567845B1 (en) * 2002-06-04 2009-07-28 Creative Technology Ltd Ambience generation for stereo signals
EP1618763B1 (de) * 2003-04-17 2007-02-28 Koninklijke Philips Electronics N.V. Audiosignalsynthese
WO2004093494A1 (en) 2003-04-17 2004-10-28 Koninklijke Philips Electronics N.V. Audio signal generation
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
JP2007028065A (ja) 2005-07-14 2007-02-01 Victor Co Of Japan Ltd サラウンド再生装置
WO2007034806A1 (ja) 2005-09-22 2007-03-29 Pioneer Corporation 信号処理装置、信号処理方法、信号処理プログラムおよびコンピュータに読み取り可能な記録媒体
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
KR100773560B1 (ko) 2006-03-06 2007-11-05 삼성전자주식회사 스테레오 신호 생성 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070041592A1 (en) * 2002-06-04 2007-02-22 Creative Labs, Inc. Stream segregation for stereo signals
WO2007096792A1 (en) * 2006-02-22 2007-08-30 Koninklijke Philips Electronics N.V. Device for and a method of processing audio data
DE102006017280A1 (de) 2006-04-12 2007-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals

Non-Patent Citations (23)

* Cited by examiner, † Cited by third party
Title
AES Convention Paper "Descriptor-based specialization", J. Monceaux, F. Pachet u. a., 28.-31. Mai 2005, Barcelona, Spanien
ANDERSEN, D., CLEMENTS, M.: Audio signal noise reduction using multi-resolution sinusoidal modelling. In: Proceedings of the ICASSP 1999, S. 805-808 *
AVENDANO, C., JOT, J.M.: Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix. In : ICASSP, Mai 2002, S. 1957-1960 *
C. Avendano und J. M. Jot: "Ambience Extraction and Synthesis from Stereo Signals for Multichannel Audio Upmix", IEEE International Conference an Acoustics, Speech and Signal Processing, ICASSP 02, Orlando, Fl, May 2002
C. Faller, "Pseudo stereophony revisited", Proceedings of the AES 118nd Convention, 2005
C. Uhle, A. Walther, O. Hellmuth und J. Herre in "Ambience separation from mono recordings using non-negative matrix factorization", Proceedings of the AES 30th Conference 2007
CLEMENTS, M.: Audio signal noise reduction using multi-resolution sinusoidal modelling. In: Proceed ings of the ICASSP 1999, S. 805-808; AVENDANO, C.
D. Andersen und M. Clements, "Audio signal noise reduction using multi-resolution sinusoidal modeling", Proceedings of ICASSP 1999
FALLER, C.: Pseudo stereophony revisited. In: Proceedings of the AES 118th Convention, Mai 2005 *
G. Schmid, "Single-channel noise suppression based an spectral weighting", Eurasip Newsletter 2004
HANSEN, P., JENS EN, S.: Fir filter representation of reduced-rank noise reduction. In: IEEE TSP, 1998, S. 1737-1741 *
IRWAN, R., AARTS, R.M.: A method to convert stereo to multi- channel. In: Proceedings of the AES 19th International Conference Juni 2001, S. 139-143 *
J. Jensen und J. Hansen, "Speech enhancement using a constrained iterative sinusoidal model", IEEE TSAP 2001
JENSEN, J.; HANSEN, J.: Speech enhancement using a constrained iterative sinusoidal model. In: IEEE *
JOT, J.M.: Ambience extraction and synthesis from stereo signals for multi-channel audio up-mix. In : ICASSP, Mai 2002, S. 1957-1960; HANSEN, P.; JENS
M. Schroeder, "An artificial stereophonic effect obtained from using a single signal", JAES, 1957
MONCEAUX, J. u.a.: Descriptor-based spatialization ". In: AES 118th convention, Mai 2005; IRWAN, R., AARTS, R.M.: A method to convert stereo to multi- channel. In: Proceedings of the AES 19th Internati onal Conference, Juni 2001, S. 139-143; SCHROEDER, M.: An artificial stereophonic effect obtained fr om using a single audio signal. In: Journal of the AES, 1958, S. 74- 79; FALLER, C.: Pseudo stereoph ony revisited. In: Proceedings of the AES 118th Co nvention, Mai 2005; UHLE, C. u.a.: Ambience separa tion from mono recordings using non negative matri x factorization. In: Proceedings of the AES 30th c onference, März 2007, S. 138-145; SCHMID, G.: Sing le-channel noise suppression based on spectral wei ghting. In: Eurasip Newsletter 2004; ANDERSEN, D.
MONCEAUX, J. u.a.: Descriptor-based spatialization". In: AES 118th convention, Mai 2005 *
P. Hansen und S. Jensen, "Fir filter representation of reduced-rank noise reduction", IEEE TSP, 1998
R. Irwan und Ronald M. Aarts: "A method to convert stereo to multi-channel sound", The proceedings of the AES 19th International Conference, Schloss Elmau, Deutschland, Juni 21-24, Seiten 139-143, 2001
SCHMID, G.: Single-channel noise suppression based on spectral weighting. In: Eurasip Newsletter 2004 *
SCHROEDER, M.: An artificial stereophonic effect obtained from using a single audio signal. In: Journal of the AES, 1958, S. 74- 79 *
UHLE, C. u.a.: Ambience separation from mono recordings using non negative matrix factorization. In: Proceedings of the AES 30th conference, März 2007, S. 138-145 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2252083A1 (de) * 2009-05-14 2010-11-17 Yamaha Corporation Signalverarbeitungsvorrichtung
US8750529B2 (en) 2009-05-14 2014-06-10 Yamaha Corporation Signal processing apparatus
RU2520420C2 (ru) * 2010-03-08 2014-06-27 Долби Лабораторис Лайсэнзин Корпорейшн Способ и система для масштабирования подавления слабого сигнала более сильным в относящихся к речи каналах многоканального звукового сигнала
US9219973B2 (en) 2010-03-08 2015-12-22 Dolby Laboratories Licensing Corporation Method and system for scaling ducking of speech-relevant channels in multi-channel audio
US9881635B2 (en) 2010-03-08 2018-01-30 Dolby Laboratories Licensing Corporation Method and system for scaling ducking of speech-relevant channels in multi-channel audio

Also Published As

Publication number Publication date
AU2008314183B2 (en) 2011-03-31
AU2008314183A1 (en) 2009-04-23
ATE507555T1 (de) 2011-05-15
KR101100610B1 (ko) 2011-12-29
DE502008003378D1 (de) 2011-06-09
US20100232619A1 (en) 2010-09-16
CA2700911A1 (en) 2009-04-23
BRPI0816638A2 (pt) 2015-03-10
RU2461144C2 (ru) 2012-09-10
CN101842834A (zh) 2010-09-22
BRPI0816638B1 (pt) 2020-03-10
KR20100065372A (ko) 2010-06-16
CN101842834B (zh) 2012-08-08
US8731209B2 (en) 2014-05-20
MX2010003854A (es) 2010-04-27
RU2010112890A (ru) 2011-11-20
EP2206113B1 (de) 2011-04-27
WO2009049773A1 (de) 2009-04-23
ES2364888T3 (es) 2011-09-16
PL2206113T3 (pl) 2011-09-30
HK1146424A1 (en) 2011-06-03
JP2011501486A (ja) 2011-01-06
EP2206113A1 (de) 2010-07-14
CA2700911C (en) 2014-08-26
DE102007048973B4 (de) 2010-11-18
JP5149968B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
DE102007048973B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
DE102006050068B4 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
EP2402943B1 (de) Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
EP2064699B1 (de) Verfahren und vorrichtung zum extrahieren und ändern des hallinhalts eines eingangssignals
DE69827775T2 (de) Tonkanalsmischung
DE102005010057A1 (de) Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
EP2730102B1 (de) Verfahren und vorrichtung zur zerlegung einer stereoaufzeichnung mittels frequenzbereichsverarbeitung unter verwendung eines generators für spektrale gewichtungen
RU2663345C2 (ru) Устройство и способ масштабирования центрального сигнала и улучшения стереофонии на основе отношения сигнал-понижающее микширование
EP3044972B1 (de) Vorrichtung, verfahren und computerprogramm zur dekorrelation von lautsprechersignalen
Lopatka et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks
WO2015128379A1 (de) Kodierung und dekodierung eines niederfrequenten kanals in einem audiomultikanalsignal
DE102017121876A1 (de) Verfahren und vorrichtung zur formatumwandlung eines mehrkanaligen audiosignals

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R020 Patent grant now final

Effective date: 20110218