EP2907324B1

EP2907324B1 - System und verfahren zur reduzierung der latenzzeit in transposerbasierten virtuellen basssystemen

Info

Publication number: EP2907324B1
Application number: EP13771123.0A
Authority: EP
Inventors: Per Ekstrand
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2012-10-15
Filing date: 2013-09-27
Publication date: 2016-11-09
Anticipated expiration: 2033-09-27
Also published as: JP5894347B2; JP2015531575A; WO2014060204A1; EP2720477B1; CN104704855A; CN104704855B; EP2720477A1; EP2907324A1

Claims

Verfahren zum Erzeugen eines virtuellen Basses mit geringer Latenz, das Folgendes umfasst:
Empfangen eines Eingangsaudiosignals;

Durchführen einer Oberschwingungstransposition an niedrigen Frequenzkomponenten des Audioeingangssignals, um transponierte Daten, die Oberschwingungen des Eingangsaudiosignals angeben, zu erzeugen;

Erzeugen eines virtuellen Basssignals als Antwort auf die transponierten Daten; und

Erzeugen eines verbesserten Audiosignals durch Kombinieren des virtuellen Basssignals mit einer verzögerten Version des Eingangsaudiosignals, wobei die Oberschwingungstransposition eine kombinierte Transposition unter Verwendung einer Basistransposition einer Ordnung B, die höher als 2 ist, verwendet, so dass die Oberschwingungen eine Oberschwingung zweiter Ordnung und mindestens eine Oberschwingung höherer Ordnung jeder der Niederfrequenzkomponenten umfasst, und dadurch gekennzeichnet, dass alle der Oberschwingungen als Antwort auf Frequenzbereichswerte, die von einer gemeinsamen Zeit-zu-Frequenzbereich-Transformationsstufe unter Verwendung eines asymmetrischen Analysefensters bestimmt werden, und eine anschließende Umkehrtransformation, die von einer gemeinsamen Frequenz-zu-Zeitbereich-Transformationsstufe unter Verwendung eines asymmetrischen Synthesefensters bestimmt wird, erzeugt werden.
Verfahren nach Anspruch 1, wobei das Audioeingangssignal ein Teilband-Komplexwert-Quadraturspiegelfilter-Signal (Teilband-CQMF-Signal) ist, das ein kritisch abgetastetes oder nahezu kritisch abgetastetes Niederfrequenz-Audio aus einem Satz von CQMF-Teilbandsignalen angibt.
Verfahren nach Anspruch 2, wobei das kritisch abgetastete oder nahezu kritisch abgetastete Niederfrequenz-Eingangsaudio ein CQMF-Kanal-O-Signal ist, das das niedrigste Frequenzband aus einem Satz von CQMF-Teilbandsignalen angibt.
Verfahren nach Anspruch 3, das ferner Folgendes umfasst:
Erzeugen von transponierten Daten aus Niederfrequenzkomponenten durch Durchführen einer überabgetasteten Frequenzbereichstransformation an dem Eingangsaudiosignal durch Erzeugen asymmetrisch gefensterter, mit Nullen aufgefüllter Samples und Durchführen einer Zeit-zu-Frequenzbereich-Transformation an den asymmetrisch gefensterten, mit Nullen aufgefüllten Samples, und anschließend Durchführen einer nichtlinearen Operation an der Ausgabe aus der Zeit-zu-Frequenzbereich-Transformation, um die transponierten Daten aus den Niederfrequenzkomponenten zu erzeugen;

Erzeugen von zwei Sätzen von Frequenzkomponenten aus den Frequenzkomponenten, die durch die nichtlineare Operation verarbeitet werden, durch Aufteilen in einen ersten Satz von Frequenzkomponenten in einem ersten Frequenzband und einen zweiten Satz von Frequenzkomponenten in einem zweiten Frequenzband; und

ferner Durchführen einer ersten Frequenz-zu-Zeitbereich-Transformation an dem ersten Satz von Frequenzkomponenten und einer zweiten Frequenz-zu-Zeitbereich-Transformation an dem zweiten Satz von Frequenzkomponenten, wobei die erste Frequenz-zu-2eitbereich-Transformation und die zweite Frequenz-zu-Zeitbereich-Transformation jeweils Transformationsgrößen aufweisen, die B-mal kleiner als die Zeit-zu-Frequenzbereich-Transformation sind; und

ferner Anwenden von asymmetrischen, mit Nullen aufgefüllten Fenstern auf die Samples aus den Frequenzzu-Zeitbereich-Transformationen, wobei die asymmetrischen, mit Nullen aufgefüllten Fenster B-mal kürzer als die asymmetrischen, gefensterten, mit Nullen aufgefüllten Samples sind, die aus dem Audioeingangssignal erzeugt werden, wodurch zwei Sätze von transponierten Daten gebildet werden.
Verfahren nach Anspruch 4, wobei das erste Frequenzband das Frequenzband des CQMF-Kanals 0 und das zweite Frequenzband das Frequenzband des CQMF-Kanals 1 aus einem Satz von CQMF-Teilbandsignalen ist,
wobei das Erzeugen eines virtuellen Basssignals als Antwort auf die transponierten Daten umfasst, dass eine Analysefilterbank auf eine oder beide der zwei Sätze von transponierten Daten angewendet wird, wobei die Analysefilterbank eine gestutzte Version eines symmetrischen Filters umfasst.
Verfahren nach Anspruch 1, wobei die verzögerte Version des Eingangsaudiosignals um eine vordefinierte Zeitspanne kürzer als die Latenzzeit des virtuellen Basssignals ist und das verbesserte Audiosignal ein zeitverschobenes virtuelles Basssignal angibt.
Verfahren nach Anspruch 3, wobei der Audioeingangs-CQMF-Kanal 0 direkt aus der Analyse-CQMF-Bank-Ausgabe einer Vorverarbeitungs-Hybrid-Filterbank-Stufe empfangen wird, wobei die Nyquist-Analysefilterbank der Vorverarbeitungs-Hybrid-Filterbank-Stufe umgangen wird.
Vorrichtung zum Erzeugen eines virtuellen Basses mit geringer Latenz, die Folgendes umfasst:
eine erste Komponente, die zum Empfangen eines Eingangsaudiosignals und zum Durchführen einer Oberschwingungstransposition an niedrigen Frequenzkomponenten des Audioeingangssignals, um transponierte Daten, die Oberschwingungen des Eingangsaudiosignals angeben, zu erzeugen, ausgelegt ist;

eine zweite Komponente, die zum Erzeugen eines virtuellen Basssignals als Antwort auf die transponierten Daten und zum Kombinieren des virtuellen Basssignals mit einer verzögerten Version des Eingangsaudiosignals, um ein verbessertes Audiosignal zu erzeugen, ausgelegt ist, wobei die Oberschwingungstransposition eine kombinierte Transposition unter Verwendung einer Basistransposition einer Ordnung B, die höher als 2 ist, verwendet, so dass die Oberschwingungen eine Oberschwingung zweiter Ordnung und mindestens eine Oberschwingung höherer Ordnung jeder der Niederfrequenzkomponenten umfasst, und dadurch gekennzeichnet, dass alle der Oberschwingungen als Antwort auf Frequenzbereichswerte, die von einer gemeinsamen Zeit-zu-Frequenzbereich-Transformationsstufe unter Verwendung eines asymmetrischen Analysefensters bestimmt werden, und eine anschließende Umkehrtransformation, die von einer gemeinsamen Frequenz-zu-Zeitbereich-Transformationsstufe unter Verwendung eines asymmetrischen Synthesefensters bestimmt wird, erzeugt werden.
Vorrichtung nach Anspruch 8, wobei das Audioeingangssignal ein Teilband-Komplexwert-Quadraturspiegelfilter-Signal (Teilband-CQMF-Signal) ist, das ein kritisch abgetastetes oder nahezu kritisch abgetastetes Niederfrequenz-Audio aus einem Satz von CQMF-Teilbandsignalen angibt.
Vorrichtung nach Anspruch 9, wobei das kritisch abgetastete oder nahezu kritisch abgetastete Niederfrequenz-Eingangsaudio ein CQMF-Kanal-0-Signal ist, das das niedrigste Frequenzband aus einem Satz von CQMF-Teilbandsignalen angibt.
Vorrichtung nach Anspruch 10, die ferner Folgendes umfasst:
eine dritte Komponente, die zum Erzeugen von transponierten Daten aus Niederfrequenzkomponenten durch Durchführen einer überabgetasteten Frequenzbereichstransformation an dem Eingangsaudiosignal durch Erzeugen asymmetrisch gefensterter, mit Nullen aufgefüllter Samples und Durchführen einer Zeit-zu-Frequenzbereich-Transformation an den asymmetrisch gefensterten, mit Nullen aufgefüllten Samples und zum anschließenden Durchführen einer nichtlinearen Operation an der Ausgabe aus der Zeit-zu-Frequenzbereich-Transformation, um die transponierten Daten aus den Niederfrequenzkomponenten zu erzeugen, ausgelegt ist;

eine vierte Komponente, die zum Erzeugen von zwei Sätzen von Frequenzkomponenten aus den Frequenzkomponenten, die durch die nichtlineare Operation verarbeitet werden, durch Aufteilen in einen ersten Satz von Frequenzkomponenten in einem ersten Frequenzband und einen zweiten Satz von Frequenzkomponenten in einem zweiten Frequenzband ausgelegt ist; und

eine fünfte Komponente, die ferner zum Durchführen einer ersten Frequenz-zu-Zeitbereich-Transformation an dem ersten Satz von Frequenzkomponenten und einer zweiten Frequenz-zu-Zeitbereich-Transformation an dem zweiten Satz von Frequenzkomponenten ausgelegt ist, wobei die erste Frequenz-zu-Zeitbereich-Transformation und die zweite Frequenz-zu-Zeitbereich-Transformation jeweils Transformationsgrößen aufweisen, die B-mal kleiner als die Zeit-zu-Frequenzbereich-Transformation sind; und

eine sechste Komponente, die ferner zum Anwenden von asymmetrischen, mit Nullen aufgefüllten Fenstern auf die Samples aus den Frequenz-zu-Zeitbereich-Transformationen ausgelegt ist, wobei die asymmetrischen, mit Nullen aufgefüllten Fenster B-mal kürzer als die asymmetrischen, gefensterten, mit Nullen aufgefüllten Samples sind, die aus dem Audioeingangssignal erzeugt werden, wodurch zwei Sätze von transponierten Daten gebildet werden.
Vorrichtung nach Anspruch 11, wobei das erste Frequenzband das Frequenzband des CQMF-Kanals 0 und das zweite Frequenzband das Frequenzband des CQMF-Kanals 1 aus einem Satz von CQMF-Teilbandsignalen ist, wobei das Erzeugen eines virtuellen Basssignals als Antwort auf die transponierten Daten umfasst, dass eine Analysefilterbank auf eine oder beide der zwei Sätze von transponierten Daten angewendet wird, wobei die Analysefilterbank eine gestutzte Version eines symmetrischen Filters umfasst.
Vorrichtung nach Anspruch 8, die ferner Folgendes umfasst:
eine Zeitkomponente, die zum Erzeugen einer Version des Eingangsaudiosignals ausgelegt ist, die um eine vorgegebene Zeitspanne verzögert ist, die kürzer als die Latenzzeit des virtuellen Basssignals ist; und

eine Mischkomponente, die zum Kombinieren des virtuellen Basssignals mit dem verzögerten Eingangsaudiosignal ausgelegt ist, um ein verbessertes Audiosignal zu erzeugen, das ein zeitverschobenes virtuelles Basssignal angibt.
Vorrichtung nach Anspruch 10, die ferner eine Schnittstellenkomponente umfasst, die zum Empfangen des Audioeingangs-CQMF-Kanals 0 direkt aus der Analyse-CQMF-Bank-Ausgabe einer Vorverarbeitungs-Hybrid-Filterbank-Stufe ausgelegt ist, wobei die Nyquist-Analysefilterbank der Vorverarbeitungs-Hybrid-Filterbank-Stufe umgangen wird.
Computerlesbares Speichermedium, das ausführbare Computerprogrammbefehle zum Ausführen eines Verfahrens nach einem der Ansprüche 1-7, wenn sie auf einem Computer durchgeführt werden, speichert.