AT523644B1 - Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal - Google Patents

Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal Download PDF

Info

Publication number
AT523644B1
AT523644B1 ATA261/2020A AT2612020A AT523644B1 AT 523644 B1 AT523644 B1 AT 523644B1 AT 2612020 A AT2612020 A AT 2612020A AT 523644 B1 AT523644 B1 AT 523644B1
Authority
AT
Austria
Prior art keywords
audio signal
frequency
conversion
optimization
output audio
Prior art date
Application number
ATA261/2020A
Other languages
English (en)
Other versions
AT523644A4 (de
Inventor
Schörkhuber Christian
Original Assignee
Atmoky Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Atmoky Gmbh filed Critical Atmoky Gmbh
Priority to ATA261/2020A priority Critical patent/AT523644B1/de
Application granted granted Critical
Publication of AT523644A4 publication Critical patent/AT523644A4/de
Publication of AT523644B1 publication Critical patent/AT523644B1/de
Priority to PCT/AT2021/060401 priority patent/WO2022115888A1/de
Priority to US18/039,517 priority patent/US20230413000A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/006Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H7/00Measuring reverberation time ; room acoustic measurements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/07Generation or adaptation of the Low Frequency Effect [LFE] channel, e.g. distribution or signal processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/09Electronic reduction of distortion of stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

Die vorliegende Erfindung betrifft Verfahren für die Erzeugung eines Konvertierungsfilters (KF) für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignals (AA) in ein zweidimensionales Hör-Audiosignal (HA), aufweisend die folgenden Schritte: − Transformation eines zeitbasierten Ausgangs-Audiosignals (PAA) in ein frequenzbasiertes Ausgangs-Audiosignal (FAA), − Sequentielle Optimierung einer Basis-Konvertierungsmatrix (BKM) für die Konvertierung des frequenzbasierten Ausgangs-Audiosignals (FAA) in ein frequenzbasiertes Hör-Audiosignal (FHA) mittels eines ersten Optimierungsalgorithmus (KA1) vorzugsweise ausgehend von niedrigen Frequenzen aufsteigend zumindest bis zu einer Umschaltfrequenz (UF), − Sequentielle Optimierung der Basis-Konvertierungsmatrix (BKA) für die Konvertierung des frequenzbasierten Ausgangs-Audiosignals (FAA) in ein frequenzbasiertes Hör-Audiosignal (FHA) mittels eines zweiten Optimierungsalgorithmus (KA2) zumindest ausgehend von der Umschaltfrequenz (UF) vorzugsweise aufsteigend zu hohen Frequenzen, − Speichern der optimierten Basis-Konvertierungsmatrix (BKA) der Korrelation zwischen dem frequenzbasierten Ausgangs-Audiosignal (FAA) und dem frequenzbasierten Hör-Audiosignal (FHA) in einer frequenzbasierten Konvertierungsmatrix (FKM), − Rücktransformation der frequenzbasierten Konvertierungsmatrix (FKM) in eine zeitbasierte Konvertierungsmatrix (PKM) als Konvertierungsfilter (KF), wobei zumindest abschnittsweise, insbesondere vollständig von den niedrigen Frequenzen bis zur Umschaltfrequenz (UF) parallel der erste Optimierungsalgorithmus (KA1) und der zweite Optimierungsalgorithmus (KA2) durchgeführt werden, wobei der Unterschied zwischen den beiden Optimierungsergebnissen, insbesondere bezüglich desselben Fehlermaßes, als Optimierungsfehler des ersten Optimierungsalgorithmus (KA1) bestimmt wird.

Description

Beschreibung
VERFAHREN FÜR DIE ERZEUGUNG EINES KONVERTIERUNGSFILTERS FÜR EIN KONVERTIEREN EINES MULTIDIMENSIONALEN AUSGANGS-AUDIOSIGNALS IN EIN ZWEIDIMENSIONALES HOR-AUDIOSIGNAL
[0001] Die vorliegende Erfindung betrifft ein Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignals in ein zweidimensionales Hör-Audiosignal, ein Computerprogrammprodukt, umfassend Befehle zur Ausführung eines solchen Verfahrens sowie ein Konvertierungsverfahren, welches einen durch ein erfindungsgemäßes Verfahren erzeugten Konvertierungsfilter nutzt.
[0002] Es ist bekannt, dass aus multidimensionalen Ausgangs-Audiosignalen zweidimensionale Hör-Audiosignale erzeugt werden. So ist es beispielsweise bekannt, multidimensionale Mikrofonarrays zu verwenden, um multidimensionale Audioaufnahmen zu erzeugen. Beispielsweise können Mikrofonarrays mit einer Vielzahl von Mikrofonen bestückt werden, welche dann aus unterschiedlichen Aufnahmerichtungen zu einer Audioquelle, beispielsweise ein Musikkonzert, eine Vielzahl von einzelnen Dimensionen in einem multidimensionalen Ausgangs-Audiosignal kombinieren. Im Gegensatz zu bekannten Abspiellösungen, wie beispielsweise mit einer entsprechend multidimensionalen Abspielmöglichkeit, sind Abspielmöglichkeiten auf Kopfhörern auf zwei Abspielpositionen begrenzt. So werden Kopfhörer im oder am jeweiligen Ohr getragen und sind darauf beschränkt, links und rechts jeweils ein eindimensionales Audiosignal auszugeben.
[0003] Bekannte Lösungen sind nun darauf ausgerichtet aus den multidimensionalen AusgangsAudiosignalen zweidimensionale Hör-Audiosignale zu erzeugen, welche jedoch beim Abspielen trotz der zweidimensionalen Ausgabe in die Ohren des Benutzers einen räumlichen bzw. dreidimensionalen Höreffekt erzeugen sollen. Dieser räumliche bzw. multidimensionale Höreffekt soll dabei einem realen Hörerlebnis möglichst nahe kommen. Der Hörer der zweidimensionalen HörAudiosignale soll also beim Abhören das Gefühl erhalten, als würde er sich in dem Konzertsaal der entsprechenden Aufnahme des multidimensionalen Ausgangs-Audiosignals befinden.
[0004] Die bekannten Lösungen nutzen dafür die Konvertierung von multidimensionalen Ausgangs-Audiosignalen in zweidimensionale Hör-Audiosignale. Diese Konvertierung wird üblicherweise über Konvertierungsfilter geführt. Um diese Konvertierungsfilter zu erhalten, wird üblicherweise ein Konvertierungsalgorithmus verwendet, welcher in der Lage ist, aus einer Vielzahl von multidimensionalen Ausgangs-Audiosignalen mit hohem Rechenaufwand eine Vielzahl an zweidimensionalen Ziel-Hör-Audiosignalen zu erzeugen. Die Korrelation, welche durch diese Konvertierung unter Ausnutzung des Konvertierungsalgorithmus besteht, wird anschließend als Konvertierungsfilter gespeichert und bei der zukünftigen Umsetzung eines beliebigen Ausgangs-Audiosignals in das entsprechende Hör-Audiosignal eingesetzt. Bei der Umsetzung kann der Konvertierungsfilter in einer rechenarmen Weise eingesetzt werden. Eine nochmalige Verwendung des Konvertierungsalgorithmus ist dabei nicht mehr notwendig.
[0005] Andere bekannte Lösungen verwenden für die Konvertierung von multidimensionalen Ausgangs-Audiosignalen in zweidimensionale Hör-Audiosignale zusätzliche Eingangparameter. Beispielsweise zeigen US2007160218A1 ein Dekodieren von binauralen Audiosignalen und WO2007091842A1 eine Methode zum Enkodieren und Dekodieren von Signalen.
[0006] Weitere bekannte Lösungen verwenden Hallalgorithmen für die Konvertierung von Ausgangs-Audiosignalen in zweidimensionale Hör-Audiosignale. Beispielsweise zeigen die WO2014111829A1 eine binaurale Audioverarbeitung, EP2830043A2 eine Methode um ein Audiosignal bezüglich einer Raumimpulsantwort zu verarbeiten, WO2015103024A1 eine Methode um binaurale Impulsantworten zu entwerfen und anzuwenden und EP3402222A1 sowie US2019373397A1 das Generieren von binauralen Audiosignalen unter Verwendung von Feedback Delay Networks.
[0007] Nachteilhaft bei den bekannten Lösungen ist es, dass die eingesetzten Konvertierungsalgorithmen über den gesamten Frequenzbereich des Ausgangs-Audiosignals unterschiedliche
Qualität bei der Umsetzung in das Hör-Audiosignal mit sich bringen. Insbesondere bei tiefen Frequenzen sind die bekannten Konvertierungsalgorithmen mit guter Qualität ausgestattet, während bei hohen Frequenzen die Konvertierung relativ große Fehler aufweist. Dies führt dazu, dass je nach Frequenzabschnitt im Ausgangs-Audiosignal eine unterschiedlich gute Qualität der Konvertierung über den Konvertierungsfilter im Hör-Audiosignal ankommt.
[0008] Es ist Aufgabe der vorliegenden Erfindung, die voranstehend beschriebenen Nachteile zumindest teilweise zu beheben. Insbesondere ist es Aufgabe der vorliegenden Erfindung, in kostengünstiger und einfacher Weise das Hörerlebnis bei multidimensionalen Ausgangs-Audiosignalen zu verbessern.
[0009] Die voranstehende Aufgabe wird gelöst durch ein Verfahren mit den Merkmalen des Anspruchs 1, ein Computerprogrammprodukt mit den Merkmalen des Anspruchs 14 sowie ein Konvertierungsverfahren mit den Merkmalen des Anspruchs 15. Weitere Merkmale und Details der Erfindung ergeben sich aus den Unteransprüchen, der Beschreibung und den Zeichnungen. Dabei gelten Merkmale und Details, die im Zusammenhang mit dem erfindungsgemäßen Verfahren beschrieben sind, selbstverständlich auch im Zusammenhang mit dem erfindungsgemäßen Computerprogrammprodukt sowie dem erfindungsgemäßen Konvertierungsverfahren und jeweils umgekehrt, sodass bezüglich der Offenbarung zu den einzelnen Erfindungsaspekten stets wechselseitig Bezug genommen wird beziehungsweise werden kann.
[0010] Erfindungsgemäß dient ein Verfahren der Erzeugung eines Konvertierungsfilters für eine Konvertierung eines multidimensionalen Ausgangs-Audiosignals in ein zweidimensionales HörAudiosignal. Ein solches Verfahren weist die folgenden Schritte auf:
[0011] - Transformation eines zeitbasierten Ausgangs-Audiosignales in ein frequenzbasiertes Ausgangs-Audiosignal,
[0012] - Sequentielle Optimierung einer Basis-Konvertierungsmatrix des frequenzbasierten Ausgangs-Audiosignals in ein frequenzbasiertes Hör-Audiosignal mittels eines ersten Optimierungsalgorithmus vorzugsweise ausgehend von niedrigen Frequenzen aufsteigend zumindest bis zu einer Umschaltfrequenz,
[0013] - Sequentielle Optimierung der Basis-Konvertierungsmatrix des frequenzbasierten Ausgangs-Audiosignals in ein frequenzbasiertes Hör-Audiosignal mittels eines zweiten Optimierungsalgorithmus zumindest ausgehend von der Umschaltfirequenz vorzugsweise aufsteigend zu hohen Frequenzen,
[0014] - Speichern der optimierten Basis-Konvertierungsmatrix der Korrelation zwischen dem frequenzbasierten Ausgangs-Audiosignal und dem frequenzbasierten Hör-Audiosignal in einer frequenzbasierten Konvertierungsmatrix,
[0015] - Rücktransformation der frequenzbasierten Konvertierungsmatrix in eine zeitbasierte Konvertierungsmatrix als Konvertierungsfilter.
[0016] Ein erfindungsgemäßes Verfahren basiert auf der Grundidee, dass ein Ausgangs-Audiosignal in ein Hör-Audiosignal konvertiert wird und der Zusammenhang zwischen dem Konvertierungsergebnis und den Ausgangsdaten für die Konvertierung in einer im Rahmen des Verfahrens optimierten Konvertierungsmatrix gespeichert wird. Dieser gespeicherte Zusammenhang soll später, insbesondere mit Bezug auf das noch erläuterte Konvertierungsverfahren, dann als Konvertierungsfilter einer zukünftigen Konvertierung von multidimensionalen Ausgangs-Audiosignalen in zweidimensionale Hör-Audiosignale zugrunde gelegt werden. Unter zweidimensionalen Signalen sind insbesondere 2-kanalige Signale und unter multidimensionalen Signalen multikanalige Signale zu verstehen.
[0017] Als Ausgangs-Audiosignale sind hierbei sowohl virtuelle, als auch reale Audiosignale denkbar, welche den Ausgangspunkt für ein erfindungsgemäßes Verfahren bilden. Diese können beispielsweise auch als Ausgangsmatrix, als räumliche Übertragungsfunktion oder als positionsabhängige UÜbertragungsfunktion bezeichnet werden. Sie beziehen also durch die Multidimensionalität auch die Position einer virtuellen oder realen Audioquelle mit ein. Beispielsweise kann
ein solches Ausgangs-Audiosignal 70 Kanäle aufweisen, welche einem Mikrofonarray mit 70 Mikrofonen entsprechen. Weiter sind in diesem Ausgangs-Audiosignal als Ausgangspunkt für das erfindungsgemäße Verfahren beispielsweise für 1000 unterschiedliche Richtungen für die einzelnen Kanäle, also für jede Richtung 70 Kanäle, enthalten. In Summe beinhaltet bei diesem Beispiel das Ausgangs-Audiosignal eine Kombination aus 70 mal 1000 und damit 70.000 einzelnen Kanälen, welche somit nicht nur den zeitlichen Verlauf des Signals, sondern auch dessen unterschiedliche mögliche Ausrichtung zum Mikrofonarray berücksichtigen. Hier ist gut zu erkennen, das für das erfindungsgemäße Verfahren nicht zwingend reale Audiosignale eingesetzt werden müssen. Vielmehr sind auch virtuelle oder künstlich erzeugte Signale denkbar, welche die Korrelation der jeweiligen Position zum Mikrofonarray enthalten. Unter einem Ausgangs-Audiosignal ist im Rahmen der vorliegenden Erfindung also jede Form eines entsprechenden Messsignals zu verstehen. Das erfindungsgemäße Verfahren optimiert einen Basis-Zusammenhang in Form einer vorhandenen Basis-Konvertierungsmatrix in frequenzabhängiger Weise. Dabei kann, je nach verwendetem Konvertierungsalgorithmus auch eine leere Basis-Konvertierungsmatrix verwendet werden. Das Ergebnis des Verfahrens kombiniert diese Vielzahl der Ausgangs-Audiosignale in eine einzige optimierte multidimensionale Konvertierungsmatrix und speichert damit die Beziehung zwischen dem Ausgangs-Audiosignal inklusive deren Positionsabhängigkeit und dem HörAudiosignal inklusive seiner Positionsabhängigkeit in einer Konvertierungsmatrix als Ergebnis ab.
[0018] Bei einem erfindungsgemäßen Verfahren findet die Konvertierung in einem Transformationsraum statt. Hierfür wird ein zeitbasiertes Ausgangs-Audiosignal, also alle Einzeldimensionen dieses multidimensionalen Ausgangs-Audiosignals, aufweisend alle Richtungen, in einzelne frequenzbasierte Kanäle des Ausgangs-Audiosignals transformiert. Beispielsweise kann hier eine Fast Fourier Transformation stattfinden. Dieses frequenzbasierte Ausgangs-Audiosignal, also alle Einzelsignale des multidimensionalen Ausgangs-Audiosignals, werden anschließend von niedrigen Frequenzen aufsteigend konvertiert in ein frequenzbasiertes Hör-Audiosignal. Darunter ist zu verstehen, dass unter Verwendung einer Basis-Konvertierungsmatrix durch mathematische Operationen eine Konvertierung von der multidimensionalen Ausgestaltung des Ausgangs-Audiosignals in ein zweidimensional ausgestaltetes Hör-Audiosignal durchführt. Diese Konvertierung erfolgt im Rahmen des erfindungsgemäßen Verfahrens für alle erfassten Richtungen. Bei dem oben beschriebenen Beispiel mit 1000 Richtungen führt die Konvertierung zu 1000 zweikanaligen Ergebnissen, so dass das Hör-Audiosignal im Konvertierungsergebnis insgesamt in diesem Beispiel 2000 Einzelkanäle aufweist.
[0019] Um die Basis-Konvertierungsmatrix zu optimieren wird das Konvertierungsergebnis beispielsweise mit einem vorgegeben Hör-Audiosignal verglichen, welches zu dem verwendeten Ausgangs-Audiosignal gehört. Das Konvertierungsergebnis wird als Ist-Wert mit dem vorgegebenen Hör-Audiosignal als Soll-Wert und/oder bezüglich eines Fehlermaßes verglichen. Die Differenz dieser Werte wird als Konvertierungsfehler durch die beiden Optimierungsalgorithmen optimiert und damit reduziert. Dies kann durch einmalige Optimierung und/oder durch iterative Optimierung erfolgen. Im Ergebnis wird durch die Optimierung mit den Optimierungsalgorithmen die Basis-Konvertierungsmatrix solange in gezielter Weise verändert, dass der Fehler zwischen IstWert und Soll-Wert reduziert wird.
[0020] Die auf diese Weise optimierte Basis-Konvertierungsmatrix wird abschließend als frequenzbasierte Konvertierungsmatrix gespeichert.
[0021] Ein erfindungsgemäßer Kerngedanke wird nun dadurch gewährleistet, dass nicht wie bei den bekannten Lösungen ein einziger und einzelner Optimierungsalgorithmus eingesetzt wird, sondern eine Aufteilung auf zumindest zwei unterschiedliche Optimierungsalgorithmen erfolgt. Der erste Optimierungsalgorithmus unterscheidet sich dabei in der algorithmischen Umsetzung vom zweiten Optimierungsalgorithmus. Mit anderen Worten basiert der erste Optimierungsalgorithmus auf anderen mathematischen Grundlagen als der zweite Optimierungsalgorithmus. So ist es beispielsweise denkbar, dass ein Phasenbezug beim ersten Optimierungsalgorithmus durch das mathematische in Betrag setzen bei dem zweiten Optimierungsalgorithmus außer Kraft gesetzt wird. Jedoch ist es auch möglich, dass andere Unterschiede zwischen den Optimierungsalgorithmen vorliegen.
[0022] Erfindungsgemäß startet nun die Konvertierung vorzugsweise bei niedrigen Frequenzen. Bevorzugt wird bei der niedrigsten hörbaren Frequenz gestartet mit der Optimierung mithilfe des ersten Optimierungsalgorithmus. Um aus den frequenzbasieren Konvertierungsmatrizen die Konvertierungsfilter durch eine inverse Fourier Transformation zu erhalten, erfolgt die Optimierung auch für Frequenzen unterhalb bzw. oberhalb des Hörbereichs. Vorzugsweise Weise beginnt man bei 0 Hz und führt die Optimierung bis zu höchsten, im Signal enthaltenen Frequenz durch. Diese hängt von der Samplingrate der Signale ab und könnte auch weit oberhalb des hörbaren Bereichs liegen. Dieser erste Optimierungsalgorithmus wird nun entlang der Frequenzen aufsteigend die Basis-Konvertierungsmatrix optimieren, zumindest bis eine Umschaltfrequenz erreicht wurde. Diese Umschaltfrequenz kann, wie dies später noch erläutert wird, eine fest eingestellte Umschaltfrequenz sein. Jedoch sind auch variable Umschaltfrequenzen denkbar, welche durch zusätzliche Einflussparameter definiert werden, insbesondere während des Ablaufs eines erfindungsgemäßen Verfahrens. In Richtung der hohen Frequenzen wird zumindest ab der Umschaltfrequenz nun der zweite Optimierungsalgorithmus verwendet, um die Optimierung für die Konvertierung in das frequenzbasierte Hör-Audiosignal durchzuführen. Damit können nun zwei unterschiedliche Optimierungsalgorithmen in einer einzigen Optimierungsaufgabe kombiniert werden.
[0023] Dadurch, dass die Optimierung sequentiell in aufsteigender Richtung von niedrigen Frequenzen zu hohen Frequenzen erfolgt, können dabei unterschiedliche Qualitätsanforderungen und unterschiedliche Qualitätsspezifikationen der einzelnen Optimierungsalgorithmen berücksichtigt werden. So wird beispielsweise vorteilhafterweise der erste Optimierungsalgorithmus für niedrige Frequenzen eine hohe Optimierungsqualität, zum Beispiel in Form einer perzeptiven Qualität, aufweisen, während vorzugsweise der zweite Optimierungsalgorithmus für hohe Frequenzen eine gute Optimierungsqualität aufweist. Damit bleibt unerheblich, ob der erste Optimierungsalgorithmus bei hohen Frequenzen und/oder der zweite Optimierungsalgorithmus bei niedrigen Frequenzen eine gute Optimierungsqualität aufweist, da jeweils auf das Optimierungsergebnis des Optimierungsalgorithmus zurückgegriffen werden kann, welcher in dem jeweiligen Frequenzbereich mit einer hohen Optimierungsqualität arbeitet. Selbstverständlich ist auch der Einsatz von drei oder noch mehr Optimierungsalgorithmen im Rahmen der vorliegenden Erfindung denkbar. Die Rücktransformation erfolgt nun für alle optimierten Konvertierungsmatrizen, insbesondere wenn für unterschiedliche Frequenzen unterschiedliche optimierte Konvertierungsfrequenzen erzeugt worden sind.
[0024] Im Vergleich zu bekannten Lösungen ist es somit möglich, unterschiedliche Qualitätskriterien und eine unterschiedliche Optimierungsqualität für unterschiedliche Konvertierungsfrequenzen anzuwenden, sodass die Qualität über den gesamten zu konvertierenden Frequenzbereich im Vergleich zu den bekannten Lösungen mit einem einzigen Optimierungsalgorithmus erhöht werden kann. So ist insbesondere bei den hohen Konvertierungsfrequenzen mit einer verbesserten Qualität zu rechnen, sodass dementsprechend die gespeicherte Korrelation in der frequenzbasierten Konvertierungsmatrix von höherer Konvertierungsqualität ist. Dies führt dazu, dass nach der Rücktransformation in eine zeitbasierte Konvertierungsmatrix die entsprechende Konvertierungsqualität auch für den daraus entstehenden Konvertierungsfilter erhöht ist. Mit anderen Worten wird die durch ein erfindungsgemäßes Verfahren erzeugte Konvertierungsmatrix direkt oder indirekt als Konvertierungsfilter verwendet. Die mittels des Verfahrens bestimmten Zusammenhänge der unterschiedlichen Quellenrichtungen und deren Umsetzung bzw. Wirkung in einem zweidimensionalen Hör-Audiosignal sind demnach in dem Konvertierungsfilter durch die Optimierung hinterlegt, so dass dessen Anwendung auf eine Konvertierungsaufgabe ein besonders realistisches Hörerlebnis und/oder eine verbesserte Klangqualität ermöglicht.
[0025] Werden die Optimierungsalgorithmen, wie dies später noch näher erläutert wird, zumindest teilweise parallel eingesetzt, so können solche parallelen Ergebnisse auch gemeinsam in die Konvertierungsmatrix miteinfließen. Dies geschieht insbesondere unter Berücksichtigung maximal zulässiger Konvertierungsfehler, so dass die Qualität der Konvertierungsmatrix noch weiter verbessert werden kann.
[0026] Ein erfindungsgemäßes Verfahren führt also dazu, dass im Vergleich zu bekannten Lö-
sungen mit einem erhöhten Rechenaufwand durch den Einsatz von mindestens zwei unterschiedlichen Optimierungsalgorithmen eine erhöhte Konvertierungsqualität erzielbar ist. Diese erhöhte Konvertierungsqualität findet sich in der Konvertierungsmatrix und dem auf diese Weise erzeugten Konvertierungsfilter wieder, sodass bei der anschließenden rechenarmen Anwendung des Konvertierungsfilters in einem Konvertierungsverfahren eine verbesserte Konvertierungsqualität zu einem verbesserten Hörerlebnis bei den zweidimensionalen Hör-Audiosignalen erreicht wird.
[0027] Praktisch führt dies dazu, dass eine beliebig große Anzahl von multidimensionalen Ausgangs-Audiosignalen, beispielsweise in Form unterschiedlicher Lieder, Konzerte, Filmsound oder Gamesound, anschließend für den jeweiligen Nutzer in Form eines Hörers, durch den Konvertierungsfilter rechenarm in das zweidimensionale Hör-Audiosignal konvertiert werden kann und dabei ein verbessertes Hörerlebnis, insbesondere eine realistischeres dreidimensionales Hörerlebnis, erzielbar ist.
[0028] Dabei ist noch darauf hinzuweisen, dass ein erfindungsgemäßes Verfahren spezifisch für die jeweilige Mikrofonanordnung, also die verwendete Quelle des multidimensionalen AusgangsAudiosignals ist. Für jede Quelle ist also vorzugsweise eine spezifische Durchführung eines erfindungsgemäßen Verfahrens durchzuführen. Darüber hinaus ist ein auf diese Weise erzeugter Konvertierungsfilter spezifisch für eine Umsetzungsrate, welche auch als Head-Related Transfer Function (HRTF) bezeichnet werden. Diese HRTF Informationen können spezifisch für eine definierte Hörergruppe eingesetzt werden. Selbstverständlich ist es auch möglich, ein Profil für einen speziellen Hörer auszugestalten und die HRTF als Einzelprofil und damit als personenspezifisches Profil zu verwenden, um auf diese Person, dessen Hörgewohnheiten und dessen Hörgeometrie einen persönlich spezifizierten Konvertierungsfilter zur Verfügung zu stellen.
[0029] Basierend auf der voranstehenden Erläuterung wird nun ersichtlich, dass es in einfacher und kostengünstiger Weise möglich wird, die Qualität für das multidimensionale Hörerlebnis bei einem zweidimensionalen Hör-Audiosignal deutlich zu steigern.
[0030] Vorteile bringt es weiter mit sich, wenn bei einem erfindungsgemäßen Verfahren als Umschaltirequenz eine vordefinierte feste Umschaltfrequenz vorgegeben ist. So kann beispielsweise davon ausgegangen werden, dass in unterschiedlichen Frequenzbereichen die unterschiedlichen Optimierungsalgorithmen eine definierte und voneinander unterschiedliche Optimierungsqualität mit sich bringen. Durch dieses Wissen ist es nun möglich, die einzelnen Bereiche mit hoher Optimierungsqualität von den Bereichen mit niedriger Optimierungsqualität zu unterscheiden und die Grenzen mit der festen und vordefinierten Umschaltfrequenz vorzugeben. Somit erfolgt die Optimierung in einem erfindungsgemäßen Verfahren in einem bestimmten Frequenzbereich mit dem dafür am besten geeigneten Optimierungsalgorithmus, welcher in diesem Abschnitt, also bis zur entsprechenden Umschaltfrequenz und/oder von der entsprechenden Umschaltfrequenz ausgehend, die beste Optimierungsqualität mit sich bringt. Diese feste Vorgabe erlaubt es, parallele Optimierungen im Wesentlichen vollständig zu vermeiden, sodass trotz des hohen Rechenaufwandes und trotz des Einsatzes von unterschiedlichen Optimierungsalgorithmen der Rechenaufwand für die Durchführung eines erfindungsgemäßen Verfahrens minimiert werden kann.
[0031] Ebenfalls von Vorteil ist es, wenn bei einem erfindungsgemäßen Verfahren zumindest abschnittsweise, insbesondere vollständig von den niedrigen Frequenzen bis zur Umschaltfrequenz parallel der erste Optimierungsalgorithmus und der zweite Optimierungsalgorithmus durchgeführt werden, wobei der Unterschied zwischen den beiden Optimierungsergebnissen als Optimierungsfehler, insbesondere bezüglich desselben Fehlermaßes, des ersten Optimierungsalgorithmus bestimmt wird. So ist es möglich, dass die parallele Konvertierung sozusagen eine Qualitätsüberprüfung des ersten Optimierungsalgorithmus durch den zweiten Optimierungsalgorithmus darstellt. Dabei ist beispielsweise davon auszugehen, dass ein solcher zweiter Optimierungsalgorithmus entsprechend qualitativ besser arbeitet. Im Rahmen der vorliegenden Erfindung ist unter einer besseren Optimierung auch eine Optimierung eines anderen Fehlermaßes zu verstehen. Somit kann im Sinne der vorliegenden Erfindung ein Optimierungsalgorithmus als Kombination aus einem mathematischen Zusammenhang und einem Fehlermaß verstanden werden. Die beiden Optimierungsalgorithmen unterscheiden sich dabei durch wenigstens einen dieser
beiden Bestandteile, so dass der gleiche mathematische Zusammenhang für ein jeweils unterschiedliches Fehlermaß und/oder für ein identisches Fehlermaß ein unterschiedlicher mathematischer Zusammenhang verwendet werden kann. Dies führt dazu, dass der zweite Optimierungsalgorithmus, zum Beispiel durch einen höheren Rechenaufwand, so lange durchgeführt wird, bis eine Frequenz erreicht ist, bei welcher der zweite Optimierungsalgorithmus als maßgebendes Optimierungsergebnis ausschlaggebend wird, da der erste Optimierungsalgorithmus durch den sich erhöhenden Optimierungsfehler eine unzureichende Optimierungsqualität mit sich bringt. Auf diese Weise wird ab dem Erreichen eines maximal zulässigen Optimierungsfehlers eine flexible und damit variable Umschaltfrequenz definiert, welche es erlaubt, spezifisch für unterschiedliche Optimierungsaufgaben auch für diese Optimierungsaufgabe spezifische Umschaltfrequenzen automatisch zu setzen.
[0032] Vorteilhaft ist es, wenn bei einer Ausführungsform gemäß dem voranstehenden Absatz für die Speicherung in der frequenzbasierten Konvertierungsmatrix bis zum Erreichen einer vordefinierten Fehlergrenze als variable Umschaltirequenz das Ergebnis des ersten Optimierungsalgorithmus und ab dieser variablen Umschaltfrequenz das Ergebnis des zweiten Optimierungsalgorithmus gespeichert wird. Wie bereits im voranstehenden Absatz erläutert wurde, wird auf diese Weise ein flexibles Umschalten durch eine variabel angepasste Umschaltfrequenz möglich. Diese Variabilität führt zu einer weiteren Verbesserung des erfindungsgemäßen Optimierungsergebnisses und insbesondere dazu, dass die Optimierungsqualität und damit die Qualität des entstehenden Konvertierungsfilters verbessert werden kann.
[0033] Ebenfalls von Vorteil kann es sein, wenn bei einem Verfahren gemäß dem voranstehenden Absatz oberhalb der variablen Umschaltfrequenz nur der zweite Optimierungsalgorithmus angewendet wird. Dadurch, dass bei dieser Ausführungsform der zweite Optimierungsalgorithmus oberhalb der Umschaltfrequenz eine höhere Optimierungsqualität mit sich bringt, kann auf eine parallele Weiterkonvertierung mit dem ersten Optimierungsalgorithmus verzichtet werden. Der Rechenaufwand wird also reduziert, da der Frequenzbereich mit paralleler und damit doppelter Berechnung minimiert werden kann.
[0034] Ebenfalls vorteilhaft ist es, wenn bei einem erfindungsgemäßen Verfahren ausgehend von den niedrigen Frequenzen nur der erste Optimierungsalgorithmus bis zu einem Frequenzgrenzwert unterhalb der variablen Umschaltfrequenz verwendet wird. Darunter ist zu verstehen, dass von den niedrigen Frequenzen ausgehend zuerst ausschließlich der erste Optimierungsalgorithmus verwendet wird, ab einem Frequenzgrenzwert beide Optimierungsalgorithmen parallel betrieben werden und ab der Umschaltfrequenz vorzugsweise nur mehr der zweite Optimierungsalgorithmus weiter eingesetzt wird. Die doppelte Konvertierung und damit der doppelte Rechenaufwand wird also für die tiefen Frequenzen ebenfalls vermieden und damit eine weitere Reduktion der Rechenleistung bei der Durchführung eines erfindungsgemäßen Verfahrens möglich. Dieser Frequenzgrenzwert wird vorzugsweise auf Basis des Qualitätsmerkmals der einzelnen Optimierungsalgorithmen gesetzt mit einem vorzugsweise ausreichenden Abstand von der zu erwartenden variablen Umschaltfrequenz oder von einer fest vorgegebenen Umschaltfrequenz.
[0035] Weitere Vorteile sind erzielbar, wenn bei einem erfindungsgemäßen Verfahren auf Basis mehrerer erfolgter Optimierungen ein Bereich der variablen Umschaltfrequenzen dieser erfolgten Konvertierungen als erwartete Umschaltfrequenz gespeichert wird. Erfolgen mehrere Optimierungen von Audiosignalen, so stellt sich für jede dieser Optimierungen bei dieser Ausführungsform eine definierte Umschaltfrequenz ein. Diese Mehrzahl von definierten und sich einstellenden Umschaltfrequenzen definiert also einen Bereich, in dem bei den bereits erfolgten Optimierungsaufgaben die variable Umschaltfrequenz lag. Dieser Bereich kann nun mit hoher Wahrscheinlichkeit als ein Bereich angesehen werden, in welchem für zukünftige Optimierungsaufgaben die variable Umschaltfrequenz zu erwarten ist. Es kann insbesondere eine niedrigste zu erwartende variable Umschaltfrequenz und/oder eine höchste zu erwartende variable Umschaltirequenz angegeben werden. Die niedrigste zu erwartende Umschaltfrequenz kann beispielsweise als Frequenzgrenzwert verwendet werden, wie er im voranstehenden Absatz erläutert worden ist.
[0036] Vorteile bringt es darüber hinaus mit sich, wenn bei einem erfindungsgemäßen Verfahren
der erste Optimierungsalgorithmus phasenabhängig und der zweite Optimierungsalgorithmus phasenunabhängig ausgebildet sind. Die Rechenintensität eines phasenunabhängigen Optimierungsalgorithmus ist dabei üblicherweise höher als der eines phasenabhängigen Optimierungsalgorithmus. Aus mathematischer Sicht verwendet dabei der zweite Optimierungsalgorithmus beispielsweise eine betragsmäßige mathematische Betrachtung der jeweiligen Frequenzen in der Optimierungsaufgabe.
[0037] Vorteile bringt es weiter mit sich, wenn bei einem erfindungsgemäßen Verfahren für die beiden Optimierungsalgorithmen wenigstens einer der folgenden Spezifikationsparameter verwendet wird:
[0038] - Aufnahmeprofil spezifisch für die geometrische Aufnahmeanordnung, [0039] - Hörergruppenprofil spezifisch für eine bestimmte Hörergruppe, [0040] - Hörerpersonenprofil spezifisch für einen bestimmten Hörer.
[0041] Bei der voranstehenden Aufzählung handelt es sich um eine nicht abschließende Liste. Die Aufnahmeprofile können dabei zum Beispiel für die Anzahl der Mikrofone oder deren Ausrichtung spezifisch sein. Das Aufnahmeprofil ist also spezifisch für das jeweilige Mikrofonarray, welches die geometrische Aufnahmeanordnung darstellt. Dabei kann es sich um eine reale und/oder eine virtuelle Aufnahmeanordnung handeln. Hörergruppenprofile und/oder Hörerpersonenprofile können durch die bereits erläuterte HRTF (Head-Related Transfer Function) definiert werden. So können mehrere Hörer zu einer Hörergruppe zusammengefasst werden, aber auch eine für eine einzelne Person spezifische Durchführung eines erfindungsgemäßen Verfahrens möglich werden. Selbstverständlich können unterschiedliche Spezifikationsparameter auch miteinander kombiniert werden, um ein erfindungsgemäßes Verfahren durchzuführen.
[0042] Ebenfalls von Vorteil ist es, wenn bei einem erfindungsgemäßen Verfahren als AusgangsAudiosignal wenigstens teilweise ein real aufgenommenes multidimensionales Audiosignal verwendet wird. Wie bereits erläutert worden ist, können hier real vorhandene Aufnahmearrays in Form einer Vielzahl von definiert angeordneter und ausgerichteter Mikrofone verwendet werden. Diese können beispielsweise als künstlicher Kopf in einem Orchesterraum ein Konzert aufzeichnen und auf diese Weise real erzeugte Audiosignale einem erfindungsgemäßen Verfahren zugrunde legen.
[0043] Zusätzlich oder alternativ kann es Vorteile mit sich bringen, wenn das multidimensionale Ausgangs-Audiosignal wenigstens teilweise in Form eines digital erzeugten Audiosignals verwendet wird. Selbstverständlich können digital erzeugte und real aufgenommene Audiosignale auch miteinander kombiniert werden. Digital erzeugte Audiosignale können beispielsweise von Game Engines oder Movie Engines erzeugt werden und stellen multidimensionale Audiosituationen in Filmen oder in Computerspielen dar. Sie stellen also künstliche Audiosituationen nach, welche jedoch in gleicher Weise von einem erfindungsgemäßen Verfahren umgesetzt werden können.
[0044] Weitere Vorteile bringt es mit sich, wenn bei einem erfindungsgemäßen Verfahren das zweidimensionale Hör-Audiosignal als Links-Rechts-Audiosignal ausgebildet ist. Ein solches HörAudiosignal bezieht sich also auf die Ohren eines Nutzers und ist insbesondere für die Wiedergabe in einem Kopfhörer am Nutzer gedacht. Dabei findet eine Korrelation in räumlicher Weise auf die räumliche Links-Rechts-Anordnung der Ohren des Hörers statt, während die Konvertierung durchgeführt wird. Diese Links-Rechts-Anordnung wird zum Beispiel in einem entsprechenden Profil, insbesondere in Form eines HRTF, berücksichtigt.
[0045] Ebenfalls von Vorteil ist es, wenn bei einem erfindungsgemäßen Verfahren die Verfahrensschritte wenigstens zweimal für unterschiedliche Ausrichtungen des zweidimensionalen HörAudiosignals durchgeführt werden. Beispielsweise kann damit eine Bewegung oder unterschiedliche Ausrichtung des Kopfes des Hörers simuliert werden. So ist von einer geraden Ausrichtung und beispielsweise einer nach links und einer nach rechts rotierten Ausrichtung ausgehbar. Beispielsweise sind Rotationswinkel um eine Höhenachse von fünf Grad, zehn Grad oder mehr denkbar, sodass für eine Vielzahl unterschiedlicher Rotationswinkel entsprechend jeweils ein für den
Rotationswinkel spezifischer Konvertierungsfilter mittels eines erfindungsgemäßen Verfahrens erzeugt werden kann. Auf Basis einer Bestimmung des Rotationswinkels in der Hörsituation kann auf diese Weise ein für diesen gemessenen Winkel passender Konvertierungsfilter ausgewählt werden, um die Realitätstreue bei der Wiedergabe des zweidimensionalen Hör-Audiosignals noch weiter zu verbessern.
[0046] Ebenfalls Gegenstand der vorliegenden Erfindung ist ein Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte des erfindungsgemäßen Verfahrens durchzuführen. Damit bringt ein erfindungsgemäßes Computerprogrammprodukt die gleichen Vorteile mit sich, wie sie ausführlich mit Bezug auf ein erfindungsgemäßes Verfahren erläutert worden sind.
[0047] Ein weiterer Gegenstand der vorliegenden Erfindung ist ein Konvertierungsverfahren für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignals in ein zweidimensionales Hör-Audiosignal aufweisend den folgenden Schritt:
[0048] - Anwenden eines mittels eines Verfahrens der vorliegenden Erfindung erzeugten Konvertierungsfilters auf das Ausgangs-Audiosignal zur Konvertierung in das Hör-Audiosignal.
[0049] Damit bringt auch ein erfindungsgemäßes Konvertierungsverfahren die gleichen Vorteile mit sich, wie sie ausführlich mit Bezug auf ein erfindungsgemäßes Verfahren erläutert worden sind.
[0050] Weitere Vorteile, Merkmale und Einzelheiten der Erfindung ergeben sich aus der nachfolgenden Beschreibung, in der unter Bezugnahme auf die Zeichnungen Ausführungsbeispiele der Erfindung im Einzelnen beschrieben sind. Dabei können die in den Ansprüchen und in der Beschreibung erwähnten Merkmale jeweils einzeln für sich oder in beliebiger Kombination erfindungswesentlich sein. Es zeigen schematisch:
[0051] Fig. 1 eine Ausführungsform eines erfindungsgemäßen Konvertierungsverfahrens, [0052] Fig. 2 eine Ausführungsform bei der Aufnahme von Ausgangs-Audiosignalen, [0053] Fig. 3 eine Darstellung beim Abspielen von Hör-Audiosignalen,
[0054] Fig. 4 ein erster Schritt eines erfindungsgemäßen Verfahrens,
[0055] Fig. 5 ein weiterer Schritt eines erfindungsgemäßen Verfahrens,
[0056] Fig. 6 ein weiterer Schritt eines erfindungsgemäßen Verfahrens,
[0057] Fig. 7 eine Detaildarstellung eines Schritts eines erfindungsgemäßen Verfahrens,
[0058] Fig. 8 eine weitere Detaildarstellung eines Schritts eines erfindungsgemäßen Verfahrens und
[0059] Fig. 9 eine weitere Detaildarstellung eines Schritts eines erfindungsgemäßen Verfahrens.
[0060] In Figur 1 ist schematisch dargestellt, wie multidimensionale Ausgangs-Audiosignale AA in einer Vielzahl von einzelnen Datenlinien konvertiert werden können. Hierfür ist eine Konvertierungsvorrichtung 10 vorgesehen, welche in der Lage ist, mithilfe eines Konvertierungsfilters KF in rechenarmer Weise eine Umsetzung in ein zweidimensionales Hör-Audiosignal HA durchzuführen. Diese Umsetzung wird dabei unabhängig von den erläuterten Optimierungsalgorithmen KA1 und KA2 durchgeführt und führt zu zwei Audiosignalen für jeweils ein linkes und ein rechtes Ohr. Die Anwendung dieser Signale basiert auf einer multidimensionalen Aufnahme, wie sie zum Beispiel die Figur 2 zeigt.
[0061] Figur 2 zeigt schematisch ein Mikrofonarray als Aufnahmevorrichtung 20. Hier ist ein im Wesentlichen kugelförmiger Kunstkopf als Aufnahmevorrichtung 20 dargestellt, auf dessen Oberfläche eine Vielzahl einzelner Mikrofone 22 angeordnet ist. Jedes dieser einzelnen Mikrofone 22 nimmt nun in einer Aufnahmesituation eine Tonspur auf, wobei alle Tonspuren zusammen, rechts
in der Figur 2 dargestellt, das multidimensionale Ausgangs-Audiosignal AA ausbilden. Die tatsächliche Anordnung der Mikrofone 22 und die Gesamtgeometrie der Aufnahmevorrichtung 20 stellen die Spezifikation in Form eines Aufnahmeprofils AP dar.
[0062] In Figur 3 ist nun dargestellt, wie die Hörsituation sich darstellt. Ein schematisch dargestellter Kopf eines Hörers ist hier mit einem Kopfhörer als Wiedergabevorrichtung 30 ausgestattet. Diese Wiedergabevorrichtung 30 weist einen linken Kopfhörerausgang und einen rechten Kopfhörerausgang als Audioausgabemittel 32 auf. Als Spezifikation für das Hörprofil ist hier entweder ein Hörergruppenprofil HGP oder ein Hörpersonenprofil HPP spezifisch für eine Hörergruppe 0der den exakten Hörer hinterlegt. Wiedergegeben wird hier eine linke Tonspur und eine rechte Tonspur, welche bei dieser Umsetzung das zweidimensionale Hör-Audiosignal HA ausbilden.
[0063] Um nun rechenarm mithilfe des Konvertierungsfilters KF die Umsetzung in das notwendige zweidimensionale Hör-Audiosignal HA mittels eines Konvertierungsverfahrens durchführen zu können, wird vorher ein erfindungsgemäßes Verfahren durchgeführt.
[0064] Die Figur 4 zeigt, wie in einem ersten Schritt das zeitbasierte Ausgangs-Audiosignal PAA in ein frequenzbasiertes Ausgangs-Audiosignal FAA umgesetzt wird. Dabei kann es sich um ein reales Audiosignal oder um ein virtuelles Audiosignal handeln. Insbesondere sind für jeden Kanal mehrere Richtungen vorgesehen, so dass hier große Kanalzahlen von 1000 oder mehr eingesetzt werden. Dabei kann zum Beispiel eine Fast Fourier Transformation eingesetzt werden. Die Anzahl der Tonspuren für jede Richtung bleibt bei diesem ersten Transformationsschritt vorzugsweise gleich und damit unverändert.
[0065] Im nachfolgenden Schritt des erfindungsgemäßen Verfahrens erfolgt die eigentliche Konvertierung. Wie die Figur 5 darstellt, werden dabei mindestens zwei unterschiedliche Optimierungsalgorithmen KA1 und KA2 eingesetzt. Mithilfe der Basis-Konvertierungsmatrix erfolgt die Konvertierung in das frequenzbasierte Hör-Audiosignal FHA, hier schematisch mit zwei Kanälen für eine Richtung dargestellt. Werden beispielsweise 1000 Richtungen für das Verfahren verwendet entstehen durch diese Konvertierung entsprechend 2000 einzelne Kanäle für das frequenzbasierte Hör-Audiosignal FHA. Das Ergebnis der Anwendung der Optimierungsalgorithmen wird in der frequenzbasierten Konvertierungsmatrix FKM in Form der optimierten Basis-Konvertierungsmatrix BKM gespeichert.
[0066] Figur 6 zeigt den abschließenden Schritt, bei welcher aus der frequenzbasierten Konvertierungsmatrix FKM durch Rücktransformation eine zeitbasierte Konvertierungsmatrix PKM erzeugt wird, welche anschließend als Konvertierungsfilter KF in der Konvertierungsaufgabe eines Konvertierungsverfahrens eingesetzt werden kann.
[0067] Figur 7 zeigt eine Möglichkeit, wie die unterschiedlichen Optimierungsalgorithmen KA1 und KA2 eingesetzt werden können. Hier ist schematisch eine einzelne Tonspur des frequenzbasierten Ausgangs-Audiosignals FAA dargestellt. Für eine feste Umschaltfrequenz FUF als Umschaltirequenz UF ist nun eine scharfe Trennung vorgegeben, sodass ausgehend von der niedrigsten Frequenz zuerst sequentiell ausschließlich der erste Optimierungsalgorithmus KA1 eingesetzt wird. Bei Erreichen der Umschaltfrequenz UF schaltet das Verfahren nun auf den zweiten Optimierungsalgorithmus KA2 um, sodass für die höheren Frequenzen ab der festen Umschaltfrequenz FUF nun ausschließlich der zweite Optimierungsalgorithmus KA2 verwendet wird.
[0068] Die Figur 8 zeigt die beschriebene Möglichkeit einer komplett parallelen Durchführung der Optimierungsalgorithmen KA1 und KA2., Für die Speicherung in der jeweiligen frequenzbasierten Konvertierungsmatrix FKM wird jedoch nur das jeweils qualitätsmäßig bessere Optimierungsergebnis eingesetzt. Es erfolgt insbesondere ein Vergleich der Optimierungsergebnisse zu gleichen Frequenzen auf Basis der parallelen Durchführung der Optimierung.
[0069] Die Figur 9 zeigt nun eine Möglichkeit diese doppelte Konvertierung zu reduzieren, sodass beispielsweise zu Beginn der Konvertierung ausschließlich der erste Optimierungsalgorithmus KA1 verwendet wird. Uber einen gewissen Zeitraum in Form eines Frequenzbereichs erfolgt zum Beispiel ab einem Frequenzgrenzwert die parallele Erfassung, wobei ab dem UÜbersteigen des Optimierungsfehlers über eine vordefinierte Fehlergrenze die variable Umschaltfrequenz VUF
gesetzt wird. Ab dieser variablen Umschaltirequenz VUF wird nun ausschließlich der zweite Optimierungsalgorithmus KA2 gesetzt, sodass im Vergleich zur Ausführungsform der Figur 8 der Frequenzbereich, in welchem die parallele und damit doppelte Optimierung stattfinden muss, deutlich reduziert werden konnte.
[0070] Die voranstehende Erläuterung beschreibt die vorliegende Erfindung ausschließlich im Rahmen von Beispielen. Selbstverständlich können einzelne Merkmale der Ausführungsformen, sofern technisch sinnvoll, frei miteinander kombiniert werden, ohne den Rahmen der vorliegenden Erfindung zu verlassen.
BEZUGSZEICHENLISTE
10 Konvertierungsvorrichtung 20 Aufnahmevorrichtung
22 Mikrofon
30 Wiedergabevorrichtung 32 Audioausgabemittel
AP Aufnahmeprofil HGP Hörergruppenprofil
HPP Hörerpersonenprofil
KF Konvertierungsfilter
BKM Basis-Konvertierungsmatrix
FKM frequenzbasierte Konvertierungsmatrix PKM zeitbasierte Konvertierungsmatrix
KA1 erster Konvertierungsalgorithmus
KA2 zweiter Konvertierungsalgorithmus
AA Ausgangs-Audiosignal
PAA zeitbasiertes Ausgangs-Audiosignal
FAA frequenzbasiertes Ausgangs-Audiosignal HA Hör-Audiosignal
FHA frequenzbasiertes Hör-Audiosignal UF Umschaltfrequenz
FUF feste Umschaltfrequenz
VUF variable Umschaltfrequenz

Claims (14)

Patentansprüche
1. Verfahren für die Erzeugung eines Konvertierungsfilters (KF) für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignals (AA) in ein zweidimensionales Hör-Audiosignal (HA), aufweisend die folgenden Schritte:
- Transformation eines zeitbasierten Ausgangs-Audiosignals (PAA) in ein frequenzbasiertes Ausgangs-Audiosignal (FAA),
- Sequentielle Optimierung einer Basis-Konvertierungsmatrix (BKM) für die Konvertierung des frequenzbasierten Ausgangs-Audiosignals (FAA) in ein frequenzbasiertes Hör-Audiosignal (FHA) mittels eines ersten Optimierungsalgorithmus (KA1) vorzugsweise ausgehend von niedrigen Frequenzen aufsteigend zumindest bis zu einer Umschaltfrequenz (UF),
- Sequentielle Optimierung der Basis-Konvertierungsmatrix (BKA) für die Konvertierung des frequenzbasierten Ausgangs-Audiosignals (FAA) in ein frequenzbasiertes Hör-Audiosignal (FHA) mittels eines zweiten Optimierungsalgorithmus (KA2) zumindest ausgehend von der Umschaltfrequenz (UF) vorzugsweise aufsteigend zu hohen Frequenzen,
- Speichern der optimierten Basis-Konvertierungsmatrix (BKA) der Korrelation zwischen dem frequenzbasierten Ausgangs-Audiosignal (FAA) und dem frequenzbasierten Hör-Audiosignal (FHA) in einer frequenzbasierten Konvertierungsmatrix (FKM),
- Rücktransformation der frequenzbasierten Konvertierungsmatrix (FKM) in eine zeitbasierte Konvertierungsmatrix (PKM) als Konvertierungsfilter (KF),
wobei zumindest abschnittsweise, insbesondere vollständig von den niedrigen Frequenzen bis zur Umschaltfrequenz (UF) parallel der erste Optimierungsalgorithmus (KA1) und der zweite Optimierungsalgorithmus (KA2) durchgeführt werden, wobei der Unterschied zwischen den beiden Optimierungsergebnissen, insbesondere bezüglich desselben FehlermaBes, als Optimierungsfehler des ersten Optimierungsalgorithmus (KA1) bestimmt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass als Umschaltfrequenz (UF) eine vordefinierte feste Umschaltfrequenz (FUF) vorgegeben wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass für die Speicherung in der frequenzbasierten Konvertierungsmatrix (FKM) bis zum Erreichen einer vordefinierten Fehlergrenze als variable Umschaltfrequenz (VUF) das Ergebnis des ersten Optimierungsalgorithmus (KA1) und ab dieser variablen Umschaltfirequenz (VUF) das Ergebnis des zweiten Optimierungsalgorithmus (KA2) gespeichert wird.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass oberhalb der variablen Umschaltfrequenz (VUF) nur der zweite Optimierungsalgorithmus (KA2) angewendet wird.
5. Verfahren nach einem der Ansprüche 1, 3 und 4, dadurch gekennzeichnet, dass ausgehend von den niedrigen Frequenzen nur der erste Optimierungsalgorithmus (KA1) bis zu einem Frequenzgrenzwert unterhalb der variablen Umschaltirequenz (VUF) verwendet wird.
6. Verfahren nach einem der Ansprüche 1, 3 bis 5, dadurch gekennzeichnet, dass auf Basis mehrerer erfolgter Optimierungen ein Bereich der variablen Umschaltfirequenzen (VUF) dieser erfolgten Optimierungen als erwartete Umschaltfrequenz (UF) gespeichert wird.
7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass der erste Optimierungsalgorithmus (KA1) phasenabhängig und der zweite Optimierungsalgorithmus (KA2) phasenunabhängig ausgebildet sind.
8. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass für die beiden Optimierungsalgorithmen (KA1, KA2) wenigstens einer der folgenden Spezifikationsparameter verwendet wird:
- Aufnahmeprofil (AP) spezifisch für die geometrische Aufnahmeanordnung
- Hörergruppenprofil (HGP) spezifisch für eine bestimmte Hörergruppe - Hörerpersonenprofil (HPP) spezifisch für einen bestimmten Hörer
9. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass als Ausgangs-Audiosignal (AA) wenigstens teilweise ein real aufgenommenes multidimensionales Audiosignal verwendet wird.
10. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass als multidimensionales Ausgangs-Audiosignal (AA) wenigstens teilweise ein digital erzeugtes Audiosignal verwendet wird.
11. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das zweidimensionale Hör-Audiosignal (HA) als Links-Rechts-Audiosignal ausgebildet ist.
12. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Verfahrensschritte wenigstens zweimal für unterschiedliche Ausrichtungen des zweidimensionalen Hör-Audiosignals (HA) durchgeführt werden.
13. Computerprogrammprodukt, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen Veranlassen die Schritte des Verfahrens nach einem der Ansprüche 1 bis 12 auszuführen.
14. Konvertierungsverfahren für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignals (AA) in ein zweidimensionales Hör-Audiosignal (HA), aufweisend den folgenden Schritt:
- Anwenden eines mittels eines Verfahrens mit den Merkmalen eines der Ansprüche 1 bis 12 erzeugten Konvertierungsfilters (KF) auf das Ausgangs-Audiosignal (AA) zur Konvertierung in das Hör-Audiosignal (HA).
Hierzu 9 Blatt Zeichnungen
ATA261/2020A 2020-12-01 2020-12-01 Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal AT523644B1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
ATA261/2020A AT523644B1 (de) 2020-12-01 2020-12-01 Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
PCT/AT2021/060401 WO2022115888A1 (de) 2020-12-01 2021-11-03 Verfahren für die erzeugung eines konvertierungsfilters für ein konvertieren eines multidimensionalen ausgangs-audiosignals in ein zweidimensionales hör-audiosignal
US18/039,517 US20230413000A1 (en) 2020-12-01 2021-11-03 Method for generating a conversion filter for converting a multidimensional output audio signal into a two-dimensional audio signal for listening

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ATA261/2020A AT523644B1 (de) 2020-12-01 2020-12-01 Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal

Publications (2)

Publication Number Publication Date
AT523644A4 AT523644A4 (de) 2021-10-15
AT523644B1 true AT523644B1 (de) 2021-10-15

Family

ID=78049004

Family Applications (1)

Application Number Title Priority Date Filing Date
ATA261/2020A AT523644B1 (de) 2020-12-01 2020-12-01 Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal

Country Status (3)

Country Link
US (1) US20230413000A1 (de)
AT (1) AT523644B1 (de)
WO (1) WO2022115888A1 (de)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160218A1 (en) * 2006-01-09 2007-07-12 Nokia Corporation Decoding of binaural audio signals
WO2007091842A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
WO2014184353A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio processing apparatus and method therefor
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor
EP2830043A2 (de) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Verarbeitung eines Audiosignals in Übereinstimmung mit einer Raumimpulsantwort, Signalverarbeitungseinheit, Audiocodierer, Audiodecodierer und binauraler Renderer
WO2015103024A1 (en) * 2014-01-03 2015-07-09 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
EP3402222A1 (de) * 2014-01-03 2018-11-14 Dolby Laboratories Licensing Corporation Erzeugung eines binauralen tons in reaktion auf ein mehrkanalaudiosystem mit mindestens einem rückkopplungsverzögerungsnetzwerk
US20190373397A1 (en) * 2014-01-03 2019-12-05 Dolby Laboratories Licensing Corporation Generating Binaural Audio in Response to Multi-Channel Audio Using at Least One Feedback Delay Network

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070160218A1 (en) * 2006-01-09 2007-07-12 Nokia Corporation Decoding of binaural audio signals
WO2007091842A1 (en) * 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
WO2014184353A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio processing apparatus and method therefor
WO2014184706A1 (en) * 2013-05-16 2014-11-20 Koninklijke Philips N.V. An audio apparatus and method therefor
EP2830043A2 (de) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Verarbeitung eines Audiosignals in Übereinstimmung mit einer Raumimpulsantwort, Signalverarbeitungseinheit, Audiocodierer, Audiodecodierer und binauraler Renderer
WO2015103024A1 (en) * 2014-01-03 2015-07-09 Dolby Laboratories Licensing Corporation Methods and systems for designing and applying numerically optimized binaural room impulse responses
EP3402222A1 (de) * 2014-01-03 2018-11-14 Dolby Laboratories Licensing Corporation Erzeugung eines binauralen tons in reaktion auf ein mehrkanalaudiosystem mit mindestens einem rückkopplungsverzögerungsnetzwerk
US20190373397A1 (en) * 2014-01-03 2019-12-05 Dolby Laboratories Licensing Corporation Generating Binaural Audio in Response to Multi-Channel Audio Using at Least One Feedback Delay Network

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BREEBART J., et al.: "Spectral and Spatial Parameter Resolution Requirements for Parametric, Filter-Bank-Based HRTF Processing." In: Journal of the Audio Engineering Society, Vol.58, No.3, Seiten 126-140. AES Artikel, 3. April 2010 (03.04.2010). url:https://secure.aes.org/forum/pubs/journal/?elib=15246 *
COX T.J., LI F.F.: "Digital Signal Processing in Audio and Acoustical Engineering." 1. Aufl., Boca Raton, CRC, 2019. ISBN 978-1-4665-9388-6. Kapitel 7, Seiten 115-140. *

Also Published As

Publication number Publication date
AT523644A4 (de) 2021-10-15
WO2022115888A1 (de) 2022-06-09
US20230413000A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
DE10328335B4 (de) Wellenfeldsyntesevorrichtung und Verfahren zum Treiben eines Arrays von Lautsprechern
EP1977626B1 (de) Verfahren zur aufnahme einer tonquelle mit zeitlich variabler richtcharakteristik und zur wiedergabe
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
EP3005732B1 (de) Vorrichtung und verfahren zur raumselektiven audiowiedergabe
EP2891334B1 (de) Erzeugung von mehrkanalton aus stereo-audiosignalen
DE2244162A1 (de) Verfahren zur simulation der bei einer lautsprecherbeschallung auftretenden hoerereignisse mittels kopfhoerern
EP0905933A2 (de) Verfahren und Vorrichtung zum Mischen von Tonsignalen
EP1972181B1 (de) Vorrichtung und verfahren zur simulation von wfs-systemen und kompensation von klangbeeinflussenden wfs-eigenschaften
EP2754151B2 (de) Vorrichtung, verfahren und elektroakustisches system zur nachhallzeitverlängerung
DE10321980B4 (de) Vorrichtung und Verfahren zum Berechnen eines diskreten Werts einer Komponente in einem Lautsprechersignal
EP2457390A1 (de) Vorrichtung und verfahren zur optimierung stereophoner oder pseudostereophoner audiosignale
EP2357854B1 (de) Verfahren und Vorrichtung zur Erzeugung individuell anpassbarer binauraler Audiosignale
AT523644B1 (de) Verfahren für die Erzeugung eines Konvertierungsfilters für ein Konvertieren eines multidimensionalen Ausgangs-Audiosignal in ein zweidimensionales Hör-Audiosignal
CH703501A2 (de) Vorrichtung und Verfahren zur Auswertung und Optimierung von Signalen auf der Basis algebraischer Invarianten.
WO2022183231A1 (de) Verfahren zur erzeugung von audiosignalfiltern für audiosignale zur erzeugung virtueller schallquellen
EP2503799B1 (de) Verfahren und System zur Berechnung synthetischer Außenohrübertragungsfunktionen durch virtuelle lokale Schallfeldsynthese
DE10215775A1 (de) Verfahren zur räumlichen Darstellung von Tonquellen
DE102015104699A1 (de) Verfahren zur Analyse und Dekomposition von Stereoaudiosignalen
EP2571290B1 (de) Lokale Schallfeldsynthese durch einen virtuellen Streukörper
EP1900250B1 (de) Elektroakustisches verfahren
DE1297677B (de) Verfahren zur Umwandlung monofon oder unzureichend stereofon aufgenommener, gespeicherter oder uebertragener Toninformationen in eine zwei- oder mehrkanalige Toninformation stereofonen und raeumlichen Charakters und Einrichtungen zur Durchfuehrung des Ver-fahrens sowie eine Anwendung des Verfahrens
CH708710A1 (de) Ableitung von Multikanalsignalen aus zwei oder mehreren Grundsignalen.