EP4047595B1

EP4047595B1 - Verfahren zur erstellung einer gruppe von phasenkohärenten samples für ein virtuelles instrument

Info

Publication number: EP4047595B1
Application number: EP22153060.3A
Authority: EP
Inventors: Alexander Paprotny
Original assignee: E Instruments Lab GmbH
Current assignee: E Instruments Lab GmbH
Priority date: 2021-02-23
Filing date: 2022-01-24
Publication date: 2024-08-14
Anticipated expiration: 2042-01-24
Also published as: EP4047595C0; EP4047595A1

Description

Die vorliegende Erfindung betrifft phasenkohärente Samples, deren Nutzung in einem virtuellen Instrument, das virtuelle Instrument, und das Verfahren zur Erzeugung der Samples.
Das Abspielen mehrerer Samples in einem virtuellen Instrument ist beispielsweise aus der US 9, 805, 702 B1 bekannt.
Aus der US 2012/0243711 A1 ist ein Mixer mit mehreren Eingängen bekannt, auf die unterschiedliche aber statische Verzögerungen angewandt werden, um Laufzeitunterschiede zwischen Tonerzeuger zu den unterschiedlichen Mikrophonen zu kompensieren. Die Verzögerungen werden dabei automatisch bestimmt. Dazu wird ein einzelner Testton erzeugt, anhand dessen die Laufzeitunterschiede einmalig bestimmt und festgelegt werden.
Zudem ist es aus der US 2017/0372711 A1 ein (Re-)Syntheseverfahren, das also nicht mit Samples arbeitet. Dazu weist es einen Wellenformspeicher auf, in dem komprimiert Wellenformen gespeichert sind. Mehrere Tonerzeugungskanäle lesen jeweils eine Wellenform aus dem Speicher aus. Sofern ein von der gespeicherten Wellenform abweichender Pitch eingestellt ist, wird die Auslesegeschwindigkeit entsprechend angepasst bzw. werden durch lineare Interpolation entsprechende Zwischenwerte erzeugt. Dazu verwendet es für das Cross-fade zwischen mehreren Tonerzeugungskanäle einen Phasenzähler um die Dynamik des Cross-fades zu steuern.
Die JP 2001100756 A offenbart die einmalige Berechnung eines mittleren statischen Phasenversatzes über einen zeitlichen Teilabschnitt der Audiospuren auf Basis dessen ein einkanaliges Signal relativ zu einem einkanaligen Referenzsignal verschoben und dadurch das Referenzsignal zum einkanaligen Signal im Mittel phasenkohärenter ausgestaltet wird.
Aus der WO 2018/055892 A1 ist es zudem bekannt, ein Schlaginstrumentton zu synthetisieren. Dabei wird auf gespeicherte Wellenformen für unterschiedliche Schläge zurückgegriffen, die kombiniert werden. Dabei werden die Wellenformen jeweils in verschiedene Komponenten zerlegt gespeichert und zwar in einen Anteil, der Pitchhüllkurvendaten und Amplitudenhüllkurvendaten und Phasenstartwerte einer oder mehrerer Sinusanteile enthält und einen Restanteil. Die Daten der Sinusanteile der zu kombinierenden Töne werden bei einer Erstellung der für die Erzeugung zu verwendenden gewichtet gemischten Pitchhüllkurvendaten, Amplitudenhüllkurvendaten und Phasenstartwerte so verrechnet, dass eine negative Überlagerung ausgeschlossen ist. Sodann werden auf den gewichtet gemischten Pitchhüllkurvendaten, Amplitudenhüllkurvendaten und Phasenstartwerten basierend die Sinusanteile erzeugt und mit den gemischten Restanteilen vermischt. So kann eine auslöschende Überlagerung der Sinusanteile verhindert werden. Eine auslöschende Überlagerung nur der Restanteile wird vom Hörer weniger negative empfunden.
Aus der DE 4008872 A1 ist ein Verfahren zur Speicherung und Synthese bekannt, bei dem Klänge aus einzelnen Klangmerkmalen zusammengesetzt werden, die in Form von Abtastwerten digital abgespeichert sind und die gesteuert ausgelesen werden, einer Abtastratenwandlung unterworfen werden, sodass alle Klangmerkmale mit einer einheitlichen Systemabtastrate zur Verfügung stehen, und dann zusammengesetzt werden. Dadurch lässt sich die Tonhöhe beim Abspielen variieren. Man nutzt dabei die Tatsache aus, dass bei den vielen Klangmustern, die in dem Speicher abgelegt sind, gewisse Gemeinsamkeiten vorherrschen, die beispielsweise das charakteristische Klangbild eines Instruments bestimmen, um Speicherplatz einzusparen. Das Mischen der Klangmerkmale erfolgt dann so, dass sie zum Beginn des Abspielens eine vordefinierte Phasenbeziehung aufweisen. Aus dem Stand der Technik ist ferner die US4779505A bekannt.
Bei virtuellen Musikinstrumenten auf Samplebasis besteht bei kontinuierlichen Übergängen zwischen Samples auf unterschiedlichen Dynamikstufen eines realen Instruments das Problem, dass es aufgrund von Phaseninkohärenz zwischen den Samples zu Kammfilterartefakten kommen oder psychoakustisch gar der Eindruck von zwei unisono spielenden Instrumenten entstehen kann. Derartige Pathologien wirken sich stets negativ auf den in der Regel angestrebten realistischen Klangeindruck aus. Zu Beseitigung der Artefakte ist eine dynamische Angleichung der Phasen der betroffenen Signale erforderlich, was technologisch jedoch eine erhebliche Herausforderung darstellt, wenn es sich um räumliche und/oder mehrkanalig aufgezeichnete Signale handelt.
Auf dem Markt für virtuelle Musikinstrumente sind zudem Lösungen zur Vermeidung oben geschilderter Probleme bekannt, die lediglich für anechoisch ("trocken") und einkanalig aufgezeichnete Signale geeignet sind. Auch ist es bekannt, für räumliche und mehrkanalige Signalen die Phasenkohärenz auf Kosten des originären Signalverlaufs herzustellen, indem die Signale modelliert und vollständig resynthetisiert werden. Dabei gehen natürliche Phasenschwankungen sowie zeitdynamische Veränderungen des Obertonspektrums verloren, was sich erheblich zu Lasten eines natürlichen, organischen und realistischen Klangeindrucks auswirkt.
Aufgabe ist es, diese Nachteile zu vermeiden und dennoch eine Lösung für kontinuierliche Übergänge zwischen Samples auf unterschiedlichen Dynamikstufen eines realen Instruments zu ermöglichen, ohne Kammfilterartefakten oder den psychoakustischen Eindruck von zwei unisono spielenden Instrumenten in Kauf zu nehmen und dabei natürliche Phasenschwankungen sowie zeitdynamische Veränderungen des Obertonspektrums zu erhalten.
Das hier vorgestellte Verfahren bietet eine Lösung für die genannten Probleme ohne Rückgriff auf Resynthesetechniken: Indem lediglich die Abspielgeschwindigkeit der Originalsignale moduliert wird, bleiben natürliche Phasen- sowie Obertonspektrumsschwankungen erhalten. Das Vorgehen ist demnach minimalinvasiv. Mehrkanalige und räumliche Signale können problemlos in eine phasenkohärente Form gebracht werden, wobei zusätzlich relative Phasenbeziehungen, etwa zwischen verschiedenen simultanen Mikrofonpositionen bei multimikrofonierten Aufnahmen, erhalten bleiben. Darüber hinaus kann das Verfahren auch auf einer gebrauchsüblichen sequenziellen Rechnerarchitektur als Echtzeitprozessor mit moderatem Rechenaufwand implementiert werden, was beispielsweise einen Einsatz als Plugin in einer digitalen Audioverarbeitungssoftware oder als Bordeffekt in einer Sampler-Engine ermöglicht.
Gelöst wird die Aufgabe insbesondere durch ein Verfahren zur Erstellung einer Gruppe phasenkohärenter Audioquellen, insbesondere Audiosignale oder Samples, umfassend:

Bereitstellen mindestens jeweils einer Eingangsaudioquelle zweier Tonerereignisse, der gleichen Tonhöhe eines realen Musikinstruments,
Auswählen eines Audiosignals, insbesondere eine der Eingangsaudioquellen, als Referenzsample,
Vergleich des Phasenverlaufs des Referenzsamples mit dem Phasenverlauf mindestens einer (weiteren) der Eingangsaudioquellen über insbesondere mindestens 500ms Audioquellendauer des Referenzsamples zur Erzeugung eines Verlaufes eines über die Zeit variierenden Phasenbeziehungswertes,
Verändern der Geschwindigkeit und/oder Zeitbasis der mindestens einen (weiteren) Eingangsaudioquelle über eine Dauer der weiteren Eingangsaudioquelle von insbesondere mindestens 500ms auf Basis des Verlaufs des Phasenbeziehungswertes, wobei die Geschwindigkeit und/oder Zeitbasis über die Dauer von insbesondere mindestens 500ms variierend abhängig vom Verlauf des Phasenbeziehungswertes verändert wird.

Dabei weist der Verlaufs des Phasenbeziehungswertes insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10ms, auf und/oder wird die Änderung der Geschwindigkeit und/oder Zeitbasis pro 100 ms, insbesondere pro 10ms, mindestens einmal geändert.
Unter Zeitbasis ist insbesondere die zeitliche Zuordnung der einzelnen Samplewerte des Samples und/oder Audioquelle zu verstehen.
Unter einer Eingangsaudioquelle wird insbesondere eine Audioquelle verstanden, die durch das Verfahren bearbeitet wird und/oder als Referenz für die Bearbeitung mindestens einer anderen Audioquellen durch das Verfahren verwendet wird.
Gelöst wird die Aufgabe auch durch ein Verfahren zum zeitgleichen Abspielen mindestens jeweils eines Samples zweier Tonerereignisse von mindestens 500ms Länge der gleichen Tonhöhe eines realen Instruments, wobei die Samples jeweils insbesondere über mindestens 500ms und zumindest teilweise zeitgleich phasenkohärent abgespielt werden.
Ebenfalls gelöst wird die Aufgabe durch ein virtuelles Instrument, insbesondere in VST-, AU- oder AAX-Plugin aufweisend mindestens eine Gruppe phasenkohärenter Samples und/oder eingerichtet zur Erzeugung solcher, wobei die Gruppe mindestens zwei Samples jeweils eines Tonerereignisse von insbesondere mindestens 500ms Länge der gleichen Tonhöhe eines realen Musikinstruments umfassend.
Dabei ist das virtuelle Instrument eingerichtet, mindestens zwei der phasenkohärenter Samples gleicher Tonhöhe zumindest teilweise gleichzeitig und phasenkohärent abzuspielen, wobei die Samples eine Länge insbesondere von mindestes 500ms aufweisen, in denen sie sich nicht wiederholen.
Dabei weist bevorzugt mindestens ein Sample der Gruppe eine über dessen Zeitverlauf variierende Geschwindigkeitsänderung auf und/oder ist mindestens ein Sample der Gruppe ein bearbeitetes Sampling, das ein RMS über seine zeitliche Länge, insbesondere ohne Ein- und Ausschwingzeiten, über die auf die mittlere Periode im Intervall normalisierten Abweichungen von der mittleren Periode des Intervalls und/oder von der Periode eines Referenzsamples aus der Gruppe von Samples von weniger als 75% des ebenso über den gleichen Zeitraum bestimmten RMS des unbearbeiteten Samples, aus dem das bearbeite Sampling hervorgegangen ist und/oder des mittels eines statischen Zeitversatzes korrigierten Samples, aus dem das bearbeite Sampling hervorgegangen ist, aufweist.
Dies trifft insbesondere für eine Mehrzahl der Samplings der Gruppe und/oder alle Samplings der Gruppe und/oder alle Samplings der Gruppe abgesehen vom Referenzsampling zu.
Die variierende Geschwindigkeitsänderung weist insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10 ms, auf.
Das virtuelle Instrument ist dabei insbesondere in Form einer Software und/oder Computerprogramm auf einem Datenträger gespeichert und/oder in Form eines Computers, der als virtuelles Instrument eingerichtet ist und/oder ein solches als Computerprogramm aufweist, ausgebildet.
Ebenfalls gelöst wird die Aufgabe durch ein System, insbesondere ein Hard- und Softwaresystem, aufweisend mindestens eine CPU und einen Speicher, eingerichtet zur Ausführung eines erfindungsgemäßen Verfahrens.
Gelöst wird die Aufgabe auch durch einen Signalprozessor mit mindestens zwei Eingängen für Audiosignale und mindestens zwei Ausgänge für Audiosignale und eingerichtet, die an den Audioeingängen anliegenden zu samplen und mit den erzeugten Samples das erfindungsgemäße Verfahren durchzuführen und die phasenkohärenten Samples an den Ausgängen auszugeben.
Gelöst wird die Aufgabe auch durch eine Gruppe von phasenkohärenter Samples unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments, wobei die Samples eine Länge von insbesondere mindestes 500ms aufweisen, in denen sie phasenkohärent sind und sich nicht wiederholen.
Dabei weist bevorzugt mindestens ein Sample der Gruppe eine über dessen Zeitverlauf variierende Geschwindigkeitsänderung auf und/oder ist mindestens ein Sample der Gruppe ein bearbeitetes Sampling, das ein über seine zeitliche Länge, insbesondere ohne Ein- und Ausschwingzeiten, bestimmtes RMS über die auf die mittlere Periode im Intervall normalisierten Abweichungen von der mittleren Periode des Intervalls und/oder von der Periode eines Referenzsamples aus der Gruppe von Samples von weniger als 75% des ebenso über den gleichen Zeitraum bestimmten RMS des unbearbeiteten Samples, aus dem das bearbeite Sampling hervorgegangen ist und/oder des mittels eines statischen Zeitversatzes korrigierten Samples, aus dem das bearbeite Sampling hervorgegangen ist, aufweist.
Dies trifft insbesondere für eine Mehrzahl der Samplings der Gruppe und/oder all Samplings der Gruppe und/oder alle Samplings der Gruppe abgesehen vom Referenzsampling zu.
Die variierende Geschwindigkeitsänderung weist insbesondere mindestens eine Änderung pro 100ms, insbesondere pro 10ms, auf.
Gelöst wird die Aufgabe auch durch eine Gruppe von Samples umfassend Samples unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments, wobei die Samples jeweils eine Länge von mindestes 500ms aufweisen, und wobei die Gruppe Informationen zum Phasenverlauf mindestens eines, insbesondere aller Samples, über die Länge von mindestes 500ms der Samples aufweist, insbesondere als Spur, insbesondere Midi-Spur, insbesondere jeweils einer zusätzlichen Spur die Information zum Phasenverlauf beinhaltend, insbesondere einer je Sample. Eine solche Gruppe kann verwendet werden, um auf einfache Weise ein phasenkohärentes Abspielen zu erreichen, indem beim Abspiel mindestens zweier der Samples, zumindest teilweise zeitgleich, die Unterschiede des Phasenverlaufs der Samples während der zeitgleichen Wiedergabe, durch Modulation der Abspielgeschwindigkeit(en) der/des Samples verringert werden. Dabei kann der Verlauf des Phasenunterschiedes auf einfache Weise aus der Information zum Phasenverlauf gewonnen werden. Dies bietet unter anderem den Vorteil, dass der zeitliche Versatz relativ frei wählbar ist und/oder Glättungs- und/oder Vorausschauparameter durch den Benutzer einstellbar ausgestaltet sein können.
Auch die Verwendung einer Gruppe phasenkohärenter Audioquellen, insbesondere Audiosignalen oder Samples, mindestens zweier unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments löst die Aufgabe, wobei die Audioquellen eine Länge von mindestes 500ms aufweisen, in denen sie phasenkohärent sind und sich nicht wiederholen, zur phasenkohärenten und zumindest teilweise gleichzeitigen Wiedergabe der Audioquellen einer Tonhöhe mit mindestens zwei unterschiedlichen Dynamiken. Auch die Verwendung einer Gruppe von Audioquellen, insbesondere Audiosignalen oder Samples, mindestens zweier unterschiedlicher Dynamiken einer Tonhöhe eines realen Musikinstruments löst die Aufgabe, wobei die Audioquellen eine Länge von mindestes 500ms aufweisen, in denen sie Informationen zum Phasenverlauf aufweisen, zur phasenkohärenten und zumindest teilweise gleichzeitigen Wiedergabe der Audioquellen einer Tonhöhe mit mindestens zwei unterschiedlichen Dynamiken. Dies erfolgt insbesondere durch Ermitteln eines Verlauf eines Phasenbeziehungswerts, insbesondere Ermitteln eines Verlaufs der Phasenabweichung, über die Dauer der Audioquelle für jedes der abhängigen Audioquellen und Verwenden des jeweils ermittelten Verlaufs zur Anpassung der Geschwindigkeit und/oder Zeitbasis der jeweiligen abhängigen Audioquelle. Der Phasenbeziehungswert verändert sich insbesondere über die Dauer des Samples.
Das besondere des erfindungsgemäßen Verfahrens liegt insbesondere darin, eine dynamische Anpassung zu realisieren, durch die auch bei sich im Zeitverlauf ändernden Phasenbeziehungen zwischen den Eingangssignalen eine dauernde Phasenkohärenz erreichbar ist und bei der es zudem möglich ist zahlreiche Aufnahmen des gleichen Tonereignisses phasenkohärent zu gestalten.
Der Vergleich des Phasenverlaufs kann allgemein beispielsweise mittels eines Kreuzkorrelators erfolgen. Bevorzugt wird es aber, Flanken der Audiosignale zu bestimmen und basierend auf der zeitlichen Lage der Flanken in den Samples einen Vergleich des Phasenverlaufs durchzuführen. Dazu können beispielsweise dir Durchgänge des Signals, insbesondere der Grundfrequenz, durch einen vorgegebenen Pegel, insbesondere die Nulldurchgänge bestimmt werden und die Lage der Nulldurchgänge als Information über die zeitliche Lage der Flanken verwendet werden. Insbesondere erfolgt die Anpassung so, dass der Versatz der Flanken, insbesondere Nulldurchgänge, reduziert wird.
Aus der Lage der Flanken zweier Eingangsaudioquelle, insbesondere des Referenzsamples und einer abhängigen/weiteren Audioquelle wird insbesondere der Verlauf eines Phasenvergleichswerts ermittelt, der insbesondere die Abweichung der Lage der Flanken angibt.
Der Verlauf eines Phasenvergleichswerts wird insbesondere geglättet. Dies erfolgt insbesondere durch einen Tiefpassfilter, dessen Eckfrequenz insbesondere so eingestellt wird, dass bei Anwendung zur Modulation der Samples und zeitgleichen Abspielen der Samples keine Artefakte, insbesondere keine Glitches, entstehen. Um die durch den Tiefpassfilter entstehende Zeitverzögerung zumindest teilweise auszugleichen, kann bei der Bestimmung des Verlaufs des Phasenvergleichswertes eine Vorausschau (look ahead) verwendet werden, der insbesondere nach Einstellung des Tiefpassfilters eingestellt wird und/oder so eingestellt wird, insbesondere so lange erhöht wird, dass/bis keine Kammfilterartefakte auftreten. Die Vorausschau liegt bevorzugt im Bereich von 1 bis 50 ms, insbesondere über 5 ms und/oder unter 20 ms. Dadurch entsteht insbesondere der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion, der bevorzugt zur Modulation der Abspielgeschwindigkeit und/oder zum Verändern der Geschwindigkeit und/oder Zeitbasis verwendet wird. Somit wird es bevorzugt, zur Modulation der Abspielgeschwindigkeit und/oder zum Verändern der Geschwindigkeit und/oder Zeitbasis einen Mittelwert zu verwenden, der den Phasenverlauf des Referenzsamples und des abhängigen Samples, das verändert wird, vor, an und nach dem Zeitpunkt, an dem jeweils verändert wird, berücksichtigt.
Der Glättungsgrad wird insbesondere mittels eines Reglers über die Eckfrequenz eines auf das Steuerungssignal angewandten Tiefpassfilters eingestellt. Eine hohe Eckfrequenz hat einen niedrigen Glättungsgrad zu Folge und vice versa. Allgemein gilt hier, dass mit einem zunehmenden Glättungsgrad messfehler- oder signalqualitätsbedingte Artefakte ("glitches") vermieden werden, jedoch auch durch die entsprechend erhöhte Reaktionszeit der Wirkungsgrad des Verfahrens gemindert wird und demzufolge phasenverschiebungsbedingte Kammfiltereffekte hörbar werden können. Durch auf geeignete Einstellung des Vorausschau-Parameters ("look ahead") kann auch bei hohen Glättungsgraden eine wirksame Reaktion des Schaltkreises auf sprunghafte Änderungen des Phasendifferenzverlaufs erzielt werden. Allerdings sollte hierbei beachtet werden, dass bei hohen Vorausschauzeiten und geringer Glättung der Schaltkreis verfrüht reagiert und somit unter Umständen selbst Kammfiltereffekte erzeugen kann. Der Parameter wird insbesondere auf einen reellen Wert zwischen null und eins eingestellt, wobei bei letzterer Einstellung die gesamte Pufferzeit (üblicher Weise bei ca. 60ms) zur Vorausschau genutzt wird (d.h., dass Steuerungssignal wird um die Pufferzeit verfrüht angewandt bzw. die zu steuernden Signale um die Pufferzeit verzögert), bei ersterem (Wert von 0) hingegen überhaupt keine Vorausschau stattfindet. Die beiden Parameter werden bevorzugt durch den Benutzer signalspezifisch nach Gehör so eingestellt, dass sich in Hinblick auf das gewünschte Ergebnis ein geeigneter Kompromiss zwischen geringer Reaktionszeit und Artefaktfreiheit ergibt. Mit einer solchen Vorgehensweise ist ein Toningenieur gemeinhin vertraut, da eine Vielzahl branchenüblicher Effektgeräte auf eine ähnliche Weise bedient wird. Etwa werden bei einem Dynamikkompressor Reaktionszeit ("attack" und "release") sowie Vorausschauzeit nach Gehör auf eine solche Weise einstellt, dass sich ein zufriedenstellender Kompromiss zwischen Dynamikreduktion und Artefaktfreiheit ergibt.
Bevorzugt berücksichtigt der Wert des Verlaufs des Phasenbeziehungswertes an einem Zeitpunkt des Referenzsamples zumindest teilweise den Phasenverlauf des Referenzsamples und/oder den Phasenverlauf der einer weiteren der Audioquellen, vor, an und/oder nach dem Zeitpunkt des Referenzsamples. Dabei wird die Zeit im Referenzsample und in der weiteren Audioquelle insbesondere identisch, insbesondere jeweils von deren Beginn und/oder vorbestimmten Zeiten gezählt. Eine solche Berücksichtigung erfolgt insbesondere durch eine Vorausschau und/oder einen Tiefpass und/oder eine Mittelwertbildung. Insbesondere erfolgt die Berücksichtigung über den gesamten Verlauf, mit Ausnahme des Begins und Endes, insbesondere über jeweils 1 bis 100 ms zu Beginn und zum Ende der weiteren Audioquelle und/oder des Referenzsamples.
Eine Audioquelle kann dabei mehrere Spuren enthalten, beispielsweise einen oder mehrere Stereokanäle. Jede Audioquelle ist insbesondere die Aufnahme eines realen Tonereignisses, beispielsweise mittels eines Mikrofons oder einer Mehrzahl von Mikrofonen, insbesondere an einer gemeinsamen Position. Statische Phasenverschiebungen auf Grund unterschiedlicher Laufzeiten zu unterschiedliche Mikrofonposition, insbesondere unterschiedlicher Audioquellen, eines gemeinsamen Tonereignisses stellen keinen Nachteil dar. Sie werden durch das Verfahren insbesondere erhalten und nicht beseitigt.
Eine Audioquelle ist dabei insbesondere die Aufnahme eines Tonereignisses, insbesondere an einer Position, erzeugt durch das Anschlagen oder Anstreichen einer Saite oder das Spielen eines Tons auf einem Blasinstrument.
Die so veränderten abhängigen Audioquellen bilden alleine und/oder zusammen mit dem Referenzsample eine Gruppe kohärenter Audioquellen. Als Referenzsample kann eine der Audioquellen genutzt oder ein Audiosignal, insbesondere mit konstanter Frequenz und insbesondere ohne Phasensprung, insbesondere ein Sinussignal, genutzt werden. Letzteres ermöglicht das zeitversetzte phasenkohärente Abspielen ohne eine an den Zeitversatz angepasste Phasenkorrektur vorzunehmen, beseitigt aber die eigentlich gewünschten zeitlichen Schwankungen der der Frequenz der Samples oder der phasenkohärent wiedergegebenen Audioquellen.
Zur Erzeugung kohärenter Audioquellen wird insbesondere eine Gruppe oder Mehrzahl von Audioquellen vorgehalten, die nach dem erfindungsgemäßen Verfahren in kohärente umgewandelt werden können. Diese liegen insbesondere auf einem Datenträger gespeichert vor und/oder sind insbesondere Teil des Systems und/oder virtuellen Instrument.
Vorteilhafterweise wird ein erster Zeitabschnitt, insbesondere die Dauer des Einschwingvorgangs, mit einer Länge insbesondere im Bereich von 0 bis 500 ms, insbesondere im Bereich von 100 bis 400 ms, der abhängigen Audioquellen in der Geschwindigkeit und/oder Zeitbasis nicht verändert und ein zweiter Zeitabschnitt, insbesondere mit einer Länge von mehr als 500 ms und/oder unmittelbar folgend auf den ersten Zeitabschnitt, der oder jeder der abhängigen Audioquellen in der Geschwindigkeit und/oder Zeitbasis verändert.
Der erste und/oder zweite Zeitabschnitt ist dabei insbesondere eine Aufnahme eines realen Tonereignisses, die nicht wiederholt wird/ist und/oder sich nicht wiederholt.
Die Gruppe von kohärenten Audioquellen ist insbesondere so ausgebildet, dass sie bei zeitgleichem Start kohärent sind, insbesondere zumindest über eine Dauer von mindestens 500ms, in der insbesondere keine Wiederholung vorliegt und/oder zumindest nach einem/dem ersten Zeitabschnitt.
Die Gruppe von kohärenten Audioquellen ist insbesondere so ausgebildet, dass sie eine Information aufweist oder von einer solchen begleitet ist, die angibt, in welcher zeitlichen Abfolge die teilweise zeitgleiche Wiedergabe zu starten ist, damit die Wiedergabe im Bereich der zeitgleichen Wiedergabe kohärent ist.
Anstelle und/oder zusätzlich zum Vorhalten einer Gruppe kohärenter Audioquellen kann die Gruppe kohärenter Audioquellen auch abhängig von Einstellungen und/oder dem zeitlichen Versatz der zumindest teilweise zeitgleichen Wiedergabe abhängig von diesen/m bei Bedarf, insbesondere vor (insbesondere unmittelbar vor und/oder maximal eine Stunde) und/oder während der Wiedergabe, erzeugt werden. Dies ermöglicht mehr Freiheiten in Bezug auf den zeitlichen Versatz der Wiedergabe bzw. deren Start.
Das Verfahren zum Abspielen, die Verwendung, das System oder das virtuelle Instrument sind insbesondere so ausgebildet, dass sie Lautstärke der zumindest teilweise zeitgleich wiedergegebenen Samples relativ zueinander veränderbar ist, insbesondere über die Dauer der Wiedergabe variierend. Dazu sind insbesondere entsprechende Einstellmöglichkeiten vorgesehen.
Der zeitliche Phasendifferenzverlauf zum entsprechenden Mikrofonsignal einer anzugleichenden Dynamikstufe wird bevorzugt durch einen Phasenkorrelator (nicht notwendigerweise ein Kreuzkorrelator) ermittelt.
Nachdem ein Verlauf eines Phasenvergleichswerts erzeugt wurde, wird dieser bevorzugt durch geeignete Entklappung, Clipper, Filter und/oder Dynamikprozessoren verarbeitet und/oder geglättet, beispielsweise mittels Tiefpasses mit Eck- oder Grenzfrequenz im Bereich von 50 bis 200 HZ, insbesondere von bis 60 bis 150Hz.
Ein Entklappungsverfahren erkennt die Sprungstellen und rekonstruiert auf dieser Grundlage den stetigen Phasendifferenzverlauf. Dies kann beispielsweise erfolgen, wie in "One-Dimensional Phase Unwrapping Problem" Dr. Munther Gdeisat and Dr. Francis Lilley z.B. unter https://www.ljmu.ac.uk/-/media/files/ljmu/about-us/faculties-and-schools/fet/geri/onedimensionalphaseunwrapping_finalpdf.pdf beschrieben. Es kann aber alternativ oder zusätzlich die Abfolge der erkannten Nulldurchgänge verwendet werden, da in bei fehlerfreier Bestimmung der Flanken ein Umklappen der Phasendifferenzfunktion unmittelbar aus dem Vorliegen von zwei aufeinander folgenden Impulsen aus einem der Signale ohne einen zwischenzeitlichen Impuls des anderen Signals ersichtlich wird. Um nun wiederum durch Flankenmessfehler bedingte Artefakte und Sprünge zu vermeiden, kann ein bekanntes Entklappungsverfahren mit dieser Methode kombiniert werden. Der Entklappungsvorgang wird dadurch präziser und weniger anfällig für Störungen, was wiederum in vielen Fällen eine weniger invasive Glättung und somit eine etwas kürzere Reaktionszeit ermöglichen kann.
Ein Clipper kann dazu dienen, Signalspitzen jenseits eines vorgegebenen Frequenz-Intervalls abzuschneiden. Die untere Intervallgrenze des Clippers ist bevorzugt identisch mit dem Inversen der Pufferzeit, mit der das Abspielen der Samples Grundverzögert wird, die obere bevorzugt fest eingestellt, beispielsweise auf einen Wert im Bereich von 10^(-7) bis 10^(-9) Hz eingestellt.
Dadurch wird bevorzugt der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion, erzeugt.
Der Verlauf eines Phasenbeziehungswerts wird insbesondere als Zeitparameter in Verzögerungsglieder eingespeist, an deren Eingangsbusse jeweils ein abhängiges Samples angelegt wird. An den Ausgängen der Verzögerungsglieder können nun die zum Quellsignal phasenkohärenten, modulierten Audioquellen abgegriffen werden.
Bei mehrkanaligen und/oder mehrspurigen Samples kann der Verlauf eines Phasenbeziehungswerts beispielsweise nur für einen Kanal/eine Spur, für mehrere Kanäle/Spuren getrennt oder mittels einer mehrere Kanäle/Spuren berücksichtigender Metrik ermittelt werden. Die Metrik kann beispielsweise ein Mittelwert sein.
Das Verändern der Zeitbasis, kann beispielsweise für jeden Kanal/jede Spur eines abhängigen Samples getrennt und/oder unterschiedlich und/oder für alle Kanäle/alle Spuren eines abhängigen Samples gemeinsam und/oder gleich erfolgen.
Mit Vorteil weisen alle Audioquellen und/oder alle abhängigen Audioquellen die gleiche Spur- und/oder Kanalanzahl auf. Das Verfahren lässt sich aber auch anwenden, wenn die Spur- und/oder Kanalanzahl unterschiedlich ist.
Mit Vorteil weisen alle Audioquellen und/oder alle abhängigen Audioquellen die gleiche Samplingrate auf. Bei den Audioquellen handelt es sich insbesondere um analog oder digitale Aufnahmen analoger akustischer Ereignisse.
Mit Vorteil weisen alle Audioquellen und/oder alle abhängige Audioquellen die gleiche Dauer auf. Insbesondere weist das Referenzsample mindestens die Dauer der zweitlängsten, insbesondere der längsten, abhängigen Audioquellen auf.
Bei stark räumlichen Signalen kann es dazu kommen, dass beispielsweise aufgrund von diffusschallbedingten Verzerrungen die Phasenbeziehungen zwischen den Signalen nicht korrekt durch den Korrelator erkannt werden. So kann es bevorzugt sein, dass Referenzsamples durch ein näher als alle/die Mikrofone der abhängigen Audioquellen, insbesondere sehr nahe an der Schallquelle, insbesondere maximal 1 Meter von der Schallquelle entfernt, positioniertes Mikrofon aufzunehmen. Dieses Referenzsamples ist dann bevorzugt nicht Teil der Gruppe kohärenter Audioquellen.
Bevorzugt sind die Audioquellen Aufnahmen eines zu dem/den verwendeten Mikrofon(en) ortsfesten Tonereignis. Das bedeutet, das bevorzugt Musikinstrument und Mikrofone zur Erstellung der Audioquellen ortsfest sind.
Vorteilhaft ist es zum einen, ein echtzeitmäßig reagierendes Phasenbeziehungsbestimmungsmodul zur Ermittlung des Verlaufs der Phasenabweichung zu verwenden, damit die für monophone Musikinstrumentensamples charakteristischen kurzeitig auftretenden Phasenschwankungen und -abweichungen rasch ausgeglichen werden können.
Die Bestimmungsdauer für das zeitliche Intervall zwischen zwei Flanken ist bevorzugt im Wesentlichen durch dieses gegeben ist, da bei Ankunft einer Flanke ja sozusagen auf die korrespondierende Flanke des zweiten Signals gewartet werden muss. Die Gesamtreaktionszeit ist also in sehr guter Näherung gegeben durch die absolute zeitliche Phasendifferenz der gegebenen Signale plus einen Wert, der auf der Glättung, insbesondere deren Eck- oder Grenzfrequenz basierend, der bevorzugt im Bereich von 1 bis 20 ms liegt. Somit liegt die Reaktionszeit bevorzugt unter 100ms, insbesondere unter 50ms.
Zum anderen ist zur Vermeidung von messungs- oder signalbedingten Artefakten (etwa bewirkt durch ausfallende Fundamentaltöne (häufig in den tiefen Lagen tieftöniger (Tenor- und Bass-)Instrumente, wie etwa einem Cello oder Kontrabass) eine geeignete Glättung und/oder Siebung des Verlaufs der Phasenabweichung vor Nutzung zur Veränderung der abhängigen Samples vorteilhaft, beispielsweise mittels Tiefpass mit Eck- oder Grenzfrequenz im Bereich von 50 bis 200 HZ, insbesondere von bis 60 bis 150Hz.
Alternativ oder zusätzlich kann zur Vermeidung von messungs- oder signalbedingten Artefakten, insbesondere bei (kurzzeitig) ausfallendem/n Fundamentaltöne(n), vorrübergehend oder dauerhaft anstelle des Grundtons die erste Harmonische des Grundtons als Referenz verwendet wird. Nun kann dies jedoch aufgrund von Phasenauslöschungen, die wiederum durch dem Umstand bedingt sind, dass die erste Harmonische prinzipiell keinerlei Informationen bezüglich der Richtung der korrespondierenden Flanken in der Fundamentalen enthält, zu neuerlichen Artefakten, insbesondere nunmehr künstlich hervorgerufenen Fundamentaltonausfällen bei synchronem Abspielen der resultierenden phasen-angeglichenen Samples kommen. Dies kann jedoch wiederum auf einfache Weise durch eine statische Polaritätsumkehr des prozessierten Referenzsignals behoben werden. Bei der Polaritätsumkehr (oftmals sachlich nicht gänzlich korrekt als "Phasendrehung" bezeichnet) handelt es sich ebenfalls um einen standardmäßigen Vorgang, welcher in marküblichen Mischpulten und digitalen Audioverarbeitungsumgebungen implementiert ist. Alternativ kann auch das prozessierte Referenzsignal um eine halbe Periode verschoben werden.
Die Ermittlung des Verlaufs eines Phasenbeziehungswerts kann auf verschiedene Arten, beispielsweise analog, digital, in Echtzeit oder zeitlich nachgelagert, erfolgen. Bevorzugt wird zur Ermittlung des Verlaufs eines Phasenbeziehungswerts zunächst mit einem steilflankigen Bandpassfilter der Grundton des Referenzsamples und/oder der Audioquellen isoliert.
Um den Phasenversatz zwischen Referenzsample und abhängigen Audioquellen zu ermitteln, werden bevorzugt die sinusförmigen Grundtonverläufe durch einen Komparator prozessiert, woraus eine Rechtecksignal resultiert, welche sodann differenziert werden kann. Hierbei entsteht jeweils eine Folge von Diracimpulsen, welche sich gerade an den Nulldurchgängen der Samples befinden und je nach Richtung des Nulldurchgangs positiv bzw. negativ signiert sind. Es können aber auch sowohl positiv, als auch negativ signierte Flanken zur Ermittlung des Pha-Phasenversatz berücksichtigt werden. Dies führt zu einer Verdoppelung der Auflösung der Phasendifferenzermittlung und kann somit zu kürzeren Reaktionszeiten, beispielsweise innerhalb einer halben Periode des Signals, führen.
Bevorzugt wird der zeitliche Abstand zwischen Nulldurchgänge des Referenzsamples und je eine abhängige Audioquelle bestimmt und/oder verwendet. Die daraus bevorzugt erzeugte Treppenfunktion zeigt nach Entklappung ("unwrapping") den Phasendifferenzverlauf zwischen den beiden Samples an.
Zwecks Kompensation von Messfehlern und Signalaussetzern, sowie zur Vermeidung von Artefakten, die durch zu große Sprünge bedingt sind, wird der Verlauf eines Phasenvergleichswerts vorteilhafterweise gesiebt und/oder geglättet. Das Ergebnis wird schließlich bevorzugt als Verlauf eines Phasenbeziehungswerts verwendet.
Bevorzugt wird der Verlauf eines Phasenbeziehungswerts als Steuerfunktion an den Zeitparameter eines Verzögerungsglieds geleitet.
Da es sich bei der Veränderung um eine nichtlineare Verarbeitung handelt, erfolgt diese zwecks Vermeidung von Aliasing-Artefakten bevorzugt unter mindestens vierfacher, insbesondere mindestens achtfacher Überabtastung der Samplingrate des Referenzsamples. Dazu wird das Referenzsample insbesondere mit künstlich erzeugten weiteren Werten, insbesondere Amplituden- und Phasenwerten, versehen. Zum Einsatz kommt dieses Verfahren insbesondere und häufig bei marktüblichen digitalen Emulationen von analogen Signalformern (etwa Distortion- oder Overdrive-Effekten) oder Dynamikprozessoren (etwa Kompressoren). Mit Vorteil wird nach der erfindungsgemäßen Anpassung jede der angepassten Audioquellen, insbesondere mittels Bandpassfilter, wieder auf die ursprüngliche Samplingrate oder Nyquistfrequenz bandbegrenzt und/oder mit der Samplingrate des verwendeten digitalen Mediums abgetastet.
Zur Veranschaulichung einer erfindungsgemäßen Lösung sei folgendes Beispiel aufgeführt: Das eingestrichene c einer Flöte sei nacheinander in den Dynamikstufen piano, mezzoforte und forte mit jeweils gleichzeitig drei Stereomikrofonpaaren in den drei Positionen nah, mittel und fern aufgenommen worden. Es liegen also insgesamt sechs Kanäle vor. Als Referenzsample wird der linke Kanal des Mikrofonpaars "nah" der Dynamikstufe mezzoforte ausgewählt. Die beiden übrigen abhängigen Samples der Dynamikstufen piano und forte sollen nun an den Phasenverlauf der Mezzoforte-Stufe angepasst werden. Der jeweils entsprechende Kanal der Samples der Dynamikstufen forte bzw. piano wird nun mit dem Referenzsample verglichen. Es wird also der linke Kanal der Mikrofonposition "nah", mit dem linken Kanal "nah" des Referenzsamples korreliert, um jeweils den Verlaufs eines Phasenbeziehungswerts für jedes der abhängigen Samples zu erzeugen. Jeder der durch den Korrelator für jedes der abhängigen Sample erzeugte Verlauf eines Phasenbeziehungswerts steuert nun den Zeitparameter eines Verzögerungsgliedes, durch die das jeweilige abhängige Sample und zwar jeweils alle sechs Mikrofonkanäle in der Geschwindigkeit verändert werden. So werden die phasenkohärenten abhängigen Sample erzeugt.
Figur 1 zeigt schematisch und nicht beschränkend die Ermittlung eines Verlaufs eines Phasenbeziehungswerts (u). In der Figur links werden das Referenzsampling (q) und das abhängige Sample (s) zunächst einem steilflankigen Bandpassfilter zur Isolation des Grundtons zugeführt. Um den Phasenversatz zwischen Referenzsample und abhängigen Sample zu ermitteln, werden die sinusförmigen Grundtonverläufe durch einen Komparator prozessiert, woraus eine Rechteckwelle resultiert, welche sodann differenziert wird. All dies geschieht nicht einmalig, sondern mehrfach, insbesondere kontinuierlich und/oder mindestens all 100ms, insbesondere mindestens alle 10 ms, über eine beliebig lange Zeitdauer. Hierbei entsteht jeweils eine Folge von Diracimpulsen, welche sich gerade an den Nulldurchgängen der Samples befinden und je nach Richtung des Nulldurchgangs positiv bzw. negativ signiert sind. Der anschließende Komparator mit Gegenkopplung dient der Eliminierung der negativ signierten Impulse, welche fallenden Flanken entsprechen. Der Integrator im oberen Teil fungiert als Rampengenerator und wird durch die Impulse jeweils neu gestartet. Das an dessen Ausgang anliegende Signal gibt also die seit der letzten eingegangenen Flanke vergangene Zeit an. Dieses wird schließlich an den Eingang eines Abtast- und Haltegliedes (s&h) gelegt, welches durch die Impulse aus dem unteren Schaltungsteil gesteuert wird. Am Ausgang liegt demnach schließlich stets (über die Dauer der Verfahrensführung) die zeitliche Differenz, den Phasenbeziehungswert (u), zwischen den Flanken der beiden Eingangssignale der Gesamtschaltung an.
Figur 2 zeigt schematisch und nicht beschränkend einen Aufbau, der simultan alle Mikrofonsignale (so bis s_N-1) einer einzigen Dynamikstufe, deren Phasenverlauf an das Referenzsignal (q) anzugleichen ist, angleicht. Der Verlauf des Phasenbeziehungswertes (u), dessen Ermittlung wie in Figur 1 dargestellt geschieht, wobei eins der Mikrofonsignale (so bis s_N-1) als Signal (s) verwendet wird, wird zunächst entklappt.
Anschließend wird das Signal tiefpassgefiltert und geclippt. Der Clipper, welcher Signalspitzen jenseits eines vorgegebenen Frequenzintervalls abschneidet, dient dem Zweck der Heraussiebung von Spitzenartefakten. Die untere Intervallgrenze des Clippers ist identisch mit der Inversen Pufferzeit (T_buf), die obere in diesem Beispiel fest auf 10^8ms eingestellt.
Nach dieser kontinuierlichen Verarbeitung ergibt sich der Verlauf eines Phasenbeziehungswerts, auch Steuerfunktion (u) (über die Dauer der Verfahrensführung).
Die einstellbare Pufferzeit (T_buf) ist eine, insbesondere konstante, Grundverzögerung, insbesondere im Bereich von 5 bis 50 ms, für alle Mikrofonsignale (q und so bis s_N-1), die zur Ermöglichung negativer Verzögerungszeiten benötigt wird und für die abhängigen Mikrofonsignale mit der Steuerfunktion addiert wird.
Die Summe aus Pufferzeit (T_buf) und Verlauf des Phasenbeziehungswertes (u) wird sodann einer Vielzahl Verzögerungsglieder (dly) zugeführt, denen auch jeweils ein abhängiges Mikrofonsignale (so bis s_N-1) zugeführt wird. Die Verzögerungsglieder verzögern die Ausgangssignale stets gegenüber den Eingangssignalen, wobei die Verzögerung nicht konstant ist. An den Ausgängen der Verzögerungsglieder (dly) liegen dadurch phasenkohärente Signale ( q , s ₀ bis s _N-1) an.
Figur 3 zeigt schematisch und nicht beschränkend eine alternative latenzfreie Implementierung. Die in der ersten Implementierung der Figur 2 benötigte Pufferzeit führt zu einer ihr entsprechenden Latenzzeit der Gesamtschaltung. Für Anwendungen mit strikten Echtzeitanforderungen kann dies umgangen werden, indem anstelle von Verzögerungsgliedern Abspielmodule (hier metonymisch als "tape" bezeichnet) mit modulierbarer Abspielgeschwindigkeit, wie sie etwa in vielen Samplerumgebungen zur Verfügung stehen, verwendet werden.
Zur Beurteilung der durch die Erfindung möglichen Verbesserung wird im Nachfolgenden die folgende Metrik verwendet:
Gegeben seien nunmehr zwei Signale 0, 1 (Eingangsaudiosignale bzw. jeweils ein Abschnitt mit der gleichen Länge) mit identischer Periodendurchlaufszahl (Anzahl der Nulldurchgänge) sowie identischer mittlerer Periodendauer T (denn es handelt sich um Signale der gleichen Tonhöhe). Mit t⁽⁰⁾ und t⁽¹⁾ gleich der Vektoren der Zeiten der Nulldurchgänge der Signale 0 und 1 ist mit einer geeigneten Norm (∥·∥) $d_{‖ \cdot ‖} (t^{(0)}, t^{(1)}) : = ‖ \frac{t^{(1)} - t^{(0)}}{T} ‖$
ein Maß für die Phaseninkohärenz der Signale 0, 1 .
Hier wird nun die RMS Norm gewählt, wobei RMS zwecks Dimensionsinvarianz durch die Anzahl der Periodendurchläufe normalisiert sind.
Entsprechend der in der Signalverarbeitung üblichen Vorgehensweise ist es in ratsam, mit einer gefensterten RMS-Norm zu arbeiten, was mathematisch als eine Kombination von RMS und PEAK gedeutet werden kann. Als Fenstergröße wurde ein RMS (root mean square)-Fenster entsprechend der in den Figuren 4 bis 11 auf der horizontalen Achse in ms dargestellten Zeitdauern gewählt. Die Reihenfolge der Zeilen entspricht der Reihenfolge der Figuren.
Als Maß für die Güte des Phasenangleichungsverfahrens bietet sich nun das Verhältnis zwischen gemessener Phasenkohärenz vor und nach der Verarbeitung durch das Verfahren oder die relative Veränderung der Phasenkohärenz an.

Es wurden nun verschiedene Schallereignisse analysiert. Dazu wurde jeweils eine multimikrofonierte Schallquelle an drei unterschiedlichen Stereomikrofonpositionen sowie an einer weiteren einkanaligen Referenzmikrofonposition aufgezeichnet. Dadurch wurden drei Stereo und eine Monospur erhalten. Exemplarisch wurde der linke Kanal eines Stereomikrofonpaars (Signal 1) als zu bearbeitendes Eingangsaudiosignal und das Signal des Referenzmikrofons als Referenzaudiosignal (Signal 0) ausgewählt und die Phasenkohärenz im Sinne der besprochenen Metrik zwischen Referenz- (Signal 0) und Eingangsaudiosignal (Signal 1) bzw. bearbeitetem Eingangsaudiosignal (Signal 1') bestimmt. Zudem wurde zum Vergleich mit dem Stand der Technik eine Bearbeitung des Eingangsaudiosignals (Signal 1) mittels konstanter Zeitverschiebung nach der JP 2001100756 A vorgenommen (Signal 1").

	d(0,1)	d(0,1')	d(0,1') /d(0,1)	(d(0,1)- d(0,1') /d(0,1)	d(0,1")	d(0,1") /d(0,1)	(d(0,1)- d(0,1") /d(0,1)
CE \| ff \| 45 (a1)	0,2173	0,0608	28%	72%	0,4	184%	-84%
VL \| f \| 55 (g2)	0,4215	0,0545	13%	87%	0,235	56%	44%
VL \| f \| 60 (c3)	0,3983	0,1926	48%	52%	0,264	66%	34%
VL \| f \| 69 (a3)	0,2737	0,0712	26%	74%	0,2879	105%	-5%
VL \| f \| 72 (c4)	0,2524	0,1387	55%	45%	0,3141	124%	-24%
VL \| f \| 77 (f4	0,2953	0,1952	66%	34%	0,2721	92%	8%
VL \| f \| 78 (f#4)	0,2993	0,143	48%	52%	0,2502	84%	16%
VL \| f \| 84 (c5)	0,2465	0,1183	48%	52%	0,3471	141%	-41%

Dabei wurde in Cello (CE) und eine Violine (VL) als Schalquelle verwendet. Es wurden verschiedene Dynamikstufen (f und ff) bei verschiedenen Tonhöhen (Angabe in Midi-Tonhöhenstufe und in Klammer musikalischer Notation) getestet.
Zu erkennen ist, dass bei statischer Korrektur teilweise eine Verbesserung und teilweise eine Verschlechterung erreicht wird, die stark schwankt. Mit dem erfindungsgemäßen Verfahren wird immer eine Verbesserung erreicht, die die Verbesserung gegenüber dem Stand der Technik mindestens um 18%-Punkte übersteigt.
Der Toningenieur hat für die Verarbeitung die oben beschriebenen Parameter "Glättungsgrad" und "Vorausschau" wie oben erläutert nach Gehör in Hinblick auf ein subjektiv optimales Verhältnis zwischen hörbarer Phasenkohärenz (d.h., Abwesenheit von Kammfiltereffekten) einerseits und Artefaktfreiheit andererseits eingestellt, ohne dabei eine Metrik zu beachten.
Die Figuren 4 bis 11 geben die Verläufe der RMS Werte (RMS Werte auf der vertikalen Achse) mit einem Fenster von jeweils 500 Periodendurchläufen der Messungen, die der vorstehenden Tabelle zu Grunde liegen, der Reihenfolge der Zeilen der Tabelle nach wieder. Auf der horizontalen Achse ist die Zeit in ms abgetragen. Zu erkennen ist hier, dass über weite Teile der Signaldauer eine Verbesserung erreicht werden kann. Dabei ist das Signal A das Signal 1, das Signal B das Signal 1" und das Signal C das Signal 1'.

Claims

Verfahren zur Erstellung einer Gruppe phasenkohärenter Audioquellen ( q , s ₀ bis s _N-1), insbesondere Audiosignale oder Samples, umfassend:
a) Bereitstellen mindestens jeweils einer Eingangsaudioquelle (q, so bis s_N-1), insbesondere Audiosignale oder Samples, eines ersten und eines zweiten Tonerereignisse der gleichen Tonhöhe eines einzigen realen Musikinstruments,

b) Auswählen einer Audioquelle, insbesondere einer der Eingangsaudioquellen des ersten Tonereignisses, als Referenzsample (q),

c) Vergleich des Phasenverlaufs des Referenzsamples (q) mit dem Phasenverlauf mindestens einer weiteren der Eingangsaudioquellen (s_O bis s_N-1) des zweiten Tonereignisses über eine erste Audioquellendauer des Referenzsamples zur Erzeugung einer Phasenbeziehungsinformation (u),

d) Verändern der Geschwindigkeit und/oder Zeitbasis der mindestens einen weiteren Eingangsaudioquelle (s_O bis s_N-1) über eine zweite Dauer der mindestens einen weiteren Eingangsaudioquelle auf Basis der Phasenbeziehungsinformation (u), dadurch gekennzeichnet, dass die Phasenbeziehungsinformation ein Verlauf eines über die Zeit variierenden Phasenbeziehungswertes ist und dass die Geschwindigkeit und/oder Zeitbasis über die zweite Dauer variierend abhängig vom Verlauf des Phasenbeziehungswertes verändert wird.
Verfahren nach Anspruch 1, wobei die erste Dauer der zweiten Dauer entspricht und/oder die erste Dauer länger ist als die zweite Dauer.
Verfahren nach einem der vorstehenden Ansprüche, wobei der Wert des Verlaufs des Phasenbeziehungswertes an einem Zeitpunkt des Referenzsamples zumindest teilweise den Phasenverlauf des Referenzsamples und/oder den Phasenverlauf der einer weiteren der Audioquellen, vor, an und/oder nach dem gleichen Zeitpunkt im Referenzsample berücksichtigt, wobei die Zeitpunkte insbesondere relativ zum Start des jeweiligen Tonereignisses gemessen sind.
Verfahren nach einem der vorstehenden Ansprüche, wobei das Verfahren für mehrere zweite Tonereignisse, insbesondere gleichzeitig, mit einem gemeinsamen ersten Tonereignis und einem gemeinsamen Referenzsample durchgeführt wird und für jedes zweite Tonereignis eine Phasenbeziehungsinformation erzeugt wird und jede Phasenbeziehungsinformation zur Veränderung der Geschwindigkeit mindestens einer insbesondere mehrerer, Eingangsaudioquelle des jeweiligen zweiten Tonereignisses verwendet wird.
Verfahren nach einem der vorstehenden Ansprüche, wobei die Schritte c) und d) mittels mindestens einem, insbesondere mittels mindestens genau einem, gegengekoppeltem Regelkreis ausgeführt werden, wobei insbesondere eine Messschleife pro zweitem Tonereignis zur Ermittlung der Phasenbeziehungsinformation verwendet wird und/oder eine Steuerungsschleife pro weitere Eingangsaudioquelle zur Veränderung der Geschwindigkeit verwendet wird.
Verfahren zum zeitgleichen Abspielen mindestens jeweils einer Audioquelle, insbesondere Audiosignal oder Sample, zweier Tonerereignisse, insbesondere von mindestens 500ms Länge, der gleichen Tonhöhe des gleichen realen Instruments, wobei die Audioquellen jeweils, insbesondere über mindestens 500ms, zumindest teilweise gleichzeitig, insbesondere über mindestens 500ms, phasenkohärent abgespielt werden und nach Anspruch 1 erzeugt werden und/oder erzeugt sind.