DE112022003894T5

DE112022003894T5 - Verbessertes verfolgen des kopfes für dreidimensionales audio-rendering

Info

Publication number: DE112022003894T5
Application number: DE112022003894.2T
Authority: DE
Inventors: Alfredo Fernandez FRANCO
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2021-08-11
Filing date: 2022-08-11
Publication date: 2024-05-29
Also published as: CN118043763A; WO2023019210A1

Abstract

Es werden Mechanismen und Verfahren zum verbesserten Verfolgen des Kopfes für dreidimensionales Audio-Rendering bereitgestellt. In einigen Ausführungsformen können Verfahren Erhalten von Sensorausgaben von einer Vielzahl von Sensoren an festen Positionen an einem Teil eines Sitzes (z. B. einer Kopfstütze des Sitzes) umfassen. Die Sensorausgaben können einem maschinellen Lernmodell bereitgestellt werden, das so trainiert werden kann, dass es Parameter vorhersagt, die sich auf eine Position und/oder eine Ausrichtung des Kopfes eines Benutzers des Sitzes beziehen, basierend auf diesen Sensorausgaben sowie auf entsprechenden Positions- und/oder Ausrichtungsparametern von einer Bewegungsverfolgungsvorrichtung, die während des Trainings verwendet wird. Das maschinelle Lernmodell kann wiederum einen Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter für ein Audiosystem bereitstellen, um das Rendern von dreidimensionalen Audiosignalen für die Kopfstütze zu verbessern.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Die vorliegende Anmeldung beansprucht Priorität für die vorläufige US-Anmeldung Nr. 63/260176 mit dem Titel „IMPROVED HEAD TRACKING FOR THREE-DIMENSIONAL AUDIO-RENDERING“, die am 11. August 2021 eingereicht wurde. Der gesamte Inhalt der oben aufgeführten Anmeldung wird hiermit für alle Zwecke durch Verweis einbezogen.
GEBIET
Die Offenbarung betrifft das Rendern von dreidimensionalem Audio für sitzende Benutzer.
ALLGEMEINER STAND DER TECHNIK
Die menschliche Physiologie ist so beschaffen, dass die Größe und Form der Ohren einer Person und ihrer Strukturen (und sogar Faktoren wie die Größe und Form der Nasenhöhlen, der Mundhöhlen und des Kopfes einer Person im Allgemeinen) Geräusche aus der Umgebung umwandeln können, bevor diese Geräusche die physiologischen Strukturen erreichen, die Schallschwingungen in elektrische Aktivität umwandeln, die von Nerven (z. B. Haarzellen) übertragen wird. Das Ergebnis ist, dass die dreidimensionale Ausrichtung eines Kopfes einer Person innerhalb einer Umgebung einen Einfluss auf die Wahrnehmung von Geräuschen im Gehirn haben kann. Im Laufe des Wachstums und der Entwicklung lernt das Gehirn eines Menschen bei der Wahrnehmung von Geräuschen, die auf diese Weise physiologisch verändert wurden, eine relative Richtung zu bestimmen, aus der die Geräusche stammen. Dadurch kann der Mensch Richtungen wahrnehmen, aus denen einfallende Geräusche in einer Umgebung entstehen.
Mit dem Wissen um dieses Phänomen können Audiosignale transformiert werden (z. B. durch eine Vorverarbeitung), und basierend auf diesen Audiosignalen können Geräusche erzeugt werden, sodass die Transformation des Audiosignals die Richtung steuert, aus der eine Person die Geräusche als Ursprung wahrnimmt. Ein solcher Prozess kann als Audio-Rendering oder dreidimensionales Audio-Rendering bezeichnet werden. Audio-Rendering-Prozesse können illusorische Wahrnehmungen bezüglich der Herkunftsrichtung verschiedener Geräusche innerhalb der Umgebung aufbauen und aufrechterhalten, auch wenn die Geräusche aus Lautsprechern mit festen Positionen innerhalb der Umgebung stammen können. Eine Vielzahl von Anwendungen kann durch Audio-Rendering-Prozesse verbessert werden, einschließlich des Aufbaus einer virtuellen Präsenz in einer realen Umgebung (z. B. um die Fernteilnahme an einer realen Veranstaltung zu ermöglichen) und des Aufbaus einer virtuellen Umgebung (z. B. in einem Unterhaltungskontext).
Audio-Rendering-Prozesse können davon profitieren, dass sie verschiedene Parameter berücksichtigen können, die mit der Position und/oder der Ausrichtung des Kopfes einer Person in einer Umgebung zu tun haben (und damit relativ zu Lautsprechern in der Umgebung, die relativ feste Positionen aufweisen können). Herkömmliche Ansätze zur Erfassung solcher Informationen, wie das videobasierte oder kamerabasierte Verfolgen des Kopfes, können jedoch relativ teuer sein. Darüber hinaus können solche Ansätze auch hohe Latenzen aufweisen, die die Leistung von dreidimensionalen Audio-Rendering-Systemen beeinflussen können.
KURZDARSTELLUNG
Hierin offenbart sind verschiedene Mechanismen und Verfahren zur Verbesserung der Verfolgung des Kopfes für dreidimensionales Audio-Rendering. Für Umgebungen, in denen ein Benutzer während längerer Teile einer Audioaufführung sitzt, kann eine Vielzahl von Sensoren an vorbestimmten Positionen und/oder Ausrichtungen in Bezug auf einen Sitz oder einen Teil eines Sitzes (z. B. eine Kopfstütze) verteilt werden. Bei diesen Sensoren kann es sich um relativ preiswerte Sensoren handeln. In der Zwischenzeit können die Ausgaben dieser Sensoren einem maschinellen Lernmodell zugeführt werden, das ein neuronales Netz (z. B. ein Convolutional Neural Network) oder eine andere maschinelle Lernstruktur enthalten kann.
Während einer Trainingsperiode kann das Modell die Ausgaben der Sensoren sowie die Ausgaben einer Vorrichtung zur Bewegungsverfolgung, die an einem auf dem Sitz sitzenden Benutzer montiert ist (z. B. am Kopf des Benutzers), als Eingabe verwenden. Bei der Vorrichtung zur Bewegungsverfolgung kann es sich um eine Vorrichtung handeln, die in der normalen Operation unerschwinglich und/oder langsam in der Verwendung sein kann. Die Vorrichtung zur Bewegungsverfolgung kann verschiedene Parameter ausgeben, die sich auf eine Position und/oder eine Ausrichtung des Kopfes des Benutzers beziehen. Die Positions- und/oder Ausrichtungsparameter können in Bezug auf eine breitere Umgebung (z. B. eine Umgebung, die den Sitz enthält) oder in Bezug auf einen Teil des Sitzes (z. B. eine Kopfstütze des Sitzes) oder beides angegeben werden. Im Laufe des Trainings kann das Modell die Fähigkeit entwickeln und verbessern, die von der Vorrichtung zur Bewegungsverfolgung ausgegebenen Positions- und/oder Ausrichtungsparameter basierend auf den Ausgaben der in der Umgebung verteilten Sensoren (z. B. an der Kopfstütze des Sitzes) vorherzusagen.
Nach dem Training kann das Modell während der normalen Operation die Ausgaben der Sensoren als Eingaben verwenden, ohne dass die Vorrichtung zur Bewegungsverfolgung Eingaben macht. Das Modell kann dann als Ausgabe seine Vorhersagen bezüglich der Positions- und/oder Ausrichtungsparameter des Kopfes des Benutzers liefern, die auf den Sensorausgaben basieren. Diese Vorhersagen können dementsprechend mit weniger Aufwand gewonnen und mit relativ geringen Latenzen durchgeführt werden (da sie die Vorrichtung zur Bewegungsverfolgung nicht betreffen). Dementsprechend können die hier offengelegten Mechanismen und Verfahren vorteilhaft sowohl die Kosten senken als auch die Geschwindigkeit der Bereitstellung von Positions- und/oder Orientierungsinformationen für Audio-Rendering-Systeme erhöhen, was wiederum vorteilhaft die Feinabstimmung von immersiven Audioerlebnissen verbessern kann, die von diesen Audio-Rendering-Systemen unterstützt werden.
In verschiedenen Ausführungsformen können die Kosten- und Latenznachteile, die durch den Einsatz von Vorrichtungen zur Bewegungsverfolgung entstehen, durch Verfahren behoben werden, die das Erhalten einer Vielzahl von Sensorausgaben von einer jeweils entsprechenden Vielzahl von Sensoren an festen Positionen auf einem Sitz umfassen. Die Vielzahl von Sensorausgaben kann als Eingaben für ein maschinelles Lernmodell bereitgestellt werden, und ein Satz von Parametern, der sich auf die Position und/oder die Ausrichtung des Kopfes eines Benutzers des Sitzes bezieht (z. B. Übersetzungs- und Quaternionenparameter), relativ zu einer vorbestimmten Position des Sitzes (z. B. einem Punkt auf einer Kopfstütze des Sitzes), kann von dem maschinellen Lernmodell empfangen werden. Das maschinelle Lernmodell kann dann die Parameter für eine Vorrichtung bereitstellen, die dreidimensionale Audiosignale für einen Benutzer des Sitzes erzeugt. Auf diese Weise können die Kosten für eine Vorrichtung zur Bewegungsverfolgung bei der Feinabstimmung eines immersiven Audioerlebnisses vermieden und gleichzeitig die Aufführung des Systems verbessert werden.
Es versteht sich, dass die vorangehende Kurzdarstellung bereitgestellt ist, um in vereinfachter Form eine Auswahl an Konzepten vorzustellen, die in der detaillierten Beschreibung näher beschrieben sind. Sie ist nicht dazu gedacht, wichtige oder wesentliche Merkmale des beanspruchten Gegenstands zu nennen, dessen Umfang einzig durch die Ansprüche im Anschluss an die detaillierte Beschreibung definiert ist. Des Weiteren ist der beanspruchte Gegenstand nicht auf Implementierungen beschränkt, die vorstehend oder in einem beliebigen Teil dieser Offenbarung angeführte Nachteile beseitigen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die Offenbarung kann besser verstanden werden, wenn die folgende Beschreibung von nicht einschränkenden Ausführungsformen unter Bezugnahme auf die beigefügten Zeichnungen gelesen wird, wobei nachstehend:

1 eine schematische Draufsicht eines Kopfes eines Benutzers eines Sitzes und einer Kopfstütze des Sitzes gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt;
2 eine schematische Draufsicht eines Kopfes, einer Kopfstütze und ein maschinelles Lernmodell während einer Trainingsperiode gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt;
3 eine schematische Draufsicht eines Kopfes, einer Kopfstütze und eines maschinellen Lernmodells während der normalen Operation, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt;
4 eine schematische Draufsicht eines Kopfes, einer Kopfstütze und Teile eines Audiosystems während der normalen Operation, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt; und
5 ein Verfahren zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt;
6 ein System zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt;
7 ein System zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt; und
8 ein künstliches neuronales Netz zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering, gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung zeigt.

DETAILLIERTE BESCHREIBUNG
Hierin werden Systeme und Verfahren zur Verbesserung des dreidimensionalen Audio-Renderings offenbart. 1 zeigt den Kopf eines Benutzers eines Sitzes und eine Kopfstütze des Sitzes. 2 zeigt den Kopf, die Kopfstütze und Vorrichtungen, die am Kopf und an der Kopfstütze positioniert sind, um Daten zum Trainieren eines maschinellen Lernmodells bereitzustellen, und 3 zeigt ein maschinelles Lernmodell, das eine Teilmenge solcher Daten (z. B. von einer Kopfstütze) verwendet, um Positions- und Ausrichtungsparameter des Kopfes vorherzusagen. 4 zeigt den Kopf, die Kopfstütze und ein Audiosystem zum Rendern von dreidimensionalen Audiosignalen mindestens basierend auf den vorhergesagten Positions- und Ausrichtungsparametern. 5 zeigt ein Verfahren zum Verbessern des dreidimensionalen Audio-Renderings gemäß den Offenbarungen der 1-4.
1 zeigt eine schematische Draufsicht 100 eines Kopfes 110 eines Benutzers eines Sitzes und eine Kopfstütze 120 des Sitzes. Der Benutzer und der Sitz können sich innerhalb einer Umgebung befinden, für die ein Audiosystem Geräusche liefert, zum Beispiel über Lautsprecher an vorbestimmten Positionen innerhalb der Umgebung.
Der Kopf 110 kann relativ unbeweglich sein oder sich von Zeit zu Zeit bewegen oder in relativ ständiger Bewegung sein, und der Kopf 110 kann zu beliebigen Zeiten zwischen diesen Aktivitätsstufen wechseln. Eine Position und/oder Ausrichtung des Kopfes 110, entweder innerhalb der Umgebung oder relativ zu der Kopfstütze 120 (und/oder dem dazugehörigen Sitz), kann sich dementsprechend im Laufe der Zeit ändern. Zum Beispiel kann sich der Kopf 110 so bewegen, dass sich die Distanz von (oder zwischen) einem Punkt auf der Kopfstütze 120 und einem Punkt auf dem Kopf 110 mit der Zeit ändert. Ähnlich kann sich der Kopf 110 bewegen, sodass sich die Drehung des Kopfes 110 (z. B. in Bezug auf die dreidimensionalen Koordinaten der Kopfstütze, des Sitzes und/oder der Umgebung) im Laufe der Zeit ändern kann. Als Ergebnis kann ein Audiosystem, das einen dreidimensionalen Audio-Rendering-Prozess durchführt, mit dem Zweck, dem Benutzer des Sitzes ein immersives Audioerlebnis zu liefern, vorteilhafterweise Informationen über die Position und/oder Ausrichtung des Kopfes 110 verwenden, um sein Audio-Rendering fein abzustimmen und anderweitig zu verbessern.
2 zeigt eine schematische Draufsicht 200 eines Kopfes 210, einer Kopfstütze 220 und ein maschinelles Lernmodell 230 während einer Trainingsperiode. Kopf 210 und Kopfstütze 220 können im Wesentlichen ähnlich wie Kopf 110 und Kopfstütze 120 sein.
Eine Vorrichtung zur Bewegungsverfolgung 212 ist an Kopf 210 montiert. In verschiedenen Ausführungsformen kann die Vorrichtung zur Bewegungsverfolgung 212 so betrieben werden, dass sie verschiedene Arten der Kopfverfolgung durchführt, wie etwa videobasierte und/oder kamerabasierte Kopfverfolgung. Die Vorrichtung zur Bewegungsverfolgung 212 kann einen oder mehrere Ausgänge H aufweisen, um verschiedene Parameter zu übermitteln, die eine Position und/oder Ausrichtung des Kopfes 210 betreffen. In verschiedenen Ausführungsformen können die Ausgaben H der Vorrichtung zur Bewegungsverfolgung 212 einen Satz von einem oder mehreren Übersetzungsparametern und/oder einen Satz von einem oder mehreren Quaternionenparametern umfassen. In einigen Ausführungsformen können die Ausgaben H mindestens drei Übersetzungsparameter umfassen. Für einige Ausführungsformen können die Ausgaben H mindestens vier Quaternionsparameter umfassen.
Inzwischen sind ein erster Sensor 222, ein zweiter Sensor 224 und ein dritter Sensor 226 an festen und/oder anderweitig vorbestimmten Positionen an der Kopfstütze 220 montiert. Der erste Sensor 222 kann einen oder mehrere Ausgaben S₁ aufweisen, der zweite Sensor 224 einen oder mehrere Ausgaben S₂ aufweisen und der dritte Sensor 226 kann einen oder mehrere Ausgaben S₃ aufweisen. In einigen Ausführungsformen können Sensorausgaben S₁, S₂ und/oder S₃ Distanzen zwischen dem Kopf 210 und denjeweils entsprechenden Sensoren übertragen.
Ausgaben H der Vorrichtung zur Bewegungsverfolgung 212 und Ausgaben S₁, S₂ und/oder S₃ des ersten Sensors 222, des zweiten Sensors 224 und des dritten Sensors 226 können einem maschinellen Lernmodell 130 bereitgestellt werden. Das maschinelle Lernmodell 130 kann einen Trainingsprozess durchlaufen, bei dem es einen sehr großen Satz von Eingabedaten akzeptiert, die von seinen Eingaben aufgenommen wurden, und iterativ eine Fähigkeit zur Vorhersage von Werten der Ausgaben H basierend auf Werten der Ausgaben S₁, S₂ und/oder S₃ verfeinert.
Sobald das maschinelle Lernmodell 130 in einem wünschenswerten Ausmaß trainiert wurde (z. B. zur Vorhersage von Ausgabewerten H), kann die Trainingsperiode enden und die normale Operation beginnen.
3 zeigt eine schematische Draufsicht 300 eines Kopfes 310, einer Kopfstütze 320 und eines maschinellen Lernmodells 330 während der normalen Operation. Der Kopf 310 und die Kopfstütze 320 können im Wesentlichen dem Kopf 110 und der Kopfstütze 120 ähnlich sein, und das maschinelle Lernmodell 330 kann im Wesentlichen dem maschinellen Lernmodell 230 ähnlich sein.
Ein erster Sensor 322, ein zweiter Sensor 324 und ein dritter Sensor 326 sind an der Kopfstütze 220 an festen und/oder anderweitig vorbestimmten Positionen montiert. Es ist jedoch keine Vorrichtung zur Bewegungsverfolgung auf dem Kopf 310 montiert. Stattdessen kann das maschinelle Lernmodell 330 als Eingaben die Sensorausgaben S₁, S₂ und/oder S₃ akzeptieren und als Ausgaben vorhergesagte Positionsparameter und/oder Ausrichtungsparameter P(Q₁,D_X,Y,Z) basierend auf den Sensorausgaben erzeugen. In verschiedenen Ausführungsformen können die Ausgaben P(Q₁,D_X,Y,Z) mindestens drei Übersetzungsparameter und/oder mindestens vier Quaternionsparameter umfassen.
Unter Bezugnahme auf 2 und 3 können die hier offenbarten maschinellen Lernmodelle so betrieben werden, dass sie gegen die Ausgaben H einer Vorrichtung zur Bewegungsverfolgung und/oder die Ausgaben S₁ bis S_N einer Vielzahl von Sensoren trainieren. In einigen Ausführungsformen können mindestens zwei Sensoren vorhanden sein, während in anderen Ausführungsformen mindestens vier Sensoren vorhanden sein können. Die Datensätze, die zum Trainieren des Modells verwendet werden, können eine einzelne Stichprobe von Ausgaben umfassen, die zu einem einzigen Zeitpunkt genommen wurde, oder sie können eine Vielzahl von Stichproben von Ausgaben umfassen, die zu einer entsprechenden Vielzahl von Zeitpunkten genommen wurde.
In verschiedenen Ausführungsformen kann eine Vielzahl von Sensoren, die Ausgaben S₁ bis S_N bereitgestellt haben, kapazitive Sensoren, sehr hochfrequente Audiosensoren, Laser-Range-Sensoren, Infrarotsensoren und/oder RADAR-Sensoren mit Submillimeter-Wellenlänge umfassen. Bei verschiedenen Ausführungsformen kann die Vielzahl von Sensoren mindestens einen Sensor, der sich an einer Hinterkopfposition der Kopfstütze befindet, und mindestens einen Sensor, der sich an einer Seitenkopfposition der Kopfstütze befindet, umfassen.
In einigen Ausführungsformen können die hier offenbarten maschinellen Lernmodelle eine Abtastperiode für die Eingabe und/oder eine Vorhersageperiode für die Ausgabe von weniger als oder gleich 10 Millisekunden aufweisen. Bei einigen Ausführungsformen kann die Abtastperiode für die Eingabe und/oder die Vorhersageperiode für die Ausgabe weniger als oder gleich 5 Millisekunden betragen. Bei verschiedenen Ausführungsformen kann die Abtastperiode für die Eingabe und/oder die Vorhersageperiode für die Ausgabe ausreichen, um mindestens 100 Parametervorhersagen pro Sekunde, oder mindestens 150 Parametervorhersagen pro Sekunde, oder mindestens 200 Parametervorhersagen pro Sekunde zu erzeugen. Die Parametervorhersagen können dementsprechend mit einer vorteilhaft hohen Rate bereitgestellt werden (im Vergleich zum kamerabasierten und/oder videobasierten Verfolgen des Kopfes, das Daten mit einer Videoauffrischungsrate von z. B. 30 Hertz oder 60 Hertz erhalten könnte). Diese relativ hohen Raten können wiederum vorteilhaft für eine Aktualisierungsrate der Positionierung und Ausrichtung sein, die hoch genug ist, um ein angenehmeres dreidimensionales gerendertes Audio zu unterstützen.
4 zeigt eine schematische Draufsicht 400 eines Kopfes 410, einer Kopfstütze 420 und Teile eines Audiosystems 440 während der normalen Operation. Kopf 410 und Kopfstütze 420 können im Wesentlichen Kopf 110 und Kopfstütze 120 ähnlich sein.
Audiosystem 440 kann eine erste Vorrichtung für die Audioausgabe 442 (z. B. einen ersten Lautsprecher) und eine zweite Vorrichtung für die Audioausgabe 444 (z. B. einen zweiten Lautsprecher) umfassen. Das Audiosystem 440 kann als Eingabe verschiedene Positionsparameter und/oder Orientierungsparameter P(Q₁,D_X,Y,Z) akzeptieren. Audiosystem 440 kann die Positionsparameter und/oder Ausrichtungsparameter P(Q₁,D_X,Y,Z) zur Feinabstimmung der dreidimensionalen Audiosignale verwenden, die es der ersten Audioausgabevorrichtung 442 und/oder der zweiten Audioausgabevorrichtung 444 bereitstellt.
In verschiedenen Ausführungsformen kann ein maschinelles Lernmodell (wie das maschinelle Lernmodell 230) dem Audiosystem 440 Positionsparameter und/oder Ausrichtungsparameter P(Q₁,D_X,Y,Z) bereitstellen, die den Kopf 410 betreffen. Von dort aus kann das Audiosystem 440 dreidimensionale Audioausgaben für die erste Audioausgabevorrichtung 442 und/oder die zweite Audioausgabevorrichtung 444 rendern, wobei die Positionsparameter und/oder Ausrichtungsparameter P(Q₁,D_X,Y,Z) berücksichtigt werden.
Da P(Q₁,D_X,Y,Z) Sätze von vorhergesagten Übersetzungsparametern und Quaternionenparametern aus einem hier offenbaren maschinellen Lernmodell beinhalten kann, kann P(Q₁,D_X,Y,Z) es dem Audiosystem 440 vorteilhaft erleichtern, ein fein abgestimmtes Audio-Rendering für den Kopf 410 bereitzustellen, wobei die Position und/oder die Ausrichtung des Kopfes 410 relativ zu der Kopfstütze 420 berücksichtigt wird. Aus Gründen, die hier ferner offenbart werden, kann das fein abgestimmte Audio-Rendering in höherer Qualität und/oder mit geringerem Aufwand bereitgestellt werden als ein ähnliches fein abgestimmtes Audio-Rendering mit anderen Ansätzen (z. B. videobasierte und/oder kamerabasierte Ansätze).
5 zeigt ein Verfahren 500 zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering unter Bezugnahme auf die in 1-4 offenbarten Strukturen. Verfahren 500 umfasst einen ersten Teil 510, einen zweiten Teil 520, einen dritten Teil 530, einen vierten Teil 540, und/oder einen fünften Teil 550.
Im ersten Teil 510 kann eine Vielzahl von Sensoren Ausgaben von einer jeweils entsprechenden Vielzahl von Sensoren an festen Positionen an einer Kopfstütze eines Sitzes (wie der Kopfstütze 120) erhalten. Im zweiten Teil 520 kann die Vielzahl der Sensoren als Eingaben für ein maschinelles Lernmodell (wie das maschinelle Lernmodell 230) bereitgestellt werden. Im dritten Teil 530 kann ein Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter von dem maschinellen Lernmodell empfangen werden, und im vierten Teil 540 können die Vorhersagen einer Vorrichtung für das Audio-Rendering von dreidimensionalen Audiosignalen für die Kopfstütze bereitgestellt werden (wie dem Audiosystem 440).
In einigen Ausführungsformen kann im fünften Teil 550 eine Vielzahl von dreidimensionalen Audio-Ausgaben für die Kopfstütze gerendert werden, die mindestens teilweise auf dem Satz von Übersetzungs- und Quaternionenparameter-Vorhersagen basiert. In einigen Ausführungsformen kann die Vielzahl der Sensoren eine Vielzahl von Ausgaben über eine Vielzahl von Zeitpunkten in einer Zeitreihe bereitstellen. In einigen Ausführungsformen kann eine Abtastperiode der Zeitreihe weniger als oder gleich 10 Millisekunden betragen. In einigen Ausführungsformen kann eine Abtastperiode der Zeitreihe weniger als oder gleich 5 Millisekunden betragen.
Bei einigen Ausführungsformen kann die Vielzahl der Sensorausgaben Distanzen zwischen den entsprechenden Sensoren und dem Kopf eines Sitzbenutzers beinhalten. Bei einigen Ausführungsformen können die Merkmale für das Training des maschinellen Lernmodells eine oder mehrere Ausgaben des am Kopf montierten Bewegungssensors beinhalten. In einigen Ausführungsformen können die Merkmale für das Training des maschinellen Lernmodells Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten beinhalten.
Bei einigen Ausführungsformen beinhaltet der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter. In einigen Ausführungsformen kann die Vielzahl von Sensoren kapazitive Sensoren, sehr hochfrequente Audiosensoren, Laser-Reichweitensensoren, Infrarotsensoren und/oder RADAR-Sensoren mit Submillimeter-Wellenlänge umfassen. Bei einigen Ausführungsformen kann die Vielzahl der Sensoren mindestens zwei Sensoren umfassen.
In einigen Ausführungsformen umfasst die Vielzahl der Sensoren mindestens vier Sensoren. Bei einigen Ausführungsformen kann die Vielzahl von Sensoren mindestens einen Sensor an einer Hinterkopfposition der Kopfstütze, und mindestens einen Sensor an einer Seitenkopfposition der Kopfstütze, umfassen.
In verschiedenen Ausführungsformen können die hier offenbarten maschinellen Lernmodelle und/oder Audiosysteme einen oder mehrere Prozessoren und einen Speicher mit ausführbaren Anweisungen umfassen, die, wenn sie ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen, Operationen durchzuführen, die verschiedenen Teilen der hier offenbarten Verfahren betreffen. Dementsprechend können Anweisungen zur Durchführung des Verfahrens 500 von einem oder mehreren Prozessoren ausgeführt werden, Anweisungen, die in einem Speicher der Prozessoren gespeichert sind, und in Verbindung mit Signalen, die z. B. von Sensorausgaben empfangen werden
6 zeigt ein System 600 zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering. Das System 600 kann ein Gehäuse 610, eine Leistungsquelle 620, eine Verbindungsplatine 630, einen oder mehrere Prozessoren 640, einen oder mehrere nicht flüchtige Speicher 650, eine oder mehrere Eingabe/Ausgabe(E/A)-Schnittstellen 660 und/oder ein oder mehrere Medienlaufwerke 670 umfassen.
Speicher 650 können ausführbare Anweisungen aufweisen, die, wenn sie ausgeführt werden, die Prozessoren 640 veranlassen, verschiedene Operationen durchzuführen, wie sie hier offenbart sind. E/A-Schnittstellen 660 können zum Beispiel eine oder mehrere Schnittstellen für kabelgebundene Verbindungen (z. B. Ethernet-Verbindungen) und/oder eine oder mehrere Schnittstellen für drahtlose Verbindungen (z. B. Wi-Fi und/oder Mobilfunkverbindungen) beinhalten.
System 600 (und/oder andere hier offenbare Systeme und Vorrichtungen) können in Übereinstimmung mit den hier besprochenen Systemen konfiguriert werden. Zum Beispiel kann das System 600 in einem Szenario eingesetzt werden, das den in Ansicht 200, Ansicht 300 und/oder Ansicht 400 dargestellten Szenarien im Wesentlichen ähnlich ist, und/oder ein Verfahren durchführen, das dem Verfahren 500 im Wesentlichen ähnlich ist. Daher können die gleichen Vorteile, die für die hier besprochenen Ansichten und Verfahren gelten, auch auf das System 600 angewendet werden.
7 zeigt ein System 700 zum Verbessern des Verfolgens des Kopfes für dreidimensionales Audio-Rendering. System 700 kann ein Gehäuse 710, eine Leistungsquelle 720, einen oder mehrere Prozessoren 740, einen oder mehrere Speicher 750, eine oder mehrere Antennen 760 und/oder einen Anzeigebildschirm 780 umfassen.
Speicher 750 können ausführbare Anweisungen aufweisen, die, wenn sie ausgeführt werden, die Prozessoren 740 veranlassen, verschiedene Operationen durchzuführen, wie sie hier offenbart sind.
System 700 (und/oder andere hier offenbare Systeme und Vorrichtungen) können in Übereinstimmung mit den hier besprochenen Systemen konfiguriert werden. Zum Beispiel kann das System 700 in einem Szenario eingesetzt werden, das den in Ansicht 200, Ansicht 300 und/oder Ansicht 400 dargestellten Szenarien im Wesentlichen ähnlich ist, und/oder ein Verfahren durchführen, das dem Verfahren 500 im Wesentlichen ähnlich ist. Daher können die gleichen Vorteile, die für die hier besprochenen Ansichten und Verfahren gelten, auch auf das System 700 angewendet werden.
8 zeigt ein künstliches neuronales Netz 800 zum Verbesserm des Verfolgens des Kopfes für dreidimensionales Audio-Rendering. Das künstliche neuronale Netz 800 kann im Allgemeinen eine Architektur des maschinellen Lernens aufweisen. In einigen Ausführungsformen kann das künstliche neuronale Netz 800 ein Feedforward neuronales Netz umfassen und Perzeptronen, mehrschichtige Perzeptronen und/oder ein radiales Basisnetz einbeziehen. Bei einigen Ausführungsformen kann das künstliche neuronale Netz 800 ein rekurrentes neuronales Netz umfassen. In einigen Ausführungsformen kann das künstliche neuronale Netz 800 eine oder mehrere Convolutional Neural Network(CNN)-Schichten mit einbeziehen und/oder eine Deep Learning-Architektur aufweisen, z. B. ein Deep neuronales Netz (DNN) einbeziehen.
In einigen Ausführungsformen kann das künstliche neuronale Netz 800 in erster Linie in Schaltkreisen oder Hardware implementiert werden, während in anderen Ausführungsformen das künstliche neuronale Netz 800 in erster Linie von einem System zur Verbesserung des Verfolgens des Kopfes für dreidimensionales Audio-Rendering implementiert werden kann, wie System 600 von 6 oder System 700 von 7. In verschiedenen Ausführungsformen kann das künstliche neuronale Netz 800 teilweise in Schaltkreisen und teilweise in einem System wie dem System 600 von 6 oder dem System 700 von 7 implementiert sein. Einige Ausführungsformen des künstlichen neuronalen Netzes 800 können eine oder mehrere KI-Beschleuniger-Vorrichtungen enthalten. Darüber hinaus können in einigen Ausführungsformen einige Teile des künstlichen neuronalen Netzes 800 im System 600 implementiert werden (z. B. als Cloud-basierte und/oder zentralisierte Rechnervorrichtungen oder Server), während andere Teile des künstlichen neuronalen Netzes 800 im System 700 implementiert werden können (z. B. als Edge-Vorrichtungen und/oder Benutzergeräte), zum Beispiel als Teil einer föderierten Lernarchitektur, ob zentralisiert oder dezentralisiert, und/oder als Teil einer verteilten Architektur für künstliche Intelligenz.
Das künstliche neuronale Netz 800 weist eine Eingabeschicht 801, eine oder mehrere versteckte Schichten 805 und eine Ausgabeschicht 809 auf. Die Eingabeschicht 801 weist eine Vielzahl von Eingaben 810 auf, die eine erste Eingabe 811, eine zweite Eingabe 812 und so weiter bis zu einer N-ten Eingabe 819 beinhalten können. In verschiedenen Ausführungsformen können die Eingaben 810 zum Beispiel Ausgaben der Vielzahl von Sensoren beinhalten, die an vorbestimmten Positionen und/oder Ausrichtungen in Bezug auf einen Sitz oder in Bezug auf einen Teil eines Sitzes verteilt sind (ob Einzelwerte davon, Zeitreihenwerte davon oder beides), und/oder Ausgaben der Vielzahl von am Kopf montierten Sensoren (ob Einzelwerte davon, Zeitreihenwerte davon; und/oder beides) aus 2-4. Die Ausgabeschicht 809 weist eine oder mehrere Ausgaben 890 auf, die eine erste Ausgabe 891, eine zweite Ausgabe 892 und so weiter bis zu einer N-ten Ausgabe 899 beinhalten können. In verschiedenen Ausführungsformen können die Ausgaben 890 zum Beispiel Vorhersagen zu Positions- und/oder Ausrichtungsparametern des Kopfes eines Benutzers aus 2-4 beinhalten. Versteckte Schichten 805 können Schichten des neuronalen Netzes sein (z. B. Schichten der mathematischen Manipulation) und können eine oder mehrere Deep-Learning-Architektur-Schichten implementieren (z. B. CNN-Schichten).
In einigen Ausführungsformen kann das künstliche neuronale Netz 800 eine Deep-Learning-Architektur und/oder eine Architektur aufweisen, bei der die verborgenen Schichten 805 eine oder mehrere Schichten beinhalten (z. B. Convolutional Neural Network-Schichten und/oder Deep-Learning-Architektur-Schichten). Jede Schicht kann wiederum eine Vielzahl von Knoten umfassen, von denen jeder Werte als Eingaben akzeptiert, die von verschiedenen Knoten der vorhergehenden Schicht und/oder verschiedenen Eingaben 810 (z. B. in der ersten Schicht) bereitgestellt werden, und jeder Knoten kann eine gewichtete Funktion der Eingabewerte als Ausgabe bereitstellen (z. B. verfügbar für Knoten der nachfolgenden Schichten).
In verschiedenen Ausführungsformen kann das künstliche neuronale Netz 800 daher so trainiert werden, dass es die über die Eingaben 810 bereitgestellten Sätze von Werten (z. B. Merkmale oder Parameter) verwendet oder auf andere Weise lernt, diese zu verwenden, um Sätze von Werten für die Ausgaben 890 vorherzusagen.
In verschiedenen Ausführungsformen kann das künstliche neuronale Netz 800 eine Architektur aufweisen, die Nutzungsmodelle des überwachten Lernens, Nutzungsmodelle des unüberwachten Lernens, Nutzungsmodelle des halbüberwachten und/oder schwach überwachten Lernens und/oder Nutzungsmodelle des verstärkten Lernens berücksichtigt. In einigen Ausführungsformen kann ein Nutzungsmodell mit überwachtem Lernen auf Perzeptronen (z. B. mehrschichtigen Perzeptronen) basieren. Bei einigen Ausführungsformen kann ein Nutzungsmodell mit überwachtem Lernen auf Bayes-Klassifikatoren (z. B. naiven Bayes-Klassifikatoren), Entscheidungsbäumen, K-nearest-neighbor-Algorithmen, linearer Diskriminanzanalyse, linearen Regressionen, logistischen Regressionen, Ähnlichkeitslernen und/oder Support-Vektor-Maschinen basieren. In einigen Ausführungsformen kann ein Nutzungsmodell mit unüberwachtem Lernen auf einer Vielzahl von Netzen basieren, wie Deep Belief Networks, Heimholtz-Maschinen, Hopfield-Netze (z. B. inhaltsadressierbare Speicher), Boltzmann-Maschinen (einschließlich eingeschränkter Boltzmann-Maschinen), Sigmoid Belief Nets, Autocodierer und/oder Variationsautocodierer.
In verschiedenen Ausführungsformen kann das künstliche neuronale Netz 800 eine Architektur aufweisen, die das Lernen von Merkmalen - unter Verwendung von überwachtem Lernen und/oder unüberwachtem Lernen - ermöglicht, um Eingabedaten umzuwandeln (z. B. Informationen, die dem künstlichen neuronalen Netz 800 in der Eingabeschicht 801 bereitgestellt werden). In einigen Ausführungsformen kann das Lernen von Merkmalen als Vorverarbeitungsschritt implementiert werden (z. B. Umwandlung der Eingaben in der Eingabeschicht 801 und Bereitstellen der umgewandelten Eingaben für die versteckten Schichten 805).
In einigen Ausführungsformen kann das künstliche neuronale Netz 800 eine Vielzahl von Teilnetzen umfassen (die ihrerseits dem hier beschriebenen künstlichen neuronalen Netz 800 ähnlich sein können). Die Teilnetze können im Wesentlichen ähnliche oder sogar identische interne Architekturen aufweisen, oder sie können im Wesentlichen unterschiedliche interne Architekturen aufweisen, und jedes kann einen Satz von Eingaben verarbeiten, der aus den Eingaben 810 und/oder Ausgaben eines oder mehrerer anderer Teilnetze des künstlichen neuronalen Netzes 800 ausgewählt wurde. Das künstliche neuronale Netz 800 kann dementsprechend eine iterative oder rekursive Struktur zwischen den Teilnetzen und/oder eine Parallelverarbeitungsstruktur zwischen den Teilnetzen aufweisen.
In einigen Ausführungsformen kann dem künstlichen neuronalen Netz 800 in einer Trainingsphase ein Satz von Eingaben bereitgestellt werden, der eine oder mehrere der folgenden Eingaben enthält: Ausgaben der Vielzahl von Sensoren beinhalten, die an vorbestimmten Positionen und/oder Ausrichtungen in Bezug auf einen Sitz oder in Bezug auf einen Teil eines Sitzes verteilt sind (ob Einzelwerte davon, Zeitreihenwerte davon oder beides), und/oder Ausgaben der Vielzahl von am Kopf montierten Sensoren (ob Einzelwerte davon, Zeitreihenwerte davon; und/oder beides) aus 2-4. Der Satz von Eingaben kann zusammen mit einer Kennzeichnung oder einem anderen Indikator dafür bereitgestellt werden, ob der Satz von Eingaben ein Kriterium erfüllt, für dessen Vorhersage das künstliche neuronale Netz 800 trainiert werden soll oder nicht. In einigen Ausführungsformen kann das Kriterium ein Parameter sein, der einen von zwei möglichen Werten aufweist (z. B. einen „wahr“- oder „falsch“-Wert, oder einen „1“- oder ,,0"-Wert). Bei einigen Ausführungsformen kann das Kriterium selbst ein Parameter sein, der eine Reihe von Werten aufweist (z. B. eine Reihe von numerischen Werten, ob diskret oder im Wesentlichen kontinuierlich). Eine solche Trainingsphase kann für Ausführungsformen des künstlichen neuronalen Netzes 800 verwendet werden, die eine Architektur aufweisen, die zum Beispiel Nutzungsmodelle mit überwachtem Lernen oder mit halbüberwachtem Lernen ermöglicht. Sobald das künstliche neuronale Netz 800 die Eingaben verarbeitet hat, kann es sich bei dem künstlichen neuronalen Netz 800 um ein trainiertes künstliches neuronales Netz handeln, das angewendet werden kann, um über die Ausgaben 890 Vorhersagen darüber zu treffen, ob ein nachfolgender Satz von Eingaben die Kriterien erfüllt, für dessen Vorhersage es trainiert worden ist.
In einigen Ausführungsformen wird ein Fehler durch die Konvolutions- und/oder Dekonvolutionsfilter des künstlichen neuronalen Netzes 800 zurückübertragen, was zu Anpassungen der verschiedenen Gewichtungen der verborgenen Schichten 805 des künstlichen neuronalen Netzes 800 führt, um die Genauigkeit des künstlichen neuronalen Netzes 800 zu erhöhen, bis der Fehler konvergiert. Bei einigen Ausführungsformen kann die Rückübertragung des Verlusts nach einem Gradientenabstiegsalgorithmus oder nach einem anderen Verfahren der Rückübertragung erfolgen. In einigen Ausführungsformen können den Eingaben 810 Wertesätze zugeführt werden, um das künstliche neuronale Netz 800 so lange zu trainieren, bis die Änderungsrate (z. B. der Gewichte der versteckten Schichten 805) kleiner als ein Schwellenwert ist.
Das künstliche neuronale Netz 800 kann dementsprechend verwendet werden, um Algorithmen des maschinellen Lernens zu implementieren, die mehrere Schichten nichtlinearer Verarbeitungseinheiten für die Merkmalsextraktion und die Umwandlung der von den Eingaben empfangenen Daten (augenblicklich und historisch) verwenden, wobei jede Schicht die Ausgaben von mindestens einer anderen (z. B. früheren) Schicht verwendet. Die Algorithmen des maschinellen Lernens können Musteranalyse, Ereignis- und/oder Datenklassifizierung, Objekt-Bild- und/oder Spracherkennung, Verarbeitung natürlicher Sprache und/oder andere Verarbeitungen unter Verwendung von künstlichen neuronalen Netzen/Deep neuronalen Netzen, propositionalen Formeln, Kreditvergabepfaden (z. B. Ketten von Transformationen von der Eingabe zur Ausgabe, um kausale Verbindungen zwischen Eingabe und Ausgabe zu beschreiben), generativen Modellen (z. B. Knoten in Deep Belief Networks und Deep Boltzmann Machines) durchführen. In verschiedenen Ausführungsformen kann das künstliche neuronale Netz 800 ferner eine oder mehrere dicht verbundene Schichten, eine oder mehrere Pooling-Schichten, eine oder mehrere Up-Sampling-Schichten, eine oder mehrere ReLU-Schichten und/oder beliebige andere Schichten umfassen, die in der Technik des maschinellen Lernens üblich sind.
Die Beschreibung der Ausführungsformen wurde zur Veranschaulichung und Beschreibung dargelegt. Geeignete Modifikationen und Variationen der Ausführungsformen können im Lichte der vorstehenden Beschreibung oder durch Praktizieren der Verfahren erworben werden. Beispielsweise können, sofern nicht anders angegeben, eines oder mehrere der beschriebenen Verfahren von einer geeigneten Vorrichtung und/oder einer Kombination von Vorrichtungen durchgeführt werden, wie die oben mit Bezug auf 1-4 beschriebenen maschinellen Lernmodelle und Audiosysteme. Die Verfahren können durch die Ausführung gespeicherter Anweisungen mit einer oder mehreren logischen Vorrichtungen (z. B. Prozessoren) in Kombination mit einem oder mehreren zusätzlichen Hardwareelementen wie Speichervorrichtungen, Speicher, Bildsensoren/Objektivsystemen, Lichtsensoren, Hardware-Netzschnittstellen/Antennen, Schaltern, Aktuatoren, Taktschaltungen usw. durchgeführt werden. Die beschriebenen Verfahren und zugehörigen Handlungen können zusätzlich zu der in dieser Anmeldung beschriebenen Reihenfolge auch in verschiedenen Reihenfolgen parallel und/oder gleichzeitig ausgeführt werden. Die beschriebenen Systeme sind beispielhaft und können zusätzliche Elemente beinhalten und/oder Elemente weglassen. Der Gegenstand der vorliegenden Offenbarung beinhaltet alle neuartigen und nicht naheliegenden Kombinationen und Unterkombinationen der verschiedenen Systeme und Konfigurationen und andere offenbarte Merkmale, Funktionen und/oder Eigenschaften.
Die Offenbarung stellt Unterstützung für ein Verfahren bereit, umfassend: Erhalten einer Vielzahl von Sensorausgaben von einer Vielzahl von Sensoren an festen Positionen an einer Kopfstütze eines Sitzes, Eingeben der Vielzahl von Sensorausgaben in ein maschinelles Lernmodell, Empfangen eines Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern von dem maschinellen Lernmodell und Bereitstellen des Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern an eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen für die Kopfstütze. In einem ersten Beispiel des Verfahrens umfasst das Verfahren ferner: Rendern einer Vielzahl von dreidimensionalen Audioausgaben für die Kopfstütze, die mindestens teilweise auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern basieren. In einem zweiten Beispiel des Verfahrens, optional beinhaltend das erste Beispiel, beinhaltet die Vielzahl von Sensorausgaben Distanzen zwischen der Vielzahl von Sensoren und einem Kopf eines Benutzers des Sitzes. In einem dritten Beispiel des Verfahrens, optional beinhaltend eines oder beide der ersten und zweiten Beispiele, beinhaltet ein Satz von Merkmalen zum Trainieren des maschinellen Lernmodells Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten. In einem vierten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis dritten Beispiele, beinhaltet ein Satz von Merkmalen zum Trainieren des maschinellen Lernmodells eine oder mehrere am Kopf montierte BewegungssensorAusgaben. In einem fünften Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis vierten Beispiele, stellt die Vielzahl von Sensoren eine Vielzahl von Ausgaben über eine Vielzahl von Zeitpunkten in einer Zeitreihe bereit. In einem sechsten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis fünften Beispiele, beträgt eine Abtastperiode der Zeitreihe weniger als oder gleich 10 Millisekunden. In einem siebten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis sechsten Beispiele, beinhaltet der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter. In einem achten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis siebten Beispiele, umfasst die Vielzahl von Sensoren Sensoren aus einer Gruppe bestehend aus: kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Laser-Range-Sensoren, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge. In einem neunten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis achten Beispiele, umfasst die Vielzahl der Sensoren mindestens zwei Sensoren. In einem zehnten Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis neunten Beispiele, umfasst die Vielzahl der Sensoren mindestens vier Sensoren. In einem elften Beispiel des Verfahrens, optional beinhaltend eines oder mehrere oder jedes der ersten bis zehnten Beispiele, umfasst die Vielzahl von Sensoren mindestens einen Sensor an einer Hinterkopfposition der Kopfstütze und mindestens einen Sensor an einer Seitenkopfposition der Kopfstütze.
Die Offenbarung stellt ebenfalls Unterstützung für ein Verfahren zum Verfolgen eines Kopfes innerhalb einer Umgebung bereit, umfassend: Erhalten einer Vielzahl von Sensoren an festen Positionen in der Umgebung, einer Vielzahl von Sensorausgaben, wobei die Vielzahl von Sensoren Distanzen zu dem Kopf misst, Eingeben der Vielzahl von Sensorausgaben in ein maschinelles Lernmodell, das trainiert wird, wobei das maschinelle Lernmodell unter Verwendung eines Satzes von Merkmalen trainiert wird, die die Vielzahl von Sensorausgaben und eine oder mehrere an dem Kopf montierte Bewegungssensorausgaben beinhalten, Empfangen eines Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern von dem maschinellen Lernmodell, um eine oder mehrere dreidimensionale Audioausgaben zu rendern, und Bereitstellen des Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern für eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen. In einem ersten Beispiel des Verfahrens umfasst das Verfahren ferner: Rendern einer Vielzahl von dreidimensionalen Audioausgaben für eine Kopfstütze, die mindestens teilweise auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern basieren. In einem zweiten Beispiel des Verfahrens, optional beinhaltend das erste Beispiel, beinhaltet der Satz von Merkmalen die Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten. In einem dritten Beispiel des Verfahrens, optional beinhaltend eines oder beide der ersten und zweiten Beispiele, umfasst die Vielzahl von Sensoren mindestens vier Sensoren, ausgewählt aus einer Gruppe bestehend aus: kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Sensoren mit Laserreichweite, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge, wobei eine Abtastperiode der Vielzahl von Sensoren kleiner oder gleich 10 Millisekunden ist, und wobei der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter beinhaltet.
Die Offenbarung stellt ebenfalls Unterstützung für ein System zum Verfolgen eines Kopfes in Bezug auf eine Kopfstütze eines Sitzes bereit, umfassend: eine Vielzahl von Sensoren an festen Positionen an der Kopfstütze, einen oder mehrere Prozessoren und einen nicht flüchtigen Speicher mit ausführbaren Anweisungen, die, wenn sie ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen zum: Erhalten einer Vielzahl von Sensorausgaben von der Vielzahl von Sensoren, Eingeben der Vielzahl von Sensorausgaben in ein maschinelles Lernmodell, Empfangen eines Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern von dem maschinellen Lernmodell, Bereitstellen des Satzes von Vorhersagen von Übersetzungs- und Quaternionenparametern für eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen für die Kopfstütze und Rendern einer Vielzahl von dreidimensionalen Audioausgaben für die Kopfstütze mindestens teilweise basierend auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern. In einem ersten Beispiel des Systems umfasst die Vielzahl von Sensoren Sensoren, die ausgewählt sind aus einer Gruppe, bestehend aus: kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Laser-Reichweitensensoren, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge, wobei die Vielzahl von Sensoren mindestens einen Sensor an einer Hinterkopfposition der Kopfstütze und mindestens einen Sensor an einer Seitenkopfposition der Kopfstütze umfasst. In einem zweiten Beispiel des Systems, optional beinhaltend das erste Beispiel, stellt die Vielzahl von Sensoren eine Vielzahl von Ausgaben über eine Vielzahl von Zeitpunkten in einer Zeitreihe bereit, wobei eine Abtastperiode der Zeitreihe weniger als oder gleich 10 Millisekunden beträgt. In einem dritten Beispiel des Systems, optional beinhaltend eines oder beide der ersten und zweiten Beispiele, beinhaltet die Vielzahl von Sensorausgaben Distanzen zwischen der Vielzahl von Sensoren und dem Kopf, wobei ein Satz von Merkmalen zum Trainieren des maschinellen Lernmodells Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten beinhaltet, wobei der Satz von Merkmalen zum Trainieren des maschinellen Lernmodells eine oder mehrere an dem Kopf montierte Bewegungssensorausgaben beinhaltet, und wobei der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter beinhaltet.
Die Begriffe „im Wesentlichen gleich wie“ oder „im Wesentlichen ähnlich“ werden hier so verstanden, dass sie dasselbe bedeuten, mit einer Toleranz für Abweichungen, die ein Fachmann als sinnvoll erachten würde.
Begriffe wie „erste(r)“, „zweite(r)“ und „dritte(r)“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge oder irgendeine Art von angedeuteter Bedeutung für ihre Objekte auferlegen.
Begriffe wie „erste(r)“, „zweite(r)“ und „dritte(r)“ usw. werden lediglich als Bezeichnungen verwendet und sollen ihren Objekten keine numerischen Anforderungen oder eine bestimmte Positionsreihenfolge für ihre Objekte auferlegen.
Wie hierin verwendet, bedeuten Begriffe wie „eine Ausführungsform“, „einige Ausführungsformen“ oder „verschiedene Ausführungsformen“, dass die beschriebenen Merkmale, Strukturen oder Eigenschaften mindestens in einigen Ausführungsformen, aber nicht notwendigerweise in allen Ausführungsformen vorhanden sind. Darüber hinaus betreffen die verschiedenen Erscheinungen dieser Terminologie nicht unbedingt alle dieselben Ausführungsformen.
Wie hierin verwendet, bedeutet die Terminologie, in der Elemente in einer Liste unter Verwendung der Sprache „und/oder“ dargestellt werden, eine beliebige Kombination der aufgeführten Elemente. Zum Beispiel können „A, B und/oder C“ jedes der folgenden bedeuten: A allein; B allein; C allein; A und B; A und C; B und C; oder A, B und C.
Die folgenden Patentansprüche heben bestimmte Kombinationen und Unterkombinationen besonders hervor, die als neuartig und nicht naheliegend erachtet sind. Diese Ansprüche können sich auf „ein“ Element oder „ein erstes“ Element oder das Äquivalent davon beziehen. Derartige Patentansprüche sollten so verstanden werden, dass sie die Einbeziehung eines oder mehrerer derartiger Elemente beinhalten, und weder nur ein solches Element erfordern noch zwei oder mehrere solcher Elemente ausschließen.
Andere Kombinationen und Unterkombinationen der offenbarten Merkmale, Funktionen, Elemente und/oder Eigenschaften können durch Änderung der vorliegenden Ansprüche oder durch Einreichung neuer Ansprüche in dieser oder einer verwandten Anmeldung beansprucht werden. Derartige Patentansprüche werden unabhängig davon, ob sie im Vergleich zu den ursprünglichen Patentansprüchen einen weiteren, engeren, gleichen oder unterschiedlichen Umfang aufweisen, ebenfalls als im Gegenstand der vorliegenden Offenbarung beinhaltet betrachtet.
Die folgenden Patentansprüche heben bestimmte Kombinationen und Unterkombinationen besonders hervor, die als neuartig und nicht naheliegend erachtet sind. Diese Ansprüche können sich auf „ein“ Element oder „ein erstes“ Element oder das Äquivalent davon beziehen. Derartige Patentansprüche sollten derart verstanden werden, dass sie die Einbeziehung eines oder mehrerer derartiger Elemente beinhalten und zwei oder mehr derartige Elemente weder erfordern noch ausschließen. Andere Kombinationen und Unterkombinationen der offenbarten Merkmale, Funktionen, Elemente und/oder Eigenschaften können durch Änderung der vorliegenden Ansprüche oder durch Einreichung neuer Ansprüche in dieser oder einer verwandten Anmeldung beansprucht werden. Derartige Patentansprüche werden unabhängig davon, ob sie im Vergleich zu den ursprünglichen Patentansprüchen einen weiteren, engeren, gleichen oder unterschiedlichen Umfang aufweisen, ebenfalls als im Gegenstand der vorliegenden Offenbarung beinhaltet betrachtet.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

US 63/260176 [0001]

Claims

Verfahren, umfassend: Erhalten einer Vielzahl von Sensorausgaben von einer Vielzahl von Sensoren an festen Positionen an einer Kopfstütze eines Sitzes; Eingeben der Vielzahl von Sensorausgaben in ein maschinelles Lernmodell; Empfangen eines Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter von dem maschinellen Lernmodell; und Bereitstellen des Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter für eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen für die Kopfstütze.
Verfahren nach Anspruch 1, ferner umfassend: Rendern einer Vielzahl von dreidimensionalen Audioausgaben für die Kopfstütze, die mindestens teilweise auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern basieren.
Verfahren nach Anspruch 1, wobei die Vielzahl von Sensorausgaben Distanzen zwischen der Vielzahl von Sensoren und einem Kopf eines Benutzers des Sitzes beinhaltet.
Verfahren nach Anspruch 1, wobei ein Satz von Merkmalen für das Training des maschinellen Lernmodells die Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten beinhaltet.
Verfahren nach Anspruch 1, wobei ein Satz von Merkmalen zum Trainieren des maschinellen Lernmodells eine oder mehrere Ausgaben des am Kopf montierten Bewegungssensors beinhaltet.
Verfahren nach Anspruch 1, wobei die Vielzahl der Sensoren eine Vielzahl von Ausgaben über eine Vielzahl von Zeitpunkten in einer Zeitreihe bereitstellt.
Verfahren nach Anspruch 6, wobei eine Abtastperiode der Zeitreihe weniger als oder gleich 10 Millisekunden beträgt.
Verfahren nach Anspruch 1, wobei der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter beinhaltet.
Verfahren nach Anspruch 1, wobei die Vielzahl von Sensoren Sensoren umfasst, die aus einer Gruppe ausgewählt sind, die aus kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Laser-Entfernungssensoren, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge besteht.
Verfahren nach Anspruch 1, wobei die Vielzahl von Sensoren mindestens zwei Sensoren umfasst.
Verfahren nach Anspruch 1, wobei die Vielzahl der Sensoren mindestens vier Sensoren umfasst.
Verfahren nach Anspruch 1, wobei die Vielzahl von Sensoren mindestens einen Sensor an einer Hinterkopfposition der Kopfstütze und mindestens einen Sensor an einer Seitenkopfposition der Kopfstütze umfasst.
Verfahren zum Verfolgen eines Kopfes innerhalb einer Umgebung, umfassend: Erhalten von einer Vielzahl von Sensoren an festen Positionen in der Umgebung eine Vielzahl von Sensorausgaben, wobei die Vielzahl von Sensoren Distanzen zum Kopf misst; Eingeben der Vielzahl von Sensorausgaben in ein trainiertes maschinelles Lernmodell, wobei das maschinelle Lernmodell unter Verwendung eines Satzes von Merkmalen trainiert wird, der die Vielzahl von Sensorausgaben und eine oder mehrere Ausgaben des am Kopf montierten Bewegungssensors beinhaltet; Empfangen eines Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter zum Rendern einer oder mehrerer dreidimensionaler Audioausgaben von dem maschinellen Lernmodell; und Bereitstellen des Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter für eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen.
Verfahren zum Verfolgen des Kopfes innerhalb der Umgebung nach Anspruch 13, ferner umfassend: Rendern einer Vielzahl von dreidimensionalen Audioausgaben für eine Kopfstütze, die mindestens teilweise auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern basieren.
Verfahren zum Verfolgen des Kopfes innerhalb der Umgebung nach Anspruch 13, wobei der Satz von Merkmalen die Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten beinhaltet.
Verfahren zum Verbessern der Verfolgung des Kopfes innerhalb der Umgebung nach Anspruch 13, wobei die Vielzahl von Sensoren mindestens vier Sensoren umfasst, die aus einer Gruppe ausgewählt sind, die aus kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Laser-Entfernungssensoren, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge besteht; wobei eine Abtastperiode der Vielzahl von Sensoren weniger als oder gleich 10 Millisekunden beträgt; und wobei der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter beinhaltet
System zum Verfolgen eines Kopfes in Bezug auf eine Kopfstütze eines Sitzes, umfassend: eine Vielzahl von Sensoren an festen Positionen an der Kopfstütze; einen oder mehrere Prozessoren; und einen nicht flüchtigen Speicher, der ausführbare Anweisungen aufweist, die, wenn sie ausgeführt werden, den einen oder die mehreren Prozessoren veranlassen zum: Erhalten einer Vielzahl von Sensorausgaben von der Vielzahl von Sensoren; Eingeben der Vielzahl von Sensorausgaben in ein maschinelles Lernmodell; Empfangen eines Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter von dem maschinellen Lernmodell; Bereitstellen des Satzes von Vorhersagen für Übersetzungs- und Quaternionenparameter für eine Vorrichtung zum Rendern von dreidimensionalen Audiosignalen für die Kopfstütze; und Rendern einer Vielzahl von dreidimensionalen Audioausgaben für die Kopfstütze, die mindestens teilweise auf dem Satz von Vorhersagen von Übersetzungs- und Quaternionenparametern basieren.
System zum Verfolgen des Kopfes in Bezug auf die Kopfstütze des Sitzes nach Anspruch 17, wobei die Vielzahl von Sensoren Sensoren umfasst, die aus einer Gruppe ausgewählt sind, die aus kapazitiven Sensoren, sehr hochfrequenten Audiosensoren, Laser-Entfernungssensoren, Infrarotsensoren und RADAR-Sensoren mit Submillimeter-Wellenlänge besteht; und wobei die Vielzahl von Sensoren mindestens einen Sensor an einer Hinterkopfposition der Kopfstütze und mindestens einen Sensor an einer Seitenkopfposition der Kopfstütze umfasst.
System zum Verfolgen des Kopfes in Bezug auf die Kopfstütze des Sitzes nach Anspruch 17, wobei die Vielzahl der Sensoren eine Vielzahl von Ausgaben über eine Vielzahl von Zeitpunkten in einer Zeitreihe bereitstellt; und wobei eine Abtastperiode der Zeitreihe weniger als oder gleich 10 Millisekunden beträgt.
System zum Verfolgen des Kopfes in Bezug auf die Kopfstütze des Sitzes nach Anspruch 17, wobei die Vielzahl von Sensorausgaben Distanzen zwischen der Vielzahl von Sensoren und dem Kopf beinhaltet; wobei ein Satz von Merkmalen für das Training des maschinellen Lernmodells die Ausgaben der Vielzahl von Sensoren zu einer Vielzahl von Zeitpunkten beinhaltet; wobei der Satz von Merkmalen zum Trainieren des maschinellen Lernmodells eine oder mehrere Ausgaben des am Kopf montierten Bewegungssensors beinhaltet; und wobei der Satz von Vorhersagen für Übersetzungs- und Quaternionenparameter mindestens drei Vorhersagen für Übersetzungsparameter und mindestens vier Vorhersagen für Quaternionenparameter beinhaltet.