-
Erfindungsgebiet
-
Die vorliegende Offenbarung betrifft ein Audiosystem, eine Audioreproduktionsvorrichtung, eine Servervorrichtung, ein Audioreproduktionsverfahren und ein Audioreproduktionsprogramm.
-
Allgemeiner Stand der Technik
-
Gegenwärtig ist eine Technologie bekannt, die ein gewünschtes Schallfeld durch Verwenden von mehreren Lautsprechern reproduziert. Eine derartige Schallfeld-Reproduktionstechnik kann einen dreidimensionalen Akustikraum realisieren. Patentliteratur 1 hat eine Akustiksteuervorrichtung offenbart, die einen gewünschten Akustikeffekt unter Verwendung einer kopfbezogenen Transferfunktion erzielen kann.
-
Entgegenhaltungsliste
-
Patentliteratur
-
Patentliteratur 1: japanische offengelegte Patentanmeldung Nr.
2015-228571
-
Offenbarung der Erfindung
-
Technisches Problem
-
Auf solchen Gebieten ist es wünschenswert, ein für einen Benutzer geeignetes Schallfeld zu realisieren. Eine Aufgabe der vorliegenden Offenbarung besteht in der Bereitstellung eines Audiosystems, einer Audioreproduktionsvorrichtung, einer Servervorrichtung, eines Audioreproduktionsverfahrens und eines Audioreproduktionsprogramms, die ein für einen Benutzer geeignetes Schallfeld realisieren können.
-
Lösung des Problems
-
Die vorliegende Offenbarung ist beispielsweise ein Audiosystem, das enthält:
- eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis eingegebener Bilddaten detektiert;
- eine Akustikkoeffizienten-Erfassungseinheit, die einen Akustikkoeffizienten ausgibt, der mit von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziiert ist; und
- eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines durch die Akustikkoeffizienten-Erfassungseinheit erfassten Akustikkoeffizienten durchführt.
-
Die vorliegende Offenbarung ist beispielsweise eine Audioreproduktionsvorrichtung, die enthält:
- eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis der eingegebenen Bilddaten detektiert; und
- eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten durchführt.
-
Die vorliegende Offenbarung ist beispielsweise eine Servervorrichtung, die enthält:
- eine Empfangseinheit, die von einer Audioreproduktionsvorrichtung übertragene Gesichtsdaten empfängt; und
- eine Akustikkoeffizienten-Erfassungseinheit, die die Gesichtsdaten ausgibt; wobei
- die Servervorrichtung einen durch die Akustikkoeffizienten-Erfassungseinheit ausgegebenen Akustikkoeffizienten an die Audioreproduktionsvorrichtung überträgt.
-
Die vorliegende Offenbarung ist beispielsweise ein Audioreproduktionsverfahren, beinhaltend:
- Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
- Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
-
Die vorliegende Offenbarung ist beispielsweise ein Audioreproduktionsprogramm, das bewirkt, dass eine Informationsverarbeitungsvorrichtung durchführt:
- Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
- Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
-
Figurenliste
-
- [1] 1 ist ein Blockdiagramm, das eine Konfiguration einer allgemeinen Reproduktionsvorrichtung zeigt.
- [2] 2 ist ein Diagramm zum Beschreiben eines dreidimensionalen VBAP, das eine Art der Schwenkverarbeitung ist.
- [3] 3 ist ein Blockdiagramm, das ein Audiosystem gemäß dieser Ausführungsform zeigt.
- [4] 4 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Einstellverarbeitung gemäß dieser Ausführungsform zeigt.
- [5] 5 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung gemäß dieser Ausführungsform zeigt.
- [6] 6 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung gemäß dieser Ausführungsform zeigt.
- [7] 7 ist ein Diagramm, das einen Zustand zeigt, in dem Testsignalinformationen angezeigt werden. Modus (Modi) zum Ausführen der Erfindung
-
Im Folgenden wird eine Ausführungsform und dergleichen der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen beschrieben. Es sei angemerkt, dass die Beschreibungen in der folgenden Reihenfolge angegeben werden.
-
<1. Beschreibung allgemeiner Technologien>
-
<2. Ausführungsform>
-
Die unten zu beschreibende Ausführungsform und dergleichen sind günstige spezifische Beispiele der vorliegenden Offenbarung, und die Inhalte der vorliegenden Offenbarung sind nicht auf die Ausführungsform beschränkt.
-
<1. Beschreibung allgemeiner Technologien>
-
Eine objektbasierte Audiotechnologie ist in Filmen, Spielen und dergleichen verwendet worden und Codiertechniken, die das objektbasierte Audio handhaben können, sind ebenfalls entwickelt worden. Beispielsweise sind MPEG-Standards, die die internationalen Standard sind, und dergleichen bekannt.
-
Bei einer derartigen Codiertechnik kann mit der herkömmlichen Zwei-Kanal-Stereotechnik oder Multikanal-Stereotechnik wie etwa 5.1-Kanal eine sich bewegende Schallquelle oder dergleichen als ein unabhängiges Audioobjekt verarbeitet werden und Positionsinformationen des Objekts können als Metadaten mit Signaldaten des Audioobjekts codiert werden. Dadurch kann eine Reproduktion in verschiedenen Betrachtungsumgebungen durchgeführt werden, in denen die Anzahl und Anordnung von Lautsprechern unterschiedlich sind, und es ist möglich, eine bestimmte Schallquelle leicht zu verarbeiten, was in der herkömmlichen Codiertechnik zum Zeitpunkt der Reproduktion schwierig gewesen ist (z. B. Lautstärkensteuerung, Hinzufügen eines Effekts oder dergleichen).
-
1 ist ein Blockdiagramm, das eine Konfiguration einer allgemeinen Reproduktionsvorrichtung 100 zeigt. Die Reproduktionsvorrichtung 100 enthält eine Kerndecodierverarbeitungseinheit 101, eine Wiedergabeverarbeitungseinheit 102 und eine Kopfbezogene-Transferfunktionsverarbeitungseinheit 103. Die Kerndecodierverarbeitungseinheit 101 decodiert einen extern eingegebenen Eingangsbitstrom und gibt ein Audioobjektsignal und Metadaten einschließlich der Objektpositionsinformationen und dergleichen aus. Hier besteht die Aufgabe in der Reproduktion einer oder mehrerer ein Audiosignal bildender Schallquellen, wobei das Audioobjektsignal einem von der Schallquelle emittierten Audiosignal entspricht, und die Objektpositionsinformationen entsprechen der Position eines Objekts, das die Schallquelle ist.
-
Auf Basis des decodierten Audioobjektsignals und der Objektpositionsinformationen führt die Wiedergabeverarbeitungseinheit 102 eine Wiedergabeverarbeitung an in einem virtuellen Raum angeordneten Lautsprechern durch und gibt ein virtuelles Lautsprechersignal aus, indem ein Schallfeld in dem virtuellen Raum reproduziert wird. Die Kopfbezogene-Transferfunktionsverarbeitungseinheit 103 wendet eine allgemeine kopfbezogene Transferfunktion auf das virtuelle Lautsprechersignal an und gibt ein Audiosignal für Kopfhörer oder für eine Lautsprecherreproduktion aus.
-
Hier ist bekannt, dass eine Technik in der Wiedergabeverarbeitungseinheit 102 verwendet wird, die als dreidimensionales vektorbasiertes Amplitudenschwenken (VBAP) bezeichnet wird. Es ist eine von allgemein Schwenken bezeichneten Wiedergabetechniken und ist eine Technik des Durchführens eines Wiedergebens durch Verteilen von Verstärkungsfaktoren auf drei Lautsprecher von Lautsprechern, die auf einer sphärischen Oberfläche mit einer Betrachtungsposition als einem Ursprung präsent sind, die einem Audioobjekt am nächsten liegen, das ebenfalls auf der sphärischen Oberfläche präsent ist.
-
2 ist ein Diagramm zum Beschreiben eines dreidimensionalen VBAP. Es wird angenommen, dass eine Betrachtungsposition U11 als ein Ursprung O gesetzt ist und Schall von einem Audioobjekt VSP2 ausgegeben wird, das auf der sphärischen Oberfläche in dem dreidimensionalen Raum präsent ist. Vorausgesetzt, die Position des Audioobjekts VSP2 ist ein Vektor P, der von dem Ursprung O startet (Betrachtungsposition U11), kann der Vektor P dargestellt werden durch Verteilen der Verstärkungsfaktoren auf Lautsprecher SP1, SP2 und SP3 auf der gleichen sphärischen Oberfläche wie das Audioobjekt VSP2. Deshalb kann der Vektor P ausgedrückt werden wie in Gleichung (1) unter Verwendung von Vektoren L1, L2 und L3, die die Positionen der jeweiligen Lautsprecher SP1, SP2 und SP3 darstellen.
Hier kann, vorausgesetzt, dass g1, g2 und g3 Verstärkungsfaktoren für die Lautsprecher SP1, SP2 bzw. SP3 darstellen und dass g123 = [g1 g2 g3 und L123 = [L1 L2 L3, Gleichung (1) durch Gleichung (2) unten ausgedrückt werden.
-
Das Wiedergeben kann durchgeführt werden durch Verteilen der Audioobjektsignale auf die jeweiligen Lautsprecher SP1, SP2 und SP3 mit den somit bestimmten Verstärkungsfaktoren. Da die Anordnung der Lautsprecher SP1, SP2 und SP3 festliegt und es sich dabei um bekannte Informationen handelt, kann die inverse Matrix L123-1 im Voraus bestimmt werden und kann mit relativ geringer Rechenkomplexität verarbeitet werden.
-
Bei einer derartigen Schwenktechnik ist es möglich, die räumliche Auflösung zu erhöhen durch Anordnen einer großen Anzahl von Lautsprechern in dem Raum. Im Gegensatz zu einem Kino jedoch ist es oftmals schwierig, eine große Anzahl von Lautsprechern in dem Raum eines gewöhnlichen Hauses anzuordnen. Es ist bekannt, dass in einem derartigen Fall Reproduktionssignale einer in dem Raum angeordneten großen Anzahl von virtuellen Lautsprechern in einer auditorischen Approximation mit einer in dem realen Raum angeordneten kleinen Anzahl von Lautsprechern durch transaurale Verarbeitung unter Verwendung einer kopfbezogenen Transferfunktion reproduziert werden können.
-
Andererseits variiert die für die transaurale Verarbeitung verwendete kopfbezogene Transferfunktion stark je nach der Kopf- und Ohrform. Deshalb wird die kopfbezogene Transferfunktion, die für die transaurale Verarbeitung und die binaurale Verarbeitung für auf dem Markt gegenwärtig existierende Kopfhörer beschaffen durch Einsetzen von Mikrofonen in Ohrlöcher eines Attrappenkopfs mit einer mittleren menschlichen Gesichtsform und Messen von Impulsantworten. In der Realität jedoch ist die mittlere kopfbezogene Transferfunktion unzureichend, da sie von der Form und der Anordnung des Gesichts, der Ohren und dergleichen abhängt, was von einem Individuum zu einem anderen Individuum differieren kann, und es ist schwierig, das Schallfeld originalgetreu zu reproduzieren.
-
Das Audiosystem gemäß dieser Ausführungsform wurde angesichts solcher Umstände erschaffen, und eine Aufgabe davon besteht in der Erfassung von Gesichtsdaten von einem durch eine Kamera erfassten Bild unter Verwendung einer Gesichtserkennungstechnik und originalgetreuem Reproduzieren eines Schallfelds für jede individuelle Person unter Verwendung einer personalisierten kopfbezogenen Transferfunktion gemäß den erfassten Gesichtsdaten. Im Folgenden werden verschiedene Ausführungsformen des Audiosystems gemäß dieser Ausführungsform beschrieben.
-
<2. Ausführungsform>
-
3 ist ein Blockdiagramm, das ein Audiosystem gemäß dieser Ausführungsform zeigt. Das Audiosystem enthält eine Reproduktionsvorrichtung 300, die ein Audiosignal ausgibt, und eine Servervorrichtung 200.
-
Die Reproduktionsvorrichtung 300 und die Servervorrichtung 200 sind kommunizierbar miteinander über verschiedene Kommunikationslinien wie etwa das Internet verbunden. Zuerst wird eine Audioreproduktionsfunktion der Reproduktionsvorrichtung 300 beschrieben.
-
Die Audioreproduktionsfunktion in der Reproduktionsvorrichtung 300 wird durch eine Kerndecodierverarbeitungseinheit 301, eine Wiedergabeverarbeitungseinheit 302 und eine Akustikkoeffizienten-Anwendungseinheit 303 realisiert. Die Kerndecodierverarbeitungseinheit 301 hat eine Funktion ähnlich der der oben unter Bezugnahme auf 1 beschriebenen Kerndecodierverarbeitungseinheit 101, decodiert einen eingegebenen Bitstrom und gibt ein Audioobjektsignal und Objektpositionsinformationen (Metainformationen) aus. Die Wiedergabeverarbeitungseinheit 302 weist eine Funktion auf ähnlich der der oben unter Bezugnahme auf 1 beschriebenen Wiedergabeverarbeitungseinheit 102. In der Wiedergabeverarbeitungseinheit 302 wird eine Schwenkverarbeitung wie etwa das oben beschriebene VBAP durchgeführt und ein virtuelles Lautsprechersignal wird ausgegeben. Die Akustikkoeffizienten-Anwendungseinheit 303 gibt ein Audiosignal aus durch Anwenden verschiedener Akustikkoeffizienten auf das eingegebene virtuelle Lautsprechersignal.
-
Als Nächstes wird ein Verfahren beschrieben zum Erfassen verschiedener Akustikkoeffizienten zur Anwendung durch die Akustikkoeffizienten-Anwendungseinheit 303. Die Reproduktionsvorrichtung 300 gemäß dieser Ausführungsform ist in der Lage, Bilddaten zu erfassen, die durch Abbilden eines Nutzers, der ein Zuhörer ist, erhalten werden. Die Bilddaten können von verschiedenen Informationseinrichtungen erfasst werden, die kommunikativ mit der Reproduktionsvorrichtung 300, beispielsweise einem Fernsehgerät, einem intelligenten Lautsprecher, einem PC und dergleichen, verbunden sind. Diese Informationseinrichtungen sind jeweils mit einer Kamera ausgestattet und können den Zustand des Nutzers abbilden, der einem durch die Reproduktionsvorrichtung 300 reproduzierten Audiosignal zuhört. Es sei angemerkt, dass eine Ausführungsform, bei der eine Kamera direkt kommunikativ mit der Reproduktionsvorrichtung 300 verbunden ist, um Bilddaten zu erfassen, anstatt kommunikativ die mit der Kamera ausgestattete Informationseinrichtung mit der Reproduktionsvorrichtung 300 zu verbinden, verwendet werden kann.
-
Zudem kann eine Displayvorrichtung zum Anzeigen verschiedener Typen von Informationen gemäß dieser Ausführungsform mit der Reproduktionsvorrichtung 300 verbunden sein. Die Reproduktionsvorrichtung 300 zeigt verschiedene Typen von Informationen an, um dadurch dem Nutzer zu ermöglichen, einen Akustikkoeffizienten zu wählen. Zudem ist auch eine Eingabevorrichtung zum Wählen des Akustikkoeffizienten mit der Reproduktionsvorrichtung 300 verbunden. Außer einer Fernsteuereinrichtung, einer Tastatur oder einer Maus kann ein Smartphone, das der Nutzer besitzt, kommunikativ angeschlossen und als die Eingabevorrichtung verwendet werden.
-
Als Nächstes wird ein Verfahren zum Erhalten des in der Reproduktionsvorrichtung 300 verwendeten personalisierten Akustikkoeffizienten unter Bezugnahme auf das Flussdiagramm von 4 beschrieben. 4 ist ein Flussdiagramm, das eine in der Reproduktionsvorrichtung 300 verwendete Personalisierte-Akustikkoeffizienten-Einstellverarbeitung zeigt.
-
In der durch die Reproduktionsvorrichtung 300 durchgeführten Personalisierte-Akustikkoeffizienten-Einstellverarbeitung werden die Bilddaten zuerst in eine Gesichtsdaten-Detektionseinheit 300 (S11) eingegeben, und die Gesichtsdaten-Detektionseinheit 304 führt die Gesichtserkennungsverarbeitung auf Basis der Bilddaten aus (S12). Die Gesichtsdaten-Detektionseinheit 304 detektiert Gesichtsdaten auf Basis des Erkennungsergebnisses und gibt sie aus. Eine gewöhnlich verwendete Technologie kann auf die Gesichtserkennungsverarbeitung angewendet werden. Es sei angemerkt, dass die Gesichtsdaten ein aus den Bilddaten extrahierter Gesichtsabschnitt sein können, oder verschiedene Formen wie etwa Gesichtsmerkmalsgrößen wie etwa der Umriss des Gesichts und die Positionen und Größen von Augen, Ohren und Nase können verwendet werden. Zudem können die Gesichtsdaten die Position des Nutzers in einem Hörraum oder die Richtung, in der der Nutzer gewandt ist, enthalten.
-
Die Gesichtsdaten als das Erkennungsergebnis werden an die Servervorrichtung 200 übertragen (S13). Es wird durch eine Gesichtsdatenübertragungseinheit 305 durchgeführt. Die Übertragung zu der Servervorrichtung 200 ist nicht auf physisch verdrahtete oder drahtlose Übertragung beschränkt und ein beliebiges Medium kann dafür verwendet werden. Zudem kann eine leicht verlustbehaftete Kompressionstechnik, in der eine Anpassung auf Basis einer großen Anzahl von Elementen von Gesichtsdaten auf der Servervorrichtung 200 verwendet wird, für das logische Format zusätzlich zu verlustlosen komprimierten und unkomprimierten Formaten verwendet werden.
-
Hier wird ein Verfahren zum Ausgeben des personalisierten Akustikkoeffizienten von den auf der Servervorrichtung 200 empfangenen Gesichtsdaten später beschrieben, und die Beschreibung wird unter der Annahme fortgesetzt, dass der personalisierte Akustikkoeffizient von der Servervorrichtung 200 übertragen wird. In Schritt S14 bestimmt die Reproduktionsvorrichtung 300, ob einer oder mehrere Akustikkoeffizienten von der Servervorrichtung 200 empfangen worden sind (S14). Es wird durch eine Personalisierte-Akustikkoeffizienten-Empfangseinheit 306 durchgeführt. In einem Fall, wo der personalisierte Akustikkoeffizient nicht innerhalb einer vorbestimmten Periode nach der Übertragung der Gesichtsdaten empfangen werden kann, wird die Zeitabschaltung durchgeführt und die Peronalisierte-Akustikkoeffizienten-Einstellverarbeitung wird beendet.
-
Andererseits kann in einem Fall, wo die personalisierten Akustikkoeffizienten von der Servervorrichtung 200 empfangen worden sind (S14: Ja), der Nutzer den empfangenen personalisierten Akustikkoeffizienten wählen. Diese Verarbeitung wird durch eine Personalisierte-Akustiken-Wahleinheit 307 durchgeführt. Der Nutzer wird durch eine mit der Reproduktionsvorrichtung 300 verbundenen Eingabevorrichtung gewählt. In dieser Ausführungsform überträgt die Servervorrichtung 200 mindestens einen Personalisierte-Akustikkoeffizienten-Kandidaten zusätzlich zu einem voreingestellten personalisierten Akustikkoeffizienten. Deshalb kann der Nutzer wählen, ob der voreingestellte personalisierte Akustikkoeffizient oder der Personalisierte-Akustikkoeffizienten-Kandidat verwendet wird. In einem Fall, wo der Nutzer einen personalisierten Akustikkoeffizienten wählt (S15: Ja), reproduziert die Reproduktionsvorrichtung 300 ein Testsignal (S16) und bewirkt, dass die Displayvorrichtung Testsignalinformationen anzeigt (S17). Der Nutzer reproduziert das Testsignal und hört dem von dem Lautsprecher ausgegebenen Audiosignal zu, während er den personalisierten Akustikkoeffizienten umschaltet.
-
7 zeigt ein Beispiel der auf der Displayvorrichtung angezeigten Testsignalinformationen. Eine Bilddisplayeinheit 308 bewirkt, dass die Displayvorrichtung ein Bild auf Basis der Testsignalinformationen anzeigt. In dieser Ausführungsform wird eine sich bewegende Schallquelle A auf Basis der Positionsinformationen unter Verwendung des Ursprungs O als die Mitte angezeigt. Zu diesem Zeitpunkt gibt die Reproduktionsvorrichtung 300 ein Audiosignal auf Basis des Testsignals aus, so dass eine Lokalisierung an den Positionsinformationen der sich bewegenden Schallquelle A unter Verwendung der Betrachtungsposition des Nutzers als den Ursprung O erzielt wird. Hier wird angenommen, dass der Nutzer in der positiven Richtung der X-Achse blickt. Zu diesem Zeitpunkt wird der empfangene personalisierte Akustikkoeffizient als die Akustikkoeffizienten-Anwendungseinheit 303 verwendet. Der Nutzer bestimmt, ob sich der personalisierte Akustikkoeffizient eignet, auf Basis der auf der Displayvorrichtung angezeigten Position der sich bewegenden Schallquelle A und des Schalls, dem der Nutzer zuhört (insbesondere Lokalisierung). 7 zeigt eine Bewegungsbahn der sich bewegenden Schallquelle A durch den Pfeil. Aus der Figur ist ersichtlich, dass die sich bewegende Schallquelle A eine Bewegungsbahn nimmt, um anzusteigen, während sie in diesem Beispiel um den Ursprung O kreist. In diesem Fall hört der Nutzer dem lokalisierten Schall zu, der ansteigt, während er den Nutzer umkreist.
-
In dieser Ausführungsform werden der voreingestellte personalisierte Akustikkoeffizient und der mindestens eine Personalisierte-Akustikkoeffizienten-Kandidat verwendet, um dem Nutzer zu ermöglichen, einen geeigneten personalisierten Akustikkoeffizienten zu wählen. Der Nutzer verwendet die Eingabevorrichtung zum Wählen des personalisierten Akustikkoeffizienten als den Kandidaten wie angebracht und Bestimmen eines geeigneten personalisierten Akustikkoeffizienten (S18). Andererseits wird in einem Fall, wo der personalisierte Akustikkoeffizient nicht gewählt wird (S15: Nein), der empfangene voreingestellte personalisierte Akustikkoeffizient verwendet (S18). Das Wahlergebnis des personalisierten Akustikkoeffizienten wird zu der Servervorrichtung 200 übertragen (S19). Dann stellt die Reproduktionsvorrichtung 300 den bestimmten personalisierten Akustikkoeffizienten auf die Akustikkoeffizienten-Anwendungseinheit 303 ein (S20).
-
Das Obige sind die Details der in der Reproduktionsvorrichtung 300 durchgeführten Personalisierte-Akustikkoeffizienten-Einstellverarbeitung. In dieser Ausführungsform ist es durch Verwenden des von der Servervorrichtung 200 gemäß den übertragenen Gesichtsdaten empfangenen personalisierten Akustikkoeffizienten möglich, ein Schallfeld mit dem personalisierten Akustikkoeffizienten zu reproduzieren, der sich für die Gesichtsdaten eignet, und das Schallfeld getreu zu reproduzieren. Indem dem Benutzer gestattet wird, einen personalisierten Akustikkoeffizienten zu wählen, kann der Nutzer zudem einen geeigneteren personalisierten Akustikkoeffizienten verwenden. Durch Übertragen des Bestimmungsergebnisses des Nutzers zu der Servervorrichtung 200 kann die Servervorrichtung 200 dann eine Lernverarbeitung unter Verwendung des Bestimmungsergebnisses durchführen und den personalisierten Akustikkoeffizienten mit höherer Genauigkeit liefern.
-
Als Nächstes wird die Verarbeitung auf der Seite der Servervorrichtung 200 unter Bezugnahme auf die Flussdiagramme von 5 und 6 beschrieben. 5 ist ein Flussdiagramm, das die durch die Servervorrichtung 200 durchgeführte Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung zeigt. Die Servervorrichtung 200 empfängt die von der Reproduktionsvorrichtung 300 übertragenen Gesichtsdaten zum Starten der Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung. Hier wird eine kopfbezogene Transferfunktion als der personalisierte Akustikkoeffizient gemäß dieser Ausführungsform verwendet. Es ist möglich, ein für jede individuelle Person geeignetes Schallfeld unter Verwendung einer kopfbezogenen Transferfunktion gemäß einer Merkmalsgröße jeder der verschiedenen individuellen Leute auf Basis der Gesichtsdaten zu reproduzieren. Es sei angemerkt, dass der Empfang der Gesichtsdaten und die Übertragung des personalisierten Akustikkoeffizienten durch eine Personalisierte-Akustikkoeffizienten-Erfassungseinheit 201 durchgeführt werden. Wenn die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung gestartet wird, wird in Schritt S21 bestimmt, ob die empfangenen Gesichtsdaten in einer Ablageeinheit 204 existieren.
-
In einem Fall, wo die Gesichtsdaten nicht existieren (S21: Nein), wird ein Koeffizient äquivalent zu dem einer Heruntermischverarbeitung nicht unter Verwendung der kopfbezogenen Transferfunktion als der personalisierte Akustikkoeffizient übertragen (S22). Es sei angemerkt, dass die hier dargelegte Heruntermischverarbeitung beispielsweise eine Verarbeitung bedeutet, um ein Monosignal zu erhalten, indem jeder Stereokanal mit 0,5 multipliziert wird und dies addiert wird beim Umwandeln von Stereo zu Mono. Nach dem Übertragen des personalisierten Akustikkoeffizienten (S22), wird die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung beendet.
-
In einem anderen Fall, wo die Gesichtsdaten existieren (S21: Ja), wird bestimmt, ob mehrere Elemente von Gesichtsdaten existieren oder nicht existieren (S23). Hier ist das Vorliegen der mehreren Elemente von Gesichtsdaten äquivalent zu dem Vorliegen von mehreren Nutzern, die mit der Reproduktionsvorrichtung 300 zuhören. In einem Fall, wo die mehreren Elemente von Gesichtsdaten existieren (S23:Ja), wird ein Koeffizient unter Verwendung einer verallgemeinerten kopfbezogenen Transferfunktion mit einem breiten Hörbereich als der personalisierte Akustikkoeffizient bei der Verarbeitung von S24 übertragen (S24). Es sei angemerkt, dass existierende Techniken für die Verarbeitung des Erweiterns des Hörbereichs verwendet werden können. Zudem bedeutet die hier dargelegte verallgemeinerte kopfbezogene Transferfunktion eine durch Messen erhaltene Funktion, bei der Mikrofone in Ohrlöcher eines als Attrappenkopf bezeichneten Modells eingesetzt werden, was die Formen eines typischen Gesichts und Ohrs simuliert. Nach dem Übertragen des personalisierten Akustikkoeffizienten (S24) wird die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung beendet. Es sei angemerkt, dass in einem Fall, wo die Gesichtsdaten Positionsinformationen jedes Nutzers enthalten, es möglich ist, die Positionen aller Nutzer als Hörbereiche einzustellen und sie als personalisierte Akustikkoeffizienten zu bestimmen.
-
Als Nächstes bestimmt in einem Fall, wo die mehreren Elemente von Gesichtsdaten nicht existieren (S23: Nein), die Servervorrichtung 200, ob die registrierten Gesichtsdaten in der Ablageeinheit 204 existieren (S25). Insbesondere greift die Personalisierte-Akustikkoeffizienten-Erfassungseinheit 201 auf die Ablageeinheit 204 zu und bestimmt, ob die eingegebenen Gesichtsdaten registriert oder nicht registriert worden sind. In einem Fall, wo die Gesichtsdaten existieren (S25: Ja), wird der mit den Gesichtsdaten assoziierte personalisierte Akustikkoeffizient als der voreingestellte personalisierte Akustikkoeffizient übertragen. Zudem wird in dieser Ausführungsform mindestens ein Personalisierte-Akustikkoeffizienten-Kandidat zusammen mit dem voreingestellten personalisierten Akustikkoeffizienten übertragen. Dementsprechend werden mehrere personalisierte Akustikkoeffizienten einschließlich des voreingestellten personalisierten Akustikkoeffizienten zu der Reproduktionsvorrichtung 300 übertragen (S26). Hier ist zum Beispiel der personalisierte Akustikkoeffizient als ein Kandidat ein von dem voreingestellten personalisierten Akustikkoeffizienten verschiedener personalisierter Akustikkoeffizient und wird auf Basis der empfangenen Gesichtsdaten bestimmt oder durch ein Verfahren zum Justieren des voreingestellten personalisierten Akustikkoeffizienten bestimmt.
-
Andererseits werden in einem Fall, wo die Gesichtsdaten nicht in der Ablageeinheit 204 existieren (S25: Nein), mehrere personalisierte Akustikkoeffizienten bestimmt und übertragen durch Analysieren der eingegebenen Gesichtsdaten (S27). Beispielsweise sind das Eingeben der Gesichtsdaten in ein neuronales Netzwerk mit durch Maschinenlernen erhaltenen Lernkoeffizienten und Übertragen von mehreren Personalisierte-Akustikkoeffizienten-Kandidaten in der Reihenfolge der Wahrscheinlichkeit als ein Verfahren zum Analysieren der Gesichtsdaten denkbar. In der Reproduktionsvorrichtung 300 ist der höchste personalisierte Akustikkoeffizient in der Reihenfolge der Wahrscheinlichkeit als Standard eingestellt. Es sei angemerkt, dass die Erfassung des personalisierten Akustikkoeffizienten für die unbekannten Gesichtsdaten auch verwendet wird, wenn die Kandidaten außer dem registrierten personalisierten Akustikkoeffizienten in S26 übertragen werden.
-
Als Nächstes wird eine Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung unter Bezugnahme auf das Flussdiagramm von 6 beschrieben. Die Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung ist eine durch die Servervorrichtung 200 durchgeführte Verarbeitung und ist eine auf Basis des Wahlergebnisses des von der Reproduktionsvorrichtung 300 übertragenen personalisierten Akustikkoeffizienten durchgeführte Verarbeitung. In Schritt S31 empfängt die Servervorrichtung 200 das Wahlergebnis des von der Reproduktionsvorrichtung 300 übertragenen personalisierten Akustikkoeffizienten (S31). Diese Verarbeitung wird in einer Personalisierte-Akustikkoeffizienten-Wahlergebnisempfangseinheit 202 von 3 durchgeführt.
-
In der oben unter Bezugnahme auf 4 beschriebenen Personalisierte-Akustikkoeffizienten-Einstellungsverarbeitung empfängt die Servervorrichtung 200 das Wahlergebnis zusammen mit den Gesichtsdaten. In Schritt S32 zeichnet die Servervorrichtung 200 das Paar aus dem personalisierten Akustikkoeffizienten und den Gesichtsdaten, in der Personalisierte-Akustikkoeffizienten-Einstellverarbeitung empfangen, in der Ablageeinheit 204 auf (S32). In Schritt S33 wird die Lernverarbeitung unter Verwendung des Paars aus dem personalisierten Akustikkoeffizienten und den in der Ablageeinheit 204 gespeicherten Gesichtsdaten durchgeführt (S33). Hier ist die Lernverarbeitung eine Maschinenlernverarbeitung zum Aktualisieren des Bestimmungsalgorithmus der personalisierten Akustikkoeffizienten auf Basis der Gesichtsdaten, und ein existierendes Verfahren wie etwa ein gefaltetes neuronales Netzwerk (CNN) oder ein rückgekoppeltes neuronales Netzwerk (RNN), als tiefe neuronale Netzwerke bekannt, kann als die Maschinenlernverarbeitung angewendet werden. Der aktualisierte Bestimmungsalgorithmus des personalisierten Akustikkoeffizienten wird verwendet, wenn die in 5 beschriebenen Personalisierte-Akustikkoeffizenten-Kandidaten erzeugt werden.
-
Wie oben beschrieben, werden in der Personalisierte-Akustikkoeffizenten-Wiederberechnungsverarbeitung die mehreren personalisierten Akustikkoeffizienten auf Basis der Gesichtsdaten übertragen, so dass der Benutzer einen personalisierten Akustikkoeffizienten wählen kann, und somit kann ein für den Nutzer geeigneter personalisierter Akustikkoeffizent verwendet werden. Weiterhin ist es möglich, einen geeigneteren personalisierten Akustikkoeffizienten bereitzustellen durch Lernen der Beziehung zwischen den Gesichtsdaten und dem personalisierten Akustikkoeffizienten auf Basis des Wahlergebnisses.
-
Es sei angemerkt, dass, obwohl der voreingestellte personalisierte Akustikkoeffizent und der personalisierte Akustikkoeffizent als der Kandidat in dieser Ausführungsform übertragen werden, eine unten zu beschreibende Ausführungsform anstelle einer derartigen Ausführungsform verwendet werden kann. In dieser Ausführungsform überträgt die Servervorrichtung 200 nur den voreingestellten personalisierten Akustikkoeffizienten. Auf der Seite der Reproduktionsvorrichtung 300 kann der Nutzer die Eingabevorrichtung verwenden, um den empfangenen voreingestellten personalisierten Akustikkoeffizienten zu justieren. In der Personalisierte-Akustikkoeffizenten-Einstellungsverarbeitung wird das justierte Ergebnis als das Wahlergebnis zu der Servervorrichtung 200 übertragen. Die Servervorrichtung 200 führt eine Lernverarbeitung auf Basis des Paars des Wahlergebnisses und der Gesichtsdaten durch, um dadurch den Bestimmungsalgorithmus des personalisierten Akustikkoeffizienten zu bestimmen. Es sei angemerkt, dass es auch möglich ist, diese Justierung des personalisierten Akustikkoeffizienten auch für die Wahl unter den mehreren oben beschriebenen personalisierten Akustikkoeffizienten zu verwenden.
-
Gemäß mindestens der Ausführungsform der vorliegenden Offenbarung ist es möglich, ein für den Nutzer geeignetes Schallfeld zu bilden durch Anwenden des Akustikkoeffizienten gemäß den Gesichtsdaten des Nutzers, der dem Audiosignal zuhört. Es sei angemerkt, dass die beschriebenen Effekte nicht notwendigerweise beschränkt sind und beliebige der in der vorliegenden Offenbarung beschriebenen Effekte bereitgestellt werden können. Zudem sollte der Inhalt der vorliegenden Offenbarung nicht als aufgrund der gezeigten Effekte beschränkt ausgelegt werden.
-
Die vorliegende Offenbarung kann auch als eine Vorrichtung, ein Verfahren, ein Programm, ein System oder dergleichen umgesetzt werden. Beispielsweise wird ein Programm zum Durchführen der in der obigen Ausführungsform beschriebenen Funktionen herunterladbar gemacht, und eine Vorrichtung ohne die in der Ausführungsform beschriebenen Funktionen kann die in der Ausführungsform beschriebene Steuerung in der Vorrichtung durchführen durch Herunterladen des Programms. Die vorliegende Offenbarung kann auch als ein Server umgesetzt werden, der ein derartiges Programm verteilt. Zudem können die in der jeweiligen Ausführungsform und modifizierten Beispielen beschriebenen Gegenstände wie angemessen kombiniert werden.
-
Die vorliegende Offenbarung kann auch die folgenden Konfigurationen annehmen.
- (1) Ein Audiosystem, enthaltend:
- eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis eingegebener Bilddaten detektiert;
- eine Akustikkoeffizienten-Erfassungseinheit, die einen Akustikkoeffizienten ausgibt, der mit von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziiert ist; und
- eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines durch die Akustikkoeffizienten-Erfassungseinheit erfassten Akustikkoeffizienten durchführt.
- (2) Das Audiosystem nach (1), bei dem
der Akustikkoeffizient eine kopfbezogene Transferfunktion ist.
- (3) Das Audiosystem nach (1) oder (2), bei dem
die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, ein mit der individuellen Person assoziierten Akustikkoeffizienten als den Akustikkoeffizient ausgibt.
- (4) Das Audiosystem nach einem von (1) bis (3), bei dem
die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, einen Akustikkoeffizienten auf Basis eines Analyseergebnisses der eingegebenen Gesichtsdaten ausgibt.
- (5) Das Audiosystem nach einem von (1) bis (4), bei dem
die Akustikkoeffizienten-Erfassungseinheit mehrere Akustikkoeffizienten ausgibt.
- (6) Das Audiosystem nach (5), bei dem
die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, einen mit der individuellen Person assoziierten Akustikkoeffizienten und mindestens einen Akustikkoeffizienten als einen Kandidaten ausgibt.
- (7) Das Audiosystem nach (5) oder (6), bei dem
die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, mehrere Akustikkoeffizienten als Kandidaten ausgibt.
- (8) Das Audiosystem nach einem von (1) bis (7), bei dem
die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo die Gesichtsdaten-Detektionseinheit mehrere Elemente von Gesichtsdaten detektiert hat, einen Akustikkoeffizienten mit einem breiten Hörbereich ausgibt.
- (9) Das Audiosystem nach (8), bei dem
die Akustikkoeffizienten-Erfassungseinheit den Akustikkoeffizienten mit dem breiten Hörbereich auf Basis einer Position der detektierten Gesichtsdaten ausgibt.
- (10) Das Audiosystem nach einem von (5) bis (9), weiter enthaltend:
- eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und
- eine Akustikkoeffizienten-Wiederberechnungseinheit, die eine Lernverarbeitung auf Basis eines Wahlergebnisses in der Wahleinheit und in der Akustikkoeffizienten-Erfassungseinheit verwendeten Gesichtsdaten durchführt.
- (11) Das Audiosystem nach einem von (5) bis (10), weiter enthaltend:
- eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und
- eine Bilddisplayeinheit, die ein Objekt auf Basis von Positionsinformationen anzeigt, wobei
- die Akustikkoeffizienten-Anwendungseinheit eine Schalllokalisierung an einem Audiosignal durchführt und das Audiosignal auf Basis der Positionsinformationen des angezeigten Objekts ausgibt.
- (12) Eine Audioreproduktionsvorrichtung, enthaltend:
- eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis der eingegebenen Bilddaten detektiert; und
- eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten durchführt.
- (13) Die Audioreproduktionsvorrichtung nach (17), weiter umfassend:
- eine Übertragungseinheit, die die detektierten Gesichtsdaten an eine Servervorrichtung überträgt; und
- eine Empfangseinheit, die den mit den Gesichtsdaten assoziierten Akustikkoeffizienten empfängt.
- (14) Eine Servervorrichtung, enthaltend:
- eine Empfangseinheit, die von einer Audioreproduktionsvorrichtung übertragene Gesichtsdaten empfängt; und
- eine Akustikkoeffizienten-Erfassungseinheit, die die Gesichtsdaten ausgibt; wobei
- die Servervorrichtung einen durch die Akustikkoeffizienten-Erfassungseinheit ausgegebenen Akustikkoeffizienten an die Audioreproduktionsvorrichtung überträgt.
- (15) Ein Audioreproduktionsverfahren, beinhaltend:
- Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten;
- Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
- (16) Ein Audioreproduktionsprogramm, das bewirkt, dass eine Informationsverarbeitungsvorrichtung durchführt:
- Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
- Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
-
Bezugszeichenliste
-
- 100
- Reproduktionsvorrichtung
- 101
- Kerndecodierverarbeitungseinheit
- 102
- Wiedergabeverarbeitungseinheit
- 103
- Kopfbezogene-Transferfunktionsverarbeitungseinheit
- 200
- Servervorrichtung
- 201
- Personalisierte-Akustikkoeffizenten-Erfassungseinheit
- 202
- Personalisierte-Akustikkoeffizenten-Wahlergebnisempfangseinheit
- 204
- Ablageeinheit
- 300
- Reproduktionsvorrichtung
- 301
- Kerndecodierverarbeitungseinheit
- 302
- Wiedergabeverarbeitungseinheit
- 303
- Akustikkoeffizienten-Anwendungseinheit
- 304
- Gesichtsdaten-Detektionseinheit
- 305
- Gesichtsdaten-Übertragungseinheit
- 306
- Personalisierte-Akustikkoeffizenten-Empfangseinheit
- 307
- Personalisierte-Akustikkoeffizenten-Wahleinheit
- 308
- Bilddisplayeinheit
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-