DE112019006727T5 - Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm - Google Patents

Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm Download PDF

Info

Publication number
DE112019006727T5
DE112019006727T5 DE112019006727.3T DE112019006727T DE112019006727T5 DE 112019006727 T5 DE112019006727 T5 DE 112019006727T5 DE 112019006727 T DE112019006727 T DE 112019006727T DE 112019006727 T5 DE112019006727 T5 DE 112019006727T5
Authority
DE
Germany
Prior art keywords
acoustic
face data
acoustic coefficient
coefficient
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112019006727.3T
Other languages
English (en)
Inventor
Hiroyuki Honma
Toru Chinen
Yoshiaki Oikawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of DE112019006727T5 publication Critical patent/DE112019006727T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Stereophonic System (AREA)

Abstract

Ein Audiosystem umfasst Folgendes: eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis von eingegebenen Bilddaten detektiert; eine Akustikkoeffizienten-Erfassungseinheit, die einen mit den von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziierten Akustikkoeffizienten ausgibt; und eine Akustikkoeffizienten-Anwendungseinheit, die einen Akustikprozess an einem Audiosignal auf Basis des durch die Akustikkoeffizienten-Anwendungseinheit erfassten Akustikkoeffizienten durchführt.

Description

  • Erfindungsgebiet
  • Die vorliegende Offenbarung betrifft ein Audiosystem, eine Audioreproduktionsvorrichtung, eine Servervorrichtung, ein Audioreproduktionsverfahren und ein Audioreproduktionsprogramm.
  • Allgemeiner Stand der Technik
  • Gegenwärtig ist eine Technologie bekannt, die ein gewünschtes Schallfeld durch Verwenden von mehreren Lautsprechern reproduziert. Eine derartige Schallfeld-Reproduktionstechnik kann einen dreidimensionalen Akustikraum realisieren. Patentliteratur 1 hat eine Akustiksteuervorrichtung offenbart, die einen gewünschten Akustikeffekt unter Verwendung einer kopfbezogenen Transferfunktion erzielen kann.
  • Entgegenhaltungsliste
  • Patentliteratur
  • Patentliteratur 1: japanische offengelegte Patentanmeldung Nr. 2015-228571
  • Offenbarung der Erfindung
  • Technisches Problem
  • Auf solchen Gebieten ist es wünschenswert, ein für einen Benutzer geeignetes Schallfeld zu realisieren. Eine Aufgabe der vorliegenden Offenbarung besteht in der Bereitstellung eines Audiosystems, einer Audioreproduktionsvorrichtung, einer Servervorrichtung, eines Audioreproduktionsverfahrens und eines Audioreproduktionsprogramms, die ein für einen Benutzer geeignetes Schallfeld realisieren können.
  • Lösung des Problems
  • Die vorliegende Offenbarung ist beispielsweise ein Audiosystem, das enthält:
    • eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis eingegebener Bilddaten detektiert;
    • eine Akustikkoeffizienten-Erfassungseinheit, die einen Akustikkoeffizienten ausgibt, der mit von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziiert ist; und
    • eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines durch die Akustikkoeffizienten-Erfassungseinheit erfassten Akustikkoeffizienten durchführt.
  • Die vorliegende Offenbarung ist beispielsweise eine Audioreproduktionsvorrichtung, die enthält:
    • eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis der eingegebenen Bilddaten detektiert; und
    • eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten durchführt.
  • Die vorliegende Offenbarung ist beispielsweise eine Servervorrichtung, die enthält:
    • eine Empfangseinheit, die von einer Audioreproduktionsvorrichtung übertragene Gesichtsdaten empfängt; und
    • eine Akustikkoeffizienten-Erfassungseinheit, die die Gesichtsdaten ausgibt; wobei
    • die Servervorrichtung einen durch die Akustikkoeffizienten-Erfassungseinheit ausgegebenen Akustikkoeffizienten an die Audioreproduktionsvorrichtung überträgt.
  • Die vorliegende Offenbarung ist beispielsweise ein Audioreproduktionsverfahren, beinhaltend:
    • Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
    • Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
  • Die vorliegende Offenbarung ist beispielsweise ein Audioreproduktionsprogramm, das bewirkt, dass eine Informationsverarbeitungsvorrichtung durchführt:
    • Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
    • Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
  • Figurenliste
    • [1] 1 ist ein Blockdiagramm, das eine Konfiguration einer allgemeinen Reproduktionsvorrichtung zeigt.
    • [2] 2 ist ein Diagramm zum Beschreiben eines dreidimensionalen VBAP, das eine Art der Schwenkverarbeitung ist.
    • [3] 3 ist ein Blockdiagramm, das ein Audiosystem gemäß dieser Ausführungsform zeigt.
    • [4] 4 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Einstellverarbeitung gemäß dieser Ausführungsform zeigt.
    • [5] 5 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung gemäß dieser Ausführungsform zeigt.
    • [6] 6 ist ein Flussdiagramm, das eine Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung gemäß dieser Ausführungsform zeigt.
    • [7] 7 ist ein Diagramm, das einen Zustand zeigt, in dem Testsignalinformationen angezeigt werden. Modus (Modi) zum Ausführen der Erfindung
  • Im Folgenden wird eine Ausführungsform und dergleichen der vorliegenden Offenbarung unter Bezugnahme auf die Zeichnungen beschrieben. Es sei angemerkt, dass die Beschreibungen in der folgenden Reihenfolge angegeben werden.
  • <1. Beschreibung allgemeiner Technologien>
  • <2. Ausführungsform>
  • Die unten zu beschreibende Ausführungsform und dergleichen sind günstige spezifische Beispiele der vorliegenden Offenbarung, und die Inhalte der vorliegenden Offenbarung sind nicht auf die Ausführungsform beschränkt.
  • <1. Beschreibung allgemeiner Technologien>
  • Eine objektbasierte Audiotechnologie ist in Filmen, Spielen und dergleichen verwendet worden und Codiertechniken, die das objektbasierte Audio handhaben können, sind ebenfalls entwickelt worden. Beispielsweise sind MPEG-Standards, die die internationalen Standard sind, und dergleichen bekannt.
  • Bei einer derartigen Codiertechnik kann mit der herkömmlichen Zwei-Kanal-Stereotechnik oder Multikanal-Stereotechnik wie etwa 5.1-Kanal eine sich bewegende Schallquelle oder dergleichen als ein unabhängiges Audioobjekt verarbeitet werden und Positionsinformationen des Objekts können als Metadaten mit Signaldaten des Audioobjekts codiert werden. Dadurch kann eine Reproduktion in verschiedenen Betrachtungsumgebungen durchgeführt werden, in denen die Anzahl und Anordnung von Lautsprechern unterschiedlich sind, und es ist möglich, eine bestimmte Schallquelle leicht zu verarbeiten, was in der herkömmlichen Codiertechnik zum Zeitpunkt der Reproduktion schwierig gewesen ist (z. B. Lautstärkensteuerung, Hinzufügen eines Effekts oder dergleichen).
  • 1 ist ein Blockdiagramm, das eine Konfiguration einer allgemeinen Reproduktionsvorrichtung 100 zeigt. Die Reproduktionsvorrichtung 100 enthält eine Kerndecodierverarbeitungseinheit 101, eine Wiedergabeverarbeitungseinheit 102 und eine Kopfbezogene-Transferfunktionsverarbeitungseinheit 103. Die Kerndecodierverarbeitungseinheit 101 decodiert einen extern eingegebenen Eingangsbitstrom und gibt ein Audioobjektsignal und Metadaten einschließlich der Objektpositionsinformationen und dergleichen aus. Hier besteht die Aufgabe in der Reproduktion einer oder mehrerer ein Audiosignal bildender Schallquellen, wobei das Audioobjektsignal einem von der Schallquelle emittierten Audiosignal entspricht, und die Objektpositionsinformationen entsprechen der Position eines Objekts, das die Schallquelle ist.
  • Auf Basis des decodierten Audioobjektsignals und der Objektpositionsinformationen führt die Wiedergabeverarbeitungseinheit 102 eine Wiedergabeverarbeitung an in einem virtuellen Raum angeordneten Lautsprechern durch und gibt ein virtuelles Lautsprechersignal aus, indem ein Schallfeld in dem virtuellen Raum reproduziert wird. Die Kopfbezogene-Transferfunktionsverarbeitungseinheit 103 wendet eine allgemeine kopfbezogene Transferfunktion auf das virtuelle Lautsprechersignal an und gibt ein Audiosignal für Kopfhörer oder für eine Lautsprecherreproduktion aus.
  • Hier ist bekannt, dass eine Technik in der Wiedergabeverarbeitungseinheit 102 verwendet wird, die als dreidimensionales vektorbasiertes Amplitudenschwenken (VBAP) bezeichnet wird. Es ist eine von allgemein Schwenken bezeichneten Wiedergabetechniken und ist eine Technik des Durchführens eines Wiedergebens durch Verteilen von Verstärkungsfaktoren auf drei Lautsprecher von Lautsprechern, die auf einer sphärischen Oberfläche mit einer Betrachtungsposition als einem Ursprung präsent sind, die einem Audioobjekt am nächsten liegen, das ebenfalls auf der sphärischen Oberfläche präsent ist.
  • 2 ist ein Diagramm zum Beschreiben eines dreidimensionalen VBAP. Es wird angenommen, dass eine Betrachtungsposition U11 als ein Ursprung O gesetzt ist und Schall von einem Audioobjekt VSP2 ausgegeben wird, das auf der sphärischen Oberfläche in dem dreidimensionalen Raum präsent ist. Vorausgesetzt, die Position des Audioobjekts VSP2 ist ein Vektor P, der von dem Ursprung O startet (Betrachtungsposition U11), kann der Vektor P dargestellt werden durch Verteilen der Verstärkungsfaktoren auf Lautsprecher SP1, SP2 und SP3 auf der gleichen sphärischen Oberfläche wie das Audioobjekt VSP2. Deshalb kann der Vektor P ausgedrückt werden wie in Gleichung (1) unter Verwendung von Vektoren L1, L2 und L3, die die Positionen der jeweiligen Lautsprecher SP1, SP2 und SP3 darstellen. P = g 1 * L 1 + g 2 * L 2 + g 3 * L 3
    Figure DE112019006727T5_0001
    Hier kann, vorausgesetzt, dass g1, g2 und g3 Verstärkungsfaktoren für die Lautsprecher SP1, SP2 bzw. SP3 darstellen und dass g123 = [g1 g2 g3 und L123 = [L1 L2 L3, Gleichung (1) durch Gleichung (2) unten ausgedrückt werden. g 123 = P T L 123 1
    Figure DE112019006727T5_0002
  • Das Wiedergeben kann durchgeführt werden durch Verteilen der Audioobjektsignale auf die jeweiligen Lautsprecher SP1, SP2 und SP3 mit den somit bestimmten Verstärkungsfaktoren. Da die Anordnung der Lautsprecher SP1, SP2 und SP3 festliegt und es sich dabei um bekannte Informationen handelt, kann die inverse Matrix L123-1 im Voraus bestimmt werden und kann mit relativ geringer Rechenkomplexität verarbeitet werden.
  • Bei einer derartigen Schwenktechnik ist es möglich, die räumliche Auflösung zu erhöhen durch Anordnen einer großen Anzahl von Lautsprechern in dem Raum. Im Gegensatz zu einem Kino jedoch ist es oftmals schwierig, eine große Anzahl von Lautsprechern in dem Raum eines gewöhnlichen Hauses anzuordnen. Es ist bekannt, dass in einem derartigen Fall Reproduktionssignale einer in dem Raum angeordneten großen Anzahl von virtuellen Lautsprechern in einer auditorischen Approximation mit einer in dem realen Raum angeordneten kleinen Anzahl von Lautsprechern durch transaurale Verarbeitung unter Verwendung einer kopfbezogenen Transferfunktion reproduziert werden können.
  • Andererseits variiert die für die transaurale Verarbeitung verwendete kopfbezogene Transferfunktion stark je nach der Kopf- und Ohrform. Deshalb wird die kopfbezogene Transferfunktion, die für die transaurale Verarbeitung und die binaurale Verarbeitung für auf dem Markt gegenwärtig existierende Kopfhörer beschaffen durch Einsetzen von Mikrofonen in Ohrlöcher eines Attrappenkopfs mit einer mittleren menschlichen Gesichtsform und Messen von Impulsantworten. In der Realität jedoch ist die mittlere kopfbezogene Transferfunktion unzureichend, da sie von der Form und der Anordnung des Gesichts, der Ohren und dergleichen abhängt, was von einem Individuum zu einem anderen Individuum differieren kann, und es ist schwierig, das Schallfeld originalgetreu zu reproduzieren.
  • Das Audiosystem gemäß dieser Ausführungsform wurde angesichts solcher Umstände erschaffen, und eine Aufgabe davon besteht in der Erfassung von Gesichtsdaten von einem durch eine Kamera erfassten Bild unter Verwendung einer Gesichtserkennungstechnik und originalgetreuem Reproduzieren eines Schallfelds für jede individuelle Person unter Verwendung einer personalisierten kopfbezogenen Transferfunktion gemäß den erfassten Gesichtsdaten. Im Folgenden werden verschiedene Ausführungsformen des Audiosystems gemäß dieser Ausführungsform beschrieben.
  • <2. Ausführungsform>
  • 3 ist ein Blockdiagramm, das ein Audiosystem gemäß dieser Ausführungsform zeigt. Das Audiosystem enthält eine Reproduktionsvorrichtung 300, die ein Audiosignal ausgibt, und eine Servervorrichtung 200.
  • Die Reproduktionsvorrichtung 300 und die Servervorrichtung 200 sind kommunizierbar miteinander über verschiedene Kommunikationslinien wie etwa das Internet verbunden. Zuerst wird eine Audioreproduktionsfunktion der Reproduktionsvorrichtung 300 beschrieben.
  • Die Audioreproduktionsfunktion in der Reproduktionsvorrichtung 300 wird durch eine Kerndecodierverarbeitungseinheit 301, eine Wiedergabeverarbeitungseinheit 302 und eine Akustikkoeffizienten-Anwendungseinheit 303 realisiert. Die Kerndecodierverarbeitungseinheit 301 hat eine Funktion ähnlich der der oben unter Bezugnahme auf 1 beschriebenen Kerndecodierverarbeitungseinheit 101, decodiert einen eingegebenen Bitstrom und gibt ein Audioobjektsignal und Objektpositionsinformationen (Metainformationen) aus. Die Wiedergabeverarbeitungseinheit 302 weist eine Funktion auf ähnlich der der oben unter Bezugnahme auf 1 beschriebenen Wiedergabeverarbeitungseinheit 102. In der Wiedergabeverarbeitungseinheit 302 wird eine Schwenkverarbeitung wie etwa das oben beschriebene VBAP durchgeführt und ein virtuelles Lautsprechersignal wird ausgegeben. Die Akustikkoeffizienten-Anwendungseinheit 303 gibt ein Audiosignal aus durch Anwenden verschiedener Akustikkoeffizienten auf das eingegebene virtuelle Lautsprechersignal.
  • Als Nächstes wird ein Verfahren beschrieben zum Erfassen verschiedener Akustikkoeffizienten zur Anwendung durch die Akustikkoeffizienten-Anwendungseinheit 303. Die Reproduktionsvorrichtung 300 gemäß dieser Ausführungsform ist in der Lage, Bilddaten zu erfassen, die durch Abbilden eines Nutzers, der ein Zuhörer ist, erhalten werden. Die Bilddaten können von verschiedenen Informationseinrichtungen erfasst werden, die kommunikativ mit der Reproduktionsvorrichtung 300, beispielsweise einem Fernsehgerät, einem intelligenten Lautsprecher, einem PC und dergleichen, verbunden sind. Diese Informationseinrichtungen sind jeweils mit einer Kamera ausgestattet und können den Zustand des Nutzers abbilden, der einem durch die Reproduktionsvorrichtung 300 reproduzierten Audiosignal zuhört. Es sei angemerkt, dass eine Ausführungsform, bei der eine Kamera direkt kommunikativ mit der Reproduktionsvorrichtung 300 verbunden ist, um Bilddaten zu erfassen, anstatt kommunikativ die mit der Kamera ausgestattete Informationseinrichtung mit der Reproduktionsvorrichtung 300 zu verbinden, verwendet werden kann.
  • Zudem kann eine Displayvorrichtung zum Anzeigen verschiedener Typen von Informationen gemäß dieser Ausführungsform mit der Reproduktionsvorrichtung 300 verbunden sein. Die Reproduktionsvorrichtung 300 zeigt verschiedene Typen von Informationen an, um dadurch dem Nutzer zu ermöglichen, einen Akustikkoeffizienten zu wählen. Zudem ist auch eine Eingabevorrichtung zum Wählen des Akustikkoeffizienten mit der Reproduktionsvorrichtung 300 verbunden. Außer einer Fernsteuereinrichtung, einer Tastatur oder einer Maus kann ein Smartphone, das der Nutzer besitzt, kommunikativ angeschlossen und als die Eingabevorrichtung verwendet werden.
  • Als Nächstes wird ein Verfahren zum Erhalten des in der Reproduktionsvorrichtung 300 verwendeten personalisierten Akustikkoeffizienten unter Bezugnahme auf das Flussdiagramm von 4 beschrieben. 4 ist ein Flussdiagramm, das eine in der Reproduktionsvorrichtung 300 verwendete Personalisierte-Akustikkoeffizienten-Einstellverarbeitung zeigt.
  • In der durch die Reproduktionsvorrichtung 300 durchgeführten Personalisierte-Akustikkoeffizienten-Einstellverarbeitung werden die Bilddaten zuerst in eine Gesichtsdaten-Detektionseinheit 300 (S11) eingegeben, und die Gesichtsdaten-Detektionseinheit 304 führt die Gesichtserkennungsverarbeitung auf Basis der Bilddaten aus (S12). Die Gesichtsdaten-Detektionseinheit 304 detektiert Gesichtsdaten auf Basis des Erkennungsergebnisses und gibt sie aus. Eine gewöhnlich verwendete Technologie kann auf die Gesichtserkennungsverarbeitung angewendet werden. Es sei angemerkt, dass die Gesichtsdaten ein aus den Bilddaten extrahierter Gesichtsabschnitt sein können, oder verschiedene Formen wie etwa Gesichtsmerkmalsgrößen wie etwa der Umriss des Gesichts und die Positionen und Größen von Augen, Ohren und Nase können verwendet werden. Zudem können die Gesichtsdaten die Position des Nutzers in einem Hörraum oder die Richtung, in der der Nutzer gewandt ist, enthalten.
  • Die Gesichtsdaten als das Erkennungsergebnis werden an die Servervorrichtung 200 übertragen (S13). Es wird durch eine Gesichtsdatenübertragungseinheit 305 durchgeführt. Die Übertragung zu der Servervorrichtung 200 ist nicht auf physisch verdrahtete oder drahtlose Übertragung beschränkt und ein beliebiges Medium kann dafür verwendet werden. Zudem kann eine leicht verlustbehaftete Kompressionstechnik, in der eine Anpassung auf Basis einer großen Anzahl von Elementen von Gesichtsdaten auf der Servervorrichtung 200 verwendet wird, für das logische Format zusätzlich zu verlustlosen komprimierten und unkomprimierten Formaten verwendet werden.
  • Hier wird ein Verfahren zum Ausgeben des personalisierten Akustikkoeffizienten von den auf der Servervorrichtung 200 empfangenen Gesichtsdaten später beschrieben, und die Beschreibung wird unter der Annahme fortgesetzt, dass der personalisierte Akustikkoeffizient von der Servervorrichtung 200 übertragen wird. In Schritt S14 bestimmt die Reproduktionsvorrichtung 300, ob einer oder mehrere Akustikkoeffizienten von der Servervorrichtung 200 empfangen worden sind (S14). Es wird durch eine Personalisierte-Akustikkoeffizienten-Empfangseinheit 306 durchgeführt. In einem Fall, wo der personalisierte Akustikkoeffizient nicht innerhalb einer vorbestimmten Periode nach der Übertragung der Gesichtsdaten empfangen werden kann, wird die Zeitabschaltung durchgeführt und die Peronalisierte-Akustikkoeffizienten-Einstellverarbeitung wird beendet.
  • Andererseits kann in einem Fall, wo die personalisierten Akustikkoeffizienten von der Servervorrichtung 200 empfangen worden sind (S14: Ja), der Nutzer den empfangenen personalisierten Akustikkoeffizienten wählen. Diese Verarbeitung wird durch eine Personalisierte-Akustiken-Wahleinheit 307 durchgeführt. Der Nutzer wird durch eine mit der Reproduktionsvorrichtung 300 verbundenen Eingabevorrichtung gewählt. In dieser Ausführungsform überträgt die Servervorrichtung 200 mindestens einen Personalisierte-Akustikkoeffizienten-Kandidaten zusätzlich zu einem voreingestellten personalisierten Akustikkoeffizienten. Deshalb kann der Nutzer wählen, ob der voreingestellte personalisierte Akustikkoeffizient oder der Personalisierte-Akustikkoeffizienten-Kandidat verwendet wird. In einem Fall, wo der Nutzer einen personalisierten Akustikkoeffizienten wählt (S15: Ja), reproduziert die Reproduktionsvorrichtung 300 ein Testsignal (S16) und bewirkt, dass die Displayvorrichtung Testsignalinformationen anzeigt (S17). Der Nutzer reproduziert das Testsignal und hört dem von dem Lautsprecher ausgegebenen Audiosignal zu, während er den personalisierten Akustikkoeffizienten umschaltet.
  • 7 zeigt ein Beispiel der auf der Displayvorrichtung angezeigten Testsignalinformationen. Eine Bilddisplayeinheit 308 bewirkt, dass die Displayvorrichtung ein Bild auf Basis der Testsignalinformationen anzeigt. In dieser Ausführungsform wird eine sich bewegende Schallquelle A auf Basis der Positionsinformationen unter Verwendung des Ursprungs O als die Mitte angezeigt. Zu diesem Zeitpunkt gibt die Reproduktionsvorrichtung 300 ein Audiosignal auf Basis des Testsignals aus, so dass eine Lokalisierung an den Positionsinformationen der sich bewegenden Schallquelle A unter Verwendung der Betrachtungsposition des Nutzers als den Ursprung O erzielt wird. Hier wird angenommen, dass der Nutzer in der positiven Richtung der X-Achse blickt. Zu diesem Zeitpunkt wird der empfangene personalisierte Akustikkoeffizient als die Akustikkoeffizienten-Anwendungseinheit 303 verwendet. Der Nutzer bestimmt, ob sich der personalisierte Akustikkoeffizient eignet, auf Basis der auf der Displayvorrichtung angezeigten Position der sich bewegenden Schallquelle A und des Schalls, dem der Nutzer zuhört (insbesondere Lokalisierung). 7 zeigt eine Bewegungsbahn der sich bewegenden Schallquelle A durch den Pfeil. Aus der Figur ist ersichtlich, dass die sich bewegende Schallquelle A eine Bewegungsbahn nimmt, um anzusteigen, während sie in diesem Beispiel um den Ursprung O kreist. In diesem Fall hört der Nutzer dem lokalisierten Schall zu, der ansteigt, während er den Nutzer umkreist.
  • In dieser Ausführungsform werden der voreingestellte personalisierte Akustikkoeffizient und der mindestens eine Personalisierte-Akustikkoeffizienten-Kandidat verwendet, um dem Nutzer zu ermöglichen, einen geeigneten personalisierten Akustikkoeffizienten zu wählen. Der Nutzer verwendet die Eingabevorrichtung zum Wählen des personalisierten Akustikkoeffizienten als den Kandidaten wie angebracht und Bestimmen eines geeigneten personalisierten Akustikkoeffizienten (S18). Andererseits wird in einem Fall, wo der personalisierte Akustikkoeffizient nicht gewählt wird (S15: Nein), der empfangene voreingestellte personalisierte Akustikkoeffizient verwendet (S18). Das Wahlergebnis des personalisierten Akustikkoeffizienten wird zu der Servervorrichtung 200 übertragen (S19). Dann stellt die Reproduktionsvorrichtung 300 den bestimmten personalisierten Akustikkoeffizienten auf die Akustikkoeffizienten-Anwendungseinheit 303 ein (S20).
  • Das Obige sind die Details der in der Reproduktionsvorrichtung 300 durchgeführten Personalisierte-Akustikkoeffizienten-Einstellverarbeitung. In dieser Ausführungsform ist es durch Verwenden des von der Servervorrichtung 200 gemäß den übertragenen Gesichtsdaten empfangenen personalisierten Akustikkoeffizienten möglich, ein Schallfeld mit dem personalisierten Akustikkoeffizienten zu reproduzieren, der sich für die Gesichtsdaten eignet, und das Schallfeld getreu zu reproduzieren. Indem dem Benutzer gestattet wird, einen personalisierten Akustikkoeffizienten zu wählen, kann der Nutzer zudem einen geeigneteren personalisierten Akustikkoeffizienten verwenden. Durch Übertragen des Bestimmungsergebnisses des Nutzers zu der Servervorrichtung 200 kann die Servervorrichtung 200 dann eine Lernverarbeitung unter Verwendung des Bestimmungsergebnisses durchführen und den personalisierten Akustikkoeffizienten mit höherer Genauigkeit liefern.
  • Als Nächstes wird die Verarbeitung auf der Seite der Servervorrichtung 200 unter Bezugnahme auf die Flussdiagramme von 5 und 6 beschrieben. 5 ist ein Flussdiagramm, das die durch die Servervorrichtung 200 durchgeführte Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung zeigt. Die Servervorrichtung 200 empfängt die von der Reproduktionsvorrichtung 300 übertragenen Gesichtsdaten zum Starten der Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung. Hier wird eine kopfbezogene Transferfunktion als der personalisierte Akustikkoeffizient gemäß dieser Ausführungsform verwendet. Es ist möglich, ein für jede individuelle Person geeignetes Schallfeld unter Verwendung einer kopfbezogenen Transferfunktion gemäß einer Merkmalsgröße jeder der verschiedenen individuellen Leute auf Basis der Gesichtsdaten zu reproduzieren. Es sei angemerkt, dass der Empfang der Gesichtsdaten und die Übertragung des personalisierten Akustikkoeffizienten durch eine Personalisierte-Akustikkoeffizienten-Erfassungseinheit 201 durchgeführt werden. Wenn die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung gestartet wird, wird in Schritt S21 bestimmt, ob die empfangenen Gesichtsdaten in einer Ablageeinheit 204 existieren.
  • In einem Fall, wo die Gesichtsdaten nicht existieren (S21: Nein), wird ein Koeffizient äquivalent zu dem einer Heruntermischverarbeitung nicht unter Verwendung der kopfbezogenen Transferfunktion als der personalisierte Akustikkoeffizient übertragen (S22). Es sei angemerkt, dass die hier dargelegte Heruntermischverarbeitung beispielsweise eine Verarbeitung bedeutet, um ein Monosignal zu erhalten, indem jeder Stereokanal mit 0,5 multipliziert wird und dies addiert wird beim Umwandeln von Stereo zu Mono. Nach dem Übertragen des personalisierten Akustikkoeffizienten (S22), wird die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung beendet.
  • In einem anderen Fall, wo die Gesichtsdaten existieren (S21: Ja), wird bestimmt, ob mehrere Elemente von Gesichtsdaten existieren oder nicht existieren (S23). Hier ist das Vorliegen der mehreren Elemente von Gesichtsdaten äquivalent zu dem Vorliegen von mehreren Nutzern, die mit der Reproduktionsvorrichtung 300 zuhören. In einem Fall, wo die mehreren Elemente von Gesichtsdaten existieren (S23:Ja), wird ein Koeffizient unter Verwendung einer verallgemeinerten kopfbezogenen Transferfunktion mit einem breiten Hörbereich als der personalisierte Akustikkoeffizient bei der Verarbeitung von S24 übertragen (S24). Es sei angemerkt, dass existierende Techniken für die Verarbeitung des Erweiterns des Hörbereichs verwendet werden können. Zudem bedeutet die hier dargelegte verallgemeinerte kopfbezogene Transferfunktion eine durch Messen erhaltene Funktion, bei der Mikrofone in Ohrlöcher eines als Attrappenkopf bezeichneten Modells eingesetzt werden, was die Formen eines typischen Gesichts und Ohrs simuliert. Nach dem Übertragen des personalisierten Akustikkoeffizienten (S24) wird die Personalisierte-Akustikkoeffizienten-Erfassungsverarbeitung beendet. Es sei angemerkt, dass in einem Fall, wo die Gesichtsdaten Positionsinformationen jedes Nutzers enthalten, es möglich ist, die Positionen aller Nutzer als Hörbereiche einzustellen und sie als personalisierte Akustikkoeffizienten zu bestimmen.
  • Als Nächstes bestimmt in einem Fall, wo die mehreren Elemente von Gesichtsdaten nicht existieren (S23: Nein), die Servervorrichtung 200, ob die registrierten Gesichtsdaten in der Ablageeinheit 204 existieren (S25). Insbesondere greift die Personalisierte-Akustikkoeffizienten-Erfassungseinheit 201 auf die Ablageeinheit 204 zu und bestimmt, ob die eingegebenen Gesichtsdaten registriert oder nicht registriert worden sind. In einem Fall, wo die Gesichtsdaten existieren (S25: Ja), wird der mit den Gesichtsdaten assoziierte personalisierte Akustikkoeffizient als der voreingestellte personalisierte Akustikkoeffizient übertragen. Zudem wird in dieser Ausführungsform mindestens ein Personalisierte-Akustikkoeffizienten-Kandidat zusammen mit dem voreingestellten personalisierten Akustikkoeffizienten übertragen. Dementsprechend werden mehrere personalisierte Akustikkoeffizienten einschließlich des voreingestellten personalisierten Akustikkoeffizienten zu der Reproduktionsvorrichtung 300 übertragen (S26). Hier ist zum Beispiel der personalisierte Akustikkoeffizient als ein Kandidat ein von dem voreingestellten personalisierten Akustikkoeffizienten verschiedener personalisierter Akustikkoeffizient und wird auf Basis der empfangenen Gesichtsdaten bestimmt oder durch ein Verfahren zum Justieren des voreingestellten personalisierten Akustikkoeffizienten bestimmt.
  • Andererseits werden in einem Fall, wo die Gesichtsdaten nicht in der Ablageeinheit 204 existieren (S25: Nein), mehrere personalisierte Akustikkoeffizienten bestimmt und übertragen durch Analysieren der eingegebenen Gesichtsdaten (S27). Beispielsweise sind das Eingeben der Gesichtsdaten in ein neuronales Netzwerk mit durch Maschinenlernen erhaltenen Lernkoeffizienten und Übertragen von mehreren Personalisierte-Akustikkoeffizienten-Kandidaten in der Reihenfolge der Wahrscheinlichkeit als ein Verfahren zum Analysieren der Gesichtsdaten denkbar. In der Reproduktionsvorrichtung 300 ist der höchste personalisierte Akustikkoeffizient in der Reihenfolge der Wahrscheinlichkeit als Standard eingestellt. Es sei angemerkt, dass die Erfassung des personalisierten Akustikkoeffizienten für die unbekannten Gesichtsdaten auch verwendet wird, wenn die Kandidaten außer dem registrierten personalisierten Akustikkoeffizienten in S26 übertragen werden.
  • Als Nächstes wird eine Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung unter Bezugnahme auf das Flussdiagramm von 6 beschrieben. Die Personalisierte-Akustikkoeffizienten-Wiederberechnungsverarbeitung ist eine durch die Servervorrichtung 200 durchgeführte Verarbeitung und ist eine auf Basis des Wahlergebnisses des von der Reproduktionsvorrichtung 300 übertragenen personalisierten Akustikkoeffizienten durchgeführte Verarbeitung. In Schritt S31 empfängt die Servervorrichtung 200 das Wahlergebnis des von der Reproduktionsvorrichtung 300 übertragenen personalisierten Akustikkoeffizienten (S31). Diese Verarbeitung wird in einer Personalisierte-Akustikkoeffizienten-Wahlergebnisempfangseinheit 202 von 3 durchgeführt.
  • In der oben unter Bezugnahme auf 4 beschriebenen Personalisierte-Akustikkoeffizienten-Einstellungsverarbeitung empfängt die Servervorrichtung 200 das Wahlergebnis zusammen mit den Gesichtsdaten. In Schritt S32 zeichnet die Servervorrichtung 200 das Paar aus dem personalisierten Akustikkoeffizienten und den Gesichtsdaten, in der Personalisierte-Akustikkoeffizienten-Einstellverarbeitung empfangen, in der Ablageeinheit 204 auf (S32). In Schritt S33 wird die Lernverarbeitung unter Verwendung des Paars aus dem personalisierten Akustikkoeffizienten und den in der Ablageeinheit 204 gespeicherten Gesichtsdaten durchgeführt (S33). Hier ist die Lernverarbeitung eine Maschinenlernverarbeitung zum Aktualisieren des Bestimmungsalgorithmus der personalisierten Akustikkoeffizienten auf Basis der Gesichtsdaten, und ein existierendes Verfahren wie etwa ein gefaltetes neuronales Netzwerk (CNN) oder ein rückgekoppeltes neuronales Netzwerk (RNN), als tiefe neuronale Netzwerke bekannt, kann als die Maschinenlernverarbeitung angewendet werden. Der aktualisierte Bestimmungsalgorithmus des personalisierten Akustikkoeffizienten wird verwendet, wenn die in 5 beschriebenen Personalisierte-Akustikkoeffizenten-Kandidaten erzeugt werden.
  • Wie oben beschrieben, werden in der Personalisierte-Akustikkoeffizenten-Wiederberechnungsverarbeitung die mehreren personalisierten Akustikkoeffizienten auf Basis der Gesichtsdaten übertragen, so dass der Benutzer einen personalisierten Akustikkoeffizienten wählen kann, und somit kann ein für den Nutzer geeigneter personalisierter Akustikkoeffizent verwendet werden. Weiterhin ist es möglich, einen geeigneteren personalisierten Akustikkoeffizienten bereitzustellen durch Lernen der Beziehung zwischen den Gesichtsdaten und dem personalisierten Akustikkoeffizienten auf Basis des Wahlergebnisses.
  • Es sei angemerkt, dass, obwohl der voreingestellte personalisierte Akustikkoeffizent und der personalisierte Akustikkoeffizent als der Kandidat in dieser Ausführungsform übertragen werden, eine unten zu beschreibende Ausführungsform anstelle einer derartigen Ausführungsform verwendet werden kann. In dieser Ausführungsform überträgt die Servervorrichtung 200 nur den voreingestellten personalisierten Akustikkoeffizienten. Auf der Seite der Reproduktionsvorrichtung 300 kann der Nutzer die Eingabevorrichtung verwenden, um den empfangenen voreingestellten personalisierten Akustikkoeffizienten zu justieren. In der Personalisierte-Akustikkoeffizenten-Einstellungsverarbeitung wird das justierte Ergebnis als das Wahlergebnis zu der Servervorrichtung 200 übertragen. Die Servervorrichtung 200 führt eine Lernverarbeitung auf Basis des Paars des Wahlergebnisses und der Gesichtsdaten durch, um dadurch den Bestimmungsalgorithmus des personalisierten Akustikkoeffizienten zu bestimmen. Es sei angemerkt, dass es auch möglich ist, diese Justierung des personalisierten Akustikkoeffizienten auch für die Wahl unter den mehreren oben beschriebenen personalisierten Akustikkoeffizienten zu verwenden.
  • Gemäß mindestens der Ausführungsform der vorliegenden Offenbarung ist es möglich, ein für den Nutzer geeignetes Schallfeld zu bilden durch Anwenden des Akustikkoeffizienten gemäß den Gesichtsdaten des Nutzers, der dem Audiosignal zuhört. Es sei angemerkt, dass die beschriebenen Effekte nicht notwendigerweise beschränkt sind und beliebige der in der vorliegenden Offenbarung beschriebenen Effekte bereitgestellt werden können. Zudem sollte der Inhalt der vorliegenden Offenbarung nicht als aufgrund der gezeigten Effekte beschränkt ausgelegt werden.
  • Die vorliegende Offenbarung kann auch als eine Vorrichtung, ein Verfahren, ein Programm, ein System oder dergleichen umgesetzt werden. Beispielsweise wird ein Programm zum Durchführen der in der obigen Ausführungsform beschriebenen Funktionen herunterladbar gemacht, und eine Vorrichtung ohne die in der Ausführungsform beschriebenen Funktionen kann die in der Ausführungsform beschriebene Steuerung in der Vorrichtung durchführen durch Herunterladen des Programms. Die vorliegende Offenbarung kann auch als ein Server umgesetzt werden, der ein derartiges Programm verteilt. Zudem können die in der jeweiligen Ausführungsform und modifizierten Beispielen beschriebenen Gegenstände wie angemessen kombiniert werden.
  • Die vorliegende Offenbarung kann auch die folgenden Konfigurationen annehmen.
    • (1) Ein Audiosystem, enthaltend:
      • eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis eingegebener Bilddaten detektiert;
      • eine Akustikkoeffizienten-Erfassungseinheit, die einen Akustikkoeffizienten ausgibt, der mit von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziiert ist; und
      • eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines durch die Akustikkoeffizienten-Erfassungseinheit erfassten Akustikkoeffizienten durchführt.
    • (2) Das Audiosystem nach (1), bei dem der Akustikkoeffizient eine kopfbezogene Transferfunktion ist.
    • (3) Das Audiosystem nach (1) oder (2), bei dem die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, ein mit der individuellen Person assoziierten Akustikkoeffizienten als den Akustikkoeffizient ausgibt.
    • (4) Das Audiosystem nach einem von (1) bis (3), bei dem die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, einen Akustikkoeffizienten auf Basis eines Analyseergebnisses der eingegebenen Gesichtsdaten ausgibt.
    • (5) Das Audiosystem nach einem von (1) bis (4), bei dem die Akustikkoeffizienten-Erfassungseinheit mehrere Akustikkoeffizienten ausgibt.
    • (6) Das Audiosystem nach (5), bei dem die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, einen mit der individuellen Person assoziierten Akustikkoeffizienten und mindestens einen Akustikkoeffizienten als einen Kandidaten ausgibt.
    • (7) Das Audiosystem nach (5) oder (6), bei dem die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, mehrere Akustikkoeffizienten als Kandidaten ausgibt.
    • (8) Das Audiosystem nach einem von (1) bis (7), bei dem die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo die Gesichtsdaten-Detektionseinheit mehrere Elemente von Gesichtsdaten detektiert hat, einen Akustikkoeffizienten mit einem breiten Hörbereich ausgibt.
    • (9) Das Audiosystem nach (8), bei dem die Akustikkoeffizienten-Erfassungseinheit den Akustikkoeffizienten mit dem breiten Hörbereich auf Basis einer Position der detektierten Gesichtsdaten ausgibt.
    • (10) Das Audiosystem nach einem von (5) bis (9), weiter enthaltend:
      • eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und
      • eine Akustikkoeffizienten-Wiederberechnungseinheit, die eine Lernverarbeitung auf Basis eines Wahlergebnisses in der Wahleinheit und in der Akustikkoeffizienten-Erfassungseinheit verwendeten Gesichtsdaten durchführt.
    • (11) Das Audiosystem nach einem von (5) bis (10), weiter enthaltend:
      • eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und
      • eine Bilddisplayeinheit, die ein Objekt auf Basis von Positionsinformationen anzeigt, wobei
      • die Akustikkoeffizienten-Anwendungseinheit eine Schalllokalisierung an einem Audiosignal durchführt und das Audiosignal auf Basis der Positionsinformationen des angezeigten Objekts ausgibt.
    • (12) Eine Audioreproduktionsvorrichtung, enthaltend:
      • eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis der eingegebenen Bilddaten detektiert; und
      • eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten durchführt.
    • (13) Die Audioreproduktionsvorrichtung nach (17), weiter umfassend:
      • eine Übertragungseinheit, die die detektierten Gesichtsdaten an eine Servervorrichtung überträgt; und
      • eine Empfangseinheit, die den mit den Gesichtsdaten assoziierten Akustikkoeffizienten empfängt.
    • (14) Eine Servervorrichtung, enthaltend:
      • eine Empfangseinheit, die von einer Audioreproduktionsvorrichtung übertragene Gesichtsdaten empfängt; und
      • eine Akustikkoeffizienten-Erfassungseinheit, die die Gesichtsdaten ausgibt; wobei
      • die Servervorrichtung einen durch die Akustikkoeffizienten-Erfassungseinheit ausgegebenen Akustikkoeffizienten an die Audioreproduktionsvorrichtung überträgt.
    • (15) Ein Audioreproduktionsverfahren, beinhaltend:
      • Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten;
      • Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
    • (16) Ein Audioreproduktionsprogramm, das bewirkt, dass eine Informationsverarbeitungsvorrichtung durchführt:
      • Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und
      • Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
  • Bezugszeichenliste
  • 100
    Reproduktionsvorrichtung
    101
    Kerndecodierverarbeitungseinheit
    102
    Wiedergabeverarbeitungseinheit
    103
    Kopfbezogene-Transferfunktionsverarbeitungseinheit
    200
    Servervorrichtung
    201
    Personalisierte-Akustikkoeffizenten-Erfassungseinheit
    202
    Personalisierte-Akustikkoeffizenten-Wahlergebnisempfangseinheit
    204
    Ablageeinheit
    300
    Reproduktionsvorrichtung
    301
    Kerndecodierverarbeitungseinheit
    302
    Wiedergabeverarbeitungseinheit
    303
    Akustikkoeffizienten-Anwendungseinheit
    304
    Gesichtsdaten-Detektionseinheit
    305
    Gesichtsdaten-Übertragungseinheit
    306
    Personalisierte-Akustikkoeffizenten-Empfangseinheit
    307
    Personalisierte-Akustikkoeffizenten-Wahleinheit
    308
    Bilddisplayeinheit
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2015228571 [0003]

Claims (16)

  1. Audiosystem, umfassend: eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis eingegebener Bilddaten detektiert; eine Akustikkoeffizienten-Erfassungseinheit, die einen Akustikkoeffizienten ausgibt, der mit von der Gesichtsdaten-Detektionseinheit ausgegebenen Gesichtsdaten assoziiert ist; und eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines durch die Akustikkoeffizienten-Erfassungseinheit erfassten Akustikkoeffizienten durchführt.
  2. Audiosystem nach Anspruch 1, wobei der Akustikkoeffizient eine kopfbegogene Transferfunktion ist.
  3. Audiosystem nach Anspruch 1, wobei die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, einen mit der individuellen Person assoziierten Akustikkoeffizienten als den Akustikkoeffizient ausgibt.
  4. Audiosystem nach Anspruch 1, wobei die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, einen Akustikkoeffizienten auf Basis eines Analyseergebnisses der eingegebenen Gesichtsdaten ausgibt.
  5. Audiosystem nach Anspruch 1, wobei die Akustikkoeffizienten-Erfassungseinheit mehrere Akustikkoeffizienten ausgibt.
  6. Audiosystem nach Anspruch 5, wobei die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person registriert worden ist, einen mit der individuellen Person assoziierten Akustikkoeffizienten und mindestens einen Akustikkoeffizienten als einen Kandidaten ausgibt.
  7. Audiosystem nach Anspruch 5, wobei die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo eine mit eingegebenen Gesichtsdaten assoziierte individuelle Person nicht registriert worden ist, mehrere Akustikkoeffizienten als Kandidaten ausgibt.
  8. Audiosystem nach Anspruch 1, wobei die Akustikkoeffizienten-Erfassungseinheit in einem Fall, wo die Gesichtsdaten-Detektionseinheit mehrere Elemente von Gesichtsdaten detektiert hat, einen Akustikkoeffizienten mit einem breiten Hörbereich ausgibt.
  9. Audiosystem nach Anspruch 8, wobei die Akustikkoeffizienten-Erfassungseinheit den Akustikkoeffizienten mit dem breiten Hörbereich auf Basis einer Position der detektierten Gesichtsdaten ausgibt.
  10. Audiosystem nach Anspruch 5, weiter umfassend: eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und eine Akustikkoeffizienten-Wiederberechnungseinheit, die eine Lernverarbeitung auf Basis eines Wahlergebnisses in der Wahleinheit und in der Akustikkoeffizienten-Erfassungseinheit verwendeten Gesichtsdaten durchführt.
  11. Audiosystem nach Anspruch 5, weiter umfassend: eine Wahleinheit, die einem Nutzer ermöglicht, einen der mehreren ausgegebenen Akustikkoeffizienten zu wählen; und eine Bilddisplayeinheit, die ein Objekt auf Basis von Positionsinformationen anzeigt, wobei die Akustikkoeffizienten-Anwendungseinheit eine Schalllokalisierung an einem Audiosignal durchführt und das Audiosignal auf Basis der Positionsinformationen des angezeigten Objekts ausgibt.
  12. Audiowiedergabevorrichtung, umfassend: eine Gesichtsdaten-Detektionseinheit, die Gesichtsdaten auf Basis der eingegebenen Bilddaten detektiert; und eine Akustikkoeffizienten-Anwendungseinheit, die an einem Audiosignal eine Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten durchführt.
  13. Audioreproduktionsvorrichtung nach Anspruch 12, weiter umfassend: eine Übertragungseinheit, die die detektierten Gesichtsdaten an eine Servervorrichtung überträgt; und eine Empfangseinheit, die den mit den Gesichtsdaten assoziierten Akustikkoeffizienten empfängt.
  14. Servervorrichtung, umfassend: eine Empfangseinheit, die von einer Audioreproduktionsvorrichtung übertragene Gesichtsdaten empfängt; und eine Akustikkoeffizienten-Erfassungseinheit, die die Gesichtsdaten ausgibt; wobei die Servervorrichtung einen durch die Akustikkoeffizienten-Erfassungseinheit ausgegebenen Akustikkoeffizienten an die Audioreproduktionsvorrichtung überträgt.
  15. Audioreproduktionsverfahren, umfassend: Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; und Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
  16. Audioreproduktionsprogramm, das bewirkt, dass eine Informationsverarbeitungsvorrichtung durchführt: Gesichtsdaten-Detektionsverarbeitung das Detektieren von Gesichtsdaten auf Basis eingegebener Bilddaten; Akustikkoeffizienten-Anwendungsverarbeitung das Durchführen, an einem Audiosignal, einer Akustikverarbeitung auf Basis eines mit den Gesichtsdaten assoziierten Akustikkoeffizienten.
DE112019006727.3T 2019-01-24 2019-12-11 Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm Pending DE112019006727T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019009921 2019-01-24
JP2019-009921 2019-01-24
PCT/JP2019/048428 WO2020153027A1 (ja) 2019-01-24 2019-12-11 オーディオシステム、オーディオ再生装置、サーバー装置、オーディオ再生方法及びオーディオ再生プログラム

Publications (1)

Publication Number Publication Date
DE112019006727T5 true DE112019006727T5 (de) 2021-11-04

Family

ID=71736733

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112019006727.3T Pending DE112019006727T5 (de) 2019-01-24 2019-12-11 Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm

Country Status (6)

Country Link
US (1) US11937069B2 (de)
JP (1) JPWO2020153027A1 (de)
KR (1) KR20210118820A (de)
CN (1) CN113302950A (de)
DE (1) DE112019006727T5 (de)
WO (1) WO2020153027A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11854555B2 (en) * 2020-11-05 2023-12-26 Sony Interactive Entertainment Inc. Audio signal processing apparatus, method of controlling audio signal processing apparatus, and program
CN117501235A (zh) * 2022-05-31 2024-02-02 京东方科技集团股份有限公司 音频控制方法、控制装置、驱动电路以及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228571A (ja) 2014-05-30 2015-12-17 株式会社東芝 音響制御装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003125499A (ja) 2001-10-17 2003-04-25 Sony Corp 音響再生装置
JP2005223713A (ja) * 2004-02-06 2005-08-18 Sony Corp 音響再生装置、音響再生方法
JP4531554B2 (ja) 2004-09-14 2010-08-25 日本電信電話株式会社 高臨場感通信装置及び高臨場感通信方法
CN101116374B (zh) 2004-12-24 2010-08-18 松下电器产业株式会社 声像定位装置
JP2007028134A (ja) * 2005-07-15 2007-02-01 Fujitsu Ltd 携帯電話機
US11450331B2 (en) * 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
JP2010245946A (ja) 2009-04-08 2010-10-28 Toyota Motor Corp 音伝達装置
JP2011223549A (ja) 2010-03-23 2011-11-04 Panasonic Corp 音声出力装置
US9030545B2 (en) * 2011-12-30 2015-05-12 GNR Resound A/S Systems and methods for determining head related transfer functions
JP6018485B2 (ja) * 2012-11-15 2016-11-02 日本放送協会 頭部伝達関数選択装置、音響再生装置
JP2014131140A (ja) 2012-12-28 2014-07-10 Yamaha Corp 通信システム、avレシーバ、および通信アダプタ装置
WO2016145261A1 (en) * 2015-03-10 2016-09-15 Ossic Corporation Calibrating listening devices
JP2017034350A (ja) 2015-07-29 2017-02-09 キヤノン株式会社 音響装置及びその制御方法、コンピュータプログラム
SG10201510822YA (en) 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
JP2017143468A (ja) 2016-02-12 2017-08-17 キヤノン株式会社 情報処理装置および情報処理方法
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
FI20165211A (fi) 2016-03-15 2017-09-16 Ownsurround Ltd Järjestely HRTF-suodattimien valmistamiseksi
US10028070B1 (en) * 2017-03-06 2018-07-17 Microsoft Technology Licensing, Llc Systems and methods for HRTF personalization
US10278002B2 (en) * 2017-03-20 2019-04-30 Microsoft Technology Licensing, Llc Systems and methods for non-parametric processing of head geometry for HRTF personalization
US10306396B2 (en) * 2017-04-19 2019-05-28 United States Of America As Represented By The Secretary Of The Air Force Collaborative personalization of head-related transfer function
US10149089B1 (en) * 2017-05-31 2018-12-04 Microsoft Technology Licensing, Llc Remote personalization of audio
GB201709199D0 (en) * 2017-06-09 2017-07-26 Delamont Dean Lindsay IR mixed reality and augmented reality gaming system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015228571A (ja) 2014-05-30 2015-12-17 株式会社東芝 音響制御装置

Also Published As

Publication number Publication date
JPWO2020153027A1 (ja) 2021-12-02
WO2020153027A1 (ja) 2020-07-30
KR20210118820A (ko) 2021-10-01
CN113302950A (zh) 2021-08-24
US11937069B2 (en) 2024-03-19
US20220086587A1 (en) 2022-03-17

Similar Documents

Publication Publication Date Title
DE60304358T2 (de) Verfahren zur verarbeitung von audiodateien und erfassungsvorrichtung zur anwendung davon
DE69433258T2 (de) Raumklangsignalverarbeitungsvorrichtung
DE602005002942T2 (de) Verfahren zur darstellung von mehrkanal-audiosignalen
EP3069530B1 (de) Verfahren und vorrichtung zum komprimieren und dekomprimieren von schallfelddaten eines gebiets
DE102012017296B4 (de) Erzeugung von Mehrkanalton aus Stereo-Audiosignalen
DE69935974T2 (de) Verfahren und system zur behandlung von gerichtetem schall in einer akustisch-virtuellen umgegung
CN110415712A (zh) 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
DE112019006727T5 (de) Audiosystem, audiowiedergabeeinrichtung, servereinrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
Ben-Hur et al. Localization of virtual sounds in dynamic listening using sparse HRTFs
DE102014006997A1 (de) Verfahren, Vorrichtung und Erzeugnis für drahtlose immersive Audioübertragung
Rasumow et al. Perceptual evaluation of individualized binaural reproduction using a virtual artificial head
EP1471770B1 (de) Verfahren zur Erzeugung einer angenäherten Teilübertragungsfunktion
Daniel et al. Multichannel audio coding based on minimum audible angles
CN108492275B (zh) 基于深度神经网络的无参考立体图像质量评价方法
EP2182744B1 (de) Wiedergabe eines Schallfeldes in einem Zielbeschallungsbereich
CN107665488A (zh) 一种立体图像视觉显著提取方法
DE112019004139T5 (de) Signalverarbeitungsvorrichtung, signalverarbeitungsverfahren und programm
Andreopoulou et al. Database matching of sparsely measured head-related transfer functions
DE112021004887T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem
US20220392462A1 (en) Multichannel audio encode and decode using directional metadata
EP3595334A2 (de) Verfahren zur audio-wiedergabe in einem hörgerät
DE69818238T2 (de) Verfahren zur dreidimensionalen lokalisierung von sprache
DE102023209009A1 (de) Objektaudiocodierung
CN108259891A (zh) 基于双目时空内在推理机制的3d视频质量盲评估方法
Bharitkar Deep learning for synthesis of head-related transfer functions