DE112021004887T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem - Google Patents

Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem Download PDF

Info

Publication number
DE112021004887T5
DE112021004887T5 DE112021004887.2T DE112021004887T DE112021004887T5 DE 112021004887 T5 DE112021004887 T5 DE 112021004887T5 DE 112021004887 T DE112021004887 T DE 112021004887T DE 112021004887 T5 DE112021004887 T5 DE 112021004887T5
Authority
DE
Germany
Prior art keywords
user
sound
information processing
target user
output data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021004887.2T
Other languages
English (en)
Inventor
Ryutaro Watanabe
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of DE112021004887T5 publication Critical patent/DE112021004887T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/09Non-occlusive ear tips, i.e. leaving the ear canal open, for both custom and non-custom tips
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R27/00Public address systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

Die vorliegende Erfindung fördert eine weitere Verbesserung der Verwendbarkeit. Eine Informationsverarbeitungsvorrichtung (10) umfasst Folgendes: eine Erfassungseinheit (111), die Positionsbeziehungen zwischen mehreren Benutzern, die sich in einem virtuellen Raum befinden, erfasst; und eine Erzeugungseinheit (1122), die auf Grundlage der durch die Erfassungseinheit (111) erfassten Positionsbeziehungen Ausgangsdaten über einem Zielbenutzer zu präsentierenden Töne aus Tondaten über von den meheren Benutzern erzeugte Töne erzeugt, wobei die Erzeugungseinheit (1122) die Ausgangsdaten unter Verwendung von Tönen unter Ausschluss von Tönen, die durch den Zielbenutzer direkt gehört werden können, aus den durch die Benutzer erzeugten Tönen erzeugt.

Description

  • Technisches Gebiet
  • Die vorliegende Offenbarung betrifft eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungssystem.
  • Hintergrund
  • In den letzten Jahren wurden Fortschritte bei der Entwicklung einer akustischen Technologie gemacht, bei der bewirkt wird, dass eine Tonquelle, die nicht wirklich existiert, als an einer beliebigen Position in einem realen Raum (echten Raum) befindlich wahrgenommen wird. Beispielsweise wurden Fortschritte bei der Entwicklung einer akustischen Technologie gemacht, bei der eine als virtueller Lautsprecher oder virtuelle Umgebung bezeichnete Technologie, die einen virtuellen akustischen Raum bereitstellt, oder dergleichen verwendet wird. Durch Lokalisierung eines Klangbilds an einer beliebigen Position im realen Raum durch die Technologie der virtuellen Umgebung oder dergleichen kann ein Benutzer eine virtuelle Tonquelle wahrnehmen.
  • Außerdem ist ein Fernkommunikationssystem, wie etwa ein Telekonferenzsystem, bekannt, bei dem eine Kommunikation durch gegenseitige Kommunikation von Videos, Stimmen und dergleichen von Teilnehmern (Benutzern) an entfernten Orten durchgeführt wird. Beispielsweise ist ein Fernkommunikationssystem bekannt, das einen Ton, der von einem Mikrofon an einem entfernten Ort erfasst wird, so wiedergibt, dass der Ton in einem anderen Raum auf ähnliche Weise wie an dem entfernten Ort zu hören ist.
  • Liste der Anführungen
  • Patentliteratur
  • Patentliteratur 1: US 2018/206038 A
  • Kurzdarstellung
  • Technisches Problem
  • Bei einer herkömmlichen Technologie besteht Potenzial zur Förderung einer weiteren Verbesserung der Verwendbarkeit. Beispielsweise besteht bei der herkömmlichen Technologie die Möglichkeit, dass die Anwesenheit beeinträchtigt wird, da eine Stimme eines Benutzers im selben Raum nicht live gehört werden kann. Insbesondere werden bei der herkömmlichen Technologie Kopfhörer, Ohrhörer oder dergleichen verwendet, um eine Stimme eines Benutzers im selben Raum/einem anderen Raum über ein Fernkommunikationssystem zu hören. Somit ist es schwierig, die Stimme des Benutzers im selben Raum live zu hören, und es besteht die Möglichkeit, dass die Anwesenheit beeinträchtigt wird.
  • Daher schlägt die vorliegende Offenbarung eine neue und verbesserte Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Endgerät vor, die in der Lage sind, eine weitere Verbesserung der Verwendbarkeit zu fördern.
  • Lösung des Problems
  • Gemäß der vorliegenden Offenbarung wird eine Informationsverarbeitungsvorrichtung bereitgestellt, die Folgendes aufweist: eine Erfassungseinheit, die eine Positionsbeziehung zwischen mehreren in einem virtuellen Raum angeordneten Benutzern erfasst; und eine Erzeugungseinheit, die auf Grundlage der durch die Erfassungseinheit erfassten Positionsbeziehung Ausgangsdaten eines einem Zielbenutzer zu präsentierenden Tons aus Tondaten eines durch jeden der Benutzer erzeugten Tons erzeugt, wobei die Erzeugungseinheit die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der durch den Zielbenutzer unter den Tönen, die jeweils durch die Benutzer erzeugt werden, direkt gehört werden kann, erzeugt.
  • Figurenliste
    • 1 ist eine Ansicht, die ein Konfigurationsbeispiel eines Informationsverarbeitungssystems gemäß einer Ausführungsform darstellt.
    • 2 ist eine Ansicht, die ein Beispiel eines Kopfhörers gemäß der Ausführungsform darstellt.
    • 3 ist eine Ansicht, die ein Beispiel des Informationsverarbeitungssystems gemäß der Ausführungsform darstellt.
    • 4 ist eine Ansicht, die das Konfigurationsbeispiel des Informationsverarbeitungssystems gemäß der Ausführungsform darstellt.
    • 5 ist eine Ansicht, die das Konfigurationsbeispiel des Informationsverarbeitungssystems gemäß der Ausführungsform darstellt.
    • 6 ist ein Blockdiagramm, das das Konfigurationsbeispiel des Informationsverarbeitungssystems gemäß der Ausführungsform darstellt.
    • 7 ist eine Ansicht, die ein Beispiel einer Ausgangsdatenerzeugungsverarbeitung gemäß der Ausführungsform darstellt.
    • 8 ist eine Ansicht, die ein Beispiel einer Speichereinheit gemäß der Ausführungsform darstellt.
    • 9 ist ein Flussdiagramm, das einen Verarbeitungsfluss durch eine Informationsverarbeitungsvorrichtung gemäß der Ausführungsform darstellt.
    • 10 ist eine Ansicht, die ein zweites Beispiel eines Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 11 ist eine Ansicht, die ein Beispiel einer Ausgangsdatenerzeugungsverarbeitung gemäß der Ausführungsform darstellt.
    • 12 ist ein Flussdiagramm, das einen Verarbeitungsfluss durch die Informationsverarbeitungsvorrichtung gemäß der Ausführungsform darstellt.
    • 13 ist eine Ansicht, die ein Beispiel einer Tonreflexion gemäß der Ausführungsform darstellt.
    • 14 ist eine Ansicht, die ein Beispiel einer Tonreflexion gemäß der Ausführungsform darstellt.
    • 15 ist eine Ansicht, die ein Beispiel von Räumen mit unterschiedlicher Reflexion und unterschiedlichem Nachhall von Tönen gemäß der Ausführungsform darstellt.
    • 16 ist eine Ansicht, die ein drittes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 17 ist eine Ansicht, die ein fünftes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 18 ist eine Ansicht, die ein sechstes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 19 ist eine Ansicht, die ein neuntes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 20 ist eine Ansicht, die ein zehntes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 21 ist eine Ansicht, die ein elftes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
    • 22 ist eine Ansicht, die ein Beispiel einer Kalibrierungsverarbeitung gemäß der Ausführungsform darstellt.
    • 23 ist ein Hardwarekonfigurationsdiagramm, das ein Beispiel eines Computers darstellt, der Funktionen der Informationsverarbeitungsvorrichtung umsetzt.
  • Beschreibung der Ausführungsformen
  • Im Folgenden werden bevorzugte Ausführungsformen der vorliegenden Offenbarung unter Bezugnahme auf die beigefügten Zeichnungen ausführlich beschrieben. Es sei angemerkt, dass Komponenten mit im Wesentlichen derselben funktionalen Konfiguration dieselben Bezugszeichen zugewiesen sind und auf eine überlappende Beschreibung in der vorliegenden Patentschrift und den Zeichnungen verzichtet wird.
  • Es sei angemerkt, dass die Beschreibung in der folgenden Reihenfolge erfolgt.
    • 1. Eine Ausführungsform der vorliegenden Offenbarung
    • 1.1. Einleitung
    • 1.2. Konfiguration eines Informationsverarbeitungssystems
    • 2. Funktion des Informationsverarbeitungssystems
    • 2.1. Übersicht
    • 2.2. Funktionskonfigurationsbeispiel
    • 2.3. Verarbeitung durch das Informationsverarbeitungssystem
    • 2.4. Variationen der Verarbeitung
    • 2.4.1. Fall, in dem sich ein Benutzer bewegt (zweites Beispiel)
    • 2.4.2. Unterdrückung von Umgebungstönen (drittes Beispiel)
    • 2.4.3. Tonerfassung mit einem in einem Raum installierten Mikrofon (viertes Beispiel)
    • 2.4.4. Erfassung von Umgebungstönen (fünftes Beispiel)
    • 2.4.5. Schätzung einer Erzeugungsposition von Umgebungstönen (sechstes Beispiel)
    • 2.4.6. Präsentation von Umgebungstönen (siebtes Beispiel)
    • 2.4.7. Flüstern (achtes Beispiel)
    • 2.4.8. Präsentation von Stimmen vieler Menschen (neuntes Beispiel)
    • 2.4.9. Besichtigungstour (zehntes Beispiel)
    • 2.4.10. Teleoperationsroboter usw. (elftes Beispiel)
    • 2.4.11. Kalibrierung (zwölftes Beispiel)
    • 3. Hardwarekonfigurationsbeispiel
    • 4. Schlussfolgerung
  • «1. Eine Ausführungsform der vorliegenden Offenbarung»
  • <1.1. Einleitung>
  • In einem Fernkommunikationssystem wie einem Telekonferenzsystem gemäß der herkömmlichen Technologie gibt es, da eine Stimme eines Benutzers im selben Raum/einem anderen Raum mit Kopfhörern, Ohrhörern oder dergleichen gehört wird, einen Fall, in dem die Stimme des Benutzers im selben Raum nicht live gehört werden kann. Beispielsweise gibt es selbst in einem Fall, in dem Benutzer auf benachbarten Sitzen im selben Raum sitzen, in dem Fernkommunikationssystem gemäß der herkömmlichen Technologie, in dem eine Stimme aus den Kopfhörern, den Ohrhörern oder dergleichen ausgegeben wird, einen Fall, in dem die Benutzer die Stimme nicht live hören können.
  • Das Fernkommunikationssystem gemäß der herkömmlichen Technologie weist ein System auf, das ein virtuelles Bild oder einen virtuellen Ton in einem virtuellen Raum darstellt. Beispielsweise gibt es ein System, das virtuelle Realität (VR) verwendet. Im Allgemeinen kann ein Benutzer in der VR einen virtuellen Ton hören, kann jedoch einen Ton in einem realen Raum nicht hören, da der Benutzer eine Vorrichtung wie Kopfhörer oder Ohrhörer trägt. Somit kann in dem Fernkommunikationssystem, das die VR verwendet, die Anwesenheit beeinträchtigt werden, da eine Stimme eines Benutzers im selben Raum nicht live gehört werden kann. Somit besteht Potenzial zur Förderung einer weiteren Verbesserung der Verwendbarkeit.
  • Ferner kann ein Benutzer in einem System, das Erweiterte Realität (AR: Augmented Reality) verwendet, gleichzeitig einen virtuellen Ton und einen Ton in einem realen Raum hören, da ein virtuelles Bild und ein virtueller Ton überlagert und in einem echten Raum präsentiert werden. Jedoch hören die Benutzer in einem Fall, in dem sich Benutzer im selben Raum befinden, da ein im realen Raum gehörter Ton auch als virtueller Ton präsentiert wird, den gleichen Ton möglicherweise mehrmals mit einer Zeitverzögerung. Somit besteht die Möglichkeit, dass die Anwesenheit beeinträchtigt wird, und es besteht Potenzial zur Förderung einer weiteren Verbesserung der Benutzerfreundlichkeit.
  • Es sei angemerkt, dass die Stereotonverarbeitung durch eine virtuelle Tonquelle in der folgenden Ausführungsform als Ton-AR beschrieben wird. Ein System, das die Ton-AR verwendet, weist nicht nur einen Fall von AR, sondern auch einen Fall von VR auf.
  • Daher schlägt die vorliegende Offenbarung eine neue und verbesserte Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Informationsverarbeitungssystem vor, die in der Lage sind, eine weitere Verbesserung der Verwendbarkeit zu fördern.
  • <1.2. Konfiguration eines Informationsverarbeitungssystems>
  • Es wird eine Konfiguration eines Informationsverarbeitungssystems 1 gemäß der Ausführungsform beschrieben. 1 ist eine Ansicht, die ein Konfigurationsbeispiel des Informationsverarbeitungssystems 1 darstellt. Wie in 1 dargestellt, weist das Informationsverarbeitungssystem 1 eine Informationsverarbeitungsvorrichtung 10 und einen Ohrhörer 20 auf. Es können verschiedene Vorrichtungen mit der Informationsverarbeitungsvorrichtung 10 verbunden sein. Beispielsweise ist der Ohrhörer 20 mit der Informationsverarbeitungsvorrichtung 10 verbunden, und eine Informationskooperation wird zwischen den Vorrichtungen durchgeführt. Die Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20 sind mittels drahtloser oder drahtgebundener Kommunikation derart mit einem Informationskommunikationsnetzwerk N verbunden, dass sie eine wechselseitige Informations-/Datenkommunikation durchführen und zusammenwirken. Das Informationskommunikationsnetzwerk N kann das Internet, ein Heimnetzwerk, ein Internet-der-Dinge(IoT)-Netzwerk, ein Peer-to-Peer(P2P)-Netzwerk, ein Nähenkommunikations-Mesh-Netzwerk oder dergleichen aufweisen. Die drahtlose Kommunikation kann zum Beispiel Wi-Fi, Bluetooth (eingetragene Marke) oder eine auf einem Mobilkommunikationsstandard wie 4G oder 5G basierte Technologie verwenden. Für die drahtgebundene Kommunikation kann eine Stromleitungskommunikationstechnologie wie Ethernet (eingetragene Marke) oder Power Line Communications (PLC) verwendet werden.
  • Die Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20 können separat als mehrere Computerhardwarevorrichtungen auf sogenannte Vor-Ort-Weise oder in einem Edge-Server oder einer Cloud bereitgestellt werden, oder Funktionen mehrerer Vorrichtungen der Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20 können als dieselbe Vorrichtung bereitgestellt werden. Beispielsweise können die Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20 als eine Vorrichtung bereitgestellt werden, in der die Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20 als Einheit arbeiten und mit einer externen Informationsverarbeitungsvorrichtung kommunizieren. Ferner kann ein Benutzer über eine Benutzerschnittstelle (einschließlich einer grafischen Benutzeroberfläche (GUI)) und Software (einschließlich eines Computerprogramms (im Folgenden auch als Programm bezeichnet)), die auf einer Endgerätevorrichtung (persönlichen Vorrichtung wie einem Personal Computer (PC) oder einem Smartphone mit einer Anzeige als Informationsanzeigevorrichtung und einer Sprach- und Tastatureingabe) betrieben wird (nicht dargestellt), eine wechselseitige Informations-/Datenkommunikation mit der Informationsverarbeitungsvorrichtung 10 durchführen.
  • (1) Informationsverarbeitungsvorrichtung 10
  • Die Informationsverarbeitungsvorrichtung 10 ist eine Informationsverarbeitungsvorrichtung, die eine Verarbeitung zum Erzeugen von Ausgangsdaten (wie etwa eines Ausgangssignals oder Tondaten) zum Wiedergeben eines Klangbilds eines Tons, der in einem anderen Raum erzeugt wird, der sich von einem Raum (wie etwa einem Zimmer oder in einem Zimmer) eines Benutzers, der ein Ziel einer Wiedergabe (Zielbenutzer) sein soll, unterscheidet, in dem Raum des Zielbenutzers durchführt. Insbesondere erzeugt die Informationsverarbeitungsvorrichtung 10 die Ausgangsdaten für den Zielbenutzer auf Grundlage einer Positionsbeziehung zwischen mehreren Benutzern, die in einem virtuellen Raum angeordnet sind. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der durch den Zielbenutzer unter Tönen, die jeweils von Benutzern erzeugt werden, direkt gehört werden kann. Folglich ist es, da die Informationsverarbeitungsvorrichtung 10 durch virtuelle Verarbeitung in dem Fernkommunikationssystem unter Verwendung der Technologie der Ton-AR nur notwendige Töne präsentieren kann, möglich, eine Verbesserung der Präsenz zu fördern. Ferner kann die Informationsverarbeitungsvorrichtung 10 eine Reduzierung der Verarbeitungsressourcen fördern. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 eine weitere Verbesserung der Verwendbarkeit fördern.
  • Ferner hat die Informationsverarbeitungsvorrichtung 10 auch eine Funktion zum Steuern des Gesamtbetriebs des Informationsverarbeitungssystems 1. Beispielsweise steuert die Informationsverarbeitungsvorrichtung 10 den Gesamtbetrieb des Informationsverarbeitungssystems 1 auf Grundlage von Informationen, die zwischen den Vorrichtungen kooperiert werden. Insbesondere erfasst die Informationsverarbeitungsvorrichtung 10 die Positionsbeziehung zwischen den mehreren in dem virtuellen Raum angeordneten Benutzern auf Grundlage von Informationen, die von dem Ohrhörer 20 übertragen werden.
  • Die Informationsverarbeitungsvorrichtung 10 wird durch einen PC, einen Server oder dergleichen umgesetzt. Es sei angemerkt, dass die Informationsverarbeitungsvorrichtung 10 nicht auf den PC, den Server oder dergleichen beschränkt ist. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 eine Computerhardwarevorrichtung wie ein PC oder ein Server sein, in dem eine Funktion wie die Informationsverarbeitungsvorrichtung 10 als Anwendung installiert ist.
  • Die Informationsverarbeitungsvorrichtung 10 kann eine beliebige Vorrichtung sein, solange eine Verarbeitung in der Ausführungsform umgesetzt werden kann. Ferner kann die Informationsverarbeitungsvorrichtung 10 eine Vorrichtung wie etwa ein Smartphone, ein Tablet-Endgerät, ein Notebook-PC, ein Desktop-PC, ein Mobiltelefon oder ein PDA sein. Ferner kann die Informationsverarbeitungsvorrichtung 10 als Teil eines anderen Geräts funktionieren, indem sie in das andere Gerät eingegliedert wird. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 als Teil des Ohrhörers 20 fungieren, beispielsweise als Kopfhörer.
  • (2) Ohrhörer 20
  • Der Ohrhörer 20 ist ein Ohrhörer, der durch einen Benutzer verwendet wird, um einen wiedergegebenen Ton zu hören. Beispielsweise führt der Ohrhörer 20 eine Wiedergabe auf Grundlage der von der Informationsverarbeitungsvorrichtung 10 übertragenen Ausgangsdaten durch. Ferner kann der Ohrhörer 20 ein Mikrofon aufweisen, das Töne, wie etwa eine Stimme des Benutzers, erfasst. Es sei angemerkt, dass in einem Fall, in dem der Ohrhörer 20 kein Mikrofon aufweist, das Informationsverarbeitungssystem 1 beispielsweise ein unabhängiges Mikrofon, ein in einer AR-Brille bereitgestelltes Mikrofon oder dergleichen verwenden kann. Ferner kann die Informationsverarbeitungsvorrichtung 10 ein Mikrofon aufweisen, das Töne, wie etwa die Stimme des Benutzers, erfasst.
  • Der Ohrhörer 20 kann alles sein, solange er eine Wiedergabevorrichtung der Ton-AR ist. Beispielsweise kann der Ohrhörer 20 ein in der AR-Brille installierter Lautsprecher, ein in einem Sitz installierter Sitzlautsprecher, ein Schulterlautsprecher für eine Schulter, ein Knochenschallkopfhörer oder dergleichen sein.
  • Der Ohrhörer 20 ist eine Wiedergabevorrichtung, mit der es möglich ist, gleichzeitig einen wiedergegebenen Ton (wie etwa Musik oder dergleichen) und einen Umgebungston (Umgebungsgeräusche) zu hören. Der Ohrhörer 20 kann ein Ohrhörer, ein Kopfhörer oder dergleichen sein, mit dem es möglich ist, gleichzeitig mit dem Umgebungston einen Ton von der Wiedergabevorrichtung zu hören. Beispielsweise kann der Ohrhörer 20 eine Wiedergabevorrichtung, die einen Gehörgang nicht blockiert, ein Offenohr-Ohrhörer oder -Kopfhörer, eine Wiedergabevorrichtung mit einer externen Tonerfassungsfunktion oder dergleichen sein.
  • 2 ist eine Ansicht, die ein Beispiel des Ohrhörers 20 darstellt. Wie in 2 dargestellt, kann ein Benutzer U11 gleichzeitig einen wiedergegebenen Ton SD11 aus dem Ohrhörer 20 und einen Umgebungston SD12 hören. Es sei angemerkt, dass ein Element GU11 eine Treibereinheit ist und ein Element 12 ein Schallkanal ist.
  • «2. Funktion des Informationsverarbeitungssystems»
  • Oben wurde die Konfiguration des Informationsverarbeitungssystems 1 beschrieben. Als Nächstes werden Funktionen des Informationsverarbeitungssystems 1 beschrieben. Es sei angemerkt, dass im Folgenden angenommen wird, dass jeder Benutzer den Ohrhörer 20 in der Ausführungsform hat.
  • Eine kopfbezogene Übertragungsfunktion gemäß der Ausführungsform kann eine beliebige Funktion sein, solange sie mit einer Übertragungscharakteristik eines Tons erfasst wird, der ein Ohr des Benutzers von einer beliebigen Position in einem Raum erreicht, wobei es sich um eine Impulsantwort handelt. Beispielsweise kann die kopfbezogene Übertragungsfunktion gemäß der Ausführungsform auf einer kopfbezogenen Übertragungsfunktion (HRTF: Head Related Transfer Function), einer binauralen Raumimpulsantwort (BRIR: Binaural Room Impulse Response) oder dergleichen basieren. Ferner kann die kopfbezogene Übertragungsfunktion gemäß der Ausführungsform beispielsweise durch ein Mikrofon oder dergleichen am Ohr des Benutzers gemessen, durch Simulation erfasst oder durch maschinelles Lernen oder dergleichen geschätzt werden.
  • Obgleich im Folgenden ein Fall beschrieben wird, in dem die durch die Informationsverarbeitungsvorrichtung 10 erzeugten Ausgangsdaten durch den Ohrhörer 20 empfangen und wiedergegeben werden, stellt dieses Beispiel keine Einschränkung dar. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 einen Ursprungston präsentieren, der nicht durch Verwendung der kopfbezogenen Übertragungsfunktion individuell optimiert ist, und der Ohrhörer 20 kann eine Signalverarbeitung gemäß der Ausführungsform durchführen.
  • Im Folgenden wird in der Ausführungsform ein Fall beschrieben, in dem ein Benutzer in einem anderen Raum durch Verwendung einer AR-Vorrichtung in einem virtuellen Raum angezeigt wird. Dieses Beispiel stellt jedoch keine Einschränkung dar. Eine Anzeigevorrichtung gemäß der Ausführungsform kann eine VR-Brille oder dergleichen sein.
  • <2.1. Überblick>
  • 3 ist eine Ansicht, die ein Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Ein Fall, in dem ein Benutzer A, ein Benutzer B, ein Benutzer C und ein Benutzer D eine Fernkonferenz abhalten, ist in 3 dargestellt. In 3 befinden sich der Benutzer A und der Benutzer B in einem Raum SP11, und der Benutzer C und der Benutzer D befinden sich in einem Raum SP12. Hier sind der Raum SP11 und der Raum SP12 unterschiedliche Räume. 3(A) ist eine Ansicht, die eine Situation darstellt, in der der Benutzer A und der Benutzer B auf Stühlen sitzen, die einen Tisch TB11 in dem Raum SP11 umgeben. Es sei angemerkt, dass der Benutzer C und der Benutzer D, die in 3(A) dargestellt sind, Benutzer sind, die nicht in einem realen Raum, sondern in einem virtuellen Raum existieren. 3(B) ist eine Ansicht, die eine Situation darstellt, in der der Benutzer C und der Benutzer D auf Stühlen sitzen, die einen Tisch TB12 in dem Raum SP12 umgeben. Es sei angemerkt, dass der Benutzer A und der Benutzer B, die in 3(B) dargestellt sind, Benutzer sind, die nicht in einem realen Raum, sondern in einem virtuellen Raum existieren. In diesem Fall bestimmt die Informationsverarbeitungsvorrichtung 10 für jeden Benutzer, wessen Stimme präsentiert werden soll und an welcher Position die Stimme präsentiert werden soll. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 die Ausgangsdaten auf Grundlage von nur notwendiger Stimme auf Grundlage dessen, ob eine Stimme eines anderen Benutzers direkt gehört werden kann, einer gegenseitigen Positionsbeziehung und dergleichen. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 schätzen, dass Benutzer A bis Benutzer D auf den Stühlen sitzen, die den Tisch TB11 umgeben, und Positionsinformationen jedes Benutzers anhand von Anordnungsinformationen der Stühle bestimmen. In 3 ist die Positionsbeziehung zwischen den Benutzern in einer in 3 dargestellten Weise.
  • In 3 erzeugt die Informationsverarbeitungsvorrichtung 10 in einem Fall, in dem der Benutzer A ein Zielbenutzer ist, Ausgangsdaten, mit denen ein Ton des Benutzers C von einer Position des Benutzers C in dem virtuellen Raum gehört wird. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten, mit denen ein Ton des Benutzers D von einer Position des Benutzers D in dem virtuellen Raum gehört wird. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten, mit denen Töne des Benutzers A und des Benutzers B nicht wiedergegeben werden. Es sei angemerkt, dass dasselbe für einen Fall gilt, in dem der Benutzer B ein Zielbenutzer ist. Dann erzeugt die Informationsverarbeitungsvorrichtung 10 in einem Fall, in dem der Benutzer C ein Zielbenutzer ist, Ausgangsdaten, mit denen ein Ton des Benutzers A von einer Position des Benutzers A in dem virtuellen Raum gehört wird. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten, mit denen ein Ton des Benutzers B von einer Position des Benutzers B in dem virtuellen Raum gehört wird. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten, mit denen Töne des Benutzers C und des Benutzers D nicht wiedergegeben werden. Es sei angemerkt, dass dasselbe für einen Fall gilt, in dem der Benutzer D ein Zielbenutzer ist.
  • In der Informationsverarbeitungsvorrichtung 10 kann ein Benutzerendgerät, wie etwa der Ohrhörer 20, der von jedem der Benutzer getragen wird, die Verarbeitung ausführen, indem es über einen in jedem Raum installierten Repeater (Zugriffspunkt) mit einem Server verbunden ist, oder kann die Verarbeitung ausführen, indem es ist ohne den Repeater direkt mit dem Server verbunden ist. 4 ist eine Ansicht, die ein Konfigurationsbeispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. In 4(A) senden und empfangen die Benutzerendgeräte des Benutzers A und des Benutzers B Informationen über einen Repeater SY11 an einen und von einem Server SB11, und die Benutzerendgeräte des Benutzers C und des Benutzers D senden und empfangen Informationen über einen Repeater SY12 an den und von dem Server SB11. In 4(B) senden und empfangen die Benutzerendgeräte von Benutzer A bis Benutzer D Informationen direkt an den und von dem Server SB11. Es sei angemerkt, dass jedes der Benutzerendgeräte eine Endgerätevorrichtung, wie etwa ein Smartphone, sein kann, die mit der Informationsverarbeitungsvorrichtung 10 und dem Ohrhörer 20 kommuniziert.
  • 5 ist eine Ansicht, die das Konfigurationsbeispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Insbesondere ist 5 eine Ansicht, die das Konfigurationsbeispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform in einem Fall von 4(A) darstellt. In 5 führt das Informationsverarbeitungssystem 1 beispielsweise eine Verarbeitung durch zum Bewirken, dass der Benutzer C einen durch den Benutzer A erzeugten Ton wahrnimmt. Wie in 5 gezeigt, überträgt das Informationsverarbeitungssystem 1 ein Signal einer Stimme des Benutzers A, wobei die Stimme durch das Mikrofon des Ohrhörers 20 erfasst wird, über ein Benutzerendgerät 30, das von dem Benutzer A gehalten wird, und den Repeater SY11 an den Server SB11. Es sei angemerkt, dass Details der Signalverarbeitung in dem Server SB11 später unter Bezugnahme auf 7, 11 und dergleichen beschrieben werden, weshalb auf deren Beschreibung verzichtet wird. Dann überträgt das Informationsverarbeitungssystem 1 durch den Server SB11 erzeugte Ausgangsdaten über das Benutzerendgerät 30, das von dem Benutzer C gehalten wird, und den Repeater SY12 an den Ohrhörer 20 des Benutzers C. Dann führt das Informationsverarbeitungssystem 1 eine Verarbeitung zum Ausgeben der an den Ohrhörer 20 übertragenen Ausgangsdaten über einen Lautsprecher des Ohrhörers 20 durch.
  • <2.2. Funktionskonfigurationsbeispiel»
  • 6 ist ein Blockdiagramm, das ein Funktionskonfigurationsbeispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt.
  • (1) Informationsverarbeitungsvorrichtung 10
  • Wie in 6 dargestellt, weist die Informationsverarbeitungsvorrichtung 10 eine Kommunikationseinheit 100 und eine Steuereinheit 110 auf.
  • (1-1) Kommunikationseinheit 100
  • Die Kommunikationseinheit 100 hat eine Funktion zum Kommunizieren mit einer externen Vorrichtung. Zum Beispiel gibt die Kommunikationseinheit 100 bei einer Kommunikation mit der externen Vorrichtung von der externen Vorrichtung empfangene Informationen an die Steuereinheit 110 aus. Insbesondere gibt die Kommunikationseinheit 100 von dem Ohrhörer 20 empfangene Informationen an die Steuereinheit 110 aus. Beispielsweise gibt die Kommunikationseinheit 100 Positionsinformationen jedes Benutzers an die Steuereinheit 110 aus.
  • Bei der Kommunikation mit der externen Vorrichtung überträgt die Kommunikationseinheit 100 von der Steuereinheit 110 eingegebene Informationen an die externe Vorrichtung. Insbesondere überträgt die Kommunikationseinheit 100 Steuerinformationen an den Ohrhörer 20, die eine Übertragung der Positionsinformationen jedes Benutzers anfordern und die von der Steuereinheit 110 eingegeben werden. Die Kommunikationseinheit 100 weist eine Hardwareschaltung (wie etwa einen Kommunikationsprozessor) auf und kann dazu ausgelegt sein, eine Verarbeitung durch ein Computerprogramm durchzuführen, das auf der Hardwareschaltung oder auf einer anderen Verarbeitungsvorrichtung, die die Hardwareschaltung steuert (wie etwa eine CPU), arbeitet.
  • (1-2) Steuereinheit 110
  • Die Steuereinheit 110 hat eine Funktion zum Steuern des Betriebs der Informationsverarbeitungsvorrichtung 10. Beispielsweise führt die Steuereinheit 110 eine Verarbeitung zum Erzeugen von Ausgangsdaten durch, um ein Klangbild eines Tons, der in einem anderen Raum erzeugt wird, der sich von einem Raum eines Zielbenutzers unterscheidet, in dem Raum des Zielbenutzers wiederzugeben.
  • Um die oben beschriebene Funktion umzusetzen, weist die Steuereinheit 110 eine Erfassungseinheit 111, eine Verarbeitungseinheit 112 und eine Ausgabeeinheit 113 auf, wie in 6 dargestellt. Die Steuereinheit 110 kann einen Prozessor, wie etwa eine CPU, aufweisen und kann Software (Computerprogramm) zum Umsetzen jeder der Funktionen der Erfassungseinheit 111, der Verarbeitungseinheit 112 und der Ausgabeeinheit 113 aus einer Speichereinheit 120 lesen und eine Verarbeitung durchführen. Ferner können eine oder mehrere von der Erfassungseinheit 111, der Verarbeitungseinheit 112 und der Ausgabeeinheit 113 eine Hardwareschaltung (wie etwa einen Prozessor) aufweisen, die sich von der Steuereinheit 110 unterscheidet, und können dazu ausgelegt sein, durch ein Computerprogramm gesteuert zu werden, das auf der anderen Hardwareschaltung oder auf der Steuereinheit 110 arbeitet.
  • ·Erfassungseinheit 111
  • Die Erfassungseinheit 111 hat eine Funktion zum Erfassen einer Positionsbeziehung zwischen mehreren Benutzern, die in einem virtuellen Raum angeordnet sind. Beispielsweise erfasst die Erfassungseinheit 111 Positionsinformationen der Benutzer auf Grundlage von GPS-Informationen, Bildinformationen und dergleichen jedes der Benutzer. Ferner erfasst die Erfassungseinheit 111 beispielsweise relative Positionsinformationen zwischen den Benutzern in dem virtuellen Raum, wie etwa einem AR-Raum.
  • Die Erfassungseinheit 111 erfasst Informationen bezüglich einer Positionsbeziehung (wie etwa einer relativen Position oder relativen Richtung) in dem virtuellen Raum zwischen einem Benutzer in einem Raum, der sich von dem eines Zielbenutzers (im Folgenden gegebenenfalls als „erster Benutzer“ bezeichnet) unterscheidet, und dem Zielbenutzer.
  • Als spezifisches Beispiel erfasst die Erfassungseinheit 111 Positionsinformationen und Richtungsinformationen jedes der Benutzer unter Verwendung von Sensorinformationen, die durch Sensoren wie einer Kamera (wie etwa einer externen Kamera einer AR-Brille), einem Beschleunigungssensor, einem Gyroskopsensor und ein Magnetkompass detektiert werden. Es sei angemerkt, dass diese Sensoren beispielsweise in einer Endgerätevorrichtung wie der AR-Brille oder einem Smartphone enthalten sind. Ferner kann die Erfassungseinheit 111 die Positionsinformationen und die Richtungsinformationen jedes der Benutzer unter Verwendung beispielsweise einer Kamera, eines Abstandssensors und dergleichen, die in einem Raum installiert sind, erfassen. Ferner kann die Erfassungseinheit 111 die Positionsinformationen und die Richtungsinformationen jedes der Benutzer unter Verwendung beispielsweise eines Lasers, einer Ultraschallwelle, einer Funkwelle, einer Bake und dergleichen erfassen. Beispielsweise kann die Erfassungseinheit 111 die Positionsinformationen und die Richtungsinformationen jedes der Benutzer durch Empfangen eines Lasers, der von einer in einem Raum installierten Ausgabevorrichtung ausgegeben wird, mit einer Vorrichtung, die der Ohrhörer 20 oder dergleichen ist und von jedem der Benutzer getragen wird, erfassen.
  • Ferner kann in einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 ein Mikrofon aufweist, die Erfassungseinheit 111 Toninformationen erfassen. Beispielsweise kann die Erfassungseinheit 111 Stimmeninformationen der Benutzer über das in der Informationsverarbeitungsvorrichtung 10 enthaltene Mikrofon erfassen.
  • ·Verarbeitungseinheit 112
  • Die Verarbeitungseinheit 112 hat eine Funktion zum Steuern der durch die Informationsverarbeitungsvorrichtung 10 durchgeführten Verarbeitung. Wie in 6 dargestellt, weist die Verarbeitungseinheit 112 eine Bestimmungseinheit 1121 und eine Erzeugungseinheit 1122 auf. Die Bestimmungseinheit 1121 und die Erzeugungseinheit 1122, die in der Verarbeitungseinheit 112 enthalten sind, können jeweils als unabhängiges Computerprogrammmodul konfiguriert sein, oder mehrere Funktionen können als kollektives Computerprogrammmodul konfiguriert sein.
  • ·Bestimmungseinheit 1121
  • Die Bestimmungseinheit 1121 hat eine Funktion zum Bestimmen, ob sich ein Benutzer im selben Raum wie der Zielbenutzer befindet oder ob sich der Benutzer in einem anderen Raum befindet, der sich von dem des Zielbenutzers unterscheidet. Beispielsweise bestimmt die Bestimmungseinheit 1121, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Es sei angemerkt, dass, obgleich unten ein Fall beschrieben wird, in dem bestimmt wird, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet, die Bestimmungseinheit 1121 bestimmen kann, ob sich mehrere Benutzern, darunter der Zielbenutzer, im selben Raum befinden. Ferner kann die Bestimmungseinheit 1121 einen anderen Benutzer spezifizieren, der sich im selben Raum wie der Zielbenutzer befindet.
  • Beispielsweise bestimmt die Bestimmungseinheit 1121 auf Grundlage von GPS-Informationen, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage einer IP-Adresse eines verwendeten Zugangspunkts, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem der erste Benutzer und der Zielbenutzer dieselbe IP-Adresse verwenden, dass sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage einer Eintritts-/Verlassensaufzeichnung bezüglich eines bestimmten Raums, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem der erste Benutzer und der Zielbenutzer in der Eintritts-/Verlassensaufzeichnung bezüglich eines bestimmten Raums enthalten sind, dass sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Auf diese Weise kann die Bestimmungseinheit 1121 den Benutzer, der sich im selben Raum wie der Zielbenutzer befindet, auf Grundlage von mit dem Raum assoziierten Informationen spezifizieren.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage von Sensorinformationen, die durch einen Sensor, wie etwa einer in dem Raum installierten Kamera, detektiert werden, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem der erste Benutzer und der Zielbenutzer in durch die in dem Raum installierte Kamera oder dergleichen erfassten Bildinformationen enthalten sind, dass sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Auf diese Weise kann die Bestimmungseinheit 1121 einen Benutzer spezifizieren, der sich im selben Raum wie der Zielbenutzer befindet, unter der Annahme, dass sich die Benutzer, die in den durch die in dem Raum installierte Kamera oder dergleichen erfassten Bildinformationen enthalten sind, im selben Raum befinden.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage von Sensorinformationen, die durch einen Sensor, wie etwa einer von einem beliebigen Benutzer getragenen Kamera, detektiert werden, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem der erste Benutzer und der Zielbenutzer in den durch die von einem beliebigen Benutzer getragene Kamera oder dergleichen erfassten Bildinformationen enthalten sind, dass sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Auf diese Weise kann die Bestimmungseinheit 1121 einen Benutzer spezifizieren, der sich im selben Raum wie der Zielbenutzer befindet, unter der Annahme, dass sich die Benutzer, die in den durch die von einem beliebigen Benutzer getragene Kamera oder dergleichen erfassten Bildinformationen enthalten sind, im selben Raum befinden.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage dessen, ob der Zielbenutzer einen Ton, der im realen Raum existiert, direkt hören kann, ob sich ein anderer Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 auf Grundlage dessen, ob sich der Zielbenutzer in einem Bereich befindet, in dem ein durch einen anderen Benutzer erzeugter Ton direkt gehört werden kann, dass sich der andere Benutzer in einem anderen Raum befindet, falls sich der Zielbenutzer nicht in dem Bereich befindet.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage von Zugangsinformationen zu derselben Spielmaschine, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem der erste Benutzer und der Zielbenutzer auf dieselbe Spielmaschine zugreifen, dass sich der erste Benutzer und der Zielbenutzer im selben Raum befinden. Beispielsweise gibt es einen Fall, in dem ein Mehrspielerspiel, an dem mehrere Benutzer gleichzeitig teilnehmen, durchgeführt wird. Ferner bestimmt die Bestimmungseinheit 1121 gleichermaßen in einem Fall, in dem mehrere Benutzer über einen PC, einen Fernseher (TV), eine Set-Top-Box oder dergleichen an demselben System teilnehmen, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Auf diese Weise führt die Bestimmungseinheit 1121 die Bestimmung auf Grundlage von Zugangsinformationen der mehreren Benutzern zu demselben System durch.
  • Ferner bestimmt die Bestimmungseinheit 1121 beispielsweise auf Grundlage eines Kommunikationszustands zwischen den Vorrichtungen der Benutzer, ob sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet. Insbesondere bestimmt die Bestimmungseinheit 1121 in einem Fall, in dem die Vorrichtung des Zielbenutzers und die Vorrichtung des ersten Benutzers über ein Kommunikationsverfahren wie Bluetooth (eingetragene Marke) direkt miteinander kommunizieren können, wobei die Vorrichtungen in dem Verfahren direkt miteinander kommunizieren können, dass sich der erste Benutzer im selben Raum wie der Zielbenutzer befindet.
  • ·Erzeugungseinheit 1122
  • Die Erzeugungseinheit 1122 hat eine Funktion zum Erzeugen von Ausgangsdaten eines Tons, der dem Zielbenutzer präsentiert werden soll, auf Grundlage der durch die Erfassungseinheit 111 erfassten Positionsbeziehung aus Tondaten eines durch jeden Benutzer erzeugten Tons. Beispielsweise erzeugt die Erzeugungseinheit 1122 Ausgangsdaten, um ein Klangbild eines Tons, der in einem anderen Raum erzeugt wird, der sich von dem Raum des Zielbenutzers unterscheidet, in dem Raum des Zielbenutzers wiederzugeben. Insbesondere erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion auf einer Erzeugungsposition des Tons in dem anderen Raum basiert. Beispielsweise erzeugt die Erzeugungseinheit 1122, um eine Tonquelle eines durch den ersten Benutzer erzeugten Tons wiederzugeben, die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion auf der Positionsbeziehung zwischen dem ersten Benutzer und dem Zielbenutzer in dem virtuellen Raum basiert, wenn der Ton erzeugt wird.
  • Anhand einer Positionsbeziehung zwischen mehreren Benutzern, die eine Fernkommunikation durchführen, bestimmt die Erzeugungseinheit 1122 einen Parameter, der für die Signalverarbeitung zu verwenden ist, um die Ausgangsdaten zu erzeugen (wie etwa eine Richtung und Entfernung der HRTF, Richtwirkung von Schall, Hinzufügung von Reflexion und Nachhall eines Raums oder dergleichen). Dann erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten auf Grundlage des bestimmten Parameters.
  • 7 ist eine Ansicht, die ein Beispiel einer Ausgangsdatenerzeugungsverarbeitung darstellt. Insbesondere ist 7 eine Ansicht, die eine Verarbeitung zum Erzeugen von Ausgangsdaten für den Benutzer A in einem Fall, in dem der Benutzer A der Zielbenutzer in 3 ist, darstellt. In diesem Fall erfasst die Erfassungseinheit 111 Benutzerinformationen UI11 des Benutzers C. Insbesondere erfasst die Erfassungseinheit 111 Stimmeninformationen SI11 des Benutzers C und Informationen bezüglich einer kopfbezogenen Übertragungsfunktion HF11 des Benutzers A, wobei die Funktion auf einer Positionsbeziehung zwischen dem Benutzer C und dem Benutzer A basiert. Die Erzeugungseinheit 1122 erzeugt Ausgangsdaten eines durch den Benutzer C erzeugten Tons auf Grundlage der Stimmeninformationen SI11 und der durch die Erfassungseinheit 111 erfassten kopfbezogenen Übertragungsfunktion HF11 (S11). In ähnlicher Weise erzeugt die Erzeugungseinheit 1122 Ausgangsdaten eines durch den Benutzer D erzeugten Tons. Dann erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten für den Benutzer A durch Kombinieren der Ausgangsdaten des durch den Benutzer C erzeugten Tons und der Ausgangsdaten des durch den Benutzer D erzeugten Tons (S12). Es sei angemerkt, dass jede kopfbezogene Übertragungsfunktion im Voraus auf Grundlage einer relativen Position jedes der Benutzer bestimmt wird, wobei die Position anhand der Positionsbeziehung der Sitze bestimmt wird.
  • Als Ergebnis kann die Erzeugungseinheit 1122 eine virtuelle Verarbeitung zum Lokalisieren einer Stimme jedes Benutzers an einer Position jedes Benutzers in dem virtuellen Raum durchführen. Ferner kann die Erzeugungseinheit 1122, ohne eine Stimme eines Benutzers zu präsentieren, die unter Stimmen mehrerer an einer Konferenz teilnehmender Benutzer direkt gehört werden kann, Ausgangsdaten erzeugen, um eine Stimme des anderen Benutzers zu präsentieren.
  • ·Ausgabeeinheit 113
  • Die Ausgabeeinheit 113 hat eine Funktion zum Ausgeben von Informationen bezüglich eines Erzeugungsergebnisses durch die Erzeugungseinheit 1122. Die Ausgabeeinheit 113 liefert die Informationen bezüglich des Erzeugungsergebnisses zum Beispiel über die Kommunikationseinheit 100 an den Ohrhörer 20. Bei Empfang der Informationen bezüglich des Erzeugungsergebnisses gibt der Ohrhörer 20 eine Stimme jedes Benutzers derart aus, dass die Stimme jedes Benutzers an der Position jedes Benutzers in dem virtuellen Raum lokalisiert ist.
  • (1-3) Speichereinheit 120
  • Die Speichereinheit 120 wird zum Beispiel durch ein Halbleiterspeicherelement wie beispielsweise einen Direktzugriffsspeicher (RAM) oder einen Flash-Speicher oder eine Speichervorrichtung wie beispielsweise eine Festplatte oder eine optische Platte umgesetzt. Die Speichereinheit 120 hat eine Funktion zum Speichern eines Computerprogramms und von Daten (einschließlich einer Form eines Programms) bezüglich einer Verarbeitung in der Informationsverarbeitungsvorrichtung 10.
  • 8 ist eine Ansicht, die ein Beispiel der Speichereinheit 120 darstellt. Die in 8 dargestellte Speichereinheit speichert Informationen zum Bestimmen, ob sich ein Benutzer im selben Raum wie der Zielbenutzer befindet. Wie in 8 dargestellt, kann die Speichereinheit 120 Elemente wie eine „Konferenz-ID“, eine „Zielbenutzer-ID“, eine „Anderer-Benutzer-ID“, einen „Zielbenutzerraum“, einen „Anderer-Benutzer-Raum“ und eine „HRTF“ aufweisen.
  • Die „Konferenz-ID“ gibt Identifikationsinformationen zum Identifizieren einer Konferenz an, an der mehrere Benutzer teilnehmen, die eine Fernkommunikation durchführen. Die „Zielbenutzer-ID“ gibt Identifikationsinformationen zum Identifizieren des Zielbenutzers an. Die „Anderer-Benutzer-ID“ gibt Identifikationsinformationen zum Identifizieren eines anderen Benutzers als des Zielbenutzers an. Der „Zielbenutzerraum“ gibt Informationen zum Spezifizieren eines Raums an, in dem sich der Zielbenutzer befindet. In dem in 8 dargestellten Beispiel wird ein Fall dargestellt, in dem konzeptionelle Informationen wie beispielsweise ein „Zielbenutzerraum #11“ und ein „Zielbenutzerraum #12“ in dem „Zielbenutzerraum“ gespeichert sind. In der Praxis werden jedoch Daten wie GPS-Informationen des Zielbenutzers, Informationen bezüglich einer Eintritts-/Verlassensaufzeichnung des Zielbenutzers in Bezug auf einen bestimmten Raum oder Bildgebungsinformationen, die den Zielbenutzer aufweisen, gespeichert. In ähnlicher Weise gibt der „Anderer-Benutzer-Raum“ Informationen zum Spezifizieren eines Raums an, in dem sich der andere Benutzer befindet. In dem in 8 dargestellten Beispiel wird ein Fall dargestellt, in dem konzeptionelle Informationen wie beispielsweise ein „Anderer-Benutzer-Raum #11“ und ein „Anderer-Benutzer-Raum #12“ in dem „Anderer-Benutzer-Raum“ gespeichert sind. In der Praxis werden jedoch Daten wie GPS-Informationen des anderen Benutzers, Informationen bezüglich einer Eintritts-/Verlassensaufzeichnung des anderen Benutzers in Bezug auf einen bestimmten Raum oder Bildgebungsinformationen, die den anderen Benutzer aufweisen, gespeichert. Die „HRTF“ gibt eine HRTF des Zielbenutzers an, wobei die HRTF im Voraus auf Grundlage von Positionsinformationen des Zielbenutzers und Positionsinformationen des anderen Benutzers bestimmt wird. In dem in 8 dargestellten Beispiel wird ein Fall dargestellt, in dem konzeptionelle Informationen wie beispielsweise eine „HRTF #11“ und eine „HRTF #12“ in der „HRTF“ gespeichert sind. In der Praxis werden jedoch HRTF-Daten gespeichert, die eine Impulsantwort einer Übertragungscharakteristik eines Tons sind, der ein Ohr des Zielbenutzers erreicht.
  • (2) Ohrhörer 20
  • Wie in 6 dargestellt, weist der Ohrhörer 20 eine Kommunikationseinheit 200, eine Steuereinheit 210 und eine Ausgabeeinheit 220 auf.
  • (2-1) Kommunikationseinheit 200
  • Die Kommunikationseinheit 200 hat eine Funktion zum Kommunizieren mit einer externen Vorrichtung. Zum Beispiel gibt die Kommunikationseinheit 200 bei einer Kommunikation mit der externen Vorrichtung von der externen Vorrichtung empfangene Informationen an die Steuereinheit 210 aus. Insbesondere gibt die Kommunikationseinheit 200 von der Informationsverarbeitungsvorrichtung 10 empfangene Informationen an die Steuereinheit 210 aus. Beispielsweise gibt die Kommunikationseinheit 200 Informationen bezüglich der Erfassung von Ausgangsdaten an die Steuereinheit 210 aus.
  • (2-2) Steuereinheit 210
  • Die Steuereinheit 210 hat eine Funktion zum Steuern des Betriebs des Ohrhörers 20. Beispielsweise führt die Steuereinheit 210 eine Verarbeitung zum Ausgeben von Ausgangsdaten auf Grundlage von Informationen durch, die von der Informationsverarbeitungsvorrichtung 10 über die Kommunikationseinheit 200 übertragen werden. Insbesondere wandelt die Steuereinheit 210 ein von der Informationsverarbeitungsvorrichtung 10 empfangenes Signal in ein Stimmsignal um und liefert Stimmsignalinformationen an die Ausgabeeinheit 220.
  • (2-3) Ausgabeeinheit 220
  • Die Ausgabeeinheit 220 wird durch ein Element umgesetzt, das Töne ausgeben kann, wie etwa einen Lautsprecher. Die Ausgabeeinheit 220 gibt Ausgangsdaten aus.
  • <2.3. Verarbeitung durch das Informationsverarbeitungssystem>
  • Oben wurde die Funktion des Informationsverarbeitungssystems 1 gemäß der Ausführungsform beschrieben. Als Nächstes wird die Verarbeitung durch das Informationsverarbeitungssystem 1 beschrieben.
  • 9 ist ein Flussdiagramm, das einen Verarbeitungsfluss durch die Informationsverarbeitungsvorrichtung 10 gemäß der Ausführungsform darstellt. Insbesondere ist 9 eine Ansicht, die die Verarbeitung zum Erzeugen von Ausgangsdaten für den Zielbenutzer darstellt. Die Informationsverarbeitungsvorrichtung 10 wählt einen anderen Benutzer als den Zielbenutzer aus mehreren Benutzern aus, die eine Fernkommunikation durchführen (S101). Es sei angemerkt, dass die Auswahl eines anderen Benutzers auf Grundlage eines beliebigen Algorithmus durchgeführt werden kann und die Auswahl zum Beispiel zufällig durchgeführt werden kann oder in einer vorbestimmten Reihenfolge durchgeführt werden kann, die im Voraus bestimmt wird. Dann bestimmt die Informationsverarbeitungsvorrichtung 10, ob sich der ausgewählte andere Benutzer im selben Raum wie der Zielbenutzer befindet (S102). In einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass sich der ausgewählte andere Benutzer nicht im selben Raum wie der Zielbenutzer befindet (S102; NEIN), werden Ausgangsdaten des anderen Benutzers durch Verwendung einer vorbestimmten kopfbezogenen Übertragungsfunktion erzeugt (S103). Dann bestimmt die Informationsverarbeitungsvorrichtung 10, ob die obige Verarbeitung bei allen anderen Benutzern außer dem Zielbenutzer ausgeführt wird (S104). Ferner wird in einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 in Schritt S102 bestimmt, dass sich der ausgewählte andere Benutzer im selben Raum wie der Zielbenutzer befindet (S102; JA), die Verarbeitung von Schritt S104 ohne die Verarbeitung von Schritt S103 durchgeführt. In einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass die obige Verarbeitung an allen anderen Benutzern außer dem Zielbenutzer ausgeführt wird (S104; JA), werden Teile von Ausgangsdaten der Benutzer kombiniert und die Ausgangsdaten für den Zielbenutzer erzeugt (S105). Ferner kehrt die Verarbeitung in einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass die obige Verarbeitung noch nicht für alle anderen Benutzer außer dem Zielbenutzer ausgeführt wurde (S104; NEIN), zu Schritt S101 zurück.
  • <2.4. Variationen der Verarbeitung>
  • Oben wurde die Ausführungsform der vorliegenden Offenbarung beschrieben. Als Nächstes werden Variationen der Verarbeitung der Ausführungsform der vorliegenden Offenbarung beschrieben. Es sei angemerkt, dass Variationen der nachstehend beschriebenen Verarbeitung unabhängig auf die Ausführungsform der vorliegenden Offenbarung angewendet werden können oder in Kombination auf die Ausführungsform der vorliegenden Offenbarung angewendet werden können. Darüber hinaus können die Variationen der Verarbeitung anstelle der in der Ausführungsform der vorliegenden Offenbarung beschriebenen Konfiguration angewendet werden oder können zusätzlich auf die in der Ausführungsform der vorliegenden Offenbarung beschriebene Konfiguration angewendet werden.
  • <2.4.1. Fall, in dem sich ein Benutzer bewegt (zweites Beispiel)>
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 Positionsinformationen jedes Benutzers auf Grundlage von Anordnungsinformationen eines Stuhls unter der Annahme bestimmt, dass jeder Benutzer auf dem Stuhl sitzt. Hier wird ein Fall beschrieben, in dem sich jeder Benutzer frei in jedem Raum bewegt. Es sei angemerkt, dass ein Beispiel eines Falls, in dem sich jeder Benutzer frei bewegt, im Folgenden gegebenenfalls als „zweites Beispiel“ bezeichnet wird.
  • 10 ist eine Ansicht, die ein zweites Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 3 ähnlich ist, verzichtet wird. In dem zweiten Beispiel wird ein Koordinatensystem sowohl in einem Raum SP11 als auch in einem Raum SP12 bestimmt. 10(A) ist eine Ansicht, die eine Situation darstellt, in der sich ein Benutzer A und ein Benutzer B frei in dem Raum SP11 bewegen. Dann werden Positionsinformationen des Benutzers A und des Benutzers B in einem im Voraus bestimmten Koordinatensystem XY11 in dem Raum SP11 bestimmt. 10(B) ist eine Ansicht, die eine Situation darstellt, in der sich ein Benutzer C und ein Benutzer D frei in dem Raum SP12 bewegen. Dann werden Positionsinformationen des Benutzers C und des Benutzers D in einem im Voraus bestimmten Koordinatensystem XY12 in dem Raum SP12 bestimmt. Es sei angemerkt, dass in 10, obgleich jeder Benutzer in der Darstellung an einer in 10 dargestellten Position bleibt, angenommen wird, dass sich jeder Benutzer tatsächlich frei bewegt. In diesem Fall erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten nur auf Grundlage einer notwendigen Stimme basierend auf Richtungsinformationen oder dergleichen jedes Benutzers zusätzlich dazu, ob eine Stimme eines anderen Benutzers direkt gehört werden kann, und einer gegenseitigen Positionsbeziehung.
  • 11 ist eine Ansicht, die ein Beispiel einer Ausgangsdatenerzeugungsverarbeitung darstellt. Insbesondere ist 11 eine Ansicht, die eine Verarbeitung zum Erzeugen von Ausgangsdaten für den Benutzer A in einem Fall, in dem der Benutzer A der Zielbenutzer in 10 ist, darstellt. In diesem Fall erfasst die Erfassungseinheit 111 Benutzerinformationen UI13 des Benutzers A. Insbesondere erfasst die Erfassungseinheit 111 Positionsinformationen und Richtungsinformationen (Positions-/Richtungsinformationen IM13) des Benutzers A. Ferner erfasst die Erfassungseinheit 111 Benutzerinformationen UI11 des Benutzers C. Insbesondere erfasst die Erfassungseinheit 111 Positionsinformationen und Richtungsinformationen (Positions-/Richtungsinformationen IM11) des Benutzers C. Die Erzeugungseinheit 1122 berechnet relative Positionsinformationen und relative Richtungsinformationen des Benutzers A und des Benutzers C auf Grundlage der Positions-/Richtungsinformationen IM11 und der Positions-/Richtungsinformationen IM13 (S21). Dann erfasst die Erfassungseinheit 111 Informationen bezüglich einer entsprechenden kopfbezogenen Übertragungsfunktion HF11 des Benutzers A von der Speichereinheit 120 auf Grundlage der berechneten relativen Positionsinformationen und relativen Richtungsinformationen. Dann erzeugt die Erzeugungseinheit 1122 Ausgangsdaten eines durch den Benutzer C erzeugten Tons auf Grundlage von Stimmeninformationen SI11 und der durch die Erfassungseinheit 111 erfassten kopfbezogenen Übertragungsfunktion HF11 (S22). In ähnlicher Weise erzeugt die Erzeugungseinheit 1122 Ausgangsdaten eines durch den Benutzer D erzeugten Tons. Dann erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten für den Benutzer A durch Kombinieren der Ausgangsdaten des durch den Benutzer C erzeugten Tons und der Ausgangsdaten des durch den Benutzer D erzeugten Tons (S23).
  • 12 ist ein Flussdiagramm, das einen Verarbeitungsfluss durch die Informationsverarbeitungsvorrichtung 10 gemäß der Ausführungsform darstellt. Insbesondere ist 12 eine Ansicht, die die Verarbeitung zum Erzeugen von Ausgangsdaten für den Zielbenutzer darstellt. Die Informationsverarbeitungsvorrichtung 10 wählt einen anderen Benutzer als den Zielbenutzer aus mehreren Benutzern aus, die eine Fernkommunikation durchführen (S201). Dann bestimmt die Informationsverarbeitungsvorrichtung 10, ob sich der ausgewählte andere Benutzer im selben Raum wie der Zielbenutzer befindet (S202). In einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass sich der ausgewählte andere Benutzer nicht im selben Raum wie der Zielbenutzer befindet (S202; NEIN), werden relative Positionsinformationen und relative Richtungsinformationen zwischen dem Zielbenutzer und dem anderen Benutzer berechnet (S203). Dann erfasst die Informationsverarbeitungsvorrichtung 10 eine entsprechende kopfbezogene Übertragungsfunktion und Informationen bezüglich einer Richtcharakteristik auf Grundlage der berechneten Informationen (S204). Dann erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten des anderen Benutzers unter Verwendung der kopfbezogenen Übertragungsfunktion und der Informationen bezüglich der Richtcharakteristik (S205). Anschließend bestimmt die Informationsverarbeitungsvorrichtung 10, ob die obige Verarbeitung bei allen anderen Benutzern außer dem Zielbenutzer ausgeführt wird (S206). Ferner wird in einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 in Schritt S202 bestimmt, dass sich der ausgewählte andere Benutzer im selben Raum wie der Zielbenutzer befindet (S202; JA), die Verarbeitung von Schritt S206 ohne die Verarbeitung von Schritt S203 bis Schritt S205 durchgeführt. In einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass die obige Verarbeitung an allen anderen Benutzern außer dem Zielbenutzer ausgeführt wird (S206; JA), werden Teile von Ausgangsdaten der Benutzer kombiniert und die Ausgangsdaten für den Zielbenutzer erzeugt (S207). Ferner kehrt die Verarbeitung in einem Fall, in dem die Informationsverarbeitungsvorrichtung 10 bestimmt, dass die obige Verarbeitung noch nicht für alle anderen Benutzer außer dem Zielbenutzer ausgeführt wurde (S206; NEIN), zu Schritt S201 zurück.
  • In dem zweiten Beispiel können, selbst wenn die relativen Positionen des Zielbenutzers und des anderen Benutzers gleich sind, reflektierte Töne, die von dem Zielbenutzer gehört werden, in Abhängigkeit von Positionen und Richtungen der jeweiligen Räume variieren. 13 ist eine Ansicht, die ein Beispiel einer Tonreflexion gemäß der Ausführungsform eines Falls darstellt, in dem ein Benutzer B einen durch einen Benutzer D erzeugten Ton hört. In 13 repräsentiert eine durchgezogene Linie einen direkten Ton, und eine unterbrochene Linie repräsentiert einen reflektierten Ton. In 13(A) und 13(B) wird angenommen, dass relative Positionen und relative Richtungen des Benutzers B und des Benutzers D gleich sind. Hier können, da die relativen Positionen des Benutzers B und des Benutzers D gleich sind, ein direkter Ton DR11 und ein direkter Ton DR12 gleich sein. Da sich jedoch die Zeit, die ein reflektierter Ton RE11 benötigt, um den Benutzer B zu erreichen, von der Zeit, die ein reflektierter Ton RE12 benötigt, um den Benutzer B zu erreichen, unterscheidet, können sich ein reflektierter Ton RE11 und der reflektierte Ton RE12 voneinander unterscheiden. Die Erzeugungseinheit 1122 erzeugt Ausgangsdaten, in denen Reflexion und Nachhall eines Tons, der in einem Raum erzeugt wird, der sich von dem des Zielbenutzers unterscheidet, hinzugefügt werden, bis der Ton den Zielbenutzer in dem virtuellen Raum erreicht. Insbesondere erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion Reflexion und Nachhall des durch den anderen Benutzer erzeugten Tons umfasst, bis der Ton den Zielbenutzer in dem virtuellen Raum erreicht, auf Grundlage von Positionsinformationen des Zielbenutzers in dem virtuellen Raum und Positionsinformationen des anderen Benutzers in dem virtuellen Raum.
  • Ähnlich wie 13 ist 14 eine Ansicht, die ein Beispiel einer Tonreflexion gemäß der Ausführungsform eines Falls darstellt, in dem ein Benutzer B einen durch einen Benutzer D erzeugten Ton hört. In 14(A) bis 14(C) wird angenommen, dass die relativen Positionen des Benutzers B und des Benutzers D gleich sind. Ferner wird angenommen, dass die relativen Richtungen des Benutzers B und des Benutzers D in 14(A) bis 14(C) unterschiedlich sind. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 13 ähnlich ist, verzichtet wird. 14(A) ist eine Ansicht, die einen Fall darstellt, der dem von 13(A) ähnlich ist. Ein Richtungsbereich RR11 gibt einen Bereich einer Ausbreitung eines Tons an, der durch den Benutzer D erzeugt wird (dasselbe gilt für einen Richtungsbereich RR12 und den später beschriebenen Richtungsbereich RR12). Es sei angemerkt, dass Richtungsbereich RR11 bis Richtungsbereich RR13 der Einfachheit halber Bereiche sind und nicht auf Bereiche der dargestellten Größe beschränkt sind. Da sich der Benutzer B in einer Richtung des Richtungsbereichs RR11 befindet, gibt es für den Benutzer B einen direkten Ton. Anders als 14(A) sind 14(B) und 14(C) Ansichten, die einen Fall darstellen, in dem der Benutzer D einen Ton in einer Richtung Erzeugt, die dem Benutzer B in dem virtuellen Raum entgegengesetzt ist. Da der Benutzer B in den Richtungen des Richtungsbereichs RR12 und des Richtungsbereichs RR13 nicht existiert, gibt es für den Benutzer B keinen direkten Ton. Ferner können in 14(B) und 14(C), da die relativen Richtungen des Benutzers B und des Benutzers D unterschiedlich sind, Reflexionstöne und Nachhalltöne, die den Benutzer B erreichen, ebenfalls unterschiedlich sein. Die Erzeugungseinheit 1122 erzeugt Ausgangsdaten, zu denen Reflexion und Nachhall eines Tons, der durch einen anderen Benutzer erzeugt wird, hinzugefügt werden, bis der Ton den Zielbenutzer in dem virtuellen Raum erreicht, auf Grundlage relativer Richtungsinformationen zwischen dem Zielbenutzer und dem anderen Benutzer in dem virtuellen Raum.
  • Die Erzeugungseinheit 1122 kann Ausgangsdaten erzeugen, in denen Reflexion und Nachhall eines durch den ersten Benutzer erzeugten Tons mit dem Raum, in dem sich der Zielbenutzer befindet, übereinstimmen. In einem Fall, in dem sich der Zielbenutzer in einem Raum mit relativ großer Reflexion und relativ großem Nachhall befindet, wie etwa einem Badezimmer, und sich der erste Benutzer in einem Raum mit relativ geringer Reflexion und relativ geringem Nachhall befindet, wie etwa einem Kino, kann ein befremdliches Gefühl entstehen, wenn ein trockener Klang in dem Raum mit großer Reflexion und großem Nachhall zu hören ist.
  • 15 ist eine Ansicht, die ein Beispiel von Räumen mit unterschiedlicher Reflexion und unterschiedlichem Nachhall von Tönen veranschaulicht. 15(A) ist eine Ansicht, die ein Kino als Beispiel eines Raums mit geringer Reflexion und geringem Nachhall darstellt. 15(B) ist eine Ansicht, die ein Badezimmer als Beispiel eines Raums mit großer Reflexion und großem Nachhall darstellt. Die Erzeugungseinheit 1122 kann Ausgangsdaten für den Zielbenutzer auf Grundlage von Attributinformationen des Raums des ersten Benutzers und Attributinformationen des Raums des Zielbenutzers erzeugen. Insbesondere kann die Erzeugungseinheit 1122 die Ausgangsdaten für den Zielbenutzer unter Verwendung eines Grads der Reflexion und des Nachhalls von Tönen, wobei der Grad auf Grundlage der Attributinformationen des Raums des Zielbenutzers geschätzt wird, für eine Reflexion und einen Nachhall eines durch den ersten Benutzer erzeugten Tons erzeugen. Beispielsweise kann die Erzeugungseinheit 1122 in einem Fall, in dem eine Differenz zwischen dem Grad der Reflexion und des Nachhalls von Tönen, wobei der Grad auf Grundlage der Attributinformationen des Raums des Zielbenutzers geschätzt wird, und einem Grad der Reflexion und des Nachhalls von Tönen, wobei der Grad auf Grundlage von Attributinformationen eines anderen Raums geschätzt wird, gleich oder größer als eine vorbestimmte Schwelle ist, die Ausgangsdaten für den Zielbenutzer unter Verwendung des Grads der Reflexion und des Nachhalls von Tönen, wobei der Grad auf Grundlage der Attributinformationen des Raums des Zielbenutzers geschätzt wird, zur Reflexion und zum Nachhall von Schall in einem virtuellen Raum erzeugen.
  • <2.4.2. Unterdrückung von Umgebungstönen (drittes Beispiel) >
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durchführt, um dem Zielbenutzer alle Töne zu präsentieren, die in einem anderen Raum erzeugt werden. Hier wird eine Verarbeitung zum Verhindern, dass ein Umgebungston, wie beispielsweise ein Geräusch, das in einem anderen Raum erzeugt wird, einem Zielbenutzer präsentiert wird, beschrieben. Es sei angemerkt, dass ein Beispiel eines Falls, in dem verhindert wird, dass ein in einem anderen Raum erzeugter Umgebungston dem Zielbenutzer präsentiert wird, nachstehend gegebenenfalls als „drittes Beispiel“ bezeichnet wird.
  • 16 ist eine Ansicht, die ein drittes Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 3 ähnlich ist, verzichtet wird. In 16 wird ein Umgebungston KS11 in einem Raum erzeugt, in dem ein Benutzer A und ein Benutzer B existieren. Hier ist der Umgebungston KS11 beispielsweise ein Geräusch, das erzeugt wird, wenn ein Objekt fällt, oder dergleichen. Beispielsweise gibt es einen Fall, in dem das Erfassen des Umgebungstons KS11 durch ein vom Benutzer B getragenes Mikrofon und dessen Präsentation für einen Benutzer C und einen Benutzer D als an einer Position des Benutzers B existierender Ton keine durch den Benutzer B beabsichtigten Vorgänge sind. In einem solchen Fall präsentiert die Informationsverarbeitungsvorrichtung 10 dem Benutzer C und dem Benutzer D unter durch das Mikrofon des Benutzers B erfassten Tönen zum Beispiel nur einen durch den Benutzer B erzeugten Ton.
  • Die Erzeugungseinheit 1122 extrahiert nur Äußerungen durch Äußerungsabschnittsdetektion oder Tonunterscheidung. Ferner extrahiert die Erzeugungseinheit 1122 nur Äußerungen des Benutzers B aus dem detektierten Äußerungsabschnitt beispielsweise durch eine Sprecheridentifikations- oder Sprechertrennungstechnologie. Es sei angemerkt, dass in einem Fall, in dem es nur einen Benutzer B in dem Raum gibt, die Erzeugungseinheit 1122 eine Äußerung in dem detektierten Äußerungsabschnitt als die Äußerung des Benutzers B extrahiert. Auf diese Weise erzeugt die Erzeugungseinheit 1122, um in einem virtuellen Raum nur ein Klangbild eines durch einen Benutzer in einem anderen Raum beabsichtigten Tons wiederzugeben, Ausgangsdaten zum Wiedergeben nur eines Klangbilds eines Tons in einem Äußerungsabschnitt des durch die Sprecheridentifikation identifizierten ersten Benutzers unter durch die Äußerungsabschnittsdetektion detektierten Äußerungsabschnitten. Als Ergebnis kann die Erzeugungseinheit 1122 die Ausgangsdaten zum Wiedergeben nur des Klangbilds des absichtlich durch den ersten Benutzer erzeugten Tons als einen an einer Position des ersten Benutzers existierenden Ton in dem virtuellen Raum erzeugen.
  • Um nur ein Klangbild eines durch einen Benutzer in einem anderen Raum beabsichtigten Tons in einem virtuellen Raum wiederzugeben, kann die Erzeugungseinheit 1122 zusätzlich zu der Äußerungsabschnittsdetektion oder der Tonunterscheidung, wie oben beschrieben, die Ausgangsdaten zum Wiedergeben nur das Klangbild des Tons des ersten Benutzers erzeugen, indem nur der Ton des ersten Benutzers unter Verwendung von Strahlformungsverarbeitung durch ein Richtmikrofon oder ein Array-Mikrofon erfasst wird. Darüber hinaus kann die Erzeugungseinheit 1122 Ausgangsdaten erzeugen, die durch Unterdrücken eines Tons, der durch einen zweiten Benutzer, der sich im selben Raum wie der erste Benutzer befindet, erzeugt wird, unter Tönen, die von einem Mikrofon des ersten Benutzers in dem anderen Raum erfasst werden, unter Verwendung eines Echokompensators oder dergleichen erhalten werden.
  • <2.4.3. Tonerfassung mit einem in einem Raum installierten Mikrofon (viertes Beispiel)>
  • In dem dritten Beispiel wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Verarbeitung zum Präsentieren eines von einem Mikrofon jedes Benutzers erfassten Tons für den Zielbenutzer durchführt. Hier wird die Verarbeitung eines Falls beschrieben, in dem ein Ton jedes Benutzers durch Verwendung eines in einem Raum installierten Mikrofons (im Folgenden gegebenenfalls als „Raummikrofon“ bezeichnet) erfasst wird. Es sei angemerkt, dass ein Beispiel eines Falls, in dem ein durch ein Raummikrofon erfasster Ton einem Zielbenutzer präsentiert wird, im Folgenden gegebenenfalls als „viertes Beispiel“ bezeichnet wird.
  • Eine Ansicht, die das vierte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt, ist 16 (drittes Beispiel) ähnlich. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 16 ähnlich ist, verzichtet wird. In diesem Fall spezifiziert die Informationsverarbeitungsvorrichtung 10 beispielsweise Positionsinformationen jedes Benutzers mit Positionsinformationen des Raummikrofons als Referenz und präsentiert einem Zielbenutzer nur einen Ton, der durch den ersten Benutzer, der ein Ziel ist, erzeugt wird.
  • Die Erzeugungseinheit 1122 präsentiert dem Zielbenutzer nur einen Ton, der durch jeden Benutzer erzeugt wird, durch Verwenden von Strahlformungsverarbeitung mit einer Position jedes Benutzers als Ziel. Insbesondere erzeugt die Erzeugungseinheit 1122 auf Grundlage von Positionsinformationen eines Raummikrofons in einem Raum eines anderen Raums und Positionsinformationen des ersten Benutzers in dem Raum des anderen Raums die Ausgangsdaten durch Extrahieren nur des durch den ersten Benutzer erzeugten Tons durch Verwenden der Strahlformungsverarbeitung mit einer Position des ersten Benutzers als Ziel aus dem Raummikrofon.
  • <2.4.4. Erfassung von Umgebungstönen (fünftes Beispiel) >
  • In dem vierten Beispiel wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Verarbeitung zum Präsentieren nur des durch den ersten Benutzer, der das Ziel ist, erzeugten Tons für den Zielbenutzer durchführt. Hier wird eine Verarbeitung eines Falls beschrieben, in dem ein Umgebungston durch Verwendung eines Raummikrofons oder dergleichen erfasst wird. Es sei angemerkt, dass ein Beispiel eines Falls, in dem ein durch ein Raummikrofon oder dergleichen erfasster Umgebungston einem Zielbenutzer präsentiert wird, im Folgenden gegebenenfalls als „fünftes Beispiel“ bezeichnet wird. Ferner ist, obgleich im fünften Beispiel ein Fall beschrieben wird, in dem ein Umgebungston durch ein Raummikrofon erfasst wird, ein Mikrofon zum Erfassen des Umgebungstons nicht auf das Raummikrofon beschränkt. Beispielsweise kann ein Mikrofon gemäß dem fünften Beispiel ein Mikrofon sein, das von jedem Benutzer getragen wird, um den Umgebungston zu erfassen.
  • 17 ist eine Ansicht, die das fünfte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 16 ähnlich ist, verzichtet wird. In 17 ist ein Raummikrofon RM11 an einer vorbestimmten Position in einem Raum eines Raums SP11 installiert, in dem ein Benutzer A und ein Benutzer B existieren. In dem dritten Beispiel wurde ein Fall beschrieben, in dem durch den Benutzer A und den Benutzer B erzeugte Stimmen durch das Raummikrofon erfasst werden. Da jedoch die Stimmen des Benutzers A und des Benutzers B möglicherweise durch dedizierte Mikrofone erfasst werden, die jeweils von ihnen gehalten werden, ist die Präsentation von Tönen, die durch den Benutzer A und den Benutzer B erzeugt und durch das Raummikrofon erfasst werden, für den Benutzer C und den Benutzer D möglicherweise nicht der beabsichtigte Vorgang des Benutzers A und des Benutzers B. In einem solchen Fall präsentiert die Informationsverarbeitungsvorrichtung 10 zum Beispiel dem Benutzer C und dem Benutzer D einen anderen Ton unter den durch das Raummikrofon RM11 erfassten Tönen als die Stimmen des Benutzers A und des Benutzers B. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 die Verbesserung der Anwesenheit fördern, als seien der Benutzer C und der Benutzer D im selben Raum wie der Benutzer A und der Benutzer B anwesend, indem der Umgebungston (wie etwa Geräusche, Lärm von außen und dergleichen) unter Verwendung des Raummikrofons oder dergleichen präsentiert wird.
  • Um in einem virtuellen Raum ein Klangbild eines in einem anderen Raum erzeugten Umgebungstons wiederzugeben, erzeugt die Erzeugungseinheit 1122 Ausgangsdaten durch Extrahieren nur des Umgebungstons außer einem Ton des ersten Benutzers und dergleichen (wie etwa eines Benutzers A und eines Benutzers B), wobei der Ton durch Spracherkennung spezifiziert wird. Darüber hinaus kann die Erzeugungseinheit 1122 Ausgangsdaten erzeugen, die durch Unterdrückung, durch Verwendung eines Echokompensators oder dergleichen des durch den ersten Benutzer und dergleichen erzeugten Tons unter durch ein in dem anderen Raum installiertes Raumsymbol oder dergleichen erfassten Tönen erfasst werden. Auf diese Weise erzeugt die Erzeugungseinheit 1122 die Ausgangsdaten, um ein Klangbild des Umgebungstons wiederzugeben, der sich von dem durch jeden Benutzer in dem anderen Raum erzeugten Ton unterscheidet.
  • In dem fünften Beispiel kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Lokalisieren des durch das Raummikrofon oder dergleichen erfassten Umgebungstons beispielsweise an einer Position des Raummikrofons oder dergleichen durchführen oder kann keine Verarbeitung zum Lokalisieren des Umgebungstons an einer bestimmten Position durchführen.
  • <2.4.5. Schätzung einer Erzeugungsposition von Umgebungstönen (sechstes Beispiel)>
  • In dem fünften Beispiel wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Verarbeitung zum Präsentieren des durch das Raummikrofon oder dergleichen erfassten Umgebungstons für den Zielbenutzer ungeachtet einer Erzeugungsposition des Umgebungstons durchführt. Hier wird eine Verarbeitung eines Falls beschrieben, in dem eine Erzeugungsposition des Umgebungstons geschätzt wird und ein Klangbild an der geschätzten Position lokalisiert wird. Es sei angemerkt, dass ein Beispiel eines Falls, in dem ein Umgebungston geschätzt und ein Klangbild lokalisiert wird, im Folgenden gegebenenfalls als ein „sechstes Beispiel“ bezeichnet wird.
  • 18 ist eine Ansicht, die das sechste Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 17 ähnlich ist, verzichtet wird. In 18 ist ein Raummikrofon RM11 an einer vorbestimmten Position in einem Raum eines Raums SP11 installiert, in dem ein Benutzer A und ein Benutzer B existieren. Darüber hinaus wird in dem Raum des Raums SP11 in 18 ein Umgebungston KS11 erzeugt. In einem solchen Fall schätzt die Informationsverarbeitungsvorrichtung 10 eine Erzeugungsposition einer Tonquelle des Umgebungstons zum Beispiel durch Strahlformungsverarbeitung oder dergleichen unter Verwendung von Informationen, die durch mehrere Mikrofonen erfasst werden. Zu diesem Zeitpunkt wird angenommen, dass die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durch geeignetes Kombinieren eines von jedem Benutzer gehaltenen dedizierten Mikrofons und des Raummikrofons durchführen kann. Ferner kann die Informationsverarbeitungsvorrichtung 10 beispielsweise ein Array-Mikrofon oder dergleichen als das von jedem Benutzer gehaltene dedizierte Mikrofon oder das Raummikrofon verwenden.
  • In dem sechsten Beispiel kann die Verarbeitungseinheit 112 zusätzlich zu der Bestimmungseinheit 1121 und der Erzeugungseinheit 1122 eine Schätzeinheit 1123 aufweisen. Die Bestimmungseinheit 1121, die Erzeugungseinheit 1122 und die Schätzeinheit 1123, die in der Verarbeitungseinheit 112 enthalten sind, können jeweils als unabhängiges Computerprogrammmodul konfiguriert sein, oder mehrere Funktionen können als kollektives Computerprogrammmodul konfiguriert sein.
  • Die Schätzeinheit 1123 hat eine Funktion zum Schätzen einer Erzeugungsposition eines in einem anderen Raum erzeugten Tons. Beispielsweise schätzt die Schätzeinheit 1123 eine Erzeugungsposition eines Umgebungstons durch Durchführen einer Strahlformungsverarbeitung durch geeignetes Kombinieren des von jedem Benutzer gehaltenen dedizierten Mikrofons und des Raummikrofons.
  • Die Erzeugungseinheit 1122 erzeugt Ausgangsdaten zum Wiedergeben eines Klangbilds des in dem anderen Raum erzeugten Tons in einem virtuellen Raum auf Grundlage der durch die Schätzeinheit 1123 geschätzten Erzeugungsposition.
  • <2.4.6. Präsentation von Umgebungstönen (siebtes Beispiel) >
  • In dem sechsten Beispiel wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Erzeugungsposition des Umgebungstons in dem anderen Raum schätzt und die Verarbeitung zum Lokalisieren des Klangbilds an der Position in dem virtuellen Raum durchführt, wobei die Position der geschätzten Erzeugungsposition entspricht. Es gibt jedoch einen Fall, in dem ein Umgebungston keine klare Lokalisierung aufweist. In diesem Fall kann beispielsweise das Lokalisieren eines Umgebungstons ohne klare Lokalisierung unter durch ein Raummikrofon oder dergleichen erfassten Tönen an einer Position des Raummikrofons oder dergleichen einem Zielbenutzer einen unnatürlichen Eindruck vermitteln. Hier wird die Verarbeitung eines Falls beschrieben, in dem der Umgebungston ohne klare Lokalisierung dem Zielbenutzer präsentiert wird, ohne an einer klaren Position lokalisiert zu sein. Es sei angemerkt, dass ein Beispiel eines Falls, in dem der Umgebungston ohne eindeutige Lokalisierung dem Zielbenutzer präsentiert wird, ohne an einer klaren Position lokalisiert zu sein, im Folgenden gegebenenfalls als „siebtes Beispiel“ bezeichnet wird.
  • Eine Ansicht, die das siebte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt, ist 17 (fünftes Beispiel) ähnlich. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 17 ähnlich ist, verzichtet wird. Es gibt einen Fall, in dem beispielsweise Lärm aufgrund öffentlicher Verkehrsmittel oder dergleichen natürlich von einer Fensterseite eines Raums zu hören ist. In diesem Fall analysiert die Informationsverarbeitungsvorrichtung 10, welche Art von Ton in einem durch ein Raummikrofon oder dergleichen erfassten Ton enthalten ist, und führt eine Verarbeitung zum Bestimmen einer von einer natürlichen Position gehörten virtuellen Tonquelle in einem virtuellen Raum für einen Zielbenutzer durch. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 eine Klangbildlokalisierungsverarbeitung derart durchführen, dass Töne von einer rechten Seite in dem virtuellen Raum gehört werden, falls eine Fensterseite eines Raums SP12 die rechte Seite ist, selbst in einem Fall, in dem Töne von einer linken Seite, die eine Fensterseite eines Raums SP11 ist, erfasst werden.
  • Ferner kann die Informationsverarbeitungsvorrichtung 10 unter Verwendung eines Ambisonics-Mikrofons, eines Array-Mikrofons oder dergleichen als das Raummikrofon oder dergleichen eine Verarbeitung zum Wiedergeben des erfassten Tons in einem Koordinatensystem ausführen, das auf den Zielbenutzer zentriert ist, anstatt den erfassten Ton in einem auf das Mikrofon zentrierten Koordinatensystem wiederzugeben. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 bewirken, dass der Zielbenutzer ein Umgebungston angemessener wahrnimmt.
  • Darüber hinaus kann die Informationsverarbeitungsvorrichtung 10 in einem Fall, in dem ein für den Zielbenutzer unangenehmer Ton (wie etwa ein Arbeitsgeräusch einer Baustelle oder dergleichen) oder ein unnötiger Ton (wie etwa eine öffentliche Durchsage oder dergleichen) in dem durch das Raummikrofon oder dergleichen erfassten Ton enthalten ist, eine Verarbeitung durchführen, um dem Zielbenutzer einen solchen Ton nicht zu präsentieren.
  • In dem siebten Beispiel erzeugt die Erzeugungseinheit 1122 Ausgangsdaten zum Wiedergeben eines Klangbilds des Umgebungstons an einer vorbestimmten Position in dem virtuellen Raum, wobei die Position auf Grundlage von Attributinformationen eines in einem anderen Raum erzeugten Umgebungstons und Attributinformationen eines Raums des Zielbenutzers geschätzt wird.
  • <2.4.7. Flüstern (achtes Beispiel)>
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Verarbeitung zum Präsentieren des durch den ersten Benutzer erzeugten Tons für alle Benutzer in einem Raum, die nicht der erste Benutzer sind, durchführt. Hier wird eine Verarbeitung eines Falls beschrieben, in dem ein durch den ersten Benutzer erzeugter Ton nur einem bestimmten Benutzer präsentiert wird. Beispielsweise findet ein Gespräch nur zwischen einem Teil der Benutzer statt (wie etwa ein Flüstern). Es sei angemerkt, dass ein Beispiel eines Falls, in dem der durch den ersten Benutzer erzeugte Ton nur einem bestimmten Benutzer präsentiert wird, im Folgenden gegebenenfalls als „achtes Beispiel“ bezeichnet wird. Es sei angemerkt, dass der bestimmte Benutzer gemäß dem achten Beispiel ein Benutzer, der sich im selben Raum wie der erste Benutzer befindet, oder ein Benutzer, der sich in einem anderen Raum befindet, sein kann. Ferner ist der bestimmte Benutzer gemäß dem achten Beispiel nicht auf einen einzelnen Benutzer beschränkt und kann mehrere Benutzern angeben.
  • Eine Ansicht, die das achte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt, ist 10 (zweites Beispiel) ähnlich. Es sei angemerkt, dass gegebenenfalls auf eine Beschreibung, die der von 10 ähnlich ist, verzichtet wird. In diesem Fall kann die Informationsverarbeitungsvorrichtung 10 beispielsweise eine Verarbeitung durchführen, um den durch einen Benutzer A erzeugten Ton nur einem Benutzer C zu präsentieren, den der Benutzer A anblickt, wenn der Benutzer A den Ton mit leiser Stimme erzeugt. Zu diesem Zeitpunkt kann die Informationsverarbeitungsvorrichtung 10 eine Klangbildlokalisierungsverarbeitung durchführen, als ob der Benutzer A beispielsweise in der Nähe oder am Ohr des Benutzers C spricht. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 bewirken, dass der Benutzer C das Gefühl hat, als ob der Benutzer A beispielsweise in der Nähe oder am Ohr des Benutzers C spricht.
  • Ferner gibt es einen Fall, in dem ein Benutzer B, der sich im selben Raum wie der Benutzer A befindet, beispielsweise auch den Ton hören kann, der durch den Benutzer A für den Benutzer C mit einer leisen Stimme erzeugt wird. In diesem Fall kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Wiedergeben eines Signals zum Unterdrücken des durch den Benutzer A erzeugten Tons durch eine Wiedergabevorrichtung des Benutzers B durchführen. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 verhindern, dass der Benutzer B den durch den Benutzer A mit leiser Stimme abgegebenen Ton hört.
  • In dem achten Beispiel erzeugt die Erzeugungseinheit 1122 in einem Fall, in dem der erste Benutzer einen Ton mit einer Lautstärke (Schalldruckpegel) gleich oder kleiner als eine vorbestimmte Schwelle erzeugt, Ausgangsdaten für einen Zielbenutzer mit einem auf Grundlage von Blickinformationen des ersten Benutzers spezifizierten Benutzer als Zielbenutzer. Es sei angemerkt, dass die Erzeugungseinheit 1122 als die Blickinformationen Ausgangsdaten für einen Zielbenutzer erzeugen kann, wobei ein auf Grundlage einer Richtung eines Kopfs des ersten Benutzers spezifizierter Benutzer der Zielbenutzer ist. Ferner erzeugt die Erzeugungseinheit 1122 Ausgangsdaten für einen zweiten Benutzer, wobei die Daten den durch den ersten Benutzer erzeugten Ton derart unterdrücken sollen, dass der zweite Benutzer, der sich im selben Raum wie der erste Benutzer befindet, den durch den ersten Benutzer erzeugten Ton nicht hört.
  • <2.4.8. Präsentation von Stimmen vieler Menschen (neuntes Beispiel)>
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 die Verarbeitung zum Lokalisieren des Klangbilds des durch jeden Benutzer erzeugten Tons an der Position, die jedem Benutzer in dem virtuellen Raum entspricht, durchführt. In einem Fall, in dem jeder Benutzer, der ein Publikum ist, ein Mikrofon trägt, wenn er sich in einem Stadion oder dergleichen eine Sportart ansieht, gibt es jedoch einen Fall, in dem es nicht erforderlich ist, einen Ton jedes Benutzers an einer klaren Position zu lokalisieren. Hier wird eine Verarbeitung eines Falls beschrieben, in dem es nicht erforderlich ist, Ausgangsdaten für einen durch jeden Benutzer erzeugten Ton einzeln zu erzeugen. Es sei angemerkt, dass ein Beispiel eines Falls, in dem es nicht erforderlich ist, Ausgangsdaten für den durch jeden Benutzer erzeugten Ton einzeln zu erzeugen, im Folgenden gegebenenfalls als „neuntes Beispiel“ bezeichnet wird. Darüber hinaus ist, obgleich das neunte Beispiel im Folgenden mit dem Ansehen einer Sportart in einem Stadion als Beispiel beschrieben wird, das neunte Beispiel nicht auf das Ansehen einer Sportart in einem Stadion beschränkt. Beispielsweise kann das Beispiel eine Wertschätzung in einem Theater oder einem Live-Veranstaltungsort aufweisen.
  • 19 ist eine Ansicht, die das neunte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. 19 ist eine Vogelperspektive des Stadions von oben. Ferner werden in 19 Benutzer, die in einem Bereich in einer bestimmten Richtung in einem virtuellen Raum anwesend sind, wie von einem Benutzer A aus gesehen, kollektiv als Benutzer E bezeichnet. Hier sind die Benutzer E Benutzer, die sich in einem anderen Raum als der Benutzer A befinden. Zum Beispiel sind die Benutzer E Benutzer, die sich tatsächlich eine Sportart in dem Stadion ansehen. Es sei angemerkt, dass ein Bild IG11 eine Ansicht zum Angeben, dass sich die Benutzer E und dergleichen eine Sportart ansehen, ist und kein Bild ist, das tatsächlich auf einer AR-Brille oder dergleichen angezeigt wird. Die Benutzer E sind beispielsweise Benutzer, die sich aus Sicht des Benutzers A auf der gegenüberliegenden Seite des Stadions in dem virtuellen Raum befinden und ein anderes Team als der Benutzer A unterstützen. In diesem Fall führt die Informationsverarbeitungseinheit 10 eine Verarbeitung zum Lokalisieren eines Klangbilds in einer bestimmten Richtung aus der Sicht des Benutzers A unter Verwendung von Tönen, die durch Benutzer erzeugt werden, die in einem Bereich in der bestimmten Richtung aus der Sicht des Benutzers A anwesend sind, als durch die Benutzer E erzeugten Ton einer großen Tonquelle durch. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 die Reduzierung einer Verarbeitungsmenge fördern, indem sie den Ton, der durch die Benutzer erzeugt wird, die in dem Bereich in der bestimmten Richtung aus der Sicht des Benutzers A anwesend sind, als den durch die Benutzer E erzeugten Ton der einen großen Tonquelle verarbeitet.
  • Zusätzlich zu einem Fall, in dem ein durch jeden Benutzer erzeugter Ton durch ein Mikrofon jedes Benutzers erfasst wird, kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durch Erfassen eines durch jeden Benutzer erzeugten Tons durchführen, indem ein Mikrofon verwendet wird, das in dem Stadion oder dergleichen installiert ist.
  • Ferner kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durchführen, um es dem Zielbenutzer leichter zu machen, einen Ton zu hören, den der Zielbenutzer hören möchte. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durchführen, um es dem Zielbenutzer leichter zu machen, den Ton zu hören, den der Zielbenutzer hören möchte, wie etwa Erhöhen eines Tons in Bezug auf ein Spiel, wie etwa einen Spielzug, und Verringern eines Tons des Publikums im Vergleich zu einem Fall, in dem sich der Zielbenutzer tatsächlich in dem Stadion oder dergleichen befindet. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung durchführen, um es dem Zielbenutzer leichter zu machen, den Ton zu hören, den der Zielbenutzer hören möchte, indem Lautstärke, Tonqualität und dergleichen angepasst werden.
  • Hier kann ein Benutzer B ein Benutzer sein, der sich im selben Raum wie der Benutzer A befindet, oder kann ein Benutzer sein, der sich in einem anderen Raum befindet, der sich von dem des Benutzers A unterscheidet. In 19 ist der Benutzer B ein Benutzer, der sich im gleichen Raum wie der Benutzer A befindet. Der Benutzer B ist zum Beispiel ein Benutzer, der sich in dem virtuellen Raum auf der aus Sicht des Benutzers A gleichen Seite des Stadions befindet, und ist ein Benutzer, der dasselbe Team wie der Benutzer A unterstützt.
  • Beispielsweise kann in einem Fall, in dem der Benutzer B, der sich im selben Raum wie der Benutzer A befindet, mit dem Benutzer A spricht, die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Reduzieren der Lautstärke des Tons, wie etwa eines Jubels, durch die Benutzer E durchführen, wobei der Ton dem Benutzer A durch die virtuelle Verarbeitung präsentiert wird. Alternativ kann die Informationsverarbeitungsvorrichtung 10, um das Gespräch zwischen dem Benutzer A und dem Benutzer B zu erleichtern, eine Verarbeitung zum Reduzieren der Lautstärke des Tons, wie etwa des Jubels, durch den Benutzer E durchführen, wobei der Ton durch die virtuelle Verarbeitung sowohl dem Benutzer A als auch dem Benutzer B präsentiert wird.
  • Ferner kann die Informationsverarbeitungsvorrichtung 10 beispielsweise in einem Fall, in dem die Lautstärke eines anderen Benutzers, wie etwa des Benutzers B, der sich im selben Raum wie der Benutzer A befindet, gleich oder größer als eine vorbestimmte Schwelle ist, eine Verarbeitung zum Reduzieren der Lautstärke des anderen Benutzers unter Verwendung eines Echokompensators oder dergleichen durchführen. Beispielsweise gibt es einen Fall, in dem sich der Benutzer A darauf konzentriert, ein Spiel in einer Sportbar oder dergleichen anzusehen. In diesem Fall kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Reduzieren nicht nur der virtuellen Lautstärke des anderen Benutzers in dem virtuellen Raum, sondern auch der Lautstärke des anderen Benutzers in einem realen Raum durchführen.
  • In dem neunten Beispiel verwendet die Erzeugungseinheit 1122 in einem Fall, in dem die Anzahl von Benutzern in dem anderen Raum gleich oder größer als eine vorbestimmte Schwelle ist, mehrere durch die Benutzer der Anzahl erzeugte Töne als eine Tonquelle und erzeugt Ausgangsdaten, um ein Klangbild der Tonquelle an einer vorbestimmten Position in dem virtuellen Raum wiederzugeben.
  • <2.4.9. Besichtigungstour (zehntes Beispiel)>
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Präsentieren des in dem Raum SP11 erzeugten Umgebungstons für den Benutzer in dem Raum SP12 und zum Präsentieren des in dem Raum SP12 erzeugten Umgebungstons für den Benutzer in dem Raum SP11 durchführt. Hier wird eine Verarbeitung eines Falls beschrieben, in dem der Raum SP11 ein Raum mit vorbestimmten Attributinformationen ist. Es sei angemerkt, dass ein Beispiel eines Falls, in dem ein Raum eines Benutzers unter mehreren Benutzern, die eine Fernkommunikation durchführen, vorbestimmte Attributinformationen aufweist, im Folgenden gegebenenfalls als „zehntes Beispiel“ bezeichnet wird. Darüber hinaus wird im Folgenden als Beispiel des Raums mit den vorbestimmten Attributinformationen ein Fall beschrieben, in dem ein Raum SP11 ein Touristenort ist. Dieses Beispiel stellt jedoch keine Einschränkung dar. Es sei angemerkt, dass die vorbestimmten Attributinformationen im Voraus bestimmt werden können.
  • 20 ist eine Ansicht, die das zehnte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. In 20 ist der Raum SP11 ein Raum eines Touristenorts. Dann wird angenommen, dass sich ein Benutzer A und ein Benutzer B gemeinsam in dem Raum des Raums SP11 bewegen, beispielsweise während einer Besichtigungstour. Darüber hinaus wird angenommen, dass sich ein Benutzer C nicht in dem Raum SP11 befindet. Beispielsweise wird angenommen, dass sich der Benutzer C in einem privaten Raum befindet. In diesem Fall führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Präsentieren eines in dem Raum des Raums SP11 erzeugten Umgebungstons für den Benutzer C durch. Beispielsweise führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Präsentieren eines durch ein durch den Benutzer A oder den Benutzer B getragenes Mikrofon erfassten Umgebungstons oder eines durch ein in einer Stadt oder dergleichen des Touristenortes installiertes Mikrofon erfassten Umgebungstons für den Benutzer C durch. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Präsentieren des Umgebungstons auf einer Seite des Touristenorts für einen Benutzer, der sich nicht auf der Seite des Touristenorts befindet, geeignet durchführen. Ferner führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Nichtpräsentieren eines Umgebungstons, der in dem Raum erzeugt wird, in dem sich der Benutzer C befindet, für den Benutzer A und den Benutzer B während einer Kommunikation zwischen dem Benutzer A und dem Benutzer C durch. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung zum Nichtpräsentieren des Umgebungstons des Benutzers, der sich nicht auf der Seite des Touristenorts befindet, für den Benutzer auf der Seite des Touristenorts geeignet durchführen. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 den Umgebungston in geeigneter Weise in einer Richtung von der Seite des Touristenorts zu der Seite, die nicht auf der Seite des Touristenorts liegt, präsentieren.
  • In dem zehnten Beispiel kann die Informationsverarbeitungsvorrichtung 10 eine Position jedes Benutzers in einem virtuellen Raum anhand einer Positionsbeziehung zwischen den Benutzern in Bezug auf einen beliebigen Benutzer an dem Touristenort bestimmen. Beispielsweise kann die Informationsverarbeitungsvorrichtung 10 eine Position des Benutzers A in dem virtuellen Raum anhand einer Positionsbeziehung zwischen dem Benutzer A und dem Benutzer B in einem realen Raum mit dem Benutzer B als Referenz bestimmen. Ferner kann die Informationsverarbeitungsvorrichtung 10 beispielsweise eine Position des Benutzers C in dem virtuellen Raum anhand einer Positionsbeziehung zwischen dem Benutzer B und dem Benutzer C bestimmen, wobei die Beziehung im Voraus in Bezug auf den Benutzer B bestimmt wird. Zum Beispiel kann die Informationsverarbeitungsvorrichtung 10 die Position des Benutzers C in dem virtuellen Raum durch vorheriges Bestimmen der Position des Benutzers C auf einer linken Seite des Benutzers B bestimmen.
  • In dem zehnten Beispiel erzeugt die Erzeugungseinheit 1122 in einem Fall, in dem ein Raum des Zielbenutzers der Touristenort ist, in Bezug auf einen der Benutzer im selben Raum wie der Zielbenutzer Ausgangsdaten, um ein Klangbild eines Tons, der durch den ersten Benutzer erzeugt wird und sich von einem Umgebungston, der in einem anderen Raum erzeugt wird, unterscheidet, an einer Position basierend auf der Referenz im virtuellen Raum wiederzugeben.
  • <2.4.10. Teleoperationsroboter usw. (elftes Beispiel) >
  • In der obigen Ausführungsform wurde ein Fall beschrieben, in dem ein Teilnehmer an einer Fernkommunikation ein Benutzer ist. Dieses Beispiel stellt jedoch keine Einschränkung dar. Beispielsweise kann in der obigen Ausführungsform ein Teilnehmer an der Fernkommunikation ein Roboter sein. Hier wird die Verarbeitung eines Falls beschrieben, in dem einer der Teilnehmer an der Fernkommunikation ein Roboter ist. Es sei angemerkt, dass ein Beispiel eines Falls, in dem einer der Teilnehmer an der Fernkommunikation ein Roboter ist, im Folgenden gegebenenfalls als „elftes Beispiel“ bezeichnet wird.
  • 21 ist eine Ansicht, die das elfte Beispiel des Informationsverarbeitungssystems 1 gemäß der Ausführungsform darstellt. In 21 kommunizieren ein Benutzer B in einem Raum SP11, ein Benutzer C und ein Benutzer D in einem Raum SP12 und ein Benutzer A in einem Raum SP13 entfernt miteinander. Raum SP11 bis Raum SP13 sind voneinander verschiedene Räume. Hier ist ein Benutzer A Hochstrich in dem Raum SP11 ein Roboter, der durch den Benutzer A fernbedient wird. Zum Beispiel ist der Benutzer A Hochstrich ein Roboter, der sich auf Grundlage der Bedienung durch den Benutzer A äußert. Der Benutzer A ist auch ein Benutzer, der als Benutzer in dem Raum SP11 über den Benutzer A Hochstrich an der Fernkommunikation teilnimmt. In diesem Fall führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung für Benutzer A bis Benutzer D zur Fernkommunikation miteinander mit dem Benutzer A Hochstrich als Benutzer A durch. Insbesondere führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung für Benutzer A bis Benutzer D zur Fernkommunikation miteinander mit einer Position des Benutzers A Hochstrich als Position des Benutzers A und einer Richtung des Benutzers A Hochstrich als Richtung des Benutzers A durch. Auf diese Weise führt die Informationsverarbeitungsvorrichtung 10 auf Grundlage einer Positionsbeziehung zwischen dem Benutzer A Hochstrich und Benutzer B bis Benutzer D in einem virtuellen Raum eine Verarbeitung für Benutzer A bis Benutzer D zur Fernkommunikation miteinander durch.
  • Es sei angemerkt, dass der Roboter gemäß dem elften Beispiel nicht auf einen durch einen Benutzer fernbedienten Roboter beschränkt ist und beispielsweise ein autonom denkender Roboter sein kann. In diesem Fall führt die Informationsverarbeitungsvorrichtung 10 eine Verarbeitung mit dem autonom denkenden Roboter selbst als Benutzer, der an der Fernkommunikation teilnimmt, durch. Ferner kann der Roboter gemäß dem elften Beispiel beispielsweise ein Zielobjekt (Objekt) wie etwa ein Fernseher, ein Lautsprecher oder dergleichen sein.
  • <2.4.11. Kalibrierung (zwölftes Beispiel)>
  • Wenn ein Stimmlautstärkepegel jedes Benutzers in Abhängigkeit von einem Leistungsfähigkeitsunterschied eines Mikrofons, einem Abstand zwischen dem Mikrofon und einem Mund oder dergleichen variiert, kann die Anwesenheit beeinträchtigt werden. Hier wird eine Verarbeitung eines Falls eines Entzerrens der grundlegenden Stimmlautstärke durch Durchführen einer Kalibrierung für jeden Benutzer im Voraus beschrieben. Es sei angemerkt, dass ein Beispiel eines Falls, in dem eine Kalibrierung für jeden Benutzer im Voraus durchgeführt wird, im Folgenden gegebenenfalls als ein „zwölftes Beispiel“ bezeichnet wird.
  • 22 ist eine Ansicht, die ein Beispiel einer Kalibrierungsverarbeitung gemäß der Ausführungsform darstellt. In dem zwölften Beispiel spricht jeder Benutzer mit normaler Stimmlautstärke in einem Zustand des Tragens eines Mikrofons. Die Informationsverarbeitungsvorrichtung 10 erfasst Stimmlautstärkeinformationen der normalen Stimmlautstärke jedes Benutzers (S31). Ferner berechnet die Informationsverarbeitungsvorrichtung 10 einen Stimmlautstärkepegel der normalen Stimmlautstärke auf Grundlage der erfassten Stimmlautstärkeinformationen (S32). Zu diesem Zeitpunkt kann die Informationsverarbeitungsvorrichtung 10 den berechneten Stimmlautstärkepegel speichern. Dann berechnet die Informationsverarbeitungsvorrichtung 10 einen Korrekturbetrag zum Anpassen des berechneten Stimmlautstärkepegels auf einen vorbestimmten Referenzpegel der normalen Stimmlautstärke auf Grundlage des berechneten Stimmlautstärkepegels und des vorbestimmten Referenzpegels der normalen Stimmlautstärke (S33). Beispielsweise berechnet die Informationsverarbeitungsvorrichtung 10 in einem Fall, in dem der Stimmlautstärkepegel während einer normalen Äußerung -18 dB beträgt und der Referenzpegel - 6 dB beträgt, den Korrekturbetrag von +12 dB. Das Obige ist die Verarbeitung durch die Informationsverarbeitungsvorrichtung 10 zum Zeitpunkt der Kalibrierung. Dann erfasst die Informationsverarbeitungsvorrichtung 10, wenn der Korrekturbetrag verwendet wird, die Stimmlautstärkeinformationen der durch das Mikrofon erfassten Stimme und korrigiert den Stimmlautstärkepegel basierend auf den erfassten Stimmlautstärkeinformationen (S34).
  • In dem zwölften Beispiel kann die Verarbeitungseinheit 112 eine Berechnungseinheit 1124 aufweisen. Die Bestimmungseinheit 1121, die Erzeugungseinheit 1122 und die Berechnungseinheit 1124 oder die Bestimmungseinheit 1121, die Erzeugungseinheit 1122, die Schätzeinheit 1123 und die Berechnungseinheit 1124, die in der Verarbeitungseinheit 112 enthalten sind, können jeweils als unabhängiges Computerprogrammmodul konfiguriert sein, oder mehrere Funktionen können als ein integriertes Computerprogrammmodul konfiguriert sein.
  • Die Berechnungseinheit 1124 hat eine Funktion zum Berechnen des Stimmlautstärkepegels der normalen Stimmlautstärke. Darüber hinaus berechnet die Berechnungseinheit 1124 einen Korrekturbetrag, um den Stimmlautstärkepegel auf einen vorbestimmten Referenzpegel einer normalen Stimmlautstärke anzupassen.
  • «3. Hardwarekonfigurationsbeispiel»
  • Schließlich wird ein Hardwarekonfigurationsbeispiel der Informationsverarbeitungsvorrichtung gemäß der Ausführungsform unter Bezugnahme auf 23 beschrieben. 23 ist ein Blockdiagramm, das ein Hardwarekonfigurationsbeispiel der Informationsverarbeitungsvorrichtung gemäß der Ausführungsform darstellt. Es sei angemerkt, dass eine Informationsverarbeitungsvorrichtung 900, die in 23 dargestellt ist, die Informationsverarbeitungsvorrichtung 10 und der den Ohrhörer 20, die in 6 dargestellt sind, umsetzen kann. Die Informationsverarbeitung durch die Informationsverarbeitungsvorrichtung 10 und den Ohrhörer 20 gemäß der Ausführungsform wird durch Zusammenarbeit von Software (einschließlich eines Computerprogramms) und Hardware, die unten beschrieben werden, umgesetzt.
  • Wie in 23 gezeigt, weist die Informationsverarbeitungsvorrichtung 900 eine Zentralverarbeitungseinheit (CPU) 901, einen Nur-LeseSpeicher (ROM) 902 und einen Direktzugriffsspeicher (RAM) 903 auf. Ferner weist die Informationsverarbeitungsvorrichtung 900 einen Hostbus 904a, eine Brücke 904, einen externen Bus 904b, eine Schnittstelle 905, eine Eingabevorrichtung 906, eine Ausgabevorrichtung 907, eine Speichervorrichtung 908, ein Laufwerk 909, einen Verbindungsport 910 und eine Kommunikationsvorrichtung 911 auf. Es sei angemerkt, dass die hier dargestellte Hardwarekonfiguration ein Beispiel ist und ein Teil der Komponenten weggelassen werden kann. Außerdem kann die Hardwarekonfiguration ferner andere Komponenten als die hier beschriebenen Komponenten aufweisen.
  • Die CPU 901 fungiert beispielsweise als arithmetische Verarbeitungsvorrichtung oder Steuervorrichtung und steuert den Gesamtbetrieb oder einen Teil davon jeder Komponente auf Grundlage verschiedener Computerprogramme, die in dem ROM 902, dem RAM 903 oder der Speichervorrichtung 908 aufgezeichnet sind. Der ROM 902 ist eine Einheit, die ein durch die CPU 901 gelesenes Programm, zur Berechnung verwendete Daten und dergleichen speichert. Der RAM 903 speichert temporär oder dauerhaft beispielsweise ein Programm, das durch die CPU 901 gelesen wird, und Daten (Teile des Programms), wie etwa verschiedene Parameter, die sich bei Ausführung des Programms gegebenenfalls ändern. Diese sind durch den Hostbus 904a, darunter ein CPU-Bus oder dergleichen, miteinander verbunden. Die CPU 901, der ROM 902 und der RAM 903 können die Funktionen der Steuereinheit 110 und der Steuereinheit 210, die unter Bezugnahme auf 6 beschrieben wurden, zum Beispiel in Zusammenarbeit mit Software umsetzen.
  • Die CPU 901, der ROM 902 und der RAM 903 sind beispielsweise über den Hostbus 904a, der zur Hochgeschwindigkeitsdatenübertragung fähig ist, miteinander verbunden. Andererseits ist der Hostbus 904a beispielsweise über die Brücke 904 mit einem externen Bus 904b verbunden, der eine relativ geringe Datenübertragungsgeschwindigkeit aufweist. Ferner ist der externe Bus 904b über die Schnittstelle 905 mit verschiedenen Komponenten verbunden.
  • Die Eingabevorrichtung 906 wird zum Beispiel durch eine Vorrichtung, in die Informationen durch einen Zuhörer eingegeben werden, wie etwa eine Maus, eine Tastatur, ein Berührungsfeld, eine Taste, ein Mikrofon, einen Schalter und einen Hebel, umgesetzt. Ferner kann die Eingabevorrichtung 906 beispielsweise eine Fernsteuervorrichtung sein, die Infrarotstrahlen oder andere Funkwellen verwendet, oder sie kann ein externes Verbindungsgerät sein, wie etwa ein Mobiltelefon oder ein PDA, das dem Betrieb der Informationsverarbeitungsvorrichtung 900 entspricht. Ferner kann die Eingabevorrichtung 906 beispielsweise eine Eingabesteuerschaltung oder dergleichen aufweisen, die ein Eingabesignal auf Grundlage der durch Verwendung der vorstehenden Eingabeeinheiten eingegebenen Informationen erzeugt und die eine Ausgabe davon an die CPU 901 durchführt. Durch Bedienen der Eingabevorrichtung 906 kann ein Administrator der Informationsverarbeitungsvorrichtung 900 verschiedene Arten von Daten in die Informationsverarbeitungsvorrichtung 900 eingeben oder eine Anweisung für einen Verarbeitungsvorgang an die Informationsverarbeitungsvorrichtung 900 geben.
  • Darüber hinaus kann die Eingabevorrichtung 906 eine Vorrichtung aufweisen, die eine Position eines Benutzers detektiert. Beispielsweise kann die Eingabevorrichtung 906 verschiedene Sensoren aufweisen, wie etwa einen Bildsensor (wie etwa eine Kamera), einen Tiefensensor (wie etwa eine Stereokamera), einen Beschleunigungssensor, einen Gyroskopsensor, einen geomagnetischen Sensor, einen optischen Sensor, einen Schallsensor, einen Abstandssensor (wie etwa einen Flugzeit(ToF)-Sensor) und einen Kraftsensor. Ferner kann die Eingabevorrichtung 906 Informationen bezüglich eines Zustands der Informationsverarbeitungsvorrichtung 900 selbst, wie etwa eine Lage und Bewegungsgeschwindigkeit der Informationsverarbeitungsvorrichtung 900, und Informationen bezüglich eines umgebenden Raums der Informationsverarbeitungsvorrichtung 900, wie etwa Helligkeit und Lärm in der Umgebung der Informationsverarbeitungsvorrichtung 900, erfassen. Ferner kann die Eingabevorrichtung 906 ein Modul eines globalen Navigationssatellitensystems (GNSS) aufweisen, das ein GNSS-Signal von einem GNSS-Satelliten empfängt (wie etwa ein Signal eines globalen Positionsbestimmungssystems (GPS) von einem GPS-Satelliten) und das Positionsinformationen, darunter Breitengrad, Längengrad und Höhe der Vorrichtung, misst. Ferner kann die Eingabevorrichtung 906 in Bezug auf Positionsinformationen eine Position beispielsweise durch Übertragung und Empfang mit Wi-Fi (eingetragene Marke), einem Mobiltelefon, einem PHS, einem Smartphone oder dergleichen oder Nahfeldkommunikation detektieren. Die Eingabevorrichtung 906 kann beispielsweise die Funktion der unter Bezugnahme auf 6 beschriebenen Erfassungseinheit 111 umsetzen.
  • Die Ausgabevorrichtung 907 weist eine Vorrichtung auf, die in der Lage ist, den Benutzer visuell oder akustisch über die erfassten Informationen zu informieren. Zu Beispielen für eine solche Vorrichtung gehören eine Anzeigevorrichtung, wie etwa eine CRT-Anzeigevorrichtung, eine Flüssigkristallanzeigevorrichtung, eine Plasmaanzeigevorrichtung, eine EL-Anzeigevorrichtung, ein Laserprojektor, ein LED-Projektor und eine Lampe, eine Tonausgabevorrichtung, wie etwa ein Lautsprecher und ein Kopfhörer, und eine Druckervorrichtung. Die Ausgabevorrichtung 907 gibt beispielsweise Ergebnisse aus, die durch verschiedene durch die Informationsverarbeitungsvorrichtung 900 durchgeführte Arten von Verarbeitung erfasst werden. Insbesondere zeigt die Anzeigevorrichtung die Ergebnisse, die durch die verschiedenen Arten von durch die Informationsverarbeitungsvorrichtung 900 durchgeführter Verarbeitung erfasst werden, in verschiedenen Formaten wie Text, Bild, Tabelle und Graph visuell an. Dagegen wandelt die Audioausgabevorrichtung ein Audiosignal, das wiedergegebene Stimmdaten, akustische Daten oder dergleichen aufweist, in ein analoges Signal um und führt eine akustische Ausgabe davon durch. Die Ausgabevorrichtung 907 kann beispielsweise Funktionen der Ausgabeeinheit 113 und der Ausgabeeinheit 220, die unter Bezugnahme auf 6 beschriebenen wurden, umsetzen.
  • Die Speichervorrichtung 908 ist eine Vorrichtung, die zur Datenspeicherung dient und die beispielhaft für eine Speichereinheit der Informationsverarbeitungsvorrichtung 900 ausgebildet ist. Die Speichervorrichtung 908 wird zum Beispiel durch eine Magnetspeichereinheitvorrichtung wie etwa eine HDD, eine Halbleiterspeichervorrichtung, eine optische Speichervorrichtung, eine magnetooptische Speichervorrichtung oder dergleichen umgesetzt. Die Speichervorrichtung 908 kann ein Speichermedium, eine Aufzeichnungsvorrichtung, die Daten auf dem Speichermedium aufzeichnet, eine Lesevorrichtung, die die Daten aus dem Speichermedium liest, eine Löschvorrichtung, die in dem Speichermedium gespeicherte Daten löscht, und dergleichen aufweisen. Die Speichervorrichtung 908 speichert Computerprogramme, die durch die CPU 901 ausgeführt werden, verschiedene Arten von Daten, verschiedene Arten von Daten, die von außen erfasst werden, und dergleichen. Die Speichervorrichtung 908 kann beispielsweise die Funktion der unter Bezugnahme auf 6 beschriebenen Speichervorrichtung 120 umsetzen.
  • Das Laufwerk 909 ist ein Lese-/Schreibgerät für ein Speichermedium und ist in der Informationsverarbeitungsvorrichtung 900 eingebaut oder extern an diese angeschlossen. Das Laufwerk 909 liest Informationen, die auf einem angebrachten entfernbaren Speichermedium wie etwa einer Magnetplatte, einer optischen Platte, einer magneto-optischen Platte oder einem Halbleiterspeicher aufgezeichnet sind, und führt eine Ausgabe davon an den RAM 903 durch. Außerdem kann das Laufwerk 909 Informationen auf das entfernbare Speichermedium schreiben.
  • Der Verbindungsport 910 ist zum Beispiel ein Port zum Anschließen externer Verbindungsausrüstung, wie etwa ein Port eines universellen seriellen Busses (USB-Port), ein IEEE-1394-Port, eine Schnittstelle für kleine Computersysteme (SCSI: Small Computer System Interface), ein RS-232C-Port oder ein optischer Audioanschluss.
  • Die Kommunikationsvorrichtung 911 ist beispielsweise eine Kommunikationsschnittstelle, die aus einer Kommunikationsvorrichtung oder dergleichen zur Verbindung mit einem Netzwerk 920 besteht. Die Kommunikationsvorrichtung 911 ist beispielsweise eine Kommunikationskarte für ein drahtgebundenes oder drahtloses lokales Netzwerk (LAN), Long Term Evolution (LTE), Bluetooth (eingetragenes Markenzeichen) oder Drahtlos-USB (WUSB) oder dergleichen. Außerdem kann die Kommunikationsvorrichtung 911 ein Router für optische Kommunikation, ein Router für eine asymmetrische digitale Teilnehmerleitung (ADSL), ein Modem für verschiedene Arten von Kommunikation oder dergleichen sein. Auf der Grundlage eines vorbestimmten Protokolls wie etwa TCP/IP kann die Kommunikationsvorrichtung 911 beispielsweise ein Signal oder dergleichen an das/von dem Internet oder einer anderen Kommunikationsausrüstung übertragen/empfangen. Die Kommunikationsvorrichtung 911 kann zum Beispiel die Funktionen der Kommunikationseinheit 100 und der Kommunikationseinheit 200, die unter Bezugnahme auf 6 beschrieben wurden, umsetzen.
  • Es sei angemerkt, dass das Netzwerk 920 ein drahtgebundener oder drahtloser Übertragungspfad für Informationen ist, die von einer mit dem Netzwerk 920 verbundenen Vorrichtung übertragen werden. Beispielsweise kann das Netzwerk 920 ein öffentliches Netzwerk wie das Internet, ein Telefonnetz oder ein Satellitenkommunikationsnetzwerk, verschiedene lokale Netzwerke (LAN), ein großflächiges Netzwerk (WAN) und dergleichen aufweisen, darunter Ethernet (eingetragene Marke). Außerdem kann das Netzwerk 920 ein dediziertes Netzwerk aufweisen, wie etwa das virtuelle private Internetprotokoll-Netzwerk (IP-VPN).
  • Vorstehend wurde ein Beispiel der Hardwarekonfiguration beschrieben, die in der Lage ist, die Funktionen der Informationsverarbeitungsvorrichtung 900 gemäß der Ausführungsform umzusetzen. Jede der oben beschriebenen Komponenten kann durch Verwendung eines Universalbauteils umgesetzt werden oder kann durch Hardware umgesetzt werden, die für die Funktion jeder Komponente spezialisiert ist. Somit ist es möglich, die zu verwendende Hardwarekonfiguration gemäß einem technischen Niveau zum Zeitpunkt der Ausführung der Ausführungsform angemessen zu ändern.
  • «4. Schlussfolgerung»
  • Wie oben beschrieben, erzeugt die Informationsverarbeitungsvorrichtung 10 gemäß der Ausführungsform Ausgangsdaten, um ein Klangbild eines Tons, der in einem anderen Raum als dem Raum des Zielbenutzers erzeugt wird, in dem Raum des Zielbenutzers wiederzugeben. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der durch den Zielbenutzer direkt gehört werden kann. Folglich kann die Informationsverarbeitungsvorrichtung 10 durch virtuelle Verarbeitung nur notwendige Töne präsentieren, wodurch es möglich ist, eine Verbesserung der Präsenz zu fördern. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 eine Reduzierung der Verarbeitungsressourcen fördern. Darüber hinaus erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten für den Zielbenutzer auf Grundlage einer kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion auf einer Tonerzeugungsposition in einem anderen Raum basiert. Als Ergebnis ist es, da die Informationsverarbeitungsvorrichtung 10 ein Klangbild an einer beabsichtigten Position lokalisieren kann, möglich, eine Verbesserung der Tonqualität zu fördern, wenn ein Klangbild wiedergegeben wird. Ferner erzeugt die Informationsverarbeitungsvorrichtung 10 Ausgangsdaten für den Zielbenutzer auf Grundlage einer Positionsbeziehung zwischen dem ersten Benutzer und dem Zielbenutzer in dem virtuellen Raum. Als Ergebnis kann die Informationsverarbeitungsvorrichtung 10 die Verbesserung der Anwesenheit fördern, als ob der Zielbenutzer im selben Raum wie der erste Benutzer existiert.
  • Somit ist es möglich, eine neue und verbesserte Informationsverarbeitungsvorrichtung, ein neues und verbessertes Informationsverarbeitungsverfahren und ein neues und verbessertes Informationsverarbeitungssystem bereitzustellen, die in der Lage sind, eine weitere Verbesserung der Verwendbarkeit zu fördern.
  • Eine bevorzugte Ausführungsform der vorliegenden Offenbarung wurde oben unter Bezugnahme auf die beigefügten Zeichnungen ausführlich beschrieben. Der technische Umfang der vorliegenden Offenbarung ist jedoch nicht auf ein solches Beispiel beschränkt. Es versteht sich, dass Durchschnittsfachleute auf dem technischen Gebiet der vorliegenden Offenbarung verschiedene Änderungen oder Modifikationen innerhalb des Schutzumfangs der in den Ansprüchen beschriebenen technischen Idee erkennen können, und es versteht sich, dass diese Änderungen oder Modifikationen natürlich zum technischen Schutzumfang der vorliegenden Offenbarung gehören.
  • Beispielsweise können alle in der vorliegenden Beschreibung beschriebenen Vorrichtungen als eine einzige Vorrichtung umgesetzt werden, oder einige oder alle der Vorrichtungen können als separate Vorrichtungen umgesetzt werden. Beispielsweise können die Informationsverarbeitungsvorrichtung 10 und der Ohrhörer 20, die in 6 dargestellt sind, als unabhängige Vorrichtungen umgesetzt werden. Ferner ist beispielsweise eine Umsetzung als Servervorrichtung möglich, die über ein Netzwerk oder dergleichen mit der Informationsverarbeitungsvorrichtung 10 und dem Ohrhörer 20 verbunden ist. Ferner kann die Funktion der Steuereinheit 110, die in der Informationsverarbeitungsvorrichtung 10 enthalten ist, in der Servervorrichtung enthalten sein, die über das Netzwerk oder dergleichen verbunden ist.
  • Ferner kann die Verarbeitungsfolge durch jede in der vorliegenden Patentschrift beschriebene Vorrichtung unter Verwendung von Software, Hardware oder einer Kombination von Software und Hardware umgesetzt werden. Das in der Software enthaltene Computerprogramm wird vorab beispielsweise auf einem Aufzeichnungsmedium (nichtflüchtiges Medium) gespeichert, das innerhalb oder außerhalb jeder Vorrichtung bereitgestellt ist. Dann wird jedes Programm zum Zeitpunkt der Ausführung durch einen Computer zum Beispiel in einen RAM gelesen und durch einen Prozessor, wie etwa eine CPU, ausgeführt.
  • Ferner muss die durch Verwendung des Flussdiagramms in der vorliegenden Patentschrift beschriebene Verarbeitung nicht unbedingt in der dargestellten Reihenfolge ausgeführt werden. Einige Verarbeitungsschritte können parallel ausgeführt werden. Darüber hinaus kann ein zusätzlicher Verarbeitungsschritt verwendet werden, und einige Verarbeitungsschritte können weggelassen werden.
  • Darüber hinaus sind die in der vorliegenden Patentschrift beschriebenen Effekte lediglich veranschaulichend oder beispielhaft und nicht einschränkend. Das heißt, zusätzlich zu den vorstehenden Wirkungen oder anstelle der vorstehenden Wirkungen kann die Technologie gemäß der vorliegenden Offenbarung eine andere Wirkung zeigen, die für Fachleute aus der Beschreibung der vorliegenden Patentschrift hervorgehen.
  • Es sei angemerkt, dass die folgenden Konfigurationen auch zum technischen Schutzumfang der vorliegenden Offenbarung gehören.
    • (1) Eine Informationsverarbeitungsvorrichtung, die Folgendes umfasst:
      • eine Erfassungseinheit, die eine Positionsbeziehung zwischen mehreren in einem virtuellen Raum angeordneten Benutzern erfasst; und
      • eine Erzeugungseinheit, die auf Grundlage der durch die Erfassungseinheit erfassten Positionsbeziehung Ausgangsdaten eines Tons, der einem Zielbenutzer präsentiert werden soll, aus Tondaten eines durch jeden der Benutzer erzeugten Tons erzeugt, wobei
      • die Erzeugungseinheit die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der durch den Zielbenutzer unter den Tönen, die jeweils durch die Benutzer erzeugt werden, direkt gehört werden kann, erzeugt.
    • (2) Die Informationsverarbeitungsvorrichtung nach (1), wobei die Erzeugungseinheit zum Wiedergeben eines Klangbilds eines durch einen ersten Benutzer, der sich in einem anderen Raum befindet, erzeugten Tons die Ausgangsdaten für den Zielbenutzer auf Grundlage einer kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt, wobei die Funktion auf einer Positionsbeziehung in einem virtuellen Raum zwischen dem ersten Benutzer und dem Zielbenutzer basiert, wenn der Ton erzeugt wird.
    • (3) Die Informationsverarbeitungsvorrichtung nach (2), wobei die Erzeugungseinheit als die Positionsbeziehung die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt, wobei die Funktion auf einer relativen Position oder einer relativen Richtung basiert.
    • (4) Die Informationsverarbeitungsvorrichtung nach (2) oder (3), wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer durch Kombinieren der Tondaten von Benutzern in den verschiedenen Räumen erzeugt, wobei die Tondaten auf Grundlage von Stimmeninformationen jedes der Benutzer und der kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt werden.
    • (5) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (4), wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer auf Grundlage der Positionsbeziehung basierend auf Positionsinformationen des Zielbenutzers, wobei die Positionsinformationen auf einem in einem Raum des Zielbenutzers bestimmten Koordinatensystem basieren, und Positionsinformationen des ersten Benutzers, wobei die Positionsinformationen auf einem in dem anderen Raum bestimmten Koordinatensystem basieren, erzeugt.
    • (6) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (5), die ferner Folgendes aufweist:
      • eine Bestimmungseinheit, die auf Grundlage dessen, ob sich der Zielbenutzer in einem Bereich befindet, in dem ein durch den ersten Benutzer ausgegebener Ton direkt gehört werden kann, bestimmt, dass sich der erste Benutzer in dem anderen Raum befindet, falls sich der Zielbenutzer nicht in dem Bereich befindet.
    • (7) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (6), wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion Reflexion und Nachhall eines in dem anderen Raum erzeugten Tons umfasst, bis der Ton den Zielbenutzer in dem virtuellen Raum erreicht, auf Grundlage der Positionsbeziehung zwischen dem ersten Benutzer und dem Zielbenutzer in dem virtuellen Raum, von Positionsinformationen des ersten Benutzers in dem virtuellen Raum und von Positionsinformationen des Zielbenutzers in dem virtuellen Raum, erzeugt.
    • (8) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (7), wobei die Erzeugungseinheit in einem Fall, in dem eine Differenz zwischen einem Grad der Reflexion und des Nachhalls eines Tons, wobei der Grad auf Grundlage von Attributinformationen eines Raums des Zielbenutzers geschätzt wird, und einem Grad der Reflexion und des Nachhalls eines Tons, wobei der Grad auf Grundlage von Attributinformationen des anderen Raums geschätzt wird, gleich oder größer als eine vorbestimmte Schwelle ist, die Ausgangsdaten für den Zielbenutzer unter Verwendung des Grads der Reflexion und des Nachhalls des Tons, wobei der Grad auf Grundlage der Attributinformationen des Raums des Zielbenutzers geschätzt wird, zur Reflexion und zum Nachhall des Tons in einem virtuellen Raum erzeugt.
    • (9) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (8), wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten nur ein Klangbild eines Tons in einem Äußerungsabschnitt des ersten Benutzers unter durch Äußerungsabschnittsdetektion oder Tonunterscheidung detektierten Äußerungsabschnitten wiedergeben sollen.
    • (10) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (9), wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten nur ein Klangbild eines Tons des ersten Benutzers wiedergeben sollen, wobei der Ton durch Verwendung einer Strahlformungsverarbeitung durch ein Richtmikrofon oder ein Array-Mikrofon erfasst wird.
    • (11) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (10), wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer durch Unterdrücken eines Tons, der durch einen zweiten Benutzer erzeugt wird, der sich im selben Raum wie der erste Benutzer befindet, unter durch ein Mikrofon des ersten Benutzers, der sich in dem anderen Raum befindet, erfassten Tönen erzeugt.
    • (12) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (11), wobei die Erzeugungseinheit in einem Fall des Wiedergebens nur eines Klangbilds eines Tons des ersten Benutzers, wobei der Ton durch Verwendung eines in dem anderen Raum installierten Mikrofons erfasst wird, die Ausgangsdaten für den Zielbenutzer unter Verwendung einer Strahlformungsverarbeitung mit einer Position des ersten Benutzers als Ziel von dem Mikrofon auf Grundlage von Positionsinformationen des Mikrofons in einem Raum des anderen Raums und Positionsinformationen des ersten Benutzers in dem Raum des anderen Raums erzeugt.
    • (13) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (12), wobei die Erzeugungseinheit Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten ein Klangbild eines Umgebungstons, der sich von einem durch jeden Benutzer in dem anderen Raum erzeugten Ton unterscheidet, wiedergeben sollen.
    • (14) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (13), die ferner Folgendes aufweist:
      • eine Schätzeinheit, die eine Erzeugungsposition eines in dem anderen Raum erzeugten Tons schätzt, wobei
      • die Erzeugungseinheit
      • die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten ein Klangbild des Tons, der in dem anderen Raum erzeugt wird, in dem virtuellen Raum auf Grundlage der durch die Schätzeinheit geschätzten Erzeugungsposition wiedergeben sollen.
    • (15) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (14), wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten an einer vorbestimmten Position in dem virtuellen Raum, wobei die Position auf Grundlage von Attributinformationen eines in dem anderen Raum erzeugten Umgebungstons und Attributinformationen eines Raums des Zielbenutzers geschätzt wird, ein Klangbild des Umgebungstons wiedergeben sollen.
    • (16) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (15), wobei die Erzeugungseinheit in einem Fall, in dem der erste Benutzer einen Ton mit einer Lautstärke kleiner oder gleich einer vorbestimmten Schwelle erzeugt, die Ausgangsdaten für den Zielbenutzer, der auf Grundlage von Blickinformationen des ersten Benutzers bestimmt wird, und Ausgangsdaten für den zweiten Benutzer, der sich im selben Raum wie der erste Benutzer befindet, erzeugt, wobei die Ausgangsdaten den durch den ersten Benutzer erzeugten Ton derart unterdrücken sollen, dass der zweite Benutzer den durch den ersten Benutzer erzeugten Ton nicht hört.
    • (17) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (16), wobei die Erzeugungseinheit in einem Fall, in dem eine Anzahl von Benutzern in dem anderen Raum gleich oder größer als eine vorbestimmte Schwelle ist, die Ausgangsdaten für den Zielbenutzer erzeugt, wobei mehrere durch die Benutzer der Anzahl erzeugte Töne eine Tonquelle sind, wobei die Ausgangsdaten dazu dienen, ein Klangbild der Tonquelle an einer vorbestimmten Position in dem virtuellen Raum wiederzugeben.
    • (18) Die Informationsverarbeitungsvorrichtung nach einem von (2) bis (17), wobei die Erzeugungseinheit in einem Fall, in dem ein Raum des Zielbenutzers vorbestimmte Attributinformationen aufweist, die Ausgangsdaten für den Zielbenutzer erzeugt, wobei jeder Benutzer im selben Raum wie der Zielbenutzer eine Referenz ist, wobei die Ausgangsdaten dazu dienen, an einer Position basierend auf der Referenz in dem virtuellen Raum das Klangbild des durch den ersten Benutzer erzeugten Tons, der sich von einem in dem anderen Raum erzeugten Umgebungston unterscheidet, wiederzugeben.
    • (19) Die Informationsverarbeitungsvorrichtung nach einem von (1) bis (18), wobei die Erzeugungseinheit die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der in einem realen Raum des Zielbenutzers erzeugt wird, als Ton, der durch den Zielbenutzer direkt gehört werden kann, erzeugt.
    • (20) Ein Informationsverarbeitungsverfahren, das durch einen Computer ausgeführt wird, wobei das Informationsverarbeitungsverfahren Folgendes aufweist:
      • einen Erfassungsschritt zum Erfassen einer Positionsbeziehung zwischen mehreren in einem virtuellen Raum angeordneten Benutzern; und
      • einen Erzeugungsschritt zum Erzeugen, auf Grundlage der durch in dem Erfassungsschritt erfassten Positionsbeziehung, von Ausgangsdaten eines Tons, der einem Zielbenutzer präsentiert werden soll, aus Tondaten eines durch jeden der Benutzer erzeugten Tons, wobei
      • in dem Erzeugungsschritt die Ausgangsdaten durch Verwendung eines anderen Tons als eines Tons erzeugt werden, der durch den Zielbenutzer unter den Tönen, die jeweils durch die Benutzer erzeugt werden, direkt gehört werden kann.
    • (21) Ein Informationsverarbeitungssystem, das Folgendes beinhaltet:
      • eine Informationsverarbeitungsvorrichtung, die Ausgangsdaten eines einem Zielbenutzer zu präsentierenden Tons aus Tondaten eines durch jeden mehrerer in einem virtuellen Raum angeordneter Benutzer erzeugten Tons bereitstellt, wobei die Ausgangsdaten einen anderen Ton als einen Ton verwenden, der direkt durch den Zielbenutzer gehört werden kann, und auf Grundlage einer Positionsbeziehung zwischen den mehreren Benutzern erzeugt werden; und
      • eine Wiedergabevorrichtung, die die von der Informationsverarbeitungsvorrichtung bereitgestellten Ausgangsdaten wiedergibt.
  • Bezugszeichenliste
  • N
    INFORMATIONSKOMMUNIKATIONSNETZWERK
    1
    INFORMATIONSVERARBEITUNGSSYSTEM
    10
    INFORMATIONSVERARBEITUNGSVORRICHTUNG
    20
    OHRHÖRER
    100
    KOMMUNIKATIONSEINHEIT
    110
    STEUEREINHEIT
    111
    ERFASSUNGSEINHEIT
    112
    VERARBEITUNGSEINHEIT
    1121
    BESTIMMUNGSEINHEIT
    1122
    ERZEUGUNGSEINHEIT
    1123
    SCHÄTZEINHEIT
    1124
    BERECHNUNGSEINHEIT
    113
    AUSGABEEINHEIT
    200
    KOMMUNIKATIONSEINHEIT
    210
    STEUEREINHEIT
    220
    AUSGABEEINHEIT
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • US 2018206038 A [0004]

Claims (21)

  1. Eine Informationsverarbeitungsvorrichtung, die Folgendes umfasst: eine Erfassungseinheit, die eine Positionsbeziehung zwischen mehreren in einem virtuellen Raum angeordneten Benutzern erfasst; und eine Erzeugungseinheit, die auf Grundlage der durch die Erfassungseinheit erfassten Positionsbeziehung Ausgangsdaten eines Tons, der einem Zielbenutzer präsentiert werden soll, aus Tondaten eines durch jeden der Benutzer erzeugten Tons erzeugt, wobei die Erzeugungseinheit die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der durch den Zielbenutzer unter den Tönen, die jeweils durch die Benutzer erzeugt werden, direkt gehört werden kann, erzeugt.
  2. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Erzeugungseinheit zum Wiedergeben eines Klangbilds eines durch einen ersten Benutzer, der sich in einem anderen Raum befindet, erzeugten Tons die Ausgangsdaten für den Zielbenutzer auf Grundlage einer kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt, wobei die Funktion auf einer Positionsbeziehung in einem virtuellen Raum zwischen dem ersten Benutzer und dem Zielbenutzer basiert, wenn der Ton erzeugt wird.
  3. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit als die Positionsbeziehung die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt, wobei die Funktion auf einer relativen Position oder einer relativen Richtung basiert.
  4. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer durch Kombinieren der Tondaten von Benutzern in den verschiedenen Räumen erzeugt, wobei die Tondaten auf Grundlage von Stimmeninformationen jedes der Benutzer und der kopfbezogenen Übertragungsfunktion des Zielbenutzers erzeugt werden.
  5. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer auf Grundlage der Positionsbeziehung basierend auf Positionsinformationen des Zielbenutzers, wobei die Positionsinformationen auf einem in einem Raum des Zielbenutzers bestimmten Koordinatensystem basieren, und Positionsinformationen des ersten Benutzers, wobei die Positionsinformationen auf einem in dem anderen Raum bestimmten Koordinatensystem basieren, erzeugt.
  6. Informationsverarbeitungsvorrichtung nach Anspruch 2, die ferner Folgendes aufweist: eine Bestimmungseinheit, die auf Grundlage dessen, ob sich der Zielbenutzer in einem Bereich befindet, in dem ein durch den ersten Benutzer ausgegebener Ton direkt gehört werden kann, bestimmt, dass sich der erste Benutzer in dem anderen Raum befindet, falls sich der Zielbenutzer nicht in dem Bereich befindet.
  7. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer auf Grundlage der kopfbezogenen Übertragungsfunktion des Zielbenutzers, wobei die Funktion Reflexion und Nachhall eines in dem anderen Raum erzeugten Tons umfasst, bis der Ton den Zielbenutzer in dem virtuellen Raum erreicht, auf Grundlage der Positionsbeziehung zwischen dem ersten Benutzer und dem Zielbenutzer in dem virtuellen Raum, von Positionsinformationen des ersten Benutzers in dem virtuellen Raum und von Positionsinformationen des Zielbenutzers in dem virtuellen Raum, erzeugt.
  8. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit in einem Fall, in dem eine Differenz zwischen einem Grad der Reflexion und des Nachhalls eines Tons, wobei der Grad auf Grundlage von Attributinformationen eines Raums des Zielbenutzers geschätzt wird, und einem Grad der Reflexion und des Nachhalls eines Tons, wobei der Grad auf Grundlage von Attributinformationen des anderen Raums geschätzt wird, gleich oder größer als eine vorbestimmte Schwelle ist, die Ausgangsdaten für den Zielbenutzer unter Verwendung des Grads der Reflexion und des Nachhalls des Tons, wobei der Grad auf Grundlage der Attributinformationen des Raums des Zielbenutzers geschätzt wird, zur Reflexion und zum Nachhall des Tons in einem virtuellen Raum erzeugt.
  9. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten nur ein Klangbild eines Tons in einem Äußerungsabschnitt des ersten Benutzers unter durch Äußerungsabschnittsdetektion oder Tonunterscheidung detektierten Äußerungsabschnitten wiedergeben sollen.
  10. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten nur ein Klangbild eines Tons des ersten Benutzers wiedergeben sollen, wobei der Ton durch Verwendung einer Strahlformungsverarbeitung durch ein Richtmikrofon oder ein Array-Mikrofon erfasst wird.
  11. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit zum Wiedergeben nur eines Klangbilds eines durch den Benutzer beabsichtigten Tons in dem anderen Raum die Ausgangsdaten für den Zielbenutzer durch Unterdrücken eines Tons, der durch einen zweiten Benutzer erzeugt wird, der sich im selben Raum wie der erste Benutzer befindet, unter durch ein Mikrofon des ersten Benutzers, der sich in dem anderen Raum befindet, erfassten Tönen erzeugt.
  12. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit in einem Fall des Wiedergebens nur eines Klangbilds eines Tons des ersten Benutzers, wobei der Ton durch Verwendung eines in dem anderen Raum installierten Mikrofons erfasst wird, die Ausgangsdaten für den Zielbenutzer unter Verwendung einer Strahlformungsverarbeitung mit einer Position des ersten Benutzers als Ziel von dem Mikrofon auf Grundlage von Positionsinformationen des Mikrofons in einem Raum des anderen Raums und Positionsinformationen des ersten Benutzers in dem Raum des anderen Raums erzeugt.
  13. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten ein Klangbild eines Umgebungstons, der sich von einem durch jeden Benutzer in dem anderen Raum erzeugten Ton unterscheidet, wiedergeben sollen.
  14. Informationsverarbeitungsvorrichtung nach Anspruch 2, die ferner Folgendes aufweist: eine Schätzeinheit, die eine Erzeugungsposition eines in dem anderen Raum erzeugten Tons schätzt, wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten ein Klangbild des Tons, der in dem anderen Raum erzeugt wird, in dem virtuellen Raum auf Grundlage der durch die Schätzeinheit geschätzten Erzeugungsposition wiedergeben sollen.
  15. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit die Ausgangsdaten für den Zielbenutzer erzeugt, wobei die Ausgangsdaten an einer vorbestimmten Position in dem virtuellen Raum, wobei die Position auf Grundlage von Attributinformationen eines in dem anderen Raum erzeugten Umgebungstons und Attributinformationen eines Raums des Zielbenutzers geschätzt wird, ein Klangbild des Umgebungstons wiedergeben sollen.
  16. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit in einem Fall, in dem der erste Benutzer einen Ton mit einer Lautstärke kleiner oder gleich einer vorbestimmten Schwelle erzeugt, die Ausgangsdaten für den Zielbenutzer, der auf Grundlage von Blickinformationen des ersten Benutzers bestimmt wird, und Ausgangsdaten für den zweiten Benutzer, der sich im selben Raum wie der erste Benutzer befindet, erzeugt, wobei die Ausgangsdaten den durch den ersten Benutzer erzeugten Ton derart unterdrücken sollen, dass der zweite Benutzer den durch den ersten Benutzer erzeugten Ton nicht hört.
  17. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit in einem Fall, in dem eine Anzahl von Benutzern in dem anderen Raum gleich oder größer als eine vorbestimmte Schwelle ist, die Ausgangsdaten für den Zielbenutzer erzeugt, wobei mehrere durch die Benutzer der Anzahl erzeugte Töne eine Tonquelle sind, wobei die Ausgangsdaten dazu dienen, ein Klangbild der Tonquelle an einer vorbestimmten Position in dem virtuellen Raum wiederzugeben.
  18. Informationsverarbeitungsvorrichtung nach Anspruch 2, wobei die Erzeugungseinheit in einem Fall, in dem ein Raum des Zielbenutzers vorbestimmte Attributinformationen aufweist, die Ausgangsdaten für den Zielbenutzer erzeugt, wobei jeder Benutzer im selben Raum wie der Zielbenutzer eine Referenz ist, wobei die Ausgangsdaten dazu dienen, an einer Position basierend auf der Referenz in dem virtuellen Raum das Klangbild des durch den ersten Benutzer erzeugten Tons, der sich von einem in dem anderen Raum erzeugten Umgebungston unterscheidet, wiederzugeben.
  19. Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Erzeugungseinheit die Ausgangsdaten unter Verwendung eines anderen Tons als eines Tons, der in einem realen Raum des Zielbenutzers erzeugt wird, als Ton, der durch den Zielbenutzer direkt gehört werden kann, erzeugt.
  20. Informationsverarbeitungsverfahren, das durch einen Computer ausgeführt wird, wobei das Informationsverarbeitungsverfahren Folgendes aufweist: einen Erfassungsschritt zum Erfassen einer Positionsbeziehung zwischen mehreren in einem virtuellen Raum angeordneten Benutzern; und einen Erzeugungsschritt zum Erzeugen, auf Grundlage der durch in dem Erfassungsschritt erfassten Positionsbeziehung, von Ausgangsdaten eines Tons, der einem Zielbenutzer präsentiert werden soll, aus Tondaten eines durch jeden der Benutzer erzeugten Tons, wobei in dem Erzeugungsschritt die Ausgangsdaten durch Verwendung eines anderen Tons als eines Tons erzeugt werden, der durch den Zielbenutzer unter den Tönen, die jeweils durch die Benutzer erzeugt werden, direkt gehört werden kann.
  21. Ein Informationsverarbeitungssystem, das Folgendes beinhaltet: eine Informationsverarbeitungsvorrichtung, die Ausgangsdaten eines einem Zielbenutzer zu präsentierenden Tons aus Tondaten eines durch jeden mehrerer in einem virtuellen Raum angeordneter Benutzer erzeugten Tons bereitstellt, wobei die Ausgangsdaten einen anderen Ton als einen Ton verwenden, der direkt durch den Zielbenutzer gehört werden kann, und auf Grundlage einer Positionsbeziehung zwischen den mehreren Benutzern erzeugt werden; und eine Wiedergabevorrichtung, die die von der Informationsverarbeitungsvorrichtung bereitgestellten Ausgangsdaten wiedergibt.
DE112021004887.2T 2020-09-18 2021-07-30 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem Pending DE112021004887T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020-157036 2020-09-18
JP2020157036 2020-09-18
PCT/JP2021/028303 WO2022059362A1 (ja) 2020-09-18 2021-07-30 情報処理装置、情報処理方法および情報処理システム

Publications (1)

Publication Number Publication Date
DE112021004887T5 true DE112021004887T5 (de) 2023-06-29

Family

ID=80775783

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021004887.2T Pending DE112021004887T5 (de) 2020-09-18 2021-07-30 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem

Country Status (3)

Country Link
US (1) US20240031759A1 (de)
DE (1) DE112021004887T5 (de)
WO (1) WO2022059362A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220377431A1 (en) * 2021-05-19 2022-11-24 Apple Inc. Methods and user interfaces for auditory features

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180206038A1 (en) 2017-01-13 2018-07-19 Bose Corporation Real-time processing of audio data captured using a microphone array

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4426484B2 (ja) * 2005-03-11 2010-03-03 株式会社日立製作所 音声会議システム、会議端末および音声サーバ
JP6973254B2 (ja) * 2018-04-05 2021-11-24 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
EP3594802A1 (de) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio-vorrichtung, audio-verteilungssystem und verfahren zum betrieb davon

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180206038A1 (en) 2017-01-13 2018-07-19 Bose Corporation Real-time processing of audio data captured using a microphone array

Also Published As

Publication number Publication date
WO2022059362A1 (ja) 2022-03-24
US20240031759A1 (en) 2024-01-25

Similar Documents

Publication Publication Date Title
US8073125B2 (en) Spatial audio conferencing
DE102014210215A1 (de) Ermittlung und Nutzung hörraumoptimierter Übertragungsfunktionen
Mueller et al. Localization of virtual sound sources with bilateral hearing aids in realistic acoustical scenes
Horbach et al. Design and applications of a data-based auralization system for surround sound
Engel et al. The effect of generic headphone compensation on binaural renderings
Sunder et al. Individualization of binaural synthesis using frontal projection headphones
US11418903B2 (en) Spatial repositioning of multiple audio streams
US11221821B2 (en) Audio scene processing
DE102021103210A1 (de) Surround-Sound-Wiedergabe basierend auf Raumakustik
Howie et al. Subjective and objective evaluation of 9ch three-dimensional acoustic music recording techniques
DE112021004887T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungssystem
Engel et al. The sonicom hrtf dataset
Engel et al. On the differences in preferred headphone response for spatial and stereo content
Rychtáriková et al. Binaural sound source localization in real and virtual rooms
DE102011003450A1 (de) Erzeugung von benutzerangepassten Signalverarbeitungsparametern
de Taillez et al. Acoustic and perceptual effects of magnifying interaural difference cues in a simulated “binaural” hearing aid
DE112021001695T5 (de) Schallverarbeitungsvorrichtung, schallverarbeitungsverfahren und schallverarbeitungsprogramm
DE102022205633A1 (de) Räumliche audiosteuerung
Peksi et al. A Unity Based Platform for Individualized HRTF Research and Development: From On-the-Fly Fast Acquisition to Spatial Audio Renderer
Müller et al. Perceptual differences for modifications of the elevation of early room reflections
Rumsey Spatial audio: Binaural challenges
DE112021004705T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm
DE112021004727T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsendgerät, informationsverarbeitungsverfahren und programm
DE112021003787T5 (de) Informationsverarbeitungsvorrichtung, Informationsverarbeitungsverfahren und Endgerätevorrichtung
WO2015044000A1 (de) Vorrichtung und verfahren zur überlagerung eines schallsignals