DE112017006746T5

DE112017006746T5 - Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm

Info

Publication number: DE112017006746T5
Application number: DE112017006746.4T
Authority: DE
Inventors: Kohei Miyamoto
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-01-06
Filing date: 2017-11-17
Publication date: 2019-09-19
Also published as: JP2018109924A; US10965815B2; US20210195031A1; WO2018128014A1; US11503162B2; US20200106884A1

Abstract

Eine auf eine Ausführungsform der vorliegenden Technologie bezogene Informationsverarbeitungsvorrichtung wird bereitgestellt mit einer Übernahmeeinheit; und einer Erzeugungssteuereinheit. Die Übernahmeeinheit übernimmt Eingangsinformationen, die wenigstens eines unter einem Bild und Sprache eines ersten Benutzers einschließen. Die Erzeugungssteuereinheit steuert die Erzeugung von Ausgangsinformationen, die auf den ersten Benutzer bezogen sind und von einer Endvorrichtung eines zweiten Benutzers ausgegeben werden, der ein Kommunikationspartner des ersten Benutzers ist, auf der Basis von Anforderungsinformationen, einschließlich einer Anforderung zum Ausgeben von Informationen, die wenigstens eines unter dem Bild und der Sprache einschließen, und der übernommenen Eingangsinformationen.

Description

Technisches Gebiet
Die vorliegende Technologie bezieht sich auf eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm, die für Fernkommunikation und dergleichen anwendbar sind.
Hintergrund der Technik
Eine Technologie zum Teilen von Bildern und Audiodaten zwischen Benutzern über ein Netzwerk oder dergleichen und zum Durchführen von Fernkommunikation ist allgemein bekannt. Zum Beispiel können Benutzer, die sich an voneinander entfernten Orten befinden, Video- und Audiodaten in Echtzeit untereinander austauschen. Unter dieser Konfiguration können selbst Benutzer an entlegenen Orten miteinander kommunizieren und dabei den Zustand des Partners verstehen.
Zum Beispiel ist in Patentliteratur 1 ein Fernsehkonferenzsystem offenbart, bei dem Benutzer, die sich an verschiedenen Orten befinden, Bilder und Audio untereinander senden und empfangen können. In Patentliteratur 1 wird auf der Basis eines aufgenommenen Bilds des Benutzers bestimmt, ob der Benutzer eine Geste ausführt oder nicht. Wenn der Benutzer die Geste ausführt, wird ein Bild der oberen Körperhälfte des Benutzers aus dem aufgenommenen Bild ausgeschnitten. Wenn der Benutzer die Geste nicht ausführt, wird ein Bild des Gesichts des Benutzers ausgeschnitten. Das ausgeschnittene Bild der oberen Körperhälfte oder das ausgeschnittene Bild des Gesichts wird an eine Endvorrichtung auf einer Partnerseite gesendet und auf einem Display angezeigt. Unter dieser Konfiguration ist es möglich, Fernsehkonferenzen reibungslos durchzuführen, wobei Gesten ausgeführt und eine gefällige Kommunikation durchgeführt werden können (Paragraphen [0030], [0057] und [0092] der Spezifikation, 5 und 6, und dergleichen in Patentliteratur 1).
Zitationsliste
Patentliteratur
Patentliteratur 1: Japanische Patentanmeldung Offenlegungsschrift Nr. 2010-239499
Offenbarung der Erfindung
Technische Problemstellung
Es wird davon ausgegangen, dass Fernkommunikation über ein Netzwerk und dergleichen von nun an weit verbreitet sein wird. Es ist daher wünschenswert, eine Technologie bereitzustellen, die Durchführen einer gefälligen Fernkommunikation ermöglicht.
Im Hinblick auf die oben genannten Umstände ist es ein Ziel der vorliegenden Technologie, eine Informationsverarbeitungsvorrichtung, ein Informationsverarbeitungsverfahren und ein Programm bereitzustellen, die Durchführen einer gefälligen Fernkommunikation ermöglichen.
Lösung des Problems
Um das oben genannte Ziel zu erreichen, schließt eine Informationsverarbeitungsvorrichtung gemäß einer Ausführungsform der vorliegenden Technologie eine Übernahmeeinheit und eine Erzeugungssteuereinheit ein.
Die Übernahmeeinheit übernimmt Eingangsinformationen, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen.
Die Erzeugungssteuereinheit steuert auf der Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließen, die wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.
Bei dieser
Informationsverarbeitungsvorrichtung wird die Erzeugung der auf den ersten Benutzer bezogenen Ausgangsinformationen auf der Basis der Eingangsinformationen und der auf die Ausgangsinformationen bezogenen Anforderungsinformationen gesteuert. Unter dieser Konfiguration können zum Beispiel die Ausgangsinformationen gemäß der Anforderung und dergleichen vom zweiten Benutzer, der der Kommunikationspartner ist, erzeugt und gefällige Kommunikation durchgeführt werden.
Die Anforderungsinformationen können wenigstens eine von einer Anforderung vom zweiten Benutzer, die sich auf Bildanzeige bezieht, oder einer Anforderung vom zweiten Benutzer, die sich auf Audiowiedergabe bezieht, einschließen. Unter dieser Konfiguration können verschiedene auf die Bildanzeige und Audiowiedergabe bezogene Anforderungen gestellt und gefällige Kommunikation durchgeführt werden.
Die Erzeugungssteuereinheit kann das Bild des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzen und die Ausgangsinformationen erzeugen. Unter dieser Konfiguration können die Ausgangsinformationen gemäß der Anforderung erzeugt und gefällige Kommunikation durchgeführt werden.
Die Erzeugungssteuereinheit kann das Audio des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzen und die Ausgangsinformationen erzeugen.
Unter dieser Konfiguration können die Ausgangsinformationen gemäß der Anforderung erzeugt und gefällige Kommunikation durchgeführt werden.
Die Informationsverarbeitungsvorrichtung kann weiter Folgendes einschließen: eine Berechnungseinheit; und eine Zuverlässigkeitssendeeinheit.
Die Berechnungseinheit berechnet die Zuverlässigkeit der Ausgangsinformationen.
Die Zuverlässigkeitssendeeinheit sendet die berechnete Zuverlässigkeit an die Endvorrichtung des zweiten Benutzers. Unter dieser Konfiguration kann zum Beispiel der Zuverlässigkeitsgrad des Bilds und des Audios, die in den Ausgangsinformationen eingeschlossen sind, bestimmt werden. Als ein Ergebnis können zum Beispiel Aktualisieren und dergleichen der Anforderungsinformationen und gefällige Kommunikation durchgeführt werden.
Die Zuverlässigkeit der Ausgangsinformationen kann wenigstens eine von einer auf das Bild bezogenen Zuverlässigkeit oder von einer auf das Audio bezogenen Zuverlässigkeit einschließen.
Unter dieser Konfiguration kann zum Beispiel die Zuverlässigkeit des Bilds und des Audios bestimmt und gefällige Kommunikation durchgeführt werden.
Die Anforderungsinformationen können eine auf die Zuverlässigkeit der Ausgangsinformationen bezogene Anforderung einschließen.
Unter dieser Konfiguration können auf die Zuverlässigkeit bezogene Anforderung und gefällige Kommunikation durchgeführt werden.
Die Informationsverarbeitungsvorrichtung kann weiter eine Schätzeinheit einschließen, die ein erzeugbares Maß der Ausgangsinformationen auf der Basis von wenigstens einer von Zustandsinformationen des ersten Benutzers oder Situationsinformationen des ersten Benutzers schätzt.
Unter dieser Konfiguration kann zum Beispiel das erzeugbare Maß der Ausgangsinformationen mit der Anforderung vom zweiten Benutzer und dergleichen verglichen und gefällige Kommunikation durchgeführt werden.
Das Maß der Ausgangsinformationen kann wenigstens eines von einem anzeigbaren Maß des Bilds des ersten Benutzers oder einem reproduzierbaren Maß des Audios des ersten Benutzers einschließen.
Unter dieser Konfiguration kann Vergleich eines Erzeugungsmaßes mit der Anforderung und dergleichen bezüglich des Bilds und des Audios des ersten Benutzers und gefällige Kommunikation durchgeführt werden.
Die Informationsverarbeitungsvorrichtung kann weiter eine Maßsendeeinheit einschließen, die das geschätzte Maß der Ausgangsinformationen an die Endvorrichtung des zweiten Benutzers sendet.
Unter dieser Konfiguration können zum Beispiel Aktualisieren und dergleichen der Anforderungsinformationen gemäß dem erzeugbaren Maß und gefällige Kommunikation durchgeführt werden.
Die Informationsverarbeitungsvorrichtung kann weiter eine Anforderungsinformationsausgabeeinheit einschließen, die die aktualisierten, von der Endvorrichtung des zweiten Benutzers, die die erzeugten Ausgangsinformationen empfängt, gesendeten Anforderungsinformationen an die Erzeugungssteuereinheit ausgibt.
Unter dieser Konfiguration können gewünschte Ausgangsinformationen angefordert und gefällige Kommunikation durchgeführt werden.
Die Anforderungsinformationsausgabeeinheit kann die aktualisierten Anforderungsinformationen basierend auf Inhalten der Ausgangsinformationen und der Zuverlässigkeit der Ausgangsinformationen an die Erzeugungssteuereinheit ausgeben.
Unter dieser Konfiguration können zum Beispiel flexible Anforderung gemäß den Inhalten der Ausgangsinformationen und dergleichen und gefällige Kommunikation durchgeführt werden.
Die Anforderungsinformationsausgabeeinheit kann die aktualisierten Anforderungsinformationen basierend auf dem erzeugbaren Maß der Ausgangsinformationen an die Erzeugungssteuereinheit ausgeben.
Unter dieser Konfiguration können zum Beispiel flexible Anforderung gemäß dem erzeugbaren Maß der Ausgangsinformationen und dergleichen und gefällige Kommunikation durchgeführt werden.
Wenigstens eine der Übernahmeeinheit oder der Erzeugungssteuereinheit kann in einer Servervorrichtung bereitgestellt werden, die jeweils mit einer Endvorrichtung des ersten Benutzers und der Endvorrichtung des zweiten Benutzers kommunizieren kann.
Unter dieser Konfiguration kann zum Beispiel eine Cloudrechenkonfiguration realisiert werden.
Ein Informationsverarbeitungsverfahren gemäß einer Ausführungsform der vorliegenden Technologie ist ein durch ein Computersystem ausgeführtes Informationsverarbeitungsverfahren, wobei das Informationsverarbeitungsverfahren Übernehmen von Eingangsinformationen einschließt, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen.
Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind, wird auf der Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließlich wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen gesteuert.
Ein Programm gemäß einer Ausführungsform der vorliegenden Technologie veranlasst ein Computersystem zum Ausführen der folgenden Schritte.
Einen Schritt des Übernehmens von Eingangsinformationen, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen.
Einen Schritt des Steuerns auf der Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließlich wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen, der Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.
Vorteilhafte Effekte der Erfindung
Wie oben beschrieben kann in Übereinstimmung mit der vorliegenden Technologie gefällige Fernkommunikation durchgeführt werden. Es wird darauf hingewiesen, dass die hier beschriebenen Effekte nicht unbedingt einschränkend sind, und ein beliebiger, in der vorliegenden Offenbarung beschriebener Effekt bereitgestellt werden kann.
Figurenliste

[1] Schematische Ansicht zum Beschreiben des Umrisses eines Kommunikationssystems gemäß einer Ausführungsform.
[2] Blockdiagramm, das ein Konfigurationsbeispiel einer Kommunikationsendvorrichtung zeigt.
[3] Blockdiagramm, das ein funktionales Konfigurationsbeispiel der Kommunikationsendvorrichtung zeigt.
[4] Schematische Ansicht zum Beschreiben eines Beispiels eines fehlenden Maßes eines Bilds.
[5] Tabelle, die ein Beispiel eines Bereichs zeigt, der auf der Basis von Hilfsinformationen ergänzt werden kann.
[6] Tabelle zum Beschreiben der Relevanz zwischen Umgebungsinformationen und einem erzeugbaren Maß von Kommunikationsdaten.
[7] Ablaufdiagramm, das ein Beispiel eines Verarbeitungsablaufs bei jeder Kommunikationsendvorrichtung zeigt.
[8] Schematische Ansicht, die ein spezifisches Beispiel von Fernkommunikation zeigt.
[9] Schematische Ansicht, die ein spezifisches Beispiel von Fernkommunikation zeigt.
[10] Schematische Ansicht, die ein spezifisches Beispiel von Fernkommunikation zeigt.
[11] Schematische Ansicht, die ein spezifisches Beispiel von Fernkommunikation zeigt.

Modus (Modi) zum Ausführen der Erfindung
Im Folgenden werden Ausführungsformen gemäß der vorliegenden Technologie unter Bezugnahme auf die Zeichnungen beschrieben.
[Kommunikationssystem]
1 ist eine schematische Ansicht zum Beschreiben des Umrisses eines Kommunikationssystems gemäß einer Ausführungsform der vorliegenden Technologie. Ein Kommunikationssystem 100 ermöglicht es kommunizierenden Personen (Benutzer 5 der Kommunikationsendvorrichtungen 10), Fernkommunikation miteinander über die mit einem Netzwerk 1 verbundenen Kommunikationsendvorrichtungen 10 durchzuführen.
Das Kommunikationssystem 100 ist eine Ausführungsform eines Informationsverarbeitungssystems gemäß der vorliegenden Technologie. Die Kommunikationsendvorrichtungen 10 sind eine Ausführungsform einer Informationsverarbeitungsvorrichtung gemäß der vorliegenden Technologie.
Obwohl nicht darauf beschränkt, wird typischerweise ein Weitverkehrsnetz (Wide Area Network, WAN), wie z. B. das Internet, als das Netzwerk 1 verwendet. Die vorliegende Technologie ist auf jedes Netzwerk anwendbar, einschließlich eines lokalen Netzwerks (Local Area Network, LAN), wie z. B. ein Intranet und dergleichen.
Im in 1 gezeigten Beispiel wird ein Fall dargestellt, in dem ein Benutzer 5a, der eine Kommunikationsendvorrichtung 10a verwendet, und Benutzer 5b, die Kommunikationsendvorrichtungen 10b verwenden, Fernkommunikation durchführen.
Der Benutzer 5a sitzt und ein auf einem Schreibtisch platzierter Laptop-Personalcomputer (PC) wird als die Kommunikationsvorrichtung 10a verwendet.
Hinsichtlich der Benutzer 5b sind ein Gehzustand, ein Sitzzustand und ein Zustand, in dem sich Benutzer in einem Zug befinden, dargestellt. In jedem Zustand kann Kommunikation mit dem Benutzer 5a unter Verwendung eines Smartphones und eines Laptop-PC als die Kommunikationsendvorrichtungen 10b durchgeführt werden. Es wird darauf hingewiesen, dass zum Durchführen von Fernkommunikation eine zu diesem Zeitpunkt verwendete Endvorrichtung die Kommunikationsendvorrichtung 10 dieses Benutzers 5 ist.
Bei dieser Ausführungsform erzeugt die Kommunikationsendvorrichtung 10 Kommunikationsdaten D, die wenigstens eines von einem Bild oder Audio des Benutzers 5 als Ausgangsinformationen einschließen. Die erzeugten Kommunikationsdaten D werden über das Netzwerk 1 an die Kommunikationsendvorrichtung 10 des Kommunikationspartners gesendet und ausgegeben. Durch Senden und Empfangen der entsprechenden Kommunikationsdaten D wird die Fernkommunikation realisiert.
Bei dieser Ausführungsform entspricht ein Benutzer, der Eingangsinformationen eingibt, die wenigstens eines von einem Bild oder Audio des Benutzers einschließen, einem ersten Benutzer. Ferner entspricht ein Benutzer, der Ausgangsinformationen basierend auf den eingegebenen Eingangsinformationen übernimmt, einem zweiten Benutzer. Bei der Kommunikation wird eine Senderseite der Kommunikationsdaten D (Eingabeseite der Eingangsinformationen) zwischen den Benutzern umgeschaltet. Daher entspricht in einem Fall, in dem einer von dem Benutzer 5a und dem Benutzer 5b dem ersten Benutzer entspricht, der andere dem zweiten Benutzer.
Es wird darauf hingewiesen, dass ein spezifischer Kommunikationsalgorithmus zum Kommunizieren der Kommunikationsdaten D nicht eingeschränkt ist und Kompression/Dekompression, Verschlüsselung/Entschlüsselung und dergleichen von Daten zweckgemäß ausgeführt werden können.
Bei dieser Ausführungsform können bezüglich der von den Kommunikationsendvorrichtungen 10 erzeugten Kommunikationsdaten D Anforderungsinformationen, die angeben, welche Art von Kommunikationsdaten D erforderlich ist, zueinander gesendet und voneinander empfangen werden. Unter dieser Konfiguration kann gefällige Fernkommunikation durchgeführt werden. Dies wird später im Detail beschrieben.
[Kommunikationsendvorrichtung]
2 ist ein Blockdiagramm, das ein Konfigurationsbeispiel der Kommunikationsendvorrichtung 10 zeigt. Die Kommunikationsendvorrichtung 10 schließt einen Controller 11, einen Lautsprecher 12, ein Mikrofon 13, eine Kamera 14 und eine Sensoreinheit 15 ein. Ferner schließt die Kommunikationsendvorrichtung 10 eine Anzeigeeinheit 16, eine Bedieneinheit 17, eine Speichereinheit 18, eine Schnittstelleneinheit (Interface (I/F)-Einheit) 19 und eine Kommunikationseinheit 20 ein.
Audio und dergleichen des Kommunikationspartners werden über den Lautsprecher 12 wiedergegeben. Audio und dergleichen des Benutzers 5 werden vom Mikrofon 13 aufgenommen. Ein Bild und dergleichen der Benutzer 5 werden von der Kamera 14 aufgenommen. Zusätzlich können der Lautsprecher 12, das Mikrofon 13 und die Kamera 14 Ausgabe von Audioführung, Wiedergabe von Musikinhalten, Eingabe von Anweisungen als Audio oder gemäß Gesten und dergleichen ermöglichen. Spezifische Konfigurationen des Lautsprechers 12, des Mikrofons 13 und der Kamera 14 sind nicht eingeschränkt.
Das von der Kamera 14 aufgenommene Bild und das vom Mikrofon 13 aufgenommene Audio entsprechen bei dieser Ausführungsform den Eingangsinformationen, die ein Bild und Audio einschließen. Es wird darauf hingewiesen, dass das von der Kamera 14 aufgenommene Bild sowohl ein Standbild als auch ein bewegtes Bild (Video) einschließt.
Die Anzeigeeinheit 16 ist zum Beispiel eine Anzeigevorrichtung, die Kristallflüssigkeit, Elektrolumineszenz (EL) und dergleichen verwendet. Bilder des Kommunikationspartners, verschiedene Arten von grafischen Benutzerschnittstellen (Graphical User Interfaces, GUIs) und dergleichen werden auf der Anzeigeeinheit 16 angezeigt. Die Bedieneinheit 17 schließt zum Beispiel eine Tastatur, eine Zeigervorrichtung, ein Touchpanel und andere Bedienvorrichtungen ein. In einem Fall, in dem die Bedieneinheit 17 ein Touchpanel einschließt, kann dieses mit der Anzeigeeinheit 16 integriert sein.
Die Speichereinheit 18 ist eine nichtflüchtige Speichervorrichtung. Ein Festplattenlaufwerk (Hard Disk Drive, HDD) oder dergleichen wird zum Beispiel als Speichereinheit 18 verwendet. In der Speichereinheit 18 sind verschiedene Programme einschließlich eines Steuerprogramms, einer Anwendung und dergleichen zum Steuern allgemeiner Operationen der Kommunikationsendvorrichtung 10 gespeichert. Ferner sind Tabelleninformationen und dergleichen zum Erzeugen der Kommunikationsdaten D in der Speichereinheit 18 gespeichert. Ein Verfahren zum Installieren des Steuerprogramms, der Tabelleninformationen und dergleichen in die Kommunikationsendvorrichtung 10 ist nicht eingeschränkt.
Die I/F-Einheit 19 ist eine Schnittstelle, an die andere Vorrichtungen und verschiedene Kabel einer Universal Serial Bus (USB)-Endvorrichtung, einer High-Definition-Multimedia-Interface (HDMI)-Endvorrichtung (HDMI ist eine eingetragene Marke) und dergleichen angeschlossen werden.
Die Kommunikationseinheit 20 ist ein Kommunikationsmodul zum Kommunizieren mit anderen Vorrichtungen über das Netzwerk 1. Ein drahtloses LAN-Modul, wie z. B. Wi-Fi, wird zum Beispiel als die Kommunikationseinheit 20 verwendet. Andernfalls kann als die Kommunikationseinheit 20 ein Kommunikationsmodul für drahtlose Kurzstreckenkommunikation wie Bluetooth (eingetragene Marke) bereitgestellt werden.
Die Sensoreinheit 15 schließt einen 9-Achsen-Sensor 21 und einen GPS-Sensor 22 ein. Der 9-Achsen-Sensor 21 gibt Änderungen in Winkel, Bewegung und Richtung des Hauptkörpers der Kommunikationsendvorrichtung 10 aus. Der GPS-Sensor 22 gibt Positionsinformationen des Hauptkörpers der Kommunikationsendvorrichtung 10 aus. Ansonsten ist der Typ des Sensors, der als die Sensoreinheit 15 bereitgestellt wird, nicht eingeschränkt, und es kann ein beliebiger Sensor bereitgestellt werden. Zum Beispiel kann ein Biosensor und dergleichen zum Erfassen der Körpertemperatur und der Pulsfrequenz des Benutzers 5 und dergleichen bereitgestellt werden.
Die Sensoreinheit 15 fungiert zum Beispiel als Bewegungssensor und ist in der Lage, den Zustand des Benutzers 5 einschließlich der Haltung, der Bewegung und dergleichen des Benutzers 5 zu erfassen. Zum Beispiel werden Informationen, die Gehen, Laufen, Fahren mit dem Zug, Fahren oder dergleichen angeben, und Informationen, die angeben, welcher Sport oder dergleichen betrieben wird, als Zustandsinformationen des Benutzers 5 übernommen.
Ferner kann die Sensoreinheit 15 eine Situation des Benutzers 5 erkennen. Das heißt, sie ist in der Lage, Situationsinformationen des Benutzers 5 zu übernehmen, einschließlich Informationen bezüglich des Zustands eines dem Benutzer 5 zugeordneten Ziels, wie z. B. der Zustand der vom Benutzer 5 verwendeten Kommunikationsendvorrichtung 10, der Zeitpunkt, der Standort und dergleichen. Zum Beispiel werden Informationen bezüglich des aktuellen Standorts des Benutzers 5, insbesondere Informationen bezüglich des Aufenthalts im Innen- oder Außenbereich, Informationen bezüglich der Teilnahme an einer Konferenz oder nicht, oder dergleichen, Informationen bezüglich Spezifikationen und Informationen bezüglich einer Stelle, an der die Kommunikationsendvorrichtung 10 platziert ist, und dergleichen als die Situationsinformationen des Benutzers 5 übernommen.
Diese verschiedenen Arten von Zustandsinformationen und Situationsinformationen des Benutzers 5 können unter Verwendung einer beliebigen Technologie übernommen werden, wie z. B. Aktivitätsanalyse unter Verwendung maschinellen Lernens, zum Beispiel. Natürlich können die Zustandsinformationen und die Situationsinformationen des Benutzers 5 durch Kooperation der Sensoreinheit 15 mit den anderen Blöcken übernommen werden.
Bei dieser Ausführungsform werden die Umgebungsinformationen des Benutzers 5, der Fernkommunikation durchführt, als Informationen einschließlich der Zustandsinformationen und der Situationsinformationen des Benutzers 5 übernommen. Die Umgebungsinformationen schließen einen Standort des Benutzers, Zeit, Spezifikationen der Kommunikationsendvorrichtung 10, Zustände des Benutzers 5 und der Kommunikationsendvorrichtung 10 und dergleichen ein.
Der Controller 11 steuert Operationen der jeweiligen Blöcke der Kommunikationsendvorrichtung 10. Der Controller 11 schließt eine für einen Computer erforderliche Hardwarekonfiguration ein, wie z. B. eine CPU und einen Speicher (RAM, ROM), zum Beispiel. Dadurch, dass die CPU das in der Speichereinheit 18 gespeicherte Steuerprogramm in das RAM lädt und es ausführt, werden verschiedene Typen von Verarbeitung ausgeführt.
Zum Beispiel kann eine programmierbare Logikvorrichtung (Programmable Logic Device, PLD), wie z. B. ein feldprogrammierbares Gate-Array (Programmable Gate Array, FPGA), und andere Vorrichtungen, wie z. B. eine anwendungsspezifische integrierte Schaltung (Application Specific Integrated Circuit, ASIC), als der Controller 11 verwendet werden.
Der Typ der Kommunikationsendvorrichtung 10 ist nicht beschränkt, und eine beliebige Vorrichtung mit einer Kommunikationsfunktion, einer Abbildungsfunktion und einer Tonaufnahmefunktion kann verwendet werden. Zum Beispiel kann eine beliebige Vorrichtung, einschließlich eines Desktop-PC, einer Spielkonsolenvorrichtung, eines Fernsehgeräts, eines Audio-Video-Receivers, verschiedener PDAs (Personal Digital Assistants), wie z. B. eine Tabletendvorrichtung, und dergleichen, ebenso wie der Laptop-PC und das Smartphone, die oben erwähnt sind, verwendet werden.
3 ist ein Blockdiagramm, das ein funktionales Konfigurationsbeispiel der Kommunikationsendvorrichtung 10 zeigt. Hier sind eine Kommunikationsendvorrichtung 10X auf der Senderseite und eine Kommunikationsendvorrichtung 10Y auf der Empfängerseite als voneinander zu unterscheidend dargestellt. Selbstverständlich funktionieren bei Durchführung der Fernkommunikation die Kommunikationsendvorrichtungen 10 (z. B. die in 1 gezeigten Kommunikationsendvorrichtungen 10a und 10b) sowohl als die Senderseite als auch als die Empfängerseite.
Bei dieser Ausführungsform werden dadurch, dass die CPU des Controllers 11 das Programm (die Anwendung) gemäß dieser Ausführungsform ausführt, die jeweiligen in 3 dargestellten funktionalen Blöcke realisiert, und das Informationsverarbeitungsverfahren gemäß dieser Ausführungsform wird ausgeführt. Zum Realisieren der jeweiligen funktionalen Blöcke kann selbstverständlich dedizierte Hardware, wie z. B. eine integrierte Schaltung (Integrated Circuit, IC), zweckgemäß verwendet werden.
Die Kommunikationsendvorrichtung 10X auf der Senderseite schließt eine Audioübernahmeeinheit 30, eine Audioanalyseeinheit 31, eine Videoübernahmeeinheit 32, eine Videoanalyseeinheit 33, eine Hilfsinformationserzeugungseinheit 34, eine Textübernahmeeinheit 35, eine Datenanforderungsempfangseinheit 36, eine Kommunikationsdatenerzeugungseinheit 37, eine Datenkompressionseinheit 38, eine Datenübertragungseinheit 39 und eine Umgebungsinformationsübernahmeeinheit (nicht gezeigt) ein. Die Audioübernahmeeinheit 30, die Videoübernahmeeinheit 32 und die Textübernahmeeinheit 35 funktionieren bei dieser Ausführungsform als Übernahmeeinheiten.
Die Audioübernahmeeinheit 30 übernimmt vom Mikrofon 13 aufgenommenes Audio (Eingangsinformationen) und gibt das Audio (Eingangsinformationen) an die Audioanalyseeinheit 31 aus. Die Audioanalyseeinheit 31 analysiert das übernommene Audio und bestimmt das Vorhandensein/die Abwesenheit vom Audio des Benutzers 5 und ein Fehlmaß (Audiofehlbereich) davon. Bei dieser Ausführungsform wird das Audio des Benutzers 5, der die Kommunikationsendvorrichtung 10 verwendet, von der Audioanalyseeinheit 31 im Voraus eingegeben und analysiert. Ob das übernommene Audio das Audio des Benutzers 5 einschließt oder nicht und das Fehlmaß davon werden auf der Basis des Analyseergebnisses bestimmt. Es wird darauf hingewiesen, dass eine beliebige Audioanalysetechnologie unter Verwendung von Maschinenlernen und dergleichen, zum Beispiel, als das Analyseverfahren verwendet werden kann.
Das Fehlmaß des Audios wird typischerweise unter Verwendung von Audio eines normalen Gesprächs als Referenz verwendet. Zum Beispiel, in einem Fall, in dem ein Gespräch des Benutzers 5 korrekt übernommen ist, wird bestimmt, dass sowohl der Inhalt des Geäußerten (Inhalt eines geäußerten Satzes) als auch die Intonation (Sprechweise) korrekt und nicht mangelhaft sind. In einem Fall, in dem der Inhalt des geäußerten Satzes verstanden werden kann, während die Intonation im Vergleich zu einem normalen Gespräch fehlt, wird bestimmt, dass die Intonation fehlt. Zum Beispiel in einem Fall, in dem Äußerungen oder dergleichen mit leiser Stimme wie einem Flüstern gemacht werden, kann bestimmt werden, dass die Intonation fehlt.
Zum Beispiel können fehlende Geschwindigkeit, fehlende Tonhöhe, fehlende Lautstärke und fehlende Modulation als Fehlintonation gelten. Das Fehlmaß kann für jeden dieser Parameter bestimmt werden, oder jeweilige fehlende Parameter können gemeinsam als die Fehlintonation bestimmt werden.
In einem Fall, in dem selbst der Inhalt des geäußerten Satzes nicht bestimmt werden kann, d. h. in dem der Kontext auf der Basis des Audios nicht verstanden werden kann, wird bestimmt, dass der geäußerte Satz fehlt. Darüber hinaus wird in einem Fall, in dem nicht nur der Kontext, sondern auch Rückkanäle (kurze Antworten), wie z. B. Ja/Nein, nicht erfasst werden können, bestimmt, dass Rückkanäle als eine viel höheres fehlendes Maß fehlen. Es wird darauf hingewiesen, dass das Verfahren zum Festlegen des Fehlmaßes nicht eingeschränkt ist und es nach Belieben festgelegt werden kann.
Das Fehlmaß des Audios, das von der Audioanalyseeinheit 31 bestimmt wird, wird zusammen mit dem übernommenen Audio des Benutzers 5 an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben.
Die Videoübernahmeeinheit 32 übernimmt das von der Kamera 14 aufgenommene Video (Eingangsinformationen) und gibt das Video (Eingangsinformationen) an die Videoanalyseeinheit 33 und die Hilfsinformationserzeugungseinheit 34 aus. Es wird darauf hingewiesen, dass Verarbeitung auf dem Video für jedes Frame-Bild ausgeführt wird. Daher wird das Video nachstehend in einigen Fällen einfach als Bild bezeichnet.
Die Videoanalyseeinheit 33 analysiert das übernommene Bild und bestimmt, ob der Benutzer 5 in diesem Bild gezeigt ist oder nicht, und bestimmt ein Fehlmaß (fehlender Bildbereich), wenn er in diesem Bild gezeigt wird.
Bei dieser Ausführungsform wird das Bild des Benutzers 5, der die Kommunikationsendvorrichtung 10 verwendet, im Voraus registriert. Zum Beispiel kann das Bild des gesamten Körpers registriert werden oder es können Bilder von jeweiligen Stellen, wie z. B. der oberen Körperhälfte, der unteren Körperhälfte und dem Gesicht, sowie das Bild des gesamten Körpers registriert werden. Die Videoanalyseeinheit 33 bestimmt das Vorhandensein/die Abwesenheit der Bildaufnahme des Benutzers 5 und ein Fehlmaß davon unter Verwendung einer beliebigen Bildanalysetechnologie, zum Beispiel unter Verwendung von Maschinenlernen und dergleichen.
4 ist eine schematische Ansicht zum Beschreiben eines Beispiels des Fehlmaßes des Bilds. Das Fehlmaß nimmt vom Bild von A von 4 zum Bild von D von 4 zu. Wie in A von 4 gezeigt, wird in einem Fall, in dem der gesamte Körper des Benutzers 5 in diesem Bild gezeigt ist, bestimmt, dass er nicht fehlt. Wie in B von 4 gezeigt, wird in einem Fall, in dem nur die obere Körperhälfte in diesem Bild gezeigt ist, bestimmt, dass die untere Körperhälfte fehlt.
Wie in C von 4 gezeigt, wird in einem Fall, in dem nur das Gesicht in diesem Bild gezeigt ist, bestimmt, dass die obere Körperhälfte (mit Ausnahme des Gesichts) und die untere Körperhälfte fehlen. Wie in D von 4 gezeigt, wird in einem Fall, in dem nur ein Teil des Gesichts in diesem Bild gezeigt ist, bestimmt, dass der gesamte Körper (mit einem Teil des Gesichts) fehlt. Ansonsten können verschiedene Fehlmaße, zum Beispiel, ein Fehlmaß des Gesichts in einem Fall, in dem nur das Gesicht in diesem Bild nicht gezeigt ist, und ein Fehlmaß der oberen Körperhälfte in einem Fall, in dem nur die untere Körperhälfte in diesem Bild gezeigt ist, bestimmt werden.
Das Bestimmungsverfahren für das Fehlmaß ist nicht eingeschränkt ist und kann nach Belieben festgelegt werden. Typischerweise wird der Zustand, in dem eine gesichtsnahe Stelle, die ein wichtiger Bestandteil zum Erkennen des Benutzers 5 ist, fehlt, als ein hohes Fehlmaß bestimmt. Zum Beispiel wird bezüglich des Zustands, in dem das Gesicht fehlt, und des Zustands, in dem die untere Körperhälfte fehlt, der Zustand, in dem das Gesicht fehlt, als ein höheres Fehlmaß bestimmt. Ansonsten kann eine beliebige Maßbestimmung auf der Basis einer fehlenden Stelle, eines fehlenden Bereichs und dergleichen ausgeführt werden.
Ferner wird im in 4 gezeigten Beispiel das Fehlmaß bestimmt, indem ein Bild, in dem der gesamte Körper des Benutzers 5 gezeigt ist, als Referenz verwendet wird. Ohne darauf beschränkt zu sein, kann das Fehlmaß bestimmt werden, indem das Bild der oberen Körperhälfte als Referenz verwendet wird. In diesem Fall wird bezüglich des Bilds, in dem die obere Hälfte des Körpers gezeigt ist, bestimmt, dass er nicht fehlt.
Das Fehlmaß kann nicht nur danach, ob das übernommene Bild in diesem Bild gezeigt ist oder nicht, sondern auch nach dem Zustand einer in diesem Bild gezeigten Stelle und dergleichen bestimmt werden. Zum Beispiel wird bezüglich des in diesem Bild gezeigten Gesichts bestimmt, ob der Gesichtsausdruck fehlt oder nicht. Alternativ kann bezüglich der in diesem Bild gezeigten oberen Körperhälfte bestimmt werden, ob die Geste (Bewegung) fehlt oder nicht. Es wird bestimmt, dass der Gesichtsausdruck fehlt, weil das Gesicht in diesem Bild gezeigt wird und der Gesichtsausdruck unverändert bleibt. Es wird bestimmt, dass die Geste fehlt, weil die obere Körperhälfte in diesem Bild gezeigt und kaum bewegt wird. Eine derartige Maßbestimmung ist ebenfalls möglich.
Das Fehlmaß des von der Videoanalyseeinheit 33 bestimmten Bilds wird zusammen mit dem übernommenen Bild des Benutzers 5 an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben.
Die Hilfsinformationserzeugungseinheit 34 schließt eine Bewegungsübernahmeeinheit 40, eine Gesichtsausdruckerkennungseinheit 41, eine Mundbereichserkennungseinheit 42 und eine Gestenerkennungseinheit 43 ein. Die Bewegungsübernahmeeinheit 40 übernimmt Bewegungsinformationen, die sich auf die Bewegung des Benutzers 5 beziehen, auf der Basis eines Erkennungsergebnisses der Sensoreinheit 15. Bei dieser Ausführungsform ist die Bewegungsübernahmeeinheit 40 in der Übernahmeeinheit eingeschlossen und die Bewegungsinformationen sind in den Eingangsinformationen eingeschlossen.
Die Gesichtsausdruckerkennungseinheit 41 erkennt den Gesichtsausdruck des Benutzers 5 und erzeugt Gesichtsausdruckinformationen auf der Basis des von der Videoübernahmeeinheit 32 ausgegebenen Bilds des Benutzers 5. Gefühle des Benutzers 5, zum Beispiel Lächeln, Ärger, Verstimmung und dergleichen, können auf der Basis der Gesichtsausdrucksinformationen erkannt werden. Die Gesichtsausdruckinformationen werden als Hilfsinformationen an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben. Es wird darauf hingewiesen, dass eine beliebige Gesichtsausdruckerkennungstechnologie unter Verwendung von Maschinenlernen und dergleichen verwendet werden kann.
Die Mundbereichserkennungseinheit 42 erkennt eine Bewegung des Munds des Benutzers auf der Basis des von der Videoübernahmeeinheit 32 ausgegebenen Bilds des Benutzers 5 und erzeugt vom Benutzer 5 geäußerte Wörter als Lippensynchronisationsinformationen (Lippensynchronisation). Die Lippensynchronisationsinformationen werden als Hilfsinformationen an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben. Es wird darauf hingewiesen, dass eine beliebige Erkennungstechnologie unter Verwendung von Maschinenlernen und dergleichen verwendet werden kann.
Die Gestenerkennungseinheit 43 erkennt die Geste des Benutzers 5 auf der Basis des von der Videoübernahmeeinheit 32 ausgegebenen Bilds des Benutzers 5 und der von der Bewegungsübernahmeeinheit 40 ausgegebenen Bewegungsinformationen. Zum Beispiel kann eine Kopfgeste, wie z. B. Nicken und Kopfschütteln, und eine Handgeste einschließlich Gebärdensprache und dergleichen erkannt werden. Derartige Gesteninformationen werden als Hilfsinformationen an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben. Es wird darauf hingewiesen, dass eine beliebige Erkennungstechnologie unter Verwendung von Maschinenlernen und dergleichen verwendet werden kann.
Die Textübernahmeeinheit 35 übernimmt über die Bedieneinheit 17, einschließlich der Tastatur, des Touchpanels und dergleichen, eingegebene Textinformationen (Phraseninformationen). Die übernommenen Textinformationen werden an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben. Es wird darauf hingewiesen, dass die Textinformationen nicht auf einen Fall beschränkt sind, in dem sie als Eingangsinformationen des Benutzers 5 verwendet werden, und die Textinformationen auch als die Hilfsinformationen verwendet werden können.
Die Datenanforderungsempfangseinheit 36 empfängt die Anforderungsinformationen hinsichtlich der Kommunikationsdaten D, die von der Kommunikationsendvorrichtung 10Y auf der Empfängerseite über das Netzwerk 1 gesendet werden. Bei dieser Ausführungsform schließen die Anforderungsinformationen die Anforderung bezüglich der Anzeige des in den Kommunikationsdaten D eingeschlossenen Bilds und die Anforderung bezüglich der Wiedergabe des Audios ein.
Die Anforderung bezüglich der Anzeige des Bilds betrifft das Anzeigemaß des Bilds des Benutzers 5 und schließt zum Beispiel das Vorhandensein/die Abwesenheit von Anzeige des Benutzers 5, anzuzeigende(n) Stelle (Bereich) und dergleichen ein. Zum Beispiel kann die Anforderung zu verschiedenen Anzeigemaßen durchgeführt werden, zum Beispiel Einbeziehung des gesamten Körpers, der oberen Körperhälfte, der unteren Körperhälfte, des Gesichts, der Augen, des Mundbereichs, Einbeziehung wenigstens der oberen Körperhälfte, Einbeziehung wenigstens der unteren Körperhälfte, Einbeziehung wenigstens des Gesichts und Einbeziehung wenigstens der Augen und des Mundbereichs. Selbstverständlich ist die Anweisung, die angibt, dass das Bild des Benutzers 5 nicht erforderlich ist, auch in der Anforderung bezüglich der Anzeige des Bilds eingeschlossen. Ansonsten ist eine beliebige Anforderung bezüglich des Bilds des Benutzers 5 eingeschlossen.
Die Anforderung bezüglich der Wiedergabe des Audios betrifft zum Beispiel das Wiedergabemaß des Audios des Benutzers 5. Anfordern zu verschiedenen Wiedergabemaßen, zum Beispiel, des Audios des normalen Gesprächs, d. h. das Audio, in dem der Inhalt des geäußerten Satzes und die Intonation (Geschwindigkeit, Tonhöhe, Lautstärke, Intonation und dergleichen) nicht fehlen, des Audios, in dem wenigstens der Inhalt des geäußerten Satzes verstanden werden kann, des Audios, in dem wenigstens die Rückkanäle verstanden werden können, und dergleichen, kann durchgeführt werden. Selbstverständlich ist die Anweisung, die angibt, dass das Audio nicht erforderlich ist, auch in der Anforderung bezüglich der Wiedergabe des Audios eingeschlossen. Ansonsten ist eine beliebige Anforderung bezüglich des Audios des Benutzers 5 eingeschlossen.
Ferner schließen die Anforderungsinformationen die Zuverlässigkeit bezüglich des in den Kommunikationsdaten D eingeschlossenen Bilds und die Zuverlässigkeit bezüglich des Audios ein. Die Zuverlässigkeit wird später beschrieben. Die von der Datenanforderungsempfangseinheit 36 empfangenen Anforderungsinformationen werden an die Kommunikationsdatenerzeugungseinheit 37 ausgegeben.
Bei dieser Ausführungsform wird die Anforderungsinformationsausgabeeinheit mit wenigstens einer der Datenanforderungsempfangseinheit 36 oder einer Datenanforderungseinheit 50, die später beschrieben werden soll, realisiert. Die Anforderungsinformationsausgabeeinheit ist in der Lage, die aktualisierten Anforderungsinformationen an die Kommunikationsdatenerzeugungseinheit 37 auszugeben. Nur die Datenanforderungsempfangseinheit 36 auf der Senderseite oder nur die Datenanforderungseinheit 50 auf der Empfängerseite kann als Anforderungsinformationsausgabeeinheit fungieren. Alternativ kann die Anforderungsinformationsausgabeeinheit durch Kooperation der Datenanforderungsempfangseinheit 36 auf der Senderseite und der Datenanforderungseinheit 50 auf der Empfängerseite realisiert werden. Es wird darauf hingewiesen, dass Aktualisieren der Anforderungsinformationen später beschrieben wird.
Es wird darauf hingewiesen, dass bei dieser Ausführungsform Umgebungsinformationen einschließlich des Standorts des Benutzers 5, der Zeit, der Spezifikationen der Kommunikationsendvorrichtung 10, der Zustände des Benutzers 5 und der Kommunikationsendvorrichtung 10 und dergleichen, die von der Umgebungsinformationsübernahmeeinheit erzeugt werden, die nicht abgebildet ist, an die Kommunikationsendvorrichtung 10Y auf der Senderseite über die Datenanforderungsempfangseinheit 36 gesendet werden.
Die Kommunikationsdatenerzeugungseinheit 37 erzeugt Kommunikationsdaten D des Benutzers 5 auf der Basis der von den jeweiligen Blöcken empfangenen Daten und dergleichen. Typischerweise werden die Kommunikationsdaten D erzeugt, um die Anforderung bezüglich der Anzeige des Bilds und die Anforderung bezüglich der Wiedergabe des Audios zu erfüllen, die in den von der Kommunikationsendvorrichtung 10Y auf der Empfängerseite empfangenen Anforderungsinformationen eingeschlossen sind. Andererseits werden in einem Fall, in dem die Anforderung nicht erfüllt werden kann, zum Beispiel, die Kommunikationsdaten D nahe eines Anforderungsmaßes davon erzeugt. Bei dieser Ausführungsform fungiert die Kommunikationsdatenerzeugungseinheit 37 als das Erzeugungssteuergerät.
Wie in 3 gezeigt, schließt die Kommunikationsdatenerzeugungseinheit 37 eine Audiosyntheseeinheit 44, eine Videosyntheseeinheit 45 und eine Zuverlässigkeitsberechnungseinheit 46 ein.
Die Audiosyntheseeinheit 44 erzeugt in den Kommunikationsdaten D eingeschlossenes Audio des Benutzers 5 auf der Basis des von der Audioanalyseeinheit 31 ausgegebenen Audios des Benutzers 5, des Fehlmaßes des Audios und der von der Datenanforderungsempfangseinheit 36 ausgegebenen Anforderung bezüglich der Wiedergabe des Audios. Zu diesem Zeitpunkt wird das Bild des Benutzers 5 bei Bedarf unter Verwendung der Hilfsinformationen ergänzt, die von der Hilfsinformationserzeugungseinheit 34 und dergleichen ausgegeben werden.
Zum Beispiel wird in einem Fall, in dem das Fehlmaß des übernommenen Audios des Benutzers 5 niedrig ist und ein angefordertes Wiedergabemaß des Audios erfüllt ist, das übernommene Audio des Benutzers 5 unverändert als die Kommunikationsdaten D erzeugt. Dies trifft zum Beispiel auf ein Audio zu, bei dem der Inhalt des geäußerten Satzes verstanden werden kann, die Intonation aber fehlt, wenn Audio wenigstens mit verstehbarem Inhalt des geäußerten Satzes angefordert wurde, etc.
Anderenfalls wird in einem Fall, in dem das Fehlmaß des übernommenen Audios des Benutzers 5 hoch ist und ein angefordertes Wiedergabemaß des Audios nicht erfüllt ist, das Audio des Benutzers 5 auf der Basis der Hilfsinformationen ergänzt.
5 ist eine Tabelle, die ein Beispiel eines Bereichs zeigt, der auf der Basis von Hilfsinformationen ergänzt werden kann. Zum Beispiel kann ein Gefühl des Benutzers 5 auf der Basis der Gesichtsausdrucksinformationen erkannt werden. Daher ist die Intonation des Audios bis zu einem gewissen Grad ergänzbar. Ist ein Benutzer zum Beispiel verärgert, so werden die Geschwindigkeit und Tonhöhe seiner Sprache erhöht und die Intonation wird verstärkt. Bei Traurigkeit werden zum Beispiel die Geschwindigkeit, die Tonhöhe und die Lautstärke erhöht. Andererseits ist es schwierig, den Inhalt des geäußerten Satzes auf der Basis des erkannten Gefühls zu ergänzen, und die Rückkanäle sind in einigen Fällen ergänzbar.
Der Inhalt des geäußerten Satzes einschließlich der Rückkanäle kann auf der Basis der Lippensynchronisationsinformationen ausreichend ergänzt werden. Ferner ist es auch möglich, die Geschwindigkeit und dergleichen zu lesen, und die Intonation ist in einigen Fällen ergänzbar.
Die Rückkanäle können auf der Basis der Gesteninformationen ausreichend ergänzt werden. Die Intonation und der Inhalt des geäußerten Satzes sind in einigen Fällen ergänzbar. Es wird darauf hingewiesen, dass in einem Fall, in dem Gebärdensprache verwendet wird, der Inhalt des geäußerten Satzes ebenfalls ausreichend ergänzt werden kann.
Der Inhalt des geäußerten Satzes einschließlich der Rückkanäle kann auf der Basis der Textinformationen im Wesentlichen vollständig ergänzt werden. Die Intonation kann in einigen Fällen ergänzt werden. Durch Verwenden von Informationen über einen Tastendruck und dergleichen als Hilfsinformationen kann eine Ergänzungsrate erhöht werden.
Die Audiosyntheseeinheit 44 ergänzt das Eingangsaudio des Benutzers 5 auf der Basis verschiedener Arten von Hilfsinformationen. Typischerweise werden die ergänzten Audiodaten unter Verwendung einer beliebigen Audiosynthesetechnologie synthetisiert. Unter dieser Konfiguration können zum Beispiel Audio, dem die Intonation hinzugefügt wird, und Audio, das durch den Inhalt des geäußerten Satzes ausgedrückt wird, als die Kommunikationsdaten D erzeugt werden. Es wird darauf hingewiesen, dass die Audiodatensynthese nicht eingeschränkt ist und ein beliebiges Ergänzungsverfahren ausgeführt werden kann.
Die Videosyntheseeinheit 45 erzeugt ein in den Kommunikationsdaten D eingeschlossenes Bild des Benutzers 5 auf der Basis des Bilds des Benutzers 5 und des Fehlmaßes des Bilds gemäß Ausgabe von der Videoanalyseeinheit 33 und der von der Datenanforderungsempfangseinheit 36 ausgegebenen Anforderung bezüglich der Anzeige des Bilds. Bei Bedarf wird das Bild des Benutzers 5 durch Verwenden der Hilfsinformationen ergänzt, die von der Hilfsinformationserzeugungseinheit 34 und dergleichen ausgegeben werden.
Zum Beispiel wird in einem Fall, in dem das Fehlmaß des übernommenen Bilds des Benutzers 5 niedrig ist und ein angefordertes Anzeigemaß des Bilds erfüllt ist, das übernommene Bild des Benutzers 5 unverändert als die Kommunikationsdaten D erzeugt. Dies ist zum Beispiel dann der Fall, wenn hinsichtlich des Bilds, in dem die untere Körperhälfte fehlt, Anzeige des Bilds mit wenigstens dem Gesicht angefordert wird, oder dergleichen.
In einem Fall, in dem das Fehlmaß des übernommenen Bilds des Benutzers 5 hoch ist und ein angefordertes Anzeigemaß des Bilds nicht erfüllt ist, wird das Bild des Benutzers 5 auf der Basis der Hilfsinformationen ergänzt. Zum Beispiel wird ein fehlender Abschnitt durch Kombinieren eines Bilds des im Voraus registrierten Benutzers 5 ergänzt. Alternativ können ein 3D-Modell (Avatar) eines menschlichen Körpers und dergleichen kombiniert werden.
In einem Fall, in dem der gesamte Körper oder ein Teil des Körpers fehlt und ein fehlender Abschnitt davon ergänzt werden soll, werden die Bewegungsinformationen, die Gesteninformationen und dergleichen zweckgemäß verwendet. Ferner kann zum Beispiel in einem Fall, in dem das gesamte Gesicht oder ein Teil des Gesichts fehlt und das Bild des Gesichts ergänzt werden soll, ein Ergebnis der Textinformationen und der Audiodaten (einschließlich der ergänzten Audiodaten) verwendet werden, und der Gesichtsausdruck, die Mundbewegung und dergleichen können synthetisiert werden. In einem Fall, in dem die obere Körperhälfte ergänzt werden soll, kann auch die Geste synthetisiert werden. Die Synthese aus Gesichtsausdruck und Geste wird auch in einem Fall durchgeführt, in dem der fehlende Gesichtsausdruck und die fehlende Geste ergänzt werden sollen.
Die Zuverlässigkeitsberechnungseinheit 46 analysiert und berechnet die Zuverlässigkeit der Kommunikationsdaten D (Zuverlässigkeit der Ausgangsinformationen). Das heißt, die Zuverlässigkeit bezüglich jedes einzelnen in den Kommunikationsdaten D eingeschlossenen Bilds und Audios wird berechnet. Bei dieser Ausführungsform entspricht die Zuverlässigkeitsberechnungseinheit 46 einer Berechnungseinheit.
Bei dieser Ausführungsform wird die Zuverlässigkeit als Hinweis (Parameter) erzeugt, der die Abweichung vom Eingangsbild und -audio (nachfolgend als Originaldaten bezeichnet) des Benutzers 5 ausdrückt. In einem Fall, in dem zum Beispiel die von der Audioübernahmeeinheit 30 erhaltenen Originaldaten nicht verarbeitet und als die Kommunikationsdaten D verwendet werden, beträgt die Zuverlässigkeit 100 %. In einem Fall, in dem die Ergänzung auf der Basis der Hilfsinformationen durchgeführt wird, beträgt die Zuverlässigkeit 100 % oder weniger.
Zum Beispiel wird die Zuverlässigkeit auf der Basis des Fehlmaßes der Originaldaten, des fehlenden Inhalts, der Erkennungsgenauigkeit jedes Teils der Hilfsinformationen, der in 5 gezeigten Ergänzungsmöglichkeit (Ergänzungsrate), der Konsistenz der vorherigen und folgenden Phrasen des erzeugten Audios und dergleichen berechnet. Zum Beispiel wird davon ausgegangen, dass das Audio mit dem Inhalt des geäußerten Satzes und der Intonation als das Wiedergabemaß des Audios angefordert wird. Wenn das Fehlmaß der Originaldaten einem Maß entspricht, zu dem der Inhalt des geäußerten Satzes verstanden werden kann, während die Intonation fehlt, wird die Zuverlässigkeit des ergänzten Audios als relativ hoch berechnet. Andererseits wird bei einem Fehlmaß, bei dem nur die Rückkanäle verstanden werden können, die Zuverlässigkeit des Audios als niedrig berechnet.
Ferner wird unter Bezugnahme auf 5 in einem Fall, in dem die Intonation ergänzt wird, die Zuverlässigkeit der Ergänzung basierend auf den Gesichtsausdruckinformationen als relativ hoch berechnet. Die Zuverlässigkeit der Ergänzung basierend auf den Lippensynchronisationsinformationen, den Gesteninformationen und den Textinformationen wird als relativ niedrig berechnet.
In einem Fall, in dem der Inhalt des geäußerten Satzes ergänzt wird, ist die Zuverlässigkeit der Ergänzung basierend auf den Lippensynchronisationsinformationen und den Textinformationen sehr hoch. Die Zuverlässigkeit der Ergänzung basierend auf den Gesichtsausdruckinformationen ist im Wesentlichen Null. In einem Fall, in dem die Gesteninformationen verwendet werden, ist die Zuverlässigkeit in einem Fall der Gebärdensprache sehr hoch und in anderen Fällen ist die Zuverlässigkeit niedrig.
Im Fall einer Ergänzung der Rückkanäle ist die Zuverlässigkeit sehr hoch, wenn die Lippensynchronisationsinformationen, die Gesteninformationen und die Textinformationen verwendet werden. In einem Fall, in dem die Gesichtsausdruckinformationen verwendet werden, ist die Zuverlässigkeit niedrig. Das heißt, die Ergänzungsmöglichkeit (Ergänzungsrate) und die Zuverlässigkeit korrelieren im Wesentlichen miteinander. Durch Festlegen einer Gewichtung entsprechend der Ergänzungsmöglichkeit hinsichtlich jedes Teils der Hilfsinformationen kann die Zuverlässigkeit gemäß Ergänzung basierend auf mehreren Teilen von Hilfsinformationen berechnet werden.
Auch hinsichtlich des Bilds beträgt die Zuverlässigkeit in einem Fall, in dem die von der Videoübernahmeeinheit 32 erhaltenen Originaldaten nicht verarbeitet und als die Kommunikationsdaten D verwendet werden, 100 %. In einem Fall, in dem die Ergänzung auf der Basis der Hilfsinformationen durchgeführt wird, beträgt die Zuverlässigkeit 100 % oder weniger.
Zum Beispiel wird die Zuverlässigkeit auf der Basis des Fehlmaßes der Originaldaten, der fehlenden Stelle und Größe, der Erkennungsgenauigkeit jedes Teils der Hilfsinformationen und dergleichen berechnet. Unter Bezugnahme auf 4 wird zum Beispiel angenommen, dass das Bild des gesamten Körpers als das Anzeigemaß des Bilds angefordert wird (A von 4). In einem Fall, in dem Ergänzung auf der Basis des Bilds des Fehlmaßes in B bis D von 4 ausgeführt wird, nimmt die Zuverlässigkeit von Bild B zu Bild D hin ab.
Ferner ist die Zuverlässigkeit in einem Fall, in dem Ergänzung des Gesichts durchgeführt wird, niedriger als die Zuverlässigkeit in einem Fall, in dem Ergänzung der anderen Stellen durchgeführt wird. Dies liegt daran, dass die Abweichung von den ursprünglichen Daten in einem Fall, in dem das Gesicht ergänzt wird, leichter erkannt wird. Durch Festlegen von Gewichtung bezüglich der fehlenden Stelle (Stelle, die ein zu ergänzendes Ziel ist) kann zum Beispiel die Zuverlässigkeit in einem Fall, in dem mehrere Stellen ergänzt werden, berechnet werden. Ferner können Helligkeit (Luminanz), Farbton und dergleichen des zu erzeugenden Bilds zur Berechnung der Zuverlässigkeit verwendet werden.
Das Berechnungsverfahren für die Zuverlässigkeit der Kommunikationsdaten D ist nicht auf das oben erwähnte beschränkt und kann beliebig festgelegt werden. Ein auf einem beliebigen Parameter basierendes Berechnungsverfahren, wie z. B. das Fehlmaß der Originaldaten, jedes in den Anforderungsinformationen eingeschlossene Anforderungsmaß und ein spezifisches Verfahren zur Ergänzungsverarbeitung des Audios und des Bilds kann angewendet werden.
Die Datenkompressionseinheit 38 komprimiert Übertragungsdaten einschließlich der Kommunikationsdaten D und die Zuverlässigkeit davon. Die Datenübertragungseinheit 39 sendet die komprimierten Übertragungsdaten über die in 2 gezeigte Kommunikationseinheit 20 an die Kommunikationsendvorrichtung 10Y auf der Empfängerseite. Die Zuverlässigkeitssendeeinheit gemäß dieser Ausführungsform wird durch die Datenkompressionseinheit 38 und die Datensendeeinheit 39 realisiert.
Es wird darauf hingewiesen, dass in einem Fall, in dem die Kommunikationsdaten D, die jeder in den Anforderungsinformationen eingeschlossenen Anforderung entsprechen, nicht erzeugt werden können, in einem Fall, in dem die Zuverlässigkeit als sehr niedrig berechnet wird oder dergleichen, der Benutzer 5 über diese Tatsache informiert werden kann. Dann kann der Benutzer 5 über eine Anweisung zum Bewirken, dass die Bildaufnahme und die Audioeingabe korrekt durchgeführt werden, über eine Anweisung zum Eingeben der Hilfsinformationen und dergleichen über eine GUI oder Ton informiert werden.
Die Kommunikationsendvorrichtung 10Y auf der Empfängerseite schließt die Datenanforderungseinheit 50, eine Datenempfangseinheit 51 und eine Datendekompressionseinheit 52 ein. Die Datenempfangseinheit 51 empfängt die Kommunikationsdaten D komprimiert und gesendet von der Kommunikationsendvorrichtung 10X auf der Senderseite. Die Datendekompressionseinheit 52 dekomprimiert die komprimierten Kommunikationsdaten D. Es kann ein beliebiges Datenübertragungsprotokoll oder ein beliebiger Video-/Audiodecoder verwendet werden.
Die Datenanforderungseinheit 50 erzeugt auf die Kommunikationsdaten D bezogene Anforderungsinformationen und sendet diese über die Kommunikationseinheit 20 an die Kommunikationsendvorrichtung 10X auf der Senderseite.
Wie oben beschrieben, schließen die Anforderungsinformationen die Zuverlässigkeit bezüglich des Bilds und die Zuverlässigkeit bezüglich des Audios, die in den Kommunikationsdaten D enthalten sind, ein. Zum Beispiel werden der Inhalt des Anzeigemaßes des Bildes und die Zuverlässigkeit davon sowie der Inhalt des Wiedergabemaßes des Audios und die Zuverlässigkeit davon als Anforderungsinformationen erzeugt. Zum Beispiel kann eine Anforderung zum Bereitstellen des Bilds der oberen Körperhälfte mit der Zuverlässigkeit von 80 % oder zum Bereitstellen des Audios mit der Intonation mit der Zuverlässigkeit von 80 % gesendet werden. Selbstverständlich kann auf die Zuverlässigkeit verzichtet werden.
Die Anforderungsinformationen werden typischerweise auf der Basis der vom Benutzer 5 auf der Empfängerseite eingegebenen Anweisung erzeugt. Zum Beispiel können GUIs und dergleichen zum Eingeben des Anzeigemaßes des Bildes und des Wiedergabemaßes des Audios auf der Anzeigeeinheit 16 zweckgemäß angezeigt werden.
Bei dieser Ausführungsform werden Umgebungsinformationen einschließlich des Standorts des Benutzers, der Zeit, der Spezifikationen der Kommunikationsendvorrichtung, der Zustände des Benutzers und der Kommunikationsendvorrichtung 10 und dergleichen von der Datenanforderungsempfangseinheit 36 auf der Senderseite an die Datenanforderungseinheit 50 auf der Empfängerseite gesendet. Unter Bezugnahme auf die gesendeten Umgebungsinformationen, wie jeweils anwendbar, können die Anforderungsinformationen erzeugt werden.+
6 ist eine Tabelle zum Beschreiben der Relevanz der Umgebungsinformationen für ein erzeugbares Maß der Kommunikationsdaten D. Wie in 6 gezeigt, kann zum Beispiel ein erzeugbares Maß (erzeugbarer Bereich) der Kommunikationsdaten D gemäß eines Standorts des Benutzers auf der Senderseite, einer Zeitzone, einer Stelle, an der sich die Kommunikationsendvorrichtung 10 befindet, und dergleichen geschätzt werden. Das heißt, ein anzeigbares Maß des Bilds des Benutzers 5 und das reproduzierbare Maß des Audios des Benutzers 5 können geschätzt werden. Es wird darauf hingewiesen, dass das erzeugbare Maß in der Figur als „Zulässiger Darstellungsbereich“ beschrieben ist.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 auf einem Schreibtisch in einem Haus platziert ist, ist es einfach, Bilder des Gesichts und der oberen Körperhälfte zu übernehmen und die Bilder ungeachtet der Zeitzone als die Kommunikationsdaten D zu senden. Je nach Position der Kommunikationsendvorrichtung 10 können beim Übernehmen eines Bilds der unteren Körperhälfte Probleme auftreten. Hinsichtlich des Audios ist es möglich, frei zu sprechen. Daher kann das Audio vollständig, einschließlich der Intonation, des geäußerten Satzes und der Rückkanäle, korrekt übernommen und problemlos als die Kommunikationsdaten D gesendet werden.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 während einer Konferenz an einer Wand oder auf einem Schreibtisch eines Konferenzraums platziert ist, sind die Bilder der oberen Körperhälfte und des Gesichts ausreichend in Ordnung, und das Bild der unteren Körperhälfte kann ungeachtet der Zeit nicht im Wesentlichen bereitgestellt werden. Hinsichtlich des Audios sind die Intonation, der geäußerte Satz und die Rückkanäle alle in Ordnung.
In einem Fall des Einsteigens in den Zug und Haltens der Kommunikationsendvorrichtung 10 in der Hand gibt es nur einen Fall, in dem die Bilder der oberen Körperhälfte und des Gesichts aufgenommen werden können, und das Bild der unteren Körperhälfte nicht im Wesentlichen bereitgestellt werden kann. Hinsichtlich des Audios ist es schwierig zu sprechen. Daher sind die Intonation, der geäußerte Satz und die Rückkanäle alle nicht möglich.
In einem Fall des Einsteigens in ein Auto und Platzierens der Kommunikationsendvorrichtung 10 auf eine Haube oder Mittelkonsole, wenn die Zeitzone Tageszeit ist, ist das Bild des Gesichts in Ordnung, das Bild der oberen Körperhälfte ist in einigen Fällen in Ordnung, und das Bild der unteren Körperhälfte ist unmöglich. Hinsichtlich des Audios ist es möglich, frei zu sprechen. Daher sind die Intonation, der geäußerte Satz und die Rückkanäle alle in Ordnung. Wenn die Zeitzone Nachtzeit ist, sind die Bilder alle unmöglich, weil es dunkel ist.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 auf einem Pult (Tisch) in einem Flugzeug platziert ist, ist das Bild des Gesichts in Ordnung, das Bild der oberen Körperhälfte ist in einigen Fällen in Ordnung, und das Bild der unteren Körperhälfte ist unmöglich. Hinsichtlich des Audios ist es nur möglich, mit leiser Stimme zu sprechen, und außerdem werden Stimmen anderer Passagiere sowie Motorgeräusche und dergleichen hinzugemischt. Daher sind die Rückkanäle in Ordnung, aber die Intonation und der Inhalt des geäußerten Satzes sind in einigen Fällen schwierig.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 auf einem Schreibtisch in einer Bibliothek platziert ist, sind die Bilder des Gesichts und der oberen Körperhälfte in Ordnung, und das Bild der unteren Körperhälfte ist in einigen Fällen in Ordnung. Hinsichtlich des Audios, wird davon ausgegangen, dass die Rückkanäle und der geäußerte Satz in Ordnung sind, wenn es möglich ist, mit leiser Stimme zu sprechen, aber die Intonation ist schwierig.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 bei einer Veranstaltung, wie z. B. einem Konzert, in der Hand gehalten wird, ist das Bild des Gesichts in Ordnung, das Bild der oberen Körperhälfte ist in einigen Fällen in Ordnung, und das Bild der unteren Körperhälfte ist unmöglich. Was das Audio angeht, sind bei lautem Sprechen die Intonation und der geäußerte Satz in Ordnung, und Stimmen auf der Ebene der Rückkanäle werden in einigen Fällen übertönt.
In einem Fall, in dem die Kommunikationsendvorrichtung 10 auf einem Tisch in einem Restaurant platziert ist, sind die Bilder des Gesichts und der oberen Körperhälfte in Ordnung, und das Bild der unteren Körperhälfte ist unmöglich. Ferner sind die Rückkanäle und der geäußerte Satz in Ordnung, und die Intonation ist unmöglich. In einem Fall, in dem die Kommunikationsendvorrichtung 10 in der Hand während Tauchens unter Wasser verwendet wird, sind Bilder nur geringfügig schwierig, und alle Arten von Audio sind unmöglich.
Selbstverständlich ist ein Realisierungsbereich des erzeugbaren Maßes hinsichtlich der Umgebungsinformationen nicht auf den in der Tabelle in 6 gezeigten beschränkt und kann zweckgemäß festgelegt werden. Zum Beispiel kann ein realisierbarer Bereich eines bildanzeigbaren Maßes und eines audioreproduzierbaren Maßes auf der Basis genauerer Informationen, einschließlich der Spezifikationen der Kommunikationsendvorrichtung 10 und einer Sitzposition an jedem Standort und dergleichen, näher definiert werden. Ferner kann der Benutzer das erzeugbare Maß zweckgemäß anpassen. Darüber hinaus ist das „Maß“ nicht auf solche beschränkt, die schrittweise mit numerischen Werten, wie z. B. 1 und 2, definiert sind. Das „Maß“ kann zum Beispiel mit abstrakten Graden, wie z. B. ausreichend/unzureichend, definiert werden. Bei der vorliegenden Offenbarung genügt es, dass die Definition des „Maßes“ willkürlich ist, und das Gleiche gilt für das oben erwähnte Fehlmaß.
In jedem Fall können unter Bezugnahme auf die Umgebungsinformationen auf der Senderseite das erzeugbare Maß geschätzt und die Anforderungsinformationen korrekt erzeugt (und aktualisiert) werden. Zum Beispiel wird der Benutzer 5 über eine Benutzeroberfläche und dergleichen über die Informationen hinsichtlich des geschätzten erzeugbaren Maßes unterrichtet. Der Benutzer 5 fordert die Kommunikationsdaten D in dem vom Kommunikationspartner erzeugbaren Bereich an. Selbstverständlich ist es auch möglich, die Kommunikationsdaten D hartnäckig zu dem als nicht erzeugbar geschätzten Maß anzufordern. Ferner können auf der Basis des geschätzten erzeugbaren Maßes automatisch optimale Anforderungsinformationen erzeugt werden.
Die Schätzung kann zusammen mit der Zuverlässigkeit auf der Basis der Umgebungsinformationen erfolgen. Nehmen wir an, der Kommunikationspartner befindet sich gerade in einem Flugzeug. Daher können Informationen, die angeben, dass das Bild des Gesichts mit einer Zuverlässigkeit von 90 %, das Bild der oberen Körperhälfte mit einer Zuverlässigkeit von 50 % und das Bild der unteren Körperhälfte mit einer Zuverlässigkeit von 10 % erzeugbar ist, geschätzt werden. Unter dieser Konfiguration ist es möglich, korrekte Anforderungsinformationen genau zu erzeugen.
Es wird darauf hingewiesen, dass das erzeugbare Maß der Kommunikationsdaten D und die Zuverlässigkeit davon durch eine Schätzeinheit (nicht gezeigt) der Kommunikationsendvorrichtung 10X auf der Senderseite auf der Basis der Umgebungsinformationen geschätzt werden kann. Dann kann das Schätzergebnis von der Kommunikationseinheit 20, die als Maßsendeeinheit fungiert, an die Kommunikationsendvorrichtung 10Y auf der Empfängerseite gesendet werden. Das heißt, die auf den Umgebungsinformationen basierende Schätzverarbeitung kann entweder auf der Empfängerseite oder auf der Senderseite durchgeführt werden. In beiden Fällen können korrekte Anforderungsinformationen genau erzeugbar sein.
[Fernkommunikationsverfahren]
7 ist ein Ablaufdiagramm , das ein Beispiel eines Verarbeitungsablaufs bei jeder der Kommunikationsendvorrichtungen 10X und 10Y zum Realisieren der Fernkommunikation gemäß der vorliegenden Technologie zeigt. Bei der Kommunikationsendvorrichtung 10X auf der Senderseite werden die Schritte von Schritten 101a bis 101b für jeden der Frames, die das Video bilden, wiederholt ausgeführt. Bei der Kommunikationsendvorrichtung 10Y auf der Empfängerseite werden die Schritte von Schritten 201a bis 201b für jeden der Frames wiederholt ausgeführt. Es wird darauf hingewiesen, dass die Verarbeitung wiederholt wird, bis die gegenseitige Verbindung zwischen den jeweiligen Kommunikationsendvorrichtungen 10X und 10Y getrennt wird.
Bei dieser Ausführungsform wird unter Verwendung der Kommunikationsendvorrichtung 10, die jedem Benutzer 5 gehört, die Anwendung für diese Fernkommunikation gestartet. Zum Beispiel werden Informationen (Symbole und dergleichen) bezüglich anderer Benutzer 5, mit denen kommuniziert werden kann, in einer Liste angezeigt, und die Kommunikation beginnt durch Auswählen eines Kommunikationspartners in dieser Liste. Selbstverständlich ist der Prozess des Fernkommunikationsstarts nicht eingeschränkt, und es kann ein beliebiges Verfahren angewendet werden.
8 bis 11 sind schematische Ansichten, die ein spezifisches Beispiel von Fernkommunikation zeigen. In diesen Figuren wird Fernkommunikation zwischen dem Benutzer 5b, der hauptsächlich außerhalb eines Büros arbeitet, und seinem Geschäftspartner, Benutzer 5a, beispielhaft gezeigt. Unter der Annahme, dass der Benutzer 5b, der außerhalb des Büros arbeitet, sich auf der Senderseite und sein Geschäftspartner, Benutzer 5a, sich auf der Empfängerseite befindet, wird das Ablaufdiagramm von 7 wie jeweils angemessen unter Bezugnahme auf die 8 bis 11 beschrieben.
Zunächst werden Umgebungsinformationen von der Kommunikationsendvorrichtung 10b auf der Senderseite an die Kommunikationsendvorrichtung 10a auf der Empfängerseite gesendet (Schritt 102). Im in 8 gezeigten Beispiel werden die folgenden Umgebungsinformationen als Informationen in einem Ausgangszustand gesendet. Ort...Cafe
Zeit... morgens
Spezifikationen der Kommunikationsendvorrichtung... Laptop-PC
Zustand des Benutzers... sitzend
Zustand der Kommunikationsendvorrichtung...auf Tisch platziert
Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a erzeugt, die die Umgebungsinformationen empfangen hat. Das heißt, Anforderungsinformationen mit einem Anzeigemaß des Bilds und einer Zuverlässigkeit davon sowie einem Wiedergabemaß des Audios und einer Zuverlässigkeit davon werden erzeugt (Schritt 202). Die erzeugten Anforderungsinformationen werden an die Kommunikationsendvorrichtung 10b auf der Senderseite gesendet (Schritt 203). Im in 8 gezeigten Beispiel wird eine Anforderung des Bilds (Zuverlässigkeit: 100 %) der oberen Körperhälfte (einschließlich des Gesichts) und des Audios (Zuverlässigkeit: 100 %) mit der Intonation erzeugt und als erste Anforderungsinformationen gesendet.
An der Kommunikationsendvorrichtung 10b auf der Senderseite werden das Bild und das Audio des Benutzers 5b sowie die verschiedenen Arten von Hilfsinformationen übernommen (Schritt 103). Dann werden die Kommunikationsdaten D gemäß den Anforderungsinformationen erzeugt und zusätzlich wird die Zuverlässigkeit der Kommunikationsdaten D berechnet (Schritte 104 und 105). Die erzeugten Kommunikationsdaten D werden mit der Zuverlässigkeit komprimiert und an die Kommunikationsendvorrichtung 10a auf der Empfängerseite gesendet (Schritte 106 und 107).
In dem in 8 gezeigten Beispiel kann ein Bild der oberen Körperhälfte des Benutzers 5b ausreichend aufgenommen werden und die Kommunikationsdaten D des Bilds (Zuverlässigkeit: 100 %) der oberen Körperhälfte (einschließlich des Gesichts) sind wie angefordert erzeugbar. Andererseits will der Benutzer 5b nicht so laut sprechen, dass er Umgebungsgeräusche und dergleichen im Cafe übertönt. Hinsichtlich des Audios erzeugt die Kommunikationsendvorrichtung 10b daher Audio (Zuverlässigkeit: 70 %), wobei Intonation auf der Basis der Hilfsinformationen und dergleichen ergänzt wird.
Die Kommunikationsendvorrichtung 10a auf der Empfängerseite dekomprimiert die empfangenen komprimierten Daten und reproduziert die Kommunikationsdaten D bezüglich des Benutzers 5b (Schritte 204, 205 und 206). Das heißt, das Bild der oberen Körperhälfte des Benutzers 5b (einschließlich des Gesichts) wird auf der Anzeigeeinheit 16 angezeigt und das Audio des Benutzers 5b mit Intonation wird über den Lautsprecher ausgegeben. Es wird darauf hingewiesen, dass der Benutzer 5a über eine Benutzeroberfläche und dergleichen über die Zuverlässigkeit von 100 % des Bilds und die Zuverlässigkeit von 70 % des Audios unterrichtet wird.
Zurückkehrend zu Schritt 102 werden die Umgebungsinformationen gesendet. Es wird darauf hingewiesen, dass in einem Fall, in dem sich der Standort des Benutzers 5b und dergleichen nicht ändert, die gleichen Umgebungsinformationen von der Kommunikationsendvorrichtung 10b erzeugt werden. In diesem Fall kann der Sendeschritt der Umgebungsinformationen entfallen. Im in 8 gezeigten Beispiel wird angenommen, dass sich der Benutzer 5b in der gleichen Umgebung befindet.
In Schritt 202 werden die Anforderungsinformationen aktualisiert. Zum Beispiel werden die Anforderungsinformationen auf der Basis des Inhalts der aktuell angeforderten Anforderungsinformationen, des Inhalts der in einem oder mehreren früheren Frames gesendeten Kommunikationsdaten D und die Zuverlässigkeit davon aktualisiert. Zum Beispiel wird diese Aktualisierung auf der Basis einer Anweisung oder dergleichen des kommunizierenden Benutzers 5a ausgeführt. Selbstverständlich kann die Aktualisierung automatisch ausgeführt werden.
Im in 8 gezeigten Beispiel empfindet der Benutzer 5a das Audio mit Intonation mit der Zuverlässigkeit von 70 % nicht besonders unbehaglich. Daher werden die Anforderungsinformationen hinsichtlich des Audios vom Audio (Zuverlässigkeit: 100 %) mit der Intonation zum Audio (Zuverlässigkeit: 70 %) mit Intonation aktualisiert. Auf diese Weise werden die Anforderungsinformationen sukzessive gemäß dem Zustand und der Situation auf der Senderseite und der Beurteilung auf der Empfängerseite aktualisiert. Als ein Ergebnis wird gefällige Kommunikation mit sehr hoher Qualität realisiert.
Es wird darauf hingewiesen, dass die Schritte 201, 103 bis 107 und 204 bis 206 den vorherigen Schritten zum Zeitpunkt des Sendens der Kommunikationsdaten D, nachdem die aktualisierten Anforderungsinformationen gesendet wurden, ähnlich sind. Nachfolgend wird in einigen Fällen auf Beschreibungen von Schritten, die mit dem gleichen Verarbeitungsinhalt wiederholt werden, verzichtet.
Nun wird angenommen, dass der Benutzer 5b auf der Senderseite das Cafe unter Umschalten der Kommunikationsendvorrichtung 10b auf das Smartphone verlassen hat. Das Verfahren zum Umschalten der Kommunikationsendvorrichtung 10b ist nicht eingeschränkt, und ein beliebiges Verfahren kann verwendet werden.
Umgebungsinformationen werden von der Kommunikationsendvorrichtung 10b erzeugt, die von dem Benutzer 5b getragen wird, der das Cafe verlassen hat, und an die Kommunikationsendvorrichtung 10a auf der Empfängerseite gesendet (Schritt 102). Im in 9 gezeigten Beispiel werden die folgenden Umgebungsinformationen als Informationen bezüglich des aktualisierten Zustands und der aktualisierten Situation gesendet.
Ort... im Freien (es werden keine besonderen Orte erkannt)
Zeit... nachmittags
Spezifikationen der Kommunikationsendvorrichtung... Smartphone
Zustand des Benutzers... stehend
Zustand der Kommunikationsendvorrichtung...in der Hand gehalten
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a, die die aktualisierten Umgebungsinformationen empfangen hat, aktualisiert (Schritt 202). Im in 9 gezeigten Beispiel werden Anforderungsinformationen einschließlich einer Anforderung des Bilds des Gesichts (Zuverlässigkeit: 50 %) und des Audios (Zuverlässigkeit: 100 %) mit der Intonation erzeugt.
An der Kommunikationsendvorrichtung 10b auf der Senderseite werden das Bild und das Audio des Benutzers 5b sowie die verschiedenen Arten von Hilfsinformationen übernommen (Schritt 103). Dann werden die Kommunikationsdaten D gemäß den Anforderungsinformationen erzeugt und zusätzlich wird die Zuverlässigkeit der Kommunikationsdaten D berechnet (Schritte 104 und 105).
Im in 9 gezeigten Beispiel ist es gefährlich, ein Smartphone beim Gehen zu benutzen, und es ist schwierig, das Gesicht ständig zu fotografieren. Daher wird ein auf der Basis der Hilfsinformationen und dergleichen ergänztes Gesichtsbild mit einer Zuverlässigkeit von 10 % erzeugt. Andererseits kann das Audio auch beim Gehen zufriedenstellend eingegeben werden. Daher sind die Kommunikationsdaten D des Audios (Zuverlässigkeit: 100 %) mit der Intonation wie angefordert erzeugbar.
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a auf der Empfängerseite, die die erzeugten Kommunikationsdaten D empfangen hat, aktualisiert (Schritt 202). Im in 9 gezeigten Beispiel wird beurteilt, dass das Bild des Gesichts mit der Zuverlässigkeit von 10 % unnötig ist, und Aktualisierung auf eine Anforderung, die angibt, dass das Bild unnötig ist, wird durchgeführt.
Es wird darauf hingewiesen, dass in einem Fall, in dem die Zuverlässigkeit als ein Ergebnis von Ergänzung niedriger ist als eine vorgegebene Schwelle, eine Einstellung und dergleichen durchgeführt werden kann, die angibt, dass Senden als die Kommunikationsdaten D unmöglich ist. Alternativ kann in die Anforderungsinformationen eine Anweisung eingeschlossen werden, die angibt, dass die Kommunikationsdaten D mit der Zuverlässigkeit gleich oder niedriger als die Schwelle nicht erforderlich sind.
Nun wird angenommen, dass sich der Benutzer 5b auf der Senderseite im Zug befindet. Umgebungsinformationen werden von der Kommunikationsendvorrichtung 10b erzeugt, die dem Benutzer 5b gehört, der sich im Zug befindet, und an die Kommunikationsendvorrichtung 10a auf der Empfängerseite gesendet (Schritt 102). Im in 10 gezeigten Beispiel werden die folgenden Umgebungsinformationen als Informationen bezüglich des aktualisierten Zustands und der aktualisierten Situation gesendet.
Ort... Zug
Zeit... nachmittags
Spezifikationen der Kommunikationsendvorrichtung... Smartphone
Zustand des Benutzers... sitzend
Zustand der Kommunikationsendvorrichtung...in der Hand gehalten
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a, die die aktualisierten Umgebungsinformationen empfangen hat, aktualisiert (Schritt 202). Im in 10 gezeigten Beispiel werden Anforderungsinformationen einschließlich einer Anforderung des Bilds des Gesichts (Zuverlässigkeit: 80 %) und der Rückkanäle (Zuverlässigkeit: 100 %) erzeugt.
An der Kommunikationsendvorrichtung 10b auf der Senderseite werden das Bild und das Audio des Benutzers 5b sowie die verschiedenen Arten von Hilfsinformationen übernommen (Schritt 103). Dann werden die Kommunikationsdaten D gemäß den Anforderungsinformationen erzeugt und zusätzlich wird die Zuverlässigkeit der Kommunikationsdaten D berechnet (Schritte 104 und 105).
Im in 10 gezeigten Beispiel kann ein Bild des eigenen Gesichts selbst im Zug aufgenommen werden. Daher sind die Kommunikationsdaten D des Bilds des Gesichts (Zuverlässigkeit: 100 %) wie angefordert erzeugbar. Hinsichtlich des Audios ist es möglich, leise zu sprechen. Daher wird bestimmt, dass die Rückkanäle eingegeben werden können.
Darüber hinaus wird in einem Fall des Aufenthalts in einem Zug bestimmt, dass eine viel höheres Wiedergabemaß des Audios im Zug möglich ist. Das heißt, auf der Basis der Lippensynchronisationsinformationen wird bestimmt, dass auch der geäußerte Satz erzeugbar ist, und ein geäußerter Satz (Frequenz beträgt 70 %) basierend auf den Lippensynchronisationsinformationen erzeugt wird.
Eine Bestimmung, ob viel höherwertige Kommunikationsdaten D erzeugbar sind oder nicht, kann bezüglich der Anforderung jedes des Anzeigemaßes des Bilds und des Wiedergabemaßes des Audios auf diese Weise durchgeführt werden. Wenn eine derartige Bestimmung positiv ist, können die Kommunikationsdaten D zu einem höheren Maß als dem Anforderungsmaß erzeugt werden. Es wird darauf hingewiesen, dass zu diesem Zeitpunkt bestimmt werden kann, ob die Zuverlässigkeit höher als die Schwelle ist oder nicht. Liegt die Zuverlässigkeit unter der Schwelle, werden die Kommunikationsdaten D zum höheren Maß nicht erzeugt, und die Kommunikationsdaten D werden wie angefordert erzeugt.
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a auf der Empfängerseite, die die erzeugten Kommunikationsdaten D empfangen hat, aktualisiert (Schritt 202). Im in 10 gezeigten Beispiel wird bestimmt, dass der geäußerte Satz auch mit einer Zuverlässigkeit von 70 % ausreichend ist, und die Anforderung an das Audio wird auf den geäußerten Satz (Zuverlässigkeit: 70 %) aktualisiert.
Nun wird angenommen, dass der Benutzer 5b auf der Senderseite in sein Büro zurückkehrt und das Kommunikationsendgerät 10b auf den auf dem Schreibtisch platzierten Laptop-PC schaltet. Umgebungsinformationen werden von der Kommunikationsendvorrichtung 10b (Laptop-PC) erzeugt und an die Kommunikationsendvorrichtung 10a auf der Empfängerseite gesendet (Schritt 102). Im in t gezeigten Beispiel werden die folgenden Umgebungsinformationen als Informationen bezüglich des aktualisierten Zustands und der aktualisierten Situation gesendet.
Ort... Büro
Zeit... abends
Spezifikationen der Kommunikationsendvorrichtung... Laptop-PC
Zustand des Benutzers... sitzend
Zustand der Kommunikationsendvorrichtung...auf Tisch platziert
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a, die die aktualisierten Umgebungsinformationen empfangen hat, aktualisiert (Schritt 202). Im in 11 gezeigten Beispiel wird die Anforderung des Bilds (Zuverlässigkeit: 100 %) der oberen Körperhälfte (einschließlich des Gesichts) (mit Gesten) und des Audios (Zuverlässigkeit: 100 %) mit der Intonation erzeugt und gesendet.
An der Kommunikationsendvorrichtung 10b auf der Senderseite werden das Bild und das Audio des Benutzers 5b sowie die verschiedenen Arten von Hilfsinformationen übernommen (Schritt 103). Dann werden die Kommunikationsdaten D gemäß den Anforderungsinformationen erzeugt und zusätzlich wird die Zuverlässigkeit der Kommunikationsdaten D berechnet (Schritte 104 und 105) .
Im in 11 gezeigten Beispiel ist es schwierig, laut mit großen Gesten zu sprechen, und das Bild (Zuverlässigkeit: 80 %) der ergänzten oberen Körperhälfte (einschließlich des Gesichts) (mit Gesten) sowie die Kommunikationsdaten D des Audios (Zuverlässigkeit: 70 %) mit Intonation werden auf der Basis der Hilfsinformationen und dergleichen erzeugt.
Die Anforderungsinformationen werden von der Kommunikationsendvorrichtung 10a auf der Empfängerseite, die die erzeugten Kommunikationsdaten D empfangen hat, aktualisiert (Schritt 202). Im in 11 gezeigten Beispiel wird unter Berücksichtigung, dass die Zuverlässigkeit von 100 % wichtig ist, diese auf die Anforderung des Bilds des Gesichts (Zuverlässigkeit: 100 %), nicht der oberen Körperhälfte, und des geäußerten Satzes (Zuverlässigkeit: 100 %) ohne Intonation aktualisiert.
Wie oben beschrieben, wird im Kommunikationssystem gemäß dieser Ausführungsform Erzeugung der Kommunikationsdaten D auf der Basis des Bilds und des Audios gesteuert, die die Eingangsinformationen und die Anforderungsinformationen bezüglich der Kommunikationsdaten D sind. Unter dieser Konfiguration ist es zum Beispiel möglich, die Kommunikationsdaten D gemäß Anforderung und dergleichen vom Kommunikationspartner gegenseitig zu erzeugen und eine gefällige Kommunikation durchzuführen.
Das heißt, zwischen der Datenanforderungseinheit 50 und der Datenanforderungsempfangseinheit 36 kann bezüglich der Kommunikationsdaten D davon verhandelt werden. Unter dieser Konfiguration können das Erzeugungsmaß und dergleichen der Kommunikationsdaten D in Einheiten von Frames gemäß der Umgebung, in der sich der Benutzer 5 befindet, den Spezifikationen der Kommunikationsendvorrichtung 10 und dergleichen angepasst werden. Ferner wird hinsichtlich der Anforderung bezüglich der Kommunikationsdaten D in einem Fall, in dem das Bild und das Audio des Benutzers 5 fehlen, zweckgemäß Ergänzung unter Verwendung der Hilfsinformationen und dergleichen durchgeführt und die Zuverlässigkeit davon berechnet. Unter dieser Konfiguration wird eine reibungslose Fernkommunikation mit sehr hoher Qualität realisiert.
Zum Beispiel ist es auch möglich, den Benutzer 5 auf der Senderseite der Kommunikationsdaten D aufzufordern, die Zuverlässigkeit zu erhöhen, die Kommunikation mit den Kommunikationsdaten D mit niedrigerer Zuverlässigkeit abzubrechen und dergleichen. Ferner kann in einem Zustand, in dem die Umgebung, die Kommunikationsbedingungen oder dergleichen schlecht sind, auch das Anforderungsmaß davon durch Verhandlung zufriedenstellend gesenkt werden, und auch Fernkommunikation mit verringerter Belastung kann realisiert werden.
<Andere Ausführungsformen>
Die vorliegende Technologie ist nicht auf die oben erwähnte Ausführungsform eingeschränkt, und verschiedene andere Ausführungsformen können realisiert werden.
Vorstehend werden die Umgebungsinformationen oder die Informationen zu dem auf der Basis der Umgebungsinformationen geschätzten erzeugbaren Maß an die Kommunikationsendvorrichtung des Kommunikationspartners gesendet. Nicht darauf beschränkt, können die vom Kommunikationspartner gesendeten Anforderungsinformationen mit dem vom Benutzer auf der Senderseite geschätzten erzeugbaren Maß verglichen und das Vergleichsergebnis an den Kommunikationspartner gesendet werden. Zum Beispiel werden Benachrichtigungsinformationen, die angeben, dass es schwierig ist, die Kommunikationsdaten wie angefordert zu erzeugen, oder Benachrichtigungsinformationen, die die Zuverlässigkeit angeben, wenn die Kommunikationsdaten erzeugt werden, gesendet. Alternativ können die Benachrichtigungsinformationen gesendet werden, um eine erneute Betrachtung der Anforderungsinformationen anzufordern. Eine derartige Verhandlung kann auch durchgeführt werden und ist sehr effektiv.
Ein Referenzzustand des Erzeugungsmaßes der Kommunikationsdaten kann von der Kommunikationsendvorrichtung auf der Senderseite auf der Basis der Umgebungsinformationen und dergleichen eingestellt werden. Das heißt, die Senderseite kann einstellen, welche Art von Kommunikationsdaten erzeugt werden sollen. In diesem Fall schließen die Informationen hinsichtlich des Referenzzustands die Anforderungsinformationen gemäß der vorliegenden Technologie ein.
Auf der Senderseite und der Empfängerseite kann das Erzeugungsmaß der Kommunikationsdaten festgelegt sein. Zum Beispiel werden in einem Fall, in dem die beiden Seiten dieses Kommunikationssystem ständig unter der gleichen Umgebung und dergleichen nutzen, erzeugbare Kommunikationsdaten nicht wesentlich verändert. Durch Festlegen des von beiden Seiten gewünschten Erzeugungsmaßes der Kommunikationsdaten kann daher die Verarbeitungslast reduziert und eine Verbesserung der Verarbeitungsgeschwindigkeit erreicht werden. Es wird darauf hingewiesen, dass Festlegen des Erzeugungsmaßes Festlegen des Anforderungsmaßes entspricht und die Kommunikationsdaten weiterhin auf der Basis der Anforderungsinformationen erzeugt werden.
Vorstehend wurde der Eins-zu-Eins-Kommunikationsmodus unter der Annahme, dass die Kommunikationsendvorrichtung auf der Empfängerseite die erste Kommunikationsendvorrichtung und die Kommunikationsendvorrichtung auf der Senderseite die zweite Kommunikationsendvorrichtung ist, als ein Beispiel gezeigt. Der Kommunikationsmodus ist nicht eingeschränkt. Zum Beispiel ist die vorliegende Technologie auch in einem Fall von eins bis N (z. B. Annahme einer Fernlektion oder dergleichen) oder N bis N (z. B. Annahme einer Konferenz oder dergleichen) anwendbar. Die Anforderungsinformationen können an mehrere Kommunikationspartner gesendet werden und ferner können die Kommunikationsdaten gemäß der Anforderung in Bezug auf jeden der mehreren Kommunikationspartner erzeugt werden. Selbstverständlich ist es auch möglich, Kommunikationsdaten gemäß Anforderungsinformationen mit einem höchsten Anforderungsmaß zu erzeugen und an alle Kommunikationspartner zu senden.
In einem Fall, in dem Kommunikation mit mehreren Benutzern gestartet wird, beginnt die Kommunikation, wenn Benutzer an einem bestimmten Ort, z. B. einem Chatraum oder einem virtuellen Konferenzraum, teilnehmen und sich zwei oder mehr Benutzer zusammenfinden. Selbstverständlich kann ein anderes Startverfahren angewendet werden.
Vorstehend werden die Ausgabeinformationen auf der Basis der Eingangsinformationen einschließlich des Bilds und des Audios des Benutzers erzeugt. Nicht beschränkt darauf, ist die vorliegende Technologie in einem Fall anwendbar, in dem die Fernkommunikation unter Verwendung nur des Bildes und die Fernkommunikation unter Verwendung nur des Audios ausgeführt werden.
Vorstehend wurden als Eingangsinformationen das Bild des ersten Benutzers, das von der Kamera aufgenommen wird, und das Audio des ersten Benutzers, das vom Mikrofon aufgenommen wird, beispielhaft angegeben. Nicht beschränkt darauf, können das von einem anderen System und dergleichen erzeugte Bild und Audio des ersten Benutzers als die Eingangsinformationen verwendet werden. Zum Beispiel kann in einem Fall, in dem Audio von einem Hilfssystem und dergleichen synthetisiert und ausgegeben wird, das von einer körperlich behinderten Person auf der Basis des Blicks, der Bewegung und dergleichen des Benutzers und dergleichen verwendet wird, dieses Kommunikationssystem auch verwendet werden, indem das ausgegebene Audio als das Audio des ersten Benutzers gemäß der vorliegenden Technologie verwendet wird. In diesem Fall können das Wiedergabemaß und das Fehlmaß eingestellt werden, indem das im Hilfssystem erzeugte Audio als Referenz verwendet wird. Alternativ kann dieses System zum Beispiel verwendet werden, wenn berücksichtigt wird, dass die Intonation im vom Hilfssystem ausgegebenen Audio fehlt, indem das normale Gespräch als Referenz verwendet wird. Unter dieser Konfiguration kann dieses Fernkommunikationssystem auch zum Fungieren als das Hilfssystem veranlasst werden. Auch hinsichtlich des Bilds kann ein verarbeitetes Bild oder dergleichen des Benutzers als das Bild des ersten Benutzers gemäß der vorliegenden Technologie verwendet werden.
Verschiedene andere Anforderungen können als die Anforderung für die Ausgangsinformationen einbezogen werden. Eine Anforderung bezüglich Informationen, zum Beispiel das Vorhandensein/die Abwesenheit des Audios, die Auflösung, Bitrate und Bildrate des Videos sowie die Bitrate des Audios, kann gesendet werden.
Die Verarbeitung der Ergänzung fehlender Eingangsinformationen kann durch die Kommunikationsendvorrichtung auf der Empfängerseite, eine andere über das Netzwerk aufgebaute Servervorrichtung und dergleichen ausgeführt werden. Zusätzlich kann die Vorrichtung, die die Ergänzungsverarbeitung ausführt, auf der Basis des Kommunikationsbands und der Kommunikationsgeschwindigkeit zwischen diesen Vorrichtungen dynamisch umschaltbar sein. Unter dieser Konfiguration wird eine reibungslose Fernkommunikation realisiert.
Vorstehend wurde der Fall beschrieben, in dem das Informationsverarbeitungsverfahren gemäß der vorliegenden Technologie durch den vom Benutzer betriebenen Computer, wie z. B. einem PC, ausgeführt wird. Das Informationsverarbeitungsverfahren und das Programm gemäß der vorliegenden Technologie können jedoch von einem anderen Computer ausgeführt werden, der in der Lage ist, mit dem vom Benutzer betriebenen Computer über das Netzwerk und dergleichen zu kommunizieren. Ferner kann das Kommunikationssystem gemäß der vorliegenden Technologie durch die Verknüpfung des vom Benutzer betriebenen Computers mit einem anderen Computer aufgebaut werden.
Das heißt, das Informationsverarbeitungsverfahren und das Programm gemäß der vorliegenden Technologie können nicht nur in einem durch einen einzelnen Computer konfigurierten Computersystem, sondern auch in einem Computersystem, in dem mehrere Computer zusammenarbeiten, ausgeführt werden. Es wird darauf hingewiesen, dass in der vorliegenden Offenbarung das System ein Aggregat aus einer Vielzahl von Komponenten (Vorrichtung, Modul (Teile) und dergleichen) bedeutet, und es keine Rolle spielt, ob alle Komponenten im gleichen Gehäuse untergebracht sind oder nicht. Daher stellen eine Vielzahl von Vorrichtungen, die in getrennten Gehäusen untergebracht und über ein Netzwerk miteinander verbunden sind, und eine einzelne Vorrichtung mit einer Vielzahl von Modulen, die in einem einzigen Gehäuse untergebracht sind, beide das System dar.
Die Ausführung des Informationsverarbeitungsverfahrens und des Programms gemäß der vorliegenden Technologie durch das Computersystem schließt zum Beispiel sowohl einen Fall, in dem Übernahme der Eingangsinformationen, Steuerung der Erzeugung der Ausgangsinformationen basierend auf den Anforderungsinformationen und dergleichen, Berechnung der Zuverlässigkeit der Ausgangsinformationen, Erzeugung der Anforderungsinformationen, Schätzung des erzeugbaren Ebene der Ausgangsinformationen und dergleichen von einem einzelnen Computer ausgeführt werden, als auch einen Fall, in dem diese Prozesse von verschiedenen Computern ausgeführt werden, ein. Ferner schließt die Ausführung der jeweiligen Prozesse durch einen vorbestimmten Computer Veranlassen des anderen Computers zu einigen oder allen dieser Prozesse und Übernehmen von Ergebnissen davon ein.
Das heißt, das Informationsverarbeitungsverfahren und das Programm gemäß der vorliegenden Technologie sind auch auf eine Cloud-Computing-Konfiguration anwendbar, bei der eine Funktion von mehreren Vorrichtungen über ein Netzwerk geteilt und kooperativ verarbeitet wird.
Wenigstens zwei der oben beschriebenen Merkmale gemäß der vorliegenden Technologie können kombiniert werden. Das heißt, die verschiedenen in den jeweiligen Ausführungsformen beschriebenen Merkmale können über die jeweiligen Ausführungsformen hinweg beliebig kombiniert werden. Ferner sind die oben genannten verschiedenen Effekte nur beispielhaft und nicht einschränkend, und es können weitere andere Effekte bereitgestellt werden.
Es wird darauf hingewiesen, dass die vorliegende Technologie auch die folgenden Konfigurationen annehmen kann.

(1) Informationsverarbeitungsvorrichtung, einschließend:
- eine Übernahmeeinheit, die Eingangsinformationen übernimmt, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen; und
- eine Erzeugungssteuereinheit, die auf der Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließen, die wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen steuert, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.
(2) Informationsverarbeitungsvorrichtung nach Punkt (1), wobei die Anforderungsinformationen wenigstens eine von einer Anforderung vom zweiten Benutzer, die sich auf Bildanzeige bezieht, oder einer Anforderung vom zweiten Benutzer, die sich auf Audiowiedergabe bezieht, einschließen.
(3) Informationsverarbeitungsvorrichtung nach Punkt (1) oder (2), wobei die Erzeugungssteuereinheit das Bild des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzt und die Ausgangsinformationen erzeugt.
(4) Informationsverarbeitungsvorrichtung nach einem beliebigen Punkt von (1) bis (3), wobei die Erzeugungssteuereinheit das Audio des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzt und die Ausgangsinformationen erzeugt.
(5) Informationsverarbeitungsvorrichtung nach einem beliebigen Punkt von (1) bis (4), weiter einschließend:
- eine Berechnungseinheit, die die Zuverlässigkeit der Ausgangsinformationen berechnet; und
- eine Zuverlässigkeitssendeeinheit, die die berechnete Zuverlässigkeit an die Endvorrichtung des zweiten Benutzers sendet.
(6) Informationsverarbeitungsvorrichtung nach Punkt (5), wobei die Zuverlässigkeit der Ausgangsinformationen wenigstens eine von einer auf das Bild bezogenen Zuverlässigkeit oder einer auf das Audio bezogenen Zuverlässigkeit einschließt.
(7) Informationsverarbeitungsvorrichtung nach Punkt (5) oder (6), wobei die Anforderungsinformationen eine auf die Zuverlässigkeit der Ausgangsinformationen bezogene Anforderung einschließen.
(8) Informationsverarbeitungsvorrichtung nach einem beliebigen Punkt von (1) bis (7), weiter einschließend eine Schätzeinheit, die ein erzeugbares Maß der Ausgangsinformationen auf der Basis von wenigstens einer von Zustandsinformationen des ersten Benutzers oder Situationsinformationen des ersten Benutzers schätzt.
(9) Informationsverarbeitungsvorrichtung nach Punkt (8), wobei das Maß der Ausgangsinformationen wenigstens eines von einem anzeigbaren Maß des Bilds des ersten Benutzers oder einem reproduzierbaren Maß des Audios des ersten Benutzers einschließt.
(10) Informationsverarbeitungsvorrichtung nach Punkt (8) oder (9), weiter einschließend eine Maßsendeeinheit, die das geschätzte Maß der Ausgangsinformationen an die Endvorrichtung des zweiten Benutzers sendet.
(11) Informationsverarbeitungsvorrichtung nach einem beliebigen Punkt von (1) bis (10), weiter einschließend eine Anforderungsinformationsausgabeeinheit, die die aktualisierten, von der Endvorrichtung des zweiten Benutzers, die die erzeugten Ausgangsinformationen empfängt, gesendeten Anforderungsinformationen an die Erzeugungssteuereinheit ausgibt.
(12) Informationsverarbeitungsvorrichtung nach Punkt (11), wobei Informationsverarbeitungsvorrichtung nach Anspruch 11, wobei die Anforderungsinformationsausgabeeinheit die aktualisierten Anforderungsinformationen basierend auf Inhalten der Ausgangsinformationen und der Zuverlässigkeit der Ausgangsinformationen an die Erzeugungssteuereinheit ausgibt.
(13) Informationsverarbeitungsvorrichtung nach Punkt (11) oder (12), wobei Informationsverarbeitungsvorrichtung nach Anspruch 11, wobei die Anforderungsinformationsausgabeeinheit die aktualisierten Anforderungsinformationen basierend auf dem erzeugbaren Maß der Ausgangsinformationen an die Erzeugungssteuereinheit ausgibt.
(14) Informationsverarbeitungsvorrichtung nach einem beliebigen Punkt von (1) bis (13), wobei wenigstens eine der Übernahmeeinheit oder der Erzeugungssteuereinheit in einer Servervorrichtung bereitgestellt wird, die jeweils mit einer Endvorrichtung des ersten Benutzers und der Endvorrichtung des zweiten Benutzers kommunizieren kann.
(15) Informationsverarbeitungssystem, umfassend:
- eine erste Kommunikationsendvorrichtung; und
- eine zweite Kommunikationsendvorrichtung, wobei
- die erste Kommunikationsendvorrichtung Anforderungsinformationen einschließlich einer Anforderung zum Ausgeben von Informationen einschließlich wenigstens eines Bilds oder Audios an die zweite Kommunikationsendvorrichtung sendet und
- die zweite Kommunikationsendvorrichtung Eingangsinformationen einschließlich wenigstens eines von einem Bild oder Audio eines Benutzers übernimmt und die Erzeugung der auf den Benutzer bezogenen Ausgangsinformationen auf der Basis der von der ersten Kommunikationsendvorrichtung gesendeten Anforderungsinformationen und der übernommenen Eingangsinformationen steuert.

Bezugszeichenliste

1: Netzwerk
5, 5a, 5b: Benutzer (Kommunikation durchführende Person)
10, 10a, 10b: Kommunikationsendvorrichtung
10X: Kommunikationsendvorrichtung auf Senderseite
10Y: Kommunikationsendvorrichtung auf Empfängerseite
11: Controller
13: Mikrofon
14: Kamera
20: Kommunikationseinheit
30: Audioübernahmeeinheit
31: Audioanalyseeinheit
32: Videoübernahmeeinheit
33: Videoanalyseeinheit
36: Datenanforderungsempfangseinheit
37: Kommunikationsdatenerzeugungseinheit
46: Zuverlässigkeitsberechnungseinheit
50: Datenanforderungseinheit
100: Kommunikationssystem

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

JP 2010239499 [0004]

Claims

Informationsverarbeitungsvorrichtung, umfassend: eine Übernahmeeinheit, die Eingangsinformationen übernimmt, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen; und eine Erzeugungssteuereinheit, die auf einer Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließen, die wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen steuert, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Anforderungsinformationen wenigstens eine von einer Anforderung vom zweiten Benutzer, die sich auf Bildanzeige bezieht, oder einer Anforderung vom zweiten Benutzer, die sich auf Audiowiedergabe bezieht, einschließen.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Erzeugungssteuereinheit das Bild des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzt und die Ausgangsinformationen erzeugt.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei die Erzeugungssteuereinheit das Audio des ersten Benutzers, das in den Eingangsinformationen eingeschlossen ist, ergänzt und die Ausgangsinformationen erzeugt.
Informationsverarbeitungsvorrichtung nach Anspruch 1, weiter umfassend: eine Berechnungseinheit, die die Zuverlässigkeit der Ausgangsinformationen berechnet; und eine Zuverlässigkeitssendeeinheit, die die berechnete Zuverlässigkeit an die Endvorrichtung des zweiten Benutzers sendet.
Informationsverarbeitungsvorrichtung nach Anspruch 5, wobei die Zuverlässigkeit der Ausgangsinformationen wenigstens eine von einer auf das Bild bezogenen Zuverlässigkeit oder einer auf das Audio bezogenen Zuverlässigkeit einschließt.
Informationsverarbeitungsvorrichtung nach Anspruch 5, wobei die Anforderungsinformationen eine auf die Zuverlässigkeit der Ausgangsinformationen bezogene Anforderung einschließen.
Informationsverarbeitungsvorrichtung nach Anspruch 1, weiter umfassend eine Schätzeinheit, die ein erzeugbares Maß der Ausgangsinformationen auf einer Basis von wenigstens einer von Zustandsinformationen des ersten Benutzers oder Situationsinformationen des ersten Benutzers schätzt.
Informationsverarbeitungsvorrichtung nach Anspruch 8, wobei das Maß der Ausgangsinformationen wenigstens eines von einem anzeigbaren Maß des Bilds des ersten Benutzers oder einem reproduzierbaren Maß des Audios des ersten Benutzers einschließt.
Informationsverarbeitungsvorrichtung nach Anspruch 8, weiter umfassend eine Maßsendeeinheit, die das geschätzte Maß der Ausgangsinformationen an die Endvorrichtung des zweiten Benutzers sendet.
Informationsverarbeitungsvorrichtung nach Anspruch 1, weiter umfassend eine Anforderungsinformationsausgabeeinheit, die die aktualisierten, von der Endvorrichtung des zweiten Benutzers, die die erzeugten Ausgangsinformationen empfängt, gesendeten Anforderungsinformationen an die Erzeugungssteuereinheit ausgibt.
Informationsverarbeitungsvorrichtung nach Anspruch 11, wobei die Anforderungsinformationsausgabeeinheit die aktualisierten Anforderungsinformationen basierend auf Inhalten der Ausgangsinformationen und der Zuverlässigkeit der Ausgangsinformationen an die Erzeugungssteuereinheit ausgibt.
Informationsverarbeitungsvorrichtung nach Anspruch 11, wobei die Anforderungsinformationsausgabeeinheit die aktualisierten Anforderungsinformationen basierend auf dem erzeugbaren Maß der Ausgangsinformationen an die Erzeugungssteuereinheit ausgibt.
Informationsverarbeitungsvorrichtung nach Anspruch 1, wobei wenigstens eine der Übernahmeeinheit oder der Erzeugungssteuereinheit in einer Servervorrichtung bereitgestellt wird, die jeweils mit einer Endvorrichtung des ersten Benutzers und der Endvorrichtung des zweiten Benutzers kommunizieren kann.
Informationsverarbeitungsverfahren, umfassend: durch ein Computersystem, Übernehmen von Eingangsinformationen, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen; und Steuern auf einer Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließen, die wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen der Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.
Programm, das ein Computersystem dazu veranlasst, Folgendes auszuführen: einen Schritt des Übernehmens von Eingangsinformationen, die wenigstens eines von einem Bild oder Audio eines ersten Benutzers einschließen; und einen Schritt des Steuerns, auf einer Basis von Anforderungsinformationen, die eine Anforderung zum Ausgeben von Informationen einschließen, die wenigstens eines von einem Bild oder Audio einschließen, und der übernommenen Eingangsinformationen, der Erzeugung von auf den ersten Benutzer bezogenen Ausgangsinformationen, die von einer Endvorrichtung eines zweiten Benutzers, der ein Kommunikationspartner des ersten Benutzers ist, auszugeben sind.