DE102020209058A1 - Verfahren und System zur Kommunikation zwischen Endgeräten - Google Patents

Verfahren und System zur Kommunikation zwischen Endgeräten Download PDF

Info

Publication number
DE102020209058A1
DE102020209058A1 DE102020209058.0A DE102020209058A DE102020209058A1 DE 102020209058 A1 DE102020209058 A1 DE 102020209058A1 DE 102020209058 A DE102020209058 A DE 102020209058A DE 102020209058 A1 DE102020209058 A1 DE 102020209058A1
Authority
DE
Germany
Prior art keywords
participant
participants
until
communication
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020209058.0A
Other languages
English (en)
Inventor
Thomas Wiedemann
Dominik Robert
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hochschule fuer Technik und Wirtschaft Dresden
Original Assignee
Hochschule fuer Technik und Wirtschaft Dresden
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hochschule fuer Technik und Wirtschaft Dresden filed Critical Hochschule fuer Technik und Wirtschaft Dresden
Priority to DE102020209058.0A priority Critical patent/DE102020209058A1/de
Publication of DE102020209058A1 publication Critical patent/DE102020209058A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/157Conference systems defining a virtual conference space and using avatars or agents

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

Verfahren zur Kommunikation zwischen mindestens Endgeräten von zwei Teilnehmern, wobei auf dem Endgerät eines jeden Teilnehmers kontinuierlich ein Videosignal des Teilnehmers erfasst und verarbeitet wird; wobei in jedem Verarbeitungsschritt auf dem Endgerät eines jeden Teilnehmers das Gesicht des Teilnehmers erkannt wird und ein Gesichtsdatensatz bestimmt wird; wobei in einem ersten vorbestimmten Zeitintervall von dem Endgerät eines jeden Teilnehmers der jeweilige aktuelle Gesichtsdatensatz an einen ersten zentralen Server übermittelt wird; wobei in einem zweiten vorbestimmten Zeitintervall von dem ersten zentralen Server an das Endgerät eines jeden Teilnehmers einen zusammengefügten Gesichtsdatensatz der jeweils anderen Teilnehmer übermittelt wird; und wobei auf dem jeweiligen Endgerät eines jeden Teilnehmers eine visuelle Darstellung der jeweils anderen Teilnehmer basierend auf dem jeweiligen zusammengefügten Gesichtsdatensatz erstellt wird.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren und System zur Kommunikation zwischen Endgeräten. Insbesondere betrifft die Erfindung eine videoähnliche Kommunikation zwischen einer großen Anzahl von Teilnehmern.
  • Die Kommunikation mit Videokonferenzen hat sich in vielen Bereichen des privaten und öffentlichen Lebens durchgesetzt. Kleinere Videokonferenzen, beispielsweise mit bis zu 20 Teilnehmern lassen sich mit herkömmlichen Systemen realisieren. Hierzu werden die Videosignale aller übrigen Teilnehmer auf das Endgerät eines Nutzers übertragen. Auch Veranstaltungen mit einem oder zumindest wenigen Vortragenden sind möglich, da hierzu ein einzelnes Videosignal an N Zuschauer, bevorzugt eine große Anzahl von Zuschauern, übertragen wird.
  • Bei größeren Veranstaltungen, beispielsweise eine Parlamentssitzung, eine Hauptversammlung o.ä., stellt die große Anzahl an Teilnehmern jedoch eine technische Herausforderung dar.
  • In der Regel ist die Bandbreite zwischen den Teilnehmern die primäre Limitierung. Der gleichzeitige Empfang und/oder die gleichzeitige Verarbeitung von einer Vielzahl an Videos in einem Endgerät ist durch die Übertragungs- bzw. Verarbeitungsbandbreite beim Nutzer stark begrenzt.
  • Andererseits erreichen reine Audiokonferenzen nicht das Informationsniveau einer Videokonferenz und sind auch schlechter juristisch dokumentierbar.
  • Es ist eine Aufgabe der vorliegenden Erfindung das Gefühl einer Videokonferenz mit vielen Teilnehmern zu vermitteln, ohne eine echte Videokonferenz herkömmlicher Art durchzuführen.
  • Diese und weitere Aufgaben werden durch den Gegenstand der unabhängigen Patentansprüche gelöst. Die abhängigen Patentansprüche beziehen sich auf weitere Aspekte der Erfindung.
  • Erfindungsgemäß wird bereit gestellt, ein Verfahren zur Kommunikation zwischen mindestens Endgeräten von zwei Teilnehmern, wobei auf dem Endgerät eines jeden Teilnehmers kontinuierlich ein Videosignal des Teilnehmers erfasst und verarbeitet wird; wobei in jedem Verarbeitungsschritt auf dem Endgerät eines jeden Teilnehmers das Gesicht des Teilnehmers erkannt wird und ein Gesichtsdatensatz bestimmt wird; wobei in einem ersten vorbestimmten Zeitintervall von dem Endgerät eines jeden Teilnehmers der jeweilige aktuelle Gesichtsdatensatz an einen ersten zentralen Server übermittelt wird; wobei in einem zweiten vorbestimmten Zeitintervall von dem ersten zentralen Server an das Endgerät eines jeden Teilnehmers einen zusammengefügten Gesichtsdatensatz der jeweils anderen Teilnehmer übermittelt wird; und wobei auf dem jeweiligen Endgerät eines jeden Teilnehmers eine visuelle Darstellung der jeweils anderen Teilnehmer basierend auf dem jeweiligen zusammengefügten Gesichtsdatensatz erstellt wird.
  • In Ausführungsformen der Erfindung wird von jedem Teilnehmer ein Audiosignal an einen zweiten zentralen Server übermittelt; wobei im zweiten zentralen Server die Audiosignale der Teilnehmer kombiniert verarbeitet werden und ein kombiniertes Audiosignal an alle Teilnehmer übermittelt wird.
  • In Ausführungsformen der Erfindung enthält der Gesichtsdatensatz mindestens eine der folgenden Informationen: biometrische Daten zu dem erkannten Gesicht, vorzugsweise den Mund und/oder Augenabstand; und Informationen zu einer detektierten Emotion in dem erkannten Gesicht.
  • In Ausführungsformen der Erfindung wird in einem Authentifizierungsschritt auf einem dritten zentralen Server basierend auf einer Gesichtserkennung und einer Datenbank, bevorzugt einer Nutzer-Datenbank, die Identität eines jeden Teilnehmers überprüft und jedem Teilnehmer eine eindeutige Kennzeichnung zugeordnet; wobei nach erfolgter Authentifizierung den jeweils anderen Teilnehmern die eindeutige Kennzeichnung des Teilnehmers vom dritten zentralen Server übermittelt wird.
  • In Ausführungsformen der Erfindung wird bei einer erstmaligen Authentifizierung eine videobasierte Identitätsfeststellung durchgeführt, eine eindeutige Kennzeichnung des Teilnehmers festgelegt und in der Datenbank gespeichert. Alternativ und/oder ergänzend wird bei der erstmaligen Authentifizierung mindestens ein vorbestimmtes charakteristisches Einzelbild des Teilnehmers in der Datenbank gespeichert; wobei das mindestens eine vorbestimmte charakteristische Einzelbild vorzugsweise bei der videobasierten Authentifizierung erfasst wird.
  • In Ausführungsformen der Erfindung erfolgt die Visualisierung der jeweils anderen Teilnehmer basierend auf einem Avatar und/oder basierend auf den vorbestimmten charakteristischen Einzelbildern des anderen Teilnehmers. Wobei bevorzugt der Avatar und/oder die vorbestimmten charakteristischen Einzelbildern vor der Kommunikation aus der Datenbank an das Endgerät des jeweiligen Teilnehmers übertragen werden.
  • In Ausführungsformen der Erfindung wird die Visualisierung auf eine statische und/oder zeitlich veränderliche Hintergrundgrafik gemappt.
  • In Ausführungsformen der Erfindung wird in einem Abstimmungsschritt während der Kommunikation eine Abstimmung durchgeführt, und wobei in dem Abstimmungsschritt von einem vierten zentralen Server eine Zustimmung und/oder eine Ablehnung eines jeden Teilnehmers basierend auf einem oder mehreren Gesichtsdatensätzen des jeweiligen Teilnehmers bestimmt wird.
  • In Ausführungsformen der Erfindung sind einer oder mehrere des ersten, zweiten, dritten, und vierten zentralen Servers gemeinsam ausgeführt.
  • Ferner wird erfindungsgemäß bereitgestellt, ein Endgerät zur Kommunikation zwischen mindestens zwei Teilnehmern, welches aufweist: Audioaufnahmemittel; Videoaufnahmemittel; Kommunikationsmittel geeignet zur Kommunikation mit einem oder mehreren zentralen Servern; Darstellungsmittel; Datenverarbeitungsmittel die geeignet sind das Verfahren nach einer der oben beschriebenen Ausführungsformen durchzuführen.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Server zur Kommunikation zwischen mindestens zwei Teilnehmern, welcher aufweist: Kommunikationsmittel geeignet zur Kommunikation mit mindestens zwei erfindungsgemäßen Endgeräten, Datenverarbeitungsmittel die geeignet sind das erfindungsgemäße Verfahren durchzuführen.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein System zur Kommunikation zwischen mindestens zwei Teilnehmern, welches aufweist: mindestens zwei erfindungsgemäße Endgeräte; einen erfindungsgemäßen Server; und welches geeignet ist erfindungsgemäße Verfahren durchzuführen.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte des erfindungsgemäßen Verfahrens als erfindungsgemäßer Server auszuführen.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte des erfindungsgemäßen Verfahrens als erfindungsgemäßes Endgerät auszuführen.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Datenträgersignal, das das erfindungsgemäße Computerprogramm überträgt.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein computerlesbarer Datenträger, auf dem das erfindungsgemäße Computerprogramm gespeichert ist.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen ersten Computer diesen veranlassen, die Schritte des erfindungsgemäßen Verfahrens auszuführen und eine dabei erzeugte Datenausgabe an einen zweiten Computer zu senden.
  • Noch ferner wird erfindungsgemäß bereitgestellt, ein Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen zweiten Computer diesen veranlassen, eine durch Ausführung der Schritte des erfindungsgemäßen Verfahrens erzeugte Datenausgabe von einem ersten Computer zu empfangen und die empfangenen Daten geeignet darzustellen.
  • In einer Ausführungsform wird die erfindungsgemäße Methode rein web-basiert bereitgestellt, d.h. auf dem Nutzerendgerät des Teilnehmers wird nichts dauerhaft installiert. Alternativ oder ergänzend kann die erfindungsgemäße Methode in einer Anwendung bereitgestellt werden, die über einen Softwaredownload und eine Installation auf dem Nutzerendgerät bereitgestellt wird, dies ist ggf. stabiler und performanter als eine reine Web-App.
  • Es ist eine Kernidee der Erfindung, dass durch eine Gesichtserkennung, vorzugweise im Browser und/oder in dem Softwaresystem des jeweiligen Teilnehmers, und eine Ermittlung einer eindeutigen Personen ID, die entweder neu generiert oder aus Onlinedatenbank abgerufen wird, nur eine geringe Datenmenge, vorzugsweise wenige Byte, an Informationen pro Sekunde zur Nachbildung einer Videokonferenz übertragen werden müssen anstelle einer großen Datenmenge, z.B. einige Millionen Byte pro Sekunde bei herkömmlichen Videokonferenzsystemen.
  • Damit sind auch bei normalen Internetverbindungen mehrere hundert bis tausende Teilnehmer möglich, während herkömmliche Videokonferenzsysteme die Teilnehmerzahl aus oben genannten technischen Gründen auf wenige Teilnehmer, z.B. 20 Teilnehmer, begrenzen müssen.
  • Figurenliste
  • Die Erfindung wird nachfolgend mit Hilfe von Ausführungsbeispielen anhand der Figuren näher erläutert. Es zeigt:
    • 1 eine Ausführungsform des erfindungsgemäßen Systems.
  • Ausführliche Beschreibung der Zeichnungen
  • In einer Ausführungsform der Erfindung wird der Eindruck einer Videokonferenz vermittelt, ohne dass jedoch eine echte Übertragung der Videoaufnahmen der Teilnehmer durchgeführt wird. Jeder Teilnehmer verwendet für das Verfahren ein multimediafähiges Nutzerendgerät mit Audio und Videofunktionen.
  • Die Audioaufnahme wird, bevorzugt durch ein Mikrofon aufgenommen, digitalisiert und über das Internet an alle anderen Teilnehmer übertragen. Ferner wird jeder Teilnehmer durch eine Videokamera, die sein Endgerät aufweist oder zumindest damit verbunden ist, als Videobild aufgenommen.
  • Das Videobild wird zu einer zentralen Verarbeitungseinheit des Endgerätes transferiert und dort durch eine Gesichtserkennungssoftware analysiert. Die in der Gesichtserkennung ermittelten biometrischen Daten und bevorzugt deren Verhältnis zueinander, bevorzugt das Verhältnis von Mundbreite zu Augenabstand werden ausgewertet. Dazu wird in einer Online-Datenbank nach vorhandenen, bereits bekannten Aufnahmen der gleichen Person gesucht.
  • Falls die Person nicht erkannt wurde bzw. erstmalig erkannt wird, erfolgt ein Identifikationsprozess unter Angabe von persönlichen Daten ggf. auch von Pseudonymen etc. unter Beachtung der jeweiligen Bedingungen des Datenschutzes; es wird eine eindeutige Personen-ID, PID, generiert und in der zentralen Online-Datenbank gespeichert.
  • Zu dieser PID werden, bevorzugt konfigurationsgesteuert, weitere Daten abgespeichert, vorzugsweise einige typische Bilder, bevorzugt statische Bilder, d.h. keine Videos, der Person sowie Namen und/oder weitere organisationsbezogene Daten der Person.
  • Falls die Person mit hinreichend hoher Wahrscheinlichkeit erkannt wurde, wird eine eindeutige PID abgerufen.
  • Mit der eindeutig ermittelten Personen-ID = X wird ein zentraler Server über die Anwesenheit der Person mit der Personen-ID informiert und vorzugsweise alle gleichzeitig angeschlossenen N Teilnehmer werden über die Anwesenheit von Person X informiert.
  • Die Visualisierung der Teilnehmer erfolgt auf dem Endgerät vorzugsweise über Avatare, d.h. Symbolbilder, oder auch über echte Bilder, welche bevorzugt vorab gespeichert und an die Endgeräte von einem oder mehreren bestimmten Teilnehmern oder allen Teilnehmern verteilt werden.
  • In einer Ausführungsform der Erfindung werden die Visualisierung der Teilnehmer auf bereits auf den Endgeräten vorhandene Hintergrundgrafiken positioniert, diese Technik wird auch als Mapping bezeichnet, wodurch der Eindruck einer Sitzung in einer realen Umgebung, die dem Hintergrundbild entspricht, erzeugt wird. In bevorzugten Ausführungsformen wird der Eindruck eines realen Sitzungssaals der Organisation oder auch einer Sitzung in den Kulissen eines antiken Theaters hervorgerufen. Das Mapping von sich relativ langsam ändernden Bildern, beispielsweise etwa eine Änderung pro 10s, ist um Größenordnungen einfacher und schneller im Vergleich zu dem Mapping von einer großen Anzahl von Videos.
    In einer Ausführungsform der Erfindung erlaubt die verwendete Gesichtserkennung neben der Ermittlung der biometrischen Daten auch die Erkennung von Emotionen anhand des Gesichtsausdrucks. Damit können während der Kommunikationssitzung die Emotionen, vorzugsweise ein sich ändernder Gesichtsausdruck, der Teilnehmer bei Bedarf zusätzlich übertragen werden.
  • Auch kann je nach Emotion ein bereits auf dem Server und/oder auch auf den Teilnehmerendgerät befindliches Bild passgenau aus einer Menge von Bildern ausgewählt werden, beispielsweise wird je nach Emotion ein lachendes, neutrales oder grimmig blickendes Foto des betreffenden Teilnehmers gezeigt.
  • Die Erfinder haben erkannt, dass diese Live-Umschaltung, je nach emotionaler Stimmung, für Menschen eine wichtige Information aus einer Videokonferenz ist. Mit anderen Worten, für die Übertragung non-verbaler Kommunikation bedarf es eigentlich keiner andauernden Videoübertragung, stattdessen ist eine ungefähre Anzeige der emotionalen Resonanz ausreichend.
  • Die dazu nötige Übertragungsbandbreite beträgt, verglichen mit nur einer einzelnen normalen Videoübertragung mit ca. 1000 Byte/s bis 500 KByte/s (= 500.000 Byte/s) nur 2 x 10 Byte/s bei einer halbsekündlichen Aktualisierung.
  • Mit anderen Worten, es werden um einen Faktor 25.000 weniger Daten übertragen. Somit können entweder 25.000mal mehr Teilnehmer bei gleicher Bandbreite teilnehmen, oder die Netzqualität, beispielsweise bei einer mobilen Datenverbindung, kann entsprechend geringer sein.
  • In einer Ausführungsform der Erfindung ist eine Abstimmungsdurchführung vorgesehen. In Konferenzsituationen, beispielsweise in Gremiensitzungen in Verbandsorganisationen, Firmen oder öffentlichen Einrichtungen, sind Beschlussfassungen nach juristisch vorgegebenen Standards erforderlich. Mit den existierenden Videokonferenzsystemen ist dies nur eingeschränkt möglich, da keine sichere Identifikation und Abstimmungserkennung existiert.
  • In einer Ausführungsform der Erfindung erfolgt eine eindeutige Identifikation, wobei die Identifikation bei Hochsicherheitsanforderungen vorzugsweise vor Beginn der Sitzung, besonders bevorzugt der ersten Sitzung, einmalig in einer Hochsicherheitsumgebung erfolgt. In einer bevorzugten Ausführungsform ist diese Hochsicherheitssystem eine Computerlösung, die vom System zur Videoübertragung getrennt ausgeführt ist. Alternative oder ergänzend erfolgt die Identifikation in einer sicher ausgeführten ortsfesten oder mobilen Einrichtung, wobei sich sicher auf Abhörsicherheit und die dazu nötigen elektronischen baulichen Maßnahmen bezieht. In einer Ausführungsform wird die Einrichtung in einem speziell gesicherten Keller abhör- und funkwellenabgeschirmt ausgeführt. Gleiches gilt für eine mobile Einrichtung, vorzugsweise in einem Fahrzeug mit einem speziell gesicherten hinteren Bereich. Eine solche feste oder mobile Einrichtung ist vorzugsweise mit einer 100% Firewall und/oder als Faraday'scher Käfig ausgeführt. Die finale Übertragung der Personendaten erfolgt vorzugsweise manuell über einen mobilen Datenträger, vorzugsweise einen USB-Stick.
  • Während der Sitzung erfolgt die Identifikation durch eine Kombination aus der Gesichtserkennung zur Identifikation der Personen und durch eine fortlaufende Gesichts- und/oder Emotionserkennung.
  • In einer Ausführungsform der Erfindung wird eine Abstimmung wie folgt durchgeführt:
    • Basierend auf einem Trigger wird eine Versammlung gestartet, beispielsweise gibt der Versammlungsleiter den Beginn einer Abstimmung bekannt. Vorzugsweise wird nur während der Abstimmung eine Videoaufzeichnung der Gesichter der Teilnehmer durchgeführt, vorzugsweise mit etwa 1 bis 10 Bildern pro Sekunde, d.h. das entspricht einem groben Zeitraffer.
  • Alternativ oder ergänzend kann die Stimmvergabe während der Abstimmung basierend auf der Gesichtserkennung durchgeführt werden.
  • In einer Ausführungsform der Erfindung bittet der Versammlungsleiter die Teilnehmer:
    1. a. Um ein Lächeln für eine Zustimmung zu einer Beschlussvorlage,
    2. b. Ein überraschtes oder grimmiges Gesicht für eine Ablehnung, oder
    3. c. Ein neutrales Gesicht für eine Enthaltung.
  • Alternativ oder ergänzend wird bei einer Stimmauswertung per Gesichtserkennung die Abstimmung ein zweites Mal invers durchgeführt. In dieser Ausführungsform gilt eine Stimme nur dann, wenn die Gesichtserkennungen genau invertiert sind. So kann ausgeschlossen werden, dass eine fehlerhafte Interpretation eines Gesichtsausdrucks erfolgt, z.B. aufgrund von Narben oder Tätowierungen im Gesicht, wobei dauerhaft nur eine Emotion, z.B. ein Lächeln erkannt wird.
  • Mit der Aufzeichnung der Gesichtsbilder nur während einer vorzugsweise 10-sekündigen Abstimmungssequenz und einer anschließenden Speicherung, vorzugsweise auf einem Hochsicherheitsserver, kann auch nach der Abstimmung z.B. nach einem großen Zeitraum beispielsweise von zehn Jahren die Stimmvergabe bei Bedarf auf mögliche elektronische Fälschungen geprüft werden.
  • In einer Ausführungsform erfolgt die Stimmabgabe durch Erkennung einer Emotionssequenz.
  • Eine zusätzliche Sicherheitsebene kann generiert werden, wenn der Abstimmungsleiter noch zeitlich zufällige Vorgaben zu bestimmten, bevorzugt ebenfalls zufällig ausgewählten, Gesichtszügen vorgibt:
    • „Lächeln Sie jetzt, [1s ...], Drücken Sie JETZT Ihre Meinung zum Beschluss §321 durch ein Lächeln für Ja, ein überraschtes Gesicht für nein und ein neutrales Gesicht für Enthaltung für 2 s aus. Ziehen Sie abschließend zur finalen Bestätigung JETZT die Augenbrauen nach oben (oder wahlweise den rechten Mundwinkel nach unten).“
  • In den Ausführungsformen der Erfindung ist ein elektronischer Angriff sehr erschwert, da neben einer Übernahme der gesicherten Verbindungen auch qualitativ sehr hochwertige 3D-Gesichtsmodelle aller Teilnehmer generiert werden müssten, welche dann insbesondere bei der Sequenzerkennung auch noch in Echtzeit angesteuert werden müssten. Dies setzt sehr hohen Aufwand voraus und dürfte vom technischen Aufwand her dem Austausch von Stimmzetteln in einer versiegelten Wahlurne gleichkommen.
  • 1 zeigt eine Ausführungsform des erfindungsgemäßen Systems mit einer Anzahl, N Clients 100.1, 100.2, ... 100.N und einem Anwendungsserver, S1-S3, 400. Jeder Teilnehmer verfügt über einen jeweiligen Client 100.1, 100.2, ... 100.N. Sofern nicht anders gekennzeichnet, gelten die nachfolgenden Ausführungen für alle Clients. Im Client für einen Teilnehmer 1, mit Personen-ID, kurz PID, PID=1 wird über geeignete Mittel, z.B. eine Kamera 101.1 ein Video des Teilnehmers erfasst. In jedem Client wird über geeignete Mittel, z.B. ein Mikrofon 102.1 ein Audio des Teilnehmers erfasst.
  • Das Audio wird über eine Audioerkennungseinheit und eine Audioübertragungseinheit 105.1 an einen Audio-Konzentrator, S3, 403 in einem zentralen Anwendungsserver, S1-S3, 400 übertragen. Vorzugsweise enthält die Audioübertragung noch Informationen über die ID des Teilnehmers PID und einen Zeitstempel.
  • Das Video wird in einer Gesichtserkennungseinheit 104.1 des Client 100.1 weiterverarbeitet. Dabei wird bevorzugt mit Methoden der künstlichen Intelligenz ein Gesicht erkannt und ein Gesichtsdatensatz GD bestimmt. Der Gesichtsdatensatz wird dann an einen zentralen Sitzungsverwaltungsserver, S1, 401 übertragen. Die Übertragung enthält vorzugsweise noch weitere Informationen über die PID und einen Zeitstempel, ZeitID.
  • In dem Sitzungsverwaltungsserver, S1, 401 wird vorzugsweise eine Anmeldung durchgeführt. Alternativ oder ergänzend wird eine Überwachung der Anwesenheit und/oder eine Speicherung von Protokollen und Abstimmungsergebnissen durchgeführt.
  • In einem Statuskonzentrator, S2, 402 werden alle GD zu einem gemeinsamen Datensatz, GDAII, zusammengefasst. Der Statuskonzentrator 402 ist dafür vorzugsweise funktional mit dem Sitzungsverwaltungsserver 401 verbunden und fasst alle GD zu einem GDAII zusammen mit GDAII = Zusammenfassung ( GD ( i ,t ) , f u ¨ r i = 1 N
    Figure DE102020209058A1_0001
    Der gemeinsame Gesichtsdatensatz GDAII wird dann zurück an jeden der Clients 100.1, 100.2, ..., 100.N übertragen und dort in einem Sitzungsvisualisierungsmodul 108.1 verarbeitet. In einer Ausführungsform werden zur Visualisierung vorab ausgetauschte Bilder der Teilnehmer, die vorzugsweise den GD des jeweiligen Teilnehmers entsprechen, angezeigt. Die Anzeige der Visualisierung erfolgt mit einem geeigneten Darstellungsmittel 103.1, z.B. einem Monitor oder einer VR/AR-Brille.
  • In dem Audiokonzentrator, S3, 403 werden alle eingehenden Audio Datensätze, AD ausgewertet und ein gemeinsamer Audiodatensatz für alle Teilnehmer erstellt. Vorzugweise wird bei der Auswertung ein oder mehrere Audiodatensätze eines oder mehrerer Teilnehmer selektiert. ADSel = Selektion ( AD ( i ,t ) ) mit i = 1 N
    Figure DE102020209058A1_0002
    Vorzugsweise basiert die Selektion auf einer Voreinstellung durch den Nutzer. Alternativ oder ergänzend kann die Selektion des Audiodatensatzes des jeweiligen Redners erfolgen.
  • Der gemeinsame Audiodatensatz wird dann zurück an jeden der Clients 100.1, 100.2, ..., 100.N übertragen und dort in einem Audioübertragungsmodul 107.1 verarbeitet. Das Audioübertragungsmodul erzeugt dabei eine Audioausgabe, die auch einem geeigneten Ausgabemittel, z.B. einem Lautsprecher 106.1 wiedergegeben wird.
  • Die Aktualisierung und der Versand aller Datensätze erfolgt vorzugsweise in T-Zeiteinheiten (T = 0.01..2 s).
  • In einer Ausführungsform sind alle Clients identisch. Alternativ oder ergänzend kann auf einem oder mehreren Clients nur eine Audioausgabe und/oder nur eine Videoausgabe erfolgen.
  • Obwohl die Erfindung im Detail durch die Ausführungsbeispiele näher illustriert und beschrieben wurde, so ist die Erfindung nicht durch die offenbarten Beispiele eingeschränkt und andere Variationen können vom Fachmann hieraus abgeleitet werden, ohne den Schutzumfang der Erfindung zu verlassen.

Claims (17)

  1. Verfahren zur Kommunikation zwischen mindestens Endgeräten von zwei Teilnehmern, wobei auf dem Endgerät eines jeden Teilnehmers kontinuierlich ein Videosignal des Teilnehmers erfasst und verarbeitet wird; wobei in jedem Verarbeitungsschritt auf dem Endgerät eines jeden Teilnehmers das Gesicht des Teilnehmers erkannt wird und ein Gesichtsdatensatz bestimmt wird; wobei in einem ersten vorbestimmten Zeitintervall von dem Endgerät eines jeden Teilnehmers der jeweilige aktuelle Gesichtsdatensatz an einen ersten zentralen Server übermittelt wird; wobei in einem zweiten vorbestimmten Zeitintervall von dem ersten zentralen Server an das Endgerät eines jeden Teilnehmers einen zusammengefügten Gesichtsdatensatz der jeweils anderen Teilnehmer übermittelt wird; und wobei auf dem jeweiligen Endgerät eines jeden Teilnehmers eine visuelle Darstellung der jeweils anderen Teilnehmer basierend auf dem jeweiligen zusammengefügten Gesichtsdatensatz erstellt wird.
  2. Das Verfahren nach Anspruch 1, wobei von jedem Teilnehmer ein Audiosignal an einen zweiten zentralen Server übermittelt wird; und wobei im zweiten zentralen Server die Audiosignale der Teilnehmer kombiniert verarbeitet werden und ein kombiniertes Audiosignal an alle Teilnehmer übermittelt wird.
  3. Das Verfahren nach Anspruch 1 oder 2, wobei der Gesichtsdatensatz mindestens eine der folgenden Informationen enthält: biometrische Daten zu dem erkannten Gesicht, vorzugsweise den Mund und/oder Augenabstand; und Informationen zu einer detektierten Emotion in dem erkannten Gesicht.
  4. Das Verfahren nach einem der Ansprüche 1 bis 3, wobei in einem Authentifizierungsschritt auf einem dritten zentralen Server basierend auf einer Gesichtserkennung und einer Datenbank, bevorzugt einer Nutzer-Datenbank, die Identität eines jeden Teilnehmers überprüft wird und jedem Teilnehmer eine eindeutige Kennzeichnung zugeordnet wird; wobei nach erfolgter Authentifizierung den jeweils anderen Teilnehmern die eindeutige Kennzeichnung des Teilnehmers vom dritten zentralen Server übermittelt wird.
  5. Das Verfahren nach einem der Ansprüche 1 bis 4; wobei bei einer erstmaligen Authentifizierung eine videobasierte Identitätsfeststellung erfolgt, eine eindeutige Kennzeichnung des Teilnehmers festgelegt und in der Datenbank gespeichert wird; und/oder wobei bei der erstmaligen Authentifizierung mindestens ein vorbestimmtes charakteristisches Einzelbild des Teilnehmers in der Datenbank gespeichert wird; und wobei das mindestens eine vorbestimmte charakteristische Einzelbild vorzugsweise bei der videobasierten Authentifizierung erfasst wird.
  6. Das Verfahren nach einem der Ansprüche 1 bis 5, wobei die Visualisierung der jeweils anderen Teilnehmer basierend auf einem Avatar erfolgt und/oder basierend auf den vorbestimmten charakteristischen Einzelbildern des anderen Teilnehmers erfolgt; und wobei bevorzugt der Avatar und/oder die vorbestimmten charakteristischen Einzelbildern vor der Kommunikation aus der Datenbank an das Endgerät des jeweiligen Teilnehmers übertragen werden.
  7. Das Verfahren nach einem der Ansprüche 1 bis 6, wobei die Visualisierung auf eine statische und/oder zeitlich veränderliche Hintergrundgrafik gemappt wird.
  8. Das Verfahren nach einem der Ansprüche 1 bis 7, wobei in einem Abstimmungsschritt während der Kommunikation eine Abstimmung durchgeführt wird; und wobei in dem Abstimmungsschritt von einem vierten zentralen Server eine Zustimmung und/oder eine Ablehnung eines jeden Teilnehmers basierend auf einem oder mehreren Gesichtsdatensätzen des jeweiligen Teilnehmers bestimmt wird.
  9. Das Verfahren nach einem der Ansprüche 1 bis 8, wobei einer oder mehrere des ersten, zweiten, dritten, und vierten zentralen Servers gemeinsam ausgeführt sind.
  10. Endgerät zur Kommunikation zwischen mindestens zwei Teilnehmern, welches aufweist: Audioaufnahmemittel; Videoaufnahmemittel; Kommunikationsmittel geeignet zur Kommunikation mit einem oder mehreren zentralen Servern; Darstellungsmittel; Datenverarbeitungsmittel die geeignet sind das Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen.
  11. Server zur Kommunikation zwischen mindestens zwei Teilnehmern, welcher aufweist: Kommunikationsmittel geeignet zur Kommunikation mit mindestens zwei Endgeräten aus Anspruch 10, Datenverarbeitungsmittel die geeignet sind das Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen.
  12. System zur Kommunikation zwischen mindestens zwei Teilnehmern, welches aufweist: mindestens zwei Endgeräte nach Anspruch 10; einen Server nach Anspruch 11; und und welches geeignet ist das Verfahren nach einem der Ansprüche 1 bis 9 durchzuführen.
  13. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte des Verfahrens nach einem der Ansprüche 1 bis 9 als Server nach Anspruch 11 auszuführen.
  14. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen Computer diesen veranlassen, die Schritte des Verfahrens nach einem der Ansprüche 1 bis 9 als Endgerät nach Anspruch 10 auszuführen.
  15. Computerlesbarer Datenträger, auf dem das Computerprogramm nach einem der Ansprüche 13 oder 14 gespeichert ist.
  16. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen ersten Computer diesen veranlassen, das Verfahren nach einem der Ansprüche 1 bis 9 auszuführen und eine dabei erzeugte Datenausgabe an einen zweiten Computer zu senden.
  17. Computerprogramm, umfassend Befehle, die bei der Ausführung des Programms durch einen zweiten Computer diesen veranlassen, eine durch Ausführung des Verfahrens nach einem der Ansprüche 1 bis 9 erzeugte Datenausgabe von einem ersten Computer zu empfangen und die empfangenen Daten geeignet darzustellen.
DE102020209058.0A 2020-07-20 2020-07-20 Verfahren und System zur Kommunikation zwischen Endgeräten Pending DE102020209058A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020209058.0A DE102020209058A1 (de) 2020-07-20 2020-07-20 Verfahren und System zur Kommunikation zwischen Endgeräten

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020209058.0A DE102020209058A1 (de) 2020-07-20 2020-07-20 Verfahren und System zur Kommunikation zwischen Endgeräten

Publications (1)

Publication Number Publication Date
DE102020209058A1 true DE102020209058A1 (de) 2022-01-20

Family

ID=79021196

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020209058.0A Pending DE102020209058A1 (de) 2020-07-20 2020-07-20 Verfahren und System zur Kommunikation zwischen Endgeräten

Country Status (1)

Country Link
DE (1) DE102020209058A1 (de)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169906A1 (en) 2002-02-26 2003-09-11 Gokturk Salih Burak Method and apparatus for recognizing objects
US9479736B1 (en) 2013-03-12 2016-10-25 Amazon Technologies, Inc. Rendered audiovisual communication
US20200228359A1 (en) 2010-06-07 2020-07-16 Affectiva, Inc. Live streaming analytics within a shared digital environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030169906A1 (en) 2002-02-26 2003-09-11 Gokturk Salih Burak Method and apparatus for recognizing objects
US20200228359A1 (en) 2010-06-07 2020-07-16 Affectiva, Inc. Live streaming analytics within a shared digital environment
US9479736B1 (en) 2013-03-12 2016-10-25 Amazon Technologies, Inc. Rendered audiovisual communication

Similar Documents

Publication Publication Date Title
EP1454285B1 (de) Videoüberwachungssystem mit objektmaskierung
DE102020125616A1 (de) Datenschutz beim screen sharing während einer webkonferenz
EP0814611A2 (de) Kommunikationssystem und Verfahren zur Aufnahme und Verwaltung digitaler Bilder
WO2002104025A2 (de) Privacy-filter
DE102014004069A1 (de) Verfahren, Softwareprodukt und Vorrichtung zur Steuerung einer Konferenz
EP1976291B1 (de) Verfahren und videokommunikationssystem zur Gestik-basierten Echtzeit-Steuerung eines Avatars
DE102020209058A1 (de) Verfahren und System zur Kommunikation zwischen Endgeräten
EP1418758A1 (de) Verfahren und Vorrichtung zum Informationsaustausch sowie entsprechendes Computerprogramm-Erzeugnis und entsprechendes cumputerlesbares Speichermedium
EP3376419B1 (de) System und verfahren zum elektronischen signieren eines dokuments
DE60208199T2 (de) Verfahren zur Verarbeitung eines Texts, einer Geste, eines Gesichtsausdruckes und/oder Verhaltensbeschreibung mit einer Prüfung auf Autorisierung für die Verwendung entsprechender Profile für die Synthese
EP3926442A1 (de) Videokonferenzverfahren und videokonferenzsystem
DE4339075C2 (de) Verfahren sowie Kamera-Überwachungsvorrichtung zum Erzeugen eines digitalen Bildes
EP2462557B1 (de) Verfahren zur videoanalyse
WO2021156066A1 (de) Computerimplementiertes autorisierungsverfahren
EP4187855A1 (de) Computer-implementiertes videokonferenz-verfahren
EP2779536A1 (de) Verfahren und Vorrichtung zur Verwaltung von Kommunikationsvorgängen
EP1168829A2 (de) Verfahren zur Durchführung von Livesendungen mit Bildeinspielung
DE19734511A1 (de) Kommunikationseinrichtung
DE19948546A1 (de) Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten
DE102023001761A1 (de) Verfahren zur Durchführung einer Videokonferenz in einem Fahrzeug
DE10056762B4 (de) Verfahren zum Erstellen elektronischer Nachrichten
EP3107029A1 (de) Verfahren und vorrichtung zum personalisierten elektronischen signieren eines dokuments und computerprogrammprodukt
DE102023005306A1 (de) Verfahren und Fahrzeug zum Teilnehmen an Gesprächsrunden
WO2021213797A1 (de) Verfahren zum schützen von personenbezogenen daten
DE102004050188B4 (de) Verfahren zur geschützten Übertragung von Bild und/oder Tondaten

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication