DE102023114371A1

DE102023114371A1 - Autofokus auf lautsprecher während kommunikationskonferenzen mit mehreren teilnehmern

Info

Publication number: DE102023114371A1
Application number: DE102023114371.9A
Authority: DE
Inventors: Prateek SINGH; Divyarajsinh Jadeja; Mittali Jangid; Dean Beightol
Original assignee: Avaya Man Lp; Avaya Management LP
Current assignee: Avaya Man Lp; Avaya Management LP
Priority date: 2022-06-08
Filing date: 2023-06-01
Publication date: 2023-12-14
Also published as: US20230403366A1

Abstract

Ein Verfahren zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung umfasst das Empfangen eines Videos, das von einer Szene aufgenommen wurde, die eine Vielzahl von Bildern von Teilnehmern der Kommunikationssitzung enthält, das Identifizieren der Vielzahl von Bildern der Teilnehmer in dem Video, das von der Szene aufgenommen wurde, das Erkennen von Audio von mindestens einem der Teilnehmer, das Erkennen von Gesichtsbewegungen in einem der Bilder der Vielzahl von Bildern und das Gleichsetzen des erkannten Audios mit der erkannten Bewegung in dem einen der Bilder der Vielzahl von Bildern. Das Verfahren umfasst auch die Auswahl des einen Bildes aus der Vielzahl von Bildern als Sprecher auf der Grundlage der Gleichsetzung des erkannten Tons mit der erfassten Bewegung in dem einen Bild, das Heranzoomen des Sprechers und das Herausfiltern der restlichen Bilder aus der Vielzahl von Bildern.

Description

GEBIET
Die vorliegende Offenbarung bezieht sich allgemein auf Systeme und Verfahren für Kommunikationskonferenzen mit mehreren Teilnehmern und insbesondere auf Systeme und Verfahren zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationskonferenz mit mehreren Teilnehmern.
HINTERGRUND
Bei der Wiedereröffnung von Büros, die in den letzten Jahren geschlossen waren, ergibt sich das Problem, dass einige Mitarbeiter immer noch aus der Ferne arbeiten, während andere Mitarbeiter vor Ort arbeiten (d. h. ins Büro kommen oder sich an einem gemeinsamen Treffpunkt versammeln). Bei der Durchführung von Kommunikationskonferenzen mit mehreren Teilnehmern, bei denen sich mehr als ein Teilnehmer am selben Ort befindet und ein einziges Kommunikationsgerät verwendet wird, ist die Sicht an diesem Ort die Sicht aller Teilnehmer. Mit anderen Worten: Die Ansicht am Standort zeigt die Sprecher und Nicht-Sprecher der Kommunikationssitzung. Selbst wenn einer der Teilnehmer spricht und die anderen Teilnehmer entweder der Diskussion während der Kommunikationssitzung zuhören oder Aktivitäten nachgehen, die nichts mit der Kommunikationssitzung zu tun haben (z. B. das Überprüfen von Mobilgeräten oder die Teilnahme an Diskussionen, die nichts mit der Kommunikationssitzung zu tun haben), ist die Ansicht am Standort immer noch die Ansicht aller Teilnehmer. Diese nicht mit der Kommunikation zusammenhängenden Tätigkeiten können die anderen Teilnehmer der Konferenz mit mehreren Teilnehmern stören oder ablenken.
Eine herkömmliche Technik zur Lösung dieses Problems besteht darin, auf den sprechenden Teilnehmer zu zoomen. Diese Technik geht jedoch nicht auf das Problem der Hintergrundgeräusche ein, die entstehen, wenn sich die anderen Teilnehmer an nicht zusammenhängenden Diskussionen beteiligen. Eine andere Technik, die zur Lösung dieses Problems eingesetzt wird, besteht darin, den Hintergrund auszublenden, wenn einer der Teilnehmer zu sprechen beginnt. Auch bei dieser Technik wird das Problem der Hintergrundgeräusche, die entstehen, wenn die anderen Teilnehmer nicht zugehörige Gespräche führen, nicht gelöst.
Daher besteht ein Bedarf an Systemen und Verfahren zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationskonferenz mit mehreren Teilnehmern, indem sowohl die Bild- als auch die Sprachinformationen eines Sprechers mit registrierten Gesichts- und Stimmabdrücken unter Verwendung von Künstlicher Intelligenz (KI) abgeglichen und die Bild- und Sprachinformationen der anderen Teilnehmer herausgefiltert werden.
ZUSAMMENFASSUNG
Diese und andere Anforderungen werden durch die verschiedenen Ausführungsformen und Konfigurationen der vorliegenden Offenbarung erfüllt. Die vorliegende Offenbarung kann je nach der jeweiligen Konfiguration eine Reihe von Vorteilen bieten. Diese und andere Vorteile werden aus der darin enthaltenen Offenbarung ersichtlich sein.
Die Ausdrücke „mindestens eines“, „eines oder mehrere“ und „und/oder“ sind unbestimmte Ausdrücke, die sowohl konjunktiv als auch disjunktiv verwendet werden können. Zum Beispiel bedeutet jeder der Ausdrücke „mindestens eines von A, B und C“, „mindestens eines von A, B oder C“, „eines oder mehrere von A, B und C“, „eines oder mehrere von A, B oder C“ und „A, B und/oder C“ A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen oder A, B und C zusammen.
Der Begriff „eine“ oder „eine“ Einheit bezieht sich auf eine oder mehrere dieser Einheiten. Die Begriffe „eine“ (oder „ein“), „eine oder mehrere“ und „mindestens eine“ können hier austauschbar verwendet werden. Es ist auch zu beachten, dass die Begriffe „umfassend“, „einschließlich“ und „mit“ austauschbar verwendet werden können.
Der Begriff „automatisch“ und Variationen davon beziehen sich auf jeden Prozess oder Vorgang, der ohne materielle menschliche Eingaben durchgeführt wird, wenn der Prozess oder Vorgang ausgeführt wird. Ein Prozess oder Vorgang kann jedoch automatisch sein, auch wenn die Durchführung des Prozesses oder Vorgangs materielle oder immaterielle menschliche Eingaben erfordert, wenn die Eingaben vor der Durchführung des Prozesses oder Vorgangs eingehen. Menschliche Eingaben gelten als wesentlich, wenn sie die Durchführung des Prozesses oder Vorgangs beeinflussen. Menschlicher Input, der der Durchführung des Verfahrens oder Vorgangs zustimmt, gilt nicht als „wesentlich“.
Der hier verwendete Begriff „Konferenz“ bezieht sich auf eine Kommunikation oder eine Reihe von Kommunikationen, einschließlich Audio-, Video-, Text- oder anderen Multimediadaten, zwischen zwei oder mehreren Kommunikationsendpunkten und/oder Benutzern. In der Regel umfasst eine Konferenz zwei oder mehr Kommunikationsendpunkte. Die Begriffe „Konferenz“ und „Konferenzgespräch“ werden in dieser Spezifikation synonym verwendet.
Der hier verwendete Begriff „Kommunikationsgerät“ oder „Kommunikationsendpunkt“ bezieht sich auf ein beliebiges Hardwaregerät und/oder eine beliebige Software, die für eine Kommunikationssitzung eingesetzt werden kann. Ein Kommunikationsgerät kann zum Beispiel ein IP-fähiges Telefon, ein Tischtelefon, ein Mobiltelefon, ein persönlicher digitaler Assistent, ein Soft-Client-Telefonprogramm, das auf einem Computersystem ausgeführt wird, usw. sein. IP-fähige Hard- oder Softphones können so modifiziert werden, dass sie die Operationen gemäß den Ausführungsformen der vorliegenden Offenbarung ausführen.
Der hier verwendete Begriff „Netz“ bezieht sich auf ein System, das von einem oder mehreren Benutzern zur Kommunikation verwendet wird. Das Netz kann aus einem oder mehreren Sitzungsmanagern, Funktionsservern, Kommunikationsendpunkten usw. bestehen, die die Kommunikation, sei es Sprache oder Daten, zwischen zwei Benutzern ermöglichen. Ein Netzwerk kann ein beliebiges Netzwerk oder Kommunikationssystem sein, wie in Verbindung mit 1 beschrieben. Im Allgemeinen kann ein Netzwerk ein Local Area Network (LAN), ein Wide Area Network (WAN), ein drahtloses LAN, ein drahtloses WAN, das Internet usw. sein, das Nachrichten oder Daten zwischen Geräten empfängt und überträgt. Ein Netzwerk kann in jedem in der Technik bekannten Format oder Protokoll kommunizieren, wie Transmission Control Protocol/IP (TCP/IP), 802.11g, 802.11n, Bluetooth oder andere Formate oder Protokolle.
Der Begriff „Kommunikationsereignis“ und seine abgewandelten Formen umfassen: (i) ein Sprachkommunikationsereignis, einschließlich, aber nicht beschränkt auf einen Sprachtelefonanruf oder eine Sprachsitzung, wobei das Ereignis in einem Sprachmedienformat vorliegt, oder (ii) ein visuelles Kommunikationsereignis, wobei das Ereignis in einem Videomedienformat oder einem bildbasierten Medienformat vorliegt, oder (iii) ein Textkommunikationsereignis, einschließlich, aber nicht beschränkt auf Instant Messaging, Internet-Relay-Chat, E-Mail, Kurznachrichtendienst, Usenet-ähnliche Postings usw., wobei das Ereignis in einem Textmedienformat vorliegt, oder (iv) eine beliebige Kombination von (i), (ii) und (iii).
Der Begriff „Kommunikationssystem“ oder „Kommunikationsnetz“ und Variationen davon, wie er hier verwendet wird, kann sich auf eine Sammlung von Kommunikationskomponenten beziehen, die in der Lage sind, Informationen oder Daten von mindestens einem Sender zu mindestens einem Empfänger zu übertragen, weiterzuleiten, zu verbinden, zu steuern oder anderweitig zu manipulieren. Als solche kann die Kommunikation eine Reihe von Systemen umfassen, die eine Punkt-zu-Punkt-Übertragung oder eine Übertragung der Informationen oder Daten unterstützen. Ein Kommunikationssystem kann sich auf die Gesamtheit der einzelnen Kommunikationshardware sowie auf die mit der einzelnen Kommunikationshardware verbundenen und sie verbindenden Verbindungen beziehen. Kommunikationshardware kann sich auf spezielle Kommunikationshardware beziehen oder auf einen Prozessor, der mit einem Kommunikationsmittel (z. B. einer Antenne) gekoppelt ist und auf dem eine Software läuft, die das Kommunikationsmittel zum Senden und/oder Empfangen eines Signals innerhalb des Kommunikationssystems nutzen kann. Interconnect bezieht sich auf eine Art von verdrahteter oder drahtloser Kommunikationsverbindung, die verschiedene Komponenten, wie z. B. Kommunikationshardware, innerhalb eines Kommunikationssystems miteinander verbindet. Ein Kommunikationsnetz kann sich auf einen bestimmten Aufbau eines Kommunikationssystems mit einer Sammlung einzelner Kommunikationshardware und Verbindungen beziehen, die eine definierbare Netzwerktopographie aufweisen. Ein Kommunikationsnetz kann ein verdrahtetes und/oder ein drahtloses Netz mit einer voreingestellten oder einer Ad-hoc-Netzstruktur umfassen.
Der Begriff „computerlesbares Medium“, wie er hier verwendet wird, bezieht sich auf jedes greifbare Speicher- und/oder Übertragungsmedium, das an der Bereitstellung von Anweisungen für einen Prozessor zur Ausführung beteiligt ist. Bei dem computerlesbaren Speichermedium kann es sich beispielsweise, aber nicht ausschließlich, um ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, einen Apparat oder eine Vorrichtung oder um eine geeignete Kombination der vorgenannten handeln. Zu den spezifischeren Beispielen (eine nicht erschöpfende Liste) für ein computerlesbares Speichermedium gehören: eine elektrische Verbindung mit einem oder mehreren Drähten, eine tragbare Computerdiskette, eine Festplatte usw. Ein solches Medium kann viele Formen annehmen, einschließlich, aber nicht beschränkt auf, nichtflüchtige Medien, flüchtige Medien und Übertragungsmedien. Zu den nichtflüchtigen Medien gehören z. B. nichtflüchtige Direktzugriffsspeicher (NVRAM) oder magnetische oder optische Festplatten. Zu den flüchtigen Medien gehört der dynamische Speicher, z. B. der Hauptspeicher. Gängige Formen von computerlesbaren Medien sind z. B. Disketten, flexible Platten, Festplatten, Magnetbänder oder andere magnetische Medien, magneto-optische Medien, Compact-Disk-Read-Only-Memory (CD-ROM), andere optische Medien, Lochkarten, Papierbänder, jedes andere physikalische Medium mit Lochmustern, ein RAM, ein programmierbares ROM (PROM), ein löschbares PROM (EPROM), ein Flash-EPROM, ein Festkörpermedium wie eine Speicherkarte, ein anderer Speicherchip oder eine Speicherkassette, eine Trägerwelle, wie im Folgenden beschrieben, oder jedes andere Medium, von dem ein Computer lesen kann. Eine digitale Datei, die einer E-Mail oder einem anderen in sich geschlossenen Informationsarchiv oder einer Reihe von Archiven beigefügt ist, gilt als Verteilungsmedium, das einem materiellen Speichermedium entspricht. Wenn das computerlesbare Medium als Datenbank konfiguriert ist, kann die Datenbank jede Art von Datenbank sein, z. B. eine relationale, hierarchische, objektorientierte und/oder ähnliche. Dementsprechend wird davon ausgegangen, dass die Offenbarung ein materielles Speichermedium oder Verteilungsmedium sowie nach dem Stand der Technik anerkannte Äquivalente und Nachfolgemedien umfasst, in denen die Softwareimplementierungen der vorliegenden Offenbarung gespeichert sind.
Ein Medium für ein „computerlesbares Signal“ kann ein übertragenes Datensignal mit einem darin verkörperten computerlesbaren Programmcode umfassen, beispielsweise im Basisband oder als Teil einer Trägerwelle. Ein solches übertragenes Signal kann eine beliebige Form annehmen, einschließlich, aber nicht beschränkt auf, elektromagnetische oder optische Signale oder eine geeignete Kombination davon. Ein computerlesbares Signalmedium kann jedes computerlesbare Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät übermitteln, verbreiten oder transportieren kann. Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann über jedes geeignete Medium übertragen werden, einschließlich, aber nicht beschränkt auf drahtlose, drahtgebundene, optische Faserkabel, Hochfrequenz (RF) usw. oder jede geeignete Kombination der vorgenannten Medien.
Eine „Datenbank“ ist eine organisierte Sammlung von Daten, die in einem Computer gespeichert sind. Die Daten sind in der Regel so organisiert, dass sie relevante Aspekte der Realität (z. B. die Verfügbarkeit bestimmter Arten von Beständen) in einer Weise modellieren, die Prozesse unterstützt, die diese Informationen benötigen (z. B. die Suche nach einer bestimmten Art von Beständen). Das Organisationsschema oder Modell für die Daten kann z. B. hierarchisch, netzwerkartig, relational, entitätsbezogen, objektbezogen, dokumentbezogen, XML, entitätsbezogenes Attribut-Wert-Modell, Sternschema, objektbezogen, assoziativ, multidimensional, mehrwertig, semantisch und andere Datenbankkonzepte sein. Zu den Datenbanktypen gehören beispielsweise aktive, Cloud-, Data-Warehouse-, deduktive, verteilte, dokumentenorientierte, eingebettete, Endbenutzer-, föderierte, Graphen-, Hypertext-, Hypermedia-, In-Memory-, Wissensbasis-, mobile, operative, parallele, probabilistische, Echtzeit-, räumliche, zeitliche, terminologieorientierte und unstrukturierte Datenbanken. Datenbankmanagementsysteme (DBMS) sind speziell entwickelte Anwendungen, die mit dem Benutzer, anderen Anwendungen und der Datenbank selbst interagieren, um Daten zu erfassen und zu analysieren.
Die Begriffe „ermitteln“, „berechnen“ und „rechnen“ sowie Abwandlungen davon werden austauschbar verwendet und umfassen jede Art von Methodik, Prozess, mathematischer Operation oder Technik.
Der Begriff „elektronische Adresse“ bezieht sich auf jede kontaktierbare Adresse, einschließlich Telefonnummer, Instant-Message-Handle, E-Mail-Adresse, Universal Resource Locator (URL), Universal Resource Identifier (URI), Address of Record (AOR), elektronischer Alias in einer Datenbank, ähnliche Adressen und Kombinationen davon.
Ein „Unternehmen“ bezieht sich auf eine geschäftliche und/oder staatliche Organisation, wie z. B. eine Kapitalgesellschaft, eine Personengesellschaft, ein Joint Venture, eine Behörde, eine militärische Einrichtung und dergleichen.
Ein geografisches Informationssystem (GIS) ist ein System zur Erfassung, Speicherung, Bearbeitung, Analyse, Verwaltung und Präsentation aller Arten von geografischen Daten. Ein GIS kann als ein System betrachtet werden - es erstellt und „manipuliert“ digital räumliche Bereiche, die gerichtlich, zweckmäßig oder anwendungsorientiert sein können. In einem allgemeinen Sinne beschreibt GIS jedes Informationssystem, das geografische Informationen integriert, speichert, bearbeitet, analysiert, weitergibt und anzeigt, um die Entscheidungsfindung zu unterstützen.
Die Begriffe „Sofortnachricht“ und „Instant Messaging“ beziehen sich auf eine Form der Echtzeit-Textkommunikation zwischen zwei oder mehreren Personen, die in der Regel auf getipptem Text basiert. Instant Messaging kann ein Kommunikationsereignis sein.
Der Begriff „Internet-Suchmaschine“ bezieht sich auf eine Web-Suchmaschine, die für die Suche nach Informationen im World Wide Web und auf FTP-Servern (File Transfer Protocol) entwickelt wurde. Die Suchergebnisse werden im Allgemeinen in einer Ergebnisliste dargestellt, die oft als Suchmaschinen-Ergebnisseiten (SERPS) bezeichnet wird. Die Informationen können aus Webseiten, Bildern, Informationen und anderen Dateitypen bestehen. Einige Suchmaschinen nutzen auch Daten aus Datenbanken oder offenen Verzeichnissen. Web-Suchmaschinen arbeiten, indem sie Informationen über viele Webseiten speichern, die sie aus der HTML selbst abrufen. Diese Seiten werden von einem Webcrawler (manchmal auch als Spider bezeichnet) abgerufen - einem automatisierten Webbrowser, der jedem Link auf der Website folgt. Der Inhalt jeder Seite wird dann analysiert, um zu bestimmen, wie sie indiziert werden soll (zum Beispiel werden Wörter aus den Titeln, Überschriften oder speziellen Feldern, den so genannten Meta-Tags, extrahiert). Die Daten über die Webseiten werden in einer Indexdatenbank gespeichert und können bei späteren Abfragen verwendet werden. Einige Suchmaschinen, wie z. B. Google™, speichern die gesamte oder einen Teil der Quellseite (als Cache bezeichnet) sowie Informationen über die Webseiten, während andere, wie z. B. AltaVista™, jedes Wort jeder gefundenen Seite speichern.
Der Begriff „Mittel“, wie er hier verwendet wird, ist gemäß 35 U.S.C., Abschnitt 112, Absatz 6 so weit wie möglich auszulegen. Dementsprechend umfasst ein Anspruch, der den Begriff „Mittel“ enthält, alle hierin beschriebenen Strukturen, Materialien oder Handlungen sowie alle Äquivalente davon. Ferner umfassen die Strukturen, Materialien oder Handlungen und deren Äquivalente alle in der Zusammenfassung der Erfindung, der Kurzbeschreibung der Zeichnungen, der detaillierten Beschreibung, der Zusammenfassung und den Ansprüchen selbst beschriebenen.
Der hier verwendete Begriff „Modul“ bezieht sich auf jede bekannte oder später entwickelte Hardware, Software, Firmware, künstliche Intelligenz, Fuzzy-Logik oder Kombination von Hardware und Software, die in der Lage ist, die mit diesem Element verbundene Funktionalität auszuführen.
Ein „Server“ ist ein Computersystem (z. B. mit Software und geeigneter Computer-Hardware), das auf Anfragen über ein Computernetz reagiert, um einen Netzdienst bereitzustellen oder bei der Bereitstellung eines solchen Dienstes zu helfen. Server können auf einem speziellen Computer betrieben werden, der oft auch als „der Server“ bezeichnet wird, aber viele vernetzte Computer sind in der Lage, Server zu hosten. In vielen Fällen kann ein Computer mehrere Dienste anbieten und mehrere Server laufen lassen. Server arbeiten in der Regel in einer Client-Server-Architektur, in der Server Computerprogramme sind, die die Anfragen anderer Programme, nämlich der Clients, bedienen. Die Clients verbinden sich in der Regel über das Netzwerk mit dem Server, können aber auch auf demselben Computer laufen. Im Zusammenhang mit IP-Netzwerken ist ein Server oft ein Programm, das als Socket-Listener arbeitet. Ein alternatives Modell, das Peer-to-Peer-Netzwerkmodul, ermöglicht es allen Computern, je nach Bedarf entweder als Server oder als Client zu fungieren. Server stellen oft wichtige Dienste in einem Netzwerk bereit, entweder für private Benutzer innerhalb einer großen Organisation oder für öffentliche Benutzer über das Internet.
Der hier verwendete Begriff „Schall“ oder „Geräusche“ bezieht sich auf Schwingungen (Druckänderungen), die ein Gas, eine Flüssigkeit oder einen Festkörper mit verschiedenen Frequenzen durchdringen. Schall(e) können als Druckunterschiede über die Zeit gemessen werden und umfassen Frequenzen, die für Menschen und andere Tiere hörbar oder unhörbar sind. Schall(e) können hier auch als Frequenzen bezeichnet werden.
Die Begriffe „Audio-Ausgangspegel“ und „Lautstärke“ werden austauschbar verwendet und beziehen sich auf die Amplitude des Schalls, der bei der Anwendung auf ein Tonerzeugungsgerät erzeugt wird.
Der hier verwendete Begriff „Mehrparteiengespräch“ kann sich auf Kommunikationen beziehen, an denen mindestens zwei Parteien beteiligt sind. Beispiele für Anrufe mit mehreren Teilnehmern sind u. a. Anrufe von Person zu Person, Telefongespräche, Telefonkonferenzen, Kommunikationen zwischen mehreren Teilnehmern und ähnliches.
Aspekte der vorliegenden Offenbarung können die Form einer reinen Hardware-Variante, einer reinen Software-Variante (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Kombination von Software- und Hardware-Aspekten annehmen, die hier allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden. Jede Kombination aus einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein.
Beispiele für die hier beschriebenen Prozessoren sind unter anderem mindestens einer der folgenden Prozessoren: Qualcomm® Snapdragon® 800 und 801, Qualcomm® Snapdragon® 610 und 615 mit 4G LTE-Integration und 64-Bit-Computing, Apple® A7 Prozessor mit 64-Bit-Architektur, Apple® M7 Motion Coprozessoren, Samsung® Exynos® Serie, die Intel® Core™ Prozessorfamilie, die Intel® Xeon® Prozessorfamilie, die Intel® Atom™ Prozessorfamilie, die Intel Itanium® Prozessorfamilie, Intel® Core® i5-4670K und i7-4770K 22 nm Haswell, Intel® Core® i5-3570K 22 nm Ivy Bridge, die AMD® FX™ Prozessorfamilie, AMD@ FX-4300, FX-6300 und FX-8350 32 nm Vishera, AMD® Kaveri Prozessoren, Texas Instruments® Jacinto C6000™ Automotive Infotainment Prozessoren, Texas Instruments® OMAP™ Automotive-grade Mobilprozessoren, ARM® Cortex™-M Prozessoren, ARM® Cortex-A und ARIVI926EJ-S™ Prozessoren, andere industrieäquivalente Prozessoren, und können Rechenfunktionen unter Verwendung aller bekannten oder zukünftig entwickelten Standards, Befehlssätze, Bibliotheken und/oder Architekturen ausführen.
Die nachfolgende Beschreibung enthält lediglich Ausführungsbeispiele und soll den Umfang, die Anwendbarkeit oder die Ausgestaltung der Ansprüche nicht einschränken. Vielmehr soll die nachfolgende Beschreibung dem Fachmann eine Anleitung zur Umsetzung der Ausführungsformen geben. Es versteht sich, dass verschiedene Änderungen in der Funktion und der Anordnung der Elemente vorgenommen werden können, ohne vom Geist und Umfang der beigefügten Ansprüche abzuweichen.
Jeder Verweis in der Beschreibung, der eine Elementnummer enthält, ohne einen Unterelementbezeichner, wenn ein Unterelementbezeichner in den Figuren vorhanden ist, soll, wenn er im Plural verwendet wird, auf zwei oder mehr Elemente mit einer gleichen Elementnummer verweisen. Wenn ein solcher Verweis in der Einzahl erfolgt, soll er auf eines der Elemente mit der gleichen Elementnummer verweisen, ohne sich auf ein bestimmtes der Elemente zu beschränken. Jede gegenteilige ausdrückliche Verwendung in diesem Dokument oder eine weitere Qualifizierung oder Identifizierung hat Vorrang.
Die beispielhaften Systeme und Methoden dieser Offenbarung werden auch in Bezug auf Analysesoftware, Module und zugehörige Analyse-Hardware beschrieben. Um jedoch die vorliegende Offenbarung nicht unnötig zu vernebeln, wird in der folgenden Beschreibung auf bekannte Strukturen, Komponenten und Geräte verzichtet, die in den Figuren weggelassen oder vereinfacht dargestellt oder anderweitig zusammengefasst werden können.
Zu Erklärungszwecken werden zahlreiche Details aufgeführt, um ein umfassendes Verständnis der vorliegenden Offenbarung zu ermöglichen. Es sollte jedoch gewürdigt werden, dass die vorliegende Offenbarung über die hier dargelegten spezifischen Details hinaus in vielfältiger Weise praktiziert werden kann.
Das Vorstehende ist eine vereinfachte Zusammenfassung der Offenbarung, um ein Verständnis für einige Aspekte der Offenbarung zu vermitteln. Diese Zusammenfassung ist weder ein umfassender noch ein erschöpfender Überblick über die Offenbarung und ihre verschiedenen Aspekte, Ausführungsformen und/oder Konfigurationen. Es ist weder beabsichtigt, wichtige oder kritische Elemente der Offenbarung zu identifizieren noch den Umfang der Offenbarung abzugrenzen, sondern ausgewählte Konzepte der Offenbarung in vereinfachter Form als Einführung in die nachfolgend dargestellte detailliertere Beschreibung zu präsentieren. Wie zu erkennen sein wird, sind andere Aspekte, Ausführungsformen und/oder Konfigurationen der Offenbarung möglich, die allein oder in Kombination eines oder mehrerer der oben dargelegten oder unten im Detail beschriebenen Merkmale verwenden. Auch wenn die Offenbarung in Form von beispielhaften Ausführungsformen dargestellt wird, sollte man sich darüber im Klaren sein, dass einzelne Aspekte der Offenbarung separat beansprucht werden können.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Offenbarung wird in Verbindung mit den beigefügten Abbildungen beschrieben.

1 ist ein Blockdiagramm eines Kommunikationssystems, das zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung verwendet wird, wie es in der vorliegenden Offenbarung beschrieben ist.
2 ist ein Blockdiagramm eines Konferenzservers, der in einem Kommunikationssystem zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung verwendet wird.
3 ist ein Blockdiagramm einer illustrativen Kommunikationsvorrichtung, die in einem Kommunikationssystem zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung verwendet wird.
4 ist eine tabellarische Darstellung von Datenbankeinträgen, die von Teilnehmern zur Verfügung gestellt oder automatisch aus einer oder mehreren Datenquellen abgerufen und für die automatische Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß Ausführungsformen der vorliegenden Offenbarung verwendet werden.
5 ist ein Blockdiagramm, das eine Ansicht eines Kommunikationsendpunktes zeigt, der in einem Konferenzbereich eingesetzt wird, in dem mehrere Teilnehmer zu Beginn oder am Ende einer Kommunikationssitzung um einen Tisch sitzen, wie es in der vorliegenden Offenbarung beschrieben ist.
6 ist ein Blockdiagramm, das eine Ansicht eines aktiven Lautsprechers an einem Kommunikationsendpunkt während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt.
7 ist ein Blockdiagramm, das eine Ansicht eines aktiven Lautsprechers an einem Kommunikationsendpunkt während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt.
8 ist ein Blockdiagramm, das eine Ansicht von zwei aktiven Lautsprechern an verschiedenen Kommunikationsendpunkten während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt.
9 ist ein Flussdiagramm eines Verfahrens zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Die nachfolgende Beschreibung enthält lediglich Ausführungsbeispiele und soll den Umfang, die Anwendbarkeit oder die Ausgestaltung der Ansprüche nicht einschränken. Vielmehr soll die nachfolgende Beschreibung dem Fachmann eine Anleitung zur Umsetzung der Ausführungsformen geben. Es können verschiedene Änderungen in der Funktion und Anordnung der Elemente vorgenommen werden, ohne vom Geist und Umfang der vorliegenden Offenbarung abzuweichen.
Gemäß den Ausführungsformen der vorliegenden Offenlegung werden Bild- und Stimminformationen eines Sprechers aus einer Kommunikationssitzung in einer Kommunikationskonferenz mit mehreren Teilnehmern erfasst. Registrierte Gesichts- und Stimmabdrücke von jedem Teilnehmer der Kommunikationssitzung werden zusammen mit künstlicher Intelligenz (KI) verwendet, um das Bild des Sprechers und Stimminformationen eines sprechenden Teilnehmers zu erfassen. In einem Ausführungsbeispiel der vorliegenden Offenlegung umfasst eine Kommunikationssitzung mehrere individuelle Teilnehmer an verschiedenen Standorten, die unterschiedliche Kommunikationsendpunkte oder -geräte verwenden, und auch mehrere Teilnehmer am selben Standort, die denselben Kommunikationsendpunkt verwenden. Vor der Teilnahme an der Kommunikationssitzung registriert jeder der Teilnehmer einen Gesichtsabdruck und einen entsprechenden Stimmabdruck bei dem Server, der die Kommunikationssitzung hostet. Der Server führt mithilfe von KI-Funktionen eine Gesichtserkennung durch, um die Anzahl der Teilnehmer zu Beginn der Kommunikationssitzung zu ermitteln. Nachdem jeder der Teilnehmer identifiziert wurde, ruft der Server den entsprechenden Stimmabdruck für die identifizierten Teilnehmer ab. Zu Beginn der Kommunikationssitzung identifiziert der Server, der KI-Fähigkeiten nutzt, einen der Teilnehmer unter den mehreren Teilnehmern, die sich am selben Ort befinden und denselben Kommunikationsendpunkt verwenden, der in die Kamera des Kommunikationsendpunkts blickt und zu sprechen beginnt. Der Server, der KI-Fähigkeiten einsetzt, kann beispielsweise die Bewegung des Mundes des Sprechers erkennen, wenn dieser in die Kamera blickt. Der Server identifiziert einen der Teilnehmer an der Kommunikationssitzung als den Sprecher und ruft den registrierten Stimmabdruck des Teilnehmers zum Vergleich ab.
Der Server vergleicht dann die Stimminformationen des Sprechers mit dem registrierten Stimmabdruck des Sprechers. Die Stimminformationen des Sprechers können in vielen Eigenschaften variieren, einschließlich, aber nicht beschränkt auf die Lautstärke, die Tonhöhe, das Tempo, den Tonumfang, die Intensität, den Tonfall und die Frequenz zum Beispiel. Wenn die Stimminformationen des Sprechers und der registrierte Stimmabdruck des Sprechers übereinstimmen, zoomt der Server den Sprecher heran.
Gemäß einer Ausführungsform der vorliegenden Offenlegung erkennt der Server, dass nur einer der Teilnehmer spricht, entfernt die anderen Teilnehmer aus dem Videobild und zoomt auf den Teilnehmer, der gerade spricht. Wenn ein anderer Teilnehmer spricht (d.h. der aktuelle Sprecher), nachdem der vorherige Sprecher aufgehört hat zu sprechen, identifiziert der Server den aktuellen Sprecher anhand des registrierten Gesichtsabdrucks und des entsprechenden registrierten Stimmabdrucks und defokussiert (zoomt heraus) vom vorherigen Sprecher und fokussiert (zoomt hinein) auf den aktuellen Sprecher. Gemäß Ausführungsformen der vorliegenden Offenbarung analysiert die vom Server bereitgestellte KI eingehende Videobilder und fügt die eingehenden Videobilder auf der Grundlage der registrierten Gesichtsabdrücke zusammen, um ein Ausgangsvideo zu erzeugen, das sich ähnlich anfühlt wie Videos in Spielfilmen.
Gemäß einer Ausführungsform der vorliegenden Offenlegung wählt der Server unter Verwendung von KI-Fähigkeiten einen der Teilnehmer als Sprecher aus, basierend auf einer Übereinstimmung zwischen den Bild- und Stimminformationen des Sprechers und den registrierten Gesichts- und Stimmabdrücken des Sprechers, und filtert andere Hintergrundgeräusche wie die Stimmen der anderen Teilnehmer, die im Hintergrund sprechen, heraus. Da der Server Zugriff auf die registrierten Stimmabdrücke der anderen Teilnehmer hat, wird das Herausfiltern der Stimminformationen der anderen Teilnehmer auf ähnliche Weise durchgeführt, indem die Stimminformationen der anderen Teilnehmer mit den registrierten Stimmabdrücken der anderen Teilnehmer verglichen werden.
1 ist ein Blockdiagramm eines Kommunikationssystems 100, das für die automatische Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung verwendet wird. In 1 ist das Kommunikationssystem 100 in Übereinstimmung mit mindestens einer Ausführungsform der vorliegenden Offenbarung dargestellt. Das Kommunikationssystem 100 kann es einem Benutzer 104A ermöglichen, an dem Kommunikationssystem 100 teilzunehmen, indem er ein Kommunikationsgerät 108A mit einer Eingabe-/Ausgabevorrichtung 112A und einer Anwendung 128 verwendet. Wie hierin verwendet, umfassen die Kommunikationsgeräte Benutzergeräte. Andere Benutzer 104B1, 104B2, 104B3, 104B4, 104C bis 104N können ebenfalls an dem Kommunikationssystem 100 teilnehmen, indem sie entsprechende Kommunikationsgeräte 108B, 108C bis 108N mit Eingabe-/Ausgabegeräten 112B, 112C bis 112N und Anwendungen 128 verwenden. Gemäß Ausführungsformen der vorliegenden Offenbarung können einer oder mehrere der Benutzer 104A-104N auf ein Konferenzsystem 142 zugreifen, das das Kommunikationsnetz 116 nutzt.
Wie im Folgenden näher erläutert, können die Eingabe-/Ausgabegeräte 112A bis 112N ein oder mehrere Audioeingabegeräte, Audioausgabegeräte, Videoeingabegeräte und/oder Videoausgabegeräte umfassen. In einigen Ausführungsformen der vorliegenden Offenbarung können die Audio-Eingabe-/Ausgabegeräte 112A bis 112N von den Kommunikationsgeräten 108A-108N getrennt sein. Eine Audio-Eingabevorrichtung kann beispielsweise ein Empfängermikrofon umfassen, das von der Kommunikationsvorrichtung 108A als Teil der Kommunikationsvorrichtung 108A und/oder eines Zubehörs (z. B. eines Headsets usw.) verwendet wird, um Audio an eine oder mehrere der anderen Kommunikationsvorrichtungen 108B-108N und das Konferenzsystem 142 zu übertragen, ist aber nicht darauf beschränkt. In einigen Fällen kann das Audio-Ausgabegerät Lautsprecher umfassen, die Teil eines Headsets, eigenständige Lautsprecher oder in die Kommunikationsgeräte 108A-108N integrierte Lautsprecher sind, ist aber nicht darauf beschränkt.
Videoeingabegeräte, wie z. B. Kameras, können einem elektronischen Gerät entsprechen, das in der Lage ist, ein Bild und/oder einen Videoinhalt zu erfassen und/oder zu verarbeiten. Die Kameras können geeignete Logik, Schaltkreise, Schnittstellen und/oder Code enthalten, die zur Erfassung und/oder Verarbeitung eines Bildes und/oder eines Videoinhalts eingesetzt werden können. In einer Ausführungsform der vorliegenden Offenbarung können die Kameras eine Pan-Tilt-Zoom (PTZ)-Kamera sein. In einer Ausführungsform der vorliegenden Offenbarung kann das PTZ der Kameras mechanisch gesteuert werden. In einer anderen Ausführungsform kann das PTZ der Kameras elektronisch unter Verwendung von Festkörperkomponenten gesteuert werden.
In einer Ausführungsform der vorliegenden Offenbarung können die Kameras hochauflösende Kameras sein, die hochauflösende Weitwinkelbilder und/oder Videos aufnehmen. In einer anderen Ausführungsform der vorliegenden Offenbarung können die Kameras aus einer Vielzahl von Kameras mit geringerer Auflösung aufgebaut sein. Die mehreren Kameras mit geringerer Auflösung können in ein einziges Gehäuse eingebaut werden. In einer anderen Ausführungsform kann die Mehrzahl der Kameras mit geringerer Auflösung getrennt sein. In einem solchen Fall können die Ausgangssignale der mehreren Kameras mit geringerer Auflösung kalibriert werden. Bilder und/oder Videos, die von den mehreren Kameras mit geringerer Auflösung aufgenommen wurden, können zu einem einzigen hochauflösenden Bild kombiniert werden. In einer Ausführungsform der vorliegenden Offenbarung kann die Vielzahl von Kameras mit geringerer Auflösung so eingerichtet werden, dass sich das Sichtfeld der Vielzahl von Kameras mit geringerer Auflösung überschneidet, so dass ihr kombiniertes Ausgangssignal zu einem hochauflösenden Bild führt.
In einer Ausführungsform der vorliegenden Offenbarung können die Kameras an einem oder mehreren Orten in der Nähe eines oder mehrerer Teilnehmer installiert werden, die verfolgt werden sollen. Die Kameras können an solchen Orten installiert werden, dass die Kameras in der Lage sind, automatisch Bilder des/der verfolgten Teilnehmers) aufzunehmen. In einer Ausführungsform der vorliegenden Offenbarung können die Kameras so installiert werden, dass die Position jeder einzelnen Kamera festgelegt ist. In einer alternativen Ausführungsform der vorliegenden Offenbarung können eine oder mehrere der Kameras so installiert werden, dass eine oder mehrere der Kameras elektronisch und/oder mechanisch gesteuert werden können. Die Kameras können so betrieben werden, dass sie das PTZ auf der Grundlage eines oder mehrerer von einem Steuergerät empfangener Signale einstellen. Die Kameras können so betrieben werden, dass sie ein oder mehrere Signale an die Steuervorrichtung senden.
Das Kommunikationsnetz 116 kann paketvermittelnd und/oder leitungsvermittelnd sein. Ein beispielhaftes Kommunikationsnetz 116 umfasst ohne Einschränkung ein Wide Area Network (WAN) wie das Internet, ein Local Area Network (LAN), ein Personal Area Network (PAN), ein Public Switched Telephone Network (PSTN), ein Plain Old Telephone Service (POTS)-Netz, ein zellulares Kommunikationsnetz, ein Internet Protocol Multimedia Subsystem (IMS)-Netz, ein Voice over Internet Protocol (VoIP)-Netz, ein Session Initiated Protocol (SIP)-Netz oder Kombinationen davon. Das Internet ist ein Beispiel für das Kommunikationsnetz 116, das ein Internet-Protokoll (IP)-Netz darstellt, das viele Computer, Computernetzwerke und andere Kommunikationsgeräte auf der ganzen Welt umfasst, die durch viele Telefonsysteme und andere Mittel miteinander verbunden sind. In einer Konfiguration ist das Kommunikationsnetz 116 ein öffentliches Netz, das die TCP/IP-Protokollsuite (Transmission Control Protocol/IP) unterstützt. Die vom Kommunikationsnetz 116 unterstützte Kommunikation umfasst Echtzeit-, echtzeitnahe und Nicht-Echtzeit-Kommunikation. So kann das Kommunikationsnetz 116 beispielsweise Sprach-, Video-, Text- und Webkonferenzen oder eine beliebige Kombination von Medien unterstützen. Darüber hinaus kann das Kommunikationsnetz 116 eine Reihe verschiedener Kommunikationsmedien wie Koaxialkabel, Kupferkabel/-draht, Glasfaserkabel, Antennen zum Senden/Empfangen von drahtlosen Nachrichten und Kombinationen davon umfassen. Darüber hinaus ist zu beachten, dass das Kommunikationsnetz 116 nicht auf einen bestimmten Netzwerktyp beschränkt sein muss, sondern eine Reihe verschiedener Netze und/oder Netzwerktypen umfassen kann. Es sollte anerkannt werden, dass das Kommunikationsnetz 116 verteilt sein kann. Obwohl sich die Ausführungsformen der vorliegenden Offenlegung auf ein Kommunikationsnetz 116 beziehen, sind die hier beanspruchten Ausführungsformen nicht so beschränkt. So kann beispielsweise mehr als ein Kommunikationsnetz 116 durch Kombinationen von Servern und Netzen verbunden werden.
Der Begriff „Kommunikationsgerät“, wie er hier verwendet wird, ist nicht einschränkend und kann als Benutzergerät und Mobilgerät sowie als Variationen davon bezeichnet werden. Ein Kommunikationsgerät, wie es hier verwendet wird, kann jede Art von Gerät umfassen, das in der Lage ist, mit einem oder mehreren anderen Geräten und/oder über ein Kommunikationsnetz, über ein Kommunikationsprotokoll und dergleichen zu kommunizieren. Ein Kommunikationsgerät kann jede Art von bekannter Kommunikationsausrüstung oder eine Sammlung von Kommunikationsausrüstung umfassen. Beispiele für ein Kommunikationsgerät können unter anderem jedes Gerät mit einem Ton- und/oder Druckempfänger, ein Mobiltelefon, ein Smartphone, ein Telefon, Handheld-Computer, Laptops, Netbooks, Notebooks, Subnotebooks, Tablet-Computer, Scanner, tragbare Spielgeräte, Pager, Global Positioning System (GPS)-Module, tragbare Musikabspielgeräte und andere Ton- und/oder Druckempfangsgeräte sein. Ein Kommunikationsgerät muss nicht unbedingt internetfähig und/oder mit einem Netzwerk verbunden sein. Im Allgemeinen kann jedes Kommunikationsgerät einem oder mehreren Nutzern, die das Konferenzsystem 142 nutzen oder mit ihm interagieren möchten, viele Möglichkeiten bieten. Zum Beispiel kann ein Benutzer über das Kommunikationsnetz 116 auf das Konferenzsystem 142 zugreifen.
Fähigkeiten, die die offengelegten Systeme und Verfahren ermöglichen, können von einem oder mehreren Kommunikationsgeräten durch Hardware oder Software bereitgestellt werden, die auf dem Kommunikationsgerät installiert sind, wie z. B. die Anwendung 128. Die Anwendung 128 kann zum Beispiel in Form einer Kommunikationsanwendung vorliegen und zur Identifizierung eines Sprechers während einer Kommunikationssitzung verwendet werden.
Im Allgemeinen kann jedes Kommunikationsgerät 108A-108N einem oder mehreren Benutzern 104A-104N, die mit dem Konferenzsystem 142 interagieren möchten, viele Möglichkeiten bieten. Die Kommunikationsgeräte 108A, 104C und 108N sind so dargestellt, dass sie jeweils von einem Benutzer 104A, 104C und 104N verwendet werden. Gemäß den Ausführungsformen der vorliegenden Offenbarung wird das Kommunikationsgerät 104B von mehreren Benutzern 104B1, 104B2, 104B3 und 104B4 gemeinsam genutzt.
In einigen Ausführungsformen der vorliegenden Offenbarung kann das Konferenzsystem 142 in einem Server 144 untergebracht sein. Der Server 144 kann ein Server sein, der von einem Unternehmen verwaltet wird, das mit der Verwaltung von Kommunikationsgeräten oder dem Besitz von Kommunikationsgeräten verbunden ist, oder der Server 144 kann ein externer Server sein, der von einem Drittanbieterdienst verwaltet werden kann, was bedeutet, dass das Unternehmen, das den externen Server verwaltet, nicht dasselbe Unternehmen ist, das entweder ein Kommunikationsgerät besitzt oder verwaltet. In einigen Ausführungsformen der vorliegenden Offenbarung kann ein externer Server von demselben Unternehmen verwaltet werden, das ein Kommunikationsgerät besitzt oder verwaltet. Ein besonderes Beispiel ist, dass ein Kommunikationsgerät in einem Unternehmensnetzwerk bereitgestellt wird und ein externer Server ebenfalls in demselben Unternehmensnetzwerk bereitgestellt wird. Bei einer möglichen Umsetzung dieses Szenarios kann der externe Server als Zusatz zu einem Unternehmens-Firewall-System konfiguriert werden, das in einem Gateway oder Session Border Controller (SBC) enthalten sein kann, der das Unternehmensnetz mit einem größeren ungesicherten und nicht vertrauenswürdigen Kommunikationsnetz verbindet. Ein Beispiel für einen Messaging-Server ist ein Unified-Messaging-Server, der mehrere Arten, Formen oder Modalitäten von Nachrichten wie Voicemail, E-Mail, Kurznachrichten, Sofortnachrichten, Videoanrufe usw. zusammenfasst und verwaltet. Ein weiteres Beispiel: Ein Konferenzserver ist ein Server, der mehrere Teilnehmer zu einer Telefonkonferenz zusammenführt. Wie in 1 dargestellt, umfasst der Server 144 ein Konferenzsystem 142, eine Konferenzinfrastruktur 140, ein Autofokusmodul 148 und eine Datenbank 146.
Obwohl verschiedene Module und Datenstrukturen für die offengelegten Systeme und Verfahren als auf dem Server 144 befindlich dargestellt sind, kann ein Fachmann erkennen, dass eine, einige oder alle der dargestellten Komponenten des Servers 144 durch andere Software- oder Hardwarekomponenten bereitgestellt werden können. Beispielsweise können eine, einige oder alle der dargestellten Komponenten des Servers 144 durch Logik auf einem Kommunikationsgerät bereitgestellt werden (z. B. kann das Kommunikationsgerät Logik für die hier offengelegten Systeme und Verfahren enthalten, so dass die Systeme und Verfahren lokal auf dem Kommunikationsgerät ausgeführt werden). Darüber hinaus kann die Logik der Anwendung 128 auf dem Server 144 bereitgestellt werden (z. B. kann der Server 144 Logik für die hier offengelegten Systeme und Verfahren enthalten, so dass die Systeme und Verfahren auf dem Server 144 ausgeführt werden). In Ausführungsformen der vorliegenden Offenbarung kann der Server 144 die hierin offenbarten Verfahren ohne Verwendung von Logik auf einem der Kommunikationsgeräte 108A-108N durchführen.
Das Konferenzsystem 142 implementiert Funktionalität für die hierin beschriebenen Systeme und Methoden, indem es mit zwei oder mehr der Kommunikationsgeräte 108A-108N, der Anwendung 128, der Konferenzinfrastruktur 140, dem Autofokussierungsmodul 148 und der Datenbank 146 und/oder anderen Informationsquellen interagiert, wie unten ausführlicher beschrieben, die es zwei oder mehr Kommunikationsgeräten 108 ermöglichen können, an einem Mehrparteiengespräch teilzunehmen. In einigen Ausführungsformen der vorliegenden Offenbarung kann das Autofokusmodul 148 auch Teil der Anwendung des Konferenzsystems sein, die auf dem Gerät des Benutzers ausgeführt wird. Ein Beispiel für ein Gespräch mit mehreren Teilnehmern umfasst unter anderem ein Gespräch von Person zu Person, eine Konferenzschaltung zwischen zwei oder mehr Benutzern/Teilnehmern und dergleichen. Obwohl einige Ausführungsformen der vorliegenden Offenbarung in Verbindung mit Anrufen mit mehreren Teilnehmern erörtert werden, sind die Ausführungsformen der vorliegenden Offenbarung nicht so beschränkt. Insbesondere können die hier offengelegten Ausführungsformen auf eines oder mehrere der folgenden Verfahren angewandt werden: Audio-, Video-, Multimedia-, Konferenzgespräche, Webkonferenzen und dergleichen.
In einigen Ausführungsformen der vorliegenden Offenbarung kann das Konferenzsystem 142 eine oder mehrere Ressourcen wie die Konferenzinfrastruktur 140 enthalten, die im Folgenden näher erläutert wird. Wie man sich vorstellen kann, können die Ressourcen des Konferenzsystems 142 von der Art des Mehrparteiengesprächs abhängen, das vom Konferenzsystem 142 bereitgestellt wird. Unter anderem kann das Konferenzsystem 142 so konfiguriert sein, dass es Konferenzen mit mindestens einem Medientyp zwischen einer beliebigen Anzahl von Teilnehmern ermöglicht. Die Konferenzinfrastruktur 140 kann Hardware- und/oder Softwareressourcen des Konferenzsystems 142 umfassen, die die Möglichkeit bieten, Mehrparteiengespräche, Konferenzgespräche und/oder andere kollaborative Kommunikationen zu führen.
In einigen Ausführungsformen der vorliegenden Offenbarung kann das Autofokusmodul 148 verwendet werden, um einen Sprecher zu fokussieren, wenn mehrere Teilnehmer ein einziges Kommunikationsgerät nutzen. Dies wird durch den Vergleich der Bild- und Stimminformationen eines Sprechers mit den registrierten Gesichts- und Stimmabdrücken des Sprechers unter Verwendung von KI-Funktionen erreicht. Die Bild- und Stimminformationen der anderen Teilnehmer der Kommunikationssitzung werden herausgefiltert. Das Autofokussierungsmodul 148 umfasst mehrere Komponenten, darunter einen Audioanalysator, einen Videoanalysator, ein Filtermodul und ein Modul für künstliche Intelligenz, wie weiter unten ausführlicher erläutert wird.
Die Datenbank 146 kann unter anderem Informationen über einen oder mehrere der Benutzer 104A-104N, Kommunikationsgeräte 108A-108N und das Konferenzsystem 142 enthalten. Zum Beispiel enthält die Datenbank 146 registrierte Gesichtsabdrücke und entsprechende Stimmabdrücke für jeden Teilnehmer einer Kommunikationssitzung.
Die Konferenzinfrastruktur 140 und das Autofokusmodul 148 können den Zugriff auf Informationen in der Datenbank 146 ermöglichen und können Informationen aus anderen Quellen zur Verwendung durch das Konferenzsystem 142 sammeln. In einigen Fällen kann auf Daten in der Datenbank 146 unter Verwendung der Konferenzinfrastruktur 140, des Autofokusmoduls 148 und der Anwendung 128, die auf einem oder mehreren der Kommunikationsgeräte, wie den Kommunikationsgeräten 108A-108N, läuft, zugegriffen werden.
Die Anwendung 128 kann von einem oder mehreren der Kommunikationsgeräte (z. B. den Kommunikationsgeräten 108A-108N) ausgeführt werden und kann das gesamte oder einen Teil des Konferenzsystems 142 auf einem oder mehreren der Kommunikationsgeräte 108A-108N ausführen, indem sie auf Daten in der Datenbank 146 unter Verwendung der Konferenzinfrastruktur 140 und des Autofokusmoduls 148 zugreift. Dementsprechend kann ein Benutzer die Anwendung 128 verwenden, um auf Daten in der Datenbank 146 zuzugreifen und/oder diese bereitzustellen. Zum Beispiel kann ein Benutzer 104B2 die Anwendung 128, die auf dem Kommunikationsgerät 108B ausgeführt wird, verwenden, um seinen Gesichts- und Stimmabdruck zu registrieren, bevor er an einer Kommunikationssitzung mit den gemeinsamen Teilnehmern 104B1, 104B3 und 104B4 sowie den einzelnen Teilnehmern 104A und 104C-104N teilnimmt. Solche Daten können im Konferenzsystem 142 empfangen und einem oder mehreren Profilen zugeordnet werden, die dem Benutzer 104B2 und den anderen Teilnehmern der Telefonkonferenz 104A, 104B1, 104B3, 104B4 und 104C-104N zugeordnet sind und in der Datenbank 146 gespeichert werden.
2 ist ein Blockdiagramm eines beispielhaften Konferenzservers 244, der in einem Kommunikationssystem 200 für die automatische Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung verwendet wird. In 2 ist das Kommunikationssystem 200 in Übereinstimmung mit mindestens einer Ausführungsform der vorliegenden Offenbarung dargestellt. Das Kommunikationssystem 200 kann es Benutzern ermöglichen, an einer Telefonkonferenz mit anderen Benutzern teilzunehmen. Gemäß einer Ausführungsform der vorliegenden Offenbarung können mehrere Benutzer (z. B. die gemeinsamen Teilnehmer 204B 1-204B4) unter Verwendung desselben Kommunikationsgeräts 208B an der Kommunikationssitzung teilnehmen. Der Konferenzserver 244 implementiert die Funktionalität zum Aufbau der Kommunikationssitzung für die hierin beschriebenen Systeme und Verfahren, indem er mit den Kommunikationsgeräten (einschließlich seiner Hardware- und Softwarekomponenten) und den verschiedenen Komponenten des Konferenzservers 244 interagiert. Der Konferenzserver 244 umfasst beispielsweise einen Speicher 250 und einen Prozessor 270. Außerdem verfügt der Konferenzserver 244 über eine Netzwerkschnittstelle 264. Der Speicher 250 umfasst eine Datenbank 246, eine Anwendung 224 (die in Verbindung mit der Anwendung 128 der Kommunikationsgeräte 108A-108N verwendet wird), einen oder mehrere Konferenzmischer 249 (Teil der in 1 dargestellten Konferenzinfrastruktur 140), einen Audioanalysator 243, einen Videoanalysator 245, ein Registrierungsmodul 247, ein Filtermodul 241 und ein Modul für künstliche Intelligenz 275.
Der Prozessor 270 kann einen Mikroprozessor, eine Zentraleinheit (CPU), eine Sammlung von Verarbeitungseinheiten, die serielle oder parallele Datenverarbeitungsfunktionen ausführen können, und ähnliches umfassen. Der Speicher 250 kann eine Reihe von Anwendungen oder ausführbaren Anweisungen enthalten, die von dem Prozessor 270 gelesen und ausgeführt werden können. Beispielsweise kann der Speicher 250 Anweisungen in Form von einem oder mehreren Modulen und/oder Anwendungen enthalten. Der Speicher 250 kann auch Daten und Regeln in Form von Einstellungen enthalten, die von einem oder mehreren der hier beschriebenen Module und/oder Anwendungen verwendet werden können. Der Speicher 250 kann auch eine oder mehrere Kommunikationsanwendungen und/oder -module enthalten, die die Kommunikationsfunktionalität des Konferenzservers 244 bereitstellen. Insbesondere kann/können die Kommunikationsanwendung(en) und/oder das/die Modul(e) die Funktionalität enthalten, die notwendig ist, um den Konferenzserver 244 in die Lage zu versetzen, mit dem Kommunikationsgerät 208B sowie mit anderen Kommunikationsgeräten (nicht dargestellt) über das Kommunikationsnetzwerk 216 zu kommunizieren. Als solche können die Kommunikationsanwendung(en) und/oder das/die Modul(e) in der Lage sein, auf Kommunikationspräferenzen und andere Einstellungen zuzugreifen, die in der Datenbank 246, dem Registrierungsmodul 247 und/oder dem Speicher 250 gepflegt werden, Kommunikationspakete für die Übertragung über die Netzwerkschnittstelle 264 zu formatieren sowie an der Netzwerkschnittstelle 264 empfangene Kommunikationspakete für die weitere Verarbeitung durch den Prozessor 270 zu konditionieren.
Unter anderem kann der Speicher 250 verwendet werden, um Anweisungen zu speichern, die, wenn sie vom Prozessor 270 des Kommunikationssystems 200 ausgeführt werden, die hier beschriebenen Verfahren durchführen. In einigen Ausführungsformen der vorliegenden Offenbarung können eine oder mehrere der Komponenten des Kommunikationssystems 200 einen Speicher enthalten. In einem Beispiel kann jede Komponente des Kommunikationssystems 200 ihren eigenen Speicher haben. In Fortsetzung dieses Beispiels kann der Speicher 250 ein Teil jeder Komponente des Kommunikationssystems 200 sein. In einigen Ausführungsformen der vorliegenden Offenbarung kann der Speicher 250 über das Kommunikationsnetzwerk 216 für den Zugriff durch eine oder mehrere Komponenten im Kommunikationssystem 200 angeordnet sein. In jedem Fall kann der Speicher 250 in Verbindung mit der Ausführung von Anwendungsprogrammierung oder Anweisungen durch den Prozessor 270 und für die vorübergehende oder langfristige Speicherung von Programmanweisungen und/oder Daten verwendet werden. Als Beispiele kann der Speicher 250 einen Direktzugriffsspeicher (RAM), einen dynamischen RAM (DRAM), einen statischen RAM (SDRAM) oder einen anderen Festkörperspeicher umfassen. Alternativ oder zusätzlich kann der Speicher 250 als Datenspeicher verwendet werden und eine oder mehrere Festkörperspeichereinheiten umfassen. Zusätzlich oder alternativ kann der für die Datenspeicherung verwendete Speicher 250 ein Festplattenlaufwerk oder einen anderen Direktzugriffsspeicher umfassen. In einigen Ausführungsformen der vorliegenden Offenbarung kann der Speicher 250 Informationen speichern, die mit einem Benutzer, einem Zeitgeber, Regeln, aufgezeichneten Audioinformationen, aufgezeichneten Videoinformationen und dergleichen verbunden sind. So kann der Speicher 250 beispielsweise dazu verwendet werden, vorgegebene Sprachmerkmale, Merkmale von Privatgesprächen, Videomerkmale, Informationen über die Aktivierung/Deaktivierung der Stummschaltung, damit verbundene Zeiten, Kombinationen davon und Ähnliches zu speichern.
Die Netzwerkschnittstelle 264 umfasst Komponenten zur Verbindung des Konferenzservers 244 mit dem Kommunikationsnetz 216. In einigen Ausführungsformen der vorliegenden Offenbarung verbindet eine einzige Netzwerkschnittstelle 264 den Konferenzserver 244 mit mehreren Netzwerken. In einigen Ausführungsformen der vorliegenden Offenbarung verbindet eine einzelne Netzwerkschnittstelle 264 den Konferenzserver 244 mit einem Netzwerk und eine alternative Netzwerkschnittstelle ist vorgesehen, um den Konferenzserver 244 mit einem anderen Netzwerk zu verbinden. Die Netzwerkschnittstelle 264 kann ein Kommunikationsmodem, einen Kommunikationsport oder einen anderen Gerätetyp umfassen, der geeignet ist, Pakete für die Übertragung über ein Kommunikationsnetzwerk 216 zu einem oder mehreren Ziel-Kommunikationsgeräten (nicht dargestellt) aufzubereiten sowie empfangene Pakete für die Verarbeitung durch den Prozessor 270 aufzubereiten. Beispiele für Netzwerkschnittstellen sind unter anderem eine Netzwerkschnittstellenkarte, ein drahtloser Transceiver, ein Modem, ein drahtgebundener Telefonieanschluss, ein serieller oder paralleler Datenanschluss, ein Radiofrequenz-Rundfunksender/Empfänger, ein USB-Anschluss (Universal Serial Bus) oder andere drahtgebundene oder drahtlose Kommunikationsnetzwerkschnittstellen.
Die Art der verwendeten Netzwerkschnittstelle 264 kann je nach Art des Netzwerks, mit dem der Konferenzserver 244 verbunden ist, variieren, wenn überhaupt. Beispielhafte Kommunikationsnetze 216, mit denen der Konferenzserver 244 über die Netzwerkschnittstelle 264 verbunden werden kann, umfassen jeden Typ und jede Anzahl von Kommunikationsmedien und -geräten, die in der Lage sind, Kommunikationsereignisse (hier auch als „Telefonanrufe“, „Nachrichten“, „Kommunikationen“ und „Kommunikationssitzungen“ bezeichnet) zu unterstützen, wie z. B. Sprachanrufe, Videoanrufe, Chats, E-Mails, Fernschreiberanrufe (TTY), Multimediasitzungen oder Ähnliches. In Situationen, in denen das Kommunikationsnetz 216 aus mehreren Netzen besteht, kann jedes der mehreren Netze von verschiedenen Netzdienstanbietern bereitgestellt und unterhalten werden. Alternativ können zwei oder mehr der mehreren Netze im Kommunikationsnetz 216 von einem gemeinsamen Netzdienstleister oder einem gemeinsamen Unternehmen im Falle eines verteilten Unternehmensnetzes bereitgestellt und gewartet werden.
Der/die Konferenzmischer 249 sowie andere Konferenzinfrastrukturen können Hardware- und/oder Softwareressourcen des Konferenzsystems 142 umfassen, die die Möglichkeit bieten, Mehrparteiengespräche, Konferenzgespräche und/oder andere kollaborative Kommunikation zu führen. Wie man sich vorstellen kann, können die Ressourcen des Konferenzsystems 142 von der Art des Mehrparteiengesprächs abhängen, das vom Konferenzsystem 142 bereitgestellt wird. Unter anderem kann das Konferenzsystem 142 so konfiguriert sein, dass es Konferenzen mit mindestens einem Medientyp zwischen einer beliebigen Anzahl von Teilnehmern ermöglicht. Der/die Konferenzmischer 249 kann/können einem bestimmten Mehrparteiengespräch für eine vorbestimmte Zeitspanne zugewiesen werden. In einer Ausführungsform der vorliegenden Offenbarung kann (können) der (die) Konferenzmischer 249 so konfiguriert sein, dass er (sie) Codecs mit jedem der an einem Mehrparteiengespräch teilnehmenden Kommunikationsgeräte 108A-108N aushandelt (aushandeln). Zusätzlich oder alternativ kann/können der/die Konferenzmischer 249 so konfiguriert sein, dass er/sie Eingaben (zumindest einschließlich Audioeingaben) von jedem teilnehmenden Kommunikationsgerät 108A-108N empfängt/empfangen und die empfangenen Eingaben zu einem kombinierten Signal mischt/mischen, das jedem der Kommunikationsgeräte 108A-108N in dem Mehrparteiengespräch bereitgestellt werden kann.
Der Audioanalysator 243 wird zunächst zur Registrierung von Stimmausdrucken verwendet. Diese Stimmabdrücke werden im Registrierungsmodul 247 gespeichert. Der Audioanalysator 243 wird auch verwendet, um die Sprachinformationen eines Teilnehmers an einer Kommunikationssitzung zu identifizieren (z. B. die Sprache des Teilnehmers an der Kommunikationssitzung). Die Sprachinformationen des Teilnehmers an einer Kommunikationssitzung werden identifiziert, indem die Sprachinformationen des Teilnehmers an der Kommunikationssitzung mit dem registrierten Sprachausdruck des Teilnehmers unter Verwendung des Moduls 275 für künstliche Intelligenz verglichen werden. Der Audioanalysator 243 identifiziert nicht nur die Stimminformationen der einzelnen Teilnehmer an der Kommunikationssitzung, sondern auch die Stimminformationen für die gemeinsamen Teilnehmer an der Kommunikationssitzung. Gemäß den Ausführungsformen der vorliegenden Offenbarung wird die Sprache jedes Teilnehmers als Wellenform dargestellt. Diese Wellenform wird in einem Tonformat, wie z. B. Audio Video Interleaved (AVI), Motion Picture Experts Group-1 Audio Layer-3 (MP3) usw., durch den Audioanalysator 243 unter Verwendung des Moduls für künstliche Intelligenz 275 erfasst. Der Stimmabdruck ist also eine Wellenformdarstellung des Tons der Sprache des Teilnehmers.
Der Videoanalysator 245 wird zunächst zur Registrierung von Gesichtsabdrücken verwendet. Diese Gesichtsabdrücke werden in dem Registrierungsmodul 247 gespeichert. Der Videoanalysator 245 wird auch verwendet, um den Standort der Teilnehmer der Kommunikationssitzung zu bestimmen, indem ein Bild der Teilnehmer der Kommunikationssitzung vor dem Beginn der Kommunikationssitzung aufgenommen wird. Mit Hilfe des Moduls 275 für künstliche Intelligenz kann beispielsweise der Standort (z. B. die Sitzordnung) der Teilnehmer ermittelt werden. Der Videoanalysator 245 wird außerdem verwendet, um die Identität der Teilnehmer an der Kommunikationssitzung zu bestätigen. Die Identität eines Teilnehmers der Kommunikationssitzung wird bestätigt, indem die Bildinformationen des Teilnehmers der Kommunikationssitzung mit dem registrierten Gesichtsabdruck des Teilnehmers unter Verwendung des Moduls für künstliche Intelligenz 275 verglichen werden. Gemäß den Ausführungsformen der vorliegenden Offenbarung kann der Gesichtsabdruck ein Bild (z. B. ein Foto) oder Videodaten sein.
Der Videoanalysator 245 verwendet die im Videosignal enthaltenen Bilder, um eine Übereinstimmung zwischen den Bildinformationen des Sprechers und einem der registrierten Gesichtsabdrücke zu ermitteln, um den Sprecher zu bestimmen oder zu bestätigen. Die Bildinformationen des Sprechers werden ermittelt, wenn ein Teilnehmer in die Kamera des Kommunikationsendpunkts blickt und zu sprechen beginnt. Das Modul 275 für künstliche Intelligenz mit Gesichtserkennungstechnologie wird verwendet, um die Teilnehmer der Kommunikationssitzung von Hintergrundobjekten zu unterscheiden und um die Teilnehmer der Kommunikationssitzung voneinander zu unterscheiden. Sobald ein Teilnehmer, der in die Kamera schaut und zu sprechen beginnt, lokalisiert wurde, empfängt der Audioanalysator 243 die Sprachinformationen des lokalisierten Teilnehmers. Die Stimminformationen des georteten Teilnehmers werden mit registrierten Stimmabdrücken verglichen, um den Sprecher zu bestätigen. Eine Übereinstimmung zwischen den Stimminformationen des Sprechers und einem der registrierten Stimmabdrücke bestimmt den Sprecher.
Gemäß einer alternativen Ausführungsform der vorliegenden Offenbarung empfängt der Audioanalysator 243 zunächst Stimminformationen von einem der Teilnehmer, der zu sprechen beginnt, und vergleicht die Stimminformationen des Sprechers mit den registrierten Stimmabdrücken, die vom Registrierungsmodul 247 gespeichert wurden. Bei einer Übereinstimmung zwischen den Stimminformationen des Sprechers und einem der registrierten Stimmabdrücke wird der Sprecher bestimmt. Nach der Bestimmung der Stimminformationen des Sprechers wird der Videoanalysator 245 verwendet, um die Identität des Sprechers zu bestätigen. Gemäß weiteren Ausführungsformen der vorliegenden Offenbarung wird, nachdem entweder die Bildinformationen des Sprechers oder die Stimminformationen des Sprechers identifiziert worden sind, das Modul für künstliche Intelligenz 275 zur automatischen Bestätigung des Sprechers verwendet. Nachdem beispielsweise die Stimme des Sprechers identifiziert wurde, ruft das Modul für künstliche Intelligenz 275 mit Hilfe des Registrierungsmoduls 247 den Standort des Sprechers anhand des vor Beginn der Kommunikationssitzung aufgenommenen Bildes der Teilnehmer ab. Auf diese Weise kann der Sprecher automatisch identifiziert werden, ohne dass der Videoanalysator 245 oder nur in begrenztem Umfang zum Einsatz kommt. Nachdem das Bild des Sprechers identifiziert wurde, ermittelt das Modul für künstliche Intelligenz 275 mithilfe des Registrierungsmoduls 247 den Standort des Sprechers anhand des vor Beginn der Kommunikationssitzung aufgenommenen Bildes der Teilnehmer. Auf diese Weise kann der Sprecher automatisch identifiziert werden, ohne oder mit eingeschränktem Einsatz des Audioanalysators 243.
Sobald der Sprecher identifiziert wurde, wird das Filtermodul 241 verwendet, um die restlichen Bild- und Sprachinformationen der anderen Teilnehmer der gemeinsamen Kommunikationssitzung herauszufiltern. Gemäß Ausführungsformen der vorliegenden Offenbarung ist das Modul 275 für künstliche Intelligenz vorgesehen, um die Analyse der Audio- und Videofilterung zu unterstützen. Nach oder gleichzeitig mit dem Herausfiltern der restlichen Bild- und Sprachinformationen wird das Bild des identifizierten Sprechers vergrößert. Gemäß einigen Implementierungen der vorliegenden Offenlegung wird ein digitales Zoomen verwendet, bei dem Bilder von der Kamera beschnitten und vergrößert werden, um einen Zoomeffekt zu erzielen. Wenn es nur einen einzigen Sprecher gibt, befindet sich der Sprecher in der Mitte des Bildes. Die Größe des zugeschnittenen Bildes wird an den richtigen Zoomfaktor angepasst (z. B. vergrößert). Beträgt der Zoomfaktor beispielsweise das Zweifache, hat der Bildausschnitt eine Breite und Länge, die der Hälfte des Originalbildes entspricht, so dass bei einer Vergrößerung des Bildausschnitts um das Zweifache das vergrößerte Bild die gleiche Größe wie das Originalbild hat, wodurch ein digitales Zoomen erreicht wird. Die Position des ausgeschnittenen Bildes wird so gewählt, dass der gewählte Teilnehmer genau angezeigt wird, z. B. so, dass sich der Sprecher in der Mitte des ausgeschnittenen Bildes befindet.
4 ist eine tabellarische Darstellung 400 von Datenbankeinträgen, die von den Teilnehmern zur Verfügung gestellt oder automatisch aus einer oder mehreren Datenquellen abgerufen werden und für die automatische Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung verwendet werden. Wie in 4 dargestellt, enthält die tabellarische Darstellung 400 Datenbankeinträge 404a-404d, die jeweils registrierte Informationen enthalten, wie z. B., aber nicht beschränkt auf eine Benutzer-ID 408, einen Gesichtsabdruck 412 und einen Stimmabdruck 416. In jedem der Datenbankeinträge 404 können weitere Informationen gespeichert werden, ohne dass dies vom Geist und Umfang der vorliegenden Offenbarung abweicht. Die registrierten Gesichtsabdrücke 412 und die Stimmabdrücke 416 werden verwendet, um die Benutzer 404B 1-404B4 mithilfe der KI-Technologie voneinander zu unterscheiden. Die KI-Technologie wird verwendet, um die Lautstärke, die Tonhöhe, das Tempo, den Bereich, die Intensität, den Ton und die Frequenz für jeden der registrierten Stimmabdrücke 416 zu unterscheiden.
Zurück zu 2: Das Kommunikationssystem 200 umfasst ferner das Kommunikationsgerät 208B, das die Netzwerkschnittstelle 218, den Prozessor 217, den Speicher 219, der mindestens die Anwendung 128 enthält, und das Eingabe-/Ausgabegerät 212 umfasst. Eine detaillierte Beschreibung des Kommunikationsgeräts 208B ist in 3 dargestellt.
3 ist ein Blockdiagramm eines illustrativen Kommunikationsgeräts 308B, das in einem Kommunikationssystem 300 zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß Ausführungsformen der vorliegenden Offenbarung verwendet wird. Das Kommunikationssystem 300 umfasst die Kommunikationsvorrichtung 308B, die es Benutzern (z. B. den gemeinsamen Teilnehmern 304B1-304B4) ermöglicht, mit dem Konferenzserver 344 zu interagieren, wie in 3 gezeigt. Die dargestellte Kommunikationsvorrichtung 308B umfasst einen Prozessor 317, einen Speicher 319, eine Eingabe-/Ausgabevorrichtung 312, eine Netzwerkschnittstelle 318, eine Datenbank 336, ein Betriebssystem 335, eine Anwendung 328, ein Autofokusmodul 339 und ein Registrierungsmodul 337. Obwohl in 3 nur ein Kommunikationsgerät 308B im Detail dargestellt ist, wird ein Fachmann erkennen, dass ein oder mehrere andere Kommunikationsgeräte mit ähnlichen oder identischen Komponenten wie das im Detail dargestellte Kommunikationsgerät 308 ausgestattet sein können. Die in 3 gezeigten Komponenten können denen entsprechen, die in den 1 und 2 gezeigt und beschrieben sind.
Die Eingabe-/Ausgabevorrichtung 312 kann es Benutzern 304B1-304B4 ermöglichen, mit der Kommunikationsvorrichtung 308B zu interagieren. Beispielhafte Benutzereingabegeräte, die in der Eingabe-/Ausgabevorrichtung 312 enthalten sein können, umfassen ohne Einschränkung eine Taste, eine Maus, einen Trackball, einen Rollerball, ein Bilderfassungsgerät oder jede andere bekannte Art von Benutzereingabegerät. Beispielhafte Benutzerausgabegeräte, die in der Eingabe-/Ausgabevorrichtung 312 enthalten sein können, umfassen ohne Einschränkung einen Lautsprecher, ein Licht, eine Leuchtdiode (LED), einen Bildschirm, einen Summer oder jede andere bekannte Art von Benutzerausgabegerät. In einigen Ausführungsformen der vorliegenden Offenbarung umfasst die Eingabe-/Ausgabevorrichtung 312 eine kombinierte Benutzereingabe- und Benutzerausgabevorrichtung, wie z. B. einen Touchscreen. Mithilfe der Eingabe-/Ausgabevorrichtung 312 kann der Benutzer 304B 1-304B4 über die Anwendung 328 Einstellungen konfigurieren, um beispielsweise Gesichts- und Stimmabdrücke einzugeben.
Der Prozessor 317 kann einen Mikroprozessor, eine CPU, eine Sammlung von Verarbeitungseinheiten, die serielle oder parallele Datenverarbeitungsfunktionen ausführen können, und Ähnliches umfassen. Der Prozessor 317 interagiert mit dem Speicher 319, dem Ein-/Ausgabegerät 312 und der Netzwerkschnittstelle 318 und kann verschiedene Funktionen der Anwendung 328, des Betriebssystems 335, des Autofokusmoduls 339 und des Registriermoduls 337 ausführen.
Der Speicher 319 kann eine Reihe von Anwendungen wie die Anwendung 328 oder ausführbare Anweisungen wie das Betriebssystem 335 enthalten, die vom Prozessor 317 gelesen und ausgeführt werden können. So kann der Speicher 319 beispielsweise Anweisungen in Form eines oder mehrerer Module und/oder Anwendungen enthalten. Der Speicher 319 kann auch Daten und Regeln in Form von einer oder mehreren Einstellungen für Schwellenwerte enthalten, die von der Anwendung 328, dem Betriebssystem 335, dem Autofokusmodul 339, dem Registrierungsmodul 337 und dem Prozessor 317 verwendet werden können.
Das Betriebssystem 335 ist eine High-Level-Anwendung, die es den verschiedenen anderen Anwendungen und Modulen ermöglicht, mit den Hardwarekomponenten (z. B. dem Prozessor 317, der Netzwerkschnittstelle 318 und der Eingabe-/Ausgabevorrichtung 312 des Kommunikationsgeräts 308B) zu kommunizieren. Das Betriebssystem 335 ermöglicht es den Benutzern 304B1-304B4 des Kommunikationsgeräts 308B auch, Anwendungen und Module im Speicher 319 sowie alle Daten, einschließlich Einstellungen, Gesichtsabdrücke, Stimmabdrücke usw., einzusehen und darauf zuzugreifen. Darüber hinaus kann die Anwendung 328 es anderen Anwendungen und Modulen ermöglichen, sich mit den Hardwarekomponenten des Kommunikationsgeräts 308B zu verbinden.
Das Autofokusmodul 339 umfasst mehrere Komponenten, darunter einen Audioanalysator, einen Videoanalysator, ein Filtermodul und ein Modul für künstliche Intelligenz. Der Audioanalysator wird verwendet, um eingehende Audiosignale aus den Sprachinformationen der Teilnehmer zu identifizieren. Gemäß den Ausführungsformen der vorliegenden Offenbarung kann der Audioanalysator Teil der Anwendung 328 sein (z. B. einer Konferenzanwendung). Der Audioanalysator kann auch eine Schnittstelle zu den Audio-/Ton-Treibern des Betriebssystems 335 über geeignete Anwendungsprogrammierschnittstellen (APIs) bilden, um die eingehenden Audiosignale zu identifizieren. Gemäß einer alternativen Ausführungsform der vorliegenden Offenlegung kann der Audioanalysator auch eine Schnittstelle zu einer oder mehreren anderen Komponenten bilden, die aus der Ferne, z. B. in einer Cloud-Umgebung, bereitgestellt werden, um die eingehenden Audiosignale zu identifizieren. Wenn ein Audiosignal von der Eingangs-/Ausgangsvorrichtung 312, wie z. B. den Mikrofonen, übertragen und in digitalem Format von der Kommunikationsvorrichtung 308B empfangen wird, wird das Audiosignal durch einen Digital-Analog-Wandler (nicht dargestellt) des Audioanalysators von digitalen in analoge Schallwellen umgewandelt. Das umgewandelte Audiosignal wird dann mit registrierten Stimmabdrücken verglichen, um die Stimme eines Teilnehmers an der Kommunikationssitzung zu identifizieren. Gemäß einer alternativen Ausführungsform der vorliegenden Offenbarung kann der Vergleich mit registrierten Stimmausdrucken zur Identifizierung der Stimme eines Teilnehmers an der Kommunikationssitzung bei einem in einer Cloud-Umgebung gehosteten Dienst durchgeführt werden, den der Konferenzserver 344 aufrufen würde.
Der Videoanalysator wird verwendet, um eingehende Videosignale aus den Bildinformationen der Teilnehmer zu identifizieren. Gemäß den Ausführungsformen der vorliegenden Offenbarung kann der Videoanalysator Teil der Anwendung 328 (z. B. einer Konferenzanwendung) sein. Der Videoanalysator kann auch eine Schnittstelle zu den Videotreibern des Betriebssystems 335 über geeignete APIs bilden, um die eingehenden Videosignale zu identifizieren. Gemäß einer alternativen Ausführungsform der vorliegenden Offenlegung kann der Videoanalysator auch eine Schnittstelle zu einer oder mehreren anderen Komponenten bilden, die aus der Ferne, z. B. in einer Cloud-Umgebung, bereitgestellt werden, um die eingehenden Videosignale zu identifizieren.
Das Registrierungsmodul 337 dient zum Speichern der Gesichts- und Stimmabdrücke der Teilnehmer sowie anderer Identifizierungsinformationen für die Teilnehmer an der Kommunikationssitzung, wie oben ausführlicher beschrieben. Das Kommunikationssystem 300 umfasst ferner den Konferenzserver 344, der mindestens eine Netzwerkschnittstelle 364, ein Konferenzsystem 342, eine Konferenzinfrastruktur 340 und ein Autofokusmodul 348 umfasst. Eine detaillierte Beschreibung des Konferenzservers 344 ist in 2 zu sehen, die oben beschrieben wird.
Obwohl einige Anwendungen und Module als Softwareanweisungen dargestellt werden können, die sich im Speicher 319 befinden und vom Prozessor 317 ausgeführt werden können, wird ein Fachmann verstehen, dass die Anwendungen und Module teilweise oder vollständig als Hardware oder Firmware implementiert werden können. Zum Beispiel kann ein anwendungsspezifischer integrierter Schaltkreis (ASIC) verwendet werden, um einige oder alle der hier beschriebenen Funktionen zu implementieren.
Obwohl verschiedene Module und Datenstrukturen für die offengelegten Systeme und Methoden als auf dem Kommunikationsgerät 308B befindlich dargestellt sind, kann ein Fachmann erkennen, dass eine, einige oder alle der dargestellten Komponenten des Kommunikationsgeräts 308B durch andere Software- oder Hardwarekomponenten bereitgestellt werden können. Beispielsweise können eine, einige oder alle der dargestellten Komponenten des Kommunikationsgeräts 308B von Systemen bereitgestellt werden, die auf dem Konferenzserver 344 arbeiten. In den in 3 gezeigten beispielhaften Ausführungsformen enthält das Kommunikationsgerät 308B die gesamte erforderliche Logik für die hierin offenbarten Systeme und Verfahren, so dass die Systeme und Verfahren auf dem Kommunikationsgerät 308B ausgeführt werden. Somit kann das Kommunikationsgerät 308B die hier offengelegten Verfahren ohne Verwendung von Logik auf dem Konferenzserver 344 durchführen.
5 ist ein Blockdiagramm, das eine Ansicht eines Kommunikationsendpunkts 504B zeigt, der in einem Konferenzbereich 500 eingesetzt wird, in dem mehrere Teilnehmer 504B1-504B4 zu Beginn oder am Ende einer Kommunikationssitzung um einen Konferenztisch 510 sitzen, wie es in der vorliegenden Offenbarung beschrieben ist. Der Kommunikationsendpunkt 508B umfasst die Eingabe-/Ausgabegeräte 512B in Form von Haupt- oder Zentralkameras, einem oder mehreren Lautsprechern und einem Display. Die Haupt- oder Zentralkameras sind in der Nähe des Bildschirms positioniert und auf diesen zentriert. Jede der Kameras verfügt in der Regel über PTZ-Funktionen, die mechanisch und/oder digital implementiert sein können. Der Kommunikationsendpunkt 504B steuert die PTZ-Funktionen jeder der Kameras und nimmt Videoaufnahmen verschiedener Ansichten/Szenen der Teilnehmer 504B 1-504B4 auf, die um den Konferenztisch 510 sitzen, der den Eingabe-/Ausgabegeräten 512B (z. B. den Kameras, den Lautsprechern und dem Display) gegenüberliegt oder ihnen zugewandt ist (d. h. vor ihnen liegt). Die in 5 dargestellte Kombination von zwei Kameras ist nur ein Beispiel für viele mögliche Kamerakombinationen, die verwendet werden können, wie ein Fachmann, der die vorliegende Beschreibung gelesen hat, wissen wird. Wie im Beispiel von 5 dargestellt, ist ein weiteres Eingabe-/Ausgabegerät 512B (z. B. ein Mikrofon) oberhalb des Displays angeordnet, um Audiosignale von den Teilnehmern 504B 1-504B4 im Konferenzbereich 500 zu empfangen.
Die Eingabe-/Ausgabegeräte 512B (z. B. die Kameras und das Mikrofon) sind zusammen mit dem Autofokusmodul 148 einschließlich des Filtermoduls 241, des Registrierungsmoduls 247, des Audioanalysators 243, des Videoanalysators 245 und des Moduls für künstliche Intelligenz 275 so konfiguriert, dass sie automatisch einen aktiven Sprecher mithilfe des Kommunikationsendpunkts 508B lokalisieren und heranzoomen und die Bilder und den Ton aller anderen nichtsprechenden Teilnehmer der Kommunikationssitzung herausfiltern. Gemäß Ausführungsformen der vorliegenden Offenbarung identifiziert der Kommunikationsendpunkt 508B und/oder der Konferenzserver 244 das Bild des Teilnehmers (z. B. das Gesicht und die Gesichtsposition des Teilnehmers) auf der Grundlage des mit den Eingabe-/Ausgabegeräten 512B (z. B. den Kameras) aufgenommenen Videos, des vom Videoanalysator 245 analysierten Videos und der Technologien, die unter Verwendung des Moduls für künstliche Intelligenz 275 angewandt werden, um das Gesicht und die Gesichtsposition des Teilnehmers im aufgenommenen Video mit dem registrierten Gesichtsabdruck für jeden der im Registrierungsmodul 247 gespeicherten Teilnehmer zu vergleichen. Unter Bezugnahme auf 4 und weiterführend auf 5 wird das Bild des Teilnehmers 504B1 als auf der linken Seite des Tisches 510 positioniert identifiziert, das Bild des Teilnehmers 504B2 wird als auf der rechten Seite des Tisches 510 gegenüber dem Bild des Teilnehmers 504B2 positioniert identifiziert, das Bild des Teilnehmers 504B4 wird als auf der linken Seite des Bildes des Teilnehmers 504B1 an einem Ende des Tisches 510 gegenüber dem Kommunikationsendpunkt 508B positioniert identifiziert und das Bild des Teilnehmers 504B4 wird als zwischen dem Bild des Teilnehmers 504B4 und dem Bild des Teilnehmers 504B2 am gleichen Ende des Tisches 510 wie das Bild des Teilnehmers 504B4 positioniert identifiziert. Wie in 4 angedeutet, wird jedem der Teilnehmer ein entsprechender Stimmabdruck 416 zugeordnet und verwendet, um festzustellen, welcher der Teilnehmer gerade spricht.
Zurück zu 5: Der Kommunikationsendpunkt 508B und/oder der Konferenzserver 244 erkennt die Positionen der sprechenden Teilnehmer (d. h. „Sprecher“, „aktive Sprecher“ usw.) auf der Grundlage der von der Eingabe-/Ausgabevorrichtung 512B (z. B. einem Mikrofon) erfassten Audiodaten, der vom Audioanalysator 243 analysierten Audiodaten und der mit dem Modul für künstliche Intelligenz 275 angewandten Technologien, um die Stimminformationen des Teilnehmers (z. B. die erfassten Audiodaten) mit den registrierten Stimmabdrücken für jeden der Teilnehmer zu vergleichen, die im Registrierungsmodul 247 gespeichert sind. Nachdem die Identität des Sprechers bestätigt wurde, zoomt der Kommunikationsendpunkt 508B und/oder der Konferenzserver 244 automatisch auf den aktiven Sprecher und filtert die Bilder und Audios der anderen, nicht sprechenden Teilnehmer der Kommunikationssitzung heraus.
6 ist ein Blockdiagramm, das eine Ansicht 600 eines aktiven Sprechers 604B2 an einem Kommunikationsendpunkt 608B während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt. Wie in 6 dargestellt, wird der Teilnehmer 604B2 als aktiver Sprecher an dem Kommunikationsendpunkt 608B identifiziert, wenn das Autofokusmodul 148 von 1 feststellt, dass das aufgenommene Video und Audio des Teilnehmers 604B2 mit dem registrierten Gesichts- und Stimmabdruck des Teilnehmers 604B2 übereinstimmt, wenn der Teilnehmer 604B2 zu sprechen beginnt und weiterspricht. Gemäß Ausführungsformen der vorliegenden Offenbarung kann das den Kommunikationsendpunkten zur Verfügung gestellte Video, das Teil der Kommunikationssitzung ist, so bearbeitet werden, dass es auf den aktiven Sprecher vergrößert wird (z. B. kann der Videostrom so beschnitten werden, dass nur der Teilnehmer 604B2 zu sehen ist), wobei die übrigen Teilnehmer aus dem Videostrom herausgefiltert werden. Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung werden auch die Hintergrundstimmen der anderen Teilnehmer herausgefiltert, so dass nur der aktive Sprecher, der Teilnehmer 604B2, an diesem Punkt der Kommunikationssitzung zu hören ist.
7 ist ein Blockdiagramm, das eine Ansicht 700 eines aktiven Sprechers 704B3 an einem Kommunikationsendpunkt 708B während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt. Wie in 7 dargestellt, wird der Teilnehmer 704B3 als aktiver Sprecher am Kommunikationsendpunkt 708B identifiziert, wenn das Autofokussierungsmodul 148 von 1 feststellt, dass das erfasste Video und Audio des Teilnehmers 704B3 mit dem registrierten Gesichts- und Stimmabdruck des Teilnehmers 704B3 übereinstimmt, wenn der Teilnehmer 704B3 zu sprechen beginnt und weiterspricht. Gemäß Ausführungsformen der vorliegenden Offenlegung kann das den Kommunikationsendpunkten zur Verfügung gestellte Video, das Teil der Kommunikationssitzung ist, so bearbeitet werden, dass es auf den aktiven Sprecher vergrößert wird (z. B. kann der Videostrom so beschnitten werden, dass nur der Teilnehmer 704B3 zu sehen ist), wobei die übrigen Teilnehmer aus dem Videostrom herausgefiltert werden. Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung werden auch die Hintergrundstimmen der anderen Teilnehmer herausgefiltert, so dass nur der aktive Sprecher, der Teilnehmer 704B3, an diesem Punkt der Kommunikationssitzung zu hören ist.
Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung wird, nachdem ein aktiver Sprecher seine Rede beendet hat und bevor ein anderer Sprecher zu sprechen beginnt, das Bild des aktiven Sprechers, der seine Rede beendet hat, herausgezoomt, so dass ein Bild aller Teilnehmer der Kommunikationssitzung angezeigt wird, bevor ein vergrößertes Bild des nächsten aktiven Sprechers angezeigt wird.
8 ist ein Blockdiagramm, das eine Ansicht 800 von zwei aktiven Sprechern 804B2 und 804A an verschiedenen Kommunikationsendpunkten 808B und 808A während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung zeigt. Gemäß einer Ausführungsform der vorliegenden Offenbarung können, wenn mehr als ein aktiver Sprecher vorhanden ist (z. B. bei einer Diskussion mit schnellen Sprecherwechseln), zwei oder mehr aktive Sprecher gleichzeitig angezeigt werden, wie in 8 dargestellt, um ein schnelles Hin- und Herschalten zwischen aktiven Sprechern zu vermeiden. Wie in 8 dargestellt, führen zwei aktive Sprecher (z. B. 804B2 und 804A) von den Kommunikationsendpunkten 808B bzw. 808A ein Gespräch. Die Bereitstellung von mehr als einem aktiven Sprecher wird verwendet, wenn die Teilnehmer abwechselnd sprechen, aber in schneller Folge sprechen, um einen zu schnellen Bildwechsel zu vermeiden. Wenn beispielsweise mehr als ein Wechsel des aktiven Sprechers in weniger als einer vorgegebenen Zeitspanne (z. B. zehn Sekunden) stattfindet, können mehrere Bilder angezeigt werden, da ein zu häufiger Wechsel des Bildes für die Zuschauer störend sein könnte.
9 ist ein Flussdiagramm eines Verfahrens 900 zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung gemäß den Ausführungsformen der vorliegenden Offenbarung. Während in 9 eine allgemeine Reihenfolge der Schritte des Verfahrens 900 dargestellt ist, kann das Verfahren 900 mehr oder weniger Schritte umfassen oder die Reihenfolge der Schritte anders als in 9 dargestellt anordnen. Außerdem können zwei oder mehr Schritte zu einem Schritt zusammengefasst werden. Im Allgemeinen beginnt das Verfahren 900 mit einem START-Vorgang in Schritt 904 und endet mit einem END-Vorgang in Schritt 940. Das Verfahren 900 kann als ein Satz von computerausführbaren Anweisungen ausgeführt werden, die von einem Datenverarbeitungssystem ausgeführt und auf einem computerlesbaren Medium kodiert oder gespeichert werden. Nachfolgend wird das Verfahren 900 unter Bezugnahme auf die Systeme, die Komponenten, die Module, die Software, die Datenstrukturen, die Benutzerschnittstellen usw. erläutert, die in Verbindung mit den 1-8 beschrieben werden.
Das Verfahren 900 beginnt mit dem START-Vorgang in Schritt 904 und geht weiter zu Schritt 908, wo der Prozessor 270, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 eine Gesichtserkennung durchführen, um die Teilnehmer der Kommunikationssitzung zu bestimmen. Gemäß den Ausführungsformen der vorliegenden Offenbarung würden die Teilnehmer der Kommunikationssitzung zuvor Gesichts- und Stimmabdrücke beim Konferenzserver 244 registrieren. Die Registrierung der Gesichts- und Stimmabdrücke kann unmittelbar vor Beginn der Kommunikationssitzung erfolgen, oder die registrierten Gesichts- und Stimmabdrücke können lange im Voraus eingegeben und aus dem Registrierungsmodul 247 oder der Datenbank 246 abgerufen werden. Gemäß einer weiteren Ausführungsform der vorliegenden Offenbarung würde ein Teilnehmer einfach eine Benutzer-ID eingeben. Die Benutzer-ID würde den Teilnehmer automatisch mit einem registrierten Gesichts- und Stimmabdruck in Verbindung bringen, ohne dass der Audioanalysator 243, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 zum Einsatz kommen. Die Gesichtserkennung würde jedoch dazu dienen, die Sitzordnung der Teilnehmer an der Kommunikationssitzung zu bestimmen. Bevor die Kommunikationssitzung beginnt (z. B. bevor die Teilnehmer zu sprechen beginnen), wird ein Bild aller Teilnehmer der Kommunikationssitzung angezeigt, wie in 5 dargestellt.
Nachdem die Gesichtserkennung durchgeführt wurde, um die Teilnehmer der Kommunikationssitzung in Schritt 908 zu bestimmen, geht das Verfahren 900 zu Entscheidungsschritt 912 über, in dem der Prozessor 270, der Audioanalysator 243 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 bestimmen, ob eine Stimme von einem der Teilnehmer der Kommunikationssitzung erkannt werden kann. Wenn im Entscheidungsschritt 912 keine Stimme eines Teilnehmers der Kommunikationssitzung erkannt werden kann (NO), kehrt das Verfahren 900 zum Entscheidungsschritt 912 zurück. Zu diesem Zeitpunkt ändert sich das Bild nicht und es wird ein Bild aller Teilnehmer der Kommunikationssitzung angezeigt.
Wenn im Entscheidungsschritt 912 eine Stimme von einem der Teilnehmer der Kommunikationssitzung erkannt wird (JA), fährt das Verfahren 900 mit Schritt 916 fort, wo der Prozessor 270, der Audioanalysator 243, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 verwendet werden, um die erkannte Stimme mit den Gesichtsbewegungen des Teilnehmers gleichzusetzen. Gemäß Ausführungsformen der vorliegenden Offenbarung wird die erkannte Stimme mit den Gesichtsbewegungen des Teilnehmers gleichgesetzt, indem die Bewegung des Mundes des Teilnehmers erfasst wird, wenn der Teilnehmer der Kamera gegenübersteht. Gemäß einer alternativen Ausführungsform der vorliegenden Offenbarung kann der Videoanalysator 245 zusammen mit dem Modul für künstliche Intelligenz 275 zunächst die Bewegung des Mundes eines Teilnehmers erkennen, wenn dieser der Kamera gegenübersteht, um zu erkennen, dass einer der Teilnehmer der Kommunikationssitzung sprechen möchte. Anschließend wird der erkannte Teilnehmer mit der erkannten Stimminformation des Teilnehmers gleichgesetzt, indem die Stimminformation des Teilnehmers mit dem registrierten Stimmabdruck des Teilnehmers verglichen wird.
Nach dem Abgleich der erkannten Stimme mit den Gesichtsbewegungen des Teilnehmers in Schritt 916 geht das Verfahren 900 zu Schritt 920 über, wo der Prozessor 270 und der Videoanalysator 245 des Konferenzservers 244 den ausgewählten Teilnehmer als aktiven Sprecher heranzoomen. Gemäß Ausführungsformen der vorliegenden Offenbarung werden beim Heranzoomen auf den ausgewählten Teilnehmer auch die Bild- und Sprachinformationen der nicht sprechenden Teilnehmer der Kommunikationssitzung herausgefiltert. Nach dem Heranzoomen des ausgewählten Teilnehmers als aktiver Sprecher in Schritt 920 fährt das Verfahren 900 mit dem Entscheidungsschritt 924 fort, in dem der Prozessor 270, der Audioanalysator 243, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 bestimmen, ob der ausgewählte Teilnehmer aufgehört hat zu sprechen. Wenn der ausgewählte Teilnehmer im Entscheidungsschritt 924 nicht aufgehört hat zu sprechen (NO), kehrt das Verfahren 900 zu Schritt 920 zurück, wo das vergrößerte Bild des ausgewählten Teilnehmers beibehalten wird. Wenn der ausgewählte Teilnehmer im Entscheidungsschritt 924 aufgehört hat zu sprechen (JA), geht das Verfahren 900 zum Entscheidungsschritt 928 über, in dem der Prozessor 270, der Audioanalysator 243 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 bestimmen, ob eine Stimme von den Teilnehmern der Kommunikationssitzung erkannt wird. Wenn in Schritt 918 eine Stimme erkannt wird (JA), kehrt das Verfahren 900 zu Schritt 916 zurück, wo der Prozessor 270, der Audioanalysator 243, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 verwendet werden, um die erkannte Stimme den Gesichtsbewegungen des Teilnehmers zuzuordnen. Wenn im Entscheidungsschritt 928 keine Stimme erkannt wird (NEIN), fährt das Verfahren 900 mit Schritt 932 fort, in dem der Prozessor 270, der Audioanalysator 243, der Videoanalysator 245 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 auf den ausgewählten Teilnehmer herauszoomen und ein Bild aller Teilnehmer der Kommunikationssitzung angezeigt wird. Nachdem der ausgewählte Teilnehmer herausgezoomt und ein Bild aller Teilnehmer der Kommunikationssitzung angezeigt wurde, geht das Verfahren 900 zum Entscheidungsschritt 936 über, in dem der Prozessor 270 und der Speicher 250 des Konferenzservers 244 bestimmen, ob die Zeit für die Kommunikationssitzung abgelaufen ist. Wenn die Zeit für die Kommunikationssitzung im Entscheidungsschritt 936 noch nicht abgelaufen ist (NEIN), kehrt das Verfahren 900 zum Entscheidungsschritt 928 zurück, wo der Prozessor 270, der Audioanalysator 243 und das Modul für künstliche Intelligenz 275 des Konferenzservers 244 bestimmen, ob eine Stimme von den Teilnehmern der Kommunikationssitzung erkannt wird. Wenn die Zeit für die Kommunikationssitzung im Entscheidungsschritt 936 abgelaufen ist (JA), endet das Verfahren 900 mit dem Vorgang END in Schritt 940.
Die beispielhaften Systeme und Verfahren dieser Offenlegung wurden in Bezug auf ein verteiltes Verarbeitungsnetz beschrieben. Um die vorliegende Offenbarung jedoch nicht unnötig zu verschleiern, wird in der vorangehenden Beschreibung eine Reihe bekannter Strukturen und Geräte ausgelassen. Diese Auslassung ist nicht als Einschränkung des Geltungsbereichs der Ansprüche zu verstehen. Spezifische Details werden dargelegt, um das Verständnis der vorliegenden Offenbarung zu erleichtern. Es sollte jedoch anerkannt werden, dass die vorliegende Offenbarung über die hier dargelegten spezifischen Details hinaus auf vielfältige Weise praktiziert werden kann.
Auch wenn die hier dargestellten beispielhaften Aspekte, Ausführungsformen und/oder Konfigurationen die verschiedenen Komponenten des Systems gemeinsam zeigen, können sich bestimmte Komponenten des Systems an entfernten Stellen eines verteilten Netzes, wie z. B. einem LAN und/oder dem Internet, oder innerhalb eines speziellen Systems befinden. Die Komponenten des Systems können also in einem oder mehreren Geräten, z. B. einem Server, zusammengefasst oder an einem bestimmten Knoten eines verteilten Netzes, z. B. eines analogen und/oder digitalen Kommunikationsnetzes, eines Paketvermittlungsnetzes oder eines leitungsvermittelten Netzes, untergebracht sein. Aus der vorangegangenen Beschreibung und aus Gründen der Recheneffizienz wird deutlich, dass die Komponenten des Systems an jedem beliebigen Ort innerhalb eines verteilten Netzwerks von Komponenten angeordnet werden können, ohne den Betrieb des Systems zu beeinträchtigen. Beispielsweise können sich die verschiedenen Komponenten in einer Vermittlungsstelle wie einer Nebenstellenanlage (PBX) und einem Medienserver, einem Gateway, in einem oder mehreren Kommunikationsgeräten, in den Räumlichkeiten eines oder mehrerer Benutzer oder einer Kombination davon befinden. In ähnlicher Weise könnten ein oder mehrere funktionale Teile des Systems zwischen einem oder mehreren Kommunikationsgeräten und einem zugehörigen Computergerät verteilt sein.
Darüber hinaus kann es sich bei den verschiedenen Verbindungen, die die Elemente miteinander verbinden, um drahtgebundene oder drahtlose Verbindungen oder um eine beliebige Kombination davon oder um ein anderes bekanntes oder später entwickeltes Element handeln, das in der Lage ist, Daten zu und von den verbundenen Elementen zu liefern und/oder zu übermitteln. Bei diesen drahtgebundenen oder drahtlosen Verbindungen kann es sich auch um sichere Verbindungen handeln, die in der Lage sind, verschlüsselte Informationen zu übermitteln. Als Übertragungsmedien für Verbindungen können beispielsweise alle geeigneten Träger für elektrische Signale verwendet werden, einschließlich Koaxialkabel, Kupferdraht und Glasfasern, und sie können die Form von akustischen oder Lichtwellen haben, wie sie bei der Datenkommunikation über Funk und Infrarot erzeugt werden.
Auch wenn die Flussdiagramme in Bezug auf eine bestimmte Abfolge von Ereignissen erörtert und veranschaulicht wurden, sollte man sich darüber im Klaren sein, dass Änderungen, Ergänzungen und Auslassungen dieser Abfolge auftreten können, ohne die Funktionsweise der offenbarten Ausführungsformen, Konfigurationen und Aspekte wesentlich zu beeinträchtigen.
Eine Reihe von Variationen und Modifikationen der Offenbarung können verwendet werden. Es wäre möglich, einige Merkmale der Offenbarung vorzusehen, ohne andere vorzusehen.
In einer weiteren Ausführungsform können die Systeme und Verfahren dieser Offenbarung implementiert sein in Verbindung mit einem „special purpose“ Computer, einem programmieten Mikroprozessor oder Mikrocontroller mit peripheren integrierten Schaltelement(en), einem ASIC oder anderen integrierten Schaltkreisen, einem digitalen Signalprozessor, einer fest verdrahteten elektronischen oder logischen Schaltung, wie z. B. einer Schaltung mit diskreten Elementen, einer programmierbaren logischen Vorrichtung oder Gatteranordnung, wie z. B. einer programmierbaren logischen Vorrichtung (PLD), einer programmierbaren logischen Anordnung (PLA), einer feldprogrammierbaren Gatteranordnung (FPGA), einem programmierbaren logischen Array (PAL), einem Spezialcomputer, einem vergleichbaren Mittel oder dergleichen. Im Allgemeinen können alle Geräte oder Mittel, die die hier dargestellte Methodik implementieren können, zur Umsetzung der verschiedenen Aspekte dieser Offenlegung verwendet werden. Zu der beispielhaften Hardware, die für die offengelegten Ausführungsformen, Konfigurationen und Aspekte verwendet werden kann, gehören Computer, Handheld-Geräte, Telefone (z. B. zellulare, internetfähige, digitale, analoge, hybride und andere) und andere im Fachgebiet bekannte Hardware. Einige dieser Geräte umfassen Prozessoren (z. B. einen oder mehrere Mikroprozessoren), Speicher, nichtflüchtige Speicher, Eingabegeräte und Ausgabegeräte. Darüber hinaus können alternative Software-Implementierungen, einschließlich, aber nicht beschränkt auf, verteilte Verarbeitung oder verteilte Verarbeitung von Komponenten/Objekten, parallele Verarbeitung oder Verarbeitung durch virtuelle Maschinen, entwickelt werden, um die hier beschriebenen Methoden zu implementieren.
In einer weiteren Ausführungsform können die offengelegten Methoden leicht in Verbindung mit Software implementiert werden, wobei objekt- oder objektorientierte Softwareentwicklungsorte verwendet werden, die einen portablen Quellcode bereitstellen, der auf einer Vielzahl von Computer- oder Workstation-Plattformen verwendet werden kann. Alternativ kann das offengelegte System teilweise oder vollständig in Hardware unter Verwendung von Standard-Logikschaltungen oder VLSI-Design (Very Large Scale Integration) implementiert werden. Ob Software oder Hardware verwendet wird, um die Systeme gemäß dieser Offenbarung zu implementieren, hängt von den Geschwindigkeits- und/oder Effizienzanforderungen des Systems, der jeweiligen Funktion und den jeweiligen Software- oder Hardwaresystemen oder Mikroprozessor- oder Mikrocomputersystemen ab, die verwendet werden.
In einer weiteren Ausführungsform können die offengelegten Methoden teilweise in Software implementiert werden, die auf einem Speichermedium gespeichert und auf einem programmierten Mehrzweckcomputer in Zusammenarbeit mit einem Controller und einem Speicher, einem Spezialcomputer, einem Mikroprozessor oder ähnlichem ausgeführt werden kann. In diesen Fällen können die Systeme und Methoden dieser Offenbarung als in einen Personal Computer eingebettetes Programm, wie z. B. ein Applet, ein JAVA®- oder ein Computer-generated Imagery (CGI)-Skript, als eine auf einem Server oder einer Computer-Workstation befindliche Ressource, als eine in ein spezielles Messsystem, eine Systemkomponente oder ähnliches eingebettete Routine implementiert werden. Das System kann auch implementiert werden, indem das System und/oder die Methode physisch in ein Software- und/oder Hardwaresystem integriert wird.
Obwohl die vorliegende Offenlegung Komponenten und Funktionen beschreibt, die in den Aspekten, Ausführungsformen und/oder Konfigurationen unter Bezugnahme auf bestimmte Standards und Protokolle implementiert sind, sind die Aspekte, Ausführungsformen und/oder Konfigurationen nicht auf solche Standards und Protokolle beschränkt. Andere ähnliche, hier nicht erwähnte Normen und Protokolle sind vorhanden und werden als in der vorliegenden Offenbarung enthalten betrachtet. Darüber hinaus werden die hier erwähnten Normen und Protokolle und andere ähnliche, hier nicht erwähnte Normen und Protokolle regelmäßig durch schnellere oder effektivere Äquivalente ersetzt, die im Wesentlichen die gleichen Funktionen haben. Solche Ersatznormen und -protokolle, die die gleichen Funktionen haben, werden als Äquivalente betrachtet, die in der vorliegenden Offenlegung enthalten sind.
Die vorliegende Offenbarung umfasst in verschiedenen Aspekten, Ausführungsformen und/oder Konfigurationen Komponenten, Verfahren, Prozesse, Systeme und/oder Geräte, die im Wesentlichen wie hierin dargestellt und beschrieben sind, einschließlich verschiedener Aspekte, Ausführungsformen, Konfigurationen, Unterkombinationen und/oder Untergruppen davon. Diejenigen, die auf dem Gebiet der Technik bewandert sind, werden nach dem Verständnis der vorliegenden Offenbarung verstehen, wie man die offengelegten Aspekte, Ausführungsformen und/oder Konfigurationen herstellt und verwendet. Die vorliegende Offenbarung umfasst in verschiedenen Aspekten, Ausführungsformen und/oder Konfigurationen die Bereitstellung von Vorrichtungen und Verfahren in Abwesenheit von Elementen, die hierin nicht dargestellt und/oder beschrieben sind, oder in verschiedenen Aspekten, Ausführungsformen und/oder Konfigurationen hiervon, einschließlich in Abwesenheit solcher Elemente, die in früheren Vorrichtungen oder Verfahren verwendet worden sein können, z. B. zur Verbesserung der Leistung, zur Erzielung von Einfachheit und zur Verringerung der Kosten der Implementierung.
Die vorstehenden Ausführungen dienen nur der Veranschaulichung und Beschreibung. Das Vorstehende soll die Offenbarung nicht auf die hier offengelegte(n) Form(en) beschränken. In der vorstehenden detaillierten Beschreibung sind beispielsweise verschiedene Merkmale der Offenbarung in einem oder mehreren Aspekten, Ausführungsformen und/oder Konfigurationen zusammengefasst, um die Offenbarung zu vereinfachen. Die Merkmale der Aspekte, Ausführungsformen und/oder Konfigurationen der Offenbarung können in alternativen Aspekten, Ausführungsformen und/oder Konfigurationen kombiniert werden, die von den oben beschriebenen abweichen. Diese Art der Offenbarung ist nicht so zu verstehen, dass die Ansprüche mehr Merkmale erfordern, als in den einzelnen Ansprüchen ausdrücklich aufgeführt sind. Vielmehr liegen, wie die folgenden Ansprüche zeigen, erfinderische Aspekte in weniger als allen Merkmalen eines einzelnen oben offengelegten Aspekts, einer Ausführungsform und/oder Konfiguration. Daher werden die folgenden Ansprüche hiermit in diese ausführliche Beschreibung aufgenommen, wobei jeder Anspruch für sich allein als eine separate bevorzugte Ausführungsform der Offenbarung steht.
Obwohl in der Beschreibung ein oder mehrere Aspekte, Ausführungsformen und/oder Konfigurationen sowie bestimmte Variationen und Modifikationen beschrieben wurden, fallen auch andere Variationen, Kombinationen und Modifikationen in den Anwendungsbereich der Offenbarung, z. B. solche, die nach dem Verständnis der vorliegenden Offenbarung dem Fachmann bekannt sind. Es ist beabsichtigt, Rechte zu erlangen, die alternative Aspekte, Ausführungsformen und/oder Konfigurationen umfassen, soweit dies zulässig ist, einschließlich alternativer, austauschbarer und/oder äquivalenter Strukturen, Funktionen, Bereiche oder Schritte zu den beanspruchten, unabhängig davon, ob solche alternativen, austauschbaren und/oder äquivalenten Strukturen, Funktionen, Bereiche oder Schritte hier offenbart sind oder nicht, und ohne die Absicht, irgendeinen patentierbaren Gegenstand öffentlich zu widmen.
Ausführungsformen der vorliegenden Offenbarung umfassen ein Verfahren zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung, einschließlich Empfangen eines Videos, das von einer Szene aufgenommen wurde, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthält, Identifizieren der Vielzahl von Bildern der Teilnehmer in dem Video, das von der Szene aufgenommen wurde, Erkennen von Audio von mindestens einem der Teilnehmer der Kommunikationssitzung und Erkennen von Gesichtsbewegungen in einem der Bilder der Vielzahl von Bildern. Das Verfahren umfasst auch das Gleichsetzen des erkannten Tons mit der erfassten Bewegung in einem der Bilder aus der Vielzahl von Bildern, das Auswählen des einen der Bilder aus der Vielzahl von Bildern als Sprecher auf der Grundlage des gleichgesetzten erkannten Tons mit der erfassten Bewegung in dem einen der Bilder aus der Vielzahl von Bildern, das Heranzoomen auf den Sprecher und das Herausfiltern eines Rests der Bilder aus der Vielzahl von Bildern.
Zu den Aspekten des obigen Verfahrens gehört, dass die Kommunikationssitzung eine Telefonkonferenz ist.
Aspekte des obigen Verfahrens umfassen, dass das Identifizieren der Vielzahl von Bildern der Teilnehmer die Durchführung einer Bilderkennung auf dem Video beinhaltet, um die Vielzahl von Bildern der Teilnehmer zu identifizieren.
Aspekte des obigen Verfahrens umfassen, dass das Erkennen des Tons von mindestens einem der Teilnehmer an der Kommunikationssitzung die Durchführung einer Spracherkennung umfasst, um den Ton von mindestens einem der Bilder zu erkennen.
Aspekte des obigen Verfahrens beinhalten, dass das Erkennen der Gesichtsbewegung in einem der Bilder aus der Vielzahl von Bildern die Durchführung einer Bilderkennung beinhaltet, um die Gesichtsbewegung in einem der Bilder aus der Vielzahl von Bildern zu erkennen.
Zu den Aspekten des obigen Verfahrens gehört auch das Herausfiltern von Audiosignalen anderer Teilnehmer der Kommunikationssitzung nach dem Heranzoomen auf den Sprecher.
Zu den Aspekten des obigen Verfahrens gehört ferner das Herauszoomen auf den Sprecher, nachdem kein Ton von mindestens einem der Teilnehmer der Kommunikationssitzung erkannt wurde.
Aspekte des obigen Verfahrens umfassen ferner den Vergleich des erkannten Tons von mindestens einem der Teilnehmer an der Kommunikationssitzung mit einem registrierten Stimmabdruck des Tons von mindestens einem der Bilder aus der Vielzahl von Bildern.
Zu den Aspekten des obigen Verfahrens gehört ferner der Vergleich der identifizierten Vielzahl von Bildern der Teilnehmer mit registrierten Gesichtsabdrücken für die Vielzahl von Bildern der Teilnehmer.
Ausführungsformen der vorliegenden Offenbarung umfassen ein System zur automatischen Fokussierung auf einen Sprecher während einer Kommunikationssitzung, das einen Prozessor und einen mit dem Prozessor gekoppelten und von diesem lesbaren Speicher enthält, in dem ein Satz von Anweisungen gespeichert ist, der, wenn er von dem Prozessor ausgeführt wird, den Prozessor veranlasst, ein Video zu empfangen, das von einer Szene aufgenommen wurde, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthält. Der Prozessor wird ferner veranlasst, die mehreren Bilder der Teilnehmer in dem von der Szene aufgenommenen Video zu identifizieren, den Ton von mindestens einem der Teilnehmer an der Kommunikationssitzung zu erkennen, Gesichtsbewegungen in einem der Bilder der mehreren Bilder zu erkennen und den erkannten Ton mit der erkannten Bewegung in dem einen der Bilder der mehreren Bilder gleichzusetzen. Außerdem wird der Prozessor dazu veranlasst, das eine der Bilder aus der Vielzahl von Bildern als Sprecher auszuwählen, basierend auf der Gleichsetzung des erkannten Audios mit der erkannten Bewegung in dem einen der Bilder aus der Vielzahl von Bildern, den Sprecher heranzuzoomen und einen Rest der Bilder aus der Vielzahl von Bildern herauszufiltern.
Zu den Aspekten des obigen Systems gehört, dass die Kommunikationssitzung eine Telefonkonferenz ist.
Aspekte des obigen Systems beinhalten, dass der Prozessor außerdem veranlasst wird, eine Bilderkennung auf dem Video durchzuführen, um die Vielzahl von Bildern der Teilnehmer zu identifizieren.
Aspekte des obigen Systems beinhalten, dass der Prozessor außerdem veranlasst wird, eine Spracherkennung durchzuführen, um den Ton von mindestens einem der Teilnehmer an der Kommunikationssitzung zu erkennen.
Aspekte des obigen Systems beinhalten, dass der Prozessor außerdem veranlasst wird, den Ton anderer Teilnehmer der Kommunikationssitzung herauszufiltern, nachdem auf den Sprecher gezoomt wurde.
Aspekte des obigen Systems beinhalten, dass der Prozessor außerdem veranlasst wird, den Lautsprecher zu verkleinern, nachdem er keinen Ton von mindestens einem der Teilnehmer der Kommunikationssitzung erkannt hat.
Ausführungsformen der vorliegenden Offenbarung umfassen ein computerlesbares Medium, das von einem Mikroprozessor ausführbare Befehle enthält, die, wenn sie von dem Mikroprozessor ausgeführt werden, die folgenden Funktionen ausführen: Empfangen von Videoaufnahmen einer Szene, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthält, Identifizieren der Vielzahl von Bildern der Teilnehmer in den Videoaufnahmen der Szene, Erkennen von Audio von mindestens einem der Teilnehmer der Kommunikationssitzung, Erkennen von Gesichtsbewegungen in einem der Bilder der Vielzahl von Bildern und Gleichsetzen des erkannten Audios mit der erkannten Bewegung in dem einen der Bilder der Vielzahl von Bildern. Der Mikroprozessor führt ferner die Funktion aus, das eine der Bilder aus der Vielzahl von Bildern als Sprecher auszuwählen, basierend auf der Gleichsetzung des erkannten Tons mit der erkannten Bewegung in dem einen der Bilder aus der Vielzahl von Bildern, den Sprecher heranzuzoomen und einen Rest der Bilder aus der Vielzahl von Bildern herauszufiltern.
Aspekte des obigen computerlesbaren Mediums schließen ein, dass die Kommunikationssitzung ein Konferenzgespräch ist.
Aspekte des obigen computerlesbaren Mediums beinhalten, dass der Mikroprozessor weiterhin die Funktion der Bilderkennung auf dem Video durchführt, um die Vielzahl von Bildern der Teilnehmer zu identifizieren.
Aspekte des obigen computerlesbaren Mediums schließen ein, dass der Mikroprozessor weiterhin die Funktion des Herausfilterns von Audiosignalen von anderen Teilnehmern der Kommunikationssitzung nach dem Heranzoomen auf den Sprecher ausführt.
Aspekte des obigen computerlesbaren Mediums schließen ein, dass der Mikroprozessor weiterhin die Funktion des Verkleinerns des Lautsprechers durchführt, nachdem er keinen Ton von mindestens einem der Teilnehmer der Kommunikationssitzung erkannt hat.

Claims

Verfahren, das Folgendes umfasst: Empfangen von Videoaufnahmen einer Szene, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthält; Identifizieren der Vielzahl von Bildern der Teilnehmer in dem von der Szene aufgenommenen Video; Erkennen von Audiosignalen von mindestens einem der Teilnehmer der Kommunikationssitzung; Erkennen von Gesichtsbewegungen in einem der Bilder aus der Vielzahl von Bildern; Gleichsetzen des erkannten Tons mit der erkannten Bewegung in einem der Bilder aus der Vielzahl der Bilder; Auswählen des einen Bildes aus der Vielzahl von Bildern als Sprecher auf der Grundlage der Gleichsetzung des erkannten Tons mit der erkannten Bewegung in dem einen Bild aus der Vielzahl von Bildern; Vergrößern des Sprechers; und Herausfiltern des Rests der Bilder aus der Vielzahl der Bilder.
Verfahren nach Anspruch 1, wobei das Identifizieren der mehreren Bilder der Teilnehmer das Durchführen einer Bilderkennung an dem Video umfasst, um die mehreren Bilder der Teilnehmer zu identifizieren.
Verfahren nach Anspruch 1, wobei das Erkennen des Tons von mindestens einem der Teilnehmer an der Kommunikationssitzung die Durchführung einer Spracherkennung umfasst, um den Ton von mindestens einem der Bilder zu erkennen.
Verfahren nach Anspruch 1, wobei das Erkennen der Gesichtsbewegung in einem der Bilder aus der Vielzahl von Bildern die Durchführung einer Bilderkennung umfasst, um die Gesichtsbewegung in einem der Bilder aus der Vielzahl von Bildern zu erkennen.
Verfahren nach Anspruch 1, das ferner das Herausfiltern des Tons von anderen Teilnehmern der Kommunikationssitzung nach dem Heranzoomen auf den Sprecher umfasst.
Verfahren nach Anspruch 1, das ferner das Herauszoomen auf den Sprecher umfasst, nachdem kein Ton von mindestens einem der Teilnehmer an der Kommunikationssitzung erkannt wurde.
Verfahren nach Anspruch 1, ferner umfassend das Vergleichen des erkannten Tons von mindestens einem der Teilnehmer an der Kommunikationssitzung mit einem registrierten Stimmabdruck des Tons von dem mindestens einen der Teilnehmer an der Kommunikationssitzung.
Verfahren nach Anspruch 1, das ferner den Vergleich der identifizierten Vielzahl von Bildern der Teilnehmer mit registrierten Gesichtsabdrücken für die Vielzahl von Bildern der Teilnehmer umfasst.
System, das Folgendes umfasst: einen Prozessor; und einen Speicher, der mit dem Prozessor gekoppelt und von diesem lesbar ist und in dem ein Satz von Befehlen gespeichert ist, der, wenn er von dem Prozessor ausgeführt wird, den Prozessor veranlasst zum: Empfangen von Videoaufnahmen einer Szene, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthalten; Identifizieren der Vielzahl von Bildern der Teilnehmer in dem von der Szene aufgenommenen Video; Erkennen des Tons von mindestens einem der Teilnehmer der Kommunikationssitzung; Erkennen von Gesichtsbewegungen in einem der Bilder aus der Vielzahl von Bildern; Gleichsetzen des erkanntens Ton mit der erkannten Bewegung in einem der Bilder aus der Vielzahl der Bilder; Auswählen des einen der Bilder aus der Vielzahl von Bildern als Sprecher, basierend auf der Gleichsetzung des erkannten Tons mit der erkannten Bewegung in dem einen der Bilder aus der Vielzahl von Bildern; Heranzoomen des Sprechers; und Herausfiltern eines Rests der Bilder aus der Vielzahl der Bilder.
Computerlesbares Medium, das von einem Mikroprozessor ausführbare Befehle enthält, die, wenn sie von dem Mikroprozessor ausgeführt werden, die folgenden Funktionen ausführen: Videoaufnahmen einer Szene empfangen, die eine Vielzahl von Bildern von Teilnehmern einer Kommunikationssitzung enthalten; Identifizierung der Vielzahl von Bildern der Teilnehmer in dem von der Szene aufgenommenen Video; den Ton von mindestens einem der Teilnehmer der Kommunikationssitzung erkennen; Erkennung von Gesichtsbewegungen in einem der Bilder aus der Vielzahl von Bildern; den erkannten Ton mit der erkannten Bewegung in einem der Bilder aus der Vielzahl der Bilder gleichsetzen; das eine der Bilder aus der Vielzahl von Bildern als Sprecher auszuwählen, basierend auf der Gleichsetzung des erkannten Tons mit der erkannten Bewegung in dem einen der Bilder aus der Vielzahl von Bildern; den Sprecher heranzoomen; und einen Rest der Bilder aus der Vielzahl der Bilder herausfiltern.