DE102021206172A1

DE102021206172A1 - Intelligente erkennung und automatische korrektur von fehlerhaften audioeinstellungen in einer videokonferenz

Info

Publication number: DE102021206172A1
Application number: DE102021206172.9A
Authority: DE
Inventors: David Chavez; Yashavant Pushkar Deole; Sandesh Chopdekar; Navin Daga
Original assignee: Avaya Man Lp; Avaya Management LP
Current assignee: Avaya Man Lp; Avaya Management LP
Priority date: 2020-08-20
Filing date: 2021-06-16
Publication date: 2022-03-17
Also published as: US20220060525A1; US11570223B2; US11082465B1; CN114079746A; BR102021012373A2

Abstract

Systeme, Verfahren und Software zur intelligenten Erkennung und automatischen Korrektur von fehlerhaften Audioeinstellungen in einer Videokonferenz. Elektronische Konferenzen können oft eine Quelle von Frustration und verschwendeten Ressourcen sein, da die Teilnehmer gezwungen sein können, sich mit Fremdgeräuschen wie Hintergrund- und Umgebungsgeräuschen oder Gesprächen, die nicht für die Konferenz bestimmt sind, auseinanderzusetzen, die von einem Endpunkt geliefert werden, der stummgeschaltet sein sollte. Ebenso kann es vorkommen, dass Teilnehmer mit der Absicht sprechen, ihre Sprache in die Konferenz einzubringen, während ihr zugehöriger Endpunkt stummgeschaltet ist. Infolgedessen kann die Konferenz umständlich und unproduktiv verlaufen, wenn Endpunkte fälschlicherweise stummgeschaltet oder nicht stummgeschaltet sind. Durch intelligente Verarbeitung zumindest des Videoanteils einer Videokonferenz können die Endpunkte/Teilnehmer aufgefordert werden, die Stummschaltung zu aktivieren/aufzuheben, oder die Stummschaltung wird automatisch aktiviert/deaktiviert.

Description

URHEBERRECHTSVERMERK
Ein Teil der Offenbarung dieser Patentschrift enthält Material, das dem Urheberrechtsschutz unterliegt. Der Urheberrechtsinhaber hat keine Einwände gegen die Faksimile-Reproduktion des Patentdokuments oder der Patentoffenbarung, wie sie in den Patent- und Markenamts-Patentakten oder -Aufzeichnungen erscheint, erhoben, behält sich aber ansonsten alle Urheberrechte vor.
BEREICH DER OFFENBARUNG
Die Erfindung bezieht sich allgemein auf Systeme und Verfahren für videobasierte Kommunikation und insbesondere auf das intelligente Stummschalten und Aufheben der Stummschaltung eines Endpunkts in einer Videokonferenz.
HINTERGRUND
Es ist üblich, dass man während einer Telefonkonferenz erwartet, dass jemand spricht und dann Stille hört, gefolgt von der Frage eines oder mehrerer anderer Teilnehmer: „Sind Sie stummgeschaltet?“ Manchmal ist es sogar notwendig, mit dem Teilnehmer, der zu sprechen versucht, über einen anderen Kanal (z. B. Chat) zu kommunizieren und ihm mitzuteilen, dass er nicht gehört wird, höchstwahrscheinlich weil er immer noch stummgeschaltet ist. Die anderen Teilnehmer konferieren entweder weiter und überhören den Beitrag des versuchenden Sprechers, oder sie warten, bis die Stummschaltung aufgehoben wird. Sobald der Sprecher merkt, dass er stummgeschaltet war, und die Stummschaltung aufhebt, muss er alles wiederholen, was er gesagt hat, während er stummgeschaltet war.
Umgekehrt müssen die Moderatoren oft ankündigen: „Diejenigen, die nicht sprechen, werden bitte stumm geschaltet“, um Fremdgespräche und Hintergrundgeräusche zu vermeiden, die von den Kommunikationsgeräten der nicht sprechenden Teilnehmer aufgenommen werden. Möglicherweise müssen die Konferenzleiter die Teilnehmer während einer Konferenz immer wieder daran erinnern. Fremdgeräusche können ablenken oder das Verstehen des beabsichtigten Inhalts erschweren oder gar unmöglich machen. Außerdem führen Störgeräusche und ungewollt stumm geschaltete Sprecher zu schlechten Erfahrungen für die Konferenzteilnehmer. Die Kontinuität oder der Fluss der Konferenz wird unterbrochen und/oder gewünschte Inhalte können ausgelassen werden.
ZUSAMMENFASSUNG
Elektronische Konferenzen oder Besprechungen mit mindestens zwei Teilnehmern, die über Kommunikationsendpunkte über ein Netzwerk kommunizieren (im Folgenden als „Konferenz“ oder „Videokonferenz“ bezeichnet), sind im Geschäftsleben und in anderen Bereichen üblich. Leider kommt es auch häufig vor, dass ein Sprecher spricht, ohne zu bemerken, dass er stumm geschaltet ist, was zu Verwirrung, Zeitverschwendung und einer gestörten Videokonferenz führt. Es kommt auch häufig vor, dass Fremdgeräusche von nicht stummgeschalteten Endpunkten, die mit Teilnehmern verbunden sind, die nicht sprechen und stummgeschaltet werden könnten, aufgenommen und in die Videokonferenz eingefügt werden.
Diese und andere Anforderungen werden durch die verschiedenen hier vorgestellten Ausführungsformen und Aspekte erfüllt. Die Ausführungsformen bieten eine Reihe von Vorteilen, die von der jeweiligen Konfiguration abhängen.
In einer Ausführungsform und als allgemeine Einführung in die hier vorgestellten Ausführungsformen wird ein System bereitgestellt, das die Tatsache erkennt, dass ein Endpunkt einer Videokonferenz fremde Audiosignale zur Verfügung stellt (z. B. der einem Endpunkt zugeordnete Teilnehmer spricht nicht, aber der Endpunkt stellt der Videokonferenz Audiosignale zur Verfügung), und das auf intelligente Weise Maßnahmen ergreift, und/oder das System, das die Tatsache erkennt, dass der Sprecher stummgeschaltet spricht, und das auf ähnliche Weise automatisch Maßnahmen ergreift, bevor ein manueller Eingriff erforderlich ist, um einen Teilnehmer in einer Videokonferenz stummzuschalten bzw. die Stummschaltung aufzuheben.
Bestimmte Systeme nach dem Stand der Technik registrieren einen Konferenzteilnehmer zusammen mit dem Endgerät, das der Teilnehmer verwendet, um seine Audio- und Videodaten für die Aufnahme in die Videokonferenz bereitzustellen. Auf diese Weise kann der Server erkennen, dass der Medienstrom bzw. die Medienströme, die den Server erreichen, von einem bestimmten Teilnehmer stammen. Bei solchen Systemen nach dem Stand der Technik können die Teilnehmer eine Liste aller Konferenzteilnehmer und eine Kennzeichnung, z. B. durch Hervorhebung, des gerade sprechenden Teilnehmers sehen. Wenn ein Teilnehmer stummgeschaltet ist, kann ein Hinweis, wie z. B. ein Stummschaltungssymbol (z. B.
×), zusammen mit Hinweisen auf den Teilnehmer, wie z. B. Name, Avatar, Miniaturansicht usw., angezeigt werden, um den Teilnehmer als stummgeschaltet zu identifizieren. Die hier vorgestellten Ausführungsformen gehen über die Systeme des Standes der Technik hinaus und bringen den Stand der Technik allgemein voran. Wenn ein Teilnehmer kein Video freigibt, kann außerdem ein Hinweis wie z. B. zusammen mit Hinweisen zur Identifizierung des Teilnehmers bereitgestellt werden.
In einer Ausführungsform wird ein System bereitgestellt, um ein intelligentes Stummschalten/Aufheben der Stummschaltung von Endpunkten zu erreichen, was von einem oder mehreren Mikroprozessoren (hier „Prozessor“) durchgeführt werden kann, die Funktionen oder Module ausführen, die eines oder mehrere der folgenden umfassen können:
1. Künstliche Intelligenz (KI) getriebenes Modul zur Erkennung und Analyse von Gesichtsbewegungen: In einer Ausführungsform führt ein Prozessor ein Modul aus, das für die Analyse des von einem Endpunkt empfangenen Videoteils des Medienstroms verantwortlich ist, um zu bestimmen, ob der Teilnehmer in dem Videoteil aktiv spricht oder nicht spricht. Die Analyse kann Bestimmungen über die Bewegung der Lippen des Teilnehmers, andere an der Sprache beteiligte Gesichtsmerkmale, die Richtung seines Blicks (z. B. zum Endpunkt hin oder von ihm weg, anderswo usw.) und/oder Gesichtsausdrücke umfassen. Die Analyse kann ferner die Bestimmung umfassen, wie viele Personen, wenn überhaupt, in dem Videoabschnitt erkannt werden.
2. Modul zur Verarbeitung natürlicher Sprache: In einer Ausführungsform führt ein Prozessor ein Modul aus, das zur Unterstützung des oben in Nr. 1 beschriebenen Moduls zur Sprachanalyse und -verarbeitung und des unten beschriebenen Moduls zur Audioanalyse und -verarbeitung Nr. 3 verwendet wird. Hier verarbeitet und analysiert das Modul zur Verarbeitung natürlicher Sprache das Gespräch in der Videokonferenz in Echtzeit, um den Kontext zu bestimmen. Beispielsweise wird die aufgezeichnete Sprache an einen bestimmten Teilnehmer der Videokonferenz gerichtet und anhand der gesprochenen Namen der Teilnehmer, die während der Konferenz aufgezeichnet wurden, identifiziert.
Sobald der Name eines bestimmten Teilnehmers identifiziert ist, z. B. durch die Verwendung während eines Teils der Videokonferenz, kann die Verarbeitung natürlicher Sprache (NLP) verwendet werden, um den Kontext des Satzes zu bestimmen, in dem der Name verwendet wird, und um festzustellen, ob dieser Satz eine an den Teilnehmer gerichtete Frage ist oder sich auf einen Nichtteilnehmer der Konferenz bezieht. Diese Bestimmung kann weiter verwendet werden, um die Tatsache zu untermauern, dass der Teilnehmer jetzt aktiv spricht oder dass von ihm erwartet wird, dass er in der Videokonferenz spricht (z. B. auf eine Frage antwortet).
3. Audioanalyse- und Verarbeitungsmodul: In einer Ausführungsform führt ein Prozessor eines Servers ein Modul aus, um einen Audiostrom vom Endpunkt eines Teilnehmers zu empfangen. Der Audioteil kann auf Audioeigenschaften wie Intensität/Lautstärke, Tonhöhe, Klang usw. analysiert werden. Der Audiostrom wird analysiert, vorzugsweise in Echtzeit zusammen mit anderen Daten, z. B. aus dem Modul zur Videoanalyse und -verarbeitung und/oder dem Modul zur Verarbeitung natürlicher Sprache. Andere Daten, wie z. B. die Teilnehmerliste, der Konferenzplan usw. können ebenfalls verwendet werden, um die Bestimmung eines aktiven Sprechers in der Videokonferenz zu verbessern.
Wenn der Teilnehmer über einen Soft-Client (oder Web-Client) mit der Konferenz verbunden ist und den Soft-/Web-Client verwendet, um sich stumm zu schalten, kann der Datenstrom dennoch an den Konferenzserver weitergeleitet werden, der den Strom jedoch nicht an andere Teilnehmer sendet. Daher kann der Teilnehmer zwar stumm sprechen, der Server hat jedoch weiterhin Zugriff auf den Datenstrom, der vom Endpunkt/Terminal des Teilnehmers kommt.
Der Soft-Client führt auf seiner Seite eine Überprüfung durch, bevor er die Daten an den Server weiterleitet. Das anfängliche Screening kann eine Überprüfung beinhalten, um festzustellen, ob die Intensität der Sprache über einem bestimmten Schwellenwert liegt, z. B. einem hörbaren Grenzwert für Menschen, und Audiosignale herausfiltern, die unter diesem Grenzwert liegen. Signale, die über diesem Grenzwert liegen, werden an den Konferenzserver weitergeleitet.
Wenn ein Teilnehmer stumm spricht, verwendet der Server die vom Soft-Client empfangenen Daten, um sie mit den Basisdaten zu vergleichen, wie z. B. mit den Trainingsdaten und/oder den Signalen des NLP-Moduls, um festzustellen, dass der Teilnehmer aktiv in der Konferenz spricht, dies aber stumm tut.
4. Konfidenzmodul: In einer Ausführungsform führt ein Prozessor ein Modul aus, um eine Aktion auszuführen, nachdem er einen Vertrauens- oder Konfidenzwert erhalten hat, der mit einer Aktion/einem Alarmereignis verbunden ist. Das Modul kann auf der Grundlage des Konfidenzwerts proaktiv Maßnahmen ergreifen, bevor ein manuelles Eingreifen erfolgt oder um ein solches zu vermeiden, einschließlich der Feststellung, dass ein aktiver Teilnehmer stumm spricht:
Sehr niedriger Vertrauenswert: Keine Maßnahmen ergreifen.
Niedriger Vertrauenswert: Auslösen der Darstellung eines visuellen Indikators durch den Endpunkt des Teilnehmers, der anzeigt, dass er stumm spricht.
Mittel: Auslösen einer akustischen Ansage durch den Endpunkt des Teilnehmers, dass er stummgeschaltet ist.
Hoch: Automatisches Aufheben der Stummschaltung des Teilnehmers, sofern dies aus rechtlichen Gründen zulässig ist.
Wenn festgestellt wird, dass Audio, das bereitgestellt wird, während der Endpunkt nicht stummgeschaltet ist, nicht in die Konferenz aufgenommen werden kann, kann die spezifische Vertrauensstufe zu einer bestimmten Aktion führen, einschließlich:
Sehr niedriger Vertrauenswert: Keine Maßnahmen ergreifen.
Niedriger Vertrauenswert: Auslösung eines visuellen und/oder akustischen Hinweises durch den Endpunkt des Teilnehmers, der darauf hinweist, dass er Audio für die Konferenz bereitstellt und möglicherweise stummgeschaltet werden muss.
Mittel: Auslösung der Präsentation einer visuellen und/oder akustischen Ankündigung, dass der Teilnehmer Geräusche für die Konferenz bereitstellt und stumm geschaltet werden sollte, wenn er nicht an der Konferenz teilnimmt.
Hoch: Automatische Stummschaltung des Endpunkts des Teilnehmers.
Zusätzlich zur automatischen Bestimmung eines Schwellenwerts für die Vertrauenswürdigkeit kann der Teilnehmer, der Konferenzmoderator oder ein anderer Administrator die Schwellenwerte konfigurieren und/oder die automatische Stummschaltung mit oder ohne Ansagefunktionen deaktivieren, die ankündigen oder darauf hinweisen, dass der Teilnehmer die Stummschaltung seines Endpunkts manuell einleiten sollte. Es kann notwendig oder vorteilhaft sein, die Teilnehmer zu warnen, dass ihr Ton im stummgeschalteten Zustand überwacht wird, dass diese Überwachung aber nur dazu dient, festzustellen, ob der im stummgeschalteten Zustand gelieferte Ton anzeigt, dass der Ton wieder aufgedreht werden sollte, oder umgekehrt, z. B. in Übereinstimmung mit den Gesetzen/Rechtsvorschriften der Länder/Gebiete, in denen die Erfindung verwendet werden soll.
Die wie oben beschrieben gesammelten Daten können dann verwendet werden, um ein oder mehrere Modelle für maschinelles Lernen (ML) zu trainieren. Zur Verringerung von Fehlalarmen kann eine Filterung durchgeführt werden, z. B. um Geräusche außerhalb des für Menschen hörbaren Bereichs auszuschließen. Diese Daten werden in nachfolgenden Videokonferenzen verwendet.
In einer anderen Ausführungsform weist das Konfidenzmodul anhand von Trainingsdaten und dem vom Endpunkt eines Teilnehmers eingehenden Echtzeitstrom (z. B. Video und Audio) einen Konfidenzwert zu, der die Wahrscheinlichkeit widerspiegelt, dass der Teilnehmer aktiv spricht, um Sprache für die Konferenz bereitzustellen, aber stumm geschaltet ist. Wenn der Vertrauenswert über einem zuvor festgelegten Schwellenwert liegt, wird ein Alarmierungsereignis erstellt und an den Konferenzserver gesendet, z. B. an ein Alarmierungsmodul (siehe unten).
#5 Alarmierungs-/Stummschaltungsmodul in einer Ausführungsform führt ein Prozessor ein Modul aus, um eine Benachrichtigung an einen Endpunkt bezüglich eines stummgeschalteten/ nicht stummgeschalteten Status zu senden. Die Benachrichtigung kann beispielsweise vor oder nach der Durchführung der Stummschaltung gesendet werden. Die Warnung/Benachrichtigung kann mindestens eines der folgenden Elemente umfassen: eine textliche, visuelle und/oder akustische Warnung.
Zusätzlich kann das System ein Modul zur Registrierung und Identifizierung von Konferenzteilnehmern enthalten: In einer Ausführungsform registriert ein Prozessor eines Konferenzservers oder -systems den Teilnehmer zusammen mit dem Endgerät, das der Teilnehmer verwendet, wenn er einer Konferenz beitritt. Auf diese Weise kann der Server zuordnen, dass der Medienstrom bzw. die Medienströme (z. B. Audio- und Videoanteile), die den Server erreichen, von einem bestimmten Endpunkt/Teilnehmer stammen. Wie hierin beschrieben, kann mindestens ein Prozessor des Konferenzservers Komponenten/Module ausführen, um zu bestimmen, ob der Endpunkt eines Teilnehmers automatisch stummgeschaltet oder eine andere Maßnahme (z. B. Übermittlung einer Benachrichtigung zum Aufheben der Stummschaltung) ergriffen werden soll, wenn festgestellt wird, dass ein Teilnehmer wahrscheinlich spricht und die Absicht hat, dass die Rede in die Konferenz aufgenommen wird, aber derzeit stummgeschaltet ist. Darüber hinaus kann der Konferenzserver bestimmen, ob der Endpunkt eines Teilnehmers automatisch stummgeschaltet oder automatisch benachrichtigt werden soll, dass er stummgeschaltet werden soll, wenn festgestellt wird, dass der Audioteil eines Endpunkts für die Videokonferenz irrelevant ist (z. B. wenn die Sprache des Teilnehmers nicht für die Videokonferenz bestimmt ist, die Sprache nicht wahrnehmbar ist, das Audio Hintergrundgeräusche enthält usw.).
Die vorliegenden Ausführungsformen sehen die Analyse der Audio- und/oder Videobeiträge der Teilnehmer unter Verwendung von NLP/Künstlicher Intelligenz (KI) vor, die auch maschinelles Lernen, Deep Learning oder andere Techniken der maschinellen Intelligenz und Spracherkennung umfassen kann, um festzustellen, dass der Benutzer nicht in der Videokonferenz spricht, sondern Audiobeiträge (z. B. Rauschen, Fremdsprache usw.) zur Videokonferenz liefert, und um automatisch geeignete Maßnahmen zu ergreifen, bevor ein manuelles Eingreifen erforderlich ist, so dass das reichhaltige Benutzererlebnis der Teilnehmer der Videokonferenz erhalten bleibt.
Andere Ausführungsformen sehen vor, dass durch die Analyse der Audio- und/oder Videobeiträge der Teilnehmer festgestellt wird, dass der Benutzer in der Videokonferenz tatsächlich stumm spricht, und dass das System automatisch entsprechende Maßnahmen ergreift, ohne dass ein manuelles Eingreifen erforderlich ist, so dass das reichhaltige Benutzererlebnis der Teilnehmer an der Videokonferenz erhalten bleibt. NLP oder andere maschinelle Intelligenz kann eingesetzt werden, um einen von einem Teilnehmer gesprochenen Satz zu analysieren, der sich an einen anderen Teilnehmer richtet oder auf ihn verweist. Wenn beispielsweise eine Frage an einen anderen Teilnehmer gerichtet wird (z. B. „Sehen wir uns das Dokument an. Hast du es fertig, Alice?“), ist dies eine an Alice gerichtete Frage, und folglich sollte der von Alice verwendete Endpunkt darauf reagieren. Ist dies nicht der Fall, kann eine Warnung/Benachrichtigung an den Endpunkt gesendet werden. In einigen Ausführungsformen kann der Endpunkt automatisch entstummt werden. Wenn das NLP feststellt, dass der Verweis nicht an einen anderen Teilnehmer gerichtet ist (z. B. „Schauen wir uns das von Alice freigegebene Dokument an.“), wird von dem von Alice verwendeten Endpunkt nicht erwartet, dass er antwortet, und der aktuelle Stummschaltungs-/Entstummungsstatus bleibt unverändert.
Verschiedene Ausführungsformen und Aspekte der Ausführungsformen sind offenbart, einschließlich:

In einer Ausführungsform wird ein Videokonferenzserver offenbart. Der Videokonferenzserver umfasst: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente, die eine nicht-übertragbare Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; und wobei der Prozessor beim Zugriff auf maschinenausführbare Anweisungen den Prozessor veranlasst, Folgendes auszuführen: Senden von Konferenzinhalten über das Netzwerk an jeden einer Vielzahl von Endpunkten, wobei die Konferenzinhalte einen Audioteil und einen Videoteil umfassen, die von jedem der Vielzahl von Endpunkten empfangen werden; intelligentes Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um zu bestimmen, ob ein entsprechender Audioteil für die Konferenzinhalte irrelevant ist; und bei der Bestimmung, dass der entsprechende Audioteil für die Konferenzinhalte irrelevant ist, Ausführen einer Stummschaltungsaktion, um den entsprechenden Audioteil von den Konferenzinhalten auszuschließen.
In einer anderen Ausführungsform wird ein Verfahren zum intelligenten Stummschalten eines Endpunkts in einer Videokonferenz offenbart. Das Verfahren umfasst: Senden von Konferenzinhalt an jeden einer Vielzahl von Endpunkten, wobei der Konferenzinhalt einen Audioteil und einen Videoteil umfasst, die von jedem der Vielzahl von Endpunkten empfangen werden; intelligentes Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um zu bestimmen, ob der entsprechende Audioteil für den Konferenzinhalt irrelevant ist; und bei der Bestimmung, dass der entsprechende Audioteil für den Konferenzinhalt irrelevant ist, Ausführen einer Stummschaltungsaktion, um den entsprechenden Audioteil von dem Konferenzinhalt auszuschließen.
In einer anderen Ausführungsform wird ein Verfahren zum intelligenten Aufheben der Stummschaltung eines Endpunkts in einer Videokonferenz offenbart. Das Verfahren umfasst: Senden von Konferenzinhalten an jeden einer Vielzahl von Endpunkten, wobei die Konferenzinhalte einen Audioteil und einen Videoteil umfassen, die von jedem der Vielzahl von Endpunkten empfangen werden; intelligentes Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um festzustellen, ob ein Teilnehmer unbeabsichtigt stummgeschaltet ist; und bei Feststellung, dass der Teilnehmer unbeabsichtigt stummgeschaltet sein kann, Ausführen einer Signalisierung an einen Endpunkt, der dem unbeabsichtigt stummgeschalteten Teilnehmer zugeordnet ist, um den zugeordneten Endpunkt zu veranlassen, den unbeabsichtigt stummgeschalteten Teilnehmer aufzufordern, seine Stummschaltung aufzuheben.

Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver einen Endpunkt, der dem entsprechenden Audioteil zugeordnet ist, automatisch stumm schaltet; und dass er eine Nachricht an den automatisch stummgeschalteten Endpunkt sendet, die anzeigt, dass der Endpunkt automatisch stummgeschaltet wurde.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver einem Endpunkt, der dem entsprechenden Audioteil zugeordnet ist, ein Signal gibt, um den zugeordneten Endpunkt zu veranlassen, einen Teilnehmer aufzufordern, seinen Ton stummzuschalten.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver einen Endpunkt, der mit dem entsprechenden Audioteil verbunden ist, automatisch stummschaltet, wenn ein Vertrauenswert über einem Schwellenwert liegt.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver feststellt, dass ein Teilnehmer in dem mindestens einen Videoteil spricht, aber nicht auf seinen Bildschirm schaut.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver feststellt, dass ein Teilnehmer in dem mindestens einen Videoteil nicht spricht und/oder der entsprechende Audioteil keine Sprache enthält.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver feststellt, dass sich keine Person in dem mindestens einen Videoteil befindet.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver feststellt, dass Audio von dem mindestens einen Endpunkt geteilt wird; und feststellt, dass die Lippen des Teilnehmers sich nicht bewegen, die anderen Gesichtsteile des Teilnehmers nicht auf Sprache hindeuten, und/oder die Gesichtsausdrücke des Teilnehmers nicht auf Sprache hindeuten.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen beinhalten, dass der Videokonferenzserver mindestens den Videoteil von mindestens einem Endpunkt intelligent verarbeitet, um festzustellen, ob ein Teilnehmer unbeabsichtigt stummgeschaltet ist; und bei der Feststellung, dass der Teilnehmer unbeabsichtigt stummgeschaltet sein kann, einen mit dem unbeabsichtigt stummgeschalteten Teilnehmer assoziierten Endpunkt zu signalisieren, um den assoziierten Endpunkt zu veranlassen, den unbeabsichtigt stummgeschalteten Teilnehmer aufzufordern, sein Audio aufzuheben.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen beinhalten, dass der Videokonferenzserver feststellt, dass der mindestens eine Endpunkt stummgeschaltet ist, dass der dem mindestens einen Endpunkt zugeordnete Teilnehmer auf die Kamera und/oder den Bildschirm blickt und dass mindestens eines der folgenden Merkmale zutrifft: die Lippen des Teilnehmers bewegen sich, die anderen Gesichtsteile des Teilnehmers deuten auf Sprache hin und/oder die Gesichtsausdrücke des Teilnehmers deuten auf Sprache hin.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen beinhalten, dass der Videokonferenzserver mindestens den Audioteil von mindestens einem Endpunkt intelligent verarbeitet, um festzustellen, dass ein mit einem bestimmten Konferenzteilnehmer assoziierter Name gesprochen wurde; und dass er, nachdem er festgestellt hat, dass der mit dem bestimmten Konferenzteilnehmer assoziierte Name gesprochen wurde, an einen mit dem bestimmten Konferenzteilnehmer assoziierten Endpunkt eine Aufforderung zum Aufheben der Stummschaltung seines Audios überträgt.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen, wobei die Aufforderung mindestens eines der folgenden Elemente umfasst: einen textlichen, visuellen und/oder akustischen Alarm.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen das Senden eines Signals an einen Endpunkt, der dem entsprechenden Audioteil zugeordnet ist, um den zugeordneten Endpunkt zu veranlassen, einen Teilnehmer aufzufordern, seinen Ton stummzuschalten.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen das automatische Stummschalten eines Endpunkts, der mit dem entsprechenden Audioteil verbunden ist, wenn ein Vertrauenswert über einem Schwellenwert liegt.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen die Feststellung, dass ein Teilnehmer in dem mindestens einen Videoabschnitt spricht, aber sein Blick nicht direkt auf sein Gerät gerichtet ist.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen die Feststellung, dass ein Teilnehmer in dem mindestens einen Videoabschnitt nicht spricht und/oder der entsprechende Audioabschnitt keine Sprache enthält.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen die Feststellung, dass der mindestens eine Endpunkt stummgeschaltet ist, der Teilnehmer auf die Kamera und/oder den Bildschirm blickt und mindestens eines der folgenden Merkmale vorliegt: die Lippen des Teilnehmers bewegen sich, die anderen Gesichtsteile des Teilnehmers deuten auf Sprache hin und/oder die Gesichtsausdrücke des Teilnehmers deuten auf Sprache hin.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen die intelligente Verarbeitung mindestens des Audioteils von mindestens einem Endpunkt, um festzustellen, dass ein mit einem bestimmten Konferenzteilnehmer assoziierter Name gesprochen wurde; und nach der Feststellung, dass der mit dem bestimmten Konferenzteilnehmer assoziierte Name gesprochen wurde, die Signalisierung an einen mit dem bestimmten Konferenzteilnehmer assoziierten Endpunkt, um den bestimmten Konferenzteilnehmer aufzufordern, seine Stummschaltung aufzuheben.
Die Ausdrücke „mindestens eines“, „eines oder mehrere“, „oder“ und „und/oder“ sind unbestimmte Ausdrücke, die sowohl konjunktiv als auch disjunktiv verwendet werden können. Zum Beispiel bedeutet jeder der Ausdrücke „mindestens eines von A, B und C“, „mindestens eines von A, B oder C“, „eines oder mehrere von A, B und C“, „eines oder mehrere von A, B oder C“, „A, B und/oder C“ und „A, B oder C“ A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen oder A, B und C zusammen.
Der Begriff „eine“ oder „eine“ Einheit bezieht sich auf eine oder mehrere dieser Einheiten. Als solche können die Begriffe „ein“ (oder „ein“), „ein oder mehrere“ und „mindestens ein“ hier austauschbar verwendet werden. Es ist auch zu beachten, dass die Begriffe „umfassend“, „einschließlich“ und „mit“ austauschbar verwendet werden können.
Der Begriff „automatisch“ und Variationen davon, wie er hier verwendet wird, bezieht sich auf jeden Prozess oder Vorgang, der typischerweise kontinuierlich oder halbkontinuierlich ist und ohne wesentliche menschliche Eingaben durchgeführt wird, wenn der Prozess oder Vorgang ausgeführt wird. Ein Prozess oder Vorgang kann jedoch automatisch sein, auch wenn die Durchführung des Prozesses oder Vorgangs materielle oder immaterielle menschliche Eingaben erfordert, wenn die Eingaben vor der Durchführung des Prozesses oder Vorgangs empfangen werden. Menschliche Eingaben gelten als wesentlich, wenn sie die Durchführung des Prozesses oder Vorgangs beeinflussen. Menschliche Eingaben, die mit der Durchführung des Prozesses oder Vorgangs einverstanden sind, gelten nicht als „wesentlich“.
Aspekte der vorliegenden Offenbarung können die Form einer Ausführungsform annehmen, die vollständig aus Hardware besteht, einer Ausführungsform, die vollständig aus Software besteht (einschließlich Firmware, residenter Software, Mikrocode usw.), oder einer Ausführungsform, die Software- und Hardwareaspekte kombiniert, die hier allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden können. Jede Kombination aus einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein, das, wenn es von einem Mikroprozessor gelesen wird, den Mikroprozessor veranlasst, die darin kodierten Anweisungen auszuführen.
Ein computerlesbares Speichermedium kann zum Beispiel, aber nicht ausschließlich, ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, ein Apparat oder eine Vorrichtung oder eine geeignete Kombination der vorgenannten sein. Zu den spezifischeren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium gehören: eine elektrische Verbindung mit einem oder mehreren Drähten, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM oder Flash-Speicher), eine optische Faser, ein tragbarer Compact-Disc-Festwertspeicher (CD-ROM), eine optische Speichervorrichtung, eine magnetische Speichervorrichtung oder eine beliebige geeignete Kombination der vorgenannten. Im Zusammenhang mit diesem Dokument kann ein computerlesbares Speichermedium jedes greifbare, nicht-übertragbare Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein verbreitetes Datensignal mit darin verkörpertem computerlesbarem Programmcode enthalten, zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches übertragenes Signal kann eine beliebige Form annehmen, einschließlich, aber nicht beschränkt auf, elektromagnetische oder optische Signale oder eine geeignete Kombination davon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät übermitteln, verbreiten oder transportieren kann. Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann über jedes geeignete Medium übertragen werden, einschließlich, aber nicht beschränkt auf drahtlose, drahtgebundene, optische Faserkabel, RF, etc. oder jede geeignete Kombination der vorgenannten Medien.
Die Begriffe „bestimmen“, „berechnen“, „rechnen“ und Abwandlungen davon werden hier austauschbar verwendet und umfassen jede Art von Methodik, Prozess, mathematischer Operation oder Technik.
Der Begriff „Mittel“, wie er hier verwendet wird, ist gemäß 35 U.S.C., Abschnitt 112(f) und/oder Abschnitt 112, Absatz 6 so weit wie möglich auszulegen. Dementsprechend umfasst ein Anspruch, der den Begriff „Mittel“ enthält, alle hierin dargelegten Strukturen, Materialien oder Handlungen sowie alle Äquivalente davon. Ferner umfassen die Strukturen, Materialien oder Handlungen und deren Äquivalente alle in der Zusammenfassung, der Kurzbeschreibung der Zeichnungen, der detaillierten Beschreibung, der Zusammenfassung und den Ansprüchen selbst beschriebenen.
Das Vorstehende ist eine vereinfachte Zusammenfassung der Erfindung, um ein Verständnis für einige Aspekte der Erfindung zu vermitteln. Diese Zusammenfassung ist weder ein umfassender noch ein erschöpfender Überblick über die Erfindung und ihre verschiedenen Ausführungsformen. Es ist weder beabsichtigt, wichtige oder kritische Elemente der Erfindung zu identifizieren noch den Umfang der Erfindung abzugrenzen, sondern ausgewählte Konzepte der Erfindung in vereinfachter Form als Einführung in die detailliertere Beschreibung weiter unten zu präsentieren. Es wird deutlich, dass auch andere Ausführungsformen der Erfindung möglich sind, bei denen eines oder mehrere der oben genannten oder unten im Detail beschriebenen Merkmale allein oder in Kombination verwendet werden. Auch wenn die Offenbarung in Form von beispielhaften Ausführungsformen dargestellt wird, sollte man sich darüber im Klaren sein, dass ein einzelner Aspekt der Offenbarung separat beansprucht werden kann.
Figurenliste
Die vorliegende Offenbarung wird in Verbindung mit den beigefügten Figuren beschrieben:

1 zeigt ein erstes System in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
2 zeigt eine erste Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
In den 3A-3C ist eine zweite Interaktion gemäß Ausführungsformen der vorliegenden Offenbarung dargestellt;
4 zeigt ein erstes Verfahren in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
5 zeigt einen zweiten Prozess in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
Die 6A-6B zeigen eine dritte Interaktion gemäß Ausführungsformen der vorliegenden Offenbarung;
7A-7B zeigen eine vierte Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
Die 8A-8B zeigen eine fünfte Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
9A-9C zeigen eine sechste Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung; und
10 zeigt einen Videokonferenzserver gemäß den Ausführungsformen der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Die nachfolgende Beschreibung enthält nur Ausführungsbeispiele und soll den Umfang, die Anwendbarkeit oder die Ausgestaltung der Ansprüche nicht einschränken. Vielmehr soll die nachfolgende Beschreibung dem Fachmann eine Beschreibung zur Verfügung stellen, die es ihm ermöglicht, die Ausführungsformen umzusetzen. Es versteht sich, dass verschiedene Änderungen in der Funktion und Anordnung der Elemente vorgenommen werden können, ohne vom Geist und Umfang der beigefügten Ansprüche abzuweichen.
Jeder Verweis in der Beschreibung, der eine Elementnummer enthält, ohne einen Unterelementbezeichner, wenn ein Unterelementbezeichner in den Figuren vorhanden ist, soll, wenn er im Plural verwendet wird, auf zwei oder mehr Elemente mit einer gleichen Elementnummer verweisen. Wenn ein solcher Verweis in der Einzahl erfolgt, soll er auf eines der Elemente mit der gleichen Elementnummer verweisen, ohne sich auf ein bestimmtes Element zu beschränken. Jede gegenteilige ausdrückliche Verwendung in diesem Dokument oder eine weitere Qualifizierung oder Identifizierung hat Vorrang.
Die beispielhaften Systeme und Methoden dieser Offenbarung werden auch in Bezug auf Analysesoftware, Module und zugehörige Analysehardware beschrieben. Um die vorliegende Offenbarung jedoch nicht unnötig zu vernebeln, wird in der folgenden Beschreibung auf bekannte Strukturen, Komponenten und Geräte verzichtet, die in den Figuren weggelassen oder in vereinfachter Form dargestellt oder anderweitig zusammengefasst werden können.
Zu Erklärungszwecken werden zahlreiche Details aufgeführt, um ein umfassendes Verständnis der vorliegenden Offenbarung zu ermöglichen. Es sollte jedoch gewürdigt werden, dass die vorliegende Offenbarung über die hier dargelegten spezifischen Details hinaus auf vielfältige Weise praktiziert werden kann.
1 zeigt ein System 100 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. In einer Ausführungsform wird eine Videokonferenz zwischen den Teilnehmern 102 (z.B. den Teilnehmern 102A-D) eingerichtet und aufrechterhalten, wobei Audio, Video, Dokumente, Co-Browsing und/oder andere Medien zu jedem der Teilnehmer 102A-D übertragen werden. Der Audioteil der Konferenz kann Audio in Form von Sprache umfassen, die von einem oder mehreren der Teilnehmer 102A-D bereitgestellt wird. Zusätzlich zum Audioteil kann jeder Teilnehmer einen Videoteil beisteuern, der ein von einem oder mehreren der Teilnehmer 102A-D bereitgestelltes Video umfasst. Es ist zu beachten, dass die Anzahl der Teilnehmer, die durch die Teilnehmer 102A-D dargestellt wird, nicht begrenzt ist und eine beliebige Anzahl von zwei oder mehr Teilnehmern umfassen kann, wobei mindestens einer der Teilnehmer 102A-D einen Teil des Audio-/Videoinhalts der Konferenz bereitstellt oder versucht, diesen bereitzustellen. Wie in den folgenden Ausführungen näher erläutert wird, können die Audioinhalte, die zu einem beliebigen Zeitpunkt von einem der Teilnehmer 102A-D bereitgestellt werden, für die Konferenz irrelevant sein und auf intelligente Weise stummgeschaltet werden.
Die Teilnehmer 102A-D oder zumindest eine von Null verschiedene Teilmenge der Teilnehmer 102A-D empfangen die Videokonferenz, die von einem Server 110 über ein Netzwerk 114 übertragen wird. Der Server 110 kann einen Datenspeicher 112 als nichtübertragbaren Datenspeicher haben oder verwenden, auf den mindestens ein Mikroprozessor (oder einfacher „Prozessor“) des Servers 110 zugreifen kann. Der Server 110 kann eine eigenständige Komponente sein oder mit anderen Komponenten zusammenarbeiten, z. B. zur Verwaltung der Kommunikation, der Teilnehmeranwesenheit, der Zeitplanung, der Empfangs-/Beitragsberechtigungen, der Bodenkontrolle und/oder anderer Verwaltungs- und/oder Konnektivitätsfunktionen. So werden beispielsweise Audio- und Videoübertragungen des Teilnehmers 102A über einen Endpunkt 104A (z. B. eine Kamera 106A und ein Mikrofon 108A) an jeden an der Videokonferenz teilnehmenden Endpunkt 104A-D zurückgesendet. Optional kann Audio, das von einem Endpunkt (z.B. dem Endpunkt 104A) bereitgestellt wird, von der Übertragung ausgeschlossen werden, die dem bereitstellenden Endpunkt (z.B. dem Endpunkt 104A) zur Verfügung gestellt wird, um ein Echo, eine Rückkopplung oder eine andere Ablenkung für den Teilnehmer 102A zu vermeiden, der seine eigene Stimme hört, die einer Verzögerung unterliegen kann.
Der Server 110 kann Telefonie- oder andere Kommunikationsgeräte (z. B. Schalter, Hubs, Router usw.) umfassen oder darauf zugreifen, um die Übertragung der Videokonferenz und den Empfang von Teilen des Konferenzinhalts von jedem der Teilnehmer 102A-D, die Konferenzinhalte bereitstellen, zu erleichtern. In einer anderen Ausführungsform kann der Server 110 und/oder der Datenspeicher 112 als einer der Endpunkte 104 ausgeführt sein.
Die Teilnehmer 102A-D können Konferenzinhalte über einen jeweiligen Endpunkt 104A-D bereitstellen, der kodierte Audio- und Videosignale umwandelt, die über das Netzwerk 114 vom Server 110 gesendet werden, und umgekehrt. Optional können einer oder mehrere der Endpunkte 104A-D auf ähnliche Weise Textnachrichten, Dokumente, Co-Browsing-Signale usw. an und/oder von dem Server 110 übertragen. Jeder der Endpunkte 104A-D, die so konfiguriert sind, dass sie Audio- und Videosignale zur Videokonferenz beisteuern, umfasst und/oder verwendet ein Mikrofon 108, um mechanische Wellenenergie (z. B. Schall) zu erfassen, und eine Kamera 106, um Bilder zu erfassen, z. B. von einem zugehörigen Teilnehmer 102, und wandelt den Schall und die Bilder in elektrische Signale um, die weiter in Datenpakete zum Transport über das Netzwerk 114 umgewandelt werden können.
Beispiele für den Endpunkt 104, das zugehörige Mikrofon 108 und die zugehörige Kamera 106 umfassen die Endpunkte 104A bis 104D, sind aber nicht auf diese beschränkt. Die Endpunkte 104 können beispielsweise als ein Laptop 104A mit einem angeschlossenen Mikrofon 108A und einer angeschlossenen Kamera 106A, als ein Smartphone 104B mit einer Kamera 106B und einem Lautsprecher/Mikrofon 108B, als ein Personal Computer 104C mit einem drahtgebundenen oder drahtlosen Headset/Mikrofon 108C und einer drahtgebundenen oder drahtlosen Kamera 106C und als ein Videotelefon 104D mit einer Kamera 106D und einem Lautsprecher/Mikrofon 108D ausgeführt sein. Die Endpunkte 104A-D sind jeweils den Teilnehmern 102A-D zugeordnet. Fachleute wissen, dass auch andere Mikrofone als Mikrofon 108 verwendet werden können, wie z. B. ein Telefonhörer, der ein verkabelter (analoger oder digitaler) oder drahtloser (z. B. Mobilfunk, WIFI, Zwei-Wege-Funk usw.) Endpunkt zum Netzwerk 114 sein kann. In ähnlicher Weise kann der Endpunkt 104 als ein beliebiges Telekommunikationsgerät ausgeführt sein, das in der Lage ist, eine vom Server 110 über das Netzwerk 114 übertragene Videokonferenz zu empfangen und die Videokonferenz einem oder mehreren der Teilnehmer 102A-D zu präsentieren und optional einen Audio- und Videoteil zur Aufnahme durch den Server 110 in den Konferenzinhalt bereitzustellen.
Da immer mehr Benutzer auf der ganzen Welt eine Kultur der Arbeit von der Ferne aus annehmen, werden Konferenzen, insbesondere Videokonferenzen, immer häufiger. Während dieser Videokonferenzen können Hintergrundgeräusche oder andere Geräusche von Benutzern, die nicht an der Videokonferenz teilnehmen, zu Ablenkungen führen. In dieser Situation kann ein Konferenzleiter fragen: „Können diejenigen, die nicht sprechen, bitte stumm geschaltet werden?“ Es ist nicht ungewöhnlich, dass der/die Konferenzadministrator(en) diese Anfrage während einer einzigen Konferenz mehrmals stellen müssen. Ein weiteres Problem ist, dass ein Benutzer spricht, während er stummgeschaltet ist und nicht gehört wird. Dies kann dazu führen, dass andere Benutzer fragen: „Bist du stummgeschaltet?“ oder „Funktioniert mein Audio? Ich kann nichts hören.“ Die anderen Benutzer müssen warten, bis die Stummschaltung aufgehoben wird, und nachdem die Stummschaltung aufgehoben wurde, muss der Sprecher wiederholen, was er gesagt hat, während er stummgeschaltet war. Diese Wortwechsel sind recht häufig und führen nicht zu einer effizienten und effektiven Konferenz. Diese Unterbrechungen unterbrechen die Kontinuität/den Fluss der Videokonferenz.
Den Konferenzteilnehmern könnte ein wesentlich besseres Erlebnis geboten werden, wenn das Videokonferenzsystem automatisch erkennen könnte, dass ein Sprecher stummgeschaltet ist, während er in die Videokonferenz spricht, oder dass der Benutzer nicht in die Konferenz spricht, sondern unbeabsichtigte Geräusche (z. B. Hintergrundgeräusche, Gespräche mit Personen außerhalb der Videokonferenz usw.) in die Videokonferenz einbringt, da der Benutzer nicht stummgeschaltet ist. Nachdem das Videokonferenzsystem auf intelligente Weise erkannt hat, dass ein Teilnehmer stummgeschaltet werden sollte, kann es automatisch und auf intelligente Weise Maßnahmen ergreifen, ohne dass ein manuelles Eingreifen des Konferenzverwalters/der anderen Teilnehmer erforderlich ist. In einigen Beispielen kann das Videokonferenzsystem Technologien wie künstliche Intelligenz, insbesondere Deep Learning, Bilderkennung und Verarbeitung natürlicher Sprache nutzen, um intelligent zu erkennen, dass ein Teilnehmer stummgeschaltet/aufgehoben werden sollte.
In einigen Ausführungsformen kann das KI-gesteuerte Modul zur Erkennung und Analyse von Gesichtsbewegungen eine oder mehrere KI-Vision-Bibliotheken verwenden, die mit zahlreichen Mustern der menschlichen Gesichtsstruktur und Gesichtsmerkmale trainiert werden, damit das Modul verschiedene Teile eines neu bereitgestellten Gesichtsbildes erkennen und die Bewegungen der verschiedenen Gesichtsteile in diesem Bild identifizieren kann. Zu diesem Zweck kann ein künstliches neuronales Netz verwendet werden. NLP kann auch auf maschinellem Lernen basieren, und das NLP-Modul wird ebenfalls ausreichend trainiert, in einigen Fällen mit der Sprache/Terminologie eines bestimmten Bereichs, in dem das Konferenzsystem eingesetzt wird. Bei diesen Komponenten kann es sich auch um Dienste handeln, die in der Cloud gehostet und von Drittanbietern von Cloud-Diensten bereitgestellt werden.
Zum Beispiel kann der Teilnehmer 102A versuchen, in der Videokonferenz zu sprechen, jedoch kann der Teilnehmer 102A versehentlich stumm geschaltet sein, und die anderen Teilnehmer 102B-D in der Videokonferenz wissen nichts von dem Beitrag, den der Teilnehmer 102A versucht. Umgekehrt kann der Teilnehmer 102B einen Ton beisteuern, der für die Konferenz irrelevant ist. Bei dem Ton kann es sich um Sprache handeln, die an einen anderen Teilnehmer gerichtet ist, der nicht an der Konferenz teilnimmt, oder um andere unerwünschte Geräusche (z. B. Hintergrundgeräusche, Klopfen, Brummen usw.). Der Teilnehmer 102B könnte fälschlicherweise glauben, dass er stummgeschaltet ist oder dass die unerwünschten Geräusche von dem zugehörigen Mikrofon 108B aufgenommen werden. Infolgedessen können andere Teilnehmer (z. B. die Teilnehmer 102A, 102C, 102D) das unerwünschte Geräusch als störend empfinden oder Schwierigkeiten haben, den aktiven Sprecher in der Videokonferenz zu hören. In den vorangegangenen Beispielen werden häufig Ressourcen verschwendet und der Ablauf der Konferenz wird unterbrochen, bis der Teilnehmer 102B ordnungsgemäß stummgeschaltet/freigeschaltet ist.
2 zeigt eine Interaktion 200 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Es sollte verstanden werden, dass die Natur dieser Beschreibung es erfordert, dass gesprochene Inhalte und andere Klänge, die als Schallwellen oder als kodierte elektrische Signale oder Datenpakete verkörpert werden können, als Text dargestellt werden. Diese Darstellung als Text ist nicht zu verwechseln mit tatsächlichem Text (z. B. Text-Chat, Short Message Service (SMS), E-Mail usw.). Das Senden und Empfangen von Text kann zwar optional genutzt und in den Videokonferenzinhalt integriert werden, textbasierte Kommunikation liegt jedoch außerhalb des Anwendungsbereichs der hier vorgestellten Ausführungsformen. Außerdem illustriert jede der Interaktionen 200 und 300 (siehe 2 und 3A-B) bestimmte Merkmale und Aktionen des Systems 100 und seiner Komponenten (siehe 1) und lässt andere Merkmale und Aktionen aus, um die Figur und die zugehörige Beschreibung nicht unnötig zu verkomplizieren.
In einer Ausführungsform präsentiert der Server 110 Konferenzinhalte 210, die Audio- und Videoinhalte umfassen, die an die Teilnehmer 102A-D über ihren jeweiligen Endpunkt 104A-D übertragen werden. Der Videoteil des Konferenzinhalts ist in 2 nicht dargestellt, um die Figur und die zugehörige Beschreibung nicht unnötig zu verkomplizieren. Der Audioteil des Konferenzinhalts 210 umfasst Audio 202, 204 und 206, die kontinuierlich oder intermittierend von einem oder mehreren Endpunkten (z. B. den Endpunkten 104A-C) und einem zugehörigen oder integrierten Mikrofon 108 übertragen werden.
In einer Ausführungsform stellt der Endpunkt 104A das Audio 202 dem Server 110 zur Verfügung, der wiederum den Konferenzinhalt 210 ausstrahlt, der nun die beigetragene Rede (z. B. das Audio 202) umfasst. In ähnlicher Weise liefert der Endpunkt 104C das Audio 206 an den Server 110, der wiederum den Konferenzinhalt 210 sendet, der nun die beigetragene Rede (z. B. das Audio 202) umfasst. Der Endpunkt 104B liefert das Audio 204 (z. B. Hintergrundgeräusche) an den Server 110. Wenn der Server 110 feststellt, dass der Ton 204 die Konferenz stört, führt der Server 110 eine Stummschaltung durch, um den Ton 204 aus dem Konferenzinhalt 210 auszuschließen. Die Feststellung, dass Ton, wie z. B. der Ton 204, die Konferenz stört, wird in den folgenden Ausführungsbeispielen ausführlicher erläutert. In einer Ausführungsform sendet der Server 110 ein Stummschaltungsbenachrichtigungs-/Aktionssignal 208 an den Endpunkt 104B, und als Reaktion darauf aktiviert der Endpunkt 104B eine Benachrichtigungsschaltung oder -logik, um den Teilnehmer 102B aufzufordern, eine Stummschaltungsfunktion des Endpunkts 104B manuell zu aktivieren und/oder eine Stummschaltungsfunktion des Endpunkts 104B automatisch zu aktivieren. In einer Ausführungsform ermöglicht die Stummschaltungsfunktion, dass der Ton weiterhin aufgezeichnet und vom Endpunkt 104B an den Server 110 gesendet wird, aber der Server 110 schließt den Ton vom Konferenzinhalt 210 aus. In anderen Ausführungsformen kann das Stummschaltungs-Benachrichtigungs-/Aktionssignal 208 ferner beinhalten, dass dem Endpunkt 104B signalisiert wird, dass er stummgeschaltet wurde und/oder allen Endpunkten 104A-D, dass der Endpunkt 104B stummgeschaltet ist. Obwohl der Server 110 die Stummschaltung eines Teilnehmers (z.B. des Teilnehmers 102B) automatisch durchführen kann, kann der Server in einigen Beispielen die Stummschaltung eines Teilnehmers 102 (z.B. des Teilnehmers 102B) aufgrund von Datenschutz- und/oder rechtlichen Bedenken nicht automatisch aufheben.
Die 3A-3B zeigen eine Interaktion 300 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Wie in 3A dargestellt, stellt der Teilnehmer 102D dem Server 110 einen Audioabschnitt 302 zur Verfügung: „Alice, was müssen wir vor der Besprechung tun?“. Der Teilnehmer 102A (z. B. Alice) sendet über ein Mikrofon 108A und einen Endpunkt 104A einen Audioabschnitt 304 (z. B. Sprache) „Für das Kundengespräch müssen wir...“. Der Endpunkt 104A ist jedoch stummgeschaltet, so dass der Audioteil 304 nicht vom Server 110 empfangen wird und die anderen Teilnehmer 102 (z. B. die Teilnehmer 102B, 102D) nur den Audioteil 306 hören (z. B. <Stille>).
Das auf dem Server 110 laufende Videokonferenzsystem kann auf intelligente Weise feststellen, dass der Teilnehmer 102A versucht, in die Videokonferenz zu sprechen. In einem Beispiel kann der Server 110 Natural Language Processing (NLP) oder eine andere Spracherkennungsmethode verwenden, um zu erkennen, dass ein Name/Schlüsselwort 320 gesprochen wurde. In diesem Beispiel ist Alice der Name des Teilnehmers 102A, gesprochen vom Teilnehmer 102D. Das NLP kann ferner feststellen, dass eine Antwort von Alice (z. B. dem Teilnehmer 102A) erwartet wird. Wie in den folgenden Ausführungen näher erläutert wird, können auch andere Kriterien verwendet werden, um festzustellen, ob ein bestimmter Endpunkt 104 fälschlicherweise stummgeschaltet ist. NLP kann verwendet werden, um anzuzeigen, dass ein Teilnehmer angesprochen wird und eine Antwort erwartet wird (z. B. „Schauen wir uns das Dokument an und wenden uns Alice zu.“, „Alice, bitte gehen Sie das Dokument durch. ”, „Alice, können Sie das Dokument erläutern?“, usw.) im Gegensatz zur bloßen Erwähnung eines Teilnehmers (z. B. „Schauen wir uns das von Alice bereitgestellte Dokument an.“, usw.).
In einem anderen Beispiel kann der Server 110 den vom Teilnehmer 102A beigesteuerten Videoteil intelligent analysieren, um festzustellen, dass der Teilnehmer 102A in die Videokonferenz spricht (z. B. Blick auf den Endpunkt 104A gerichtet und Lippenbewegung). Um zu vermeiden, dass der Audioteil 304 vom Konferenzinhalt ausgeschlossen wird, weil der Endpunkt 104A versehentlich stummgeschaltet ist, kann der Server 110 feststellen, dass der Endpunkt 104A fälschlicherweise stummgeschaltet ist, und daraufhin eine Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung ausführen, damit der Audioteil 304 in den Konferenzinhalt aufgenommen wird, wie in 3B dargestellt. In einigen Ausführungsformen kann der Server 110 auch den Audioteil 304 vom Endpunkt 104A puffern und den gepufferten Audioteil 304 abspielen, sobald der Teilnehmer 102A die Stummschaltung aufgehoben hat.
In einer Ausführungsform kann die Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung das Aktivieren eines Schaltkreises oder einer Logik des Endpunkts 104A umfassen, um den Teilnehmer 102A zu benachrichtigen, dass er stummgeschaltet ist und/oder den Teilnehmer 102A aufzufordern, die Stummschaltung des Endpunkts 104A manuell aufzuheben. Beispielsweise kann der Endpunkt 104A eine generierte oder aufgezeichnete Nachricht oder einen Ton abspielen und/oder eine visuelle Aufforderung auf einer dem Endpunkt 104A zugeordneten Anzeige bereitstellen (z. B. „Alice, du bist stummgeschaltet.”). Als weitere Option kann der Endpunkt 104A den gesamten oder einen Teil des Audioteils 302 wiedergeben. Durch die Wiederholung des gesamten oder eines Teils des Audioabschnitts 302 wird der Teilnehmer 102A erneut aufgefordert, eine Antwort zu geben. Wenn der Teilnehmer 102A eine Antwort gegeben hat, z. B. während er stummgeschaltet war, kann eine Aufzeichnung des Audioabschnitts 304 gemacht werden, der empfangen wurde, während er stummgeschaltet war, und in der Konferenz wiedergegeben werden. Der Teilnehmer 102A kann beispielsweise damit beginnen, den Audioteil 304 zu übermitteln, indem er ein oder zwei Worte sagt (z. B. „Zum...“), während der Endpunkt 104A stumm geschaltet ist. Nachdem die Stummschaltung des Endpunkts 104A aufgehoben wurde, kann der Server 110 die Worte, die nach der Aufhebung der Stummschaltung des Endpunkts 104A bereitgestellt werden, puffern, und die aufgezeichnete Rede, gefolgt von der gepufferten Rede, kann in der Konferenz als Konferenzinhalt (z. B. Konferenzinhalt 308) wiedergegeben werden, bis der Audioteil 304 live ist. Wenn der während der Stummschaltung bereitgestellte Audioabschnitt 304 mehr als ein paar Wörter umfasst (z. B. mehr als zehn Sekunden), kann der Benutzer 102A aufgefordert werden, entweder die Wiedergabe des während der Stummschaltung bereitgestellten Audioabschnitts 304 einzuleiten oder den Audioabschnitt 304 erneut zu wiederholen. Sobald die Stummschaltung eines Teilnehmers 102 (z. B. des Teilnehmers 102A) aufgehoben ist, kann die Benachrichtigung/Aktion 310 zur Aufhebung der Stummschaltung außerdem eine Benachrichtigung darüber enthalten, dass die Stummschaltung des Teilnehmers 102 aufgehoben ist (z. B. ein Ton, eine Nachricht, eine Pop-up-Nachricht usw.). Als weitere Option können alle Endpunkte (z. B. die Endpunkte 104A-D) über den Stummschaltungs-/Ausschaltzustand der Endpunkte 104 benachrichtigt werden, und bei einer Änderung wird jeder Endpunkt 104 entsprechend aktualisiert, z. B. mit einer Nachricht (z. B. „Alice ist stummgeschaltet“ oder „Alice ist nicht mehr stummgeschaltet“) oder einem grafischen Symbol, das eine mit dem Stummschaltzustand verbundene Bedeutung hat. Wie in 3C dargestellt, kann der Audioteil 304 optional gepuffert und als Konferenzinhalt 308 wiedergegeben werden, so dass jede Sprache, die vor der Stummschaltungsbenachrichtigung/-aktion 310 bereitgestellt wird, die zur Aufhebung der Stummschaltung des Endpunkts 104A führt, als ununterbrochene Sprache bereitgestellt wird, jedoch mit einer Verzögerung, die durch den Beginn des Audioteils 304 und das Auftreten der Stummschaltungsaktion bestimmt wird. In einer solchen Ausführungsform kann der Audioteil 304 in Echtzeit bereitgestellt und gepuffert werden, und nur der gepufferte Inhalt kann als Konferenzinhalt 308 bereitgestellt werden. Eine Aufhebungsaktion (z. B. die Aufhebungsbenachrichtigung/-aktion 310) kann die Pufferung beenden. Sobald der gepufferte Inhalt abgespielt ist, kann die Echtzeitsprache als Konferenzinhalt 308 bereitgestellt werden, um den Konferenzteilnehmern das beste Erlebnis zu bieten.
4 zeigt einen Prozess 400 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Der Prozess 400 kann als Algorithmus verkörpert sein, der als maschinenlesbare Anweisungen kodiert ist, die, wenn sie von einem Prozessor, wie z. B. einem Prozessor des Servers 110, gelesen werden, den Prozessor veranlassen, die Schritte des Algorithmus auszuführen. In einer Ausführungsform bestimmt der Prozess 400, dass Audio, das von einem bestimmten Endpunkt 104, der an einer Konferenz teilnimmt, empfangen wird, für die Konferenz irrelevant ist und aus dem Konferenzinhalt ausgeschlossen werden sollte.
In einer Ausführungsform sendet der Prozess 400 in Schritt 402 Konferenzinhalte (z.B. einen Audio- und einen Videoteil) an die Teilnehmer 102, z.B. indem der Server 110 die Konferenzinhalte an jeden Endpunkt 104 zur Präsentation an einen zugehörigen Teilnehmer 102 sendet. Schritt 402 initiiert oder setzt die Übertragung von Konferenzinhalten fort und kann kontinuierlich durchgeführt werden, während andere Schritte des Prozesses 400 ausgeführt werden, bis die Konferenz beendet ist. Der Konferenzinhalt umfasst Audio- und Videoinhalte, die in Schritt 404 von einem oder mehreren einzelnen Endpunkten 104 empfangen werden. In einem Test 406 wird festgestellt, ob die von einem bestimmten Endpunkt 104 empfangenen Audiosignale für die Konferenz irrelevant sind, und wenn dies verneint wird, wird die Verarbeitung mit einem Test 410 fortgesetzt. Wird der Test 406 bejaht, wird die Verarbeitung mit Schritt 408 fortgesetzt, in dem die von dem bestimmten Endpunkt 104 empfangenen Audiosignale stummgeschaltet werden, um zu verhindern, dass aktuelle und/oder zukünftige Audiosignale, die von dem Endpunkt empfangen werden, in Schritt 402 übertragen werden. Die Stummschaltung kann automatisch von einem Prozessor eines Servers, wie z. B. dem Server 110, der die Konferenzinhalte bereitstellt, oder durch ein Signal an den bestimmten Endpunkt 104 erfolgen, um eine Stummschaltung auszuführen, die, wenn sie von den zugehörigen Teilnehmern 102 empfangen wird, die Stummschaltung vornimmt. Durch den Test 410 wird festgestellt, ob die Konferenz beendet ist, und wenn dies bejaht wird, kann der Prozess 400 beendet werden, und die in Schritt 402 eingeleitete/fortgesetzte Übertragung des Konferenzinhalts kann unterbrochen werden, wenn sie nicht bereits beendet ist; andernfalls kann die Verarbeitung fortgesetzt und zu Schritt 404 zurückgeführt werden.
Der Test 406 kann auf verschiedene Weise durchgeführt werden, um festzustellen, dass der von einem bestimmten Endpunkt 104 empfangene Ton für die Konferenz irrelevant ist. Beispielsweise können die von dem bestimmten Endpunkt 104 empfangenen Audiosignale Nicht-Sprachgeräusche oberhalb eines bestimmten Schwellenpegels (z. B. Lautstärke) oder einer bestimmten Dauer umfassen (z. B. 6A-6B). Dazu können Umgebungsgeräusche gehören (z. B. Straßengeräusche, das Klopfen eines Stifts, Bürogeräte, Hintergrundgeräusche im Restaurant, Tiere, Babygeschrei, spielende Kinder usw.) und ausgeschlossen werden, weil sie keine oder nicht genügend verständliche Sprache enthalten. Die eingehenden Audiodaten werden auf verschiedene Merkmale der menschlichen Stimme hin analysiert, wie z. B. Intensität, Lautstärke, Tonfall, Tonhöhe, Tonumfang und optional die Sprache, wenn sie mit der Konferenzsprache übereinstimmt. Die Intensität der menschlichen Stimme beträgt beispielsweise 50-70 Dezibel, während die Intensität anderer Geräusche wie Hundegebell oder das Hupen eines Fahrzeugs usw. viel höher ist, etwa 90 Dezibel.
Die von einem bestimmten Endpunkt 104 empfangenen Audiosignale können Sprache enthalten, werden aber vom Konferenzinhalt ausgeschlossen, da die Sprache als für die Konferenz irrelevant eingestuft wird. Bei der Sprache kann es sich beispielsweise um den Lärm einer Büroumgebung handeln, in der die Sprache der anderen ein Rauschen bildet und die Sprache teilweise oder vollständig unverständlich ist. Verständliche Sprache kann immer noch als konferenzfremd eingestuft und vom Konferenzinhalt ausgeschlossen werden, was in Bezug auf die 7A-7B und 9A-9B noch ausführlicher diskutiert wird.
5 zeigt einen Prozess 500 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Der Prozess 500 kann als Algorithmus ausgeführt sein, der als maschinenlesbare Anweisungen kodiert ist, die, wenn sie von einem Prozessor, wie z. B. einem Prozessor des Servers 110, gelesen werden, den Prozessor veranlassen, die Schritte des Algorithmus auszuführen. In einer Ausführungsform stellt der Prozess 500 fest, dass ein Teilnehmer möglicherweise fälschlicherweise stummgeschaltet ist und benachrichtigt werden sollte, um die Stummschaltung aufzuheben.
In einer Ausführungsform sendet der Prozess 500 in Schritt 502 Konferenzinhalte an die Teilnehmer, z. B. indem der Server 110 die Konferenzinhalte an jeden Endpunkt 104 zur Präsentation an einen zugehörigen Teilnehmer 102 sendet. Schritt 502 initiiert oder setzt die Übertragung von Konferenzinhalten fort und kann kontinuierlich durchgeführt werden, während andere Schritte des Prozesses 500 ausgeführt werden, bis die Konferenz beendet ist. Der Konferenzinhalt umfasst Audio- und/oder Videoinhalte, die in Schritt 504 von einem oder mehreren einzelnen Endpunkten 104 empfangen wurden.
Ein Test 506 bestimmt, ob ein bestimmter Teilnehmer 102/Endpunkt 104 versucht, Audio zu übertragen, während der bestimmte Endpunkt 104 stumm geschaltet ist. In einigen Ausführungsformen empfängt der Server 110 den Audioteil, überträgt aber den Audioteil von stummgeschalteten Teilnehmern nicht. In anderen Ausführungsformen empfängt der Server 110 keine Audiosignale für den zugehörigen Endpunkt 104, wenn ein Teilnehmer stummgeschaltet ist. Wenn der Test 506 negativ ausfällt, fährt der Prozess 500 mit einem Test 512 fort, der feststellt, ob die Konferenz beendet ist. Wird der Test 512 bejaht, kann der Prozess 500 beendet werden, und die in Schritt 502 eingeleitete/fortgesetzte Übertragung des Konferenzinhalts kann abgebrochen werden, wenn sie nicht bereits beendet wurde. Andernfalls kann die Verarbeitung fortgesetzt und zu Schritt 504 zurückgeführt werden. Bei der Prüfung 506 kann festgestellt werden, dass der betreffende Teilnehmer102/Endpunkt 104 stummgeschaltet ist und versucht, Audio zu übertragen, während er stummgeschaltet ist (Schritt 508). Zum Beispiel kann der Server 110 ein Stummschaltungssignal des bestimmten Endpunkts 104 und dessen Stummschaltung durch den Server 110 erkennen. In einer anderen Ausführungsform kann die Stummschaltung durch den jeweiligen Endpunkt 104 selbst erfolgen, wobei der Server 110 ein Signal empfängt, das anzeigt, dass Audio von dem jeweiligen Endpunkt empfangen, aber aufgrund der Stummschaltung nicht an den Server 110 weitergeleitet wird.
Wenn der Test 506 bejaht wird (z.B. ein bestimmter Endpunkt 104 ist stummgeschaltet), bestimmt ein Test 508, ob die Stummschaltung fehlerhaft ist (z.B. 3A-3C und 8A-8C), und führt, falls dies bejaht wird, Schritt 510 aus, um eine Benachrichtigungsaktion auszuführen. Wenn der Test 508 negativ ausfällt, kann die Verarbeitung mit dem Test 512 fortgesetzt werden. Schritt 510 kann eine visuelle und/oder akustische Benachrichtigung (z. B. Ton, Nachricht, Popup-Nachricht, andere visuelle Anzeige usw.) an den fälschlicherweise stummgeschalteten Endpunkt 104 senden, um die Stummschaltung aufzuheben. Falls zulässig, kann Schritt 510 die Stummschaltung des fälschlicherweise stummgeschalteten Endpunkts 104 und die von dem bestimmten Endpunkt 104 empfangenen Audiosignale automatisch aufheben, z. B. wenn die Stummschaltung vom Server 110 durchgeführt wird oder indem ein Signal an den bestimmten Endpunkt 104 gesendet wird, um die Stummschaltung aufzuheben, und der bestimmte Endpunkt daraufhin die Stummschaltung aufhebt. Die automatische Aufhebung der Stummschaltung ist möglicherweise nur unter bestimmten Umständen möglich oder je nach den Datenschutzgesetzen der Länder, in denen der Konferenzserver eingesetzt wird, nicht zulässig.
Die durch den Test 508 durchgeführte Feststellung, dass die Stummschaltung fehlerhaft ist, kann auf unterschiedliche Weise erfolgen. In einer Ausführungsform adressiert ein vorhergehender Teil des Konferenzinhalts, der z. B. von einem anderen Endpunkt 104 bereitgestellt wird, den Teilnehmer 102, der mit dem bestimmten Endpunkt 104 verbunden ist, z. B. durch Name, Rolle, Standort usw. In einer anderen Ausführungsform zeigt die Analyse eines Videoteils des stummgeschalteten Teilnehmers 102 an, dass der stummgeschaltete Teilnehmer versucht, in der Videokonferenz zu sprechen. Beispielsweise kann die Analyse des Videoausschnitts darauf hinweisen, dass der Blick des stummgeschalteten Teilnehmers auf den zugehörigen Endpunkt 104 gerichtet ist und dass sich die Lippen/Mund/andere Gesichtszüge des Teilnehmers bewegen, was auf Sprache hindeutet, was in Bezug auf die 8A-8B ausführlicher erläutert wird.
In einer Ausführungsform kann nach der Erkennung durch den Konferenzserver auf der Grundlage der Videoanalyse der Person, dass der stummgeschaltete Teilnehmer versucht, zu sprechen und Audioinhalte zur Videokonferenz beizutragen, ein zusätzlicher Schritt durch den Server durchgeführt werden, indem dem Endpunkt signalisiert wird, die Audioinhalte an den Server zu übertragen, so dass das Audioanalyse- und -verarbeitungsmodul des Servers die Audioinhalte auf Stimmmerkmale analysieren kann, um zu bestimmen, dass die beigetragenen Audioinhalte tatsächlich eine menschliche Stimme enthalten, die ein bestimmtes Ausmaß an verschiedenen Sprachmerkmalen (z. B., Intensität, Tonhöhe, Tonumfang, Tonfall, Sprache usw.), was darauf hinweist, dass der Benutzer tatsächlich Inhalte zur Konferenz beiträgt.
6A-6B zeigen eine Videokonferenz 600. Die Videokonferenz 600 umfasst Teilnehmer 102A-D, die jeweils in Konferenzfenstern 601A-D dargestellt sind. Die Teilnehmer 102A-D sind über die jeweiligen Endpunkte 104A-D mit der Videokonferenz 600 verbunden. Der abgebildete Teilnehmer 102A gibt weder Video noch Audio frei. Der Teilnehmer 102B gibt Audio (z. B. durch eine Audio-/Geräuschanzeige 602B angezeigt) und Video frei und ist derzeit der aktive Sprecher in der Videokonferenz 600. Der Teilnehmer 102C gibt Video und Audio frei (z. B. ohne Stummschaltung), spricht aber derzeit nicht bzw. steuert kein Audio bei. Der Teilnehmer 102D gibt Video- und Audiodaten frei (z. B. ohne Stummschaltung). Obwohl der Teilnehmer 102D derzeit nicht spricht, werden Audiodaten zum Konferenzinhalt beigesteuert, wie durch eine Audio-/Rauschanzeige 602D veranschaulicht.
Der Konferenzinhalt umfasst Audio- und Videodaten, die von einem oder mehreren einzelnen Endpunkten (z. B. den Endpunkten 104A-D) empfangen werden, die den Teilnehmern 102A-D zugeordnet sind. In diesem Beispiel umfasst der Audioteil des Konferenzinhalts Sprache, die vom Teilnehmer 102B beigesteuert wird, und Audio, das keine Sprache ist und vom Teilnehmer 102D beigesteuert wird. Der Server 110 bestimmt, ob die von einem bestimmten Endpunkt 104 empfangenen Audiosignale für die Videokonferenz irrelevant sind. In diesem Beispiel wird der Sprachbeitrag des Teilnehmers 102B als Teil der Videokonferenz 600 und für diese bestimmt eingestuft. Im Gegensatz dazu wird der Audioanteil des Teilnehmers 102D als Störgeräusch (z. B. Umgebungsgeräusche, Hintergrundgeräusche, unverständliche Sprache usw.) eingestuft, das keine Sprache ist. In einigen Ausführungsformen kann das Videokonferenzsystem eine Analyse des vom Teilnehmer 102D beigesteuerten Videoanteils durchführen. Bei der Analyse des Videoanteils des Teilnehmers 102D stellt das Videokonferenzsystem fest, dass, obwohl der Endpunkt 104D Audiosignale beisteuert und der Blick des Teilnehmers 102D auf den Endpunkt 104D gerichtet ist, sich der Mund/die Lippen/andere Gesichtszüge des Teilnehmers 102D nicht bewegen. In einigen Ausführungsformen kann der Videokonferenzserver eine oder mehrere in der Cloud gehostete KI-Vision-Bibliotheken oder Dienste von Drittanbietern verwenden, die bereits mit zahlreichen Mustern der menschlichen Gesichtsstruktur und Gesichtsmerkmale trainiert wurden, um verschiedene Teile neu bereitgestellter Gesichtsbilder zu erkennen und die Bewegungen verschiedener Gesichtsteile in diesem Bild zu identifizieren. Zu diesem Zweck kann auch ein künstliches neuronales Netz verwendet werden.
Der Audioteil kann auf Stimmcharakteristika analysiert werden (z. B. Intensität, Lautstärke, Lautheit, Ton, Tonhöhe, Bereich, Sprache usw.). Beispielsweise liegt der Bereich der menschlichen Stimme bei 50-70 Dezibel, während der Bereich der Fremdgeräusche im Allgemeinen höher ist, etwa 80-100 Dezibel. Auch die anderen Klangeigenschaften unterscheiden sich erheblich zwischen der menschlichen Sprache und anderen Geräuschen. Die gesprochene Sprache kann auch verwendet werden, um den Kontext zu bestimmen (z. B. ob die Sprache für die Videokonferenz bestimmt ist), da der Benutzer auch mit jemandem außerhalb der Konferenz sprechen kann, z. B. mit jemandem über ein anderes Telefongespräch in einer anderen Sprache als der Sprache der Konferenz. Zusätzlich oder alternativ kann das Videokonferenzsystem NLP verwenden, um den Audioteil des Teilnehmers 102D/des Endpunkts 104D zu analysieren, um festzustellen, dass der Audioteil des Teilnehmers 102D/des Endpunkts 104D keine Sprache enthält (z. B. Straßenlärm, Hundegebell usw.) oder keine Sprache enthält, die nicht für die Konferenz bestimmt ist, und um festzustellen, dass der Ton vom Konferenzinhalt ausgeschlossen werden soll, und um eine Stummschaltaktion durchzuführen. Sobald das Videokonferenzsystem feststellt, dass der Tonanteil des Teilnehmers 102D/des Endpunkts 104D störend ist, kann das Videokonferenzsystem den Teilnehmer 102D/den Endpunkt 104D automatisch stummschalten, um den aktuellen und/oder zukünftigen Ton, der von dem Teilnehmer 102D/dem Endpunkt 104D empfangen wird, von der Übertragung in den Konferenzinhalt auszuschließen. Die Stummschaltung kann von einem Prozessor eines Servers, z. B. des Servers 110, der die Konferenzinhalte bereitstellt, oder durch ein Signal an den Endpunkt 104D durchgeführt werden, das bei Empfang die Stummschaltung auslöst.
Wie in 6B dargestellt, wurde der Teilnehmer 102D stummgeschaltet (z. B. durch ein Stummschaltungssymbol 305). Darüber hinaus kann der Teilnehmer 102D eine Benachrichtigung 608 über die Stummschaltung erhalten. Die Benachrichtigung 608 kann aus einem Ton, einer Nachricht, einer Pop-up-Nachricht usw. bestehen. Die Benachrichtigung 608 kann dem Teilnehmer vor oder nach der automatischen Stummschaltung angezeigt werden (z. B. „Sie werden vom System stummgeschaltet“ oder „Sie wurden vom System stummgeschaltet“). In einigen Ausführungsformen kann ein visueller Indikator an einem Endpunkt (z. B. dem Endpunkt 104D) in der Konferenzanwendung bereitgestellt werden.
In den 7A-7B ist eine Videokonferenz 700 dargestellt. Die Videokonferenz 700 umfasst Teilnehmer 102A-D, die jeweils in Konferenzfenstern 601A-D dargestellt sind. Die Teilnehmer 102A-D sind über die jeweiligen Endpunkte 104A-D mit der Videokonferenz 700 verbunden. Der abgebildete Teilnehmer 102A gibt weder Video noch Audio frei. Der Teilnehmer 102B gibt Audio (z. B. wie durch eine Audio-/Rauschanzeige 702B dargestellt) und Video frei und ist derzeit der aktive Sprecher in der Videokonferenz 700. Der Teilnehmer 102C teilt Video und Audio (z. B. wie durch eine Audio-/Rauschanzeige 702C dargestellt) und spricht gerade. Der Teilnehmer 102D teilt Video und ist nicht stummgeschaltet, spricht aber nicht.
Der Konferenzinhalt umfasst Audio von den Teilnehmern 102B und 102C und Video von den Teilnehmern 102B-D. In diesem Beispiel umfasst der Audioteil des Konferenzinhalts Sprache, die von den Teilnehmern 102B und 102C beigetragen wird. Der Server 110 stellt fest, ob die von einem bestimmten Endpunkt 104 empfangenen Audiosignale für die Videokonferenz irrelevant sind. In diesem Beispiel wird der Sprachbeitrag des Teilnehmers 102B als Teil der Videokonferenz 700 und für diese bestimmt eingestuft. Im Gegensatz dazu wird der Audioanteil des Teilnehmers 102C als Fremdgeräusch eingestuft, das nicht für die Videokonferenz 700 bestimmt ist. In einigen Ausführungsformen kann das Videokonferenzsystem eine Analyse des vom Teilnehmer 102C beigesteuerten Videoanteils durchführen. Bei der Analyse des Videoanteils des Teilnehmers 102C stellt das Videokonferenzsystem fest, dass der Endpunkt 104C zwar Audio (z. B. Sprache) beisteuert, der Blick des Teilnehmers 102C aber nicht auf den Endpunkt 104C gerichtet ist. Der Teilnehmer 102C ist vom Endpunkt 104C abgewandt und wird im Profil angezeigt. Die Feststellung, dass der Teilnehmer 102C spricht und/oder die Audiodaten des Teilnehmers 102C Sprache enthalten, kann durch die Analyse des Videoausschnitts des Teilnehmers 102C und/oder durch die Verwendung von Stimmcharakteristikanalyse und/oder NLP zur Analyse des Audioausschnitts des Endpunkts 104C erfolgen. Beispielsweise kann eine Person, die mit einer Gruppe von entfernten Videokonferenzteilnehmern spricht, eine bestimmte Sprechweise haben, die sich von der Sprechweise eines Kollegen oder einer anderen Partei von Angesicht zu Angesicht unterscheidet. Diese Sprechweisen können als verschiedene Sprachattribute quantifiziert und dazu verwendet werden, um festzustellen, ob die vom Teilnehmer gelieferte Sprache für die Aufnahme in den Konferenzinhalt vorgesehen ist oder nicht. Der Kontext des Audioteils kann ebenfalls bestimmt werden, um festzustellen, ob die Rede für die Aufnahme in den Konferenzinhalt vorgesehen ist. Zum Beispiel kann ein Teilnehmer, der seine Pläne für den Feierabend bespricht, nicht für die Videokonferenz 700 bestimmt sein.
Sobald das Videokonferenzsystem feststellt, dass der Audioteil vom Endpunkt 104C irrelevant ist, kann das Videokonferenzsystem den Endpunkt 104C automatisch stummschalten, um zu verhindern, dass aktuelle und/oder zukünftige Audiosignale, die vom Endpunkt 104C empfangen werden, in den Konferenzinhalt übertragen werden. Wie in 7B dargestellt, wird der Teilnehmer 102C vom Videokonferenzsystem automatisch stummgeschaltet (z. B. durch ein Stummschaltungssymbol 305). Die Stummschaltung kann von einem Prozessor eines Servers, wie z. B. dem Server 110, der die Konferenzinhalte bereitstellt, oder durch ein Signal an den Endpunkt 104C durchgeführt werden, das bei Empfang die Stummschaltung auslöst. Obwohl nicht erforderlich, kann der Teilnehmer 102C in einigen Ausführungsformen eine Benachrichtigung 708 über die Stummschaltung erhalten, bevor oder nachdem die Stummschaltung durchgeführt wird. In einigen Ausführungsformen kann eine Nachricht an den Endpunkt 104C gesendet werden, um den Teilnehmer 102C zu benachrichtigen, eine manuelle Stummschaltung durchzuführen.
In den 8A-8B ist eine Videokonferenz 800 dargestellt. Die Videokonferenz 800 umfasst Teilnehmer 102A-D, die jeweils in Konferenzfenstern 601A-D dargestellt sind. Die Teilnehmer 102A-D sind über die jeweiligen Endpunkte 104A-D mit der Videokonferenz 800 verbunden. Der abgebildete Teilnehmer 102A gibt weder Video noch Audio frei. Der Teilnehmer 102B ist stummgeschaltet (z. B. durch ein Stummschaltungssymbol 802B angezeigt), gibt aber Video frei. Die Teilnehmer 102C und 102D sind beide nicht stummgeschaltet und teilen ein Video. Wie durch die Sprechblase 803 veranschaulicht, kann der Teilnehmer 102B versuchen zu sprechen, während er stummgeschaltet ist. Wenn das Videokonferenzsystem feststellt, dass ein Teilnehmer (z. B. der Teilnehmer 102B) fälschlicherweise stummgeschaltet ist, teilt das Videokonferenzsystem dem fälschlicherweise stummgeschalteten Teilnehmer mit, dass er die Stummschaltung aufheben soll. In einigen Ausführungsformen schaltet das System, falls zulässig, einen fälschlicherweise stummgeschalteten Teilnehmer automatisch stumm bzw. hebt die Stummschaltung auf. Zusätzlich oder alternativ kann das System einen stummgeschalteten Audioteil für die Wiedergabe zwischenspeichern, nachdem ein Teilnehmer wieder stummgeschaltet wurde.
Der Konferenzinhalt umfasst Audio von den Teilnehmern 102C und 102D und Video von den Teilnehmern 102B-D. Da weder der Teilnehmer 102C noch der Teilnehmer 102D spricht, kann der Audioteil nur aus Stille bestehen. Das Videokonferenzsystem stellt fest, ob ein bestimmter Teilnehmer 102/Endpunkt 104 versucht, Audio zu übertragen, während der bestimmte Endpunkt 104 stumm geschaltet ist. In einigen Ausführungsformen empfängt der Server 110 den Audioteil, überträgt aber den Audioteil der stummgeschalteten Teilnehmer nicht. In anderen Fällen, wenn ein Teilnehmer stummgeschaltet ist, empfängt das Videokonferenzsystem keinen Ton für den zugehörigen Endpunkt 104. So kann das Videokonferenzsystem beispielsweise ein Stummschaltungssignal des Endpunkts 104B erkennen. In einer anderen Ausführungsform kann die Stummschaltung durch den Endpunkt 104B selbst erfolgen, wobei das Videokonferenzsystem ein Signal empfängt, das anzeigt, dass Audio vom Endpunkt 104B empfangen, aber nicht an das Videokonferenzsystem weitergeleitet wird, weil der Endpunkt 104B stummgeschaltet ist.
Das Videokonferenzsystem stellt fest, ob die Stummschaltung am Endpunkt 104B fehlerhaft ist. In einigen Ausführungsformen kann die Analyse des vom Endpunkt 104C beigetragenen Video- und/oder Audioanteils zu der Feststellung führen, dass der Teilnehmer 102B versucht, mit der Videokonferenz 800 zu sprechen. Beispielsweise kann das Videokonferenzsystem auf der Grundlage der Analyse des vom Endpunkt 102B übertragenen Videoanteils feststellen, dass der Blick des Teilnehmers 102B auf den Endpunkt 104B gerichtet ist und dass sich der Mund/die Lippen/andere Gesichtszüge des Teilnehmers 102B bewegen. Zusätzlich oder alternativ kann NLP verwendet werden, um festzustellen, dass eine Frage, die eine gesprochene Antwort erfordert, an den Teilnehmer 102B gerichtet wurde. Das Videokonferenzsystem sendet eine Warnung 804B (z. B. einen Ton, eine Nachricht, eine visuelle Pop-up-Anzeige usw.) an den Teilnehmer 102B/den Endpunkt 104B, um die Stummschaltung des fälschlicherweise stummgeschalteten Teilnehmers 102B/des Endpunkts 104B aufzuheben. Falls zulässig, kann das Videokonferenzsystem die Stummschaltung des fälschlicherweise stummgeschalteten Teilnehmers 102B/Endpunkts 104B automatisch aufheben, und die Audiosignale werden vom Endpunkt 104B empfangen, z. B. wenn die Stummschaltung durch das Videokonferenzsystem oder durch Senden eines Signals an den Endpunkt 104B zur Aufhebung der Stummschaltung durchgeführt wird und der Endpunkt 104B daraufhin die Stummschaltung aufhebt. Vor oder nach der Aufhebung der Stummschaltung kann dem Teilnehmer eine Benachrichtigung in Form einer Nachricht übermittelt werden (z. B. „Das System hebt die Stummschaltung auf“ oder „Das System hat die Stummschaltung aufgehoben“). Die automatische Aufhebung der Stummschaltung kann aus rechtlichen und ethischen Gründen nur unter bestimmten Umständen möglich sein. zeigt die Videokonferenz 800, nachdem der Teilnehmer 102B (z. B. automatisch oder manuell) stumm geschaltet wurde. Der Teilnehmer 102B kann nun möglicherweise Audiobeiträge zur Videokonferenz 800 leisten, wie durch eine Audio-/Rauschanzeige 806B dargestellt.
Der Konferenzserver kann auch ein Vertrauensniveau oder einen Schwellenwert verwenden, um festzustellen, ob ein Teilnehmer fälschlicherweise stummgeschaltet oder nicht stummgeschaltet ist. Um mehrere Vertrauensniveaus zu erreichen, kann das System NLP, Videoanalyse und Audioanalyse verwenden. Wenn die Schlussfolgerungen aus der NLP-, Video- und Audioanalyse alle übereinstimmen, kann das Vertrauensniveau hoch sein; wenn zwei beliebige übereinstimmen, kann das Vertrauensniveau mittel sein; und wenn keine der drei übereinstimmen oder nur eine bestimmt werden kann, kann das Vertrauensniveau niedrig sein.
In den 9A-9C ist eine Videokonferenz 900 dargestellt. Die Videokonferenz 900 umfasst Teilnehmer 102A-D, die jeweils in Konferenzfenstern 601A-D dargestellt sind. Die Teilnehmer 102A-D sind über die jeweiligen Endpunkte 104A-D mit der Videokonferenz 900 verbunden. Der abgebildete Teilnehmer 102A gibt weder Video noch Audio frei. Der Teilnehmer 102B gibt Audio (z. B. angezeigt durch eine Audio-/Rauschanzeige 902B) und Video frei und ist derzeit der aktive Sprecher in der Videokonferenz 900. Der Teilnehmer 102C teilt Video und Audio (z. B. wie durch eine Audio-/Rauschanzeige 902C angezeigt) und spricht gerade. Der Teilnehmer 102D teilt Video und ist nicht stummgeschaltet, spricht aber nicht.
Der Konferenzinhalt umfasst Audio von den Teilnehmern 102B und 102C und Video von den Teilnehmern 102B-D. In diesem Beispiel umfasst der Audioteil des Konferenzinhalts Sprache, die von den Teilnehmern 102B und 102C beigetragen wird. Das Videokonferenzsystem bestimmt, ob der von einem bestimmten Endpunkt 104 empfangene Ton für die Videokonferenz irrelevant ist. In diesem Beispiel wird der Sprachbeitrag des Teilnehmers 102B als Teil der Videokonferenz 900 und für diese bestimmt eingestuft. Im Gegensatz dazu wird der Audioanteil des Teilnehmers 102C als Fremdgeräusch eingestuft, das nicht für die Videokonferenz 900 bestimmt ist. In einigen Ausführungsformen kann das Videokonferenzsystem eine Analyse des vom Teilnehmer 102C beigesteuerten Videoanteils durchführen und bei der Analyse des Videoanteils des Teilnehmers 102C kann das Videokonferenzsystem feststellen, dass der Teilnehmer 102C/der Endpunkt 104C zwar Audio (z. B. Sprache) beisteuert, der Blick des Teilnehmers 102C aber nicht auf den Endpunkt 104C gerichtet ist. In diesem Beispiel kann die Analyse des Videos außerdem darauf hinweisen, dass sich neben dem Teilnehmer 102C eine weitere Person in dem Video befindet. Die Feststellung, dass der Teilnehmer 102C mit einer anderen Person und nicht mit der Videokonferenz 900 spricht, kann zusätzlich oder alternativ durch die Verwendung von NLP zur Analyse des Audioteils vom Endpunkt 104C erreicht werden, um den Kontext der Sprache zu bestimmen. Wenn die NLP- und die Videoanalyse zusammengenommen werden, kann die Feststellung, dass der Teilnehmer 102C nicht mit der Videokonferenz 900 spricht, einen höheren Vertrauenswert haben. Zusätzlich kann eine Audioanalyse des eingehenden Audioteils durchgeführt werden, um Parameter der Sprache auf der Grundlage von Intensität, Tonhöhe, Bereich, Tonfall, Sprache usw. zu analysieren. In einigen Beispielen kann der Teilnehmer, wenn er mit einer anderen Person spricht, schreien oder flüstern, was die Tonhöhe und Intensität des Tons stärker als die normale Tonhöhe und Intensität verändern kann.
Sobald das Videokonferenzsystem feststellt, dass der Audioteil vom Endpunkt 104C störend ist, schaltet das Videokonferenzsystem den Endpunkt 104C automatisch stumm, um zu verhindern, dass aktuelle und/oder zukünftige Audiosignale, die vom Endpunkt 104C empfangen werden, in den Konferenzinhalten übertragen werden. Wie in 9B dargestellt, wird der Endpunkt 104C vom Videokonferenzsystem automatisch stummgeschaltet (z. B. angezeigt durch ein Stummschaltungssymbol 305). Die Stummschaltung kann von einem Prozessor eines Servers durchgeführt werden, z. B. dem Server 110, der die Konferenzinhalte bereitstellt, oder durch ein Signal an den Endpunkt 104C, das bei Empfang die Stummschaltung auslöst. Der Teilnehmer 102C kann eine Benachrichtigung 908 über die Stummschaltaktion erhalten, bevor oder nachdem die Stummschaltaktion durchgeführt wird.
Wie in 9C dargestellt, gibt der Teilnehmer 102A zwar kein Video frei, wie durch das Symbol
angezeigt wird, aber er gibt Audio frei, wie durch eine Audio-/Rauschanzeige 902A angezeigt wird. Da dem Teilnehmer 102A kein Videoteil zugeordnet ist, kann nur der Audioteil analysiert werden, um festzustellen, ob der Audioteil für die Videokonferenz 900 irrelevant ist. Die Audioanalyse des eingehenden Audioteils des Teilnehmers 102A kann durchgeführt werden, um Parameter der Sprache auf der Grundlage von Intensität, Tonhöhe, Bereich, Klang, Sprache usw. zu analysieren.
10 zeigt einen Videokonferenzserver 1000 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Der Videokonferenzserver 1000 schaltet auf intelligente Weise den Audioteil eines Teilnehmers einer Videokonferenz stumm bzw. nicht stumm. Ähnliche Computersysteme können ganz oder teilweise in dem hier beschriebenen Server 110 enthalten sein, um einen Teilnehmer automatisch stumm zu schalten/einen Teilnehmer aufzufordern, die Stummschaltung aufzuheben und/oder einen Teilnehmer automatisch stumm zu schalten/einen Teilnehmer aufzufordern, die Stummschaltung aufzuheben. Ein Computersystem 1000 steht stellvertretend für ein oder mehrere Computersysteme, mit denen die verschiedenen hierin offengelegten Betriebsarchitekturen, Prozesse, Szenarien und Sequenzen zur Analyse zumindest des Videoteils einer Videokonferenz verwendet werden, um zu bestimmen, ob ein Teilnehmer stummgeschaltet/aufgehoben werden sollte, und die verschiedene Komponenten und Verbindungen zu anderen Komponenten und/oder Systemen umfassen. Zusätzlich kann auch der Audioteil analysiert werden, um die Bestimmung zu verstärken.
Das Rechnersystem 1000 ist ein Beispiel für den Server 110, obwohl auch andere Beispiele existieren können. Das Rechnersystem 1000 umfasst eine Kommunikationsschnittstelle 1001, ein Benutzerschnittstellenmodul 1002 und ein Verarbeitungssystem 1003. Das Verarbeitungssystem 1003 ist mit der Kommunikationsschnittstelle 1001 und dem Benutzerschnittstellenmodul 1002 verbunden. Das Verarbeitungssystem 1003 umfasst einen Mikroprozessor und/oder Verarbeitungsschaltungen 1005 und ein Speichersystem 1006, das die Betriebssoftware 1007 speichert. Das Computersystem 1000 kann weitere bekannte Komponenten wie eine Batterie und ein Gehäuse enthalten, die aus Gründen der Übersichtlichkeit nicht dargestellt sind. Das Rechensystem 1000 kann einen Server, ein Benutzergerät, einen Desktop-Computer, einen Laptop-Computer, ein Tablet-Computergerät oder ein anderes Benutzerkommunikationsgerät umfassen.
Die Kommunikationsschnittstelle 1001 umfasst Komponenten, die über Kommunikationsverbindungen kommunizieren, wie z. B. Netzwerkkarten, Ports, Hochfrequenz (RF), Verarbeitungsschaltungen und Software oder andere Kommunikationsgeräte. Die Kommunikationsschnittstelle 1001 kann so konfiguriert sein, dass sie über metallische, drahtlose oder optische Verbindungen kommuniziert. Die Kommunikationsschnittstelle 1001 kann so konfiguriert sein, dass sie Zeitmultiplex (TDM), Internetprotokoll (IP), Ethernet, optische Netzwerke, drahtlose Protokolle, Kommunikationssignalisierung oder ein anderes Kommunikationsformat - einschließlich Kombinationen davon - verwendet. In einigen Implementierungen ist die Kommunikationsschnittstelle 1001 so konfiguriert, dass sie mit anderen Endbenutzergeräten kommuniziert, wobei die Kommunikationsschnittstelle 1001 zur Übertragung und zum Empfang von Sprach- und Videokommunikation für die Geräte verwendet wird. Ferner kann die Kommunikationsschnittstelle 1001 mit einem Webservice verbunden sein, wobei der Service einen Videokonferenzdienst umfassen kann, auf den über eine Website zugegriffen werden kann.
Das Benutzerschnittstellenmodul 1002 umfasst Komponenten, die mit einem Benutzer interagieren, um Medien und/oder Informationen zu präsentieren, Ereignisse zu empfangen, die von einer Teilnehmerendpunktanwendung kommen, und einem Benutzer (z. B. einem Administrator) zu ermöglichen, Einstellungen des Videokonferenzservers zu konfigurieren. Das Benutzerschnittstellenmodul 1002 kann einen Lautsprecher, ein Mikrofon, Tasten, Lichter, einen Bildschirm, einen Touchscreen, ein Touchpad, ein Scrollrad, einen Kommunikationsanschluss oder ein anderes Eingabe-/Ausgabegerät für den Benutzer - einschließlich Kombinationen davon - umfassen. Das Benutzerschnittstellenmodul 1002 kann in einigen Beispielen weggelassen werden.
Die Verarbeitungsschaltung 1005 kann als ein einzelner elektronischer Mikroprozessor oder ein Multiprozessorgerät (z. B. Multicore) mit Komponenten wie Steuereinheit(en), Eingabe-/Ausgabeeinheit(en), arithmetischer Logikeinheit(en), Register(n), Primärspeicher und/oder anderen Komponenten ausgeführt sein, die auf Informationen (z. B. Daten, Befehle usw.) zugreifen, die z. B. über einen Bus empfangen werden, Befehle ausführen und Daten ausgeben, wiederum z. B. über den Bus. In anderen Ausführungsformen kann die Verarbeitungsschaltung 1005 ein gemeinsam genutztes Verarbeitungsgerät umfassen, das von anderen Prozessen und/oder Prozesseigentümern genutzt werden kann, beispielsweise in einer Verarbeitungsanordnung oder einem verteilten Verarbeitungssystem (z. B. „Cloud“, Farm usw.). Es sollte verstanden werden, dass die Verarbeitungsschaltung 1005 ein nicht-transitorisches Rechengerät ist (z. B. eine elektronische Maschine, die Schaltungen und Verbindungen zur Kommunikation mit anderen Komponenten und Geräten umfasst). Die Verarbeitungsschaltung 1005 kann einen virtuellen Prozessor betreiben, z. B. um Maschinenbefehle zu verarbeiten, die nicht nativ für den Prozessor sind (z. B. den Code des Intel® 9xx-Chipsatzes übersetzen, um den Chipsatz eines anderen Prozessors oder ein nicht natives Betriebssystem, wie z. B. ein VAX-Betriebssystem auf einem Mac, zu emulieren); solche virtuellen Prozessoren sind jedoch Anwendungen, die von dem zugrunde liegenden Prozessor (z. B. Prozessor 704) und dessen Hardware und anderen Schaltungen ausgeführt werden.
Die Verarbeitungsschaltung 1005 umfasst einen Mikroprozessor und andere Schaltungen, die Betriebssoftware 1007 aus dem Speichersystem 1006 abrufen und ausführen. Das Speichersystem 1006 kann flüchtige und nichtflüchtige, entnehmbare und nichtentfernbare Medien umfassen, die in einem beliebigen Verfahren oder einer beliebigen Technologie zur Speicherung von Informationen implementiert sind, wie z. B. computerlesbare Anweisungen, Datenstrukturen, Programmmodule oder andere Daten. Das Speichersystem 1006 kann als ein einziges Speichergerät implementiert werden, kann aber auch über mehrere Speichergeräte oder Subsysteme implementiert werden. Das Speichersystem 1006 kann zusätzliche Elemente umfassen, wie z. B. einen Controller zum Lesen der Betriebssoftware 1007. Beispiele für Speichermedien sind Direktzugriffsspeicher, Festwertspeicher, Magnetplatten, optische Platten und Flash-Speicher sowie jede Kombination oder Variation davon oder jede andere Art von Speichermedien. In einigen Ausführungsformen kann das Speichermedium ein nicht transitorisches Speichermedium sein. In einigen Fällen kann zumindest ein Teil der Speichermedien flüchtig sein. Es sollte verstanden werden, dass das Speichermedium in keinem Fall ein übertragenes Signal ist.
Die Verarbeitungsschaltung 1005 ist typischerweise auf einer Leiterplatte montiert, die auch das Speichersystem 1006 und Teile der Kommunikationsschnittstelle 1001 und des Benutzerschnittstellenmoduls 1002 enthalten kann. Die Betriebssoftware 1007 umfasst Computerprogramme, Firmware oder eine andere Form von maschinenlesbaren Programmanweisungen. Die Betriebssoftware 1007 umfasst ein Videomodul 1008, ein Modul für die Verarbeitung natürlicher Sprache (NLP) 1010, ein Audiomodul 1012 und ein Vertrauensmodul 1014, obwohl eine beliebige Anzahl von Softwaremodulen innerhalb der Anwendung denselben Vorgang ermöglichen kann. Die Betriebssoftware 1007 kann ferner ein Betriebssystem, Dienstprogramme, Treiber, Netzwerkschnittstellen, Anwendungen oder eine andere Art von Software umfassen. Wenn sie von der Verarbeitungsschaltung 1005 ausgeführt wird, weist die Betriebssoftware 1007 das Verarbeitungssystem 1003 an, den Videokonferenzserver 1000 wie hier beschrieben zu betreiben.
In mindestens einer Implementierung weist das Videomodul 1008, wenn es vom Verarbeitungssystem 1003 gelesen und ausgeführt wird, das Verarbeitungssystem 1003 an, mindestens einen Videoteil einer Videokonferenz zu verarbeiten, um auf intelligente Weise zu bestimmen, ob ein Teilnehmer stummgeschaltet oder nicht stummgeschaltet werden sollte. In einigen Beispielen umfasst das Videomodul das KI-gesteuerte Modul 1 zur Erkennung und Analyse von Gesichtsbewegungen. Das NLP-Modul 1010 weist, wenn es vom Verarbeitungssystem 1003 gelesen und ausgeführt wird, das Verarbeitungssystem 1003 an, die Konvertierung (z. B. den Audioteil) in Echtzeit zu analysieren, um den Kontext zu bestimmen. In einigen Beispielen kann das NPL-Modul 1010 ein Sprachmodul umfassen. Das Audiomodul 1012 weist, wenn es vom Verarbeitungssystem 1003 gelesen und ausgeführt wird, das Verarbeitungssystem 1003 an, den Audioteil einer Videokonferenz auf Sprach-/Audioeigenschaften (z. B. Lautstärke, Intensität, Bereich, Ton, Tonhöhe, Sprache usw.), Kontext usw. zu analysieren. Das Vertrauensmodul 1014 weist, wenn es vom Verarbeitungssystem 1003 gelesen und ausgeführt wird, das Verarbeitungssystem 1003 an, einen Vertrauenswert für eine Stummschaltungs-/Aufhebungsaktion zu bestimmen. Das Konfidenzmodul 1014 ist mit dem Videomodul 1008, dem NLP-Modul 1010 und dem Audiomodul 1012 verbunden, um einen Konfidenzwert für eine Stummschaltungs-/Stummschaltaktion zu bestimmen. Das Warn-/Stummschaltungsmodul 1016 weist, wenn es vom Verarbeitungssystem 1003 gelesen und ausgeführt wird, das Verarbeitungssystem 1003 an, Endpunkte automatisch stummzuschalten/aufzuheben (wie erlaubt) und Warnungen/Benachrichtigungen bezüglich der Stummschaltungs-/Aufhebungsaktionen zu senden.
Es sollte anerkannt werden, dass computerlesbare Daten von einer Vielzahl von Komponenten gesendet, empfangen, gespeichert, verarbeitet und dargestellt werden können. Es sollte auch anerkannt werden, dass die dargestellten Komponenten andere Komponenten steuern können, unabhängig davon, ob sie hier dargestellt sind oder nicht. Gewöhnliche Fachleute werden verstehen, dass andere Kommunikationsgeräte zusätzlich oder alternativ zu den hier beschriebenen verwendet werden können, ohne dass dies den Rahmen der Ausführungsformen sprengt.
In der vorangegangenen Beschreibung wurden die Methoden zur Veranschaulichung in einer bestimmten Reihenfolge beschrieben. Es sollte beachtet werden, dass die Methoden in alternativen Ausführungsformen in einer anderen Reihenfolge als der beschriebenen durchgeführt werden können, ohne dass dies vom Anwendungsbereich der Ausführungsformen abweicht. Es sollte auch beachtet werden, dass die oben beschriebenen Methoden als Algorithmen ausgeführt werden können, die von Hardwarekomponenten (z. B. Schaltkreisen) ausgeführt werden, die speziell für die Ausführung eines oder mehrerer der hier beschriebenen Algorithmen oder Teile davon entwickelt wurden. In einer anderen Ausführungsform kann die Hardwarekomponente einen Allzweck-Mikroprozessor (z. B. CPU, GPU) umfassen, der zunächst in einen Spezial-Mikroprozessor umgewandelt wird. In den Spezialmikroprozessor werden dann kodierte Signale geladen, die den nunmehrigen Spezialmikroprozessor veranlassen, maschinenlesbare Befehle zu erhalten, um den Mikroprozessor in die Lage zu versetzen, den maschinenlesbaren Satz von Befehlen zu lesen und auszuführen, die von den hier beschriebenen Algorithmen und/oder anderen Befehlen abgeleitet sind. Die maschinenlesbaren Anweisungen, die zur Ausführung des/der Algorithmus(s) oder von Teilen davon verwendet werden, sind nicht unbegrenzt, sondern verwenden einen endlichen Satz von Anweisungen, die dem Mikroprozessor bekannt sind. Die maschinenlesbaren Anweisungen können im Mikroprozessor als Signale oder Werte in signalerzeugenden Komponenten kodiert werden und umfassen in einer oder mehreren Ausführungsformen Spannungen in Speicherschaltungen, die Konfiguration von Schaltkreisen und/oder die selektive Verwendung bestimmter Logikgatterschaltungen. Zusätzlich oder alternativ können die maschinenlesbaren Anweisungen für den Mikroprozessor zugänglich sein und in einem Medium oder einer Vorrichtung als Magnetfelder, Spannungswerte, Ladungswerte, reflektierende/nicht reflektierende Teile und/oder physikalische Zeichen kodiert sein.
In einer anderen Ausführungsform umfasst der Mikroprozessor außerdem einen oder mehrere Mikroprozessoren, einen Multi-Core-Prozessor, mehrere Mikroprozessoren, ein verteiltes Verarbeitungssystem (z. B. Array(s), Blade(s), Serverfarm(s), „Cloud“, Mehrzweck-Prozessor-Array(s), Cluster usw.) und/oder kann mit einem Mikroprozessor, der andere Verarbeitungsvorgänge durchführt, zusammen untergebracht sein. Ein oder mehrere Mikroprozessoren können in ein einzelnes Verarbeitungsgerät (z. B. Computer, Server, Blade usw.) integriert sein oder sich ganz oder teilweise in einer separaten Komponente befinden, die über eine Kommunikationsverbindung (z. B. Bus, Netzwerk, Backplane usw. oder eine Vielzahl davon) verbunden ist.
Beispiele für Allzweck-Mikroprozessoren können eine zentrale Verarbeitungseinheit (CPU) mit Datenwerten umfassen, die in einem Befehlsregister (oder einer anderen Schaltung, die Befehle aufbewahrt) kodiert sind, oder Datenwerte, die Speicherplätze umfassen, die wiederum Werte enthalten, die als Befehle verwendet werden. Die Speicherplätze können ferner einen Speicherplatz außerhalb der CPU umfassen. Solche CPUexternen Komponenten können in Form eines oder mehrerer feldprogrammierbarer Gate-Arrays (FPGA), Festwertspeicher (ROM), programmierbarer Festwertspeicher (PROM), löschbarer programmierbarer Festwertspeicher (EPROM), Direktzugriffsspeicher (RAM), buszugänglicher Speicher, netzzugänglicher Speicher usw. ausgeführt werden. Diese maschinenausführbaren Befehle können auf einem oder mehreren maschinenlesbaren Medien gespeichert werden, wie CD-ROMs oder anderen Arten von optischen Platten, Disketten, ROMs, RAMs, EPROMs, EEPROMs, magnetischen oder optischen Karten, Flash-Speicher oder anderen Arten von maschinenlesbaren Medien, die zur Speicherung von elektronischen Befehlen geeignet sind. Alternativ können die Verfahren auch durch eine Kombination aus Hardware und Software durchgeführt werden.
In einer anderen Ausführungsform kann ein Mikroprozessor ein System oder eine Sammlung von Verarbeitungs-Hardwarekomponenten sein, z. B. ein Mikroprozessor auf einem Client-Gerät und ein Mikroprozessor auf einem Server, eine Sammlung von Geräten mit ihrem jeweiligen Mikroprozessor oder ein gemeinsam genutzter oder entfernter Verarbeitungsdienst (z. B. ein „Cloud“-basierter Mikroprozessor). Ein System von Mikroprozessoren kann eine aufgabenspezifische Zuweisung von Verarbeitungsaufgaben und/oder gemeinsame oder verteilte Verarbeitungsaufgaben umfassen. In einer weiteren Ausführungsform kann ein Mikroprozessor Software ausführen, um die Dienste zur Emulation eines anderen Mikroprozessors oder anderer Mikroprozessoren bereitzustellen. Infolgedessen kann ein erster Mikroprozessor, der aus einem ersten Satz von Hardwarekomponenten besteht, virtuell die Dienste eines zweiten Mikroprozessors bereitstellen, wobei die dem ersten Mikroprozessor zugeordnete Hardware mit einem dem zweiten Mikroprozessor zugeordneten Befehlssatz arbeiten kann.
Während maschinenausführbare Befehle lokal auf einer bestimmten Maschine (z. B. einem Personalcomputer, einem mobilen Rechengerät, einem Laptop usw.) gespeichert und ausgeführt werden können, sollte man sich darüber im Klaren sein, dass die Speicherung von Daten und/oder Befehlen und/oder die Ausführung mindestens eines Teils der Befehle über eine Verbindung zu einer entfernten Datenspeicher- und/oder Verarbeitungsvorrichtung oder einer Sammlung von Vorrichtungen bereitgestellt werden kann, die allgemein als „die Wolke“ bekannt ist, aber auch ein öffentliches, privates, dediziertes, gemeinsam genutztes und/oder anderes Servicebüro, einen Rechendienst und/oder eine „Serverfarm“ umfassen kann.
Beispiele für die hier beschriebenen Mikroprozessoren sind unter anderem Qualcomm® Snapdragon® 800 und 801, Qualcomm® Snapdragon® 610 und 615 mit 4G LTE-Integration und 64-Bit-Computing, Apple® A7 Mikroprozessor mit 64-Bit-Architektur, Apple® M7 Motion Coprozessoren, Samsung® Exynos® Serie, die Intel® Core™ Mikroprozessorfamilie, die Intel® Xeon® Mikroprozessorfamilie, die Intel® Atom™ Mikroprozessorfamilie, die Intel Itanium® Mikroprozessorfamilie, Intel® Core® i5-4670K und i7-4770K 22nm Haswell, Intel® Core® i5-3570K 22nm Ivy Bridge, die AMD® FX™ Mikroprozessorfamilie, AMD® FX-4300, FX-6300 und FX-8350 32nm Vishera, AMD® Kaveri Mikroprozessoren, Texas Instruments® Jacinto C6000™ Automobil-Infotainment-Mikroprozessoren, Texas Instruments® OMAP™ mobile Mikroprozessoren für den Automobilbereich, ARM® Cortex™-M-Mikroprozessoren, ARM® Cortex-A und ARM926EJ-S™-Mikroprozessoren, andere industrieäquivalente Mikroprozessoren, und können Rechenfunktionen unter Verwendung jedes bekannten oder zukünftig entwickelten Standards, Befehlssatzes, Bibliotheken und/oder Architektur ausführen. Alle hier besprochenen Schritte, Funktionen und Operationen können kontinuierlich und automatisch durchgeführt werden.
Die beispielhaften Systeme und Verfahren dieser Erfindung wurden in Bezug auf Kommunikationssysteme und -komponenten sowie Verfahren zur Überwachung, Verbesserung und Verschönerung von Kommunikation und Nachrichten beschrieben. Um die vorliegende Erfindung jedoch nicht unnötig zu vernebeln, wurde in der vorangegangenen Beschreibung eine Reihe bekannter Strukturen und Geräte ausgelassen. Diese Auslassung ist nicht als Einschränkung des Umfangs der beanspruchten Erfindung zu verstehen. Spezifische Details werden dargelegt, um das Verständnis der vorliegenden Erfindung zu erleichtern. Es sollte jedoch gewürdigt werden, dass die vorliegende Erfindung in einer Vielzahl von Möglichkeiten über die hier dargelegten spezifischen Details hinaus praktiziert werden kann.
Während die hier gezeigten beispielhaften Ausführungsformen die verschiedenen Komponenten des Systems gemeinsam zeigen, können bestimmte Komponenten des Systems auch entfernt, in entfernten Teilen eines verteilten Netzwerks, wie z. B. einem LAN und/oder dem Internet, oder innerhalb eines dedizierten Systems angeordnet sein. So können die Komponenten oder Teile davon (z. B. Mikroprozessoren, Speicher, Schnittstellen usw.) des Systems in einem oder mehreren Geräten wie einem Server, Servern, Computer, Rechengerät, Terminal, einer „Cloud“ oder einer anderen verteilten Verarbeitung kombiniert oder an einem bestimmten Knoten eines verteilten Netzes wie einem analogen und/oder digitalen Telekommunikationsnetz, einem paketvermittelten Netz oder einem leitungsvermittelten Netz untergebracht werden. In einer anderen Ausführungsform können die Komponenten physisch oder logisch über eine Vielzahl von Komponenten verteilt sein (z. B. kann ein Mikroprozessor einen ersten Mikroprozessor auf einer Komponente und einen zweiten Mikroprozessor auf einer anderen Komponente umfassen, wobei jeder einen Teil einer gemeinsamen Aufgabe und/oder einer zugewiesenen Aufgabe ausführt). Aus der vorangegangenen Beschreibung wird ersichtlich, dass die Komponenten des Systems aus Gründen der Recheneffizienz an jedem beliebigen Ort innerhalb eines verteilten Netzwerks von Komponenten angeordnet werden können, ohne dass dies den Betrieb des Systems beeinträchtigt. Beispielsweise können sich die verschiedenen Komponenten in einer Vermittlungsstelle wie einer Telefonanlage und einem Medienserver, einem Gateway, in einem oder mehreren Kommunikationsgeräten, in den Räumlichkeiten eines oder mehrerer Benutzer oder einer Kombination davon befinden. In ähnlicher Weise können ein oder mehrere funktionale Teile des Systems zwischen einem oder mehreren Telekommunikationsgeräten und einem zugehörigen Computergerät verteilt sein.
Darüber hinaus kann es sich bei den verschiedenen Verbindungen, die die Elemente miteinander verbinden, um drahtgebundene oder drahtlose Verbindungen oder eine beliebige Kombination davon oder um andere bekannte oder später entwickelte Elemente handeln, die in der Lage sind, Daten an die und von den verbundenen Elementen zu liefern und/oder zu übermitteln. Bei diesen drahtgebundenen oder drahtlosen Verbindungen kann es sich auch um sichere Verbindungen handeln, die in der Lage sind, verschlüsselte Informationen zu übermitteln. Als Übertragungsmedien für Verbindungen können beispielsweise alle geeigneten Träger für elektrische Signale verwendet werden, einschließlich Koaxialkabel, Kupferdraht und Glasfasern, und sie können die Form von akustischen oder Lichtwellen annehmen, wie sie bei der Datenkommunikation über Funkwellen und Infrarot erzeugt werden.
Auch wenn die Flussdiagramme in Bezug auf eine bestimmte Abfolge von Ereignissen erörtert und illustriert wurden, sollte man sich darüber im Klaren sein, dass Änderungen, Ergänzungen und Auslassungen dieser Abfolge auftreten können, ohne die Funktionsweise der Erfindung wesentlich zu beeinträchtigen.
Eine Reihe von Variationen und Modifikationen der Erfindung können verwendet werden. Es wäre möglich, einige Merkmale der Erfindung vorzusehen, ohne andere vorzusehen.
In einer weiteren Ausführungsform können die Systeme und Verfahren dieser Erfindung in Verbindung mit einem Spezialcomputer, einem programmierten Mikroprozessor oder Mikrocontroller und peripheren integrierten Schaltungselementen, einem ASIC oder einer anderen integrierten Schaltung, einem Digitalsignal-Mikroprozessor, einer fest verdrahteten elektronischen oder logischen Schaltung wie einer Schaltung mit diskreten Elementen, einem programmierbaren Logikbaustein oder Gate-Array wie PLD, PLA, FPGA, PAL, einem Spezialcomputer, einem vergleichbaren Mittel oder dergleichen implementiert werden. Im Allgemeinen können alle Geräte oder Mittel, die in der Lage sind, die hier dargestellte Methodik zu implementieren, zur Umsetzung der verschiedenen Aspekte dieser Erfindung verwendet werden. Beispielhafte Hardware, die für die vorliegende Erfindung verwendet werden kann, umfasst Computer, Handheld-Geräte, Telefone (z. B. zellulare, internetfähige, digitale, analoge, hybride und andere) und andere im Fachgebiet bekannte Hardware. Einige dieser Geräte umfassen Mikroprozessoren (z. B. einen einzelnen oder mehrere Mikroprozessoren), Speicher, nichtflüchtige Speicher, Eingabegeräte und Ausgabegeräte. Darüber hinaus können alternative Software-Implementierungen, einschließlich, aber nicht beschränkt auf, verteilte Verarbeitung oder komponenten-/objektverteilte Verarbeitung, parallele Verarbeitung oder Verarbeitung durch virtuelle Maschinen, konstruiert werden, um die hier beschriebenen Methoden zu implementieren, wie sie von einer oder mehreren Verarbeitungskomponenten bereitgestellt werden.
In einer weiteren Ausführungsform können die offengelegten Methoden leicht in Verbindung mit Software unter Verwendung von objekt- oder objektorientierten Softwareentwicklungsumgebungen implementiert werden, die portablen Quellcode bereitstellen, der auf einer Vielzahl von Computer- oder Workstation-Plattformen verwendet werden kann. Alternativ dazu kann das offengelegte System teilweise oder vollständig in Hardware unter Verwendung von Standard-Logikschaltungen oder VLSI-Design implementiert werden. Ob Software oder Hardware verwendet wird, um die Systeme gemäß der vorliegenden Erfindung zu implementieren, hängt von den Geschwindigkeits- und/oder Effizienzanforderungen des Systems, der jeweiligen Funktion und den jeweiligen Software- oder Hardwaresystemen oder Mikroprozessor- oder Mikrocomputersystemen ab, die verwendet werden.
In einer weiteren Ausführungsform können die offengelegten Verfahren teilweise in Software implementiert werden, die auf einem Speichermedium gespeichert und auf einem programmierten Universalcomputer in Zusammenarbeit mit einem Controller und einem Speicher, einem Spezialcomputer, einem Mikroprozessor oder dergleichen ausgeführt werden kann. In diesen Fällen können die Systeme und Methoden dieser Erfindung als ein in einen Personalcomputer eingebettetes Programm, wie z. B. ein Applet, ein JAVAE- oder CGI-Skript, als eine auf einem Server oder einer Computer-Workstation befindliche Ressource, als eine in ein spezielles Messsystem, eine Systemkomponente oder ähnliches eingebettete Routine implementiert werden. Das System kann auch implementiert werden, indem das System und/oder die Methode physisch in ein Software- und/oder Hardwaresystem integriert wird.
Die hierin enthaltenen Ausführungsformen, die Software umfassen, werden von einem oder mehreren Mikroprozessoren ausgeführt oder zur späteren Ausführung gespeichert und als ausführbarer Code ausgeführt. Der ausführbare Code wird ausgewählt, um Anweisungen auszuführen, die die jeweilige Ausführungsform umfassen. Bei den ausgeführten Befehlen handelt es sich um einen begrenzten Satz von Befehlen, die aus dem diskreten Satz nativer Befehle ausgewählt werden, die der Mikroprozessor versteht und die vor der Ausführung in einem für den Mikroprozessor zugänglichen Speicher abgelegt werden. In einer anderen Ausführungsform wird menschenlesbare „Quellcode“-Software vor der Ausführung durch den einen oder die mehreren Mikroprozessoren zunächst in Systemsoftware umgewandelt, die einen plattformspezifischen (z. B. Computer, Mikroprozessor, Datenbank usw.) Satz von Befehlen enthält, die aus dem nativen Befehlssatz der Plattform ausgewählt wurden.
Obwohl die vorliegende Erfindung Komponenten und Funktionen beschreibt, die in den Ausführungsformen unter Bezugnahme auf bestimmte Standards und Protokolle implementiert sind, ist die Erfindung nicht auf solche Standards und Protokolle beschränkt. Andere ähnliche Standards und Protokolle, die hier nicht erwähnt werden, existieren und werden als in der vorliegenden Erfindung enthalten angesehen. Darüber hinaus werden die hier erwähnten Normen und Protokolle sowie andere ähnliche, hier nicht erwähnte Normen und Protokolle regelmäßig durch schnellere oder effektivere Äquivalente ersetzt, die im Wesentlichen die gleichen Funktionen haben. Solche Ersatznormen und -protokolle mit denselben Funktionen werden als Äquivalente im Sinne der vorliegenden Erfindung betrachtet.
Die vorliegende Erfindung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten Komponenten, Verfahren, Prozesse, Systeme und/oder Geräte, die im Wesentlichen wie hierin dargestellt und beschrieben sind, einschließlich verschiedener Ausführungsformen, Unterkombinationen und Teilmengen davon. Diejenigen, die auf dem Gebiet der Technik bewandert sind, werden verstehen, wie man die vorliegende Erfindung herstellt und verwendet, nachdem sie die vorliegende Offenbarung verstanden haben. Die vorliegende Erfindung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten die Bereitstellung von Vorrichtungen und Verfahren in Abwesenheit von Elementen, die hierin nicht dargestellt und/oder beschrieben sind, oder in verschiedenen Ausführungsformen, Konfigurationen oder Aspekten hiervon, einschließlich in Abwesenheit solcher Elemente, die in früheren Vorrichtungen oder Verfahren verwendet worden sein können, z. B. zur Verbesserung der Leistung, zur Erzielung von Einfachheit und zur Verringerung der Kosten der Implementierung.
Die vorstehende Erörterung der Erfindung wurde zum Zwecke der Veranschaulichung und Beschreibung dargestellt. Das Vorstehende soll die Erfindung nicht auf die hierin offenbarte(n) Form(en) beschränken. In der vorstehenden ausführlichen Beschreibung sind beispielsweise verschiedene Merkmale der Erfindung in einer oder mehreren Ausführungsformen, Konfigurationen oder Aspekten zusammengefasst, um die Offenbarung zu vereinfachen. Die Merkmale der Ausführungsformen, Konfigurationen oder Aspekte der Erfindung können in alternativen Ausführungsformen, Konfigurationen oder Aspekten kombiniert werden, die von den oben beschriebenen abweichen. Diese Art der Offenbarung ist nicht so zu verstehen, dass die beanspruchte Erfindung mehr Merkmale erfordert, als in den einzelnen Ansprüchen ausdrücklich angegeben sind. Wie aus den folgenden Ansprüchen hervorgeht, liegen erfinderische Aspekte vielmehr in weniger als allen Merkmalen einer einzelnen oben offengelegten Ausführungsform, Konfiguration oder eines Aspekts. Daher werden die folgenden Ansprüche hiermit in diese detaillierte Beschreibung aufgenommen, wobei jeder Anspruch für sich genommen eine separate bevorzugte Ausführungsform der Erfindung darstellt.
Obwohl in der Beschreibung der Erfindung eine oder mehrere Ausführungsformen, Konfigurationen oder Aspekte sowie bestimmte Variationen und Modifikationen beschrieben sind, fallen auch andere Variationen, Kombinationen und Modifikationen in den Anwendungsbereich der Erfindung, z. B. solche, die nach dem Verständnis der vorliegenden Offenbarung dem Fachmann bekannt sind und von ihm beherrscht werden. Es ist beabsichtigt, Rechte zu erlangen, die alternative Ausführungsformen, Konfigurationen oder Aspekte im zulässigen Umfang einschließen, einschließlich alternativer, austauschbarer und/oder äquivalenter Strukturen, Funktionen, Bereiche oder Schritte zu den beanspruchten, unabhängig davon, ob solche alternativen, austauschbaren und/oder äquivalenten Strukturen, Funktionen, Bereiche oder Schritte hier offenbart sind oder nicht, und ohne die Absicht, irgendeinen patentierbaren Gegenstand öffentlich zu widmen.

Claims

Ein Videokonferenzserver, bestehend aus: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente, die eine nicht-übertragbare Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; und wobei der Prozessor beim Zugriff auf maschinenausführbare Befehle den Prozessor veranlasst, Folgendes durchzuführen: Rundsenden von Konferenzinhalten über das Netzwerk zu jedem einer Vielzahl von Endpunkten, wobei die Konferenzinhalte einen Audioteil und einen Videoteil umfassen, die von jedem der Vielzahl von Endpunkten empfangen werden; Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um zu bestimmen, ob ein entsprechender Audioteil dem Konferenzinhalt fremd ist, und Bestimmen eines Vertrauenswerts, der mit der Bestimmung verbunden ist, dass der entsprechende Audioteil dem Konferenzinhalt fremd ist, wobei der Vertrauenswert auf der Analyse des Videoteils und mindestens einer natürlichen Sprachverarbeitung und/oder der Analyse des Audioteils basiert; und bei der Bestimmung, dass der entsprechende Audioteil für den Konferenzinhalt irrelevant ist, eine Stummschaltungsaktion ausführen, um den entsprechenden Audioteil von dem Konferenzinhalt auszuschließen.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen,: einen Endpunkt, der mit dem entsprechenden Audioteil verbunden ist, automatisch stumm zu schalten, und Übertragen einer Nachricht an den automatisch stummgeschalteten Endpunkt, die anzeigt, dass der Endpunkt automatisch stummgeschaltet wurde.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen,: einen mit dem entsprechenden Audioteil assoziierten Endpunkt zu signalisieren, um den assoziierten Endpunkt zu veranlassen, einen Teilnehmer aufzufordern, seinen Ton stumm zu schalten.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen,: festzustellen, dass ein Teilnehmer in dem mindestens einen Videoteil spricht, aber nicht auf seinen Bildschirm schaut, nicht spricht und/oder der entsprechende Audioteil keine Sprache enthält.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen: festzustellen, dass sich in dem mindestens einen Videoteil keine Person befindet.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen: Feststellen von mindestens einem der folgenden Punkte: die Lippen eines Teilnehmers bewegen sich nicht, die anderen Gesichtsteile des Teilnehmers zeigen keine Sprache an, und/oder die Gesichtsausdrücke des Teilnehmers zeigen keine Sprache an.
Videokonferenzserver nach Anspruch 1, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen: den mindestens einen Videoabschnitt von dem mindestens einen Endpunkt zu verarbeiten, um festzustellen, ob der mindestens ein Endpunkt unbeabsichtigt stummgeschaltet ist; und nach der Feststellung, dass der mindestens eine Endpunkt unbeabsichtigt stummgeschaltet sein kann, eine Signalisierung an den mindestens einen Endpunkt auszuführen, der unbeabsichtigt stummgeschaltet sein kann, um den mindestens einen Endpunkt zu veranlassen, einen Teilnehmer, der mit dem mindestens einen Endpunkt verbunden ist, aufzufordern, seine Stummschaltung aufzuheben.
Videokonferenzserver nach Anspruch 7, wobei zusätzliche Anweisungen, wenn sie ausgeführt werden, den Prozessor außerdem veranlassen: Verarbeiten mindestens des Audioteils von mindestens einem Endpunkt, um festzustellen, dass ein mit einem bestimmten Konferenzteilnehmer verbundener Name gesprochen wurde; und nach der Feststellung, dass der dem bestimmten Konferenzteilnehmer zugeordnete Name gesprochen wurde, an einen dem bestimmten Konferenzteilnehmer zugeordneten Endpunkt eine Aufforderung zum Aufheben der Stummschaltung seines Tons zu übertragen.
Verfahren zum Stummschalten eines Endpunktes in einer Videokonferenz, wobei das Verfahren umfasst: Rundsenden von Konferenzinhalt an jeden einer Vielzahl von Endpunkten, wobei der Konferenzinhalt einen Audioteil und einen von jedem der Vielzahl von Endpunkten empfangenen Videoteil umfasst; Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um zu bestimmen, ob der entsprechende Audioteil dem Konferenzinhalt fremd ist, und Bestimmen eines Vertrauenswerts, der mit der Bestimmung verbunden ist, dass der entsprechende Audioteil dem Konferenzinhalt fremd ist, wobei der Vertrauenswert auf der Analyse des Videoteils und mindestens einer von natürlicher Sprachverarbeitung und/oder Analyse des Audioteils basiert; und bei der Bestimmung, dass der entsprechende Audioteil für den Konferenzinhalt irrelevant ist, Ausführen einer Stummschaltungsaktion, um den entsprechenden Audioteil von dem Konferenzinhalt auszuschließen.
Verfahren zum Aufheben der Stummschaltung eines Endpunktes in einer Videokonferenz, wobei das Verfahren umfasst: Rundsenden von Konferenzinhalt an jeden einer Vielzahl von Endpunkten, wobei der Konferenzinhalt einen Audioteil und einen von jedem der Vielzahl von Endpunkten empfangenen Videoteil umfasst; Verarbeiten mindestens des Videoteils von mindestens einem Endpunkt, um zu bestimmen, ob der mindestens eine Endpunkt unbeabsichtigt stummgeschaltet ist, und Bestimmen eines Vertrauenswertes, der mit der Bestimmung verbunden ist, dass der mindestens eine Endpunkt unbeabsichtigt stummgeschaltet ist, wobei der Vertrauenswert auf der Analyse des Videoteils von dem mindestens einen Endpunkt und mindestens einer natürlichen Sprachverarbeitung und/oder der Analyse des Audioteils von dem mindestens einen Endpunkt basiert; und bei Feststellung, dass der mindestens eine Endpunkt unbeabsichtigt stummgeschaltet sein kann, Ausführen einer Signalisierung an den unbeabsichtigt stummgeschalteten mindestens einen Endpunkt, um einen Teilnehmer, der mit dem unbeabsichtigt stummgeschalteten mindestens einen Endpunkt verbunden ist, aufzufordern, sein Audio aufzuheben.