DE102021204829A1

DE102021204829A1 - Automatische korrektur fehlerhafter audioeinstellungen

Info

Publication number: DE102021204829A1
Application number: DE102021204829.3A
Authority: DE
Inventors: Yashavant Pushkar Deole; Sandesh Chopdekar; Navin Daga
Original assignee: Avaya Man Lp; Avaya Management LP
Current assignee: Avaya Man Lp; Avaya Management LP
Priority date: 2020-05-18
Filing date: 2021-05-12
Publication date: 2021-11-18
Also published as: US20210359872A1; US11502863B2; CN113691685A

Abstract

Elektronische Konferenzen können oft die Quelle von Frustration und Ressourcenverschwendung sein, da die Teilnehmer gezwungen sein können, sich mit fremden Geräuschen auseinanderzusetzen, wie z. B. Gesprächen, die nicht für die Konferenz bestimmt sind und von einem Endpunkt bereitgestellt werden, der stummgeschaltet werden sollte. In ähnlicher Weise können Teilnehmer mit der Absicht sprechen, ihre Sprache für die Konferenz bereitzustellen, aber sprechen, während ihr zugehöriger Endpunkt stummgeschaltet ist. Infolgedessen kann die Konferenz umständlich sein und keinen produktiven Fluss aufweisen, während fälschlicherweise stummgeschaltete oder nicht stummgeschaltete Endpunkte angesprochen werden. Durch das Erkennen fehlerhafter Audioeinstellungen können Endpunkte aufgefordert oder automatisch korrigiert werden, um den entsprechenden Audiostatus zu erhalten.

Description

URHEBERRECHTSHINWEIS
Ein Teil der Offenbarung dieses Patentdokuments enthält Material, das dem Urheberrechtsschutz unterliegt. Der Urheberrechtsinhaber hat der Faksimile-Reproduktion des Patentdokuments oder der Patentoffenbarung, wie sie in den Patentakten oder Aufzeichnungen des Patent- und Markenamts erscheint, durch Dritte nicht widersprochen, behält sich jedoch ansonsten alle Urheberrechte vor.
BEREICH DER OFFENLEGUNG
Die Erfindung bezieht sich allgemein auf Systeme und Verfahren für Audio-basierte Kommunikation und insbesondere auf das Erkennen und Korrigieren fehlerhafter Stummschaltungseinstellungen .
HINTERGRUND
Es ist üblich, dass man während einer Telefonkonferenz erwartet, dass jemand spricht, und dann Stille hört, gefolgt von: „Sind Sie auf stumm?“ Manchmal ist es sogar notwendig, mit den potentiellen Sprechern über einen anderen Kanal zu kommunizieren und sie wissen zu lassen, dass sie nicht gehört werden, höchstwahrscheinlich weil sie immer noch auf stumm geschaltet sind. Andere Teilnehmer gehen entweder weiter und überhören den Beitrag des potentiellen Redners oder warten, bis die Stummschaltung aufgehoben wird. Sobald der Sprecher merkt, dass er stummgeschaltet war und die Stummschaltung aufhebt, muss er alles wiederholen, was er gesagt hat, während er stummgeschaltet war.
Umgekehrt müssen die Moderatoren oft ankündigen: „Können diejenigen, die nicht sprechen, bitte auf stumm schalten?“, um Fremdgespräche und Hintergrundgeräusche zu vermeiden, die von den Kommunikationsgeräten der nicht sprechenden Teilnehmer aufgenommen werden. Unter Umständen müssen die Konferenzleiter die Teilnehmer während einer Konferenz immer wieder daran erinnern. Fremdgeräusche können ablenken oder das Verstehen des beabsichtigten Inhalts unmöglich machen.
Fremdgeräusche und stummgeschaltete Sprecher führen zu schlechten Erfahrungen für Konferenzteilnehmer. Die Kontinuität oder der Fluss der Konferenz wird unterbrochen und/oder gewünschte Inhalte können ausgelassen werden.
ZUSAMMENFASSUNG
Elektronische Konferenzen oder Besprechungen mit mindestens zwei Teilnehmern oder Gruppen von Teilnehmern, die über Kommunikationsendpunkte über ein Netzwerk kommunizieren (im Folgenden „Konferenz“), sind im Geschäftsleben und in anderen Bereichen üblich. Leider ist es auch üblich, dass ein Sprecher spricht, ohne zu bemerken, dass er stumm geschaltet ist, was zu Verwirrung und Zeitverschwendung führt und die Kontinuität der Konferenz beeinträchtigt. Es kommt auch häufig vor, dass Fremdgeräusche von nicht stummgeschalteten Endpunkten, die mit nicht sprechenden Teilnehmern verbunden sind, aufgenommen und in die Konferenz eingefügt werden.
Diese und andere Bedürfnisse werden durch die verschiedenen hier vorgestellten Ausführungsformen und Aspekte angesprochen. Die Ausführungsformen bieten eine Reihe von Vorteilen, abhängig von der jeweiligen Konfiguration.
In einer Ausführungsform und als allgemeine Einführung in die hier vorgestellten Ausführungsformen wird ein System, das die Tatsache erkennt, dass der Sprecher stummgeschaltet ist, und intelligent Maßnahmen ergreift, und/oder ein System bereitgestellt, das die Tatsache erkennt, dass Ton (z. B. ein Fremdgespräch), der für die Konferenz nicht relevant ist, aufgenommen und in die Konferenz einbezogen wird, und in ähnlicher Weise automatisch Maßnahmen ergreift, bevor ein manuelles Eingreifen erforderlich ist, um den Fremdton innerhalb der Konferenz zu reduzieren.
Bestimmte Systeme nach dem Stand der Technik registrieren einen Konferenzteilnehmer zusammen mit dem Endgerät, das der Teilnehmer verwendet, um seine Sprache zur Aufnahme in die Konferenz bereitzustellen. Dadurch kann der Server erkennen, dass der am Server ankommende Medienstrom von einem bestimmten Teilnehmer stammt. Solche Systeme nach dem Stand der Technik ermöglichen es den Teilnehmern, eine Liste aller Konferenzteilnehmer und eine Kennzeichnung, z. B. durch Hervorhebung, des gerade sprechenden Teilnehmers zu sehen. In ähnlicher Weise kann, wenn ein Teilnehmer stummgeschaltet ist, ein Zeichen, wie z. B. ein Stummschaltungssymbol, in Verbindung mit Zeichen des Teilnehmers, wie z. B. dem Namen des Teilnehmers, einem Avatar, einem Miniaturbild usw., bereitgestellt werden, um den Teilnehmer als stummgeschaltet zu identifizieren. Die hier vorgestellten Ausführungsformen gehen über die Systeme des Standes der Technik hinaus und bringen den Stand der Technik allgemein voran.
In einer Ausführungsform wird ein System bereitgestellt, um ein intelligentes Stummschalten/Aufheben der Stummschaltung von Teilnehmern zu erreichen, das von einem oder mehreren Mikroprozessoren (im Folgenden „Prozessor“) ausgeführt werden kann, die Funktionen oder Module ausführen, die eines oder mehrere der folgenden umfassen können:
1. Modul zur Erkennung von Sprachmerkmalen: In einer Ausführungsform führt ein Prozessor ein Modul aus, das für die Erfassung von Stimmmerkmalen jedes Teilnehmers der Konferenz verantwortlich ist, wenn der Benutzer während der Konferenz aktiv spricht. Die Teilnahme eines Benutzers an der Konferenz kann erkannt werden, wenn nur ein einzelner Benutzer in der Konferenz spricht, während andere zuhören. Zusätzlich oder alternativ können, wenn mehrere Teilnehmer gleichzeitig sprechen, die einzelnen Eingaben von den Endpunkten der sprechenden Benutzer analysiert werden, um die zugehörigen Sprachmerkmale für diese sprechenden Teilnehmer abzuleiten.
Zu den Sprachmerkmalen, die erfasst und quantifiziert werden können, gehören unter anderem: Lautheit (Lautstärke), Tonhöhe, Bereich, Klang und Tempo. Zusätzlich zu den Klangeigenschaften der Stimme kann auch die Sprache charakterisiert werden, um z. B. zu erkennen, dass ein sprechender Teilnehmer möglicherweise in einer Sprache (z. B. Deutsch) spricht, die Konferenz aber in einer anderen Sprache (z. B. Englisch) durchgeführt wird. Infolgedessen kann die Erkennung von Sprache in Deutsch als Nicht-Konferenzinhalt identifiziert und stummgeschaltet werden, z. B. wenn ein Teilnehmer mit einem anderen Teilnehmer im Raum Deutsch spricht und nicht mit der Konferenz in Englisch. Die Spracherkennung kann auf Spracherkennungsbibliotheken von Quellen wie Nuance und Microsoft zurückgreifen. In einer anderen Ausführungsform können die erfassten Sprachmerkmale verwendet werden, um ein Modell für maschinelles Lernen (ML) zu trainieren.
Da die Datenerfassung, wie oben beschrieben, die Stimmcharakteristika jedes Benutzers identifiziert, während er aktiv an der Konferenz teilnimmt (spricht), können diese Daten dann von den nachfolgenden Modulen (im Prozessablauf) zum Trainieren der ML-Modelle verwendet werden. Um falsch-positive Ergebnisse zu reduzieren, kann eine Filterung durchgeführt werden, z. B. um Geräusche außerhalb des für Menschen hörbaren Bereichs auszuschließen. Diese Daten werden verwendet, um die Modelle hinsichtlich der Stimmcharakteristiken jedes Benutzers in der Konferenz zu trainieren, was den Modellen hilft, genau zu erkennen, dass der Benutzer tatsächlich an der Konferenz teilnimmt (spricht) und nicht ein Nebengespräch mit jemandem außerhalb der Konferenz führt (z. B. eine Person im selben Raum, die ein Mobiltelefon verwendet, um ein separates Gespräch zu führen, usw.).
2. Modul zur Verarbeitung natürlicher Sprache: In einer Ausführungsform führt ein Prozessor ein Modul aus, das zur Unterstützung des oben in Nr. 1 beschriebenen Moduls für die Sprachmerkmale verwendet wird. Hier verarbeitet und analysiert das Modul zur Verarbeitung natürlicher Sprache das Gespräch in der Konferenz in Echtzeit. Die erfasste Sprache, die an einen bestimmten Teilnehmer der Konferenz gerichtet ist, wird anhand der gesprochenen Namen der Teilnehmer, die während der Konferenz erfasst wurden, identifiziert.
Sobald der Name eines bestimmten Teilnehmers identifiziert ist, z. B. aus der Verwendung während eines Teils der Konferenz, kann eine natürliche Sprachprogrammierung (NLP) verwendet werden, um den Kontext des Satzes zu bestimmen, in dem der Name verwendet wird, und um festzustellen, ob dieser Satz eine Frage ist, die an den Teilnehmer gerichtet ist, oder ob er sich auf einen Nicht-Teilnehmer der Konferenz bezieht. Neben den erfassten Stimmmerkmalen wird diese Bestimmung weiter genutzt, um die Tatsache zu verstärken, dass der Teilnehmer nun aktiv in der Konferenz spricht.
3. Modul zur Analyse und Verarbeitung von Sprachmerkmalen: In einer Ausführungsform führt ein Prozessor eines Servers ein Modul aus, um einen Audiostrom (z. B. Sprache) von einem Endpunkt eines Teilnehmers zu empfangen. Der Strom wird analysiert, vorzugsweise in Echtzeit mit zuvor erfassten Daten, z. B. aus den Sprachmerkmalen und/oder der Verarbeitung natürlicher Sprache.
Wenn der Teilnehmer über einen Softclient (oder Webclient) mit der Konferenz verbunden ist und den Soft-/Webclient verwendet, um sich selbst stumm zu schalten, wird der Datenstrom trotzdem an den Server weitergeleitet, der Server sendet den Strom jedoch nicht an andere Teilnehmer. Daher kann der Teilnehmer zwar stumm sprechen, der Server hat jedoch weiterhin Zugriff auf den Datenstrom, der vom Endpunkt/Terminal des Teilnehmers kommt.
Der Soft-Client führt an seinem Ende eine Überprüfung durch, bevor er die Daten an den Server weitergibt. Das anfängliche Screening kann eine Prüfung beinhalten, die feststellt, ob die Intensität der Sprache über einem bestimmten Schwellenwert liegt, z. B. einer Hörgrenze für Menschen, und Audiosignale herausfiltert, die unter diesem Grenzwert liegen. Signale oberhalb der Grenze werden an den Konferenzserver weitergeleitet.
Wenn ein Teilnehmer stumm spricht, verwendet der Server die vom Soft-Client empfangenen Daten, um sie mit den Basisdaten zu vergleichen, z. B. mit Trainingsdaten und/oder Signalen vom NLP-Modul, um festzustellen, dass der Teilnehmer aktiv in der Konferenz spricht, dies aber stumm tut.
In einer anderen Ausführungsform weist das ML-Modul anhand von Trainingsdaten und dem eingehenden Echtzeit-Stream vom Endpunkt eines Teilnehmers einen Konfidenzwert zu, der die Konfidenz widerspiegelt, dass der Teilnehmer aktiv spricht, um die Sprache in die Konferenz einzubringen, aber stumm geschaltet ist. Als Reaktion darauf, dass die Konfidenz über einem zuvor festgelegten Schwellenwert liegt, wird ein Alarmierungsereignis erstellt und an den Konferenzserver gesendet, z. B. an ein Alarmierungsmodul (siehe unten).
4. Teilnehmer-Alarmierungsmodul: In einer Ausführungsform führt ein Prozessor ein Modul aus, um eine Aktion auszuführen, nachdem er den mit einem Alarmierungsereignis verbundenen Konfidenzwert erhalten hat. Das Modul kann auf der Grundlage des Konfidenzwerts proaktiv Maßnahmen ergreifen, bevor oder um einen manuellen Eingriff zu vermeiden, einschließlich der Feststellung, dass ein aktiver Teilnehmer stumm spricht:
Sehr niedriger Konfidenzwert: Keine Maßnahme ergreifen.
Niedriger Konfidenzwert: Auslösen der Präsentation eines visuellen Indikators durch den Endpunkt des Teilnehmers, der anzeigt, dass er stumm spricht.
Mittel: Auslösen einer akustischen Ansage durch den Endpunkt des Teilnehmers, dass er stumm spricht.
Hoch: Die Stummschaltung des Teilnehmers automatisch aufheben.
Wenn festgestellt wird, dass bereitgestellte Audiodaten, während der Endpunkt nicht stummgeschaltet ist, nicht in die Konferenz aufgenommen werden können, kann die spezifische Vertrauensstufe zu einer bestimmten Aktion führen, einschließlich:
Sehr niedriger Vertrauenswert: Keine Maßnahmen ergreifen.
Niedriger Vertrauenswert: Auslösen der Präsentation eines visuellen und/oder akustischen Hinweises durch den Endpunkt des Teilnehmers, der darauf hinweist, dass er Audio für die Konferenz bereitstellt und möglicherweise stummgeschaltet werden muss.
Mittel: Auslösen der Präsentation eines visuellen und/oder akustischen Hinweises durch den Endpunkt des Teilnehmers, dass er für die Konferenz bereitgestellte Geräusche erzeugt und stumm geschaltet werden sollte, wenn er nicht an der Konferenz teilnimmt.
Hoch: Den Endpunkt des Teilnehmers automatisch stummschalten.
Zusätzlich zur automatischen Bestimmung eines Schwellenwerts für die Stummschaltung kann der Teilnehmer, der Konferenzmoderator oder ein anderer Administrator die Schwellenwerte konfigurieren und/oder die automatische Stummschaltung mit oder ohne Ansagefunktionen deaktivieren, die ankündigen oder darauf hinweisen, dass der Teilnehmer die Stummschaltung seines Endpunkts manuell einleiten sollte. Es kann notwendig oder vorteilhaft sein, die Teilnehmer zu warnen, dass ihr Ton überwacht wird, wenn er stummgeschaltet ist, dass diese Überwachung aber nur dazu dient, festzustellen, ob der Ton, der während der Stummschaltung ausgegeben wird, darauf hinweist, dass die Stummschaltung aufgehoben werden sollte, oder umgekehrt, z. B. in Übereinstimmung mit den Gesetzen/Rechtsvorschriften, die von den lokalen Ländern/Geografien auferlegt werden, in denen die Erfindung verwendet wird.
Registrierung und Identifizierung von Konferenzteilnehmern: In einer Ausführungsform registriert ein Prozessor eines Konferenzservers oder -systems den Teilnehmer zusammen mit dem Endgerät, das der Teilnehmer verwendet, wenn ein Benutzer einer Konferenz beitritt. Dadurch kann der Server zuordnen, dass der Medienstrom (Audio oder Audio-Video), der am Server ankommt, von einem bestimmten Teilnehmer stammt. Wie hierin beschrieben, kann mindestens ein Prozessor des Konferenzservers Komponenten/Module ausführen, um zu bestimmen, ob der Endpunkt eines Teilnehmers automatisch stummgeschaltet werden soll oder ob andere Maßnahmen ergriffen werden sollen, wenn festgestellt wird, dass ein Teilnehmer wahrscheinlich spricht, mit der Absicht, die Sprache in die Konferenz aufzunehmen, aber derzeit stummgeschaltet ist.
Die hierin beschriebenen Ausführungsformen sehen die Analyse der Stimmcharakteristika der Teilnehmer unter Verwendung von NLP/AI vor, die auch maschinelles Lernen, Deep Learning oder andere Techniken der maschinellen Intelligenz und Spracherkennung umfassen kann, um festzustellen, dass der Benutzer nicht in der Konferenz spricht, sondern Audio (z. B. Rauschen, Fremdsprache usw.) zur Konferenz beiträgt, und automatisch geeignete Maßnahmen zu ergreifen, bevor ein manuelles Eingreifen erforderlich ist, wodurch die reichhaltige Benutzererfahrung der Teilnehmer in der Konferenz erhalten bleibt.
Andere Ausführungsformen hierin sehen vor, dass die Stimmcharakteristiken der Teilnehmer mithilfe von NLP/AI und Spracherkennungstechniken analysiert werden, um festzustellen, dass der Benutzer in der Konferenz tatsächlich stumm spricht, und dass das System automatisch entsprechende Maßnahmen ergreift, ohne dass ein manueller Eingriff erforderlich ist. NLP oder andere maschinelle Intelligenz kann verwendet werden, um einen von einem Teilnehmer gesprochenen Satz zu analysieren, der sich an einen anderen Teilnehmer richtet oder auf ihn verweist. Wenn beispielsweise eine Frage an einen anderen Teilnehmer gerichtet wird (z. B. „Schauen wir uns das Dokument an. Hast du es fertig, Alice?“), ist dies eine an Alice gerichtete Frage, und folglich sollte der von Alice verwendete Endpunkt antworten. Ist dies nicht der Fall, kann der Endpunkt automatisch entstummt werden. Wenn der NLP feststellt, dass der Verweis nicht an einen anderen Teilnehmer gerichtet ist (z. B. „Schauen wir uns das von Alice freigegebene Dokument an.“), dann wird von dem von Alice verwendeten Endpunkt nicht erwartet, dass er antwortet, und der aktuelle Stumm-/Nicht Stumm-Schatungsstatus bleibt unverändert.
Verschiedene Ausführungsformen und Aspekte der Ausführungsformen werden offenbart, einschließlich:

In einer Ausführungsform wird ein Konferenzserver offenbart, der Folgendes umfasst:
- Einen Konferenzserver, der Folgendes umfasst: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente, die eine nicht transitorische Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; und wobei der Prozessor beim Zugriff auf maschinenausführbare Befehle den Prozessor veranlasst, Folgendes durchzuführen: Rundsenden von Konferenzinhalt über das Netzwerk an jeden einer Vielzahl von Endpunkten, und wobei der Konferenzinhalt einen Audioteil umfasst, der von einem beitragenden Endpunkt der Vielzahl von Endpunkten empfangen wird; Bestimmen, ob der Audioteil für den Konferenzinhalt fremd ist; und bei der Bestimmung, dass der Audioteil für den Konferenzinhalt fremd ist, Ausführen einer Stummschaltungsaktion, um den Audioteil von dem Konferenzinhalt auszuschließen.
- In einer anderen Ausführungsform wird ein Konferenzserver offenbart, der Folgendes umfasst: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente,
- die eine nicht transitorische Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; und wobei der Prozessor beim Zugriff auf maschinenausführbare Befehle den Prozessor veranlasst, Folgendes durchzuführen:
Rundsenden von Konferenzinhalt über das Netzwerk an jeden einer Vielzahl von Endpunkten, wobei der Konferenzinhalt selektiv einen Audioteil umfasst, der von einem beitragenden Endpunkt der Vielzahl von Endpunkten empfangen wird;
Bestimmen, ob der Audioteil stummgeschaltet ist, wobei der Prozessor den Audioteil von dem beitragenden Endpunkt empfängt und den Audioteil aus dem Konferenzinhalt auslässt; bei der Bestimmung, dass der Audioteil stummgeschaltet ist, Bestimmen, ob der beitragende Endpunkt fälschlicherweise stummgeschaltet ist;
wenn er fälschlicherweise stummgeschaltet ist, Ausführen einer Aufhebungsaktion, um den Audioteil in den Konferenzinhalt aufzunehmen.
In einer anderen Ausführungsform wird ein Verfahren zum Korrigieren einer fehlerhaften Audioeinstellung offenbart, das umfasst: Senden von Konferenzinhalt über ein Netzwerk an jeden einer Vielzahl von Endpunkten, wobei der Konferenzinhalt Audioinhalt umfasst, der von einem oder mehreren der Vielzahl von Endpunkten bereitgestellt wird; Bestimmen, ob ein erster Audioabschnitt des Audioinhalts, der von einem ersten Endpunkt der Vielzahl von Endpunkten empfangen wird, für den Konferenzinhalt irrelevant ist; und bei Feststellung, dass der erste Audioabschnitt für den Konferenzinhalt irrelevant ist, Ausführen einer Stummschaltungsaktion, um den ersten Audioabschnitt von dem Konferenzinhalt auszuschließen.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen den Prozessor, der die Ausführung der Stummschaltungsaktion durchführt, ferner das Signalisieren des beitragenden Endpunkts, um den beitragenden Endpunkt zu veranlassen, eine Stummschaltungsaufforderungsschaltung zu aktivieren.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen den Prozessor, der ferner Folgendes durchführt: Zugreifen auf ein Audioprofil eines Teilnehmers, wobei das Audioprofil die von dem Teilnehmer bereitgestellte Sprache charakterisiert, während er Sprache zum Konferenzinhalt beiträgt.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen schließen den Prozessor ein, der ferner Folgendes durchführt: Zugreifen auf das Audioprofil des Teilnehmers, das mindestens eines der folgenden Merkmale umfasst:
- Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo; und Bestimmen, ob der Audioabschnitt für den Konferenzinhalt irrelevant ist, wobei ferner bestimmt wird,
- dass sich mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioabschnitts von dem mindestens einen der Merkmale Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioprofils unterscheidet.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen den Prozessor, der feststellt, dass der Audioteil für den Konferenzinhalt irrelevant ist, wenn er feststellt, dass mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Klangfarbe oder Sprechtempo des Audioteils von mindestens einem der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Klangfarbe oder Sprechtempo des Audioprofils abweicht und dass der Unterschied größer ist als ein zuvor bestimmter Schwellenwert.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, dass das Audioprofil mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Tonfall oder Sprechtempo umfasst, die aus dem Konferenzinhalt abgetastet werden, der darauf folgt, dass der Teilnehmer von einem anderen Teilnehmer, der einem anderen der mehreren Endpunkte zugeordnet ist, mit seinem Namen angesprochen wird.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, dass der Prozessor feststellt, dass das Audioprofil des Teilnehmers bei der Erkennung des Konferenzinhalts einen Namen umfasst und nach dem Namen Sprache des Teilnehmers zu hören ist.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen, dass der Prozessor ferner Folgendes durchführt: Zugreifen auf ein Audioprofil eines Teilnehmers, wobei das Audioprofil die von dem Teilnehmer gelieferte Sprache in Bezug auf ein Klangattribut charakterisiert, das eine erste gesprochene Sprache umfasst; und Bestimmen, ob der Audioteil für den Konferenzinhalt irrelevant ist,
wobei ferner bestimmt wird, ob der Audioteil eine zweite gesprochene Sprache umfasst.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen beinhalten, dass der Prozessor weiterhin bewirkt, dass jeder der mehreren Endpunkte eine Anzeige der Stummschaltungsaktion, die mit dem beitragenden Endpunkt verbunden ist, darstellt.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, dass der Prozessor die Ausführung der Stummschaltungsaufhebung durchführt, ferner das Signalisieren des beitragenden Endpunkts, um den beitragenden Endpunkt zu veranlassen, eine Aufforderungsschaltung zur Stummschaltungsaufhebung zu aktivieren.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, dass der Audioteil kodierten Ton umfasst und wobei der Prozessor feststellt, dass der beitragende Endpunkt fälschlicherweise stummgeschaltet ist, ferner die Feststellung, dass der kodierte Ton Sprache umfasst.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, dass der Prozessor die Bestimmung durchführt, dass der beitragende Endpunkt fälschlicherweise stummgeschaltet ist, ferner umfassend: bei der Bestimmung, dass der kodierte Ton Sprache umfasst, Zugreifen auf ein Audioprofil eines Teilnehmers, wobei das Audioprofil Sprache charakterisiert, die von dem Teilnehmer bereitgestellt wird, während er Sprache zu dem Konferenzinhalt beiträgt; Bestimmen, ob der Audioabschnitt für den Konferenzinhalt fremd ist, ferner umfassend: Bestimmen, dass mindestens eines von der Sprechlautstärke, der Tonhöhe, dem Tonumfang, dem Tonfall oder dem Sprechtempo des Audioabschnitts von dem mindestens einen von der Sprechlautstärke, der Tonhöhe, dem Tonumfang, dem Tonfall oder dem Sprechtempo des Audioprofils abweicht; und wenn bestimmt wird, dass der Audioabschnitt nicht fremd ist, Durchführen der Stummschaltungsaufhebung.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen, dass der Prozessor die Feststellung durchführt, dass der beitragende Endpunkt fälschlicherweise stummgeschaltet ist, ferner, dass er bei der Feststellung, dass der kodierte Ton Sprache umfasst, die darauf folgt, dass der Teilnehmer von einem anderen Teilnehmer, der einem anderen der mehreren Endpunkte zugeordnet ist, mit Namen angesprochen wird.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, wobei die Stummschaltungsaktion ferner das Signalisieren des beitragenden Endpunkts umfasst, um den beitragenden Endpunkt zu veranlassen, eine Stummschaltungsaufforderungsschaltung zu aktivieren.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen ferner den Zugriff auf ein Audioprofil eines Teilnehmers, wobei das Audioprofil die von dem Teilnehmer gelieferte Sprache charakterisiert, während er Sprache zu dem Konferenzinhalt beiträgt: Zugreifen auf das Audioprofil des Teilnehmers, das mindestens eines der folgenden Merkmale umfasst: Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo; und Bestimmen, ob der Audioabschnitt für den Konferenzinhalt irrelevant ist, ferner umfassend: Bestimmen, dass mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioabschnitts von dem mindestens einen der Merkmale Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioprofils abweicht, und wobei der Unterschied größer ist als ein zuvor bestimmter Schwellenwert.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen den Empfang eines zweiten Audioabschnitts von einem zweiten Endpunkt der Vielzahl von Endpunkten, der stummgeschaltet ist und, wenn er stummgeschaltet ist, aus dem Konferenzinhalt ausgelassen wird; die Bestimmung, ob der zweite Endpunkt fälschlicherweise stummgeschaltet ist; und bei der Bestimmung, dass der zweite Endpunkt fälschlicherweise stummgeschaltet ist, die Ausführung einer Aufhebungsaktion, um den zweiten Audioabschnitt in den Konferenzinhalt aufzunehmen.
Aspekte einer oder mehrerer der vorangehenden Ausführungsformen umfassen, wobei das Ausführen der Stummschaltungsaufhebung ferner das Signalisieren des beitragenden Endpunkts umfasst, um den beitragenden Endpunkt zu veranlassen, eine Aufforderungsschaltung zur Stummschaltungsaufhebung zu aktivieren.
Aspekte einer oder mehrerer der vorstehenden Ausführungsformen umfassen, dass das Bestimmen, ob der Audioteil fälschlicherweise stummgeschaltet ist, ferner umfasst, dass bei der Bestimmung, dass der kodierte Ton Sprache umfasst, die darauf folgt, dass der Teilnehmer von einem anderen Teilnehmer, der einem anderen der mehreren Endpunkte zugeordnet ist, mit Namen angesprochen wird.

Die Ausdrücke „mindestens eines“, „eines oder mehrere“, „oder“ und „und/oder“ sind Ausdrücke mit offenem Ende, die sowohl konjunktiv als auch disjunktiv verwendet werden können. Zum Beispiel bedeutet jeder der Ausdrücke „mindestens eines von A, B und C“, „mindestens eines von A, B oder C“, „eines oder mehrere von A, B und C“, „eines oder mehrere von A, B oder C“, „A, B und/oder C“ und „A, B oder C“ A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen oder A, B und C zusammen. Der Begriff „eine“ oder „eine“ Entität bezieht sich auf eine oder mehrere dieser Entitäten. Daher können die Begriffe „ein“ (oder „ein“), „ein oder mehrere“ und „mindestens ein“ hier austauschbar verwendet werden. Es ist auch zu beachten, dass die Begriffe „umfassend“, „einschließlich“ und „mit“ austauschbar verwendet werden können.
Der Begriff „ein“ oder „eine“ Entität bezieht sich auf eine oder mehrere dieser Einheiten. Als solches können die Ausdrücke „ein“ (oder „eine“), „ein oder mehrere“ und „mindestens eine“ hier austauschbar verwendet werden. Es ist auch anzumerken, dass die Begriffe „umfasst“, „einschließlich“ und „haben“ austauschbar verwendet werden.
Der Begriff „automatisch“ und Variationen davon, wie er hier verwendet wird, bezieht sich auf jeden Prozess oder Vorgang, der typischerweise kontinuierlich oder halbkontinuierlich ist und ohne materielle menschliche Eingabe durchgeführt wird, wenn der Prozess oder Vorgang ausgeführt wird. Ein Prozess oder Vorgang kann jedoch automatisch sein, auch wenn die Durchführung des Prozesses oder Vorgangs materielle oder immaterielle menschliche Eingaben erfordert, wenn die Eingaben vor der Durchführung des Prozesses oder Vorgangs empfangen werden. Menschliche Eingaben gelten als wesentlich, wenn sie die Ausführung des Prozesses oder Vorgangs beeinflussen. Menschlicher Input, der der Durchführung des Prozesses oder Vorgangs zustimmt, gilt nicht als „wesentlich“.
Aspekte der vorliegenden Offenbarung können die Form einer Ausführungsform annehmen, die vollständig aus Hardware besteht, einer Ausführungsform, die vollständig aus Software besteht (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Ausführungsform, die Software- und Hardwareaspekte kombiniert, die hier allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden können. Jede Kombination von einem oder mehreren computerlesbaren Medium(en) kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein, das, wenn es von einem Mikroprozessor gelesen wird, den Mikroprozessor veranlasst, die darin kodierten Anweisungen auszuführen.
Ein computerlesbares Speichermedium kann z. B., aber nicht ausschließlich, ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, ein Apparat oder eine Vorrichtung oder jede geeignete Kombination der vorgenannten sein. Spezifischere Beispiele (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium wären: eine elektrische Verbindung mit einem oder mehreren Drähten, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM oder Flash-Speicher), eine optische Faser, ein tragbarer Compact-Disc-Festwertspeicher (CD-ROM), eine optische Speichervorrichtung, eine magnetische Speichervorrichtung oder jede geeignete Kombination der vorgenannten. Im Kontext dieses Dokuments kann ein computerlesbares Speichermedium jedes greifbare, nicht-übertragbare Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein propagiertes Datensignal mit darin verkörpertem computerlesbarem Programmcode enthalten, zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches übertragenes Signal kann eine beliebige Form annehmen, einschließlich, aber nicht beschränkt auf, elektromagnetische, optische oder eine geeignete Kombination davon. Ein computerlesbares Signalmedium kann jedes computerlesbare Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät kommunizieren, propagieren oder transportieren kann. Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann mit jedem geeigneten Medium übertragen werden, einschließlich, aber nicht beschränkt auf, drahtlos, drahtgebunden, Glasfaserkabel, RF, usw., oder jede geeignete Kombination der vorgenannten.
Die Begriffe „bestimmen“, „berechnen“, „rechnen“ und Variationen davon werden hier austauschbar verwendet und umfassen jede Art von Methodik, Prozess, mathematischer Operation oder Technik.
Der hier verwendete Begriff „Mittel“ ist in Übereinstimmung mit 35 U.S.C., Abschnitt 112(f) und/oder Abschnitt 112, Absatz 6 so weit wie möglich auszulegen. Dementsprechend umfasst ein Anspruch, der den Begriff „Mittel“ enthält, alle hierin dargelegten Strukturen, Materialien oder Handlungen sowie alle Äquivalente davon. Ferner umfassen die Strukturen, Materialien oder Handlungen und deren Äquivalente alle in der Zusammenfassung, der Kurzbeschreibung der Zeichnungen, der detaillierten Beschreibung, der Zusammenfassung und den Ansprüchen selbst beschriebenen.
Das Vorstehende ist eine vereinfachte Zusammenfassung der Erfindung, um ein Verständnis für einige Aspekte der Erfindung zu schaffen. Diese Zusammenfassung ist weder ein umfassender noch ein erschöpfender Überblick über die Erfindung und ihre verschiedenen Ausführungsformen. Es ist weder beabsichtigt, wichtige oder kritische Elemente der Erfindung zu identifizieren noch den Umfang der Erfindung abzugrenzen, sondern ausgewählte Konzepte der Erfindung in vereinfachter Form als Einführung in die nachfolgend dargestellte detailliertere Beschreibung zu präsentieren. Wie zu erkennen sein wird, sind andere Ausführungsformen der Erfindung möglich, die allein oder in Kombination eines oder mehrere der oben dargelegten oder unten im Detail beschriebenen Merkmale verwenden. Auch wenn die Offenbarung in Form von beispielhaften Ausführungsformen dargestellt ist, sollte man sich darüber im Klaren sein, dass ein einzelner Aspekt der Offenbarung separat beansprucht werden kann.
Figurenliste
Die vorliegende Offenbarung wird in Verbindung mit den beigefügten Figuren beschrieben:

1 zeigt ein erstes System in Übereinstimmung mit Ausführungsbeispielen der vorliegenden Offenbarung;
2 zeigt eine erste Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
3 zeigt eine zweite Interaktion in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung;
4 zeigt ein erstes Verfahren in Übereinstimmung mit Ausführungsbeispielen der vorliegenden Offenbarung;
5 zeigt ein zweites Verfahren in Übereinstimmung mit Ausführungsbeispielen der vorliegenden Offenbarung;
6 zeigt eine Datenstruktur in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung; und
7 zeigt ein zweites System in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung.

DETAILLIERTE BESCHREIBUNG
Die nachfolgende Beschreibung enthält nur Ausführungsbeispiele und soll den Umfang, die Anwendbarkeit oder die Ausgestaltung der Ansprüche nicht einschränken. Vielmehr soll die nachfolgende Beschreibung dem Fachmann eine Anleitung zur Umsetzung der Ausführungsformen geben. Es wird davon ausgegangen, dass verschiedene Änderungen in der Funktion und Anordnung der Elemente vorgenommen werden können, ohne vom Geist und Umfang der beigefügten Ansprüche abzuweichen.
Jeder Verweis in der Beschreibung, der eine Elementnummer enthält, ohne einen Unterelementbezeichner, wenn ein Unterelementbezeichner in den Figuren vorhanden ist, soll, wenn er im Plural verwendet wird, auf zwei oder mehr beliebige Elemente mit einer gleichen Elementnummer verweisen. Wenn ein solcher Verweis in der Einzahl verwendet wird, soll er auf eines der Elemente mit der gleichen Elementnummer verweisen, ohne Einschränkung auf ein bestimmtes der Elemente. Jede ausdrückliche gegenteilige Verwendung in diesem Dokument oder eine weitere Qualifizierung oder Identifizierung hat Vorrang.
Die beispielhaften Systeme und Methoden dieser Offenbarung werden auch in Bezug auf Analysesoftware, Module und zugehörige Analyse-Hardware beschrieben. Um die vorliegende Offenbarung jedoch nicht unnötig zu vernebeln, wird in der folgenden Beschreibung auf bekannte Strukturen, Komponenten und Geräte verzichtet, die in den Figuren weggelassen oder vereinfacht dargestellt oder anderweitig zusammengefasst werden können.
Zu Erläuterungszwecken werden zahlreiche Details dargelegt, um ein gründliches Verständnis der vorliegenden Offenbarung zu ermöglichen. Es sollte jedoch beachtet werden, dass die vorliegende Offenbarung auf vielfältige Weise über die hierin dargelegten spezifischen Details hinaus praktiziert werden kann.
1 zeigt das System 100 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. In einer Ausführungsform wird eine Konferenz zwischen den Teilnehmern 102 (z. B. den Teilnehmern 102A-F) eingerichtet und aufrechterhalten, wobei Audio und optional Video, Dokumente, Co-Browsing und/oder andere Medien zu jedem Teilnehmer 102 übertragen werden. Der Audioteil der Konferenz kann Audio in Form von Sprache umfassen, die von einem oder mehreren der Teilnehmer 102 bereitgestellt wird. Es sollte gewürdigt werden, dass die Anzahl der Teilnehmer, die durch Teilnehmer 102 dargestellt wird, nicht begrenzt ist und eine beliebige Anzahl von zwei oder mehr Teilnehmern umfassen kann, wobei mindestens einer der Teilnehmer 102 einen Teil des Audioinhalts der Konferenz bereitstellt oder versucht, diesen bereitzustellen. Wie in Bezug auf die folgenden Ausführungsformen noch näher erläutert wird, kann der Audioinhalt, der zu einem beliebigen Zeitpunkt von einem der Teilnehmer 102 bereitgestellt wird, für die Konferenz irrelevant sein und entfernt werden.
Die Teilnehmer 102 oder zumindest eine von Null abweichende Teilmenge der Teilnehmer 102 empfangen die Konferenz, die von Server 110 über das Netzwerk 106 übertragen wird. Server 110 kann über einen Datenspeicher 112 als nicht-transitorischen Datenspeicher verfügen oder diesen nutzen, auf den mindestens ein Mikroprozessor (oder einfacher: „Prozessor“) des Servers 110 zugreifen kann. Server 110 kann eine eigenständige Komponente sein oder mit anderen Komponenten zusammenarbeiten, z. B. zur Verwaltung der Kommunikation, der Teilnehmerrolle, des Zeitplans, der Empfangs-/Beitragsberechtigungen, der Bodensteuerung und/oder anderer Verwaltungs- und/oder Konnektivitätsfunktionen. Beispielsweise wird das vom Teilnehmer 102A über den Endpunkt 104A empfangene Audio an jeden an der Konferenz teilnehmenden Endpunkt 104 zurückgesendet. Optional kann Audio, das von einem Endpunkt (z. B. Endpunkt 104A) bereitgestellt wird, von der Übertragung ausgeschlossen werden, die dem bereitstellenden Endpunkt (z. B. Endpunkt 104A) zur Verfügung gestellt wird, um ein Echo, eine Rückkopplung oder eine andere Ablenkung für den Teilnehmer 102A zu vermeiden, der seine eigene Stimme hört, die möglicherweise einer Verzögerung unterliegt.
Der Server 110 kann Telefonie- oder andere Kommunikationsgeräte (z. B. Switches, Hubs, Router usw.) umfassen oder darauf zugreifen, um die Übertragung der Konferenz und den Empfang von Teilen des Konferenzinhalts von jedem Teilnehmer 102, der Konferenzinhalte bereitstellt, zu erleichtern. In einer anderen Ausführungsform kann der Server 110 und/oder der Datenspeicher 112 als einer der Endpunkte 104 verkörpert sein.
Der Teilnehmer 102 kann Konferenzinhalte über einen jeweiligen Endpunkt 104 bereitstellen, der kodierte Audiosignale umwandelt, die über das Netzwerk 106 vom Server 110 gesendet werden, und vice versa. Optional können ein oder mehrere Endpunkte 104 auf ähnliche Weise kodierte Videos, Textnachrichten, Dokumente, Co-Browsing-Signale usw. an und/oder von Server 110 bereitstellen. Jeder Endpunkt 104, der so konfiguriert ist, dass er Audio zur Konferenz beiträgt, umfasst und/oder verwendet ein Mikrofon, um mechanische Wellenenergie (z. B. Schall) zu erfassen, z. B. von einem zugehörigen Teilnehmer 102, und wandelt die mechanische Wellenenergie in elektrische Signale um, die weiter in Datenpakete zum Transport über das Netzwerk 106 umgewandelt werden können. Beispiele für einen Endpunkt 104 und ein zugehöriges Mikrofon 108 sind unter anderem die Endpunkte 104A und 104E, die jeweils als Personalcomputer mit angeschlossenem (verdrahtetem oder drahtlosem) Mikrofon 108A bzw. 108E ausgeführt sind; die Endpunkte 104B, 104D und 104E, die jeweils ein integriertes Mikrofon 108B, 108D bzw. 108E verwenden; und der Endpunkt 104C, der ein Mikrofon 108C verwendet, das in einem (verdrahteten oder drahtlosen) Endpunkt 104C eingebaut ist. Fachleute sollten wissen, dass auch andere Mikrofone als Mikrofon 108 verwendet werden können, wie z. B. ein Telefonhörer, der ein verdrahteter (analoger oder digitaler) oder drahtloser (z. B. zellularer, WiFi, Zwei-Wege-Funk, usw.) Endpunkt zum Netzwerk 106 sein kann. In ähnlicher Weise kann der Endpunkt 104 als ein beliebiges Telekommunikationsgerät verkörpert werden, das in der Lage ist, eine Konferenzübertragung vom Server 110 über das Netzwerk 106 zu empfangen und die Konferenz einem zugehörigen Teilnehmer 102 zu präsentieren und optional einen Audioteil zur Aufnahme durch den Server 110 in den Konferenzinhalt bereitzustellen.
Oft wird die Schwierigkeit einer bestimmten Technologie durch die Menschen, die diese Technologie nutzen, eingeführt. Zum Beispiel würden Autos ohne mechanisches Versagen niemals abstürzen, wenn Menschen immer fehlerfrei das Auto und die Umgebung wahrnehmen und entsprechend reagieren würden. In ähnlicher Weise sind Konferenzen oft die Quelle von Frustration, verschwendeten Ressourcen, Missverständnissen und anderen Fehlern, die auf menschliche Fehler zurückzuführen sind. In einer Ausführungsform kann ein bestimmter Teilnehmer 102 in der Annahme sprechen, dass seine Rede in den Konferenzinhalt aufgenommen und den anderen Teilnehmern 102 präsentiert wird. Da er jedoch fälschlicherweise stummgeschaltet ist, weiß die Konferenz nichts von dem versuchten Beitrag. Umgekehrt kann ein bestimmter Teilnehmer 102 einen Ton beisteuern, der für die Konferenz irrelevant ist, aber einbezogen wird. Bei dem Ton kann es sich um Sprache handeln, die an einen anderen, nicht an der Konferenz beteiligten Teilnehmer gerichtet ist, oder um andere unerwünschte Geräusche (z. B. Hintergrundgeräusche, Klopfen, Brummen usw.). Der betreffende Teilnehmer 102 könnte fälschlicherweise glauben, dass er stummgeschaltet ist oder dass das unerwünschte Geräusch nicht vom zugehörigen Mikrofon 108 aufgenommen wird, um in den Konferenzinhalt aufgenommen zu werden. Dies kann dazu führen, dass andere Teilnehmer 102 es als störend empfinden oder Schwierigkeiten haben, den beabsichtigten Konferenzinhalt wahrzunehmen. In den vorangegangenen Beispielen werden häufig Ressourcen verschwendet und der Fluss der Konferenz unterbrochen, da die Teilnehmer 102 versuchen, von der fehlerhaften Audioeinstellung zu erfahren, eine Korrektur vorzunehmen und ggf. den beabsichtigten Audioinhalt zur Einbeziehung in den Konferenzinhalt wieder einzufügen.
2 zeigt die Interaktion 200 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Es sollte verstanden werden, dass die Natur dieser Arbeit es erfordert, dass gesprochene Inhalte und andere Töne, die als Schallwellen oder als kodierte elektrische Signale oder Datenpakete verkörpert sein können, als Text dargestellt werden. Diese Darstellung mittels Text ist nicht zu verwechseln mit tatsächlichem Text (z. B. Text-Chat, Short Message Service (SMS), E-Mail usw.). Während das Senden und Empfangen von Text optional genutzt und in den Konferenzinhalt integriert werden kann, liegt die textbasierte Kommunikation außerhalb des Anwendungsbereichs der hier vorgestellten Ausführungsformen. Außerdem illustriert jede der Interaktionen 200 und 300 (siehe 3) bestimmte Merkmale und Aktionen des Systems 100 und der Komponenten des Systems 100 (siehe 1) und lässt andere Merkmale und Aktionen aus, um die Figur und die zugehörige Beschreibung nicht unnötig zu verkomplizieren.
In einer Ausführungsform präsentiert der Server 110 den Konferenzinhalt 210, der Audioinhalte umfasst, den Teilnehmern 102 über ihren jeweiligen Endpunkt 104. Der Audioteil der Konferenz umfasst Audiobeiträge, die kontinuierlich oder intermittierend von einem oder mehreren Endpunkten 104 und einem zugehörigen oder integrierten Mikrofon 108 stammen.
In einer Ausführungsform liefert der Endpunkt 104A Sprache 202 an den Server 110, der wiederum den Konferenzinhalt 210 sendet, der nun die beigetragene Sprache enthält. In ähnlicher Weise liefert der Endpunkt 104C Sprache 206 an den Server 110, der wiederum den Konferenzinhalt 210, der nun die beigesteuerte Sprache enthält, sendet. Endpunkt 104B liefert Sprache 204 an den Server 110. Wenn Server 110 feststellt, dass Sprache 204 für die Konferenz irrelevant ist, führt er eine Stummschaltung durch, um Sprache 204 aus dem Konferenzinhalt 210 auszuschließen (dargestellt als durchgestrichener Text). Die Feststellung, dass Ton, wie z. B. Sprache 204, für die Konferenz störend ist, wird in den folgenden Ausführungsbeispielen ausführlicher erläutert. In einer Ausführungsform sendet der Server 110 ein Stummschaltungsbenachrichtigungs-/Aktionssignal 208 an den Endpunkt 104B, und als Reaktion darauf aktiviert der Endpunkt 104B eine Benachrichtigungsschaltung oder -logik, um den Teilnehmer 102A aufzufordern, eine Stummschaltungsfunktion des Endpunkts 104B manuell zu aktivieren und/oder eine Stummschaltungsfunktion des Endpunkts 104B automatisch zu aktivieren. In einer Ausführungsform ermöglicht die Stummschaltungsfunktion, dass der Ton weiterhin erfasst und vom Endpunkt 104B an den Server 110 gesendet wird, aber der Server 110 schließt den Ton vom Konferenzinhalt 210 aus.
In anderen Ausführungsformen kann die Stummschaltungsbenachrichtigung/-aktion 208 außerdem beinhalten, dass dem Endpunkt 104B signalisiert wird, dass er stummgeschaltet wurde und/oder allen Endpunkten 104, dass der Endpunkt 104B stummgeschaltet ist. Wenn von Teilnehmer 102B erwartet wird, dass er sich zu Konferenzinhalten äußert, z. B. als Reaktion auf eine Eingabeaufforderung, ist es von Vorteil, wenn
3 zeigt die Interaktion 300 gemäß den Ausführungsformen der vorliegenden Offenbarung. In einer Ausführungsform liefert der Teilnehmer 102D einen Audioteil 312, der Sprache 302 umfasst, an den Server 110, der wiederum den Konferenzinhalt 308 an jeden Endpunkt 104, wie z. B. Endpunkt 104A, sendet. Der Teilnehmer 102A sendet über das Mikrofon 108A und den Endpunkt 104A den Audioteil 314, der z. B. Sprache 304 umfasst, an den Server 110. Der Endpunkt 104A ist jedoch stummgeschaltet, entweder durch den Server 110 oder durch den Endpunkt 104A, und die Sprache 304 würde andernfalls zu einem Konferenzinhalt 308 führen, der den Konferenzteil 306 enthält, der Stille wäre. Um zu vermeiden, dass Sprache 304 aus dem Konferenzinhalt 308 ausgeschlossen wird, während der Endpunkt 104A stummgeschaltet ist, stellt der Server 110 fest, dass der Endpunkt 104A fälschlicherweise stummgeschaltet ist, und führt daraufhin die Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung aus, um zu bewirken, dass Sprache 304 in den Konferenzinhalt 308 aufgenommen wird.
In einer Ausführungsform stellt der Server 110 fest, dass der Endpunkt 104A fälschlicherweise stummgeschaltet ist, weil Sprache 302 speziell an den Teilnehmer 102A gerichtet ist (z. B. eine Frage an „Alice“). Der Server 110 registriert jeden Teilnehmer 102 und den zugehörigen Endpunkt 104, z. B. indem er einen Datensatz von Teilnehmer 102 und Endpunkt 104 im Datenspeicher 112 führt (siehe 1). Dementsprechend kann der Server 110 eine Sprache-zu-Text-Analyse oder eine andere Spracherkennungsoperation durchführen und feststellen, dass ein bestimmter Teilnehmer 102, der mit dem Endpunkt 104A assoziiert ist, einen Namen hat, der in der Sprache 302 angegeben wurde („Alice“) und daher an den Teilnehmer 102A gerichtet ist. Infolgedessen wird erwartet, dass Sprache vom Endpunkt 104A auf die in Sprache 302 bereitgestellte Aufforderung antwortet, und als Reaktion auf die erwartete Sprache wird der stummgeschaltete Endpunkt 104A vom Server 110 in der Aktion 310 zum Aufheben der Stummschaltung/Benachrichtigung aufgeschaltet. In einer anderen Ausführungsform kann der Server 110 dem Endpunkt 104A mit der Entstummungs-/Benachrichtigungsaktion 310 signalisieren, dass der Endpunkt 104A den Entstummungsschritt ausführt, wenn die Stummschaltung durch den Endpunkt 104A durchgeführt wird, und in ähnlicher Weise bewirken, dass die Sprache 304 in den Konferenzinhalt aufgenommen wird. Wie in Bezug auf die folgenden Ausführungsformen näher erläutert wird, können andere Kriterien verwendet werden, um festzustellen, ob ein bestimmter Endpunkt 104 fälschlicherweise stummgeschaltet ist. Ein NLP kann verwendet werden, um anzuzeigen, dass ein Teilnehmer angesprochen wird und eine Antwort erwartet wird (z. B. „Schauen wir uns das Dokument an und übergeben Sie es an Alice.“ „Alice, bitte geh das Dokument durch.“ „Alice, kannst du das Dokument erklären?“ usw.) im Gegensatz zur bloßen Erwähnung eines Teilnehmers (z. B. „Schauen wir uns das Dokument an, das Alice bereitgestellt hat.“ usw.). Wenn eine Antwort erwartet oder angefordert wird, kann die Stummschaltung des angesprochenen Teilnehmers automatisch durchgeführt werden.
In einer Ausführungsform kann die Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung darin bestehen, einen Schaltkreis oder eine Logik des Endpunkts 104A zu aktivieren, um den Teilnehmer 102A zu benachrichtigen, dass er stummgeschaltet ist und/oder den Teilnehmer 102A aufzufordern, die Stummschaltung des Endpunkts 104A manuell aufzuheben. Beispielsweise kann der Endpunkt 104A eine generierte oder aufgezeichnete Nachricht oder einen Ton abspielen und/oder eine visuelle Aufforderung auf einem mit dem Endpunkt 104A verbundenen Display anzeigen (z. B. „Alice, Ihnen wurde eine Frage gestellt und Sie sind stummgeschaltet.“). Als weitere Option kann der Endpunkt 104A die gesamte oder einen Teil der Sprache 302 wiedergeben. Durch die Wiederholung der gesamten oder eines Teils der Sprache 302 wird der Benutzer 102A erneut aufgefordert, eine Antwort zu geben. Wenn der Benutzer 102A eine Antwort gegeben hat, z. B. während er stummgeschaltet war, kann eine Aufnahme der Antwortsprache 304 gemacht werden, die während der Stummschaltung empfangen und in die Konferenz wiedergegeben wurde. Beispielsweise kann Benutzer 102A damit beginnen, Sprache 304 bereitzustellen, indem er ein oder zwei Wörter sagt (z. B. „Für die...“), während Endpunkt 104A stumm geschaltet ist. Nachdem Endpunkt 104A die Stummschaltung aufgehoben hat, kann der Server 110 die Wörter, die nach dem Aufheben der Stummschaltung von Endpunkt 104A bereitgestellt werden, puffern und die aufgezeichnete Sprache, gefolgt von der gepufferten Sprache, als Konferenzinhalt in die Konferenz zurückspielen, bis Sprache 304 live ist. Wenn der Teil der Sprache 304, der während der Stummschaltung bereitgestellt wurde, mehr als ein paar Wörter umfasst (z. B. mehr als zehn Sekunden), kann der Benutzer 102A aufgefordert werden, entweder die Wiedergabe des Teils der Sprache 304 zu initiieren, der während der Stummschaltung bereitgestellt wurde, oder die Sprache 304 erneut zu wiederholen.
In anderen Ausführungsformen kann die Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung den Endpunkt 104A automatisch aufheben, um Sprache 304 als Teil des Konferenzinhalts bereitzustellen. In solchen Ausführungsformen kann die Benachrichtigung/Aktion 310 zum Aufheben der Stummschaltung ferner die Signalisierung des Endpunkts 104A umfassen, wobei das Signal bewirkt, dass nur der Endpunkt 104A eine Benachrichtigung erhält, dass die Stummschaltung aufgehoben ist (z. B. Ton, Nachricht, Popup-Meldung usw.). Als weitere Option können alle Endpunkte 104 über den Ein-Stumm-/Aus-Stumm-Zustand der Endpunkte 104 benachrichtigt werden, und bei einer Änderung wird jeder Endpunkt 104 entsprechend aktualisiert, z. B. mit einer Nachricht (z. B. „Alice ist stummgeschaltet“ oder „Alice ist stummgeschaltet.“) oder einem grafischen Symbol, das eine mit dem Stummschaltzustand verbundene Bedeutung hat. Optional kann die Sprache 304 gepuffert und als Konferenzinhalt 308 wiedergegeben werden, so dass jede Sprache, die vor der Stummschaltungsbenachrichtigung/-aktion 310 bereitgestellt wird, die zur Aufhebung der Stummschaltung des Endpunkts 104A führt, als ununterbrochene Sprache bereitgestellt wird, jedoch mit einer Verzögerung, die durch den Beginn der Sprache 304 und das Auftreten der Stummschaltungsaktion bestimmt wird. In einer solchen Ausführungsform kann die Echtzeitsprache 304 gepuffert werden und nur der gepufferte Inhalt wird als Konferenzinhalt 308 bereitgestellt. Eine anschließende Pause in der Sprache 304 kann die Pufferung beenden und/oder die Echtzeitsprache 304 als Konferenzinhalt 308 bereitstellen, um den Konferenzteilnehmern das beste Erlebnis zu bieten.
4 zeigt den Prozess 400 in Übereinstimmung mit Ausführungsformen der vorliegenden Offenbarung. Der Prozess 400 kann als Algorithmus verkörpert werden, der als maschinenlesbare Anweisungen kodiert ist, die, wenn sie von einem Prozessor, wie z. B. einem Prozessor des Servers 110, gelesen werden, den Prozessor veranlassen, die Schritte des Algorithmus auszuführen. In einer Ausführungsform bestimmt der Prozess 400, dass Audio, das von einem bestimmten Endpunkt 104, der an einer Konferenz teilnimmt, empfangen wird, für die Konferenz irrelevant ist und aus dem Konferenzinhalt ausgeschlossen werden sollte.
In einer Ausführungsform sendet der Prozess 400 in Schritt 402 Konferenzinhalte an die Teilnehmer, z. B. indem der Server 110 die Konferenzinhalte an jeden Endpunkt 104 zur Präsentation an einen zugehörigen Teilnehmer 102 sendet. Schritt 402 initiiert oder setzt die Übertragung von Konferenzinhalten fort und kann kontinuierlich durchgeführt werden, während andere Schritte des Prozesses 400 ausgeführt werden, bis die Konferenz beendet ist. Der Konferenzinhalt umfasst Audio, das in Schritt 404 von einem oder mehreren einzelnen Endpunkten 104 empfangen wurde. Der Test 406 bestimmt, ob das von einem bestimmten Endpunkt 104 empfangene Audio für die Konferenz irrelevant ist, und wenn er negativ ausfällt, wird die Verarbeitung mit Test 410 fortgesetzt. Wenn der Test 406 bejaht wird, fährt die Verarbeitung mit Schritt 408 fort, in dem der von dem bestimmten Endpunkt 104 empfangene Ton stummgeschaltet wird, um den aktuellen und/oder zukünftigen Ton, der von dem Endpunkt empfangen wird, von den Übertragungen in Schritt 402 auszuschließen. Die Stummschaltung kann von einem Prozessor eines Servers durchgeführt werden, wie z. B. dem Server 110, der den Konferenzinhalt bereitstellt, oder durch ein Signal an den bestimmten Endpunkt 104, das, wenn es von den zugehörigen Teilnehmern 102 empfangen wird, die Stummschaltung durchführt. Der Test 410 bestimmt, ob die Konferenz beendet ist, und wenn dies bejaht wird, kann der Prozess 400 beendet werden und die in Schritt 402 eingeleitete/fortgesetzte Übertragung des Konferenzinhalts kann unterbrochen werden, wenn sie nicht bereits beendet wurde, andernfalls kann die Verarbeitung fortgesetzt und zu Schritt 404 zurückgeführt werden.
Der Test 406 kann auf verschiedene Weise ausgeführt werden, um festzustellen, dass der vom bestimmten Endpunkt 104 empfangene Ton für die Konferenz irrelevant ist. Zum Beispiel kann das vom bestimmten Endpunkt 104 empfangene Audio Nicht-Sprachgeräusche oberhalb eines bestimmten Schwellenpegels (Lautstärke) oder einer bestimmten Dauer umfassen. Dazu können Umgebungsgeräusche gehören (z. B. Straßengeräusche, das Klopfen eines Stifts, Bürogeräte, Hintergrundgeräusche im Restaurant, Tiere, Babygeschrei, spielende Kinder usw.) und ausgeschlossen werden, weil sie keine Sprache oder nicht genügend verständliche Sprache enthalten. Das von dem bestimmten Endpunkt 104 empfangene Audio kann Sprache enthalten, aber vom Konferenzinhalt ausgeschlossen werden, da die Sprache als konferenzfremd eingestuft wird. Bei der Sprache kann es sich zum Beispiel um das Rauschen einer Büroumgebung handeln, in der die Sprache anderer ein Rauschen bildet und die Sprache teilweise oder ganz unverständlich ist. Verständliche Sprache kann immer noch als konferenzfremd eingestuft und aus dem Konferenzinhalt ausgeschlossen werden, was in Bezug auf noch genauer erläutert wird.
5 zeigt den Prozess 500 gemäß den Ausführungsformen der vorliegenden Offenbarung. Der Prozess 500 kann als Algorithmus verkörpert werden, der als maschinenlesbare Anweisungen kodiert ist, die, wenn sie von einem Prozessor, wie z. B. einem Prozessor des Servers 110, gelesen werden, den Prozessor veranlassen, die Schritte des Algorithmus auszuführen. In einer Ausführungsform stellt der Prozess 500 fest, dass Audio, das von einem bestimmten Endpunkt 104, der an einer Konferenz teilnimmt, empfangen wird, fälschlicherweise stummgeschaltet ist und in den Konferenzinhalt aufgenommen werden sollte.
In einer Ausführungsform sendet der Prozess 500 in Schritt 502 Konferenzinhalte an die Teilnehmer, z. B. indem der Server 110 die Konferenzinhalte an jeden Endpunkt 104 zur Präsentation an einen zugehörigen Teilnehmer 102 sendet. Schritt 502 initiiert oder setzt die Übertragung von Konferenzinhalten fort und kann kontinuierlich durchgeführt werden, während andere Schritte des Prozesses 500 ausgeführt werden, bis die Konferenz beendet ist. Der Konferenzinhalt umfasst Audio, das in Schritt 504 von einem oder mehreren einzelnen Endpunkten 104 empfangen wird.
Der Test 506 bestimmt, ob das von einem bestimmten Endpunkt 104 empfangene Audio empfangen wird, während der bestimmte Endpunkt 104 stumm geschaltet ist. Wenn der Test 506 negativ ausfällt, fährt der Prozess 500 mit dem Test 512 fort, der feststellt, ob die Konferenz beendet ist. Wenn der Test 512 bejaht wird, kann der Prozess 500 beendet werden, und die in Schritt 502 eingeleitete/fortgesetzte Übertragung des Konferenzinhalts kann unterbrochen werden, wenn sie nicht bereits beendet wurde, andernfalls kann die Verarbeitung fortgesetzt und zu Schritt 504 zurückgeschleift werden. In Schritt 506 kann festgestellt werden, dass das von dem bestimmten Endpunkt 104 empfangene Audiosignal stummgeschaltet ist, nachdem ein Stummschaltungssignal von dem bestimmten Endpunkt 104 empfangen wurde und die Stummschaltung von Server 110 bereitgestellt wurde. In einer anderen Ausführungsform kann die Stummschaltung von dem jeweiligen Endpunkt selbst bereitgestellt werden, wobei der Server 110 ein Signal empfängt, das anzeigt, dass Audio von dem jeweiligen Endpunkt empfangen, aber nicht an den Server 110 weitergeleitet wird, da er auf Stummschaltung steht.
Wenn der Test 506 bejaht wird, bestimmt Test 508, ob die Stummschaltung fehlerhaft ist, und führt, wenn dies bejaht wird, Schritt 510 aus, um eine Aufhebung der Stummschaltung zu veranlassen. Wenn der Test 508 negativ ausfällt, kann die Verarbeitung mit dem Test 512 fortgesetzt werden. Schritt 510 kann die Stummschaltung des vom bestimmten Endpunkt 104 empfangenen Audios aufheben, z. B. wenn die Stummschaltung vom Server 110 durchgeführt wird oder durch Senden eines Signals zum Aufheben der Stummschaltung an den bestimmten Endpunkt 104, woraufhin der bestimmte Endpunkt die Stummschaltung aufhebt.
Die durch den Test 508 durchgeführte Feststellung, dass die Stummschaltung fehlerhaft ist, ist unterschiedlich verkörpert. In einer Ausführungsform hat ein vorhergehender Teil des Konferenzinhalts, z. B. von einem anderen Endpunkt 104 bereitgestellt, den Teilnehmer 102 angesprochen, der mit dem bestimmten Endpunkt 104 verbunden ist, z. B. durch Name, Rolle, Standort usw. In einer anderen Ausführungsform stimmt ein Attribut der Sprache, die im Audio von dem bestimmten Endpunkt 104 bereitgestellt wird, mit einem Sprachattribut innerhalb eines vorher festgelegten Schwellenwerts von vorheriger Sprache des Teilnehmers 102 überein, von dem bekannt ist, dass er Sprache bereitstellt, die in den Konferenzinhalt aufgenommen werden soll, was mit Bezug auf 6 vollständiger diskutiert wird.
In ist die Datenstruktur 600 gemäß den Ausführungsformen der vorliegenden Offenbarung dargestellt. Sprache, die von Menschen bereitgestellt wird, wie z. B. von einem bestimmten Teilnehmer 102, der Sprache zur Aufnahme in einen Konferenzinhalt bereitstellt, kann sich von Sprache, die für andere, nicht konferenzbezogene Inhalte bereitgestellt wird, in Bezug auf Sprachattribute unterscheiden. Beispielsweise kann eine Person, die zu einer Gruppe von entfernten Konferenzteilnehmern spricht, eine bestimmte Sprechweise haben, die sich unterscheidet, wenn sie mit einem Kollegen oder einer anderen Partei von Angesicht zu Angesicht spricht. Diese Sprechweisen können als verschiedene Sprachattribute quantifiziert und verwendet werden, um zu bestimmen, ob die vom Teilnehmer bereitgestellte Sprache für die Aufnahme in den Konferenzinhalt vorgesehen ist oder nicht. In einer Ausführungsform veranschaulicht die Datenstruktur 600 Felder für eine Reihe von Datensätzen, die zur Verwaltung von Sprachattributen für Teilnehmer 102 verwendet werden können, z. B. im Datenspeicher 112 für den Zugriff durch den Server 110.
In einer anderen Ausführungsform umfasst die Datenstruktur 600 das Datensatz-Kennungsfeld 602, z. B. Index, Seriennummer, Kennzeichen des Teilnehmers 102, Kennzeichen des Endpunkts 104 usw. In einer anderen Ausführungsform umfasst der Teilnehmeridentifizierungsblock 604 ein oder mehrere Teilnehmeridentifizierungsfelder 608A-608n. Die Teilnehmer-Kennungsfelder 608A-608n können verwendet werden, um festzuhalten, wie ein bestimmter Teilnehmer 102 angesprochen wird. Beispielsweise können die Teilnehmeridentifikationsfelder 608A-608n einen vollständigen Namen (z. B. „Robert Smith“), einen Vornamen (z. B. „Robert“), einen verkürzten Namen (z. B. „Rob“), eine andere Form der Anrede (z. B., „Bobby“, „Bob“, „Robby“ usw.), Rolle (z. B. „Marketing“, „Marketingabteilung“, „Marketinggruppe“ usw.), Ort (z. B. „Büro Ostküste“, „6. Stock“ usw.). Infolgedessen kann ein anderer Teilnehmer 102, der Konferenzinhalte bereitstellt, bestimmt werden, um einen bestimmten Zielteilnehmer 102 anzusprechen. Zum Beispiel: „Wir werden jetzt von Robert Smith hören“, „Wie läuft es im Büro an der Ostküste?“, „Lass uns von der Marketinggruppe hören“, „Bobbie, kannst du das beantworten“, „Kann jemand aus dem 6. Stock beantworten“ usw. Und als Antwort den Inhalt zuordnen, der mit einem oder mehreren der Teilnehmerkennungsfelder 608A-608n übereinstimmt, und, wenn der zugehörige Endpunkt 104 stummgeschaltet ist, eine Aufhebungsaktion einleiten.
In einer anderen Ausführungsform umfasst der Ton Sprache (z. B. verständliche Sprache) und wird als konferenzfremd eingestuft, wenn festgestellt wird, dass ein Sprachattribut von einem früheren Sprachattribut, das dem Teilnehmer zugeordnet ist, wenn er für die Konferenz bestimmte Sprache bereitstellt, abweicht oder über einen zuvor festgelegten Schwellenwert hinaus abweicht. Die von einem einzelnen Teilnehmer 102 bereitgestellte Sprache kann während eines früheren Ereignisses (z. B. einer früheren Konferenz) oder während eines früheren Teils eines aktuellen Ereignisses (z. B. einer aktuellen Konferenz) empfangen werden. Beispielsweise kann der Teilnehmer 102B einen vorherigen Teil des Konferenzinhalts bereitgestellt haben, z. B. um einen Tagesordnungspunkt einer Besprechung anzusprechen, sich vorzustellen, Fragen zu stellen usw. Die Quelle des Tons, der dem Server 110 zur Verfügung gestellt wird, kann leicht identifiziert werden, indem der Server 110 Datenpakete von dem bestimmten Endpunkt 104 empfängt, der außerdem bei einem zugehörigen Teilnehmer 102 registriert sein kann. Die Schallwellenformen der zuvor bereitgestellten Sprache können quantifiziert werden.
In einer Ausführungsform können die Schallquantifizierungsfelder 606 eine Reihe von Sprechmodus-Datenstrukturen 610A-610n umfassen. Zum Beispiel kann vor Beginn einer Konferenz Sprache von einem bestimmten Mikrofon 108 eines zugehörigen Endpunkts 104 erfasst und an den Server 110 übermittelt werden. Da die Konferenz noch nicht begonnen hat (z. B. Warten auf einen Moderator oder Gastgeber, um die Konferenz zu starten), wie z. B. Sprechen mit einem Kollegen in der Nähe, und solche Sprache kann quantifiziert und zu einer bestimmten Sprechmodus-Datenstruktur 610 hinzugefügt werden, die mit Nicht-Konferenzinhalten verbunden ist. Während der Konferenz kann der bestimmte Teilnehmer 102 einen Konferenzinhalt bereitstellen, wie z. B. für das Sprechen für eine Zeitdauer von mehr als einem Schwellenwert (z. B. fünf Sekunden) bestimmt werden, was mit dem Präsentieren eines Teils des Konferenzinhalts vereinbar wäre. Dementsprechend kann die Sprache quantifiziert und zu einer bestimmten Sprechmodus-Datenstruktur 610 hinzugefügt werden, die dem Konferenzinhalt zugeordnet ist. Wenn Sprache von dem bestimmten Teilnehmer 102 empfangen wird, kann sie anhand individueller Sprachattribute 612A-612n und/oder 614A-614n ausgewertet werden, und wenn sie übereinstimmt, bestimmt die kapselnde Sprechmodus-Datenstruktur 610A-610n den bestimmten Sprechmodus des Teilnehmers 102. Zum Beispiel kann der Abgleich eines oder mehrerer Sprachattribute 612A-612n dann bestimmen, dass der aktuelle Sprechmodus derjenige ist, der der Sprechmodus-Datenstruktur 610A zugeordnet ist. Wenn die assoziierte Sprechmodus-Datenstruktur 610 mit Konferenzinhalten assoziiert ist und der bereitstellende Endpunkt 104 stummgeschaltet ist, kann eine Aufhebungsaktion durchgeführt werden. Wenn die zugehörige Sprechmodus-Datenstruktur 610 mit Nicht-Konferenz-Inhalten verknüpft ist (z. B. Sprechen mit einem Kollegen von Angesicht zu Angesicht) und der bereitstellende Endpunkt 104 nicht stummgeschaltet ist, kann eine Stummschalt-Aktion durchgeführt werden.
Die Sprachattribute 612A-612n...614A-614n enthalten eine Charakterisierung der Sprache (z. B. Wellenform) oder andere Angaben wie Sprechlautstärke, Tonhöhe, Tonumfang, Tonfall oder Sprechgeschwindigkeit. Als weitere Option kann die jeweilige gesprochene Sprache (z. B. Englisch, Deutsch usw.) von Server 110 identifiziert und als Eintrag in den jeweiligen Sprachattributen 612A-612n...614A-614n für die zugehörige Sprechmodus-Datenstruktur 610 gepflegt werden.
In 7 ist das System 700 gemäß den Ausführungsformen der vorliegenden Offenbarung dargestellt. In einer Ausführungsform kann der Endpunkt 104 und/oder der Server 110 ganz oder teilweise als Gerät 702 mit verschiedenen Komponenten und Verbindungen zu anderen Komponenten und/oder Systemen ausgeführt sein. Die Komponenten sind unterschiedlich verkörpert und können den Prozessor 704 umfassen. Der Prozessor 704 kann als ein einzelner elektronischer Mikroprozessor oder ein Multiprozessorgerät (z. B. Multicore) mit Komponenten wie Steuereinheit(en), Eingabe-/Ausgabeeinheit(en), arithmetischer Logikeinheit(en), Register(n), Primärspeicher und/oder anderen Komponenten ausgeführt werden, die auf Informationen (z. B. Daten, Befehle usw.) zugreifen, wie sie über den Bus 714 empfangen werden, Befehle ausführen und Daten ausgeben, wiederum wie über den Bus 714. In anderen Ausführungsformen kann der Prozessor 704 ein gemeinsam genutztes Verarbeitungsgerät umfassen, das von anderen Prozessen und/oder Prozesseigentümern genutzt werden kann, z. B. in einem Verarbeitungsarray oder verteilten Verarbeitungssystem (z. B. „Cloud“, Farm usw.). Es sollte gewürdigt werden, dass der Prozessor 704 ein nicht-transitorisches Rechengerät ist (z. B. eine elektronische Maschine mit Schaltkreisen und Verbindungen zur Kommunikation mit anderen Komponenten und Geräten). Der Prozessor 704 kann einen virtuellen Prozessor betreiben, z. B. um Maschinenbefehle zu verarbeiten, die nicht nativ für den Prozessor sind (z. B. den Code des Intel® 9xx-Chipsatzes übersetzen, um den Chipsatz eines anderen Prozessors oder ein nicht natives Betriebssystem, wie z. B. ein VAX-Betriebssystem auf einem Mac, zu emulieren), jedoch sind solche virtuellen Prozessoren Anwendungen, die von dem zugrundeliegenden Prozessor (z. B. dem Prozessor 704) und dessen Hardware und anderen Schaltungen ausgeführt werden.
Zusätzlich zu den Komponenten des Prozessors 704 kann das Gerät 702 einen Speicher 706 und/oder einen Datenspeicher 708 für die Speicherung von zugänglichen Daten, wie Anweisungen, Werte usw., verwenden. In einer Ausführungsform ist der Datenspeicher 112 ganz oder teilweise als Speicher 706 und/oder Datenspeicher 708 ausgeführt. Die Kommunikationsschnittstelle 710 ermöglicht die Kommunikation mit Komponenten, wie z. B. dem Prozessor 704 über den Bus 714 mit nicht über den Bus 714 zugänglichen Komponenten. Die Kommunikationsschnittstelle 710 kann als ein Netzwerkanschluss, eine Karte, ein Kabel oder ein anderes konfiguriertes Hardwaregerät ausgeführt sein. Zusätzlich oder alternativ wird die menschliche Eingabe-/Ausgabeschnittstelle 712 mit einer oder mehreren Schnittstellenkomponenten verbunden, um Informationen (z. B. Anweisungen, Daten, Werte usw.) zu und/oder von einem menschlichen und/oder elektronischen Gerät zu empfangen und/oder zu präsentieren. Beispiele für Eingabe-/Ausgabegeräte 730, die an die Eingabe-/Ausgabeschnittstelle angeschlossen werden können, sind unter anderem Tastatur, Maus, Trackball, Drucker, Displays, Sensor, Schalter, Relais usw. In einer anderen Ausführungsform kann die Kommunikationsschnittstelle 710 die menschliche Eingabe-/Ausgabeschnittstelle 712 umfassen oder von ihr umfasst sein. Die Kommunikationsschnittstelle 710 kann so konfiguriert sein, dass sie direkt mit einer vernetzten Komponente kommuniziert oder ein oder mehrere Netzwerke nutzt, wie z. B. Netzwerk 720 und/oder Netzwerk 724.
Das Netzwerk 106 kann ganz oder teilweise als Netzwerk 720 verkörpert sein. Das Netzwerk 720 kann ein kabelgebundenes Netzwerk (z. B. Ethernet), ein drahtloses Netzwerk (z. B. WiFi, Bluetooth, Mobilfunk usw.) oder eine Kombination davon sein und ermöglicht dem Gerät 702 die Kommunikation mit der/den Netzwerkkomponente(n) 722. In anderen Ausführungsformen kann das Netzwerk 720 ganz oder teilweise als Telefonnetz (z. B. öffentliches Telefonnetz (PSTN), Nebenstellenanlage (PBX), Mobilfunknetz usw.) ausgeführt sein.
Zusätzlich oder alternativ können ein oder mehrere andere Netzwerke verwendet werden. Beispielsweise kann das Netzwerk 724 ein zweites Netzwerk darstellen, das die Kommunikation mit den vom Gerät 702 verwendeten Komponenten ermöglicht. Das Netzwerk 724 kann beispielsweise ein internes Netzwerk einer Geschäftseinheit oder einer anderen Organisation sein, wobei den Komponenten vertraut wird (oder zumindest mehr) als den vernetzten Komponenten 722, die mit dem Netzwerk 720 verbunden sein können, das ein öffentliches Netzwerk (z. B. das Internet) umfasst, das möglicherweise nicht so vertrauenswürdig ist.
Zu den an das Netzwerk 724 angeschlossenen Komponenten können Speicher 726, Datenspeicher 728, Eingabe-/Ausgabegerät(e) 730 und/oder andere Komponenten gehören, auf die der Prozessor 704 zugreifen kann. Beispielsweise kann der Speicher 726 und/oder der Datenspeicher 728 den Speicher 706 und/oder den Datenspeicher 708 ganz oder für eine bestimmte Aufgabe oder einen bestimmten Zweck ergänzen oder ersetzen. Beispielsweise kann der Speicher 726 und/oder der Datenspeicher 728 ein externer Datenspeicher sein (z. B. eine Serverfarm, ein Array, eine „Cloud“ usw.) und es dem Gerät 702 und/oder anderen Geräten ermöglichen, auf die darauf befindlichen Daten zuzugreifen. In ähnlicher Weise kann der Prozessor 704 über die menschliche Eingabe-/Ausgabeschnittstelle 712 und/oder über die Kommunikationsschnittstelle 710 entweder direkt, über das Netzwerk 724, allein über das Netzwerk 720 (nicht dargestellt) oder über die Netzwerke 724 und 720 auf die Eingabe-/Ausgabevorrichtung(en) 730 zugreifen. Jeder der Speicher 706, der Datenspeicher 708, der Speicher 726 und der Datenspeicher 728 umfassen einen nicht-transitorischen Datenspeicher, der eine Datenspeichereinrichtung umfasst.
Es sollte beachtet werden, dass computerlesbare Daten von einer Vielzahl von Komponenten gesendet, empfangen, gespeichert, verarbeitet und dargestellt werden können. Es sollte auch beachtet werden, dass die dargestellten Komponenten andere Komponenten steuern können, unabhängig davon, ob sie hier dargestellt sind oder nicht. Beispielsweise kann eine Eingangs-/Ausgangsvorrichtung 730 ein Router, ein Switch, ein Port oder eine andere Kommunikationskomponente sein, so dass ein bestimmter Ausgang des Prozessors 704 die Eingangs-/Ausgangsvorrichtung 730, die mit dem Netzwerk 720 und/oder dem Netzwerk 724 verbunden sein kann, aktiviert (oder deaktiviert), um die Kommunikation zwischen zwei oder mehreren Knoten im Netzwerk 720 und/oder im Netzwerk 724 zu ermöglichen (oder zu verbieten). Gewöhnliche Fachleute wissen, dass andere Kommunikationsgeräte zusätzlich oder alternativ zu den hier beschriebenen verwendet werden können, ohne vom Anwendungsbereich der Ausführungsformen abzuweichen.
In der vorangegangenen Beschreibung wurden die Methoden zum Zweck der Veranschaulichung in einer bestimmten Reihenfolge beschrieben. Es sollte beachtet werden, dass in alternativen Ausführungsformen die Methoden in einer anderen Reihenfolge als der beschriebenen ausgeführt werden können, ohne dass dies vom Umfang der Ausführungsformen abweicht. Es sollte auch beachtet werden, dass die oben beschriebenen Methoden als Algorithmen ausgeführt werden können, die von Hardware-Komponenten (z. B. Schaltkreisen) ausgeführt werden, die speziell für die Ausführung eines oder mehrerer der hier beschriebenen Algorithmen oder Teile davon entwickelt wurden. In einer anderen Ausführungsform kann die Hardwarekomponente einen Allzweck-Mikroprozessor (z. B. CPU, GPU) umfassen, der zunächst in einen Mikroprozessor für spezielle Zwecke umgewandelt wird. In den Spezial-Mikroprozessor werden dann kodierte Signale geladen, die bewirken, dass der nunmehrige Spezial-Mikroprozessor maschinenlesbare Befehle erhält, um den Mikroprozessor in die Lage zu versetzen, den maschinenlesbaren Satz von Befehlen zu lesen und auszuführen, die von den hierin beschriebenen Algorithmen und/oder anderen Befehlen abgeleitet sind. Die maschinenlesbaren Anweisungen, die zur Ausführung des/der Algorithmus(s) oder von Teilen davon verwendet werden, sind nicht unbegrenzt, sondern verwenden einen endlichen Satz von Anweisungen, die dem Mikroprozessor bekannt sind. Die maschinenlesbaren Befehle können im Mikroprozessor als Signale oder Werte in signalerzeugenden Komponenten kodiert werden und umfassen in einer oder mehreren Ausführungsformen Spannungen in Speicherschaltungen, Konfiguration von Schaltkreisen und/oder durch selektive Verwendung bestimmter Logikgatterschaltungen. Zusätzlich oder alternativ können die maschinenlesbaren Anweisungen für den Mikroprozessor zugänglich sein und in einem Medium oder Gerät als Magnetfelder, Spannungswerte, Ladungswerte, reflektierende/nicht reflektierende Teile und/oder physikalische Zeichen kodiert sein.
In einer anderen Ausführungsform umfasst der Mikroprozessor ferner einen oder mehrere von einem einzelnen Mikroprozessor, einem Multi-Core-Prozessor, einer Vielzahl von Mikroprozessoren, einem verteilten Verarbeitungssystem (z. B. Array(s), Blade(s), Serverfarm(s), „Cloud“, Mehrzweck-Prozessor-Array(s), Cluster(s) usw.) und/oder kann mit einem Mikroprozessor, der andere Verarbeitungsvorgänge durchführt, zusammen untergebracht sein. Ein oder mehrere Mikroprozessoren können in ein einzelnes Verarbeitungsgerät (z. B. Computer, Server, Blade usw.) integriert sein oder sich ganz oder teilweise in einer diskreten Komponente befinden, die über eine Kommunikationsverbindung (z. B. Bus, Netzwerk, Backplane usw. oder eine Vielzahl davon) verbunden ist.
Beispiele für Allzweck-Mikroprozessoren können eine zentrale Verarbeitungseinheit (CPU) mit Datenwerten umfassen, die in einem Befehlsregister (oder einer anderen Schaltung, die Befehle aufbewahrt) kodiert sind, oder Datenwerte, die Speicherplätze umfassen, die wiederum Werte enthalten, die als Befehle verwendet werden. Die Speicherplätze können ferner einen Speicherplatz umfassen, der sich außerhalb der CPU befindet. Solche CPU-externen Komponenten können als eines oder mehrere von einem Field-Programmable Gate Array (FPGA), Festwertspeicher (ROM), programmierbarer Festwertspeicher (PROM), löschbarer programmierbarer Festwertspeicher (EPROM), Direktzugriffsspeicher (RAM), buszugänglicher Speicher, netzwerkzugänglicher Speicher usw. verkörpert sein.
Diese maschinenausführbaren Befehle können auf einem oder mehreren maschinenlesbaren Medien gespeichert werden, z. B. auf CD-ROMs oder anderen Arten von optischen Disks, Disketten, ROMs, RAMs, EPROMs, EEPROMs, magnetischen oder optischen Karten, Flash-Speicher oder anderen Arten von maschinenlesbaren Medien, die zum Speichern von elektronischen Befehlen geeignet sind. Alternativ können die Verfahren auch durch eine Kombination aus Hardware und Software durchgeführt werden.
In einer anderen Ausführungsform kann ein Mikroprozessor ein System oder eine Sammlung von Verarbeitungs-Hardwarekomponenten sein, z. B. ein Mikroprozessor auf einem Client-Gerät und ein Mikroprozessor auf einem Server, eine Sammlung von Geräten mit ihrem jeweiligen Mikroprozessor oder ein gemeinsam genutzter oder entfernter Verarbeitungsdienst (z. B. ein „Cloud“-basierter Mikroprozessor). Ein System von Mikroprozessoren kann eine aufgabenspezifische Zuweisung von Verarbeitungsaufgaben und/oder gemeinsam genutzte oder verteilte Verarbeitungsaufgaben umfassen. In einer weiteren Ausführungsform kann ein Mikroprozessor Software ausführen, um die Dienste zur Emulation eines anderen Mikroprozessors oder anderer Mikroprozessoren bereitzustellen. Infolgedessen kann ein erster Mikroprozessor, der aus einem ersten Satz von Hardwarekomponenten besteht, virtuell die Dienste eines zweiten Mikroprozessors bereitstellen, wobei die dem ersten Mikroprozessor zugeordnete Hardware mit einem dem zweiten Mikroprozessor zugeordneten Befehlssatz arbeiten kann.
Während maschinenausführbare Anweisungen lokal auf einer bestimmten Maschine (z. B. einem Personalcomputer, einem mobilen Computer, einem Laptop usw.) gespeichert und ausgeführt werden können, kann die Speicherung von Daten und/oder Anweisungen und/oder die Ausführung mindestens eines Teils der Anweisungen über eine Verbindung zu einer entfernten Datenspeicher- und/oder Verarbeitungsvorrichtung oder einer Sammlung von Vorrichtungen erfolgen, die allgemein als „die Cloud“ bekannt ist, aber auch ein öffentliches, privates, dediziertes, gemeinsam genutztes und/oder anderes Servicebüro, einen Computerdienst und/oder eine „Serverfarm“ umfassen kann.
Beispiele für die hier beschriebenen Mikroprozessoren sind unter anderem mindestens einer der folgenden: Qualcomm® Snapdragon® 800 und 801, Qualcomm® Snapdragon® 610 und 615 mit 4G LTE-Integration und 64-Bit-Computing, Apple® A7-Mikroprozessor mit 64-Bit-Architektur, Apple® M7-Mikroprozessoren, Samsung® Exynos®-Serie, die Intel® Core™-Mikroprozessorfamilie, die Intel® Xeon®-Mikroprozessorfamilie, die Intel® Atom™-Mikroprozessorfamilie, die Intel Itanium®-Mikroprozessorfamilie, Intel® Core® i5-4670K und i7-4770K 22nm Haswell, Intel® Core® i5-3570K 22nm Ivy Bridge, die AMD® FX™ Mikroprozessorfamilie, AMD® FX-4300, FX-6300 und FX-8350 32nm Vishera, AMD@ Kaveri Mikroprozessoren, Texas Instruments® Jacinto C6000™ Automotive Infotainment Mikroprozessoren, Texas Instruments® OMAP™ automotive-grade mobile Mikroprozessoren, ARM® Cortex™-M-Mikroprozessoren, ARM® Cortex-A und ARM926EJ-S™-Mikroprozessoren, andere industrieäquivalente Mikroprozessoren, und können Rechenfunktionen unter Verwendung aller bekannten oder zukünftig entwickelten Standards, Befehlssätze, Bibliotheken und/oder Architekturen ausführen.
Alle hier beschriebenen Schritte, Funktionen und Vorgänge können kontinuierlich und automatisch ausgeführt werden.
Die beispielhaften Systeme und Verfahren der vorliegenden Erfindung wurden in Bezug auf Kommunikationssysteme und -komponenten und Verfahren zur Überwachung, Verbesserung und Verschönerung von Kommunikationen und Nachrichten beschrieben. Um die vorliegende Erfindung jedoch nicht unnötig zu vernebeln, werden in der vorangegangenen Beschreibung eine Reihe bekannter Strukturen und Vorrichtungen weggelassen. Diese Auslassung ist nicht als eine Einschränkung des Umfangs der beanspruchten Erfindung zu verstehen. Spezifische Details werden dargelegt, um ein Verständnis der vorliegenden Erfindung zu ermöglichen. Es sollte jedoch geschätzt werden, dass die vorliegende Erfindung in einer Vielzahl von Möglichkeiten über die hier dargelegten spezifischen Details hinaus praktiziert werden kann.
Während die hier dargestellten beispielhaften Ausführungsformen die verschiedenen Komponenten des Systems zusammen zeigen, können sich bestimmte Komponenten des Systems auch an entfernten Stellen eines verteilten Netzwerks, wie z. B. einem LAN und/oder dem Internet, oder innerhalb eines dedizierten Systems befinden. Es sollte daher gewürdigt werden, dass die Komponenten oder Teile davon (z. B. Mikroprozessoren, Speicher, Schnittstellen usw.) des Systems in einem oder mehreren Geräten kombiniert werden können, wie z. B. einem Server, Servern, Computer, Rechengerät, Terminal, einer „Cloud“ oder einer anderen verteilten Verarbeitung, oder an einem bestimmten Knoten eines verteilten Netzwerks, wie z. B. einem analogen und/oder digitalen Telekommunikationsnetzwerk, einem paketvermittelten Netzwerk oder einem leitungsvermittelten Netzwerk, kollokiert sein können. In einer anderen Ausführungsform können die Komponenten physisch oder logisch über eine Vielzahl von Komponenten verteilt sein (z. B. kann ein Mikroprozessor einen ersten Mikroprozessor auf einer Komponente und einen zweiten Mikroprozessor auf einer anderen Komponente umfassen, die jeweils einen Teil einer gemeinsamen Aufgabe und/oder einer zugewiesenen Aufgabe ausführen). Aus der vorangegangenen Beschreibung und aus Gründen der Recheneffizienz wird ersichtlich, dass die Komponenten des Systems an einem beliebigen Ort innerhalb eines verteilten Netzwerks von Komponenten angeordnet werden können, ohne den Betrieb des Systems zu beeinträchtigen. Beispielsweise können sich die verschiedenen Komponenten in einer Vermittlungsstelle wie einer Telefonanlage und einem Medienserver, einem Gateway, in einem oder mehreren Kommunikationsgeräten, bei einem oder mehreren Benutzern oder einer Kombination davon befinden. In ähnlicher Weise könnten ein oder mehrere funktionale Teile des Systems zwischen einem oder mehreren Telekommunikationsgeräten und einem zugehörigen Computergerät verteilt sein.
Darüber hinaus ist zu beachten, dass die verschiedenen Verbindungen, die die Elemente miteinander verbinden, drahtgebundene oder drahtlose Verbindungen oder eine beliebige Kombination davon sein können, oder jedes andere bekannte oder später entwickelte Element, das in der Lage ist, Daten zu und von den verbundenen Elementen zu liefern und/oder zu kommunizieren. Diese verdrahteten oder drahtlosen Verbindungen können auch sichere Verbindungen sein und können in der Lage sein, verschlüsselte Informationen zu übertragen. Als Übertragungsmedien für die Verbindungen können z. B. alle geeigneten Träger für elektrische Signale verwendet werden, einschließlich Koaxialkabel, Kupferdraht und Lichtwellenleiter, und sie können die Form von akustischen oder Lichtwellen annehmen, wie sie bei der Datenkommunikation über Funkwellen und Infrarot erzeugt werden.
Auch wenn die Flussdiagramme in Bezug auf eine bestimmte Abfolge von Ereignissen erörtert und illustriert wurden, sollte beachtet werden, dass Änderungen, Ergänzungen und Auslassungen dieser Abfolge auftreten können, ohne den Betrieb der Erfindung wesentlich zu beeinflussen.
Eine Reihe von Variationen und Modifikationen der Erfindung können verwendet werden. Es wäre möglich, einige Merkmale der Erfindung vorzusehen, ohne andere vorzusehen.
In einer weiteren Ausführungsform können die Systeme und Methoden dieser Erfindung in Verbindung mit einem Spezialcomputer, einem programmierten Mikroprozessor oder Mikrocontroller und peripheren integrierten Schaltungselementen, einem ASIC oder einer anderen integrierten Schaltung, einem Digitalsignal-Mikroprozessor, einer fest verdrahteten elektronischen oder logischen Schaltung, wie z. B. einer Schaltung mit diskreten Elementen, einem programmierbaren Logikbaustein oder Gate-Array, wie z. B. PLD, PLA, FPGA, PAL, einem Spezialcomputer, einem vergleichbaren Mittel oder dergleichen implementiert werden. Im Allgemeinen kann jede Vorrichtung oder jedes Mittel, das in der Lage ist, die hierin dargestellte Methodik zu implementieren, verwendet werden, um die verschiedenen Aspekte dieser Erfindung zu implementieren. Beispielhafte Hardware, die für die vorliegende Erfindung verwendet werden kann, umfasst Computer, Handheld-Geräte, Telefone (z. B. zellulare, internetfähige, digitale, analoge, hybride und andere) und andere im Stand der Technik bekannte Hardware. Einige dieser Geräte umfassen Mikroprozessoren (z. B. einen einzelnen oder mehrere Mikroprozessoren), Speicher, nichtflüchtige Speicher, Eingabegeräte und Ausgabegeräte. Darüber hinaus können auch alternative Software-Implementierungen, einschließlich, aber nicht beschränkt auf, verteilte Verarbeitung oder komponenten-/objektverteilte Verarbeitung, parallele Verarbeitung oder Verarbeitung mit virtuellen Maschinen, konstruiert werden, um die hierin beschriebenen Methoden zu implementieren, wie sie von einer oder mehreren Verarbeitungskomponenten bereitgestellt werden.
In einer weiteren Ausführungsform können die offengelegten Methoden leicht in Verbindung mit Software unter Verwendung von objekt- oder objektorientierten Softwareentwicklungsumgebungen implementiert werden, die portablen Quellcode bereitstellen, der auf einer Vielzahl von Computer- oder Workstation-Plattformen verwendet werden kann. Alternativ kann das offengelegte System teilweise oder vollständig in Hardware unter Verwendung von Standard-Logikschaltungen oder VLSI-Design implementiert werden. Ob Software oder Hardware verwendet wird, um die Systeme gemäß dieser Erfindung zu implementieren, ist abhängig von den Geschwindigkeits- und/oder Effizienzanforderungen des Systems, der jeweiligen Funktion und den jeweiligen Software- oder Hardwaresystemen oder Mikroprozessor- oder Mikrocomputersystemen, die verwendet werden.
In einer weiteren Ausführungsform können die offengelegten Methoden teilweise in Software implementiert werden, die auf einem Speichermedium gespeichert und auf einem programmierten Universalcomputer unter Mitwirkung eines Controllers und eines Speichers, eines Spezialcomputers, eines Mikroprozessors oder dergleichen ausgeführt werden kann. In diesen Fällen können die Systeme und Methoden dieser Erfindung als ein auf einem Personalcomputer eingebettetes Programm, wie z. B. ein Applet, JAVA®- oder CGI-Skript, als eine auf einem Server oder einer Computer-Workstation befindliche Ressource, als eine in ein dediziertes Messsystem, eine Systemkomponente oder ähnliches eingebettete Routine implementiert werden. Das System kann auch durch physische Einbindung des Systems und/oder der Methode in ein Software- und/oder Hardwaresystem implementiert werden.
Die hierin enthaltenen Ausführungsformen, die Software umfassen, werden von einem oder mehreren Mikroprozessoren ausgeführt oder zur späteren Ausführung gespeichert und als ausführbarer Code ausgeführt. Der ausführbare Code wird ausgewählt, um Befehle auszuführen, die die bestimmte Ausführungsform umfassen. Bei den ausgeführten Befehlen handelt es sich um einen eingeschränkten Satz von Befehlen, die aus dem diskreten Satz nativer Befehle ausgewählt werden, die der Mikroprozessor versteht und die vor der Ausführung in einem für den Mikroprozessor zugänglichen Speicher abgelegt werden. In einer anderen Ausführungsform wird menschenlesbare „Quellcode“-Software vor der Ausführung durch den einen oder die mehreren Mikroprozessoren zunächst in Systemsoftware umgewandelt, um einen plattformspezifischen (z. B. Computer, Mikroprozessor, Datenbank usw.) Satz von Anweisungen zu umfassen, die aus dem nativen Befehlssatz der Plattform ausgewählt werden.
Obwohl die vorliegende Erfindung Komponenten und Funktionen, die in den Ausführungsformen implementiert sind, unter Bezugnahme auf bestimmte Standards und Protokolle beschreibt, ist die Erfindung nicht auf solche Standards und Protokolle beschränkt. Andere ähnliche Standards und Protokolle, die hier nicht erwähnt werden, sind vorhanden und gelten als in der vorliegenden Erfindung enthalten. Darüber hinaus werden die hierin erwähnten Standards und Protokolle und andere ähnliche Standards und Protokolle, die hierin nicht erwähnt sind, periodisch durch schnellere oder effektivere Äquivalente ersetzt, die im Wesentlichen die gleichen Funktionen haben. Solche Ersatzstandards und -protokolle, die die gleichen Funktionen haben, werden als Äquivalente betrachtet, die in der vorliegenden Erfindung enthalten sind.
Die vorliegende Erfindung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten Komponenten, Verfahren, Prozesse, Systeme und/oder Vorrichtungen im Wesentlichen wie hierin dargestellt und beschrieben, einschließlich verschiedener Ausführungsformen, Unterkombinationen und Teilmengen davon. Der Fachmann wird nach dem Verständnis der vorliegenden Offenbarung verstehen, wie die vorliegende Erfindung herzustellen und zu verwenden ist. Die vorliegende Erfindung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten die Bereitstellung von Vorrichtungen und Verfahren in Abwesenheit von Elementen, die hier nicht dargestellt und/oder beschrieben sind, oder in verschiedenen Ausführungsformen, Konfigurationen oder Aspekten davon, einschließlich in Abwesenheit solcher Elemente, die möglicherweise in früheren Vorrichtungen oder Verfahren verwendet wurden, z. B. zur Verbesserung der Leistung, zur Erzielung von Einfachheit und zur Verringerung der Kosten der Implementierung.
Die vorstehende Erörterung der Erfindung wurde zum Zwecke der Veranschaulichung und Beschreibung dargestellt. Das Vorstehende soll die Erfindung nicht auf die hierin offenbarte(n) Form(en) beschränken. In der vorstehenden detaillierten Beschreibung sind beispielsweise verschiedene Merkmale der Erfindung in einer oder mehreren Ausführungsformen, Konfigurationen oder Aspekten zusammengefasst, um die Offenbarung zu vereinfachen. Die Merkmale der Ausführungsformen, Konfigurationen oder Aspekte der Erfindung können in alternativen Ausführungsformen, Konfigurationen oder Aspekten kombiniert werden, die nicht in der obigen Beschreibung aufgeführt sind. Diese Art der Offenbarung ist nicht so zu verstehen, dass die beanspruchte Erfindung mehr Merkmale erfordert, als in den einzelnen Ansprüchen ausdrücklich angegeben sind. Vielmehr liegen erfinderische Aspekte, wie die folgenden Ansprüche widerspiegeln, in weniger als allen Merkmalen einer einzelnen zuvor offenbarten Ausführungsform, Konfiguration oder eines Aspekts. Daher werden die folgenden Ansprüche hiermit in diese ausführliche Beschreibung aufgenommen, wobei jeder Anspruch für sich allein als eine separate bevorzugte Ausführungsform der Erfindung steht.
Obwohl in der Beschreibung der Erfindung eine oder mehrere Ausführungsformen, Konfigurationen oder Aspekte sowie bestimmte Variationen und Modifikationen beschrieben sind, fallen auch andere Variationen, Kombinationen und Modifikationen in den Anwendungsbereich der Erfindung, z. B. solche, die nach dem Verständnis der vorliegenden Offenbarung dem Fachmann bekannt sein könnten. Es ist beabsichtigt, Rechte zu erlangen, die alternative Ausführungsformen, Konfigurationen oder Aspekte umfassen, soweit dies zulässig ist, einschließlich alternativer, austauschbarer und/oder äquivalenter Strukturen, Funktionen, Bereiche oder Schritte zu den beanspruchten, unabhängig davon, ob solche alternativen, austauschbaren und/oder äquivalenten Strukturen, Funktionen, Bereiche oder Schritte hier offenbart sind oder nicht, und ohne die Absicht, irgendeinen patentierbaren Gegenstand öffentlich zu widmen.

Claims

Konferenzserver, umfassend: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente, die eine nichtflüchtige Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; wobei der Prozessor beim Zugreifen auf maschinenausführbare Anweisungen den Prozessor veranlasst, Folgendes auszuführen: Rundsenden von Konferenzinhalten über das Netzwerk an jeden einer Vielzahl von Endpunkten und wobei die Konferenzinhalte einen Audioteil umfassen, der von einem beitragenden Endpunkt der Vielzahl von Endpunkten empfangen wird; Bestimmen, ob der Audioteil für den Konferenzinhalt irrelevant ist, und bei der Feststellung, dass der Audioteil für den Konferenzinhalt irrelevant ist, Ausführen einer Stummschaltaktion, um den Audioteil vom Konferenzinhalt auszuschließen.
Konferenzserver nach Anspruch 1, wobei der Prozessor das Ausführen der Stummschaltaktion durchführt, ferner umfassend, dem beitragenden Endpunkt zu signalisieren, um ihn zu veranlassen, eine Stummschaltaufforderungsschaltung zu aktivieren.
Konferenzserver nach Anspruch 1, wobei der Prozessor ferner ausführt: Zugreifen auf ein Audioprofil eines Teilnehmers, wobei das Audioprofil die Sprache charakterisiert, die von dem Teilnehmer bereitgestellt wird, während er Sprache zu dem Konferenzinhalt beiträgt.
Konferenzserver nach Anspruch 3, wobei der Prozessor ferner ausführt: Zugriff auf das Audioprofil des Teilnehmers, das mindestens eines der folgenden Merkmale umfasst: Sprechlautstärke, Tonhöhe, Tonumfang, Tonfall oder Sprechtempo; und Bestimmen, ob der Audioteil dem Konferenzinhalt fremd ist, ferner umfassend das Bestimmen, dass mindestens eines von Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioteils von dem mindestens einen von Sprechlautstärke, Tonhöhe, Bereich, Ton oder Sprechtempo des Audioprofils abweicht.
Konferenzserver nach Anspruch 3, wobei der Prozessor feststellt, dass der Audioteil für den Konferenzinhalt irrelevant ist, wenn er feststellt, dass mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Klangfarbe oder Sprechtempo des Audioteils von mindestens einem der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Klangfarbe oder Sprechtempo des Audioprofils abweicht und dass der Unterschied größer ist als ein zuvor bestimmter Schwellenwert.
Konferenzserver nach Anspruch 4, wobei das Audioprofil mindestens eines der Merkmale Sprechlautstärke, Tonhöhe, Tonumfang, Tonfall oder Sprechtempo umfasst, wie sie aus dem Konferenzinhalt abgetastet werden, der darauf folgt, dass der Teilnehmer von einem anderen Teilnehmer, der mit einem anderen aus der Vielzahl der Endpunkte verbunden ist, mit seinem Namen angesprochen wird.
Konferenzserver nach Anspruch 3, wobei der Prozessor feststellt, dass das Audioprofil des Teilnehmers beim Erkennen des Konferenzinhalts einen Namen umfasst und nach dem Namen Sprache des Teilnehmers zu hören ist.
Konferenzserver nach Anspruch 1, wobei der Prozessor ferner ausführt: Zugreifen auf ein Audioprofil eines Teilnehmers, wobei in dem Audioprofil die von dem Teilnehmer gelieferte Sprache in Bezug auf ein Klangattribut charakterisiert wird, das eine erste gesprochene Sprache umfasst; und Bestimmen, ob der Audioteil dem Konferenzinhalt fremd ist, weiterhin umfassend das Bestimmen, ob der Audioteil eine zweite gesprochene Sprache umfasst.
Konferenzserver nach Anspruch 1, wobei der Prozessor ferner bewirkt, dass jeder der Mehrzahl von Endpunkten Hinweise auf die dem beitragenden Endpunkt zugeordnete Stummschaltaktion präsentiert.
Konferenzserver, umfassend: eine Netzwerkschnittstelle zu einem Netzwerk; eine Speicherkomponente, die eine nichtflüchtige Speichervorrichtung umfasst; einen Prozessor, der mindestens einen Mikroprozessor umfasst; und wobei der Prozessor beim Zugreifen auf maschinenausführbare Anweisungen veranlasst, dass der Prozessor Folgendes ausführt: Senden von Konferenzinhalten über das Netzwerk an jeden einer Vielzahl von Endpunkten und wobei der Konferenzinhalt selektiv einen Audioteil umfasst, der von einem beitragenden Endpunkt der Vielzahl von Endpunkten empfangen wird; Bestimmen, ob der Audioteil stummgeschaltet ist, wobei der Prozessor den Audioteil vom beitragenden Endpunkt empfängt und den Audioteil aus dem Konferenzinhalt weglässt; beim Bestimmen, dass der Audioteil stummgeschaltet ist, Bestimmen, ob der beitragende Endpunkt irrtümlicherweise stummgeschaltet ist; wenn irrtümlicherweise stummgeschaltet, Ausführen einer Aktion zum Aufheben der Stummschaltung, um den Audioteil in den Konferenzinhalt aufzunehmen.