DE102021209176A1

DE102021209176A1 - Systeme und verfahren zur dämpfung des geräuschpegels in einer kommunikationssitzung

Info

Publication number: DE102021209176A1
Application number: DE102021209176.8A
Authority: DE
Inventors: Yashavant Pushkar Deole; Sandesh Chopdekar; Navin Daga
Original assignee: Avaya Man Lp; Avaya Management LP
Current assignee: Avaya Man Lp; Avaya Management LP
Priority date: 2020-08-31
Filing date: 2021-08-20
Publication date: 2022-03-03
Also published as: GB202112256D0; GB2599490A; US20220068287A1; CN114125136A

Abstract

Systeme und Verfahren der vorliegenden Offenbarung umfassen das Empfangen von Audiosignalen von einem ersten Benutzergerät, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt, mit einem Prozessor; das Bestimmen eines Geräuschpegels durch den Prozessor; das Bestimmen, dass der Geräuschpegel einen Schwellenwert überschreitet, durch den Prozessor; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, das Erzeugen einer Warnung für den ersten Benutzer durch den Prozessor und/oder das Erzeugen einer grafischen Darstellung des Geräuschpegels für den ersten Benutzer in der Kommunikationssitzung durch den Prozessor.

Description

BEREICH
Die Offenbarung bezieht sich allgemein auf Kommunikationsanwendungen und insbesondere auf die Reduzierung von Problemen im Zusammenhang mit übermäßigem Rauschen in einer Kommunikationssitzung.
HINTERGRUND
Da elektronische Benutzergeräte wie Smartphones, Tablets, Computer usw. immer häufiger zum Einsatz kommen, erfolgt die Kommunikation zwischen den Menschen zunehmend über Fernkommunikationsanwendungen für Sprache und Video wie FaceTime, Skype, Zoom, GoToMeeting usw. Immer mehr Benutzer auf der ganzen Welt nehmen eine Kultur der Fernarbeit an. Um effektiv zusammenzuarbeiten, nutzen die Benutzer eine Reihe von Sprach- und Videokonferenzlösungen. Neben einfachen Einzelgesprächen findet die Sprach- und Videokommunikation oft zwischen einer großen Anzahl von Personen statt. So werden beispielsweise Geschäftsbesprechungen häufig durchgeführt, ohne dass die Teilnehmer physisch in einem Raum anwesend sein müssen.
Die Sprach- und Videokommunikation über das Internet hat Echtzeitgespräche ermöglicht. Eine Kommunikationssitzung kann zwischen vielen Teilnehmern stattfinden. Jeder Teilnehmer kann über eine eigene Kamera und/oder ein eigenes Mikrofon verfügen, über die er von den anderen Teilnehmern gesehen werden und mit ihnen sprechen kann. In vielen modernen Video- und/oder Audiokommunikationsanwendungen gibt es keine Begrenzung der Anzahl der Teilnehmer, von denen jeder zu jeder Zeit sprechen kann.
Die Möglichkeit, dass die Teilnehmer während einer Kommunikationssitzung jederzeit sprechen können, bietet zwar ein großes Potenzial für eine effiziente Kommunikation, aber die ständig eingeschalteten Mikrofone haben auch einige negative Aspekte. Es ist durchaus üblich, dass eine große Anzahl von Benutzern an einem geschäftlichen Meeting oder einer technischen Diskussionsrunde teilnimmt. Wenn die Benutzer aus der Ferne arbeiten, sind sie oft von Geräuschquellen umgeben, auf die der Benutzer keinen Einfluss hat. So können Mikrofone neben der Stimme des Benutzers auch andere Geräusche, wie z. B. Hintergrundgeräusche, auffangen. Mikrofone können auch Geräusche von Lautsprechern auffangen, was zu einer Rückkopplungsschleife führen kann. Zweitens ist sich der Benutzer nicht bewusst, dass er all diese Hintergrundgeräusche überträgt, wenn er Inhalte in die Konferenz einbringt, die einen gemischten Inhalt aus der Stimme des Benutzers und Hintergrundgeräuschen in die Konferenz einbringen. Bei den Geräuschen kann es sich um Hundegebell, hupende Autos oder sogar vorbeifahrende Fahrzeuge handeln.
Solche Geräusche vermindern die Qualität der Erfahrung für die Teilnehmer der Konferenz, da einige oder alle Teilnehmer die von anderen Nutzern geteilten Informationen nicht erfassen können, was zu Informationsverlusten führt, die die Kontinuität oder den Fluss einer Konferenz unterbrechen. Solche Geräusche und Rückkopplungen können den Genuss und die Effektivität einer Kommunikationssitzung stark einschränken. Außerdem geht die Übertragung unnötiger Geräusche in einer Kommunikationssitzung auf Kosten der Bandbreite. Geräusche, die sich mit der menschlichen Stimme vermischen, verbrauchen mehr Bandbreite im Netz eines Benutzers. Übermäßige Geräusche, die während einer Kommunikationssitzung übertragen werden, können die verfügbare Bandbreite für die erwünschten Stimmen während der Kommunikationssitzung einschränken.
Mit Stummschalttasten können Benutzer die Übertragung von Audiosignalen von einem Benutzergerät, das an einer Kommunikationssitzung teilnimmt, logisch abschalten. Stummschalttasten erfordern jedoch, dass der Benutzer aktiv darauf achtet, wann Geräusche ein Problem darstellen oder darstellen könnten. Außerdem kann ein Benutzer nicht stumm geschaltet sein, wenn er in einer Besprechung kommunizieren möchte. Die Nutzer müssen also ständig auf ihren eigenen Geräuschpegel achten und darauf, ob sie stummgeschaltet sind. Daher kann nicht davon ausgegangen werden, dass die Nutzer eine Stummschalttaste bei Bedarf ordnungsgemäß aktivieren. Wenn man von den Benutzern verlangt, dass sie auf das Vorhandensein übermäßiger externer Geräusche und die Geräuschquellen achten, kommt das einer Aufforderung an die Benutzer gleich, sich mit Dingen zu befassen, die nicht im Mittelpunkt der Kommunikationssitzung stehen. Eine solche Aufgabe schränkt die Fähigkeit der Benutzer ein, sich während des Gesprächs auf das Wesentliche zu konzentrieren, wodurch die Gesamtwirksamkeit der Kommunikation eingeschränkt wird.
Es wird ein Kommunikationssystem benötigt, das in der Lage ist, die oben beschriebenen Probleme mit herkömmlichen Kommunikationssystemen zu lösen.
Figurenliste

1 ist ein Blockdiagramm eines ersten illustrativen Systems zur Implementierung einer Kommunikationssitzung in Übereinstimmung mit einer oder mehreren Ausführungsformen der vorliegenden Offenbarung;
2A ist ein Blockdiagramm eines Benutzergerätesystems zur Ausführung einer Kommunikationssitzung gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
2B ist ein Blockdiagramm eines Servers zum Ausführen einer Kommunikationssitzung in Übereinstimmung mit einer oder mehreren Ausführungsformen der vorliegenden Offenbarung;
3A ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
3B ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
4 ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
5 ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
6A ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
6B ist eine Illustration einer Benutzerschnittstelle gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung;
7 ist ein Flussdiagramm eines Prozesses gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung; und
8 ist ein Flussdiagramm eines Prozesses gemäß einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung.

AUSFÜHRLICHE BESCHREIBUNG
Die oben diskutierten Probleme mit modernen Kommunikationsanwendungen und andere Bedürfnisse werden durch die verschiedenen Ausführungsformen und Konfigurationen der vorliegenden Offenbarung angesprochen. Wie hierin beschrieben, kann Audio in einer reinen Audio- oder audiovisuellen Kommunikationssitzung auf übermäßiges Rauschen überwacht werden. Wenn übermäßiges Rauschen erkannt wird, kann eine Warnung angezeigt werden. Die Warnungen können je nach Situation angepasst werden. So kann ein Computersystem beispielsweise die Quelle des Lärms identifizieren und eine Empfehlung zur Beendigung des Lärms anzeigen. Zusätzlich zu den Warnungen vor übermäßigem Lärm kann jedem Teilnehmer an einer Kommunikationssitzung jederzeit ein beliebiger Lärmpegel angezeigt werden. In einigen Ausführungsformen können verschiedene Farbcodes für unterschiedliche Lärmpegel verwendet werden. So kann z. B. grün bedeuten, dass der Ton des Benutzers einen minimalen oder akzeptablen Geräuschpegel aufweist, orange bedeutet, dass sich der Ton des Benutzers in Richtung einer verrauschten Zone bewegt, und rot bedeutet, dass der Benutzer sofortige Abhilfemaßnahmen ergreifen sollte. In einigen Ausführungsformen kann das Computersystem einen kontinuierlichen grafischen Indikator erzeugen, der Informationen über die Gesamtlärmbelastung durch ein Benutzergerät liefert. Der Indikator kann auf dem Benutzergerät in Form eines Diagramms oder einer Anzeige dargestellt werden. Wenn beispielsweise Rauschen in den Audiodaten vorhanden ist, die von einem an einer Kommunikationssitzung teilnehmenden Benutzergerät aufgenommen wurden, kann ein Indikator angezeigt werden, der den Rauschpegel in den Audiodaten des Benutzers angibt. Der Rauschpegel kann auf der Grundlage einer Analyse anderer Audioinhalte als der Sprache in den Audiodaten des Benutzergeräts bestimmt werden. Der Ton des Benutzergeräts kann an einen Server gesendet werden, der die Kommunikationssitzung hostet. Der Server kann in der Lage sein, die Audiodaten zu analysieren, um das Verhältnis von Rauschen und Sprache zu ermitteln. Wie weiter unten erläutert, können einige Ausführungsformen andere Funktionen verwenden, um zufriedenstellende Audiopegel während einer Kommunikationssitzung zu gewährleisten. Ein solches System, wie es hier beschrieben ist, bietet dem Benutzer ein reichhaltiges Erlebnis.
Die Ausdrücke „mindestens eine“, „eine oder mehrere“, „oder“ und „und/oder“ sind unbestimmte Ausdrücke, die sowohl konjunktiv als auch disjunktiv verwendet werden können. Zum Beispiel bedeutet jeder der Ausdrücke „mindestens eines von A, B und C“, „mindestens eines von A, B oder C“, „eines oder mehrere von A, B und C“, „eines oder mehrere von A, B oder C“, „A, B und/oder C“ und „A, B oder C“ A allein, B allein, C allein, A und B zusammen, A und C zusammen, B und C zusammen oder A, B und C zusammen.
Der Begriff „ein“ oder „eine“ Einheit bezieht sich auf eine oder mehrere dieser Einheiten. Die Begriffe „eine“ (oder „ein“), „eine oder mehrere“ und „mindestens eine“ können hier austauschbar verwendet werden. Es ist auch zu beachten, dass die Begriffe „umfassend“, „einschließlich“ und „mit“ austauschbar verwendet werden können.
Der Begriff „automatisch“ und Variationen davon, wie er hier verwendet wird, bezieht sich auf jeden Prozess oder Vorgang, der typischerweise kontinuierlich oder halbkontinuierlich ist und ohne wesentliche menschliche Eingaben durchgeführt wird, wenn der Prozess oder Vorgang ausgeführt wird. Ein Prozess oder Vorgang kann jedoch automatisch sein, auch wenn die Durchführung des Prozesses oder Vorgangs materielle oder immaterielle menschliche Eingaben erfordert, wenn die Eingaben vor der Durchführung des Prozesses oder Vorgangs empfangen werden. Menschliche Eingaben gelten als wesentlich, wenn sie die Durchführung des Prozesses oder Vorgangs beeinflussen. Menschliche Eingaben, die der Durchführung des Prozesses oder Vorgangs zustimmen, gelten nicht als „wesentlich“.
Aspekte der vorliegenden Offenbarung können die Form einer reinen Hardware-Variante, einer reinen Software-Variante (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Kombination von Software- und Hardware-Aspekten annehmen, die hier allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden. Jede Kombination aus einem oder mehreren computerlesbaren Medien kann verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein.
Ein computerlesbares Speichermedium kann zum Beispiel, aber nicht ausschließlich, ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem, ein Apparat oder eine Vorrichtung oder eine geeignete Kombination der vorgenannten sein. Zu den spezifischeren Beispielen (eine nicht erschöpfende Liste) für das computerlesbare Speichermedium gehören: eine elektrische Verbindung mit einem oder mehreren Drähten, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Festwertspeicher (ROM), ein löschbarer programmierbarer Festwertspeicher (EPROM oder Flash-Speicher), eine optische Faser, ein tragbarer Compact-Disc-Festwertspeicher (CD-ROM), eine optische Speichervorrichtung, eine magnetische Speichervorrichtung oder jede geeignete Kombination der vorgenannten. Im Zusammenhang mit diesem Dokument kann ein computerlesbares Speichermedium jedes greifbare Medium sein, das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät enthalten oder speichern kann.
Ein computerlesbares Signalmedium kann ein verbreitetes Datensignal mit darin verkörpertem computerlesbarem Programmcode enthalten, zum Beispiel im Basisband oder als Teil einer Trägerwelle. Ein solches übertragenes Signal kann eine beliebige Form annehmen, einschließlich, aber nicht beschränkt auf, elektromagnetische oder optische Signale oder eine geeignete Kombination davon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm zur Verwendung durch oder in Verbindung mit einem Befehlsausführungssystem, -apparat oder -gerät übermitteln, verbreiten oder transportieren kann. Programmcode, der auf einem computerlesbaren Medium verkörpert ist, kann mit jedem geeigneten Medium übertragen werden, einschließlich, aber nicht beschränkt auf drahtlose, drahtgebundene, optische Faserkabel, RF, usw., oder jede geeignete Kombination der vorgenannten.
Die Begriffe „bestimmen“, „berechnen“ und „rechnen“ und Variationen davon werden hier austauschbar verwendet und umfassen jede Art von Methodik, Prozess, mathematischer Operation oder Technik.
Der Begriff „Mittel“, wie er hier verwendet wird, ist gemäß 35 U.S.C., Abschnitt 112(f) und/oder Abschnitt 112, Absatz 6 so weit wie möglich auszulegen. Dementsprechend umfasst ein Anspruch, der den Begriff „Mittel“ enthält, alle hierin dargelegten Strukturen, Materialien oder Handlungen sowie alle Äquivalente davon. Ferner umfassen die Strukturen, Materialien oder Handlungen und deren Äquivalente alle in der Zusammenfassung, der Kurzbeschreibung der Zeichnungen, der detaillierten Beschreibung, der Zusammenfassung und den Ansprüchen selbst beschriebenen.
Das Vorangegangene ist eine vereinfachte Zusammenfassung, um ein Verständnis einiger Aspekte der Offenbarung zu vermitteln. Diese Zusammenfassung ist weder ein umfassender noch ein erschöpfender Überblick über die Offenbarung und ihre verschiedenen Ausführungsformen. Es ist weder beabsichtigt, wichtige oder kritische Elemente der Offenbarung zu identifizieren, noch den Umfang der Offenbarung abzugrenzen, sondern ausgewählte Konzepte der Offenbarung in vereinfachter Form als Einführung in die nachfolgend dargestellte detailliertere Beschreibung zu präsentieren. Es wird deutlich, dass auch andere Ausführungsformen der Offenbarung möglich sind, bei denen eines oder mehrere der oben dargelegten oder unten im Detail beschriebenen Merkmale allein oder in Kombination verwendet werden. Auch wenn die Offenbarung in Form von beispielhaften Ausführungsformen dargestellt wird, sollte man sich darüber im Klaren sein, dass einzelne Aspekte der Offenbarung separat beansprucht werden können.
1 ist ein Blockdiagramm eines ersten illustrativen Systems 100 für eine Kommunikationssitzung zwischen einem oder mehreren Benutzern in Übereinstimmung mit einer oder mehreren der hier beschriebenen Ausführungsformen. Das erste illustrative System 100 umfasst Benutzerkommunikationsgeräte 101A, 101B und ein Netzwerk 110. Darüber hinaus sind auch die Benutzer 106A-106B dargestellt.
Die Benutzerkommunikationsgeräte 101A, 101B können jedes beliebige Benutzergerät sein oder umfassen, das über das Netzwerk 110 kommunizieren kann, wie z. B. ein Personal Computer („PC“), ein Videotelefon, ein Videokonferenzsystem, ein Mobiltelefon, ein Personal Digital Assistant („PDA“), ein Tablet-Gerät, ein Notebook-Gerät, ein Smartphone und/oder dergleichen. Die Benutzerkommunikationsgeräte 101A, 101B sind Geräte, an denen eine Kommunikationssitzung endet. Obwohl in 1 der Einfachheit halber nur zwei Benutzerkommunikationsgeräte 101A, 101B dargestellt sind, kann eine beliebige Anzahl von Benutzerkommunikationsgeräten 101 mit dem Netzwerk 110 verbunden werden, um eine Kommunikationssitzung aufzubauen.
Die Benutzerkommunikationsgeräte 101A, 101B können jeweils weitere Kommunikationsanwendungen 102A, 102B, Displays 103A, 103B, Kameras 104A, 104B und Mikrofone 106A, 106B umfassen. Es ist zu beachten, dass in einigen Ausführungsformen die Benutzergeräte keine Kameras 104A, 104B haben können. Die Benutzerkommunikationsvorrichtungen 101A, 101B umfassen typischerweise auch andere Elemente wie einen Mikroprozessor, ein Mikrofon, einen Browser, andere Anwendungen und/oder ähnliches, auch wenn sie der Einfachheit halber nicht dargestellt sind.
Darüber hinaus können die Benutzerkommunikationsgeräte 101A, 101B auch andere Anwendung(en) 105A, 105B umfassen. Die andere(n) Anwendung(en) 105A kann/können eine beliebige Anwendung sein, wie z. B. eine Folienpräsentationsanwendung, eine Dokumenteditoranwendung, eine Dokumentanzeigeanwendung, eine Grafikbearbeitungsanwendung, ein Taschenrechner, eine E-Mail-Anwendung, eine Tabellenkalkulation, eine Multimedia-Anwendung, eine Spieleanwendung und/oder Ähnliches. Die Kommunikationsanwendungen 102A, 102B können jede beliebige Hardware/Software sein oder umfassen, die eine Kommunikationssitzung verwalten kann, die den Benutzern 106A, 106B angezeigt wird. Zum Beispiel können die Kommunikationsanwendungen 102A, 102B zum Aufbau und zur Anzeige einer Kommunikationssitzung verwendet werden.
Die Anzeigen 103A, 103B können jedes Hardware-Anzeige-/Projektionssystem sein oder umfassen, das ein Bild einer Videokonferenz anzeigen kann, wie z. B. eine LED-Anzeige, eine Plasma-Anzeige, ein Projektor, eine Flüssigkristallanzeige, eine Kathodenstrahlröhre und/oder Ähnliches. Die Displays 103A-103B können zur Anzeige von Benutzeroberflächen als Teil der Kommunikationsanwendungen 102A-102B verwendet werden.
Die Mikrofone 106A, 106B können zum Beispiel eine Vorrichtung wie einen Wandler umfassen, um Schall von einem Benutzer oder aus einer Umgebung um ein Benutzerkommunikationsgerät 101A, 101B in ein elektrisches Signal umzuwandeln. In einigen Ausführungsformen kann das Mikrofon 106A, 106B ein dynamisches Mikrofon, ein Kondensatormikrofon, ein Kontaktmikrofon, ein Array von Mikrofonen oder jede Art von Vorrichtung umfassen, die in der Lage ist, Schall in ein Signal umzuwandeln.
Die Benutzerkommunikationsgeräte 101A, 101B können auch eine oder mehrere andere Anwendung(en) 105A, 105B umfassen. Die andere(n) Anwendung(en) 105A, 105B können mit den Kommunikationsanwendungen 102A, 102B zusammenarbeiten.
Das Netzwerk 110 kann eine beliebige Sammlung von Kommunikationsgeräten sein oder umfassen, die elektronische Kommunikation senden und empfangen können, wie z. B. das Internet, ein Wide Area Network (WAN), ein Local Area Network (LAN), ein Voice over IP Network (VoIP), das Public Switched Telephone Network (PSTN), ein paketvermitteltes Netzwerk, ein leitungsvermitteltes Netzwerk, ein zelluläres Netzwerk, eine Kombination aus diesen und dergleichen. Das Netzwerk 110 kann eine Vielzahl von elektronischen Protokollen verwenden, wie z. B. Ethernet, Internet Protocol (IP), Session Initiation Protocol (SIP), H.323, Videoprotokoll, Videoprotokolle, Integrated Services Digital Network (ISDN) und ähnliches. Somit ist das Netzwerk 110 ein elektronisches Kommunikationsnetzwerk, das für die Übertragung von Nachrichten über Pakete und/oder leitungsvermittelte Kommunikation konfiguriert ist.
Das Netzwerk kann von den Benutzergeräten 101A, 101B und einem Server 111 verwendet werden, um eine Kommunikation durchzuführen. Während einer Kommunikationssitzung können Daten 116A, wie ein digitales oder analoges Audiosignal oder Daten, die Audio- und Videodaten umfassen, über das Benutzergerät 101A gesendet und/oder empfangen werden, Daten 116B können über den Server 111 gesendet und/oder empfangen werden, und Daten 116C können über das Benutzergerät 101B gesendet und/oder empfangen werden.
Der Server 111 kann jede Art von Computergerät umfassen, das über das Netzwerk 110 kommunizieren kann, wie z. B. einen Server, einen Personal Computer („PC“), ein Videotelefon, ein Videokonferenzsystem, ein Mobiltelefon, einen Personal Digital Assistant („PDA“), ein Tablet-Gerät, ein Notebook-Gerät, ein Smartphone und/oder Ähnliches. Obwohl in 1 der Einfachheit halber nur ein Server 111 dargestellt ist, kann eine beliebige Anzahl von Servern 111 mit dem Netzwerk 110 verbunden werden, um eine Kommunikationssitzung aufzubauen.
Der Server 111 kann ferner eine Kommunikationsanwendung 112, Datenbank(en) 113, Analyseanwendungen 114, andere Anwendung(en) 115 und, der Einfachheit halber nicht dargestellt, andere Elemente wie einen Mikroprozessor, ein Mikrofon, eine Browseranwendung und/oder Ähnliches umfassen.
In einigen Ausführungsformen kann ein Server 111 eine Sprachanalyse-Engine 117 umfassen. Die Sprachanalyse-Engine 117 kann für die Sprachanalyse und -verarbeitung zuständig sein. Wenn beispielsweise ein Audiosignal von einem Benutzergerät 101A, 101B, das an einer Kommunikationssitzung teilnimmt, empfangen wird, kann die Sprachanalyse-Engine 117 das Audiosignal verarbeiten, um Audiosignale, die die Stimme eines Benutzers enthalten, aus Rauschen wie Hintergrundgeräuschen zu filtern oder anderweitig zu trennen. Die Sprachanalyse-Engine 117 kann einen oder mehrere Algorithmen oder Subsysteme mit künstlicher Intelligenz ausführen, die in der Lage sind, die menschliche Stimme zu identifizieren oder anderweitig zwischen Stimme und anderen Geräuschen zu unterscheiden.
2A und 2B zeigen Komponenten eines beispielhaften Benutzergeräts 201A und eines Servers 201B zur Verwendung in bestimmten Ausführungsformen, wie hier beschrieben.
In einigen Ausführungsformen kann ein Benutzergerät 201A einen Prozessor 202A, einen Speicher 203A und Eingabe-/Ausgabegeräte 204A umfassen. In ähnlicher Weise kann ein Server 201B einen Prozessor 202B, einen Speicher 203B und Eingabe-/Ausgabegeräte 204B umfassen.
Ein Prozessor 202A, 202B kann aus einem Prozessor oder Mikroprozessor bestehen. Wie hier verwendet, kann sich das Wort Prozessor auf eine Vielzahl von Prozessoren und/oder Mikroprozessoren beziehen, die zusammenarbeiten. Die Prozessoren 202A, 202B können in der Lage sein, Software auszuführen und Schritte der hier beschriebenen Verfahren durchzuführen. Beispielsweise kann ein Prozessor 202A, 202B so konfiguriert sein, dass er Benutzerschnittstellen auf einem Display eines Computergeräts anzeigt. Der Speicher 203A, 203B eines Benutzergeräts 201A, 201B kann einen Speicher, einen Datenspeicher oder eine andere nicht transitorische Speichervorrichtung umfassen, die mit Anweisungen für den Betrieb des Prozessors 202A, 202B zur Durchführung der hier beschriebenen Schritte konfiguriert ist. Dementsprechend können die Prozesse als maschinenlesbarer und maschinenausführbarer Code zur Ausführung durch einen Prozessor verkörpert werden, um die hierin beschriebenen Schritte und optional andere Verarbeitungsaufgaben durchzuführen. Die Eingabe-/Ausgabevorrichtungen 204A, 204B können Tastaturen, Mäuse, Mikrofone, Kameras, Anzeigevorrichtungen, Netzwerkkarten usw. umfassen, sollten aber nicht als darauf beschränkt angesehen werden.
Beispielhaft können die Benutzerkommunikationsgeräte 101A, 101B, die Kommunikationsanwendungen, die Anzeigen, die Anwendung(en) gespeicherte, programmgesteuerte Einheiten sein, wie z. B. ein Computer oder Mikroprozessor, der das Verfahren von 7 und die hierin beschriebenen Prozesse durch Ausführen von Programmanweisungen ausführt, die in einem computerlesbaren Speichermedium, wie z. B. einem Speicher (d. h. einem Computerspeicher, einer Festplatte und/oder dergleichen), gespeichert sind. Obwohl das in 7 beschriebene Verfahren in einer bestimmten Reihenfolge dargestellt ist, wird ein Fachmann erkennen, dass die Schritte in 7 in unterschiedlichen Reihenfolgen und/oder in einer Multi-Thread-Umgebung ausgeführt werden können. Darüber hinaus können verschiedene Schritte je nach Implementierung weggelassen oder hinzugefügt werden.
In einigen Ausführungsformen kann eine Kommunikationssitzung zwei oder mehr Benutzer von Benutzergeräten 101A, 101B umfassen, die über das Internet unter Verwendung einer Kommunikationsanwendung wie einer Videokonferenzanwendung kommunizieren. Während sich viele der hier besprochenen Beispiele mit der Videokommunikation befassen, sollte man sich darüber im Klaren sein, dass dieselben Methoden und Systeme zur Verwaltung des Tons einer Kommunikationssitzung in ähnlicher Weise für die reine Audiokommunikation gelten. Beispielsweise können die hier beschriebenen Systeme und Methoden sowohl auf Telefongespräche als auch auf Voice-over-IP-Kommunikation, Video-Chat-Anwendungen wie FaceTime oder Zoom oder andere Systeme angewendet werden, bei denen zwei oder mehr Benutzer über Ton kommunizieren.
Aufgrund der Anforderungen an die Verarbeitungsleistung, um ein Audiosignal von einem Benutzer, der an einer Kommunikationssitzung teilnimmt, in ein menschliches Sprachsignal und ein Rauschsignal zu trennen, ist es oft unpraktisch, Sprache und Rauschen durch ein Benutzergerät, d. h. auf der Client-Seite, zu trennen. Stattdessen wird das komplette Audiosignal üblicherweise an einen Server übertragen, der die Kommunikationssitzung hostet, was eine höhere Netzwerkbandbreite verbraucht, als dies bei einer Aufzeichnung in einem ruhigen Raum der Fall wäre. Die Verwendung eines Servers zur Trennung der Geräusche von der Stimme ist oft ebenfalls unpraktisch, da komplexe Deep-Learning-Algorithmen in mehreren Iterationen ausgeführt werden müssen, um die menschliche Stimme genau von den Geräuschen im Audiosignal zu trennen.
Wie hierin beschrieben, kann den Teilnehmern einer Kommunikationssitzung unter Verwendung der hierin beschriebenen Systeme und Verfahren ein reichhaltigeres Erlebnis geboten werden. Wie hier beschrieben, kann ein Computersystem, z. B. ein Benutzergerät, verwendet werden, um zu erkennen, dass der Sprecher, der das Benutzergerät verwendet, unerwünschte Geräusche überträgt, wenn der Benutzer aktiv in der Konferenz oder Kommunikationssitzung spricht. Das Computersystem kann auf intelligente Weise Maßnahmen ergreifen, bevor ein manuelles Eingreifen des Benutzers erforderlich ist. Die vom Computersystem automatisch ergriffenen Maßnahmen können in einigen Ausführungsformen darin bestehen, dass eine visuelle Anzeige des Geräuschpegels (ähnlich der Signalstärkeanzeige auf einem Mobiltelefon) mit einer entsprechenden Farbcodierung (z. B. eine oder zwei vertikale Linien in grüner Farbe, eine dritte Linie in orange und mehrere Linien in roter Farbe usw.) oder akustische Warnungen an den Teilnehmer ausgegeben werden, damit dieser darauf aufmerksam gemacht wird, wie viel Lärm er zur Konferenz beiträgt. Der Benutzer kann dann in die Lage versetzt werden, Maßnahmen zu ergreifen, wie z. B. sich an einen ruhigeren Ort zu begeben, der relativ wenig Lärm verursacht, wodurch alle komplexen Schritte der Lärmtrennung vermieden werden und somit eine Menge Rechenleistung des Konferenzservers und auch die eigene Datenbandbreite des Benutzers eingespart wird.
Das Aufkommen von Technologien wie künstliche Intelligenz, z. B. Deep-Learning-Algorithmen oder neuronale Netze, in Bezug auf die Spracherkennung hat die Erkennung von Geräuschpegeln gegenüber Sprachpegeln ermöglicht.
Herkömmliche Lösungen erfordern häufig, dass ein Konferenzadministrator manuell eingreift, um dem Sprecher mitzuteilen, dass er oder sie ein gemischtes Inhaltssignal, d. h. Sprache zusammen mit Geräuschen, zu einer Konferenz beiträgt. Bei herkömmlichen Systemen erhält der Sprecher keine kontinuierliche Anzeige des Geräuschpegels.
In einigen Ausführungsformen der vorliegenden Offenbarung können Berechnungen oder Bestimmungen für den kumulativen Geräuschpegel aller Teilnehmer an einer Kommunikationssitzung auf einem Server stattfinden, der die Kommunikationssitzung hostet. In einigen Ausführungsformen können die Audiosignale jedes Teilnehmers der Kommunikationssitzung separat von dem Benutzergerät dieses Teilnehmers analysiert werden. In einigen Ausführungsformen kann ein Server, der die Kommunikationssitzung hostet, den von jedem teilnehmenden Benutzergerät empfangenen Ton analysieren.
Bestimmte hierin beschriebene Ausführungsformen beinhalten die Anzeige eines Geräuschpegelindikators in einem geeigneten Format auf einem Client-Gerät eines an der Kommunikationssitzung teilnehmenden Benutzers. Der Geräuschpegelindikator kann mit einem bestimmten Geräuschpegel für alle Teilnehmer der Kommunikationssitzung zusammen, für jeden Teilnehmer einzeln oder für den einzelnen Benutzer des Benutzergeräts verbunden sein. In einigen Ausführungsformen kann das Sprach-Rausch-Verhältnis für jedes an der Kommunikationssitzung teilnehmende Benutzergerät bestimmt werden. Für jeden Teilnehmer kann ein Anteil oder Prozentsatz des Gesamtlärms bestimmt werden. So kann der Server oder ein anderes Computersystem beispielsweise feststellen, dass ein erster Teilnehmer derzeit zwanzig Prozent des Gesamtgeräusches verursacht. Der Prozentsatz kann für jeden Teilnehmer bestimmt werden. Der prozentuale Anteil des Geräuschbeitrags eines Teilnehmers kann angeben, in welchem Ausmaß der Benutzer Geräusche (d.h. andere Geräusche als Sprache) zur Kommunikationssitzung beiträgt, unabhängig davon, ob der Teilnehmer spricht oder schweigt.
Wie man sich vorstellen kann, können Benutzer schnell sehen, ob sie Audio übertragen oder ob andere Benutzer Audio hören können, das von ihren Mikrofonen übertragen wird, und sie können auch sehen, ob andere Benutzer Audio von ihren Benutzergeräten teilen. Wie in 3A dargestellt, kann eine Benutzeroberfläche 300 so konfiguriert werden, dass eine Warnung 309 angezeigt wird, wenn übermäßiges Rauschen erkannt wird. In einer Ausführungsform kann es sich bei der Benutzerschnittstelle 300 um eine Benutzerschnittstelle handeln, die einem Administrator zur Verfügung gestellt wird, um verschiedene Konfigurationen einzustellen, wie in den nachfolgenden Figuren im Detail beschrieben wird. Die Warnung 309 kann von einem Server erzeugt werden, der die Kommunikationssitzung hostet. Die Warnung 309 kann an das Benutzergerät übermittelt werden, das übermäßiges Rauschen zur Kommunikationssitzung beiträgt. In einigen Ausführungsformen können Warnungen an andere Benutzer, die an einer Kommunikationssitzung teilnehmen, übermittelt werden. Wenn z. B. ein bestimmter Benutzer einen relativ hohen Geräuschpegel verursacht, kann den anderen Benutzern empfohlen werden, den lauten Benutzer stumm zu schalten.
Wie in 3B dargestellt, kann eine Benutzerschnittstelle 310 so konfiguriert sein, dass sie einen Hinweis oder eine Warnung 319 anzeigt, wenn festgestellt wurde, dass das Audio eines Benutzers übermäßiges Rauschen enthält. Die Anzeige oder Warnung 319 kann dem Benutzer empfehlen, seinen Ton stumm zu schalten. Wenn ein Computersystem beispielsweise feststellt, dass der Audiostrom des Benutzers übermäßiges Rauschen enthält, kann dem Benutzer eine grafische Benutzeroberflächenanzeige mit der Empfehlung angezeigt werden, dass der Benutzer selbst seinen Ton stumm schaltet.
In einigen Ausführungsformen kann eine Benutzerschnittstelle 400 eine grafische Benutzerschnittstellenanzeige enthalten, die eine Messung des im Audiostrom eines Benutzers enthaltenen Rauschens darstellt. Beispielsweise kann dem Benutzer des Benutzergeräts 101A, das die Benutzerschnittstelle 400 anzeigt, eine grafische Benutzerschnittstellendarstellung seiner eigenen Geräuschpegel in einer Anzeige 409 seines Audiosignals angezeigt werden. In ähnlicher Weise kann dem Benutzer des Benutzergeräts 101A, das die Benutzerschnittstelle 400 anzeigt, eine grafische Benutzerschnittstellendarstellung 412 der Geräuschpegel des Audios des anderen an der Kommunikationssitzung teilnehmenden Benutzers angezeigt werden.
In einigen Ausführungsformen kann ein Benutzer eines Benutzergeräts 101A in der Lage sein, das Benutzergerät 101A zur Kommunikation mit einer großen Anzahl von Personen zu verwenden, die an einer Kommunikationssitzung teilnehmen. Wie in 5 dargestellt, kann eine Benutzeroberfläche 515 ein Raster 518 von Teilnehmern der Kommunikationssitzung anzeigen. Das Raster 518 der Teilnehmer kann für jeden Teilnehmer eine Anzeige einer Video- oder Standbilddarstellung des Teilnehmers, eine Mikrofondarstellung, die anzeigt, ob der Teilnehmer sein Audiosignal freigibt, und eine grafische Darstellung des Vorhandenseins von Rauschen im Audiosignal des Teilnehmers enthalten. Bei der grafischen Darstellung des Rauschens im Audiosignal des Teilnehmers kann es sich in einigen Ausführungsformen um ein Balkendiagramm 506, ein Liniendiagramm 509, ein Messgerät 512, ein Tortendiagramm oder eine beliebige Art der Visualisierung mit einem unteren und einem oberen Ende handeln, die eine Lautstärke- oder Lautheitsvisualisierung darstellen kann. In einigen Ausführungsformen kann die grafische Darstellung einfach einen aktuellen Geräuschpegel zeigen, z. B. in Form eines Balkendiagramms 506, eines Messgeräts 512 usw., oder sie kann einen Geräuschpegel über einen bestimmten Zeitraum zeigen, z. B. mit einem Liniendiagramm 509, das die Geräuschpegel der letzten Minuten zeigt. Die grafische Darstellung des Vorhandenseins von Rauschen im Audiosignal des Teilnehmers ist nicht zu verwechseln mit einer Anzeige der Signalstärke oder der Stärke der Netzwerkverbindung usw.
Wie hier beschrieben, kann das Rauschen im Audiosignal eines Benutzers von der Stimme des Benutzers im Audiosignal getrennt werden. Das abgetrennte Rauschen kann zur Bestimmung eines Rauschpegels und/oder zur Berechnung eines Sprach-Rausch-Verhältnisses verwendet werden. Zum Beispiel kann ein System mit künstlicher Intelligenz verwendet werden. Ein vollständiges Audiosignal kann als Eingangssignal für das künstliche Intelligenzsystem verwendet werden, das ein Rauschsignal ausgeben kann, d. h. das Audiosignal ohne die Stimme. Das Rauschsignal kann verwendet werden, um das Verhältnis von Rauschen zu Stimme zu bestimmen.
In einigen Ausführungsformen kann ein Computersystem in der Lage sein zu bestimmen, ob der Benutzer spricht, bevor eine Rausch-zu-Stimme-Analyse durchgeführt wird. Wird festgestellt, dass kein Benutzer spricht, kann das Computersystem davon ausgehen, dass alle Geräusche Lärm sind. In einigen Ausführungsformen kann ein Computersystem in der Lage sein, festzustellen, ob ein bestimmter Benutzer ein aktiver Sprecher in der Kommunikationssitzung ist. So kann beispielsweise bei einer normalen Kommunikationssitzung davon ausgegangen werden, dass nur ein Benutzer gleichzeitig spricht. Wenn zwei oder mehr Benutzer sprechen, kann ein an der Kommunikationssitzung teilnehmendes Benutzergerät in der Lage sein, zu erkennen, welcher der beiden oder mehreren Benutzer der aktive Sprecher ist.
In einigen Ausführungsformen kann nach der Trennung von Geräuschen und Sprache durch den Einsatz von künstlicher Intelligenz oder Deep-Learning-Algorithmen bestimmt werden, ob der kumulative Geräuschbeitrag eines Teilnehmers vorliegt. Der Teilnehmer kann dann mit einer kontinuierlichen oder periodischen Anzeige versehen werden, die seinen oder ihren Geräuschbeitrag angibt. Beispielsweise kann ein Element der grafischen Benutzeroberfläche angezeigt werden. Bei der grafischen Benutzeroberfläche kann es sich um eine einfache Grafik oder ein Diagramm handeln, z. B. ein Balkendiagramm oder ein Messgerät, das den Pegel des Geräusch-Stimm-Verhältnisses des Audiosignals des Benutzers anzeigt.
Wenn ein Benutzer einer Konferenz oder Kommunikationssitzung als Teilnehmer unter Verwendung einer Kommunikationsanwendung beitritt, die auf einem Benutzergerät ausgeführt wird, kann die Kommunikationsanwendung verwendet werden, um den Benutzer unter Verwendung einer Benutzer-ID und/oder eines Passworts zu registrieren, mit der Kommunikationsanwendung kann auch eine Endpunkt-Endgeräteidentität protokolliert werden, die der Teilnehmer verwenden kann, um während der Konferenz zu sprechen. Die Benutzer-ID und/oder die Identität des Endgeräts können an einen Server übertragen werden, der die Kommunikationssitzung oder Konferenz veranstaltet. Während der Konferenz kann das Benutzergerät ein Audio- oder audiovisuelles Signal an den Server übertragen. Anhand der Informationen über die Benutzer-ID und/oder die Identität des Endgeräts kann der Server so konfiguriert werden, dass er erkennt, dass das beim Server ankommende Signal für einen bestimmten Teilnehmer bestimmt ist.
Der Benutzer kann in der Lage sein, während einer Kommunikationssitzung eine Stummschaltfunktion in einer Benutzeroberfläche seines Benutzergeräts auszuwählen. Die Auswahl der Stummschaltungsfunktion kann die Übertragung von Audiosignalen vom Benutzergerät unterbrechen. Ein Stummschaltungssymbol auf der grafischen Benutzeroberfläche kann angezeigt werden, wenn der Benutzer stummgeschaltet ist. Zum Beispiel kann ein Mikrofon angezeigt werden, wenn der Benutzer Audio überträgt, und wenn der Benutzer stummgeschaltet ist, kann das Mikrofon als durchgestrichen angezeigt werden.
In einigen Ausführungsformen kann ein Prozessor eines Benutzergeräts oder eines Servers ein Subsystem zur Erkennung von Sprachmerkmalen ausführen. Das Subsystem zur Erkennung von Sprachmerkmalen kann für die Erkennung und/oder Erfassung von Merkmalen der Stimme eines Benutzers verantwortlich sein. In einigen Ausführungsformen kann ein Subsystem zur Erkennung von Sprachmerkmalen von einem Prozessor eines Servers ausgeführt werden, der die Kommunikationssitzung hostet, oder es kann von den Prozessoren der einzelnen an der Kommunikationssitzung teilnehmenden Benutzergeräte ausgeführt werden. In einigen Ausführungsformen kann das Teilsystem zur Erkennung von Sprachmerkmalen die Stimme eines Benutzers nur dann analysieren, wenn der Benutzer als der einzige Benutzer erkannt wird, der zu einem bestimmten Zeitpunkt während einer Kommunikationssitzung spricht.
Das Teilsystem zur Erkennung von Sprachmerkmalen kann eine Reihe von Merkmalen oder Eigenschaften der Stimme eines Benutzers erfassen. Zum Beispiel kann ein Subsystem zur Erkennung von Sprachmerkmalen die Lautstärke, die Tonhöhe, den Tonumfang, den Klang oder andere Merkmale oder Eigenschaften der Stimme eines Benutzers erfassen. In einigen Ausführungsformen kann ein Untersystem zur Erkennung von Sprachmerkmalen eine oder mehrere Spracherkennungsbibliotheken oder Datenbanken einsetzen, um die Stimme eines Benutzers zu analysieren und/oder zu erkennen.
In einigen Ausführungsformen kann ein Prozessor eines Benutzergeräts oder eines Servers, der an einer Kommunikationssitzung zwischen einer Vielzahl von Benutzern, die Benutzergeräte verwenden, teilnimmt oder diese beherbergt, ein Subsystem zur Analyse und Verarbeitung der Stimmentrennung ausführen. Wenn ein Benutzergerät oder ein Server ein Audiosignal von einem Mikrofon eines Benutzergeräts empfängt, kann der Prozessor des Benutzergeräts oder des Servers das Audiosignal in Echtzeit analysieren, um zu bestimmen, ob in dem Audiosignal erkannte Merkmale mit einer menschlichen Stimme verbunden sind. Zum Beispiel kann der Prozessor den Datenstrom analysieren, um zu bestimmen, ob die im Datenstrom erfassten Stimmmerkmale in den menschlichen Bereich fallen.
In einigen Ausführungsformen können die erfassten Stimmcharakteristikdaten einen Bereichsprüfer durchlaufen, der prüft, ob die Stimmcharakteristikdaten in den Bereich einer menschlichen Stimme fallen, z. B. 50-70 Dezibel, während externe Geräusche wie hupende Fahrzeuge, vorbeifahrende Fahrzeuge, bellende Hunde usw. eine viel höhere Intensität und einen höheren Bereich als andere Charakteristika haben können.
Wenn mindestens eines der im Audiosignal eines Benutzers erkannten Stimmmerkmale nicht in den menschlichen Bereich fällt, kann das Audiosignal durch ein Geräuschseparations-Subsystem geleitet werden. Das Teilsystem zur Rauschseparation kann eine künstliche Intelligenz oder einen Deep-Learning-Algorithmus verwenden, der in der Lage ist, mehrere Muster aus einer Spracheingabe herauszufiltern. Ein solcher Algorithmus, der im Volksmund als Cocktailparty-Algorithmus bekannt ist, trennt mehrere Stimmen aus einer Mischung von Stimmen oder anderen Geräuschen heraus. Mit einem solchen System können nur Audiodaten, die sich auf eine menschliche Stimme beziehen, an den Server geliefert werden, der die Kommunikationssitzung hostet, während der Rest der Geräusche im ursprünglichen Audiosignal herausgefiltert werden kann.
In einigen Ausführungsformen kann das Untersystem zur Rauschabtrennung Berechnungen am gefilterten Rauschen durchführen, um Faktoren wie den prozentualen Anteil des Rauschinhalts in einem Audiosignal in Bezug auf die tatsächliche Stimme zu berechnen; wie lange das Untersystem zur Rauschabtrennung brauchte, um das Rauschen von der Stimme zu trennen; wie viele Iterationen von Algorithmen der künstlichen Intelligenz erforderlich waren, um das Rauschen von der Stimme zu trennen; und Faktoren in Bezug auf andere Berechnungen, die erforderlich sind, um den kumulativen Rauschbeitrag eines bestimmten Teilnehmers zu berechnen.
Solche Berechnungen, die vom Untersystem für die Lärmtrennung durchgeführt werden, können für jeden Teilnehmer auf einer kumulativen Basis entweder auf einer absoluten Basis oder im Verhältnis zum vergangenen Gesamtlärm, der zur Konferenz beigetragen wurde, durchgeführt werden. Das Untersystem zur Rauschunterdrückung kann so konfiguriert sein, dass es für jeden Teilnehmer ein aktuelles (oder durchschnittliches) Verhältnis von Stimme zu Lärm (oder Lärm zu Stimme) sowie einen prozentualen Anteil des von jedem Teilnehmer beigetragenen Lärms im Verhältnis zum gesamten Lärm, der von allen Teilnehmern zu einer Kommunikationssitzung beigetragen wird, bestimmt. Die vom Untersystem zur Geräuschseparation durchgeführten Berechnungen können dazu dienen, für einen oder mehrere Teilnehmer einer Kommunikationssitzung einen relativen Gesamtgeräuschbeitrag zu ermitteln. So kann ein Teilnehmer beispielsweise sehen, welcher an der Kommunikationssitzung teilnehmende Benutzer zu einem bestimmten Zeitpunkt den größten Beitrag zum Rauschen oder das höchste (oder niedrigste) Verhältnis von Rauschen zu Stimme leistet.
In einigen Ausführungsformen können Berechnungen als Eingabe für ein Teilsystem zur Anzeige des Geräuschpegels verwendet werden. Ein Teilsystem zur Anzeige des Geräuschpegels kann die verschiedenen oben beschriebenen Berechnungen als Eingabe verwenden und verschiedene Benachrichtigungen und/oder Warnungen generieren, die an den Endpunkt (z. B. das Benutzergerät), den jeder Teilnehmer verwendet, übermittelt werden.
Zu den Benachrichtigungen kann ein kumulativer Prozentsatz des Geräuschpegels gehören, den jeder Teilnehmer zur Konferenz oder Kommunikationssitzung beiträgt und der vom Endpunkt-Client in Form eines kontinuierlichen Stärke-Indikators mit mehreren vertikalen Linien (ähnlich wie ein Signalstärke-Indikator) oder einer Anzeige mit verschiedenen Farbcodes angezeigt wird. In einigen Ausführungsformen wird der Rauschanteil während eines bestimmten Zeitfensters berechnet und auf einem Benutzergerät angezeigt. Zum Beispiel ein Sprach-Rausch-Verhältnis für einen Benutzer oder ein Pegel des Geräuschbeitrags des Benutzers zur Kommunikationssitzung während der letzten fünf Minuten oder eines anderen Zeitraums. In einigen Ausführungsformen können akustische Warnungen erzeugt und dem Teilnehmer mitgeteilt werden, wenn der Geräuschpegelbeitrag des Teilnehmers einen bestimmten Schwellenwert überschreitet. Benachrichtigungen können in Form eines Pop-up-Fensters, z. B. in der rechten unteren Ecke, erscheinen, das anzeigt, dass der Geräuschpegelbeitrag des Teilnehmers einen oder mehrere Schwellenwerte überschreitet, die das Konferenzerlebnis beeinträchtigen können.
Mit den hier beschriebenen Systemen und Verfahren werden die Anforderungen an die Rechenleistung für das Hosting einer Konferenz- oder Kommunikationsanwendung reduziert. Wenn beispielsweise die Hälfte des Lärms reduziert wird, sei es dadurch, dass sich ein Teilnehmer von einem lauten Ort an einen relativ ruhigen Ort begibt oder manuell Maßnahmen zur Reduzierung des Lärms ergreift, kann die vom Konferenzsystem benötigte Rechenleistung oder der Systembedarf um einen großen Betrag reduziert werden. Da viele der heutigen Computersysteme Cloud-basiert sind und auf der Grundlage der Netzwerk- und/oder CPU-Nutzung abgerechnet werden, können die Einsparungen bei den Rechenressourcen die Kosten für eine Organisation, die eine Kommunikationssitzung oder Kommunikationsanwendung veranstaltet, direkt senken.
Wie oben beschrieben, können die Ergebnisse der Rausch-zu-Stimm-Analyse dem Benutzer über eine Visualisierung angezeigt werden. Ein hoher Rauschabstand kann in Form von fünf fetten vertikalen Balken angezeigt werden, während ein weniger hoher Rauschabstand beispielsweise in Form von drei fetten vertikalen Balken und zwei helleren Balken angezeigt werden kann, wie in 4 dargestellt. Wie zu erkennen ist, handelt es sich bei dem vertikalen Balken in der grafischen Darstellung der Schnittstelle 412 um einen Rauschpegelindikator für den Benutzer, der nicht mit dem Indikator für die Bandbreite/Signalstärke zu verwechseln ist.
In einigen Ausführungsformen kann ein Benutzer, wenn übermäßiges Rauschen oder ein hohes Rausch-Sprach-Verhältnis erkannt wird, in Form einer grafischen Benutzerschnittstellen-Schaltfläche 521 oder eines anderen ähnlichen Schnittstellenelements, wie in 5 dargestellt, benachrichtigt werden, wenn er stummgeschaltet werden soll. In ähnlicher Weise kann, wenn ein Benutzer einer Vielzahl von Benutzern, die an einer Kommunikationssitzung teilnehmen, relativ viel Lärm verursacht und auch als aktiver Sprecher in der Konferenz identifiziert wird, der Benutzer mit einer Warnung zusammen mit einer Empfehlung benachrichtigt werden, zum Beispiel: eine Warnung wie „Sie verursachen viel Lärm in der Konferenz, bitte gehen Sie näher zum Mikrofon‟ kann angezeigt werden.
Wie in 6A dargestellt, kann ein Benutzergerät, das für die Ausführung einer Kommunikationsanwendung konfiguriert ist, so konfiguriert sein, dass es eine Benutzeroberfläche 600 für Besprechungseinstellungen anzeigt. Die Benutzeroberfläche 600 für Besprechungseinstellungen kann auf einem Benutzergerät während einer Kommunikationssitzung oder außerhalb einer Kommunikationssitzung angezeigt werden. Die Benutzeroberfläche 600 für Besprechungseinstellungen kann zur Steuerung von Einstellungen während mit einer Kommunikationsanwendung ausgeführten Kommunikationssitzungen verwendet werden. Beispielsweise kann ein Benutzer über eine Benutzeroberfläche 600 für Besprechungseinstellungen mit einer Reihe von Schaltflächen der grafischen Benutzeroberfläche interagieren. Jede Schaltfläche der grafischen Benutzeroberfläche kann so konfiguriert sein, dass sie eine Einstellung in Bezug auf eine Kommunikationssitzung ändert. In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche verwendet werden, um die automatische Erkennung und/oder Analyse von Geräuschpegeln zu aktivieren oder zu deaktivieren. In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche verwendet werden, um den Geräuschpegel für als laut identifizierte Benutzer zu veranschaulichen. In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche verwendet werden, um die automatische Anzeige von Empfehlungen zur Lärmminderung zu aktivieren oder zu deaktivieren. In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche verwendet werden, um die Anzeige der gemessenen Lärmpegel während einer Kommunikationssitzung zu aktivieren oder zu deaktivieren. In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche verwendet werden, um die automatische Erkennung eines aktiven Sprechers während einer Kommunikationssitzung zu aktivieren oder zu deaktivieren.
Wie in 6B dargestellt, kann ein Benutzergerät, das für die Ausführung einer Kommunikationsanwendung konfiguriert ist, so konfiguriert sein, dass es eine Benutzeroberfläche 603 für Geräuschanalyseeinstellungen anzeigt. Die Benutzerschnittstelle 603 für die Geräuschanalyseeinstellungen kann auf einem Benutzergerät während einer Kommunikationssitzung oder außerhalb einer Kommunikationssitzung angezeigt werden. Die Benutzerschnittstelle 603 für die Geräuschanalyseeinstellungen kann zur Steuerung der Einstellungen während der mit einer Kommunikationsanwendung durchgeführten Kommunikationssitzungen verwendet werden. Über die Benutzeroberfläche 603 für die Geräuschanalyseeinstellungen kann ein Benutzer mit einer Reihe von Schaltflächen der grafischen Benutzeroberfläche interagieren. Jede Schaltfläche der grafischen Benutzeroberfläche kann so konfiguriert sein, dass sie eine Einstellung in Bezug auf eine Kommunikationssitzung ändert.
In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche einer Benutzeroberfläche 603 für Geräuschanalyseeinstellungen verwendet werden, um die Verwendung von künstlicher Intelligenz oder anderen Algorithmen zur Analyse von Audiosignalen in einer Kommunikationssitzung zu aktivieren oder zu deaktivieren, um Sprache zu erkennen. In einer solchen Ausführungsform würde es sich typischerweise um eine Konfiguration handeln, die vom Konferenzadministrator vorgenommen wird.
In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche einer Benutzeroberfläche 603 für Rauschanalyseeinstellungen verwendet werden, um einen Schwellenwert für Rauschen einzustellen. Der Schwellenwert für Rauschen kann auf der Grundlage von Dezibel oder anderen Audioqualitäten angepasst werden. Beispielsweise kann ein Benutzer über die Benutzerschnittstelle 603 für die Geräuschanalyseeinstellungen einen maximalen Geräuschpegel einstellen, indem er einen Schieberegler auf der grafischen Benutzerschnittstelle anpasst. Die Einstellung des maximalen Geräuschpegels kann von einem Prozessor des Benutzergeräts verwendet werden, um zu bestimmen, welcher Geräuschpegel in einem Audiosignal erkannt werden muss, um eine Warnung in einer Kommunikationssitzung auszulösen. Die Benutzerschnittstelle 603 für die Einstellungen wird zwar auf einem Benutzergerät angezeigt, das an einer Kommunikationssitzung teilnimmt, aber solche Einstellungen können auch auf Serverebene von einem Systemadministrator angepasst oder eingestellt werden. In einigen Ausführungsformen können solche Einstellungen auf der Serverebene eingestellt werden und können nicht von einzelnen Benutzern angepasst werden.
In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche einer Benutzeroberfläche 603 für Geräuschanalyseeinstellungen verwendet werden, um ein Stimmprofil für einen Benutzer zu laden. Ein Stimmprofil für einen Benutzer kann von einem System mit künstlicher Intelligenz verwendet werden, um zu erkennen, ob es sich bei einem Audiosignal um eine Stimme des Benutzers oder um externe Geräusche handelt. Es sei darauf hingewiesen, dass in einigen Ausführungsformen kein Stimmprofil für die Analyse erforderlich sein kann.
In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche der Benutzeroberfläche 603 für die Geräuschanalyseeinstellungen verwendet werden, um einen Warnstil für die Verwendung in einer Kommunikationssitzung einzustellen. Beispielsweise kann eine Warnung nur akustisch (z. B. ein Summton oder eine Sprachaufzeichnung), nur visuell (z. B. ein Popup-Fenster der grafischen Benutzeroberfläche während einer Kommunikationssitzung), eine Kombination aus Audio und Video oder überhaupt keine Warnung sein.
In einigen Ausführungsformen kann eine Schaltfläche der grafischen Benutzeroberfläche einer Benutzerschnittstelle 603 für die Geräuschanalyse verwendet werden, um die Art eines Geräuschpegelindikators zur Verwendung in einer Kommunikationssitzung anzupassen. Ein Lärmpegelindikator kann beispielsweise in Form eines Balkendiagramms, das den aktuellen Lärmpegel anzeigt (z. B. ähnlich wie eine Signalstärkevisualisierung), eines Liniendiagramms, das den Lärmpegel für ein vergangenes Zeitintervall anzeigt, eines Tortendiagramms oder gar keines Indikators angezeigt werden.
Wie in 7 dargestellt, kann ein Prozess der Ausführung einer Kommunikationssitzung von einem Prozessor eines Benutzergeräts durchgeführt werden. In einigen Ausführungsformen kann der Prozessor von einem Benutzergerät wie einem Smartphone oder einem Personalcomputer sein. In einigen Ausführungsformen kann ein Prozessor eines Servers oder eines anderen mit dem Netzwerk verbundenen Geräts verwendet werden. Der Prozess von 7 kann mit Schritt 703 beginnen, in dem eine Kommunikationssitzung zwischen zwei oder mehr Benutzergeräten aufgebaut wurde. Die Kommunikationssitzung kann beispielsweise eine Videokonferenz unter Verwendung einer Videokonferenz-Kommunikationsanwendung oder ein Audioanruf unter Verwendung von Smartphones oder einer Voice-over-IP-Anwendung sein.
In Schritt 706 kann ein Prozessor eines Benutzergeräts darauf warten, dass ein Ton erkannt wird. Das Erkennen von Ton kann einfach den Empfang eines Audiosignals von einem Mikrofon des Benutzergeräts oder von einem separaten Benutzergerät umfassen. Zum Beispiel kann ein Benutzergerät eines an der Kommunikationssitzung teilnehmenden Benutzers beim Eintritt in eine Kommunikationssitzung ein Mikrofon aktivieren. Das Mikrofon kann beginnen, Audioinformationen zu sammeln, die vom Prozessor empfangen werden können. Die Audioinformationen können über eine Netzwerkverbindung gesendet und von einem Prozessor eines separaten Geräts empfangen werden.
Sobald ein Geräusch erkannt wird, können einige Ausführungsformen die Erkennung einer Geräuschquelle in Schritt 709 umfassen. Das Erkennen einer Schallquelle kann die Feststellung umfassen, ob der Schall mit einer Stimme oder mit unerwünschten Geräuschen verbunden ist. In einigen Ausführungsformen kann die Erkennung der Geräuschquelle die Feststellung umfassen, ob das Geräusch aus dem Mund eines an der Kommunikationssitzung teilnehmenden Benutzers kommt oder ob das Geräusch von einer bestimmten Art von Geräuschquelle stammt, z. B. von einer Baustelle, einem Lautsprecher, einem Fernseher usw.
In Schritt 712 kann der Prozessor einen Geräuschpegel für das Geräusch ermitteln. Die Ermittlung des Geräuschpegels des Geräuschs kann die Bestimmung einer Lautstärke des Geräuschs in Dezibel umfassen. In einigen Ausführungsformen kann der Geräuschpegel im Verhältnis zum Pegel der im Audiosignal erkannten Stimme bestimmt werden. Der Prozessor kann zum Beispiel ein Audiosignal empfangen, das sowohl Sprachdaten als auch Geräuschdaten enthält. Der Prozessor kann in der Lage sein, das Rauschen von der Stimme zu trennen, um ein Rauschsignal und ein Sprachsignal zu erzeugen. Der Prozessor kann bei der Ermittlung der Pegel nur das Rauschsignal berücksichtigen.
In Schritt 715 kann der Prozessor bestimmen, ob das Geräusch ein Problem darstellt. In einigen Ausführungsformen kann die Bestimmung, ob das erkannte Geräusch ein Problem darstellt, einen einfachen Vergleich des empfangenen Geräuschs oder Audiosignals mit einer Schwellenzahl von Dezibel umfassen. In einigen Ausführungsformen kann die Bestimmung, ob das erkannte Geräusch ein Problem darstellt, den Vergleich eines von einem Sprachsignal getrennten Geräuschsignals mit einer Schwellenzahl von Dezibel umfassen, um zu bestimmen, ob das Geräusch übermäßig ist.
Wenn festgestellt wird, dass das Geräusch ein Problem darstellt, kann der Prozess 700 die Bestimmung umfassen, ob das Geräusch einen akzeptablen Pegel oder einen übermäßigen Pegel an Rauschen in Schritt 718 enthält. Wenn der Prozessor feststellt, dass der Ton einen übermäßigen Geräuschpegel enthält, kann der Prozessor in Schritt 721 einfach eine Warnung erzeugen. In einigen Ausführungsformen können mehrere Lautstärkeschwellenwerte verwendet werden. Beispielsweise kann ein höherer Schwellenwert verwendet werden, um zu bestimmen, ob eine akustische Warnung angezeigt werden soll, und ein niedrigerer Schwellenwert kann verwendet werden, um zu bestimmen, ob eine visuelle Warnung erzeugt werden soll. Wenn eine Warnung erzeugt wird, kann die Warnung akustisch, visuell oder eine Kombination aus akustisch und visuell sein.
Wenn der Prozessor in Schritt 718 feststellt, dass der Ton einen akzeptablen Geräuschpegel enthält, kann der Prozessor als Nächstes in Schritt 724 einen Geräuschpegelindikator, wie z. B. ein Balkendiagramm, ein Messgerät oder eine andere Visualisierung des Geräusch-zu-Sprach-Pegels eines Benutzers, erzeugen. In einigen Ausführungsformen kann der Geräuschpegelindikator automatisch zu Beginn einer Kommunikationssitzung oder bei Erkennung eines sprechenden Benutzers angezeigt werden. Die im Flussdiagramm von 7 und anderen Figuren der vorliegenden Anwendung dargestellten Schritte können auch in einer anderen als der dargestellten Reihenfolge ausgeführt werden. Beispielsweise können die Schritte in beliebiger Reihenfolge ausgeführt werden, nicht nur wie im Flussdiagramm dargestellt. Der Geräuschpegelindikator kann auf Serverebene erzeugt und an jedes an der Kommunikationskonferenz teilnehmende Benutzergerät übertragen werden, oder der Geräuschpegelindikator kann ausschließlich für einen einzelnen an der Kommunikationssitzung teilnehmenden Benutzer erstellt werden. Nachdem der Rauschpegelindikator erzeugt wurde, kann der Prozessor den Rauschpegel im empfangenen Audiosignal überwachen, um festzustellen, ob und wann das übermäßige Rauschen im Audiosignal auf ein angemessenes Niveau gesunken ist oder zu stark geworden ist. Wenn der Prozessor in Schritt 727 feststellt, dass das Rauschen übermäßig geworden ist, kann er in Schritt 730 eine neue Warnung erzeugen.
Nachdem entweder in Schritt 715 festgestellt wurde, dass der Ton im Audiosignal kein Problem darstellt, oder in den Schritten 721 oder 730 eine Warnung erzeugt wurde, kann der Prozess 700 die Bestimmung umfassen, ob der Prozess 700 in Schritt 733 fortgesetzt werden soll. Wenn der Prozess 700 fortgesetzt werden soll, kann der Prozess 700 die Rückkehr zu Schritt 706 umfassen, in dem ein Tonsignal erkannt werden kann. Wenn der Prozess 700 nicht fortgesetzt werden soll, kann der Prozess 700 in Schritt 736 beendet werden.
Wie zu erkennen ist, bezieht sich die obige Beschreibung des Prozesses 700 auf den Empfang und die Analyse eines einzigen Audiosignals. Der Prozess 700 kann mehrmals gleichzeitig oder parallel für jedes Audiosignal von jedem Teilnehmer einer Kommunikationssitzung ausgeführt werden.
Wie in 8 dargestellt, kann ein Prozess zur Ausführung einer Kommunikationssitzung von einem Prozessor eines Benutzergeräts ausgeführt werden. In einigen Ausführungsformen kann der Prozessor von einem Benutzergerät wie einem Smartphone oder einem Personal Computer sein. In einigen Ausführungsformen kann ein Prozessor eines Servers oder eines anderen mit dem Netzwerk verbundenen Geräts verwendet werden. Der Prozess 800 von 8 kann mit Schritt 803 beginnen, in dem eine Kommunikationssitzung zwischen zwei oder mehr Benutzergeräten aufgebaut wurde. Die Kommunikationssitzung kann beispielsweise eine Videokonferenz unter Verwendung einer Videokonferenz-Kommunikationsanwendung oder ein Audioanruf unter Verwendung von Smartphones oder einer Voice-over-IP-Anwendung sein.
In Schritt 806 kann ein Prozessor, wie z. B. ein Prozessor eines Servers, der die Kommunikationssitzung hostet, ein Audiosignal von einem an der Kommunikationssitzung teilnehmenden Benutzergerät empfangen und abtasten. Das Audiosignal kann ein Audiosignal von einem Mikrofon eines an der Kommunikationssitzung teilnehmenden Benutzergeräts umfassen. Zum Beispiel kann ein Benutzergerät eines an der Kommunikationssitzung teilnehmenden Benutzers beim Eintritt in eine Kommunikationssitzung ein Mikrofon aktivieren. Das Mikrofon kann beginnen, Audioinformationen zu sammeln, die vom Prozessor empfangen werden können. Die Audioinformationen können über eine Netzwerkverbindung gesendet und von einem Prozessor eines separaten Geräts empfangen werden.
Sobald das Audiosignal empfangen und abgetastet wurde, können einige Ausführungsformen die Ausführung eines Subsystems zur Analyse und Verarbeitung der Stimmentrennung in Schritt 809 umfassen. Unter Verwendung des Subsystems zur Analyse und Verarbeitung der Stimmentrennung kann der Prozessor des Benutzergeräts oder des Servers das empfangene und abgetastete Audiosignal in Echtzeit analysieren, um zu bestimmen, ob in dem Audiosignal erkannte Merkmale mit einer menschlichen Stimme verbunden sind. Beispielsweise kann der Prozessor den Stream analysieren, um festzustellen, ob die im Stream erfassten Stimmmerkmale in den menschlichen Bereich fallen.
In einigen Ausführungsformen kann das Teilsystem zur Analyse und Verarbeitung der Stimmentrennung das Durchlaufen von Stimmcharakteristikdaten des Audiosignals durch einen Bereichsprüfer umfassen, der prüfen kann, ob die Stimmcharakteristikdaten in den Bereich einer menschlichen Stimme fallen, z. B. 50-70 Dezibel, während externe Geräusche wie hupende Fahrzeuge, vorbeifahrende Fahrzeuge, bellende Hunde usw. eine viel höhere Intensität und einen höheren Bereich als andere Charakteristika haben können.
In einigen Ausführungsformen kann das Teilsystem für die Analyse und Verarbeitung der Stimmentrennung einen Algorithmus der künstlichen Intelligenz oder des tiefen Lernens verwenden, der in der Lage ist, mehrere Muster aus einer Eingabe herauszufiltern. Ein solcher Algorithmus, der allgemein als Cocktailparty-Algorithmus bekannt ist, trennt mehrere Stimmen aus einer Mischung von Stimmen oder anderen Geräuschen heraus.
In Schritt 812 kann das Verfahren 800 die Bestimmung umfassen, ob das empfangene Audiosignal andere Töne als Sprache enthält. Wenn beispielsweise mindestens eines der im Audiosignal eines Benutzers erkannten Stimmmerkmale nicht in den menschlichen Bereich fällt, kann der Prozessor feststellen, dass ein anderer Ton als Sprache erkannt wurde. Wenn kein anderer Ton als Sprache erkannt wurde, kann das Verfahren 800 die Rückkehr zu Schritt 806 und den Empfang zusätzlicher Audiosignale von einem an der Kommunikationssitzung beteiligten Benutzergerät umfassen.
Wenn ein anderer Ton als Sprache erkannt wurde, kann das Verfahren 800 das Trennen des Rauschens im Audiosignal von der Sprache im Audiosignal umfassen. Das abgetrennte Geräuschsignal kann in Schritt 815 durch ein Geräuschidentifizierungssubsystem geleitet werden. In einigen Ausführungsformen kann das abgetrennte Rauschen mit zuvor aufgezeichneten Rauschproben analysiert werden, um festzustellen, welche Art von Rauschen im Audiosignal enthalten ist. Auf diese Weise kann dem Benutzer, der das Audiosignal bereitstellt, eine spezifische Warnung übermittelt werden.
In einigen Ausführungsformen kann der Prozessor so konfiguriert sein, dass er Geräuschsignaldaten mit voraufgezeichneten Mustern von Geräuschquellen vergleicht, wie z. B. ein hupendes Fahrzeug, ein vorbeifahrendes Fahrzeug, ein bellender Hund, zwitschernde Vögel, ein weinendes Baby, ein Klimakompressor, ein laufender Ventilator usw.
Das Teilsystem zur Geräuschidentifizierung kann ein auf künstlicher Intelligenz basierendes System sein, das mit einer Reihe von Geräuschmustern mit entsprechenden Klangeigenschaften trainiert wird. Das Teilsystem zur Geräuschidentifizierung, das mit einer Vielzahl von Geräuschproben trainiert wurde, kann die Trainingsdaten verwenden, um zu erkennen, ob die Geräuschsignaldaten ähnliche Eigenschaften wie die in den Trainingsdaten verwendeten Proben aufweisen. Wenn das Untersystem zur Geräuscherkennung das in den Geräuschsignaldaten enthaltene Geräusch als einem oder mehreren Geräuschen zugehörig identifizieren kann, kann der Prozess mit Schritt 821 fortgesetzt werden. In einigen Ausführungsformen kann ein Schwellenwert für die Zuordnung erforderlich sein, um zu Schritt 821 überzugehen. Beispielsweise kann der Prozessor ein bestimmtes Maß an Sicherheit oder Vertrauen verlangen, um dem Benutzer eine Empfehlung zu geben. Wenn keine Geräuschquelle identifiziert wird oder der Prozessor das Geräusch nicht mit einem bestimmten Grad an Sicherheit oder Vertrauen identifiziert hat, kann der Prozess in Schritt 824 enden.
Wenn in Schritt 821 eine Lärmquelle identifiziert oder mit einem bestimmten Grad an Sicherheit oder Vertrauen geschätzt wurde, kann dem Benutzer eine Warnung gegeben werden. Zum Beispiel kann der Prozessor eine Identifikation des identifizierten Geräusches an ein Warn-Teilsystem übermitteln. Das Warn-Teilsystem kann so konfiguriert sein, dass es den Benutzer über die spezifische Geräuschquelle informiert, die im Audiosignal des Benutzers identifiziert wurde, und den Benutzer warnt, dass das vom Benutzer beigetragene Geräusch die spezifische Geräuschquelle enthält. So kann das Warnteilsystem den Benutzer beispielsweise darüber informieren, dass das Audiosignal des Benutzers Hundegebell, Fahrzeuggeräusche usw. enthält. In einigen Ausführungsformen kann dem Benutzer eine Empfehlung gegeben werden, z. B. Anweisungen zur Lärmreduzierung durch Austausch eines Mikrofons, Ausschalten einer Klimaanlage oder eines Ventilators, Schließen eines Fensters usw.
Ausführungsformen der vorliegenden Offenbarung umfassen ein Verfahren zum Steuern der Tonqualität einer Kommunikationssitzung, wobei das Verfahren umfasst: Empfangen von Audiosignalen von einem ersten Benutzergerät, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt, mit einem Prozessor; Bestimmen, durch den Prozessor, dass die Audiosignale einen Geräuschpegel umfassen; Bestimmen, durch den Prozessor, dass der Geräuschpegel einen Schwellenwert überschreitet; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, eines oder mehrere der Folgenden: Erzeugen, durch den Prozessor, einer Warnung für den ersten Benutzer; und Erzeugen, durch den Prozessor, einer graphischen Darstellung des Geräuschpegels für den ersten Benutzer in der Kommunikationssitzung
Aspekte des obigen Verfahrens schließen ein, dass der Prozessor zu einem Server gehört, der die Kommunikationssitzung hostet.
Aspekte des obigen Verfahrens schließen ein, dass die Bestimmung des Rauschpegels, der den Schwellenwert überschreitet, die Analyse eines Rausch-zu-Stimme-Verhältnisses für das Audio umfasst.
Zu den Aspekten des obigen Verfahrens gehört, dass der Prozessor zu einem zweiten Benutzergerät gehört, das mit einem zweiten Benutzer verbunden ist, der an der Kommunikationssitzung teilnimmt, wobei das Verfahren ferner die Anzeige einer Empfehlung umfasst, dass der zweite Benutzer den ersten Benutzer manuell stumm schaltet.
Aspekte des obigen Verfahrens schließen ein, dass das Bestimmen des Audios, das den Geräuschpegel umfasst, das Verarbeiten des empfangenen Audios mit einem neuronalen Netzwerk umfasst, um Sprachdaten von Geräuschdaten zu trennen.
Aspekte des obigen Verfahrens schließen ein, dass die Feststellung, dass der Geräuschpegel den Schwellenwert überschreitet, nicht mit den Sprachdaten zusammenhängt.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner das Erzeugen einer grafischen Darstellung des Geräuschpegels zur Anzeige auf dem ersten Benutzergerät umfasst.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner die Bestimmung des Geräuschpegels umfasst, der nicht mit einer Stimme des ersten Benutzers in Zusammenhang steht.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner die Bestimmung umfasst, dass der erste Benutzer ein aktiver Sprecher in der Kommunikationssitzung ist.
Aspekte des obigen Verfahrens schließen ein, dass das Bestimmen, dass der erste Benutzer der aktive Sprecher ist, das Erfassen von Lautstärke-, Tonhöhen-, Bereichs- und Tondaten umfasst, die mit dem empfangenen Audio verbunden sind.
Aspekte des obigen Verfahrens beinhalten, dass die Kommunikationssitzung entweder eine Sprachkommunikation oder eine Videokommunikation ist.
Aspekte des obigen Verfahrens beinhalten, dass die Warnung eine oder mehrere visuelle oder akustische Nachrichten ist.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner das Bestimmen eines Geräuschpegelbeitrags für jeden einer Mehrzahl von Benutzern, die an der Kommunikationssitzung teilnehmen, umfasst.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner das Erzeugen einer grafischen Darstellung des Geräuschpegelbeitrags für jeden der Vielzahl von Benutzern, die an der Kommunikationssitzung teilnehmen, umfasst.
Aspekte des obigen Verfahrens schließen ein, dass das Verfahren ferner das Bestimmen einer Rauschquelle in dem Audio umfasst.
Aspekte des obigen Verfahrens beinhalten, dass die Warnung für den ersten Benutzer eine Identifizierung der bestimmten Geräuschquelle im Ton umfasst.
Ausführungsformen der vorliegenden Offenbarung umfassen ein System zum Überwachen und/oder Steuern der Tonqualität einer Kommunikationssitzung, wobei das System umfasst: einen Prozessor; und ein computerlesbares Speichermedium, das computerlesbare Anweisungen speichert, die, wenn sie von dem Prozessor ausgeführt werden, den Prozessor veranlassen,: Empfangen von Audiosignalen von einem ersten Benutzergerät, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt; Bestimmen, dass die Audiosignale einen Geräuschpegel umfassen; Bestimmen, dass der Geräuschpegel einen Schwellenwert überschreitet; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, Erzeugen einer oder mehrerer der folgenden Maßnahmen: Erzeugen einer Warnung für den ersten Benutzer; und Erzeugen einer grafischen Darstellung des Geräusches.
Aspekte des obigen Systems beinhalten, dass das Bestimmen der Audiodaten den Geräuschpegel umfasst, indem die empfangenen Audiodaten mit einem neuronalen Netzwerk verarbeitet werden, um Sprachdaten von Geräuschdaten zu trennen.
Aspekte des obigen Systems schließen ein, dass die Anweisungen den Prozessor ferner veranlassen, einen Geräuschpegelbeitrag für jeden einer Vielzahl von Benutzern zu bestimmen, die an der Kommunikationssitzung teilnehmen.
Aspekte des obigen Systems umfassen, dass die Anweisungen den Prozessor ferner veranlassen, eine grafische Darstellung des Rauschpegelbeitrags für jeden der mehreren an der Kommunikationssitzung teilnehmenden Benutzer zu erzeugen.
Ausführungsformen der vorliegenden Offenbarung umfassen ein Computerprogrammprodukt zum Steuern der Tonqualität einer Kommunikationssitzung, wobei das Computerprogrammprodukt ein nichttransitorisches computerlesbares Speichermedium mit darin verkörpertem computerlesbarem Programmcode umfasst, wobei der computerlesbare Programmcode bei Ausführung durch einen Prozessor so konfiguriert ist, dass er: Empfangen von Audiosignalen von einem ersten Benutzergerät, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt; Bestimmen, dass die Audiosignale einen Geräuschpegel umfassen; Bestimmen, dass der Geräuschpegel einen Schwellenwert überschreitet; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, eines oder mehrere der folgenden Dinge: Erzeugen einer Warnung für den ersten Benutzer; und Erzeugen einer grafischen Darstellung der Geräuschbeiträge des ersten Benutzergeräts in der Kommunikationssitzung.
Beispiele für die hier beschriebenen Prozessoren sind unter anderem mindestens einer der folgenden Prozessoren: Qualcomm® Snapdragon® 800, 810, 820, Qualcomm® Snapdragon® 610 und 615 mit 4G LTE-Integration und 64-Bit-Computing, Apple® A7 Prozessor mit 64-Bit-Architektur, Apple® M7 Motion Coprozessoren, Samsung® Exynos® Serie, die Intel® Core™ Prozessorfamilie, die Intel® Xeon® Prozessorfamilie, die Intel® Atom™ Prozessorfamilie, die Intel Itanium® Prozessorfamilie, Intel® Core® i5-4670K und i7-4770K 22nm Haswell, Intel® Core® i5-3570K 22nm Ivy Bridge, die AVD® FX™ Prozessorfamilie, AMD® FX-4300, FX-6300 und FX-8350 32nm Vishera, AMD® Kaveri Prozessoren, Texas Instruments® Jacinto C6000™ Automotive Infotainment Prozessoren, Texas Instruments® OMAP™ automotive-grade mobile Prozessoren, ARM® Cortex™-M-Prozessoren, ARM® Cortex-A- und ARM926EJ-S™-Prozessoren, Rockchip RK3399-Prozessor, andere industrieäquivalente Prozessoren, und können Rechenfunktionen unter Verwendung aller bekannten oder zukünftig entwickelten Standards, Befehlssätze, Bibliotheken und/oder Architekturen ausführen.
Alle hier beschriebenen Schritte, Funktionen und Vorgänge können kontinuierlich und automatisch durchgeführt werden.
Um die vorliegende Offenbarung jedoch nicht unnötig zu verschleiern, wird in der vorangehenden Beschreibung eine Reihe bekannter Strukturen und Vorrichtungen weggelassen. Diese Auslassung ist nicht als eine Einschränkung des Umfangs der beanspruchten Offenbarung zu verstehen. Spezifische Details werden dargelegt, um das Verständnis der vorliegenden Offenbarung zu erleichtern. Es sollte jedoch gewürdigt werden, dass die vorliegende Offenbarung über die hier dargelegten spezifischen Details hinaus auf vielfältige Weise praktiziert werden kann.
Während die hierin dargestellten beispielhaften Ausführungsformen die verschiedenen Komponenten des Systems an einem Ort zeigen, können bestimmte Komponenten des Systems auch entfernt, in entfernten Teilen eines verteilten Netzwerks, wie z. B. einem LAN und/oder dem Internet, oder innerhalb eines dedizierten Systems angeordnet sein. Die Komponenten des Systems können also zu einem oder mehreren Geräten kombiniert oder an einem bestimmten Knoten eines verteilten Netzes, z. B. eines analogen und/oder digitalen Telekommunikationsnetzes, eines Paketvermittlungsnetzes oder eines leitungsvermittelten Netzes, untergebracht werden. Aus der vorangegangenen Beschreibung und aus Gründen der Recheneffizienz wird deutlich, dass die Komponenten des Systems an einem beliebigen Ort innerhalb eines verteilten Netzwerks von Komponenten angeordnet werden können, ohne dass dies den Betrieb des Systems beeinträchtigt. Beispielsweise können sich die verschiedenen Komponenten in einer Vermittlungsstelle wie einer Telefonanlage und einem Medienserver, einem Gateway, in einem oder mehreren Kommunikationsgeräten, in den Räumlichkeiten eines oder mehrerer Benutzer oder einer Kombination davon befinden. In ähnlicher Weise können ein oder mehrere funktionale Teile des Systems zwischen einem oder mehreren Telekommunikationsgeräten und einem zugehörigen Computergerät verteilt sein.
Darüber hinaus kann es sich bei den verschiedenen Verbindungen, die die Elemente miteinander verbinden, um drahtgebundene oder drahtlose Verbindungen oder eine beliebige Kombination davon oder um andere bekannte oder später entwickelte Elemente handeln, die in der Lage sind, Daten an die und von den verbundenen Elementen zu liefern und/oder zu übermitteln. Bei diesen drahtgebundenen oder drahtlosen Verbindungen kann es sich auch um sichere Verbindungen handeln, die in der Lage sind, verschlüsselte Informationen zu übermitteln. Als Übertragungsmedien für die Verbindungen können beispielsweise alle geeigneten Träger für elektrische Signale verwendet werden, einschließlich Koaxialkabel, Kupferdraht und Glasfasern, und sie können die Form von akustischen oder Lichtwellen haben, wie sie bei der Datenkommunikation über Funk und Infrarot erzeugt werden.
Auch wenn die Flussdiagramme in Bezug auf eine bestimmte Abfolge von Ereignissen erörtert und illustriert wurden, sollte man sich darüber im Klaren sein, dass Änderungen, Ergänzungen und Auslassungen dieser Abfolge auftreten können, ohne die Funktionsweise der Offenbarung wesentlich zu beeinträchtigen.
Eine Reihe von Variationen und Modifikationen der Offenbarung können verwendet werden. Es wäre möglich, einige Merkmale der Offenbarung vorzusehen, ohne andere vorzusehen.
In einer weiteren Ausführungsform können die Systeme und Verfahren dieser Offenbarung in Verbindung mit einem Spezialcomputer, einem programmierten Mikroprozessor oder Mikrocontroller und peripheren integrierten Schaltungselementen, einem ASIC oder einer anderen integrierten Schaltung, einem digitalen Signalprozessor, einer fest verdrahteten elektronischen oder logischen Schaltung, wie z. B. einer Schaltung mit diskreten Elementen, einem programmierbaren logischen Bauelement oder Gate-Array, wie z. B. PLD, PLA, FPGA, PAL, einem Spezialcomputer, einem vergleichbaren Mittel oder dergleichen implementiert werden. Im Allgemeinen kann jedes Gerät oder jedes Mittel, das in der Lage ist, die hier dargestellte Methodik zu implementieren, zur Umsetzung der verschiedenen Aspekte dieser Offenbarung verwendet werden. Beispielhafte Hardware, die für die vorliegende Offenbarung verwendet werden kann, umfasst Computer, Handgeräte, Telefone (z. B. zellulare, internetfähige, digitale, analoge, hybride und andere) und andere in der Technik bekannte Hardware. Einige dieser Geräte umfassen Prozessoren (z. B. einen einzelnen oder mehrere Mikroprozessoren), Speicher, nichtflüchtige Speicher, Eingabegeräte und Ausgabegeräte. Darüber hinaus können alternative Software-Implementierungen, einschließlich, aber nicht beschränkt auf, verteilte Verarbeitung oder verteilte Verarbeitung von Komponenten/Objekten, parallele Verarbeitung oder Verarbeitung durch virtuelle Maschinen, entwickelt werden, um die hier beschriebenen Methoden zu implementieren.
In einer weiteren Ausführungsform können die offengelegten Methoden leicht in Verbindung mit Software unter Verwendung von objekt- oder objektorientierten Softwareentwicklungsumgebungen implementiert werden, die portablen Quellcode bereitstellen, der auf einer Vielzahl von Computer- oder Workstation-Plattformen verwendet werden kann. Alternativ dazu kann das offengelegte System teilweise oder vollständig in Hardware unter Verwendung von Standard-Logikschaltungen oder VLSI-Design implementiert werden. Ob Software oder Hardware verwendet wird, um die Systeme gemäß dieser Offenbarung zu implementieren, hängt von den Geschwindigkeits- und/oder Effizienzanforderungen des Systems, der besonderen Funktion und den besonderen Software- oder Hardwaresystemen oder Mikroprozessor- oder Mikrocomputersystemen ab, die verwendet werden.
In einer weiteren Ausführungsform können die offengelegten Verfahren teilweise in Software implementiert werden, die auf einem Speichermedium gespeichert und auf einem programmierten Mehrzweckcomputer in Zusammenarbeit mit einem Controller und einem Speicher, einem Spezialcomputer, einem Mikroprozessor oder dergleichen ausgeführt werden kann. In diesen Fällen können die Systeme und Methoden dieser Offenbarung als ein in einen Personalcomputer eingebettetes Programm, wie z. B. ein Applet, ein JAVA®- oder CGI-Skript, als eine auf einem Server oder einer Computerarbeitsstation befindliche Ressource, als eine in ein spezielles Messsystem, eine Systemkomponente oder ähnliches eingebettete Routine implementiert werden. Das System kann auch implementiert werden, indem das System und/oder die Methode physisch in ein Software- und/oder Hardwaresystem integriert wird.
Obwohl die vorliegende Offenbarung Komponenten und Funktionen beschreibt, die in den Ausführungsformen unter Bezugnahme auf bestimmte Standards und Protokolle implementiert sind, ist die Offenbarung nicht auf solche Standards und Protokolle beschränkt. Andere ähnliche, hier nicht erwähnte Normen und Protokolle sind vorhanden und werden als in der vorliegenden Offenbarung enthalten betrachtet. Darüber hinaus werden die hier erwähnten Normen und Protokolle sowie andere ähnliche, hier nicht erwähnte Normen und Protokolle regelmäßig durch schnellere oder effektivere Äquivalente ersetzt, die im Wesentlichen dieselben Funktionen haben. Solche Ersatznormen und -protokolle, die die gleichen Funktionen haben, werden als Äquivalente betrachtet, die in der vorliegenden Offenlegung enthalten sind.
Die vorliegende Offenbarung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten Komponenten, Verfahren, Prozesse, Systeme und/oder Geräte, die im Wesentlichen wie hierin dargestellt und beschrieben sind, einschließlich verschiedener Ausführungsformen, Unterkombinationen und Teilmengen davon. Diejenigen, die auf dem Gebiet der Technik bewandert sind, werden nach dem Verständnis der vorliegenden Offenbarung verstehen, wie man die hierin offengelegten Systeme und Verfahren herstellt und verwendet. Die vorliegende Offenbarung umfasst in verschiedenen Ausführungsformen, Konfigurationen und Aspekten die Bereitstellung von Vorrichtungen und Verfahren in Abwesenheit von Elementen, die hier nicht dargestellt und/oder beschrieben sind, oder in verschiedenen Ausführungsformen, Konfigurationen oder Aspekten hiervon, einschließlich in Abwesenheit solcher Elemente, die in früheren Vorrichtungen oder Verfahren verwendet worden sein können, z. B. zur Verbesserung der Leistung, zur Erzielung von Einfachheit und zur Verringerung der Implementierungskosten.
Die vorstehende Erörterung der Offenbarung wurde zum Zwecke der Veranschaulichung und Beschreibung dargestellt. Das Vorstehende soll die Offenbarung nicht auf die hierin offengelegte(n) Form(en) beschränken. In der vorstehenden detaillierten Beschreibung sind beispielsweise verschiedene Merkmale der Offenbarung in einer oder mehreren Ausführungsformen, Konfigurationen oder Aspekten zusammengefasst, um die Offenbarung zu vereinfachen. Die Merkmale der Ausführungsformen, Konfigurationen oder Aspekte der Offenbarung können in alternativen Ausführungsformen, Konfigurationen oder Aspekten kombiniert werden, die von den oben beschriebenen abweichen. Diese Art der Offenbarung ist nicht so zu verstehen, dass die beanspruchte Offenbarung mehr Merkmale erfordert, als in den einzelnen Ansprüchen ausdrücklich aufgeführt sind. Wie aus den folgenden Ansprüchen hervorgeht, liegen erfinderische Aspekte vielmehr in weniger als allen Merkmalen einer einzigen zuvor offenbarten Ausführungsform, Konfiguration oder eines Aspekts. Daher werden die folgenden Ansprüche hiermit in diese ausführliche Beschreibung aufgenommen, wobei jeder Anspruch für sich allein als eine separate bevorzugte Ausführungsform der Offenbarung steht.
Obwohl in der Beschreibung der Offenbarung eine oder mehrere Ausführungsformen, Konfigurationen oder Aspekte sowie bestimmte Variationen und Modifikationen beschrieben wurden, fallen auch andere Variationen, Kombinationen und Modifikationen in den Anwendungsbereich der Offenbarung, z. B. solche, die nach dem Verständnis der vorliegenden Offenbarung zum Fachwissen der Fachleute gehören. Es ist beabsichtigt, Rechte zu erlangen, die alternative Ausführungsformen, Konfigurationen oder Aspekte umfassen, soweit dies zulässig ist, einschließlich alternativer, austauschbarer und/oder äquivalenter Strukturen, Funktionen, Bereiche oder Schritte zu den beanspruchten, unabhängig davon, ob solche alternativen, austauschbaren und/oder äquivalenten Strukturen, Funktionen, Bereiche oder Schritte hier offenbart sind oder nicht, und ohne die Absicht, irgendeinen patentierbaren Gegenstand öffentlich zu widmen.

Claims

Verfahren zum Überwachen und Steuern der Tonqualität einer Kommunikationssitzung, wobei das Verfahren Folgendes umfasst: Empfangen von Audiosignalen von einem ersten Benutzergerät, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt, mit einem Prozessor, Bestimmen, durch den Prozessor, dass der Ton einen Rauschpegel umfasst; Erzeugen, durch den Prozessor, einer graphischen Darstellung des Rauschpegels für den ersten Benutzer in der Kommunikationssitzung; Bestimmen, durch den Prozessor, dass der Rauschpegel einen Schwellenwert überschreitet; und basierend auf der Feststellung, dass der Rauschpegel den Schwellenwert überschreitet, Erzeugen einer Warnung für den ersten Benutzer durch den Prozessor.
Verfahren nach Anspruch 1, wobei das Bestimmen, dass der Rauschpegel den Schwellenwert überschreitet, das Analysieren eines Rausch-zu-Stimme-Verhältnisses für den Ton umfasst.
Verfahren nach Anspruch 1, ferner umfassend das Erzeugen einer Warnung oder Empfehlung für ein zweites Benutzergerät, das mit einem zweiten an der Kommunikationssitzung teilnehmenden Benutzer verbunden ist.
Verfahren nach Anspruch 1, wobei das Bestimmen, dass das Tonmaterial den Rauschpegel umfasst, das Verarbeiten des empfangenen Tonmaterials mit einem neuronalen Netzwerk umfasst, um Sprachdaten von Geräuschdaten zu trennen.
Verfahren nach Anspruch 4, wobei die Feststellung, dass der Geräuschpegel den Schwellenwert überschreitet, nicht mit den Sprachdaten zusammenhängt.
Verfahren nach Anspruch 1, ferner umfassend die Erzeugung einer grafischen Darstellung des Geräuschpegels zur Anzeige auf dem ersten Benutzergerät.
Verfahren nach Anspruch 1, ferner umfassend die Feststellung, dass der Geräuschpegel nichts mit der Stimme des ersten Benutzers zu tun hat.
Verfahren nach Anspruch 1, ferner umfassend die Feststellung, dass der erste Benutzer ein aktiver Sprecher in der Kommunikationssitzung ist.
System zur Überwachung und Steuerung der Tonqualität einer Kommunikationssitzung, wobei das System Folgendes umfasst: einen Prozessor; und ein computerlesbares Speichermedium, das computerlesbare Anweisungen speichert, die, wenn sie von dem Prozessor ausgeführt werden, den Prozessor veranlassen,: Audio von einem ersten Benutzergerät zu empfangen, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt; Bestimmen, dass das Audio einen Rauschpegel umfasst; Erzeugen einer grafischen Darstellung des Geräuschpegels für den ersten Benutzer in der Kommunikationssitzung; Bestimmen, dass der Geräuschpegel einen Schwellenwert überschreitet; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, eine Warnung für den ersten Benutzer zu erzeugen.
Computerprogrammprodukt zum Überwachen und Steuern der Tonqualität einer Kommunikationssitzung, wobei das Computerprogrammprodukt ein nichttransitorisches, computerlesbares Speichermedium mit darin verkörpertem computerlesbarem Programmcode umfasst, wobei der computerlesbare Programmcode bei Ausführung durch einen Prozessor so konfiguriert ist, dass er: Audio von einem ersten Benutzergerät zu empfangen, das einem ersten Benutzer zugeordnet ist, der an der Kommunikationssitzung teilnimmt; Bestimmen, dass das Audio einen Rauschpegel umfasst; Erzeugen einer grafischen Darstellung des Geräuschpegels für den ersten Benutzer in der Kommunikationssitzung; Bestimmen, dass der Geräuschpegel einen Schwellenwert überschreitet; und basierend auf der Bestimmung, dass der Geräuschpegel den Schwellenwert überschreitet, eine Warnung für den ersten Benutzer zu erzeugen.