DE112021005577T5 - Sprecherspezifisches verstärken von stimmen - Google Patents

Sprecherspezifisches verstärken von stimmen Download PDF

Info

Publication number
DE112021005577T5
DE112021005577T5 DE112021005577.1T DE112021005577T DE112021005577T5 DE 112021005577 T5 DE112021005577 T5 DE 112021005577T5 DE 112021005577 T DE112021005577 T DE 112021005577T DE 112021005577 T5 DE112021005577 T5 DE 112021005577T5
Authority
DE
Germany
Prior art keywords
user
acoustic model
live
speech
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112021005577.1T
Other languages
English (en)
Inventor
Rachel Ostrand
Sundar Saranathan
Fang Lu
Carla Paola Agurto Rios
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112021005577T5 publication Critical patent/DE112021005577T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1083In-session procedures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/401Support for services or applications wherein the services involve a main real-time session and one or more additional parallel real-time or time sensitive sessions, e.g. white board sharing or spawning of a subconference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Verfahren, System und Computerprogrammprodukt zum Verstärken einer einzelnen Stimme während eines Audiogesprächs. Eine Ausführungsform des Verfahrens kann ein Empfangen einer Tonprobe von Sprache eines Benutzers durch eine Datenverarbeitungseinheit und ein Erzeugen eines benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit zum Verstärken von Sprache des Benutzers auf der Grundlage der Tonprobe aufweisen. Das Verfahren kann außerdem umfassen: ein Empfangen eines audiovisuellen Livestreams, wobei der audiovisuelle Livestream Live-Sprache des Benutzers während eines Audiogesprächs umfasst, wobei der audiovisuelle Livestream Hintergrundgeräusche umfasst, und ein Verwenden des benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit zum selektiven Verstärken der Live-Sprache während des audiovisuellen Livestreams, ohne die Hintergrundgeräusche zu verstärken.

Description

  • HINTERGRUND
  • Die vorliegende Offenbarung betrifft eine digitale Signalverarbeitung und insbesondere ein sprecherspezifisches System und Verfahren zum Verstärken von Stimmen.
  • Die Entwicklung des EDVAC-Systems im Jahr 1948 wird oft als Beginn des Computerzeitalters bezeichnet. Seit dieser Zeit haben sich Computersysteme zu äußerst komplizierten Einheiten entwickelt. Moderne Computersysteme umfassen in der Regel eine Kombination von hochentwickelten Hardware- und Software-Komponenten, Anwendungsprogrammen, Betriebssystemen, Prozessoren, Bussen, Speicher, Ein-/Ausgabeeinheiten und so weiter. Da Fortschritte in der Halbleiterverarbeitung und der Computerarchitektur die Leistung immer weiter steigern, hat sich auch die Computer-Software weiterentwickelt, um die höhere Leistungsfähigkeit dieser Ressourcen zu nutzen, was dazu geführt hat, dass Computersysteme heutzutage viel leistungsfähiger sind als noch vor ein paar Jahren.
  • Eine Einsatzmöglichkeit dieser neuen Ressourcen ist das Mobiltelefon. Heutzutage telefonieren Menschen regelmäßig an öffentlichen Orten (z.B. in einem Cafe oder im Zug) oder arbeiten mit Fernzugriff. In diesen Umgebungen können Hintergrundgeräusche von Kindern, Ehepartnern, Haustieren, Bauarbeiten und vielen anderen Faktoren die Gespräche stören.
  • KURZDARSTELLUNG
  • Verfahren zum Verwenden einer Datenverarbeitungseinheit zum Verstärken einer einzelnen Stimme während eines Audiogesprächs gemäß Ausführungsformen der vorliegenden Offenbarung. Eine Ausführungsform des Verfahrens kann ein Empfangen einer Tonprobe von Sprache eines Benutzers durch eine Datenverarbeitungseinheit und ein Erzeugen eines benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit aufweisen, um Sprache des Benutzers auf der Grundlage der Tonprobe zu verstärken. Das Verfahren kann außerdem ein Empfangen eines audiovisuellen Livestreams umfassen, wobei der audiovisuelle Livestream Live-Sprache des Benutzers während eines Audiogesprächs umfasst, wobei der audiovisuelle Livestream Hintergrundgeräusche umfasst, und ein Verwenden des benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit, um die Live-Sprache während des audiovisuellen Livestreams selektiv zu verstärken, ohne die Hintergrundgeräusche zu verstärken.
  • Computerprogrammprodukt zum selektiven Verstärken der Stimme eines Benutzers unter Verwenden eines vortrainierten akustischen Modells gemäß Ausführungsformen der vorliegenden Offenbarung. Eine Ausführungsform des Computerprogrammprodukts kann ein durch einen Computer lesbares Speichermedium mit darin verkörperten Programmanweisungen aufweisen. Die Programmanweisungen können von einem Prozessor ausgeführt werden, um den Prozessor zu veranlassen, Sprachdaten für einen Benutzer aus einer vorhandenen Sprachprobe zu extrahieren, ein vortrainiertes akustisches Modell für den Benutzer aus den Sprachdaten zu erstellen, einen Audiostrom aus einem Konferenzgespräch zu analysieren, ein Vorhandensein von Hintergrundgeräuschen in dem Audiostrom zu erkennen und das vortrainierte akustische Modell auf den Audiostrom anzuwenden, um selektiv die Stimme des Benutzers und nicht das Hintergrundgeräusch zu verstärken.
  • Computersystem zum Verstärken einer einzelnen Stimme während eines Audiogesprächs gemäß Ausführungsformen der vorliegenden Offenbarung. Eine Ausführungsform des Systems kann einen Prozessor aufweisen, der so konfiguriert ist, dass er Programmanweisungen ausführt, die bei Ausführen auf dem Prozessor den Prozessor dazu veranlassen, eine Tonprobe von Sprache von einem Benutzer zu empfangen, ein benutzerspezifisches akustisches Modell zum Verbessern der Sprache durch den Benutzer auf der Grundlage der Tonprobe zu erzeugen; einen audiovisuellen Livestream zu empfangen, wobei der audiovisuelle Livestream Live-Sprache durch den Benutzer während eines Audiogesprächs umfasst, wobei der audiovisuelle Livestream Hintergrundgeräusche umfasst, und das benutzerspezifische akustische Modell zu verwenden, um die Live-Sprache während des audiovisuellen Livestreams selektiv zu verstärken, ohne die Hintergrundgeräusche zu verstärken.
  • Die obige Kurzdarstellung soll nicht jede veranschaulichte Ausführungsform oder jede Implementierung der vorliegenden Offenbarung beschreiben.
  • Figurenliste
  • Die in der vorliegenden Anmeldung enthaltenen Zeichnungen sind Bestandteil der Beschreibung und in diese integriert. Sie veranschaulichen Ausführungsformen der vorliegenden Offenbarung und dienen zusammen mit der Beschreibung dazu, die Grundgedanken der Offenbarung zu erläutern. Die Zeichnungen dienen nur zur Veranschaulichung bestimmter Ausführungsformen und schränken die Offenbarung nicht ein.
    • 1 veranschaulicht eine Ausführungsform eines Datenverarbeitungssystems (DVS) gemäß einigen Ausführungsformen.
    • 2 zeigt eine Cloud-Computing-Umgebung gemäß einigen Ausführungsformen.
    • 3 zeigt Abstraktionsmodellschichten gemäß einigen Ausführungsformen.
    • 4 ist eine Systemdarstellung einer Datenverarbeitungsumgebung gemäß einigen Ausführungsformen.
    • 5 ist ein Ablaufplan eines Geräuschunterdrückungsdienstes im Betrieb gemäß einigen Ausführungsformen.
    • 6 ist ein Ablaufplan, der ein Verfahren zum Trainieren eines Modells für maschinelles Lernen gemäß einigen Ausführungsformen veranschaulicht.
    • 7 ist ein Ablaufplan eines Konferenzsystems im Betrieb gemäß einigen Ausführungsformen.
  • Zwar ist die Erfindung für verschiedene Modifikationen und alternative Formen offen, Einzelheiten davon werden beispielhaft in den Zeichnungen gezeigt und ausführlich beschrieben. Es sollte jedoch klar sein, dass keine Absicht besteht, die Erfindung auf die beschriebenen besonderen Ausführungsformen zu beschränken. Vielmehr sollen alle Modifikationen, Äquivalente und Alternativen abgedeckt werden, die in den Anwendungsbereich der Erfindung fallen.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Aspekte der vorliegenden Offenbarung betreffen eine digitale Signalverarbeitung; insbesondere betreffen Aspekte ein sprecherspezifisches System und Verfahren zum Verstärken von Stimmen. Zwar ist die vorliegende Offenbarung nicht notwendigerweise auf derartige Anwendungen beschränkt, verschiedene Aspekte der Offenbarung können jedoch durch eine Erläuterung verschiedener Beispiele in diesem Kontext verstanden werden.
  • Einige Ausführungsformen der Offenbarung können ein System umfassen, das ein sprecherspezifisches akustisches Modell eines Benutzers aus einer Aufnahme erstellt. Einige Ausführungsformen können anschließend das sprecherspezifische akustische Modell verwenden, um die Stimme des Benutzers in zukünftigen Live-Audioströmen und/oder audiovisuellen Livestreams zu isolieren, so dass diese Ausführungsformen eine Lautstärke von lediglich dem Teil des Signals erhöhen können, der den gesprochenen Inhalt des Benutzers enthält, und/oder eine Lautstärke von Geräuschen aus unerwünschten Quellen (z.B. Hintergrund) reduzieren können. Das heißt, einige Ausführungsformen können: (a) unerwünschte Hintergrundgeräusche reduzieren/entfernen; und (b) die eigene Stimme des Sprechers verstärken. Zu den Hintergrundgeräuschen können wiederum relativ statische Geräusche gehören, die vom Konferenzsystem selbst erzeugt werden (z.B. statische Geräusche, die vom Mikrofon des Benutzers aufgezeichnet und/oder erzeugt werden, Artefakte, die beim digitalen Komprimieren oder Übertragen des Mikrofonausgangs entstehen, usw.), relativ statische Geräusche, die von Umgebungsquellen erzeugt werden (z.B. lokale HLK-Ausrüstung (HVAC equipment), Motoren- und Reifengeräusche von Autos, Triebwerksgeräusche von Flugzeugen usw.), dynamische Geräusche (z.B. andere Personen, die in der Nähe sprechen, Geräusche, die von Baumaschinen und -prozessen in der Nähe erzeugt werden, Hundegebell, Sirenen von Krankenwagen usw.) und weitere Geräusche, bei denen es sich nicht um die eigene Stimme des Sprechers handelt.
  • Im Betrieb kann der Benutzer zunächst seine Stimme in einer ruhigen Umgebung (d.h. im Wesentlichen ohne Hintergrundgeräusche) aufnehmen, wodurch eine saubere Zielaufnahme oder ein Satz von Aufnahmen erstellt wird. Einige Ausführungsformen können anschließend die sauberen Aufnahmen analysieren, um einen oder mehrere Parameter für ein Sprachprofil zu erzeugen. Einige Ausführungsformen können sodann das sprecherspezifische akustische Modell der Stimme des Benutzers unter Verwenden des einen oder mehrerer Parameter erstellen. Dieses sprecherspezifische akustische Modell kann speziell auf die Stimmmerkmale des jeweiligen Benutzers abgestimmt werden (d.h., jedem Benutzer kann ein anderes oder sogar einzigartiges akustisches Modell zugehörig sein). Auf diese Weise kann das sprecherspezifische akustische Modell an Merkmale der Stimme und Sprachmuster des jeweiligen Benutzers angepasst werden, z.B. an die Tonhöhe und den Frequenzbereich.
  • Sobald das akustische Modell erstellt und/oder trainiert ist, können dieselben Merkmale zum Erstellen der Modelle aus den künftigen Live-Audioströmen und/oder audiovisuellen Livestreams extrahiert und verarbeitet werden. Wenn keine Modifikation an diesen Streams erforderlich ist, kann die ursprüngliche Eingabe an eine Netzwerkplattform übertragen werden; andernfalls kann das offenbarte System das Signal verbessern und es nahezu in Echtzeit (z.B. weniger als 100 ms) an die Plattform (und/oder andere Teilnehmer an einer Telefonkonferenz) übertragen. Dieser Prozess kann ein Messen von Hintergrundgeräuschen und ein Dämpfen dieser Geräusche auf annehmbare Pegel umfassen (z.B. ähnlich denen, die während des anfänglichen Trainierens gefunden wurden). Das Modell in diesen Ausführungsformen kann verschiedene Sprachmuster untersuchen und analysieren, die den sprecherspezifischen Merkmalen eines Benutzers zugehörig sind, die beim anfänglichen Trainieren angegeben wurden.
  • Einige Ausführungen können erkennen, wann der Benutzer einer Telefonkonferenz beitritt, indem sie die Interaktion des Benutzers mit seinen zugehörigen elektronischen Einheiten analysieren, bei denen es sich um einen Computer oder ein Telefon mit Mikrofon handeln kann. Einige Ausführungsformen können auch ermitteln, ob der Benutzer gerade eine Präsentation hält, indem sie den Namen des Benutzers mit der Tagesordnung vergleichen oder den Inhalt der aktuellen Rede erkennen, und können die Stimme dieses Benutzers selektiv verstärken, während sie Hintergrundgeräusche und die Stimmen der anderen Teilnehmer unterdrücken.
  • Als Reaktion auf das Erkennen können einige Ausführungsformen einen dynamischen Bandpass- oder Bandsperrfilter anwenden, um bestimmte Frequenzen selektiv zu verstärken und/oder bestimmte Frequenzen selektiv zu unterdrücken, wenn der Audiostrom übertragen und/oder erneut übertragen wird. Dieses Unterdrücken und/oder Verstärken kann in einigen Ausführungsformen im Zeitbereich und/oder im Frequenzbereich erfolgen. Auf diese Weise kann das Sprachsignal des Benutzers während des Übertragens und/oder erneuten Übertragens wirkungsvoll verstärkt werden, und andere Geräusche (andere Stimmen, nichtsprachliche Geräusche) können unterdrückt und/oder nicht übertragen/erneut übertragen werden.
  • Darüber hinaus können einige Ausführungsformen erkennen, dass Umgebungsgeräusche vorhanden sind (z.B. Autohupen) oder dass andere Personen gleichzeitig im Hintergrund sprechen (z.B. Kinder). Das System kann sodann die erkannten Hintergrundgeräusche und/oder die erkannten Stimmen anderer Personen als unerwünschte Signale identifizieren und sie aus dem übertragenen/erneut übertragenen Datenstrom entfernen. Insbesondere können einige Ausführungsformen das dem Redner zugehörige, vortrainierte akustische Modell automatisch aktivieren und deaktivieren, um die Stimme des Redners zu verstärken, wenn dieser spricht. Darüber hinaus modifizieren einige Ausführungsformen das vortrainierte akustische Modell automatisch, um die erkannten Geräusche und/oder Stimmen zu kompensieren. Auf diese Weise können die anderen Sitzungsteilnehmer den Redner klarer und störungsfrei hören. Einige Ausführungsformen können auch mit einem konfigurierbaren Schwellenwert für unerwünschte Hintergrundgeräusche konfiguriert werden - beispielsweise mit einem Schwellenwert auf der Grundlage von Zeitdauer oder Lautstärke oder Abweichung vom vortrainierten Tonhöhenbereich des Benutzers usw. Auf diese Weise können Benutzer und Anwendungen, die eine akustische Wiedergabetreue erfordern, den Umfang und/oder den Grad der von einigen Ausführungsformen durchgeführten Filterung verringern.
  • Das akustische Modell kann in einigen Ausführungsformen auf dem akustischen Stimmabdruck (Profil) eines Benutzers beruhen. Diese Merkmale können ohne Einschränkung umfassen: Tonhöhenschwankungen und -störungen (z.B. Jitter), Periodizitätsmessungen (z.B. Harmonizität), lineare prädiktive Codierungskoeffizienten (linear predictive coding coefficients, LPCs), Messungen der spektralen Form, Stimmeinsatzzeit, Mel-Frequency-Cepstral-Koeffizienten (Mel Frequency Cepstral Coefficients, MFCCs), i-Vektoren usw. Das Modell kann zu Beginn mit Zustimmung des Benutzers mit dem sprecherspezifischen Stimmabdruck des Benutzers trainiert werden. In einigen Ausführungsformen kann das akustische Modell nichtüberwachte Algorithmen zur Stimmausrichtung, Hidden-Markov-Modelle, Algorithmen zum Entfernen unerwünschter Geräusche, Phonem-Token-DNN usw. umfassen. Einige dieser Merkmale (z.B. Formanten: F1 und F2) können in erster Linie verwendet werden, um die Einzigartigkeit der Stimme des Benutzers zu charakterisieren (z.B. einen Fingerabdruck davon zu erhalten), während andere dieser Merkmale (z.B. die Harmonizität) in erster Linie verwendet werden können, um die Hintergrundgeräusche zu charakterisieren.
  • In einigen Ausführungsformen umfassen die akustischen Merkmale, die zum Erstellen eines sprecherspezifischen akustischen Modells analysiert werden können, ohne Einschränkung ein oder mehrere Merkmale, die aus der Gruppe ausgewählt werden, die aus Grundfrequenz, spektraler Hüllkurve, Tonhöhenmerkmalen (z.B. Durchschnitt, Maximum, Minimum usw.), Stimmeinsatzzeit (VOT) verschiedener Konsonanten, F1 und F2 zum Charakterisieren von Vokalaussprache und Vokaldauer besteht. Diese akustischen Merkmale können verwendet werden, um die Stimme eines Benutzers von anderen menschlichen Stimmen (insbesondere die oben genannten Konsonanten- und Vokalmerkmale) und von nichtsprachlichen Geräuschen (insbesondere die oben genannten übergeordneten Tonhöhen- und Frequenzmerkmale) zu unterscheiden.
  • Einige Ausführungsformen können auch zusätzliche akustische Modelle für einen Benutzer erstellen, wenn seine Stimme etwas anders klingt, z.B. bei verstopfter Nase oder Halsentzündung. In ähnlicher Weise können einige Ausführungsformen auch individuell angepasste, sprecherspezifische akustische Modelle für jede Sprache erstellen, die der Benutzer spricht, da verschiedene Sprachen selbst für denselben Sprecher unterschiedliche phonologische Profile haben können.
  • In einem ersten veranschaulichenden Beispiel wird angenommen, dass eine Benutzerin („A“) mit Fernzugriff arbeitet. Infolgedessen ist die Benutzerin A einen Großteil der Zeit zu Hause bei ihrem Mann, ihren Kindern und ihren Haustieren, die alle im Hintergrund Geräusche machen, während sie versucht, geschäftliche Anrufe entgegenzunehmen. Insbesondere wenn die Benutzerin A in einer Besprechung anruft, hört man oft ihren Hund im Hintergrund bellen. In diesem Beispiel wurde ein akustisches Modell zuvor mit der Stimme von Benutzerin A trainiert und verfügt über ein spezifisches akustisches Profil, das auf ihre Stimme und Sprachmuster zugeschnitten ist. Dementsprechend kann das System in diesem Beispiel die Stimme von Benutzerin A erkennen und sodann selektiv nur ihre Stimme verstärken, während es gleichzeitig alle Geräusche ihres Hundes so reduziert, dass sie nicht an die anderen Besprechungsteilnehmer übertragen werden.
  • In einem zweiten veranschaulichenden Beispiel verspätet sich eine Benutzerin („B“) zu einer Besprechung. Die Benutzerin B nimmt in ihrem Auto an einer Telefonkonferenz teil. Daher gibt es viele Hintergrundgeräusche von der Straße, dem Automotor und vielleicht sogar von ihrem weinenden Baby auf dem Rücksitz. Bisher konnte die Benutzerin B diese Geräusche teilweise abschwächen, indem sie sich selbst auf stumm schaltete, konnte dann aber nicht vollständig an der Besprechung teilnehmen, ohne ihre Kollegen mit all den Fremdgeräuschen abzulenken. Unter Verwenden von einigen Ausführungsformen der Offenbarung kann jedoch ein sprecherspezifisches akustisches Modell mit der Stimme von Benutzerin B vortrainiert worden sein. Wenn sie nun von ihrem Auto aus anruft, können einige Ausführungsformen verschiedene akustische Eigenschaften identifizieren und verstärken, die für die Stimme von Benutzerin B spezifisch sind, während die akustischen Eigenschaften, die nicht mit ihrer Stimme übereinstimmen (z.B. von der Straße, ihrem Auto usw.), reduziert werden. So kann Benutzerin B in ihrer Besprechung sprechen, ohne dass auch laute Geräusche aus ihrer Umgebung übertragen werden.
  • In einem dritten veranschaulichenden Beispiel hat ein Benutzer („C“) eine leichte Erkältung und arbeitet daher aus Rücksicht auf seine Kollegen per Fernzugriff. Wenn der Benutzer C in Besprechungen anruft, hustet und niest er gelegentlich. Unter Verwenden von einigen Ausführungsformen kann ein akustisches Modell mit der normalen Stimme von Benutzer C trainiert worden sein, z.B. ohne Husten und Niesen, und kann daher das Signal seiner Sprache selektiv verstärken, während Husten und Niesen als unerwünschtes Hintergrundgeräusch selektiv entfernt werden. Da der Benutzer C weiß, dass er während der Besprechung wahrscheinlich husten oder niesen wird, kann er außerdem den Schwellenwert für unerwünschte Hintergrundgeräusche konfigurieren - entweder auf der Grundlage von Zeitdauer oder Lautstärke oder Abweichung vom vortrainierten Tonhöhenbereich des Benutzers usw., um sicherzustellen, dass diese Hustengeräusche herausgefiltert werden.
  • In einem vierten veranschaulichenden Beispiel ist ein Benutzer („D“) an einer Halsentzündung erkrankt und arbeitet per Fernzugriff, um die Ausbreitung dieser Infektion auf seine Kollegen zu verhindern. Infolge des Infekts klingt die Stimme von Benutzer D derzeit jedoch anders als seine normale Stimme. Einige Ausführungsformen der Offenbarung können es dem Benutzer D ermöglichen, ein zusätzliches, individuell angepasstes akustisches Modell seiner Stimme zu erstellen (oder seine zugehörigen akustischen Modelle anzupassen) (z.B. sowohl seine „normale“ Stimme als auch seine derzeitige, „abnormale“ Stimme, beispielsweise aufgrund von Krankheit). Der Benutzer D kann also eine andere Version des Systems für seine Stimme bei Halsentzündung trainieren, so dass das System bei Anrufen in Besprechungen seine aktuelle Stimme erkennen und verstärken kann, anstatt sie als Hintergrundgeräusch zu unterdrücken, obwohl sie einige andere akustische Eigenschaften als seine normale Stimme hat. Darüber hinaus können einige Ausführungsformen diese akustischen Eigenschaften selektiv modifizieren, so dass die aktuelle Stimme von Benutzer D mehr wie seine normale Stimme klingt, wenn sie den anderen Konferenzteilnehmern präsentiert wird.
  • Dementsprechend bestehen ein Merkmal und ein Vorteil einiger Ausführungsformen darin, dass sie nicht unbedingt erfordern, dass der Benutzer spezielle Hardware wie etwa Richtmikrofone zum Verstärken seiner Stimme und/oder zum Unterdrücken von Geräuschen besitzt und verwendet. Infolgedessen können einige Ausführungsformen als Erweiterung in bestehende Videokonferenzsysteme und Telefonmikrofon-Verarbeitungs-Software integriert werden. Ein weiteres Merkmal und ein weiterer Vorteil einiger Ausführungsformen bestehen darin, dass sie die Stimme eines Benutzers unter Verwenden eines vortrainierten akustischen Modells selektiv verstärken können. Auf diese Weise können einige Ausführungsformen weiterhin einen größeren Dynamikbereich von Klängen übertragen, darunter erwünschte, aber unerwartete Geräusche. Ein weiteres Merkmal und ein weiterer Vorteil einiger Ausführungsformen bestehen darin, dass sie die stimmlichen Merkmale des Benutzers erlernen und das Signal auf dieser Grundlage selektiv verstärken können. Auf diese Weise können einige Ausführungsformen eine Geräuschunterdrückung ermöglichen, selbst wenn sich der Benutzer in seiner lokalen physischen Umgebung bewegt, und außerdem ermöglichen, dass mehr als ein Sprecher gleichzeitig ein Mikrofon benutzt und/oder dass mehr als ein Sprecher gleichzeitig spricht.
  • Datenverarbeitungssystem
  • 1 veranschaulicht eine Ausführungsform eines Datenverarbeitungssystems (DVS) 100a gemäß einigen Ausführungsformen. Das DVS 100a in dieser Ausführungsform kann als Personal Computer; Servercomputer; tragbarer Computer wie etwa ein Laptop oder Notebook, ein PDA (Personal Digital Assistant), ein Tablet-Computer oder Smartphone; Prozessoren, die in eine größere Einheit wie etwa ein Auto, ein Flugzeug, ein Telekonferenzsystem eingebettet sind; intelligente Einheiten; oder jede andere geeignete Art von elektronischer Einheit implementiert werden. Darüber hinaus können auch andere als die in 1 dargestellten oder zusätzliche Komponenten vorhanden sein, und die Anzahl, Art und Konfiguration solcher Komponenten können variieren. Außerdem zeigt 1 nur die repräsentativen Hauptkomponenten des DVS 100a, und einzelne Komponenten können komplexer sein als in 1 dargestellt.
  • Das Datenverarbeitungssystem 100a in 1 weist eine Mehrzahl von Zentraleinheiten 110 a bis 110 d (hier allgemein als Prozessor 110 oder CPU 110 bezeichnet) auf, die über einen Systembus 122 mit einem Speicher 112, einer Massenspeicherschnittstelle 114, einer Anschluss-/Anzeigeschnittstelle 116, einer Netzwerkschnittstelle 118 und einer Ein-/Ausgabe- („E/A“-) Schnittstelle 120 verbunden sind. Die Massenspeicherschnittstelle 114 verbindet in dieser Ausführungsform den Systembus 122 mit einem oder mehreren Massenspeichereinheiten, beispielsweise mit einer Direktzugriffsspeichereinheit 140, einer Universal Serial Bus- („USB“-) Speichereinheit 141 oder einem lesbaren/beschreibbaren optischen Plattenlaufwerk 142. Die Netzwerkschnittstellen 118 ermöglichen dem DVS 100a, über ein Übertragungsmedium 106 mit anderen DVS 100b Daten auszutauschen. Der Speicher 112 enthält auch ein Betriebssystem 124, eine Mehrzahl von Anwendungsprogrammen 126 und Programmdaten 128.
  • Bei dem Datenverarbeitungssystem 100a in 1 handelt es sich um eine Universal-Datenverarbeitungseinheit. Dementsprechend kann es sich bei den Prozessoren 110 um beliebige Einheiten handeln, die in der Lage sind, im Speicher 112 gespeicherte Programmanweisungen auszuführen, und die selbst aus einem oder mehreren Mikroprozessoren und/oder integrierten Schaltkreisen bestehen können. In dieser Ausführungsform umfasst das DVS 100a mehrere Prozessoren und/oder Verarbeitungskerne, wie es für größere, leistungsfähigere Computersysteme üblich ist; in anderen Ausführungsformen kann das Datenverarbeitungssystem 100a jedoch ein Einzelprozessorsystem und/oder einen einzelnen Prozessor umfassen, der so ausgelegt ist, dass er ein Multiprozessorsystem emuliert. Außerdem können die Prozessoren 110 unter Verwenden einer Reihe heterogener Datenverarbeitungssysteme 100a implementiert werden, in denen ein Hauptprozessor mit sekundären Prozessoren auf einem einzigen Chip vorhanden ist. In einem weiteren veranschaulichenden Beispiel kann es sich bei dem Prozessor 110 um ein symmetrisches Multiprozessorsystem handeln, das mehrere Prozessoren desselben Typs umfasst.
  • Wenn das Datenverarbeitungssystem 100a hochfährt, führen der bzw. die zugehörigen Prozessoren 110 zunächst die Programmanweisungen aus, die das Betriebssystem 124 bilden, das die physischen und logischen Ressourcen des DVS 100a verwaltet. Zu diesen Ressourcen gehören der Speicher 112, die Massenspeicherschnittstelle 114, die Anschluss-/Anzeigeschnittstelle 116, die Netzwerkschnittstelle 118 und der Systembus 122. Wie bei dem Prozessor bzw. den Prozessoren 110 können einige Ausführungsformen des DVS 100a mehrere Systemschnittstellen 114, 116, 118, 120 und Busse 122 verwenden, die ihrerseits jeweils ihre eigenen separaten, vollständig programmierten Mikroprozessoren umfassen können.
  • Anweisungen für das Betriebssystem, Anwendungen und/oder Programme (allgemein als „Programmcode“, „durch einen Computer verwendbarer Programmcode“ oder „durch einen Computer lesbarer Programmcode“ bezeichnet) können sich zunächst in den Massenspeichereinheiten 140, 141, 142 befinden, die über den Systembus 122 mit den Prozessoren 110 Daten austauschen. Der Programmcode kann in den verschiedenen Ausführungsformen auf verschiedenen physischen oder greifbaren durch einen Computer lesbaren Medien, beispielsweise im Systemspeicher 112 oder in den Massenspeichereinheiten 140, 141, 142, verkörpert sein. Im veranschaulichenden Beispiel in 1 werden die Anweisungen in einer funktionalen Form eines dauerhaften Speichers in der Direktzugriffsspeichereinheit 140 gespeichert. Diese Anweisungen werden sodann zum Ausführen durch den Prozessor 110 in den Speicher 112 geladen. Der Programmcode kann sich jedoch auch in einer funktionalen Form auf dem durch einen Computer lesbaren Medium befinden, das selektiv austauschbar ist und zum Ausführen durch den Prozessor 110 in das DVS 100a geladen oder dorthin übertragen werden kann.
  • Bei dem Systembus 122 kann es sich um eine beliebige Einheit handeln, die einen Datenaustausch zwischen den Prozessoren 110, dem Speicher 112 und den Schnittstellen 114, 116, 118, 120 ermöglicht. Zwar handelt es sich bei dem Systembus 122 in dieser Ausführungsform um eine relativ einfache, einzelne Busstruktur, die einen direkten Datenübertragungspfad zwischen den Systembussen 122 bereitstellt, es sind jedoch auch andere Busstrukturen mit der vorliegenden Offenbarung vereinbar, darunter Punkt-zu-Punkt-Verbindungen in hierarchischen, sternförmigen oder Netzkonfigurationen, mehrere hierarchische Busse, parallele und redundante Pfade usw., jedoch ohne auf diese beschränkt zu sein.
  • Der Speicher 112 und die Massenspeichereinheiten 140, 141, 142 arbeiten zusammen, um das Betriebssystem 124, die Anwendungsprogramme 126 und die Programmdaten 128 zu speichern. In dieser Ausführungsform handelt es sich bei dem Speicher 112 um eine Halbleitereinheit mit wahlfreiem Zugriff, die Daten und Programme speichern kann. Zwar zeigt 1 diese Einheit konzeptionell als eine einzige monolithische Einheit, bei dem Speicher 112 kann es sich jedoch in einigen Ausführungsformen um eine komplexere Anordnung handeln, beispielsweise eine Hierarchie von Caches und anderen Speichereinheiten. Beispielsweise kann der Speicher 112 in mehreren Ebenen von Caches vorhanden sein, und diese Caches können weiter nach Funktionen unterteilt sein, so dass ein Cache Befehle zwischenspeichert, während ein anderer Nichtbefehlsdaten zwischenspeichert, die von dem Prozessor oder den Prozessoren verwendet werden. Der Speicher 112 kann weiter verteilt und verschiedenen Prozessoren 110 oder Gruppen von Prozessoren 110 zugehörig sein, wie es in verschiedenen sogenannten NUMA-Computerarchitekturen (Non-Uniform Memory Access) bekannt ist. Darüber hinaus können einige Ausführungsformen virtuelle Adressierungsmechanismen verwenden, die es dem DVS 100a ermöglichen, sich so zu verhalten, als ob es Zugriff auf eine große, einzelne Speichereinheit hätte, anstatt auf mehrere kleinere Speichereinheiten wie den Speicher 112 und die Massenspeichereinheit 140, 141, 142.
  • Zwar sind das Betriebssystem 124, die Anwendungsprogramme 126 und die Programmdaten 128 so dargestellt, dass sie im Speicher 112 enthalten sind, einige oder alle von ihnen können sich jedoch physisch auf verschiedenen Computersystemen befinden, und in einigen Ausführungsformen kann aus der Ferne, z.B. über das Übertragungsmedium 106, auf sie zugegriffen werden. Zwar sind das Betriebssystem 124, die Anwendungsprogramme 126 und die Programmdaten 128 als im Speicher 112 enthalten dargestellt, diese Elemente sind jedoch nicht notwendigerweise alle gleichzeitig vollständig in derselben physischen Einheit enthalten und können sich sogar im virtuellen Speicher anderer DVS wie etwa DVS 100b befinden.
  • Die Systemschnittstellen 114, 116, 118, 120 unterstützen einen Datenaustausch mit einer Vielfalt von Speicher- und E/A-Einheiten. Die Massenspeicherschnittstelle 114 unterstützt den Anschluss einer oder mehrerer Massenspeichereinheiten 140, 141, 142, bei denen es sich üblicherweise um Speichereinheiten mit rotierenden Magnetplattenlaufwerken, eine Halbleiterspeichereinheit (SSD), die integrierte Schaltkreisbaugruppen als Speicher verwendet, um Daten dauerhaft zu speichern, üblicherweise unter Verwenden von Flash-Speicher, oder eine Kombination aus beiden handelt. Die Massenspeichereinheiten 140, 141, 142 können jedoch auch andere Einheiten umfassen, darunter Plattenlaufwerkstapel, die so konfiguriert sind, dass sie für einen Host als eine einzige große Speichereinheit erscheinen (üblicherweise als RAID-Anordnungen bezeichnet), und/oder Archivierungsspeichermedien wie Festplattenlaufwerke, Bänder (z.B., Mini-DV), beschreibbare Compact Disks (z.B. CD-R und CD-RW), DVDs (z.B. DVD, DVD-R, DVD+R, DVD+RW, DVD-RAM), Holographie-Speichersysteme, Blue Laser Disks, IBM Millipede-Einheiten und dergleichen.
  • Die Anschluss-/Anzeigeschnittstelle 116 wird verwendet, um eine oder mehrere Anzeigeeinheiten 180, zu denen auch Monitore oder dergleichen gehören können, direkt mit dem Datenverarbeitungssystem 100a zu verbinden. Bei diesen Anzeigeeinheiten 180 kann es sich um nichtintelligente Terminals wie etwa ein LED-Monitor oder um vollprogrammierbare Arbeitsstationen handeln, die IT-Administratoren und Kunden ermöglichen, mit dem DVS 100a Daten auszutauschen. Es ist jedoch zu beachten, dass die Anzeigeschnittstelle 116 zwar zum Unterstützen des Datenaustauschs mit einer oder mehreren Anzeigeeinheiten 180 vorgesehen ist, das Datenverarbeitungssystem 100a jedoch nicht unbedingt eine Anzeigeeinheit 180 benötigt, da die gesamte erforderliche Interaktion mit Kunden und anderen Prozessen über die Netzwerkschnittstelle 118 erfolgen kann.
  • Bei dem Übertragungsmedium 106 kann es sich um ein beliebiges geeignetes Netzwerk oder eine Kombination von Netzwerken handeln, und es kann jedes geeignete Protokoll unterstützen, das für ein Übertragen von Daten und/oder Code zu/von mehreren DVS 100a, 100b geeignet ist. Dementsprechend kann es sich bei den Netzwerkschnittstellen 118 um jede Einheit handeln, die einen solchen Datenaustausch ermöglicht, unabhängig davon, ob die Netzwerkverbindung mit heutigen analogen und/oder digitalen Techniken oder über einen zukünftigen Netzwerkmechanismus hergestellt wird. Zu geeigneten Übertragungsmedien 106 gehören unter anderem Netzwerke, die unter Verwenden einer oder mehrerer der Spezifikationen „InfiniBand“ oder IEEE (Institute of Electrical and Electronics Engineers) 802.3x „Ethernet“ implementiert sind, zellulare Übertragungsnetzwerke, drahtlose Netzwerke, die eine der Spezifikationen IEEE 802.11x, IEEE 802.16, General Packet Radio Service („GPRS“), FRS (Family Radio Service) oder Bluetooth implementiert haben, Ultra-Wide-Band- („UWB“-) Technologie, wie sie in FCC 02-48 beschrieben ist; oder dergleichen. Fachleute werden verstehen, dass viele verschiedene Netzwerk- und Transportprotokolle verwendet werden können, um das Übertragungsmedium 106 zu implementieren. Das Transmission Control Protocol/Internet Protocol- („TCP/IP“-) Paket umfasst geeignete Netzwerk- und Transportprotokolle.
  • Cloud-Computing
  • 2 veranschaulicht eine Cloud-Umgebung, die ein oder mehrere DVS 100a, 100b gemäß einigen Ausführungsformen umfasst. Zwar umfasst diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing, es sollte jedoch klar sein, dass Implementierungen der hierin wiedergegebenen Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt sind. Vielmehr können Ausführungsformen der vorliegenden Erfindung in Verbindung mit einem beliebigen anderen Typ von gegenwärtig bekannter oder zu einem späteren Zeitpunkt entwickelter Datenverarbeitungsumgebung implementiert werden.
  • Cloud-Computing ist ein Dienstleistungsmodell, das einen problemlosen und bedarfsorientierten Netzwerkzugang zu einem gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungs-Ressourcen ermöglicht (z.B. Netzwerke, Netzwerk-Bandbreite, Server, Verarbeitung, Speicher, Speicherplatz, Anwendungen, virtuelle Maschinen (VM) und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Dienstes schnell zur Verfügung gestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Charakteristika, mindestens drei Dienstmodelle und mindestens vier Bereitstellungsmodelle umfassen.
  • Bei den Charakteristika handelt es sich um die folgenden:
    • • Bedarfsorientierte Selbstbedienung (on-demand self-service): Ein Cloud-Kunde kann einseitig Datenverarbeitungs-Ressourcen wie Server-Zeit und Netzspeicher je nach Bedarf und automatisch in Anspruch nehmen, ohne dass eine menschengeführte Interaktion mit dem Anbieter des Dienstes erforderlich ist.
    • • Allgemeiner Netzzugriff (broad network access): Ressourcen sind über ein Netzwerk verfügbar und über Standardmechanismen zugänglich, die eine Verwendung durch heterogene Thin- oder Thick-Client-Plattformen (z.B. Mobiltelefone, Laptops und PDAs) unterstützen.
    • • Ressourcen-Bündelung (resource pooling): Die Datenverarbeitungs-Ressourcen des Anbieters werden gebündelt, um mehreren Kunden zu dienen, wobei ein Multi-Tenant-Modell verwendet wird, bei dem verschiedene physische und virtuelle Ressourcen entsprechend dem Bedarf dynamisch zugewiesen und erneut zugewiesen werden. Es besteht insofern eine gewisse Unabhängigkeit vom Standort, als der Kunde im Allgemeinen keine Kontrolle über den bzw. Kenntnis vom genauen Standort der bereitgestellten Ressourcen hat, den Standort jedoch auf einer höheren Abstraktionsebene (z.B. Region, Staat oder Datenzentrum) festlegen kann.
    • • Schnelle Anpassungsfähigkeit (rapid elasticity): Ressourcen können rasch und anpassungsfähig, in einigen Fällen automatisch, bereitgestellt werden, um schnell eine Erweiterungsmöglichkeit (scale out) zu bieten, und rasch wieder freigegeben werden, wodurch eine schnelle Reduzierung (scale in) geboten wird. Aus Sicht des Kunden scheinen die zur Bereitstellung verfügbaren Ressourcen oftmals unbegrenzt zu sein und können in beliebiger Menge zu einem beliebigen Zeitpunkt erworben werden.
    • • Dienst für nutzungsabhängige Abrechnung (measured service): Cloud-Systeme steuern und optimieren die Ressourcen-Nutzung automatisch durch Einsatz einer Messfunktion auf einer Abstraktionsebene, die für den Typ des Dienstes (z.B. Speicherplatz, Verarbeitung, Bandbreite sowie aktive Kundenkonten) geeignet ist. Die Ressourcen-Nutzung kann überwacht, gesteuert und aufgezeichnet werden, wobei sowohl für den Anbieter als auch für den Abnehmer des verwendeten Dienstes Transparenz gegeben ist.
  • Bei den Dienstmodellen handelt es sich um die folgenden:
    • • Software als Dienstleistung (Software as a Service, SaaS): Die für den Kunden bereitgestellte Funktionalität besteht in der Fähigkeit zur Nutzung der in einer Cloud-Infrastruktur ausgeführten Anwendungen des Anbieters. Auf die Anwendungen kann von verschiedenen Client-Einheiten durch eine Thin-Client-Schnittstelle wie einen Web-Browser (z.B. auf dem Web beruhende eMail) zugegriffen werden. Der Kunde verwaltet bzw. steuert nicht die zugrundeliegende Cloud-Infrastruktur, darunter Netzwerk, Server, Betriebssysteme, Speicherplatz oder sogar einzelne Anwendungsmöglichkeiten, mit der möglichen Ausnahme begrenzter benutzerspezifischer Anwendungskonfigurationseinstellungen.
    • • Plattform als Dienstleistung (Platform as a Service, PaaS): Die für den Kunden bereitgestellte Funktionalität besteht in der Fähigkeit zur Verwendung von vom Kunden erstellten oder angeforderten Anwendungen, die unter Verwenden von vom Anbieter unterstützten Programmiersprachen und Hilfsprogrammen erzeugt werden, in der Cloud-Infrastruktur. Der Kunde verwaltet oder steuert nicht die zugrundeliegende Cloud-Infrastruktur, darunter Netze, Server, Betriebssysteme oder Speicherplatz, hat jedoch die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen der Hosting-Umgebung der Anwendung.
    • • Infrastruktur als Dienstleistung (Infrastructure as a Service, laaS): Die für den Kunden bereitgestellte Funktionalität besteht in der Fähigkeit zur Bereitstellung von Datenverarbeitung, Speicherplatz, Netzwerken und anderen grundlegenden Datenverarbeitungs-Ressourcen, wobei der Kunde eine beliebige Software einsetzen und ausführen kann, die Betriebssysteme und Anwendungen umfassen kann. Der Kunde verwaltet oder steuert nicht die zugrundeliegende Cloud-Infrastruktur, hat jedoch die Kontrolle über Betriebssysteme, Speicherplatz, eingesetzte Anwendungen und möglicherweise eine begrenzte Kontrolle über die Auswahl von Netzwerkkomponenten (z.B. Host-Firewalls).
  • Bei den Einsatzmodellen handelt es sich um die folgenden:
    • • Private Cloud: Die Cloud-Infrastruktur wird einzig und allein für eine Organisation betrieben. Sie kann durch die Organisation selbst oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden.
    • • Gemeinschaftliche Cloud (community cloud): Die Cloud-Infrastruktur wird von mehreren Organisationen gemeinsam genutzt und unterstützt eine spezielle Benutzergemeinschaft mit gemeinsamen Interessen (z.B. Zielsetzung, Sicherheitsanforderungen, Strategie- und Konformitätsüberlegungen). Sie kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder fremden Räumen befinden.
    • • Öffentliche Cloud (public cloud): Die Cloud-Infrastruktur wird der Allgemeinheit oder einer großen Industriegruppe zur Verfügung gestellt und ist im Besitz einer Organisation, die Cloud-Dienste verkauft.
    • • Kombinierte Cloud (hybrid cloud): Die Cloud-Infrastruktur setzt sich aus zwei oder mehreren Clouds (privat, gemeinschaftlich oder öffentlich) zusammen, die eigenständige Einheiten bleiben, jedoch durch eine standardisierte oder firmeneigene Technologie, die die Übertragbarkeit von Daten und Anwendungen ermöglicht, miteinander verbunden sind (z.B. Cloud-Zielgruppenverteilung für eine Auslastungsverteilung zwischen Clouds).
  • Eine Cloud-Computing-Umgebung ist dienstleistungsorientiert mit Fokus auf Statusunabhängigkeit, loser Kopplung, Modularität und semantischer Interoperabilität. Den Kern des Cloud-Computing bildet eine Infrastruktur, die ein Netzwerk aus miteinander verbundenen Knoten aufweist.
  • Unter Bezugnahme auf 2 ist eine veranschaulichende Cloud-Computing-Umgebung 50 abgebildet. Wie gezeigt ist, weist die Cloud-Computing-Umgebung 50 einen oder mehrere Cloud-Computing-Knoten 10 auf, mit denen von Cloud-Kunden verwendete lokale Datenverarbeitungseinheiten wie der elektronische Assistent (PDA, personal digital assistant) oder das Mobiltelefon 54A, der Desktop-Computer 54B, der Laptop-Computer 54C und/oder das Automobil-Computer-System 54N Daten austauschen können. Die Knoten 10 können miteinander Daten austauschen. Sie können physisch oder virtuell in ein oder mehrere Netzwerke wie private, gemeinschaftliche, öffentliche oder kombinierte Clouds gruppiert werden (nicht gezeigt), wie vorstehend beschrieben wurde, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 50, Infrastruktur, Plattformen und/oder Software als Dienstleistung anzubieten, für die ein Cloud-Kunde keine Ressourcen auf einer lokalen Datenverarbeitungseinheit vorhalten muss. Es versteht sich von selbst, dass die Arten von in 2 gezeigten Datenverarbeitungseinheiten 54A bis N lediglich veranschaulichend sein sollen und dass die Datenverarbeitungsknoten 10 und die Cloud-Computing-Umgebung 50 über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung (z.B. unter Verwenden eines Web-Browsers) mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
  • Unter Bezugnahme auf 3 wird nun ein Satz von funktionalen Abstraktionsschichten gezeigt, die durch die Cloud-Computing-Umgebung 50 (2) bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 3 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt:
  • Eine Hardware- und Software-Schicht 60 umfasst Hardware- und Software-Komponenten. Zu Beispielen für Hardware-Komponenten gehören: Mainframe-Computer 61; auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 62; Server 63; Blade-Server 64; Speichereinheiten 65; und Netzwerke sowie Netzwerkkomponenten 66. In einigen Ausführungsformen umfassen Software-Komponenten eine Netzwerk-Anwendungsserver-Software 67 und eine Datenbank-Software 68.
  • Eine Virtualisierungsschicht 70 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 71, virtueller Speicher 72, virtuelle Netzwerke 73, darunter virtuelle private Netzwerke, virtuelle Anwendungen und Betriebssysteme 74; und virtuelle Clients 75.
  • In einem Beispiel kann eine Verwaltungsschicht 80 die nachfolgend beschriebenen Funktionen bereitstellen. Die Ressourcen-Versorgung (resource provisioning) 81 stellt dynamisches Beschaffen von Datenverarbeitungs-Ressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Die Gebührenerfassung und Preisermittlung (metering and pricing) 82 stellt eine Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie eine Abrechnung oder Rechnungsstellung für die Inanspruchnahme dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungssoftware-Lizenzen aufweisen. Die Sicherheit (security) stellt eine Identitätsüberprüfung für Cloud-Kunden und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Das Kundenportal 83 stellt den Zugang zu der Cloud-Computing-Umgebung für Nutzer und für Systemadministratoren bereit. Die Dienstgüteverwaltung (service level management) 84 stellt eine Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die Anforderungen an die Dienstgüte erfüllt werden. Die Planung und Erfüllung der Dienstgütevereinbarung (SLA, Service Level Agreement planning and fulfillment) 85 stellt die Vorbereitung für und die Beschaffung von Cloud-Computing-Ressourcen bereit, für die gemäß einer SLA ein künftiger Bedarf vorausgesehen wird.
  • Eine Arbeitslastenschicht (workloads layer) 90 stellt Beispiele einer Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu Beispielen für Arbeitslasten und Funktionen, die von dieser Schicht bereitgestellt werden können, gehören: Abbildung und Navigation 91; Software-Entwicklung und Lebenszyklusverwaltung 92; virtuelles Klassenzimmer 93 als Bildungsangebot; Datenanalyseverarbeitung 94; Transaktionsverarbeitung 95; und ein Geräuschunterdrückungsdienst 96.
  • Akustische Plattform
  • 4 ist eine Systemdarstellung einer Datenverarbeitungsumgebung 400 gemäß einigen Ausführungsformen. Die Datenverarbeitungsumgebung 400 kann eine Computerplattform 402 für Konferenzschaltungen umfassen, die über ein Netzwerk 406 mit einer Mehrzahl von Benutzereinheiten 403 verbunden ist. Die Computerplattform 402 für Konferenzschaltungen kann ihrerseits ein Konferenzmodul 480 und einen Geräuschunterdrückungsdienst 496 umfassen. Der Geräuschunterdrückungsdienst 496 kann ein trainiertes Modell 498 für maschinelles Lernen umfassen, das eine Mehrzahl von individuell angepassten akustischen Profilen 499 erzeugt, eines oder mehrere für jeden Benutzer der Computerplattform 402 für Konferenzschaltungen. Das Konferenzmodul 480 kann in einigen Ausführungsformen eine Datenbank 482 umfassen, die die Mehrzahl von individuell angepassten akustischen Profilen enthält.
  • Bei der Computerplattform 402 für Konferenzschaltungen kann es sich um eine eigenständige Datenverarbeitungseinheit, einen Verwaltungs-Server, einen Webserver, eine mobile Datenverarbeitungseinheit oder eine andere elektronische Einheit oder ein Datenverarbeitungssystem handeln, das Daten empfangen, übertragen und verarbeiten kann. In einigen Ausführungsformen kann die Computerplattform 402 für Konferenzschaltungen Teil einer Cloud-Computing-Umgebung 50 sein und einen Pool von Datenverarbeitungs-Ressourcen innerhalb dieser Umgebung darstellen. Die Computerplattform 402 für Konferenzschaltungen kann interne und externe Hardware-Komponenten umfassen, wie in 1 unter Bezugnahme auf das DVS 100 dargestellt und ausführlich beschrieben ist.
  • Die Benutzereinheiten 403 können eine oder mehrere programmierbare elektronische Einheiten oder eine Kombination programmierbarer elektronischer Einheiten darstellen, die in der Lage sind, maschinenlesbare Programmanweisungen auszuführen und mit anderen Datenverarbeitungseinheiten (nicht gezeigt) innerhalb der Datenverarbeitungsumgebung 400 über das Netzwerk 406 Daten auszutauschen. Zu geeigneten Benutzereinheiten 403 gehören, ohne auf diese beschränkt zu sein: ein Desktop-Computer, ein Laptop-Computer, ein Tablet-Computer, ein Smartphone, eine intelligente Uhr und ein sprachgesteuerter Telefonhandapparat.
  • In einigen Ausführungsformen können die Benutzereinheiten 403 eine oder mehrere mit Voice-over-Internet-Protocol (VoIP) kompatible Einheiten umfassen (d.h. Voice-over-IP, IP-Telefonie, Breitbandtelefonie und Breitbandtelefondienst). VolP bezieht sich im Allgemeinen auf eine Methodik und eine Gruppe von Technologien für die Bereitstellung von Sprachübertragung und Multimedia-Sitzungen über Internetprotokoll- (IP-) Netzwerke, beispielsweise das Internet. VolP kann in Smartphones, Personal Computer und andere allgemeine Datenverarbeitungseinheiten wie etwa die Benutzereinheiten 403 integriert werden, die mit dem Netzwerk 406 Daten austauschen können. In einigen Ausführungsformen können die Benutzereinheiten 403 eine oder mehrere Freisprecheinrichtungen umfassen, die für einen Einsatz in einer Audio- oder Videokonferenzumgebung geeignet sind. Eine Freisprecheinrichtung bezieht sich im Allgemeinen auf eine Audioeinheit, die mindestens einen Lautsprecher, ein Mikrofon und einen oder mehrere Mikroprozessoren umfasst.
  • In einigen Ausführungsformen können die Benutzereinheiten 403 eine Benutzerschnittstelle umfassen (in 1 nicht unabhängig dargestellt). Diese Benutzerschnittstelle kann eine Schnittstelle zwischen einer Benutzereinheit 403 und der Computerplattform für Konferenzschaltungen bereitstellen. In einigen Ausführungsformen kann es sich bei der Benutzerschnittstelle um eine grafische Benutzeroberfläche (GUI) oder eine Web-Benutzerschnittstelle (WUI) handeln, die Text, Dokumente, Web-Browser-Fenster, Benutzeroptionen, Anwendungsschnittstellen und Betriebsanweisungen anzeigen kann und die Informationen (beispielsweise Grafik, Text und Ton), die ein Programm einem Benutzer präsentiert, sowie die Steuersequenzen umfasst, die der Benutzer zum Steuern des Programms verwendet. In einer anderen Ausführungsform kann die Benutzerschnittstelle mobile Anwendungs-Software umfassen, die eine Schnittstelle zwischen jeder Benutzereinheit 403 und der Computerplattform 402 für Konferenzschaltungen bereitstellt. Bei mobiler Anwendungs-Software oder „Apps“ handelt es sich um eine Klasse von Computerprogrammen, die üblicherweise auf Smartphones, Tablet-Computern, intelligenten Uhren und anderen mobilen Einheiten laufen.
  • Das Netzwerk 406 in 4 kann zum Beispiel ein öffentliches Telefonnetz (PSTN), ein lokales Netzwerk (LAN), ein Weitverkehrsnetzwerk (WAN) wie das Internet oder eine Kombination davon aufweisen und kann verdrahtete, drahtlose oder Lichtwellenleiterverbindungen umfassen. Das Netzwerk 406 kann eine Kombination von Verbindungen und Protokollen verwenden, die Datenaustauschvorgänge zwischen der Computerplattform 402 für Konferenzschaltungen und den Benutzereinheiten 403 unterstützen, beispielsweise den Empfang und die Übertragung von Daten-, Sprach- und/oder Videosignalen, darunter Multimediasignale, die Sprach-, Daten- und Videoinformationen umfassen.
  • In einigen Ausführungsformen kann die Computerplattform für Konferenzschaltungen einen Geräuschunterdrückungsdienst 496 bereitstellen. 5 ist ein Ablaufplan des Geräuschunterdrückungsdienstes 496 im Betrieb gemäß einigen Ausführungsformen. Im Arbeitsgang 505 kann der Benutzer eine Tonprobe (z.B. eine Aufnahme) erstellen. In einigen Ausführungsformen kann der Benutzer aufgefordert werden, ein festgelegtes Skript in einer ruhigen Umgebung unter Verwenden eines hochwertigen Mikrofons zu lesen. Das Skript kann so ausgewählt werden, dass es eine große Anzahl einzigartiger Audiomerkmale enthält, beispielsweise die häufigsten und/oder alle Phoneme einer bestimmten Sprache. Diese Tonprobe kann sodann als Teil einer Trainingsphase 508 verwendet werden.
  • In der Trainingsphase 508 kann der Geräuschunterdrückungsdienst 496 die Tonprobe im Arbeitsgang 510 empfangen. Als Reaktion darauf kann der Geräuschunterdrückungsdienst 496 die Audiomerkmale aus der Tonprobe extrahieren und diese Merkmale anschließend im Arbeitsgang 515 in das trainierte Modell 498 für maschinelles Lernen einspeisen. Als Nächstes kann das Modell 498 für maschinelles Lernen im Arbeitsgang 520 aus den Merkmalen ein erstes individuell angepasstes akustisches Profil 499a für den Benutzer erzeugen. Dieses akustische Profil 499a kann optimiert werden, um selektiv einen vollen Dynamikbereich der Stimme des Benutzers aus einem Aufzeichnungsstrom zu identifizieren und/oder zu isolieren. In den Arbeitsgängen 525 bis 530 kann dem Benutzer optional eine Möglichkeit gegeben werden, die (im Arbeitsgang 505 erstellte) Aufnahme anzuhören, wie sie von dem individuell angepassten akustischen Profil 499a verarbeitet wurde, und anschließend das Modell zu genehmigen oder abzulehnen. Wenn der Benutzer das individuell angepasste akustische Profil 499a ablehnt (530: NEIN), kann der Geräuschunterdrückungsdienst 496 zu den Arbeitsgängen 505, 510 zurückkehren, um eine neue Probe zu erfassen und zu verarbeiten. Wenn der Benutzer das individuell angepasste akustische Profil 499a (530: JA) akzeptiert, kann das System das Modell für eine Verwendung in zukünftigen Live-Konferenzen ausgeben.
  • Später kann der Benutzer und/oder der Geräuschunterdrückungsdienst 496 eine zusätzliche Trainingsphase 550 einleiten. Dieses zusätzliche Trainieren kann ein Erstellen von zusätzlichen akustischen Profilen 499b bis 499n für den Benutzer ermöglichen. Diese zusätzlichen Profile können als Reaktion auf den aktuellen körperlichen Zustand des Benutzers, z.B. eine Erkältung oder Halsentzündung, erstellt werden, oder sie können das akustische Profil für eine andere Sprache optimieren. Zum Beispiel kann ein Benutzer ein Profil 499a seiner normalen Stimme haben, wenn er Englisch spricht, ein Profil 499b seiner Stimme bei Husten, wenn er Englisch spricht, ein Profil 499c seiner normalen Stimme, wenn er Spanisch spricht, und ein Profil 499d für eine Verwendung an einem bestimmten Tag, wenn er krank ist. In diesem veranschaulichenden Beispiel hat der Benutzer vier verschiedene akustische Profile 499 im System gespeichert und kann zu Beginn der Telefonkonferenz eines auswählen.
  • Wie in der anfänglichen Trainingsphase 508 beginnt die Anpassungsphase mit einem Empfangen einer vom Benutzer eingereichten neuen Tonprobe bei 555. Als Reaktion darauf kann der Geräuschunterdrückungsdienst 496 Audiomerkmale aus der neuen Tonprobe extrahieren und diese Merkmale anschließend im Arbeitsgang 560 in das trainierte Modell 498 für maschinelles Lernen einspeisen. Als Nächstes kann ein Sprachverbesserungsmodul 497 des Modells 498 für maschinelles Lernen im Arbeitsgang 565 das/die zusätzliche(n) akustische(n) Profil(e) 499b bis 499n erzeugen. In einigen Ausführungsformen kann dies ein Empfangen und Anpassen des ursprünglichen akustischen Profils 499 umfassen. In den Arbeitsgängen 570 bis 575 kann dem Benutzer optional die Möglichkeit gegeben werden, die (im Arbeitsgang 505 erstellte) Aufnahme so zu hören, wie sie durch das zusätzliche akustische Profil 499a verarbeitet wurde, und dann das aktualisierte Modell zu genehmigen oder abzulehnen. Wenn der Benutzer das/die zusätzliche(n) akustische(n) Profil(e) 499b bis 499n ablehnt (575: NEIN), kann der Geräuschunterdrückungsdienst 496 zu den Arbeitsgängen 505, 555 zurückkehren, um eine neue Probe zu erfassen und zu verarbeiten. Wenn der Benutzer das/die zusätzliche(n) akustische(n) Profil(e) 499b bis 499n akzeptiert (575: JA), kann das System das Modell für eine Verwendung in zukünftigen Live-Konferenzen ausgeben. In einigen Ausführungsformen kann dazu gehören, dass der Benutzer auswählen kann, welches akustische Profil 499a bis 499n in dieser Konferenz verwendet werden soll.
  • Trainieren des Modells
  • Bei dem Modell 498 für maschinelles Lernen kann es sich in einigen Ausführungsformen um ein beliebiges Software-System handeln, das Muster erkennt. In einigen Ausführungsformen kann das maschinelle Lernen eine Mehrzahl von künstlichen Neuronen aufweisen, die durch als Synapsen bezeichnete Verbindungspunkte miteinander verbunden sind. Jede Synapse kann eine Stärke der Verbindung zwischen dem Ausgang eines Neurons und dem Eingang eines anderen Neurons codieren. Die Ausgabe jedes Neurons kann wiederum durch die Gesamteingabe bestimmt werden, die von anderen mit ihm verbunden Neuronen empfangen wird, und somit durch die Ausgaben dieser „stromaufwärts“ verbundenen Neuronen und die Stärke der Verbindungen, die durch die synaptischen Gewichtungen festgelegt ist.
  • Die ML-Modelle können trainiert werden, um ein spezifisches Problem zu lösen (z.B. um Konfigurationseinstellungen für ein individuell angepasstes akustisches Modell zu erzeugen), indem die Gewichtungen der Synapsen so angepasst werden, dass eine bestimmte Klasse von Eingaben eine gewünschte Ausgabe erzeugt. Diese Prozedur zur Anpassung der Gewichtungen ist in diesen Ausführungsformen als „Lernen“ bekannt. Im Idealfall führen diese Anpassungen zu einem Muster von Synapsengewichtungen, die während des Lernprozesses auf der Grundlage einer Kostenfunktion zu einer optimalen Lösung für das gegebene Problem konvergieren.
  • In einigen Ausführungsformen können die künstlichen Neuronen in Schichten organisiert sein. Bei der Schicht, die externe Daten empfängt, handelt es sich um die Eingabeschicht. Bei der Schicht, die das Endergebnis liefert, handelt es sich um die Ausgabeschicht. Einigen Ausführungsformen umfassen zwischen der Eingabe- und der Ausgabeschicht verdeckte Schichten, und zwar in der Regel Hunderte solcher verdeckten Schichten.
  • 6 ist ein Ablaufplan, der ein Verfahren 600 zum Trainieren des Modells 498 für maschinelles Lernen gemäß einigen Ausführungsformen veranschaulicht. Im Arbeitsgang 610 kann eine Systemverwaltungseinrichtung mit dem Laden von Trainingsvektoren beginnen. Diese Vektoren können Tonaufnahmen von einer Mehrzahl verschiedener Benutzer umfassen, die beim Lesen eines speziell vorbereiteten Skripts in ruhigen Räumen aufgenommen wurden.
  • Im Arbeitsgang 612 kann die Systemverwaltungseinrichtung eine gewünschte Ausgabe auswählen (z.B. optimale Einstellungen für das akustische Modell 499). Im Arbeitsgang 614 können die Trainingsdaten vorbereitet werden, um Quellen von Verzerrungen zu reduzieren, was typischerweise Deduplizierung, Normalisierung und Randomisierung der Reihenfolge umfasst. In Arbeitsgang 616 können die Anfangsgewichtungen der Gatter für das maschinelle Lernmodell randomisiert werden. Im Arbeitsgang 618 kann das ML-Modell unter Verwenden einer Reihe von Eingabedatenvektoren zum Vorhersagen einer Ausgabe verwendet werden, und diese Vorhersage wird mit den gekennzeichneten Daten verglichen. Der Fehler (z.B. die Differenz zwischen dem vorhergesagten Wert und den gekennzeichneten Daten) wird sodann im Arbeitsgang 620 zum Aktualisieren der Gattergewichtungen verwendet. Dieser Prozess kann sich wiederholen, wobei die Gewichtungen bei jeder Wiederholung aktualisiert werden, bis die Trainingsdaten erschöpft sind oder das ML-Modell einen annehmbaren Grad an Genauigkeit und/oder Präzision erreicht. Im Arbeitsgang 622 kann das sich ergebende Modell wahlweise mit zuvor nichtausgewerteten Daten verglichen werden, um seine Leistungsfähigkeit zu überprüfen und zu testen. Im Arbeitsgang 624 kann das sich ergebende Modell in einen Geräuschunterdrückungsdienst 496 in einer Cloud-Computing-Umgebung 50 geladen und zum Analysieren von Benutzeraufnahmen verwendet werden.
  • Konferenzsystem
  • 7 ist ein Ablaufplan des Konferenzsystems 700 im Betrieb gemäß einigen Ausführungsformen. Im Arbeitsgang 705 kann sich eine Mehrzahl von Teilnehmern einer Telefonkonferenz beim Konferenzsystem 700 registrieren und/oder anmelden, beispielsweise mit einem Benutzernamen und einem Passwort. Im Arbeitsgang 710 fragt das Konferenzsystem 700 die Datenbank 482 nach den aktuellen akustischen Modellen 499 ab, die jedem der Teilnehmer zugehörig sind. Wenn für einen oder mehrere Teilnehmer kein Modell vorliegt (711: NEIN), kann das System diesen oder diese Teilnehmer auffordern, rohe Audiodaten ihrer Sprache aufzuzeichnen, um im Arbeitsgang 712 mit dem Erstellen eines sprecherspezifischen Audiomodells zu beginnen. Wahlweise kann das System dem/den Teilnehmer(n) im Arbeitsgang 712 auch die Möglichkeit geben, ein universelles Modell (d.h. ein Modell, das erstellt wurde, um eine breite Vielfalt von Stimmen und Sprachen zu isolieren) für diese Telefonkonferenz zu verwenden, was wünschenswert sein kann, wenn der Teilnehmer nicht die Zeit und/oder die Ausrüstung hat, um ein individuell angepasstes Modell zu erstellen. Wenn der Teilnehmer mehrere individuell angepasste Modelle erstellt hat, kann das System den Teilnehmer im Arbeitsgang 713 auffordern, das Modell auszuwählen, das für diese Telefonkonferenz verwendet werden soll.
  • Einer der Teilnehmer kann dann anfangen zu sprechen. Seine Benutzereinheit 403 kann diese Klänge im Arbeitsgang 715 aufzeichnen, die Aufzeichnung im Arbeitsgang 720 in einen ursprünglichen Audiostrom umwandeln und den ursprünglichen Audiostrom im Arbeitsgang 725 an das Konferenzmodul 480 übertragen. Als Reaktion darauf wendet das Konferenzsystem 700 das individuell angepasste akustische Modell für diesen bestimmten Sprecher (identifiziert im Arbeitsgang 705) auf den empfangenen Audiostrom an, um im Arbeitsgang 730 einen optimierten Audiostrom zu erzeugen (z.B. einen, bei dem die Stimme des Benutzers verstärkt und/oder Hintergrundgeräusche unterdrückt werden). Das Konferenzsystem 700 kann anschließend im Arbeitsgang 735 den optimierten Audiostrom an die anderen Teilnehmer der Telefonkonferenz übertragen. Diese Ausführungsformen können wünschenswert sein, da sie mit jeder Benutzereinheit 403, beispielsweise mit einem „normalen Telefonapparat“, verwendet werden können.
  • Alternativ können in einigen Ausführungsformen einige oder alle Benutzereinheiten 403 lokal (z B. durch einen Prozessor in der Benutzereinheit 403) das individuell angepasste akustische Modell auf den ursprünglichen Audiostrom anwenden und anschließend im Arbeitsgang 725 den optimierten Audiostrom (und nicht den ursprünglichen Audiostrom) an das Konferenzsystem 700 übertragen. Das Konferenzsystem 700 kann anschließend direkt zum Arbeitsgang 735 weitergehen und den optimierten Audiostrom erneut an die anderen Teilnehmer übertragen. Diese Ausführungsformen können wünschenswert sein, weil sie mit jedem Konferenzsystem 700 verwendet werden können.
  • Die Arbeitsgänge 715 bis 735 können durch das Konferenzsystem 700, durch die Benutzereinheit 403 und/oder eine Kombination aus beiden jedes Mal wiederholt werden, wenn ein Teilnehmer während der Dauer der Telefonkonferenz spricht.
  • Computerprogrammprodukt
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein durch einen Computer implementiertes Verfahren und/oder ein Computerprogrammprodukt mit jedem möglichen technischen Integrationsgrad handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine beliebige physische Einheit handeln, die Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein tragbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetzwerk und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der Ausführungsformen kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltkreise oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter eine objektorientierte Programmiersprache wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwenden eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Ausführungsformen durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbaren Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zum Umsetzen der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt aufweist, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zum Ausführen der festgelegten logischen Funktion(en) aufweisen. In einigen alternativen Ausführungen können die in den Blöcken angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit als ein Schritt, gleichzeitig, im Wesentlichen gleichzeitig, vollständig oder teilweise zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Allgemein
  • Jede besondere Programmnomenklatur in dieser Beschreibung wurde lediglich der Einfachheit halber verwendet, und die Erfindung sollte daher nicht auf eine Verwendung in einer spezifischen Anwendung beschränkt werden, die durch eine solche Nomenklatur gekennzeichnet und/oder angedeutet wird. So könnten beispielsweise die Routinen, die zum Implementieren der Ausführungsformen der Erfindung ausgeführt werden, unabhängig davon, ob sie als Teil eines Betriebssystems oder einer spezifischen Anwendung, einer Komponente, eines Programms, eines Moduls, eines Objekts oder eine Befehlsfolge implementiert sind, als „Programm“, „Anwendung“, „Server“ oder eine andere sinnvolle Nomenklatur bezeichnet werden. In der Tat können auch andere alternative Hardware- und/oder Software-Umgebungen verwendet werden, ohne vom Anwendungsbereich der Erfindung abzuweichen.
  • Daher ist es wünschenswert, dass die hier beschriebenen Ausführungsformen in jeder Hinsicht als veranschaulichend und nichteinschränkend betrachtet werden und dass zum Festlegen des Anwendungsbereichs der Erfindung auf die beigefügten Ansprüche Bezug genommen wird.

Claims (20)

  1. Verfahren zum Verwenden einer Datenverarbeitungseinheit, um eine einzelne Stimme während eines Audiogesprächs zu verstärken, wobei das Verfahren umfasst: Empfangen einer Tonprobe von Sprache von einem Benutzer durch eine Datenverarbeitungseinheit; Erzeugen eines benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit zum Verstärken von Sprache des Benutzers auf der Grundlage der Tonprobe; Empfangen eines audiovisuellen Livestreams, wobei der audiovisuelle Livestream Live-Sprache des Benutzers während eines Audiogesprächs umfasst, wobei der audiovisuelle Livestream Hintergrundgeräusche umfasst; und Verwenden des benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit, um die Live-Sprache während des audiovisuellen Livestreams selektiv zu verstärken, ohne die Hintergrundgeräusche zu verstärken.
  2. Verfahren nach Anspruch 1, das außerdem ein Verwenden des benutzerspezifischen akustischen Modells durch die Datenverarbeitungseinheit umfasst, um die Hintergrundgeräusche während des audiovisuellen Livestreams selektiv zu unterdrücken.
  3. Verfahren nach Anspruch 1, wobei es sich bei dem benutzerspezifischen akustischen Modell um einen Einschub in eine Telefonkonferenz-Software handelt.
  4. Verfahren nach Anspruch 3, das außerdem ein Erzeugen einer Mehrzahl von benutzerspezifischen akustischen Modellen umfasst, wobei jedes benutzerspezifische akustische Modell für einen aus einer Mehrzahl von Benutzern der Telefonkonferenz-Software vorgesehen ist.
  5. Verfahren nach Anspruch 1, das außerdem umfasst: Erfassen der Tonprobe des Benutzers in einer Umgebung, die im Wesentlichen frei von Hintergrundgeräuschen ist; und Verwenden der Tonprobe zum Erzeugen des benutzerspezifischen akustischen Modells.
  6. Verfahren nach Anspruch 5, das außerdem ein Verwenden eines trainierten Modells für maschinelles Lernen umfasst, um das benutzerspezifische akustische Modell zu erzeugen.
  7. Computerprogrammprodukt zum selektiven Verstärken der Stimme eines Benutzers unter Verwenden eines vortrainierten akustischen Modells, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium mit darin verkörperten Programmanweisungen aufweist, wobei die Programmanweisungen durch einen Prozessor ausführbar sind, um den Prozessor zu veranlassen zum: Extrahieren von Sprachdaten für einen Benutzer aus einer vorliegenden Sprachprobe; Erzeugen eines vortrainierten akustischen Modells für den Benutzer aus den Sprachdaten; Analysieren eines Audiostroms aus einer Telefonkonferenz; Erkennen eines Vorhandenseins von Hintergrundgeräuschen im Audiostrom; und Anwenden des vortrainierten akustischen Modells auf den Audiostrom, um die Stimme des Benutzers und nicht die Hintergrundgeräusche zu verstärken.
  8. Computerprogrammprodukt nach Anspruch 7, das außerdem Programmanweisungen umfasst, um das vortrainierte akustische Modell zum selektiven Unterdrücken der Hintergrundgeräusche aus dem Audiostrom zu verwenden.
  9. Computerprogrammprodukt nach Anspruch 7, wobei es sich bei dem vortrainierten akustischen Modell um einen Einschub in eine Telefonkonferenz-Software handelt.
  10. Computerprogrammprodukt nach Anspruch 9, das außerdem Programmanweisungen zum Erzeugen einer Mehrzahl von benutzerspezifischen akustischen Modellen umfasst, und zwar jeweils eines für jeden einer Mehrzahl von Benutzern der Telefonkonferenz-Software.
  11. Computerprogrammprodukt nach Anspruch 7, das außerdem Programmanweisungen umfasst zum: Erfassen der Tonprobe des Benutzers in einer Umgebung, die im Wesentlichen frei von Hintergrundgeräuschen ist; und Verwenden der Tonprobe zum Erzeugen des benutzerspezifischen akustischen Modells.
  12. Computerprogrammprodukt nach Anspruch 7, das außerdem Programmanweisungen zum Erzeugen einer Mehrzahl von benutzerspezifischen akustischen Modellen für den Benutzer umfasst, wobei ein erstes der Mehrzahl von benutzerspezifischen akustischen Modellen für Sprechen in einer ersten Sprache angepasst ist und wobei ein zweites der Mehrzahl von benutzerspezifischen akustischen Modellen für Sprechen in einer zweiten Sprache angepasst ist.
  13. Computerprogrammprodukt nach Anspruch 7, das außerdem Programmanweisungen zum Erzeugen einer Mehrzahl von benutzerspezifischen akustischen Modellen für den Benutzer umfasst, wobei ein erstes der Mehrzahl von benutzerspezifischen akustischen Modellen an einen normalen körperlichen Zustand des Benutzers angepasst ist und wobei ein zweites der Mehrzahl von benutzerspezifischen akustischen Modellen an einen aktuellen körperlichen Zustand des Benutzers angepasst ist.
  14. Computerprogrammprodukt nach Anspruch 7, das außerdem umfasst: Empfangen einer Tonprobe von Sprache eines Benutzers durch eine Datenverarbeitungseinheit in einer Umgebung, die im Wesentlichen frei von Hintergrundgeräuschen ist; und Verwenden eines trainierten Modells für maschinelles Lernen zum Erzeugen des vortrainierten akustischen Modells aus der Tonprobe.
  15. System zum Verstärken einer einzelnen Stimme während eines Audiogesprächs, wobei das System einen Prozessor umfasst, der so konfiguriert ist, dass er Programmanweisungen ausführt, die bei Ausführen im Prozessor den Prozessor veranlassen zum: Empfangen einer Tonprobe von Sprache eines Benutzers; Erzeugen eines benutzerspezifischen akustischen Modells zum Verstärken von Sprache des Benutzers auf der Grundlage der Tonprobe; Empfangen eines audiovisuellen Livestreams, wobei der audiovisuelle Livestream Live-Sprache des Benutzers während eines Audiogesprächs umfasst, wobei der audiovisuelle Livestream Hintergrundgeräusche umfasst; und Verwenden des benutzerspezifischen akustischen Modells, um die Live-Sprache während des audiovisuellen Livestreams selektiv zu verstärken, ohne die Hintergrundgeräusche zu verstärken.
  16. System nach Anspruch 15, das außerdem Programmanweisungen zum Verwenden des benutzerspezifischen akustischen Modells umfasst, um die Hintergrundgeräusche während des audiovisuellen Livestreams selektiv zu unterdrücken.
  17. System nach Anspruch 15, wobei es sich bei dem benutzerspezifischen akustischen Modell um einen Einschub in eine Telefonkonferenz-Software handelt.
  18. System nach Anspruch 17, das außerdem Programmanweisungen zum Erzeugen einer Mehrzahl von benutzerspezifischen akustischen Modellen aufweist, wobei jedes benutzerspezifische akustische Modell für einen von jedem der Mehrzahl von Benutzern der Telefonkonferenz-Software vorgesehen ist.
  19. System nach Anspruch 15, das außerdem Programmanweisungen umfasst zum: Erfassen einer Tonprobe vom Benutzer in einer Umgebung, die im Wesentlichen frei von Hintergrundgeräuschen ist; und Verwenden der Tonprobe zum Erzeugen des benutzerspezifischen akustischen Modells.
  20. System nach Anspruch 19, das außerdem Programmanweisungen zum Verwenden eines trainierten Modells für maschinelles Lernen umfasst, um das benutzerspezifische akustische Modell zu erzeugen.
DE112021005577.1T 2020-12-18 2021-11-17 Sprecherspezifisches verstärken von stimmen Pending DE112021005577T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/126,261 2020-12-18
US17/126,261 US20220199102A1 (en) 2020-12-18 2020-12-18 Speaker-specific voice amplification
PCT/CN2021/131104 WO2022127485A1 (en) 2020-12-18 2021-11-17 Speaker-specific voice amplification

Publications (1)

Publication Number Publication Date
DE112021005577T5 true DE112021005577T5 (de) 2023-08-17

Family

ID=82022461

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112021005577.1T Pending DE112021005577T5 (de) 2020-12-18 2021-11-17 Sprecherspezifisches verstärken von stimmen

Country Status (6)

Country Link
US (1) US20220199102A1 (de)
JP (1) JP2024500746A (de)
CN (1) CN116648746A (de)
DE (1) DE112021005577T5 (de)
GB (1) GB2617044A (de)
WO (1) WO2022127485A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI801085B (zh) * 2022-01-07 2023-05-01 矽響先創科技股份有限公司 智能網路通訊之雜訊消減方法
US20230421702A1 (en) * 2022-06-24 2023-12-28 Microsoft Technology Licensing, Llc Distributed teleconferencing using personalized enhancement models
US20240146560A1 (en) * 2022-10-31 2024-05-02 Zoom Video Communications, Inc. Participant Audio Stream Modification Within A Conference
US20240212689A1 (en) * 2022-12-21 2024-06-27 Qualcomm Incorporated Speaker-specific speech filtering for multiple users

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072834B2 (en) * 2002-04-05 2006-07-04 Intel Corporation Adapting to adverse acoustic environment in speech processing using playback training data
CN101089952B (zh) * 2006-06-15 2010-10-06 株式会社东芝 噪声抑制、提取特征、训练模型及语音识别的方法和装置
EP2192575B1 (de) * 2008-11-27 2014-04-30 Nuance Communications, Inc. Spracherkennung auf Grundlage eines mehrsprachigen akustischen Modells
US9026444B2 (en) * 2009-09-16 2015-05-05 At&T Intellectual Property I, L.P. System and method for personalization of acoustic models for automatic speech recognition
US9106794B2 (en) * 2010-04-30 2015-08-11 American Teleconferencing Services, Ltd Record and playback in a conference
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
CN104485108A (zh) * 2014-11-26 2015-04-01 河海大学 一种基于多说话人模型的噪声与说话人联合补偿方法
US9607627B2 (en) * 2015-02-05 2017-03-28 Adobe Systems Incorporated Sound enhancement through deverberation
US10209951B2 (en) * 2017-04-03 2019-02-19 Motorola Mobility Llc Language-based muting during multiuser communications
DK179496B1 (en) * 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
US11011162B2 (en) * 2018-06-01 2021-05-18 Soundhound, Inc. Custom acoustic models
US11322148B2 (en) * 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
US11138981B2 (en) * 2019-08-21 2021-10-05 i2x GmbH System and methods for monitoring vocal parameters
US11374976B2 (en) * 2019-10-15 2022-06-28 Bank Of America Corporation System for authentication of resource actions based on multi-channel input
US11455984B1 (en) * 2019-10-29 2022-09-27 United Services Automobile Association (Usaa) Noise reduction in shared workspaces
CN110808048B (zh) * 2019-11-13 2022-10-25 联想(北京)有限公司 语音处理方法、装置、系统及存储介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111653288B (zh) * 2020-06-18 2023-05-09 南京大学 基于条件变分自编码器的目标人语音增强方法

Also Published As

Publication number Publication date
JP2024500746A (ja) 2024-01-10
GB2617044A (en) 2023-09-27
WO2022127485A1 (en) 2022-06-23
US20220199102A1 (en) 2022-06-23
CN116648746A (zh) 2023-08-25

Similar Documents

Publication Publication Date Title
DE112018005421B4 (de) System und verfahren zum automatischen blockieren von in einem audio-datenstrom enthaltenen sensiblen informationen
DE112021005577T5 (de) Sprecherspezifisches verstärken von stimmen
US9672829B2 (en) Extracting and displaying key points of a video conference
Barker et al. The PASCAL CHiME speech separation and recognition challenge
DE112021004353B4 (de) Verbessern von spracherkennungstranskriptionen
DE60124842T2 (de) Rauschrobuste Mustererkennung
DE112020005253T5 (de) Auflösung von anaphern
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE112018005227T5 (de) Merkmalsextraktion mithilfe von multi-task-lernen
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE112020005726B4 (de) Segmentieren von videos auf der grundlage eines gewichteten wissensgraphen
DE112020003306T5 (de) Unterscheiden von sprachbefehlen
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
DE112020003698T5 (de) Erzeugen akustischer sequenzen über neuronale netze unter verwendung verknüpfter prosodieinformationen
DE102013212215A1 (de) System und Verfahren zum Feststellen von Fachkenntnissen durch Sprachanalyse
DE112021004829T5 (de) Durchgängiges verstehen gesprochener sprache ohne vollständige abschriften
DE102021122068A1 (de) Verbessern von spracherkennungstranskriptionen
DE112020004925T5 (de) Aktualisieren und umsetzen eines dokuments aus einem audiovorgang
DE102022116905A1 (de) Verfahren und system zur dynamischen rauschunterdrückung eines neuronalen netzwerks zur audioverarbeitung
US20210065681A1 (en) Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
Weber et al. Validations of an alpha version of the E3 Forensic Speech Science System (E3FS3) core software tools
DE112021005230T5 (de) Erzeugen alternativer veränderlicher kennsätze
CN117476035A (zh) 话音活动检测集成以改进自动讲话检测
DE102022202150A1 (de) System und verfahren zur kontextbewussten audioverstärkung
DE102021123577B4 (de) Audioqualitäts-feedback während einer live-übertragung von einer quelle

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence