DE112020005166B4 - Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen - Google Patents

Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen Download PDF

Info

Publication number
DE112020005166B4
DE112020005166B4 DE112020005166.8T DE112020005166T DE112020005166B4 DE 112020005166 B4 DE112020005166 B4 DE 112020005166B4 DE 112020005166 T DE112020005166 T DE 112020005166T DE 112020005166 B4 DE112020005166 B4 DE 112020005166B4
Authority
DE
Germany
Prior art keywords
conversation
participant
spectral mask
participants
spectral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112020005166.8T
Other languages
English (en)
Other versions
DE112020005166T5 (de
Inventor
Jeb Linton
Jonathan Samn
Poojitha Bikki
Minsik Lee
Satya Sreenivas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020005166T5 publication Critical patent/DE112020005166T5/de
Application granted granted Critical
Publication of DE112020005166B4 publication Critical patent/DE112020005166B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Verfahren zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern, das Verfahren aufweisend:Empfangen einer Mehrzahl von Spektralmasken durch eine mobile Einheit, wobei jede Spektralmaske aus der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind, wobei die mobile Einheit die Mehrzahl von Spektralmasken drahtlos von mobilen Einheiten empfängt, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, wobei die Spektralmaske ein mathematisch definierter Filter ist, der auf Töne angewendet wird;Erzeugen, durch die mobile Einheit, einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken, die für jeden jeweiligen Teilnehmer, der an dem Gespräch beteiligt ist, personalisiert sind, als eine personalisierte Spektralmaske, die ein Zeitreihen-Vorhersagemodell ist, das die nächste Frequenzsignatur der Stimme eines jeweiligen Teilnehmers vorhersagt, wenn Töne verarbeitet werden; undAnwenden, durch die mobile Einheit, der zusammengesetzten Spektralmaske auf von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, unter Verwendung einer logischen ODER-Operation in einem Frequenzbereich, die einen Filter erzeugt, der nur Stimmen der ausgewählten Gruppe von Teilnehmern zulässt, die an dem Gespräch beteiligt sind, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.

Description

  • HINTERGRUND
  • Gebiet der Erfindung
  • Die Offenbarung betrifft im Allgemeinen Spektralmasken und im Besonderen ein auf Gesprächsteilnehmer abgestimmtes Filtern unter Verwendung von dynamischer Spektralmaskierung durch ein tiefes neuronales Netz zur Isolierung und Sicherheit von Gesprächen unter Teilnehmern in lauten Umgebungen.
  • Beschreibung des Standes der Technik
  • In der Telekommunikation ist eine Spektralmaske ein mathematisch definierter Filter, der auf Töne angewendet wird. Die Spektralmaske soll im Allgemeinen Töne dämpfen, die nicht mit der Spektralmaske übereinstimmen. Eine Abschwächung dieser unerwünschten Töne erfolgt in der Regel dadurch, dass lediglich diejenigen Töne durchgelassen werden, die mit der Spektralmaske übereinstimmen. Im Stand der Technik beschreibt US20190318757A1 die Trennung von Audiosignalen in sprecherspezifische Signale. US20070225984A1 beschreibt die Erzeugung, Pflege, Aktualisierung und Anwendung digitaler Sprachprofile.
  • KURZDARSTELLUNG
  • Die Erfindung wird durch die Merkmale der unabhängigen Ansprüche beschrieben. Ausführungsformen sind in den abhängigen Ansprüchen angegeben.
  • Gemäß einer veranschaulichenden Ausführungsform wird ein Verfahren zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern bereitgestellt. Es wird eine Mehrzahl von Spektralmasken empfangen. Jede Spektralmaske aus der Mehrzahl entspricht einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern, die an einem Gespräch beteiligt sind. Eine zusammengesetzte Spektralmaske wird durch additive Überlagerung der Mehrzahl von Spektralmasken erzeugt. Die zusammengesetzte Spektralmaske wird auf von einem Mikrofon erfassten Ton angewendet, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, und verbleibende Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, werden verstärkt. Gemäß anderen veranschaulichenden Ausführungsformen werden eine mobile Einheit und ein Computerprogrammprodukt zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern bereitgestellt.
  • In den verschiedenen veranschaulichenden Ausführungsformen werden auch die verstärkten verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit, die einem Teilnehmer des Gesprächs entspricht, übermittelt. Darüber hinaus befindet sich die Audio-Ausgabeeinheit neben einem Ohr des Teilnehmers des Gesprächs.
  • Des Weiteren wird in den verschiedenen veranschaulichenden Ausführungsformen eine Stimmprobe des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung gesendet, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen, und die für den Teilnehmer personalisierte Spektralmaske wird von dem Server des tiefen neuronalen Netzes empfangen. In den verschiedenen veranschaulichenden Ausführungsformen wird die für den Teilnehmer personalisierte Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, kombiniert, um die zusammengesetzte Spektralmaske zu bilden, eingehende Audiosignale werden unter Verwendung der zusammengesetzten Spektralmaske gefiltert, um lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal zu belassen, und das Audiosignal, das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, wird an die Audio-Ausgabeeinheit übermittelt. Außerdem wird in den verschiedenen veranschaulichenden Ausführungsformen die für den Teilnehmer personalisierte Spektralmaske und die Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten geteilt, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  • Gemäß einem ersten Aspekt stellt die vorliegende Erfindung ein Verfahren zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern bereit, wobei das Verfahren Folgendes aufweist: Empfangen einer Mehrzahl von Spektralmasken, wobei jede Spektralmaske in der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind; Erzeugen einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken; und Anwenden der zusammengesetzten Spektralmaske auf einen von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das darüber hinaus Folgendes aufweist: Übermitteln der verstärkten verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit, die einem Teilnehmer des Gesprächs entspricht.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das darüber hinaus Folgendes aufweist: Durchführen einer Echtzeit-Untertitelung des Gesprächs; und Anzeigen der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, wobei sich die Audio-Ausgabeeinheit neben einem Ohr des Teilnehmers des Gesprächs befindet.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das darüber hinaus Folgendes aufweist: Senden einer Stimmprobe des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das darüber hinaus Folgendes aufweist: Kombinieren der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, um lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal zu belassen; und Übermitteln des Audiosignals, das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, das darüber hinaus Folgendes aufweist: Teilen der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, wobei die für den Teilnehmer des Gesprächs personalisierte Spektralmaske aus der zusammengesetzten Spektralmaske auf der Grundlage der Präferenz des Teilnehmers ausgeschlossen wird.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, wobei die ausgewählte Gruppe von Teilnehmern angibt, wer zum Teilnehmen an dem Gespräch berechtigt ist.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, wobei das Verfahren von einer mobilen Einheit durchgeführt wird.
  • Vorzugsweise stellt die vorliegende Erfindung ein Verfahren bereit, wobei die mobile Einheit die Mehrzahl von Spektralmasken drahtlos von mobilen Einheiten empfängt, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind.
  • Gemäß einem zweiten Aspekt stellt die vorliegende Erfindung eine mobile Einheit zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern bereit, wobei die mobile Einheit Folgendes aufweist: ein Bussystem; eine mit dem Bussystem verbundene Speichereinheit, wobei auf der Speichereinheit Programmanweisungen gespeichert sind; und einen mit dem Bussystem verbundenen Prozessor, wobei der Prozessor die Programmanweisungen ausführt zum: Empfangen einer Mehrzahl von Spektralmasken, wobei jede Spektralmaske in der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind; Erzeugen einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken; und Anwenden der zusammengesetzten Spektralmaske auf einen von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Übermitteln der verstärkten verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit, die einem Teilnehmer des Gesprächs entspricht.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Durchführen einer Echtzeit-Untertitelung des Gesprächs; und Anzeigen der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei sich die Audio-Ausgabeeinheit neben einem Ohr des Teilnehmers des Gesprächs befindet.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Senden einer Stimmprobe des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Kombinieren der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, um lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal zu belassen; und Übermitteln des Audiosignals, das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit.
  • Vorzugsweise stellt die vorliegende Erfindung eine mobile Einheit bereit, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Teilen der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  • Gemäß einem dritten Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, auf dem Programmanweisungen enthalten sind, wobei die Programmanweisungen durch eine mobile Einheit ausführbar sind, um die mobile Einheit zu veranlassen, ein Verfahren durchzuführen, das Folgendes aufweist: Empfangen einer Mehrzahl von Spektralmasken, wobei jede Spektralmaske in der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind; Erzeugen einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken; und Anwenden der zusammengesetzten Spektralmaske auf einen von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das darüber hinaus Folgendes aufweist: Übermitteln der verstärkten verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit, die einem Teilnehmer des Gesprächs entspricht.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das darüber hinaus Folgendes aufweist: Durchführen einer Echtzeit-Untertitelung des Gesprächs; und Anzeigen der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, bei dem sich die Audio-Ausgabeeinheit neben einem Ohr des Teilnehmers des Gesprächs befindet.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das darüber hinaus Folgendes aufweist: Senden einer Stimmprobe des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das darüber hinaus Folgendes aufweist: Kombinieren der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, um lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal zu belassen; und Übermitteln des Audiosignals, das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit.
  • Vorzugsweise stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das darüber hinaus Folgendes aufweist: Teilen der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  • Infolgedessen stellen die verschiedenen veranschaulichenden Ausführungsformen ein deutliches und sicheres Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer unter Verwendung von gemeinsam genutzten Spektralmasken von den mobilen Einheiten bereit, die der ausgewählten Gruppe von Teilnehmern entsprechen, um die zusammengesetzte Spektralmaske zum Herausfiltern von irrelevanten Tönen zu erzeugen, so dass lediglich die Stimmen der Teilnehmer in dem an die Audio-Ausgabeeinheit ausgegebenen Audiosignal verbleiben.
  • Figurenliste
    • 1 ist eine bildliche Darstellung eines Netzwerks eines Datenverarbeitungssystems, in dem veranschaulichende Ausführungsformen umgesetzt werden können;
    • 2 ist ein Schaubild eines Datenverarbeitungssystems, in dem veranschaulichende Ausführungsformen umgesetzt werden können;
    • 3 ist ein Schaubild, das eine Cloud-Computing-Umgebung veranschaulicht, in dem veranschaulichende Ausführungsformen umgesetzt werden können;
    • 4 ist ein Schaubild, das ein Beispiel für Abstraktionsschichten einer Cloud-Computing-Umgebung gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 5 ist ein Schaubild, das ein Beispiel für ein Audio-Filterungssystem gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 6 ist ein Schaubild, das ein Beispiel für einen Prozess des Kombinierens von Spektralmasken einer Audio-Filterungsanwendung veranschaulicht;
    • 7 ist ein Schaubild, das ein Beispiel für einen Datenaustauschprozess in einer lauten Umgebung gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 8 ist ein Schaubild, das ein Beispiel für einen Audio-Filterungsprozess gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 9 ist ein Schaubild, das ein Beispiel für einen alternativen Audio-Filterungsprozess gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 10 ist ein Ablaufplan, der einen Prozess zum Empfangen einer personalisierten Spektralmaske gemäß einer veranschaulichenden Ausführungsform veranschaulicht;
    • 11A bis 11B stellen einen Ablaufplan dar, der einen Prozess zum Filtern eines eingehenden Audiosignals gemäß einer veranschaulichenden Ausführungsform veranschaulicht; und
    • 12 ist ein Ablaufplan, der einen Prozess zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern gemäß einer veranschaulichenden Ausführungsform veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt auf jeder möglichen technischen Detailstufe der Integration handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten, Konfigurationsdaten für integrierte Schaltungen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie zum Beispiel Smalltalk, C++ oder dergleichen sowie prozedurale Programmiersprachen wie zum Beispiel die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Computers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit in einem Schritt, gleichzeitig, im Wesentlichen gleichzeitig, teilweise oder vollständig zeitlich überlappend ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist darüber hinaus anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Unter Bezugnahme auf die Figuren, und insbesondere unter Bezugnahme auf die 1 bis 5, werden Schaubilder von Datenverarbeitungsumgebungen bereitgestellt, in denen veranschaulichende Ausführungsformen umgesetzt werden können. Man sollte sich darüber im Klaren sein, dass die 1 bis 5 lediglich als Beispiele zu verstehen sind und keinerlei Einschränkungen in Bezug auf die Umgebungen, in denen verschiedene Ausführungsformen umgesetzt werden können, anführen oder mit sich bringen sollen. Es können viele Abwandlungen an den abgebildeten Umgebungen vorgenommen werden.
  • 1 zeigt eine bildliche Darstellung eines Netzwerks von Datenverarbeitungssystemen, in dem veranschaulichende Ausführungsformen umgesetzt werden können. Bei einem Netzwerk-Datenverarbeitungssystem 100 handelt es sich um ein Netzwerk von Computern, Datenverarbeitungssystemen und anderen Einheiten, in dem die veranschaulichenden Ausführungsformen umgesetzt werden können. Das Netzwerk-Datenverarbeitungssystem 100 enthält ein Netzwerk 102, bei dem es sich um das Medium handelt, das zum Bereitstellen von Datenübertragungsverbindungen zwischen den Computern, Datenverarbeitungssystemen und anderen Einheiten verwendet wird, die innerhalb des Netzwerk-Datenverarbeitungssystems 100 miteinander verbunden sind. Das Netzwerk 102 kann Verbindungen wie zum Beispiel drahtgestützte Datenübertragungsverbindungen, drahtlose Datenübertragungsverbindungen, Lichtwellenleiter-Kabel und dergleichen enthalten.
  • In dem abgebildeten Beispiel sind ein Server 104 und ein Server 106 gemeinsam mit einem Speicher 108 mit dem Netzwerk 102 verbunden. Bei dem Server 104 und dem Server 106 kann es sich zum Beispiel um Server-Computer mit Hochgeschwindigkeitsverbindungen zu dem Netzwerk 102 handeln. Zusätzlich stellen der Server 104 und der Server 106 Benutzern von Client-Einheiten Dienste zur Erzeugung von personalisierten Spektralmasken bereit. Es sei auch darauf hingewiesen, dass der Server 104 und der Server 106 jeweils mehrere Datenverarbeitungsknoten in einer oder mehreren Cloud-Umgebungen darstellen können. Alternativ können der Server 104 und der Server 106 auch jeweils ein Cluster von Servern in einem oder mehreren Rechenzentren darstellen.
  • Ein Client 110, ein Client 112 und ein Client 114 sind ebenfalls mit dem Netzwerk 102 verbunden. Bei den Clients 110, 112 und 114 handelt es sich um Clients des Servers 104 und des Servers 106. In diesem Beispiel sind die Clients 110, 112 und 114 als mobile Datenübertragungseinheiten gezeigt, wie zum Beispiel Mobiltelefone, Smartphones und dergleichen, mit drahtlosen Datenübertragungsverbindungen zu dem Netzwerk 102. Es sei allerdings darauf hingewiesen, dass die Clients 110, 112 und 114 lediglich Beispiele sind und andere Arten von mobilen Datenübertragungseinheiten darstellen können, wie zum Beispiel Laptop-Computer, Handheld-Computer, Smartwatches, Spiele-Einheiten und dergleichen, mit drahtlosen Datenübertragungsverbindungen zu dem Netzwerk 102. Benutzer der Clients 110, 112 und 114 können die Clients 110, 112 und 114 nutzen, um auf die von Server 104 und Server 106 bereitgestellten Dienste zur Erzeugung von personalisierten Spektralmasken zuzugreifen.
  • Bei dem Speicher 108 handelt es sich um eine Netzwerk-Speichereinheit, in der jede beliebige Art von Daten in einem strukturierten Format oder einem unstrukturierten Format gespeichert sein kann. Zusätzlich kann der Speicher 108 eine Mehrzahl von Netzwerk-Speichereinheiten darstellen. Darüber hinaus können in dem Speicher 108 Kennungen und Netzwerkadressen für eine Mehrzahl von unterschiedlichen Client-Einheiten, Kennungen für eine Mehrzahl von unterschiedlichen Benutzern, Stimmproben für die Mehrzahl von unterschiedlichen Benutzern, personalisierte Spektralmasken für die Mehrzahl von unterschiedlichen Benutzern und dergleichen gespeichert sein. Darüber hinaus können in dem Speicher 108 auch andere Arten von Daten gespeichert sein, wie zum Beispiel Identitätsnachweis- oder Berechtigungsdaten, die zum Beispiel Benutzernamen, Passwörter und biometrische Vorlagen umfassen können, die Benutzern von Client-Einheiten zugehörig sind.
  • Zusätzlich sei darauf hingewiesen, dass das Netzwerk-Datenverarbeitungssystem 100 eine beliebige Anzahl von zusätzlichen Servern, Clients, Speichereinheiten und anderen nicht gezeigten Einheiten umfassen kann. Der in dem Netzwerk-Datenverarbeitungssystem 100 befindliche Programmcode kann auf einem durch einen Computer lesbaren Speichermedium gespeichert sein und auf einen Computer oder eine andere Datenverarbeitungseinheit zur Verwendung heruntergeladen werden. Zum Beispiel kann der Programmcode auf einem durch einen Computer lesbaren Speichermedium auf dem Server 104 gespeichert sein und über das Netzwerk 102 auf den Client 110 zur Verwendung auf dem Client 110 heruntergeladen werden.
  • In dem abgebildeten Beispiel kann das Netzwerk-Datenverarbeitungssystem 100 als eine Reihe verschiedener Arten von Datenübertragungsnetzwerken umgesetzt sein, wie zum Beispiel ein Telekommunikationsnetz, ein Internet, ein Intranet, ein persönliches Netzwerk (PAN), ein lokales Netzwerk (LAN), ein Weitverkehrsnetz (WAN) oder eine beliebige Kombination davon. 1 soll lediglich als Beispiel und nicht als Einschränkung hinsichtlich des Aufbaus der verschiedenen veranschaulichenden Ausführungsformen dienen.
  • Unter Bezugnahme auf 2 ist ein Schaubild eines Datenverarbeitungssystems gemäß einer veranschaulichenden Ausführungsform abgebildet. Ein Datenverarbeitungssystem 200 ist ein Beispiel für eine mobile Datenübertragungseinheit wie zum Beispiel den Client 110 in 1, in dem sich durch einen Computer lesbarer Programmcode bzw. Anweisungen befinden können, die Prozesse von veranschaulichenden Ausführungsformen umsetzen. In diesem Beispiel umfasst das Datenverarbeitungssystem 200 ein Datenübertragungsnetz 202, das einen Austausch von Daten zwischen einer Prozessoreinheit 204, einem Hauptspeicher 206, einem dauerhaften Speicher 208, einer Datenübertragungseinheit 210, einer Eingabe/Ausgabe- (E/A-) Einheit 212 und einer Anzeige 214 bereitstellt.
  • Die Prozessoreinheit 204 dient zum Ausführen von Anweisungen für Software-Anwendungen und Programme, die in den Hauptspeicher 206 geladen werden können. Abhängig von der jeweiligen Umsetzung kann es sich bei der Prozessoreinheit 204 um einen Satz von einem oder mehreren Hardware-Prozessoreinheiten oder einen Mehrkernprozessor handeln.
  • Der Hauptspeicher 206 und der dauerhafte Speicher 208 sind Beispiele für Speichereinheiten 216. Bei einer durch einen Computer lesbaren Speichereinheit handelt es sich um eine beliebige Hardware, die Daten speichern kann, wie zum Beispiel Daten, durch einen Computer lesbaren Programmcode in funktionaler Form und/oder andere geeignete Daten entweder auf vorübergehender Grundlage oder auf dauerhafter Grundlage, ohne Beschränkung darauf. Darüber hinaus schließt eine durch einen Computer lesbare Speichereinheit ein Weiterleitungsmedium aus. Bei dem Hauptspeicher 206 kann es sich in diesen Beispielen zum Beispiel um einen Direktzugriffsspeicher (RAM) oder jede beliebige andere geeignete flüchtige oder nichtflüchtige Speichereinheit wie zum Beispiel einen Flash-Speicher handeln. Abhängig von der jeweiligen Umsetzung kann der dauerhafte Speicher 208 verschiedene Formen annehmen. Zum Beispiel kann der dauerhafte Speicher 208 eine oder mehrere Einheiten enthalten. Zum Beispiel kann es sich bei dem dauerhaften Speicher 208 um ein Festplattenlaufwerk, eine Halbleiter-Speicherplatte oder eine Kombination aus diesen handeln.
  • In diesem Beispiel ist auf dem dauerhaften Speicher 208 eine Audio-Filterungsanwendung 218 gespeichert. Es sei allerdings darauf hingewiesen, dass es sich, obwohl die Audio-Filterungsanwendung 218 als in dem dauerhaften Speicher 208 befindlich veranschaulicht ist, bei der Audio-Filterungsanwendung 218 in einer alternativen veranschaulichenden Ausführungsform um eine Kombination aus Hardware- und Software-Komponenten handeln kann, die von dem dauerhaften Speicher 208 getrennt sind. In einer anderen veranschaulichenden Ausführungsform kann sich ein erster Satz von Komponenten der Audio-Filterungsanwendung 218 in dem Datenverarbeitungssystem 200 befinden, und ein zweiter Satz von Komponenten der Audio-Filterungsanwendung 218 kann sich in einem zweiten Datenverarbeitungssystem wie zum Beispiel dem Server 104 in 1 befinden.
  • Die Audio-Filterungsanwendung 218 steuert den Prozess des Kombinierens von Spektralmasken, die Teilnehmern eines Gesprächs entsprechen, durch additive Überlagerung, um lediglich Audiosignale (d.h. Stimmen) jedes Teilnehmers des Gesprächs zu isolieren und zu verstärken und so die Deutlichkeit und Sicherheit des Gesprächs zu erhöhen. Ein Benutzer 220 stellt entsprechend dem Datenverarbeitungssystem 200 eine Kennung des Benutzers dar. Es sei darauf hingewiesen, dass der Benutzer 220 auch ein Teilnehmer an einem Gespräch mit einem oder mehreren anderen Benutzern von mobilen Datenübertragungseinheiten über ein Netzwerk wie zum Beispiel das Netzwerk 102 in 1 ist.
  • Eine Stimmprobe 222 stellt eine biometrische Probe einer Stimme des Benutzers 220 dar. Mit anderen Worten handelt es sich bei der Stimmprobe 222 um eine Aufnahme der Stimme des Benutzers 220. Der Benutzer 220 sendet die Stimmprobe 222 von dem Datenverarbeitungssystem 200 an einen Computer, der eine Spektralmaske erzeugt, wie zum Beispiel den Server 104 in 1.
  • Der Computer, der eine Spektralmaske erzeugt, nutzt ein tiefes neuronales Netz, um eine Spektralmaske 224 zu erzeugen, die auf der Grundlage der Stimmprobe 222 für den Benutzer 220 personalisiert ist. Tiefes Lernen (deep learning), auch bekannt als tiefes strukturiertes Lernen (deep structured learning) oder hierarchisches Lernen, ist ein Teil des maschinellen Lernens auf der Grundlage von künstlichen neuronalen Netzen. Maschinelles Lernen kann überwacht, halbüberwacht oder unüberwacht sein. Architekturen des tiefen Lernens wie zum Beispiel tiefe neuronale Netze, rekurrente neuronale Netze und neuronale Faltungsnetze wurden bereits in Bereichen wie Spracherkennung, Audioerkennung, Verarbeitung natürlicher Sprache, maschinelle Übersetzung und dergleichen angewandt. Ein tiefes neuronales Netz weist mehrere Schichten zwischen der Eingabe- und der Ausgabeschicht auf. Das tiefe neuronale Netz bewegt sich durch die verschiedenen Schichten und berechnet die Wahrscheinlichkeit jeder Ausgabe. Die Spektralmaske 224 filtert eingehende Audiosignale so, dass lediglich Signale verbleiben, die mit der Spektralmaske 224 übereinstimmen (d.h. fast ausschließlich Stimmsignale, die dem Benutzer 220 entsprechen). Mit anderen Worten filtert die Spektralmaske 224 alle anderen Audiosignale heraus, die nicht mit der Spektralmaske 224 übereinstimmen.
  • Ein Satz von Spektralmasken 226 stellt einen Satz von einer oder mehreren zuvor geteilten und gespeicherten Spektralmasken dar, die anderen Benutzern von mobilen Datenübertragungseinheiten entsprechen, welche die Audio-Filterungsanwendung von veranschaulichenden Ausführungsformen umfassen. Die Audio-Filterungsanwendung 218 kann dem Benutzer 220 unmittelbar vor oder zu Beginn eines Gesprächs mit anderen Benutzern einer mobilen Datenübertragungseinheit einen Satz von Spektralmasken 226 auf der Anzeige 214 anzeigen, damit einige, alle oder keine der Spektralmasken 226 ausgewählt werden können. Eine ausgewählte Gruppe von Gesprächsteilnehmern 228 stellt einen oder mehrere andere Benutzer von mobilen Datenübertragungseinheiten dar, die der Benutzer 220 ausgewählt hat, um an einem Gespräch mit dem Benutzer 220 über das Datenverarbeitungssystem 200 und jede ihrer jeweiligen mobilen Datenübertragungseinheiten teilzunehmen.
  • Wenn eine oder mehrere Spektralmasken der ausgewählten Gesprächsteilnehmer (d.h. der ausgewählten Gruppe von Gesprächsteilnehmern 228) nicht in dem Satz von Spektralmasken 226 aufgeführt sind, kann die Audio-Filterungsanwendung 218 ein Herunterladen derjenigen Spektralmasken, die nicht in dem Satz von Spektralmasken 226 enthalten sind, welche den ausgewählten Gesprächsteilnehmern entsprechen, anfordern oder ein drahtloses Herunterladen dieser automatisch initiieren. Anschließend erzeugt die Audio-Filterungsanwendung 218 eine zusammengesetzte Spektralmaske 230, bei der es sich um eine Kombination sämtlicher Spektralmasken handelt, die dem Benutzer 220 und der ausgewählten Gruppe von Gesprächsteilnehmern 228 entsprechen. Alternativ kann die Audio-Filterungsanwendung 218 auf der Grundlage der Präferenz des Benutzers 220 eine zusammengesetzte Spektralmaske 230 unter Verwendung der gemeinsam genutzten Spektralmasken erzeugen, die lediglich der ausgewählten Gruppe von Gesprächsteilnehmern 228 und nicht dem Benutzer 220 entsprechen.
  • Die Audio-Filterungsanwendung 218 erzeugt eine zusammengesetzte Spektralmaske 230 unter Verwendung von additiver Überlagerung der Spektralmasken, die dem Benutzer 220 und der ausgewählten Gruppe von Gesprächsteilnehmern 228 entsprechen. Die Audio-Filterungsanwendung 218 nutzt eine zusammengesetzte Spektralmaske 230, um lediglich Audiosignale jedes Teilnehmers des Gesprächs zu isolieren und zu verstärken und ein Audiosignal 232 zu erzeugen. Mit anderen Worten besteht das Audiosignal 232 lediglich aus Stimmen von Gesprächsteilnehmern und nur minimal aus anderen Fremd-Audiosignalen wie zum Beispiel Hintergrundgeräuschen. So wandelt die Audio-Filterungsanwendung 218 durch Anwenden der zusammengesetzten Spektralmaske 230 auf alle eingehenden Audiosignale während des Gesprächs die eingehenden Audiosignale in einen anderen Zustand oder ein anderes Gebilde um (d.h. in das Audiosignal 232), das fast ausschließlich Stimmen von Gesprächsteilnehmern enthält.
  • Die Audio-Filterungsanwendung 218 sendet das Audiosignal 232 an eine Audio-Ausgabeeinheit 234. Die Audio-Ausgabeeinheit 234 stellt eine Kennung einer Audio-Ausgabeeinheit dar, wie zum Beispiel ein Headset, Ohrhörer, Kopfhörer oder dergleichen, die drahtgebunden oder drahtlos mit dem Datenverarbeitungssystem 200 verbunden ist. Die Audio-Ausgabeeinheit 234 befindet sich in, über oder in der Nähe eines oder beider Ohren des Benutzers 220, damit das Audiosignal 232 deutlich und sicher gehört werden kann.
  • Die Datenübertragungseinheit 210 sorgt in diesem Beispiel für die Datenübertragung zu anderen Computern, Datenverarbeitungssystemen und Einheiten über das Netzwerk. Die Datenübertragungseinheit 210 kann Datenübertragungen durch die Verwendung von sowohl physischen als auch drahtlosen Datenübertragungsverbindungen bereitstellen. Die physische Datenübertragungsverbindung kann zum Beispiel einen Draht, ein Kabel, einen universellen seriellen Bus oder jede beliebige andere physische Technologie nutzen, um eine physische Datenübertragungsverbindung für das Datenverarbeitungssystem 200 herzustellen. Die drahtlose Datenübertragungsverbindung kann zum Beispiel Kurzwelle, Hochfrequenz, Ultrahochfrequenz, Mikrowelle, Wireless Fidelity (Wi-Fi), Bluetooth®-Technologie, GSM (Global System for Mobile Communications), CDMA (Code Division Multiple Access), 2G (zweite Generation), 3G (dritte Generation), 4G (vierte Generation), 4G LTE (Long Term Evolution), LTE Advanced, 5G (fünfte Generation) oder eine beliebige andere drahtlose Datenübertragungstechnologie oder einen beliebigen anderen drahtlosen Datenübertragungsstandard nutzen, um eine drahtlose Datenübertragungsverbindung für das Datenverarbeitungssystem 200 herzustellen.
  • Die Eingabe/Ausgabe-Einheit 212 ermöglicht die Eingabe und Ausgabe von Daten von/zu anderen Einheiten, die gegebenenfalls mit dem Datenverarbeitungssystem 200 verbunden sind. Zum Beispiel kann die Eingabe/Ausgabe-Einheit 212 eine Verbindung für Benutzereingaben über einen Ziffernblock, eine Tastatur, eine Maus, ein Mikrofon und/oder eine andere geeignete Eingabeeinheit bereitstellen. Die Anzeige 214 stellt einen Mechanismus zum Anzeigen von Informationen für einen Benutzer bereit und kann Touchscreen-Funktionen umfassen, um es dem Benutzer zu ermöglichen, zum Beispiel über Benutzerschnittstellen oder Eingabedaten auf dem Bildschirm eine Auswahl zu treffen.
  • Anweisungen für das Betriebssystem, die Anwendungen und/oder Programme können sich in den Speichereinheiten 216 befinden, die über das Datenübertragungsnetz 202 mit der Prozessoreinheit 204 Daten austauschen. In diesem veranschaulichenden Beispiel befinden sich die Anweisungen in funktionaler Form auf dem dauerhaften Speicher 208. Diese Anweisungen können in den Hauptspeicher 206 geladen werden, um von der Prozessoreinheit 204 ausgeführt zu werden. Die Prozesse der verschiedenen Ausführungsformen können von der Prozessoreinheit 204 unter Verwendung von auf einem Computer ausgeführten Anweisungen durchgeführt werden, die sich in einem Hauptspeicher wie zum Beispiel dem Hauptspeicher 206 befinden können. Diese Programmanweisungen werden Programmcode, von einem Computer verwendbarer Programmcode oder durch einen Computer lesbarer Programmcode, der von einem Prozessor in der Prozessoreinheit 204 gelesen und ausgeführt werden kann, genannt. Die Programmanweisungen in den verschiedenen Ausführungsformen können auf verschiedenen physischen, durch einen Computer lesbaren Speichereinheiten wie zum Beispiel dem Hauptspeicher 206 oder dem dauerhaften Speicher 208 enthalten sein.
  • Ein Programmcode 236 befindet sich in einer funktionalen Form auf durch einen Computer lesbaren Medien 238, die wahlweise entfernbar sind, und kann zur Ausführung durch die Prozessoreinheit 204 in das Datenverarbeitungssystem 200 geladen oder auf dieses übertragen werden. Der Programmcode 236 und das durch einen Computer lesbare Medium 238 bilden ein Computerprogrammprodukt 240. In einem Beispiel kann es sich bei den durch einen Computer lesbaren Medien 238 um durch einen Computer lesbare Speichermedien 242 oder durch einen Computer lesbare Signalmedien 244 handeln. Die durch einen Computer lesbaren Speichermedien 242 können zum Beispiel eine optische oder magnetische Platte umfassen, die in ein Laufwerk oder eine andere Einheit, die Teil des dauerhaften Speichers 208 ist, eingelegt oder platziert wird, um auf eine Speichereinheit wie zum Beispiel eine Festplatte, die Teil des dauerhaften Speichers 208 ist, übertragen zu werden. Die durch einen Computer lesbaren Speichermedien 242 können auch die Form eines dauerhaften Speichers wie zum Beispiel ein Festplattenlaufwerk, ein Thumb-Drive oder ein Flash-Speicher annehmen, der mit dem Datenverarbeitungssystem 200 verbunden ist. In einigen Fällen sind die durch einen Computer lesbaren Speichermedien 242 möglicherweise nicht aus dem Datenverarbeitungssystem 200 entfernbar.
  • Alternativ kann der Programmcode 236 unter Verwendung der durch einen Computer lesbaren Signalmedien 244 an das Datenverarbeitungssystem 200 übertragen werden. Bei den durch einen Computer lesbaren Signalmedien 244 kann es sich zum Beispiel um ein weitergeleitetes Datensignal handeln, das den Programmcode 236 enthält. Zum Beispiel kann es sich bei den durch einen Computer lesbaren Signalmedien 244 um ein elektromagnetisches Signal, ein optisches Signal und/oder jede beliebige andere geeignete Signalart handeln. Diese Signale können über Datenübertragungsverbindungen wie zum Beispiel drahtlose Datenübertragungsverbindungen, ein Lichtwellenleiterkabel, ein Koaxialkabel, einen Draht und/oder jede beliebige andere geeignete Art von Datenübertragungsverbindung übermittelt werden. Mit anderen Worten können die Datenübertragungsverbindung und/oder die Verbindung in den veranschaulichenden Beispielen physisch oder drahtlos sein. Die durch einen Computer lesbaren Medien können auch die Form von nicht physischen Medien wie zum Beispiel Datenübertragungsverbindungen oder drahtlose Übertragungen annehmen, die den Programmcode enthalten.
  • In einigen veranschaulichenden Ausführungsformen kann der Programmcode 236 zur Verwendung innerhalb des Datenverarbeitungssystems 200 von einer anderen Einheit oder einem anderen Datenverarbeitungssystem über die durch einen Computer lesbaren Signalmedien 244 über ein Netzwerk auf den dauerhaften Speicher 208 heruntergeladen werden. Zum Beispiel kann ein Programmcode, der auf einem durch einen Computer lesbaren Speichermedium in einem Datenverarbeitungssystem gespeichert ist, über ein Netzwerk von dem Datenverarbeitungssystem auf das Datenverarbeitungssystem 200 heruntergeladen werden. Bei dem den Programmcode 236 bereitstellenden Datenverarbeitungssystem kann es sich um einen Server-Computer, einen Client-Computer oder eine andere Einheit handeln, die in der Lage ist, den Programmcode 236 zu speichern und zu übermitteln.
  • Die verschiedenen für das Datenverarbeitungssystem 200 veranschaulichten Komponenten sollen keinerlei Einschränkungen hinsichtlich des Aufbaus für die Art und Weise, in der verschiedene Ausführungsformen umgesetzt werden können, bereitstellen. Die verschiedenen veranschaulichenden Ausführungsformen können in einem Datenverarbeitungssystem umgesetzt werden, das zusätzlich zu oder an Stelle der für das Datenverarbeitungssystem 200 veranschaulichten Komponenten andere Komponenten enthält. Andere in 2 gezeigte Komponenten können gegenüber den veranschaulichten Beispielen variiert werden. Die verschiedenen Ausführungsformen können unter Verwendung beliebiger Hardware-Einheiten oder -Systeme umgesetzt werden, die Programmcode ausführen können. Als ein Beispiel kann das Datenverarbeitungssystem 200 organische Komponenten aufweisen, die mit anorganischen Komponenten verflochten sind, und/oder vollständig aus organischen Komponenten bestehen, mit Ausnahme von Menschen. Zum Beispiel kann eine Speichereinheit aus einem organischen Halbleiter bestehen.
  • Als ein anderes Beispiel kann es sich bei der durch einen Computer lesbaren Speichereinheit in dem Datenverarbeitungssystem 200 um jede beliebige Hardware-Vorrichtung handeln, die Daten speichern kann. Der Hauptspeicher 206, der dauerhafte Speicher 208 und die durch einen Computer lesbaren Speichermedien 242 sind Beispiele für physische Speichereinheiten in einer physischen Form.
  • In einem anderen Beispiel kann ein Bussystem zum Umsetzen des Datenübertragungsnetzes 202 verwendet werden und dabei aus einem oder mehreren Bussen wie zum Beispiel einem Systembus oder einem Eingabe/Ausgabe-Bus bestehen. Natürlich kann das Bussystem unter Verwendung einer beliebigen Art von Architektur umgesetzt werden, die eine Übertragung von Daten zwischen verschiedenen an das Bussystem angeschlossenen Komponenten oder Einheiten gewährleistet. Zusätzlich kann eine Datenübertragungseinheit eine oder mehrere zum Übermitteln und Empfangen von Daten verwendete Einheiten wie zum Beispiel ein Modem oder einen Netzwerkadapter enthalten. Darüber hinaus kann es sich bei einem Hauptspeicher zum Beispiel um den Hauptspeicher 206 oder einen Cache handeln, wie man ihn zum Beispiel in einem Schnittstellen- und Speicher-Steuereinheiten-Hub findet, der in dem Datenübertragungsnetz 202 vorhanden sein kann.
  • Es wird darauf hingewiesen, dass das Umsetzen der hierin angeführten Lehren nicht auf eine Cloud-Computing-Umgebung beschränkt ist, obwohl diese Offenbarung eine ausführliche Beschreibung von Cloud-Computing umfasst. Stattdessen können veranschaulichende Ausführungsformen gemeinsam mit jeder beliebigen Art von jetzt bekannter oder später erfundener Datenverarbeitungsumgebung umgesetzt werden. Cloud-Computing ist ein Servicebereitstellungsmodell zum Ermöglichen eines problemlosen bedarfsgesteuerten Netzwerkzugriffs auf einen gemeinsam genutzten Pool von konfigurierbaren Datenverarbeitungsressourcen (wie zum Beispiel Netzwerke, Netzwerkbandbreite, Server, Verarbeitung, Hauptspeicher, Speicher, Anwendungen, virtuelle Maschinen und Dienste), die mit minimalem Verwaltungsaufwand bzw. minimaler Interaktion mit einem Anbieter des Service schnell bereitgestellt und freigegeben werden können. Dieses Cloud-Modell kann mindestens fünf Eigenschaften umfassen, mindestens drei Dienstmodelle und mindestens vier Implementierungsmodelle.
  • Zu den Eigenschaften können zum Beispiel On-Demand Self-Service, Broad Network Access, Resource-Pooling, Rapid Elasticity und Measured Service gehören. On-Demand Self-Service ermöglicht einem Cloud-Nutzer, Datenverarbeitungsfunktionen wie zum Beispiel Serverzeit und Netzwerkspeicher einseitig und automatisch nach Bedarf bereitzustellen, ohne dass eine menschliche Interaktion mit dem Anbieter der Dienste erforderlich ist. Broad Network Access stellt Funktionen bereit, die über ein Netzwerk verfügbar sind und auf die durch Standardmechanismen zugegriffen wird, welche die Verwendung durch heterogene Thin- oder Thick-Client-Plattformen wie zum Beispiel Mobiltelefone, Laptops und elektronische Assistenten unterstützen. Resource-Pooling ermöglicht, dass die Datenverarbeitungsressourcen des Anbieters zusammengeschlossen werden, um mehreren Nutzern unter Verwendung eines Multi-Tenant-Modells zu dienen, wobei verschiedene physische und virtuelle Ressourcen dynamisch nach Bedarf zugewiesen und neu zugewiesen werden. Es gibt eine gefühlte Standortunabhängigkeit, da der Nutzer allgemein keine Kontrolle bzw. Kenntnis über den genauen Standort der bereitgestellten Ressourcen hat, aber in der Lage sein kann, einen Standort auf einer höheren Abstraktionsebene festzulegen, wie zum Beispiel Land, Staat oder Rechenzentrum. Rapid Elasticity stellt Funktionen bereit, die für eine schnelle horizontale Skalierung (scale out) schnell und elastisch bereitgestellt werden können, in einigen Fällen auch automatisch, und für ein schnelles Scale-in schnell freigegeben werden können. Für den Nutzer erscheinen die für das Bereitstellen verfügbaren Funktionen häufig unbegrenzt und sie können jederzeit in jeder beliebigen Menge gekauft werden. Measured Service ermöglicht Cloud-Systemen, die Verwendung von Ressourcen automatisch zu steuern und zu optimieren, indem sie eine Messfunktion auf einer gewissen Abstraktionsebene nutzen, die für die Art von Dienst geeignet ist, wie zum Beispiel Speicher, Verarbeitung, Bandbreite sowie aktive Benutzerkonten. Die Nutzung von Ressourcen kann überwacht, gesteuert und gemeldet werden, wodurch sowohl für den Anbieter als auch für den Nutzer des verwendeten Dienstes Transparenz geschaffen wird.
  • Zu Dienstmodellen können zum Beispiel Software as a Service (SaaS), Platform as a Service (PaaS) und Infrastructure as a Service (laaS) gehören. Bei Software as a Service handelt es sich um die dem Nutzer bereitgestellte Funktion, die in einer Cloud-Infrastruktur laufenden Anwendungen des Anbieters zu verwenden. Die Anwendungen sind über eine Thin-Client-Schnittstelle wie zum Beispiel einen Web-Browser (z.B. auf dem Web beruhende E-Mail) von verschiedenen Client-Einheiten her zugänglich. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter das Netzwerk, Server, Betriebssysteme, Speicher bzw. sogar einzelne Anwendungsfunktionen, mit der möglichen Ausnahme von eingeschränkten benutzerspezifischen Anwendungskonfigurationseinstellungen. Bei Platform as a Service handelt es sich um die dem Nutzer bereitgestellte Funktion, durch einen Nutzer erstellte bzw. erhaltene Anwendungen, die unter Verwendung von durch den Anbieter unterstützten Programmiersprachen und Tools erstellt wurden, in der Cloud-Infrastruktur einzusetzen. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, darunter Netzwerke, Server, Betriebssysteme bzw. Speicher, hat aber die Kontrolle über die eingesetzten Anwendungen und möglicherweise über Konfigurationen des Application Hosting Environment. Bei Infrastructure as a Service handelt es sich um die dem Nutzer bereitgestellte Funktion, das Verarbeiten, Speicher, Netzwerke und andere grundlegende Datenverarbeitungsressourcen bereitzustellen, wobei der Nutzer in der Lage ist, beliebige Software einzusetzen und auszuführen, zu der Betriebssysteme und Anwendungen gehören können. Der Nutzer verwaltet bzw. steuert die zugrunde liegende Cloud-Infrastruktur nicht, hat aber die Kontrolle über Betriebssysteme, Speicher, eingesetzte Anwendungen und möglicherweise eine eingeschränkte Kontrolle über ausgewählte Netzwerkkomponenten wie zum Beispiel Host-Firewalls.
  • Zu Einsatzmodellen können zum Beispiel eine Private Cloud, eine Community Cloud, eine Public Cloud und eine Hybrid Cloud gehören. Bei einer Private Cloud handelt es sich um eine Cloud-Infrastruktur, die einzig und allein für eine Organisation betrieben wird. Die Private Cloud kann durch die Organisation oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder in fremden Räumen befinden. Bei einer Community Cloud handelt es sich um eine Cloud-Infrastruktur, die von mehreren Organisationen gemeinsam genutzt wird und eine spezielle Benutzergemeinschaft unterstützt, die gemeinsame Angelegenheiten hat, wie zum Beispiel eine Mission, Sicherheitsanforderungen, Richtlinien sowie Überlegungen bezüglich der Einhaltung von Vorschriften. Die Community Cloud kann durch die Organisationen oder einen Dritten verwaltet werden und kann sich in den eigenen Räumen oder fremden Räumen befinden. Bei einer Public Cloud handelt es sich um eine Cloud-Infrastruktur, die der allgemeinen Öffentlichkeit oder einer großen Industriegruppe zur Verfügung gestellt wird und sie gehört einer Cloud-Dienste verkaufenden Organisation. Bei einer Hybrid Cloud handelt es sich um eine Cloud-Infrastruktur, die aus zwei oder mehreren Clouds besteht, wie zum Beispiel Private, Community und Public Clouds, die zwar als einzelne Einheiten bestehen bleiben, aber durch eine standardisierte oder proprietäre Technologie miteinander verbunden sind, die Daten- und Anwendungsportierbarkeit ermöglicht, wie zum Beispiel Cloud-Zielgruppenverteilung für den Lastenausgleich zwischen Clouds.
  • Eine Cloud-Computing-Umgebung ist dienstorientiert mit Fokus auf Statusunabhängigkeit, geringer Kopplung, Modularität und semantischer Interoperabilität. Im Herzen von Cloud-Computing liegt eine Infrastruktur, die ein Netzwerk aus zusammengeschalteten Knoten umfasst.
  • Unter Bezugnahme auf 3 ist ein Schaubild abgebildet, das eine Cloud-Computing-Umgebung veranschaulicht, in der veranschaulichende Ausführungsformen umgesetzt werden können. In diesem veranschaulichenden Beispiel umfasst eine Cloud-Computing-Umgebung 300 einen Satz von einem oder mehreren Cloud-Computing-Knoten 310, mit denen von Cloud-Nutzern verwendete lokale Datenverarbeitungseinheiten wie zum Beispiel ein Smartphone 320A, ein Desktop-Computer 320B, ein Laptop-Computer 320C und/oder ein Automobil-Computer-System 320N Daten austauschen können. Bei den Cloud-Computing-Knoten 310 kann es sich zum Beispiel um den Server 104 und den Server 106 in 1 handeln. Bei den lokalen Datenverarbeitungseinheiten 320A bis 320N kann es sich zum Beispiel um die Clients 110 bis 114 in 1 handeln.
  • Die Cloud-Computing-Knoten 310 können miteinander Daten austauschen und sie können physisch oder virtuell in ein oder mehrere Netzwerke wie Private, Community, Public oder Hybrid Clouds gruppiert werden, wie sie vorstehend beschrieben wurden, oder in eine Kombination daraus. Dies ermöglicht es der Cloud-Computing-Umgebung 300, Infrastruktur, Plattformen und/oder Software als Dienst anzubieten, für die ein Cloud-Nutzer keine Ressourcen auf einer lokalen Datenverarbeitungseinheit wie zum Beispiel den lokalen Datenverarbeitungseinheiten 320A bis 320N vorhalten muss. Es sei darauf hingewiesen, dass die Arten von lokalen Datenverarbeitungseinheiten 320A bis 320N lediglich veranschaulichend sein sollen und dass die Cloud-Computing-Knoten 310 und die Cloud-Computing-Umgebung 300 zum Beispiel über eine beliebige Art Netzwerk und/oder über eine beliebige Art von über ein Netzwerk aufrufbarer Verbindung wie zum Beispiel unter Verwendung eines Web-Browsers mit einer beliebigen Art von computergestützter Einheit Daten austauschen können.
  • Unter Bezugnahme auf 4 wird ein Schaubild gemäß einer Ausführungsform dargestellt, das Abstraktionsmodellschichten veranschaulicht. Der in diesem veranschaulichenden Beispiel gezeigte Satz von funktionalen Abstraktionsschichten kann von einer Cloud-Computing-Umgebung wie zum Beispiel der Cloud-Computing-Umgebung 300 in 3 bereitgestellt werden. Es sollte von vornherein klar sein, dass die in 4 gezeigten Komponenten, Schichten und Funktionen lediglich veranschaulichend sein sollen und Ausführungsformen der Erfindung nicht darauf beschränkt sind. Wie abgebildet ist, werden die folgenden Schichten und entsprechenden Funktionen bereitgestellt.
  • Abstraktionsschichten einer Cloud-Computing-Umgebung 400 umfassen eine Hardware- und Softwareschicht 402, eine Virtualisierungsschicht 404, eine Verwaltungsschicht 406 und eine Arbeitslastenschicht 408. Die Hardware- und SoftwareSchicht 402 umfasst die Hardware- und Software-Komponenten der Cloud-Computing-Umgebung. Zu Beispielen für die Hardware-Komponenten können zum Beispiel Mainframe-Computer 410, auf der RISC- (Reduced Instruction Set Computer) Architektur beruhende Server 412, Server 414, Blade-Server416, Speichereinheiten 418 und Netzwerke sowie Netzwerkkomponenten 420 gehören. In einigen veranschaulichenden Ausführungsformen können die Software-Komponenten zum Beispiel eine Netzwerk-Anwendungsserver-Software 422 und eine Datenbank-Software 424 umfassen.
  • Eine Virtualisierungsschicht 404 stellt eine Abstraktionsschicht bereit, aus der die folgenden Beispiele für virtuelle Einheiten bereitgestellt werden können: virtuelle Server 426; virtueller Speicher 428; virtuelle Netzwerke 430; darunter virtuelle private Netzwerke; virtuelle Anwendungen und Betriebssysteme 432; und virtuelle Clients 434.
  • In einem Beispiel kann die Verwaltungsschicht 406 die nachfolgend beschriebenen Funktionen bereitstellen. Eine Ressourcen-Bereitstellung 436 stellt die dynamische Beschaffung von Datenverarbeitungsressourcen sowie anderen Ressourcen bereit, die zum Durchführen von Aufgaben innerhalb der Cloud-Computing-Umgebung verwendet werden. Ein Messen und eine Preisfindung 438 stellen die Kostenverfolgung beim Verwenden von Ressourcen innerhalb der Cloud-Computing-Umgebung sowie die Abrechnung oder Rechnungsstellung für die Inanspruchnahme dieser Ressourcen bereit. In einem Beispiel können diese Ressourcen Anwendungs-Software-Lizenzen umfassen. Eine Sicherheit stellt die Identitätsüberprüfung für Cloud-Nutzer und Aufgaben sowie Schutz für Daten und andere Ressourcen bereit. Ein Benutzerportal 440 stellt Nutzern und Systemadministratoren den Zugang zu der Cloud-Computing-Umgebung bereit. Eine Verwaltung des Dienstumfangs 442 stellt die Zuordnung und Verwaltung von Cloud-Computing-Ressourcen bereit, so dass die benötigten Dienstziele erreicht werden. Ein Planen und Erfüllen von Vereinbarungen zum Dienstumfang (SLA, Service Level Agreement) 444 stellt die Anordnung vorab und die Beschaffung von Cloud-Computing-Ressourcen, für die eine zukünftige Anforderung vorausgesehen wird, gemäß einem SLA bereit.
  • Eine Arbeitslastschicht 408 stellt Beispiele für die Funktionalität bereit, für welche die Cloud-Computing-Umgebung verwendet werden kann. Zu beispielhaften Arbeitslasten und Funktionen, die von dieser Arbeitslastschicht 408 bereitgestellt werden können, können Abbildung und Navigation 446, Software-Entwicklung und Lebenszyklusverwaltung 448, Bereitstellung von Ausbildung in virtuellen Klassenzimmern 450, Datenanalytikverarbeitung 452, Transaktionsverarbeitung 454 und Audiosignalfilterung 456 gehören.
  • Ein Problem bei einem Gespräch in einer lauten Umgebung ist, dass es für Teilnehmer des Gesprächs schwierig ist, deutlich und sicher zu hören, was von anderen Teilnehmern gesagt wird. Einige aktuelle Lösungen verwenden experimentelle neuronale Netze zum Verstärken von Gesprächen in lauten Umgebungen, aber keine dieser aktuellen Lösungen verwendet bereits verfügbare Hardware und eine Spektralmaskierungstechnologie.
  • Jüngste Entwicklungen bei Techniken des tiefen Lernens ermöglichen ein Erstellen von angepassten einzelnen Spektralmasken, die eine detaillierte Charakterisierung der Stimme einer Einzelperson verkörpern. Diese Techniken des tiefen Lernens ermöglichen es, hochspezifische und effektive Filter zu erstellen, um die Stimme einer Einzelperson von Hintergrundgeräuschen zu isolieren.
  • In veranschaulichenden Ausführungsformen wird ein Gespräch zwischen ausgewählten Einzelpersonen in einer lauten Umgebung zum Beispiel unter Verwendung von Hardware-Komponenten, die bereits in Mobiltelefonen und drahtgebundenen oder drahtlosen Ohrstöpseln vorhanden sind, isoliert und verstärkt. In veranschaulichenden Ausführungsformen wird eine dynamisch erzeugte zusammengestellte Spektralmaske genutzt, die im Voraus auf einzelne Teilnehmer an einem Gespräch abgestimmt wird.
  • In veranschaulichenden Ausführungsformen wird eine dynamische Spektralmaskierung auf der Grundlage eines im Voraus trainierten tiefen neuronalen Netzes genutzt, um deutliche und sichere Gespräche zwischen Teilnehmern in einer lauten Umgebung zu ermöglichen. In veranschaulichenden Ausführungsformen wird das tiefe neuronale Netz für dynamische Spektralmasken als Cloud-Dienst bereitgestellt, der mit einer auf Mobiltelefonen befindlichen Audio-Filterungsanwendung verbunden ist. Ein Benutzer eines Mobiltelefons kann eine Stimmprobe einer oder mehrerer Einzelpersonen aufnehmen, die Stimmproben in den Cloud-Dienst hochladen und das tiefe neuronale Netz für dynamische Spektralmasken auf die Stimme jeder einzelnen Einzelperson abstimmen lassen. Optional können Stimmen von Einzelpersonen während Gesprächen aufgezeichnet und unter Verwendung von bestehenden Sprecher-Diarisierungstechniken isoliert oder einzeln aus Sprachnachrichten erfasst werden. Es sei darauf hingewiesen, dass in veranschaulichenden Ausführungsformen längere Stimmproben bevorzugt werden und dass die Qualität von einzelnen Spektralmasken von der Länge der Stimmprobe und der Bandbreite des zum Erfassen der Stimmprobe verwendeten Codecs abhängen kann. Daher kann die Qualität von einzelnen Spektralmasken verbessert werden, wenn in veranschaulichenden Ausführungsformen lange Stimmproben mit mehreren Stimmproben für jedes Phonem, das in der Sprache des Sprechers enthalten ist, in einer ruhigen Umgebung und mit einem Codierer mit großer Bandbreite erfasst werden.
  • Sobald in veranschaulichenden Ausführungsformen eine personalisierte dynamische Spektralmaske einer Einzelperson unter Verwendung des tiefen neuronalen Netzes für dynamische Spektralmasken erzeugt wurde, wird die Spektralmaske in veranschaulichenden Ausführungsformen auf die mobile Einheit der Einzelperson heruntergeladen. Zusätzlich können in veranschaulichenden Ausführungsformen die Daten der Einzelperson in der Cloud-Umgebung gelöscht werden, nachdem die Spektralmaske auf die mobile Einheit heruntergeladen wurde.
  • Vor einem Gespräch oder zu Beginn eines Gesprächs können Einzelpersonen ihre Spektralmasken mit mobilen Einheiten teilen, die Teilnehmern des Gesprächs entsprechen, so dass jede Einzelperson, die an dem Gespräch teilnehmen möchte, alle Spektralmasken der Teilnehmer auf ihrer jeweiligen mobilen Einheit gespeichert hat. Mobile Einheiten können Spektralmasken zum Beispiel über Bluetooth, Wi-Fi, Nahfeldkommunikation, eMail, Kurznachrichtendienst oder dergleichen teilen.
  • Wenn Teilnehmer bereit sind, unter Verwendung der Audio-Filterungsanwendung von veranschaulichenden Ausführungsformen auf ihrer jeweiligen mobilen Einheit ein Gespräch zu führen, setzen sich die Teilnehmer zum Beispiel Kopfhörer auf ihre Ohren auf oder Ohrhörer in ihre Ohren ein und aktivieren die Audio-Filterungsanwendung. Darüber hinaus geben Teilnehmer der Audio-Filterungsanwendung an, wer zum Teilnehmen an dem Gespräch berechtigt ist. Teilnehmer können diese Auswahl über Kontaktlisten und Bluetooth, Wi-Fi, Small Message Server, eMail oder dergleichen einrichten. Alternativ dazu können Teilnehmer in der Benutzerschnittstelle der Audio-Filterungsanwendung Einzelpersonen auswählen.
  • Als Nächstes erzeugt die Audio-Filterungsanwendung eine zusammengesetzte oder zusammengestellte Spektralmaske durch additive Überlagerung der Spektrogramme jedes einzelnen Teilnehmers an dem Gespräch. Alternativ dazu kann die Audio-Filterungsanwendung eine zusammengestellte Spektralmaske von jedem anderen Teilnehmer als dem Benutzer dieser bestimmten mobilen Einheit gemäß der Präferenz dieses Benutzers, ob die Audio-Filterungsanwendung die eigene Stimme dieses Benutzers verstärken soll, erzeugen. Die Audio-Filterungsanwendung wendet dann diese zusammengestellte Spektralmaske auf Töne an, die über ein Mikrofon der mobilen Einheit eingehen, filtert alle Töne heraus, die nicht mit dem zusammengestellten Spektrogramm übereinstimmen, und verstärkt die verbleibenden Töne, die mit dem zusammengestellten Spektrogramm übereinstimmen, über die Ohrhörer oder Kopfhörer. So werden in veranschaulichenden Ausführungsformen die Stimme eines jeden anderen (z.B. eines Nicht-Teilnehmers) sowie nahezu alle anderen Fremdgeräusche während des Gesprächs wirksam herausgefiltert.
  • In einer alternativen veranschaulichenden Ausführungsform kann eine einzelne Audio-Filterungsanwendung mit mehreren drahtlosen Ohrstöpseln, Headsets und/oder Kopfhörern verwendet werden, so dass eine mobile Einheit mehrere Teilnehmer bedienen kann. In einer anderen alternativen veranschaulichenden Ausführungsform kann die Audio-Filterungsanwendung eine Funktion zum Durchführen einer Echtzeit-Untertitelung (optional mit Sprecher-Diarisierung für eine separate Identifizierung des Sprechers) des Gesprächs umfassen, so dass die Audio-Filterungsanwendung Teilnehmern die Echtzeit-Untertitelung des Gesprächs auf einer Textausgabeeinheit wie zum Beispiel dem Bildschirm der mobilen Einheit oder einer Datenbrille mit angeschlossenem Ohrhörer anzeigen kann, um Text des Gesprächs zu lesen, anstatt das Gespräch zu hören, oder um gleichzeitig zu lesen und zu hören. Des Weiteren umfassen veranschaulichende Ausführungsformen auch eine automatische Verstärkungssteuerung zum Normalisieren der gewählten Stimmlautstärke. Außerdem kann in veranschaulichenden Ausführungsformen die Spektralmaske einer Einzelperson optional so trainiert werden, dass sie nicht nur normale Sprache, sondern auch geflüsterte Sprache umfasst.
  • Bei Gesprächen mit sensiblen Inhalten können Teilnehmer ihren Informationsaustausch schützen, indem sie sich absichtlich in eine laute Umgebung begeben und die Audio-Filterungsanwendung von veranschaulichenden Ausführungsformen verwenden, um ein Mithören des Gesprächs durch andere Einzelpersonen extrem zu erschweren. Optional kann die Audio-Filterungsanwendung einen externen Lautsprecher der mobilen Einheit verwenden, um absichtlich phasenverschobene, nicht identifizierbare Phoneme oder Ausschnitte der Sprache auszugeben, welche die Audio-Filterungsanwendung aktiv herausfiltert, um eine Wahrscheinlichkeit des Abhörens zu verringern oder das Abhören zu erschweren. In einer alternativen veranschaulichenden Ausführungsform können Strafverfolgungsbehörden die Audio-Filterungsanwendung verwenden, um Gespräche zwischen „Personen von Interesse“ in einer lauten Umgebung mit Hilfe von entfernt angebrachten Mikrofonen oder spezialisierten Tonaufnahmegeräten wie zum Beispiel einem Lasermikrofon zu erfassen.
  • So stellen veranschaulichende Ausführungsformen eine oder mehrere technische Lösungen bereit, die ein technisches Problem beim Bereitstellen von deutlichen und sicheren Gesprächen zwischen Benutzern mobiler Datenübertragungseinheiten in einer lauten Umgebung lösen. Infolgedessen stellen diese eine oder mehrere technische Lösungen eine technische Auswirkung und eine praktische Anwendung auf dem Gebiet des Datenaustauschs mit mobilen Einheiten bereit.
  • Unter Bezugnahme auf 5 ist ein Schaubild abgebildet, das ein Beispiel für ein Audio-Filterungssystem gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Das Audio-Filterungssystem 500 kann in einem Netzwerk von Datenverarbeitungssystemen wie zum Beispiel dem Netzwerk-Datenverarbeitungssystem 100 in 1 oder in einer Cloud-Computing-Umgebung wie zum Beispiel der Cloud-Computing-Umgebung 300 in 3 umgesetzt werden. Bei dem Audio-Filterungssystem 500 handelt es sich um ein System aus Hardware- und Software-Komponenten für ein auf Gesprächsteilnehmer abgestimmtes Filtern unter Verwendung von dynamischer Spektralmaskierung durch ein tiefes neuronales Netz zur Isolierung, Verstärkung und Sicherheit von Gesprächen unter Teilnehmern in lauten Umgebungen.
  • In diesem Beispiel umfasst das Audio-Filterungssystem 500 einen Spektralmasken erzeugenden Server 502, eine mobile Einheit 504, eine mobile Einheit 506 und eine mobile Einheit 508. Es sei jedoch darauf hingewiesen, dass das Audio-Filterungssystem 500 eine beliebige Anzahl von Servern, mobilen Einheiten und anderen, nicht gezeigten Einheiten umfassen kann. Bei dem Spektralmasken erzeugenden Server 502, der mobilen Einheit 504, der mobilen Einheit 506 und der mobilen Einheit 508 kann es sich zum Beispiel um den Server 104, den Client 110, den Client 112 bzw. den Client 114 in 1 handeln.
  • Der Benutzer 510 stellt einen Benutzer der mobilen Einheit 504 dar. Bei der mobilen Einheit 504 kann es sich zum Beispiel um ein Smartphone oder eine andere mobile Datenübertragungseinheit handeln. Der Benutzer 510 gibt eine Stimmprobe 512 in die mobile Einheit 504 ein. Die mobile Einheit 504 nimmt die Stimmprobe 512 auf und nutzt eine Audio-Filterungsanwendung 514 wie zum Beispiel die Audio-Filterungsanwendung 218 in 2, um die Stimmprobe 512 an den Spektralmasken erzeugenden Server 502 zu senden, der sich in diesem Beispiel in einer Cloud-Umgebung 515 befindet. Der Spektralmasken erzeugende Server 502 nutzt eine Komponente 516 eines auf tiefem Lernen beruhenden neuronalen Netzes und eine Grafikverarbeitungseinheit 518, um auf der Grundlage der Stimmprobe 512 eine personalisierte dynamische Spektralmaske 520 zu erzeugen, die dem Benutzer 510 entspricht. Bei der personalisierten dynamischen Spektralmaske 520 handelt es sich um ein Zeitreihen-Vorhersagemodell, das die nächste wahrscheinliche Frequenzsignatur der Stimme des Benutzers 510 momentweise [wahrscheinlich etwa einmal pro Millisekunde] vorhersagt, während Töne verarbeitet werden. Mit anderen Worten sagt die personalisierte dynamische Spektralmaske 520 Wortklangfolgen des Benutzers 510 während eines Gesprächs voraus. Der Spektralmasken erzeugende Server 502 sendet die personalisierte dynamische Spektralmaske 520 an die mobile Einheit 504.
  • Gespeicherte Spektralmasken von unterschiedlichen Einzelpersonen 522 stellen die persönliche dynamische Spektralmaske 520 dar, die dem Benutzer 510 entspricht, sowie andere Spektralmasken, die anderen Benutzern mobiler Datenübertragungseinheiten entsprechen, die zuvor mit der mobilen Einheit 504 geteilt wurden. In diesem Beispiel entsprechen die mobile Einheit 506 und die mobile Einheit 508 anderen Benutzern, die der Benutzer 510 als Teilnehmer an einem Gespräch ausgewählt hat. Infolgedessen teilen die mobile Einheit 506 und die mobile Einheit 508 bei 524 ihre jeweiligen Spektralmasken, eine Spektralmaske 526 bzw. eine Spektralmaske 528, drahtlos mit der mobilen Einheit 504, zum Beispiel mittels Bluetooth-Technologie. Nachdem die Audio-Filterungsanwendung 514 die Spektralmaske 526 und die Spektralmaske 528 empfangen hat, kombiniert sie die persönliche dynamische Spektralmaske 520 mit der Spektralmaske 526 und der Spektralmaske 528, um eine zusammengesetzte Spektralmaske zum Filtern der Mikrofoneinspeisungen der mobilen Einheit 504, der mobilen Einheit 506 und der mobilen Einheit 508 zu bilden, damit lediglich die Stimmen des Benutzers 510 und der Benutzer der mobilen Einheit 506 und der mobilen Einheit 508 gehört werden können.
  • Unter Bezugnahme auf 6 ist ein Schaubild abgebildet, das ein Beispiel für einen Prozess des Kombinierens von Spektralmasken einer Audio-Filterungsanwendung gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Ein Prozess 600 des Kombinierens von Spektralmasken einer Audio-Filterungsanwendung kann in einer mobilen Einheit wie zum Beispiel dem Client 110 in 1, dem Datenverarbeitungssystem 200 in 2, dem Smartphone 320A in 3 oder der mobilen Einheit 504 in 5 umgesetzt werden. In diesem Beispiel kombiniert der Prozess 600 des Kombinierens von Spektralmasken einer Audio-Filterungsanwendung eine Spektralmaske 602 eines Teilnehmers 1 und eine Spektralmaske 604 eines Teilnehmers 2. Es sei jedoch darauf hingewiesen, dass der Prozess 600 des Kombinierens von Spektralmasken einer Audio-Filterungsanwendung eine beliebige Anzahl von Spektralmasken kombinieren kann, die einer beliebigen Anzahl von ausgewählten Teilnehmern an einem Gespräch entsprechen.
  • Zu Beginn des Gesprächs zwischen Teilnehmer 1 und Teilnehmer 2 kombiniert eine Audio-Filterungsanwendung wie zum Beispiel die Audio-Filterungsanwendung 218 in 2 oder die Audio-Filterungsanwendung 514 in 5, die Spektralmaske 602 von Teilnehmer 1 und die Spektralmaske 604 von Teilnehmer 2 zu einer zusammengesetzten Spektralmaske 606. Die zusammengesetzte Spektralmaske 606 verwendet eine logische ODER-Verknüpfung in dem Frequenzbereich und erzeugt einen Filter, der lediglich Stimmen von Teilnehmer 1 und Teilnehmer 2 und keine anderen irrelevanten Töne in dem ausgegebenen Audiosignal zulässt.
  • Unter Bezugnahme auf 7 ist ein Schaubild abgebildet, das ein Beispiel für einen Datenaustauschprozess in einer lauten Umgebung gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Ein Datenaustauschprozess 700 in einer lauten Umgebung umfasst eine mobile Einheit 702 und eine mobile Einheit 704. Audio-Filterungsanwendungen von veranschaulichenden Ausführungsformen, die auf der mobilen Einheit 702 und der mobilen Einheit 704 ausgeführt werden, wenden eine zusammengesetzte Spektralmaske 706 bzw. eine zusammengesetzte Spektralmaske 708 auf eingehende Audiosignale eines Gesprächs zwischen einem Teilnehmer 710 und einem Teilnehmer 712 an, so dass der Teilnehmer 710 und der Teilnehmer 712 einander und sich selbst deutlich und sicher hören können, ohne dass andere Töne aus der lauten Umgebung enthalten sind.
  • Unter Bezugnahme auf 8 ist ein Schaubild abgebildet, das ein Beispiel für einen Audio-Filterungsprozess gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Ein Audio-Filterungsprozess 800 umfasst eine mobile Einheit 802 und eine Audio-Ausgabeeinheit 804, die drahtgebunden oder drahtlos mit der mobilen Einheit 802 verbunden ist. Bei der Audio-Ausgabeeinheit 804 kann es sich zum Beispiel um Ohrstöpsel, eine Datenbrille mit Ohrhörer oder dergleichen handeln. Es sei darauf hingewiesen, dass das Audiosignal eines Gesprächs in alternativen veranschaulichenden Ausführungsformen in ein Textformat umgewandelt und der Text auf der Datenbrille oder dem Bildschirm der mobilen Einheit anstelle des Tons oder zusätzlich dazu ausgegeben werden können.
  • Die mobile Einheit 802 speichert eine Spektralmaske 806, die einem Gesprächsteilnehmer 808 entspricht, bei dem es sich um einen Benutzer der mobilen Einheit 802 handelt. Es sei auch darauf hingewiesen, dass die Audio-Ausgabeeinheit 804 von dem Gesprächsteilnehmer 808 neben oder in einem oder beiden Ohren des Gesprächsteilnehmers 808 getragen wird.
  • Bei 810 empfängt die mobile Einheit 802 alle Töne aus der lauten Umgebung, darunter Mikrofoneinspeisungen von mobilen Einheiten, die dem Gesprächsteilnehmer 812 und dem Gesprächsteilnehmer 814 entsprechen. Bei 816 filtert die mobile Einheit 802 die eingehenden Töne unter Verwendung einer zusammengesetzten Spektralmaske, bei der es sich um eine Kombination von von dem Gesprächsteilnehmer 808 ausgewählten Spektralmasken handelt und welche die Spektralmaske 806 und Spektralmasken umfasst, die den Gesprächsteilnehmern 812 und 814 entsprechen. Bei 818 sendet die mobile Einheit 802 über Bluetooth oder Draht das gefilterte Audiosignal an die Audio-Ausgabeeinheit 804, damit der Gesprächsteilnehmer 808 das Gespräch deutlich und sicher hören und/oder sehen kann.
  • Unter Bezugnahme auf 9 ist ein Schaubild abgebildet, das ein Beispiel für einen alternativen Audio-Filterungsprozess gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Ein alternativer Audio-Filterungsprozess 900 umfasst eine mobile Einheit 902 und eine Audio-Ausgabeeinheit 904, die drahtgebunden oder drahtlos mit der mobilen Einheit 902 verbunden ist.
  • Die mobile Einheit 902 speichert eine Spektralmaske 906, die einem Gesprächsteilnehmer 908 entspricht, bei dem es sich um einen Benutzer der mobilen Einheit 902 handelt. Auch die Audio-Ausgabeeinheit 904 wird von dem Gesprächsteilnehmer 908 neben oder in einem oder beiden Ohren des Gesprächsteilnehmers 908 getragen.
  • Bei 910 empfängt die mobile Einheit 902 alle Töne aus einer lauten Umgebung 912, die Stimmen eines Gesprächsteilnehmers 914 und eines Gesprächsteilnehmers 916 umfassen, über ein Laserüberwachungsgerät 918. Bei dem Laserüberwachungsgerät 918 kann es sich zum Beispiel um ein Lasermikrofon handeln. Bei 920 filtert die mobile Einheit 802 die eingehenden Töne unter Verwendung einer zusammengesetzten Spektralmaske, bei der es sich um eine Kombination von von dem Gesprächsteilnehmer 908 ausgewählten Spektralmasken handelt. Die zusammengesetzte Spektralmaske umfasst die Spektralmaske 806 und die Spektralmasken, die den Gesprächsteilnehmern 914 und 916 entsprechen. Bei 922 sendet die mobile Einheit 902 über Bluetooth oder Draht das gefilterte Audiosignal an die Audio-Ausgabeeinheit 904, damit der Gesprächsteilnehmer 908 das Gespräch deutlich und sicher hören und/oder sehen kann.
  • Unter Bezugnahme auf 10 ist ein Ablaufplan gezeigt, der einen Prozess zum Empfangen einer personalisierten Spektralmaske gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Der in 10 gezeigte Prozess kann in einer mobilen Einheit wie zum Beispiel dem Client 110 in 1, dem Datenverarbeitungssystem 200 in 2, dem Smartphone 320A in 3 oder der mobilen Einheit 504 in 5 umgesetzt werden.
  • Der Prozess beginnt, wenn die mobile Einheit eine Eingabe zum Aufnehmen einer Stimmprobe eines Benutzers der mobilen Einheit empfängt (Schritt 1002). Die mobile Einheit nimmt die Stimmprobe des Benutzers auf (Schritt 1004). Die mobile Einheit sendet die Stimmprobe des Benutzers über ein Netzwerk an einen Server eines tiefen neuronalen Netzes für dynamische Spektralmasken einer Cloud-Umgebung, um eine für den Benutzer personalisierte Spektralmaske zu erzeugen (Schritt 1006).
  • Anschließend empfängt die mobile Einheit über das Netzwerk die für den Benutzer personalisierte Spektralmaske von dem Server des tiefen neuronalen Netzes für dynamische Spektralmasken (Schritt 1008). Die mobile Einheit speichert die für den Benutzer personalisierte Spektralmaske in einer Speichereinheit der mobilen Einheit (Schritt 1010). Danach endet der Prozess.
  • Unter Bezugnahme auf die 11A bis 11B ist ein Ablaufplan gezeigt, der einen Prozess zum Filtern eines eingehenden Audiosignals gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Der in den 11A bis 11B gezeigte Prozess kann in einer mobilen Einheit wie zum Beispiel dem Client 110 in 1, dem Datenverarbeitungssystem 200 in 2, dem Smartphone 320A in 3 oder der mobilen Einheit 504 in 5 umgesetzt werden.
  • Der Prozess beginnt, wenn die mobile Einheit von einem Benutzer der mobilen Einheit eine Eingabe zum Aktivieren einer Audio-Filterungsanwendung auf der mobilen Einheit empfängt (Schritt 1102). Als Reaktion auf das Aktivieren der Audio-Filterungsanwendung auf der mobilen Einheit in Schritt 1102 stellt die mobile Einheit eine Verbindung zu anderen mobilen Einheiten, bei denen die Audio-Filterungsanwendung ebenfalls aktiviert ist, innerhalb einer drahtlosen Reichweite wie zum Beispiel innerhalb einer Bluetooth-Reichweite her (Schritt 1104). Danach zeigt die mobile Einheit eine Liste von Spektralmasken an, die Benutzern der anderen mobilen Einheiten innerhalb der drahtlosen Reichweite entsprechen, welche die Audio-Filterungsanwendung aktiviert haben (Schritt 1106).
  • Die mobile Einheit empfängt von dem Benutzer der mobilen Einheit eine Auswahl von einer oder mehreren Spektralmasken aus der Liste von Spektralmasken, die einem oder mehreren anderen Benutzern von mobilen Einheiten entsprechen, die an einem Gespräch beteiligt sein sollen (Schritt 1108). Die mobile Einheit lädt eine oder mehrere der einen oder der mehreren Spektralmasken herunter, die in der Liste von Spektralmasken ausgewählt wurden, wenn die eine oder die mehreren der einen oder der mehreren Spektralmasken nicht bereits auf einer Speichereinheit der mobilen Einheit gespeichert sind (Schritt 1110). Die mobile Einheit kombiniert unter Verwendung der Audio-Filterungsanwendung die eine oder die mehreren Spektralmasken, die in der Liste von Spektralmasken ausgewählt wurde(n), mit einer auf der Speichereinheit gespeicherten Spektralmaske, die dem Benutzer entspricht, um eine zusammengesetzte Spektralmaske zu bilden (Schritt 1112).
  • Die mobile Einheit aktiviert ein Mikrofon der mobilen Einheit, um eingehende Audiosignale zu erfassen, die das Gespräch zwischen dem einen oder den mehreren anderen Benutzern von mobilen Einheiten und dem Benutzer umfassen (Schritt 1114). Die mobile Einheit filtert unter Verwendung der zusammengesetzten Spektralmaske die eingehenden Audiosignale, so dass lediglich das Gespräch zwischen dem einen oder den mehreren anderen Benutzern von mobilen Einheiten und dem Benutzer in einem Audiosignal erhalten bleibt (Schritt 1116). Die mobile Einheit übermittelt das Audiosignal, das lediglich das Gespräch zwischen dem einen oder den mehreren anderen Benutzern von mobilen Einheiten und dem Benutzer umfasst, an einen Ohrhörer, ein Headset oder einen Kopfhörer, die an die mobile Einheit angeschlossen sind (Schritt 1118).
  • Die mobile Einheit ermittelt, ob eine Eingabe zum Deaktivieren der Audio-Filterungsanwendung empfangen wurde (Schritt 1120). Wenn die mobile Einheit feststellt, dass keine Eingabe zum Deaktivieren der Audio-Filterungsanwendung empfangen wurde, Nein-Ausgabe von Schritt 1120, kehrt der Prozess zu Schritt 1116 zurück, in dem die mobile Einheit damit fortfährt, die eingehenden Audiosignale unter Verwendung der zusammengesetzten Spektralmaske zu filtern. Wenn die mobile Einheit feststellt, dass eine Eingabe zum Deaktivieren der Audio-Filterungsanwendung empfangen wurde, Ja-Ausgabe von Schritt 1120, endet der Prozess danach.
  • Unter Bezugnahme auf 12 ist ein Ablaufplan gezeigt, der einen Prozess zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern gemäß einer veranschaulichenden Ausführungsform veranschaulicht. Der in 12 gezeigte Prozess kann in einer mobilen Einheit wie zum Beispiel dem Client 110 in 1, dem Datenverarbeitungssystem 200 in 2, dem Smartphone 320A in 3 oder der mobilen Einheit 504 in 5 umgesetzt werden.
  • Der Prozess beginnt, wenn die mobile Einheit eine Mehrzahl von Spektralmasken empfängt (Schritt 1202). Jede Spektralmaske aus der Mehrzahl von Spektralmasken entspricht einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern, die an einem Gespräch beteiligt sind. Die mobile Einheit erzeugt eine zusammengesetzte Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken (Schritt 1204).
  • Die mobile Einheit wendet die zusammengesetzte Spektralmaske auf von einem Mikrofon der mobilen Einheit erfassten Ton an, und filtert Töne heraus, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, und verstärkt verbleibende Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen (Schritt 1206). Die mobile Einheit übermittelt die verstärkten verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit in oder auf einem oder beiden Ohren eines Teilnehmers an dem Gespräch, welcher der mobilen Einheit entspricht (Schritt 1208). Danach endet der Prozess.
  • Somit stellen veranschaulichende Ausführungsformen der vorliegenden Erfindung ein auf einem Computer ausgeführtes Verfahren, ein Computersystem und ein Computerprogrammprodukt für ein auf Gesprächsteilnehmer abgestimmtes Filtern unter Verwendung von dynamischer Spektralmaskierung durch ein tiefes neuronales Netz zur Isolierung, Verstärkung und Sicherheit von Gesprächen unter Teilnehmern in lauten Umgebungen bereit. Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung wurden zum Zwecke der Veranschaulichung aufgeführt, sollen jedoch nicht gesamthaft stehen für bzw. begrenzt sein auf die offenbarten Ausführungsformen. Für Fachleute werden viele Abänderungen und Abwandlungen ersichtlich sein, ohne von dem Umfang der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber auf dem Markt vorgefundenen Technologien bestmöglich zu erläutern oder um es anderen Fachleuten zu ermöglichen, die hierin dargelegten Ausführungsformen zu verstehen.

Claims (23)

  1. Verfahren zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern, das Verfahren aufweisend: Empfangen einer Mehrzahl von Spektralmasken durch eine mobile Einheit, wobei jede Spektralmaske aus der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind, wobei die mobile Einheit die Mehrzahl von Spektralmasken drahtlos von mobilen Einheiten empfängt, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, wobei die Spektralmaske ein mathematisch definierter Filter ist, der auf Töne angewendet wird; Erzeugen, durch die mobile Einheit, einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken, die für jeden jeweiligen Teilnehmer, der an dem Gespräch beteiligt ist, personalisiert sind, als eine personalisierte Spektralmaske, die ein Zeitreihen-Vorhersagemodell ist, das die nächste Frequenzsignatur der Stimme eines jeweiligen Teilnehmers vorhersagt, wenn Töne verarbeitet werden; und Anwenden, durch die mobile Einheit, der zusammengesetzten Spektralmaske auf von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, unter Verwendung einer logischen ODER-Operation in einem Frequenzbereich, die einen Filter erzeugt, der nur Stimmen der ausgewählten Gruppe von Teilnehmern zulässt, die an dem Gespräch beteiligt sind, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  2. Verfahren nach Anspruch 1, darüber hinaus aufweisend: Übermitteln, durch die mobile Einheit, der verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit (234), die einem Teilnehmer des Gesprächs entspricht.
  3. Verfahren nach Anspruch 2, darüber hinaus aufweisend: Durchführen, durch die mobile Einheit, einer Echtzeit-Untertitelung des Gesprächs zwischen den ausgewählten Teilnehmern; und Anzeigen, durch die mobile Einheit, der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit (234) angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  4. Verfahren nach Anspruch 2, wobei sich die Audio-Ausgabeeinheit (234), die dem Teilnehmer des Gesprächs entspricht und für das die verbleibenden Töne dorthin übermittelt werden, neben einem Ohr des Teilnehmers des Gesprächs befindet.
  5. Verfahren nach Anspruch 2, darüber hinaus aufweisend: Senden, durch die mobile Einheit, einer Stimmprobe (222) des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen, durch die mobile Einheit, der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  6. Verfahren nach Anspruch 5, darüber hinaus aufweisend: Kombinieren, durch die mobile Einheit, der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern, durch die mobile Einheit, von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, so dass lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal erhalten bleibt; und Übermitteln, durch die mobile Einheit, des Audiosignals (232), das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit (234).
  7. Verfahren nach Anspruch 6, darüber hinaus aufweisend: Teilen, durch die mobile Einheit, der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  8. Verfahren nach Anspruch 5, wobei die für den Teilnehmer des Gesprächs personalisierte Spektralmaske aus der zusammengesetzten Spektralmaske auf der Grundlage der Präferenz des Teilnehmers ausgeschlossen wird.
  9. Verfahren nach Anspruch 1, wobei die ausgewählte Gruppe von Teilnehmern angibt, wer zum Teilnehmen an dem Gespräch berechtigt ist.
  10. Mobile Einheit zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern, die mobile Einheit aufweisend: ein Bussystem; eine Speichereinheit, die mit dem Bussystem verbunden ist, wobei auf der Speichereinheit Programmanweisungen gespeichert sind; und einen Prozessor, der mit dem Bussystem verbunden ist, wobei der Prozessor die Programmanweisungen ausführt zum: Empfangen einer Mehrzahl von Spektralmasken, wobei jede Spektralmaske aus der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind, wobei die mobile Einheit die Mehrzahl von Spektralmasken drahtlos von mobilen Einheiten empfängt, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, wobei die Spektralmaske ein mathematisch definierter Filter ist, der auf Töne angewendet wird; Erzeugen einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken, die für jeden jeweiligen Teilnehmer, der an dem Gespräch beteiligt ist, personalisiert sind, als eine personalisierte Spektralmaske, die ein Zeitreihen-Vorhersagemodell ist, das die nächste Frequenzsignatur der Stimme eines jeweiligen Teilnehmers vorhersagt, wenn Töne verarbeitet werden; und Anwenden der zusammengesetzten Spektralmaske auf von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, unter Verwendung einer logischen ODER-Operation in einem Frequenzbereich, die einen Filter erzeugt, der nur Stimmen der ausgewählten Gruppe von Teilnehmern zulässt, die an dem Gespräch beteiligt sind, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  11. Mobile Einheit nach Anspruch 10, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Übermitteln der verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit (234), die einem Teilnehmer des Gesprächs entspricht.
  12. Mobile Einheit nach Anspruch 11, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Durchführen einer Echtzeit-Untertitelung des Gesprächs zwischen den ausgewählten Teilnehmern; und Anzeigen der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit (234) angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  13. Mobile Einheit nach Anspruch 11, wobei sich die Audio-Ausgabeeinheit (234), die dem Teilnehmer des Gesprächs entspricht und für das die verbleibenden Töne dorthin übermittelt werden, neben einem Ohr des Teilnehmers des Gesprächs befindet.
  14. Mobile Einheit nach Anspruch 11, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Senden einer Stimmprobe (222) des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  15. Mobile Einheit nach Anspruch 14, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Kombinieren der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, so dass lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal erhalten bleibt; und Übermitteln des Audiosignals (232), das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit (234).
  16. Mobile Einheit nach Anspruch 15, wobei der Prozessor darüber hinaus die Programmanweisungen ausführt zum: Teilen der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
  17. Computerprogrammprodukt zum Isolieren und Verstärken eines Gesprächs zwischen ausgewählten Teilnehmern, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, auf dem Programmanweisungen enthalten sind, wobei die Programmanweisungen durch eine mobile Einheit ausführbar sind, um die mobile Einheit zu veranlassen, ein Verfahren durchzuführen, das Folgendes aufweist: Empfangen einer Mehrzahl von Spektralmasken, wobei jede Spektralmaske aus der Mehrzahl einem jeweiligen Teilnehmer in einer ausgewählten Gruppe von Teilnehmern entspricht, die an einem Gespräch beteiligt sind, wobei die mobile Einheit die Mehrzahl von Spektralmasken drahtlos von mobilen Einheiten empfängt, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, wobei die Spektralmaske ein mathematisch definierter Filter ist, der auf Töne angewendet wird; Erzeugen einer zusammengesetzten Spektralmaske durch additive Überlagerung der Mehrzahl von Spektralmasken, die für jeden jeweiligen Teilnehmer, der an dem Gespräch beteiligt ist, personalisiert sind, als eine personalisierte Spektralmaske, die ein Zeitreihen-Vorhersagemodell ist, das die nächste Frequenzsignatur der Stimme eines jeweiligen Teilnehmers vorhersagt, wenn Töne verarbeitet werden; und Anwenden der zusammengesetzten Spektralmaske auf von einem Mikrofon erfassten Ton, um Töne herauszufiltern, die nicht mit der zusammengesetzten Spektralmaske übereinstimmen, unter Verwendung einer logischen ODER-Operation in einem Frequenzbereich, die einen Filter erzeugt, der nur Stimmen der ausgewählten Gruppe von Teilnehmern zulässt, die an dem Gespräch beteiligt sind, sowie Verstärken von verbleibenden Tönen, die mit der zusammengesetzten Spektralmaske übereinstimmen.
  18. Computerprogrammprodukt nach Anspruch 17, darüber hinaus aufweisend: Übermitteln der verbleibenden Töne, die mit der zusammengesetzten Spektralmaske übereinstimmen, an eine Audio-Ausgabeeinheit (234), die einem Teilnehmer des Gesprächs entspricht.
  19. Computerprogrammprodukt nach Anspruch 18, darüber hinaus aufweisend: Durchführen einer Echtzeit-Untertitelung des Gesprächs zwischen den ausgewählten Teilnehmern; und Anzeigen der Echtzeit-Untertitelung des Gesprächs für den Teilnehmer des Gesprächs auf einem Bildschirm einer mobilen Einheit oder einer Datenbrille, an welche die Audio-Ausgabeeinheit (234) angeschlossen ist, um Text des Gesprächs zu lesen sowie dem Gespräch zuzuhören.
  20. Computerprogrammprodukt nach Anspruch 18, wobei sich die Audio-Ausgabeeinheit (234), die dem Teilnehmer des Gesprächs entspricht und für das die verbleibenden Töne dorthin übermittelt werden, neben einem Ohr des Teilnehmers des Gesprächs befindet.
  21. Computerprogrammprodukt nach Anspruch 18, darüber hinaus aufweisend: Senden einer Stimmprobe (222) des Teilnehmers des Gesprächs an einen Server eines tiefen neuronalen Netzes einer Cloud-Umgebung, um eine für den Teilnehmer personalisierte Spektralmaske zu erzeugen; und Empfangen der für den Teilnehmer personalisierten Spektralmaske von dem Server des tiefen neuronalen Netzes.
  22. Computerprogrammprodukt nach Anspruch 21, darüber hinaus aufweisend: Kombinieren der für den Teilnehmer personalisierten Spektralmaske mit der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, die an dem Gespräch beteiligt sind, um die zusammengesetzte Spektralmaske zu bilden; Filtern von eingehenden Audiosignalen unter Verwendung der zusammengesetzten Spektralmaske, so dass lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer in einem Audiosignal erhalten bleibt; und Übermitteln des Audiosignals (232), das lediglich das Gespräch zwischen der ausgewählten Gruppe von Teilnehmern und dem Teilnehmer umfasst, an die Audio-Ausgabeeinheit (234).
  23. Computerprogrammprodukt nach Anspruch 22, darüber hinaus aufweisend: Teilen der für den Teilnehmer personalisierten Spektralmaske und der Mehrzahl von Spektralmasken, die der ausgewählten Gruppe von Teilnehmern entsprechen, mit mobilen Einheiten, die dem Teilnehmer und der ausgewählten Gruppe von Teilnehmern entsprechen, so dass jede mobile Einheit ihre eigene zusammengesetzte Spektralmaske zum Filtern von bei jeder mobilen Einheit eingehenden Audiosignalen erzeugt.
DE112020005166.8T 2019-12-02 2020-11-26 Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen Active DE112020005166B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/700,357 2019-12-02
US16/700,357 US11257510B2 (en) 2019-12-02 2019-12-02 Participant-tuned filtering using deep neural network dynamic spectral masking for conversation isolation and security in noisy environments
PCT/IB2020/061184 WO2021111259A1 (en) 2019-12-02 2020-11-26 Participant-tuned filtering using deep neural network dynamic spectral masking for conversation isolation and security in noisy environments

Publications (2)

Publication Number Publication Date
DE112020005166T5 DE112020005166T5 (de) 2022-07-14
DE112020005166B4 true DE112020005166B4 (de) 2023-08-24

Family

ID=76091849

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020005166.8T Active DE112020005166B4 (de) 2019-12-02 2020-11-26 Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen

Country Status (6)

Country Link
US (1) US11257510B2 (de)
JP (1) JP2023504132A (de)
CN (1) CN114746937A (de)
DE (1) DE112020005166B4 (de)
GB (1) GB2606296A (de)
WO (1) WO2021111259A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022146169A1 (en) * 2020-12-30 2022-07-07 Ringcentral, Inc., (A Delaware Corporation) System and method for noise cancellation
US11869478B2 (en) * 2022-03-18 2024-01-09 Qualcomm Incorporated Audio processing using sound source representations

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225984A1 (en) 2006-03-23 2007-09-27 Microsoft Corporation Digital voice profiles
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040208390A1 (en) * 2003-04-18 2004-10-21 Medispectra, Inc. Methods and apparatus for processing image data for use in tissue characterization
US7617094B2 (en) 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
US7620546B2 (en) 2004-03-23 2009-11-17 Qnx Software Systems (Wavemakers), Inc. Isolating speech signals utilizing neural networks
EP1715669A1 (de) * 2005-04-19 2006-10-25 Ecole Polytechnique Federale De Lausanne (Epfl) Ein Verfahren zum Unterdrücken eines Echos in einem Audiosignal
US8762458B2 (en) 2007-06-29 2014-06-24 Microsoft Corporation Providing sender-selected sound items to conversation participants
US8099289B2 (en) * 2008-02-13 2012-01-17 Sensory, Inc. Voice interface and search for electronic devices including bluetooth headsets and remote systems
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
US20110188666A1 (en) 2008-07-18 2011-08-04 Koninklijke Philips Electronics N.V. Method and system for preventing overhearing of private conversations in public places
KR20110098845A (ko) * 2008-12-23 2011-09-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인간에 대한 일주 효력을 가지는 디스플레이 시스템
JP5738020B2 (ja) 2010-03-11 2015-06-17 本田技研工業株式会社 音声認識装置及び音声認識方法
US9361903B2 (en) 2013-08-22 2016-06-07 Microsoft Technology Licensing, Llc Preserving privacy of a conversation from surrounding environment using a counter signal
US20150063599A1 (en) 2013-08-29 2015-03-05 Martin David Ring Controlling level of individual speakers in a conversation
US9469247B2 (en) 2013-11-21 2016-10-18 Harman International Industries, Incorporated Using external sounds to alert vehicle occupants of external events and mask in-car conversations
US9818431B2 (en) 2015-12-21 2017-11-14 Microsoft Technoloogy Licensing, LLC Multi-speaker speech separation
US10014002B2 (en) 2016-02-16 2018-07-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
EP3232688A1 (de) 2016-04-12 2017-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zum bereitstellen vereinzelter schallzonen
WO2017214278A1 (en) 2016-06-07 2017-12-14 Hush Technology Inc. Spectral optimization of audio masking waveforms
US11373672B2 (en) 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN109076280A (zh) 2017-06-29 2018-12-21 深圳市汇顶科技股份有限公司 用户可定制的耳机系统
DE102017214942A1 (de) 2017-08-25 2019-02-28 Sivantos Pte. Ltd. Verfahren zum Anpassen einer Hörvorrichtung
US10811030B2 (en) 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments
CN110459237B (zh) 2019-04-12 2020-11-20 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及相关设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070225984A1 (en) 2006-03-23 2007-09-27 Microsoft Corporation Digital voice profiles
US20190318757A1 (en) 2018-04-11 2019-10-17 Microsoft Technology Licensing, Llc Multi-microphone speech separation

Also Published As

Publication number Publication date
US11257510B2 (en) 2022-02-22
JP2023504132A (ja) 2023-02-01
CN114746937A (zh) 2022-07-12
WO2021111259A1 (en) 2021-06-10
US20210166714A1 (en) 2021-06-03
GB2606296A (en) 2022-11-02
GB202209433D0 (en) 2022-08-10
DE112020005166T5 (de) 2022-07-14

Similar Documents

Publication Publication Date Title
DE112015004185T5 (de) Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
DE69827911T2 (de) Verfahren und einrichtung zur mehrkanaligen kompensation eines akustischen echos
DE102021206172A1 (de) Intelligente erkennung und automatische korrektur von fehlerhaften audioeinstellungen in einer videokonferenz
DE112020005166B4 (de) Auf teilnehmer abgestimmtes filtern unter verwendung von dynamischer spektralmaskierung durch ein tiefes neuronales netz zur isolierung und sicherheit von gesprächen in lauten umgebungen
DE112016006133T5 (de) Stimmenerweiterter wahrnehmungsmodus
DE112016006126T5 (de) Okklusionsreduzierung und Rauschunterdrückung auf der Grundlage einer Dichtqualität
DE102021204829A1 (de) Automatische korrektur fehlerhafter audioeinstellungen
US11095997B2 (en) Undesirable noise detection and management
DE112017000378T5 (de) Akustisches echoauslöschungs-referenzsignal
DE112016006334T5 (de) Verfahren und systeme zur erreichung einer konsistenz bei der rauschunterdrückung während sprachphasen und sprachfreien phasen
DE112021005577T5 (de) Sprecherspezifisches verstärken von stimmen
DE112021004770T5 (de) Ultraschallübertragung von aufgeteilten schlüsseln für verbesserte sicherheit
JP2022552119A (ja) オーディオ信号における発話の敵対保護の提供
EP4189974A2 (de) System und verfahren zur kopfhörerentzerrung und raumanpassung zur binauralen wiedergabe bei augmented reality
DE102021123577A1 (de) Audioqualitäts-feedback während einer live-übertragung von einer quelle
DE102021210881A1 (de) Verwenden von sprach- und gesichtsbiometrik zum übermitteln von textmitteilungen zur richtigen zeit
DE102021129310A1 (de) Identifizieren einer sprachbefehlsgrenze
DE102022202150A1 (de) System und verfahren zur kontextbewussten audioverstärkung
DE112021003525T5 (de) Automatische sprache-zu-text-skalierung für live-anwendungsfälle
DE112020004317T5 (de) Optimierung für einen Anruf, der in einer Warteschlange wartet
DE102015212609A1 (de) Verfahren zum Betrieb eines Hörgerätesystems und Hörgerätesystem
DE202017104587U1 (de) Gestenaktivierte Fernsteuerung
DE112021003164T5 (de) Systeme und Verfahren zum Erkennen von Sprachbefehlen, um eine Peer-to-Peer-Kommunikationsverbindung zu erzeugen
DE112020005717T5 (de) Erkennung von live-sprache
DE112020003661T5 (de) Anpassen eines gesprächsflusses auf grundlage des verhaltens in einerkognitiven mensch-maschine-interaktion

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R084 Declaration of willingness to licence
R020 Patent grant now final