DE102017129484A1 - Spracherkennung ohne unterbrechen der audiowiedergabe - Google Patents

Spracherkennung ohne unterbrechen der audiowiedergabe Download PDF

Info

Publication number
DE102017129484A1
DE102017129484A1 DE102017129484.8A DE102017129484A DE102017129484A1 DE 102017129484 A1 DE102017129484 A1 DE 102017129484A1 DE 102017129484 A DE102017129484 A DE 102017129484A DE 102017129484 A1 DE102017129484 A1 DE 102017129484A1
Authority
DE
Germany
Prior art keywords
audio
audio data
component
recorded
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102017129484.8A
Other languages
English (en)
Inventor
Sandeep Raj Gandiga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102017129484A1 publication Critical patent/DE102017129484A1/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

Systeme, Verfahren und Vorrichtungen zum Aufnehmen von Spracheingabe von einem Benutzer werden hierin offenbart. Ein System beinhaltet eine Audiowiedergabekomponente, eine Audio-Rendering-Komponente, eine Aufnahmekomponente, eine Filterkomponente und eine Spracherkennungskomponente. Die Audiowiedergabekomponente ist zum Zwischenspeichern von Audiodaten zur Tonerzeugung konfiguriert. Die Audio-Rendering-Komponente ist dazu konfiguriert, die Audiodaten auf einem oder mehreren Lautsprechern abzuspielen. Die Aufnahmekomponente ist dazu konfiguriert, Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons aufzunehmen. Die Filterkomponente ist dazu konfiguriert, das aufgenommene Audio zu filtern, um gefilterte Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen. Die Spracherkennungskomponente ist dazu konfiguriert, Text oder Befehle auf Grundlage des gefilterten Audios zu erzeugen.

Description

  • TECHNISCHES GEBIET
  • Diese Offenbarung betrifft im Allgemeinen Verfahren, Systeme und Vorrichtungen zur Spracherkennung und betrifft insbesondere Spracherkennung ohne Unterbrechen von Audiowiedergabe.
  • ALLGEMEINER STAND DER TECHNIK
  • Stimmerkennung ermöglicht es, dass von einem Benutzer gesprochene Befehle durch ein Computersystem oder eine andere elektronische Vorrichtung ausgelegt werden. Zum Beispiel können Stimmbefehle von einem Mobiltelefon, einer mobilen Computervorrichtung, einem Einbau-Computersystem eines Fahrzeugs oder dergleichen erkannt und ausgelegt werden. Auf Grundlage der Stimmbefehle kann ein System eine Anweisung oder einen Prozess ausführen oder einleiten.
  • Figurenliste
  • Nicht einschränkende und nicht erschöpfende Umsetzungen der vorliegenden Offenbarung werden in Bezug auf die folgenden Figuren beschrieben, wobei sich in den verschiedenen Figuren gleiche Bezugszeichen auf gleiche Teile beziehen, sofern nicht anderweitig angegeben. Vorteile der vorliegenden Offenbarung können unter Bezugnahme auf die folgende Beschreibung und beigefügten Zeichnungen besser nachvollzogen werden, wobei:
    • 1 ein schematisches Blockdiagramm ist, das ein Spracherkennungssystem gemäß einer Umsetzung veranschaulicht;
    • 2 ein schematisches Blockdiagramm ist, das Spracherkennung während Audiowiedergabe gemäß einer Umsetzung veranschaulicht;
    • 3 ein schematisches Blockdiagramm ist, das beispielhafte Komponenten einer Text-zu-Sprache-Komponente gemäß einer Umsetzung veranschaulicht;
    • 4 ein schematisches Flussdiagramm ist, das ein Verfahren zum Aufnehmen einer Spracheingabe eines Benutzers gemäß einer Umsetzung veranschaulicht; und
    • 5 ein schematisches Blockdiagramm ist, das ein Rechensystem gemäß einer Umsetzung veranschaulicht.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Einige Spracherkennungssysteme, wie etwa Fahrzeug-Infotainmentsysteme, Smartphones oder dergleichen sind ebenfalls dazu fähig, Musik und Töne abzuspielen. Diese Töne können Warnungen, Läuten, Stimmanweisungen, ein Video oder grafische Anzeige begleitender Ton, oder dergleichen beinhalten. Jedoch stoppen dieses Systeme Musik oder Tonwiedergabe, wenn ein Spracherkennungsvorgang aktiviert ist. Während der Pause in der Musik oder dem Ton kann das System die Stimmdaten/den Stimmbefehl vom Benutzer aufnehmen und kann dann die Wiedergabe fortsetzen. Nach dem Aufnehmen der Sprachdaten kann das System die Stimmdaten verarbeiten und verstehen, was gesagt wurde (z. B. Sprache-zu-Text oder Sprach-/Stimmerkennung).
  • Anmelder haben Systeme, Verfahren und Vorrichtungen zum Aufnehmen von Spracheingaben von einem Benutzer entwickelt, bei denen es keinen Bedarf gibt, die Tonwiedergabe zu stoppen, anzuhalten, zu verzögern oder zu unterbrechen, um die Sprachdaten aufzuzeichnen/zu erlangen. Gemäß einer Ausführungsform beinhaltet ein System eine Audiowiedergabekomponente, eine Audio-Rendering-Komponente, eine Aufnahmekomponente, eine Filterkomponente und eine Spracherkennungskomponente. Die Audiowiedergabekomponente ist zum Zwischenspeichern von Audiodaten zur Tonerzeugung konfiguriert. Die Audio-Rendering-Komponente ist dazu konfiguriert, die Audiodaten auf einem oder mehreren Lautsprechern abzuspielen. Die Aufnahmekomponente ist dazu konfiguriert, Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons aufzunehmen. Die Filterkomponente ist dazu konfiguriert, das aufgenommene Audio zu filtern, um gefilterte Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen. Die Spracherkennungskomponente ist dazu konfiguriert, Text oder Befehle auf Grundlage des gefilterten Audios zu erzeugen.
  • Gemäß einer Ausführungsform lässt das System die Wiedergabe weiterlaufen und aktiviert einen Stimmvorgang, wenn Musik oder Tonwiedergabe eingeschaltet ist und ein Benutzer das Aktivieren von Spracherkennung wählt. Während des Stimmvorgangs kann ein Mikrofon Stimmdaten und die Audiowiedergabe, die durch die Lautsprecher strömt, aufnehmen (vom Mikrofon aufgenommene Stimmprobe). Das Mikrofon nimmt Stimme, Umgebungsgeräusche und/oder Audio, das von den Lautsprechern abgespielt wird, auf. Das System kann die Audiowiedergabedaten (z. B. decodierte Rohaudiozwischenspeicher), die durch die Lautsprecher abgespielt werden, intern aufnehmen. Daher gibt es kein Bedürfnis für jegliche externe/sekundäre Mikrofone um die Wiedergabe der Lautsprecher aufzunehmen. Die vom Mikrofon aufgenommene Stimmprobe und Audiowiedergabedaten können in Audiofiltern (oder ein Akustikmodul) eingespeist werden. Ein Audiofilter kann die Audiowiedergabe aus der vom Mikrofon aufgenommenen Sprachprobe herausfiltern/abbauen, woraus sich nur die Stimmdaten (oder die Umgebungsgeräusche minus die Audiowiedergabe, die auf den Lautsprechern gespielt sind) ergeben. Diese gefilterte Stimmdaten können ferner verwendet werden, um zu verstehen, was der Benutzer gesagt hat. In einer Ausführungsform können die hierin angegebenen Verfahren unter Verwendung von Software ausgeführt werden und können so in bestehenden Vorrichtungen unter Verwendung einer Software-Aktualisierung umgesetzt werden.
  • Weitere Ausführungsformen und Beispiele werden in Bezug auf die nachstehenden Figuren erörtert.
  • 1 ist ein schematisches Blockdiagramm, das ein Spracherkennungssystem 100 veranschaulicht. Das System 100 beinhaltet ein Wiedergabesystem 102 zum Abspielen von Medieninhalten. Das Wiedergabesystem 102 kann einen Inhaltszwischenspeicher 104 beinhalten, der Inhalt, der von einem Audiotreiber 106 oder Anzeigetreiber 108 über Lautsprechern 110 und/oder eine Anzeige 112 abgespielt oder gerendert werden soll, zwischenspeichert. Der Inhaltszwischenspeicher 104 kann einen Speicher oder Verzeichnis beinhalten, der/das Inhalt behält, der an Treiber 106, 108 zum Rendern/Wiedergeben bereitgestellt wird. Der Inhaltszwischenspeicher 104 kann Inhalt von einer oder mehreren Inhaltsquellen 114 empfangen. Die Inhaltsquellen 114 können Speichermedien beinhalten oder Inhalt, der vom Wiedergabesystem 102 abgespielt werden soll, aus Speichermedien abrufen. Die Inhaltsquellen 114 können Inhalt von jeglicher Quelle oder Speichermedien erlangen. Zum Beispiel können die Inhaltsquellen 114 ein magnetisches, Festkörper-, Band-, optisches (CD, DVD) oder anderes Laufwerk beinhalten. Die Inhaltsquellen 114 können einen Anschluss zum Bereitstellen von Medieninhalten an das Wiedergabesystem 102 beinhalten. Die Inhaltsquellen 114 können Medien von einem entfernten Ort, wie etwa über einen Transceiver 116 erlangen.
  • Das Spracherkennungssystem 100 beinhaltet eine Text-zu-Sprache-Komponente 118, die aufgenommene Audio von einem Mikrofon 120 empfängt und auf Grundlage des aufgenommenen Audios Stimm- oder Sprachbefehle erkennt. In einer Ausführungsform erlangt die Text-zu-Sprache-Komponente 118 zwischengespeicherte Audio vom Inhaltszwischenspeicher 104 und filtert das aufgenommene Audio auf Grundlage des zwischengespeicherten Audios. Zum Beispiel kann das Mikrofon 120 Audio aufnehmen, das Audioinhalte beinhaltet, die von oder über die Lautsprecher 110 abgespielt werden. Da die Text-zu-Sprache-Komponente 118 das zwischengespeicherte Audio, das der vom den Lautsprechern 110 abgespielten Audiowiedergabe entspricht, aufweisen kann, kann die Text-zu-Sprache-Komponente 118 das Wiedergabeaudio herausfiltern, um Stimmbefehle oder Stimmeingabe klarer für Text-zu-Sprache oder Spracherkennung entzifferbar zu gestalten.
  • Die Text-zu-Sprache-Komponente 118 kann Text-zu-Sprache ausführen oder Stimmbefehle erkennen und die Text-oder-Sprache-Befehle an andere Teile des Spracherkennungssystem 100 nach Bedarf ausgeben. Zum Beispiel kann die Text-zu-Sprache-Komponente 118 dem Wiedergabesystem 102 Wiedergabeanweisungen bereitstellen oder können einem oder mehreren Systemen 122 andere Arten von Anweisungen bereitstellen. Die anderen Systeme 122 können Steuerungssysteme für das Spracherkennungssystem 100, ein Fahrzeug, eine Rechenvorrichtung, Mobiltelefon oder jegliche andere Vorrichtung oder System beinhalten. Beispielhafte Anweisungen oder Text können Anweisungen und Text beinhalten, die einen Telefonanruf einleiten, Wiedergabe anhalten oder starten, Navigation einleiten oder beenden, oder dergleichen. In einer Ausführungsform kann der Text oder die Anweisungen ein eingebautes System eines Fahrzeugs und jegliches Rechensystem oder Komponenten des Fahrzeugs steuern.
  • 2 ist ein schematisches Diagramm, das einen Prozess 200 zur Spracherkennung in Anwesenheit von Audiowiedergabe veranschaulicht. Der Prozess 200 kann ermöglichen, dass Spracherkennung ohne Anhalten, Stoppen, Verzögern oder Unterbrechen der Audiowiedergabe (Musik, Mitteilung oder anderer Ton) ausgeführt wird. Ein Mikrofon 202 kann Audio bei 204 aufnehmen und/oder speichern. Das Audio kann Stimmaudio 1, das von einem Benutzer gesprochen wurde, und Audiowiedergabe 2, die von einem Lautsprecher abgespielt wurde, beinhalten. Es sollte anerkannt werden, dass die Audiowiedergabe 2 jegliches Audio beinhalten kann, wie etwa Musik, Mittelungstöne, Stimmanweisungen (wie etwa für Mitteilungen) oder jegliches andere Audio oder Ton, das/der über einen Lautsprecher abgespielt wird. Da sowohl die Audiowiedergabe 2 als auch das Stimmaudio 1 vorhanden sind, beinhaltet das aufgenommene Audio 3 eine Kombination aus sowohl der Audiowiedergabe 2 als auch des Stimmaudios 1. Die Audiowiedergabe 2 wird bei 206 erlangt. Die Audiowiedergabe 2 kann durch Abrufen von Audiodaten aus einem Zwischenspeicher einer Vorrichtung erlangt werden, die einen Lautsprecher antreibt, der die Audiowiedergabe 2 abspielt.
  • Bei 208 wird die Audiowiedergabe 2 aus dem aufgenommenen Audio 3 unter Verwendung eines Audiofilters entfernt. Der Audiofilter kann die Audiowiedergabe 2 abbauen, um ein klares Stimmaudio 1, wie von einem Benutzer gesprochen, zu erhalten. Zum Beispiel kann der Filter das Stimmaudio 1 erlangen, da sowohl die Audiowiedergabe 2 und das aufgenommene Audio 3 bekannt sind. Das Stimmaudio 1 wird einem Sprachgenerator bei 210 zur Spracherkennung bereitgestellt. Der Sprachgenerator kann das Stimmaudio 1 akkurater und einfacher in Text oder Stimmbefehle umwandeln, da er von der Audiowiedergabe 2 unbehindert/ungestört ist. Der Sprachgenerator kann Text oder andere Befehle, die aus den Stimmdaten 1 bei 212 abgeleitet wurden, ausgeben. Daher kann Spracherkennung mit guter Leistung ohne Anhalten oder anderweitiges Ändern der Audiowiedergabe 2 ausgeführt werden.
  • Unter Bezugnahme auf 3 ist ein schematisches Blockdiagramm gezeigt, das Komponenten einer Text-zu-Sprache-Komponente 118 gemäß einer Ausführungsform veranschaulicht. Die Text-zu-Sprache-Komponente 118 kann Spracherkennung oder Text-zu-Sprache eines Stimmaudios gemäß jeglicher der hierin erläuterten Ausführungsformen oder Funktionalitäten sogar in einer geräuschvollen Umgebung bereitstellen. Die Text-zu-Sprache-Komponente 118 beinhaltet eine Audiowiedergabekomponente 302, eine Audio-Rendering-Komponente 304, eine Aufnahmekomponente 306, eine Filterkomponente 308 und eine Spracherkennungskomponente 310. Die Komponenten 302-310 dienen lediglich zur Veranschaulichung und es kann sein, dass nicht alle in allen Ausführungsformen beinhaltet sind. Tatsächlich können einige Ausführungsformen lediglich eine oder eine beliebige Kombination aus zwei oder mehreren der Komponenten 302-310 beinhalten. Zum Beispiel können einige der Komponenten 302-310 außerhalb oder getrennt von der Text-zu-Sprache-Komponente 118 liegen.
  • Die Audiowiedergabekomponente 302 ist zum Zwischenspeichern von Audiodaten zur Tonerzeugung konfiguriert. Zum Beispiel kann die Audiowiedergabekomponente 302 einen Inhaltszwischenspeicher 104 beinhalten oder sie kann Daten aus einem Inhaltszwischenspeicher 104 abrufen. Das zwischengespeicherte Audio kann so gespeichert sein, dass Audiodaten, die über einen oder mehrere Lautsprecher über einen Zeitraum abgespielt wurden (oder werden), zum Filtern verfügbar sind. In einer Ausführungsform ist die Audiowiedergabekomponente 302 dazu konfiguriert, zu bestimmen, ob jegliche Audiodaten abgespielt werden. Zum Beispiel könnte es, wenn kein Audio abgespielt wird, kein Bedürfnis zum Zwischenspeichern von Audiodaten geben. Gleichermaßen kann die Audiowiedergabekomponente 302 bestimmen, ob Spracherkennung ausgeführt oder angefordert wird. Zum Beispiel kann die Audiowiedergabekomponente 302 mindestens eine vorbestimmte Menge von Audiozwischenspeicher behalten, wenn keine Wiedergabe vorhanden ist, doch während eines Spracherkennungszeitraums alle Audiozwischenspeicher sammeln. Daher kann die Audiowiedergabekomponente 302 mindestens genügend Zwischenaudiodaten aufweisen, um entsprechende Audio, das über einen Lautsprecher abgespielt wurde, aus vom Mikrofon aufgenommenen Daten zu entfernen. In einer Ausführungsformspeichert die Audiowiedergabekomponente 302 die Audiodaten als Reaktion auf Bestimmen, dass Audiodaten abgespielt werden und/oder dass Spracherkennung aktiv ist, zwischen. Die Audiowiedergabekomponente 302 kann einen Zeitpunkt zum Abspielen der Audiodaten bestimmen. Die Zeitpunktinformationen können gezieltes Filtern ermöglichen, so dass die entsprechenden Töne aus den korrekten Zeiträumen der vom Mikrofon aufgenommenen Daten entfernt werden können.
  • Die Audio-Rendering-Komponente 304 ist dazu konfiguriert, die Audiodaten über einen oder mehrere Lautsprecher abzuspielen. Die Audio-Rendering-Komponente 304 kann einen Audiotreiber 106 (wie etwa einen Softwaretreiber und/oder einen Hardwareverstärker oder eine Soundkarte) beinhalten, um einem Lautsprecher elektrische Signale zur Wiedergabe bereitzustellen. Die Audio-Rendering-Komponente 304 kann Audiodaten von einem Inhaltszwischenspeicher 104 erlangen und Rohaudiodaten in analoge Signale zum Antreiben eines Lautsprechers umwandeln.
  • Die Aufnahmekomponente 306 ist dazu konfiguriert, Audio unter Verwendung eines Mikrofons aufzunehmen. Die Aufnahmekomponente 306 kann Audio während eines Spracherkennungszeitraums aufnehmen. Der Spracherkennungszeitraum kann als Reaktion auf das Empfangen einer Angabe, dass ein Benutzer eine Spracherkennung von der Spracherkennungskomponente 310 angefordert hat, beginnen. Ein Benutzer kann Spracherkennung zum Beispiel durch Auswählen einer Option auf einem Schirm oder einem Knopf, um die Spracherkennung einzuleiten, oder durch Sprechen eines Auslösungsworts oder -satzes, beginnen. Das Auslösewort oder der Auslösesatz kann ein besonderes Wort oder einen besonderen Satz beinhalten, auf das bzw. den eine Vorrichtung hört, wobei sie nur nach Erfassen dieses Wortes oder Satzes mit der Spracherkennung beginnt.
  • In einer Ausführungsform ist die Aufnahmekomponente 306 dazu konfiguriert, das aufgenommene Audio während des Abspielens von Audiodaten über den einen oder die mehreren Lautsprecher aufzunehmen. Zum Beispiel kann die Aufnahmekomponente 306 sowohl von einem Benutzer gesprochenes Stimmaudio als auch von einem Lautsprecher abgespielte Wiedergabeaudio aufnehmen.
  • Die Filterkomponente 308 ist dazu konfiguriert, das von einem Mikrofon aufgenommene Audio zu filtern, um gefiltertes Audio zu erzeugen. Die Filterkomponente 308 kann das zwischengespeicherte Wiedergabeaudio, das von der Wiedergabeaudiokomponente 302 erlangt wurde, verwenden, um jegliche Töne, die über einen Lautsprecher abgespielt wurden, zu entfernen. Zum Beispiel kann die Filterkomponente 308 die Audiowiedergabe aus dem aufgenommenen Audio herausfiltern, so dass das daraus resultierende gefilterte Audio die Audiowiedergabe nicht beinhaltet, oder eine gedämpfte oder weniger auffallende Version davon beinhaltet. Die Filterkomponente 308 kann die Rohaudiodaten und/oder jegliche Zeitpunktinformationen verwenden, um Audiowiedergabe, die dem Rohaudio entspricht, zu entfernen.
  • Anmelder haben erkannt, dass die Filterkomponente 308 sehr akkurat und effizient entsprechende Audiodaten aus dem aufgenommenen Audio entfernen kann, da die Audiodaten, die abgespielt werden, bekannt sind (und durch Software, die Rohaudiodaten, die abgespielt werden, zwischenspeichert, bestimmt werden können). Obwohl Lautsprecher das Audio nicht mit 100%iger Genauigkeit wiedergeben können und das Mikrofon die Audiowiedergabe nicht mit 100%iger Genauigkeit aufnehmen können, kann das Filtern unter Verwendung der Rohaudiodaten eine wesentliche Verbesserung in der Reduzierung oder Entfernung der Audiowiedergabe aus der Mikrofonaufnahme bereitstellen. Tatsächlich kann das Entfernen der Audiowiedergabe ausreichend erreicht werden, dass nur ein einziges Mikrofon benötigt wird. Daher kann die Filterkomponente 308 keine besonderen Hardwarekonfigurationen (z. B. zwei Mikrofone) benötigen, um Audiowiedergabe akkurat zu entfernen. Nach Filtern können etwaige Stimmdaten, die vom Mikrofon aufgenommen wurden, auffallender und leichter zu erkennen und entziffern sein, als wenn die Audiowiedergabe noch vorhanden wäre.
  • Die Spracherkennungskomponente 310 ist dazu konfiguriert, Spracherkennung auf dem von der Filterkomponente 308 bereitgestellten Audio auszuführen. Die Spracherkennungskomponente 310 kann Text oder Befehle auf Grundlage des gefilterten Audios erzeugen. Zum Beispiel kann die Spracherkennungskomponente 310 Töne oder Audiomuster, die spezifischen Worten oder Befehlen entsprechen, erkennen. In einer Ausführungsform ist die Spracherkennungskomponente 310 ferner dazu konfiguriert, eine Aktion zu bestimmen, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll. Zum Beispiel kann die Spracherkennung bestimmen, dass ein Benutzer ein System oder eine Vorrichtung anweist, einen Prozess auszuführen oder eine Aktion einzuleiten.
  • 4 ist ein schematisches Flussdiagramm, das ein Verfahren 400 zum Aufnehmen einer Spracheingabe eines Benutzers veranschaulicht. Das Verfahren 400 kann von einem Spracherkennungssystem oder einer Text-zu-Sprache-Komponente, wie etwa dem Spracherkennungssystem 100 aus 1 oder der Text-zu-Sprache-Komponente 118 aus 1 oder 3, ausgeführt werden.
  • Das Verfahren beginnt und eine Audiowiedergabekomponente 302 speichert bei 402 Audiodaten für Tongeneration zwischen. Die Audio-Rendering-Komponente 304 spielt bei 404 die Audiodaten auf einem oder mehreren Lautsprechern ab. Die Aufnahmekomponente 306 nimmt Audio (aufgenommenes Audio) bei 406 unter Verwendung eines Mikrofons auf. Die Filterkomponente 308 filtert das aufgenommene Audio bei 408, um ein gefiltertes Audio zu erzeugen. Die Filterkomponente 308 kann unter Verwendung des zwischengespeicherten Audios, das den Audiodaten aus dem aufgenommenen Audio entspricht, filtern. Die Spracherkennungskomponente 310 erzeugt bei 410 Text oder Befehle auf Grundlage des gefilterten Audios.
  • Nun wird unter Bezugnahme auf 5 ein Blockdiagramm einer beispielhaften Rechenvorrichtung 500 veranschaulicht. Die Rechenvorrichtung 500 kann verwendet werden, um verschiedene Verfahren, wie beispielsweise die hierin erläuterten, auszuführen. Die Rechenvorrichtung 500 kann als ein Spracherkennungssystem 100, eine Text-zu-Sprache-Komponente 118 oder dergleichen funktionieren. Die Rechenvorrichtung 500 kann zahlreiche Funktionen wie hierin beschrieben ausführen, wie etwa hierin beschriebene Audioaufnahme-, Zwischenspeicherungs-, Filterungs- und Verarbeitungsfunktionalitäten. Die Rechenvorrichtung 500 kann jegliche aus einer Vielzahl von Rechenvorrichtungen, wie beispielsweise ein Desktop-Computer, ein eingebauter Computer, ein Fahrzeugsteuersystem, ein Notebook-Computer, ein Server-Computer, ein tragbarer Computer, Tablet-Computer und dergleichen, sein.
  • Die Rechenvorrichtung 500 beinhaltet einen oder mehrere Prozessor(en) 502, eine oder mehrere Speiehervorrichtung(en) 504, eine oder mehrere Schnittstelle(n) 506, eine oder mehrere Massenspeichervorrichtung(en) 508, eine oder mehrere Ein-/Ausgabe(I/O)-Vorrichtung(en) 510 und eine Anzeigevorrichtung 530, von denen alle an einen Bus 512 gekoppelt sind. Der/Die Prozessor(en) 502 beinhaltet/beinhalten einen oder mehrere Prozessoren oder Steuereinrichtungen, die in der/den Speichervorrichtung(en) 504 und/oder der/den Massenspeichervorrichtung(en) 508 gespeicherte Anweisungen ausführen. Der/Die Prozessor(en) 502 kann/können ebenso verschiedene Arten von computerlesbaren Medien beinhalten, wie beispielsweise einen Cache-Speicher.
  • Die Speichervorrichtung(en) 504 beinhaltet/beinhalten verschiedene computerlesbare Medien, wie beispielsweise flüchtige Speicher (z.B. Direktzugriffsspeicher (RAM) 514) und/oder nichtflüchtige Speicher (z.B. Festwertspeicher (ROM) 516). Die Speichervorrichtung(en) 504 kann/können zudem wiederbeschreibbaren ROM beinhalten, wie etwa Flash-Speicher.
  • Die Massenspeichervorrichtung(en) 508 beinhaltet/beinhalten verschiedene computerlesbare Medien, wie beispielsweise Magnetbänder, Magnetplatten, optische Platten, Festkörperspeicher (z. B. Flash-Speicher) und so weiter. Wie in 5 dargestellt, ist eine besondere Massenspeichervorrichtung ein Festplattenlaufwerk 524. Zudem können verschiedene Laufwerke in der/den Massenspeichervorrichtung(en) 508 beinhaltet sein, um ein Auslesen aus und/oder Schreiben auf die verschiedenen computerlesbaren Medien zu ermöglichen. Die Massenspeichervorrichtung(en) 508 beinhaltet/beinhalten entfernbare Medien 526 und/oder nichtentfernbare Medien.
  • Die I/O-Vorrichtung(en) 510 beinhaltet/beinhalten verschiedene Vorrichtungen, die es ermöglichen, dass Daten und/oder andere Informationen in die Rechenvorrichtung 500 eingegeben oder daraus abgerufen werden. (Eine) Beispielhafte I/O-Vorrichtung(en) 510 beinhaltet/beinhalten Cursorsteuervorrichtungen, Tastaturen, Tastenfelder, Mikrofone, Monitore oder andere Anzeigevorrichtungen, Lautsprecher, Drucker, Netzschnittstellenkarten, Modems und dergleichen.
  • Die Anzeigevorrichtung 530 beinhaltet eine beliebige Art von Vorrichtung, die fähig ist, Informationen für einen oder mehrere Benutzer der Rechenvorrichtung 500 anzuzeigen. Beispiele einer Anzeigevorrichtung 530 beinhalten einen Monitor, ein Anzeigeendgerät, eine Videoprojektionsvorrichtung und dergleichen.
  • Die Schnittstelle(n) 506 beinhaltet/beinhalten verschiedene Schnittstellen, die der Rechenvorrichtung 500 ermöglichen, mit anderen Systemen, Vorrichtungen oder Rechenumgebungen zu interagieren. (Eine) Beispielhafte Schnittstelle(n) 506 kann/können eine beliebige Anzahl von unterschiedlichen Netzschnittstellen 520, wie beispielsweise Schnittstellen zu lokalen Netzen (LANs), Großraumnetzen (WANs), drahtlosen Netzen und dem Internet, beinhalten. (Eine) Andere Schnittstelle(n) beinhaltet/beinhalten eine Benutzerschnittstelle 518 und eine Peripherievorrichtungsschnittstelle 522. Die Schnittstelle(n) 506 kann/können ebenfalls eine oder mehrere Benutzerschnittstellenelemente 518 beinhalten. Die Schnittstelle(n) 506 können ebenfalls eine oder mehrere periphere Schnittstellen, wie beispielsweise Schnittstellen für Drucker, Zeigevorrichtungen (Mäuse, Touchpad oder eine beliebige geeignete Benutzerschnittstelle, die dem Durchschnittsfachmann auf dem Gebiet jetzt bekannt ist oder später entdeckt wird), Tastaturen und dergleichen, beinhalten.
  • Der Bus 512 ermöglicht es dem/den Prozessor(en) 502, der/den Speichervorrichtung(en) 504, der/den Schnittstelle(n) 506, der/den Massenspeichervorrichtung(en) 508 und der/den I/O-Vorrichtung(en) 510 miteinander sowie mit anderen Vorrichtungen oder Komponenten, die an den Bus 512 gekoppelt sind, zu kommunizieren. Der Bus 512 stellt eine oder mehrere von verschiedenen Arten von Busstrukturen dar, wie beispielsweise einen Systembus, PCI-Bus, IEEE-Bus, USB-Bus und so weiter.
  • Im Sinne der Veranschaulichung sind Programme und andere ausführbare Programmkomponenten hierin als diskrete Blöcke dargestellt, auch wenn es sich versteht, dass sich derartige Programme und Komponenten zu verschiedenen Zeiten in unterschiedlichen Speicherkomponenten der Rechenvorrichtung 500 befinden und durch den/die Prozessor(en) 502 ausgeführt werden können. Alternativ können die hierin beschriebenen Systeme und Verfahren in einer Hardware oder einer Kombination von Hardware, Software und/oder Firmware eingerichtet sein. Ein oder mehrere anwendungsspezifische integrierte Schaltkreise (ASICs) kann/können zum Beispiel programmiert sein, um eines oder mehrere der hierin beschriebenen Systeme und Verfahren durchzuführen.
  • BEISPIELE
  • Die folgenden Beispiele betreffen weitere Ausführungsformen.
  • Beispiel 1 ist ein Verfahren zum Aufnehmen von Spracheingabe von einem Benutzer. Das Verfahren beinhaltet das Zwischenspeichern von Audiodaten zur Tonerzeugung. Das Verfahren beinhaltet das Abspielen der Audiodaten über einen oder mehrere Lautsprecher. Das Verfahren beinhaltet Aufnahme von Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons. Das Verfahren beinhaltet das Filtern des aufgenommenen Audios um gefiltertes Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen. Das Verfahren beinhaltet das Erzeugen von Text oder Befehlen auf Grundlage des gefilterten Audios.
  • In Beispiel 2 beinhaltet das Aufnehmen des aufgenommenen Audios wie in Beispiel 1 unter Verwendung des Mikrofons das Aufnehmen während des Abspielens der Audiodaten über den einen oder die mehreren Lautsprecher.
  • In Beispiel 3 beinhaltet ein Verfahren wie in jeglichem der Beispiele 1-2 ferner das Bestimmen, ob jegliche Audiodaten abgespielt werden, wobei das Zwischenspeichern der Audiodaten das Zwischenspeichern als Reaktion auf Bestimmen, dass Audiodaten abgespielt werden, beinhaltet.
  • In Beispiel 4 beinhaltet ein Verfahren wie in jeglichem der Bespiele 1-3 ferner das Bestimmen eines Zeitpunkts für das Abspielen der Audiodaten.
  • In Beispiel 5 beinhaltet das Filtern der aufgenommenen Audiodaten unter Verwendung der zwischengespeicherten Audiodaten wie in Beispiel 4 das Filtern auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten.
  • In Beispiel 6 beinhaltet das Zwischenspeichern der Audiodaten zur Tonerzeugung wie in jeglichem der Beispiele 1-5 das Aufnehmen von Audiodaten von einem Rohaudiozwischenspeicher vor dem Entfernen aus dem Rohaudiozwischenspeicher, wobei die Audiodaten vor dem Abspielen über den einen oder die mehreren Lautsprecher im Rohaudiozwischenspeicher abgelegt wird.
  • In Beispiel 7 beinhalten die Audiodaten wie in jeglichem der Beispiele 1-6 Musik, Audio, das einem Video entspricht, einen Mitteilungston, und einen Sprachbefehl.
  • In Beispiel 8 beinhaltet ein Verfahren wie in jeglichem der Beispiele 1-7 ferner das Bestimmen einer Aktion, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll.
  • In Beispiel 9 beinhaltet ein Verfahren wie in jeglichem der Beispiele 1-8 ferner das Empfangen einer Angabe zum Aktivieren der Spracherkennung, wobei das Zwischenspeichern der Audiodaten, Aufnehmen von Audio, Filtern des aufgenommenen Audios und Ausführen der Sprache-zu-Text-Umwandlung Zwischenspeichern, Aufnehmen, Filtern und Ausführen als Reaktion auf Empfangen der Angabe beinhaltet.
  • Beispiel 10 ist ein System, das eine Audiowiedergabekomponente, eine Audio-Rendering-Komponente, eine Aufnahmekomponente, eine Filterkomponente und eine Spracherkennungskomponente beinhaltet. Die Audiowiedergabekomponente ist zum Zwischenspeichern von Audiodaten zur Tonerzeugung konfiguriert. Die Audio-Rendering-Komponente ist dazu konfiguriert, die Audiodaten auf einem oder mehreren Lautsprechern abzuspielen. Die Aufnahmekomponente ist dazu konfiguriert, Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons aufzunehmen. Die Filterkomponente ist dazu konfiguriert, das aufgenommene Audio zu filtern, um gefilterte Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen. Die Spracherkennungskomponente ist dazu konfiguriert, Text oder Befehle auf Grundlage des gefilterten Audios zu erzeugen.
  • In Beispiel 11 ist eine Aufnahmekomponente wie in Beispiel 10 dazu konfiguriert, das aufgenommene Audio während des Abspielens von Audiodaten über den einen oder die mehreren Lautsprecher aufzunehmen.
  • In Beispiel 12 ist eine Audiowiedergabekomponente wie in jeglichem der Beispiele 10-11 ferner dazu konfiguriert, zu bestimmen, ob jegliche Audiodaten abgespielt werden, wobei die Audiowiedergabe dazu konfiguriert ist, die Audiodaten als Reaktion auf Bestimmen, dass Audiodaten abgespielt werden, zwischen zu speichern.
  • In Beispiel 13 ist eine Audiowiedergabekomponente wie in jeglichem der Bespiele 10-12 ferner dazu ausgelegt, einen Zeitpunkt für das Abspielen der Audiodaten zu bestimmen.
  • In Beispiel 14 ist eine Filterkomponente wie in Beispiel 13 dazu konfiguriert, das aufgenommene Audio unter Verwendung der zwischengespeicherten Audiodaten auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten zu filtern.
  • In Beispiel 15 ist eine Spracherkennungskomponente wie in jeglichem der Beispiele 10-14 ferner dazu konfiguriert, eine Aktion zu bestimmen, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage des Texts oder Befehls ausgeführt werden soll.
  • Beispiel 16 ist ein computerlesbares Speichermedium, das Anweisungen speichert, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren zum Zwischenspeichern von Audiodaten für Tonerzeugung veranlassen. Die Anweisungen veranlassen den einen oder mehreren Prozessoren dazu, die Audiodaten über einen oder mehrere Lautsprecher abzuspielen. Die Anweisungen veranlassen den einen oder die mehreren Prozessoren dazu, Audio unter Verwendung eines Mikrofons aufzunehmen (aufgenommenes Audio). Die Anweisungen veranlassen den einen oder die mehreren Prozessoren dazu, das aufgenommene Audio zu filtern, um gefiltertes Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen. Die Anweisungen veranlassen den einen oder die mehreren Prozessoren dazu, Text oder Befehle auf Grundlage des gefilterten Audios zu erzeugen.
  • In Beispiel 17 veranlassen Anweisungen wie in Beispiel 16 den einen oder die mehreren Prozessoren ferner dazu, das aufgenommene Audio während des Abspielens von Audiodaten über den einen oder die mehreren Lautsprecher aufzunehmen.
  • In Beispiel 18 veranlassen Anweisungen wie in jeglichem der Bespiele 16-17 ferner den einen oder die mehreren Prozessoren dazu, einen Zeitpunkt für das Abspielen der Audiodaten zu bestimmen.
  • In Beispiel 19 veranlassen Anweisungen wie in Beispiel 18 ferner den einen oder die mehreren Prozessoren dazu, das aufgenommene Audio unter Verwendung der zwischengespeicherten Audiodaten auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten zu filtern.
  • In Beispiel 20 veranlassen Anweisungen wie in jeglichem der Beispiele 16-19 ferner den einen oder die mehreren Prozessoren dazu, eine Aktion zu bestimmen, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll.
  • Beispiel 21 ist ein System oder eine Vorrichtung, das/die Mittel zum Umsetzen eines Verfahrens oder Realisieren eines Systems oder einer Vorrichtung nach jeglichem der Beispiele 1-20 beinhaltet.
  • In der vorstehenden Offenbarung wurde auf die beigefügten Zeichnungen Bezug genommen, die einen Teil hiervon bilden und in denen spezifische Umsetzungen, in denen die Offenbarung durchgeführt werden kann, veranschaulichend gezeigt werden. Es versteht sich, dass andere Umsetzungen verwendet werden können und strukturelle Änderungen vorgenommen werden können, ohne vom Umfang der vorliegenden Offenbarung abzuweichen. Bezugnahmen in der Beschreibung auf „eine Ausführungsform“, „ein Ausführungsbeispiel“ usw. geben an, dass die beschriebene Ausführungsform ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft beinhalten kann; doch es muss nicht notwendigerweise jede Ausführungsform diese(s) bestimmte Merkmal, Struktur oder Eigenschaft beinhalten. Darüber hinaus beziehen sich solche Formulierungen nicht notwendigerweise auf dieselbe Ausführungsform. Ferner sei darauf hingewiesen, dass, wenn ein(e) bestimmte(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit einer Ausführungsform beschrieben wird, es im Bereich des Fachwissens des Fachmanns liegt, ein(e) derartige(s) Merkmal, Struktur oder Eigenschaft in Verbindung mit anderen Ausführungsformen umzusetzen, ob dies nun ausdrücklich beschrieben ist oder nicht.
  • Umsetzungen der hierin offenbarten Systeme, Vorrichtungen und Verfahren können einen Spezial- oder Universalcomputer umfassen oder verwenden, der Computerhardware beinhaltet, wie etwa zum Beispiel einen oder mehrere Prozessoren und einen oder mehrere Systemspeicher, wie hierin erörtert. Umsetzungen innerhalb des Umfangs der vorliegenden Offenbarung können außerdem physische und andere computerlesbare Medien zum Transportieren oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen beinhalten. Bei derartigen computerlesbaren Medien kann es sich um beliebige verfügbare Medien handeln, auf die durch ein Universal- oder Spezialcomputersystem zugegriffen werden kann. Bei computerlesbaren Medien, auf denen computerausführbare Anweisungen gespeichert werden, handelt es sich um Computerspeichermedien (-vorrichtungen). Bei computerlesbaren Medien, die computerausführbare Anweisungen transportieren, handelt es sich um Übertragungsmedien. Daher können Umsetzungen der Offenbarung beispielsweise und nicht einschränkend mindestens zwei deutlich unterschiedliche Arten von computerlesbaren Medien umfassen: Computerspeichermedien (-vorrichtungen) und Übertragungsmedien.
  • Computerspeichermedien (-vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, Festkörperlaufwerke („SSDs“) (z. B. basierend auf RAM), Flash-Speicher, Phasenänderungsspeicher („PCM“), andere Speichertypen, andere optische Plattenspeicher, Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das verwendet werden kann, um die gewünschten Programmcodemittel in Form von computerausführbaren Anweisungen oder Datenstrukturen zu speichern, und auf das durch einen Universal- oder Spezialcomputer zugegriffen werden kann.
  • Eine Umsetzung der hierin offenbarten Vorrichtungen, Systeme und Verfahren kann über ein Computernetzwerk kommunizieren. Ein „Netzwerk“ ist als eine oder mehrere Datenverbindungen definiert, die den Transport elektronischer Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wenn Informationen über ein Netzwerk oder eine andere (entweder festverdrahtete, drahtlose oder eine Kombination aus festverdrahteter oder drahtloser) Kommunikationsverbindung einem Computer bereitgestellt oder auf diesen übertragen werden, sieht der Computer die Verbindung korrekt als ein Übertragungsmedium an. Übertragungsmedien können ein Netzwerk und/oder Datenverbindungen beinhalten, die verwendet werden können, um die gewünschten Programmcodemittel in der Form von computerausführbaren Anweisungen oder Datenstrukturen zu übertragen und auf die durch einen Universal- oder Spezialcomputer zugegriffen werden kann. Kombinationen aus den Vorstehenden sollten ebenfalls im Umfang computerlesbarer Medien enthalten sein.
  • Computerausführbare Anweisungen umfassen zum Beispiel Anweisungen und Daten, die bei Ausführung an einem Prozessor einen Universalcomputer, Spezialcomputer oder eine Spezialverarbeitungsvorrichtung dazu veranlassen, eine bestimmte Funktion oder Gruppe von Funktionen auszuführen. Die computerausführbaren Anweisungen können zum Beispiel Binärdateien, Zwischenformatanweisungen, wie etwa Assemblersprache, oder auch Quellcode sein. Obwohl der Gegenstand in für Strukturmerkmale und/oder methodische Handlungen spezifischer Sprache beschrieben wurde, versteht es sich, dass der in den beigefügten Patentansprüchen definierte Gegenstand nicht notwendigerweise auf die vorstehend beschriebenen Merkmale oder Handlungen beschränkt ist. Die beschriebenen Merkmale und Handlungen werden vielmehr als beispielhafte Formen der Umsetzung der Patentansprüche offenbart.
  • Der Fachmann kann nachvollziehen, dass die Offenbarung in Network-Computing-Umgebungen mit vielen Arten von Computersystemkonfigurationen durchgeführt werden kann, einschließend einen Armaturenbrett-Fahrzeugcomputer, PCs, Desktop-Computer, Laptops, Nachrichtenprozessoren, Handgeräte, Multiprozessorsysteme, Unterhaltungselektronik auf Mikroprozessorbasis oder programmierbare Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframe-Computer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches, verschiedene Speichervorrichtungen und Ähnliches. Die Offenbarung kann zudem in Umgebungen mit verteilten Systemen angewendet werden, in denen sowohl lokale Computersysteme als auch Remotecomputersysteme, die durch ein Netzwerk (entweder durch festverdrahtete Datenverbindungen, drahtlose Datenverbindungen oder durch eine Kombination aus festverdrahteten und drahtlosen Datenverbindungen) verbunden sind, Aufgaben ausführen. In einer Umgebung mit verteilten Systemen können sich Programmmodule sowohl in lokalen Speichervorrichtungen als auch in Fernspeichervorrichtungen befinden.
  • Ferner können die hier beschriebenen Funktionen gegebenenfalls in einem oder mehreren der folgenden ausgeführt werden: Hardware, Software, Firmware, digitalen Komponenten oder analogen Komponenten. Ein oder mehrere anwendungsspezifische integrierte Schaltkreise (ASICs) kann/können zum Beispiel programmiert sein, um eines oder mehrere der hierin beschriebenen Systeme und Verfahren durchzuführen. Bestimmte Ausdrücke werden in der Beschreibung und den Patentansprüchen in Bezug auf bestimmte Systemkomponenten verwendet. Die Begriffe „Module“ und „Komponenten“ werden in den Bezeichnungen von bestimmten Komponenten verwendet, um ihre Umsetzungsunabhängigkeit in Software, Hardware, Schaltungen, Sensoren und/oder dergleichen wiederzugeben. Der Fachmann wird verstehen, dass auf Komponenten durch verschiedene Bezeichnungen Bezug genommen werden kann. In dieser Schrift soll nicht zwischen Komponenten unterschieden werden, die sich dem Namen nach unterscheiden, nicht jedoch von der Funktion her.
  • Es ist anzumerken, dass die vorstehend erörterten Sensorausführungsformen Computerhardware, Software, Firmware oder eine beliebige Kombination davon umfassen können, um zumindest einen Teil ihrer Funktionen auszuführen. Ein Sensor kann zum Beispiel Computercode beinhalten, der dazu konfiguriert ist, in einem oder mehreren Prozessoren ausgeführt zu werden, und kann eine Hardware-Logikschaltung/elektrische Schaltung beinhalten, die durch den Computercode gesteuert wird. Diese Vorrichtungsbeispiele werden hier zum Zwecke der Veranschaulichung bereitgestellt und sollen nicht der Einschränkung dienen. Ausführungsformen der vorliegenden Offenbarung können in weiteren Arten von Vorrichtungen umgesetzt werden, wie es einem einschlägigen Fachmann bekannt ist.
  • Mindestens einige Ausführungsformen der Offenbarung wurden Computerprogrammprodukten zugeführt, die eine solche Logik (z. B. in Form von Software) umfassen, die auf einem beliebigen computernutzbaren Medium gespeichert ist. Derartige Software veranlasst bei Ausführung in einer oder mehreren Datenverarbeitungsvorrichtungen eine Vorrichtung dazu, wie hierin beschrieben zu arbeiten.
  • Während vorstehend verschiedene Ausführungsformen der vorliegenden Offenbarung beschrieben wurden, versteht es sich, dass diese lediglich als Beispiele dienen und nicht als Einschränkung. Für den einschlägigen Fachmann wird ersichtlich, dass verschiedene Änderungen in Form und Detail daran vorgenommen werden können, ohne vom Geist und Umfang der Offenbarung abzuweichen. Daher sollen die Breite und der Umfang der vorliegenden Offenbarung durch keines der vorstehend beschriebenen Ausführungsbeispiele eingeschränkt werden, sondern sollen lediglich in Übereinstimmung mit den folgenden Ansprüchen und ihren Äquivalenten definiert sein. Die vorstehende Beschreibung wurde zum Zwecke der Veranschaulichung und Beschreibung dargelegt. Sie ist nicht als umfassend anzusehen und soll die Offenbarung nicht auf die spezifische offenbarte Form beschränken. Viele Modifikationen und Variationen sind in Anbetracht der vorstehenden Lehren möglich. Ferner ist anzumerken, dass eine beliebige oder alle der vorangehend genannten alternativen Umsetzungen in einer beliebigen gewünschten Kombination verwendet werden können, um zusätzliche Hybridumsetzungen der Offenbarung zu bilden.
  • Ferner soll die Offenbarung, auch wenn spezifische Umsetzungen der Offenbarung beschrieben und dargestellt wurden, nicht auf die somit beschriebenen und dargestellten spezifischen Formen oder Anordnungen der Teile beschränkt werden. Der Umfang der Offenbarung ist durch die hieran beigefügten Patentansprüche, jegliche zukünftigen hier beantragten Patentansprüche und in verschiedenen Anwendungen und deren Äquivalenten zu definieren.

Claims (15)

  1. Verfahren zum Aufnehmen von Spracheingabe von einem Benutzer, wobei das Verfahren Folgendes umfasst: Zwischenspeichern von Audiodaten zur Tonerzeugung; Abspielen der Audiodaten über einen oder mehrere Lautsprecher; Aufnahme von Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons; Filtern des aufgenommenen Audios um gefiltertes Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen; und Erzeugen von Text oder Befehlen auf Grundlage des gefilterten Audios.
  2. Verfahren nach Anspruch 1, wobei das Aufnehmen des aufgenommenen Audios unter Verwendung des Mikrofons das Aufnehmen während des Abspielens der Audiodaten über den einen oder die mehreren Lautsprecher umfasst.
  3. Verfahren nach Anspruch 1, das ferner eines oder mehrere der Folgenden umfasst: Bestimmen, ob jegliche Audiodaten abgespielt werden, wobei das Zwischenspeichern der Audiodaten das Zwischenspeichern als Reaktion auf Bestimmen, dass Audiodaten abgespielt werden, beinhaltet; Bestimmen eines Zeitpunkts zum Abspielen der Audiodaten; Bestimmen einer Aktion, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll; und Empfangen einer Angabe zum Aktivieren der Spracherkennung, wobei das Zwischenspeichern der Audiodaten, Aufnehmen von Audio, Filtern des aufgenommenen Audios und Ausführen der Sprache-zu-Text-Umwandlung Zwischenspeichern, Aufnehmen, Filtern und Ausführen als Reaktion auf Empfangen der Angabe beinhaltet.
  4. Verfahren nach Anspruch 1, wobei das Filtern der aufgenommenen Audiodaten unter Verwendung der zwischengespeicherten Audiodaten das Filtern auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten umfasst.
  5. Verfahren nach Anspruch 1, wobei das Zwischenspeichern der Audiodaten zur Tonerzeugung das Aufnehmen von Audiodaten von einem Rohaudiozwischenspeicher vor dem Entfernen aus dem Rohaudiozwischenspeicher umfasst, wobei die Audiodaten vor dem Abspielen über den einen oder die mehreren Lautsprecher im Rohaudiozwischenspeicher abgelegt werden.
  6. Verfahren nach Anspruch 1, wobei die Audiodaten Musik, Audio, das einem Video entspricht, einen Mitteilungston und eine Spracherkennung umfassen.
  7. System, das Folgendes umfasst: eine Audiowiedergabekomponente, die zum Zwischenspeichern von Audiodaten zur Tonerzeugung konfiguriert ist; eine Audio-Rendering-Komponente, die dazu konfiguriert ist, die Audiodaten auf einem oder mehreren Lautsprechern abzuspielen; eine Aufnahmekomponente, die dazu konfiguriert ist, Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons aufzunehmen; eine Filterkomponente, die dazu konfiguriert ist, das aufgenommene Audio zu filtern um gefilterte Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten umfasst, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen; und eine Spracherkennungskomponente, die dazu konfiguriert ist, Text oder Befehle auf Grundlage des gefilterten Audios zu erzeugen.
  8. System nach Anspruch 7, wobei die Aufnahmekomponente dazu konfiguriert ist, das aufgenommene Audio während des Abspielens von Audiodaten über den einen oder die mehreren Lautsprecher aufzunehmen.
  9. System nach Anspruch 7, wobei die Audiowiedergabekomponente ferner dazu konfiguriert ist, zu bestimmen, ob jegliche Audiodaten abgespielt werden, wobei die Audiowiedergabe dazu konfiguriert ist, die Audiodaten als Reaktion auf Bestimmen, dass Audiodaten abgespielt werden, zwischen zu speichern.
  10. System nach Anspruch 7, wobei die Audiowiedergabekomponente ferner dazu konfiguriert ist, einen Zeitpunkt zum Abspielen der Audiodaten zu bestimmen.
  11. System nach Anspruch 10 wobei die Filterkomponente dazu konfiguriert ist, das aufgenommene Audio unter Verwendung der zwischengespeicherten Audiodaten auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten zu filtern.
  12. System nach Anspruch 7, wobei die Spracherkennungskomponente ferner dazu konfiguriert ist, eine Aktion, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll, zu bestimmen.
  13. Computerlesbares Speichermedium, auf dem Anweisungen gespeichert sind, die, wenn sie durch einen oder mehrere Prozessoren ausgeführt werden, den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Zwischenspeichern von Audiodaten zur Tonerzeugung; Abspielen der Audiodaten über einen oder mehrere Lautsprecher; Aufnahme von Audio (aufgenommenes Audio) unter Verwendung eines Mikrofons; Filtern des aufgenommenen Audios um gefiltertes Audio zu erzeugen, wobei Filtern das Filtern unter Verwendung der zwischengespeicherten Audiodaten beinhaltet, um Audio, das Audiodaten aus dem aufgenommenen Audio entspricht, zu entfernen; und Erzeugen von Text oder Befehlen auf Grundlage des gefilterten Audios.
  14. Computerlesbares Medium nach Anspruch 13, wobei die Anweisungen ferner den einen Prozessor oder die mehreren Prozessoren ferner zum Durchführen von einem oder mehreren der Folgenden veranlassen: Aufnehmen des aufgenommenen Audios während des Abspielens von Audiodaten über den einen oder die mehreren Lautsprecher; Bestimmen eines Zeitpunkts zum Abspielen der Audiodaten; und Filtern der aufgenommenen Audiodaten unter Verwendung der zwischengespeicherten Audiodaten auf Grundlage des Zeitpunkts zum Abspielen der Audiodaten.
  15. Computerlesbares Speichermedium nach Anspruch 13, wobei die Anweisungen ferner den einen oder die mehreren Prozessoren dazu veranlassen, eine Aktion zu bestimmen, die von einer Rechenvorrichtung oder einem Steuersystem auf Grundlage von Text oder Befehl ausgeführt werden soll.
DE102017129484.8A 2016-12-13 2017-12-11 Spracherkennung ohne unterbrechen der audiowiedergabe Withdrawn DE102017129484A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/377,600 2016-12-13
US15/377,600 US20180166073A1 (en) 2016-12-13 2016-12-13 Speech Recognition Without Interrupting The Playback Audio

Publications (1)

Publication Number Publication Date
DE102017129484A1 true DE102017129484A1 (de) 2018-06-14

Family

ID=60950167

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102017129484.8A Withdrawn DE102017129484A1 (de) 2016-12-13 2017-12-11 Spracherkennung ohne unterbrechen der audiowiedergabe

Country Status (6)

Country Link
US (1) US20180166073A1 (de)
CN (1) CN108231071A (de)
DE (1) DE102017129484A1 (de)
GB (1) GB2559460A (de)
MX (1) MX2017016084A (de)
RU (1) RU2017143129A (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200211540A1 (en) * 2018-12-27 2020-07-02 Microsoft Technology Licensing, Llc Context-based speech synthesis
CN109743436B (zh) * 2018-12-29 2020-08-28 苏州思必驰信息科技有限公司 用于语音对话的通讯补偿方法、装置、设备和存储介质
EP3916722A1 (de) * 2019-01-29 2021-12-01 Google LLC Verwendung einer strukturierten audioausgabe zum erkennen der wiedergabe in drahtlosen lautsprechern
US11494434B2 (en) 2019-07-31 2022-11-08 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
US11410656B2 (en) * 2019-07-31 2022-08-09 Rovi Guides, Inc. Systems and methods for managing voice queries using pronunciation information
CN111210820B (zh) * 2020-01-21 2022-11-18 达闼机器人股份有限公司 机器人的控制方法、装置、电子设备以及存储介质

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
US5708704A (en) * 1995-04-07 1998-01-13 Texas Instruments Incorporated Speech recognition method and system with improved voice-activated prompt interrupt capability
US5848163A (en) * 1996-02-02 1998-12-08 International Business Machines Corporation Method and apparatus for suppressing background music or noise from the speech input of a speech recognizer
DE19814971A1 (de) * 1998-04-03 1999-10-07 Daimlerchrysler Aerospace Ag Verfahren zur Störbefreiung eines Mikrophonsignals
US6246986B1 (en) * 1998-12-31 2001-06-12 At&T Corp. User barge-in enablement in large vocabulary speech recognition systems
US7136458B1 (en) * 1999-12-23 2006-11-14 Bellsouth Intellectual Property Corporation Voice recognition for filtering and announcing message
US6725193B1 (en) * 2000-09-13 2004-04-20 Telefonaktiebolaget Lm Ericsson Cancellation of loudspeaker words in speech recognition
US7437286B2 (en) * 2000-12-27 2008-10-14 Intel Corporation Voice barge-in in telephony speech recognition
DE10163214A1 (de) * 2001-12-21 2003-07-10 Philips Intellectual Property Verfahren und Steuersystem zur Sprachsteuerung eines Gerätes
US7328159B2 (en) * 2002-01-15 2008-02-05 Qualcomm Inc. Interactive speech recognition apparatus and method with conditioned voice prompts
JP4209247B2 (ja) * 2003-05-02 2009-01-14 アルパイン株式会社 音声認識装置および方法
US8244536B2 (en) * 2003-08-27 2012-08-14 General Motors Llc Algorithm for intelligent speech recognition
US7099821B2 (en) * 2003-09-12 2006-08-29 Softmax, Inc. Separation of target acoustic signals in a multi-transducer arrangement
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
US7813498B2 (en) * 2007-07-27 2010-10-12 Fortemedia, Inc. Full-duplex communication device and method of acoustic echo cancellation therein
DE602007014382D1 (de) * 2007-11-12 2011-06-16 Harman Becker Automotive Sys Unterscheidung zwischen Vordergrundsprache und Hintergrundgeräuschen
KR101233271B1 (ko) * 2008-12-12 2013-02-14 신호준 신호 분리 방법, 상기 신호 분리 방법을 이용한 통신 시스템 및 음성인식시스템
US8364298B2 (en) * 2009-07-29 2013-01-29 International Business Machines Corporation Filtering application sounds
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US9111536B2 (en) * 2011-03-07 2015-08-18 Texas Instruments Incorporated Method and system to play background music along with voice on a CDMA network
US8762151B2 (en) * 2011-06-16 2014-06-24 General Motors Llc Speech recognition for premature enunciation
CN104488025A (zh) * 2012-03-16 2015-04-01 纽昂斯通讯公司 用户专用的自动语音识别
US8781821B2 (en) * 2012-04-30 2014-07-15 Zanavox Voiced interval command interpretation
WO2014043555A2 (en) * 2012-09-14 2014-03-20 Google Inc. Handling concurrent speech
TWI557722B (zh) * 2012-11-15 2016-11-11 緯創資通股份有限公司 語音干擾的濾除方法、系統,與電腦可讀記錄媒體
KR101428245B1 (ko) * 2012-12-05 2014-08-07 현대자동차주식회사 음성 인식 장치 및 방법
WO2014168618A1 (en) * 2013-04-11 2014-10-16 Nuance Communications, Inc. System for automatic speech recognition and audio entertainment
CN105138110A (zh) * 2014-05-29 2015-12-09 中兴通讯股份有限公司 语音交互方法及装置
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
EP3206204A1 (de) * 2016-02-09 2017-08-16 Nxp B.V. System zur verarbeitung von audio

Also Published As

Publication number Publication date
GB201720160D0 (en) 2018-01-17
GB2559460A (en) 2018-08-08
RU2017143129A (ru) 2019-06-11
MX2017016084A (es) 2018-11-09
CN108231071A (zh) 2018-06-29
US20180166073A1 (en) 2018-06-14

Similar Documents

Publication Publication Date Title
DE102017129484A1 (de) Spracherkennung ohne unterbrechen der audiowiedergabe
DE102015110621B4 (de) Intelligente Untertitel
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE102018204860A1 (de) Systeme und Verfahren für energieeffiziente und leistungsarme verteilte automatische Spracherkennung auf tragbaren Vorrichtungen
US9418662B2 (en) Method, apparatus and computer program product for providing compound models for speech recognition adaptation
DE112016005688T5 (de) System zur Tonerfassung und -erzeugung über Nasalvibration
US9923535B2 (en) Noise control method and device
DE102017106670A1 (de) Verfahren und Vorrichtung für Audioaufnahmen
CN111177453B (zh) 控制音频播放的方法、装置、设备及计算机可读存储介质
DE112013000760B4 (de) Automatisches korrigieren von Sprechfehlern in Echtzeit
DE112019001297B4 (de) Systeme und verfahren zur erfassung von geräuschen zur mustererkennungsverarbeitung
DE112009002183T5 (de) Audiobenutzerschnittstelle
DE102017115383A1 (de) Audio-slicer
US20190237070A1 (en) Voice interaction method, device, apparatus and server
DE10054583A1 (de) Verfahren und Vorrichtung zur Behandlung von Sprachinformationen
DE102018119101A1 (de) Durchführen einer handlung auf aktiven medieninhalt
DE102017120698A1 (de) Sprachliche Ausgabe von schriftlichen Kommunikationen in einer Stimme eines Senders
US20150111189A1 (en) System and method for browsing multimedia file
JP6852478B2 (ja) 通信端末、通信プログラム及び通信方法
CN104702758B (zh) 一种终端及其管理多媒体记事本的方法
CN109637541B (zh) 语音转换文字的方法和电子设备
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE112009005147T5 (de) System und Verfahren zum Modifizieren eines Audiosignals
JP5929879B2 (ja) 音声出力装置、プログラム、及び音声出力方法
DE112019002337T5 (de) Architektur für Dynamikbearbeitungseffekte

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONSMANN - BONSMANN - FRANK PATENTANWAELTE, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee