DE102008024258A1 - Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung - Google Patents

Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung Download PDF

Info

Publication number
DE102008024258A1
DE102008024258A1 DE102008024258A DE102008024258A DE102008024258A1 DE 102008024258 A1 DE102008024258 A1 DE 102008024258A1 DE 102008024258 A DE102008024258 A DE 102008024258A DE 102008024258 A DE102008024258 A DE 102008024258A DE 102008024258 A1 DE102008024258 A1 DE 102008024258A1
Authority
DE
Germany
Prior art keywords
speaker
words
speech recognition
utterance
reference model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102008024258A
Other languages
English (en)
Inventor
Stephan Dr. Grashey
Klaus Lukas
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE102008024258A priority Critical patent/DE102008024258A1/de
Priority to PCT/CH2009/000159 priority patent/WO2009140781A1/de
Publication of DE102008024258A1 publication Critical patent/DE102008024258A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Telephone Function (AREA)

Abstract

Es wird ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung beschrieben, bei dem alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung gemäß dem Oberbegriff des Anspruchs 1.
  • Spracherkennung findet zunehmend in vielen Bereichen des Lebens Anwendung, z. B. in mobilen Endgeräten, Fahrzeug-Infotainment-Systemen und sprachbasierten Telefonauskunftdiensten. Oftmals jedoch wird die Spracherkennungsrate durch Hintergrundgeräusche von anderen Sprechern, der Umgebung oder im Falle eines Fahrzeug-Infotainment-Systems vom Fahrzeug selbst beeinträchtigt.
  • Gerade bei der Eingabe längerer Sequenzen wie z. B. Telefonnummern, Kreditkartennummern oder bei der Eingabe von freien Sätzen in Dialogsystemen sind Wort-Einfügungen durch Hintergrundgeräusche äußerst störend und können mitunter zu einer kompletten Neueingabe zwingen.
  • So kann es z. B. bei Regenfahrten immer wieder zu unerwünschten Wort-Einfügungen kommen, die z. B. durch das Scheibenwischergeräusch verursacht werden, da das Geräusch akustisch einer Ziffer oder einem Wort sehr nahe ist. Auch kurze Zwischenäußerungen von einem Beifahrer erschweren beispielsweise eine Ziffernketteneingabe erheblich. Bei langen Ziffernketten ist ein Editieren hieraus hervorgegangener Einfügungen in der Regel dann sehr aufwändig und nötigt den Benutzer meist zu einer vollständigen Neueingabe.
  • Generell finden heute leistungsfähige Geräuschreduktionsalgorithmen bei der Spracherkennung breiten Einsatz. Mit Verfahren wie Wiener Filter oder Spektralsubtraktion können stationäre Geräusche bzw. deren Einfluss äußerst effektiv verringert werden. Bei nicht-stationären Geräuschen, wie z. B. einem Scheibenwischergeräusch oder sprechenden Personen auf dem Beifahrersitz oder auf den Rücksitzen, sind diese Verfahren nachteiligerweise nur bedingt erfolgreich.
  • Mittels audio-visueller Verfahren kann eine gewisse Unabhängigkeit der Eingabe von der Modalität Sprache erreicht werden, dies bedingt jedoch nachteilhafterweise eine Kamera-Ausstattung als Voraussetzung.
  • Als eine Aufgabe der Erfindung kann es daher angesehen werden, ein Verfahren zu entwickeln, welches aus einer Äußerung bei einer Spracherkennung ungewünschte Anteile klassifizieren und entfernen kann.
  • Die Aufgabe wird gelöst durch ein Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung, bei dem alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher bzw. von ein und derselben Person stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.
  • Das erfindungsgemäße Verfahren ermöglicht ein Entfernen bzw. Nichtbeachten von nichtstationären Hintergrundgeräuschen aus einer Spracherkennungsäußerung, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile für die Ergebnisauswertung berücksichtigt werden. Eine solche Identifikation erlaubt eine Zuordnung von Anteilen oder gar einzelner Wörter einer Äußerung zu einem Sprecher oder zu mehreren unterschiedlichen Sprechern.
  • Speziell die Spracherkennung bei einer Zifferneingabe oder bei längeren sprachlichen Dialogeingaben, bei denen das Auf treten von Hintergrundgeräuschen durchaus wahrscheinlich ist, kann mit dem erfindungsgemäßen Verfahren deutlich verbessert werden. Der Benutzer hat einen spürbaren positiven Effekt bei seiner so genannten Task-Completion-Rate, welche die Erfolgsquote einer richtigen Erkennung einer gesprochenen Benutzereingabe angibt, und kann damit deutlich effizienter mit einem hinter der Spracherkennung liegenden bzw. von der Spracherkennung gesteuerten System kommunizieren.
  • Eine vorteilhafte Ausgestaltung der Erfindung sieht vor, dass zur Identifikation bzw. Erkennung der Anteile der Äußerung die Äußerung bei der Spracherkennung in Worte bzw. Wortanteile zerlegt wird, um alle Worte der Äußerung zu identifizieren, die von ein und demselben Sprecher bzw. von derselben Person stammen, bzw. Worte der Äußerung zu erkennen, die nicht dem jeweiligen Sprecher bzw. derselben Person zuzuordnen sind.
  • Dabei ist beispielsweise denkbar, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile explizit mittels einer so genannten Silence-Erkennung erfolgt, oder dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgt. Bei der Silence-Erkennung werden Anteile in einer Audioaufnahme erkannt, die keine Sprache enthalten, z. B. Sprechpausen zwischen den einzelnen Wörtern. Die Sprechpausen können z. B. über eine Pegelabsenkung oder über andere Möglichkeiten detektiert werden.
  • Eine andere vorteilhafte Ausgestaltung der Erfindung sieht vor, dass für jedes der ermittelten Worte parallel sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
  • Alternativ können für jedes der ermittelten Worte im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
  • Vorzugsweise wird zur erfindungsgemäßen Anwendung von Mechanismen zur Sprecherverifikation bzw. -erkennung von dem jeweiligen Sprecher bzw. der jeweiligen Person ein Referenzmodell erzeugt, das beispielsweise in Form eines so genannten Benutzermodells vorliegt, mit dem alle Anteile bzw. Worte einer aktuellen Äußerung verglichen werden.
  • Vorzugsweise wird das Referenzmodell explizit beispielsweise während eines so genannten Enrollments für einen Sprecher erstellt und alle Anteile bzw. Worte der Äußerung werden mit dem Referenzmodell verglichen, wobei wenn einzelne Anteile bzw. Worte zu stark von dem Referenzmodell bzw. Benutzermodell abweichen, diese Worte mit einer verringerten Erkennungskonfidenz belegt werden, und die Spracherkennung aus den Erkennungsergebnissen die Erkennungskonfidenzen auswertet und einzelne Einfügungen aussortiert, auch wenn sie korrekt ausgesprochen wurden, aber von einem anderen Sprecher bzw. von einer anderen Person stammen.
  • Ebenfalls ist denkbar, dass anhand zumindest der ersten Worte einer Äußerung ein auch als Sprecher- oder Benutzermodell bezeichnetes Referenzmodell des aktuellen Sprechers bzw. der gerade sprechenden Person sukzessive geschätzt wird. Je mehr Worte in die Schätzung eingehen, desto besser wird das Referenzmodell bzw. Benutzermodell.
  • Vorzugsweise werden hierbei bereits während der Schätzung Worte, welche stark vom bisher erstellten Referenzmodell abweichen, sowohl vom Einfügen in das Referenz- bzw. Benutzermodell ausgeschlossen, als auch mit einer reduzierten Erkennungskonfidenz belegt.
  • Gemäß einer besonders vorteilhaften Ausgestaltung der Erfindung wird auf eine weitere Integration verzichtet, wenn eine ausreichende Anzahl an Worten in die Erstellung des Referenzmodells eingeflossen ist, und das Verfahren läuft wie im Falle eines explizit trainierten Referenzmodells weiter ab.
  • Zur Erhöhung der Sprecherverifikationsrate wird die Schätzung des auch als Sprecher- oder Benutzermodell bezeichneten Referenzmodells vorzugsweise über mehrere Spracherkennungsvorgänge akkumuliert, z. B. für die Dauer bzw. während einer Auto-Fahrt, einer Gerätebenutzung, oder eines Telefonats mit einem Sprachdienst. Dabei können aus den gesamten Dialogen Merkmale extrahiert und einer Referenzdatenbasis bzw. einem Referenzmodell zugeordnet werden.
  • Zur Elimination stationärer Geräusche sind vorzugsweise zusätzlich Konventionelle Geräuschreduktionsalgorithmen vorgesehen.
  • Die Erfindung wird nachfolgend anhand von in den Zeichnungen dargestellten Ausführungsbeispielen näher erläutert. Es zeigen:
  • 1 eine überblickartige schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung.
  • 2 eine fallbezogene schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung am Beispiel einer Telefonnummereingabe.
  • 1 zeigt einen schematischen Aufbau zur Durchführung eines erfindungsgemäßen Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung bzw. eine schematische Darstellung dessen Ablaufs. Über ein Mikrophon 01 wird eine sprachliche Äußerung AI erfasst und in einen auch als Audio-Signal bezeichneten Audio-Input AI bzw. in Audio-Daten AI umgewandelt. Die Audio-Daten AI werden einem eine Spracherkennung mit Klassifikationsberechnung durchführenden Spracherkennungsmodul 02 zugeführt. Dazwischen findet eine durch ein Wortdetektionsmodul 03 durchgeführte implizite oder explizite Wortdetektion statt. Mit den so detektierten Wortanteilen WA bzw. Worten WA erfolgt in einem Modul 04 eine Extraktion von Sprechermerkmalen SM bzw. von benutzerspezifischen, vorzugsweise biometrischen Merkmalen SM pro Wort WA.
  • Um aus einer Äußerung AI eines Sprechers ungewünschte Anteile zu klassifizieren und zu entfernen, wird die Äußerung AI bei der Spracherkennung, hier durch das vor dem Spracherkennungsmodul 02 liegende Wortdetektionsmodul 03, in Wortanteile WA zerlegt. Dies kann entweder explizit mittels Silence-Erkennung oder implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgen. Für jedes der ermittelten Worte WA werden dann parallel oder im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet.
  • Die Idee dabei ist, alle Worte zu identifizieren, die von derselben Person stammen, bzw. Worte zu erkennen, die nicht derselben Person zuzuordnen sind.
  • Eine Anwendung von Mechanismen zur Sprechererkennung setzt voraus, dass von einer Person ein Referenzmodell 05 beispielsweise in Form eines so genannten Sprechermodells 05 bzw. Benutzermodells 05 vorliegt bzw. erzeugt wird, mit dem eine aktuelle Äußerung AI verglichen werden kann. Dieses Referenzmodell 05 kann z. B. explizit während eines so genannten Enrollments erstellt werden. Alle Worte WA bzw. die aus allen Worten WA extrahierten Sprechermerkmale SM werden dann mit diesem Referenzmodell 05 in einem Vergleichmodul 06 verglichen. Weichen einzelne Worte WA bzw. die Sprechermerkmale SM einzelner Worte WA dann zu stark vom Benutzermodell 05 ab, können diese Worte WA mit einer reduzierten Erkennungskonfidenz belegt werden. Das die Spracherkennung beispielsweise im Sinne einer Anwendung bzw. Applikation durchführende Spracherkennungsmodul 02, kann dann um zu einem Spracherkennungsergebnis SE zu kommen, aus den wortweisen Erkennungsergebnissen WE wie bisher die Konfidenzen auswerten und einzelne Einfü gungen aussortieren, auch wenn sie korrekt ausgesprochen wurden, aber von einer anderen Person stammen.
  • Ist ein explizites Enrollment nicht vorgesehen, so kann alternativ versucht werden, anhand der ersten Wortanteile WA bzw. Worte WA ein Referenzmodell 05 in Form eines Sprecher- bzw. Benutzermodells 05 der gerade sprechenden Person sukzessive zu schätzen. Je mehr Worte WA in die Schätzung eingehen, desto besser wird das Benutzermodell 05. Bereits während der Schätzung können Worte WA, welche stark vom bisher erstellten Benutzermodell 05 abweichen, sowohl vom Einfügen in das Benutzermodell 05 ausgeschlossen werden, als auch mit einer reduzierten Erkennungskonfidenz belegt werden.
  • Ist eine ausreichende Anzahl an Worten WA in die Erstellung des Referenzmodells 05 eingeflossen, kann auf eine weitere Integration verzichtet werden und das Verfahren wie im Falle eines weiter oben beschriebenen explizit trainierten Benutzermodells weiter arbeiten.
  • Das erfindungsgemäße Verfahren ermöglicht ein Entfernen bzw. Nichtbeachten von nichtstationären Hintergrundgeräuschen aus einer Spracherkennungsäußerung, so dass nur die von dem jeweiligen Benutzer bzw. Sprecher gesprochenen Anteile für die Ergebnisauswertung berücksichtigt werden.
  • 2 zeigt eine fallbezogene schematische Darstellung eines Ablaufs eines Verfahrens zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung am Beispiel einer Ziffernfolge ZF bei einer Telefonnummereingabe. Bei der in 2 dargestellten Auswertung einer Telefonnummereingabe stammt die Ziffer „zwei” von einem Hintergrundsprecher bzw. wurde die Ziffer „zwei” von einem Hintergrundsprecher, beispielsweise von einem Bei- oder Mitfahrer oder von einem zufälligen Passanten gesprochen.
  • In den aufeinander folgenden Schritten W1 ... W6, die den einzelnen, nacheinander gesprochenen Worten WA bzw. Ziffern WA der gesprochenen Ziffernfolge „Null Acht Neun Sechs Zwei Drei” entsprechen, erfolgt zunächst im Schritt W1 eine initiale Schätzung des Referenzmodells 05 bzw. des Sprecher- 05 oder Benutzermodells 05 anhand der aus dem durch die Ziffer „Null” gebildeten Wort WA extrahierten Sprechermerkmale SM. Im Schritt W2 erfolgt bereits ein Vergleich der zwischenzeitlich im Sprechermodell 05 gespeicherten Sprechermerkmale SM mit den aktuell aus dem durch die Ziffer „Acht” gebildeten Wort WA extrahierten Sprechermerkmalen SM. Sind die aktuell im Schritt W2 extrahierten Merkmale SM ähnlich den bereits im Sprechermodel 05 gespeicherten bzw. abgelegten Sprechermerkmalen SM, so erfolgt eine Integration der aktuell extrahierten Sprechermerkmale SM in das Sprechermodell 05. Ebenso verhält es sich im Schritt W3, welcher die Ziffer „Neun” betrifft, und im Schritt W4, welcher die Ziffer „Sechs” betrifft.
  • Im Schritt W5, der die Ziffer „Zwei” betrifft, die von einem anderen Sprecher, als vom Sprecher der ersten vier Worte WA bzw. Ziffern WA gesprochen wird, ergibt der Vergleich des Sprechermodells 05 und der aktuell aus der Ziffer „Zwei” extrahierten Sprechermerkmale SM, dass die aktuellen Merkmale SM weit abweichend vom bisherigen Referenzmodell 05 bzw. Sprechermodell 05 sind. Diese aktuell extrahierten Sprechermerkmale SM finden daher keine Integration in das Sprechermodell 05. Außerdem wird die Konfidenz der erkannten Ziffer „Zwei” verringert, so dass sie bei der Erzeugung des Spracherkennungsergebnisses SE nur geringen bzw. gar keinen Einfluss hat.
  • Die darauf folgenden Schritte W6, ... sind nicht näher ausgeführt. Sie wiederholen die beschriebenen Schritte W1, ..., W5 derart, dass wenn ein aktuell extrahiertes Sprechermerkmal SM mit dem Sprechermodell 05 übereinstimmt das zugehörige Wort WA mit einer hohen Konfidenz belegt wird und gegebenenfalls das Sprechermerkmal SM in das Sprechermodell 05 aufgenommen wird. Stimmt ein aktuell extrahiertes Sprechermerkmal SM mit dem Sprechermodell 05 nicht überein, wird das zugehörige Wort WA mit einer niedrigen Konfidenz belegt und nicht in das Sprechermodell 05 aufgenommen.
  • Vorteile der Erfindung gegenüber dem Stand der Technik ergeben sich dadurch, dass das Verfahren es ermöglicht, nichtstationäre Hintergrundgeräusche effizient aus Äußerungen herauszufiltern. Konventionelle Geräuschreduktionsalgorithmen können dabei nach wie vor für die Elimination von stationären Geräuschen verwendet werden.
  • Das Verfahren kann als reine Software-Lösung aufgebaut werden und benötigt keine Zusatzhardware.
  • Speziell die Zifferneingabe oder längere sprachliche Dialogeingaben, bei denen das Auftreten eines Hintergrundgeräuschs durchaus wahrscheinlich ist, können mit dem vorgeschlagenen Verfahren deutlich verbessert werden. Der Benutzer hat einen spürbaren positiven Effekt bei seiner so genannten Task-Completion-Rate, welche die Erfolgsquote bei der richtigen Erkennung der Benutzereingabe angibt, und kann damit deutlich effizienter mit dem System kommunizieren.
  • Als Erweiterung kann zur Erhöhung der Sprecherverifikationsrate die Schätzung des Sprechermodells über mehrere Spracherkennungsvorgänge akkumuliert werden, z. B. während einer Auto-Fahrt, einer Gerätebenutzung, oder eines Telefonats mit einem Sprachdienst. Dabei können aus den gesamten Dialogen Merkmale extrahiert und einer Referenzdatenbasis bzw. einem Referenzmodell zugeordnet werden.

Claims (13)

  1. Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung, dadurch gekennzeichnet, dass alle Anteile der Äußerung identifiziert werden, die von ein und demselben Sprecher stammen, bzw. Anteile der Äußerung erkannt werden, die nicht dem jeweiligen Sprecher zuzuordnen sind, wobei Anteile der Äußerung, die nicht dem jeweiligen Sprecher zuzuordnen sind, bei der Spracherkennung unberücksichtigt bleiben, so dass nur die von dem jeweiligen Sprecher gesprochenen Anteile der Äußerung für die Ergebnisauswertung der Spracherkennung berücksichtigt werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Äußerung bei der Spracherkennung in Worte bzw. Wortanteile zerlegt wird, um alle Worte der Äußerung zu identifizieren, die von ein und demselben Sprecher stammen, bzw. Worte der Äußerung zu erkennen, die nicht dem jeweiligen Sprecher zuzuordnen sind.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile explizit mittels Silence-Erkennung erfolgt.
  4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass das Zerlegen der Äußerung bei der Spracherkennung in Worte bzw. Wortanteile implizit im Erkennungsvorgang über die Grammatiken der Spracherkennung erfolgt.
  5. Verfahren nach einem der Ansprüche 2, 3 oder 4, dadurch gekennzeichnet, dass für jedes der ermittelten Worte parallel sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
  6. Verfahren nach einem der Ansprüche 2, 3 oder 4, dadurch gekennzeichnet, dass für jedes der ermittelten Worte im Nachgang sprecherabhängige Merkmale extrahiert und mittels Sprecherverifikationsmechanismen bewertet werden.
  7. Verfahren nach Anspruch 5 oder 6, dadurch gekennzeichnet, dass von dem jeweiligen Sprecher ein Referenzmodell erzeugt wird, mit dem alle Anteile bzw. Worte einer aktuellen Äußerung verglichen werden.
  8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das Referenzmodell explizit für einen Sprecher erstellt wird und alle Anteile bzw. Worte der Äußerung mit dem Referenzmodell verglichen werden, wobei wenn einzelne Anteile bzw. Worte zu stark von dem Referenzmodell abweichen, diese Worte mit einer verringerten Erkennungskonfidenz belegt werden, und die Spracherkennung aus den Erkennungsergebnissen die Erkennungskonfidenzen auswertet und einzelne Einfügungen aussortiert, wenn sie von einem anderen Sprecher stammen.
  9. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass anhand zumindest der ersten Worte einer Äußerung ein Referenzmodell des aktuellen Sprechers sukzessive geschätzt wird.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass bereits während der Schätzung Worte, welche stark vom bisher erstellten Referenzmodell abweichen, sowohl vom Einfü gen in das Referenzmodell ausgeschlossen, als auch mit einer reduzierten Erkennungskonfidenz belegt werden.
  11. Verfahren nach Anspruch 9 oder 10, dadurch gekennzeichnet, dass wenn eine ausreichende Anzahl an Worten in die Erstellung des Referenzmodells eingeflossen ist, das Verfahren wie im Falle eines explizit trainierten Referenzmodells weiter abläuft.
  12. Verfahren nach Anspruch 9, 10 oder 11, dadurch gekennzeichnet, dass die Schätzung des Referenzmodells über mehrere Spracherkennungsvorgänge akkumuliert wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass zur Elimination stationärer Geräusche zusätzlich Konventionelle Geräuschreduktionsalgorithmen vorgesehen sind.
DE102008024258A 2008-05-20 2008-05-20 Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung Ceased DE102008024258A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102008024258A DE102008024258A1 (de) 2008-05-20 2008-05-20 Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
PCT/CH2009/000159 WO2009140781A1 (de) 2008-05-20 2009-05-14 Verfahren zur klassifizierung und entfernung unerwünschter anteile aus einer äusserung bei einer spracherkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102008024258A DE102008024258A1 (de) 2008-05-20 2008-05-20 Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung

Publications (1)

Publication Number Publication Date
DE102008024258A1 true DE102008024258A1 (de) 2009-11-26

Family

ID=40791586

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008024258A Ceased DE102008024258A1 (de) 2008-05-20 2008-05-20 Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung

Country Status (2)

Country Link
DE (1) DE102008024258A1 (de)
WO (1) WO2009140781A1 (de)

Cited By (127)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015195215A1 (en) * 2014-06-19 2015-12-23 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11373656B2 (en) * 2019-10-16 2022-06-28 Lg Electronics Inc. Speech processing method and apparatus therefor
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US11595517B2 (en) 2021-04-13 2023-02-28 Apple Inc. Digital assistant integration with telephony
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636452A1 (de) * 1996-09-07 1998-03-12 Altenburger Ind Naehmasch Mehrnutzersystem zur Spracheingabe
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
WO2005119193A1 (en) * 2004-06-04 2005-12-15 Philips Intellectual Property & Standards Gmbh Performance prediction for an interactive speech recognition system
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5127043A (en) * 1990-05-15 1992-06-30 Vcs Industries, Inc. Simultaneous speaker-independent voice recognition and verification over a telephone network
EP0459384B1 (de) * 1990-05-28 1998-12-30 Matsushita Electric Industrial Co., Ltd. Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
KR101034524B1 (ko) * 2002-10-23 2011-05-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 음성에 근거하여 장치를 제어하는 음성 제어 유닛, 제어되는 장치 및 장치를 제어하는 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636452A1 (de) * 1996-09-07 1998-03-12 Altenburger Ind Naehmasch Mehrnutzersystem zur Spracheingabe
DE10209324C1 (de) * 2002-03-02 2002-10-31 Daimler Chrysler Ag Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
WO2005119193A1 (en) * 2004-06-04 2005-12-15 Philips Intellectual Property & Standards Gmbh Performance prediction for an interactive speech recognition system
DE102004030054A1 (de) * 2004-06-22 2006-01-12 Bayerische Motoren Werke Ag Verfahren zur sprecherabhängigen Spracherkennung in einem Kraftfahrzeug
US20070071206A1 (en) * 2005-06-24 2007-03-29 Gainsboro Jay L Multi-party conversation analyzer & logger

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Reynolds D.A., et.al.: "Integration of Speaker and Speech Recognition Systems". Proc. IEEE ICASSP 91, Vol.2, S.869-872, Apr. 1991 *
Zhi-Peng Zhang, Furui,S., Ohtsuki,K.: "Online incremental speaker adaptation with automatic speaker change detection". IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00), Proceedings, Vol.2, S.961-964, (2000) *
Zhi-Peng Zhang, Furui,S., Ohtsuki,K.: "Online incremental speaker adaptation with automatic speaker change detection". IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP'00), Proceedings, Vol.2, S.961-964, (2000) Reynolds D.A., et.al.: "Integration of Speaker and Speech Recognition Systems". Proc. IEEE ICASSP 91, Vol.2, S.869-872, Apr. 1991

Cited By (165)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318871B2 (en) 2005-09-08 2019-06-11 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11928604B2 (en) 2005-09-08 2024-03-12 Apple Inc. Method and apparatus for building an intelligent automated assistant
US11023513B2 (en) 2007-12-20 2021-06-01 Apple Inc. Method and apparatus for searching using an active ontology
US10381016B2 (en) 2008-01-03 2019-08-13 Apple Inc. Methods and apparatus for altering audio output signals
US9865248B2 (en) 2008-04-05 2018-01-09 Apple Inc. Intelligent text-to-speech conversion
US10108612B2 (en) 2008-07-31 2018-10-23 Apple Inc. Mobile device having human language translation capability with positional feedback
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10643611B2 (en) 2008-10-02 2020-05-05 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11080012B2 (en) 2009-06-05 2021-08-03 Apple Inc. Interface for a virtual digital assistant
US10795541B2 (en) 2009-06-05 2020-10-06 Apple Inc. Intelligent organization of tasks items
US10283110B2 (en) 2009-07-02 2019-05-07 Apple Inc. Methods and apparatuses for automatic speech recognition
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US10741185B2 (en) 2010-01-18 2020-08-11 Apple Inc. Intelligent automated assistant
US10706841B2 (en) 2010-01-18 2020-07-07 Apple Inc. Task flow identification based on user intent
US10049675B2 (en) 2010-02-25 2018-08-14 Apple Inc. User profiling for voice input processing
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US9633660B2 (en) 2010-02-25 2017-04-25 Apple Inc. User profiling for voice input processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US9953088B2 (en) 2012-05-14 2018-04-24 Apple Inc. Crowd sourcing information to fulfill user requests
US11269678B2 (en) 2012-05-15 2022-03-08 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10079014B2 (en) 2012-06-08 2018-09-18 Apple Inc. Name recognition system
US9971774B2 (en) 2012-09-19 2018-05-15 Apple Inc. Voice-based media searching
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10714117B2 (en) 2013-02-07 2020-07-14 Apple Inc. Voice trigger for a digital assistant
US9966060B2 (en) 2013-06-07 2018-05-08 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10083690B2 (en) 2014-05-30 2018-09-25 Apple Inc. Better resolution when referencing to concepts
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10169329B2 (en) 2014-05-30 2019-01-01 Apple Inc. Exemplar-based natural language processing
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10878809B2 (en) 2014-05-30 2020-12-29 Apple Inc. Multi-command single utterance input method
WO2015195215A1 (en) * 2014-06-19 2015-12-23 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US10186282B2 (en) 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US10904611B2 (en) 2014-06-30 2021-01-26 Apple Inc. Intelligent automated assistant for TV user interactions
US10431204B2 (en) 2014-09-11 2019-10-01 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9986419B2 (en) 2014-09-30 2018-05-29 Apple Inc. Social reminders
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10311871B2 (en) 2015-03-08 2019-06-04 Apple Inc. Competing devices responding to voice triggers
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10930282B2 (en) 2015-03-08 2021-02-23 Apple Inc. Competing devices responding to voice triggers
US11468282B2 (en) 2015-05-15 2022-10-11 Apple Inc. Virtual assistant in a communication session
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US10681212B2 (en) 2015-06-05 2020-06-09 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10356243B2 (en) 2015-06-05 2019-07-16 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US11010127B2 (en) 2015-06-29 2021-05-18 Apple Inc. Virtual assistant for media playback
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10942703B2 (en) 2015-12-23 2021-03-09 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10354011B2 (en) 2016-06-09 2019-07-16 Apple Inc. Intelligent automated assistant in a home environment
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10089072B2 (en) 2016-06-11 2018-10-02 Apple Inc. Intelligent device arbitration and control
US10521466B2 (en) 2016-06-11 2019-12-31 Apple Inc. Data driven natural language event detection and classification
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10269345B2 (en) 2016-06-11 2019-04-23 Apple Inc. Intelligent task discovery
US10297253B2 (en) 2016-06-11 2019-05-21 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US11656884B2 (en) 2017-01-09 2023-05-23 Apple Inc. Application integration with a digital assistant
US10332518B2 (en) 2017-05-09 2019-06-25 Apple Inc. User interface for correcting recognition errors
US10741181B2 (en) 2017-05-09 2020-08-11 Apple Inc. User interface for correcting recognition errors
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10755703B2 (en) 2017-05-11 2020-08-25 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
US10789945B2 (en) 2017-05-12 2020-09-29 Apple Inc. Low-latency intelligent automated assistant
US10410637B2 (en) 2017-05-12 2019-09-10 Apple Inc. User-specific acoustic models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US10791176B2 (en) 2017-05-12 2020-09-29 Apple Inc. Synchronization and task delegation of a digital assistant
US10482874B2 (en) 2017-05-15 2019-11-19 Apple Inc. Hierarchical belief states for digital assistants
US10810274B2 (en) 2017-05-15 2020-10-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10748546B2 (en) 2017-05-16 2020-08-18 Apple Inc. Digital assistant services based on device capabilities
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10909171B2 (en) 2017-05-16 2021-02-02 Apple Inc. Intelligent automated assistant for media exploration
US11217255B2 (en) 2017-05-16 2022-01-04 Apple Inc. Far-field extension for digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10720160B2 (en) 2018-06-01 2020-07-21 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11217251B2 (en) 2019-05-06 2022-01-04 Apple Inc. Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360739B2 (en) 2019-05-31 2022-06-14 Apple Inc. User activity shortcut suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11373656B2 (en) * 2019-10-16 2022-06-28 Lg Electronics Inc. Speech processing method and apparatus therefor
US11595517B2 (en) 2021-04-13 2023-02-28 Apple Inc. Digital assistant integration with telephony

Also Published As

Publication number Publication date
WO2009140781A1 (de) 2009-11-26

Similar Documents

Publication Publication Date Title
DE102008024258A1 (de) Verfahren zur Klassifizierung und Entfernung unerwünschter Anteile aus einer Äußerung bei einer Spracherkennung
DE102009051508B4 (de) Vorrichtung, System und Verfahren zur Sprachdialogaktivierung und -führung
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE69924596T2 (de) Auswahl akustischer Modelle mittels Sprecherverifizierung
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
EP3430615B1 (de) Fortbewegungsmittel, system und verfahren zur anpassung einer länge einer erlaubten sprechpause im rahmen einer spracheingabe
DE102014017384A1 (de) Kraftfahrzeug-Bedienvorrichtung mit Korrekturstrategie für Spracherkennung
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE60018696T2 (de) Robuste sprachverarbeitung von verrauschten sprachmodellen
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
EP1640969B1 (de) Verfahren zur Sprecheradaption für ein Hidden-Markov-Modell basiertes Spracherkennungssystem
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO2005088607A1 (de) Benutzer- und vokabularadaptive bestimmung von konfidenz- und rückweisungsschwellen
DE102018132160A1 (de) System und verfahren zum verstehen von standardsprache und dialekten
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments
DE102013222520B4 (de) Verfahren für ein sprachsystem eines fahrzeugs
DE60208956T2 (de) Verfahren zur Spracherkennung
WO2005069278A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
EP0817167B1 (de) Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
EP0470411A2 (de) Anpassung von Referenzsprachmustern an umgebungsbedingte Aussprachevarianten
DE10308611A1 (de) Ermittlung der Verwechslungsgefahr von Vokabulareinträgen bei der phonembasierten Spracherkennung
DE4240978A1 (de) Verfahren zur Verbesserung der Erkennungsqualität bei sprecherabhängiger Spracherkennung, insbesondere Sprecherverifikation
DE69826292T2 (de) Sprecheradaptation nach dem linear-regressiven Maximum-Likelihood Vefahren

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection