DE112018006101T5 - Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem - Google Patents

Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem Download PDF

Info

Publication number
DE112018006101T5
DE112018006101T5 DE112018006101.9T DE112018006101T DE112018006101T5 DE 112018006101 T5 DE112018006101 T5 DE 112018006101T5 DE 112018006101 T DE112018006101 T DE 112018006101T DE 112018006101 T5 DE112018006101 T5 DE 112018006101T5
Authority
DE
Germany
Prior art keywords
wov
key phrase
asr
model
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112018006101.9T
Other languages
English (en)
Inventor
Munir Nikolai Alexander Georges
Tobias Bocklet
Georg Stemmer
Joachim Hofer
Josef G. Bauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel IP Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel IP Corp filed Critical Intel IP Corp
Publication of DE112018006101T5 publication Critical patent/DE112018006101T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Es werden Techniken für eine Wake-on-Voice(WOV)-SchlüsselphrasenAnmeldung bereitgestellt. Eine Methodologie, die die Techniken nach einer Ausführungsform implementiert, weist das Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer Identifikation der Abfolge von subphonetischen Einheiten einer von einem Benutzer angegebenen Schlüsselphrase auf. Das WOV-Schlüsselphrasenmodell wird durch einen WOV-Prozessor zur Detektion der von dem Benutzer gesprochenen Schlüsselphrase und zum Auslösen des Betriebs eines automatischen Spracherkennungs(ASR)-Prozessors als Reaktion auf die Detektion eingesetzt. Das Verfahren weist ferner das Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen Schlüsselphrase auf. Das Aktualisieren beinhaltet eines aus dem Einbetten des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell, dem Umwandeln subphonetischer Einheiten des WOV-Schlüsselphrasenmodells und dem Einbetten des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell, oder dem Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene Schlüsselphrase und dem Einbetten des erzeugen ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell.

Description

  • ALLGEMEINER STAND DER TECHNIK
  • Einige Computersysteme oder Plattformen werden als Reaktion auf die Erfassung eines Schlüsselworts oder einer Schlüsselphrase, das oder die von dem Benutzer gesprochen wird, aktiv oder „wachen auf“. Nach dem Aufwachen geht der Computer zum Erkennen und Verarbeiten der weiteren sprachlichen Äußerung des Benutzers, die auf das Schlüsselwort folgt, über. Derartige Systeme setzen Spracherkennungstechniken ein und erfordern typischerweise, dass die Schlüsselphrase vordefiniert (z.B. statisch) anstatt benutzerwählbar ist, was unerwünscht ist. Einige andere Systeme erfordern, dass der Benutzer zwischen dem Aufweck-Schlüsselwort und dem Rest der gesprochenen Anforderung eine Pause macht, um die Verarbeitungsmoden umzuschalten (z.B. von dem Schlüsselworterkennungsmodus zu dem vollständigen Spracherkennungsmodus). Eine solche Pause erzeugt eine Unterbrechung in dem natürlichen Sprachfluss und beeinflusst die Qualität der Benutzererfahrung negativ.
  • Figurenliste
  • Merkmale und Vorteile von Ausführungsformen des beanspruchten Gegenstands werden im Verlauf der folgenden ausführlichen Erklärung und bei Bezugnahme auf die Zeichnungen, in denen gleiche Bezugszeichen gleiche Teile darstellen, offensichtlich werden.
    • 1 ist ein Diagramm oberster Ebene eines sprachfähigen Computersystems mit einer dynamischen Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 2 ist ein Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystems, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 3 ist ein anderes Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystems, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 4 ist ein anderes Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystems, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
    • 5 ist ein Ablaufdiagramm, das eine Methodologie für die dynamische WOV-Schlüsselphrasenanmeldung nach bestimmten Ausführungsformen der vorliegenden Offenbarung darstellt.
    • 6 ist ein Blockdiagramm, das eine Rechenplattform darstellt, die zur Durchführung der dynamischen WOV-Schlüsselphrasenanmeldung nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist.
  • Obwohl die folgende ausführliche Beschreibung unter Bezugnahme auf erläuternde Ausführungsformen fortfahren wird, werden vor dem Hintergrund dieser Offenbarung viele Alternativen, Abwandlungen und Veränderungen davon offensichtlich sein.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Im Allgemeinen stellt diese Offenbarung Techniken für die dynamische Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung in einem die gesprochene Sprache verstehenden System, das eine Kombination aus einer WOV-Schlüsselphrasenerkennung und einer automatischen Spracherkennung (automatic speech recognition, ASR) einsetzt, bereit. Schlüsselphrasenerkennungstechniken werden eingesetzt, um das Äußern einer Aufweckphrase durch einen Benutzer zu erkennen, die dann die ASR auslösen kann, um die vollständige von dem Benutzer gesprochene Anforderung einschließlich der Aufweckphrase zu erkennen. Obwohl das Schlüsselphrasendetektions- und das ASR-System im Allgemeinen unterschiedliche Sprachmodelle verwenden, bieten die offenbarten Techniken einen gewissen Grad der gemeinsamen Verwendung eines laufzeitgenerierten Schlüsselphrasenmodells zwischen den beiden Systemen, wie nachstehend ausführlicher erklärt werden wird. Die Techniken gestatten dem Benutzer, das System dynamisch zu wählen oder so zuzuschneiden, dass es jede gewünschte Aufweckphrase detektiert, was andernfalls in einem System, das getrennte zweckbestimmten Modelle für die Schlüsselphrasendetektion und die Spracherkennung verwendet, nicht möglich wäre.
  • Die offenbarten Techniken können zum Beispiel in einem Rechensystem oder einem Softwareprodukt, das durch derartige Systeme ausführbar oder anderweitig steuerbar ist, implementiert werden, obwohl andere Ausführungsformen offensichtlich sein werden. Das System oder Produkt ist so ausgebildet, dass es eine dynamische WOV-Schlüsselphrasenanmeldung bereitstellt. Nach einer Ausführungsform weist eine Methodologie zum Implementieren dieser Techniken das Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis der Identifikation und Bestimmung einer richtigen Abfolge von subphonetischen Einheiten einer von dem Benutzer angegebenen Schlüsselphrase auf. Das WOV-Schlüsselphrasenmodell wird durch einen WOV-Prozessor zur Detektion der von dem Benutzer gesprochenen Schlüsselphrase und zum Auslösen des Betriebs eines automatischen Spracherkennungs(ASR)-Prozessors als Reaktion auf die Detektion eingesetzt. Das Verfahren weist ferner das Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen Schlüsselphrase auf, wie nachstehend ausführlicher erklärt werden wird. Bei einigen Ausführungsformen kann die Aktualisierung ein Einbetten des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell beinhalten. Bei anderen Ausführungsformen kann die Aktualisierung das Durchführen einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und das Einbetten des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell beinhalten. Bei noch anderen Ausführungsformen kann die Aktualisierung das Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene Schlüsselphrase und das Einbetten des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell beinhalten. Bei noch anderen Ausführungsformen kann die von dem Benutzer angegebene Schlüsselphrase als Texteingabe bereitgestellt werden, die dem WOV-Prozessor und dem ASR-Prozessor direkt zur Anmeldung bereitgestellt werden kann.
  • Wie man verstehen wird, können die in diesem Dokument beschriebenen Techniken durch das Bereitstellen der dynamischen Anmeldung von benutzergewählten Aufweck-Schlüsselphrasen auf eine Weise, die für den Benutzer verhältnismäßig bequem und transparent ist, verglichen mit bestehenden Verfahren, die statische Schlüsselphrasenanforderungen auferlegen oder merkwürdige Pausen zwischen der Schlüsselphrase und der anschließenden sprachlichen Äußerung benötigen, eine verbesserte Benutzererfahrung mit einem sprachverstehenden System gestatten. Die offenbarten Techniken können an einem weiten Bereich von Plattformen einschließlich Laptops, Tablets, Smartphones, Arbeitsstationen und eingebetteten Systemen oder Vorrichtungen implementiert werden. Diese Techniken können ferner in Hardware oder Software oder einer Kombination davon umgesetzt werden.
  • 1 ist ein Diagramm oberster Ebene eines sprachfähigen Computersystems 100 mit einer dynamischen Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. Es ist gezeigt, dass das sprachfähige Computersystem 100 einen WOV-Prozessor 110, einen ASR-Prozessor 120 und ein dynamisches WOV-Schlüsselphrasenanmeldesystem 140 aufweist. Bei einigen Ausführungsformen kann das sprachfähige Computersystem 100 an einer Rechen- oder Kommunikationsplattform gehostet werden, wie nachstehend in Verbindung mit 6 näher beschrieben werden wird.
  • Es ist gezeigt, dass ein Beispiel für eine Toneingabe 130 eine sprachliche Äußerung von dem Benutzer enthält, in diesem Fall „hallo Computer, schalte das Licht in der Küche ein“. Die Toneingabe kann durch ein Mikrophon, eine Anordnung von Mikrophonen (z.B. für das Beamforming verwendet) oder jede beliebige andere Tonerfassungsvorrichtung oder durch eine gespeicherte Aufzeichnung bereitgestellt werden. Der WOV-Prozessor 110 ist dazu ausgebildet, aus der Toneingabe 130 die Schlüsselphrase „hallo Computer“, die von dem Benutzer durch einen dynamischen Anmeldeprozess gewählt wurde, der durch das dynamische WOV-Schlüsselphrasenanmeldesystem 140 ausgeführt wird, zu detektieren. Die Tätigkeiten des dynamischen WOV-Schlüsselphrasenanmeldesystems 140 sind nachstehend ausführlicher beschrieben. Der WOV-Prozessor 110 ist ferner dazu ausgebildet, den ASR-Prozessor 120 auszulösen, um die gesamte gesprochene Äußerung einschließlich sowohl der Schlüsselphrase als auch der restlichen Benutzeranforderung, das Licht in der Küche einzuschalten, zu erkennen. Bei einigen Ausführungsformen kann der Auslöser ferner verwendet werden, um die Rechenplattform oder einen beliebigen Teil davon aus einem Schlaf- oder Ruhezustand in einen aktiven Erkennungszustand aufzuwecken.
  • Bei einigen Ausführungsformen setzt der WOV-Prozessor 110 vor dem Hintergrund der vorliegenden Offenbarung bekannte Schlüsselphrasendetektionstechniken ein. Diese Schlüsselphrasendetektionstechniken können ferner ein Schlüsselphrasenmodell, das die Schlüsselphrasen, ob nun vordefiniert oder von dem Benutzer gewählt, enthält, und ein akustisches Modell, das nach der Anwendung des Schlüsselphrasenmodells für eine Analyse auf einer niedrigeren Ebene von Phonemen und subphonetischen Einheiten verwendet wird, einsetzen.
  • Bei einigen Ausführungsformen setzt der ASR-Prozessor 120 vor dem Hintergrund der vorliegenden Offenbarung bekannte Spracherkennungstechniken ein. Diese Spracherkennungstechniken können ferner ein von dem Schlüsselphrasenmodell getrenntes Sprachmodell, das zusätzlich zu einer Grammatik von erwarteten Benutzeranforderungen die Aufweck-Schlüsselphrasen enthält, einsetzen. Als vereinfachtes Beispiel könnte das ASR-Sprachmodell eine Grammatik sein, die „[startelstoppelpausiere] Wiedergabe“ erkennen kann, und ist die Schlüsselphrase „hallo Computer“. In diesem Fall ist die kombinierte Grammatik, die von dem Sprachmodell verstanden wird, „hallo Computer [startelstoppelpausiere] Wiedergabe“.
  • Bei einigen Ausführungsformen ist der WOV-Prozessor oder die - Schaltung 110 so ausgebildet, dass er oder sie zumindest dann, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet, weniger Strom als der ASR-Prozessor oder die -Schaltung 120 verbraucht, was eine Stromoptimierung zwischen diesen beiden Funktionen gestattet. Zum Beispiel kann der WOV-Prozessor 110 bei einigen Ausführungsformen an einer Niedrigleistungs-CPU oder einem solchen digitalen Signalprozessor (DSP) implementiert werden, und kann der ASR-Prozessor 120 an einem Hardware-Beschleuniger oder einen passend optimierten Coprozessor implementiert werden.
  • 2 ist ein Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystem 140a, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. Es ist gezeigt, dass das dynamische WOV-Schlüsselphrasenanmeldesystem 140a eine WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 214, ein WOV-Schlüsselphrasenmodell 216, eine ASR-Modell-Aktualisierungsschaltung 217 und ein ASR-Sprachmodell 218 aufweist. Zudem ist gezeigt, dass durch den Aufweck-Sprachprozessor 110 ein WOV-Akustikmodell 222 eingesetzt wird, und ist gezeigt, dass durch den ASR-Prozessor 120 ein ASR-Akustikmodell 224 eingesetzt wird.
  • Die WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 214 ist so ausgebildet, dass sie das WOV-Schlüsselphrasenmodell 216 auf Basis einer Identifikation und einer Bestimmung einer richtigen Abfolge von subphonetischen Einheiten einer von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase 212 erzeugt. Das WOV-Schlüsselphrasenmodell 216 wird durch den WOV-Prozessor 110 zur Detektion der WOV-Schlüsselphrase aus einer Toneingabe 130, die von dem Benutzer während des Betriebs 220 gesprochen wird, eingesetzt.
  • Die ASR-Modell-Aktualisierungsschaltung 217 ist so ausgebildet, dass sie das ASR-Sprachmodell 218 auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase 212 aktualisiert. Das ASR-Sprachmodell 218 wird durch den ASR-Prozessor 120 eingesetzt, um sprachliche Äußerungen aus einer Toneingabe 130, die von dem Benutzer während des Betriebs 220 gesprochen wird, zu erkennen. Die Aktualisierung wird unter Verwendung von bekannten Techniken vor dem Hintergrund der vorliegenden Offenbarung durch das Aufnehmen oder Einbetten des erzeugten WOV-Schlüsselphrasenmodells 216 in das ASR-Sprachmodell 218 bewerkstelligt. Diese Technik nimmt an, dass das WOV-Akustikmodell 222 und das ASR-Akustikmodell 224 in dem Ausmaß, in dem sie gebräuchliche Phoneme und Zustandsabfolgen verwenden verhältnismäßig vergleichbar sind (z.B. verwenden sie wenigstens einige der gleichen Phoneme und Zustandsabfolgen).
  • 3 ist ein anderes Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystem 140b, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. Es ist gezeigt, dass das dynamische WOV-Schlüsselphrasenanmeldesystem 140b eine WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 314, ein WOV-Schlüsselphrasenmodell 316, eine Modellumwandlungsschaltung 317, ein WOV-Akustikmodell 217 und ein ASR-Sprachmodell 318 aufweist. Zudem ist gezeigt, dass durch den Aufweck-Sprachprozessor 110 ein WOV-Akustikmodell 322 eingesetzt wird, und ist gezeigt, dass durch den ASR-Prozessor 120 ein ASR-Akustikmodell 324 eingesetzt wird.
  • Die WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 314 ist so ausgebildet, dass sie das WOV-Schlüsselphrasenmodell 316 auf Basis einer Identifikation und einer Bestimmung einer richtigen Abfolge von subphonetischen Einheiten einer von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase 212 erzeugt. Das WOV-Schlüsselphrasenmodell 316 wird durch den WOV-Prozessor 110 zur Detektion der WOV-Schlüsselphrase aus einer Toneingabe 130, die von dem Benutzer während des Betriebs 220 gesprochen wird, eingesetzt. Die Modellumwandlungsschaltung 317 ist so ausgebildet, dass sie unter Verwendung bekannter Techniken vor dem Hintergrund der vorliegenden Offenbarung eine Umwandlung von subphonetischen Einheiten des WOV-Schlüsselphrasenmodells durchführt.
  • Die ASR-Modell-Aktualisierungsschaltung 217 ist so ausgebildet, dass sie das ASR-Sprachmodell 318 unter Verwendung bekannter Techniken vor dem Hintergrund der vorliegenden Offenbarung durch Aufnehmen oder Einbetten des umgewandelten WOV-Schlüsselphrasenmodells, das durch die Modellumwandlungsschaltung 317 erzeugt wurde, in das ASR-Sprachmodell 318 aktualisiert. Dies ist allgemein möglich, obwohl sich das WOV-Akustikmodell 322 von dem ASR-Akustikmodell 324 unterscheiden kann, was typischerweise bei den meisten Anwendungen der Fall ist, da die Umwandlung von subphonetischen Einheiten Kompatibilität zwischen dem umgewandelten WOV-Schlüsselphrasenmodell und dem ASR-Sprachmodell bereitstellt. Diese Technik nimmt an, dass die Umwandlung der subphonetischen Einheiten für die gegebenen Modelle möglich ist, was nicht immer der Fall sein mag.
  • 4 ist ein anderes Blockdiagramm eines dynamischen WOV-Schlüsselphrasenanmeldesystems 140c, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung ausgebildet ist. Es ist gezeigt, dass das dynamische WOV-Schlüsselphrasenanmeldesystem 140c eine WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 414, ein WOV-Schlüsselphrasenmodell 416, eine ASR-Schlüsselphrasenmodell-Erzeugungsschaltung 417, eine ASR-Modell-Aktualisierungsschaltung 217 und ein ASR-Sprachmodell 418 umfasst. Zudem ist gezeigt, dass durch den Aufweck-Sprachprozessor 110 ein WOV-Akustikmodell 422 eingesetzt wird, und ist gezeigt, dass durch den ASR-Prozessor 120 ein ASR-Akustikmodell 424 eingesetzt wird.
  • Die WOV-Schlüsselphrasenmodell-Erzeugungsschaltung 414 ist so ausgebildet, dass sie das WOV-Schlüsselphrasenmodell 416 auf Basis der Identifikation und der Bestimmung einer richtigen Abfolge von subphonetischen Einheiten einer von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase 212 erzeugt. Das WOV-Schlüsselphrasenmodell 416 wird durch den WOV-Prozessor 110 zur Detektion der WOV-Schlüsselphrase aus einer Toneingabe 130, die von dem Benutzer während des Betriebs 220 gesprochen wird, eingesetzt.
  • Die ASR-Schlüsselphrasenmodell-Erzeugungsschaltung 417 ist so ausgebildet, dass sie durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells (statistical language model, SLM) auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase 212 ein ASR-Schlüsselphrasenmodell erzeugt. Das SLM berechnet die Wahrscheinlichkeit eines Worts in Anbetracht der Geschichte früher erkannter Worte (z.B. auf Basis von versteckten Markov-Modellen oder Maximum-Entropie-Modellen). Die Schlüsselphrase wird erkannt und aus dem Erkennungsergebnisgitter (das verschiedene Hypothesen darüber, was gesprochen wurde, darstellt) extrahiert, und das Gitter kann dann direkt in das statistische Sprachmodell der ASR eingebettet werden.
  • Die ASR-Modell-Aktualisierungsschaltung 217 ist so ausgebildet, dass sie das ASR-Sprachmodell 418 unter Verwendung von bekannten Techniken vor dem Hintergrund der vorliegenden Offenbarung durch Aufnehmen oder Einbetten des neuen ASR-Schlüsselphrasenmodells, das durch die ASR-Schlüsselphrasenmodell-Erzeugungsschaltung 417 erzeugt wurde, in das ASR-Sprachmodell aktualisiert. Die ist allgemein möglich, ohne dass jegliche andere Annahmen über das WOV-Akustikmodell 422 und das ASR-Akustikmodell 424 als, dass das gleiche ASR-Akustikmodell 424 durch den ASR-Prozessor 120 und die ASR-Schlüsselphrasenmodell-Erzeugungsschaltung 417 verwendet wird, nötig sind.
  • Bei einigen Ausführungsformen kann das dynamische WOV-Schlüsselphrasenanmeldesystem 140 auch eine Graphem-Phonem-Umwandlungsschaltung (nicht in den Figuren gezeigt) aufweisen., um zu ermöglichen, dass die benutzerdefinierte Schlüsselphrase 212 als Test eingegeben wird. Die Graphem-Phonem-Umwandlungsschaltung ist so ausgebildet, dass sie die Texteingabe in Phoneme zur Erzeugung der WOV-Schlüsselphrasenmodelle durch die WOV-Schlüsselphrasenmodell-Erzeugungsschaltungen 214, 314, 414 umwandelt. Die Graphem-Phonem-Zuordnung kann unter Verwendung von bekannten Techniken vor dem Hintergrund der vorliegenden Offenbarung direkt von dem Benutzer bereitgestellt werden oder als statistisches Modell, das durch einen Maschinenlernprozess erzeugt wurde, verfügbar sein.
  • Methodologie
  • 5 ist ein Ablaufdiagramm, das ein beispielhaftes Verfahren 500 zur dynamischen WOV-Schlüsselphrasenanmeldung nach bestimmen Ausführungsformen der vorliegenden Offenbarung darstellt. Wie ersichtlich ist, weist das beispielhafte Verfahren eine Anzahl von Phasen und Unterprozessen auf, deren Abfolge sich von einer Ausführungsform zu einer anderen unterscheiden kann. Doch insgesamt betrachtet bilden diese Phasen und Unterprozesse einen Prozess für die Schlüsselphrasenanmeldung nach bestimmten der in diesem Dokument offenbarten Ausführungsformen. Diese Ausführungsformen können wie oben beschrieben zum Beispiel unter Verwendung der Systemarchitektur, die in 1 bis 4 dargestellt ist, implementiert werden. Doch wie vor dem Hintergrund dieser Offenbarung offensichtlich sein wird, können in anderen Ausführungsformen andere Systemarchitekturen verwendet werden. Zu diesem Zweck soll die Korrelation der verschiedenen Funktionen, die in 5 gezeigt sind, zu den spezifischen Komponenten, die in den anderen Figuren dargestellt sind, keinerlei strukturelle und/oder Verwendungsbeschränkungen andeuten. Andere Ausführungsformen können vielmehr unterschiedliche Grade der Integration enthalten, wobei mehrere Funktionalitäten wirksam durch ein System durchgeführt werden. Zum Beispiel kann in einer alternativen Ausführungsform ein einzelnes Modul mit entkoppelten Untermodulen verwendet werden, um alle Funktionalitäten des Verfahrens 500 durchzuführen. Daher können andere Ausführungsformen abhängig von der Granularität der Implementierung weniger oder mehr Module und/oder Untermodule aufweisen. Bei noch anderen Ausführungsformen kann die dargestellte Methodologie als Computerprogrammprodukt implementiert werden, das ein oder mehrere nichtflüchtige maschinenlesbare Medien aufweist, die bei Ausführung durch einen oder mehrere Prozesse verursachen, dass die Methodologie ausgeführt wird. Vor dem Hintergrund dieser Offenbarung werden zahlreichen Variationen und alternative Ausgestaltungen offensichtlich werden.
  • Wie in 5 dargestellt beginnt das Verfahren 500 zur dynamischen WOV-Schlüsselphrasenanmeldung bei einer Ausführungsform damit, dass es bei der Tätigkeit 510 auf Basis einer Identifikation und Bestimmung einer richtigen Abfolge von subphonetischen Einheiten einer von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase ein WOV-Schlüsselphrasenmodell erzeugt. Das WOV-Schlüsselphrasenmodell wird durch einen WOV-Prozessor zur Detektion der WOV-Schlüsselphrase, wenn diese von dem Benutzer gesprochen wird, eingesetzt, um als Reaktion auf die Schlüsselphrasendetektion den Betrieb eines ASR-Prozessors auszulösen.
  • Als nächstes wird bei der Tätigkeit 520 ein ASR-Sprachmodell auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase aktualisiert. Das ASR-Sprachmodell wird durch den ASR-Prozessor eingesetzt, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen.
  • Bei einigen Ausführungsformen beinhaltet das Aktualisieren des ASR-Sprachmodells ferner ein direktes Aufnehmen des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell. Bei anderen Ausführungsformen beinhaltet das Aktualisieren des ASR-Sprachmodells ferner das Durchführen einer subphonetischen Umwandlung des WOV-Schlüsselphrasenmodells und das Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell. Bei noch anderen Ausführungsformen beinhaltet das Aktualisieren des ASR-Sprachmodells ferner das Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und das Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell.
  • Selbstverständlich können bei einigen Ausführungsformen zusätzliche Tätigkeiten durchgeführt werden, wie vorher in Verbindung mit dem System beschrieben wurde. Zum Beispiel kann die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt werden, in welchem Fall für die Erzeugung des WOV-Schlüsselphrasenmodells an der Texteingabe eine Graphem-Phonem-Umwandlung durchgeführt werden kann. Bei einigen Ausführungsformen kann das Auslösen des ASR-Prozessors ferner das Aufwecken des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand beinhalten.
  • Beispielhaftes System
  • 6 stellt ein beispielhaftes System 600 zur Durchführung einer dynamischen WOV-Schlüsselphrasenanmeldung dar, das nach bestimmten Ausführungsformen der vorliegenden Offenbarung aufgebaut ist. Bei einigen Ausführungsformen umfasst das System 600 eine Rechenplattform 610, die einen Personal Computer, eine Arbeitsstation, ein Serversystem, ein Smart-Home-Management-System, einen Laptop-Computer, einen Ultralaptop-Computer, ein Tablet, ein Touchpad, einen tragbaren Computer, einen Handcomputer, einen Palmtop-Computer, einen persönlichen digitalen Assistenten (PDA), ein Mobiltelefon, eine Kombination aus einem Mobiltelefon und einem PDA, ein intelligentes Gerät (zum Bespiel ein Smartphone oder ein Smarttablet), ein mobiles Internetgerät (mobile internet device, MID), ein Benachrichtigungsgerät, ein Datenkommunikationsgerät, eine Bildgebungsvorrichtung, ein tragbares Gerät, ein eingebettetes System, und so weiter hosten kann oder anderweitig in ein solches aufgenommen sein kann. Bei bestimmten Ausführungsformen kann jede beliebige Kombination von unterschiedlichen Vorrichtungen verwendet werden.
  • Bei einigen Ausführungsformen kann die Plattform 610 jede beliebige Kombination aus einem Prozessor 620, einem Speicher 630, einem dynamischen WOV-Schlüsselphrasenanmeldesystems 140, einem WOV-Prozessor 110, einem ASR-Prozessor 120, einer Netzwerkschnittstelle 640, einem Ein/Ausgabe(E/A)-System 650, einer Benutzerschnittstelle 660, einer Tonerfassungsvorrichtung 662, und einem Speichersystem 670 umfassen. Wie ferner ersichtlich ist, ist auch ein Bus und/oder eine Zwischenverbindung 692 bereitgestellt, um eine Kommunikation zwischen den verschiedenen oben aufgeführten Komponenten und/oder anderen nicht gezeigten Komponenten zu gestatten. Die Plattform 610 kann durch die Netzwerkschnittstelle 640 mit einem Netzwerk 694 gekoppelt sein, um Kommunikationen mit anderen Rechenvorrichtungen, Plattformen oder Ressourcen zu gestatten. Vor dem Hintergrund dieser Offenbarung werden andere Komponenten und Funktionalitäten, die nicht in dem Blockdiagramm von 6 dargestellt sind, offensichtlich sein, und man wird verstehen, dass andere Ausführungsformen nicht auf irgendeine bestimmte Hardwarekonfiguration beschränkt sind.
  • Der Prozessor 620 kann jeder beliebige geeignete Prozessor sein, und kann einen oder mehrere Coprozessoren oder Steuerungen wie etwa einen Audioprozessor, eine Grafikverarbeitungseinheit, oder einen Hardwarebeschleunige aufweisen, um die Steuer- und Verarbeitungstätigkeiten, die mit dem System 600 verbunden sind, zu unterstützen. Bei einigen Ausführungsformen kann der Prozessor 620 als jede beliebige Anzahl von Prozessorkernen implementiert werden. Der Prozessor (oder die Prozessorkerne) kann (können) jede beliebige Art von Prozessor sein, wie etwa, zum Beispiel, ein Mikroprozessor, ein eingebetteter Prozessor, ein digitaler Signalprozessor (DSP), ein Grafikprozessor (GPU), ein Netzwerkprozessor, eine feldprogrammierbare Gatteranordnung oder eine andere Vorrichtung, die zur Ausführung von Code ausgebildet ist. Die Prozessoren können Mehrfadenkerne sein, indem sie mehr als einen Hardwarefadenkontext (oder „logischen Prozessor“) pro Kern enthalten können. Der Prozessor 620 kann als Rechner mit komplexem Befehlssatz (complex instruction set computer, CISC) oder als Rechner mit reduziertem Befehlssatz (reduced instruction set computer, RISC) implementiert werden. Bei einigen Ausführungsformen kann der Prozessor 620 als ein x86-Befehlsatz-kompatibler Prozessor ausgebildet werden.
  • Der Speicher 630 kann unter Verwendung jeder beliebigen geeigneten Art von digitalem Speicher, zum Beispiel einem Flash-Speicher und/oder einem Direktzugriffsspeicher (RAM) implementiert werden. Bei einigen Ausführungsformen kann der Speicher 630 verschiedene Schichten von Speicherhierarchien und/oder Speicher-Caches, die Fachleuten bekannt sind, aufweisen. Der Speicher 630 kann als flüchtige Speichervorrichtung wie etwa eine RAM-, eine dynamische RAM(DRAM)- oder eine statische RAM(SRAM)-Vorrichtung implementiert werden, ist aber nicht darauf beschränkt. Das Speichersystem 670 kann als nichtflüchtige Speichervorrichtung wie etwa eines oder mehrere aus einem Festplattenlaufwerk (HDD), einem Solid-State-Laufwerk (SSD), einem universellen seriellen Bus(USB)-Laufwerk, einem optischen Plattenlaufwerk, einem Bandlaufwerk, einer internen Speichervorrichtung, einer angeschlossenen Speichervorrichtung, einem Flash-Speicher, einem batteriegestützten synchronen DRAM (SDRAM), und/oder einer über ein Netzwerk erreichbaren Speichervorrichtung implementiert werden, ist aber nicht darauf beschränkt. Bei einigen Ausführungsformen kann der Speicher 670 Technologie umfassen, um den speicherleistungsgesteigerten Schutz für wertvolle digitale Medien zu verbessern, wenn mehrere Festplattenlaufwerke enthalten sind. Bei einigen Ausführungsformen können die WOV-Schlüsselphrasenmodelle, die ASR-Sprachmodelle, und die akustischen Modelle in gesonderten Blöcken oder Bereichen des Speichers gespeichert werden.
  • Der Prozessor 620 kann so ausgebildet sein, dass er ein Betriebssystem (operating system, OS) 680 ausführt, das jedes beliebige geeignete Betriebssystem umfassen kann, wie etwa Google Android (Google Inc., Mountain View, CA), Microsoft Windows (Microsoft Corp., Redmond, WA), Apple OS X (Apple Inc., Cupertino, CA), Linux, oder ein Echtzeit-Betriebssystem (real-time operating system, RTOS). Wie man vor dem Hintergrund dieser Offenbarung verstehen wird, können die in diesem Dokument bereitgestellten Techniken unabhängig von dem bestimmten Betriebssystem, das in Verbindung mit dem System 600 bereitgestellt ist, implementiert werden, und können sie daher auch unter Verwendung jeder beliebigen geeigneten bestehenden oder später entwickelten Plattform implementiert werden.
  • Die Netzwerkschnittstellenschaltung 640 kann jeder beliebige geeignete Netzwerkchip oder -chipsatz sein, der eine drahtgebundene und/oder drahtlose Verbindung zwischen anderen Komponenten des Computersystems 600 und/oder dem Netzwerk 694 gestattet und dadurch dem System 600 ermöglicht, mit anderen lokalen und/oder entfernten Rechensystemen, Servern, cloudbasierten Servern und/oder anderen Ressourcen zu kommunizieren. Eine drahtgebundene Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards wie etwa, zum Beispiel, Ethernet entsprechen. Eine drahtlose Kommunikation kann bestehenden (oder noch zu entwickelnden) Standards wie etwa, zum Beispiel, zellulären Kommunikationen einschließlich LTE (Long Term Evolution), Wireless Fidelity (Wi-Fi), Bluetooth, und/oder Near Field Communication (NFC) entsprechen. Beispielhafte drahtlose Netzwerke beinhalten drahtlose lokale Netzwerke, drahtlose persönliche Netzwerke, drahtlose Stadtbereichsnetzwerke, zelluläre Netzwerke und Satellitennetzwerke, sind aber nicht darauf beschränkt.
  • Das E/A-System 650 kann so ausgebildet sein, dass es zwischen verschiedenen E/A-Vorrichtungen und anderen Komponenten des Computersystems 600 verbindet. E/A-Vorrichtungen können die Benutzerschnittstelle 660 und die Tonerfassungsvorrichtung 662 (z.B. ein Mikrophon) beinhalten, sind aber nicht darauf beschränkt. Die Benutzerschnittstelle 660 kann Vorrichtungen (nicht gezeigt) wie etwa ein Anzeigeelement, ein Touchpad, eine Tastatur, eine Maus, und einen Lautsprecher, usw. beinhalten. Das E/A-System 650 kann ein Grafikuntersystem beinhalten, das ausgebildet ist, um eine Verarbeitung von Bildern zur Wiedergabe an einem Anzeigeelement durchzuführen. Das Grafikuntersystem kann zum Beispiel eine grafische Verarbeitungseinheit oder eine visuelle Verarbeitungseinheit (visual processing unit, VPU) sein. Eine Analog-Digital-Schnittstelle kann verwendet werden, um das Grafikuntersystem und das Anzeigeelement kommunikativ zu koppeln. Zum Beispiel kann die Schnittstelle eine beliebige aus einer hochauflösenden Multimedienschnittstelle (high definition multimedia interface, HDMI), DisplayPort, einer drahtlosen HDMI und/oder jeder beliebigen anderen geeigneten Schnittstelle, die drahtlose hochauflösungskompatible Techniken verwendet, sein. Bei einigen Ausführungsformen könnte das Grafikuntersystem in den Prozessor 620 oder einen beliebigen Chipsatz der Plattform 610 integriert werden.
  • Man wird verstehen, dass die verschiedenen Komponenten des Systems 600 bei einigen Ausführungsformen zu einer „System-auf-einem-Chip(SoC)“-Architektur kombiniert oder in eine solche integriert werden können. Bei einigen Ausführungsformen können die Komponenten Hardwarekomponenten, Firmwarekomponenten, Softwarekomponenten oder jede beliebige geeignete Kombination aus Hardware, Firmware oder Software sein.
  • Das dynamische WOV-Schlüsselphrasenanmeldesystem 140 ist so ausgebildet, dass es während der Laufzeit WOV-Schlüsselphrasenmodelle erzeugt und ASR-Sprachmodelle aktualisiert, um Benutzern zu ermöglichen, neue WOV-Schlüsselphrasen zu definieren, wie vorher beschrieben wurde. Das dynamische WOV-Schlüsselphrasenanmeldesystem 140 kann wie oben beschrieben einige oder alle der Schaltungen/Komponenten, die in 1 bis 4 beschrieben sind, aufweisen. Diese Komponenten können in Verbindung mit verschiedenster geeigneter Software und/oder Hardware, die mit der Plattform 610 gekoppelt ist oder anderweitig einen Teil davon bildet, implementiert oder anderweitig verwendet werden. Diese Komponenten können zusätzlich oder alternativ in Verbindung mit Benutzer-E/A-Vorrichtungen, die in der Lage sind, einem Benutzer Informationen bereitzustellen und von einem Benutzer Informationen und Befehle zu erhalten, implementiert oder anderweitig verwendet werden.
  • Bei einigen Ausführungsformen können diese Schaltungen in dem System 600 lokal installiert sein, wie in der beispielhaften Ausführungsform von 6 gezeigt ist. Alternativ kann das System 600 in einer Client-Server-Anordnung implementiert werden, wobei dem System 600 wenigstens einige Funktionalität, die mit diesen Schaltungen verbunden ist, unter Verwendung eines Applets, wie etwa eines JavaScript-Applets, oder eines anderen herunterladbaren Moduls oder Satzes von Untermodulen bereitgestellt wird. Derartige Module oder Untermodule mit Fernzugriff können als Reaktion auf eine Anforderung von einem Client-Rechensystem nach Zugang zu einem gegebenen Server, der Ressourcen aufweist, die für den Benutzer des Client-Rechensystems von Interesse sind, in Echtzeit bereitgestellt werden. Bei derartigen Ausführungsformen kann der Server dem Netzwerk 694 lokal sein oder durch ein oder mehrere andere Netzwerke und/oder Kommunikationskanäle aus der Ferne mit dem Netzwerk 694 gekoppelt sein. In einigen Fällen kann der Zugriff auf Ressourcen an einem gegebenen Netzwerk oder Rechensystem Zugangsdaten wie etwa Benutzernamen, Passwörter und/oder Konformität mit irgendeinem anderen geeigneten Sicherheitsmechanismus erfordern.
  • Bei verschiedenen Ausführungsformen kann das System 600 als drahtloses System, drahtgebundenes System, oder eine Kombination von beidem implementiert werden. Wenn es als drahtloses System implementiert wird, kann das System 600 Komponenten und Schnittstellen aufweisen, die für das Kommunizieren über ein drahtloses geteiltes Medium geeignet sind, wie etwa eine oder mehrere Antennen, Sender, Empfänger, Sendeempfänger, Verstärker, Filter, Steuerlogik, und so weiter. Ein Beispiel für drahtlose geteilte Medien kann Teile eines drahtlosen Spektrums, wie etwa des Funkfrequenzspektrums und so weiter, beinhalten. Wenn es als drahtgebundenes System implementiert wird, kann das System 600 Komponenten und Schnittstellen aufweisen, die für das Kommunizieren über drahtgebundene Kommunikationsmedien geeignet sind, wie etwa Ein/Ausgabeadapter, physikalische Steckverbinder, um den Ein/Ausgabeadapter mit einem entsprechenden kabelgebundenen Medium zu verbinden, eine Netzwerkschnittstellenkarte (network interface card, NIC), eine Plattensteuerung, eine Videosteuerung, eine Audiosteuerung, und so weiter. Beispiele für drahtgebundene Kommunikationsmedien können einen Draht, Kabelmetallleiter, eine gedruckte Leiterplatte (printed circuit board, PCB), eine Rückwandplatine, ein Switch-Fabric, Halbleitermaterial, eine verdrillte Zweidrahtleitung, ein Koaxialkabel, Glasfaseroptik, und so weiter beinhalten.
  • Verschiedene Ausführungsformen können unter Verwendung von Hardwareelementen, Softwareelementen oder einer Kombination von beiden implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (zum Beispiele Transistoren, Widerstände, Kondensatoren, Induktoren, und so weiter), integrierte Schaltungen, ASICs, programmierbare Logikvorrichtungen, digitale Signalprozessoren, FPGAs, Logikgatter, Register, Halbleitervorrichtungen, Chips, Mikrochips, Chipsätze, und so weiter beinhalten. Beispiele für Software können Softwarekomponenten, Programme, Anwendungen, Computerprogramme, Anwendungsprogramme, Systemprogramme, Maschinenprogramme, Betriebssystemsoftware, Middleware, Firmware, Softwaremodule, Routinen, Subroutinen, Funktionen, Verfahren, Vorgänge, Softwareschnittstellen, Anwendungsprogrammschnittstellen, Befehlssätze, Rechencode, Computercode, Codesegmente, Computercodesegmente, Worte, Werte, Symbole, oder jede beliebige Kombination davon beinhalten. Das Bestimmen, ob eine Ausführungsform unter Verwendung von Hardwareelementen und/oder Softwareelementen implementiert wird, kann gemäß einer beliebigen Anzahl von Faktoren wie etwa der gewünschten Rechengeschwindigkeit, dem Leistungspegel, Wärmetoleranzen, dem Verarbeitungszyklusbudget, Eingangsdatenraten, Ausgangsdatenraten, Speicherressourcen, Datenbusgeschwindigkeiten, und anderen Gestaltungs- oder Leistungsfähigkeitsbeschränkungen unterschiedlich sein.
  • Einige Ausführungsformen können unter Verwendung der Ausdrücke „gekoppelt“ und „verbunden“ zusammen mit ihren Ableitungen beschrieben sein. Diese Ausdrücke sind nicht als Synonyme füreinander gedacht. Zum Beispiel können einige Ausführungsformen unter Verwendung der Ausdrücke „verbunden“ und/oder „gekoppelt“ beschrieben sein, um anzugeben, dass zwei oder mehr Elemente in einem direkten physikalischen oder elektrischen Kontakt miteinander stehen. Der Ausdruck „gekoppelt“ kann jedoch auch bedeuten, dass zwei oder mehr Elemente nicht in einem direkten Kontakt miteinander stehen, aber dennoch miteinander zusammenwirken oder wechselwirken.
  • Die verschiedenen Ausführungsformen, die in diesem Dokument offenbart sind, können in verschiedenen Formen von Hardware, Software, Firmware und/oder Prozessoren mit besonderer Zweckbestimmung implementiert werden. Zum Beispiel weist bei einer Ausführungsform wenigstens ein nichtflüchtiges computerlesbares Speichermedium darauf codierte Befehle auf, die bei Ausführung durch einen oder mehrere Prozessoren verursachen, dass eine oder mehrere der in diesem Dokument offenbarten dynamischen Schlüsselphrasenanmeldemethodologien ausgeführt werden. Die Befehle können unter Verwendung einer geeigneten Programmiersprache wie etwa C, C++, objektorientiertes C, Java, JavaScript, Visual Basic NET, Beginner's All-Purpose Symbolic Instruction Code (BASIC), oder alternativ unter Verwendung von benutzerdefinierten oder proprietären Befehlsätzen codiert werden. Die Befehle können in der Form einer oder mehrerer Computersoftwareanwendungen und/oder Applets, die greifbar auf einer Speichervorrichtung ausgeführt sind und die durch einen Computer mit einer beliebigen geeigneten Architektur ausgeführt werden können, bereitgestellt werden. Bei einer Ausführungsform kann das System auf einer gegebenen Website gehostet werden und zum Beispiel unter Verwendung von JavaScript oder einer anderen geeigneten browserbasierten Technologie implementiert werden. Zum Beispiel kann das System bei bestimmten Ausführungsformen Verarbeitungsressourcen einsetzen, die durch ein entferntes Computersystem, das über das Netzwerk 694 zugänglich ist, bereitgestellt werden. Bei anderen Ausführungsformen können die in diesem Dokument offenbarten Funktionalitäten in andere sprachbasierte Softwareanwendungen wie etwa, zum Beispiel, Kraftfahrzeugsteuerungs/Navigations-, Smart-Home-Management-, Unterhaltungs-, und Roboteranwendungen aufgenommen werden. Die in diesem Dokument offenbarten Computersoftwareanwendungen können jede beliebige Anzahl von unterschiedlichen Modulen, Untermodulen, oder anderen Komponenten von unterschiedlicher Funktionalität aufweisen. Diese Module können zum Beispiel verwendet werden, um mit Eingabe- und/oder Ausgabevorrichtungen wie etwa einem Anzeigebildschirm, einer berührungsempfindlichen Oberfläche, einem Drucker und/oder jeder beliebigen anderen geeigneten Vorrichtung zu kommunizieren. Vor dem Hintergrund dieser Offenbarung werden andere Komponenten und Funktionalitäten, die nicht in den Abbildungen dargestellt sind, offensichtlich werden, und man wird verstehen, dass andere Ausführungsformen nicht auf irgendeine besondere Hardware- oder Softwarekonfiguration beschränkt sind. Daher kann das System 600 bei anderen Ausführungsformen im Vergleich zu den in der beispielhaften Ausführungsform von 6 enthaltenen zusätzliche, weniger oder alternative Subkomponenten umfassen.
  • Das oben genannte nichtflüchtige computerlesbare Medium kann jedes beliebige geeignete Medium zum Speichern von digitalen Informationen sein, wie etwa eine Festplatte, ein Server, ein Flash-Speicher, und/oder ein Direktzugriffsspeicher (RAM), oder eine Kombination von Speichern. Bei alternativen Ausführungsformen können die in diesem Dokument offenbarten Komponenten und/oder Module mit Hardware, einschließlich Logik auf Gatterebene wie etwa einer feldprogrammierbaren Gatteranordnung (FPGA), oder alternativ, einem speziell dafür gebauten Halbleiter wie etwa einer anwendungsspezifischen integrierten Schaltung (ASIC), implementiert werden. Noch andere Ausführungsformen können mit einer Mikrosteuerung mit einer Anzahl von Ein/Ausgangsports zum Erhalten und Ausgeben von Daten und einer Anzahl von eingebetteten Routinen zum Ausführen der verschiedenen in diesem Dokument offenbarten Funktionalitäten implementiert werden. Es wird offensichtlich sein, dass jede beliebige geeignete Kombination von Hardware, Software und Firmware verwendet werden kann, und dass andere Ausführungsformen nicht auf irgendeine bestimmte Systemarchitektur beschränkt sind.
  • Einige Ausführungsformen können zum Beispiel unter Verwendung eines maschinenlesbaren Mediums oder Gegenstands, das oder der einen Befehl oder einen Satz von Befehlen speichern kann, welcher bei Ausführung durch eine Maschine die Maschine zur Ausführung eines Verfahrens und/oder von Tätigkeiten gemäß den Ausführungsformen bringen kann, implementiert werden. Eine solche Maschine kann zum Beispiele jede beliebige geeignete Verarbeitungsplattform, Rechenplattform, Verarbeitungsvorrichtung, jedes beliebige geeignete Rechensystem, Verarbeitungssystem., jeden beliebigen geeigneten Computer, Prozess, oder dergleichen beinhalten, und kann unter Verwendung jeder beliebigen geeigneten Kombination von Hardware und/oder Software implementiert werden. Das maschinenlesbare Medium oder der maschinenlesbare Gegenstand kann zum Beispiel jede beliebige geeignete Art von Speichereinheit, Speichervorrichtung, Speichergegenstand, Speichermedium, Massenspeichervorrichtung, Massenspeichergegenstand, Massenspeichermedium und/oder Massenspeichereinheit wie etwa einen Speicher, entfernbare oder nicht entfernbare Medien, löschbare oder nicht löschbare Medien, beschreibbare oder wiederbeschreibbare Medien, digitale oder analoge Medien, eine Festplatte, eine Floppy-Disk, einen Compact-Disk-Nurlesespeicher (CD-ROM), einen beschreibbaren Compact-Disk(CD-R)-Speicher, einen wiederbeschreibbaren Compact-Disk(CD-RW)-Speicher, eine optische Platte, magnetische Medien, magnetoptische Medien, entfernbare Speicherkarten oder -platten, verschiedene Arten von Digital Versatile Disks (DVD), ein Band, eine Kassette, oder dergleichen beinhalten. Die Befehle können jede beliebige Art von Code wie etwa Quellcode, kompilierten Code, interpretierten Code, ausführbaren Code, statischen Code, dynamischen Code, verschlüsselten Code, und dergleichen beinhalten, der unter Verwendung jeder beliebigen geeigneten höheren, niedrigeren, objektorientierten, visuellen, kompilierten und/oder interpretierten Programmiersprache implementiert ist.
  • Sofern nicht ausdrücklich anders angegeben versteht sich, dass sich Ausdrücke wie „verarbeiten“, „berechnen“, „rechnen“, „bestimmen“, oder dergleichen auf die Handlung und/oder den Prozess eines Computers oder eines Rechensystems oder einer ähnlichen Rechenvorrichtung beziehen, der, das oder die Daten, die in den Registern und/oder Speichereinheiten des Computersystems als physikalische Größen (zum Beispiel elektronisch) dargestellt sind, bearbeitet und/oder in andere Daten, die in den Registern, Speichereinheiten, oder anderen derartigen Informationsspeicherübermittlungen oder Anzeigen des Computersystems ebenfalls als physikalische Größen dargestellt sind, umwandelt. Die Ausführungsformen sind in diesem Kontext nicht beschränkt.
  • Die bei beliebigen Ausführungsformen in diesem Dokument verwendeten Ausdrücke „Schaltung“ oder „Schaltungsanordnung“ sind funktionell und können zum Beispiel festverdrahtete Schaltungsanordnungen, programmierbare Schaltungsanordnungen wie etwa Computerprozessoren, die einen oder mehrere einzelne Befehlsverarbeitungskerne umfassen, Zustandsmaschinenschaltungsanordnungen, und/oder Firmware, die durch programmierbare Schaltungsanordnungen ausgeführte Befehle speichert, einzeln oder in jeder beliebigen Kombination umfassen. Die Schaltungsanordnung kann einen Prozessor und/oder eine Steuerung umfassen, der oder die dazu ausgebildet ist, einen oder mehrere Befehle zur Durchführung einer oder mehrerer der in diesem Dokument beschriebenen Tätigkeiten auszuführen. Die Befehle können zum Beispiel als eine Anwendung, Software, Firmware, usw. ausgeführt sein, die dazu ausgebildet ist, die Schaltungsanordnung zur Durchführung jeder beliebigen der oben genannten Tätigkeiten zu bringen. Die Software kann als Softwarepaket, Code, Befehle, Befehlssätze und/oder Daten, die auf einem computerlesbaren Speichermedium aufgezeichnet sind, ausgeführt sein. Die Software kann so ausgeführt oder implementiert sein, dass sie jede beliebige Anzahl von Prozessen enthält, und die Prozesse wiederum können so ausgeführt oder implementiert sein, dass sie jede beliebige Anzahl von Fäden usw. in einer hierarchischen Weise enthält. Die Firmware kann als Code, Befehle oder Befehlssätze und/oder Daten, die in Speichervorrichtungen hartcodiert (z.B. nicht flüchtig) sind, ausgeführt sein. Die Schaltungsanordnung kann gesammelt oder individuell als Schaltungsanordnung, die einen Teil eines größeren Systems, zum Beispiel einer integrierten Schaltung (IC), einer anwendungsspezifischen integrierten Schaltung (ASIC), eines Systemsauf-einem-Chip (SoC), von Desktop-Computern, Laptop-Computern, Tablet-Computern, Servern, Smartphones, usw., bildet, ausgeführt sein. Andere Ausführungsformen können als Software, die durch eine programmierbare Steuervorrichtung ausgeführt wird, implementiert sein. In solchen Fällen sollen die Ausdrücke „Schaltung oder „Schaltungsanordnung“ eine Kombination aus Software und Hardware wie etwa eine programmierbare Steuervorrichtung oder einen Prozessor, der zur Ausführung der Software in der Lage ist, beinhalten. Wie in diesem Dokument beschrieben können verschiedene Ausführungsformen unter Verwendung von Hardwareelementen, Softwareelementen, oder jeder beliebigen Kombination davon implementiert werden. Beispiele für Hardwareelemente können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (z.B. Transistoren, Widerstände, Kondensatoren, Induktoren, und so weiter), integrierte Schaltungen, anwendungsspezifische integrierte Schaltungen (ASICs), programmierbare Logikvorrichtungen (PLDs), digitale Signalprozessoren (DSPs), feldprogrammierbare Gatteranordnungen (FPGAs), Logikgatter, Register, Halbleitervorrichtungen, Chips, Mikrochips, Chipsätze, und so weiter beinhalten.
  • In diesem Dokument wurden zahlreiche bestimmte Einzelheiten dargelegt, um für ein gründliches Verständnis der Ausführungsformen zu sorgen. Ein Durchschnittsfachmann wird jedoch verstehen, dass die Ausführungsformen ohne diese bestimmten Einzelheiten umgesetzt werden können. In anderen Fällen wurden wohlbekannte Tätigkeiten, Komponenten und Schaltungen nicht ausführlich beschrieben, um die Ausführungsformen nicht unklar zu machen. Es versteht sich, dass die bestimmten baulichen und funktionellen Einzelheiten, die in diesem Dokument offenbart sind, stellvertretend sein können und den Umfang der Ausführungsformen nicht notwendigerweise beschränken. Und obwohl der Gegenstand in einer Sprache beschrieben wurde, die für bauliche Merkmale und/oder methodologische Handlungen spezifisch ist, versteht sich zudem, dass der Gegenstand, der in den beiliegenden Ansprüchen definiert ist, nicht notwendigerweise auf die bestimmten Merkmale oder Handlungen, die in diesem Dokument beschrieben sind, beschränkt ist. Die in diesem Dokument beschriebenen bestimmten Merkmale und Handlungen sind vielmehr als beispielhafte Formen zur Umsetzung der Ansprüche offenbart.
  • Weitere beispielhafte Ausführungsformen
  • Die folgenden Bespiele betreffen weitere Ausführungsformen, aus denen zahlreiche Permutationen und Konfigurationen offensichtlich sein werden.
  • Beispiel 1 ist ein prozessorimplementiertes Verfahren für eine Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, wobei das Verfahren das Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase durch ein prozessorbasiertes System, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und das Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase durch das prozessorbasierte System, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen, umfasst.
  • Beispiel 2 beinhaltet den Gegenstand von Beispiel 1, wobei das Aktualisieren des ASR-Sprachmodells das Aufnehmen des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 3 beinhaltet den Gegenstand von Beispiel 1 oder 2, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  • Beispiel 4 beinhaltet den Gegenstand eines der Beispiele 1 bis 3, wobei das Aktualisieren des ASR-Sprachmodells das Durchführen einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und das Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 5 beinhaltet den Gegenstand eines der Beispiele 1 bis 4, wobei das Aktualisieren des ASR-Sprachmodells das Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und das Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 6 beinhaltet den Gegenstand eines der Beispiele 1 bis 5, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, wobei das Verfahren ferner das Durchführen einer Graphem-Phonem-Umwandlung an der Texteingabe zur Erzeugung des WOV-Schlüsselphrasenmodells umfasst.
  • Beispiel 7 beinhaltet den Gegenstand eines der Beispiele 1 bis 6, wobei das Auslösen des ASR-Prozessors das Aufwecken des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  • Beispiel 8 beinhaltet den Gegenstand eines der Beispiele 1 bis 7, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  • Beispiel 9 ist ein System zur Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, wobei das System eine WOV-Schlüsselphrasenmodell-Erzeugungsschaltung zur Erzeugung eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und eine ASR-Modell-Aktualisierungsschaltung zur Aktualisierung eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen, umfasst.
  • Beispiel 10 beinhaltet den Gegenstand von Beispiel 9, wobei die ASR-Modell-Aktualisierungsschaltung ferner das WOV-Schlüsselphrasenmodell in das ASR-Sprachmodell aufnimmt.
  • Beispiel 11 beinhaltet den Gegenstand von Beispiel 9 oder 10, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  • Beispiel 12 beinhaltet den Gegenstand eines der Beispiele 9 bis 11 und umfasst ferner eine Modellumwandlungsschaltung zur Durchführung einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und zum Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell.
  • Beispiel 13 beinhaltet den Gegenstand eines der Beispiele 9 bis 12 und umfasst ferner eine ASR-Schlüsselphrasenmodell-Erzeugungsschaltung zur Erzeugung eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und zum Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell.
  • Beispiel 14 beinhaltet den Gegenstand eines der Beispiele 9 bis 13, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, wobei das System ferner eine Graphem-Phonem-Umwandlungsschaltung zur Umwandlung der Texteingabe in Phoneme zur Erzeugung des WOV-Schlüsselphrasenmodells umfasst.
  • Beispiel 15 beinhaltet den Gegenstand eines der Beispiele 9 bis 14, wobei das Auslösen des ASR-Prozessors das Aufwecken des ASR-Prozessors von einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  • Beispiel 16 beinhaltet den Gegenstand eines der Beispiele 9 bis 15, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  • Beispiel 17 ist wenigstens ein nichtflüchtiges computerlesbares Speichermedium mit darauf codierten Befehlen, die bei Ausführung durch einen oder mehrere Prozessoren zu den folgenden Tätigkeiten für die Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung führen, wobei diese Tätigkeiten das Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und das Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen, umfassen.
  • Beispiel 18 beinhaltet den Gegenstand von Beispiel 17, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeit des Aufnehmens des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 19 beinhaltet den Gegenstand von Beispiel 17 oder 18, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  • Beispiel 20 beinhaltet den Gegenstand eines der Beispiele 17 bis 19, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeiten des Durchführens einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und des Aufnehmens des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 21 beinhaltet den Gegenstand eines der Beispiele 17 bis 20, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeiten des Erzeugens eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischem Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und des Aufnehmens des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 22 beinhaltet den Gegenstand eines der Beispiele 17 bis 21, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, und umfasst ferner die Tätigkeit des Durchführens einer Graphem-Phonem-Umwandlung an der Texteingabe für die Erzeugung des WOV -Schlüsselphrasenmodells.
  • Beispiel 23 beinhaltet den Gegenstand eines der Beispiele 17 bis 22, wobei das Auslösen des ASR-Prozessors die Tätigkeit des Aufweckens des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  • Beispiel 24 beinhaltet den Gegenstand einer der Beispiele 17 bis 23, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  • Beispiel 25 ist ein System zur Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, wobei das System Mittel zum Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und Mittel zum Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen, umfasst.
  • Beispiel 26 beinhaltet den Gegenstand von Beispiel 25, wobei das Aktualisieren des ASR-Sprachmodells Mittel zum Aufnehmen des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 27 beinhaltet den Gegenstand von Beispiel 25 oder 26, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  • Beispiel 28 beinhaltet den Gegenstand eines der Beispiele 25 bis 27, wobei das Aktualisieren des ASR-Sprachmodells Mittel zum Durchführen einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und Mittel zum Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 29 beinhaltet den Gegenstand eines der Beispiele 25 bis 28, wobei das Aktualisieren des ASR-Sprachmodells Mittel zum Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und Mittel zum Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  • Beispiel 30 beinhaltet den Gegenstand eines der Beispiele 25 bis 29, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, wobei das System ferner Mittel zum Durchführen einer Graphem-Phonem-Umwandlung an der Texteingabe zur Erzeugung des WOV-Schlüsselphrasenmodells umfasst.
  • Beispiel 31 beinhaltet den Gegenstand eines der Beispiele 25 bis 30, wobei das Auslösen des ASR-Prozessors Mittel zum Aufwecken des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  • Beispiel 32 beinhaltet den Gegenstand eines der Beispiele 25 bis 31, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  • Die Begriffe und Ausdrücke, die in diesem Dokument eingesetzt wurden, werden als Begriffe zur Beschreibung und nicht zur Beschränkung verwendet, und bei der Verwendung dieser Begriffe und Ausdrücke besteht keine Absicht, jedwede Entsprechungen der gezeigten und beschriebenen Merkmale (oder von Teilen davon) auszuschließen, und es wird erkannt, dass innerhalb des Umfangs der Ansprüche verschiedene Abwandlungen möglich sind. Entsprechend sollen die Ansprüche alle derartigen Entsprechungen abdecken. In diesem Dokument wurden verschiedene Merkmale, Gesichtspunkte und Ausführungsformen beschrieben. Wie Fachleute verstehen werden, sind die Merkmale, Gesichtspunkte und Ausführungsformen für Kombinationen miteinander wie auch Veränderungen und Abwandlungen empfänglich. Die vorliegende Offenbarung sollte daher so angesehen werden, dass sie alle derartigen Kombinationen, Veränderungen und Abwandlungen umfasst. Es ist beabsichtigt, dass der Umfang der vorliegenden Offenbarung nicht durch diese ausführliche Beschreibung, sondern vielmehr durch die ihr beigefügten Ansprüche beschränkt wird. Zukünftig eingereichte Anmeldungen, die die Priorität dieser Anmeldung beanspruchen, können den offenbarten Gegenstand auf eine unterschiedliche Weise beanspruchen und können im Allgemeinen jeden beliebigen Satz eines oder mehrerer Elemente, die in diesem Dokument verschiedentlich offenbart oder anderweitig gezeigt wurden, beinhalten.

Claims (24)

  1. Prozessorimplementiertes Verfahren für eine Wake-on-Voice (WOV)-Schlüsselphrasenanmeldung, wobei das Verfahren Folgendes umfasst: Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase durch ein prozessorbasiertes System, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase durch das prozessorbasierte System, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen.
  2. Verfahren nach Anspruch 1, wobei das Aktualisieren des ASR-Sprachmodells das Aufnehmen des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  3. Verfahren nach Anspruch 2, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  4. Verfahren nach Anspruch 1, wobei das Aktualisieren des ASR-Sprachmodells das Durchführen einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und das Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  5. Verfahren nach Anspruch 1, wobei das Aktualisieren des ASR-Sprachmodells das Erzeugen eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und das Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  6. Verfahren nach Anspruch 1, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, wobei das Verfahren ferner das Durchführen einer Graphem-Phonem-Umwandlung an der Texteingabe zur Erzeugung des WOV-Schlüsselphrasenmodells umfasst.
  7. Verfahren nach einem der Ansprüche 1 bis 6, wobei das Auslösen des ASR-Prozessors das Aufwecken des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  8. Verfahren nach Anspruch 7, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  9. System zur Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung, wobei das System Folgendes umfasst: eine WOV-Schlüsselphrasenmodell-Erzeugungsschaltung zur Erzeugung eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und eine ASR-Modell-Aktualisierungsschaltung zur Aktualisierung eines ASR-Sprachmodell auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen.
  10. System nach Anspruch 9, wobei die ASR-Modell-Aktualisierungsschaltung ferner das WOV-Schlüsselphrasenmodell in das ASR-Sprachmodell aufnimmt.
  11. System nach Anspruch 10, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  12. System nach Anspruch 9, ferner umfassend eine Modellumwandlungsschaltung zur Durchführung einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und zum Aufnehmen des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell.
  13. System nach Anspruch 9, ferner umfassend eine ASR-Schlüsselphrasenmodell-Erzeugungsschaltung zur Erzeugung eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischen Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und zum Aufnehmen des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell.
  14. System nach Anspruch 9, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, wobei das System ferner eine Graphem-Phonem-Umwandlungsschaltung zur Umwandlung der Texteingabe in Phoneme zur Erzeugung des WOV-Schlüsselphrasenmodells umfasst.
  15. System nach einem der Ansprüche 9 bis 14, wobei das Auslösen des ASR-Prozessors das Aufwecken des ASR-Prozessors von einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  16. System nach Anspruch 15, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
  17. Wenigstens ein nichtflüchtiges computerlesbares Speichermedium mit darauf codierten Befehlen, die bei Ausführung durch einen oder mehrere Prozessoren zu den folgenden Tätigkeiten für die Wake-on-Voice(WOV)-Schlüsselphrasenanmeldung führen, wobei diese Tätigkeiten Folgendes umfassen: Erzeugen eines WOV-Schlüsselphrasenmodells auf Basis einer von einem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das WOV-Schlüsselphrasenmodell durch einen WOV-Prozessor eingesetzt wird, um eine richtige Abfolge von subphonetischen Einheiten der von dem Benutzer gesprochenen WOV-Schlüsselphrase zu detektieren und als Reaktion auf die Detektion der WOV-Schlüsselphrase den Betrieb eines automatischen Spracherkennungs(ASR)-Prozessors auszulösen; und Aktualisieren eines ASR-Sprachmodells auf Basis der von dem Benutzer angegebenen WOV-Anmelde-Schlüsselphrase, wobei das ASR-Sprachmodell durch den ASR-Prozessor eingesetzt wird, um von dem Benutzer gesprochene sprachliche Äußerungen zu erkennen.
  18. Computerlesbares Speichermedium nach Anspruch 17, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeit des Aufnehmens des WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  19. Computerlesbares Speichermedium nach Anspruch 18, wobei der WOV-Prozessor ein erstes akustisches Modell (AM) verwendet, der ASR-Prozessor ein zweites akustisches Modell (AM) verwendet, und das erste AM und das zweite AM gemeinsame Phoneme und Zustandsabfolgen verwenden.
  20. Computerlesbares Speichermedium nach Anspruch 17, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeiten des Durchführens einer Umwandlung der subphonetischen Einheiten des WOV-Schlüsselphrasenmodells und des Aufnehmens des umgewandelten WOV-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  21. Computerlesbares Speichermedium nach Anspruch 17, wobei das Aktualisieren des ASR-Sprachmodells die Tätigkeiten des Erzeugens eines ASR-Schlüsselphrasenmodells durch Anwenden eines Phonem-Silben-basierten statistischem Sprachmodells auf die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase und des Aufnehmens des erzeugten ASR-Schlüsselphrasenmodells in das ASR-Sprachmodell umfasst.
  22. Computerlesbares Speichermedium nach Anspruch 17, wobei die von dem Benutzer angegebene WOV-Anmelde-Schlüsselphrase als Texteingabe bereitgestellt wird, ferner umfassend die Tätigkeit des Durchführens einer Graphem-Phonem-Umwandlung an der Texteingabe für die Erzeugung des WOV-Schl üssel phrasenmodell s.
  23. Computerlesbares Speichermedium nach einem der Ansprüche 17 bis 22, wobei das Auslösen des ASR-Prozessors die Tätigkeit des Aufweckens des ASR-Prozessors aus einem weniger Strom verbrauchenden Ruhezustand zu einem mehr Strom verbrauchenden Erkennungszustand umfasst.
  24. Computerlesbares Speichermedium nach Anspruch 23, wobei der WOV-Prozessor weniger Strom als der ASR-Prozessor verbraucht, wenn sich der ASR-Prozessor in dem mehr Strom verbrauchenden Erkennungszustand befindet.
DE112018006101.9T 2017-12-27 2018-11-19 Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem Pending DE112018006101T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/855,379 US10672380B2 (en) 2017-12-27 2017-12-27 Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system
US15/855,379 2017-12-27
PCT/US2018/061728 WO2019133153A1 (en) 2017-12-27 2018-11-19 Dynamic enrollment of user-defined wake-up key-phrase for speech enabled computer system

Publications (1)

Publication Number Publication Date
DE112018006101T5 true DE112018006101T5 (de) 2020-09-03

Family

ID=65229831

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112018006101.9T Pending DE112018006101T5 (de) 2017-12-27 2018-11-19 Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem

Country Status (5)

Country Link
US (1) US10672380B2 (de)
CN (1) CN111164675A (de)
DE (1) DE112018006101T5 (de)
TW (1) TWI802602B (de)
WO (1) WO2019133153A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151991B2 (en) * 2018-03-30 2021-10-19 Verizon Media Inc. Electronic message transmission
EP3807874A1 (de) * 2018-07-13 2021-04-21 Google LLC Stichworterkennung im end-to-end-streaming
US11308939B1 (en) * 2018-09-25 2022-04-19 Amazon Technologies, Inc. Wakeword detection using multi-word model
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
EP3888084A4 (de) 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. Verfahren und vorrichtung zur bereitstellung eines spracherkennungsdienstes
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110310628B (zh) * 2019-06-27 2022-05-20 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
US11217245B2 (en) * 2019-08-29 2022-01-04 Sony Interactive Entertainment Inc. Customizable keyword spotting system with keyword adaptation
CN110634483B (zh) * 2019-09-03 2021-06-18 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
US11488581B1 (en) * 2019-12-06 2022-11-01 Amazon Technologies, Inc. System and method of providing recovery for automatic speech recognition errors for named entities
US11741943B2 (en) 2020-04-27 2023-08-29 SoundHound, Inc Method and system for acoustic model conditioning on non-phoneme information features
CN113849792A (zh) * 2020-06-10 2021-12-28 瑞昱半导体股份有限公司 适于具有锁定功能的电子装置的电子组件及解除锁定方法
TWI790647B (zh) * 2021-01-13 2023-01-21 神盾股份有限公司 語音助理系統

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0607615B1 (de) 1992-12-28 1999-09-15 Kabushiki Kaisha Toshiba Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
US6226612B1 (en) 1998-01-30 2001-05-01 Motorola, Inc. Method of evaluating an utterance in a speech recognition system
US20020042713A1 (en) 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
KR20010113919A (ko) * 2000-03-09 2001-12-28 요트.게.아. 롤페즈 소비자 전자 시스템과의 대화 방법
EP2506252B1 (de) 2003-11-21 2019-06-05 Nuance Communications, Inc. Themenspezifische Modelle für die Textformatierung und Spracherkennung
US9253560B2 (en) 2008-09-16 2016-02-02 Personics Holdings, Llc Sound library and method
EP2531999A4 (de) 2010-02-05 2017-03-29 Nuance Communications, Inc. Sprachkontextbewusstes befehlssystem und verfahren dafür
US20120265533A1 (en) * 2011-04-18 2012-10-18 Apple Inc. Voice assignment for text-to-speech output
DE102012202391A1 (de) * 2012-02-16 2013-08-22 Continental Automotive Gmbh Verfahren und Einrichtung zur Phonetisierung von textenthaltenden Datensätzen
US9117449B2 (en) 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US9275411B2 (en) 2012-05-23 2016-03-01 Google Inc. Customized voice action system
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9542933B2 (en) 2013-03-08 2017-01-10 Analog Devices Global Microphone circuit assembly and system with speech recognition
US9361885B2 (en) * 2013-03-12 2016-06-07 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9697831B2 (en) 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9245527B2 (en) 2013-10-11 2016-01-26 Apple Inc. Speech recognition wake-up of a handheld portable electronic device
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
US20150221307A1 (en) 2013-12-20 2015-08-06 Saurin Shah Transition from low power always listening mode to high power speech recognition mode
US9940944B2 (en) 2014-08-19 2018-04-10 Qualcomm Incorporated Smart mute for a communication device
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9318107B1 (en) * 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812126B2 (en) * 2014-11-28 2017-11-07 Microsoft Technology Licensing, Llc Device arbitration for listening devices
US9779725B2 (en) 2014-12-11 2017-10-03 Mediatek Inc. Voice wakeup detecting device and method
EP3067884B1 (de) * 2015-03-13 2019-05-08 Samsung Electronics Co., Ltd. Spracherkennungssystem und spracherkennungsverfahren dafür
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
US10121471B2 (en) 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
TWI639153B (zh) * 2015-11-03 2018-10-21 絡達科技股份有限公司 電子裝置及其透過語音辨識喚醒的方法
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US20170178625A1 (en) 2015-12-21 2017-06-22 Jonathan Mamou Semantic word affinity automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9792900B1 (en) 2016-04-13 2017-10-17 Malaspina Labs (Barbados), Inc. Generation of phoneme-experts for speech recognition
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
KR102575634B1 (ko) * 2016-07-26 2023-09-06 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
US10217453B2 (en) * 2016-10-14 2019-02-26 Soundhound, Inc. Virtual assistant configured by selection of wake-up phrase
US10311876B2 (en) * 2017-02-14 2019-06-04 Google Llc Server side hotwording
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands

Also Published As

Publication number Publication date
CN111164675A (zh) 2020-05-15
TW201928949A (zh) 2019-07-16
US20190043481A1 (en) 2019-02-07
US10672380B2 (en) 2020-06-02
WO2019133153A1 (en) 2019-07-04
TWI802602B (zh) 2023-05-21

Similar Documents

Publication Publication Date Title
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
DE102019112380B4 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE102017125396B4 (de) Abfrage-Endpunktbestimmung auf Basis der Lippenerkennung
DE102018010463B3 (de) Tragbare Vorrichtung, computerlesbares Speicherungsmedium, Verfahren und Einrichtung für energieeffiziente und leistungsarme verteilte automatische Spracherkennung
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
DE202017106606U1 (de) Hotword-Erkennung auf der Server-Seite
DE102018127773A1 (de) Detektion eines akustischen Ereignisses basierend auf der Modellierung einer Sequenz von Ereignisunterabschnitten
CN104538024B (zh) 语音合成方法、装置及设备
US11862176B2 (en) Reverberation compensation for far-field speaker recognition
DE202016008226U1 (de) Das sichere Ausführen von Sprachfunktionen unter der Verwendung kontextabhängiger Signale
CN106104674A (zh) 混合语音识别
DE202017106363U1 (de) Neuronale Antwort-auf-Frage-Netze
DE202017105669U1 (de) Modalitätslernen an mobilen Vorrichtungen
DE212015000207U1 (de) Verbesserung der automatischen Spracherkennung basierend auf Benutzerrückmeldungen
DE112016002185T5 (de) Sprachaktivitätserkennung
DE202016008230U1 (de) Sprachwiedererkennung mit externen Datenquellen
CN107103903A (zh) 基于人工智能的声学模型训练方法、装置及存储介质
DE102019104304B4 (de) Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen
DE102019218259A1 (de) Ultraschallangriffsdetektion unter Verwendung von tiefem Lernen
DE102019109148A1 (de) Wake-on-voice-schlüsselphrasensegmentierung
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
CN112017650B (zh) 电子设备的语音控制方法、装置、计算机设备和存储介质
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
DE102016125141B4 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
R081 Change of applicant/patentee

Owner name: INTEL CORPORATION, SANTA CLARA, US

Free format text: FORMER OWNER: INTEL IP CORPORATION, SANTA CLARA, CALIF., US

R082 Change of representative

Representative=s name: HGF EUROPE LLP, DE

R081 Change of applicant/patentee

Owner name: INTEL CORPORATION, SANTA CLARA, US

Free format text: FORMER OWNER: INTEL CORPORATION (N. D. GES. D. STAATES DELAWARE), SANTA CLARA, CA, US