DE102019112380B4 - Verfahren und System zur robusten Sprechererkennungsaktivierung - Google Patents

Verfahren und System zur robusten Sprechererkennungsaktivierung Download PDF

Info

Publication number
DE102019112380B4
DE102019112380B4 DE102019112380.1A DE102019112380A DE102019112380B4 DE 102019112380 B4 DE102019112380 B4 DE 102019112380B4 DE 102019112380 A DE102019112380 A DE 102019112380A DE 102019112380 B4 DE102019112380 B4 DE 102019112380B4
Authority
DE
Germany
Prior art keywords
phrase
speaker
key
speaker recognition
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE102019112380.1A
Other languages
English (en)
Other versions
DE102019112380A1 (de
Inventor
Jonathan J. Huang
Tobias Bocklet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE102019112380A1 publication Critical patent/DE102019112380A1/de
Application granted granted Critical
Publication of DE102019112380B4 publication Critical patent/DE102019112380B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/10Multimodal systems, i.e. based on the integration of multiple recognition engines or fusion of expert systems

Abstract

Computerimplementiertes Verfahren (300) zur Sprechererkennungsaktivierung, welches Folgendes umfasst:Überwachen (302) eines erfassten Audiosignals eines von wenigstens einem Mikrofon erfassten Tons zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal,Überwachen (304) eines folgenden Nicht-Aufweckausdrucks im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck zur Erkennung wenigstens eines zusätzlichen Ziel-Schlüsselausdrucks im nachfolgenden Ausdruck,Anwenden (306) einer Sprechererkennung auf den nachfolgenden Ausdruck undErlauben (308) einer Anwendung, ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung,wobei beim Anwenden der Sprechererkennung auf den nachfolgenden Ausdruck abhängig davon, ob bei der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird.

Description

  • HINTERGRUND
  • Viele intelligente Computer oder Rechenvorrichtungen weisen Künstliche-Intelligenz(AI)-Assistenten (hier auch als virtuelle Assistenten (VA), Sprachassistenten (SA) oder persönliche Assistenten (PA) bezeichnet) auf, die bestimmte Schlüsselausdrücke von einem in ein Mikrofon an der Vorrichtung sprechenden Benutzer erkennen, um den PA aufzuwecken und dem PA dann Befehle bereitzustellen, die den PA anweisen, entweder eine Aufgabe auszuführen oder Informationen anzufordern. Solche beliebten Aufweckschlüsselausdrücke umfassen „Siri“ von Apple, „Alexa“, „Hey Alexa“ oder „Computer“ von Amazon, „Cortana“ von Microsoft, „Hey Google“ von Google und „Hi Bixby“ von Samsung. Diese Aufweckschlüsselausdrücke lösen ein automatisches Spracherkennungsprogramm aus, das den Befehl analysiert, so dass die Vorrichtung verstehen kann, welche automatische Aktion ansprechend auf den Befehl ausgeführt werden muss.
  • Zur Aktivierung bestimmter Hochsicherheitsaufgaben verwenden diese Aktivierungssysteme auch eine Sprechererkennung, wenn es wichtig ist, dass nur eine den Schlüsselausdruck äußernde autorisierte Person in der Lage ist, die Aufgabe zu aktivieren. Beispielsweise können solche Aufgaben das Öffnen eines Garagentors, das Zugreifen auf E-Mail oder das Vornehmen von Onlinekäufen einschließen. Die Sprechererkennung weist jedoch häufig Fehler auf, wenn Raumechos, Umgebungsgeräusche und/oder eine Medienwiedergabe von der Vorrichtung zur Verschlechterung der Audiosignale und damit wiederum der Sprechererkennungsgenauigkeit beitragen.
  • US 9,711,148 B1 offenbart ein Sprachverarbeitungssystem, das ein Audiosignal mit einem Ausspruch empfängt und feststellt, ob ein erster Teilbereich des Audiosignals zu einer Schlüsselphrase gehört. Das Verarbeitungssystem greift auf ein oder mehrere textabhängige mit der Schlüsselphrase verknüpfte Sprachmodelle zu und bestimmt eine erste Wahrscheinlichkeit, die angibt ob ein bestimmter Sprecher die Schlüsselphrase ausgesprochen hat. Für einen zweiten Teilbereich des Audiosignals bestimmt das System gemäß einem textunabhängigen Sprachmodell eine zweite Wahrscheinlichkeit, ob der bestimmte Sprecher den Ausspruch ausgesprochen hat. Basierend auf der ersten und der zweiten Wahrscheinlichkeit bestimmt das Sprachverarbeitungssystem, ob ein bestimmter Sprecher den Ausspruch ausgesprochen hat.
    US 2017/0351487 A1 beschreibt ein weiteres Sprachverarbeitungssystem, in dem ein erster und ein zweiter Spracherkennungsprozess auf einem ersten Teilbereich und einem zweiten Teilbereich durchgeführt wird, wobei der erste und der zweite Spracherkennungsprozess voneinander verschieden sind. Die Ergebnisse des ersten und zweiten Spracherkennungsprozesses werden kombiniert, um eine Wahrscheinlichkeit anzugeben, dass ein Benutzer, der den Ausspruch ausgesprochen hat, ein registrierter Nutzer im Sprachverarbeitungssystem ist.
  • Figurenliste
  • Das hier beschriebene Material dient als Beispiel und in den anliegenden Figuren in keiner Weise der Einschränkung. Aus Gründen der Einfachheit und Klarheit der Darstellung sind in den Figuren dargestellte Elemente nicht notwendigerweise maßstabsgerecht gezeichnet. Beispielsweise können die Abmessungen einiger Elemente aus Gründen der Klarheit in Bezug auf andere Elemente übertrieben sein. Ferner wurden, wo dies als angemessen angesehen wurde, Bezugszeichen zwischen den Figuren wiederholt, um entsprechende oder analoge Elemente anzugeben. Es zeigen:
    • 1 ein schematisches Flussdiagramm eines herkömmlichen Prozesses zur Sprechererkennungsaktivierung,
    • 2 ein schematisches Diagramm einer Audioverarbeitungsvorrichtung zur Ausführung einer robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 3 ein Flussdiagramm eines beispielhaften Prozesses zur robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementtionen,
    • 4 ein schematisches Flussdiagramm eines beispielhaften Prozesses zur robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 5 ein schematisches Flussdiagramm einer Registrierung von Stimmprofilen für den Prozess der robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 6 ein schematisches Flussdiagramm eines anderen beispielhaften Prozesses zur robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 7 ein schematisches Flussdiagramm eines anderen beispielhaften Prozesses zur robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 8 ein schematisches Flussdiagramm eines anderen beispielhaften Prozesses zur robusten Sprechererkennungsaktivierung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 8A ein Flussdiagramm eines beispielhaften Prozesses zur Unterbrechung der Verwendung der Sicherheitsschlüsselausdrucks-Sprechererkennung zugunsten einer Befehlsausdrucks-Sprechererkennung gemäß wenigstens einer der hier vorgestellten Implementationen,
    • 9 eine Graphik, welche Raten falscher Akzeptierungen und Raten falscher Ablehnungen von Sprechererkennungsausdrücken mit unterschiedlichen Längen vergleicht,
    • 10 ein erläuterndes Diagramm eines beispielhaften Systems zur Bereitstellung der hier beschriebenen robusten Sprechererkennungsaktivierung,
    • 11 ein erläuterndes Diagramm eines beispielhaften Systems und
    • 12 eine beispielhafte Vorrichtung, wobei alle gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet sind.
  • DETAILLIERTE BESCHREIBUNG
  • Eine oder mehrere Implementationen werden nun mit Bezug auf die anliegenden Figuren beschrieben. Wenngleich spezifische Konfigurationen und Anordnungen erörtert werden, ist zu verstehen, dass dies lediglich erläuternden Zwecken dient. Fachleute werden verstehen, dass andere Konfigurationen und Anordnungen verwendet werden können, ohne vom Gedanken und vom Geltungsbereich der Beschreibung abzuweichen. Fachleute auf dem relevanten Gebiet werden verstehen, dass hier beschriebene Techniken und/oder Anordnungen auch in einer Vielzahl anderer Systeme und Anwendungen als den hier beschriebenen eingesetzt werden können.
  • Wenngleich die folgende Beschreibung verschiedene Implementationen darlegt, die beispielsweise in Architekturen in der Art von System-auf-einem-Chip(SoC)-Architekturen manifestiert werden können, ist die Implementation der hier beschriebenen Techniken und/oder Anordnungen nicht auf bestimmte Architekturen und/oder Rechensysteme beschränkt, und sie können durch eine beliebige Architektur und/oder ein beliebiges Rechensystem für ähnliche Zwecke implementiert werden. Beispielsweise können verschiedene Architekturen, die beispielsweise mehrere Integrierte-Schaltung(IC)-Chips (einschließlich beispielsweise digitaler Signalprozessoren (DSP), zweckgebundener Hardware oder dergleichen) und/oder -Baugruppen verwenden, und/oder verschiedene Rechenvorrichtungen und/oder Endverbraucherelektronik(CE)-Vorrichtungen in der Art von intelligenten Lautsprechern, Smartphones oder anderen intelligenten Vorrichtungen, Tablets, Computern, Automobil-Audiotelefonsystemen, Gebäuderaumsicherheits- oder Umgebungssteuerungssystemen, Internet-der-Dinge(IoT)-Systemen, Settop-Boxen oder einer anderen Vorrichtung, die eine PA-Anwendung aufweist, die hier beschriebenen Techniken und/oder Anordnungen implementieren. Wenngleich die folgende Beschreibung ferner zahlreiche spezifische Einzelheiten in der Art von Logikimplementationen, Typen und Beziehungen zwischen Systemkomponenten, Wahlmöglichkeiten einer logischen Partitionierung/Integration usw. darlegen kann, kann der beanspruchte Gegenstand ohne diese spezifischen Einzelheiten verwirklicht werden. In anderen Fällen können einige Materialien in der Art beispielsweise von Steuerstrukturen und vollständigen Softwarebefehlssequenzen nicht detailliert dargestellt werden, um das hier offenbarte Material nicht unverständlich zu machen.
  • Das hier offenbarte Material kann in Hardware, Firmware, Software oder einer Kombination davon implementiert werden. Das hier offenbarte Material kann auch als auf einem maschinenlesbaren Medium gespeicherte Befehle implementiert werden, die durch einen oder mehrere Prozessoren gelesen und ausgeführt werden können. Ein maschinenlesbares Medium kann ein beliebiges Medium und/oder einen beliebigen Mechanismus zum Speichern oder Übertragen von Informationen in einer durch eine Maschine (beispielsweise eine Rechenvorrichtung) lesbaren Form einschließen. Beispielsweise kann ein maschinenlesbares Medium einen Nurlesespeicher (ROM), einen Direktzugriffsspeicher (RAM), Magnetplattenspeichermedien, optische Speichermedien, Flash-Speichervorrichtungen, elektrische, optische, akustische oder andere Formen übertragener Signale (beispielsweise Trägerwellen, Infrarotsignale, Digitalsignale usw.) und andere einschließen. In einer anderen Form kann ein nichtflüchtiger Artikel in der Art einer nichtflüchtigen Maschine oder eines nichtflüchtigen computerlesbaren Mediums mit beliebigen der vorstehend erwähnten Beispiele oder anderen Beispielen verwendet werden, abgesehen davon, dass darin an sich kein flüchtiges Signal enthalten ist. Er schließt diese Elemente abgesehen von einem Signal an sich ein, welche Daten vorübergehend in einer „flüchtigen“ Weise in der Art eines RAMs und dergleichen halten können.
  • In der Patentschrift auftretende Bezüge auf „eine einzige Implementation“, „eine Implementation“, „eine als Beispiel dienende Implementation“ usw. geben an, dass die beschriebene Implementation ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Charakteristik aufweisen kann, wobei jedoch nicht notwendigerweise jede Implementation das bestimmte Merkmal, die bestimmte Struktur oder die bestimmte Charakteristik aufweisen kann. Überdies beziehen sich solche Ausdrücke nicht notwendigerweise auf dieselbe Implementation. Ferner wird, wenn ein bestimmtes Merkmal, eine bestimmte Struktur oder eine bestimmte Charakteristik in Zusammenhang mit einer Implementation beschrieben wird, angenommen, dass Fachleute in der Lage sein werden, dieses Merkmal, diese Struktur oder diese Charakteristik in Zusammenhang mit anderen Implementationen zu verwirklichen, unabhängig davon, ob dies hier explizit beschrieben wird.
  • Verfahren, Systeme und Artikel einer robusten Sprechererkennungsaktivierung.
  • Wie erwähnt, werden viele moderne Vorrichtungen mit Sprachunterstützung mit Persönlicher-Assistent(PA)-Anwendungen bereitgestellt. Gewöhnlich erkennt eine Schlüsselausdruckserkennung(KPD)-Einheit oder -Engine einen Audio-Aufweckschlüsselausdruck in einem erfassten Audiosignal, wodurch das Aufwecken eines PA ausgelöst wird. Ein Wake-on-Voice(WoV)-System, das eine KPD-Engine verwendet, wacht beispielsweise auf, wenn es „Alexa“ hört. Der Benutzer kann auch hörbar einen Befehl bereitstellen, der eine Anforderung von Informationen vom PA oder eine Anforderung, dass der PA (oder das System mit dem PA) eine automatische Aktion ausführt, aufweist. Die korrekte Erkennung des Aufweckschlüsselausdrucks veranlasst eine automatische Spracherkennungsanwendung, den Befehl zu analysieren und festzustellen, was angefordert oder bestellt wird. Der PA oder andere durch den PA aktivierte Programme können dann die geeignete Antwort oder Aktion bereitstellen. Es ist zu verstehen, dass der Audio-Aufweckschlüsselausdruck andere Anwendungen (oder Computerprogramme) zusätzlich oder an Stelle eines PA auslösen kann, dass der PA jedoch als Beispiel zur Erklärung der hier bereitgestellten Implementationen verwendet wird. Es ist auch zu verstehen, dass die KPD von einem ASR mit großem Vokabular (LVASR) verschieden ist, weil die KPD anhand eines sehr kleinen Wörterbuchs oder nur einer bestimmten kleinen Anzahl von Schlüsselausdrücken trainiert wird, so dass verglichen mit bekannten ASR, die sehr große Vokabulare aufweisen, das Vergleichen von Merkmalen eines Eingangsaudiosignals mit Merkmalen von Schlüsselausdrücken die Zeit für das Suchen nach Wörtern und das Erkennen der Wörter stark verringert. Infolge der viel geringeren Vokabularanforderung der KPD hat sie ein viel kleineres akustisches Modell und einen einfacheren Decodierer, so dass sie einen immer eingeschalteten Betrieb unter Verwendung mit einem geringen Stromverbrauch arbeitender spezialisierter Hardware ermöglicht.
  • Es sei bemerkt, dass sich ein Schlüsselausdruck hier auf einen Ton, ein Phonem, einen Teil eines Worts, eine Silbe, ein Wort und/oder einen Ausdruck bezieht, der als separate Sprachentität verwendet werden kann, um ein Eingangssprechermerkmal mit einem modellierten Sprachprofil zu vergleichen, und der in von einem Benutzer gesprochenen Lautäußerungen wiederholt werden kann. Demgemäß ist der Begriff Schlüsselausdruck nicht nur auf einzelne individuelle Wörter oder nur eine Sammlung von Wörtern (beispielsweise einen Ausdruck) beschränkt.
  • Mit Bezug auf 1 und auch wie vorstehend erwähnt wurde, sei bemerkt, dass eine Sprechererkennung verwendet werden kann, um festzustellen, ob der Benutzer, der sowohl den Aufweckschlüsselausdruck als auch einen Befehl für einen PA äußert, autorisiert ist, die vom Befehl bestellte Aufgabe zu aktivieren, und dass der Prozess 100 die herkömmlichen Techniken zur Bereitstellung dieses höheren Sicherheitsniveaus des Schutzes bereitstellt. Beispielsweise kann ein bekanntes Hybridsystem verwendet werden, das sowohl eine textabhängige als auch eine textunabhängige Sprechererkennung verwendet. Zur Initialisierung des Systems äußert ein Vorrichtungsbenutzer einen Aufweckschlüsselausdruck zusammen mit einem Befehl in der Art von „Hey Alexa, öffne das Garagentor“, wodurch ein von einem oder mehreren Mikrofonen an der Vorrichtung erzeugtes erfasstes Audiosignal gebildet wird und was durch einen Aufweckschlüsselausdruckabschnitt 114 eines Spektrogramms des erfassten Audiosignals 102 repräsentiert ist. Das System führt eine Schlüsselausdruckserkennung (KPD) 104 aus und analysiert das Signal (oder hört) auf den Aufweckschlüsselausdruck. Dies kann durch eine KPD-Einheit (oder lediglich eine KPD für einen Schlüsselausdruckdetektor) ausgeführt werden, die hier auch als Wake-on-Voice(WoV)-System (oder -Engine oder -Einheit) bezeichnet wird.
  • Nach einer erfolgreichen Aufweckschlüsselausdruckserkennung wird der Aufweckschlüsselausdruck segmentiert und an eine textabhängige Sprechererkennungs(TD-SR)-Einheit oder -Engine übergeben, welche eine textabhängige Erkennung 106 ausführt, um einen oder mehrere Sprecherbewertungswerte zu bilden, welche die Wahrscheinlichkeit angeben, dass ein autorisierter Benutzer den Aufweckschlüsselausdruck geäußert hat. Dann kann der Befehlsteil des erfassten Audiosignals 116 oder das gesamte Signal mit dem Aufweckschlüsselausdruck zuzüglich des Befehls 118 durch Ausführen einer Spracherkennung 108 verarbeitet werden, so dass die Sprache im Signal geeignet segmentiert wird. Die segmentierte Sprache wird dann an eine textabhängige Spracherkennungs(TI-SR)-Einheit übergeben, um die TI-SR 110 auszuführen, um einen oder mehrere Sprecherbewertungswerte zu bestimmen, welche die Wahrscheinlichkeit angeben, dass der Befehl (oder die gesamte Lautäußerung) von einem autorisierten Benutzer gesprochen wurde. Danach können die Bewertungswerte zusammengeführt werden 112, um einen einzigen Bewertungswert oder einen einzigen Bewertungswertsatz zu bilden, der mit Kriterien verglichen wird, um schließlich festzustellen, ob ein autorisierter Sprecher den Aufweckschlüsselausdruck und -befehl geäußert hat. Falls dies der Fall ist, wird der Befehl von der Vorrichtung mit dem PA ausgeführt.
  • Es gibt mehrere Nachteile der herkömmlichen existierenden Sprechererkennungs-Aktivierungssysteme. Wie erwähnt, kann die Verschlechterung des Audiosignals durch Raumecho und Umgebungsgeräusche hervorgerufen werden, welche zu einer geringeren Genauigkeit bei der Sprechererkennung in Bezug auf falsche Akzeptierungen (Autorisierung des falschen Benutzers) oder falsche Ablehnungen (Ablehnung des autorisierten Benutzers) führen. Auch werden kurze Aufweckschlüsselausdrücke in der Art von „Hey Alexa“ unbeabsichtigt für schnelle, bequeme Benutzerinteraktionen ausgewählt. Selbst wenn die Schlüsselausdruckserkennung sehr robust für die Erkennung eines bestimmten Aufweckschlüsselausdrucks im Audiosignal (unabhängig vom Sprecher) ist, ist die Sprechererkennungsleistung typischerweise ungeeignet, weil es nicht genug phonetischen Inhalt im Aufweckschlüsselausdruck gibt (d. h. der Ausdruck zu kurz ist), so dass es eine ungenügende Datenmenge für eine genaue und zuverlässige Sprechererkennung gibt. Die Sprechererkennung beruht auf statistischen und probabilistischen Algorithmen und neuronalen Netzen zum Vergleich der spektralen Merkmale einer Lautäußerung mit dem registrierten Modell. Diese Algorithmen funktionieren besser, wenn die Länge der Testlautäußerung größer ist, wenn dieses phonetischere Material für einen Mustervergleichsalgorithmus.
  • Ferner besteht eine Hauptverwendung intelligenter Heimlautsprecher darin, dass abgespielte Musik oder andere Audiomedien vom intelligenten Lautsprecher emittiert werden. Dementsprechend haben die intelligenten Lautsprecher die Fähigkeit, auf Aufweckschlüsselausdrücke zu hören, während die Musik abgespielt wird. Wenn Musik auf der Vorrichtung abgespielt wird und der Schlüsselausdruck gesprochen wird, ist das Signal-RauschVerhältnis (SNR) jedoch sehr gering. Es wurde hier herausgefunden, dass die textabhängige Sprechererkennung bei Sprache mit der gleichen Länge genauer ist als die textunabhängige Sprechererkennung, so dass die Verringerung des SNR während der Äußerung des Aufweckschlüsselausdrucks (textabhängige SR) die besten Chancen für eine genauere Sprechererkennungsentscheidung reduziert (während die während des Befehls verwendete textunabhängige Sprechererkennung ohnehin eine geringere Genauigkeit aufweist). Dies liegt daran, dass TI-SR typischerweise viel längere Testlautäußerungen benötigt als die TD-SR, weil die TI-SR erheblich mehr Variabilität in den registrierten modellierten Stimmproben hat als die TD-SR. Demgemäß ergibt sich eine erhebliche Verschlechterung des wichtigsten Teils der Sprache, während Musik abgespielt wird. Auch kann sich das System selbst dann, wenn die Musik nach dem Aufweckschlüsselausdruck angehalten wird, so dass der Befehlsabschnitt der Sprache sauberer ist, zu sehr auf die TI-SR-Analyse des Befehls verlassen, welche wie erwähnt schon von Anfang an weniger genau ist als die TD-SR bei solchen kurzen Lautäußerungen, wodurch sich noch immer eine weniger genaue Sprechererkennung ergibt.
  • Es sei bemerkt, dass, wenngleich der Begriff Sprechererkennung (SR) gewöhnlich sowohl eine Sprecherüberprüfung (einen Vergleich mit mehreren Stimmen) (SV) als auch eine Sprecheridentifikation (eine Suche nach einer einzelnen Stimme) (SID) einschließt, diese drei Begriffe hier im allgemeinen Sinne verwendet werden, um irgendeinen Typ der Sprechererkennung zu bezeichnen, und zwar unabhängig davon, wie viele Stimmen registriert werden, und diese Begriffe können hier austauschbar verwendet werden.
  • Zur Lösung dieser Probleme sehen die hier vorgestellten Systeme und Verfahren einen Benutzerinteraktionsmechanismus vor, der eine erhöhte Länge der phonetisch beschränkten Sprache verwendet, um die Sprechererkennungsgenauigkeit zu verbessern. Insbesondere werden eine Schlüsselausdruckserkennung und eine textabhängige Sprechererkennung zusätzlich zur Aufweckschlüsselausdruckserkennung und Sprechererkennung eines Aufweckschlüsselausdrucks auf einen nachfolgenden Ausdruck angewendet. Dies hat die Wirkung, phonetisch beschränktere (textabhängige) Daten für eine genauere Sprechererkennung bereitzustellen, und es wurde herausgefunden, dass für Anwendungen mit höherer Sicherheit Benutzer eher gewillt sind, eine etwas längere Interaktion zu tolerieren, wenn in jedem Fall die Wahrnehmung einer größeren Sicherheit bereitgestellt wird. Der nachfolgende Ausdruck kann der Befehlsabschnitt oder -ausdruck (beispielsweise „Öffne das Garagentor“) nach dem Aufweckschlüsselausdruck (beispielsweise Alexa) eines erfassten Audiosignals sein. Andernfalls kann der nachfolgende Ausdruck ein Sicherheitsausdruck sein (er könnte beispielsweise ein „<Passwort>“ oder ein Ausdruck in der Art von „mein Name ist mein Passwort“ sein), und in diesem letztgenannten Fall tritt der eigentliche Befehlsausdruck für einen PA nach dem Sicherheitsausdruck im erfassten Audiosignal auf.
  • Auch stellt die Anwendung der textabhängigen Sprechererkennung auf mehrere Ausdrücke im erfassten Audiosignal mehrere Optionen in Bezug darauf bereit, wie eine endgültige Entscheidung zu treffen ist, ob der Sprecher des erfassten Audiosignals erkannt wird oder nicht. Beispielsweise können für ein noch größeres Sicherheitsniveau die Ergebnisse der Sprechererkennung von den verschiedenen Ausdrücken zusammengefügt werden, um ein einzelnes Ergebnis oder einen einzelnen Sprecherbewertungswert zu bilden, wodurch den Ergebnissen oder Bewertungswerten vom Aufweckschlüsselausdruck, vom Sicherheitsausdruck und vom Befehlsausdruck oder Kombinationen von diesen Rechnung getragen werden kann. In einer Form kann ein kaskadierender Prozess verwendet werden, wobei ein Bewertungswert eines ersten Sprechers oder Bewertungswerte eines ersten und eines zweiten Sprechers von den Aufweck- und Sicherheits-TD-SR-Operationen getestet werden, um festzustellen, ob die Bewertungswerte ein oder mehrere Kriterien erfüllen, und dann abhängig davon, ob die Bewertungswerte das Kriterium erfüllen, der Sprecherbewertungswert oder die Sprecherbewertungswerte des einen oder der mehreren restlichen Ausdrücke getestet werden können. Unter Verwendung dieser verschiedenen Zusammenfügungstechniken führen die offenbarten Lösungen zu einer viel höheren Sprechererkennungsvertrauensbewertung, wobei die Benutzererfahrung nur minimal beeinflusst wird.
  • Zusätzlich kann die Verwendung des Sicherheitsausdrucks lediglich vorübergehend sein. Insbesondere kann das System nach mehreren Interaktionen ein Wörterbuch üblicherweise verwendeter Befehle durch die Verwendung eines ASR-Systems lernen. KPD- und TD-SR-Modelle können für jeden solchen Befehl oder einzelne Schlüsselausdrücke oder -wörter in den Befehlen implizit trainiert werden. Falls das System beispielsweise „Öffne die Garage“ mehrere Male beobachtet, kann es ein TD-Modell für diesen Befehl bilden. Im Laufe der Zeit kann der Sicherheitsausdruck aus der Interaktion entnommen werden, wenn das System die üblichen Befehle lernt, die gewöhnlich beispielsweise in einem Haushalt oder einem Büro verwendet werden, was zur normalen Benutzerinteraktion des Aufweckschlüsselausdrucks gefolgt vom Befehlsausdruck führt. Das System kann den Benutzer dann darüber informieren, dass es beim nächsten Mal, in dem ein solcher Befehl erwünscht ist, nicht erforderlich ist, den Sicherheitsausdruck auszusprechen.
  • Ferner kann zur Verringerung der durch die Medienwiedergabe hervorgerufenen unerwünschten Verschlechterung des Audios die Medienwiedergabe sofort unterbrochen werden, sobald der Aufweck(oder WoV)-Schlüsselausdruck erkannt wird, so dass der Sicherheitsausdruck mit minimalen Geräuschen erfasst werden kann. Die Kombination eines längeren Ausdrucks und des Fehlens des Wiedergabegeräusches verbessert die Sprechererkennungsleistung erheblich. Auch werden die Fehlerraten gegenüber den herkömmlichen Sprechererkennungs-Aktivierungssystemen erheblich verringert, weil TD-SR-Operationen an Stelle von TI-SR-Operationen am Befehls- und/oder Sicherheitsausdruck verwendet werden können. Demgemäß führen diese offenbarten Lösungen unter vielen Szenarien zu einer viel besseren Sprechererkennungsleistung bei minimalen Beeinträchtigungen für den Benutzer. Weitere Einzelheiten und andere Variationen werden nachstehend bereitgestellt.
  • Mit Bezug auf 2 sei bemerkt, dass eine Audioverarbeitungsvorrichtung oder ein Audioverarbeitungssystem 200 die hier beschriebenen Implementationen ausführt. Insbesondere führt die Audioverarbeitungsvorrichtung 200 eine sehr sichere Spracherkennungsaktivierung für eine Persönlicher-Assistent(PA)-Anwendung oder andere Anwendungen aus. Die Vorrichtung 200 kann eine beliebige geeignete Audiorechenvorrichtung in der Art eines Computers, eines intelligenten Lautsprechers, eines persönlichen Sprachassistenten, eines Laptops, eines Ultrabooks, eines Smartphones, eines Tablets, eines Phablets, einer tragbaren Vorrichtung in der Art einer Smartwatch oder eines Wristbands, einer Brille, eines Kopfhörers, einer Sicherheitssystemvorrichtung, ob für die physische Sicherheit von etwas (beispielsweise einer Tür, eines Safes usw.) oder ein Computersicherheitssystem (beispielsweise E-Mail, Netz oder Computerzugang) und dergleichen sein.
  • Die Audioverarbeitungsvorrichtung 200 kann ein Mikrofon oder ein Mikrofon-Array 202 aufweisen, das Schallwellen von einem Benutzer 201 empfängt und eine Audioausgabe von einem oder mehreren Lautsprechern 226 einer Wiedergabeeinheit 224 aufweisen könnte. Das Mikrofon 202 stellt einer Vorverarbeitungseinheit 204 ein erfasstes Audiosignal und/oder erfasste Audiodaten bereit. Die Vorverarbeitungseinheit 204 kann das vorverarbeitete Audiosignal oder die vorverarbeiteten Audiodaten wenigstens einer Schlüsselausdrucks-Erkennungseinheit 206 mit einer Sprachmodelleinheit 210, wenigstens einer Sprachsegmentierungseinheit 214 und/oder wenigstens einer ASR-Einheit 230 mit einem oder mehreren Sprachmodellen 232 bereitstellen. Die Vorrichtung 200 kann auch wenigstens eine TD-SR-Einheit 208 mit einem oder mehreren Sprechermodellen 212 aufweisen, die aktiviert wird, wenn die KPD-Einheit 206 Schlüsselausdrücke findet. Auch kann wenigstens eine textunabhängige Sprechererkennungs-TI-SR-Einheit 216 mit einem oder mehreren Sprechermodellen 218 arbeiten, wenn ihr durch die Sprachsegmentierungseinheit 214 eine Sprachsegmentierung eines Audiosignals bereitgestellt wird. Eine Zusammenfügungseinheit 220 kann die Ergebnisse von Sprecherbewertungswerten der verschiedenen Sprechererkennungseinheiten empfangen und die Sprecherbewertungswerte dann einer Sprechererkennungseinheit 228 bereitstellen. Eine Hochsicherheits-Autorisierungseinheit 234 kann von der ASR-Einheit 230 erkannte Wörter verwenden, um festzustellen, ob eine Sprecherautorisierung für einen bestimmten von einem Benutzer empfangenen Befehl erforderlich ist. Optional kann auch eine Sicherheitsausdruck-Steuereinheit 240 aufgenommen sein, um festzustellen, wann ein TD-SR-Modell ausreichend entwickelt ist, so dass der Sicherheitsausdruck nicht mehr verwendet werden muss, und sie kann die Information des Benutzers über diesen Zustand des Systems einleiten.
  • Die Wiedergabeeinheit 212, die sich hier auf derselben Vorrichtung 200 befindet, kann Audio einschließlich Medien in der Art von Musik, Film-Soundtracks, Radio, Audio von Internetvideos usw. emittieren. Es ist zu verstehen, dass sich die Wiedergabeeinheit 212 auf einer Vorrichtung befinden kann, die von der aktuellen Vorrichtung getrennt ist, welche das erfasste Audiosignal empfängt und analysiert. Die Wiedergabeeinheit 212 könnte beispielsweise von der aktuellen Vorrichtung ferngesteuert werden. Das Audiosignal kann von einem oder mehreren der Lautsprecher 226 emittiert werden.
  • Das Mikrofon oder Mikrofon-Array 202 empfängt eine Audioeingabe oder Schallwellen von einem Benutzer 201 und dem einen oder den mehreren Lautsprechern 226. Das Mikrofon 202 ist in Bezug auf den Aufbau nicht besonders beschränkt, solange es die Schallwellen verarbeiten kann und sie in das erfasste Audiosignal umwandeln kann. Dieses kann einen Analog-DigitalWandler (ADC) aufweisen, oder dieser ADC-Wandler kann von einer der anderen Einheiten an der Vorrichtung 200 in der Art der Vorverarbeitungseinheit 204 bereitgestellt werden. Bei einer Form kann das Mikrofon 202 einen Strahlformer zur Verringerung von Hintergrundgeräuschen und Echos aufweisen, um Raumechos abzuschwächen.
  • Die Vorverarbeitungseinheit 204 kann eine ausreichende Vorverarbeitung des erfassten Audiosignals ausführen, um eine Sprechererkennung und Schlüsselausdruckserkennung auszuführen, wie hier beschrieben. Die Vorverarbeitung kann auch andere Rauschentfernungen und andere Signalbehandlungen einschließen. Die Vorverarbeitung kann auch das Erhalten von Abtastwerten des erfassten Audiosignals für die Analyse und für eine festgelegte Abtastfrequenz einschließen, die beispielsweise während der Merkmalsextraktion Abtastwert für Abtastwert zu analysieren sind.
  • Das vorverarbeitete erfasste Audiosignal kann dann der Schlüsselausdruckserkennungs(KPD)-Einheit 206 bereitgestellt werden, um Auslöse- oder Ziel-Schlüsselausdrücke im erfassten Audiosignal, wie im einen oder in den mehreren Sprachmodellen 210 modelliert, zu erkennen. Falls sie nicht bereits durch die Vorverarbeitung ausgeführt wurde, kann die KPD-Einheit 206 eine Merkmalsextraktion ausführen, die das Signal in den Frequenzbereich (beispielsweise unter Verwendung einer schnellen Fouriertransformation (FFT)) umwandelt und die Abtastwerte zu Frames formt. Die Merkmalsextraktion kann dann Merkmalskoeffizienten oder Merkmalsvektoren pro Frame beispielsweise in Form von Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) oder Mel-Filterbankkoeffizienten bereitstellen. Bei einer Option könnte eine geteilte Merkmalsextraktionseinheit bereitgestellt werden, und die KPD-Einheit 206, die Segmentierungseinheit 214 und die Sprechererkennungseinheiten 208 und 216 könnten alle die gleichen Merkmale vom erfassten Audiosignal und für die verschiedenen Operationen verwenden.
  • Die Schlüsselausdrucks-Erkennungseinheit 206 kann dann eine Modellbewertung beispielsweise unter Verwendung neuronaler Netze ausführen. Das System berechnet Merkmale, beispielsweise MFCC, an 25-ms-Segmenten mit einer zeitlichen Verschiebung von 10 ms. Frame-weise akustische Bewertungswerte werden dann von einem neuronalen Netz berechnet, und diese Bewertungswerte werden während eines Decodierprozesses kombiniert, um einen endgültigen Schlüsselausdrucks-Bewertungswert zu bilden. Die endgültige Entscheidung beruht dann auf einer Schwelle. Ein solcher Prozess ist im am 24. November 2015 eingereichten und am 17. Oktober 2017 erteilten US-Patent 9 792 907 offenbart, das hier für alle Zwecke aufgenommen ist.
  • Die Schlüsselausdruckserkennung durch die KPD-Einheit 206 kann in verschiedenen Stadien angewendet werden. Zuerst wird die KPD-Einheit 206 verwendet, um Aufweckschlüsselausdrücke in einem WoV-Modus zu erkennen. Dann kann die KPD 206 verwendet werden, um Sicherheitsschlüsselausdrücke in einem Sicherheitsausdruck zu erkennen und anschließend zusätzliche Schlüsselausdrücke in einem Befehlsausdruck zu erkennen, wenn die Sprachmodelle 210 für diese Erkennung eingerichtet sind. Falls der Aufweckschlüsselausdruck existiert, wird hierdurch das Aufwecken einer ASR-Einheit 230 eines PA zur Bestimmung der Bedeutung eines bevorstehenden Befehls ausgelöst. Dies aktiviert auch die TD-SR-Einheit 208, eine Sprechererkennung auf den erkannten Aufweckschlüsselausdruck anzuwenden, um den Sprecher des Aufweckschlüsselausdrucks zu bestimmen. Falls dann ein Sicherheitsausdruck verwendet wird, wiederholen die KPD-Einheit und die TD-SR-Einheit den Schlüsselausdrucks- und Sprechererkennungsprozess für den Sicherheitsausdruck. An Stelle des Sicherheitsausdrucks oder nach der Sicherheitsausdrucksanalyse überwacht die KPD-Einheit 206 das erfasste Audiosignal auf Befehlsschlüsselausdrücke in einem Befehlsausdruck. Falls keiner erkannt wird, verwendet die Vorrichtung 200 die Sprachsegmentierungseinheit 214 zur Segmentierung des Signals in Sprach- und Nicht-Sprach-Teile und veranlasst dann die TI-SR-Einheit 208, eine textunabhängige Sprechererkennung auf das Signal anzuwenden. Falls die Befehlsschlüsselausdrücke von der KPD-Einheit 206 erkannt werden, kann die TD-SR stattdessen von der TD-SR-Einheit 208 angewendet werden.
  • Die Zusammenfügungseinheit 220 kann jedes der Sprecherergebnisse oder -bewertungswerte empfangen, um sie zu einem einzigen Bewertungswert (oder einzigen Satz von Bewertungswerten) oder anderen Ergebnissen zusammenzufügen. Ein zusammengefügter Sprecherbewertungswert oder ein zusammengefügtes Sprecherergebnis kann eine gewichtete Summe oder eine klassifizierungsbasierte Zusammenfügung sein (auf der Grundlage wenigstens teilweise eines tiefen neuronalen Netzes (DNN), einer Support Vector Machine (SVM), einer logistischen Regression, anderer Maschinenlernalgorithmen oder dergleichen). Die zusammengefügten Bewertungswerte (oder Ergebnisse) können dann durch die Sprechererkennungseinheit 228 mit einem oder mehreren Kriterien verglichen werden. Dies kann das Vergleichen der zusammengefügten Sprecherbewertungswerte mit Schwellen einschließen, die für spezifische falsche Akzeptierungsraten oder falsche Ablehnungsraten einer Anwendung festgelegt werden können.
  • Mittlerweile kann die ASR-Einheit 230, falls dies nicht bereits automatisch von der KPD-Einheit 206 einfach anhand der Tatsache, welche Wörter erkannt wurden, bestimmt wurde, die Angabe bereitstellen, welche Wörter, welcher Ausdruck und/oder welcher Satz beispielsweise im Befehl erkannt wurde, so dass die Hochsicherheits-Autorisierungseinheit 234 entscheiden kann, ob der aktuelle Befehl für die Verarbeitung eine sehr sichere Sprechererkennung erfordert. Falls dies nicht der Fall ist (der Befehl ist kein Sicherheitsbefehl, wie „Gib mir die heutige Wettervorhersage“), ist die angegebene Anwendung frei, den Befehl auszuführen. Falls es sich um einen Hochsicherheitsbefehl handelt („Öffne das Garagentor“), wird die Sprecherentscheidung erhalten, um festzustellen, ob der Befehl durch die Erkennung eines autorisierten Sprechers autorisiert wurde.
  • Zur Ausführung der Sprechererkennung führen die Sprechererkennungseinheiten 208 und 216 zuerst eine Merkmalsextraktion aus, falls diese nicht bereits ausgeführt wurde, wie vorstehend erwähnt, und sie führen dann eine Modellbewertung aus. Dies wird dadurch erreicht, dass die Sprechererkennungseinheiten 208 und 216 veranlasst werden, registrierte Sprachprofile mit den anhand des erfassten Audiosignals erhaltenen Merkmalen zu vergleichen, welche in Form von Merkmalsrepräsentationen in der Art von Merkmalsvektoren vorliegen können. Die Sprachprofile können wie erwähnt vorab in einem oder mehreren Sprechermodellen 212 oder 218 registriert worden sein.
  • Wie auch erwähnt wurde, überwacht eine Sicherheitsausdrucks-Ein/Aus-Steuereinheit 240 die Registrierung des Sprechermodells für den Befehlsausdruck. Bei einer Form wird die ASR auf die Befehlsausdrücke angewendet, wenn erfasste Audiosignale analysiert werden, um ein Wörterbuch vollständiger Befehlsausdrücke oder der einzelnen Schlüsselausdrücke oder -wörter in den Befehlsausdrücken zu bilden. Sobald die Sicherheitsausdrucks-Ein/Aus-Steuereinheit 240 feststellt, dass eine ausreichende Abdeckung der gewöhnlichen Befehle im Sprechermodell registriert wurde, kann die Sicherheitsausdrucks-Ein/Aus-Steuereinheit 240 angeben, dass der Sicherheitsausdruck nicht mehr benötigt wird, und dies dem Benutzer angeben, beispielsweise durch eine hörbare Ankündigung durch Lautsprecher 226. Anschließend kann die Überwachung auf den Sicherheitsausdruck aus dem Sprechererkennungs-Aktivierungsprozess entnommen werden. Es sei hier bemerkt, dass sich die ASR im Gegensatz zur KPD gewöhnlich auf den vollständigen ASR-Prozess mit vorgeschalteter Merkmalsextraktion, akustischer Bewertung, Decodierung beispielsweise durch gewichtete Finite-State-Wandler (WFST) oder neuronale Netze und dann eine Sprachinterpretation bezieht, wenngleich auch Variationen oder verschiedene Typen von ASR angewendet werden könnten.
  • Wenngleich die Vorrichtung 200 als die Schlüsselausdrucks-Erkennungseinheit 206, die Sprechererkennungseinheit 208, das Sprechermodell 210 und die Wiedergabeeinheit 212 aufweisend beschrieben wurde, ist zu verstehen, dass sich jegliche oder alle dieser Einheiten, ob es sich dabei um die gesamte Einheit oder lediglich Teile dieser Einheiten handelt, tatsächlich physisch getrennt von der Vorrichtung 200 befinden können, welche die Mikrofone 202 aufweist und das erfasste Audiosignal zuerst erzeugt. Diese Einheiten sind wenigstens kommunikativ mit den anderen Einheiten der Vorrichtung 200 verbunden, um das erfasste Audiosignal zu empfangen, die Schlüsselausdruckserkennung und/oder Sprechererkennung auszuführen und die Ergebnisse dann beispielsweise zur physischen Vorrichtung 200 zurückzusenden. Demgemäß können sich diese Einheiten an einem Server befinden, der über ein Netz in der Art eines Weitbereichsnetzes oder des Internets oder eines anderen Netzes in der Art beispielsweise eines lokalen Netzes (LAN) kommuniziert.
  • Mit Bezug auf 3 sei bemerkt, dass ein beispielhafter Prozess 300 einer robusten Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 300 kann eine oder mehrere Operationen 302 - 308 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 300 oder Teile davon können von einer hier beschriebenen Vorrichtung oder einem hier beschriebenen System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Der Prozess 300 kann das „Überwachen eines erfassten Audiosignals des von wenigstens einem Mikrofon erfassten Tons zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal“ 302 aufweisen. Das erfasste Audiosignal bezieht sich auf die von einem oder mehreren Mikrofonen erhaltenen analogen oder digitalen Audiodaten. Dieser Vorgang umfasst die Erkennung eines Aufweckschlüsselausdrucks (oder nimmt an, dass dies geschehen ist), und es wird nun wenigstens der Aufweckschlüsselausdruck analysiert, um den Sprecher des Aufweckschlüsselausdrucks zu bestimmen. Wie hier beschrieben, kann dies unter Verwendung einer textabhängigen Sprechererkennung (TD-SR) geschehen, es könnten jedoch auch andere Techniken verwendet werden.
  • Der Prozess 300 kann das „Überwachen eines nicht aufweckenden nachfolgenden Ausdrucks im erfassten Audiosignal, der dem Aufweckschlüsselausdruck folgt, um wenigstens einen zusätzlichen Ziel-Schlüsselausdruck im nachfolgenden Ausdruck zu erkennen“ 304 aufweisen. Hier kann dieser Vorgang ausgelöst werden, weil die Erkennung des Aufweckschlüsselausdrucks und eines nachfolgenden Ausdrucks entweder in Form eines Befehlsausdrucks oder eines hinzugefügten Sicherheitsausdrucks, der nach dem Aufweckausdruck aber vor einem Befehlsausdruck im erfassten Audiosignal kommt, erwartet wird. Es wird entweder der Sicherheitsausdruck oder der Befehlsausdruck überwacht, um festzustellen, ob er einen zusätzlichen Ziel-Schlüsselausdruck (einen Sicherheitsschlüsselausdruck oder einen Befehlsschlüsselausdruck) aufweist. Bei einer optionalen Form wird die Schlüsselausdruckserkennung sowohl auf den Sicherheitsausdruck als auch auf den Befehlsausdruck angewendet.
  • Der Prozess 300 kann das „Anwenden einer Sprechererkennung auf den nachfolgenden Ausdruck“ 306 aufweisen, und es wird insbesondere TD-SR auf den nachfolgenden Ausdruck, ob es sich dabei um den Sicherheitsausdruck oder den Befehlsausdruck handelt, angewendet. Dies kann auf eine Anzahl verschiedener Arten geschehen. Wie hier an anderer Stelle beschrieben, kann dies zuerst durch Ausführen eines vorläufigen Offline-Registrierungsvorgangs zur Bildung eines Sprechermodells für den nachfolgenden Ausdruck geschehen. Bei einer anderen Option kann eine Laufzeit-Online-Registrierung ausgeführt werden, um ein Wörterbuch für ein TD-SR-Sprechermodell zu bilden, und kann das Sprechermodell dann beispielsweise für den Befehlsausdruck trainiert werden. Wenn der Sicherheitsausdruck anfänglich für die Sprechererkennung analysiert wird, kann der Sicherheitsausdruck fortgelassen werden, sobald das Sprechermodell für den Befehlsausdruck ausreichend trainiert wurde.
  • Bei anderen Optionen umfasst das Anwenden einer Sprechererkennung auf den nachfolgenden Ausdruck das alternative Ausführen einer textabhängigen Sprechererkennung oder einer textunabhängigen Sprechererkennung abhängig davon, ob die Schlüsselausdruckserkennung wenigstens einen der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck findet. Wenn der zusätzliche Schlüsselausdruck gefunden wird, wird die TD-SR angewendet, wenn der zusätzliche Schlüsselausdruck jedoch nicht gefunden wird, wird die TI-SR angewendet. Viele andere Optionen werden nachstehend erörtert.
  • Der Prozess 300 kann das „Erlauben einer Anwendung, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln“ 308 aufweisen. Bei einem Ansatz umfasst dies das Zusammenfügen der SR-Ergebnisse (oder Sprecherbewertungswerte) zur Bildung eines einzelnen Ergebnisses, das mit einem oder mehreren Kriterien in der Art von Schwellen zu vergleichen ist, um festzustellen, ob der Sprecher des erfassten Audiosignals erkannt wurde (d. h. ob die Eingangsstimme mit wenigstens einem Stimmprofil der Sprechermodelle ausreichend übereinstimmt). Dies kann auch das Zusammenfügen dreier SR-Ergebnisse, einschließlich anhand des Aufweckschlüsselausdrucks, des Sicherheitsschlüsselausdrucks und des Befehlsschlüsselausdrucks, zur Bildung eines einzigen Bewertungswerts (oder Satzes von Bewertungswerten), umfassen. Sobald der Sprecher erkannt wurde (oder nicht), kann festgestellt werden, ob es eine Anwendung zu erlauben ist, einen Hochsicherheitsbefehl auszuführen. Andere Einzelheiten sind nachfolgend angegeben.
  • Mit Bezug auf 4 sei bemerkt, dass ein beispielhafter Prozess 400 einer robusten Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 400 kann eine oder mehrere Operationen 402 - 416 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 400 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Für den Prozess 400 umfasst ein erfasstes Audiosignal einen hörbaren Aufweckschlüsselausdruck 418 („Hey <PA>“, wobei <PA> beispielsweise Alexa sein kann), gefolgt von einem nachfolgenden Ausdruck, der hier ein Befehlsausdruck ist („Öffne das Garagentor“) 420. Die Erfassung des erfassten Audiosignals ist durch ein Spektrogramm 402 repräsentiert. Der Befehlsausdruck 420 ist einer, der eine Hochsicherheitsautorisierung erfordert und daher eine Sprechererkennungsautorisierung erfordert. Die Feststellung, dass der Befehlsausdruck eine Hochsicherheitsautorisierung erfordert, kann durch Finden bestimmter Wörter (beispielsweise „Öffne“ und „Garage“) oder ganze Ausdrücke (beispielsweise „Öffne die Garage“) im Befehlsausdruck durch Anwenden der ASR auf den Befehlsausdruck oder durch Anwenden der Schlüsselausdruckserkennung auf den Befehlsausdruck geschehen. Diese Feststellung kann vor, nach oder parallel zu einer Sprechererkennungsbestimmung geschehen.
  • Im Einzelnen wird die Aufweck-KPD durch Überwachen des erfassten Audiosignals auf einen Aufweckschlüsselausdruck ausgeführt 404. Falls der Aufweckschlüsselausdruck gefunden wird (eine positive Erkennung), wird die TD-SR auf den Aufweckschlüsselausdruck angewendet 406, um einen Bewertungswert zu bestimmen oder ein anderes SR-Ergebnis bereitzustellen, das die Wahrscheinlichkeit angibt, dass der Aufweckschlüsselausdruck von einer automatisch erkennbaren Stimme gesprochen wurde.
  • Als nächstes kann im Fall des Prozesses 400 das auf einen Befehlsausdruck angewendete herkömmliche Spracherkennungs- und TI-SR-System, abhängig von der Befehlsschlüsselausdruckserkennung, durch KPD (in der Art von WoV) gefolgt von TD-SR ersetzt werden. Insbesondere werden dann, wenn der Aufweckschlüsselausdruck erkannt wurde, ein oder mehrere befehlsspezifische KPD-Modelle, wobei mehr als ein Sprechermodell parallel verarbeitet werden kann, sowie eine Sprache/Nicht-Sprache-Erkennungs-Engine geladen. Bei diesem Beispiel wird, wenn die KPD am Befehlsausdruck ausgeführt wird 408 und ein positiver KPD-Auslöser (Befehlsschlüsselausdruck) gefunden wird, die TD-SR ausgeführt 410, um einen Sprecherbewertungswert oder andere Ergebnisse für den Befehlsausdruck zu bestimmen. Wenn kein Befehlsschlüsselausdruck gefunden wird, wird jedoch stattdessen die Spracherkennung ausgeführt 412, und die ausgewählten Audio-Snippets mit Sprache werden an eine TI-SR-Engine oder -Einheit weitergeleitet. Die TI-SR wird ausgeführt 414, um den Sprecher des Befehlsausdrucks zu erkennen 420. Bei einer Form können die Befehls-KPD plus TD-SR und die Befehlsspracherkennung und TI-SR parallel ausgeführt werden, um Verzögerungen zu vermeiden, und der geeignete Sprecherbewertungswert der beiden wird abhängig davon, ob die Befehls-KPD die zusätzlichen Schlüsselausdrücke erkannt hat, für die Zusammenfügung verwendet.
  • Der Sprecherbewertungswert (oder ein anderes Ergebnis) des Aufweckschlüsselausdrucks sowie der Sprecherbewertungswert entweder der TD-SR oder der TI-SR des Befehlsausdrucks werden dann zusammengefügt 416, um einen einzigen Sprecherbewertungswert oder andere Ergebnisse (oder einen einzigen Satz davon) zu bilden, wodurch die Wahrscheinlichkeit angegeben wird, dass ein Sprecher das erfasste Audiosignal äußert. Wie vorstehend erwähnt, können eine Gewichtung, neuronale Netze, Lernmaschinen-Klassifizieralgorithmen usw. verwendet werden, um einen zusammengefügten Sprecherbewertungswert oder zusammengefügte Ergebnisse zu bilden.
  • Dieser zusammengefügte Sprecherbewertungswert oder dieses zusammengefügte Ergebnis kann dann beispielsweise eine Entscheidungseinheit für eine endgültige Bestimmung, ob das erfasste Audiosignal von einem erkannten Sprecher gesprochen wurde, bereitgestellt werden. Die Entscheidungseinheit kann den Sprecherbewertungswert mit einer oder mehreren Schwellen vergleichen oder auf andere Weise den zusammengefügten Sprecherbewertungswert analysieren, um die endgültige Bestimmung vorzunehmen.
  • Es ist zu verstehen, dass dieser Prozess fortgesetzt und wiederholt werden kann, solange ein erfasstes Audiosignal empfangen wird.
  • Was die Registrierung der Stimmprofile für die Sprechermodelle betrifft, die für die Sprechererkennung zu verwenden sind, kann bei einer Form ein vorläufiger Registrierungsvorgang ausgeführt werden, der einen Benutzer registriert, der Wörter oder Ausdrücke äußert, welche in Aufweckschlüsselausdrücken oder Befehlsschlüsselausdrücken (und/oder Sicherheitsschlüsselausdrücken, wie nachstehend beschrieben) zu äußern sind. Für die textabhängige Sprechererkennung wird dem Benutzer gesagt, erwartete Schlüsselausdrücke zu äußern. Für die textunabhängige Sprechererkennung wird dem Benutzer gesagt, während einer bestimmten Zeit in der Art von 1 bis 2 Minuten zu sprechen, wobei es sich um einen zufälligen Satz oder Ausdruck handeln kann, der einen grammatischen Sinn ergibt oder aus zufälligen Wörtern bestehen könnte, jedoch in jedem Fall noch ein oder mehrere mögliche Auslöseschlüsselwörter enthalten kann. Auch kann die Registrierung für eine Anzahl verschiedener Stimmen wiederholt werden, beispielsweise für jedes Mitglied in einer Familie beispielsweise in einem Heim.
  • Der Registrierungsprozess kann auch eine Merkmalsextraktion zum Extrahieren akustischer Merkmale anhand eines von den Mikrofonen empfangenen Registrierungssignals aufweisen, und die sich ergebenden Merkmalsrepräsentationen werden dann zur Bildung von Sprechermodellen 510 verwendet. Die Merkmale können Repräsentationen in der Art von Spektrogrammen, Mel-Frequenz-Cepstrum-Koeffizienten (MFCC), perzeptuellen Lineare-Prädiktion(PLP)-Cepstrum-Koeffizienten oder Mel-Filterbankkoeffizienten sein. Typischerweise werden diese Merkmale niederer Ebene in einen Maschinenlernalgorithmus in der Art eines neuronalen Netzes, i-Vektor oder GMM-Supervektor usw. eingegeben, um eine Repräsentation zu erhalten, die für die Sprechererkennung besser geeignet ist. Schließlich wird ein nachgestellter Klassifizierer in der Art einer Support Vector Machine (SVM), einer probabilistischen linearen Diskriminationsanalyse (PLDA), einer logistischen Regression oder dergleichen verwendet, um die abschließende Bewertung auszuführen. Alternativ kann an Stelle eines nachgeschalteten Klassifizierers eine Kosinusabstandsberechnung zwischen Registrierungs- und Test-Lautäußerungen verwendet werden. Der Prozess kann für eine Anzahl beispielhafter Lautäußerungen wiederholt werden, um eine hohe Genauigkeit zu erhalten.
  • Mit Bezug auf 5 wird ein alternativer Registrierungsprozess 500 bereitgestellt, um die Genauigkeit einer robusten Sprechererkennungsaktivierung für einen bestimmten Benutzer zu erhöhen und insbesondere um die Sprechermodelle für die Sprechererkennung zusätzlicher Schlüsselausdrücke im Befehlsausdruck zu erzeugen, welcher gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 500 kann eine oder mehrere Operationen 502 - 512 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 500 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Insbesondere zeigt der Prozess 500 ein Beispiel eines Online-, Laufzeit-, textabhängigen Stimmregistrierungsprozesses unter Verwendung der gleichen Inhalte eines erfassten Audiosignals, wie sie beim Prozess 400 verwendet werden, wobei hier ein Befehlsausdruck 514 registriert wird, nachdem ein Aufweckschlüsselausdruck 516 erkannt wurde. Ein Spektrogramm 502 repräsentiert die Erfassung des erfassten Audiosignals.
  • Dieser Prozess kann implementiert werden, nachdem die TD-SR mit starken positiven Ergebnissen auf den Aufweckschlüsselausdruck angewendet wurde, so dass die Stimme, welche den Aufweckschlüsselausdruck spricht, als von einem für Befehle autorisierten Benutzer kommend erkannt wird. Eine starke Sprechererkennung des Aufweckschlüsselausdrucks kann die Online-Befehlsausdrucks-Sprecherregistrierung auslösen, wenngleich auch andere Auslöser verwendet werden könnten.
  • Sobald der Aufweckschlüsselausdruck identifiziert wurde, wird eine Spracherkennung ausgeführt 504, um die TI-SR des Befehlsausdrucks vorzubereiten, weil vermutlich noch kein arbeitendes TD-SR-Sprechermodell eingerichtet wurde. Es kann jedoch auch auf die segmentierten Sprachteile des Befehlsausdrucks zugegriffen werden, um die ASR 506 auf die segmentierten Befehlsausdruckteile anzuwenden. Die erkannten Wörter oder Ausdrücke können gesammelt werden, um ein Wörterbuch möglicher Befehlsschlüsselausdrücke in Zusammenhang mit dieser spezifischen Person, welche das erfasste Audiosignal geäußert hat, zu bilden 508 und es für die textabhängige Sprechererkennung zu verwenden. Sobald das System den gleichen Ausdruck mit einer eine Schwelle überschreitenden Häufigkeit beobachtet hat, wodurch es ihn als Befehlsschlüsselausdruck ansieht, verwendet das System den Befehlsschlüsselausdruck sowohl zum Trainieren 510 spezifischer benutzerdefinierter Schlüsselausdruckserkennungs-KPD-Sprachmodelle als auch zum Trainieren 512 von TD-SR-Sprechermodellen für den Befehlsausdruck. Bei einem Beispiel behält das Wörterbuch jede Sprachprobe für jedes Mal, bei dem der gleiche Befehl ausgesagt wird, so dass eine Sammlung von Proben desselben Befehlsworts oder desselben Befehlsausdrucks für das Training von KPD- und TD-SR-Modellen verwendet werden kann. Beispielsweise könnte der Benutzer jeden Morgen „Hallo Computer, öffne das Garagentor“ sagen, und das System speichert jede oder mehrere Proben des den gleichen Ausdruck „Öffne das Garagentor“ sprechenden Benutzers. Dann kann das System das KPD- und das TD-SR-Modell für „Öffne das Garagentor“ unter Verwendung aller Proben bilden.
  • Eine natürliche Erweiterung dieser Idee besteht darin, statt ein Modell des gesamten Ausdrucks „Öffne das Garagentor“ zu bilden, Wortmodelle für einzelne Wörter oder andere Teile der Schlüsselausdrücke zu bilden, so dass, wenn „Öffne das Fronttor“ (beispielsweise statt des Garagentors) gesprochen wird, TD-SR-Modelle für die Wörter „Öffne“, „das“ und „Tor“ bereits anhand des früheren Ausdrucks mit Garage bereits gelernt wurden, so dass der Sprecher des Befehls sofort unter Verwendung der TD-SR erkannt werden kann.
  • Sobald die Befehls-KPD- und TD-SR-Modelle ausreichend trainiert wurden, so dass das Training auf der Schwellenanzahl von Proben beruhte, die im Wörterbuch gesammelt wurden, kann der Prozess 400 implementiert werden, wobei TD-SR oder TD-SI abhängig davon verwendet wird, ob die Befehlsschlüsselausdruckserkennung die Befehlsschlüsselausdrücke wie in Prozess 400 in einem Befehlsausdruck gefunden hat. Für TD kann das Modell nach einer kleinen Anzahl von Registrierungsabläufen bereit sein, während für TI eine komplexere Beurteilung erforderlich sein kann. Im Allgemeinen kann eine solche Bestimmung des Ausreichens auf bekannten Verfahren beruhen, welche beispielsweise die Variabilität und den Umfang der enthaltenen Sprache sowie ein Maß der Genauigkeit einbeziehen.
  • Sobald die Modelle eingerichtet wurden und wenn sie während der Laufzeit verwendet werden, können sie auch aktualisiert werden, wenn der gleiche Befehl in der Zukunft identifiziert wird. Weil die TD-SR nachweisbar bessere Fehlerraten als die TI-SR hat, ist es lohnend, ein solches TD-SR-Modell zu bilden. Der Vergleich zwischen TD- und TI-SR wird nachstehend mit den experimentellen Ergebnissen gezeigt.
  • Bei einer anderen Option und zusammen mit den TD-SR-Modellen können benutzerspezifische KPD(oder WoV)-Modelle verwendet werden, wobei der Benutzer gewünschte Schlüsselausdrücke auswählt, statt dass das System den Benutzer informiert, welche Schlüsselausdrücke zu verwenden sind. Dies ist in der am 1. Juli 2016 eingereichten US-Patentanmeldung 15/201 016 mit dem Titel „USER DEFINED KEY PHRASE DETECTION BY USER DEPENDENT SEQUENCE MODELING“ offenbart, welche hier für alle Zwecke aufgenommen ist. Mit dieser Option kann die Sprechererkennungsaktivierung hoher Sicherheit praktisch ganz benutzerspezifisch sein, so dass sowohl die Schlüsselausdruckserkennung als auch die Sprechererkennung auf benutzerspezifischen Schlüsselausdrücken beruhen.
  • Mit Bezug auf 6 sei bemerkt, dass ein beispielhafter Prozess 600 einer robusten Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 600 kann eine oder mehrere Operationen 602 - 612 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 600 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Der Prozess 600 weist ein erfasstes Audiosignal auf, wie anhand des Signals 402 erklärt ist (4), dessen Erfassung durch ein Spektrogramm 602 repräsentiert ist. In den Prozess 600 sind eine Schlüsselausdruckserkennung und eine Sprechererkennung eines Sicherheitsausdrucks 616 zwischen dem Aufweckschlüsselausdruck 614 und dem Befehlsschlüsselausdruck 618 hinzugefügt. Demgemäß ist bei diesem Beispiel der nachfolgende Ausdruck der Sicherheitsausdruck 616 und wird die Sprechererkennung auf den Sicherheitsausdruck 616 an Stelle des Befehlsausdrucks 618 angewendet. Der Sicherheitsschlüsselausdruck kann eine Spracheinheit, ein Wort oder ein Ausdruck sein, wobei die Genauigkeit der Sprechererkennung umso höher ist, je länger der Schlüsselausdruck ist. Beim vorliegenden Beispiel kann ein hörbares Passwort als Sicherheitsausdruck verwendet werden.
  • Wie beim Prozess 400 wird das erfasste Audiosignal durch die Schlüsselausdruckserkennung 604 auf einen Aufweckschlüsselausdruck 614 überwacht, und falls er gefunden wird, wird die TD-SR 606 angewendet, um einen Sprecheraufweck-Bewertungswert oder ein Sprecheraufweckergebnis zu bilden. Hier werden die Schlüsselausdruckserkennung 608 und die TD-SR 610 jedoch auch auf den Sicherheitsausdruck 616 angewendet. Dies kann einen vorläufigen Offline-Betrieb zur Registrierung von Sprachproben eines Sicherheitsschlüsselausdrücke äußernden Sprechers zur Bildung eines oder mehrerer Sicherheitssprechermodelle, die für die auf den Sicherheitsausdruck angewendete TD-SR zu verwenden sind, umfassen. Bei einer anderen Alternative können die Schlüsselausdruckserkennung und die TD-SR-Modellierung für den Sicherheitsausdruck unmittelbar oder online wie mit dem vorstehend beschriebenen Prozess 500 (5) erzeugt werden.
  • Bei einer Form kann das System beim ersten Mal, wenn ein Benutzer versucht, einen Befehl bereitzustellen, oder wenn Erinnerungen hilfreich sind, den Benutzer auffordern, nach dem Äußern des Aufweckschlüsselausdrucks einen Sicherheitsschlüsselausdruck anzugeben.
  • Dieser kann beispielsweise hörbar durch Vorrichtungslautsprecher oder sichtbar auf einer Computeranzeige emittiert werden.
  • Das Sicherheitsergebnis oder der Sicherheitssprecher-Bewertungswert können dann mit dem Aufweckergebnis oder -bewertungswert zusammengefügt werden, um einen einzigen Sprecherbewertungswert (oder Satz von Sprecherbewertungswerten) oder Ergebnisse zu bilden, wodurch die Wahrscheinlichkeit angegeben wird, dass ein Sprecher das erfasste Audiosignal gesprochen hat, wie detailliert anhand der Zusammenfügungseinheit 220 des Systems 200 beschrieben wurde (2). Durch eine kaskadierende Alternative kann der Sprecherbewertungswert (oder das Ergebnis) des Aufweckschlüsselausdrucks als vorläufiger Bewertungswert angesehen werden, so dass, falls der Aufweckbewertungswert eine oder mehrere Schwellen überschreitet oder andere Kriterien erfüllt, der Sprecherbewertungswert des Sicherheitsschlüsselausdrucks allein als Basis für einen endgültigen Sprecherbewertungswert des erfassten Audiosignals verwendet werden kann. Dieses repräsentative Ergebnis oder dieser repräsentative Sprecherbewertungswert wird dann bereitgestellt, um festzustellen, ob dadurch ein oder mehrere Kriterien erfüllt werden, beispielsweise durch Vergleich mit einer oder mehreren Schwellen. Ob anhand einer Zusammenfügungs- oder einer kaskadierenden Technik kann es, sobald festgestellt wurde, dass die Sprechererkennung für das erfasste Audiosignal vorgenommen wurde, eine Anwendung erlaubt werden, den Befehl vom Befehlsausdruck 618 auszuführen oder nicht.
  • Bei einem anderen Ansatz kann die Wiedergabe von Medien unterbrochen werden, falls sie erkannt wird, während versucht wird, den Aufweckschlüsselausdruck zu erkennen, so dass durch die Unterbrechung der Wiedergabe, bevor sie den Teil des erfassten Audiosignals mit einem Sicherheitsschlüsselausdruck verunreinigen kann, ein viel reineres (beispielsweise weniger rauschbehaftetes) Signal für die Sicherheitsschlüsselausdruckserkennung für eine erheblich erhöhte Genauigkeit der Sprechererkennung des Sicherheitsschlüsselausdrucks bereitgestellt werden kann. Hierbei kann während wenigstens der Aufweckschlüsselausdruckserkennung eine akustische Echounterdrückung (AEC) ausgeführt werden, die AEC kann jedoch auch während der Analyse anderer Teile des erfassten Audiosignals oder des gesamten erfassten Audiosignals ausgeführt werden. Sobald die KPD einen den Sicherheitsschlüsselausdruck und die ASR eines Befehls auslösenden Aufweckschlüsselausdruck gefunden hat, wird die Audiounterdrückung durch die AEC geprüft, um festzustellen, ob erkannt wurde 603, dass Medien von derselben aktuellen Vorrichtung abgespielt werden, die das gerade analysierte erfasste Audiosignal erzeugt. Falls herausgefunden wurde, dass Medien aus dem Signal unterdrückt wurden, wird die mögliche an der Vorrichtung erfolgende Medienwiedergabe in der Art von Musik, Soundtracks, Radio usw., welche durch den AEC-Vorgang erkannt wird, abgeschaltet oder angehalten 605, so dass der zusätzliche Sicherheitsausdruck im Interesse einer höheren Genauigkeit in einer reinen Umgebung gesprochen wird. Es sei bemerkt, dass auch die Wiedergabe anderer Vorrichtungen, deren Audio von der vorliegenden Vorrichtung steuerbar ist, unterbrochen werden könnte. Beispielsweise kann eine PA- oder Sprechererkennungsanwendung eines intelligenten Lautsprechers in der Lage sein, die Lautstärke zu verringern oder ein Fernsehgerät abzuschalten, das kommunikativ mit dem intelligenten Lautsprecher verbunden ist. Andere Wege zur Erkennung von Medien, die von der vorliegenden Vorrichtung oder einer anderen Vorrichtung wiedergegeben werden, welche Audio aufweist, das von der vorliegenden Vorrichtung gesteuert werden kann, können auch verwendet werden, wie Signalmustervergleichsalgorithmen usw., wenn das Signal analysiert wird, es könnten jedoch auch „Ein“- oder Lautstärkeindikatorsignale oder -berichte von Wiedergabeanwendungen oder -programmen verwendet werden, und es könnte verwendet werden, ob sich diese Wiedergabeanwendungen physisch an oder außerhalb der vorliegenden Vorrichtung befinden. Eine solche Wiedergabebeendigungsoption kann auf jede der hier vorgestellten Implementationen einschließlich der Prozesse 400, 700 und 800 angewendet werden.
  • Demgemäß hat für Anwendungen höherer Sicherheit die Verwendung dieses zusätzlichen textabhängigen Sicherheitsschlüsselausdrucks nach dem Aufweckschlüsselausdruck eine Anzahl von Vorteilen. Erstens und wie vorstehend erwähnt wurde, ergibt sich eine höhere Genauigkeit infolge eines sorgfältig gewählten längeren textabhängigen Inhalts. Zweitens ergibt sich eine bessere Benutzererfahrung infolge der höheren Genauigkeit, die durch die Beendigung der Wiedergabe hervorgerufen wird, so dass die TD-SR des Sicherheitsausdrucks bei abgeschalteter Wiedergabe ein reineres Signal aufweist.
  • Mit Bezug auf 7 sei bemerkt, dass ein beispielhafter Prozess 700 einer robusten Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 700 kann eine oder mehrere Operationen 702 - 716 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 700 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Der Prozess 700 verwendet die gleiche oder eine ähnliche Aufweck- und Sicherheits-Schlüsselausdruckserkennung und TD-SR wie der Prozess 600 (6), so dass die Beschreibung dieser Vorgänge hier nicht wiederholt werden muss. Das gleiche erfasste Audiosignal wie es in Prozess 600 verwendet wird, wird auch hier wiederholt, und seine Erfassung ist durch das Spektrogramm 702 repräsentiert, wobei hier ein Aufweckschlüsselausdruck 718 einem Sicherheitsausdruck 720 vorhergeht, der vor einem Befehlsausdruck 722 auftritt. Vorgänge, die zwischen den beiden Prozessen ähnlich sind, sind ähnlich benannt und nummeriert. Beim Prozess 700 sind jedoch auf den Befehlsausdruck angewendete Spracherkennungs- 712 und textunabhängige TI-SR-Vorgänge 714 hinzugefügt. Bei einem Beispiel wird die TI-SR nach der erfolgreichen Schlüsselausdruckserkennung am Aufweckschlüsselausdruck und am Sicherheitsschlüsselausdruck auf den Befehlsausdruck angewendet. Dies führt zu Sprecherbewertungswerten oder -ergebnissen von drei verschiedenen Sprechererkennungsvorgängen an den drei verschiedenen Ausdrücken (Aufwecken, Sicherheit und Befehl). Bei einem Ansatz kann ein weniger vertrauenswürdiger Sprecherbewertungswert für eine positive Erkennung für jeden der TD-SR-Vorgänge erforderlich sein, während ein höherer Sprecherbewertungswert für ein positives Ergebnis vom TI-SR-Vorgang erforderlich sein kann, weil herausgefunden wurde, dass die TD-SR genauer als die TI-SR ist. Bei einer Form werden diese drei Ergebnisse, wie vorstehend beschrieben, mit der Zusammenfügungseinheit 220 (2) zusammengefügt, um einen einzigen Sprecherbewertungswert (oder einen einzigen Satz von Bewertungswerten (oder Ergebnissen) zu bilden, die dann mit Schwellen verglichen werden oder auf andere Weise bestimmt werden, falls die Ergebnisse oder Bewertungswerte einige Kriterien erfüllen, um anzugeben, dass ein autorisierter Benutzer die Spracheinheit des erfassten Audiosignals geäußert hat.
  • Durch alternative kaskadierende Ansätze wurden zuerst die beiden TD-SR-Ergebnisse zusammengefügt und wird der zusammengefügte Sprecherbewertungswert analysiert, um festzustellen, ob der zusammengefügte Sprecherbewertungswert ein oder mehrere Kriterien erfüllt. Falls dies der Fall ist, wird nur dann der Sprecherbewertungswert der TI-SR beim Befehlsausdruck berücksichtigt. Bei einer Form werden noch alle drei Sprecherbewertungswerte oder -ergebnisse zusammengefügt, um ein einziges Sprecherbewertungswertergebnis zu bilden, bei anderen Ansätzen zur Kaskadierung der Vorgänge kann der TI-SR-Sprecherbewertungswert jedoch der endgültige und einzige Sprecherbewertungswert sein, der das erfasste Audiosignal repräsentiert. Bei einer anderen Alternative werden alle drei Bewertungswerte oder Ergebnisse einzeln betrachtet. Beispielsweise wird eine Sprecherentscheidung für den Aufweckschlüsselausdruck gebildet, und falls sie positiv ist, wird der Sicherheitsschlüsselausdruck berücksichtigt, und falls dieser positiv ist, wird der Sprecherbewertungswert des Befehlsschlüsselausdrucks berücksichtigt. Es können auch andere Alternativen verwendet werden.
  • Mit Bezug auf 8 sei bemerkt, dass ein beispielhafter Prozess 800 einer robusten Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Der Prozess 800 kann eine oder mehrere Operationen 802 - 820 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 800 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Der Prozess 800 verwendet die gleiche oder eine ähnliche Aufweck- und Sicherheits-Schlüsselausdruckserkennung und TD-SR, so dass die Beschreibung dieser Vorgänge hier nicht wiederholt wird, und es ist die Erfassung 802 des gleichen erfassten Audiosignals wie in Prozess 600 (6) und 700 (7) dargestellt, wobei hier ein Aufweckschlüsselausdruck 822 einem Sicherheitsausdruck 824 vorhergeht, der vor einem Befehlsausdruck 826 auftritt. Vorgänge, die zwischen den beiden Prozessen ähnlich sind, sind ähnlich benannt und nummeriert. Beim Prozess 800 sind jedoch Befehls-Schlüsselausdruckserkennungsvorgänge 810 und Befehls-TD-SR-Vorgänge hinzugefügt, die zusätzlich zur Spracherkennung und zur TI-SR, wie in Prozess 700 beschrieben, auf den Befehlsausdruck angewendet werden, abgesehen davon, dass die TD-SR und TI-SR hier alternativ wie bei Prozess 400 auf den Befehlsausdruck angewendet werden. Demgemäß kann nach dem Training (oder der Registrierung) von KPD und TD-SR-Modellen, ob offline oder online wie vorstehend anhand des Prozesses 500 für den Befehlsausdruck 826 beschrieben, eine TD-SR-Pipeline für den Befehlsausdruck verwendet werden.
  • Demgemäß stellt der Prozess 800 nach dem Aufweckschlüsselausdruck einen längeren Sicherheitsausdruck und eine zusätzliche TD-SR-Analyse für üblicherweise verwendete Befehlsausdrücke, wenn dieses Modell trainiert wurde, bereit. Die Aufweckschlüsselausdrucks- und Sicherheitsschlüsselausdruckserkennung und TD-SR werden wie vorstehend anhand der Prozesse 600 und 700 beschrieben behandelt. Wie beim Prozess 400 hat der Befehlsausdruck hier zwei Pipelines, die getrennt behandelt werden. Bei einer Form werden TD-SR und TI-SR unabhängig von den Ergebnissen der Befehls-KPD 810 zunächst parallel ausgeführt. Demgemäß segmentiert 814 eine Spracherkennungs-Engine oder -Einheit den Befehlsausdruck in Sprachabschnitte, und es sind eine oder mehrere nicht-befehlsspezifische TI-SR-Pipelines verfügbar, um den Sprecher des Befehlsausdrucks zu erkennen 816, so dass der Sprecherbewertungswert der TI-SR verwendet werden kann, wenn der Befehl unbekannt ist. Parallel kann die TD-SR ausgeführt werden 812, um einen Sprecherbewertungswert bereitzustellen, der verwendet werden kann, wenn die Befehls-KPD 810 Befehlsschlüsselausdrücke im Befehlsausdruck 826 erkannt hat. Wenn das Ergebnis der Befehls-KPD 810 positiv ist, wird die Ausgabe (oder der Sprecherbewertungswert) der Befehls-TD-SR 812 verwendet, wenn das Ergebnis der KPD 810 negativ ist, wird jedoch stattdessen die Ausgabe (der Sprecherbewertungswert) der TI-SR verwendet. Es sei bemerkt, dass alternative Operationen verwendet werden könnten, bei denen die Befehls-TI-SR von vornherein ausschließlich angewendet wird, wenn die Befehls-KPD negativ ist.
  • Zur Zusammenfügung der Ergebnisse der verschiedenen SR-Vorgänge oder -Pipelines können die Sprecherbewertungswerte oder andere getrennte Ergebnisse von allen drei Ausdrücken (Aufweck-, Sicherheits- und Befehls-) zusammengefügt werden, wobei das Ergebnis des Befehlsausdrucks alternativ von TD-SR oder TI-SR stammen kann, wie anhand des Prozesses 800 beschrieben wurde. Bei einer anderen Alternative kann die Kaskadiertechnik aus Prozess 700 verwendet und hier gleichermaßen angewendet werden, wobei dies entweder individuell (wobei der Aufweckbewertungswert zuerst auftritt und dann der Sicherheitsbewertungswert folgt) oder zusammengefügt geschieht, und der Sprecherbewertungswert oder die Ergebnisse von der Aufweck-TD-SR und der Sicherheits-TD-SR können zuerst mit Kriterien verglichen werden, um festzustellen, ob auch die Ergebnisse oder Bewertungswerte vom Befehlsausdruck berücksichtigt werden sollten. Der Befehlsbewertungswert kann dann mit den TD-SR-Bewertungswerten zusammengefügt werden oder getrennt als endgültige Repräsentation des erfassten Audiosignals betrachtet werden. Anschließend kann, sobald eine Entscheidung durch Vergleichen eines zusammengefügten oder kaskadierten Ergebnisses oder Bewertungswerts mit einigen Kriterien getroffen wurde, einer Anwendung ermöglicht werden, den Befehl auszuführen, oder dies kann nicht ermöglicht werden.
  • Mit Bezug auf 8A sei bemerkt, dass durch einen anderen alternativen Prozess 850 die Verwendung des Sicherheitsausdrucks beendet werden kann, sobald die TD-SR-Vorgänge am Befehlsausdruck ausgeführt werden. Der Prozess 850 kann eine oder mehrere Operationen 852 - 860 aufweisen, die im Allgemeinen geradzahlig nummeriert sind. Der Prozess 850 oder Teile davon können von einer Vorrichtung oder einem System (beispielsweise den Systemen 200, 1000 oder einer anderen Vorrichtung oder einem anderen System, wie hier erörtert) ausgeführt werden.
  • Bei dieser Alternative kann der Prozess 800 das „Überwachen des TD-SR-Modells auf eine ausreichende Registrierung von Befehlsausdrücken“ 852 aufweisen. Bei einer Option wird dieser Vorgang einfach dadurch erfüllt, dass das System feststellt, dass die TD-SR-Modelle mit einer ausreichenden Anzahl von Stimmproben bestimmter Befehle, die gewöhnlich von einem Benutzer gesprochen werden, trainiert wurden und verwendungsbereit sind. Andernfalls kann dies das „Feststellen, ob Modelle einen ausreichenden Teil üblicher Befehle abdecken“ 854 aufweisen, wobei die Sicherheitsausdrucks-SR in Verwendung bleiben kann, bis ein gewisser Prozentsatz der von einem Benutzer bereitgestellten Befehle für den Befehlsausdruck modelliert wurde. Es werden auch andere Alternativen erwogen.
  • Der Prozess 800 kann das „Ausschalten der Sicherheitsausdruckserkennung“ 856 aufweisen, wobei dies ein binärer Indikator sein kann, der von der Sicherheitsausdruck-Ein/Aus-Steuereinheit 240 (2) bereitgestellt wird und beispielsweise einer KPD-Einheit 206 bereitgestellt wird, um die Sicherheits-KPD- und wiederum die Sicherheits-SR-Operationen zu übergehen, oder es können Hinweiszeichen verwendet werden. Andere Arten können auch verwendet werden.
  • Sobald oder nachdem die Sicherheitsschlüsselausdrucks-KPD ausgeschaltet wurde, kann der Prozess 800 das „Bereitstellen eines Hinweises für den Benutzer, dass der Sicherheitsausdruck nicht mehr benötigt wird“ 858 aufweisen, wobei dies dem Benutzer durch eine geeignete Schnittstelle mit dem Benutzer bereitgestellt werden kann, wie beispielsweise hörbar durch Lautsprecher oder sichtbar auf einem Computer oder einer Rechenvorrichtungsanzeige. Diese Nachricht kann in Form einer SMS-Nachricht an eine mobile Vorrichtung, einer E-Mail oder einer anderen sichtbaren Nachricht vorliegen. Die Nachricht kann eine allgemeine Nachricht für alle gewöhnlichen Befehle von einem Benutzer sein, oder sie könnte auf einer Befehl-für-Befehl-Basis emittiert werden.
  • Der Prozess 800 kann das „Festlegen der Aufweckschlüsselausdruckserkennung zum Auslösen einer BefehlsSchlüsselausdruckserkennung“ 860 aufweisen. Nachdem die Sicherheitsschlüsselausdrucks-KPD und die Sicherheits-SR nun fortgelassen wurden, benötigt das System nun die Aufweckschlüsselausdruckserkennung zum Auslösen der Befehls-KPD. Dies kann auch durch einen binären Indikator von der Sicherheitsausdrucks-Ein/Aus-Steuereinheit 240, Setzen von Hinweiszeichen usw. geschehen.
  • Experimente und Ergebnisse
  • Es wurde ein Experiment zum Messen einer Funktionsweise mit gleicher Fehlerrate von TD- und TI-Systemen für die folgende Liste von Befehlen unter mehreren verschiedenen Hintergrundgeräuschbedingungen ausgeführt:
    • Alexa, wie wird das Wetter morgen?
    • Alexa, spiele etwas gute Musik
    • Alexa, finde ein nahe gelegenes gutes Restaurant
    • Alexa, was ist mein Arbeitsweg?
    • Alexa, lies meine Nachrichten
    • Alexa, wie ist es meiner Mannschaft heute ergangen?
    • Alexa, finde das Rezept für mein Lieblingsgericht
    • Alexa, setze einen Zeitgeber für 10 Minuten
    • Alexa, was kommt heute im Fernsehen?
    • Alexa, spielen heute gute Filme?
    • „Alexa“ wurde für die TD-SR verwendet, und der gesamte Ausdruck „Alexa, <Befehl>“ wird für die TI-SR verwendet.
  • Auch wenn das TD-SR-Segment so viel kürzer als das TI-SR-Segment ist, wurden mit dem TD-SR-System erheblich niedrigere Fehlerraten gemessen als mit dem TI-SR-System. Dies zeigt, dass die Sprechererkennung viel genauer ist, wenn die Lautäußerung phonetisch beschränkt ist, wie in der nachstehenden Tabelle 1 gezeigt ist. Tabelle 1:
    Bedingung Textabhängig Textunabhängig
    Rein 1, 69 4,71
    Klassische Musik 2,20 7,43
    Popmusik 3,42 9,52
    Seitlicher weiblicher Sprecher 3,16 8,75
    Seitlicher männlicher Sprecher 3,07 8,42
  • Ein anderes Experiment vergleicht die EER zweier üblicher Aufweckphrasen folgendermaßen, um Eingangssprachprobenlängen zu vergleichen. Tabelle 2:
    Hey Cortana Alexa
    Bedingung Array A EER (%) Array B EER (%) Array A EER (%) Array B EER (%)
    Rein 0,87 2,81 2,05 4,49
    Klassische Musik 1, 93 8, 13 3, 61 8,79
    Popmusik 7,06 26,43 7,13 21, 92
    Seitlicher weiblicher Sprecher 1, 65 6,66 3,13 7,19
    Seitlicher männlicher Sprecher 2,09 8, 85 3,53 9, 68
  • Hier wurden zwei Mikrofon-Arrays verwendet: Array A befindet sich direkt vor dem Benutzer, nicht weiter als 0,5 m entfernt, und Array B befindet sich 2,5 m hinter dem Benutzer. Abgesehen von einem Fall (Popmusik im Hintergrund) hatte der längere Ausdruck „Hey Cortana“ bessere Ergebnisse, was zeigt, dass die Sprechererkennung fast immer umso genauer ist, je länger der Ausdruck ist, und zwar unabhängig von der Hintergrundgeräuschbedingung.
  • Mit Bezug auf 9 sei bemerkt, dass auch ein Experiment ausgeführt wurde, das die beiden vorstehend in Tabelle 2 erwähnten Ausdrücke mit einem viel längeren Ausdruck „Ich bin <Name>, mein Name ist mein Passwort“ vergleicht. Die Erkennungsfehlerkompromiss-Auftragung 900 zeigt einen klaren konsistenten Trend, dass die Fehlerraten umso niedriger sind, je länger der Ausdruck ist, wenn die gleiche Sprechererkennungstechnik verwendet wird (die hier TD-SR ist). Die EER für „Alexa“, „Hey Cortana“ und „Ich bin <Name>, mein Name ist mein Passwort“ ist 2,05, 0,87 bzw. 0,27 %. Für diesen Testsatz wird bei einer FRR von etwa 1 % eine FAR von 0 % erreicht, was die Vorteile einer langen Sicherheitsausdrucksinteraktion beweist.
  • Mit Bezug auf 10 sei bemerkt, dass ein beispielhaftes Audioverarbeitungssystem 1000 zum Bereitstellen einer Sprechererkennungsaktivierung gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Das System 1000 kann wenigstens ein Mikrofon 1002, Verarbeitungseinheiten 1004, einschließlich Logikeinheiten oder Logikmodule 1006, eine oder mehrere Sende(RX/TX)-Einheiten 1040 und eine Antenne 1042 zum Empfangen oder Senden von Audio beispielsweise von der Vorrichtung 1000 oder zu dieser, einen Speicher 1050, einen oder mehrere Prozessoren 1046 und einen oder mehrere Lautsprecher 1044 aufweisen. Das System kann als ein intelligenter Lautsprecher betrachtet werden oder einen intelligenten Lautsprecher aufweisen, um alle oder einige der hier beschriebenen Logikeinheiten zu implementieren. Ansonsten kann das System 1000 jegliche der anderen hier erwähnten Vorrichtungen aufweisen oder daraus bestehen, welche die hier beschriebenen Audioanalysefähigkeiten bereitstellen.
  • Zur Ausführung der KPD- oder WoV-Anwendungen können die Logikeinheiten/-module 1006 eine Vorverarbeitungseinheit 1008, welche die von dem einen oder den mehreren Mikrofonen 1002 empfangenen erfassten Audiosignale empfängt, und eine Schlüsselausdrucks-Erkennungseinheit 1010, die eine Aufweckeinheit 1012 für an einem Aufweckschlüsselausdruck ausgeführte Operationen aufweisen kann, eine Sicherheitseinheit 1014 für Operationen, welche einen Sicherheitsschlüsselausdruck erkennen, und eine Befehlseinheit 1016 zum Erkennen von Befehlsschlüsselausdrücken aufweisen, die jeweils ausgeführt werden, um ein Auslösen von Aktionen auszuführen, einen PA aufzuwecken und/oder SR-Operationen auszuführen, wie vorstehend beschrieben.
  • Zur Ausführung der Sprechererkennungsoperationen können die Logikeinheiten/-module 1006 auch eine Registrierungseinheit 1026, eine TD-SR-Einheit 1018, eine TI-SR-Einheit 1020, eine Zusammenfügungseinheit 1028, eine Entscheidungseinheit 1030, eine Hochsicherheits-Autorisierungseinheit 1032, eine PA-ASR-Einheit 1034, welche die Ausdrücke für das Verstehen des Befehls für den PA analysiert, eine Befehls-ASR-Einheit 1024 zur Erzeugung eines Wörterbuchs 1056 zur Ausführung der Befehls-TD-SR, eine Sicherheitsausdrucks-Ein/Aus-Steuereinheit 1035 zum Ausschalten der Sicherheitsschlüsselausdruckserkennung, wenn dies erwünscht ist, eine Aktivierte-Anwendungen-Einheit 1036 und eine Wiedergabeanwendungseinheit 1038, welche Audiodaten oder -signale zur Ausgabe an den einen oder die mehreren Lautsprecher 1044 bereitstellen, aufweisen.
  • Wenigstens ein Prozessor 1046 kann ein Zentralprozessor sein und ein digitaler Signalprozessor 1048 sein oder diesen aufweisen, der eine Anzahl und einen Typ von Verarbeitungseinheiten aufweisen kann, welche die hier erörterten Operationen ausführen können. Diese Operationen können durch Software, Firmware, Hardware oder eine Kombination davon implementiert werden. Beispielsweise kann der digitale Signalprozessor 1048 eine Schaltungsanordnung aufweisen, die dafür ausgelegt ist, vom Speicher 1050 oder von einem dedizierten Speicher erhaltene Daten zu manipulieren. Ferner können der eine oder die mehreren Prozessoren 1046 eine Anzahl und einen Typ von Verarbeitungseinheiten oder -modulen aufweisen, die Steuerungs- und andere Funktionen hoher Ebene für das System 1000 sowie die hier erörterten Operationen bereitstellen können. Beim erläuterten Beispiel kann das System 1000 dafür ausgelegt sein, eine Schlüsselausdruckserkennung (KPD oder Sprachaktivierung (WoV)) und/oder eine textabhängige oder textunabhängige Sprechererkennung sowie andere Operationen in Bezug darauf und wie hier offenbart auszuführen.
  • Der Speicher 1050 kann ein beliebiger Speichertyp sein oder diesen aufweisen, wie ein flüchtiger Speicher (beispielsweise statischer Direktzugriffsspeicher (SRAM), dynamischer Direktzugriffsspeicher (DRAM) usw.) oder ein nichtflüchtiger Speicher (beispielsweise Flash-Speicher usw.) und dergleichen. Bei einem nicht einschränkenden Beispiel kann der Speicher 1050 wenigstens teilweise durch einen Cache-Speicher implementiert sein. Bei einer Form können ein oder mehrere Speicher ein oder mehrere Sprechermodelle 1052, ein oder mehrere Sprachmodelle 1054 und/oder ein oder mehrere ASR-Wörterbücher 1056, die wie vorstehend beschrieben zu verwenden sind, speichern.
  • Es sei bemerkt, dass das System 1000 nicht alle Teile aller Einheiten und Modelle auf derselben physischen Vorrichtung in der Art eines intelligenten Lautsprechers aufweisen kann und dass jegliche der als in einer Vorrichtung oder in einem System enthalten beschriebenen Einheiten kommunikativ mit der Vorrichtung verbunden sein können, jedoch teilweise oder ganz physisch fern von der Vorrichtung angeordnet sein können.
  • Die Arbeitsweise der Komponenten oder Einheiten des Systems 1000 wird anhand der Beschreibung der Systeme und Verfahren, die vorstehend bereits beschrieben wurden, klar sein. Demgemäß ähneln die Namen der Komponenten des Systems 1000 den vorstehend beschriebenen Namen oder Funktionen, so dass der Name der Einheiten oder Komponenten offenbart, welche Funktionen von dieser Komponente ausgeführt werden.
  • Wenngleich die Implementation der hier erörterten beispielhaften Prozesse die Ausführung aller in der dargestellten Reihenfolge gezeigter Operationen aufweisen kann, ist die vorliegende Offenbarung nicht darauf beschränkt, und bei verschiedenen Beispielen kann die Implementation der beispielhaften Prozesse 300, 400, 500, 600, 700, 800 und 850 nur eine Teilmenge der dargestellten Operationen, in einer anderen Reihenfolge als dargestellt ausgeführte Operationen oder zusätzliche Operationen aufweisen.
  • Zusätzlich können jegliche der hier offenbarten Operationen ansprechend auf von einem oder mehreren Computerprogrammprodukten bereitgestellte Befehle ausgeführt werden. Diese Programmprodukte können signaltragende Medien aufweisen, die Befehle bereitstellen, die, wenn sie beispielsweise von einem Prozessor ausgeführt werden, die hier beschriebene Funktionalität bereitstellen können. Die Computerprogrammprodukte können in einer beliebigen Form eines oder mehrerer maschinenlesbarer Medien bereitgestellt werden. Demgemäß kann beispielsweise ein Prozessor, der eine oder mehrere Graphikverarbeitungseinheiten oder Prozessorkerne aufweist, einen oder mehrere der Blöcke der hier beschriebenen beispielhaften Prozesse ansprechend darauf ausführen, dass dem Prozessor durch ein oder mehrere maschinenlesbare Medien Programmcode und/oder Befehle oder Befehlssätze zugeführt werden. Im Allgemeinen kann ein maschinenlesbares Medium Software in Form von Programmcode und/oder Befehlen oder Befehlssätzen bereitstellen, die jegliche der hier beschriebenen Vorrichtungen und/oder Systeme veranlassen können, jegliche hier erörterte Systeme, Operationen, Module oder Komponenten zu implementieren. Die maschinen- oder computerlesbaren Medien können ein nichtflüchtiger Artikel oder ein nichtflüchtiges Medium in der Art eines nichtflüchtigen computerlesbaren Mediums sein und mit jeglichen der vorstehend erwähnten oder anderen Beispielen verwendet werden, abgesehen davon, dass darin kein flüchtiges Signal an sich enthalten ist. Es sind darin jene anderen Elemente als ein Signal an sich enthalten, die Daten vorübergehend in einer „flüchtigen“ Weise in der Art eines RAM und dergleichen halten können.
  • Wie in einer hier beschriebenen Implementation verwendet, bezieht sich der Begriff „Modul“ oder „Einheit“ auf eine Kombination von Softwarelogik, Firmwarelogik und/oder Hardwarelogik, die dafür ausgelegt ist, die hier beschriebene Funktionalität bereitzustellen. Die Software kann als ein Softwarepaket, Code und/oder ein Befehlssatz oder Befehle verwirklicht werden, und „Hardware“, wie in einer hier beschriebenen Implementation verwendet, kann beispielsweise einzeln oder in einer Kombination festverdrahtete Schaltungen, programmierbare Schaltungen, Zustandsmaschinenschaltungen und/oder Firmware, welche von programmierbaren Schaltungen ausgeführte Befehle speichert, einschließen. Die Module können gemeinsam oder einzeln als Schaltungen verwirklicht werden, die Teil eines größeren Systems, beispielsweise einer integrierten Schaltung (IC), eines Systems auf einem Chip (SoC) usw. sind. Beispielsweise kann ein Modul in Logikschaltungen für die Implementation durch Software, Firmware oder Hardware der hier erörterten Codiersysteme verwirklicht werden.
  • Wie in einer hier beschriebenen Implementation verwendet, bezieht sich der Begriff „Logikeinheit“ auf eine Kombination von Firmwarelogik und/oder Hardwarelogik, die dafür ausgelegt ist, die hier beschriebene Funktionalität bereitzustellen. Die Logikeinheiten können gemeinsam oder einzeln als Schaltungen verwirklicht werden, die Teil eines größeren Systems, beispielsweise einer integrierten Schaltung (IC), eines Systems auf einem Chip (SoC) usw. sind. Beispielsweise kann eine Logikeinheit in Logikschaltungen für die Implementation von Firmware oder Hardware der hier erörterten Codiersysteme verwirklicht werden. Durchschnittsfachleute auf dem Gebiet werden verstehen, dass durch Hardware und/oder Firmware ausgeführte Operationen alternativ durch Software implementiert werden können, die als ein Softwarepaket, Code und/oder Befehlssatz oder Befehle verwirklicht werden kann, und sie werden auch verstehen, dass die Logikeinheit auch einen Teil der Software verwenden kann, um ihre Funktionalität zu implementieren.
  • Wie in einer hier beschriebenen Implementation verwendet, kann sich der Begriff „Komponente“ auf ein Modul oder eine Logikeinheit, wie diese Begriffe vorstehend beschrieben wurden, beziehen. Dementsprechend kann sich der Begriff „Komponente“ auf eine Kombination von Softwarelogik, Firmwarelogik und/oder Hardwarelogik, die dafür ausgelegt ist, die hier beschriebene Funktionalität bereitzustellen, beziehen. Beispielsweise werden Durchschnittsfachleute auf dem Gebiet verstehen, dass durch Hardware und/oder Firmware ausgeführte Operationen alternativ durch ein Softwaremodul implementiert werden können, das als ein Softwarepaket, Code und/oder Befehlssatz verwirklicht werden kann, und sie werden auch verstehen, dass die Logikeinheit auch einen Teil der Software verwenden kann, um ihre Funktionalität zu implementieren.
  • Mit Bezug auf 11 sei bemerkt, dass ein beispielhaftes System 1100 gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet ist. Bei verschiedenen Implementationen kann das System 1100 ein Mediensystem sein, wenngleich das System 1100 nicht auf diesen Zusammenhang beschränkt ist. Beispielsweise kann das System 1100 in einen Personalcomputer (PC), Laptopcomputer, Ultra-Laptopcomputer, Tablet, Touchpad, tragbaren Computer, handgehaltenen Computer, Palmtop-Computer, persönlichen digitalen Assistenten (PDA), Mobiltelefon, eine Kombination eines Mobiltelefons und eines PDA, ein Fernsehgerät, eine intelligente Vorrichtung (beispielsweise einen intelligenten Lautsprecher, ein Smartphone, ein Smarttablet oder ein intelligentes Fernsehgerät), eine mobile Internetvorrichtung (MID), eine Nachrichtenaustauschvorrichtung, eine Datenkommunikationsvorrichtung, Kameras (beispielsweise Point-and-Shoot-Kameras, Superzoomkameras, digitale Einzellinsenreflex(DSLR)-Kameras) usw. aufgenommen sein.
  • Bei verschiedenen Implementationen weist das System 1100 eine mit einer Anzeige 1120 gekoppelte Plattform 1102 auf. Die Plattform 1102 kann Inhalt von einer Inhaltsvorrichtung in der Art einer oder mehrerer Inhaltsdienstvorrichtungen 1130 oder Inhaltsliefervorrichtungen 1140 oder anderer ähnlicher Inhaltsquellen empfangen. Wie dargestellt kann das System 1100 bei einigen Beispielen ein Mikrofon 1160 (oder 202 (2)) aufweisen, das über die Plattform 1102 implementiert ist. Die Plattform 1102 kann eingegebene Sprache über das Mikrofon 1160 empfangen, wie hier erörtert, und eine Audioausgabe über einen oder mehrere Lautsprecher 1164 bereitstellen. Eine Navigationssteuereinrichtung 1150, die ein oder mehrere Navigationsmerkmale aufweist, kann verwendet werden, um beispielsweise mit der Plattform 1102 und/oder der Anzeige 1120 zu interagieren. Jede dieser Komponenten wird nachstehend in weiteren Einzelheiten beschrieben.
  • Bei verschiedenen Implementationen kann das System 1100 eine Sprechererkennung für eine Vorrichtung bereitstellen, wie beschrieben. Bei anderen Implementationen kann das System 1100 eine Schlüsselausdruckserkennung und robuste Sprechererkennungsaktivierung bereitstellen, wie hier erörtert.
  • Bei verschiedenen Implementationen kann die Plattform 1102 eine Kombination eines Chipsatzes 1105, eines Prozessors 1110, eines Speichers 1112, einer Antenne 1113, eines Festspeichers 1114, eines Graphikuntersystems 1115, eines Lautsprecheruntersystems 1162, von Anwendungen 1116 und/oder eines Radios 1108 aufweisen. Der Chipsatz 1105 kann eine Kommunikation zwischen dem Prozessor 1110, dem Speicher 1112, dem Festspeicher 1114, dem Lautsprecheruntersystem 1162, Anwendungen 1116 und/oder dem Radio 1108 bereitstellen. Beispielsweise kann der Chipset 1105 einen Speichervorrichtungsadapter (nicht dargestellt) aufweisen, der eine Kommunikation mit dem Festspeicher 1114 bereitstellen kann.
  • Der Prozessor 1110 kann als Computerprozessor mit einem komplexen Befehlssatz (CISC) oder Computerprozessor mit einem reduzierten Befehlssatz (RISC), mit dem x126-Befehlssatz kompatible Prozessoren, Mehrkernprozessoren oder als irgendein anderer Mikroprozessor oder irgendeine andere Zentralverarbeitungseinheit (CPU) implementiert sein. Bei verschiedenen Implementationen kann der Prozessor 1110 aus einem oder mehreren Zweikernprozessoren, Zweikern-Mobilprozessoren usw. bestehen.
  • Der Speicher 1112 kann als eine flüchtige Speichervorrichtung in der Art eines Direktzugriffsspeichers (RAM), eines dynamischen Direktzugriffsspeichers (DRAM) oder eines statischen RAM (SRAM) implementiert sein, ist jedoch nicht auf diese beschränkt.
  • Der Festspeicher 1114 kann als eine nichtflüchtige Speichervorrichtung in der Art eines Magnetplattenlaufwerks, eines optischen Plattenlaufwerks, eines Bandlaufwerks, einer internen Speichervorrichtung, einer angebrachten Speichervorrichtung, eines Flash-Speichers, eines batteriegestützten SDRAM (synchronen DRAM) und/oder einer über ein Netz zugänglichen Speichervorrichtung implementiert sein, ist jedoch nicht darauf beschränkt. Bei verschiedenen Implementationen kann der Festspeicher 1114 eine Technologie zum Erhöhen der Speicherleistungsfähigkeit mit verbessertem Schutz für wertvolle digitale Medien aufweisen, wenn beispielsweise mehrere Festplattenlaufwerke aufgenommen sind.
  • Ein Lautsprecheruntersystems 1162 kann eine Verarbeitung von Audio zur Emission durch die Vorrichtung über einen oder mehrere in das Untersystem aufgenommene Lautsprecher 1164 ausführen. Eine analoge oder digitale Schnittstelle kann verwendet werden, um das Lautsprecheruntersystem 1162 und die Lautsprecher 1164 kommunikativ zu koppeln. Das Lautsprecheruntersystem 1162 kann in den Prozessor 1110 oder den Chipsatz 1115 integriert sein. Bei einigen Implementationen kann das Lautsprecheruntersystem 1162 eine mit dem Chipsatz 1105 gekoppelte autonome Vorrichtung sein.
  • Die hier beschriebenen Audioverarbeitungstechniken können in verschiedenen Hardwarearchitekturen implementiert werden. Beispielsweise kann eine Audiofunktionalität in einen Chipsatz integriert sein. Alternativ kann ein diskreter Audioprozessor verwendet werden. Bei einer anderen Implementation können die Audiofunktionen durch einen Prozessor für allgemeine Zwecke, einschließlich eines Mehrkernprozessors, bereitgestellt werden. Bei weiteren Implementationen können die Funktionen in einer Endverbraucherelektronikvorrichtung implementiert werden.
  • Das Graphikuntersystem 1115 kann eine Verarbeitung von Bildern in der Art stehender Bilder oder von Video für die Anzeige ausführen. Das Graphikuntersystem 1115 kann beispielsweise eine Graphikverarbeitungseinheit (GPU) oder eine visuelle Verarbeitungseinheit (VPU) sein. Eine analoge oder digitale Schnittstelle kann verwendet werden, um das Graphikuntersystem 1115 und die Anzeige 1120 kommunikativ zu koppeln. Beispielsweise kann die Schnittstelle eine Multimediaschnittstelle hoher Definition, ein DisplayPort, eine drahtlose HDMI-Schnittstelle sein und/oder durch drahtlose HD-kompatible Techniken gegeben sein. Das Graphikuntersystem 1115 kann in den Prozessor 1110 oder den Chipsatz 1115 integriert sein. Bei einigen Implementationen kann das Graphikuntersystem 1115 eine mit dem Chipsatz 1105 gekoppelte autonome Vorrichtung sein.
  • Das Radio 1108 kann ein oder mehrere Radios einschließen, die in der Lage sind, Signale unter Verwendung verschiedener geeigneter Drahtloskommunikationstechniken zu senden und zu empfangen. Solche Techniken können Kommunikationen über ein oder mehrere Drahtlosnetze einschließen. Als Beispiel dienende Drahtlosnetze umfassen (sind jedoch nicht darauf beschränkt) drahtlose lokale Netze (WLAN), drahtlose persönliche Netze (WPAN), drahtlose Großstadtnetze (WMAN), Mobilfunknetze und Satellitennetze. Bei der Kommunikation über solche Netze kann das Radio 1108 nach einem oder mehreren anwendbaren Standards in einer beliebigen Version arbeiten.
  • Bei verschiedenen Implementationen kann die Anzeige 1120 einen beliebigen Fernsehbildschirm oder eine beliebige Fernsehanzeige umfassen. Die Anzeige 1120 kann beispielsweise einen Computeranzeigebildschirm, eine Berührungsbildschirmanzeige, einen Videobildschirm, eine fernsehartige Vorrichtung und/oder ein Fernsehgerät umfassen. Die Anzeige 1120 kann digital und/oder analog sein. Unter der Kontrolle einer oder mehrerer Softwareanwendungen 1116 kann die Plattform 1102 eine Benutzerschnittstelle 1122 auf der Anzeige 1120 anzeigen.
  • Bei verschiedenen Implementationen können eine oder mehrere Inhaltsdienstvorrichtungen 1130 durch einen nationalen, internationalen und/oder unabhängigen Dienst, der demgemäß beispielsweise über das Internet für die Plattform 1102 zugänglich ist, gehostet sein. Die Inhaltsdienstvorrichtung (Inhaltsdienstvorrichtungen) 1130 kann (können) mit der Plattform 1102 und/oder der Anzeige 1120 gekoppelt sein. Die Plattform 1102 und/oder die Inhaltsdienstvorrichtung (Inhaltsdienstvorrichtungen) 1130 können mit einem Netz 1170 gekoppelt sein, um Medieninformationen zum Netz 1160 und von diesem zu übermitteln (beispielsweise zu senden und/oder zu empfangen). Die eine oder die mehreren Inhaltsliefervorrichtungen 1140 können auch mit der Plattform 1102 und/oder der Anzeige 1120 gekoppelt sein.
  • Bei verschiedenen Implementationen können die eine oder die mehreren Inhaltsdienstvorrichtungen 1130 einen Kabelfernsehkasten, einen Personalcomputer, ein Netz, ein Telefon, internetfähige Vorrichtungen oder ein Gerät, das in der Lage ist, digitale Informationen und/oder digitalen Inhalt auszuliefern, und eine beliebige andere ähnliche Vorrichtung, die in der Lage ist, Inhalt zwischen Inhaltsanbietern und der Plattform 1102 und/der Anzeige 1120 über das Netz 1170 oder direkt unidirektional oder bidirektional zu übermitteln, umfassen. Es sei bemerkt, dass der Inhalt unidirektional und/oder bidirektional zu einer der Komponenten im System 1100 und einem Inhaltsanbieter und von diesen über das Netz 1160 übermittelt werden kann. Beispiele von Inhalt können beliebige Medieninformationen einschließen, einschließlich beispielsweise Video-, Musik-, medizinischer und Spielinformationen usw.
  • Die eine oder die mehreren Inhaltsdienstvorrichtungen 1130 können Inhalt in der Art eines Kabelfernsehprogramms, einschließlich Medieninformationen, digitaler Informationen und/oder anderen Inhalt, empfangen. Beispiele von Inhaltsanbietern können beliebige Kabel- oder Satellitenfernseh- oder Radio- oder Internetinhaltsanbieter einschließen. Die bereitgestellten Beispiele sollen Implementationen gemäß der vorliegenden Offenbarung in keiner Weise einschränken.
  • Bei verschiedenen Implementationen kann die Plattform 1102 Steuersignale von der Navigationssteuereinrichtung 1150 mit einem oder mehreren Navigationsmerkmalen empfangen. Die Navigationsmerkmale der Steuereinrichtung 1150 können beispielsweise verwendet werden, um mit der Benutzerschnittstelle 1122 zu interagieren. Bei verschiedenen Implementationen kann die Navigationssteuereinrichtung 1150 eine Zeigevorrichtung sein, die eine Computerhardwarekomponente (insbesondere eine Human-Interface-Vorrichtung) sein kann, die es einem Benutzer ermöglicht, räumliche (beispielsweise kontinuierliche und mehrdimensionale) Daten in einen Computer einzugeben. Viele Systeme, wie graphische Benutzerschnittstellen (GUI) und Fernsehgeräte und Bildschirme, ermöglichen es dem Benutzer, den Computer oder das Fernsehgerät unter Verwendung physikalischer Gesten zu steuern und ihm dadurch Daten bereizustellen.
  • Bewegungen der Navigationsmerkmale der Steuereinrichtung 1150 können auf einer Anzeige (beispielsweise der Anzeige 1120) durch Bewegungen eines Zeigers, eines Cursors, eines Fokusrings oder anderer Sichtindikatoren, die auf der Anzeige angezeigt werden, repliziert werden. Beispielsweise können, durch Softwareanwendungen 1116 gesteuert, die Navigationsmerkmale, die sich auf der Navigationssteuereinrichtung 1150 befinden, auf virtuelle Navigationsmerkmale abgebildet werden, die beispielsweise auf der Benutzerschnittstelle 1122 angezeigt werden. Bei verschiedenen Implementationen kann die Steuereinrichtung 1150 keine getrennte Komponente sein, sondern in die Plattform 1102 und/oder die Anzeige 1120 integriert sein. Die vorliegende Offenbarung ist jedoch nicht auf die Elemente oder auf den Zusammenhang, die hier dargestellt oder beschrieben sind, beschränkt.
  • Bei verschiedenen Implementationen können Treiber (nicht dargestellt) eine Technologie aufweisen, um es Benutzern zu ermöglichen, die Plattform 1102 beispielsweise in der Art eines Fernsehgeräts mit der Berührung einer Taste nach dem anfänglichen Hochfahren, sofern dies ermöglicht es, sofort ein- und auszuschalten. Eine Programmlogik kann es der Plattform 1102 ermöglichen, Inhalt zu Medienadaptern oder einer oder mehreren anderen Inhaltsdienstvorrichtungen 1130 oder Inhaltsliefervorrichtungen 1140 zu streamen, wenn die Plattform „ausgeschaltet“ ist. Zusätzlich kann der Chipsatz 1105 eine Hardware- und/oder Softwareunterstützung beispielsweise für 5.1-Surround-Sound-Audio und/oder High-Definition-7.1-Surround-Sound-Audio aufweisen. Treiber können einen Graphiktreiber für integrierte Graphikplattformen einschließen. Bei verschiedenen Implementationen kann der Graphiktreiber eine Peripheriekomponentenverbindungs(PCI)-Express-Graphikkarte umfassen.
  • Bei verschiedenen Implementationen können eine oder mehrere der im System 1100 dargestellten Komponenten integriert sein. Beispielsweise können die Plattform 1102 und die eine oder die mehreren Inhaltsdienstvorrichtungen 1130 integriert sein oder können die Plattform 1102 und die eine oder die mehreren Inhaltsliefervorrichtungen 1140 integriert sein oder können beispielsweise die Plattform 1102, die eine oder die mehreren Inhaltsdienstvorrichtungen 1130 und die eine oder die mehreren Inhaltsliefervorrichtungen 1140 integriert sein. Bei verschiedenen Implementationen können die Plattform 1102 und die Anzeige 1120 eine integrierte Einheit sein. Die Anzeige 1120 und die eine oder die mehreren Inhaltsdienstvorrichtungen 1130 können integriert sein, oder die Anzeige 1120 und die eine oder die mehreren Inhaltsliefervorrichtungen 1140 können beispielsweise integriert sein. Diese Beispiele sollen die vorliegende Offenbarung nicht einschränken.
  • Bei verschiedenen Implementationen kann das System 1100 als ein drahtloses System, ein verdrahtetes System oder eine Kombination von beiden implementiert sein. Wenn es als ein drahtloses System implementiert wird, kann das System 1100 Komponenten oder Schnittstellen aufweisen, die für die Kommunikation über ein drahtloses geteiltes Medium geeignet sind, wie eine oder mehrere Antennen, Sender, Empfänger, Transceiver, Verstärker, Filter, Steuerlogik und dergleichen. Ein Beispiel eines drahtlosen geteilten Mediums kann Abschnitte eines Drahtlosspektrums in der Art des HF-Spektrums usw. einschließen. Wenn es als ein verdrahtetes System implementiert wird, kann das System 1100 Komponenten und Schnittstellen aufweisen, die für die Kommunikation über verdrahtete Kommunikationsmedien geeignet sind, wie Ein-/Ausgabe(E/A)-Adapter, physikalische Verbinder zum Verbinden des E/A-Adapters mit einem entsprechenden verdrahteten Kommunikationsmedium, eine Netzschnittstellenkarte (NIC), eine Plattensteuereinrichtung, eine Videosteuereinrichtung, eine Audiosteuereinrichtung usw. Beispiele verdrahteter Kommunikationsmedien können einen Draht, ein Kabel, Metallleitungen, eine gedruckte Leiterplatte (PCB), eine rückseitige Ebene, ein Schaltnetz, ein Halbleitermaterial, einen Twisted-Pair-Draht, ein Koaxialkabel, eine Faseroptik usw. einschließen.
  • Die Plattform 1102 kann einen oder mehrere logische oder physikalische Kanäle zur Übermittlung von Informationen einrichten. Die Informationen können Medieninformationen und Steuerinformationen einschließen. Medieninformationen können sich auf beliebige Daten beziehen, die Inhalt darstellen, der für einen Benutzer bestimmt ist. Beispiele von Inhalt können beispielsweise Daten von einem Gespräch, einer Videokonferenz, Streaming-Video, einer elektronischen Nachricht („E-Mail“), einer Sprachnachricht, alphanumerische Symbole, Graphiken, Bilddaten, Videodaten, Textdaten usw. einschließen. Daten von einem Gespräch können beispielsweise Sprachinformationen, Ruheperioden, Hintergrundgeräusche, Annehmlichkeitsgeräusche, Töne usw. einschließen. Steuerinformationen können sich auf jegliche Daten beziehen, die Befehle, Anweisungen oder Steuerwörter darstellen, die für ein automatisches System bestimmt sind. Beispielsweise können Steuerinformationen verwendet werden, um Medieninformationen durch ein System zu leiten oder einen Knoten anzuweisen, die Medieninformationen in einer vorgegebenen Weise zu verarbeiten. Die Implementationen sind jedoch nicht auf die Elemente oder den Zusammenhang beschränkt, die oder der in 11 dargestellt oder beschrieben sind.
  • Mit Bezug auf 12 sei bemerkt, dass die Systeme 1000 und 1100 in verschiedenen physischen Stilen oder Formfaktoren verwirklicht werden können. Eine Vorrichtung 1200 mit einem kleinen Formfaktor ist gemäß wenigstens einigen Implementationen der vorliegenden Offenbarung eingerichtet, so dass das System 1000 oder 1100 durch die Vorrichtung 1200 implementiert werden kann. Bei anderen Beispielen können andere Vorrichtungen oder Systeme oder Teile davon durch die Vorrichtung 1200 implementiert werden. Bei verschiedenen Implementationen kann die Vorrichtung 1200 beispielsweise als mobile Rechenvorrichtung mit Drahtlosfähigkeiten implementiert werden. Eine mobile Rechenvorrichtung kann sich auf eine beliebige Vorrichtung beziehen, die ein Verarbeitungssystem und eine mobile Leistungsquelle oder -versorgung, beispielsweise in der Art einer oder mehrerer Batterien, aufweist.
  • Beispiele einer mobilen Rechenvorrichtung können einen intelligenten Lautsprecher, einen Personalcomputer (PC), einen Laptopcomputer, einen Ultra-Laptopcomputer, ein Tablet, ein Phablet, einen Touchpad, einen tragbaren Computer, einen handgehaltenen Computer, einen Palmtopcomputer, einen persönlichen digitalen Assistenten (PDA), ein Mobiltelefon, eine Kombination aus einem Mobiltelefon und einem PDA, eine Smart-Vorrichtung (beispielsweise ein Smartphone, ein Smarttablet oder ein intelligentes mobiles Fernsehgerät), eine mobile Internetvorrichtung (MID), eine Nachrichtenaustauschvorrichtung, eine Datenkommunikationsvorrichtung, Kameras usw. aufweisen.
  • Beispiele einer mobilen Rechenvorrichtung können auch Computer aufweisen, die dafür eingerichtet sind, von einer Person getragen zu werden, wie Handgelenkcomputer, Fingercomputer, Ringcomputer, Brillencomputer, Gürtelklemmencomputer, Armbandcomputer, Schuhcomputer, Kleidungscomputer und andere tragbare Computer. Bei verschiedenen Implementationen kann eine mobile Rechenvorrichtung beispielsweise als ein Smartphone implementiert werden, das in der Lage ist, Computeranwendungen sowie Sprachkommunikationen und/oder Datenkommunikationen auszuführen. Wenngleich einige Implementationen als Beispiel mit einer als Smartphone implementierten mobilen Rechenvorrichtung beschrieben werden können, ist zu verstehen, dass andere Ausführungsformen auch unter Verwendung anderer drahtloser mobiler Rechenvorrichtungen implementiert werden können. Die Implementationen sind in dieser Hinsicht jedoch nicht beschränkt.
  • Wie in 12 dargestellt ist, kann die Vorrichtung 1200 ein Gehäuse mit einer Vorderseite 1201 und einer Rückseite 1202 aufweisen. Die Vorrichtung 1200 weist eine Anzeige 1204, eine Ein-/Ausgabe(E/A)-Vorrichtung 1206 und eine integrierte Antenne 1208 auf. Die Vorrichtung 1200 kann auch Navigationsmerkmale 1212 aufweisen. Die E/A-Vorrichtung 1206 kann eine beliebige geeignete E/A-Vorrichtung zur Eingabe von Informationen in eine mobile Rechenvorrichtung einschließen. Beispiele für die E/A-Vorrichtung 1206 können eine alphanumerische Tastatur, ein numerisches Tastenfeld, ein Touchpad, Eingabetasten, Eingabeknöpfe, Schalter, Mikrofone, Lautsprecher, eine Spracherkennungsvorrichtung und -software usw. einschließen. Informationen können auch durch ein oder mehrere Mikrofone 1216 in die Vorrichtung 1200 eingegeben werden und/oder durch eine Audioverarbeitungs- oder Spracherkennungsvorrichtung digitalisiert werden. Die Vorrichtung 1200 kann auch einen oder mehrere Lautsprecher 1214 aufweisen. Wie dargestellt ist, kann die Vorrichtung 1200 eine Kamera 1205 (beispielsweise eine Linse, eine Blende und einen Abbildungssensor) und einen in die Rückseite 1202 (oder an anderer Stelle) der Vorrichtung 1200 integrierten Blitz 1210 aufweisen.
  • Verschiedene Implementationen können unter Verwendung von Hardwareelementen, Softwareelementen oder einer Kombination von beiden implementiert werden. Beispiele von Hardwareelementen können Prozessoren, Mikroprozessoren, Schaltungen, Schaltungselemente (beispielsweise Transistoren, Widerstände, Kondensatoren, Induktoren usw.), integrierte Schaltungen, anwendungsspezifische integrierte Schaltungen (ASIC), programmierbare Logikvorrichtungen (PLD), digitale Signalprozessoren (DSP), ein feldprogrammierbares Gate-Array (FPGA), Logikgatter, Register, eine Halbleitervorrichtung, Chips, Mikrochips, Chipsätze usw. einschließen. Beispiele von Software können Softwarekomponenten, Programme, Anwendungen, Computerprogramme, Anwendungsprogramme, Systemprogramme, Maschinenprogramme, Betriebssystemsoftware, Middleware, Firmware, Softwaremodule, Routinen, Unterroutinen, Funktionen, Methoden, Prozeduren, Softwareschnittstellen, Anwendungsprogrammschnittstellen (API), Befehlssätze, Rechencode, Computercode, Codesegmente, Computercodesegmente, Wörter, Werte, Symbole oder eine Kombination davon einschließen. Die Bestimmung, ob eine Implementation unter Verwendung von Hardwareelementen und/oder Softwareelementen implementiert wird, kann von einer Anzahl von Faktoren in der Art der gewünschten Rechengeschwindigkeit, Stromverbrauchsniveaus, Wärmetoleranzen, des Verarbeitungszyklusbudgets, Dateneingaberaten, Datenausgaberaten, Speicherressourcen, Datenbusgeschwindigkeiten und anderer Entwurfs- oder Leistungsfähigkeitsrandbedingungen abhängen.
  • Ein oder mehrere Aspekte wenigstens einer Implementation können durch repräsentative Befehle implementiert werden, die auf einem maschinenlesbaren Medium gespeichert sind, wodurch verschiedene Logik innerhalb des Prozessors repräsentiert wird, wodurch, wenn sie von einer Maschine gelesen werden, die Maschine veranlasst wird, Logik zur Ausführung der hier beschriebenen Techniken zu bilden. Diese als „IP-Kerne“ bekannten Repräsentationen können auf einem physischen maschinenlesbaren Medium gespeichert werden und verschiedenen Kunden oder Herstellungseinrichtungen zugeführt werden, um sie in die Herstellungsmaschinen zu laden, welche tatsächlich die Logik oder den Prozessor bilden.
  • Wenngleich bestimmte hier dargelegte Merkmale mit Bezug auf verschiedene Implementationen beschrieben wurden, sollte diese Beschreibung nicht in einem einschränkenden Sinne ausgelegt werden. Daher wird davon ausgegangen, dass verschiedene Modifikationen der hier beschriebenen Implementationen sowie andere Implementationen, die Fachleuten auf dem Gebiet, auf das sich die vorliegende Offenbarung bezieht, einfallen werden, innerhalb des Gedankens und des Schutzumfangs der vorliegenden Offenbarung liegen.
  • Die folgenden Beispiele betreffen zusätzliche Implementationen.
  • Bei einem Beispiel umfasst ein computerimplementiertes Verfahren zur Spracherkennungsaktivierung Folgendes: Überwachen eines erfassten Audiosignals eines von wenigstens einem Mikrofon erfassten Tons zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal, Überwachen eines folgenden Nicht-Aufweckausdrucks im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck zur Erkennung wenigstens eines zusätzlichen Ziel-Schlüsselausdrucks im nachfolgenden Ausdruck, Anwenden einer Sprechererkennung auf den nachfolgenden Ausdruck und Erlauben einer Anwendung, ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung.
  • Ansonsten kann das Verfahren ein solches sein, wobei der nachfolgende Ausdruck den Sprachinhalt umfasst und wenigstens ein Befehl an wenigstens eine Computeranwendung ist, ansprechend auf den Inhalt zu handeln, wobei beim Anwenden der Sprechererkennung auf den nachfolgenden Ausdruck abhängig davon, ob bei der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird, und wobei das Verfahren Folgendes umfasst: Bilden eines Wörterbuchs wenigstens eines Teils des nachfolgenden Ausdrucks von mehreren erfassten und von einem Benutzer während der Laufzeit gesprochenen Audiosignalen, während der Benutzer eine Rechenvorrichtung betreibt, welche die erfassten Audiosignale empfängt, Registrieren des wenigstens einen Teils des nachfolgenden Ausdrucks anhand des Wörterbuchs zur Bildung eines oder mehrerer textabhängiger Stimmprofile und Ausführen einer textabhängigen Sprechererkennung unter Verwendung der textabhängigen Stimmprofile zur Bestimmung des Sprechers der nachfolgenden Ausdrücke anderer erfasster Audiosignale, getrenntes Registrieren wenigstens eines oder mehrerer einzelner Wörter des nachfolgenden Ausdrucks an Stelle von Ausdrücken mehrerer Wörter als einzelner Eintrag, der zu registrieren ist, um ihn zu einem oder mehreren textabhängigen Stimmprofilen hinzuzufügen.
  • Bei einem anderen Ansatz ist der nachfolgende Ausdruck ein Sicherheitsausdruck, wobei das erfasste Audiosignal einen Befehlsausdruck umfasst, der nach dem Sicherheitsausdruck im erfassten Audiosignal auftritt, wobei die textabhängige Sprechererkennung auf den Sicherheitsausdruck angewendet wird. Bei einer Option wird die textunabhängige Sprechererkennung auf den Befehlsausdruck angewendet. Bei einer alternativen Option wird beim Anwenden der Sprechererkennung auf den Befehlsausdruck abhängig davon, ob die Schlüsselausdruckserkennung wenigstens einen der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck findet, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt. Bei einer Option hängt das Erlauben einer Anwendung, zu handeln, von der auf den Aufweckschlüsselausdruck, den Sicherheitsausdruck und den Befehlsausdruck angewendeten Sprechererkennung ab. Bei einer Alternative umfasst das Verfahren Folgendes: Bestimmen eines zusammengefügten Sprecherbewertungswerts, der die sowohl auf den Aufweckschlüsselausdruck als auch den Sicherheitsausdruck angewendete Sprechererkennung berücksichtigt, und falls der zusammengefügte Sprecherbewertungswert wenigstens ein Kriterium erfüllt, Feststellen, ob die Sprechererkennungsergebnisse des Befehlsausdrucks wenigstens ein Kriterium erfüllen, um festzustellen, ob der Sprecher des erfassten Audiosignals erkannt wurde. Das Verfahren kann auch Folgendes umfassen: hörbares Emittieren von Medien, die im erfassten Audiosignal repräsentiert werden, und automatisches Unterbrechen der Emission der Medien, wenn ein Aufweckschlüsselausdruck im erfassten Audiosignal erkannt wird, so dass die Medien nicht in einen Teil des erfassten Audiosignals aufgenommen werden, der auf das Vorhandensein wenigstens eines Sicherheitsausdrucks zu überwachen ist.
  • Bei einer anderen Implementation umfasst ein computerimplementiertes System zur Sprechererkennungsaktivierung Folgendes: wenigstens ein Mikrofon, das wenigstens ein erfasstes Audiosignal bereitstellt, einen Speicher zum Speichern einer Form des wenigstens einen erfassten Audiosignals, wenigstens einen Prozessor, der kommunikativ mit dem Speicher und wenigstens einem Mikrofon gekoppelt ist, um Folgendes auszuführen: Überwachen des erfassten Audios zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal, Überwachen eines folgenden Nicht-Aufweckausdrucks im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck zur Erkennung wenigstens eines zusätzlichen Ziel-Schlüsselausdrucks im nachfolgenden Ausdruck, Anwenden einer Sprechererkennung auf den nachfolgenden Ausdruck und Erlauben einer Anwendung, ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung.
  • Bei einem anderen Beispiel ist ein System vorgesehen, wobei der nachfolgende Ausdruck ein Sicherheitsausdruck ist und wobei das erfasste Audiosignal einen Befehlsausdruck umfasst, der nach dem Sicherheitsausdruck im erfassten Audiosignal auftritt, wobei die textabhängige Sprechererkennung auf den Sicherheitsausdruck angewendet wird, wobei der wenigstens eine Prozessor Folgendes ausführen soll: Anwenden der Sprechererkennung auf den Befehlsausdruck und Berücksichtigen der auf den Aufweckschlüsselausdruck, den Sicherheitsausdruck und den Befehlsausdruck angewendeten Sprechererkennungsergebnisse, um festzustellen, ob der Anwendung erlaubt werden soll, zu handeln, wobei beim Anwenden der Sprechererkennung auf den Befehlsausdruck abhängig davon, ob durch Ausführen der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im Befehlsausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird. Alternativ soll der wenigstens eine Prozessor Folgendes ausführen: Bestimmen eines zusammengefügten Sprecherbewertungswerts, der die sowohl auf den Aufweckschlüsselausdruck als auch den Sicherheitsausdruck angewendete Sprechererkennung berücksichtigt, und falls der zusammengefügte Sprecherbewertungswert wenigstens ein Kriterium erfüllt, Feststellen, ob die Sprechererkennungsergebnisse des Befehlsausdrucks wenigstens ein Kriterium erfüllen, um festzustellen, ob der Sprecher des erfassten Audiosignals erkannt wurde. Das System umfasst Folgendes: einen Lautsprecher, der dafür eingerichtet ist, Audiomedien zu emittieren, wobei der wenigstens eine Prozessor die Emission der Medien und das Abschalten der Emission der Medien steuern soll, wenn eine Angabe empfangen wird, dass ein Aufweckschlüsselausdruck im erfassten Audiosignal gefunden wurde, und die Repräsentation der Medien in einem Teil des erfassten Audiosignals, der zu überwachen ist, um den Sicherheitsausdruck zu erkennen, verhindern soll, wobei der nachfolgende Ausdruck anfänglich ein Sicherheitsausdruck zwischen dem Aufweckschlüsselausdruck und einem Befehlsausdruck im erfassten Audiosignal ist und der wenigstens eine Prozessor Folgendes ausführen soll: Feststellen, welche Ausdrücke oder Wörter als Befehlsschlüsselausdrücke verwendet werden sollten, wobei die Befehlsschlüsselausdrücke während einer Laufzeit anhand des Befehlsausdrucks erhalten werden, Registrieren der Befehlsschlüsselausdrücke in ein textabhängiges Sprechererkennungsmodell des Befehlsausdrucks und Fortlassen der Sprechererkennung des Sicherheitsausdrucks, sobald festgestellt wurde, dass das textabhängige Sprechererkennungsmodell ausreichend hergestellt wurde, um die textabhängige Sprechererkennung am Befehlsausdruck auszuführen, so dass der nachfolgende Ausdruck zum Befehlsausdruck wird, wobei der wenigstens eine Prozessor Folgendes ausführen soll: Bereitstellen einer Benachrichtigung auf einer Schnittstelle mit einem Benutzer, um die Verwendung wenigstens eines Sicherheitsausdrucks zu unterbrechen, sobald entschieden wurde, die Sprechererkennung eines Sicherheitsausdrucks fortzulassen.
  • Bei einem Ansatz umfasst wenigstens ein maschinenlesbares Medium mehrere Befehle, die ansprechend darauf, dass sie auf wenigstens einer Rechenvorrichtung ausgeführt werden, die Rechenvorrichtung veranlassen, Folgendes auszuführen: Bestimmen eines ersten Bewertungswerts, der die Wahrscheinlichkeit angibt, dass ein erfasstes Audiosignal eines von wenigstens einem Mikrofon erfassten Tons wenigstens einen von einer automatisch erkennbaren Stimme gesprochenen Aufweckschlüsselausdruck aufweist, Erkennen, ob ein nachfolgender Ausdruck im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck wenigstens einen durch die Verwendung einer Schlüsselausdruckserkennung am nachfolgenden Ausdruck gefundenen zusätzlichen Schlüsselausdruck aufweist, Bestimmen eines zweiten Bewertungswerts, der die Wahrscheinlichkeit angibt, dass der wenigstens eine zusätzliche Schlüsselausdruck durch eine automatisch erkennbare Stimme gesprochen wurde, und Erlauben einer Anwendung, ansprechend auf Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der durch Berücksichtigen wenigstens beider vom ersten und vom zweiten Bewertungswert vorgenommenen Erkennung wenigstens eines Sprechers des erfassten Audiosignals.
  • Bei einem anderen Ansatz veranlassen die Befehle die Rechenvorrichtung, zu arbeiten, wenn der Sprachinhalt, der in dem nachfolgenden Ausdruck enthalten ist, wenigstens ein Befehl an wenigstens eine Computeranwendung ist, und ansprechend auf den Inhalt zu handeln, wobei die Befehle die Rechenvorrichtung veranlassen, eine textabhängige Sprechererkennung und eine textunabhängige Sprechererkennung des nachfolgenden Ausdrucks parallel auszuführen und den zweiten Bewertungswert der textabhängigen oder textunabhängigen Sprechererkennung abhängig davon zu verwenden, ob die Schlüsselausdruckserkennung wenigstens einen der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck findet, wobei die Befehle die Rechenvorrichtung veranlassen, Folgendes auszuführen: Bilden eines Wörterbuchs wenigstens eines Teils des nachfolgenden Ausdrucks von mehreren erfassten und von einem Benutzer während der Laufzeit gesprochenen Audiosignalen, während der Benutzer eine Rechenvorrichtung betreibt, welche die erfassten Audiosignale empfängt, Registrieren wenigstens eines Teils des nachfolgenden Ausdrucks anhand des Wörterbuchs zur Bildung eines oder mehrerer textabhängiger Stimmprofile und Ausführen einer textabhängigen Sprechererkennung unter Verwendung der textabhängigen Stimmprofile zur Bildung des zweiten Bewertungswerts.
  • Bei einem weiteren Beispiel kann wenigstens ein maschinenlesbares Medium mehrere Befehle aufweisen, die ansprechend darauf, dass sie auf einer Rechenvorrichtung ausgeführt werden, die Rechenvorrichtung veranlassen, das Verfahren nach einem der vorstehenden Beispiele auszuführen.
  • Bei einem weiteren Beispiel kann eine Vorrichtung Mittel zur Ausführung der Verfahren nach einem der vorstehenden Beispiele aufweisen.
  • Die vorstehenden Beispiele können spezifische Kombinationen von Merkmalen aufweisen. Die vorstehenden Beispiele sind jedoch nicht in dieser Hinsicht beschränkt, und es können dabei bei verschiedenen Implementationen lediglich eine Untermenge dieser Merkmale, eine andere Reihenfolge dieser Merkmale, eine andere Kombination dieser Merkmale und/oder zusätzliche Merkmale zu den explizit aufgelisteten Merkmalen verwirklicht werden. Beispielsweise können alle hier mit Bezug auf beispielhafte Verfahren beschriebenen Merkmale in Bezug auf beispielhafte Vorrichtungen, beispielhafte Systeme und/oder beispielhafte Artikel angewendet werden und umgekehrt.

Claims (23)

  1. Computerimplementiertes Verfahren (300) zur Sprechererkennungsaktivierung, welches Folgendes umfasst: Überwachen (302) eines erfassten Audiosignals eines von wenigstens einem Mikrofon erfassten Tons zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal, Überwachen (304) eines folgenden Nicht-Aufweckausdrucks im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck zur Erkennung wenigstens eines zusätzlichen Ziel-Schlüsselausdrucks im nachfolgenden Ausdruck, Anwenden (306) einer Sprechererkennung auf den nachfolgenden Ausdruck und Erlauben (308) einer Anwendung, ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung, wobei beim Anwenden der Sprechererkennung auf den nachfolgenden Ausdruck abhängig davon, ob bei der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird.
  2. Verfahren (300) nach Anspruch 1, wobei der nachfolgende Ausdruck den Sprachinhalt umfasst und wenigstens ein Befehl an wenigstens eine Computeranwendung ist, ansprechend auf den Inhalt zu handeln.
  3. Verfahren (300) nach Anspruch 1 oder 2, welches Folgendes umfasst: Bilden eines Wörterbuchs wenigstens eines Teils des nachfolgenden Ausdrucks von mehreren erfassten und von einem Benutzer während der Laufzeit gesprochenen Audiosignalen, während der Benutzer eine Rechenvorrichtung betreibt, welche die erfassten Audiosignale empfängt, Registrieren des wenigstens einen Teils des nachfolgenden Ausdrucks anhand des Wörterbuchs zur Bildung eines oder mehrerer textabhängiger Stimmprofile und Ausführen einer textabhängigen Sprechererkennung unter Verwendung der textabhängigen Stimmprofile zur Bestimmung des Sprechers der nachfolgenden Ausdrücke anderer erfasster Audiosignale.
  4. Verfahren (300) nach Anspruch 3, welches Folgendes umfasst: getrenntes Registrieren wenigstens eines oder mehrerer einzelner Wörter des nachfolgenden Ausdrucks an Stelle von Ausdrücken mehrerer Wörter als einzelner Eintrag, der zu registrieren ist, um ihn zu einem oder mehreren textabhängigen Stimmprofilen hinzuzufügen.
  5. Verfahren (300) nach einem der Ansprüche 1 bis 4, wobei der nachfolgende Ausdruck ein Sicherheitsausdruck ist und wobei das erfasste Audiosignal einen Befehlsausdruck umfasst, der nach dem Sicherheitsausdruck im erfassten Audiosignal auftritt.
  6. Verfahren (300) nach Anspruch 5, wobei die textabhängige Sprechererkennung auf den Sicherheitsausdruck angewendet wird.
  7. Verfahren (300) nach Anspruch 5 oder 6, wobei die textunabhängige Sprechererkennung auf den Befehlsausdruck angewendet wird.
  8. Verfahren (300) nach Anspruch 5, 6 oder 7, wobei das Erlauben einer Anwendung zu handeln von der auf den Aufweckschlüsselausdruck, den Sicherheitsausdruck und den Befehlsausdruck angewendeten Sprechererkennung abhängt.
  9. Verfahren (300) nach einem der Ansprüche 5 bis 8, wobei beim Anwenden der Sprechererkennung auf den Befehlsausdruck abhängig davon, ob die Schlüsselausdruckserkennung wenigstens einen der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck findet, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird.
  10. Verfahren (300) nach einem der Ansprüche 5 bis 9, welches Folgendes umfasst: Bestimmen eines zusammengefügten Sprecherbewertungswerts, der die sowohl auf den Aufweckschlüsselausdruck als auch den Sicherheitsausdruck angewendete Sprechererkennung berücksichtigt, und falls der zusammengefügte Sprecherbewertungswert wenigstens ein Kriterium erfüllt, Feststellen, ob die Sprechererkennungsergebnisse des Befehlsausdrucks wenigstens ein Kriterium erfüllen, um festzustellen, ob der Sprecher des erfassten Audiosignals erkannt wurde.
  11. Verfahren nach einem der Ansprüche 5 bis 10, welches Folgendes umfasst: hörbares Emittieren von Medien, die im erfassten Audiosignal repräsentiert werden, und automatisches Unterbrechen der Emission der Medien, wenn ein Aufweckschlüsselausdruck im erfassten Audiosignal erkannt wird, so dass die Medien nicht in einen Teil des erfassten Audiosignals aufgenommen werden, der auf das Vorhandensein wenigstens eines Sicherheitsausdrucks zu überwachen ist.
  12. Computerimplementiertes Audioverarbeitungssystem (1000), welches Folgendes umfasst: wenigstens ein Mikrofon (1002), das wenigstens ein erfasstes Audiosignal bereitstellt, einen Speicher (1050) zum Speichern einer Form des wenigstens einen erfassten Audiosignals, wenigstens einen Prozessor (1046), der kommunikativ mit dem Speicher (1050) und wenigstens einem Mikrofon (1002) gekoppelt ist, um Folgendes auszuführen: Überwachen des erfassten Audios zur automatischen Erkennung wenigstens eines Sprechers wenigstens eines Ziel-Aufweckschlüsselausdrucks im erfassten Audiosignal, Überwachen eines folgenden Nicht-Aufweckausdrucks im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck zur Erkennung wenigstens eines zusätzlichen Ziel-Schlüsselausdrucks im nachfolgenden Ausdruck, Anwenden einer Sprechererkennung auf den nachfolgenden Ausdruck und Erlauben einer Anwendung, ansprechend auf den Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der sowohl auf den Aufweckschlüsselausdruck als auch den nachfolgenden Ausdruck angewendeten Sprechererkennung, wobei beim Anwenden der Sprechererkennung auf den Befehlsausdruck abhängig davon, ob durch Ausführen der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im Befehlsausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird.
  13. System (1000) nach Anspruch 12, wobei der nachfolgende Ausdruck ein Sicherheitsausdruck ist und wobei das erfasste Audiosignal einen Befehlsausdruck umfasst, der nach dem Sicherheitsausdruck im erfassten Audiosignal auftritt.
  14. System (1000) nach Anspruch 13, wobei die textabhängige Sprechererkennung auf den Sicherheitsausdruck angewendet wird.
  15. System (1000) nach Anspruch 13 oder 14, wobei der wenigstens eine Prozessor (1046) dazu eingerichtet ist, Folgendes auszuführen: Anwenden der Sprechererkennung auf den Befehlsausdruck und Berücksichtigen der auf den Aufweckschlüsselausdruck, den Sicherheitsausdruck und den Befehlsausdruck angewendeten Sprechererkennungsergebnisse, um festzustellen, ob der Anwendung erlaubt werden soll, zu handeln.
  16. System (1000) nach einem der Ansprüche 13 bis 15, wobei der wenigstens eine Prozessor (1046) dazu eingerichtet ist, Folgendes auszuführen: Bestimmen eines zusammengefügten Sprecherbewertungswerts, der die sowohl auf den Aufweckschlüsselausdruck als auch den Sicherheitsausdruck angewendete Sprechererkennung berücksichtigt, und falls der zusammengefügte Sprecherbewertungswert wenigstens ein Kriterium erfüllt, Feststellen, ob die Sprechererkennungsergebnisse des Befehlsausdrucks wenigstens ein Kriterium erfüllen, um festzustellen, ob der Sprecher des erfassten Audiosignals erkannt wurde.
  17. System (1000) nach einem der Ansprüche 13 bis 16, welches Folgendes umfasst: einen Lautsprecher (1044), der dafür eingerichtet ist, Audiomedien zu emittieren, wobei der wenigstens eine Prozessor (1046) dazu eingerichtet ist die Emission der Medien und das Abschalten der Emission der Medien zu steuern, wenn eine Angabe empfangen wird, dass ein Aufweckschlüsselausdruck im erfassten Audiosignal gefunden wurde, und die Repräsentation der Medien in einem Teil des erfassten Audiosignals, der zu überwachen ist, um den Sicherheitsausdruck zu erkennen, verhindern soll.
  18. System (1000) nach einem der Ansprüche 12 bis 17, wobei der nachfolgende Ausdruck anfänglich ein Sicherheitsausdruck zwischen dem Aufweckschlüsselausdruck und einem Befehlsausdruck im erfassten Audiosignal ist und der wenigstens eine Prozessor (1046) dazu eingerichtet ist Folgendes auszuführen: Feststellen, welche Ausdrücke oder Wörter als Befehlsschlüsselausdrücke verwendet werden sollten, wobei die Befehlsschlüsselausdrücke während einer Laufzeit anhand des Befehlsausdrucks erhalten werden, Registrieren der Befehlsschlüsselausdrücke in ein textabhängiges Sprechererkennungsmodell des Befehlsausdrucks und Fortlassen der Sprechererkennung des Sicherheitsausdrucks, sobald festgestellt wurde, dass das textabhängige Sprechererkennungsmodell ausreichend hergestellt wurde, um die textabhängige Sprechererkennung am Befehlsausdruck auszuführen, so dass der Befehlsausdruck der nachfolgende Ausdruck wird.
  19. System (1000) nach Anspruch 18, wobei der wenigstens eine Prozessor (1046) dazu eingerichtet ist Folgendes auszuführen: Bereitstellen einer Benachrichtigung auf einer Schnittstelle mit einem Benutzer, um die Verwendung wenigstens eines Sicherheitsausdrucks zu unterbrechen, sobald entschieden wurde, die Sprechererkennung an einem Sicherheitsausdrucks fortzulassen.
  20. Wenigstens ein maschinenlesbares Medium, das mehrere Befehle umfasst, die ansprechend darauf, dass sie auf wenigstens einer Rechenvorrichtung ausgeführt werden, die Rechenvorrichtung veranlassen, Folgendes auszuführen: Bestimmen eines ersten Bewertungswerts, der die Wahrscheinlichkeit angibt, dass ein erfasstes Audiosignal eines von wenigstens einem Mikrofon erfassten Tons wenigstens einen von einer gemäß einem Sprechermodell automatisch erkennbaren Stimme gesprochenen Aufweckschlüsselausdruck aufweist, Erkennen, ob ein nachfolgender Ausdruck im erfassten Audiosignal anschließend an den Aufweckschlüsselausdruck wenigstens einen durch die Verwendung einer Schlüsselausdruckserkennung am nachfolgenden Ausdruck gefundenen zusätzlichen Schlüsselausdruck aufweist, Bestimmen eines zweiten Bewertungswerts, der die Wahrscheinlichkeit angibt, dass der wenigstens eine zusätzliche Schlüsselausdruck durch eine gemäß einem Sprechermodell automatisch erkennbare Stimme gesprochen wurde, und Erlauben einer Anwendung, ansprechend auf Sprachinhalt des erfassten Audiosignals zu handeln, wenigstens teilweise abhängig von der durch Berücksichtigen wenigstens beider vom ersten und vom zweiten Bewertungswert vorgenommenen Erkennung wenigstens eines Sprechers des erfassten Audiosignals, wobei beim Anwenden der Sprechererkennung auf den Befehlsausdruck abhängig davon, ob durch Ausführen der Schlüsselausdruckserkennung wenigstens einer der zusätzlichen Schlüsselausdrücke im Befehlsausdruck gefunden wird, alternativ eine textabhängige Sprechererkennung oder eine textunabhängige Sprechererkennung ausgeführt wird.
  21. Medium nach Anspruch 20, wobei der nachfolgende Ausdruck Sprachinhalt umfasst und wenigstens ein Befehl an wenigstens eine Computeranwendung ist, ansprechend auf den Inhalt zu handeln, wobei die Befehle die Rechenvorrichtung veranlassen, eine textabhängige Sprechererkennung und eine textunabhängige Sprechererkennung des nachfolgenden Ausdrucks parallel auszuführen und den zweiten Bewertungswert der textabhängigen oder textunabhängigen Sprechererkennung abhängig davon zu verwenden, ob die Schlüsselausdruckserkennung wenigstens einen der zusätzlichen Schlüsselausdrücke im nachfolgenden Ausdruck findet.
  22. Wenigstens ein maschinenlesbares Medium, das mehrere Befehle aufweist, die ansprechend darauf, dass sie auf einer Rechenvorrichtung ausgeführt werden, die Rechenvorrichtung veranlassen, das Verfahren nach einem der Ansprüche 1 bis 11 auszuführen.
  23. Vorrichtung, welche Mittel zur Ausführung des Verfahrens nach einem der Ansprüche 1 bis 11 umfasst.
DE102019112380.1A 2018-06-21 2019-05-13 Verfahren und System zur robusten Sprechererkennungsaktivierung Active DE102019112380B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/014,356 2018-06-21
US16/014,356 US10818296B2 (en) 2018-06-21 2018-06-21 Method and system of robust speaker recognition activation

Publications (2)

Publication Number Publication Date
DE102019112380A1 DE102019112380A1 (de) 2019-12-24
DE102019112380B4 true DE102019112380B4 (de) 2022-11-24

Family

ID=65230728

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019112380.1A Active DE102019112380B4 (de) 2018-06-21 2019-05-13 Verfahren und System zur robusten Sprechererkennungsaktivierung

Country Status (2)

Country Link
US (1) US10818296B2 (de)
DE (1) DE102019112380B4 (de)

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
KR102623727B1 (ko) * 2018-10-29 2024-01-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11004454B1 (en) * 2018-11-06 2021-05-11 Amazon Technologies, Inc. Voice profile updating
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120804B2 (en) * 2019-04-01 2021-09-14 Google Llc Adaptive management of casting requests and/or user inputs at a rechargeable device
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
KR20210055347A (ko) * 2019-11-07 2021-05-17 엘지전자 주식회사 인공 지능 장치
US11735177B2 (en) * 2019-12-12 2023-08-22 Silicon Laboratories Inc. Keyword spotting using machine learning
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US20220101872A1 (en) * 2020-09-25 2022-03-31 Descript, Inc. Upsampling of audio using generative adversarial networks
CN112863545B (zh) * 2021-01-13 2023-10-03 抖音视界有限公司 性能测试方法、装置、电子设备及计算机可读存储介质
US11941097B2 (en) 2021-03-01 2024-03-26 ID R&D Inc. Method and device for unlocking a user device by voice
US11942094B2 (en) * 2021-03-24 2024-03-26 Google Llc Hybrid multilingual text-dependent and text-independent speaker verification
US11568878B2 (en) * 2021-04-16 2023-01-31 Google Llc Voice shortcut detection with speaker verification
CN114400006B (zh) * 2022-01-24 2024-03-15 腾讯科技(深圳)有限公司 语音识别方法和装置
WO2023183664A1 (en) * 2022-03-21 2023-09-28 Qualcomm Incorporated Multi-task learning for personalized keyword spotting

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US20170351487A1 (en) 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface

Family Cites Families (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3826032B2 (ja) 2001-12-28 2006-09-27 株式会社東芝 音声認識装置、音声認識方法及び音声認識プログラム
GB2426368A (en) 2005-05-21 2006-11-22 Ibm Using input signal quality in speeech recognition
US7778831B2 (en) 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
WO2008074076A1 (en) 2006-12-19 2008-06-26 Torqx Pty Limited Confidence levels for speaker recognition
EP2048656B1 (de) 2007-10-10 2010-02-10 Harman/Becker Automotive Systems GmbH Sprechererkennung
CN101465123B (zh) 2007-12-20 2011-07-06 株式会社东芝 说话人认证的验证方法和装置以及说话人认证系统
WO2010008722A1 (en) * 2008-06-23 2010-01-21 John Nicholas Gross Captcha system optimized for distinguishing between humans and machines
US8793135B2 (en) * 2008-08-25 2014-07-29 At&T Intellectual Property I, L.P. System and method for auditory captchas
US8762149B2 (en) * 2008-12-10 2014-06-24 Marta Sánchez Asenjo Method for verifying the identity of a speaker and related computer readable medium and computer
US20150112682A1 (en) * 2008-12-10 2015-04-23 Agnitio Sl Method for verifying the identity of a speaker and related computer readable medium and computer
US8301514B1 (en) * 2010-09-14 2012-10-30 Amazon Technologies, Inc. System, method, and computer readable medium for providing recommendations based on purchase phrases
US8639508B2 (en) 2011-02-14 2014-01-28 General Motors Llc User-specific confidence thresholds for speech recognition
KR101971697B1 (ko) * 2012-02-24 2019-04-23 삼성전자주식회사 사용자 디바이스에서 복합 생체인식 정보를 이용한 사용자 인증 방법 및 장치
US9042867B2 (en) 2012-02-24 2015-05-26 Agnitio S.L. System and method for speaker recognition on mobile devices
CN103973441B (zh) * 2013-01-29 2016-03-09 腾讯科技(深圳)有限公司 基于音视频的用户认证方法和装置
US9218813B2 (en) * 2013-03-14 2015-12-22 Intel Corporation Voice and/or facial recognition based service provision
US9263055B2 (en) * 2013-04-10 2016-02-16 Google Inc. Systems and methods for three-dimensional audio CAPTCHA
US9317736B1 (en) * 2013-05-08 2016-04-19 Amazon Technologies, Inc. Individual record verification based on features
JP6169910B2 (ja) 2013-07-08 2017-07-26 本田技研工業株式会社 音声処理装置
US9406295B2 (en) 2013-11-22 2016-08-02 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
US9390726B1 (en) * 2013-12-30 2016-07-12 Google Inc. Supplementing speech commands with gestures
US9412358B2 (en) * 2014-05-13 2016-08-09 At&T Intellectual Property I, L.P. System and method for data-driven socially customized models for language generation
US9548979B1 (en) * 2014-09-19 2017-01-17 United Services Automobile Association (Usaa) Systems and methods for authentication program enrollment
US10318575B2 (en) * 2014-11-14 2019-06-11 Zorroa Corporation Systems and methods of building and using an image catalog
US20170323644A1 (en) * 2014-12-11 2017-11-09 Nec Corporation Speaker identification device and method for registering features of registered speech for identifying speaker
US9734410B2 (en) * 2015-01-23 2017-08-15 Shindig, Inc. Systems and methods for analyzing facial expressions within an online classroom to gauge participant attentiveness
US9300801B1 (en) * 2015-01-30 2016-03-29 Mattersight Corporation Personality analysis of mono-recording system and methods
US10305895B2 (en) * 2015-04-14 2019-05-28 Blubox Security, Inc. Multi-factor and multi-mode biometric physical access control device
JP6596376B2 (ja) 2015-04-22 2019-10-23 パナソニック株式会社 話者識別方法及び話者識別装置
US9641585B2 (en) * 2015-06-08 2017-05-02 Cisco Technology, Inc. Automated video editing based on activity in video conference
US10178301B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. User identification based on voice and face
US10277581B2 (en) * 2015-09-08 2019-04-30 Oath, Inc. Audio verification
WO2017112813A1 (en) * 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
SG10201600561YA (en) * 2016-01-25 2017-08-30 Mastercard Asia Pacific Pte Ltd A Method For Facilitating A Transaction Using A Humanoid Robot
WO2017137947A1 (en) * 2016-02-10 2017-08-17 Vats Nitin Producing realistic talking face with expression using images text and voice
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
US10476888B2 (en) * 2016-03-23 2019-11-12 Georgia Tech Research Corporation Systems and methods for using video for user and message authentication
US9972322B2 (en) 2016-03-29 2018-05-15 Intel Corporation Speaker recognition using adaptive thresholding
US9984314B2 (en) * 2016-05-06 2018-05-29 Microsoft Technology Licensing, Llc Dynamic classifier selection based on class skew
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10198626B2 (en) * 2016-10-19 2019-02-05 Snap Inc. Neural networks for facial modeling
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
US20180187969A1 (en) * 2017-01-03 2018-07-05 Samsung Electronics Co., Ltd. Refrigerator
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
US10347244B2 (en) * 2017-04-21 2019-07-09 Go-Vivace Inc. Dialogue system incorporating unique speech to text conversion method for meaningful dialogue response
DK179948B1 (en) * 2017-05-16 2019-10-22 Apple Inc. Recording and sending Emoji
US10210685B2 (en) * 2017-05-23 2019-02-19 Mastercard International Incorporated Voice biometric analysis systems and methods for verbal transactions conducted over a communications network
US10339935B2 (en) 2017-06-19 2019-07-02 Intel Corporation Context-aware enrollment for text independent speaker recognition
JP7123540B2 (ja) * 2017-09-25 2022-08-23 キヤノン株式会社 音声情報による入力を受け付ける情報処理端末、方法、その情報処理端末を含むシステム
US10515640B2 (en) 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US11348056B2 (en) * 2017-12-21 2022-05-31 United States Postal Service Digital stamps
US10834365B2 (en) * 2018-02-08 2020-11-10 Nortek Security & Control Llc Audio-visual monitoring using a virtual assistant
US11335079B2 (en) * 2018-03-05 2022-05-17 Intel Corporation Method and system of reflection suppression for image processing
US10878825B2 (en) * 2018-03-21 2020-12-29 Cirrus Logic, Inc. Biometric processes
US10720166B2 (en) * 2018-04-09 2020-07-21 Synaptics Incorporated Voice biometrics systems and methods
US11196669B2 (en) * 2018-05-17 2021-12-07 At&T Intellectual Property I, L.P. Network routing of media streams based upon semantic contents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9711148B1 (en) 2013-07-18 2017-07-18 Google Inc. Dual model speaker identification
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US20170351487A1 (en) 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface

Also Published As

Publication number Publication date
US20190043507A1 (en) 2019-02-07
DE102019112380A1 (de) 2019-12-24
US10818296B2 (en) 2020-10-27

Similar Documents

Publication Publication Date Title
DE102019112380B4 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
DE102019122180B4 (de) Verfahren und system zur schlüsselausdruckserkennung auf der grundlage eines neuronalen netzes
US10515640B2 (en) Generating dialogue based on verification scores
US11423904B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
DE102017125396B4 (de) Abfrage-Endpunktbestimmung auf Basis der Lippenerkennung
DE112020004504T5 (de) Kontoverbindung mit Gerät
DE112018002857T5 (de) Sprecheridentifikation mit ultrakurzen Sprachsegmenten für Fern- und Nahfeld-Sprachunterstützungsanwendungen
DE102020202489A1 (de) Verfahren und system zur sehr genauen schlüsselausdruckserkennung für vorrichtung mit geringen ressourcen
US20180012593A1 (en) Keyword detection modeling using contextual information
DE102018204860A1 (de) Systeme und Verfahren für energieeffiziente und leistungsarme verteilte automatische Spracherkennung auf tragbaren Vorrichtungen
US20150095027A1 (en) Key phrase detection
Gogate et al. DNN driven speaker independent audio-visual mask estimation for speech separation
DE112021001064T5 (de) Vorrichtungsgerichtete Äußerungserkennung
DE112018006101T5 (de) Dynamische Anmeldung einer benutzerdefinierten Aufweck-Schlüsselphrase für ein sprachfähiges Computersystem
DE112020002531T5 (de) Emotionsdetektion unter verwendung der sprechergrundlinie
DE102019104304B4 (de) Dynamische Anpassung von Sprachverständnissystemen an akustische Umgebungen
Chazan et al. Deep recurrent mixture of experts for speech enhancement
CN113192535A (zh) 一种语音关键词检索方法、系统和电子装置
DE102020130041A1 (de) Verbergen von phrasen in über luft laufendem audio
DE102022128593A1 (de) Verfahren und system zur automatischen kontextgebundenen domänenspezifischen spracherkennung
CN113330513A (zh) 语音信息处理方法及设备
Fernando et al. Eigenfeatures: An alternative to Shifted Delta Coefficients for Language Identification
Osanai et al. Exploring sub-band cepstral distances for more robust speaker classification
Fujita et al. Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech.

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0017240000

R082 Change of representative

Representative=s name: HGF EUROPE LLP, DE

Representative=s name: HGF EUROPE LP, DE

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final