DE102018126133A1

DE102018126133A1 - Generieren von Dialog auf Basis von Verifikationswerten

Info

Publication number: DE102018126133A1
Application number: DE102018126133.0A
Authority: DE
Inventors: Jonathan Huang; David Pearce; Willem Beltman
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2017-11-08
Filing date: 2018-10-22
Publication date: 2019-05-09
Also published as: BR102018070673A2; US20190027152A1; US10515640B2

Abstract

Eine beispielhafte Vorrichtung zum Generieren von Dialog beinhaltet einen Audioempfänger zum Empfangen von Audiodaten, einschließlich Sprache. Die Vorrichtung beinhaltet auch einen Verifikationswertgenerator zum Generieren eines Verifikationswerts auf Basis der Audiodaten. Die Vorrichtung beinhaltet ferner einen Benutzerdetektor zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Die Vorrichtung beinhaltet einen Dialoggenerator zum Generieren von Dialog zum Einholen zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.

Description

Hintergrund
Natürliche Sprachschnittstellen können automatische Spracherkennung (Automatic Speech Recognition; ASR) und Verarbeitung natürlicher Sprache (Natural Language Processing; NLP) verwenden, um gesprochene Befehle von Benutzern zu empfangen und in Reaktion auf die gesprochenen Befehle Aktionen durchzuführen. ASR kann beispielsweise verwendet werden, um die gesprochenen Befehle in ein maschinenlesbares Format umzuwandeln. Dann kann NPL verwendet werden, um die maschinenlesbaren Befehle in eine oder mehrere Aktionen zu übersetzen.
Figurenliste

1 ist ein Blockdiagramm, das eine beispielhafte Verarbeitungspipeline zum Generieren eines Sprecherverifikationswertes veranschaulicht;
2 ist ein detailliertes Flussdiagramm, das einen beispielhaften Prozess zum Generieren von Dialog auf Basis eines Sprecherverifikationswertes veranschaulicht;
3 ist ein Blockdiagramm, das ein beispielhaftes Generieren eines Sprecherverifikationswertes für zum Beispiel Audiodaten, die von einem Sprecher empfangen werden, veranschaulicht;
4 ist ein Graph, der einen beispielhaften Erkennungsfehlerkompromiss veranschaulicht;
5 ist ein Flussdiagramm, das ein Verfahren zum Erzeugen von Dialog auf Basis eines Sprecherverifikationswertes veranschaulicht;
6 ist ein Blockdiagramm, das eine beispielhafte Rechenvorrichtung veranschaulicht, die Dialog auf Basis eines Sprecherverifikationswertes generieren kann;und
7 ist ein Blockdiagramm, das computerlesbare Medien zeigt, die Code zum Generieren von Dialog auf Basis eines Sprecherverifikationswertes speichern.

Es werden in der gesamten Offenbarung die gleichen Zahlen und Figuren verwendet, um auf gleiche Komponenten und Merkmale Bezug zu nehmen. Zahlen in der 100-Folge beziehen sich auf Merkmale, die sich ursprünglich in 1 finden; Zahlen in der 200-Folge beziehen sich auf Merkmale, die sich ursprünglich in 2 finden usw.
Beschreibung der Ausführungsformen
Wie vorstehend diskutiert, können natürliche Stimmschnittstellen mit einem oder mehreren Dienst(en) in Reaktion auf das Empfangen gesprochener Befehle verwendet werden. Eine natürliche Stimmschnittstelle kann beispielsweise einen gesprochenen Befehl empfangen und eine oder mehrere Aufgabe(n) in Reaktion auf den gesprochenen Befehl durchführen. Manche Schnittstellen für natürliche Sprache verfügen jedoch möglicherweise nicht über die Fähigkeit zu erkennen, wer spricht. Darüber hinaus müssen solche Systeme, selbst wenn manche Systeme für natürliche Sprache die Fähigkeit beinhalten zu erkennen, wer spricht, möglicherweise auf Basis einer ersten Eingabe eine Entscheidung zur Sprecheridentität treffen. Das Treffen von Entscheidungen auf Basis von nur einer Eingabe kann zu Fehlern führen, bei denen ein Benutzer abgelehnt oder falsch als eine andere Person identifiziert werden kann, und als Folge Benutzerfrustration verursachen.
Die vorliegende Offenbarung bezieht sich im Allgemeinen auf Techniken zum automatischen Generieren von Dialog. Insbesondere beinhalten die hierin beschriebenen Techniken eine Vorrichtung, ein Verfahren und ein System zum Generieren von Dialog auf Basis eines berechneten Verifikationswertes. Insbesondere können die hierin beschriebenen Techniken verwendet werden, um festzustellen, wann zusätzlicher Dialog zum Zweck der Verbesserung des Vertrauens eines Systems in einen Stimmverifikationswert eines Sprechers zu generieren ist. Eine beispielhafte Vorrichtung beinhaltet einen Audioempfänger zum Empfangen von Audiodaten, einschließlich Sprache. Die Vorrichtung kann einen Schlüsselphrasendetektor zum Erkennen einer Schlüsselphrase in den Audiodaten beinhalten. Die Vorrichtung beinhaltet auch einen Verifikationswertgenerator zum Generieren eines Verifikationswerts auf Basis der Audiodaten. Die Vorrichtung beinhaltet ferner einen Benutzerdetektor zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Die Vorrichtung beinhaltet ferner auch einen Dialoggenerator zum Generieren eines Dialogs zur Anforderung zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.
Die hierin beschriebenen Techniken befähigen somit eine Anpassung des Dialogflusses, wenn Ungewissheit bei den Sprecherverifikationswerten besteht oder Messungen der Eingabesignalqualität angeben, dass die Sprechererkennungsleistung aufgrund der Umgebungsbedingungen problematisch ist. Eine Audioprobe der Sprache des Benutzers kann beispielsweise aufgrund von Hintergrundgeräuschen von niedriger Qualität sein oder die Audioprobe kann für einen hohen Verifikationswert zu kurz sein. Darüber hinaus können die Techniken mit der Sprechererkennungsfähigkeit die Fähigkeit bereitstellen, Benutzerprofile intelligent zu verwalten, um benutzerspezifische Inhaltsempfehlungen zu geben und Zugriff auf gewisse eingeschränkte Aufgaben zu gewähren, wie etwa das Steuern von Geräten oder das Einreichen von Bestellungen. Zusätzlich stellen die beschriebenen Techniken diverse Verbesserungen bereit, die eine verbesserte Benutzererfahrung bei der Verwendung von Sprechererkennung ermöglichen.
1 ist ein Blockdiagramm, das eine beispielhafte Verarbeitungspipeline zum Generieren eines Sprecherverifikationswertes veranschaulicht. Auf das beispielhafte System wird sich generell durch die Referenzzahl 100 bezogen und es kann in der Rechenvorrichtung 600 unten in 6 unter Verwendung des Verfahrens 500 in 5 unten implementiert werden.
Das beispielhafte System 100 beinhaltet einen Sprachempfänger 102, der kommunikativ mit einem Präprozessor 104 gekoppelt ist. Das System 100 beinhaltet auch einen Merkmalsextraktor 106, der kommunikativ mit dem Präprozessor 104 gekoppelt ist. Das System 100 beinhaltet ferner auch einen Klassifikator 108, der kommunikativ mit dem Merkmalsextraktor 106 gekoppelt ist. Das System 100 beinhaltet ein Sprechermodell 110, das kommunikativ mit dem Klassifikator 108 gekoppelt ist. Der Klassifikator 108 wird als einen Sprecheridentifikationswert 112 ausgebend gezeigt.
Wie in 1 gezeigt, kann das System 100 Audiodaten, einschließlich Sprache, empfangen und einen Sprecheridentifikationswert 112 ausgeben. Der Sprecheridentifikationswert 112 kann zum Beispiel die Wahrscheinlichkeit angeben, mit der ein Sprachsegment von einem bestimmten, angemeldeten Sprecher ausgesprochen wird.
Der Sprachempfänger 102 kann Audiodaten empfangen, einschließlich Sprache. Die Audiodaten können zum Beispiel eine Schlüsselphrase und einen Befehl beinhalten. Die Länge der Sprache in den Audiodaten kann beispielsweise einige Sekunden bis einige Minuten lang sein.
In manchen Beispielen kann die erste Verarbeitungsstufe in der Verarbeitungspipeline ein Signal-Vorverarbeiten durch einen Präprozessor 104 sein, um die Sprachqualität zu verbessern. Unter Verwendung einer Mikrofonanordnung kann beispielsweise ein Strahlformer zum Maximieren des Signal-Rausch-Verhältnisses (Signal-to-Noise-Ratio; SNR) der Sprache verwendet werden, um die unterschiedliche Richtwirkung von Sprache und Geräuschen auszunutzen. In manchen Beispielen kann eine Ablenkung der raumakustischen Impulsantworten angewendet werden. In manchen Beispielen können auch andere übliche Sprachverbesserungstechniken, wie etwa Spektralsubtraktion, Weiner-Filter, Blindquellentrennung, eingesetzt werden.
Der Merkmalsextraktor 106 kann die vorverarbeiteten Audiodaten empfangen und die vorverarbeiteten Audiodaten verarbeiten, um Merkmale aus den vorverarbeiteten Audiodaten zu extrahieren. Die Merkmalsextraktion kann beispielsweise eine Form der Spektralanalyse sein, die über 10 Sekunden von Millisekunden von Sprachrahmen durchgeführt wird.
Der Klassifikator 108 kann Eingabemerkmale aus den Audiodaten verwenden und auf Basis der Merkmale einen Sprecherverifikationswert 112 generieren. Der Klassifikator 108 kann zum Beispiel alle Audiodaten verwenden und die Wahrscheinlichkeit berechnen, dass das Gesprochene einem Modell eines angemeldeten Sprechers 110 entspricht. In manchen Beispielen kann der Klassifikator 108 ein Sprechermodell 110 verwenden, um den Sprecherverifikationswert 112 zu berechnen. Es kann zum Beispiel ein separates Sprechermodell für jeden Sprecher geben, der unter Verwendung des Klassifikators 108 zu erkennen ist. Die Ausgabe der obigen Pipeline 100 ist ein numerischer Sprecherverifikationswert 112. Ein höherer Sprecherverifikationswert kann beispielsweise eine höhere Wahrscheinlichkeit einer Übereinstimmung mit einem Sprechermodell 110 angeben. In manchen Beispielen kann zum Akzeptieren oder Ablehnen eines Sprechers ein Schwellenwert für die Wahrscheinlichkeit festgelegt werden. In manchen Beispielen kann der Schwellenwert auf Basis eines Kompromisses zwischen einer Falschakzeptanzrate und einer Falschablehnungsrate festgelegt werden, wie unten unter Bezugnahme auf 4 ausführlicher beschrieben. In manchen Beispielen kann ein Verifikationswert generiert werden, der den Sprecherverifikationswert und einen Signalqualitätsmesswert enthält. Der Verifikationswert kann zum Beispiel den Ausgabesprecherverifikationswert aus dem Sprecheridentifikationssystem und die Nähe des Sprecherverifikationswerts zu jedweden anderen Sprechern, die in dem gleichen System angemeldet sind, enthalten. Der Verifikationswert kann auch Signalqualitätsmessungen enthalten, die für das Eingabesignal durchgeführt wurden, die mit der erwarteten Leistung des Sprecheridentifikationssystems korrelieren. Die Signalqualitätsmessungen können zum Beispiel Hintergrundgeräuschpegel, Eingabesignalpegel, Signal-Rausch-Verhältnis, Nachhallmessung, die Eingabedauer usw. beinhalten.
In manchen Beispielen kann der Verifikationswert dann mit einem oder mehreren Schwellenwerten verglichen werden. Es können zum Beispiel ein höherer und ein niedrigerer Schwellenwert für den Verifikationswert festgelegt werden. Sprache mit einem Verifikationswert unter dem tieferen Schwellenwert kann beispielsweise als von einem unbekannten Benutzer stammend erkannt werden, während Sprache mit einem Verifikationswert um den höheren Schwellenwert als von einem bekannten Benutzer stammend erkannt werden kann. In manchen Beispielen kann der Verifikationswert zwischen einem tieferen und einem höheren Schwellenwert liegen.
In manchen Beispielen kann ein Sprachassistent eine Dialog-Engine beinhalten, die den Fluss der Interaktion mit einem oder mehreren Benutzern steuert. Der Dialogfluss kann beispielsweise von dem Vertrauen in die Ausgabe aus dem Sprecherverifikationssystem abhängen. In manchen Beispielen kann, wenn das Vertrauen in die Ausgabe aus dem Sprecherverifikationssystem niedrig ist, zusätzlicher Dialog generiert werden, um weitere Spracheingabe von dem Benutzer, auf dem die Sprecherverifikationsentscheidung zu basieren ist, zu erhalten. Das System kann zum Beispiel den zusätzlichen Dialog generieren bis das System Vertrauen zum dem Wert hat, und gleichzeitig werden keine spürbaren zusätzlichen Verifikationen für den Benutzer eingeführt. Als ein Beispiel kann der zusätzliche Dialog generiert werden, wenn der Verifikationswert kleiner als ein höherer Schwellenwert ist, aber größer als ein unterer Schwellenwert, und er kann generiert werden bis der Verifikationswert den höheren Schwellenwert überschreitet. In manchen Beispielen kann die Gestaltung des Dialogflusses derart ausgeführt werden, dass er für den Benutzer natürlich klingt und der Benutzer daher nicht weiß, dass die zusätzliche Verifikation seiner Stimme im Hintergrund abläuft.
Ein System, das die hierin beschriebenen Techniken verwendet, kann den Fluss des Interaktionsdialogs mit dem Sprachassistenten in Abhängigkeit von dem Vertrauen in das Sprecherverifikationssystem anpassen. In manchen Beispielen kann das System, wenn ein hohes Vertrauen in die Sprecherverifikationsentscheidung besteht, dann unmittelbar mit dem Erkennen eines bekannten oder unbekannten Benutzers ausschließlich auf Basis der ersten gesprochenen Eingabe des Benutzers fortfahren. Demgegenüber kann das System, wenn das Vertrauen in die Sprecherverifikationsentscheidung niedrig ist, zusätzliche Dialogschritte hinzufügen, um dazu in der Lage zu sein, mehr Sprache von dem Benutzer, auf dem seine Entscheidung der Sprecheridentität/Verifikation zu basieren ist, zu erhalten. In manchen Beispielen kann die zusätzliche Eingabesprache von dem Benutzer, die als zusätzliche Audiodaten erhalten werden kann, auf verschiedene Weisen zur Verbesserung des Vertrauens in die Benutzeridentität verwendet werden. Das System kann zum Beispiel unter Verwendung nur der Sprache aus den zusätzlichen Dialogschritten einen aktualisierten Verifikationswert generieren. In manchen Beispielen kann das System die Werte aus den anfänglichen Audiodaten und die zusätzlichen Audiodaten kombinieren. Das Vertrauen bzw. der Verifikationswert der Sprache kann sich mit den zusätzlichen Sprachaudiodaten aus mehreren Gründen verbessern. Es kann beispielsweise mehr Sprache geben, aus der der Sprecherverifikationswert zu generieren ist und im Allgemeinen arbeiten textunabhängige Systeme mit längerer Eingabesprache besser. Zusätzlich kann es in manchen Beispielen vorübergehende externe Geräusche geben, die während der anfänglichen Sprachaudiodaten aufgetreten sind, während das Signal-Rausch-Verhältnis (SNR) bei den zweiten Audiodaten besser ist, wodurch sich der resultierende Verifikationswert verbessert.
In einem Heimszenariobeispiel können alle Familienmitglieder Benutzer des Sprachassistenten sein und somit in dem Sprecherverifikationssystem angemeldet sein. Obwohl die Anzahl der in diesem Szenario angemeldeten Benutzer klein sein kann, können ihre Stimmen, da alle aus der gleichen Familie sind, ähnlich sein. Somit kann das Sprecherverifikationssystem aufgrund der Ähnlichkeit der Stimmen für Verwechslung anfällig sein. Ein adaptives System kann daher eingesetzt werden, um zusätzliche Sprache über einen generierten Dialog zu erzeugen, um die Benutzererkennung auf eine natürlichere Weise zu verbessern.
In manchen Beispielen kann ein Sprecheridentifikationssystem einen oder mehrere Wert(e) produzieren, die ein Maß für das Vertrauen in die Sprecheridentität bereitstellen. In manchen Beispielen kann das System eine Identität des am besten übereinstimmenden Sprechers aus dem Satz der angemeldeten Personen und den Sprecherverifikationswert oder die Wahrscheinlichkeit des Gesprochenen mit dem Modell des Sprechers erkennen. In manchen Beispielen kann das System einen Wert aus dem am zweitbesten übereinstimmenden Sprechermodell verwenden. Der Wert aus dem zweitbesten übereinstimmenden Sprechermodell kann zum Beispiel mit dem Wert aus dem besten übereinstimmenden Sprechermodell verglichen werden und somit ein alternatives Maß für das Vertrauen bereitstellen. In manchen Beispielen kann das System den Wert aus allen angemeldeten Sprechern verwenden. In manchen Beispielen kann das System einen Wert aus einem Modell verwenden, das eine durchschnittliche Benutzerstimme repräsentiert.
Es ist nicht beabsichtigt, dass das in Diagramm in 1 gezeigte Beispielsystem 100 alle der in 1 gezeigten Komponenten enthält. Vielmehr kann das Beispielsystem 100 unter Verwendung von weniger oder zusätzlichen Komponenten, die in 1 nicht veranschaulicht sind (z. B. zusätzliche Modelle, Verarbeitungsstufen, Ausgabesprecherverifikationswerte usw.), implementiert werden. In manchen Beispielen kann System 100 den Präprozessor 104 nicht enthalten. Der Merkmalsextraktor 106 kann beispielsweise von dem Sprachempfänger 102 empfangene Audiodaten direkt verarbeiten. In einem anderen Beispiel kann der Merkmalsextraktor eliminiert werden, wenn der Klassifikator ein tiefes neurales Netz ist, das Sprachrohdaten als Eingaben verwendet.
2 ist ein detailliertes Flussdiagramm, das einen beispielhaften Prozess zum Generieren von Dialog auf Basis eines Sprecherverifikationswertes veranschaulicht. Der beispielhafte Prozess wird generell mit der Referenzzahl 200 bezeichnet und kann in dem System 100 oben oder der Rechenvorrichtung 600 unten implementiert werden. Der Prozess kann beispielsweise unter Verwendung des Prozessors 602 der Rechenvorrichtung 600 aus 6 unten implementiert werden.
Am Block 202 empfängt ein Prozessor Audiodaten, einschließlich Sprache. Die Audiodaten können zum Beispiel von einem oder mehreren Mikrofonen empfangen werden. In manchen Beispielen kann die Sprache eine Schlüsselphrase und einen Befehl beinhalten. Die Schlüsselphrase kann zum Beispiel eine vorbestimmte Aufwachphrase sein.
Am Entscheidungsdiamant 204 stellt der Prozessor fest, ob eine Schlüsselphrase in den Audiodaten erkannt wird. Der Prozessor kann zum Beispiel kontinuierlich zuhören, um zu erkennen, wenn eine bestimmte Aufwachschlüsselphrase ausgesprochen wird. Eine beispielhafte Phrase könnte sein: „Hallo Computer“. In manchen Beispielen kann ein Schlüsselphrasenerkennungsalgorithmus auch die Start- und Endpunkte der Sprachwellenform bereitstellen, so dass textabhängige Sprecherverifikation (Text-dependant Speaker Verification; TD SV) an dem Segment durchgeführt werden kann. In manchen Beispielen kann der Prozess, wenn die Schlüsselphrase nicht erkannt wird, dann am Block 206 fortfahren. In manchen Beispielen kann der Prozess, wenn die Schlüsselphrase erkannt wird, dann an Blöcken 208 und 210 fortfahren.
Am Block 206 kann der Prozessor anhalten und auf zusätzliche Audiodaten, die an Block 202 zu empfangen sind, warten. In manchen Beispielen kann der Prozessor sich im Ruhezustand befinden oder in einen Standby-Modus wechseln oder andere Aufgaben durchführen. Die Vorrichtung kann zum Beispiel nichts tun und in den Standardmodus zurückkehren.
Am Block 208 berechnet der Prozessor Qualitätsmessungen des Eingabesprachsignals. Der Prozessor kann zum Beispiel die Qualität eines Eingabeaudiosignals, das den Audiodaten entspricht, messen. In manchen Fällen kann der Prozessor verschiedene Signalqualitätsmessungen, die mit der Fähigkeit zum Erhalt der Sprecheridentität korrelieren, berechnen. Die Maße können zum Beispiel einen absoluten Rauschpegel, einen Eingabesprachsignalpegel, ein Signal-Rausch-Verhältnis (SNR), einen Nachhallpegel und eine Dauer des Befehlphrasenteils der Eingabeaudiodaten beinhalten.
Am Block 210 generiert der Prozessor textabhängige (TD) und textunabhängige (TI) Sprecher-Verifikations (SV) Werte. Der Prozessor kann zum Beispiel einen Schlüsselphrasenabschnitt der Sprache in den empfangenden Audiodaten verwenden, um gegen TD SV zu punkten. Auf ähnliche Weise kann der Prozessor den Befehlabschnitt der Sprache in den Audiodaten gegen TI SV verwenden. TD SV kann zum Beispiel viel niedrigere Fehlerraten als TI bei Sprachausgaben mit einer sehr kurzen Dauer haben. Die beiden Segmente der Audiodaten können daher getrennt und separat verarbeitet werden. In manchen Beispielen können die beiden resultierenden Werte miteinander kombiniert werden, um eine Klassifizierung mit einem höheren Vertrauen zu erhalten. In manchen Beispielen kann dem TD-Abschnitt bei der Kombination der Werte ein höheres Gewicht zugewiesen werden. In manchen Beispielen kann der kombinierte SV für alle auf der Vorrichtung angemeldeten Sprecher berechnet werden. In manchen Fällen kann der TD-Algorithmus Sprachsegmente von den Schlüsselphrase- und Befehlsabschnitten verwenden, um die Menge der akustischen Daten, die dem Klassifikator zugeführt werden, zu erhöhen. Zusätzlich kann bzw. können, wie am Block 212 gezeigt, ein oder mehrere Sprechermodell(e) am Block 210 empfangen werden. Es kann zum Beispiel ein Sprechermodell für jeden Sprecher für eine potenzielle Erkennung empfangen werden.
Am Block 214 kombiniert der Prozessor den SV-Wert und die Signalqualitätsmessungen, um einen Verifikationswert zu generieren. Der Sprecherverifikationswert bzw. die Signalqualitätsmessungen der Eingabesprache können zum Beispiel separat verwendet werden oder kombiniert werden, um eine Gesamtvertrauensmessung aus dem Gesprochenen zur Identifikation der Person zu bilden. In manchen Beispielen kann der Verifikationswert ein Wert mit einem hohen Wert sein, der eine gute Übereinstimmung angibt, oder ein niedriger Wert für einen schlechten Abgleich. In manchen Beispielen kann der Verifikationswert alternativ eine Wahrscheinlichkeit sein. Der kombinierte Verifikationswert kann durch jedwede geeignete Technik erhalten werden. Der Prozessor kann zum Beispiel den Verifikationswert unter Verwendung statistischer Messungen, empirischer Messungen oder Maschinenlernen, neben anderen möglichen Techniken für das Kombinieren von Werten, generieren.
Am Entscheidungsdiamant 216 vergleicht der Prozessor den Verifikationswert mit einem oder mehreren Schwellenwerten, um festzustellen, ob der Verifikationswert die Schwellenwerte überschreitet. In manchen Beispielen können die Schwellenwerte einen niedrigeren Schwellenwert und einen höheren Schwellenwert beinhalten. Wenn der höhere Schwellenwert zum Beispiel überschritten wird, dann kann der Prozess am Block 218 fortfahren. In manchen Beispielen kann der Prozess, wenn der höhere Schwellenwert nicht überschritten wird, der niedrigere Schwellenwert aber überschritten wird, am Block 220 fortfahren. In manchen Beispielen kann der Prozess, wenn der untere Schwellenwert nicht überschritten wird, am Block 224 fortfahren. Für die Entscheidung des Prozessors, ob ein bestimmter Benutzer jemand außerhalb des geschlossenen Satzes ist, muss der Verifikationswert zum Beispiel mit einem oder mehreren Schwellenwert(en) verglichen werden. In manchen Beispielen kann der Schwellenwert für eine Ziel-Falschakzeptanzrate (False Accept Rate; FAR) und eine Falschablehnungsrate (False Reject Rate; FRR) der Anwendung festgelegt werden. Wie hierin verwendet bezeichnet eine FAR eine Rate, bei der Benutzer falsch als ein bekannter Benutzer erkannt werden. Eine FRR bezieht sich auf eine Rate, bei der Benutzer falsch als unbekannte Benutzer erkannt werden. In manchen Beispielen können sich die Schwellenwerte für die verschiedenen Anwendungen unterscheiden. Manche Anwendungen können beispielsweise eine höhere FAR im Tausch für FRR tolerieren und umgekehrt.
Am Block 218 generiert der Prozessor weiter Dialog unter der Annahme, dass ein Benutzer identifiziert wurde. In manchen Fällen kann der Prozessor einen Dialog auf Basis des erkannten Benutzers generieren. Der Prozessor kann zum Beispiel ein hohes Vertrauen erkennen, dass eine Person identifiziert wurde, und kann mit dem Generieren von Dialog unter der Annahme fortfahren, dass die Identität der Person bekannt ist. Das Generieren von Dialog kann zum Beispiel das Generieren von Aussagen oder Fragen beinhalten, die dem bekannten Benutzer entsprechen. In manchen Beispielen kann der Prozessor auf eine Datenbank mit einer oder mehreren gespeicherten Präferenzen oder anderen gespeicherten Daten, die einem bekannten Benutzer zugeordnet sind, zugreifen, um den Dialog zu generieren. In manchen Beispielen kann der Prozessor auch eine oder mehrere Aktion(en) in Reaktion auf von einem Benutzer empfangene zusätzliche Audiodaten durchführen. Die Aktionen können zum Beispiel in Reaktion auf das Empfangen von einem oder mehreren Befehlen von dem bekannten Benutzer durchgeführt werden.
Am Block 220 generiert der Prozessor zusätzlichen Dialog, um die Identität einer Person zu ermitteln. Der Prozessor kann somit Dialog generieren, der nicht annimmt, dass der Benutzer identifiziert ist. Der Prozessor kann zum Beispiel Dialog generieren, der die Person nach ihrem Tag fragt, oder anderen allgemeineren Dialog. In manchen Beispielen kann der Benutzer zusätzliche Sprache bereitstellen, die der Prozessor verwenden kann, um den Verifikationswert über den zweiten Schwellenwert hinaus zu erhöhen. Wenn der Verifikationswert zum Beispiel zwischen einem niedrigeren Schwellenwert T1 und einem höheren Schwellenwert T2 liegt, kann dies angeben, dass eine gewisse Unsicherheit über die Identität des Benutzers besteht. Der Prozessor kann daher damit fortfahren, weitere Dialogschritte hinzuzufügen, um mehr Eingabesprache von dem Benutzer zu erhalten, mit deren Hilfe eine Feststellung mit einem höheren Vertrauen getroffen werden kann. In manchen Beispielen kann dies aus einer Reihe von Gründen auftreten. Ein angemeldeter Benutzer kann die Sprache zum Beispiel unter unterschiedlichen Bedingungen im Vergleich zu den Anmeldebedingungen ausgesprochen haben, was einen schlechten Abgleich produziert. Die unterschiedlichen Bedingungen können zum Beispiel Krankheit, Stimmung des Benutzers, Hintergrundgeräusche, Raumakustik, andere Mikrofone usw. beinhalten. Die resultierenden Fehlerraten aufgrund der unterschiedlichen Bedingungen können möglicherweise für manche Anwendungen zu hoch sein. Des Weiteren kann ein zu frühes Ablehnen eines Sprechers zu Benutzerfrustration führen. Der Prozessor kann somit zusätzlichen Dialog generieren, um mehr Sprache von der Person zu erhalten, anhand derer eine fundiertere Feststellung erfolgen kann, ob der Benutzer ein angemeldeter Benutzer ist oder nicht. In manchen Beispielen kann der Prozessor die Benutzeridentität durch explizites Fragen feststellen, ob der Benutzer die am besten übereinstimmende Person ist. In manchen Beispielen kann der Prozessor, in Abhängigkeit von dem Sicherheitsniveau eines Systems, den Benutzer zusätzlich auffordern, eine Challenge-Frage zu beantworten oder eine geheime Passphrase anzugeben. In manchen Fällen kann der Prozessor den Benutzer auf Basis des Kontexts des aktuellen Dialogs in ein Gespräch verwickeln. In manchen Beispielen kann der Prozessor zusätzliche relevante Einzelheiten über die Anfrage eines Benutzers erfragen.
Am Entscheidungsdiamant 222 stellt der Prozessor fest, ob ein übereinstimmender Benutzer gefunden wurde. Der übereinstimmende Benutzer kann zum Beispiel in Reaktion darauf, dass der Verifikationswert von 214 als den höheren Schwellenwert für ein bestimmtes Sprechermodell, das einem Benutzer zugeordnet ist, überschreitend festgestellt wurde, gefunden werden. In manchen Beispielen kann der Prozess, wenn ein übereinstimmender Benutzer gefunden wurde, dann am Block 218 fortfahren. Ansonsten kann der Prozess, wenn kein passender Benutzer gefunden wurde, am Block 224 fortfahren.
Am Block 224 generiert der Prozessor unter Annahme eines unbekannten Benutzers Dialog. Es kann zum Beispiel sein, dass eine schlechte Übereinstimmung erhalten wurde und der Prozessor kann Dialog generieren, während weiterhin angenommen wird, dass die Identität der Person nicht bekannt ist. In manchen Beispielen kann bzw. können eine oder mehrere Funktionalität(en) eingeschränkt sein. Wenn zum Beispiel nach dem Generieren zusätzlichen Dialogs die Benutzeridentität immer noch keinem der angemeldeten Sprecher entspricht, kann der Prozessor die Interaktion als mit einem Gastbenutzer fortsetzen. Zugriff auf private Inhalte ist gesperrt und es gibt keine benutzerspezifischen Empfehlungen.
In einem Beispiel eines Dialogs mit mehreren Benutzern kann es drei Benutzer geben, die im Voraus angemeldet wurden, und einen Benutzer, der nicht angemeldet ist. Ein Vater könnte zum Beispiel fragen: „Hallo Computer. Was kommt heute Abend im Fernsehen?“ Das System könnte erwidern: „Hallo Brian. Um 19 Uhr läuft ein toller Actionfilm, der Dir gefallen könnte.“ Eine Mutter könnte auch fragen: „Hallo Computer. Was kommt heute Abend im Fernsehen?“ Das System könnte erwidern: „Hallo Liz. Dein bevorzugtes Modeprogramm läuft um 20 Uhr.“ Ebenso könnte ein vierjähriges Kind ebenfalls fragen: „Hallo Computer. Was kommt heute Abend im Fernsehen?“ Das System könnte erwidern: „Hallo Alice. Super Happy Fun Time beginnt in zehn Minuten.“ Der neue, nicht angemeldete Benutzer könnte anfragen: „Hallo Computer. Stell einen Wecker für 4 Uhr.“ In diesem Falls könnte das System aber erwidern: „Hallo. Es tut mir leid, aber nur Haushaltsangehörige können Weckzeiten einstellen.“ Angenommen, dass beide Modelle, TD und TI, angemeldet sind, kann das System beide Teile Sprache verwenden, um die Identität der Person festzustellen. TD SV kann zum Beispiel angewendet werden, um Schlüsselphrasen zu erkennen, und TI SV kann auf Befehle angewendet werden, um jeden Sprecher zu erkennen. In manchen Beispielen können beide Techniken verwendet werden, um einen einzelnen Sprecherverifikationswert zum Erkennen des Sprechers zu generieren und um festzustellen, ob der Sprecher im System angemeldet oder nicht angemeldet ist. Somit können spezifische Funktionen an den Benutzer angepasst oder auf Benutzer, die in dem System angemeldet sind, beschränkt werden.
Ein weiterer Beispieldialog wäre, dass ein angemeldeter Benutzer damit beginnt zu sagen: „Hallo Computer. Was kommt heute Abend im Fernsehen?“ Der Prozessor kann diese Phrase unter Verwendung der vorstehend beschriebenen Techniken verarbeiten. Die Phrase kann jedoch einen Verifikationswert erhalten, der zwischen dem unteren Schwellenwert T1 und dem höheren Schwellenwert T2 liegt. Der Prozessor kann somit zusätzliche Sprache von der Person einholen, um den Verifikationswert bzw. das Vertrauen zu erhöhen. Der Prozessor kann zum Beispiel den Dialog generieren: „Lass mich das Fernsehprogramm prüfen. Erzähl mir doch bitte etwas über Deinen Tag, während ich nachschaue.“ Der Benutzer kann darauf mit den zusätzlichen Worten reagieren: „Ich hatte viel Stress auf der Arbeit und musste eine wichtige Präsentation vor einem Riesenpublikum vorbereiten. Wir standen wirklich unter Zeitdruck. Ich möchte mich einfach nur zurücklehnen und entspannen.“ Der Prozessor kann somit diese zusätzliche Sprache als Audiodaten empfangen, was in einem höheren Verifikationswert resultieren kann. Der Verifikationswert kann jetzt zum Beispiel den höheren Schwellenwert T2 für ein Sprechermodell, das einem Benutzer namens „Dan“ zugeordnet ist, überschreiten. Der Prozessor kann dann unter Annahme eines identifizierten Benutzers Dialog generieren. Der Prozessor kann zum Beispiel den Dialog generieren: „Es tut mir leid, dass Du so gestresst bist, Dan. Vielleicht fühlst Du Dich besser, wenn Du Spiel 7 der MBH-Endrunde heute Abend um 19 Uhr auf Kanal XZY schaust.“ In manchen Beispielen kann der Prozessor Zugriff auf private Inhalte haben, wie etwa bevorzugte Einstellungen, Musik, Fernsehprogramme, Sportmannschaften usw. Der Prozessor kann beispielsweise auf die privaten Inhalte, die dem identifizieren Benutzer zugeordnet sind, in Reaktion auf das Erkennen eines identifizierten Benutzers zugreifen.
Es ist nicht beabsichtigt, dass dieses Prozessflussdiagramm angibt, dass die Blöcke des Beispielprozesses 200 in einer bestimmten Reihenfolge ausgeführt werden, oder dass alle der Blöcke in jedem Fall enthalten sind. Der Schlüsselphrasen-Entscheidungsdiamant 204 kann zum Beispiel optional sein. In manchen Beispielen kann der Prozess 200 von Block 202 direkt zu Blöcken 208 und 210 weiterlaufen. Ferner kann in dem Beispielprozess 200 eine beliebige Anzahl zusätzlicher Blöcke, die nicht gezeigt sind, in Abhängigkeit von den Details der spezifischen Implementierung beinhaltet sein.
3 ist ein Blockdiagramm, das ein Generieren eines Sprecherverifikationswertes für zum Beispiel Audiodaten, die von einem Sprecher empfangen werden, veranschaulicht. Auf die beispielhafte Generierung des Sprecherverifikationswerts wird sich generell mit der Referenzzahl 300 bezogen und sie kann in der Rechenvorrichtung 600 unten implementiert werden. Die Generierung des Sprecherverifikationswerts 300 kann unter Verwendung der Verarbeitungspipeline 100 in 1, des Prozessors 602 und des Sprecherbewerters 634 der Rechenvorrichtung 600 in 6 unten oder dem Sprecherbewertermodul 710 der computerlesbaren Medien 700 in 7 unten generiert werden.
3 zeigt beispielhafte Audiodaten, einschließlich Sprache, die von einem Benutzer erhalten werden. Die Sprache kann zum Beispiel die Phrase beinhalten: „Hallo Computer. Was kommt heute Abend im Fernsehen?“ Der Teil der Phrase „Hallo Computer“ kann zum Beispiel als eine Aufwachschlüsselphrase 304 erkannt werden und der Teil der Phrase 302 „Was kommt heute Abend im Fernsehen?“ kann als ein Befehl 306 für automatische Spracherkennung (ASR) erkannt werden.
Am Block 308 erkennt der Prozessor die Aufwachschlüsselphrase 304 „Hallo Computer“ als eine Schlüsselphrase. Für die Erkennung der Schlüsselphrase kann eine Vielzahl unterschiedlicher Techniken verwendet werden. In manchen Beispielen wird zum Erkennen dieser Schlüsselphase ein automatischer Spracherkennungsalgorithmus mit sehr kleinem Vokabular (von einem oder mehreren Wörtern) verwendet. Ein oder mehrere Wörter können zum Beispiel zum Erkennen der Schlüsselphrase verwendet werden. In manchen Beispielen können spektrale Merkmale im Frontend verwendet werden, gefolgt von einem tiefen neutralen Netzwerk (Deep Neural Network; DNN) Akustikmodell mit einem Hidden-Markov-Modell (HMM) als das Schlüsselphrasenmodell. In manchen Beispielen kann die Funktion des DNN erweitert werden, um die Notwendigkeit der spektralen Merkmale und des HMM zu umgehen. Zum Beispiel kann ein End-to-End-DNN-Klassifikator zum direkten Erkennen von Schlüsselphasen aus Rohsprache verwendet werden. Wie hierin verwendet, ist beabsichtigt, dass der Begriff DNN viele alternative Formen neuraler Netzwerktopologien und Typen beinhaltet, wie etwa konvolutionelles neurales Netzwerk (Convolutional Neural Network; CNN), ein langer Kurzzeitspeicher (Long Short-Term Memory; LSTM) Netzwerk, ein rekurrentes neurales Netzwerk (Recurrent Neural Network; RNN), vollständig verbundene Ebenen usw. oder eine beliebige Kombination davon.
Am Block 310 führt der Prozessor eine textabhängige Sprecherverifikation (TD SV) an der Schlüsselphrase 304 durch. Bei textabhängiger (TD) Verifikation können die Wörter, die zum Anmelden eines Benutzers und Testen eines Benutzers verwendet werden, zum Beispiel die gleichen sein. Somit ist es bei der TD SV möglich, kurze Passphrasen zu verwenden, um unter idealen Bedingungen einen EER unter 1 % zu erzielen. Die kurzen Passphrasen können beispielsweise 1-5 Sekunden lang sein, wie etwa „Hallo Computer“. Die Anmeldung kann nur einige wenige Wiederholungen der gleichen Phrase durch den anzumeldenden Benutzer beinhalten. Somit kann TD SV für ein schnelles Authentifizieren eines Benutzers mit sehr geringem Zeit- und Anmeldeaufwand verwendet werden.
Am Block 312 verarbeitet der Prozessor Befehl 306 unter Verwendung der Stimmaktivitätserkennung 312. Stimmaktivitätserkennung (Voice Activity Detection; VAD) in einer einfachsten Form kann zum Beispiel ein Energiedetektor sein. Eine Stimme kann erkannt werden, wenn eine Energie eines Segments den Hintergrundgeräuschpegel um einen empirisch bestimmten Schwellenwert überschreitet. In manchen Beispielen könnte eine anspruchsvollere VAD ein DNN nutzen, um zu klassifizieren, ob ein Audiosegment Sprache ist oder eine andere Art von Geräusch. In manchen Beispielen kann eine automatische Spracherkennung verwendet werden, um bedeutungstragende Wörter oder Phoneme, die der Sprache des Benutzers entsprechen, zu erkennen.
Am Block 314 führt der Prozessor eine textunabhängige Sprecherverifikation (TI SV) durch. Die TI SV kann zum Beispiel keine Einschränkungen bei Anmeldung und Testvokabular aufweisen, was es der TI SV ermöglicht, Sprecher während natürlicher Konversationssprache zu erkennen. In manchen Beispielen kann TI SV mehr als eine Minute Sprache für das Anmelden in Anspruch nehmen und kann längere Testsprachsegmente verwenden, um vergleichbares EER wie TD SV zu erzielen. Der Befehl „Was läuft heute Abend im Fernsehen“ ist beispielsweise doppelt so lang, wie die Schlüsselphrase „Hallo Computer“.
Am Block 316 führt der Prozessor eine Wertfusion durch, um einen einzelnen Sprecherverifikationswert zu generieren. In manchen Beispielen kann der Prozessor den TI SV Wert und den TD SV Wert unter Verwendung jedweder geeigneten Technik kombinieren, um einen kombinierten SV-Wert zu generieren. Es können zum Beispiel ein einfacher Durchschnitt oder ein gewichteter Durchschnitt verwendet werden. In manchen Beispielen, wie in dem Fall des gewichteten Durchschnitts, kann die Gewichtung durch Faktoren, wie SNR, Dauer, phonetischer Reichtum der Segmente oder eine Kombination davon, festgelegt werden.
Es ist nicht beabsichtigt, dass das Diagramm in 3 angibt, dass die beispielhafte Generierung des Sprecherverifikationswerts 300 alle der in 3 gezeigten Komponenten beinhalten muss. Vielmehr kann das beispielhafte Generieren des Sprecherverifikationswerts 300 unter Verwendung von weniger oder zusätzlichen Komponenten, die in 3 nicht veranschaulicht sind (z. B. zusätzliche Schlüsselphrasen, Befehle, Sprache, Bewertungskomponenten usw.), implementiert werden.
4 ist ein Graph, der einen beispielhaften Erkennungsfehlerkompromiss veranschaulicht. Auf den beispielhaften Erkennungsfehlerkompromiss wird generell durch das Bezugszeichen 400 Bezug genommen es kann in der Rechenvorrichtung 600 unten implementiert sein. Der Erkennungsfehlerkompromiss 400 kann von dem Benutzerdetektor 640 der Rechenvorrichtung 600 in 6 unten oder dem Benutzererkennungsmodul 716 der computerlesbaren Medien 700 in 7 unten verwendet werden. Der Erkennungsfehlerkompromiss kann zum Beispiel verwendet werden, um einen oder mehrere Schwellenwerte für das Erkennen eines Sprechers festzulegen.
4 zeigt prozentuale Fehlerraten 402 und 404 und eine gleichwertige Fehlerratenzeile 406, die eine gleiche Falschakzeptanzrate (False Accept Rate; FAR) und eine Falschablehnungsrate (False Reject Rate; FRR) angibt. Das Erkennungsfehlerdiagramm 408 zeigt alle die Betriebsregionen eines Beispielsystems, die durch Auswählen unterschiedlicher Werte für einen Schwellenwert erreicht werden. Das Einstellen eines hohen Schwellenwerts kann zum Beispiel zu einer niedrigen Falschakzeptanzrate (FAR) führen, aber kann die Falschablehnungsrate (FRR) erhöhen. Die Umkehrung gilt für einen niedrigeren Schwellenwert. Somit kann der Schnittpunkt 410 der Erkennungsfehlerdiagrammzeile 408 und der gleichwertigen Fehlerratenzeile 406 verwendet werden, um einen Schwellenwert zu bestimmen, der sowohl einen niedrigen FAR und einen niedrigen FRR bietet. Die FAR und FRR an dem Schnittpunkt 410 der Erkennungsfehlerdiagrammzeile 408 und der gleichwertigen Fehlerratenzeile 406 wird als 1 % gezeigt.
Es ist nicht beabsichtigt, dass der in dem Diagramm in 4 gezeigte beispielhafte Erkennungsfehlerkompromiss 400 alle der in 4 gezeigten Komponenten enthält. Vielmehr kann der beispielhafte Erkennungsfehlerkompromiss 400 unter Verwendung von weniger oder zusätzlichen Komponenten, die in 4 nicht veranschaulicht sind (z. B. zusätzliche Dimensionen, Erkennungsfehlerdiagrammzeilen usw.), implementiert werden.
5 ist ein Flussdiagramm, das ein Verfahren zum Erzeugen von Dialog auf Basis eines Sprecherverifikationswertes veranschaulicht. Auf das beispielhafte Verfahren wird generell mit dem Bezugszeichen 500 Bezug genommen und es kann zumindest teilweise unter Verwendung der Verarbeitungspipeline 100 in 1 oben, des Prozessors 602 der Rechenvorrichtung 600 in 6 unten oder von computerlesbaren Medien 700 in 7 unten implementiert werden.
Am Block 502 empfängt ein Prozessor Audiodaten, einschließlich Sprache. Die Audiodaten können zum Beispiel ein Audiosignal sein. In manchen Beispielen kann die Sprache eine Schlüsselphrase, einen Befehl oder beides beinhalten.
Am Block 504 erkennt der Prozessor eine Schlüsselphrase in den Audiodaten. Die Schlüsselphrase kann zum Beispiel eine Aufwachphrase sein. In manchen Beispielen kann die Schlüsselphrase für jeden Benutzer, der angemeldet ist, aufgezeichnet worden sein.
Am Block 506 generiert der Prozessor einen Verifikationswert auf Basis der Audiodaten. In manchen Beispielen kann der Prozessor den Verifikationswert in Reaktion auf das Erkennen der Schlüsselphrase generieren. Der Prozessor kann zum Beispiel einen Sprecherverifikationswert auf Basis der Audiodaten und eines Sprechermodells generieren und den Verifikationswert auf Basis des Sprecherverifikationswerts generieren. In manchen Beispielen kann der Prozessor einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten generieren und den textabhängigen Wert und den textunabhängigen Wert kombinieren, um einen Sprecherverifikationswert zu generieren. Der Prozessor kann dann zum Beispiel den Verifikationswert auf Basis des Sprecherverifikationswerts generieren. In manchen Fällen kann der Prozessor einen Signalqualitätswert auf Basis der Audiodaten generieren und den Verifikationswert auf Basis des Signalqualitätswerts generieren. Der Signalqualitätswert kann zum Beispiel auf Basis eines Hintergrundgeräuschpegels, eines Eingabesignalpegels, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon generiert werden. In manchen Beispielen kann der Prozessor den Verifikationswert auf Basis des Signalqualitätswerts, des Sprecherverifikationswerts oder beidem generieren.
Am Entscheidungsdiamant 508 stellt der Prozessor fest, ob der Verifikationswert einen oder mehrere Schwellenwerte überschreitet. Die Schwellenwerte können zum Beispiel einen niedrigeren Schwellenwert und einen höheren Schwellenwert beinhalten. In manchen Beispielen können der eine oder die mehreren Schwellenwert(e) auf Basis einer Anwendung festgelegt werden. Der eine oder die mehreren Schwellenwert(e) kann bzw. können zum Beispiel zumindest teilweise auf Basis einer Ziel-Falschakzeptanzrate (FAR) und einer Falschablehnungsrate (FRR) einer Anwendung festgelegt werden. In manchen Beispielen kann das Verfahren 500, wenn der Prozessor erkennt, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet, am Block 510 fortfahren. In manchen Beispielen kann das Verfahren 500, wenn der Prozessor erkennt, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, am Block 512 fortfahren. In manchen Beispielen kann das Verfahren 500, wenn der Prozessor erkennt, dass der Verifikationswert beide Schwellenwerte überschreitet, am Block 514 fortfahren.
Am Block 510 erkennt der Prozessor einen unbekannten Benutzer in Reaktion auf das Erkennen, das der Verifikationswert den unteren Schwellenwert nicht überschreitet. In manchen Beispielen kann der Prozessor einen Dialog generieren, der den Zugriff auf eingeschränkte Dienste in Reaktion auf das Erkennen eines unbekannten Benutzers ablehnt. In manchen Beispielen kann der Prozessor einen Dialog generieren oder einen oder mehrere uneingeschränkte(n) Dienst(e) in Reaktion auf das Erkennen des unbekannten Benutzers bereitstellen.
Am Block 512 generiert der Prozessor einen Dialog um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswertes in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind.
Am Block 514 generiert der Prozessor eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers. Der Prozessor kann zum Beispiel einen bekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den höheren Schwellenwert überschreitet, erkennen.
Es ist nicht beabsichtigt, dass dieses Prozessflussdiagramm angibt, dass die Blöcke des Beispielverfahrens 500 in einer bestimmten Reihenfolge auszuführen sind, oder dass alle der Blöcke in jedem Fall zu beinhalten sind. Das Verfahren 500 kann zum Beispiel ohne die Erkennung der Schlüsselphrase in dem Audiodatenblock 504 durchgeführt werden. Ferner kann in dem Beispielverfahren 500 eine beliebige Anzahl zusätzlicher Blöcke, die nicht gezeigt sind, in Abhängigkeit von den Details der spezifischen Implementierung beinhaltet sein. Das Verfahren 500 kann zum Beispiel auch Vorverarbeiten der Audiodaten beinhalten, um Rauschen aus den Audiodaten zu entfernen. In manchen Beispielen kann das Verfahren 500 das Extrahieren von Merkmalen aus den Audiodaten beinhalten. Der Sprecherverifikationswert kann zum Beispiel auf Basis der extrahierten Merkmale generiert werden.
Nun unter Bezugnahme auf 6 wird ein Blockdiagramm gezeigt, das eine beispielhafte Rechenvorrichtung veranschaulicht, die Dialog auf Basis eines Sprecherverifikationswertes generieren kann. Die Rechenvorrichtung 600 kann zum Beispiel unter anderem ein Laptop-Computer, Desktop-Computer, Tablet-Computer, Mobilgerät oder eine tragbare Vorrichtung sein. In manchen Beispielen kann die Rechenvorrichtung 600 eine virtueller Assistent Vorrichtung sein. Die Rechenvorrichtung 600 kann eine zentrale Verarbeitungseinheit (CPU) 602 beinhalten, die konfiguriert ist, gespeicherte Anweisungen auszuführen, sowie eine Speichervorrichtung 604, die Anweisungen speichert, die durch die CPU 602 ausführbar sind. Die CPU 602 kann über einen Bus 606 mit der Speichervorrichtung 604 gekoppelt sein. Zusätzlich kann die CPU 602 ein Single-Core-Prozessor, ein Multi-Core-Prozessor, ein Rechen-Cluster oder eine beliebige Anzahl anderer Konfigurationen sein. Darüber hinaus kann die Rechenvorrichtung 600 mehr als eine CPU 602 beinhalten. In manchen Beispielen kann die CPU 602 ein System-on-Chip (SoC) mit einer Multi-Core-Prozessorarchitektur sein. In manchen Beispielen kann die CPU 602 ein spezieller digitaler Signalprozessor (DSP), der für Bildverarbeitung verwendet wird, sein. Die Speichervorrichtung 604 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder jedwede andere geeignete Speichersysteme beinhalten. Die Speichervorrichtung 604 kann zum Beispiel dynamischen Direktzugriffsspeicher (DRAM) beinhalten.
Die Speichervorrichtung 604 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder jedwede andere geeignete Speichersysteme beinhalten. Die Speichervorrichtung 604 kann zum Beispiel dynamischen Direktzugriffsspeicher (DRAM) beinhalten.
Die Rechenvorrichtung 600 kann auch eine grafikverarbeitende Einheit (GPU) 608 sein. Wie gezeigt, kann die CPU 602 über den Bus 606 mit der GPU 608 gekoppelt werden. Die GPU 608 kann konfiguriert sein, um eine beliebige Anzahl von Grafikoperationen innerhalb der Rechenvorrichtung 600 durchzuführen. Die GPU 608 kann zum Beispiel konfiguriert sein, Grafikbilder, Grafik-Frames, Videos oder dergleichen, die einem Benutzer der Rechenvorrichtung 600 anzuzeigen sind, zu rendern oder zu manipulieren.
Die Speichervorrichtung 604 kann Direktzugriffsspeicher (RAM), Nur-Lese-Speicher (ROM), Flash-Speicher oder jedwede andere geeignete Speichersysteme beinhalten. Die Speichervorrichtung 604 kann zum Beispiel dynamischen Direktzugriffsspeicher (DRAM) beinhalten. Die Speichervorrichtung 604 kann Gerätetreiber 610 beinhalten, die konfiguriert sind, die Anweisungen zum Generieren von Dialog auf Basis eines Sprecherverifikationswerts auszuführen. Die Gerätetreiber 610 können Software, ein Anwendungsprogramm, Anwendungscode oder dergleichen sein.
Die CPU 602 könnte auch über den Bus 606 mit einer Eingabe-/Ausgabe (I/O) Vorrichtungsschnittstelle 612 verbunden sein, die konfiguriert ist, die Rechenvorrichtung 600 mit einer oder mehreren I/O-Vorrichtungen 614 zu verbinden. Die I/O-Vorrichtungen 614 können zum Beispiel eine Tastatur und eine Zeigevorrichtung umfassen, wobei die Zeigevorrichtung unter anderem ein Touchpad oder ein Touchscreen beinhalten kann. Die I/O-Vorrichtungen 614 können eingebaute Komponenten der Rechenvorrichtung 600 oder Vorrichtungen sein, die extern mit der Rechenvorrichtung 600 verbunden sind. In manchen Beispielen kann der Speicher 604 über direkten Speicherzugriff (DMA) kommunikativ mit I/O-Vorrichtungen 614 gekoppelt sein.
Die CPU 602 kann auch über den Bus 606 mit einer Displayschnittstelle 616 verbunden sein, die konfiguriert ist, die Rechenvorrichtung 600 mit einer Displayvorrichtung 618 zu verbinden. Die Displayvorrichtung 618 kann einen Anzeigebildschirm beinhalten, der eine eingebaute Komponente der Rechenvorrichtung 600 ist. Die Displayvorrichtung 618 kann auch unter anderem einen Computermonitor, Fernseher oder Projektor beinhalten, der intern oder extern mit der Rechenvorrichtung 600 verbunden ist.
Die Rechenvorrichtung 600 kann auch eine Speichervorrichtung 620 beinhalten. Die Speichervorrichtung 620 ist ein physischer Speicher, wie etwa eine Festplatte, ein optisches Laufwerk, ein Thumbdrive, eine Laufwerksanordnung, ein Solid-State-Laufwerk oder eine Kombination davon. Die Speichervorrichtung 620 kann auch dezentrale Speicherlaufwerke beinhalten.
Die Rechenvorrichtung 600 kann auch eine Netzwerkschnittstellensteuereinrichtung (NIC) 622 beinhalten. Die NIC 622 kann konfiguriert sein, die Rechenvorrichtung 600 über den Bus 606 mit einem Netzwerk 624 zu verbinden. Das Netzwerk 624 kann unter anderem ein Wide Area Network (WAN), ein Local Area Network (LAN) oder das Internet sein. In manchen Beispielen kann die Vorrichtung mit anderen Vorrichtungen über eine drahtlose Technologie kommunizieren. Die Vorrichtung kann beispielsweise mit anderen Vorrichtungen über eine drahtlose lokale Netzwerkverbindung kommunizieren. In manchen Beispielen kann die Vorrichtung sich mit anderen Vorrichtungen über Bluetooth® oder ähnliche Technologie verbinden und mit ihnen kommunizieren.
Die Rechenvorrichtung 600 beinhaltet ferner auch ein Mikrofon 626. Das Mikrofon 626 kann beispielsweise ein einzelnes Mikrofon oder eine Mikrofonanordnung sein.
Die Rechenvorrichtung 600 beinhaltet ferner eine adaptive Dialogsprechererkennung 628. Die adaptive Dialogsprechererkennung 628 kann zum Beispiel verwendet werden, um Dialog zum Empfangen zusätzlicher Audiodaten zu generieren, der verwendet wird, um einen Sprecher zu erkennen. Die adaptive Dialogsprechererkennung 628 kann einen Audioempfänger 630, einen Schlüsselphrasendetektor 632, einen Sprecherbewerter 634, einen Signalqualitätsbewerter 636, einen Verifikationswertgenerator 638, einen Benutzerdetektor 640 und einen Dialoggenerator 642 beinhalten. In manchen Beispielen kann jede der Komponenten 630-642 der adaptiven Dialogsprechererkennung 628 ein Mikrocontroller, eingebetteter Prozessor oder ein Softwaremodul sein. Der Audioempfänger 630 kann Audiodaten, einschließlich Sprache, empfangen. In manchen Beispielen kann die Sprache eine Schlüsselphrase, einen Befehl oder beides beinhalten. Der Schlüsselphrasendetektor 632 kann eine Schlüsselphrase in den Audiodaten erkennen. Der Sprecherbewerter 634 kann einen Sprecherverifikationswert auf Basis der Audiodaten und eines Sprechermodells generieren. Der Sprecherbewerter 634 kann zum Beispiel einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten generieren und den textabhängigen Wert und den textunabhängigen Wert kombinieren, um den Sprecherverifikationswert zu generieren. Der Signalqualitätsbewerter 636 kann einen Signalqualitätswert auf Basis der Audiodaten generieren. Der Signalqualitätswert kann zum Beispiel auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon basieren. Der Verifikationswertgenerator 638 kann einen Verifikationswert auf Basis der Audiodaten generieren. Der Verifikationswertgenerator 638 kann den Verifikationswert zum Beispiel in Reaktion auf das Erkennen der Schlüsselphrase generieren. In manchen Beispielen kann der Verifikationswertgenerator einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten generieren. Die zusätzlichen Audiodaten können zum Beispiel in Reaktion auf den Dialog, der von dem Dialoggenerator 642 unten generiert wird, empfangen werden. Der Benutzerdetektor 640 kann erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. In manchen Beispielen kann der Benutzerdetektor 640 einen unbekannten Benutzer in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer erkennen und erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. In manchen Beispielen kann der Benutzerdetektor 640 einen bekannten Benutzer in Reaktion darauf erkennen, dass erkannt wurde, dass der Verifikationswert den höheren Schwellenwert überschreitet. In manchen Beispielen kann der Benutzerdetektor 640 einen unbekannten Benutzer in Reaktion auf das Erkennen erkennen, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet. Der Dialoggenerator 642 kann einen Dialog generieren, um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind. In manchen Beispielen kann der Dialoggenerator 642 eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers generieren. Die Reaktion kann zum Beispiel individuell angepasste Informationen beinhalten, wie etwa Lieblingsfilme, Spiele, Nachrichten, Programme usw. In manchen Beispielen kann der Dialoggenerator 642 eine Reaktion auf Basis eines erkannten unbekannten Benutzers generieren. Die Reaktion kann zum Beispiel eine Mitteilung sein, die den Zugriff auf eingeschränkte Dienste verweigert.
Es ist nicht beabsichtigt, dass das in 6 gezeigte Blockdiagramm angibt, dass die Rechenvorrichtung 600 alle der in 6 gezeigten Komponenten enthält. Vielmehr kann die Rechenvorrichtung 600 weniger oder zusätzliche Komponenten beinhalten, die nicht in 6 veranschaulicht sind, wie etwa zusätzliche Puffer, zusätzliche Prozessoren und dergleichen. Die Rechenvorrichtung 600 kann in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl zusätzlicher Komponenten beinhalten, die in 6 nicht gezeigt sind. Die Rechenvorrichtung 600 kann beispielsweise auch einen Präprozessor zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen beinhalten. Der Präprozessor kann beispielsweise die Audiodaten unter Verwendung jedweder der in 1 oben beschriebenen Techniken vorverarbeiten. In manchen Beispielen kann die Rechenvorrichtung 600 auch einen Merkmalsextraktor zum Extrahieren von Merkmalen aus den Audiodaten beinhalten. Der Sprecherbewerter 634 kann den Sprecherverifikationswert beispielsweise auf Basis der extrahierten Merkmale generieren. Darüber hinaus kann bzw. können jedwede der Funktionalitäten des Audioempfängers 630, des Schlüsselphrasendetektors 632, des Sprecherbewerters 634, des Signalqualitätsbewerters 636, des Verifikationswertgenerators 638, des Benutzerdetektors 640 und des Dialoggenerators 642 ganz oder teilweise in Hardware und/oder in dem Prozessor 602 implementiert werden. Die Funktionalität kann beispielsweise mit einer anwendungsspezifischen integrierten Schaltung, in Logik, die in dem Prozessor 602 implementiert ist, oder in einer anderen Vorrichtung implementiert werden. Zusätzlich können jedwede der Funktionalitäten der CPU 602 ganz oder teilweise in Hardware und/oder in einem Prozessor implementiert werden. Die Funktionalität der adaptiven Dialogsprechererkennung 628 kann zum Beispiel mit einer anwendungsspezifischen integrierten Schaltung, in Logik, die in einem Prozessor implementiert ist, in Logik, die in einer spezialisierten Audioverarbeitungseinheit implementiert ist, oder in einer anderen Vorrichtung implementiert werden.
7 ist ein Blockdiagramm, das computerlesbare Medien 700 zeigt, die Code zum Generieren von Dialog auf Basis eines Sprecherverifikationswerts speichern. Auf die computerlesbaren Medien 700 kann über einen Computerbus 704 durch einen Prozessor 702 zugegriffen werden. Darüber hinaus kann das computerlesbare Medium 700 Code beinhalten, der konfiguriert ist, den Prozessor 702 anzuweisen, die hierin beschriebenen Verfahren durchzuführen. In manchen Ausführungsformen können die computerlesbaren Medien 700 nichttransitorische computerlesbare Medien sein. In manchen Beispielen können die computerlesbaren Medien 700 Speichermedien sein.
Die verschiedenen, hierin diskutierten Softwarekomponenten können auf einem oder mehreren computerlesbaren Medien 700, wie in 7 angegeben, gespeichert sein. Ein Audioempfängermodul 706 kann beispielsweise konfiguriert sein, Audiodaten, einschließlich Sprache, zu empfangen. Ein Schlüsselphrasendetektormodul 708 kann konfiguriert sein, eine Schlüsselphrase in den Audiodaten zu erkennen. Ein Sprecherbewertermodul 710 kann konfiguriert sein, einen Sprecherverifikationswert auf Basis der Audiodaten und eines Sprechermodells zu generieren. Der Sprecherbewerter 710 kann zum Beispiel konfiguriert sein, einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten zu generieren und den textabhängigen Wert und den textunabhängigen Wert kombinieren, um den Sprecherverifikationswert zu generieren. In manchen Beispielen kann das Sprecherbewertermodul 710 konfiguriert sein, den Sprecherverifikationswert in Reaktion auf das Erkennen der Schlüsselphrase in den Audiodaten zu generieren. Ein Signalqualitätsbewertermodul 712 kann konfiguriert sein, einen Signalqualitätswert auf Basis der Audiodaten zu generieren. Das Signalqualitätsbewertermodul 712 kann beispielsweise konfiguriert sein, einen Signalqualitätswert auf Basis eines Hintergrundgeräuschpegels, eines Eingabesignalpegels, eines Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon zu generieren. Ein Verifikationswertgeneratormodul 714 kann konfiguriert sein, einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren. Das Verifikationswertgeneratormodul 714 kann beispielsweise konfiguriert sein, den Verifikationswert auf Basis des Sprecherverifikationswerts, des Signalqualitätswerts oder von beidem zu generieren. Ein Benutzerdetektormodul 716 kann konfiguriert sein, zu erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. In manchen Beispielen kann das Benutzerdetektormodul 716 konfiguriert sein, einen unbekannten Benutzer in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer erkennen und erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Das Verifikationswertgeneratormodul 714 kann zum Beispiel konfiguriert sein, einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten zu generieren. In manchen Beispielen kann das Benutzerdetektormodul 716 konfiguriert sein, einen bekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den höheren Schwellenwert übersteigt, zu erkennen und eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers generieren. In manchen Beispielen kann das Benutzerdetektormodul 716 konfiguriert sein, einen unbekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet, zu erkennen. Ein Dialoggeneratormodul 718 kann konfiguriert sein, einen Dialog zu generieren, um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind. Der Dialog kann zum Beispiel annehmen, dass der Benutzer ein unbekannter Benutzer ist. In manchen Beispielen kann das Dialoggeneratormodul 718 konfiguriert sein, einen Dialog auf Basis eines bekannten Benutzers zu generieren. Der Dialog kann beispielsweise individuell angepasste Informationen beinhalten, wie etwa Lieblingsmusik, Programme, Orte usw.
Es ist nicht beabsichtigt, dass das in 7 gezeigte Blockdiagramm angibt, dass die computerlesbaren Medien 700 alle der in 7 gezeigten Komponenten beinhalten. Ferner können die computerlesbaren Medien 700 in Abhängigkeit von den Einzelheiten der spezifischen Implementierung eine beliebige Anzahl zusätzlicher Komponenten, die in 7 nicht gezeigt sind, beinhalten. Die computerlesbaren Medien 700 können zum Beispiel auch ein Präprozessormodul zum Vorverarbeiten von Audiodaten beinhalten, um Rauschen aus den Audiodaten zu entfernen. In manchen Beispielen können die computerlesbaren Medien 700 ein Merkmalsextraktormodul zum Extrahieren von Merkmalen aus den Audiodaten beinhalten. Der Sprecherbewerter 710 kann zum Beispiel konfiguriert sein, den Sprecherverifikationswert auf Basis der extrahierten Merkmale zu generieren. In manchen Beispielen können die computerlesbaren Medien 700 ein Verständnis natürlicher Sprache (Natural Language Understanding; NLU) Modul beinhalten, um eine oder mehrere Aktionen durchzuführen. Das NLU-Modul kann zum Beispiel eingeschränkte Aktionen in Reaktion auf ein Erkennen durchführen, dass der Benutzer ein bekannter Benutzer ist. In manchen Fällen kann das NLU-Modul eine Nachricht über eine Ablehnung von Zugriff an das Dialoggeneratormodul 718 in Reaktion auf das Erkennen, dass ein unbekannter Benutzer versucht, eine eingeschränkte Aktion abzurufen, zurückführen. Die eingeschränkten Aktionen können zum Beispiel den Zugriff auf Funktionalitäten von einer oder mehreren Smartvorrichtung(en) beinhalten.
BEISPIELE
Beispiel 1 ist eine Vorrichtung zum Generieren von Dialog. Die Vorrichtung beinhaltet einen Audioempfänger zum Empfangen von Audiodaten, einschließlich Sprache. Die Vorrichtung beinhaltet auch einen Verifikationswertgenerator zum Generieren eines Verifikationswerts auf Basis der Audiodaten. Die Vorrichtung beinhaltet ferner einen Benutzerdetektor zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Die Vorrichtung beinhaltet ferner auch einen Dialoggenerator zum Generieren eines Dialogs zur Anforderung zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.
Beispiel 2 beinhaltet die Vorrichtung des Beispiels 1, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Schlüsselphrasendetektor zum Erkennen einer Schlüsselphrase in den Audiodaten. Der Verifikationswertgenerator hat einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren.
Beispiel 3 beinhaltet die Vorrichtung eines der Beispiele 1 bis 2, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Sprecherbewerter zum Generieren eines Sprecherverifikationswertes auf Basis der Audiodaten und eines Sprechermodells. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 4 beinhaltet die Vorrichtung eines der Beispiele 1 bis 3, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Sprecherbewerter zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells. Der Sprecherbewerter hat einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten zu berechnen und kombiniert den textabhängigen Wert und den textunabhängigen Wert, um den Sprecherverifikationswert zu generieren. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 5 beinhaltet die Vorrichtung eines der Beispiele 1 bis 4, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 6 beinhaltet die Vorrichtung eines der Beispiele 1 bis 5, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Signalqualitätswert basiert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 7 beinhaltet die Vorrichtung eines der Beispiele 1 bis 6, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Präprozessor zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen.
Beispiel 8 beinhaltet die Vorrichtung eines der Beispiele 1 bis 7, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet die Vorrichtung einen Merkmalsextraktor zum Extrahieren von Merkmalen aus den Audiodaten. Ein Sprecherbewerter hat einen Sprecherverifikationswert auf Basis der extrahierten Merkmale zu generieren und der Verifikationswertgenerator hat den Verifikationswert auf Basis des Sprecherverifikationswerts zu generieren.
Beispiel 9 beinhaltet die Vorrichtung eines der Beispiele 1 bis 8, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel hat der Benutzerdetektor einen unbekannten Benutzer in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer zu erkennen und zu erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Der Verifikationswertgenerator hat einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten zu generieren.
Beispiel 10 beinhaltet die Vorrichtung eines der Beispiele 1 bis 9, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel hat der Benutzerdetektor einen bekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den höheren Schwellenwert übersteigt, zu erkennen und der Dialoggenerator hat eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers zu generieren.
Beispiel 11 ist ein Verfahren zum Generieren von Dialog. Das Verfahren beinhaltet Empfangen, über einen Prozessor, von Audiodaten, einschließlich Sprache. Das Verfahren beinhaltet auch Generieren, über den Prozessor, eines Verifikationswerts auf Basis der Audiodaten. Das Verfahren beinhaltet ferner, über den Prozessor, Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Das Verfahren beinhaltet ferner auch Generieren, über den Prozessor, eines Dialogs zur Anforderung zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.
Beispiel 12 beinhaltet das Verfahren des Beispiels 11, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Erkennen, über den Prozessor, einer Schlüsselphrase in den Audiodaten. Generieren des Verifikationswerts wird in Reaktion auf das Erkennen der Schlüsselphase durchgeführt.
Beispiel 13 beinhaltet das Verfahren eines der Beispiele 11 bis 12, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Generieren des Verifikationswerts Berechnen eines textabhängigen Werts auf Basis der Schlüsselphrase und eines textunabhängigen Werts auf Basis eines Befehls in den Audiodaten und Kombinieren des textabhängigen Werts und des textunabhängigen Werts zum Generieren eines Sprecherverifikationswerts und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts.
Beispiel 14 beinhaltet das Verfahren eines der Beispiele 11 bis 13, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Generieren des Verifikationswerts Generieren eines Signalqualitätswerts auf Basis der Audiodaten und Generieren des Verifikationswerts auf Basis der Signalqualität. Der Signalqualitätswert basiert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon.
Beispiel 15 beinhaltet das Verfahren eines der Beispiele 11 bis 14, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Generieren des Verifikationswerts Generieren eines Signalqualitätswerts auf Basis der Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells und Generieren des Verifikationswerts auf Basis des Signalqualitätswerts und des Sprecherverifikationswerts.
Beispiel 16 beinhaltet das Verfahren eines der Beispiele 11 bis 15, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Vorverarbeiten, über den Prozessor, der Audiodaten zum Entfernen von Rauschen aus den Audiodaten.
Beispiel 17 beinhaltet das Verfahren eines der Beispiele 11 bis 16, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Extrahieren, über den Prozessor, von Merkmalen aus den Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der extrahierten Merkmale und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts.
Beispiel 18 beinhaltet das Verfahren eines der Beispiele 11 bis 17, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Erkennen, über den Prozessor, eines unbekannten Benutzers in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer, Generieren eines aktualisierten Verifikationswerts auf Basis der zusätzlichen Audiodaten und Erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet.
Beispiel 19 beinhaltet das Verfahren eines der Beispiele 11 bis 18, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Erkennen, über den Prozessor, eines bekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den höheren Schwellenwert überschreitet, und Generieren einer Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers.
Beispiel 20 beinhaltet das Verfahren eines der Beispiele 11 bis 19, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das Verfahren Erkennen, über den Prozessor, eines unbekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet.
Beispiel 21 ist mindestens ein computerlesbares Medium zum Generieren von Dialog mit darauf gespeicherten Anweisungen, die den Prozessor veranlassen, Audiodaten, einschließlich Sprache, zu empfangen. Das computerlesbare Medium beinhaltet Anweisungen, die den Prozessor anweisen, einen Verifikationswert auf Basis der Audiodaten zu generieren. Das computerlesbare Medium beinhaltet auch Anweisungen, die den Prozessor anweisen zu erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Das computerlesbare Medium beinhaltet ferner Anweisungen, die den Prozessor anweisen, einen Dialog zu generieren, um zusätzliche Audiodaten einzuholen, die verwendet werden, um einen aktualisierten Verifikationswert in Reaktion auf ein Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu generieren.
Beispiel 22 beinhaltet das computerlesbare Medium des Beispiels 21, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Erkennen einer Schlüsselphrase in den Audiodaten. Der Verifikationswert ist in Reaktion auf das Erkennen der Schlüsselphrase zu generieren.
Beispiel 23 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 22, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Berechnen eines textabhängigen Werts auf Basis der Schlüsselphrase und eines textunabhängigen Werts auf Basis eines Befehls in den Audiodaten, Kombinieren des textabhängigen Werts und des textunabhängigen Werts zum Generieren eines Sprecherverifikationswerts und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts.
Beispiel 24 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 23, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten und Generieren des Verifikationswerts auf Basis des Signalqualitätswerts. Der Signalqualitätswert basiert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon.
Beispiel 25 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 24, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodels und Generieren des Verifikationswerts auf Basis des Signalqualitätswerts und des Sprecherverifikationswerts.
Beispiel 26 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 25, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen aus den Audiodaten.
Beispiel 27 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 26, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Extrahieren von Merkmalen aus den Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der extrahierten Merkmale und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts.
Beispiel 28 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 27, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Erkennen eines unbekannten Benutzers in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer, Generieren eines aktualisierten Verifikationswerts auf Basis der zusätzlichen Audiodaten und Erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet.
Beispiel 29 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 28, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Erkennen eines bekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den höheren Schwellenwert überschreitet, und Generieren einer Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers.
Beispiel 30 beinhaltet das computerlesbare Medium eines der Beispiele 21 bis 29, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das computerlesbare Medium Anweisungen zum Erkennen eines unbekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet.
Beispiel 31 ist ein System zum Generieren von Dialog. Das System beinhaltet einen Audioempfänger zum Empfangen von Audiodaten, einschließlich Sprache. Das System beinhaltet auch einen Verifikationswertgenerator zum Generieren eines Verifikationswerts auf Basis der Audiodaten. Das System beinhaltet auch einen Benutzerdetektor zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Das System beinhaltet ferner auch einen Dialoggenerator zum Generieren eines Dialogs zur Anforderung zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.
Beispiel 32 beinhaltet das System des Beispiels 31, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Schlüsselphrasendetektor zum Erkennen einer Schlüsselphrase in den Audiodaten. Der Verifikationswertgenerator hat einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren.
Beispiel 33 beinhaltet das System eines der Beispiele 31 bis 32, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Sprecherbewerter zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 34 beinhaltet das System eines der Beispiele 31 bis 33, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Sprecherbewerter zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells. Der Sprecherbewerter hat einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten zu berechnen und kombiniert den textabhängigen Wert und den textunabhängigen Wert, um den Sprecherverifikationswert zu generieren. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 35 beinhaltet das System eines der Beispiele 31 bis 34, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 36 beinhaltet das System eines der Beispiele 31 bis 35, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Signalqualitätswert basiert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 37 beinhaltet das System eines der Beispiele 31 bis 36, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Präprozessor zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen.
Beispiel 38 beinhaltet das System eines der Beispiele 31 bis 37, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System einen Merkmalsextraktor zum Extrahieren von Merkmalen aus den Audiodaten. Das System beinhaltet einen Sprecherbewerter zum Generieren eines Sprecherverifikationswert auf Basis der extrahierten Merkmale und der Verifikationswertgenerator hat den Verifikationswert auf Basis des Sprecherverifikationswerts zu generieren.
Beispiel 39 beinhaltet das System eines der Beispiele 31 bis 38, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel hat der Benutzerdetektor einen unbekannten Benutzer in Reaktion auf das Empfangen der zusätzlichen Audiodaten von dem Benutzer zu erkennen und zu erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Der Verifikationswertgenerator hat einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten zu generieren.
Beispiel 40 beinhaltet das System eines der Beispiele 31 bis 39, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel hat der Benutzerdetektor einen bekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den höheren Schwellenwert übersteigt, zu erkennen und der Dialoggenerator hat eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers zu generieren.
Beispiel 41 ist ein System zum Generieren von Dialog. Das System beinhaltet Mittel zum Empfangen von Audiodaten, einschließlich Sprache. Das System beinhaltet auch Mittel zum Generieren eines Verifikationswerts auf Basis der Audiodaten. Das System beinhaltet ferner Mittel zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Das System beinhaltet ferner auch Mittel zum Generieren eines Dialogs zur Anforderung zusätzlicher Audiodaten, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion auf das Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, verwendet werden.
Beispiel 42 beinhaltet das System des Beispiels 41, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Erkennen einer Schlüsselphrase in den Audiodaten. Die Mittel zum Generieren des Verifikationswerts haben einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren.
Beispiel 43 beinhaltet das System eines der Beispiele 41 bis 42, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 44 beinhaltet das System eines der Beispiele 41 bis 43, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells. Die Mittel zum Generieren des Sprecherverifikationswerts haben einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten zu berechnen und kombinieren den textabhängigen Wert und den textunabhängigen Wert, um den Sprecherverifikationswert zu generieren. Der Verifikationswert basiert zumindest teilweise auf dem Sprecherverifikationswert.
Beispiel 45 beinhaltet das System eines der Beispiele 41 bis 44, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 46 beinhaltet das System eines der Beispiele 41 bis 45, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten. Der Signalqualitätswert basiert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon. Der Verifikationswert basiert zumindest teilweise auf dem Signalqualitätswert.
Beispiel 47 beinhaltet das System eines der Beispiele 41 bis 46, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen.
Beispiel 48 beinhaltet das System eines der Beispiele 41 bis 47, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel beinhaltet das System Mittel zum Extrahieren von Merkmalen aus den Audiodaten. Die Mittel zum Generieren eines Sprecherverifikationswerts haben einen Sprecherverifikationswert auf Basis der extrahierten Merkmale zu generieren und die Mittel zum Generieren des Verifikationswerts haben den Verifikationswert auf Basis des Sprecherverifikationswerts zu generieren.
Beispiel 49 beinhaltet das System eines der Beispiele 41 bis 48, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel haben die Mittel zum Erkennen, dass der Verifikationswert den unteren Schwellenwert überschreitet, den höheren Schwellenwert aber nicht überschreitet, einen unbekannten Benutzer in Reaktion auf das Empfangen der zusätzlichen Audiodaten von dem Benutzer zu erkennen und zu erkennen, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet. Die Mittel zum Generieren des Verifikationswerts haben einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten zu generieren.
Beispiel 50 beinhaltet das System eines der Beispiele 41 bis 49, einschließlich oder ausschließlich optionaler Merkmale. In diesem Beispiel haben die Mittel zum Erkennen, dass der Verifikationswert den unteren Schwellenwert überschreitet, aber den höheren Schwellenwert nicht überschreitet, einen bekannten Benutzer in Reaktion auf das Erkennen, dass der Verifikationswert den höheren Schwellenwert überschreitet, zu erkennen, die Mittel zum Generieren des Dialogs haben eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers zu generieren.
Nicht alle Komponenten, Merkmale, Strukturen, Eigenschaften usw., die hierin beschrieben und veranschaulicht sind, müssen in einem bestimmten Aspekt oder in Aspekten beinhaltet sein. Falls die Spezifikation angibt, dass eine Komponente, ein Merkmal, eine Struktur oder Eigenschaft zum Beispiel beinhaltet sein „kann“ oder „könnte“, muss diese/s bestimmte Komponente, Merkmal, Struktur oder Eigenschaft nicht enthalten sein. Falls die Spezifikation oder der Anspruch auf „ein“ Element Bezug nimmt, bedeutet dies nicht, dass es nur ein solches Element gibt. Falls die Spezifikation oder die Ansprüche auf „ein zusätzliches“ Element Bezug nimmt bzw. nehmen, schließt dies nicht aus, dass es mehr als eines der zusätzlichen Elemente gibt.
Es ist zu erwähnen, dass, obwohl manche Aspekte unter Bezugnahme auf bestimmte Implementierungen beschrieben wurden, gemäß mancher Aspekte auch andere Implementierungen möglich sind. Zusätzlich müssen die Anordnung und/oder Reihenfolge der Schaltungselemente oder andere Merkmale, die in den Zeichnungen veranschaulicht und/oder hierin beschrieben sind, nicht auf die bestimmte veranschaulichte und beschriebene Weise angeordnet sein. Gemäß mancher Aspekte sind viele andere Anordnungen möglich.
In jedem in einer Figur gezeigten System können die Elemente in manchen Fällen jeweils das gleiche Bezugszeichen oder ein unterschiedliches Bezugszeichen aufweisen, was darauf hindeutet, dass die repräsentierten Elemente unterschiedlich und/oder ähnlich sein könnten. Ein Element kann jedoch flexibel genug sein, um unterschiedliche Implementierungen zu haben und mit manchen oder allen der hierin gezeigten oder beschriebenen Systeme funktioniert. Die in den Figuren gezeigten verschiedenen Elemente können die gleichen sein oder sich unterscheiden. Die Bezugnahme auf ein erstes Element und ein zweites Element ist zufällig.
Es ist zu verstehen, dass spezifische Angaben in den vorstehenden Beispielen überall in einem oder mehreren Aspekt(en) verwendet werden können. Alle optionalen Merkmale der vorstehend beschriebenen Rechenvorrichtung können auch in Hinblick auf eines der hierin beschriebenen Verfahren oder des computerlesbaren Mediums implementiert werden. Darüber hinaus sind, obwohl zum Beschreiben von Aspekten hierin Flussdiagramme und/oder Zustandsdiagramme verwendet wurden, die Techniken nicht auf diese Diagramme oder entsprechenden Beschreibungen hierin beschränkt. Der Fluss muss beispielsweise nicht durch jedes veranschaulichte Kästchen oder jeden Zustand oder in genau der gleichen Reihenfolge laufen, wie hierin veranschaulicht und beschrieben.
Die vorliegenden Techniken sind nicht auf die hierin aufgeführten konkreten Einzelheiten beschränkt. In der Tat werden Fachleute, die den Vorteil dieser Offenbarung haben, verstehen, dass viele andere Variationen von der vorliegenden Beschreibung und den Zeichnungen innerhalb des Umfangs der vorliegenden Techniken vorgenommen werden können. Dementsprechend sind es die folgenden Ansprüche, einschließlich jedweder Änderungen dazu, die den Umfang der vorliegenden Techniken definieren.

Claims

Es wird beansprucht:
Vorrichtung zum Generieren von Dialog, umfassend: einen Audioempfänger zum Empfangen von Audiodaten, die Sprache umfassen; einen Verifikationswertgenerator zum Generieren eines Verifikationswerts auf Basis der Audiodaten; einen Benutzerdetektor zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet; und einen Dialoggenerator zum Generieren eines Dialogs, um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind.
Vorrichtung nach Anspruch 1, umfassend einen Schlüsselphrasendetektor zum Erkennen einer Schlüsselphrase in den Audiodaten, wobei der Verifikationswertgenerator einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren hat.
Vorrichtung nach Anspruch 1, umfassend einen Sprecherbewerter zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells, wobei der Verifikationswert zumindest teilweise auf dem Sprecherverifikationswert basiert.
Vorrichtung nach Anspruch 1, umfassend einen Sprecherbewerter zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells, wobei der Sprecherbewerter einen textabhängigen Wert auf Basis der Schlüsselphrase zu berechnen hat, und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten, und den textabhängigen und den textunabhängigen Wert kombiniert, um den Sprecherverifikationswert zu generieren, wobei der Verifikationswert zumindest teilweise auf dem Sprecherverifikationswert basiert.
Vorrichtung nach Anspruch 1, umfassend einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten, wobei der Verifikationswert zumindest teilweise auf dem Signalqualitätswert basiert.
Vorrichtung nach jedweder Kombination der Ansprüche 1 bis 5, umfassend einen Signalqualitätsbewerter zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten, wobei der Signalqualitätswert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung einer Eingabedauer oder einer Kombination davon basiert, und wobei der Verifikationswert zumindest teilweise auf dem Signalqualitätswert basiert.
Vorrichtung nach jedweder Kombination der Ansprüche 1 bis 5, umfassend einen Präprozessor zum Vorverarbeiten der Audiodaten zum Entfernen von Rauschen.
Vorrichtung nach jedweder Kombination der Ansprüche 1 bis 5, umfassend einen Merkmalsextraktor zum Extrahieren von Merkmalen aus den Audiodaten, wobei ein Sprecherbewerter einen Sprecherverifikationswert auf Basis der extrahierten Merkmale zu generieren hat und der Verifikationswertgenerator den Verifikationswert auf Basis des Sprecherverifikationswerts zu generieren hat.
Vorrichtung nach jedweder Kombination der Ansprüche 1 bis 5, wobei der Benutzerdetektor einen unbekannten Benutzer in Reaktion auf das Empfangen der zusätzlichen Audiodaten von dem Benutzer zu erkennen hat, und erkennt, dass der aktualisierte Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, wobei der Verifikationswertgenerator einen aktualisierten Verifikationswert auf Basis der zusätzlichen Audiodaten zu generieren hat.
Vorrichtung nach jedweder Kombination der Ansprüche 1 bis 5, wobei der Benutzerdetektor einen bekannten Benutzer in Reaktion auf das Erkennen zu erkennen hat, dass der Verifikationswert den höheren Schwellenwert überschreitet, wobei der Dialoggenerator eine Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers zu generieren hat.
Verfahren zum Generieren von Dialog, umfassend: Empfangen, über einen Prozessor, von Audiodaten, die Sprache umfassen; Generieren, über den Prozessor, eines Verifikationswerts auf Basis der Audiodaten; Erkennen, über den Prozessor, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet; und Generieren, über den Prozessor, eines Dialogs, um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind.
Verfahren nach Anspruch 11, umfassend Erkennen, über den Prozessor, einer Schlüsselphrase in den Audiodaten wobei das Generieren des Verifikationswerts in Reaktion auf das Erkennen der Schlüsselphrase durchgeführt wird.
Verfahren nach Anspruch 11, wobei das Generieren des Verifikationswerts Berechnen eines textabhängigen Werts auf Basis der Schlüsselphrase und eines textunabhängigen Werts auf Basis eines Befehls in den Audiodaten und Kombinieren des textabhängigen Werts und des textunabhängigen Werts zum Generieren eines Sprecherverifikationswerts und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts umfasst.
Verfahren nach Anspruch 11, wobei das Generieren des Verifikationswerts Generieren eines Signalqualitätswerts auf Basis der Audiodaten und Generieren des Verifikationswerts auf Basis des Signalqualitätswerts umfasst, wobei der Signalqualitätswert auf einem Hintergrundgeräuschpegel, einem Eingabesignalpegel, einem Signal-Rausch-Verhältnis, einer Nachhallmessung, einer Eingabedauer oder einer Kombination davon basiert, umfasst.
Verfahren nach Anspruch 11, wobei das Generieren des Verifikationswerts Generieren eines Signalqualitätswerts auf Basis der Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells und Generieren des Verifikationswerts auf Basis des Signalqualitätswerts und des Sprecherverifikationswerts umfasst.
Verfahren nach jedweder Kombination der Ansprüche 11-15, umfassend Vorverarbeiten, über den Prozessor, der Audiodaten zum Entfernen von Rauschen aus den Audiodaten.
Verfahren nach jedweder Kombination der Ansprüche 11 bis 15, umfassend Extrahieren, über den Prozessor, von Merkmalen aus den Audiodaten, Generieren eines Sprecherverifikationswerts auf Basis der extrahierten Merkmale und Generieren des Verifikationswerts auf Basis des Sprecherverifikationswerts.
Verfahren nach jedweder Kombination der Ansprüche 11 bis 15, umfassend Erkennen, über den Prozessor, eines unbekannten Benutzers in Reaktion auf das Empfangen zusätzlicher Audiodaten von dem Benutzer, Generieren eines aktualisierten Verifikationswerts auf Basis der zusätzlichen Audiodaten und Erkennen, dass der aktualisierte Verifikationswert einen niedrigeren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet.
Verfahren nach jedweder Kombination der Ansprüche 11 bis 15, umfassend Erkennen, über den Prozessor, eines bekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den höheren Schwellenwert überschreitet, und Generieren einer Reaktion auf die Audiodaten auf Basis des erkannten bekannten Benutzers.
Verfahren nach jedweder Kombination der Ansprüche 11 bis 15, umfassend Erkennen, über den Prozessor, eines unbekannten Benutzers in Reaktion auf Erkennen, dass der Verifikationswert den unteren Schwellenwert nicht überschreitet.
System zum Generieren von Dialog, umfassend: Mittel zum Empfangen von Audiodaten, die Sprache umfassen; Mittel zum Generieren eines Verifikationswerts auf Basis der Audiodaten; Mittel zum Erkennen, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet; und Mittel zum Generieren eines Dialogs, um zusätzliche Audiodaten einzuholen, die zum Generieren eines aktualisierten Verifikationswerts in Reaktion darauf, dass der Verifikationswert einen unteren Schwellenwert überschreitet, aber einen höheren Schwellenwert nicht überschreitet, zu verwenden sind.
System nach Anspruch 21, Mittel zum Erkennen einer Schlüsselphrase in den Audiodaten umfassend, wobei die Mittel zum Generieren des Verifikationswerts einen Verifikationswert auf Basis der Audiodaten in Reaktion auf das Erkennen der Schlüsselphrase zu generieren haben.
System nach Anspruch 21, Mittel zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells umfassend, wobei der Verifikationswert mindestens teilweise auf dem Sprecherverifikationswert basiert.
System nach jedweder Kombination der Ansprüche 21 bis 23, Mittel zum Generieren eines Sprecherverifikationswerts auf Basis der Audiodaten und eines Sprechermodells umfassend, wobei die Mittel zum Generieren des Sprecherverifikationswerts einen textabhängigen Wert auf Basis der Schlüsselphrase und einen textunabhängigen Wert auf Basis eines Befehls in den Audiodaten zu berechnen haben, und den textabhängigen Wert und den textunabhängigen Wert kombinieren, um den Sprecherverifikationswert zu generieren, wobei der Verifikationswert zumindest teilweise auf dem Sprecherverifikationswert basiert.
System nach jedweder Kombination der Ansprüche 21 bis 23, Mittel zum Generieren eines Signalqualitätswerts auf Basis der Audiodaten umfassend, wobei der Verifikationswert zumindest teilweise auf dem Signalqualitätswert basiert.