DE102016115018B4

DE102016115018B4 - Audiosignatur für Sprachbefehlbeobachtung

Info

Publication number: DE102016115018B4
Application number: DE102016115018.5A
Authority: DE
Inventors: Sacha Vrazic
Original assignee: IMRA Europe SAS
Current assignee: IMRA Europe SAS
Priority date: 2016-08-12
Filing date: 2016-08-12
Publication date: 2018-10-11
Anticipated expiration: 2036-08-13
Also published as: DE102016115018A1; WO2018029071A1

Abstract

Verfahren zur Registrierung von durch Benutzer geäußerten Befehlen, mit
Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird,
für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen,
Verknüpfen der Merkmalsräume,
Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und
Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.

Description

HINTERGRUND DER ERFINDUNG
Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf die Erfassung einer Audiosignatur in Sprachäußerungen für eine Sprachbefehlbeobachtung.
VERWANDTER STAND DER TECHNIK
Die Sprachkommunikation ist die natürliche und einfache Weise der Kommunikation zwischen Menschen. Trotz erheblicher Verbesserungen von Spracherkennungseinrichtungen ist es immer noch eine Herausforderung, eine Maschine einige gesprochene Instruktionen verstehen zu lassen. Tatsächlich arbeiten Spracherkennungseinrichtungen ohne Rauschen und Halligkeit gut. Ferner sind sie abhängig von der Sprache und vom Vokabular, wobei das Vokabular über große Häufigkeiten derselben Phoneme trainiert (oder vortrainiert) wird.
Eine Anwendung der Spracherkennung ist eine Sprachbefehlbeobachtung für Fahrzeuge, ist aber nicht darauf beschränkt. Sprachbefehle können im Fahrzeug zur Steuerung der Ausrüstung, wie von Fenstern, der Klimaanlage, Blinkern, Scheibenwischern, usw., erteilt werden.
Sprachbefehle können auch außerhalb des Fahrzeugs erteilt werden, wenn der Benutzer beispielsweise zu seinem Auto am Parkplatz kommt und einige Einkaufstüten in den Händen trägt, und dann nur durch das Äußern von „Öffnen“ die Tür an der Seite des Benutzers aufgeht.
Die meisten Systeme im Stand der Technik, die eine Spracherkennung oder Sprachbeobachtung implementieren, verwenden Ansätze mit MFCC (Mel Frequency Cepstral Coefficients) als Merkmale oder eine beliebige Erweiterung mit anderen Modelltypen, die auf HMM (Hidden Markov Models), GMM (Gaussian Mixture Models), usw., beruhen.
Das Problem dieser Systeme besteht darin, dass sie ein Training von Worten (in Wirklichkeit von Größen kleiner als eine Silbe) benötigen, die viele Male mit einer Vielzahl von Sprechern wiederholt werden. Daher sind die Systeme abhängig von der Sprache und dem Vokabular.
In Fahrzeugen ist es beispielsweise bereits möglich, Sprachbefehle zur Steuerung der Navigation oder des Multimediasystems zu erteilen. Allerdings ist die Liste der Befehle vom Hersteller vordefiniert, und kann nicht vom Fahrzeugbenutzer gewählt werden.
Es gibt auch einige Möglichkeiten, eine Art Referenz durch Sprache einzugeben, die nicht vordefiniert ist, wenn beispielsweise eine Sprachbezeichnung für das Telefonverzeichnis betroffen ist. Im Allgemeinen ist die Leistung dieser Systeme jedoch schlecht. Verbesserte Systeme, selbst kommerzielle, erfordern eine mehrmalige Wiederholung eines gegebenen Satzes, und liefern immer noch keine hohe Erkennungsrate.
Bei ZAKI, M.; SHAH, N.; PATIL, H.: Effectiveness of fractal dimension for ASR in low resource language. In: 9th International Symposium on Chinese Spoken Language Processing (ISC-SLP), 2014, 464-468, ist ein Verfahren beschrieben, bei dem aus Spracheingaben Merkmalsvektoren aus Mehrfachskalierungs-HFDs gebildet werden.
Bei POVEY, D.; CHU, S.; VARADARAJAN, B: Universal background model based speech recognition. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, March 2008, 4561-4564, ist ein Verfahren beschrieben, bei dem ein UBM aus Spracheingaben erzeugt wird, und bei dem anschließend für jede Spracheingabe ein GMM geschätzt wird.
Es gelten die folgenden Bedeutungen für die in dieser Beschreibung verwendeten Abkürzungen:

GMM: Gauß-Misch-Modell
HFD: Higuchi-Fraktal-Dimension
HMM: Hidden-Markov-Modell
MAP: Maximum A Posteriori
MFCC: Mel-Frequenz-Cepstrum-Koeffizienten
UBM: Universal-Hintergrund-Modell
VAD: Sprachaktivitätserfassungseinrichtung

KURZZUSAMMENFASSUNG DER ERFINDUNG
Zumindest ein Ausführungsbeispiel der Erfindung zielt auf die Bewältigung der vorstehenden Nachteile ab und hat die Aufgabe der Bereitstellung eines Sprachbeobachtungssystems, das eine Identifizierung eines geäußerten Sprachbefehls und des Sprechers ohne vorheriges Training über eine große Datenbank ermöglicht, wobei der Sprachbefehl unabhängig von der Sprache sein kann, und nicht Teil eines existierenden Vokabulars sein muss.
Gemäß Ausgestaltungen der Erfindung wird dies durch Verfahren, Vorrichtungen und ein computerlesbares Medium wie in den beigefügten Patentansprüchen definiert erzielt.
Gemäß zumindest einem Ausführungsbeispiel der Erfindung ist es möglich, dass ein gegebener Sprecher einen Sprachbefehl definiert, der unabhängig von Sprache und Vokabular ist. Der Befehl kann Sprache, Summen, Singen, usw., umfassen. Der Befehl kann mit nur einer Äußerung registriert werden.
Gemäß einem Ausführungsbeispiel der Erfindung wird die Higuchi-Fraktal-Dimension gefolgt von einer probabilistischen Differenzierung verwendet.
Gemäß einem Ausführungsbeispiel der Erfindung wird die Higuchi-Fraktal-Dimension auf mehrskalige Weise in Kombination mit einer probabilistischen Modellierung angewendet, was eine Zuweisung des Paars Sprecher (d.h. Benutzer) und Befehl als Signatur ermöglicht, sowie das robuste Identifizieren des Befehls und des Benutzers ermöglicht.
Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
Figurenliste

1 zeigt ein schematisches Blockschaltbild einer Verarbeitung in einem Registriermodus gemäß einem Ausführungsbeispiel der Erfindung.
2 zeigt ein schematisches Blockschaltbild einer Merkmalsberechnungsverarbeitung in einem Registriermodus gemäß Ausführungsbeispielen der Erfindung.
3 zeigt ein Ablaufdiagramm einer probabilistischen Modellierungsverarbeitung gemäß einem Ausführungsbeispiel der Erfindung.
4 zeigt eine Darstellung eines Beispiels von benutzer- und befehlsabhängigen GMM-Modellen gemäß einem Ausführungsbeispiel der Erfindung.
5 zeigt ein schematisches Blockschaltbild einer Befehl- und Benutzererfassungsverarbeitung in einem Aktionsmodus gemäß einem Ausführungsbeispiel der Erfindung.
6 zeigt eine Darstellung von Ergebnissen der Befehl- und Benutzererfassungsverarbeitung gemäß einem Ausführungsbeispiel der Erfindung
Die 7A und 7B zeigen Darstellungen von Ergebnissen einer Befehl- und Benutzererfassungsverarbeitung gemäß Vergleichsbeispielen.
8 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der Ausführungsbeispiele der Erfindung implementierbar sind.

BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
Ausführungsbeispiele der Erfindung beziehen sich auf Funktionen, die sich im digitalen Bereich abspielen. Es gibt allerdings einen analogen Abschnitt zum Konditionieren (Verstärken und Tiefpassfiltern) von Mikrofonsignalen und Umwandeln dieser in digitale Signale. Dieser Teil ist vom Schutzbereich dieser Anmeldung nicht betroffen.
Ein Sprachbeobachtungssystem gemäß zumindest einem Ausführungsbeispiel der Erfindung umfasst zwei Betriebsmodi, d.h. einen „Registriermodus“ und einen „Aktionsmodus“. Zuerst wird der Registriermodus beschrieben.
Registriermodus
Im Registriermodus wird ein Sprachsignal, das einen Befehl darstellt, der durch einen Benutzer als Bezeichnung für eine definierte Aktion geäußert wird, im Sprachbeobachtungssystem registriert.
Gemäß 1 wird zuerst eine Sprachäußerung des Benutzers durch ein Mikrofon oder ein Mikrofonarray 10 beschafft (beispielsweise durch eine Ein-Mikrofon- oder Mehrfach-Mikrofon-Umgebung im Fahrzeug, was außerhalb des Schutzbereichs dieser Anmeldung liegt).
Die Sprachäußerung wird verstärkt, tiefpassgefiltert und digitalisiert. Dann werden in einem Vorverarbeitungsblock 20, der außerhalb des Schutzbereichs dieser Anmeldung liegt, Rauschen und Interferenzen für jede Situation (eine Anwendung im Fahrzeug oder außerhalb des Fahrzeugs) entfernt, und ein digitales Audiosignal wird aus dem Vorverarbeitungsblock 20 ausgegeben.
Ein Merkmalsextraktionsblock 30 eines Ausführungsbeispiels der Erfindung, der das digitale Audiosignal empfängt, umfasst eine Schätzung gemäß einer Higuchi-Fraktal-Dimension (HFD) auf eine Mehrfachskalierungsart. „Mehrfachskalierung“ bedeutet, dass die Fraktal-Dimension für verschiedene (eine Vielzahl) von Skalierungen berechnet wird, und alle diese skalierungsabhängigen Fraktal-Dimensionen (d.h. HFD-Parameter) gesammelt werden. Die HFD kann alleine oder in Kombination mit anderen Merkmalen wie Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) verwendet werden.
2 veranschaulicht Einzelheiten des Merkmalsextraktionsblocks 30. Zuerst wird das digitale Audiosignal in einem Rahmenbildungsblock 31 einer Rahmenbildung unterzogen, in dem Rahmen von beispielsweise 32 Millisekunden sich zu 50% überlappen. Eine Sprachaktivitätserfassungseinrichtung (VAD) 32 wendet bei dem digitalen Audiosignal, das der Rahmenbildung unterzogen wurde, einen Algorithmus an, der das Vorhandensein von Sprache in dem digitalen Audiosignal erfasst und ein einem Befehl entsprechendes Sprachsignal segmentiert, d.h. Start und Ende des Sprachsignals findet. Da ein Befehl mehrere Sekunden dauern kann, ist das Sprachsignal nach Segmentierung eine Matrix von Zeitabtastwerten, die in dem Befehl enthaltenen Sprachrahmen entsprechen. Die Sprachrahmen werden auch als Zeitrahmen des Befehls bezeichnet. Das heißt, jede Spalte der Matrix enthält Zeitabtastwerte, die einem gegebenen Zeitrahmen des Befehls entsprechen. Diese Matrix wird auch als Sprachbefehlsmatrix bezeichnet. Der Sprachbefehl, d.h. die Sprachbefehlsmatrix, wird aus der VAD 32 ausgegeben.
Aus dem Sprachsignal wird dann ein Merkmalsraum berechnet. Wie vorstehend beschrieben ist es gemäß einem Ausführungsbeispiel der Erfindung möglich, diesen Merkmalsraum lediglich unter Verwendung eines Higuchi-Fraktal-Dimensionsblocks 34 zu berechnen, wie es im oberen Zweig von 2 veranschaulicht ist. Gemäß einem anderen Ausführungsbeispiel der Erfindung wird zur Berechnung des Merkmalsraums alternativ der Higuchi-Fraktal-Dimensionsblock 34 zusammen mit einem Mel-Frequenz-Cepstrum-Koeffizientenblock 33 verwendet, wie es im unteren Zweig von 2 veranschaulicht ist.
Nachstehend wird die im HFD-Block 34 durchgeführte Verarbeitung beschrieben.
Anhand des aus der VAD 32 ausgegebenen Sprachsignals wird zuerst jede Spalte der Sprachbefehlsmatrix unabhängig verarbeitet, und aus jeder Spalte wird ein Vektor $X_{k}^{m}$
von Abtastwerten (Zeitreihen) wie durch Gleichung (1) angegeben erzeugt. $X_{k}^{m} = {x [m], x [m + k], x [m + 2 k], \dots, x [m + \frac{W - m}{k}] k},$
wobei k das Zeitintervall ist, m die Anfangszeit bei der Dimensionsberechnung ist, und W die Rahmengröße in Abtastwerten ist. Die Anpassung dieser Parameter definiert die Anzahl der Zeitreihen, die erhalten werden.
Dann wird die Länge L_m,k jeder Zeitreihe wie durch Gleichung (2) angegeben berechnet. $L_{m, k} = \frac{\frac{W - 1}{⌊ \frac{W - m}{k} ⌋ k} \sum_{i = 1}^{⌊ \frac{W - m}{k} ⌋} | x [m + i k] - x [m + (i - 1) k] |}{k}$
Der Mittelwert L_k der Länge wird wie durch Gleichung (3) angegeben berechnet. $L_{k} = \frac{1}{k} \sum_{m = 1}^{k} L_{m, k}$
Dann wird die Steigung der Geraden berechnet, die durch die Punkte, die durch ${log (1), log (\frac{1}{2}), \dots log (1 /m)}$
auf der x-Achse angegeben sind, und durch die Punkte geht, die durch log(L_k) auf der y-Achse angegeben sind. Die Steigung ist der HFD-Parameter.
Mittels der vorstehenden Verarbeitung werden für alle gewählten Skalierungen N HFD-Parameter für jeden Zeitrahmen als Merkmalsvektor der Länge N berechnet, der auch als „Befehlsmerkmalsvektor“ bezeichnet werden kann, und die Dimension einer Befehlsmerkmalsraummatrix ist [N x T] im oberen Zweig von 2 oder [(N + M) x T] im unteren Zweig von 2, in dem zusätzlich zu den N HFD-Parametern M Parameter gemäß dem MFCC-Block 33 berechnet werden. T entspricht der Anzahl der Zeitrahmen des Befehls.
Zum Erreichen einer Mehrfachskalierungs-HFD werden in den vorstehenden Gleichungen verschiedene Parameter von m verwendet, beispielsweise m=3, m=10 und m=50. Werden drei verschiedene Werte für m angewendet, werden drei Merkmalsräume für den Befehl berechnet.
Wie in 1 gezeigt wird der im Block 30 berechnete Merkmalsraum in einen Universa-Hhintergrund-Modell-(UBM-)Schätzblock 40 eingegeben, der eine Art Grenzen für GMM-Modelle definiert. Gemäß einem Ausführungsbeispiel der Erfindung ist das UBM ein benutzer- und befehlsunabhängiges GMM-Modell. Das UBM fungiert als Vormodell, und es gibt viele Möglichkeiten, es zu berechnen. Am effizientesten (bezüglich der Modellqualität) ist der Erwartungswertmaximierungsansatz.
Das im Block 40 geschätzte UBM wird in einen Block 50 eingegeben, in dem ein benutzer- und befehlsabhängiges GMM aus dem UBM beispielsweise unter Verwendung des Maximum A Posteriori-(MAP-)Ansatzes berechnet wird. Die Anzahl von Gauß-Mischungen beträgt beispielsweise 16, was auch für die UBM-Schätzung gilt. Die in den Blöcken 40 und 50 geschätzten Modelle werden in einer Benutzer-/Befehlsmodelldatenbank 60 gespeichert. Die Datenbank 60 speichert auch die berechneten Merkmalsräume.
Es wird angemerkt, dass bei jeder Registrierung eines neuen Befehls durch einen Benutzer, d.h., wenn eine Sprachäußerung durch den Benutzer unter Verwendung des in 1 gezeigten Mikrofons oder Mikrofonarrays 10 eingegeben wird, beide Modelle UBM und GMM neu geschätzt werden müssen. Das UBM wird über alle Merkmalsräume geschätzt, die aus jedem einer Vielzahl von Sprachsignalen berechnet werden, die durch eine Vielzahl von Benutzern geäußert werden, und die in der Datenbank 60 gespeichert sind.
3 zeigt eine Prozedur für eine Benutzer- und Befehlsmodellschätzung gemäß einem Ausführungsbeispiel der Erfindung. Wenn der Registriermodus das erste Mal durchgeführt wird, ist die Datenbank 60 der Benutzer-/Befehlsmodelle und Benutzer-/Befehlsmerkmalsräume leer (JA in Schritt S20). Dann wird anhand des aktuell berechneten Merkmalsraums, der aus dem durch einen Benutzer geäußerten ersten Sprachsignal extrahiert wird, in Schritt S22 ein UBM geschätzt, und in Schritt S23 wird ein GMM für das erste Sprachsignal (den ersten Benutzer/Befehl) berechnet.
Ist ein zweites Sprachsignal (ein zweiter Befehl) zu registrieren, werden ein aus diesem zweiten Sprachsignal berechneter Merkmalsraum und der aus dem ersten Sprachsignal (dem ersten Befehl) berechnete Merkmalsraum zusammen zum Schätzen des UBM verwendet. Das heißt, in Schritt S21 werden die Merkmalsräume verknüpft, und in Schritt S22 wird das UBM unter Verwendung der verknüpften Merkmalsräume berechnet. Dann werden durch Wiederholen von Schritt S23 unter Verwendung des UBM ein GMM für das erste Sprachsignal neu geschätzt und ein GMM für das zweite Sprachsignal geschätzt. Da das zweite Sprachsignal einen letzten Benutzer/Befehl (letzten Merkmalsraum) in der Datenbank 60 in Schritt S24 darstellt, endet der Prozess nach der Schätzung des GMM für das zweite Sprachsignal. Unter der Annahme, dass die Anzahl von Benutzern (Befehlen) (d.h. durch Benutzer geäußerten Befehlen), die bereits registriert sind, S ist, werden bei der Registrierung eines Benutzers/Befehls S+1 alle S Merkmalsräume und der aktuelle zur Schätzung des UBM in Schritt S22 verwendet. Die S+1-Benutzer-/Befehls-GMMs werden dann in Schritt S23 (neu) geschätzt.
Es wird angemerkt, dass bei jeder Registrierung eines neuen Befehls im Sprachbeobachtungssystem alle endgültigen Benutzer-/Befehlsmodelle neu geschätzt werden müssen. Einfach erklärt besteht der Grund dafür darin, dass die Grenzen zwischen Modellen aufgrund des UBM-GMM-Ansatzes neu geschätzt werden.
4 zeigt eine zweidimensionale Darstellung von drei Benutzer-/Befehls-GMMs, die gemäß einem Ausführungsbeispiel der Erfindung geschätzt werden. Wegen der graphischen Darstellung sind lediglich zwei Dimensionen der GMMs gezeigt. Die GMMs haben tatsächlich viel mehr Dimensionen.
Die Geraden in 4 stellen die Grenzen zwischen Modellen dar, die bei der Differenzierung (Entscheidung) darüber wichtig sind, welches Sprachsignal geäußert wurde (d.h. welcher Befehl von welchem Benutzer geäußert wurde). Jedes Modell befindet sich daher in einer Art Cluster.
Gemäß einem Ausführungsbeispiel der Erfindung werden die berechneten benutzer-/befehlsabhängigen GMMs, das UBM und alle Merkmalsräume in der Datenbank 60 aufbewahrt. Wie vorstehend beschrieben ist es erforderlich, auch die Merkmalsräume für alle registrierten Befehle (und nicht nur ihre GMMs) aufzubewahren, da sie bei der Neuschätzungsprozedur beim Hinzufügen eines neuen Befehls oder Beseitigen eines Befehls erforderlich sind. Es wird angemerkt, dass beim Beseitigen eines Befehls die gleiche Neuschätzungsprozedur, wie sie für das Hinzufügen eines neuen Befehls durchgeführt wird, zum Schätzen neuer GMMs über alle verbleibenden Befehle gilt.
Aktionsmodus
Nachstehend wird der Aktionsmodus des Sprachbeobachtungssystems gemäß einem Ausführungsbeispiel der Erfindung beschrieben. Im Aktionsmodus wird ein geäußertes Sprachsignal bewertet, um herauszufinden, ob es einen Befehl (d.h. ein Paar Benutzer und Befehl) für das geäußerte Sprachsignal gibt, der in dem Sprachbeobachtungssystem im Registriermodus registriert wurde.
Gemäß einem Ausführungsbeispiel der Erfindung werden die registrierten Befehle in einem Sprachfluss (in kontinuierlicher Sprache) erfasst. Gemäß einem anderen Ausführungsbeispiel der Erfindung werden die registrierten Befehle aus einem Kurzzeitsprachsegment erfasst.
5 veranschaulicht eine Verarbeitung im Aktionsmodus gemäß einem Ausführungsbeispiel der Erfindung. Das geäußerte Sprachsignal (das auch als ausgesprochener Versuchsbefehl bezeichnet wird) wird über ein Mikrofon oder ein Mikrofonarray 41 eingegeben, das dasselbe wie das Mikrofon oder das Mikrofonarray 10 von 1 sein kann.
In 5 sind der Vorverarbeitungsblock 20 und der Merkmalsextraktionsblock 36 den im Registriermodus verwendeten Blöcken 20 und 30 abgesehen von der VAD in Block 36 ähnlich, die zum Segmentieren der Befehle im Sprachfluss anstelle in einer zeitlich begrenzten Aufzeichnung ein wenig verschieden ist.
In Blöcken 44 und 45 wird die Log-Likelihood sowohl für das UBM als auch die GMMs unter Verwendung des Merkmalsraums aus dem geäußerten Versuchsbefehl berechnet. Die endgültige Log-Likelihood LL ist durch die Durchschnittsdifferenz zwischen den UBM- und GMM- Log-Likelihoods gegeben.
Liegt die endgültige LL unter einem vorbestimmten Schwellenwert, werden keine Befehle (keine der durch einen gegebenen Benutzer geäußerten registrierten Befehle) erfasst. Das heißt, in Block 46 wird entschieden, dass der geäußerte Versuchsbefehl kein registrierter Befehl und Benutzer ist.
Andererseits liefert die größte endgültige LL das wahrscheinlichste erfasste Paar aus Befehl und Benutzer, das die Ausgabeinformationen aus Block 46 darstellt. Es kann vorkommen, dass derselbe Befehl durch eine Vielzahl von Benutzern geäußert wird. Dieser Fall stellt kein Problem dar, da der Benutzer in Block 46 differenziert wird.
Gemäß einem Ausführungsbeispiel der Erfindung werden in Block 46 endgültige Log-Likelihoods durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und den Log-Likelihoods für die GMMs berechnet. In Block 46 wird ferner ein durch einen registrierten Benutzer geäußerter registrierter Befehl beruhend auf einer endgültigen Log-Likelihood der berechneten endgültigen Log-Likelihoods erfasst, wenn die endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet. In Block 46 werden schließlich der registrierte Befehl und der registrierte Benutzer beruhend auf der maximalen Log-Likelihood der endgültigen Log-Likelihoods entschieden, die den vorbestimmten Schwellenwert überschreiten.
6 zeigt eine Konfusionsmatrix, die das in Block 46 für fünf verschiedene registrierte Benutzer (d.h. Sprecher) und drei registrierte Befehle für jeden registrierten Benutzer erhaltene Ergebnis veranschaulicht. Hier gibt es 15 registrierte Paare aus Benutzer und Befehl.
Jeder registrierte Benutzer äußert jeden registrierten Befehl 24 Mal. Die x-Achse stellt den Sollbefehl dar, d.h. was erfasst werden muss, und die y-Achse stellt die Ausgabe aus Block 46 dar. Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrix gegeben. Auf der x-Achse entsprechen Indizes 1 bis 3 den drei durch Benutzer 1 geäußerten Befehlen, Indizes 4 bis 6 entsprechen den drei durch Benutzer 2 geäußerten Befehlen, Indizes 7 bis 9 entsprechen den drei durch Benutzer 3 geäußerten Befehlen, Indizes 10 bis 12 entsprechen den drei durch Benutzer 4 geäußerten Befehlen, und Indizes 13 bis 15 entsprechen den drei durch Benutzer 5 geäußerten Befehlen. Das gleiche gilt für die y-Achse.
Ist die Anzahl auf der Diagonalen gleich 24, bedeutet dies, dass bei jeder Äußerung des Befehls der Benutzer und der Befehl gut erkannt werden. Liegt die Anzahl unter 24, bedeutet dies, dass es einige Fehler gibt, wobei es möglich ist, Informationen über die Fehler herzuleiten. Wenn in dem in 6 gezeigten Fall beispielsweise Benutzer 2 Befehl 3 geäußert hat, ist eine Fehlerfassung bei 24 Versuchen aufgetreten (Anzahl 23 auf der Diagonalen), und durch Überprüfen der Spalte ist ersichtlich, dass diese eine Fehlerfassung als Benutzer 4/Befehl 2 erfasst wurde.
Die in der unteren rechten Ecke in 6 gezeigte Ergebnistabelle gibt eine exzellente Erkennungsrate der Paare Benutzer und Befehl von 98,1% an.
Gemäß Ausführungsbeispielen der Erfindung wird die Higuchi-Fraktal-Dimension als Schlüsselmerkmalselement in einem mehrskaligen Ansatz kombiniert mit der UBM/GMM-Schätzprozedur zur eindeutigen Modellierung von Benutzer/Befehl als Audiosignatur angewendet, was in Kombination mit anderen Merkmalen oder alleine verwendet werden kann.
Nachstehend werden die in 6 gezeigten Ergebnisse mit Ergebnissen verglichen, die durch ein erstes herkömmliches Sprachbeobachtungssystem erzielt werden, das Merkmale verwendet, die aus einem Sprachsignal unter Verwendung einer Fraktaldimension (die von der Higuchi-Fraktal-Dimension verschieden ist) gefolgt von einer einfachen Differenzierung extrahiert werden, und ein zweites herkömmliches Sprachbeobachtungssystem erzielt werden, das die Fraktaldimensionsmerkmale zusammen mit Merkmalen verwendet, die aus einer Entropie des Sprachsignals hergeleitet werden.
7A zeigt die von dem ersten herkömmlichen Sprachbeobachtungssystem erhaltenen Ergebnisse, und 7B zeigt die von dem zweiten herkömmlichen Sprachbeobachtungssystem erhaltenen Ergebnisse für fünf verschiedene registrierte Benutzer (d.h. Sprecher) und drei registrierte Befehle für jeden registrierten Benutzer, wobei dieselben Bedingungen und Daten wie im Ausführungsbeispiel der Erfindung angewendet werden, dessen Ergebnis in 6 dargestellt ist. Es gibt also 15 Paare aus Benutzer und Befehl.
Jeder registrierte Benutzer äußert jeden registrierten Befehl 24 Mal. Die x-Achse stellt den Sollbefehl dar, d.h. was erfasst werden muss, und die y-Achse stellt die Ausgabe aus Block 46 dar. Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrix gegeben. Auf der x-Achse entsprechen Indizes 1 bis 3 den drei durch Benutzer 1 geäußerten Befehlen, Indizes 4 bis 6 entsprechen den drei durch Benutzer 2 geäußerten Befehlen, Indizes 7 bis 9 entsprechen den drei durch Benutzer 3 geäußerten Befehlen, Indizes 10 bis 12 entsprechen den drei durch Benutzer 4 geäußerten Befehlen, und Indizes 13 bis 15 entsprechen den drei durch Benutzer 5 geäußerten Befehlen. Das gleiche gilt für die y-Achse.
Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrizen angegeben und sollte gleich 24 sein, da es 24 Wiederholungen jedes Befehls gibt.
Wenn lediglich die Fraktaldimensionsmerkmale verwendet werden, liegt die Erkennungsrate bei geringen 10,6%, wie es in der unteren rechten Ecke in 7A veranschaulicht ist. Beim Hinzufügen der zweiten Merkmale (Entropie) sind die Ergebnisse besser, bleiben aber niedrig bei 14,2%, wie es in der unteren rechten Ecke in 7B veranschaulicht ist.
8 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der zumindest einige der vorstehend beschriebenen Ausführungsbeispiele der Erfindung implementiert werden können. Die Steuereinheit umfasst Verarbeitungsressourcen (Verarbeitungsschaltkreise), Speicherressourcen (Speicherschaltkreise) und Schnittstelle. Das Mikrofon oder Mikrofonarray 10, 41 kann durch die Schnittstellen implementiert werden, und zumindest einige der Verarbeitungen in den Blöcken 20, 30, 36, 40, 44, 45, 46, 50 und 60 und den Schritten S20 bis S24 können durch die Verarbeitungsressourcen (Verarbeitungsschaltkreise) und Speicherressourcen (Speicherschaltkreise) der Steuereinheit realisiert werden.
Im Allgemeinen können die verschiedenen Ausführungsbeispiele der Erfindung als Hardware oder spezielle Schaltungen, Software (computerlesbare Instruktionen, die auf einem computerlesbaren Medium ausgebildet sind), Logik oder eine beliebige Kombination daraus implementiert werden. Beispielsweise können einige Aspekte als Hardware implementiert werden, während andere Aspekte in Firmware oder Software implementiert werden können, die durch eine Steuereinrichtung, einen Mikroprozessor oder eine andere Recheneinrichtung ausgeführt werden kann, obwohl die Erfindung nicht darauf beschränkt ist. Während verschiedene Ausgestaltungen der Erfindung als Blockdiagramme, Ablaufdiagramme oder unter Verwendung anderer bildlicher Darstellungen veranschaulicht werden können, ist ersichtlich, dass die hier beschriebenen Blöcke, Vorrichtungen, Systeme, Methoden oder Verfahren als Hardware, Software, Firmware, spezielle Schaltungen oder Logik, Universalhardware oder eine Steuereinrichtung oder andere Recheneinrichtungen oder eine beliebige Kombination daraus implementiert werden können, die nicht einschränkende Beispiele darstellen.
Es ist ersichtlich, dass die vorstehende Beschreibung die Erfindung veranschaulicht und die Erfindung nicht einschränken soll. Der Fachmann erkennt verschiedene Modifikationen und Anwendungen, ohne von der wirklichen Idee und dem Schutzbereich der Erfindung abzuweichen, wie er in den beigefügten Patentansprüchen definiert ist.

Claims

Verfahren zur Registrierung von durch Benutzer geäußerten Befehlen, mit Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen, Verknüpfen der Merkmalsräume, Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.
Verfahren nach Anspruch 1, mit Speichern der geschätzten GMMs, des UBM und der Merkmalsräume in einer Datenbank.
Verfahren nach Anspruch 1 oder 2, mit Extrahieren des Sprachsignals aus einem digitalen Audiosignal.
Verfahren nach einem der Ansprüche 1 bis 3, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen eines jeden der Vielzahl von Sprachsignalen, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
Verfahren zur Erfassung von durch registrierte Benutzer geäußerten registrierten Befehlen, mit Erfassen eines Sprachsignals, für jeden einer Vielzahl von Zeitrahmen T des Sprachsignals, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl an Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HFD, wobei N und T ganze Zahlen größer oder gleich 1 sind, Beschaffen eines Universal-Hintergrund-Modells (UBM) und zumindest eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM), Berechnen einer Log-Likelihood für das UBM und einer Log-Likelihood für das zumindest eine GMM unter Verwendung des Merkmalsraums, Berechnen zumindest einer endgültigen Log-Likelihood durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und der Log-Likelihood für das zumindest eine GMM, Erkennen eines durch einen registrierten Benutzer geäußerten registrierten Befehls in dem Sprachsignal, wenn die zumindest eine endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet, und Feststellen des registrierten Befehls und des registrierten Benutzers beruhend auf der maximalen Log-Likelihood aus der zumindest einen endgültigen Log-Likelihood, die den vorbestimmten Schwellenwert überschreitet.
Verfahren nach Anspruch 5, wobei das UBM und das zumindest eine GMM geschätzt werden durch Erfassen einer Vielzahl von Sprachsignalen für eine Registrierung, wobei jedes der Vielzahl von Sprachsignalen für die Registrierung jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen für die Registrierung, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor für die Registrierung aus dem jeweiligen Sprachsignal für die Registrierung unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums für die Registrierung aus dem Merkmalsvektor für die Registrierung und der Anzahl von Zeitrahmen T des Sprachsignals für die Registrierung für jede Skalierung der Mehrfachskalierungs-HFD, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume für die Registrierung erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale für die Registrierung entsprechen, Verknüpfen der Merkmalsräume für die Registrierung, Schätzen des Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen für die Registrierung und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale für die Registrierung unter Verwendung des geschätzten UBM, wodurch das zumindest eine GMM geschätzt wird.
Verfahren nach Anspruch 5 oder 6, mit Beschaffen des Sprachsignals aus einem eine kontinuierliche Sprache darstellenden digitalen Audiosignal.
Verfahren nach einem der Ansprüche 5 bis 7, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen des Sprachsignals, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
Verfahren nach Anspruch 6, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen des Sprachsignals, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst, wobei das UBM und das zumindest eine GMM ferner geschätzt werden durch für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen für die Registrierung, Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für die Registrierung, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor für die Registrierung die M MFCCs und die N HFD-Parameter umfasst.
Computerlesbares Medium mit einem Computerprogramm mit Programmcode zur Durchführung aller Verfahrensschritte nach einem der Ansprüche 1 bis 9, wenn das Programm in einem Computer ausgeführt wird.
Vorrichtung zur Registrierung von durch Benutzer geäußerten Befehlen, mit einer Extrahiereinheit (30) zum Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, und für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen, und einer Schätzeinheit (40, 50) zum Verknüpfen der Merkmalsräume, Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.
Vorrichtung nach Anspruch 11, wobei die Extrahiereinheit zum Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen eines jeden der Vielzahl von Sprachsignalen eingerichtet ist, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
Vorrichtung zur Erfassung von durch registrierte Benutzer geäußerten registrierten Befehlen, mit einer Extrahiereinheit (36) zum Erfassen eines Sprachsignals und für jeden einer Vielzahl von Zeitrahmen T des Sprachsignals, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, einer Berechnungseinheit (44, 45) zum Beschaffen eines Universal-Hintergrund-Modells (UBM) und zumindest eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM), und Berechnen einer Log-Likelihood für das UBM und einer Log-Likelihood für das zumindest eine GMM unter Verwendung des Merkmalsraums, und einer Entscheidungseinheit (46) zum Berechnen zumindest einer endgültigen Log-Likelihood durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und der Log-Likelihood für das zumindest eine GMM, Erkennen eines durch einen registrierten Benutzer geäußerten registrierten Befehls in dem Sprachsignal, wenn die zumindest eine endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet, und Feststellen des registrierten Befehls und des registrierten Benutzers beruhend auf der maximalen Log-Likelihood aus der zumindest einen endgültigen Log-Likelihood, die den vorbestimmten Schwellenwert überschreitet.