DE102016115018B4 - Audiosignatur für Sprachbefehlbeobachtung - Google Patents

Audiosignatur für Sprachbefehlbeobachtung Download PDF

Info

Publication number
DE102016115018B4
DE102016115018B4 DE102016115018.5A DE102016115018A DE102016115018B4 DE 102016115018 B4 DE102016115018 B4 DE 102016115018B4 DE 102016115018 A DE102016115018 A DE 102016115018A DE 102016115018 B4 DE102016115018 B4 DE 102016115018B4
Authority
DE
Germany
Prior art keywords
speech signal
speech
ubm
user
hfd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE102016115018.5A
Other languages
English (en)
Other versions
DE102016115018A1 (de
Inventor
Sacha Vrazic
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMRA Europe SAS
Original Assignee
IMRA Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMRA Europe SAS filed Critical IMRA Europe SAS
Priority to DE102016115018.5A priority Critical patent/DE102016115018B4/de
Priority to PCT/EP2017/069649 priority patent/WO2018029071A1/en
Publication of DE102016115018A1 publication Critical patent/DE102016115018A1/de
Application granted granted Critical
Publication of DE102016115018B4 publication Critical patent/DE102016115018B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Verfahren zur Registrierung von durch Benutzer geäußerten Befehlen, mit
Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird,
für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen,
Verknüpfen der Merkmalsräume,
Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und
Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf die Erfassung einer Audiosignatur in Sprachäußerungen für eine Sprachbefehlbeobachtung.
  • VERWANDTER STAND DER TECHNIK
  • Die Sprachkommunikation ist die natürliche und einfache Weise der Kommunikation zwischen Menschen. Trotz erheblicher Verbesserungen von Spracherkennungseinrichtungen ist es immer noch eine Herausforderung, eine Maschine einige gesprochene Instruktionen verstehen zu lassen. Tatsächlich arbeiten Spracherkennungseinrichtungen ohne Rauschen und Halligkeit gut. Ferner sind sie abhängig von der Sprache und vom Vokabular, wobei das Vokabular über große Häufigkeiten derselben Phoneme trainiert (oder vortrainiert) wird.
  • Eine Anwendung der Spracherkennung ist eine Sprachbefehlbeobachtung für Fahrzeuge, ist aber nicht darauf beschränkt. Sprachbefehle können im Fahrzeug zur Steuerung der Ausrüstung, wie von Fenstern, der Klimaanlage, Blinkern, Scheibenwischern, usw., erteilt werden.
  • Sprachbefehle können auch außerhalb des Fahrzeugs erteilt werden, wenn der Benutzer beispielsweise zu seinem Auto am Parkplatz kommt und einige Einkaufstüten in den Händen trägt, und dann nur durch das Äußern von „Öffnen“ die Tür an der Seite des Benutzers aufgeht.
  • Die meisten Systeme im Stand der Technik, die eine Spracherkennung oder Sprachbeobachtung implementieren, verwenden Ansätze mit MFCC (Mel Frequency Cepstral Coefficients) als Merkmale oder eine beliebige Erweiterung mit anderen Modelltypen, die auf HMM (Hidden Markov Models), GMM (Gaussian Mixture Models), usw., beruhen.
  • Das Problem dieser Systeme besteht darin, dass sie ein Training von Worten (in Wirklichkeit von Größen kleiner als eine Silbe) benötigen, die viele Male mit einer Vielzahl von Sprechern wiederholt werden. Daher sind die Systeme abhängig von der Sprache und dem Vokabular.
  • In Fahrzeugen ist es beispielsweise bereits möglich, Sprachbefehle zur Steuerung der Navigation oder des Multimediasystems zu erteilen. Allerdings ist die Liste der Befehle vom Hersteller vordefiniert, und kann nicht vom Fahrzeugbenutzer gewählt werden.
  • Es gibt auch einige Möglichkeiten, eine Art Referenz durch Sprache einzugeben, die nicht vordefiniert ist, wenn beispielsweise eine Sprachbezeichnung für das Telefonverzeichnis betroffen ist. Im Allgemeinen ist die Leistung dieser Systeme jedoch schlecht. Verbesserte Systeme, selbst kommerzielle, erfordern eine mehrmalige Wiederholung eines gegebenen Satzes, und liefern immer noch keine hohe Erkennungsrate.
  • Bei ZAKI, M.; SHAH, N.; PATIL, H.: Effectiveness of fractal dimension for ASR in low resource language. In: 9th International Symposium on Chinese Spoken Language Processing (ISC-SLP), 2014, 464-468, ist ein Verfahren beschrieben, bei dem aus Spracheingaben Merkmalsvektoren aus Mehrfachskalierungs-HFDs gebildet werden.
  • Bei POVEY, D.; CHU, S.; VARADARAJAN, B: Universal background model based speech recognition. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, March 2008, 4561-4564, ist ein Verfahren beschrieben, bei dem ein UBM aus Spracheingaben erzeugt wird, und bei dem anschließend für jede Spracheingabe ein GMM geschätzt wird.
  • Es gelten die folgenden Bedeutungen für die in dieser Beschreibung verwendeten Abkürzungen:
  • GMM
    Gauß-Misch-Modell
    HFD
    Higuchi-Fraktal-Dimension
    HMM
    Hidden-Markov-Modell
    MAP
    Maximum A Posteriori
    MFCC
    Mel-Frequenz-Cepstrum-Koeffizienten
    UBM
    Universal-Hintergrund-Modell
    VAD
    Sprachaktivitätserfassungseinrichtung
  • KURZZUSAMMENFASSUNG DER ERFINDUNG
  • Zumindest ein Ausführungsbeispiel der Erfindung zielt auf die Bewältigung der vorstehenden Nachteile ab und hat die Aufgabe der Bereitstellung eines Sprachbeobachtungssystems, das eine Identifizierung eines geäußerten Sprachbefehls und des Sprechers ohne vorheriges Training über eine große Datenbank ermöglicht, wobei der Sprachbefehl unabhängig von der Sprache sein kann, und nicht Teil eines existierenden Vokabulars sein muss.
  • Gemäß Ausgestaltungen der Erfindung wird dies durch Verfahren, Vorrichtungen und ein computerlesbares Medium wie in den beigefügten Patentansprüchen definiert erzielt.
  • Gemäß zumindest einem Ausführungsbeispiel der Erfindung ist es möglich, dass ein gegebener Sprecher einen Sprachbefehl definiert, der unabhängig von Sprache und Vokabular ist. Der Befehl kann Sprache, Summen, Singen, usw., umfassen. Der Befehl kann mit nur einer Äußerung registriert werden.
  • Gemäß einem Ausführungsbeispiel der Erfindung wird die Higuchi-Fraktal-Dimension gefolgt von einer probabilistischen Differenzierung verwendet.
  • Gemäß einem Ausführungsbeispiel der Erfindung wird die Higuchi-Fraktal-Dimension auf mehrskalige Weise in Kombination mit einer probabilistischen Modellierung angewendet, was eine Zuweisung des Paars Sprecher (d.h. Benutzer) und Befehl als Signatur ermöglicht, sowie das robuste Identifizieren des Befehls und des Benutzers ermöglicht.
  • Die Erfindung wird nachstehend anhand von Ausführungsbeispielen unter Bezugnahme auf die beiliegenden Zeichnungen beschrieben.
  • Figurenliste
    • 1 zeigt ein schematisches Blockschaltbild einer Verarbeitung in einem Registriermodus gemäß einem Ausführungsbeispiel der Erfindung.
    • 2 zeigt ein schematisches Blockschaltbild einer Merkmalsberechnungsverarbeitung in einem Registriermodus gemäß Ausführungsbeispielen der Erfindung.
    • 3 zeigt ein Ablaufdiagramm einer probabilistischen Modellierungsverarbeitung gemäß einem Ausführungsbeispiel der Erfindung.
    • 4 zeigt eine Darstellung eines Beispiels von benutzer- und befehlsabhängigen GMM-Modellen gemäß einem Ausführungsbeispiel der Erfindung.
    • 5 zeigt ein schematisches Blockschaltbild einer Befehl- und Benutzererfassungsverarbeitung in einem Aktionsmodus gemäß einem Ausführungsbeispiel der Erfindung.
    • 6 zeigt eine Darstellung von Ergebnissen der Befehl- und Benutzererfassungsverarbeitung gemäß einem Ausführungsbeispiel der Erfindung
    • Die 7A und 7B zeigen Darstellungen von Ergebnissen einer Befehl- und Benutzererfassungsverarbeitung gemäß Vergleichsbeispielen.
    • 8 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der Ausführungsbeispiele der Erfindung implementierbar sind.
  • BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Ausführungsbeispiele der Erfindung beziehen sich auf Funktionen, die sich im digitalen Bereich abspielen. Es gibt allerdings einen analogen Abschnitt zum Konditionieren (Verstärken und Tiefpassfiltern) von Mikrofonsignalen und Umwandeln dieser in digitale Signale. Dieser Teil ist vom Schutzbereich dieser Anmeldung nicht betroffen.
  • Ein Sprachbeobachtungssystem gemäß zumindest einem Ausführungsbeispiel der Erfindung umfasst zwei Betriebsmodi, d.h. einen „Registriermodus“ und einen „Aktionsmodus“. Zuerst wird der Registriermodus beschrieben.
  • Registriermodus
  • Im Registriermodus wird ein Sprachsignal, das einen Befehl darstellt, der durch einen Benutzer als Bezeichnung für eine definierte Aktion geäußert wird, im Sprachbeobachtungssystem registriert.
  • Gemäß 1 wird zuerst eine Sprachäußerung des Benutzers durch ein Mikrofon oder ein Mikrofonarray 10 beschafft (beispielsweise durch eine Ein-Mikrofon- oder Mehrfach-Mikrofon-Umgebung im Fahrzeug, was außerhalb des Schutzbereichs dieser Anmeldung liegt).
  • Die Sprachäußerung wird verstärkt, tiefpassgefiltert und digitalisiert. Dann werden in einem Vorverarbeitungsblock 20, der außerhalb des Schutzbereichs dieser Anmeldung liegt, Rauschen und Interferenzen für jede Situation (eine Anwendung im Fahrzeug oder außerhalb des Fahrzeugs) entfernt, und ein digitales Audiosignal wird aus dem Vorverarbeitungsblock 20 ausgegeben.
  • Ein Merkmalsextraktionsblock 30 eines Ausführungsbeispiels der Erfindung, der das digitale Audiosignal empfängt, umfasst eine Schätzung gemäß einer Higuchi-Fraktal-Dimension (HFD) auf eine Mehrfachskalierungsart. „Mehrfachskalierung“ bedeutet, dass die Fraktal-Dimension für verschiedene (eine Vielzahl) von Skalierungen berechnet wird, und alle diese skalierungsabhängigen Fraktal-Dimensionen (d.h. HFD-Parameter) gesammelt werden. Die HFD kann alleine oder in Kombination mit anderen Merkmalen wie Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) verwendet werden.
  • 2 veranschaulicht Einzelheiten des Merkmalsextraktionsblocks 30. Zuerst wird das digitale Audiosignal in einem Rahmenbildungsblock 31 einer Rahmenbildung unterzogen, in dem Rahmen von beispielsweise 32 Millisekunden sich zu 50% überlappen. Eine Sprachaktivitätserfassungseinrichtung (VAD) 32 wendet bei dem digitalen Audiosignal, das der Rahmenbildung unterzogen wurde, einen Algorithmus an, der das Vorhandensein von Sprache in dem digitalen Audiosignal erfasst und ein einem Befehl entsprechendes Sprachsignal segmentiert, d.h. Start und Ende des Sprachsignals findet. Da ein Befehl mehrere Sekunden dauern kann, ist das Sprachsignal nach Segmentierung eine Matrix von Zeitabtastwerten, die in dem Befehl enthaltenen Sprachrahmen entsprechen. Die Sprachrahmen werden auch als Zeitrahmen des Befehls bezeichnet. Das heißt, jede Spalte der Matrix enthält Zeitabtastwerte, die einem gegebenen Zeitrahmen des Befehls entsprechen. Diese Matrix wird auch als Sprachbefehlsmatrix bezeichnet. Der Sprachbefehl, d.h. die Sprachbefehlsmatrix, wird aus der VAD 32 ausgegeben.
  • Aus dem Sprachsignal wird dann ein Merkmalsraum berechnet. Wie vorstehend beschrieben ist es gemäß einem Ausführungsbeispiel der Erfindung möglich, diesen Merkmalsraum lediglich unter Verwendung eines Higuchi-Fraktal-Dimensionsblocks 34 zu berechnen, wie es im oberen Zweig von 2 veranschaulicht ist. Gemäß einem anderen Ausführungsbeispiel der Erfindung wird zur Berechnung des Merkmalsraums alternativ der Higuchi-Fraktal-Dimensionsblock 34 zusammen mit einem Mel-Frequenz-Cepstrum-Koeffizientenblock 33 verwendet, wie es im unteren Zweig von 2 veranschaulicht ist.
  • Nachstehend wird die im HFD-Block 34 durchgeführte Verarbeitung beschrieben.
  • Anhand des aus der VAD 32 ausgegebenen Sprachsignals wird zuerst jede Spalte der Sprachbefehlsmatrix unabhängig verarbeitet, und aus jeder Spalte wird ein Vektor X k m
    Figure DE102016115018B4_0001
    von Abtastwerten (Zeitreihen) wie durch Gleichung (1) angegeben erzeugt. X k m = { x [ m ] , x [ m + k ] , x [ m + 2 k ] , , x [ m + W m k ] k } ,
    Figure DE102016115018B4_0002
    wobei k das Zeitintervall ist, m die Anfangszeit bei der Dimensionsberechnung ist, und W die Rahmengröße in Abtastwerten ist. Die Anpassung dieser Parameter definiert die Anzahl der Zeitreihen, die erhalten werden.
  • Dann wird die Länge Lm,k jeder Zeitreihe wie durch Gleichung (2) angegeben berechnet. L m , k = W 1 W m k k i = 1 W m k | x [ m + i k ] x [ m + ( i 1 ) k ] | k
    Figure DE102016115018B4_0003
  • Der Mittelwert Lk der Länge wird wie durch Gleichung (3) angegeben berechnet. L k = 1 k m = 1 k L m , k
    Figure DE102016115018B4_0004
  • Dann wird die Steigung der Geraden berechnet, die durch die Punkte, die durch { log ( 1 ) , log ( 1 2 ) , log ( 1 /m ) }
    Figure DE102016115018B4_0005
    auf der x-Achse angegeben sind, und durch die Punkte geht, die durch log(Lk) auf der y-Achse angegeben sind. Die Steigung ist der HFD-Parameter.
  • Mittels der vorstehenden Verarbeitung werden für alle gewählten Skalierungen N HFD-Parameter für jeden Zeitrahmen als Merkmalsvektor der Länge N berechnet, der auch als „Befehlsmerkmalsvektor“ bezeichnet werden kann, und die Dimension einer Befehlsmerkmalsraummatrix ist [N x T] im oberen Zweig von 2 oder [(N + M) x T] im unteren Zweig von 2, in dem zusätzlich zu den N HFD-Parametern M Parameter gemäß dem MFCC-Block 33 berechnet werden. T entspricht der Anzahl der Zeitrahmen des Befehls.
  • Zum Erreichen einer Mehrfachskalierungs-HFD werden in den vorstehenden Gleichungen verschiedene Parameter von m verwendet, beispielsweise m=3, m=10 und m=50. Werden drei verschiedene Werte für m angewendet, werden drei Merkmalsräume für den Befehl berechnet.
  • Wie in 1 gezeigt wird der im Block 30 berechnete Merkmalsraum in einen Universa-Hhintergrund-Modell-(UBM-)Schätzblock 40 eingegeben, der eine Art Grenzen für GMM-Modelle definiert. Gemäß einem Ausführungsbeispiel der Erfindung ist das UBM ein benutzer- und befehlsunabhängiges GMM-Modell. Das UBM fungiert als Vormodell, und es gibt viele Möglichkeiten, es zu berechnen. Am effizientesten (bezüglich der Modellqualität) ist der Erwartungswertmaximierungsansatz.
  • Das im Block 40 geschätzte UBM wird in einen Block 50 eingegeben, in dem ein benutzer- und befehlsabhängiges GMM aus dem UBM beispielsweise unter Verwendung des Maximum A Posteriori-(MAP-)Ansatzes berechnet wird. Die Anzahl von Gauß-Mischungen beträgt beispielsweise 16, was auch für die UBM-Schätzung gilt. Die in den Blöcken 40 und 50 geschätzten Modelle werden in einer Benutzer-/Befehlsmodelldatenbank 60 gespeichert. Die Datenbank 60 speichert auch die berechneten Merkmalsräume.
  • Es wird angemerkt, dass bei jeder Registrierung eines neuen Befehls durch einen Benutzer, d.h., wenn eine Sprachäußerung durch den Benutzer unter Verwendung des in 1 gezeigten Mikrofons oder Mikrofonarrays 10 eingegeben wird, beide Modelle UBM und GMM neu geschätzt werden müssen. Das UBM wird über alle Merkmalsräume geschätzt, die aus jedem einer Vielzahl von Sprachsignalen berechnet werden, die durch eine Vielzahl von Benutzern geäußert werden, und die in der Datenbank 60 gespeichert sind.
  • 3 zeigt eine Prozedur für eine Benutzer- und Befehlsmodellschätzung gemäß einem Ausführungsbeispiel der Erfindung. Wenn der Registriermodus das erste Mal durchgeführt wird, ist die Datenbank 60 der Benutzer-/Befehlsmodelle und Benutzer-/Befehlsmerkmalsräume leer (JA in Schritt S20). Dann wird anhand des aktuell berechneten Merkmalsraums, der aus dem durch einen Benutzer geäußerten ersten Sprachsignal extrahiert wird, in Schritt S22 ein UBM geschätzt, und in Schritt S23 wird ein GMM für das erste Sprachsignal (den ersten Benutzer/Befehl) berechnet.
  • Ist ein zweites Sprachsignal (ein zweiter Befehl) zu registrieren, werden ein aus diesem zweiten Sprachsignal berechneter Merkmalsraum und der aus dem ersten Sprachsignal (dem ersten Befehl) berechnete Merkmalsraum zusammen zum Schätzen des UBM verwendet. Das heißt, in Schritt S21 werden die Merkmalsräume verknüpft, und in Schritt S22 wird das UBM unter Verwendung der verknüpften Merkmalsräume berechnet. Dann werden durch Wiederholen von Schritt S23 unter Verwendung des UBM ein GMM für das erste Sprachsignal neu geschätzt und ein GMM für das zweite Sprachsignal geschätzt. Da das zweite Sprachsignal einen letzten Benutzer/Befehl (letzten Merkmalsraum) in der Datenbank 60 in Schritt S24 darstellt, endet der Prozess nach der Schätzung des GMM für das zweite Sprachsignal. Unter der Annahme, dass die Anzahl von Benutzern (Befehlen) (d.h. durch Benutzer geäußerten Befehlen), die bereits registriert sind, S ist, werden bei der Registrierung eines Benutzers/Befehls S+1 alle S Merkmalsräume und der aktuelle zur Schätzung des UBM in Schritt S22 verwendet. Die S+1-Benutzer-/Befehls-GMMs werden dann in Schritt S23 (neu) geschätzt.
  • Es wird angemerkt, dass bei jeder Registrierung eines neuen Befehls im Sprachbeobachtungssystem alle endgültigen Benutzer-/Befehlsmodelle neu geschätzt werden müssen. Einfach erklärt besteht der Grund dafür darin, dass die Grenzen zwischen Modellen aufgrund des UBM-GMM-Ansatzes neu geschätzt werden.
  • 4 zeigt eine zweidimensionale Darstellung von drei Benutzer-/Befehls-GMMs, die gemäß einem Ausführungsbeispiel der Erfindung geschätzt werden. Wegen der graphischen Darstellung sind lediglich zwei Dimensionen der GMMs gezeigt. Die GMMs haben tatsächlich viel mehr Dimensionen.
  • Die Geraden in 4 stellen die Grenzen zwischen Modellen dar, die bei der Differenzierung (Entscheidung) darüber wichtig sind, welches Sprachsignal geäußert wurde (d.h. welcher Befehl von welchem Benutzer geäußert wurde). Jedes Modell befindet sich daher in einer Art Cluster.
  • Gemäß einem Ausführungsbeispiel der Erfindung werden die berechneten benutzer-/befehlsabhängigen GMMs, das UBM und alle Merkmalsräume in der Datenbank 60 aufbewahrt. Wie vorstehend beschrieben ist es erforderlich, auch die Merkmalsräume für alle registrierten Befehle (und nicht nur ihre GMMs) aufzubewahren, da sie bei der Neuschätzungsprozedur beim Hinzufügen eines neuen Befehls oder Beseitigen eines Befehls erforderlich sind. Es wird angemerkt, dass beim Beseitigen eines Befehls die gleiche Neuschätzungsprozedur, wie sie für das Hinzufügen eines neuen Befehls durchgeführt wird, zum Schätzen neuer GMMs über alle verbleibenden Befehle gilt.
  • Aktionsmodus
  • Nachstehend wird der Aktionsmodus des Sprachbeobachtungssystems gemäß einem Ausführungsbeispiel der Erfindung beschrieben. Im Aktionsmodus wird ein geäußertes Sprachsignal bewertet, um herauszufinden, ob es einen Befehl (d.h. ein Paar Benutzer und Befehl) für das geäußerte Sprachsignal gibt, der in dem Sprachbeobachtungssystem im Registriermodus registriert wurde.
  • Gemäß einem Ausführungsbeispiel der Erfindung werden die registrierten Befehle in einem Sprachfluss (in kontinuierlicher Sprache) erfasst. Gemäß einem anderen Ausführungsbeispiel der Erfindung werden die registrierten Befehle aus einem Kurzzeitsprachsegment erfasst.
  • 5 veranschaulicht eine Verarbeitung im Aktionsmodus gemäß einem Ausführungsbeispiel der Erfindung. Das geäußerte Sprachsignal (das auch als ausgesprochener Versuchsbefehl bezeichnet wird) wird über ein Mikrofon oder ein Mikrofonarray 41 eingegeben, das dasselbe wie das Mikrofon oder das Mikrofonarray 10 von 1 sein kann.
  • In 5 sind der Vorverarbeitungsblock 20 und der Merkmalsextraktionsblock 36 den im Registriermodus verwendeten Blöcken 20 und 30 abgesehen von der VAD in Block 36 ähnlich, die zum Segmentieren der Befehle im Sprachfluss anstelle in einer zeitlich begrenzten Aufzeichnung ein wenig verschieden ist.
  • In Blöcken 44 und 45 wird die Log-Likelihood sowohl für das UBM als auch die GMMs unter Verwendung des Merkmalsraums aus dem geäußerten Versuchsbefehl berechnet. Die endgültige Log-Likelihood LL ist durch die Durchschnittsdifferenz zwischen den UBM- und GMM- Log-Likelihoods gegeben.
  • Liegt die endgültige LL unter einem vorbestimmten Schwellenwert, werden keine Befehle (keine der durch einen gegebenen Benutzer geäußerten registrierten Befehle) erfasst. Das heißt, in Block 46 wird entschieden, dass der geäußerte Versuchsbefehl kein registrierter Befehl und Benutzer ist.
  • Andererseits liefert die größte endgültige LL das wahrscheinlichste erfasste Paar aus Befehl und Benutzer, das die Ausgabeinformationen aus Block 46 darstellt. Es kann vorkommen, dass derselbe Befehl durch eine Vielzahl von Benutzern geäußert wird. Dieser Fall stellt kein Problem dar, da der Benutzer in Block 46 differenziert wird.
  • Gemäß einem Ausführungsbeispiel der Erfindung werden in Block 46 endgültige Log-Likelihoods durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und den Log-Likelihoods für die GMMs berechnet. In Block 46 wird ferner ein durch einen registrierten Benutzer geäußerter registrierter Befehl beruhend auf einer endgültigen Log-Likelihood der berechneten endgültigen Log-Likelihoods erfasst, wenn die endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet. In Block 46 werden schließlich der registrierte Befehl und der registrierte Benutzer beruhend auf der maximalen Log-Likelihood der endgültigen Log-Likelihoods entschieden, die den vorbestimmten Schwellenwert überschreiten.
  • 6 zeigt eine Konfusionsmatrix, die das in Block 46 für fünf verschiedene registrierte Benutzer (d.h. Sprecher) und drei registrierte Befehle für jeden registrierten Benutzer erhaltene Ergebnis veranschaulicht. Hier gibt es 15 registrierte Paare aus Benutzer und Befehl.
  • Jeder registrierte Benutzer äußert jeden registrierten Befehl 24 Mal. Die x-Achse stellt den Sollbefehl dar, d.h. was erfasst werden muss, und die y-Achse stellt die Ausgabe aus Block 46 dar. Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrix gegeben. Auf der x-Achse entsprechen Indizes 1 bis 3 den drei durch Benutzer 1 geäußerten Befehlen, Indizes 4 bis 6 entsprechen den drei durch Benutzer 2 geäußerten Befehlen, Indizes 7 bis 9 entsprechen den drei durch Benutzer 3 geäußerten Befehlen, Indizes 10 bis 12 entsprechen den drei durch Benutzer 4 geäußerten Befehlen, und Indizes 13 bis 15 entsprechen den drei durch Benutzer 5 geäußerten Befehlen. Das gleiche gilt für die y-Achse.
  • Ist die Anzahl auf der Diagonalen gleich 24, bedeutet dies, dass bei jeder Äußerung des Befehls der Benutzer und der Befehl gut erkannt werden. Liegt die Anzahl unter 24, bedeutet dies, dass es einige Fehler gibt, wobei es möglich ist, Informationen über die Fehler herzuleiten. Wenn in dem in 6 gezeigten Fall beispielsweise Benutzer 2 Befehl 3 geäußert hat, ist eine Fehlerfassung bei 24 Versuchen aufgetreten (Anzahl 23 auf der Diagonalen), und durch Überprüfen der Spalte ist ersichtlich, dass diese eine Fehlerfassung als Benutzer 4/Befehl 2 erfasst wurde.
  • Die in der unteren rechten Ecke in 6 gezeigte Ergebnistabelle gibt eine exzellente Erkennungsrate der Paare Benutzer und Befehl von 98,1% an.
  • Gemäß Ausführungsbeispielen der Erfindung wird die Higuchi-Fraktal-Dimension als Schlüsselmerkmalselement in einem mehrskaligen Ansatz kombiniert mit der UBM/GMM-Schätzprozedur zur eindeutigen Modellierung von Benutzer/Befehl als Audiosignatur angewendet, was in Kombination mit anderen Merkmalen oder alleine verwendet werden kann.
  • Nachstehend werden die in 6 gezeigten Ergebnisse mit Ergebnissen verglichen, die durch ein erstes herkömmliches Sprachbeobachtungssystem erzielt werden, das Merkmale verwendet, die aus einem Sprachsignal unter Verwendung einer Fraktaldimension (die von der Higuchi-Fraktal-Dimension verschieden ist) gefolgt von einer einfachen Differenzierung extrahiert werden, und ein zweites herkömmliches Sprachbeobachtungssystem erzielt werden, das die Fraktaldimensionsmerkmale zusammen mit Merkmalen verwendet, die aus einer Entropie des Sprachsignals hergeleitet werden.
  • 7A zeigt die von dem ersten herkömmlichen Sprachbeobachtungssystem erhaltenen Ergebnisse, und 7B zeigt die von dem zweiten herkömmlichen Sprachbeobachtungssystem erhaltenen Ergebnisse für fünf verschiedene registrierte Benutzer (d.h. Sprecher) und drei registrierte Befehle für jeden registrierten Benutzer, wobei dieselben Bedingungen und Daten wie im Ausführungsbeispiel der Erfindung angewendet werden, dessen Ergebnis in 6 dargestellt ist. Es gibt also 15 Paare aus Benutzer und Befehl.
  • Jeder registrierte Benutzer äußert jeden registrierten Befehl 24 Mal. Die x-Achse stellt den Sollbefehl dar, d.h. was erfasst werden muss, und die y-Achse stellt die Ausgabe aus Block 46 dar. Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrix gegeben. Auf der x-Achse entsprechen Indizes 1 bis 3 den drei durch Benutzer 1 geäußerten Befehlen, Indizes 4 bis 6 entsprechen den drei durch Benutzer 2 geäußerten Befehlen, Indizes 7 bis 9 entsprechen den drei durch Benutzer 3 geäußerten Befehlen, Indizes 10 bis 12 entsprechen den drei durch Benutzer 4 geäußerten Befehlen, und Indizes 13 bis 15 entsprechen den drei durch Benutzer 5 geäußerten Befehlen. Das gleiche gilt für die y-Achse.
  • Die Anzahl korrekter Erfassungen ist auf der Diagonalen der Konfusionsmatrizen angegeben und sollte gleich 24 sein, da es 24 Wiederholungen jedes Befehls gibt.
  • Wenn lediglich die Fraktaldimensionsmerkmale verwendet werden, liegt die Erkennungsrate bei geringen 10,6%, wie es in der unteren rechten Ecke in 7A veranschaulicht ist. Beim Hinzufügen der zweiten Merkmale (Entropie) sind die Ergebnisse besser, bleiben aber niedrig bei 14,2%, wie es in der unteren rechten Ecke in 7B veranschaulicht ist.
  • 8 zeigt ein schematisches Blockschaltbild einer Konfiguration einer Steuereinheit, in der zumindest einige der vorstehend beschriebenen Ausführungsbeispiele der Erfindung implementiert werden können. Die Steuereinheit umfasst Verarbeitungsressourcen (Verarbeitungsschaltkreise), Speicherressourcen (Speicherschaltkreise) und Schnittstelle. Das Mikrofon oder Mikrofonarray 10, 41 kann durch die Schnittstellen implementiert werden, und zumindest einige der Verarbeitungen in den Blöcken 20, 30, 36, 40, 44, 45, 46, 50 und 60 und den Schritten S20 bis S24 können durch die Verarbeitungsressourcen (Verarbeitungsschaltkreise) und Speicherressourcen (Speicherschaltkreise) der Steuereinheit realisiert werden.
  • Im Allgemeinen können die verschiedenen Ausführungsbeispiele der Erfindung als Hardware oder spezielle Schaltungen, Software (computerlesbare Instruktionen, die auf einem computerlesbaren Medium ausgebildet sind), Logik oder eine beliebige Kombination daraus implementiert werden. Beispielsweise können einige Aspekte als Hardware implementiert werden, während andere Aspekte in Firmware oder Software implementiert werden können, die durch eine Steuereinrichtung, einen Mikroprozessor oder eine andere Recheneinrichtung ausgeführt werden kann, obwohl die Erfindung nicht darauf beschränkt ist. Während verschiedene Ausgestaltungen der Erfindung als Blockdiagramme, Ablaufdiagramme oder unter Verwendung anderer bildlicher Darstellungen veranschaulicht werden können, ist ersichtlich, dass die hier beschriebenen Blöcke, Vorrichtungen, Systeme, Methoden oder Verfahren als Hardware, Software, Firmware, spezielle Schaltungen oder Logik, Universalhardware oder eine Steuereinrichtung oder andere Recheneinrichtungen oder eine beliebige Kombination daraus implementiert werden können, die nicht einschränkende Beispiele darstellen.
  • Es ist ersichtlich, dass die vorstehende Beschreibung die Erfindung veranschaulicht und die Erfindung nicht einschränken soll. Der Fachmann erkennt verschiedene Modifikationen und Anwendungen, ohne von der wirklichen Idee und dem Schutzbereich der Erfindung abzuweichen, wie er in den beigefügten Patentansprüchen definiert ist.

Claims (13)

  1. Verfahren zur Registrierung von durch Benutzer geäußerten Befehlen, mit Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen, Verknüpfen der Merkmalsräume, Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.
  2. Verfahren nach Anspruch 1, mit Speichern der geschätzten GMMs, des UBM und der Merkmalsräume in einer Datenbank.
  3. Verfahren nach Anspruch 1 oder 2, mit Extrahieren des Sprachsignals aus einem digitalen Audiosignal.
  4. Verfahren nach einem der Ansprüche 1 bis 3, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen eines jeden der Vielzahl von Sprachsignalen, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
  5. Verfahren zur Erfassung von durch registrierte Benutzer geäußerten registrierten Befehlen, mit Erfassen eines Sprachsignals, für jeden einer Vielzahl von Zeitrahmen T des Sprachsignals, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl an Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HFD, wobei N und T ganze Zahlen größer oder gleich 1 sind, Beschaffen eines Universal-Hintergrund-Modells (UBM) und zumindest eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM), Berechnen einer Log-Likelihood für das UBM und einer Log-Likelihood für das zumindest eine GMM unter Verwendung des Merkmalsraums, Berechnen zumindest einer endgültigen Log-Likelihood durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und der Log-Likelihood für das zumindest eine GMM, Erkennen eines durch einen registrierten Benutzer geäußerten registrierten Befehls in dem Sprachsignal, wenn die zumindest eine endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet, und Feststellen des registrierten Befehls und des registrierten Benutzers beruhend auf der maximalen Log-Likelihood aus der zumindest einen endgültigen Log-Likelihood, die den vorbestimmten Schwellenwert überschreitet.
  6. Verfahren nach Anspruch 5, wobei das UBM und das zumindest eine GMM geschätzt werden durch Erfassen einer Vielzahl von Sprachsignalen für eine Registrierung, wobei jedes der Vielzahl von Sprachsignalen für die Registrierung jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen für die Registrierung, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor für die Registrierung aus dem jeweiligen Sprachsignal für die Registrierung unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums für die Registrierung aus dem Merkmalsvektor für die Registrierung und der Anzahl von Zeitrahmen T des Sprachsignals für die Registrierung für jede Skalierung der Mehrfachskalierungs-HFD, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume für die Registrierung erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale für die Registrierung entsprechen, Verknüpfen der Merkmalsräume für die Registrierung, Schätzen des Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen für die Registrierung und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale für die Registrierung unter Verwendung des geschätzten UBM, wodurch das zumindest eine GMM geschätzt wird.
  7. Verfahren nach Anspruch 5 oder 6, mit Beschaffen des Sprachsignals aus einem eine kontinuierliche Sprache darstellenden digitalen Audiosignal.
  8. Verfahren nach einem der Ansprüche 5 bis 7, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen des Sprachsignals, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
  9. Verfahren nach Anspruch 6, mit Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen des Sprachsignals, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst, wobei das UBM und das zumindest eine GMM ferner geschätzt werden durch für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen für die Registrierung, Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für die Registrierung, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor für die Registrierung die M MFCCs und die N HFD-Parameter umfasst.
  10. Computerlesbares Medium mit einem Computerprogramm mit Programmcode zur Durchführung aller Verfahrensschritte nach einem der Ansprüche 1 bis 9, wenn das Programm in einem Computer ausgeführt wird.
  11. Vorrichtung zur Registrierung von durch Benutzer geäußerten Befehlen, mit einer Extrahiereinheit (30) zum Erfassen einer Vielzahl von Sprachsignalen, wobei jedes der Vielzahl von Sprachsignalen jeweils einem Befehl aus einer Vielzahl von Befehlen entspricht, der durch einen Benutzer aus einer Vielzahl von Benutzern geäußert wird, und für jeden einer Vielzahl von Zeitrahmen T eines jeden der Vielzahl von Sprachsignalen, Extrahieren von N Higuchi-Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem jeweiligen Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, wodurch Merkmalsräume erzeugt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen, und einer Schätzeinheit (40, 50) zum Verknüpfen der Merkmalsräume, Schätzen eines Universal-Hintergrund-Modells (UBM) aus den verknüpften Merkmalsräumen und Schätzen eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM) für jedes der Vielzahl der Sprachsignale unter Verwendung des geschätzten UBM, wodurch GMMs geschätzt werden, die jeweils einem der Vielzahl der Sprachsignale entsprechen.
  12. Vorrichtung nach Anspruch 11, wobei die Extrahiereinheit zum Extrahieren von M Mel-Frequenz-Cepstrum-Koeffizienten (MFCCs) aus dem Sprachsignal für jeden Zeitrahmen eines jeden der Vielzahl von Sprachsignalen eingerichtet ist, wobei M eine ganze Zahl größer oder gleich eins ist, wobei der Merkmalsvektor die M MFCCs und die N HFD-Parameter umfasst.
  13. Vorrichtung zur Erfassung von durch registrierte Benutzer geäußerten registrierten Befehlen, mit einer Extrahiereinheit (36) zum Erfassen eines Sprachsignals und für jeden einer Vielzahl von Zeitrahmen T des Sprachsignals, Extrahieren von N Higuchi Fraktal-Dimension-(HFD-)Parametern als Merkmalsvektor aus dem Sprachsignal unter Verwendung einer Mehrfachskalierungs-HFD und Erzeugen eines Merkmalsraums aus dem Merkmalsvektor und der Anzahl von Zeitrahmen T des Sprachsignals für jede Skalierung der Mehrfachskalierungs-HDF, wobei N und T ganze Zahlen größer oder gleich eins sind, einer Berechnungseinheit (44, 45) zum Beschaffen eines Universal-Hintergrund-Modells (UBM) und zumindest eines benutzer- und befehlsabhängigen Gauß-Misch-Modells (GMM), und Berechnen einer Log-Likelihood für das UBM und einer Log-Likelihood für das zumindest eine GMM unter Verwendung des Merkmalsraums, und einer Entscheidungseinheit (46) zum Berechnen zumindest einer endgültigen Log-Likelihood durch Berechnen einer Durchschnittsdifferenz zwischen der Log-Likelihood für das UBM und der Log-Likelihood für das zumindest eine GMM, Erkennen eines durch einen registrierten Benutzer geäußerten registrierten Befehls in dem Sprachsignal, wenn die zumindest eine endgültige Log-Likelihood einen vorbestimmten Schwellenwert überschreitet, und Feststellen des registrierten Befehls und des registrierten Benutzers beruhend auf der maximalen Log-Likelihood aus der zumindest einen endgültigen Log-Likelihood, die den vorbestimmten Schwellenwert überschreitet.
DE102016115018.5A 2016-08-12 2016-08-12 Audiosignatur für Sprachbefehlbeobachtung Expired - Fee Related DE102016115018B4 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE102016115018.5A DE102016115018B4 (de) 2016-08-12 2016-08-12 Audiosignatur für Sprachbefehlbeobachtung
PCT/EP2017/069649 WO2018029071A1 (en) 2016-08-12 2017-08-03 Audio signature for speech command spotting

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102016115018.5A DE102016115018B4 (de) 2016-08-12 2016-08-12 Audiosignatur für Sprachbefehlbeobachtung

Publications (2)

Publication Number Publication Date
DE102016115018A1 DE102016115018A1 (de) 2018-02-15
DE102016115018B4 true DE102016115018B4 (de) 2018-10-11

Family

ID=59520913

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102016115018.5A Expired - Fee Related DE102016115018B4 (de) 2016-08-12 2016-08-12 Audiosignatur für Sprachbefehlbeobachtung

Country Status (2)

Country Link
DE (1) DE102016115018B4 (de)
WO (1) WO2018029071A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766465B (zh) * 2018-06-06 2020-07-28 华中师范大学 一种基于enf通用背景模型的数字音频篡改盲检测方法
CN109065022B (zh) * 2018-06-06 2022-08-09 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9633652B2 (en) * 2012-11-30 2017-04-25 Stmicroelectronics Asia Pacific Pte Ltd. Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
POVEY, D.; CHU, S.; VARADARAJAN, B: Universal background model based speech recognition. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, March 2008, 4561-4564
POVEY, D.; CHU, S.; VARADARAJAN, B: Universal background model based speech recognition. In: 2008 IEEE International Conference on Acoustics, Speech and Signal Processing, März 2008, 4561-4564. *
ZAKI, M.; SHAH, N.; PATIL, H.: Effectiveness of fractal dimension for ASR in low resource language. In: 9th International Symposium on Chinese Spoken Language Processing (ISCSLP), 2014, 464-468. *

Also Published As

Publication number Publication date
DE102016115018A1 (de) 2018-02-15
WO2018029071A1 (en) 2018-02-15

Similar Documents

Publication Publication Date Title
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE60123161T2 (de) Verfahren und Vorrichtung zur Spracherkennung in einer Umgebung mit variablerem Rauschpegel
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE60023517T2 (de) Klassifizierung von schallquellen
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE69726235T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60124559T2 (de) Einrichtung und verfahren zur spracherkennung
DE60004331T2 (de) Sprecher-erkennung
DE10296616T5 (de) Bandbreiten-Ausdehnung von akustischen Signalen
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE102007001255A1 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
EP1649450A1 (de) Verfahren zur spracherkennung und kommunikationsger t
DE69930961T2 (de) Vorrichtung und verfahren zur sprachsegmentierung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60034772T2 (de) Zurückweisungsverfahren in der spracherkennung
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE102016115018B4 (de) Audiosignatur für Sprachbefehlbeobachtung
DE69922769T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60036522T2 (de) Verziehung der Frequenzen für Spracherkennung
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee