DE112015007163B4 - Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem - Google Patents

Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem Download PDF

Info

Publication number
DE112015007163B4
DE112015007163B4 DE112015007163.6T DE112015007163T DE112015007163B4 DE 112015007163 B4 DE112015007163 B4 DE 112015007163B4 DE 112015007163 T DE112015007163 T DE 112015007163T DE 112015007163 B4 DE112015007163 B4 DE 112015007163B4
Authority
DE
Germany
Prior art keywords
noise
unit
speech recognition
speech
noise suppression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE112015007163.6T
Other languages
English (en)
Other versions
DE112015007163T5 (de
Inventor
Yuki TACHIOKA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112015007163T5 publication Critical patent/DE112015007163T5/de
Application granted granted Critical
Publication of DE112015007163B4 publication Critical patent/DE112015007163B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Spracherkennungsvorrichtung, die Folgendes umfasst:
mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen;
eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden;
eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und
eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräusch durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden,
dadurch gekennzeichnet, dass
die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und
-die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder
-einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung betrifft eine Spracherkennungstechnik und eine Sprachhervorhebungstechnik. Insbesondere betrifft sie eine Technik, die zur Verwendung unter verschiedenen Störgeräuschumgebungen geeignet ist.
  • Allgemeiner Stand der Technik
  • Falls eine Spracherkennung unter Verwendung einer Sprache durchgeführt wird, mit der Störgeräusche überlagert sind, ist es allgemein üblich, einen Prozess der Unterdrückung der überlagernden Störgeräusche (was nachfolgend als ein Störgeräuschunterdrückungsprozess bezeichnet wird) durchzuführen, bevor der Spracherkennungsprozess durchgeführt wird. Aufgrund der Eigenschaften des Störgeräuschunterdrückungsprozesses existieren Störgeräusche, für die der Störgeräuschunterdrückungsprozess effektiv ist, und Störgeräusche, für die der Störgeräuschunterdrückungsprozess nicht effektiv ist. Falls zum Beispiel der Störgeräuschunterdrückungsprozess ein Spektralsubtraktionsprozess ist, der sehr effektiv gegenüber stationären Störgeräuschen ist, ist der Subtraktionsprozess wenig effektiv gegenüber nichtstationären Störgeräuschen. Im Gegensatz dazu weist der Prozess, falls der Störgeräuschunterdrückungsprozess eine hohe Verfolgbarkeit hinsichtlich nichtstationären Störgeräuschen aufweist, eine geringe Verfolgbarkeit hinsichtlich stationären Störgeräuschen auf. Als ein Verfahren zum Lösen dieses Problems wird herkömmlicherweise eine Integration von Spracherkennungsergebnissen oder eine Auswahl von Spracherkennungsergebnissen verwendet.
  • Gemäß den obigen herkömmlichen Verfahren werden, wenn eine Sprache eingegeben wird, mit der Störgeräusche überlagert sind, die Störgeräusche unterdrückt und werden zwei Sprachen erfasst durch zum Beispiel Verwenden von zwei Störgeräuschunterdrückungseinheiten: eine, die einen Unterdrückungsprozess mit einer hohen Verfolgbarkeit hinsichtlich stationären Störgeräuschen aufweist; und eine, die einen Unterdrückungsprozess mit einer hohen Verfolgbarkeit für nichtstationäre Störgeräusche aufweist, und eine Spracherkennung wird an den zwei erfassten Sprachen jeweils durch die zwei Spracherkennungseinheiten ausgeführt. Die zwei Spracherkennungsergebnisse, die durch die Spracherkennung erfasst werden, werden unter Verwendung eines Sprachverbindungsverfahrens, wie des ROVER (Recognition Output Voting Error Reduction) integriert oder das Spracherkennungsergebnis mit einer höheren Wahrscheinlichkeit wird aus den zwei Spracherkennungsergebnissen ausgewählt und es wird entweder das integrierte Spracherkennungsergebnis oder das ausgewählte Spracherkennungsergebnis ausgegeben. Obwohl die Erkennungsgenauigkeit erheblich verbessert werden kann, gibt es jedoch bei einem solchen herkömmlichen Verfahren ein Problem, dass die Verarbeitung für Spracherkennung zunimmt.
  • Als ein Verfahren zum Lösen dieses Problems offenbart zum Beispiel Patentliteratur 1 eine Spracherkennungsvorrichtung, die die Wahrscheinlichkeit eines akustischen Merkmalparameters von eingegebenen Störgeräuschen für jedes von Wahrscheinlichkeitstonmodellen berechnet und ein Wahrscheinlichkeitsakustikmodell basierend auf der Wahrscheinlichkeit auswählt, ist offenbart. Ferner offenbart Patentliteratur 2 eine Signalunterscheidungsvorrichtung, die nach dem Entfernen von Störgeräuschen aus einem Objektsignal, das in diese eingegeben wird, und dem Durchführen einer Vorverarbeitung zum Extrahieren von Merkmalquantitätsdaten, die Merkmale des Objektsignals zeigen, das Objektsignal in mehrere Kategorien gemäß der Form einer Clustering-Karte eines konkurrierenden neuronalen Netzes klassifiziert und automatisch den Inhalt der Verarbeitung auswählt.
  • JP 2007 206 501 A beschreibt eine Vorrichtung zum Auswählen des Spracherkennungssystems mit der besten Spracherkennung für ein rauschbehaftetes Sprachsignal aus einer Mehrzahl von Spracherkennungssystemen. Diese Vorrichtung hat eine Merkmals-Berechnungseinheit zum Berechnen eines vorbestimmten Geräusch-Merkmals-Vektor-Werts einer eingegebenen Sprache, eine Transformations-Verarbeitungseinheit zum Transformieren des Geräusch-Merkmals-Vektor-Werts in einen Geräusch-Merkmals-Vektor geringerer Dimensionalität mittels einer Transformationsmatrix, eine Vorhersagegenauigkeits-Berechnungseinheit zum Vorhersagen einer Genauigkeit der Spracherkennung für jedes der Spracherkennungssysteme ohne Testgeräusch über den dimensionalitätsreduzierten Geräusch-Merkmals-Vektor und einen vorab berechneten Mehrfach-regresisonskoeffizienten, und eine Maximalwert-Selektionseinheit zum Auswählen des Spracherkennungssystems, mit welchem die Spracherkennung mit der höchsten Genauigkeit durchgeführt werden kann.
  • ENTGEGENHALTUNGSLISTE
  • PATENTLITERATUR
    • Patentliteratur 1: Ungeprüfte japanische Patentanmeldung mit der Veröffentlichungs-Nr. JP 2000 - 194 392 A
    • Patentliteratur 2: Ungeprüfte japanische Patentanmeldung mit der Veröffentlichungs-Nr. JP 2005 - 115 569 A
  • KURZFASSUNG DER ERFINDUNG
  • TECHNISCHES PROBLEM
  • Jedoch gibt es bei der in der obigen Patentliteratur 1 offenbarten Technik ein Problem, dass ein Störgeräuschunterdrückungsprozess, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, möglicherweise nicht ausgewählt wird, weil die Wahrscheinlichkeit eines Akustikmerkmalparameters von eingegebenen Störgeräuschen für jedes Wahrscheinlichkeitstonmodell verwendet wird. Ferner wird bei der in Patentliteratur 2 offenbarten Technik, obwohl Clustern eines Objektsignals ausgeführt wird, das Clustern nicht durchgeführt, damit es mit einer Spracherkennungsrate oder einem akustischen Index verknüpft wird. Daher besteht ein Problem, dass ein Störgeräuschunterdrückungsprozess, der eine hohe Spracherkennungsrate oder einen hohen akustischen Index zeigt, in manchen Fällen nicht ausgewählt wird. Ferner gibt es ein gemeinsames Problem für die obigen zwei Verfahren: weil eine Sprache nach einem Störgeräuschunterdrückungsprozess benötigt wird, um die Leistungsfähigkeit vorherzusagen, müssen alle Kandidaten für den Störgeräuschunterdrückungsprozess einmal sowohl in dem Lernprozess als auch in dem Spracherkennungsprozess durchgeführt werden.
  • Die vorliegende Erfindung wurde gemacht, um die obigen Probleme zu lösen, und es ist daher ein Ziel der vorliegenden Erfindung, eine Technik zum Auswählen eines Störgeräuschunterdrückungsprozesses, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, lediglich aus Sprachdaten mit Störgeräuschen ohne Durchführen eines Störgeräuschunterdrückungsprozesses mit hoher Genauigkeit bereitzustellen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
  • LÖSUNG DES PROBLEMS
  • Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung beinhaltet Folgendes: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden; eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit den Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit den Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden.
  • VORTEILHAFTE EFFEKTE DER ERFINDUNG
  • Gemäß der vorliegenden Erfindung wird ein Störgeräuschunterdrückungsprozess, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, ausgewählt, ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
  • Figurenliste
    • 1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 1 zeigt;
    • 2A und 2B sind Diagramme, die eine Hardwarekonfiguration der Spracherkennungsvorrichtung gemäß der Ausführungsform 1 veranschaulichen;
    • 3 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 1 zeigt;
    • 4 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 2 zeigt;
    • 5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 2 zeigt;
    • 6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt;
    • 7 ist ein Diagramm, das ein Beispiel für eine Konfiguration einer Erkennungsratendatenbank der Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt;
    • 8 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt;
    • 9 ist ein Blockdiagramm, das eine Konfiguration einer Sprachhervorhebungsvorrichtung gemäß der Ausführungsform 4 zeigt;
    • 10 ist ein Flussdiagramm, das einen Betrieb der Sprachhervorhebungsvorrichtung gemäß der Ausführungsform 4 zeigt; und
    • 11 ist ein funktionales Blockdiagramm, das eine Konfiguration eines Navigationssystems gemäß der Ausführungsform 5 zeigt.
  • BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
  • Nachfolgend werden, um die vorliegende Erfindung ausführlicher zu beschreiben, manche Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.
  • Ausführungsform 1.
  • 1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 zeigt.
  • Die Spracherkennungsvorrichtung 100 ist so konfiguriert, dass sie eine erste Vorhersageeinheit 1, eine Unterdrückungsverfahrenauswahleinheit 2, eine Störgeräuschunterdrückungseinheit 3 und eine Spracherkennungseinheit 4 beinhaltet.
  • Die erste Vorhersageeinheit 1 ist durch eine Regressionseinheit konfiguriert. Als die Regressionseinheit ist zum Beispiel ein neuronales Netz (nachfolgend als ein NN bezeichnet) konstruiert und angewandt. Bei der Konstruktion des NN wird das NN, das, als die Regressionseinheit, eine Spracherkennungsrate gleich oder größer als 0 und gleich oder kleiner als 1 unter Verwendung von Akustikmerkmalquantitäten, die allgemein verwendet werden, wie etwa des Mel-Frequenz-Cepstral-Koeffizienten (MFCC) oder ein Filterbankmerkmal, direkt berechnet, unter Verwendung von zum Beispiel dem Fehlerrückpropagierungsverfahren oder dergleichen konstruiert. Das Fehlerrückpropagierungsverfahren ist ein Lernverfahren des, wenn gewisse Lerndaten bereitgestellt werden, Korrigierens von Verbindungsgewichtungen und Vorspannungen zwischen Schichten und dergleichen auf eine solche Weise, dass Fehler zwischen den Lerndaten und der Ausgabe des NN klein werden. Die erste Vorhersageeinheit 1 sagt eine Spracherkennungsrate von Akustikmerkmalquantitäten, die in diese eingegeben werden, unter Verwendung von zum Beispiel dem NN vorher, dessen Eingabe Akustikmerkmalquantitäten sind und dessen Ausgabe die Spracherkennungsrate ist.
  • Die Unterdrückungsverfahrenauswahleinheit 2 bezieht sich auf die Spracherkennungsraten, die durch die erste Vorhersageeinheit 1 vorhergesagt werden, und wählt eine Störgeräuschunterdrückungseinheit 3, die eine Störgeräuschunterdrückung ausführt, aus mehreren Störgeräuschunterdrückungseinheiten 3a, 3b und 3c aus. Die Unterdrückungsverfahrenauswahleinheit 2 gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus. Die Störgeräuschunterdrückungseinheit 3 besteht aus den mehreren Störgeräuschunterdrückungseinheiten 3a, 3b und 3c und die Störgeräuschunterdrückungseinheiten 3a, 3b und 3c führen ihre jeweiligen Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind, an den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durch. Als die Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind, können zum Beispiel ein Spektralsubtraktionsverfahren (SS), ein adaptives Filterverfahren, bei dem ein Lernidentifikationsverfahren (Normalized Least Mean Square Algorithm; NLMS-Algorithmus) oder dergleichen angewandt wird, ein Verfahren, das ein NN nutzt, wie etwa ein Denoising-Autoencoder, usw. angewandt werden. Ferner wird basierend auf der Steueranweisung entschieden, die von der Unterdrückungsverfahrenauswahleinheit 2 eingegeben wird, welche der Störgeräuschunterdrückungseinheiten 3a, 3b und 3c einen Störgeräuschunterdrückungsprozess durchführt. Obwohl bei dem Beispiel aus 1 das Beispiel gezeigt ist, bei dem die Störgeräuschunterdrückungseinheit 3 aus drei Störgeräuschunterdrückungseinheiten 3a, 3b und 3c besteht, ist die Anzahl an Störgeräuschunterdrückungseinheiten nicht auf drei beschränkt und kann geeignet geändert werden.
  • Die Spracherkennungseinheit 4 führt eine Spracherkennung an den Sprachdaten aus, in denen ein Störgeräuschsignal durch eine Störgeräuschunterdrückungseinheit 3 unterdrückt wird, und gibt ein Spracherkennungsergebnis aus. Bei der Spracherkennung wird der Spracherkennungsprozess zum Beispiel unter Verwendung eines akustischen Modells basierend auf dem Gauß-Mischmodel oder dem tiefgehenden neuronalen Netz, und eines Sprachmodells basierend auf einem N-Gramm durchgeführt. Weil der Spracherkennungsprozess durch Anwenden bekannter Techniken konfiguriert werden kann, wird die ausführliche Erklärung des Spracherkennungsprozesses nachfolgend weggelassen.
  • Die erste Vorhersageeinheit 1, die Unterdrückungsverfahrenauswahleinheit 2, die Störgeräuschunterdrückungseinheit 3 und die Spracherkennungseinheit 4 der Spracherkennungsvorrichtung 100 sind durch einen Verarbeitungsschaltkreis implementiert. Der Verarbeitungsschaltkreis kann eine Hardware zur dedizierten Verwendung, eine CPU (Central Processing Unit - zentrale Verarbeitungseinheit), eine Verarbeitungsvorrichtung oder ein Prozessor, der ein in einem Speicher gespeichertes Programm ausführt, oder dergleichen sein.
  • 2A zeigt eine Hardwarekonfiguration der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 und zeigt ein Blockdiagramm in einem Fall, in dem der Verarbeitungsschaltkreis durch Hardware implementiert ist. Wie in 2A gezeigt, können in einem Fall, in dem der Verarbeitungsschaltkreis 101 eine Hardware zur dedizierten Verwendung ist, die Funktionen der ersten Vorhersageeinheit 1, der Unterdrückungsverfahrenauswahleinheit 2, der Störgeräuschunterdrückungseinheiten 3 und der Spracherkennungseinheit 4 durch jeweilige Verarbeitungsschaltkreise implementiert werden oder können die Funktionen der Einheiten zusammen durch einen Verarbeitungsschaltkreis implementiert werden.
  • 2B zeigt eine Hardwarekonfiguration der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 und zeigt ein Blockdiagramm in einem Fall, in dem der Verarbeitungsschaltkreis durch Software implementiert ist.
  • Wie in 2B gezeigt, ist in einem Fall, in dem der Verarbeitungsschaltkreis ein Prozessor 102 ist, jede der Funktionen der ersten Vorhersageeinheit 1, der Unterdrückungsverfahrenauswahleinheit 2, der Störgeräuschunterdrückungseinheiten 3 und der Spracherkennungseinheit 4 durch Software, Firmware oder eine Kombination von Software und Firmware implementiert. Die Software oder die Firmware ist als ein Programm beschrieben und in einem Speicher 103 gespeichert. Der Prozessor 102 führt die Funktion von jeder der Einheiten durch Lesen und Ausführen des Programms, das in dem Speicher 103 gespeichert ist, durch. Der Speicher 103 ist zum Beispiel ein nichtflüchtiger oder flüchtiger Halbleiterspeicher, wie etwa ein RAM, ein ROM oder ein Flash-Speicher, oder eine Magnet-Disc, eine optische Disc oder dergleichen.
  • Wie oben beschrieben, kann der Verarbeitungsschaltkreis jede der oben erwähnten Funktionen unter Verwendung von Hardware, Software, Firmware oder einer Kombination von manchen von diesen Elementen implementieren.
  • Als Nächstes wird eine ausführliche Konfiguration der ersten Vorhersageeinheit 1 und der Unterdrückungsverfahrenauswahleinheit 2 erklärt.
  • Zuerst wird die erste Vorhersageeinheit 1, bei der eine Regressionseinheit appliziert ist, durch das NN konfiguriert, das Akustikmerkmalquantitäten als eine Eingabe empfängt und eine Spracherkennungsrate ausgibt. Wenn Akustikmerkmalquantitäten für jeden Frame einer Kurzzeit-Fourier-Transformation eingegeben werden, sagt die erste Vorhersageeinheit 1 die Spracherkennungsraten für die Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c basierend auf dem NN vorher. Die erste Vorhersageeinheit 1 berechnet nämlich für jeden der Frames der Akustikmerkmalquantitäten die jeweiligen Spracherkennungsraten in dem Fall des Anwendens der Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind. Die Unterdrückungsverfahrenauswahleinheit 2 bezieht sich auf die Spracherkennungsraten in dem Fall des Anwendens der Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c, die durch die erste Vorhersageeinheit 1 berechnet werden, wählt die Störgeräuschunterdrückungseinheit 3 aus, die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, und gibt eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus.
  • 3 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 zeigt.
  • Es wird angenommen, dass die Sprachdaten mit Störgeräuschen und die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung 100 eingegeben werden. Es wird angenommen, dass die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen durch ein externes Merkmalquantitätsberechnungsmittel berechnet werden.
  • Wenn Sprachdaten mit Störgeräuschen und Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen eingegeben werden (Schritt ST1), verwendet die erste Vorhersageeinheit 1 das NN, um die Spracherkennungsraten, die durch die Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c, die Störgeräuschunterdrückungsprozesse durchführen, bereitgestellt werden, in Einheiten eines Frames der Kurzzeit-Fourier-Transformation der eingegebenen Akustikmerkmalquantitäten vorherzusagen (Schritt ST2). Der Prozess des Schrittes ST2 wird wiederholt an mehreren festgelegten Frames durchgeführt. Die erste Vorhersageeinheit 1 berechnet den Durchschnitt, das Maximum oder das Minimum der mehreren Spracherkennungsraten, die jeweils in Einheiten eines Frames und für die mehreren Frames in dem Schritt ST2 vorhergesagt werden, und berechnet basierend auf diesen Werten vorhergesagte Erkennungsraten, die durch die Störgeräuschunterdrückungseinheiten 3a, 3b und 3c bereitgestellt werden, die ihre jeweiligen Prozesse durchführen (Schritt ST3). Die erste Vorhersageeinheit 1 gibt die berechneten vorhergesagten Erkennungsraten an die Unterdrückungsverfahrenauswahleinheit 2 aus, die mit den Störgeräuschunterdrückungseinheiten 3a, 3b und 3c zu verknüpfen ist (Schritt ST4).
  • Die Unterdrückungsverfahrenauswahleinheit 2 bezieht sich auf die vorhergesagten Erkennungsraten, die in dem Schritt ST4 ausgegeben werden, wählt die Störgeräuschunterdrückungseinheit 3 aus, die die höchste vorhergesagte Erkennungsrate zeigt, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus (Schritt ST5). Die Störgeräuschunterdrückungseinheit 3, in die die Steueranweisung in Schritt ST5 eingeben wird, führt einen Prozess des Unterdrückens eines Störgeräuschsignals an den tatsächlichen Sprachdaten mit Störgeräuschen, die in Schritt ST1 eingegeben werden, durch (Schritt ST6). Die Spracherkennungseinheit 4 führt eine Spracherkennung an den Sprachdaten aus, in denen das Störgeräuschsignal in Schritt ST6 unterdrückt wird, und gibt das erfasste Spracherkennungsergebnis aus (Schritt ST7). Anschließend kehrt die Verarbeitung zu dem Schritt ST1 in dem Flussdiagramm zurück und wird die oben beschriebene Verarbeitung wiederholt.
  • Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 so konfiguriert, dass sie Folgendes beinhaltet: die erste Vorhersageeinheit 1, die durch ein NN konfiguriert ist, das mit einer Regressionseinheit konfiguriert ist und das Akustikmerkmalquantitäten als eine Eingabe empfängt und Spracherkennungsraten ausgibt; eine Unterdrückungsverfahrenauswahleinheit 2, die sich auf die Spracherkennungsraten bezieht, die durch die erste Vorhersageeinheit 1 vorhergesagt werden, die Störgeräuschunterdrückungseinheit 3, die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, aus den mehreren Störgeräuschunterdrückungseinheiten 3 auswählt und eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit 3 ausgibt; die Störgeräuschunterdrückungseinheit 3, die mehrere Verarbeitungseinheiten beinhaltet, auf die jeweils mehrere Störgeräuschunterdrückungsverfahren angewandt werden, und die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen basierend auf der Steueranweisung von der Unterdrückungsverfahrenauswahleinheit 2 durchführt; und die Spracherkennungseinheit 4, die eine Spracherkennung an den Sprachdaten ausführt, an denen der Störgeräuschunterdrückungsprozess durchgeführt wird. Infolgedessen kann ein effektives Störgeräuschunterdrückungsverfahren ausgewählt werden, ohne die Verarbeitungsmenge der Spracherkennung zu erhöhen und ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
  • Zum Beispiel werden bei herkömmlichen Techniken, wenn es drei Kandidaten für Störgeräuschunterdrückungsverfahren gibt, Störgeräuschunterdrückungsprozesse durch alle der drei Verfahren durchgeführt und wird der beste Störgeräuschunterdrückungsprozess basierend auf den Ergebnissen der Störgeräuschunterdrückungsprozesse ausgewählt. Im Gegensatz dazu kann gemäß dieser Ausführungsform 1, selbst wenn es drei Kandidaten für das Störgeräuschunterdrückungsverfahren gibt, das Störgeräuschunterdrückungsverfahren, von dem angenommen wird, dass es die beste Leistungsfähigkeit aufweist, im Voraus vorhergesagt werden. Folglich kann die Berechnungsmenge, die für den Störgeräuschunterdrückungsprozess benötigt wird, vorteilhaft reduziert werden, indem der Störgeräuschunterdrückungsprozess nur durch das ausgewählte Verfahren durchgeführt wird.
  • Ausführungsform 2.
  • Bei der obigen Ausführungsform 1 ist die Konfiguration gezeigt, bei der eine Störgeräuschunterdrückungseinheit 3, die ein Spracherkennungsergebnis mit einer hohen Spracherkennungsrate ableitet, unter Verwendung einer Regressionseinheit ausgewählt wird. Bei dieser Ausführungsform 2 wird eine Konfiguration gezeigt, bei der eine Störgeräuschunterdrückungseinheit 3, die ein Spracherkennungsergebnis mit einer hohen Spracherkennungsrate ableitet, unter Verwendung einer Identifikationseinheit ausgewählt wird.
  • 4 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung 100a gemäß der Ausführungsform 2 zeigt.
  • Die Spracherkennungsvorrichtung 100a gemäß der Ausführungsform 2 ist so konfiguriert, dass sie eine zweite Vorhersageeinheit 1a und eine Unterdrückungsverfahrenauswahleinheit 2a statt der ersten Vorhersageeinheit 1 und der Unterdrückungsverfahrenauswahleinheit 2 der Spracherkennungsvorrichtung 100, die in der Ausführungsform 1 gezeigt ist, beinhaltet. Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform 1 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht.
  • Die zweite Vorhersageeinheit 1a ist durch eine Identifikationseinheit konfiguriert. Als die Identifikationseinheit ist zum Beispiel das NN konstruiert und angewandt. Bei der Konstruktion des NN wird das NN, das, als die Identifikationseinheit, einen Klassifizierungsprozess, wie etwa eine Binärklassifizierung oder eine Mehrfachklassenklassifizierung, unter Verwendung von Akustikmerkmalquantitäten durchführt, die allgemein verwendet werden, wie etwa der MFCC oder des Filterbankmerkmals, und das die Kennung eines Unterdrückungsverfahrens mit der höchsten Erkennungsrate auswählt, durch Verwenden eines Fehlerrückpropagierungsverfahrens konfiguriert. Die zweite Vorhersageeinheit 1a ist zum Beispiel durch das NN konfiguriert, das Akustikmerkmalquantitäten als eine Eingabe empfängt, eine Binär- oder Mehrfachklassenklassifizierung durch Festlegen einer finalen Ausgabeschicht als eine Softmax-Schicht ausführt und die Kennung (ID) des Unterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, ausgibt. Als die Trainingsdaten des NN können ein Vektor, bei dem „1“ nur für das Unterdrückungsverfahren festgelegt wird, das ein Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, und „0“ für jedes der anderen Verfahren festgelegt ist, oder gewichtete Daten (Sigmoid ((die Erkennungsrate dieses Systems - (max(Erkennungsraten) - min(Erkennungsraten)/2))/σ), die durch Multiplizieren von Erkennungsraten mit einem Sigmoid erfasst werden, oder dergleichen verwendet werden. σ ist ein Skalierungsfaktor.
  • Es ist unnötig zu sagen, dass auch andere Klassifikatoren, wie etwa die SVM (Support Vector Machine), verwendet werden können.
  • Die Unterdrückungsverfahrenauswahleinheit 2a bezieht sich auf die Unterdrückungsverfahren-ID, die durch die zweite Vorhersageeinheit 1a vorhergesagt wird, und wählt die Störgeräuschunterdrückungseinheit 3, die eine Störgeräuschunterdrückung ausführt, aus mehreren Störgeräuschunterdrückungseinheiten 3a, 3b und 3c aus. Das Spektralsubtraktionsverfahren (SS), das adaptive Filterverfahren und ein Verfahren, dass das NN verwendet, usw. können auf die Störgeräuschunterdrückungseinheiten 3 angewandt werden, wie in dem Fall der Ausführungsform 1. Die Unterdrückungsverfahrenauswahleinheit 2a gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung 100a erklärt.
  • 5 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung 100a gemäß der Ausführungsform 2 zeigt. Nachfolgend werden die gleichen Schritte wie jene der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 durch die gleichen Bezugszeichen wie jene, die in 3 verwendet werden, bezeichnet und wird die Erklärung der Schritte weggelassen oder vereinfacht.
  • Es wird angenommen, dass die Sprachdaten mit Störgeräuschen und die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung 100a eingegeben werden.
  • Wenn Sprachdaten mit Störgeräuschen und Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen eingegeben werden (Schritt ST1), sagt die zweite Vorhersageeinheit 1a unter Verwendung des NN die Unterdrückungsverfahren-ID des Störgeräuschunterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, in Einheiten eines Frames der Kurzzeit-Fourier-Transformation der eingegebenen Akustikmerkmalquantitäten vorher (Schritt ST11).
  • Die zweite Vorhersageeinheit 1a erhält die am häufigsten vorhergesagte oder den Durchschnitt der mehreren Unterdrückungsverfahren-IDs, die in dem Schritt ST11 in Einheiten eines Frames vorhergesagt werden, und erfasst die Unterdrückungsverfahren-ID, die die am häufigsten vorhergesagte oder der Durchschnitt ist, als die vorhergesagte Unterdrückungsverfahren-ID (Schritt ST12). Die Unterdrückungsverfahrenauswahleinheit 2a bezieht sich auf die vorhergesagte Unterdrückungsverfahren-ID, die in dem Schritt ST12 erfasst wird, wählt die Störgeräuschunterdrückungseinheit 3 aus, die der efassten vorhergesagten Unterdrückungsverfahren-ID entspricht, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus (Schritt ST13). Anschließend werden die gleichen Prozesse, wie jene in den Schritten ST6 und ST7, die in der Ausführungsform 1 gezeigt sind, durchgeführt.
  • Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 so konfiguriert, dass sie Folgendes beinhaltet: die zweite Vorhersageeinheit 1a, bei der eine Identifikationseinheit appliziert ist und die durch ein NN konfiguriert ist, das Akustikmerkmalquantitäten als Eingabe empfängt und die ID des Unterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, ausgibt; die Unterdrückungsverfahrenauswahleinheit 2a, die unter Bezugnahme auf die Unterdrückungsverfahren-ID, die durch die zweite Vorhersageeinheit 1a vorhergesagt wird, die Störgeräuschunterdrückungseinheit 3, die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, aus den mehreren Störgeräuschunterdrückungseinheiten 3 auswählt und eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit 3 ausgibt; die Störgeräuschunterdrückungseinheit 3, die mehrere Verarbeitungseinheiten beinhaltet, die jeweils mehreren Störgeräuschunterdrückungsverfahren entsprechen, und eine Störgeräuschunterdrückung an Sprachdaten mit Störgeräuschen gemäß der Steueranweisung von der Unterdrückungsverfahrenauswahleinheit 2a durchführt; und die Spracherkennungseinheit 4, die eine Spracherkennung an den Sprachdaten ausführt, an denen der Störgeräuschunterdrückungsprozess durchgeführt wird. Infolgedessen kann ein effektives Störgeräuschunterdrückungsverfahren ausgewählt werden, ohne die Verarbeitungsmenge der Spracherkennung zu erhöhen und ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
  • Ausführungsform 3.
  • Bei den oben erwähnten Ausführungsformen 1 und 2 ist die Konfiguration gezeigt, bei der Akustikmerkmalquantitäten in die erste Vorhersageeinheit 1 oder die zweite Vorhersageeinheit 1a für jeden Frame der Kurzzeit-Fourier-Transformation eingegeben werden und die Spracherkennungsrate oder die Unterdrückungsverfahren-ID für jeden eingegebenen Frame vorhergesagt wird. Im Gegensatz dazu wird bei dieser Ausführungsform 3 eine Konfiguration gezeigt, bei der durch Verwenden von Akustikmerkmalquantitäten in Einheiten einer Äußerung eine Äußerung mit Akustikmerkmalquantitäten, die am nächsten zu den Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen sind, die tatsächlich in eine Spracherkennungsvorrichtung eingegeben werden, aus den im Voraus gelernten Daten ausgewählt wird und eine Störgeräuschunterdrückungseinheit basierend auf der Spracherkennungsrate der ausgewählten Äußerung ausgewählt wird.
  • 6 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung 100b gemäß der Ausführungsform 3 zeigt.
  • Die Spracherkennungsvorrichtung 100b gemäß der Ausführungsform 3 ist so konfiguriert, dass sie Folgendes beinhaltet: eine dritte Vorhersageeinheit 1c, die mit einer Merkmalquantitätsberechnungseinheit 5, einer Ähnlichkeitsgradberechnungseinheit 6 und einer Erkennungsratendatenbank 7 versehen ist; und eine Unterdrückungsverfahrenauswahleinheit 2b statt der ersten Vorhersageeinheit 1 und der Unterdrückungsverfahrenauswahleinheit 2 der Spracherkennungsvorrichtung 100, die in der Ausführungsform 1 gezeigt ist.
  • Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform 1 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht.
  • Die Merkmalquantitätsberechnungseinheit 5, die einen Teil der dritten Vorhersageeinheit 1c darstellt, berechnet Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den eingegebenen Sprachdaten mit Störgeräuschen. Die Einzelheiten eines Verfahrens zum Berechnen von Akustikmerkmalquantitäten in Einheiten einer Äußerung werden später beschrieben. Die Ähnlichkeitsgradberechnungseinheit 6 vergleicht die Akustikmerkmalquantitäten in Einheiten einer Äußerung, die durch die Merkmalquantitätsberechnungseinheit 5 berechnet werden, unter Bezugnahme auf die Erkennungsratendatenbank 7 mit Akustikmerkmalquantitäten, die in der Erkennungsratendatenbank 7 gespeichert sind und berechnet den Ähnlichkeitsgrad zwischen ihnen. Die Ähnlichkeitsgradberechnungseinheit 6 erfasst eine Gruppe von Spracherkennungsraten, die, wenn die Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c eine Störgeräuschunterdrückung durchführen, für die Akustikmerkmalquantitäten mit dem höchsten Ähnlichkeitsgrad unter den berechneten Ähnlichkeitsgraden bereitgestellt werden, und gibt die Gruppe von Spracherkennungsraten an die Unterdrückungsverfahrenauswahleinheit 2b aus. Die Gruppe von Spracherkennungsraten ist zum Beispiel „die Spracherkennungsrate1-1, die Spracherkennungsrate1-2 und die Spracherkennungsrate1-3“, „die Spracherkennungsrate2-1, die Spracherkennungsrate2-2 und die Spracherkennungsrate2-3“ oder dergleichen. Die Unterdrückungsverfahrenauswahleinheit 2b bezieht sich auf die Gruppe von Spracherkennungsraten, die von der Ähnlichkeitsgradberechnungseinheit 6 in diese eingegeben wird, und wählt die Störgeräuschunterdrückungseinheit 3, die eine Störgeräuschunterdrückung ausführt, aus den mehreren Störgeräuschunterdrückungseinheiten 3a, 3b und 3c aus.
  • Die Erkennungsratendatenbank 7 ist ein Speicherbereich, in dem Akustikmerkmalquantitäten von jeden von mehreren Lerndaten und Spracherkennungsraten, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c eine Störgeräuschunterdrückung an den Akustikmerkmalquantitäten ausführen, gespeichert werden, damit sie miteinander verknüpft werden.
  • 7 ist ein Diagramm, das ein Beispiel für die Konfiguration der Erkennungsratendatenbank 7 der Spracherkennungsvorrichtung 100b gemäß der Ausführungsform 3 zeigt.
  • Die Erkennungsratendatenbank 7 speichert die Akustikmerkmalquantitäten von allen Lerndaten und die Spracherkennungsraten von Sprachdaten, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten (bei dem Beispiel aus 7 die erste, zweite und dritte Störgeräuschunterdrückungseinheit) jeweilige Störgeräuschunterdrückungsprozesse an den Lerndaten durchführen, damit sie miteinander verknüpft werden. In 7 beträgt die Spracherkennungsrate der Sprachdaten zum Beispiel unter Bezugnahme auf die Lerndaten mit einer ersten Akustikmerkmalquantität V(r1) 80 %, wenn die erste Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt, 75 %, wenn die zweite Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt, und 78 %, wenn die dritte Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt. Als eine Alternative kann die Erkennungsratendatenbank 7 dazu konfiguriert sein, die Menge der gespeicherten Daten durch Clustern der Lerndaten und Speichern der Erkennungsraten der geclusterten Lerndaten und der Akustikmerkmalquantitäten, die miteinander zu verknüpfen sind, zu unterdrücken.
  • Als Nächstes werden Einzelheiten der Berechnung der Akustikmerkmalquantitäten in Einheiten einer Äußerung, welche durch die Merkmalquantitätsberechnungseinheit 5 ausgeführt wird, erklärt.
  • Als die Akustikmerkmalquantitäten in Einheiten einer Äußerung kann der Durchschnittsvektor der Akustikmerkmalquantitäten, der Durchschnittswahrscheinlichkeitsvektor basierend auf dem universalen Hintergrundmodell (UBM: Universal Background Model), der i-Vektor oder dergleichen angewandt werden. Die Merkmalquantitätsberechnungseinheit 5 berechnet die obigen Akustikmerkmalquantitäten in Einheiten einer Äußerung für alle Sprachdaten mit Störgeräuschen, die ein zu erkennendes Objekt sind. Wenn zum Beispiel der i-Vektor als die Akustikmerkmalquantitäten angewandt wird, wird der Supervektor V(r), der durch Adaptieren des Gauß-Mischmodels (GMM) an die Äußerung r erfasst wird, basierend auf der Gleichung (1) unten unter Verwendung eines vorläufig erfassten UBM-basierten Supervektors v und der Matrix T, die aus Basisvektoren besteht, die eine variable Ebene niedriger Ordnung aufspannen, faktorisiert. V ( r ) = v + Tw ( r )
    Figure DE112015007163B4_0001
    w(r), der durch die obige Gleichung (1) erfasst wird, ist der i-Vektor.
  • Die Ähnlichkeit der Akustikmerkmalquantitäten in Einheiten einer Äußerung wird unter Verwendung von entweder dem euklidischen Abstand oder der Kosinusänhlichkeit gemessen, wie in der folgenden Gleichung (2) gezeigt ist, und die Äußerung r't , die am nächsten zu den momentanen Auswertungsdaten re ist, wird aus den Lerndaten rt ausgewählt. Durch Ausdrücken des Ähnlichkeitsgrades durch sim wird die Äußerung, die durch die folgende Gleichung (3) ausgedrückt wird, ausgewählt. sim ( w ( r e ) , w ( r t ) ) = w ( r e ) w ( r t ) | w ( r e ) | | w ( r t ) |
    Figure DE112015007163B4_0002
    r t ' = arg max r t sim ( w r e , w r t )
    Figure DE112015007163B4_0003
  • Durch Erfassen einer Wortfehlerrate Wtr (i, rt) für die Lerndaten rt im Voraus unter Verwendung der i-ten Störgeräuschunterdrückungseinheit 3 und der Spracherkennungseinheit 4 wird das für re optimale System i' basierend auf der Erkennungsleistungsfähigkeit ausgewählt, wie in der folgenden Gleichung (4) gezeigt ist. i ' = arg min i W tr ( i , r t ' )
    Figure DE112015007163B4_0004
  • Obwohl die obige Erklärung unter Bezug auf den Fall, bei dem die Anzahl an Störgeräuschunterdrückungsverfahren zwei ist, als ein Beispiel erfolgt, kann diese Ausführungsform auch auf einen Fall angewandt werden, bei dem die Anzahl an Störgeräuschunterdrückungsverfahren drei oder mehr ist.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung 100b erklärt.
  • 8 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung 100b gemäß der Ausführungsform 3 zeigt. Nachfolgend werden die gleichen Schritte wie jene der Spracherkennungsvorrichtung 100 gemäß der Ausführungsform 1 durch die gleichen Bezugszeichen wie jene in 3 bezeichnet und wird die Erklärung der Schritte weggelassen oder vereinfacht.
  • Es wird angenommen, dass die Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung 100b eingegeben werden.
  • Wenn Sprachdaten mit Störgeräuschen eingegeben werden (Schritt ST21), berechnet die Merkmalquantitätsberechnungseinheit 5 Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden (Schritt ST22) . Die Ähnlichkeitsgradberechnungseinheit 6 vergleicht die Akustikmerkmalquantitäten, die in dem Schritt ST22 berechnet werden, mit den Akustikmerkmalquantitäten von allen Lerndaten, die in der Erkennungsratendatenbank 7 gespeichert sind, und berechnet den Ähnlichkeitsgrad zwischen ihnen (Schritt ST23) . Die Ähnlichkeitsgradberechnungseinheit 6 wählt die Akustikmerkmalquantitäten, die den höchsten Ähnlichkeitsgrad unter den Ähnlichkeitsgraden zwischen Akustikmerkmalquantitäten zeigen, die in dem Schritt ST23 berechnet werden, aus und erfasst eine Gruppe von Erkennungsraten in Übereinstimmung mit den ausgewählten Akustikmerkmalquantitäten durch Bezugnahme auf die Erkennungsratendatenbank 7 (Schritt ST24). Wenn der euklidische Abstand in dem Schritt ST24 als der Ähnlichkeitsgrad zwischen Akustikmerkmalquantitäten verwendet wird, wird die Gruppe von Erkennungsraten mit dem kürzesten Abstand erfasst.
  • Die Unterdrückungsverfahrenauswahleinheit 2b wählt die Störgeräuschunterdrückungseinheit 3 aus, die die höchste Erkennungsrate in der Gruppe von Erkennungsraten zeigt, die in dem Schritt ST24 erfasst wird, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus (Schritt ST25) . Anschließend werden die gleichen Prozesse wie jene in den zuvor beschriebenen Schritten ST6 und ST7 durchgeführt.
  • Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 so konfiguriert, dass sie Folgendes beinhaltet: die Merkmalquantitätsberechnungseinheit 5, die Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen berechnet; die Ähnlichkeitsgradberechnungseinheit 6, die den Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und den Akustikmerkmalquantitäten der Lerndaten unter Bezugnahme auf die Erkennungsratendatenbank 7 berechnet und eine Gruppe von Spracherkennungsraten erfasst, die mit den Akustikmerkmalquantitäten verknüpft sind, die den höchsten Ähnlichkeitsgrad zeigen; und die Unterdrückungsverfahrenauswahleinheit 2b, die eine Störgeräuschunterdrückungseinheit 3 auswählt, die die höchste Spracherkennungsrate in der erfassten Gruppe von Spracherkennungsraten zeigt. Infolgedessen ist ein Vorteil der Fähigkeit, eine Spracherkennungsleistungsfähigkeit in Einheiten einer Äußerung vorherzusagen, eine Spracherkennungsleistungsfähigkeit mit einem hohen Genauigkeitsgrad bereitzustellen und die Berechnung des Ähnlichkeitsgrades durch Verwenden von festdimensionalen Merkmalquantitäten zu erleichtern, bereitgestellt.
  • Bei der oben beschriebenen Ausführungsform 3 ist die Konfiguration gezeigt, bei der die Spracherkennungsvorrichtung 100b die Erkennungsratendatenbank 7 beinhaltet. Alternativ dazu kann die Spracherkennungsvorrichtung 100b unter Bezugnahme auf eine externe Datenbank so konfiguriert sein, dass die Ähnlichkeitsgradberechnungseinheit 6 die Berechnung des Ähnlichkeitsgrades zwischen Akustikmerkmalquantitäten und einer Erfassung der Erkennungsraten ausführt.
  • Bei der obigen Ausführungsform 3 tritt eine Verzögerung auf, wenn die Spracherkennung in Einheiten einer Äußerung ausgeführt wird. Falls eine solche Verzögerung nicht zugelassen werden kann, kann die Spracherkennungsvorrichtung 100b dazu konfiguriert sein, sich auf Akustikmerkmalquantitäten zu beziehen, indem ein Anfangsteil von einigen Sekunden einer Äußerung direkt nach der Zeit, wenn die Äußerung begonnen wird, verwendet wird. Wenn sich die Umgebung zwischen einer Äußerung, die vor der Äußerung bereitgestellt wurde, die das momentane Ziel für eine Spracherkennung ist, und der momentanen Äußerung nicht ändert, kann die Spracherkennungsvorrichtung 100b ferner dazu konfiguriert sein, die Spracherkennung unter Verwendung des Auswahlergebnisses einer Störgeräuschunterdrückungseinheit 3 auszuführen, welche für die vorherige Äußerung ausgeführt wurde.
  • Ausführungsform 4.
  • Bei der obigen Ausführungsform 3 ist die Konfiguration gezeigt, bei der ein Störgeräuschunterdrückungsverfahren ausgewählt wird, indem auf die Erkennungsratendatenbank 7 Bezug genommen wird, in der die Akustikmerkmalquantitäten von Lerndaten und die Spracherkennungsraten miteinander verknüpft sind. Bei dieser Ausführungsform 4 wird eine Konfiguration gezeigt, bei der ein Störgeräuschunterdrückungsverfahren ausgewählt wird, indem auf eine Akustikindexdatenbank Bezug genommen wird, in der die Akustikmerkmalquantitäten von Lerndaten und die Akustikindices miteinander verknüpft sind.
  • 9 ist ein Blockdiagramm, das die Konfiguration einer Sprachhervorhebungsvorrichtung 200 gemäß der Ausführungsform 4 zeigt.
  • Die Sprachhervorhebungsvorrichtung 200 gemäß der Ausführungsform 4 ist so konfiguriert, dass sie eine vierte Vorhersageeinheit 1d, die mit einer Merkmalquantitätsberechnungseinheit 5, einer Ähnlichkeitsgradberechnungseinheit 6a und einer Akustikindexdatenbank 8 versehen ist, und eine Unterdrückungsverfahrenauswahleinheit 2c statt der dritten Vorhersageeinheit 1c, die mit der Merkmalquantitätsberechnungseinheit 5, der Ähnlichkeitsgradberechnungseinheit 6 und der Erkennungsratendatenbank 7 versehen ist, und der Unterdrückungsverfahrenauswahleinheit 2b der Spracherkennungsvorrichtung 100b, die in der Ausführungsform 3 gezeigt sind, beinhaltet. Ferner beinhaltet die Sprachhervorhebungsvorrichtung nicht die Spracherkennungseinheit 4.
  • Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung 100b gemäß der Ausführungsform 3 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform 3 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht.
  • Die Akustikindexdatenbank 8 ist ein Speicherbereich, in dem Akustikmerkmalquantitäten von jeden von mehreren Lerndaten und Akustikindices, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten 3a, 3b bzw. 3c eine Störgeräuschunterdrückung an den Lerndaten durchführen, gespeichert werden, damit sie miteinander verknüpft werden. Der Akustikindex ist PESQ, SNR/SDR oder dergleichen, die aus einer hervorgehobenen Sprache, in der Störgeräusche unterdrückt werden, und einem Störgeräuschton vor der Störgeräuschunterdrückung berechnet werden. Als eine Alternative kann die Akustikindexdatenbank 8 dazu konfiguriert sein, die Menge der gespeicherten Daten durch Clustern der Lerndaten und Speichern der Akustikindices der geclusterten Lerndaten und der Akustikmerkmalquantitäten, die miteinander zu verknüpfen sind, zu unterdrücken.
  • Die Ähnlichkeitsgradberechnungseinheit 6a vergleicht die Akustikmerkmalquantitäten in Einheiten einer Äußerung, die durch die Merkmalquantitätsberechnungseinheit 5 berechnet werden, unter Bezugnahme auf die Akustikindexdatenbank 8 mit den Akustikmerkmalquantitäten, die in der Akustikindexdatenbank 8 gespeichert sind und berechnet den Ähnlichkeitsgrad zwischen diesen Akustikmerkmalquantitäten. Die Ähnlichkeitsgradberechnungseinheit 6a erfasst eine Gruppe von Akustikindices, die mit den Akustikmerkmalquantitäten mit dem höchsten Ähnlichkeitsgrad unter den berechneten Ähnlichkeitsgraden verknüpft sind, und gibt die Gruppe von Akustikindices an die Unterdrückungsverfahrenauswahleinheit 2c aus. Die Gruppe von Akustikindices ist zum Beispiel „PESQ1-1, PESQ1-2 und PESQ1-3“, „PESQ2-1, PESQ2-2 und PESQ2-3“ oder dergleichen.
  • Die Unterdrückungsverfahrenauswahleinheit 2c bezieht sich auf die Gruppe von Akustikindices, die von der Ähnlichkeitsgradberechnungseinheit 6a eingegeben wird, und wählt eine Störgeräuschunterdrückungseinheit 3, die eine Störgeräuschunterdrückung ausführt, aus den mehreren Störgeräuschunterdrückungseinheiten 3a, 3b und 3c aus.
  • Als Nächstes wird der Betrieb der Sprachhervorhebungsvorrichtung 200 erklärt.
  • 10 ist ein Flussdiagramm, das den Betrieb der Sprachhervorhebungsvorrichtung 200 gemäß der Ausführungsform 4 zeigt. Es wird angenommen, dass die Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Sprachhervorhebungsvorrichtung 200 eingegeben werden.
  • Wenn Sprachdaten mit Störgeräuschen eingegeben werden (Schritt ST31), berechnet die Merkmalquantitätsberechnungseinheit 5 AkustikMerkmalquantitäten aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden (Schritt ST32) . Die Ähnlichkeitsgradberechnungseinheit 6a vergleicht die Akustikmerkmalquantitäten, die in dem Schritt ST32 berechnet werden, mit den Akustikmerkmalquantitäten der Lerndaten, die in der Akustikindexdatenbank 8 gespeichert sind, und berechnet den Ähnlichkeitsgrad zwischen ihnen (Schritt ST33). Die Ähnlichkeitsgradberechnungseinheit 6a wählt die Akustikmerkmalquantitäten, die den höchsten Ähnlichkeitsgrad unter den Ähnlichkeitsgraden zwischen AkustikMerkmalquantitäten zeigen, die in dem Schritt ST33 berechnet werden, aus und erfasst eine Gruppe von Akustikindices, die mit den ausgewählten Akustikmerkmalquantitäten verknüpft sind (Schritt ST34).
  • Die Unterdrückungsverfahrenauswahleinheit 2c wählt die Störgeräuschunterdrückungseinheit 3 aus, die den höchsten Akustikindex in der Gruppe von Akustikindices zeigt, die in dem Schritt ST34 erfasst wird, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit 3 aus (Schritt ST35). Die Störgeräuschunterdrückungseinheit 3, in die die Steueranweisung in Schritt ST35 eingeben wird, erfasst eine hervorgehobene Sprache, indem sie einen Prozess des Unterdrückens eines Störgeräuschsignals an den tatsächlichen Sprachdaten mit Störgeräuschen, die in Schritt ST31 eingegeben werden, durchführt und gibt die hervorgehobene Sprache aus (Schritt ST36) . Anschließend kehrt der Prozess zu dem Schritt ST31 zurück und wird die oben beschriebene Verarbeitung wiederholt.
  • Wie oben beschrieben, ist die Sprachhervorhebungsvorrichtung gemäß dieser Ausführungsform 4 so konfiguriert, dass sie Folgendes beinhaltet: die Merkmalquantitätsberechnungseinheit 5, die Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen berechnet; die Ähnlichkeitsgradberechnungseinheit 6a, die den Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und den Akustikmerkmalquantitäten der Lerndaten unter Bezugnahme auf die Akustikindexdatenbank 8 berechnet und eine Gruppe von Akustikindices erfasst, die mit den Akustikmerkmalquantitäten verknüpft sind, die den höchsten Ähnlichkeitsgrad zeigen; und die Unterdrückungsverfahrenauswahleinheit 2c, die die Störgeräuschunterdrückungseinheit 3 auswählt, die den höchsten Akustikindex in der erfassten Gruppe von Akustikindices zeigt. Infolgedessen ist ein Vorteil der Fähigkeit, eine Spracherkennungsleistungsfähigkeit in Einheiten einer Äußerung vorherzusagen und eine Spracherkennungsleistungsfähigkeit mit einem hohen Genauigkeitsgrad bereitzustellen und die Berechnung des Ähnlichkeitsgrades durch Verwenden von festdimensionalen Merkmalquantitäten zu erleichtern, bereitgestellt.
  • Bei der oben beschriebenen Ausführungsform 4 ist die Konfiguration gezeigt, bei der die Sprachhervorhebungsvorrichtung 200 die Akustikindexdatenbank 8 beinhaltet. Alternativ dazu kann die Sprachhervorhebungsvorrichtung 200 so konfiguriert sein, dass die Ähnlichkeitsgradberechnungseinheit 6a unter Bezugnahme auf eine externe Datenbank die Berechnung des Ähnlichkeitsgrades zwischen Akustikmerkmalquantitäten und die Erfassung von Akustikindices ausführt.
  • Bei der oben erwähnten Ausführungsform 4 tritt eine Verzögerung auf, wenn die Spracherkennung in Einheiten einer Äußerung ausgeführt wird. Falls eine solche Verzögerung nicht zugelassen werden kann, kann die Spracherkennungsvorrichtung 100b dazu konfiguriert sein, sich auf Akustikmerkmalquantitäten zu beziehen, indem ein Anfangsteil von einigen Sekunden einer Äußerung direkt nach der Zeit, wenn die Äußerung begonnen wird, verwendet wird. Wenn sich die Umgebung zwischen einer Äußerung, die vor der Äußerung bereitgestellt wurde, die das Ziel für eine hervorgehobene Spracherfassung ist, und der momentanen Äußerung nicht ändert, kann die Sprachhervorhebungsvorrichtung 200 ferner dazu konfiguriert sein, die hervorgehobene Spracherfassung unter Verwendung des Auswahlergebnisses einer Störgeräuschunterdrückungseinheit 3 auszuführen, welche für die vorherige Äußerung ausgeführt wurde.
  • Ausführungsform 5.
  • Die Spracherkennungsvorrichtungen 100, 100a und 100b gemäß den Ausführungsformen 1 bis 3 und die Sprachhervorhebungsvorrichtung 200 gemäß der Ausführungsform 4, die zuvor beschrieben wurden, können zum Beispiel auf ein Navigationssystem, ein Telefonempfangssystem, einen Aufzug und so weiter, die jeweils mit einer Sprachanruffunktion versehen sind, angewandt werden. Bei dieser Ausführungsform 5 wird ein Fall gezeigt, bei dem die Spracherkennungsvorrichtung gemäß der Ausführungsform 1 auf ein Navigationssystem angewandt wird.
  • 11 ist ein funktionales Blockdiagramm, das eine Konfiguration des Navigationssystems 300 gemäß der Ausführungsform 5 zeigt.
  • Das Navigationssystem 300 ist eine Vorrichtung, die zum Beispiel in einem Fahrzeug montiert ist und eine Führung einer Route zu einem Ziel durchführt, und beinhaltet eine Informationserfassungsvorrichtung 301, eine Steuervorrichtung 302, eine Ausgabevorrichtung 303, eine Eingabevorrichtung 304, die Spracherkennungsvorrichtung 100, eine Kartendatenbank 305, eine Routenberechnungsvorrichtung 306 und eine Routenführungsvorrichtung 307. Der Betrieb von jeder der Vorrichtungen des Navigationssystems 300 wird integriert durch die Steuervorrichtung 302 gesteuert.
  • Die Informationserfassungsvorrichtung 301 beinhaltet zum Beispiel ein Momentanpositionsdetektionsmittel, ein Drahtloskommunikationsmittel, ein Umgebungsinformationsdetektionsmittel und so weiter und erfasst die momentane Position des Fahrzeugs des Benutzers, Informationen, die in der Umgebung des Fahrzeug des Benutzers detektiert werden, und Informationen, die in anderen Fahrzeugen detektiert werden. Die Ausgabevorrichtung 303 beinhaltet zum Beispiel ein Anzeigemittel, ein Anzeigesteuermittel, ein Tonausgabemittel, ein Tonsteuermittel und so weiter und benachrichtigt einen Benutzer über Informationen. Die Eingabevorrichtung 304 ist durch ein Spracheingabemittel, wie etwa ein Mikrofon, implementiert und ein Operationseingabemittel, wie etwa Knöpfe oder eine Berührungsfläche, und empfängt Informationen, die durch einen Benutzer eingegeben werden. Die Spracherkennungsvorrichtung 100 weist die Konfiguration und die Funktionen auf, die in der Ausführungsform 1 gezeigt sind, führt eine Spracherkennung an Sprachdaten mit Störgeräuschen, die über die Eingabevorrichtung 304 eingegeben werden, aus, erfasst ein Spracherkennungsergebnis und gibt dieses Spracherkennungsergebnis an die Steuervorrichtung 302 aus.
  • Die Kartendatenbank 305 ist ein Speicherbereich, der Kartendaten speichert, und ist zum Beispiel durch eine Speichervorrichtung, wie etwa eine Festplatte (HDD: Hard Disk Drive), oder ein Direktzugriffsspeicher (RAM: Random Access Memory), implementiert. Die Routenberechnungseinheit 306 legt die momentane Position des Fahrzeugs des Benutzers, die durch die Informationserfassungsvorrichtung 301 erfasst wird, als den Abreiseort fest, legt das Spracherkennungsergebnis, das durch die Spracherkennungsvorrichtung 100 erfasst wird, als das Ziel fest und berechnet eine Route von dem Abreiseort zu dem Ziel basierend auf den Kartendaten, die in der Kartendatenbank 305 gespeichert sind. Die Routenführungsvorrichtung 307 führt das Fahrzeug eines Benutzers gemäß der Route, die durch die Routenberechnungsvorrichtung 306 berechnet wird.
  • In dem Navigationssystem 300 führt die Spracherkennungsvorrichtung 100, wenn Sprachdaten mit Störgeräuschen einschließlich einer Äußerung des Benutzers von dem Mikrofon eingegeben werden, das die Eingabevorrichtung 304 konstruiert, eine Verarbeitung, die in dem Flussdiagramm aus 3 gezeigt und zuvor erklärt wurde, an den Sprachdaten mit Störgeräuschen durch und erfasst ein Spracherkennungsergebnis. Die Routenberechnungseinheit 306 legt die momentane Position des Fahrzeugs des Benutzers, die durch die Informationserfassungsvorrichtung 301 erfasst wird, als den Abreiseort fest und legt die Informationen, die durch das Spracherkennungsergebnis gezeigt werden, basierend auf den Informationen, die von der Steuervorrichtung 302 und der Informationserfassungsvorrichtung 301 eingegeben werden, als das Ziel fest und berechnet eine Route von dem Abreiseort zu dem Ziel basierend auf den Kartendaten. Die Routenführungsvorrichtung 307 gibt Informationen über die Routenführung, die gemäß der Route berechnet wird, die durch die Routenberechnungseinheit 306 berechnet wird, über die Ausgabevorrichtung 303 aus und stellt die Routenführung für den Benutzer bereit.
  • Wie oben beschrieben, ist das Navigationssystem gemäß dieser Ausführungsform 5 auf eine solche Weise konfiguriert, dass die Spracherkennungsvorrichtung 100 einen Störgeräuschunterdrückungsprozess an Sprachdaten mit Störgeräuschen, die in die Eingabevorrichtung 304 eingegeben werden und die eine Äußerung des Benutzers beinhalten, durch Verwenden der Störgeräuschunterdrückungseinheit 3, von der vorhergesagt wird, dass sie ein Spracherkennungsergebnis ableitet, das eine gute Spracherkennungsrate zeigt, durchführt und eine Spracherkennung an den Sprachdaten durchführt. Infolgedessen kann die Berechnung einer Route basierend auf dem Spracherkennungsergebnis mit einer guten Spracherkennungsrate ausgeführt werden, so dass eine Routenführung, die für Wünsche des Benutzers geeignet ist, ausgeführt werden kann.
  • Bei der oben beschriebenen Ausführungsform 5 ist die Konfiguration gezeigt, bei der die Spracherkennungsvorrichtung 100, die in der Ausführungsform 1 gezeigt ist, auf das Navigationssystem 300 angewandt wird. Alternativ dazu kann das Navigationssystem 300 unter Verwendung der Spracherkennungsvorrichtung 100a, die in der Ausführungsform 2 gezeigt ist, der Spracherkennungsvorrichtung 100b, die in der Ausführungsform 3 gezeigt ist, oder der Sprachhervorhebungsvorrichtung 200, die in der Ausführungsform 4 gezeigt ist, konfiguriert sein. Falls die Sprachhervorhebungsvorrichtung 200 auf das Navigationssystem 300 angewandt wird, wird angenommen, dass das Navigationssystem 300 eine Funktion des Ausführens einer Spracherkennung an einer hervorgehobenen Sprache aufweist.
  • Es wird angemerkt, dass zusätzlich zu den oben beschriebenen Ausführungsformen eine beliebige Kombination der oben beschriebenen Ausführungsformen vorgenommen werden kann, verschiedene Änderungen einer beliebigen Komponente gemäß einer beliebigen der oben erwähnten Ausführungsformen vorgenommen werden können und eine beliebige Komponente gemäß einer beliebigen der oben erwähnten Ausführungsformen innerhalb des Schutzumfangs der Erfindung weggelassen werden kann.
  • INDUSTRIELLE ANWENDBARKEIT
  • Da die Spracherkennungsvorrichtung und die Sprachhervorhebungsvorrichtung gemäß der vorliegenden Erfindung ein Störgeräuschunterdrückungsverfahren auswählen können, das eine gute Spracherkennungsrate oder einen guten Akustikindex bereitstellt, können sie auf eine Vorrichtung angewandt werden, die mit einer Sprachanruffunktion versehen ist, wie etwa ein Navigationssystem, ein Telefonempfangssystem oder einen Aufzug.
  • Bezugszeichenliste
  • 1 erste Vorhersageeinheit, 1a zweite Vorhersageeinheit 2, 2a und 2b Unterdrückungsverfahrenauswahleinheit, 3, 3a, 3b und 3c Störgeräuschunterdrückungseinheit, 4 Spracherkennungseinheit, 5 Merkmalquantitätsberechnungseinheit, 6 und 6a Ähnlichkeitsgradberechnungseinheit, 7 Erkennungsratendatenbank, 8 Akustikindexdatenbank, 100, 100a und 100b Spracherkennungsvorrichtung, 200 Sprachhervorhebungsvorrichtung, 300 Navigationssystem, 301 Informationserfassungssystem, 302 Steuervorrichtung, 303 Ausgabevorrichtung, 304 Eingabevorrichtung, 305 Kartendatenbank, 306 Routenberechnungsvorrichtung und 307 Routenführungsvorrichtung.

Claims (7)

  1. Spracherkennungsvorrichtung, die Folgendes umfasst: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden; eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräusch durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden, dadurch gekennzeichnet, dass die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und -die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder -einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
  2. Spracherkennungsvorrichtung nach Anspruch 1, wobei die Vorhersageeinheit die Spracherkennungsraten in Einheiten eines Rahmens einer Kurzzeit-Fourier-Transformation der Akustikmerkmalquantitäten vorhersagt.
  3. Spracherkennungsvorrichtung nach Anspruch 1, wobei die Vorhersageinheit Folgendes beinhaltet: eine Merkmalquantitätsberechnungseinheit, die die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräusch berechnet; und eine Ähnlichkeitsgradberechnungseinheit, die die Spracherkennungsraten, die im Voraus gespeichert sind, basierend auf einem Ähnlichkeitsgrad zwischen den Akustikmerkmalquantitäten, die durch die Merkmalquantitätsberechnungseinheit berechnet werden, und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, erfasst.
  4. Sprachhervorhebungsvorrichtung, die Folgendes umfasst: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Vorhersageeinheit, die Folgendes beinhaltet: eine Merkmalquantitätsberechnungseinheit, die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräuschen, die eingegeben werden, berechnet; und eine Ähnlichkeitsgradberechnungseinheit, die zumindest einen Akustikindex, der im Voraus gespeichert ist, basierend auf einem Ähnlichkeitsgrad zwischen den Akustikmerkmalquantitäten, die durch die Merkmalquantitätsberechnungseinheit berechnet werden, und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, ermittelt; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, der mehreren Störgeräuschunterdrückungseinheiten basierend auf dem zumindest einen Akustikindex auswählt, der durch die Ähnlichkeitsgradberechnungseinheit ermittelt wird.
  5. Spracherkennungsverfahren, das Folgendes umfasst: eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten von Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn mehrere Störgeräuschunterdrückungsprozesse jeweils durch mehrere Störgeräuschunterdrückungseinheiten an den Sprachdaten mit Störgeräuschen durchgeführt werden; eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den vorhergesagten Spracherkennungsraten auswählt; wobei die Störgeräuschunterdrückungseinheit, die ausgewählt wird, den Störgeräuschunterdrückungsprozess an den eingegebenen Sprachdaten mit Störgeräuschen durchführt; und eine Spracherkennungseinheit, die eine Spracherkennung an den Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch den Störgeräuschunterdrückungsprozess erzeugt werden, dadurch gekennzeichnet, dass die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und -die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder -einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
  6. Sprachhervorhebungsverfahren, das Folgendes umfasst: eine Merkmalquantitätsberechnungseinheit einer Vorhersageeinheit, die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, berechnet; eine Ähnlichkeitsgradberechnungseinheit der Vorhersageeinheit, die zumindest einen Akustikindex, der im Voraus gespeichert ist, basierend auf einem Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, ermittelt; eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, basierend auf dem zumindest einen ermittelten Akustikindex auswählt; und wobei die ausgewählte Störgeräuschunterdrückungseinheit den Störgeräuschunterdrückungsprozess an den eingegebenen Sprachdaten mit Störgeräuschen durchführt.
  7. Navigationsvorrichtung, die Folgendes umfasst: die Spracherkennungsvorrichtung nach Anspruch 1; eine Routenberechnungsvorrichtung, die eine momentane Position eines sich bewegenden Objekts als einen Abreiseort des sich bewegenden Objekts festlegt und ein Spracherkennungsergebnis, das eine Ausgabe der Spracherkennungsvorrichtung ist, als ein Ziel des sich bewegenden Objekts festlegt und eine Route von dem Abreiseort zu dem Ziel durch Bezugnahme auf Kartendaten berechnet; und eine Routenführungsvorrichtung, die eine Bewegung des sich bewegenden Objekts entlang der Route, die durch die Routenberechnungseinheit berechnet wird, führt.
DE112015007163.6T 2015-12-01 2015-12-01 Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem Active DE112015007163B4 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/083768 WO2017094121A1 (ja) 2015-12-01 2015-12-01 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム

Publications (2)

Publication Number Publication Date
DE112015007163T5 DE112015007163T5 (de) 2018-08-16
DE112015007163B4 true DE112015007163B4 (de) 2019-09-05

Family

ID=58796545

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112015007163.6T Active DE112015007163B4 (de) 2015-12-01 2015-12-01 Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem

Country Status (7)

Country Link
US (1) US20180350358A1 (de)
JP (1) JP6289774B2 (de)
KR (1) KR102015742B1 (de)
CN (1) CN108292501A (de)
DE (1) DE112015007163B4 (de)
TW (1) TW201721631A (de)
WO (1) WO2017094121A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7167554B2 (ja) 2018-08-29 2022-11-09 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法
JP7196993B2 (ja) * 2018-11-22 2022-12-27 株式会社Jvcケンウッド 音声処理条件設定装置、無線通信装置、および音声処理条件設定方法
CN109920434B (zh) * 2019-03-11 2020-12-15 南京邮电大学 一种基于会议场景的噪声分类去除方法
CN109817219A (zh) * 2019-03-19 2019-05-28 四川长虹电器股份有限公司 语音唤醒测试方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194392A (ja) 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2004206063A (ja) * 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
JP2005115569A (ja) 2003-10-06 2005-04-28 Matsushita Electric Works Ltd 信号識別装置および信号識別方法
JP2007206501A (ja) 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173255B1 (en) * 1998-08-18 2001-01-09 Lockheed Martin Corporation Synchronized overlap add voice processing using windows and one bit correlators
US8467543B2 (en) * 2002-03-27 2013-06-18 Aliphcom Microphone and voice activity detection (VAD) configurations for use with communication systems
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US20060206320A1 (en) * 2005-03-14 2006-09-14 Li Qi P Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
US20070041589A1 (en) * 2005-08-17 2007-02-22 Gennum Corporation System and method for providing environmental specific noise reduction algorithms
US7676363B2 (en) * 2006-06-29 2010-03-09 General Motors Llc Automated speech recognition using normalized in-vehicle speech
JP4730369B2 (ja) * 2007-10-30 2011-07-20 株式会社デンソー ナビゲーションシステム
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
WO2010052749A1 (ja) * 2008-11-04 2010-05-14 三菱電機株式会社 雑音抑圧装置
JP5187666B2 (ja) * 2009-01-07 2013-04-24 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
TWI404049B (zh) * 2010-08-18 2013-08-01 Hon Hai Prec Ind Co Ltd 語音導航設備及語音導航方法
WO2012063963A1 (ja) * 2010-11-11 2012-05-18 日本電気株式会社 音声認識装置、音声認識方法、および音声認識プログラム
JP5916054B2 (ja) * 2011-06-22 2016-05-11 クラリオン株式会社 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム
JP5932399B2 (ja) * 2012-03-02 2016-06-08 キヤノン株式会社 撮像装置及び音声処理装置
WO2013149123A1 (en) * 2012-03-30 2013-10-03 The Ohio State University Monaural speech filter
JP6169849B2 (ja) * 2013-01-15 2017-07-26 本田技研工業株式会社 音響処理装置
JP6235938B2 (ja) * 2013-08-13 2017-11-22 日本電信電話株式会社 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
US9830925B2 (en) * 2014-10-22 2017-11-28 GM Global Technology Operations LLC Selective noise suppression during automatic speech recognition
CN104575510B (zh) * 2015-02-04 2018-08-24 深圳酷派技术有限公司 降噪方法、降噪装置和终端
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000194392A (ja) 1998-12-25 2000-07-14 Sharp Corp 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体
JP2004206063A (ja) * 2002-10-31 2004-07-22 Seiko Epson Corp 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物
JP2005115569A (ja) 2003-10-06 2005-04-28 Matsushita Electric Works Ltd 信号識別装置および信号識別方法
JP2007206501A (ja) 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JPWO2017094121A1 (ja) 2018-02-08
US20180350358A1 (en) 2018-12-06
DE112015007163T5 (de) 2018-08-16
KR102015742B1 (ko) 2019-08-28
TW201721631A (zh) 2017-06-16
JP6289774B2 (ja) 2018-03-07
KR20180063341A (ko) 2018-06-11
CN108292501A (zh) 2018-07-17
WO2017094121A1 (ja) 2017-06-08

Similar Documents

Publication Publication Date Title
DE112017003563B4 (de) Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112017004548B4 (de) Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen
DE69636057T2 (de) Sprecherverifizierungssystem
DE69829187T2 (de) Halbüberwachte Sprecheradaptation
DE60023517T2 (de) Klassifizierung von schallquellen
DE69818231T2 (de) Verfahren zum diskriminativen training von spracherkennungsmodellen
DE60115738T2 (de) Sprachmodelle für die Spracherkennung
DE112015007163B4 (de) Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem
DE60305568T2 (de) Schlüsselworterkennung in einem Sprachsignal
DE69725106T2 (de) Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung
DE60010106T2 (de) Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem
DE102015213715A1 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
DE112009000805B4 (de) Rauschreduktion
DE60004331T2 (de) Sprecher-erkennung
DE602005000603T2 (de) Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell
DE19630109A1 (de) Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner
DE69819438T2 (de) Verfahren zur Spracherkennung
DE602004000716T2 (de) Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung
EP1251489A2 (de) Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten
WO1999059135A2 (de) Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner
DE112014006795B4 (de) Spracherkennungssystem und Spracherkennungsverfahren
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP3624113A1 (de) Vorrichtung zur verarbeitung eines signals
DE4322372A1 (de) Verfahren und Vorrichtung zur Spracherkennung

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015200000

Ipc: G10L0021020000

R084 Declaration of willingness to licence
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final