DE112015007163B4 - Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem - Google Patents
Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem Download PDFInfo
- Publication number
- DE112015007163B4 DE112015007163B4 DE112015007163.6T DE112015007163T DE112015007163B4 DE 112015007163 B4 DE112015007163 B4 DE 112015007163B4 DE 112015007163 T DE112015007163 T DE 112015007163T DE 112015007163 B4 DE112015007163 B4 DE 112015007163B4
- Authority
- DE
- Germany
- Prior art keywords
- noise
- unit
- speech recognition
- speech
- noise suppression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 180
- 230000001629 suppression Effects 0.000 claims abstract description 183
- 230000008569 process Effects 0.000 claims abstract description 81
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000004364 calculation method Methods 0.000 claims description 52
- 238000012545 processing Methods 0.000 description 22
- 238000001514 detection method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 15
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 9
- 230000009467 reduction Effects 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Navigation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Spracherkennungsvorrichtung, die Folgendes umfasst:
mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen;
eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden;
eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und
eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräusch durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden,
dadurch gekennzeichnet, dass
die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und
-die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder
-einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen;
eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden;
eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und
eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräusch durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden,
dadurch gekennzeichnet, dass
die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und
-die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder
-einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
Description
- Technisches Gebiet
- Die vorliegende Erfindung betrifft eine Spracherkennungstechnik und eine Sprachhervorhebungstechnik. Insbesondere betrifft sie eine Technik, die zur Verwendung unter verschiedenen Störgeräuschumgebungen geeignet ist.
- Allgemeiner Stand der Technik
- Falls eine Spracherkennung unter Verwendung einer Sprache durchgeführt wird, mit der Störgeräusche überlagert sind, ist es allgemein üblich, einen Prozess der Unterdrückung der überlagernden Störgeräusche (was nachfolgend als ein Störgeräuschunterdrückungsprozess bezeichnet wird) durchzuführen, bevor der Spracherkennungsprozess durchgeführt wird. Aufgrund der Eigenschaften des Störgeräuschunterdrückungsprozesses existieren Störgeräusche, für die der Störgeräuschunterdrückungsprozess effektiv ist, und Störgeräusche, für die der Störgeräuschunterdrückungsprozess nicht effektiv ist. Falls zum Beispiel der Störgeräuschunterdrückungsprozess ein Spektralsubtraktionsprozess ist, der sehr effektiv gegenüber stationären Störgeräuschen ist, ist der Subtraktionsprozess wenig effektiv gegenüber nichtstationären Störgeräuschen. Im Gegensatz dazu weist der Prozess, falls der Störgeräuschunterdrückungsprozess eine hohe Verfolgbarkeit hinsichtlich nichtstationären Störgeräuschen aufweist, eine geringe Verfolgbarkeit hinsichtlich stationären Störgeräuschen auf. Als ein Verfahren zum Lösen dieses Problems wird herkömmlicherweise eine Integration von Spracherkennungsergebnissen oder eine Auswahl von Spracherkennungsergebnissen verwendet.
- Gemäß den obigen herkömmlichen Verfahren werden, wenn eine Sprache eingegeben wird, mit der Störgeräusche überlagert sind, die Störgeräusche unterdrückt und werden zwei Sprachen erfasst durch zum Beispiel Verwenden von zwei Störgeräuschunterdrückungseinheiten: eine, die einen Unterdrückungsprozess mit einer hohen Verfolgbarkeit hinsichtlich stationären Störgeräuschen aufweist; und eine, die einen Unterdrückungsprozess mit einer hohen Verfolgbarkeit für nichtstationäre Störgeräusche aufweist, und eine Spracherkennung wird an den zwei erfassten Sprachen jeweils durch die zwei Spracherkennungseinheiten ausgeführt. Die zwei Spracherkennungsergebnisse, die durch die Spracherkennung erfasst werden, werden unter Verwendung eines Sprachverbindungsverfahrens, wie des ROVER (Recognition Output Voting Error Reduction) integriert oder das Spracherkennungsergebnis mit einer höheren Wahrscheinlichkeit wird aus den zwei Spracherkennungsergebnissen ausgewählt und es wird entweder das integrierte Spracherkennungsergebnis oder das ausgewählte Spracherkennungsergebnis ausgegeben. Obwohl die Erkennungsgenauigkeit erheblich verbessert werden kann, gibt es jedoch bei einem solchen herkömmlichen Verfahren ein Problem, dass die Verarbeitung für Spracherkennung zunimmt.
- Als ein Verfahren zum Lösen dieses Problems offenbart zum Beispiel Patentliteratur 1 eine Spracherkennungsvorrichtung, die die Wahrscheinlichkeit eines akustischen Merkmalparameters von eingegebenen Störgeräuschen für jedes von Wahrscheinlichkeitstonmodellen berechnet und ein Wahrscheinlichkeitsakustikmodell basierend auf der Wahrscheinlichkeit auswählt, ist offenbart. Ferner offenbart Patentliteratur 2 eine Signalunterscheidungsvorrichtung, die nach dem Entfernen von Störgeräuschen aus einem Objektsignal, das in diese eingegeben wird, und dem Durchführen einer Vorverarbeitung zum Extrahieren von Merkmalquantitätsdaten, die Merkmale des Objektsignals zeigen, das Objektsignal in mehrere Kategorien gemäß der Form einer Clustering-Karte eines konkurrierenden neuronalen Netzes klassifiziert und automatisch den Inhalt der Verarbeitung auswählt.
-
JP 2007 206 501 A - ENTGEGENHALTUNGSLISTE
- PATENTLITERATUR
-
- Patentliteratur 1: Ungeprüfte japanische Patentanmeldung mit der Veröffentlichungs-Nr.
JP 2000 - 194 392 A - Patentliteratur 2: Ungeprüfte japanische Patentanmeldung mit der Veröffentlichungs-Nr.
JP 2005 - 115 569 A - KURZFASSUNG DER ERFINDUNG
- TECHNISCHES PROBLEM
- Jedoch gibt es bei der in der obigen Patentliteratur 1 offenbarten Technik ein Problem, dass ein Störgeräuschunterdrückungsprozess, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, möglicherweise nicht ausgewählt wird, weil die Wahrscheinlichkeit eines Akustikmerkmalparameters von eingegebenen Störgeräuschen für jedes Wahrscheinlichkeitstonmodell verwendet wird. Ferner wird bei der in Patentliteratur 2 offenbarten Technik, obwohl Clustern eines Objektsignals ausgeführt wird, das Clustern nicht durchgeführt, damit es mit einer Spracherkennungsrate oder einem akustischen Index verknüpft wird. Daher besteht ein Problem, dass ein Störgeräuschunterdrückungsprozess, der eine hohe Spracherkennungsrate oder einen hohen akustischen Index zeigt, in manchen Fällen nicht ausgewählt wird. Ferner gibt es ein gemeinsames Problem für die obigen zwei Verfahren: weil eine Sprache nach einem Störgeräuschunterdrückungsprozess benötigt wird, um die Leistungsfähigkeit vorherzusagen, müssen alle Kandidaten für den Störgeräuschunterdrückungsprozess einmal sowohl in dem Lernprozess als auch in dem Spracherkennungsprozess durchgeführt werden.
- Die vorliegende Erfindung wurde gemacht, um die obigen Probleme zu lösen, und es ist daher ein Ziel der vorliegenden Erfindung, eine Technik zum Auswählen eines Störgeräuschunterdrückungsprozesses, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, lediglich aus Sprachdaten mit Störgeräuschen ohne Durchführen eines Störgeräuschunterdrückungsprozesses mit hoher Genauigkeit bereitzustellen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
- LÖSUNG DES PROBLEMS
- Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung beinhaltet Folgendes: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden; eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit den Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit den Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden.
- VORTEILHAFTE EFFEKTE DER ERFINDUNG
- Gemäß der vorliegenden Erfindung wird ein Störgeräuschunterdrückungsprozess, der eine gute Spracherkennungsrate oder einen guten akustischen Index bereitstellt, ausgewählt, ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen.
- Figurenliste
-
-
1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 1 zeigt; -
2A und2B sind Diagramme, die eine Hardwarekonfiguration der Spracherkennungsvorrichtung gemäß der Ausführungsform 1 veranschaulichen; -
3 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 1 zeigt; -
4 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 2 zeigt; -
5 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 2 zeigt; -
6 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt; -
7 ist ein Diagramm, das ein Beispiel für eine Konfiguration einer Erkennungsratendatenbank der Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt; -
8 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung gemäß der Ausführungsform 3 zeigt; -
9 ist ein Blockdiagramm, das eine Konfiguration einer Sprachhervorhebungsvorrichtung gemäß der Ausführungsform 4 zeigt; -
10 ist ein Flussdiagramm, das einen Betrieb der Sprachhervorhebungsvorrichtung gemäß der Ausführungsform 4 zeigt; und -
11 ist ein funktionales Blockdiagramm, das eine Konfiguration eines Navigationssystems gemäß der Ausführungsform 5 zeigt. - BESCHREIBUNG DER AUSFÜHRUNGSFORMEN
- Nachfolgend werden, um die vorliegende Erfindung ausführlicher zu beschreiben, manche Ausführungsformen der vorliegenden Erfindung unter Bezugnahme auf die begleitenden Zeichnungen beschrieben.
- Ausführungsform 1.
-
1 ist ein Blockdiagramm, das eine Konfiguration einer Spracherkennungsvorrichtung100 gemäß der Ausführungsform 1 zeigt. - Die Spracherkennungsvorrichtung
100 ist so konfiguriert, dass sie eine erste Vorhersageeinheit1 , eine Unterdrückungsverfahrenauswahleinheit2 , eine Störgeräuschunterdrückungseinheit3 und eine Spracherkennungseinheit4 beinhaltet. - Die erste Vorhersageeinheit
1 ist durch eine Regressionseinheit konfiguriert. Als die Regressionseinheit ist zum Beispiel ein neuronales Netz (nachfolgend als einNN bezeichnet) konstruiert und angewandt. Bei der Konstruktion desNN wird dasNN , das, als die Regressionseinheit, eine Spracherkennungsrate gleich oder größer als 0 und gleich oder kleiner als 1 unter Verwendung von Akustikmerkmalquantitäten, die allgemein verwendet werden, wie etwa des Mel-Frequenz-Cepstral-Koeffizienten (MFCC) oder ein Filterbankmerkmal, direkt berechnet, unter Verwendung von zum Beispiel dem Fehlerrückpropagierungsverfahren oder dergleichen konstruiert. Das Fehlerrückpropagierungsverfahren ist ein Lernverfahren des, wenn gewisse Lerndaten bereitgestellt werden, Korrigierens von Verbindungsgewichtungen und Vorspannungen zwischen Schichten und dergleichen auf eine solche Weise, dass Fehler zwischen den Lerndaten und der Ausgabe desNN klein werden. Die erste Vorhersageeinheit1 sagt eine Spracherkennungsrate von Akustikmerkmalquantitäten, die in diese eingegeben werden, unter Verwendung von zum Beispiel demNN vorher, dessen Eingabe Akustikmerkmalquantitäten sind und dessen Ausgabe die Spracherkennungsrate ist. - Die Unterdrückungsverfahrenauswahleinheit
2 bezieht sich auf die Spracherkennungsraten, die durch die erste Vorhersageeinheit1 vorhergesagt werden, und wählt eine Störgeräuschunterdrückungseinheit3 , die eine Störgeräuschunterdrückung ausführt, aus mehreren Störgeräuschunterdrückungseinheiten3a ,3b und3c aus. Die Unterdrückungsverfahrenauswahleinheit2 gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus. Die Störgeräuschunterdrückungseinheit3 besteht aus den mehreren Störgeräuschunterdrückungseinheiten3a ,3b und3c und die Störgeräuschunterdrückungseinheiten3a ,3b und3c führen ihre jeweiligen Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind, an den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durch. Als die Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind, können zum Beispiel ein Spektralsubtraktionsverfahren (SS ), ein adaptives Filterverfahren, bei dem ein Lernidentifikationsverfahren (Normalized Least Mean Square Algorithm; NLMS-Algorithmus) oder dergleichen angewandt wird, ein Verfahren, das einNN nutzt, wie etwa ein Denoising-Autoencoder, usw. angewandt werden. Ferner wird basierend auf der Steueranweisung entschieden, die von der Unterdrückungsverfahrenauswahleinheit2 eingegeben wird, welche der Störgeräuschunterdrückungseinheiten3a ,3b und3c einen Störgeräuschunterdrückungsprozess durchführt. Obwohl bei dem Beispiel aus1 das Beispiel gezeigt ist, bei dem die Störgeräuschunterdrückungseinheit3 aus drei Störgeräuschunterdrückungseinheiten3a ,3b und3c besteht, ist die Anzahl an Störgeräuschunterdrückungseinheiten nicht auf drei beschränkt und kann geeignet geändert werden. - Die Spracherkennungseinheit
4 führt eine Spracherkennung an den Sprachdaten aus, in denen ein Störgeräuschsignal durch eine Störgeräuschunterdrückungseinheit3 unterdrückt wird, und gibt ein Spracherkennungsergebnis aus. Bei der Spracherkennung wird der Spracherkennungsprozess zum Beispiel unter Verwendung eines akustischen Modells basierend auf dem Gauß-Mischmodel oder dem tiefgehenden neuronalen Netz, und eines Sprachmodells basierend auf einem N-Gramm durchgeführt. Weil der Spracherkennungsprozess durch Anwenden bekannter Techniken konfiguriert werden kann, wird die ausführliche Erklärung des Spracherkennungsprozesses nachfolgend weggelassen. - Die erste Vorhersageeinheit
1 , die Unterdrückungsverfahrenauswahleinheit2 , die Störgeräuschunterdrückungseinheit3 und die Spracherkennungseinheit4 der Spracherkennungsvorrichtung100 sind durch einen Verarbeitungsschaltkreis implementiert. Der Verarbeitungsschaltkreis kann eine Hardware zur dedizierten Verwendung, eine CPU (Central Processing Unit - zentrale Verarbeitungseinheit), eine Verarbeitungsvorrichtung oder ein Prozessor, der ein in einem Speicher gespeichertes Programm ausführt, oder dergleichen sein. -
2A zeigt eine Hardwarekonfiguration der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 und zeigt ein Blockdiagramm in einem Fall, in dem der Verarbeitungsschaltkreis durch Hardware implementiert ist. Wie in2A gezeigt, können in einem Fall, in dem der Verarbeitungsschaltkreis101 eine Hardware zur dedizierten Verwendung ist, die Funktionen der ersten Vorhersageeinheit1 , der Unterdrückungsverfahrenauswahleinheit2 , der Störgeräuschunterdrückungseinheiten3 und der Spracherkennungseinheit4 durch jeweilige Verarbeitungsschaltkreise implementiert werden oder können die Funktionen der Einheiten zusammen durch einen Verarbeitungsschaltkreis implementiert werden. -
2B zeigt eine Hardwarekonfiguration der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 und zeigt ein Blockdiagramm in einem Fall, in dem der Verarbeitungsschaltkreis durch Software implementiert ist. - Wie in
2B gezeigt, ist in einem Fall, in dem der Verarbeitungsschaltkreis ein Prozessor102 ist, jede der Funktionen der ersten Vorhersageeinheit1 , der Unterdrückungsverfahrenauswahleinheit2 , der Störgeräuschunterdrückungseinheiten3 und der Spracherkennungseinheit4 durch Software, Firmware oder eine Kombination von Software und Firmware implementiert. Die Software oder die Firmware ist als ein Programm beschrieben und in einem Speicher103 gespeichert. Der Prozessor102 führt die Funktion von jeder der Einheiten durch Lesen und Ausführen des Programms, das in dem Speicher103 gespeichert ist, durch. Der Speicher103 ist zum Beispiel ein nichtflüchtiger oder flüchtiger Halbleiterspeicher, wie etwa ein RAM, ein ROM oder ein Flash-Speicher, oder eine Magnet-Disc, eine optische Disc oder dergleichen. - Wie oben beschrieben, kann der Verarbeitungsschaltkreis jede der oben erwähnten Funktionen unter Verwendung von Hardware, Software, Firmware oder einer Kombination von manchen von diesen Elementen implementieren.
- Als Nächstes wird eine ausführliche Konfiguration der ersten Vorhersageeinheit
1 und der Unterdrückungsverfahrenauswahleinheit2 erklärt. - Zuerst wird die erste Vorhersageeinheit
1 , bei der eine Regressionseinheit appliziert ist, durch dasNN konfiguriert, das Akustikmerkmalquantitäten als eine Eingabe empfängt und eine Spracherkennungsrate ausgibt. Wenn Akustikmerkmalquantitäten für jeden Frame einer Kurzzeit-Fourier-Transformation eingegeben werden, sagt die erste Vorhersageeinheit1 die Spracherkennungsraten für die Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c basierend auf demNN vorher. Die erste Vorhersageeinheit1 berechnet nämlich für jeden der Frames der Akustikmerkmalquantitäten die jeweiligen Spracherkennungsraten in dem Fall des Anwendens der Störgeräuschunterdrückungsprozesse, die voneinander verschieden sind. Die Unterdrückungsverfahrenauswahleinheit2 bezieht sich auf die Spracherkennungsraten in dem Fall des Anwendens der Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c , die durch die erste Vorhersageeinheit1 berechnet werden, wählt die Störgeräuschunterdrückungseinheit3 aus, die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, und gibt eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit3 aus. -
3 ist ein Flussdiagramm, das einen Betrieb der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 zeigt. - Es wird angenommen, dass die Sprachdaten mit Störgeräuschen und die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung
100 eingegeben werden. Es wird angenommen, dass die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen durch ein externes Merkmalquantitätsberechnungsmittel berechnet werden. - Wenn Sprachdaten mit Störgeräuschen und Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen eingegeben werden (Schritt
ST1 ), verwendet die erste Vorhersageeinheit1 dasNN , um die Spracherkennungsraten, die durch die Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c , die Störgeräuschunterdrückungsprozesse durchführen, bereitgestellt werden, in Einheiten eines Frames der Kurzzeit-Fourier-Transformation der eingegebenen Akustikmerkmalquantitäten vorherzusagen (SchrittST2 ). Der Prozess des SchrittesST2 wird wiederholt an mehreren festgelegten Frames durchgeführt. Die erste Vorhersageeinheit1 berechnet den Durchschnitt, das Maximum oder das Minimum der mehreren Spracherkennungsraten, die jeweils in Einheiten eines Frames und für die mehreren Frames in dem SchrittST2 vorhergesagt werden, und berechnet basierend auf diesen Werten vorhergesagte Erkennungsraten, die durch die Störgeräuschunterdrückungseinheiten3a ,3b und3c bereitgestellt werden, die ihre jeweiligen Prozesse durchführen (SchrittST3 ). Die erste Vorhersageeinheit1 gibt die berechneten vorhergesagten Erkennungsraten an die Unterdrückungsverfahrenauswahleinheit2 aus, die mit den Störgeräuschunterdrückungseinheiten3a ,3b und3c zu verknüpfen ist (SchrittST4 ). - Die Unterdrückungsverfahrenauswahleinheit
2 bezieht sich auf die vorhergesagten Erkennungsraten, die in dem SchrittST4 ausgegeben werden, wählt die Störgeräuschunterdrückungseinheit3 aus, die die höchste vorhergesagte Erkennungsrate zeigt, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus (SchrittST5 ). Die Störgeräuschunterdrückungseinheit3 , in die die Steueranweisung in SchrittST5 eingeben wird, führt einen Prozess des Unterdrückens eines Störgeräuschsignals an den tatsächlichen Sprachdaten mit Störgeräuschen, die in SchrittST1 eingegeben werden, durch (SchrittST6 ). Die Spracherkennungseinheit4 führt eine Spracherkennung an den Sprachdaten aus, in denen das Störgeräuschsignal in SchrittST6 unterdrückt wird, und gibt das erfasste Spracherkennungsergebnis aus (SchrittST7 ). Anschließend kehrt die Verarbeitung zu dem SchrittST1 in dem Flussdiagramm zurück und wird die oben beschriebene Verarbeitung wiederholt. - Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform
1 so konfiguriert, dass sie Folgendes beinhaltet: die erste Vorhersageeinheit1 , die durch einNN konfiguriert ist, das mit einer Regressionseinheit konfiguriert ist und das Akustikmerkmalquantitäten als eine Eingabe empfängt und Spracherkennungsraten ausgibt; eine Unterdrückungsverfahrenauswahleinheit2 , die sich auf die Spracherkennungsraten bezieht, die durch die erste Vorhersageeinheit1 vorhergesagt werden, die Störgeräuschunterdrückungseinheit3 , die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, aus den mehreren Störgeräuschunterdrückungseinheiten3 auswählt und eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit3 ausgibt; die Störgeräuschunterdrückungseinheit3 , die mehrere Verarbeitungseinheiten beinhaltet, auf die jeweils mehrere Störgeräuschunterdrückungsverfahren angewandt werden, und die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen basierend auf der Steueranweisung von der Unterdrückungsverfahrenauswahleinheit2 durchführt; und die Spracherkennungseinheit4 , die eine Spracherkennung an den Sprachdaten ausführt, an denen der Störgeräuschunterdrückungsprozess durchgeführt wird. Infolgedessen kann ein effektives Störgeräuschunterdrückungsverfahren ausgewählt werden, ohne die Verarbeitungsmenge der Spracherkennung zu erhöhen und ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen. - Zum Beispiel werden bei herkömmlichen Techniken, wenn es drei Kandidaten für Störgeräuschunterdrückungsverfahren gibt, Störgeräuschunterdrückungsprozesse durch alle der drei Verfahren durchgeführt und wird der beste Störgeräuschunterdrückungsprozess basierend auf den Ergebnissen der Störgeräuschunterdrückungsprozesse ausgewählt. Im Gegensatz dazu kann gemäß dieser Ausführungsform
1 , selbst wenn es drei Kandidaten für das Störgeräuschunterdrückungsverfahren gibt, das Störgeräuschunterdrückungsverfahren, von dem angenommen wird, dass es die beste Leistungsfähigkeit aufweist, im Voraus vorhergesagt werden. Folglich kann die Berechnungsmenge, die für den Störgeräuschunterdrückungsprozess benötigt wird, vorteilhaft reduziert werden, indem der Störgeräuschunterdrückungsprozess nur durch das ausgewählte Verfahren durchgeführt wird. - Ausführungsform 2.
- Bei der obigen Ausführungsform 1 ist die Konfiguration gezeigt, bei der eine Störgeräuschunterdrückungseinheit
3 , die ein Spracherkennungsergebnis mit einer hohen Spracherkennungsrate ableitet, unter Verwendung einer Regressionseinheit ausgewählt wird. Bei dieser Ausführungsform 2 wird eine Konfiguration gezeigt, bei der eine Störgeräuschunterdrückungseinheit3 , die ein Spracherkennungsergebnis mit einer hohen Spracherkennungsrate ableitet, unter Verwendung einer Identifikationseinheit ausgewählt wird. -
4 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung100a gemäß der Ausführungsform2 zeigt. - Die Spracherkennungsvorrichtung
100a gemäß der Ausführungsform2 ist so konfiguriert, dass sie eine zweite Vorhersageeinheit1a und eine Unterdrückungsverfahrenauswahleinheit2a statt der ersten Vorhersageeinheit1 und der Unterdrückungsverfahrenauswahleinheit2 der Spracherkennungsvorrichtung100 , die in der Ausführungsform1 gezeigt ist, beinhaltet. Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform1 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht. - Die zweite Vorhersageeinheit
1a ist durch eine Identifikationseinheit konfiguriert. Als die Identifikationseinheit ist zum Beispiel dasNN konstruiert und angewandt. Bei der Konstruktion desNN wird dasNN , das, als die Identifikationseinheit, einen Klassifizierungsprozess, wie etwa eine Binärklassifizierung oder eine Mehrfachklassenklassifizierung, unter Verwendung von Akustikmerkmalquantitäten durchführt, die allgemein verwendet werden, wie etwa der MFCC oder des Filterbankmerkmals, und das die Kennung eines Unterdrückungsverfahrens mit der höchsten Erkennungsrate auswählt, durch Verwenden eines Fehlerrückpropagierungsverfahrens konfiguriert. Die zweite Vorhersageeinheit1a ist zum Beispiel durch dasNN konfiguriert, das Akustikmerkmalquantitäten als eine Eingabe empfängt, eine Binär- oder Mehrfachklassenklassifizierung durch Festlegen einer finalen Ausgabeschicht als eine Softmax-Schicht ausführt und die Kennung (ID) des Unterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, ausgibt. Als die Trainingsdaten des NN können ein Vektor, bei dem „1“ nur für das Unterdrückungsverfahren festgelegt wird, das ein Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, und „0“ für jedes der anderen Verfahren festgelegt ist, oder gewichtete Daten (Sigmoid ((die Erkennungsrate dieses Systems - (max(Erkennungsraten) - min(Erkennungsraten)/2))/σ), die durch Multiplizieren von Erkennungsraten mit einem Sigmoid erfasst werden, oder dergleichen verwendet werden. σ ist ein Skalierungsfaktor. - Es ist unnötig zu sagen, dass auch andere Klassifikatoren, wie etwa die SVM (Support Vector Machine), verwendet werden können.
- Die Unterdrückungsverfahrenauswahleinheit
2a bezieht sich auf die Unterdrückungsverfahren-ID, die durch die zweite Vorhersageeinheit1a vorhergesagt wird, und wählt die Störgeräuschunterdrückungseinheit3 , die eine Störgeräuschunterdrückung ausführt, aus mehreren Störgeräuschunterdrückungseinheiten3a ,3b und3c aus. Das Spektralsubtraktionsverfahren (SS), das adaptive Filterverfahren und ein Verfahren, dass das NN verwendet, usw. können auf die Störgeräuschunterdrückungseinheiten3 angewandt werden, wie in dem Fall der Ausführungsform1 . Die Unterdrückungsverfahrenauswahleinheit2a gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus. - Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung
100a erklärt. -
5 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung100a gemäß der Ausführungsform2 zeigt. Nachfolgend werden die gleichen Schritte wie jene der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 durch die gleichen Bezugszeichen wie jene, die in3 verwendet werden, bezeichnet und wird die Erklärung der Schritte weggelassen oder vereinfacht. - Es wird angenommen, dass die Sprachdaten mit Störgeräuschen und die Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung
100a eingegeben werden. - Wenn Sprachdaten mit Störgeräuschen und Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen eingegeben werden (Schritt
ST1 ), sagt die zweite Vorhersageeinheit1a unter Verwendung des NN die Unterdrückungsverfahren-ID des Störgeräuschunterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, in Einheiten eines Frames der Kurzzeit-Fourier-Transformation der eingegebenen Akustikmerkmalquantitäten vorher (SchrittST11 ). - Die zweite Vorhersageeinheit
1a erhält die am häufigsten vorhergesagte oder den Durchschnitt der mehreren Unterdrückungsverfahren-IDs, die in dem SchrittST11 in Einheiten eines Frames vorhergesagt werden, und erfasst die Unterdrückungsverfahren-ID, die die am häufigsten vorhergesagte oder der Durchschnitt ist, als die vorhergesagte Unterdrückungsverfahren-ID (SchrittST12 ). Die Unterdrückungsverfahrenauswahleinheit2a bezieht sich auf die vorhergesagte Unterdrückungsverfahren-ID, die in dem SchrittST12 erfasst wird, wählt die Störgeräuschunterdrückungseinheit3 aus, die der efassten vorhergesagten Unterdrückungsverfahren-ID entspricht, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus (SchrittST13 ). Anschließend werden die gleichen Prozesse, wie jene in den SchrittenST6 undST7 , die in der Ausführungsform1 gezeigt sind, durchgeführt. - Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform
2 so konfiguriert, dass sie Folgendes beinhaltet: die zweite Vorhersageeinheit1a , bei der eine Identifikationseinheit appliziert ist und die durch ein NN konfiguriert ist, das Akustikmerkmalquantitäten als Eingabe empfängt und die ID des Unterdrückungsverfahrens, das das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, ausgibt; die Unterdrückungsverfahrenauswahleinheit2a , die unter Bezugnahme auf die Unterdrückungsverfahren-ID, die durch die zweite Vorhersageeinheit1a vorhergesagt wird, die Störgeräuschunterdrückungseinheit3 , die das Spracherkennungsergebnis mit der höchsten Spracherkennungsrate ableitet, aus den mehreren Störgeräuschunterdrückungseinheiten3 auswählt und eine Steueranweisung an die ausgewählte Störgeräuschunterdrückungseinheit3 ausgibt; die Störgeräuschunterdrückungseinheit3 , die mehrere Verarbeitungseinheiten beinhaltet, die jeweils mehreren Störgeräuschunterdrückungsverfahren entsprechen, und eine Störgeräuschunterdrückung an Sprachdaten mit Störgeräuschen gemäß der Steueranweisung von der Unterdrückungsverfahrenauswahleinheit2a durchführt; und die Spracherkennungseinheit4 , die eine Spracherkennung an den Sprachdaten ausführt, an denen der Störgeräuschunterdrückungsprozess durchgeführt wird. Infolgedessen kann ein effektives Störgeräuschunterdrückungsverfahren ausgewählt werden, ohne die Verarbeitungsmenge der Spracherkennung zu erhöhen und ohne einen Störgeräuschunterdrückungsprozess durchzuführen, um ein Störgeräuschunterdrückungsverfahren auszuwählen. - Ausführungsform 3.
- Bei den oben erwähnten Ausführungsformen
1 und2 ist die Konfiguration gezeigt, bei der Akustikmerkmalquantitäten in die erste Vorhersageeinheit1 oder die zweite Vorhersageeinheit1a für jeden Frame der Kurzzeit-Fourier-Transformation eingegeben werden und die Spracherkennungsrate oder die Unterdrückungsverfahren-ID für jeden eingegebenen Frame vorhergesagt wird. Im Gegensatz dazu wird bei dieser Ausführungsform3 eine Konfiguration gezeigt, bei der durch Verwenden von Akustikmerkmalquantitäten in Einheiten einer Äußerung eine Äußerung mit Akustikmerkmalquantitäten, die am nächsten zu den Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen sind, die tatsächlich in eine Spracherkennungsvorrichtung eingegeben werden, aus den im Voraus gelernten Daten ausgewählt wird und eine Störgeräuschunterdrückungseinheit basierend auf der Spracherkennungsrate der ausgewählten Äußerung ausgewählt wird. -
6 ist ein Blockdiagramm, das eine Konfiguration der Spracherkennungsvorrichtung100b gemäß der Ausführungsform3 zeigt. - Die Spracherkennungsvorrichtung
100b gemäß der Ausführungsform3 ist so konfiguriert, dass sie Folgendes beinhaltet: eine dritte Vorhersageeinheit1c , die mit einer Merkmalquantitätsberechnungseinheit5 , einer Ähnlichkeitsgradberechnungseinheit6 und einer Erkennungsratendatenbank7 versehen ist; und eine Unterdrückungsverfahrenauswahleinheit2b statt der ersten Vorhersageeinheit1 und der Unterdrückungsverfahrenauswahleinheit2 der Spracherkennungsvorrichtung100 , die in der Ausführungsform1 gezeigt ist. - Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung
100 gemäß der Ausführungsform1 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform1 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht. - Die Merkmalquantitätsberechnungseinheit
5 , die einen Teil der dritten Vorhersageeinheit1c darstellt, berechnet Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den eingegebenen Sprachdaten mit Störgeräuschen. Die Einzelheiten eines Verfahrens zum Berechnen von Akustikmerkmalquantitäten in Einheiten einer Äußerung werden später beschrieben. Die Ähnlichkeitsgradberechnungseinheit6 vergleicht die Akustikmerkmalquantitäten in Einheiten einer Äußerung, die durch die Merkmalquantitätsberechnungseinheit5 berechnet werden, unter Bezugnahme auf die Erkennungsratendatenbank7 mit Akustikmerkmalquantitäten, die in der Erkennungsratendatenbank7 gespeichert sind und berechnet den Ähnlichkeitsgrad zwischen ihnen. Die Ähnlichkeitsgradberechnungseinheit6 erfasst eine Gruppe von Spracherkennungsraten, die, wenn die Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c eine Störgeräuschunterdrückung durchführen, für die Akustikmerkmalquantitäten mit dem höchsten Ähnlichkeitsgrad unter den berechneten Ähnlichkeitsgraden bereitgestellt werden, und gibt die Gruppe von Spracherkennungsraten an die Unterdrückungsverfahrenauswahleinheit2b aus. Die Gruppe von Spracherkennungsraten ist zum Beispiel „die Spracherkennungsrate1-1, die Spracherkennungsrate1-2 und die Spracherkennungsrate1-3“, „die Spracherkennungsrate2-1, die Spracherkennungsrate2-2 und die Spracherkennungsrate2-3“ oder dergleichen. Die Unterdrückungsverfahrenauswahleinheit2b bezieht sich auf die Gruppe von Spracherkennungsraten, die von der Ähnlichkeitsgradberechnungseinheit6 in diese eingegeben wird, und wählt die Störgeräuschunterdrückungseinheit3 , die eine Störgeräuschunterdrückung ausführt, aus den mehreren Störgeräuschunterdrückungseinheiten3a ,3b und3c aus. - Die Erkennungsratendatenbank
7 ist ein Speicherbereich, in dem Akustikmerkmalquantitäten von jeden von mehreren Lerndaten und Spracherkennungsraten, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c eine Störgeräuschunterdrückung an den Akustikmerkmalquantitäten ausführen, gespeichert werden, damit sie miteinander verknüpft werden. -
7 ist ein Diagramm, das ein Beispiel für die Konfiguration der Erkennungsratendatenbank7 der Spracherkennungsvorrichtung100b gemäß der Ausführungsform3 zeigt. - Die Erkennungsratendatenbank
7 speichert die Akustikmerkmalquantitäten von allen Lerndaten und die Spracherkennungsraten von Sprachdaten, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten (bei dem Beispiel aus7 die erste, zweite und dritte Störgeräuschunterdrückungseinheit) jeweilige Störgeräuschunterdrückungsprozesse an den Lerndaten durchführen, damit sie miteinander verknüpft werden. In7 beträgt die Spracherkennungsrate der Sprachdaten zum Beispiel unter Bezugnahme auf die Lerndaten mit einer ersten Akustikmerkmalquantität V(r1) 80 %, wenn die erste Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt, 75 %, wenn die zweite Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt, und 78 %, wenn die dritte Störgeräuschunterdrückungseinheit einen Störgeräuschunterdrückungsprozess durchführt. Als eine Alternative kann die Erkennungsratendatenbank7 dazu konfiguriert sein, die Menge der gespeicherten Daten durch Clustern der Lerndaten und Speichern der Erkennungsraten der geclusterten Lerndaten und der Akustikmerkmalquantitäten, die miteinander zu verknüpfen sind, zu unterdrücken. - Als Nächstes werden Einzelheiten der Berechnung der Akustikmerkmalquantitäten in Einheiten einer Äußerung, welche durch die Merkmalquantitätsberechnungseinheit
5 ausgeführt wird, erklärt. - Als die Akustikmerkmalquantitäten in Einheiten einer Äußerung kann der Durchschnittsvektor der Akustikmerkmalquantitäten, der Durchschnittswahrscheinlichkeitsvektor basierend auf dem universalen Hintergrundmodell (UBM: Universal Background Model), der i-Vektor oder dergleichen angewandt werden. Die Merkmalquantitätsberechnungseinheit
5 berechnet die obigen Akustikmerkmalquantitäten in Einheiten einer Äußerung für alle Sprachdaten mit Störgeräuschen, die ein zu erkennendes Objekt sind. Wenn zum Beispiel der i-Vektor als die Akustikmerkmalquantitäten angewandt wird, wird der Supervektor V(r), der durch Adaptieren des Gauß-Mischmodels (GMM) an die Äußerung r erfasst wird, basierend auf der Gleichung (1) unten unter Verwendung eines vorläufig erfassten UBM-basierten Supervektorsv und der MatrixT , die aus Basisvektoren besteht, die eine variable Ebene niedriger Ordnung aufspannen, faktorisiert. - Die Ähnlichkeit der Akustikmerkmalquantitäten in Einheiten einer Äußerung wird unter Verwendung von entweder dem euklidischen Abstand oder der Kosinusänhlichkeit gemessen, wie in der folgenden Gleichung (2) gezeigt ist, und die Äußerung
r't , die am nächsten zu den momentanen Auswertungsdatenre ist, wird aus den Lerndatenrt ausgewählt. Durch Ausdrücken des Ähnlichkeitsgrades durch sim wird die Äußerung, die durch die folgende Gleichung (3) ausgedrückt wird, ausgewählt. - Durch Erfassen einer Wortfehlerrate
Wtr (i, rt) für die Lerndatenrt im Voraus unter Verwendung der i-ten Störgeräuschunterdrückungseinheit3 und der Spracherkennungseinheit4 wird das für re optimale Systemi' basierend auf der Erkennungsleistungsfähigkeit ausgewählt, wie in der folgenden Gleichung (4) gezeigt ist. - Obwohl die obige Erklärung unter Bezug auf den Fall, bei dem die Anzahl an Störgeräuschunterdrückungsverfahren zwei ist, als ein Beispiel erfolgt, kann diese Ausführungsform auch auf einen Fall angewandt werden, bei dem die Anzahl an Störgeräuschunterdrückungsverfahren drei oder mehr ist.
- Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung
100b erklärt. -
8 ist ein Flussdiagramm, das den Betrieb der Spracherkennungsvorrichtung100b gemäß der Ausführungsform3 zeigt. Nachfolgend werden die gleichen Schritte wie jene der Spracherkennungsvorrichtung100 gemäß der Ausführungsform1 durch die gleichen Bezugszeichen wie jene in3 bezeichnet und wird die Erklärung der Schritte weggelassen oder vereinfacht. - Es wird angenommen, dass die Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Spracherkennungsvorrichtung
100b eingegeben werden. - Wenn Sprachdaten mit Störgeräuschen eingegeben werden (Schritt
ST21 ), berechnet die Merkmalquantitätsberechnungseinheit5 Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden (SchrittST22 ) . Die Ähnlichkeitsgradberechnungseinheit6 vergleicht die Akustikmerkmalquantitäten, die in dem SchrittST22 berechnet werden, mit den Akustikmerkmalquantitäten von allen Lerndaten, die in der Erkennungsratendatenbank7 gespeichert sind, und berechnet den Ähnlichkeitsgrad zwischen ihnen (SchrittST23 ) . Die Ähnlichkeitsgradberechnungseinheit6 wählt die Akustikmerkmalquantitäten, die den höchsten Ähnlichkeitsgrad unter den Ähnlichkeitsgraden zwischen Akustikmerkmalquantitäten zeigen, die in dem SchrittST23 berechnet werden, aus und erfasst eine Gruppe von Erkennungsraten in Übereinstimmung mit den ausgewählten Akustikmerkmalquantitäten durch Bezugnahme auf die Erkennungsratendatenbank7 (SchrittST24 ). Wenn der euklidische Abstand in dem SchrittST24 als der Ähnlichkeitsgrad zwischen Akustikmerkmalquantitäten verwendet wird, wird die Gruppe von Erkennungsraten mit dem kürzesten Abstand erfasst. - Die Unterdrückungsverfahrenauswahleinheit
2b wählt die Störgeräuschunterdrückungseinheit3 aus, die die höchste Erkennungsrate in der Gruppe von Erkennungsraten zeigt, die in dem SchrittST24 erfasst wird, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus (SchrittST25 ) . Anschließend werden die gleichen Prozesse wie jene in den zuvor beschriebenen SchrittenST6 undST7 durchgeführt. - Wie oben beschrieben, ist die Spracherkennungsvorrichtung gemäß dieser Ausführungsform
3 so konfiguriert, dass sie Folgendes beinhaltet: die Merkmalquantitätsberechnungseinheit5 , die Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen berechnet; die Ähnlichkeitsgradberechnungseinheit6 , die den Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und den Akustikmerkmalquantitäten der Lerndaten unter Bezugnahme auf die Erkennungsratendatenbank7 berechnet und eine Gruppe von Spracherkennungsraten erfasst, die mit den Akustikmerkmalquantitäten verknüpft sind, die den höchsten Ähnlichkeitsgrad zeigen; und die Unterdrückungsverfahrenauswahleinheit2b , die eine Störgeräuschunterdrückungseinheit3 auswählt, die die höchste Spracherkennungsrate in der erfassten Gruppe von Spracherkennungsraten zeigt. Infolgedessen ist ein Vorteil der Fähigkeit, eine Spracherkennungsleistungsfähigkeit in Einheiten einer Äußerung vorherzusagen, eine Spracherkennungsleistungsfähigkeit mit einem hohen Genauigkeitsgrad bereitzustellen und die Berechnung des Ähnlichkeitsgrades durch Verwenden von festdimensionalen Merkmalquantitäten zu erleichtern, bereitgestellt. - Bei der oben beschriebenen Ausführungsform
3 ist die Konfiguration gezeigt, bei der die Spracherkennungsvorrichtung100b die Erkennungsratendatenbank7 beinhaltet. Alternativ dazu kann die Spracherkennungsvorrichtung100b unter Bezugnahme auf eine externe Datenbank so konfiguriert sein, dass die Ähnlichkeitsgradberechnungseinheit6 die Berechnung des Ähnlichkeitsgrades zwischen Akustikmerkmalquantitäten und einer Erfassung der Erkennungsraten ausführt. - Bei der obigen Ausführungsform
3 tritt eine Verzögerung auf, wenn die Spracherkennung in Einheiten einer Äußerung ausgeführt wird. Falls eine solche Verzögerung nicht zugelassen werden kann, kann die Spracherkennungsvorrichtung100b dazu konfiguriert sein, sich auf Akustikmerkmalquantitäten zu beziehen, indem ein Anfangsteil von einigen Sekunden einer Äußerung direkt nach der Zeit, wenn die Äußerung begonnen wird, verwendet wird. Wenn sich die Umgebung zwischen einer Äußerung, die vor der Äußerung bereitgestellt wurde, die das momentane Ziel für eine Spracherkennung ist, und der momentanen Äußerung nicht ändert, kann die Spracherkennungsvorrichtung100b ferner dazu konfiguriert sein, die Spracherkennung unter Verwendung des Auswahlergebnisses einer Störgeräuschunterdrückungseinheit3 auszuführen, welche für die vorherige Äußerung ausgeführt wurde. - Ausführungsform 4.
- Bei der obigen Ausführungsform
3 ist die Konfiguration gezeigt, bei der ein Störgeräuschunterdrückungsverfahren ausgewählt wird, indem auf die Erkennungsratendatenbank7 Bezug genommen wird, in der die Akustikmerkmalquantitäten von Lerndaten und die Spracherkennungsraten miteinander verknüpft sind. Bei dieser Ausführungsform4 wird eine Konfiguration gezeigt, bei der ein Störgeräuschunterdrückungsverfahren ausgewählt wird, indem auf eine Akustikindexdatenbank Bezug genommen wird, in der die Akustikmerkmalquantitäten von Lerndaten und die Akustikindices miteinander verknüpft sind. -
9 ist ein Blockdiagramm, das die Konfiguration einer Sprachhervorhebungsvorrichtung200 gemäß der Ausführungsform 4 zeigt. - Die Sprachhervorhebungsvorrichtung
200 gemäß der Ausführungsform4 ist so konfiguriert, dass sie eine vierte Vorhersageeinheit1d , die mit einer Merkmalquantitätsberechnungseinheit5 , einer Ähnlichkeitsgradberechnungseinheit6a und einer Akustikindexdatenbank8 versehen ist, und eine Unterdrückungsverfahrenauswahleinheit2c statt der dritten Vorhersageeinheit1c , die mit der Merkmalquantitätsberechnungseinheit5 , der Ähnlichkeitsgradberechnungseinheit6 und der Erkennungsratendatenbank7 versehen ist, und der Unterdrückungsverfahrenauswahleinheit2b der Spracherkennungsvorrichtung100b , die in der Ausführungsform3 gezeigt sind, beinhaltet. Ferner beinhaltet die Sprachhervorhebungsvorrichtung nicht die Spracherkennungseinheit4 . - Nachfolgend werden die gleichen oder entsprechende Komponenten wie jene der Spracherkennungsvorrichtung
100b gemäß der Ausführungsform3 durch die gleichen Bezugszeichen wie jene, die in der Ausführungsform3 verwendet werden, bezeichnet und wird die Erklärung der Komponenten weggelassen oder vereinfacht. - Die Akustikindexdatenbank
8 ist ein Speicherbereich, in dem Akustikmerkmalquantitäten von jeden von mehreren Lerndaten und Akustikindices, die bereitgestellt werden, wenn die Störgeräuschunterdrückungseinheiten3a ,3b bzw.3c eine Störgeräuschunterdrückung an den Lerndaten durchführen, gespeichert werden, damit sie miteinander verknüpft werden. Der Akustikindex ist PESQ, SNR/SDR oder dergleichen, die aus einer hervorgehobenen Sprache, in der Störgeräusche unterdrückt werden, und einem Störgeräuschton vor der Störgeräuschunterdrückung berechnet werden. Als eine Alternative kann die Akustikindexdatenbank8 dazu konfiguriert sein, die Menge der gespeicherten Daten durch Clustern der Lerndaten und Speichern der Akustikindices der geclusterten Lerndaten und der Akustikmerkmalquantitäten, die miteinander zu verknüpfen sind, zu unterdrücken. - Die Ähnlichkeitsgradberechnungseinheit
6a vergleicht die Akustikmerkmalquantitäten in Einheiten einer Äußerung, die durch die Merkmalquantitätsberechnungseinheit5 berechnet werden, unter Bezugnahme auf die Akustikindexdatenbank8 mit den Akustikmerkmalquantitäten, die in der Akustikindexdatenbank8 gespeichert sind und berechnet den Ähnlichkeitsgrad zwischen diesen Akustikmerkmalquantitäten. Die Ähnlichkeitsgradberechnungseinheit6a erfasst eine Gruppe von Akustikindices, die mit den Akustikmerkmalquantitäten mit dem höchsten Ähnlichkeitsgrad unter den berechneten Ähnlichkeitsgraden verknüpft sind, und gibt die Gruppe von Akustikindices an die Unterdrückungsverfahrenauswahleinheit2c aus. Die Gruppe von Akustikindices ist zum Beispiel „PESQ1-1, PESQ1-2 und PESQ1-3“, „PESQ2-1, PESQ2-2 und PESQ2-3“ oder dergleichen. - Die Unterdrückungsverfahrenauswahleinheit
2c bezieht sich auf die Gruppe von Akustikindices, die von der Ähnlichkeitsgradberechnungseinheit6a eingegeben wird, und wählt eine Störgeräuschunterdrückungseinheit3 , die eine Störgeräuschunterdrückung ausführt, aus den mehreren Störgeräuschunterdrückungseinheiten3a ,3b und3c aus. - Als Nächstes wird der Betrieb der Sprachhervorhebungsvorrichtung
200 erklärt. -
10 ist ein Flussdiagramm, das den Betrieb der Sprachhervorhebungsvorrichtung200 gemäß der Ausführungsform4 zeigt. Es wird angenommen, dass die Sprachdaten mit Störgeräuschen über ein externes Mikrofon oder dergleichen in die Sprachhervorhebungsvorrichtung200 eingegeben werden. - Wenn Sprachdaten mit Störgeräuschen eingegeben werden (Schritt
ST31 ), berechnet die Merkmalquantitätsberechnungseinheit5 AkustikMerkmalquantitäten aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden (SchrittST32 ) . Die Ähnlichkeitsgradberechnungseinheit6a vergleicht die Akustikmerkmalquantitäten, die in dem SchrittST32 berechnet werden, mit den Akustikmerkmalquantitäten der Lerndaten, die in der Akustikindexdatenbank8 gespeichert sind, und berechnet den Ähnlichkeitsgrad zwischen ihnen (SchrittST33 ). Die Ähnlichkeitsgradberechnungseinheit6a wählt die Akustikmerkmalquantitäten, die den höchsten Ähnlichkeitsgrad unter den Ähnlichkeitsgraden zwischen AkustikMerkmalquantitäten zeigen, die in dem SchrittST33 berechnet werden, aus und erfasst eine Gruppe von Akustikindices, die mit den ausgewählten Akustikmerkmalquantitäten verknüpft sind (SchrittST34 ). - Die Unterdrückungsverfahrenauswahleinheit
2c wählt die Störgeräuschunterdrückungseinheit3 aus, die den höchsten Akustikindex in der Gruppe von Akustikindices zeigt, die in dem SchrittST34 erfasst wird, und gibt eine Steueranweisung zum Durchführen eines Störgeräuschunterdrückungsprozesses an die ausgewählte Störgeräuschunterdrückungseinheit3 aus (SchrittST35 ). Die Störgeräuschunterdrückungseinheit3 , in die die Steueranweisung in SchrittST35 eingeben wird, erfasst eine hervorgehobene Sprache, indem sie einen Prozess des Unterdrückens eines Störgeräuschsignals an den tatsächlichen Sprachdaten mit Störgeräuschen, die in SchrittST31 eingegeben werden, durchführt und gibt die hervorgehobene Sprache aus (SchrittST36 ) . Anschließend kehrt der Prozess zu dem SchrittST31 zurück und wird die oben beschriebene Verarbeitung wiederholt. - Wie oben beschrieben, ist die Sprachhervorhebungsvorrichtung gemäß dieser Ausführungsform
4 so konfiguriert, dass sie Folgendes beinhaltet: die Merkmalquantitätsberechnungseinheit5 , die Akustikmerkmalquantitäten aus den Sprachdaten mit Störgeräuschen berechnet; die Ähnlichkeitsgradberechnungseinheit6a , die den Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und den Akustikmerkmalquantitäten der Lerndaten unter Bezugnahme auf die Akustikindexdatenbank8 berechnet und eine Gruppe von Akustikindices erfasst, die mit den Akustikmerkmalquantitäten verknüpft sind, die den höchsten Ähnlichkeitsgrad zeigen; und die Unterdrückungsverfahrenauswahleinheit2c , die die Störgeräuschunterdrückungseinheit3 auswählt, die den höchsten Akustikindex in der erfassten Gruppe von Akustikindices zeigt. Infolgedessen ist ein Vorteil der Fähigkeit, eine Spracherkennungsleistungsfähigkeit in Einheiten einer Äußerung vorherzusagen und eine Spracherkennungsleistungsfähigkeit mit einem hohen Genauigkeitsgrad bereitzustellen und die Berechnung des Ähnlichkeitsgrades durch Verwenden von festdimensionalen Merkmalquantitäten zu erleichtern, bereitgestellt. - Bei der oben beschriebenen Ausführungsform
4 ist die Konfiguration gezeigt, bei der die Sprachhervorhebungsvorrichtung200 die Akustikindexdatenbank8 beinhaltet. Alternativ dazu kann die Sprachhervorhebungsvorrichtung200 so konfiguriert sein, dass die Ähnlichkeitsgradberechnungseinheit6a unter Bezugnahme auf eine externe Datenbank die Berechnung des Ähnlichkeitsgrades zwischen Akustikmerkmalquantitäten und die Erfassung von Akustikindices ausführt. - Bei der oben erwähnten Ausführungsform
4 tritt eine Verzögerung auf, wenn die Spracherkennung in Einheiten einer Äußerung ausgeführt wird. Falls eine solche Verzögerung nicht zugelassen werden kann, kann die Spracherkennungsvorrichtung100b dazu konfiguriert sein, sich auf Akustikmerkmalquantitäten zu beziehen, indem ein Anfangsteil von einigen Sekunden einer Äußerung direkt nach der Zeit, wenn die Äußerung begonnen wird, verwendet wird. Wenn sich die Umgebung zwischen einer Äußerung, die vor der Äußerung bereitgestellt wurde, die das Ziel für eine hervorgehobene Spracherfassung ist, und der momentanen Äußerung nicht ändert, kann die Sprachhervorhebungsvorrichtung200 ferner dazu konfiguriert sein, die hervorgehobene Spracherfassung unter Verwendung des Auswahlergebnisses einer Störgeräuschunterdrückungseinheit3 auszuführen, welche für die vorherige Äußerung ausgeführt wurde. - Ausführungsform 5.
- Die Spracherkennungsvorrichtungen
100 ,100a und100b gemäß den Ausführungsformen1 bis3 und die Sprachhervorhebungsvorrichtung200 gemäß der Ausführungsform4 , die zuvor beschrieben wurden, können zum Beispiel auf ein Navigationssystem, ein Telefonempfangssystem, einen Aufzug und so weiter, die jeweils mit einer Sprachanruffunktion versehen sind, angewandt werden. Bei dieser Ausführungsform5 wird ein Fall gezeigt, bei dem die Spracherkennungsvorrichtung gemäß der Ausführungsform 1 auf ein Navigationssystem angewandt wird. -
11 ist ein funktionales Blockdiagramm, das eine Konfiguration des Navigationssystems300 gemäß der Ausführungsform5 zeigt. - Das Navigationssystem
300 ist eine Vorrichtung, die zum Beispiel in einem Fahrzeug montiert ist und eine Führung einer Route zu einem Ziel durchführt, und beinhaltet eine Informationserfassungsvorrichtung301 , eine Steuervorrichtung302 , eine Ausgabevorrichtung303 , eine Eingabevorrichtung304 , die Spracherkennungsvorrichtung100 , eine Kartendatenbank305 , eine Routenberechnungsvorrichtung306 und eine Routenführungsvorrichtung307 . Der Betrieb von jeder der Vorrichtungen des Navigationssystems300 wird integriert durch die Steuervorrichtung302 gesteuert. - Die Informationserfassungsvorrichtung
301 beinhaltet zum Beispiel ein Momentanpositionsdetektionsmittel, ein Drahtloskommunikationsmittel, ein Umgebungsinformationsdetektionsmittel und so weiter und erfasst die momentane Position des Fahrzeugs des Benutzers, Informationen, die in der Umgebung des Fahrzeug des Benutzers detektiert werden, und Informationen, die in anderen Fahrzeugen detektiert werden. Die Ausgabevorrichtung303 beinhaltet zum Beispiel ein Anzeigemittel, ein Anzeigesteuermittel, ein Tonausgabemittel, ein Tonsteuermittel und so weiter und benachrichtigt einen Benutzer über Informationen. Die Eingabevorrichtung304 ist durch ein Spracheingabemittel, wie etwa ein Mikrofon, implementiert und ein Operationseingabemittel, wie etwa Knöpfe oder eine Berührungsfläche, und empfängt Informationen, die durch einen Benutzer eingegeben werden. Die Spracherkennungsvorrichtung100 weist die Konfiguration und die Funktionen auf, die in der Ausführungsform1 gezeigt sind, führt eine Spracherkennung an Sprachdaten mit Störgeräuschen, die über die Eingabevorrichtung304 eingegeben werden, aus, erfasst ein Spracherkennungsergebnis und gibt dieses Spracherkennungsergebnis an die Steuervorrichtung302 aus. - Die Kartendatenbank
305 ist ein Speicherbereich, der Kartendaten speichert, und ist zum Beispiel durch eine Speichervorrichtung, wie etwa eine Festplatte (HDD: Hard Disk Drive), oder ein Direktzugriffsspeicher (RAM: Random Access Memory), implementiert. Die Routenberechnungseinheit306 legt die momentane Position des Fahrzeugs des Benutzers, die durch die Informationserfassungsvorrichtung301 erfasst wird, als den Abreiseort fest, legt das Spracherkennungsergebnis, das durch die Spracherkennungsvorrichtung100 erfasst wird, als das Ziel fest und berechnet eine Route von dem Abreiseort zu dem Ziel basierend auf den Kartendaten, die in der Kartendatenbank305 gespeichert sind. Die Routenführungsvorrichtung307 führt das Fahrzeug eines Benutzers gemäß der Route, die durch die Routenberechnungsvorrichtung306 berechnet wird. - In dem Navigationssystem
300 führt die Spracherkennungsvorrichtung100 , wenn Sprachdaten mit Störgeräuschen einschließlich einer Äußerung des Benutzers von dem Mikrofon eingegeben werden, das die Eingabevorrichtung304 konstruiert, eine Verarbeitung, die in dem Flussdiagramm aus3 gezeigt und zuvor erklärt wurde, an den Sprachdaten mit Störgeräuschen durch und erfasst ein Spracherkennungsergebnis. Die Routenberechnungseinheit306 legt die momentane Position des Fahrzeugs des Benutzers, die durch die Informationserfassungsvorrichtung301 erfasst wird, als den Abreiseort fest und legt die Informationen, die durch das Spracherkennungsergebnis gezeigt werden, basierend auf den Informationen, die von der Steuervorrichtung302 und der Informationserfassungsvorrichtung301 eingegeben werden, als das Ziel fest und berechnet eine Route von dem Abreiseort zu dem Ziel basierend auf den Kartendaten. Die Routenführungsvorrichtung307 gibt Informationen über die Routenführung, die gemäß der Route berechnet wird, die durch die Routenberechnungseinheit306 berechnet wird, über die Ausgabevorrichtung303 aus und stellt die Routenführung für den Benutzer bereit. - Wie oben beschrieben, ist das Navigationssystem gemäß dieser Ausführungsform
5 auf eine solche Weise konfiguriert, dass die Spracherkennungsvorrichtung100 einen Störgeräuschunterdrückungsprozess an Sprachdaten mit Störgeräuschen, die in die Eingabevorrichtung304 eingegeben werden und die eine Äußerung des Benutzers beinhalten, durch Verwenden der Störgeräuschunterdrückungseinheit3 , von der vorhergesagt wird, dass sie ein Spracherkennungsergebnis ableitet, das eine gute Spracherkennungsrate zeigt, durchführt und eine Spracherkennung an den Sprachdaten durchführt. Infolgedessen kann die Berechnung einer Route basierend auf dem Spracherkennungsergebnis mit einer guten Spracherkennungsrate ausgeführt werden, so dass eine Routenführung, die für Wünsche des Benutzers geeignet ist, ausgeführt werden kann. - Bei der oben beschriebenen Ausführungsform
5 ist die Konfiguration gezeigt, bei der die Spracherkennungsvorrichtung100 , die in der Ausführungsform1 gezeigt ist, auf das Navigationssystem300 angewandt wird. Alternativ dazu kann das Navigationssystem300 unter Verwendung der Spracherkennungsvorrichtung100a , die in der Ausführungsform2 gezeigt ist, der Spracherkennungsvorrichtung100b , die in der Ausführungsform3 gezeigt ist, oder der Sprachhervorhebungsvorrichtung200 , die in der Ausführungsform4 gezeigt ist, konfiguriert sein. Falls die Sprachhervorhebungsvorrichtung200 auf das Navigationssystem300 angewandt wird, wird angenommen, dass das Navigationssystem300 eine Funktion des Ausführens einer Spracherkennung an einer hervorgehobenen Sprache aufweist. - Es wird angemerkt, dass zusätzlich zu den oben beschriebenen Ausführungsformen eine beliebige Kombination der oben beschriebenen Ausführungsformen vorgenommen werden kann, verschiedene Änderungen einer beliebigen Komponente gemäß einer beliebigen der oben erwähnten Ausführungsformen vorgenommen werden können und eine beliebige Komponente gemäß einer beliebigen der oben erwähnten Ausführungsformen innerhalb des Schutzumfangs der Erfindung weggelassen werden kann.
- INDUSTRIELLE ANWENDBARKEIT
- Da die Spracherkennungsvorrichtung und die Sprachhervorhebungsvorrichtung gemäß der vorliegenden Erfindung ein Störgeräuschunterdrückungsverfahren auswählen können, das eine gute Spracherkennungsrate oder einen guten Akustikindex bereitstellt, können sie auf eine Vorrichtung angewandt werden, die mit einer Sprachanruffunktion versehen ist, wie etwa ein Navigationssystem, ein Telefonempfangssystem oder einen Aufzug.
- Bezugszeichenliste
- 1 erste Vorhersageeinheit,
1a zweite Vorhersageeinheit2 ,2a und2b Unterdrückungsverfahrenauswahleinheit,3 ,3a ,3b und3c Störgeräuschunterdrückungseinheit,4 Spracherkennungseinheit,5 Merkmalquantitätsberechnungseinheit,6 und6a Ähnlichkeitsgradberechnungseinheit,7 Erkennungsratendatenbank,8 Akustikindexdatenbank,100 ,100a und100b Spracherkennungsvorrichtung,200 Sprachhervorhebungsvorrichtung,300 Navigationssystem,301 Informationserfassungssystem,302 Steuervorrichtung,303 Ausgabevorrichtung,304 Eingabevorrichtung,305 Kartendatenbank,306 Routenberechnungsvorrichtung und307 Routenführungsvorrichtung.
Claims (7)
- Spracherkennungsvorrichtung, die Folgendes umfasst: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Spracherkennungseinheit, die eine Spracherkennung an Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch eine der Störgeräuschunterdrückungseinheiten erzeugt werden; eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten der Sprachdaten mit Störgeräuschen, die eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn die Störgeräuschunterdrückungsprozesse an den Sprachdaten mit Störgeräuschen jeweils durch die mehreren Störgeräuschunterdrückungseinheiten durchgeführt werden; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräusch durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den Spracherkennungsraten auswählt, die durch die Vorhersageeinheit vorhergesagt werden, dadurch gekennzeichnet, dass die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und -die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder -einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
- Spracherkennungsvorrichtung nach
Anspruch 1 , wobei die Vorhersageeinheit die Spracherkennungsraten in Einheiten eines Rahmens einer Kurzzeit-Fourier-Transformation der Akustikmerkmalquantitäten vorhersagt. - Spracherkennungsvorrichtung nach
Anspruch 1 , wobei die Vorhersageinheit Folgendes beinhaltet: eine Merkmalquantitätsberechnungseinheit, die die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräusch berechnet; und eine Ähnlichkeitsgradberechnungseinheit, die die Spracherkennungsraten, die im Voraus gespeichert sind, basierend auf einem Ähnlichkeitsgrad zwischen den Akustikmerkmalquantitäten, die durch die Merkmalquantitätsberechnungseinheit berechnet werden, und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, erfasst. - Sprachhervorhebungsvorrichtung, die Folgendes umfasst: mehrere Störgeräuschunterdrückungseinheiten, die jeweilige Störgeräuschunterdrückungsprozesse unter Verwendung unterschiedlicher Verfahren an Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, durchführen; eine Vorhersageeinheit, die Folgendes beinhaltet: eine Merkmalquantitätsberechnungseinheit, die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräuschen, die eingegeben werden, berechnet; und eine Ähnlichkeitsgradberechnungseinheit, die zumindest einen Akustikindex, der im Voraus gespeichert ist, basierend auf einem Ähnlichkeitsgrad zwischen den Akustikmerkmalquantitäten, die durch die Merkmalquantitätsberechnungseinheit berechnet werden, und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, ermittelt; und eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, der mehreren Störgeräuschunterdrückungseinheiten basierend auf dem zumindest einen Akustikindex auswählt, der durch die Ähnlichkeitsgradberechnungseinheit ermittelt wird.
- Spracherkennungsverfahren, das Folgendes umfasst: eine Vorhersageeinheit, die aus Akustikmerkmalquantitäten von Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, Spracherkennungsraten vorhersagt, die bereitzustellen sind, wenn mehrere Störgeräuschunterdrückungsprozesse jeweils durch mehrere Störgeräuschunterdrückungseinheiten an den Sprachdaten mit Störgeräuschen durchgeführt werden; eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, aus den mehreren Störgeräuschunterdrückungseinheiten basierend auf den vorhergesagten Spracherkennungsraten auswählt; wobei die Störgeräuschunterdrückungseinheit, die ausgewählt wird, den Störgeräuschunterdrückungsprozess an den eingegebenen Sprachdaten mit Störgeräuschen durchführt; und eine Spracherkennungseinheit, die eine Spracherkennung an den Tondaten ausführt, die durch Unterdrücken eines Störgeräuschsignals in den Sprachdaten mit Störgeräuschen durch den Störgeräuschunterdrückungsprozess erzeugt werden, dadurch gekennzeichnet, dass die Vorhersageeinheit durch ein neuronales Netz konfiguriert ist, das die Akustikmerkmalquantitäten als eine Eingabe empfängt und -die Spracherkennungsraten der Akustikmerkmalquantitäten ausgibt, oder -einen Klassifizierungsprozess an den Akustikmerkmalquantitäten durchführt und Informationen ausgibt, die eine der mehreren Störgeräuschunterdrückungseinheiten identifizieren, die eine hohe Spracherkennungsrate aufweist.
- Sprachhervorhebungsverfahren, das Folgendes umfasst: eine Merkmalquantitätsberechnungseinheit einer Vorhersageeinheit, die Akustikmerkmalquantitäten in Einheiten einer Äußerung aus den Sprachdaten mit Störgeräuschen, die in diese eingegeben werden, berechnet; eine Ähnlichkeitsgradberechnungseinheit der Vorhersageeinheit, die zumindest einen Akustikindex, der im Voraus gespeichert ist, basierend auf einem Ähnlichkeitsgrad zwischen den berechneten Akustikmerkmalquantitäten und Akustikmerkmalquantitäten, die im Voraus gespeichert sind, ermittelt; eine Unterdrückungsverfahrenauswahleinheit, die eine Störgeräuschunterdrückungseinheit, die einen Störgeräuschunterdrückungsprozess an den Sprachdaten mit Störgeräuschen durchführt, basierend auf dem zumindest einen ermittelten Akustikindex auswählt; und wobei die ausgewählte Störgeräuschunterdrückungseinheit den Störgeräuschunterdrückungsprozess an den eingegebenen Sprachdaten mit Störgeräuschen durchführt.
- Navigationsvorrichtung, die Folgendes umfasst: die Spracherkennungsvorrichtung nach
Anspruch 1 ; eine Routenberechnungsvorrichtung, die eine momentane Position eines sich bewegenden Objekts als einen Abreiseort des sich bewegenden Objekts festlegt und ein Spracherkennungsergebnis, das eine Ausgabe der Spracherkennungsvorrichtung ist, als ein Ziel des sich bewegenden Objekts festlegt und eine Route von dem Abreiseort zu dem Ziel durch Bezugnahme auf Kartendaten berechnet; und eine Routenführungsvorrichtung, die eine Bewegung des sich bewegenden Objekts entlang der Route, die durch die Routenberechnungseinheit berechnet wird, führt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2015/083768 WO2017094121A1 (ja) | 2015-12-01 | 2015-12-01 | 音声認識装置、音声強調装置、音声認識方法、音声強調方法およびナビゲーションシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
DE112015007163T5 DE112015007163T5 (de) | 2018-08-16 |
DE112015007163B4 true DE112015007163B4 (de) | 2019-09-05 |
Family
ID=58796545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112015007163.6T Active DE112015007163B4 (de) | 2015-12-01 | 2015-12-01 | Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem |
Country Status (7)
Country | Link |
---|---|
US (1) | US20180350358A1 (de) |
JP (1) | JP6289774B2 (de) |
KR (1) | KR102015742B1 (de) |
CN (1) | CN108292501A (de) |
DE (1) | DE112015007163B4 (de) |
TW (1) | TW201721631A (de) |
WO (1) | WO2017094121A1 (de) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7167554B2 (ja) | 2018-08-29 | 2022-11-09 | 富士通株式会社 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
JP7196993B2 (ja) * | 2018-11-22 | 2022-12-27 | 株式会社Jvcケンウッド | 音声処理条件設定装置、無線通信装置、および音声処理条件設定方法 |
CN109920434B (zh) * | 2019-03-11 | 2020-12-15 | 南京邮电大学 | 一种基于会议场景的噪声分类去除方法 |
CN109817219A (zh) * | 2019-03-19 | 2019-05-28 | 四川长虹电器股份有限公司 | 语音唤醒测试方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194392A (ja) | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2005115569A (ja) | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | 信号識別装置および信号識別方法 |
JP2007206501A (ja) | 2006-02-03 | 2007-08-16 | Advanced Telecommunication Research Institute International | 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6173255B1 (en) * | 1998-08-18 | 2001-01-09 | Lockheed Martin Corporation | Synchronized overlap add voice processing using windows and one bit correlators |
US8467543B2 (en) * | 2002-03-27 | 2013-06-18 | Aliphcom | Microphone and voice activity detection (VAD) configurations for use with communication systems |
CA2454296A1 (en) * | 2003-12-29 | 2005-06-29 | Nokia Corporation | Method and device for speech enhancement in the presence of background noise |
US20060206320A1 (en) * | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
US20070041589A1 (en) * | 2005-08-17 | 2007-02-22 | Gennum Corporation | System and method for providing environmental specific noise reduction algorithms |
US7676363B2 (en) * | 2006-06-29 | 2010-03-09 | General Motors Llc | Automated speech recognition using normalized in-vehicle speech |
JP4730369B2 (ja) * | 2007-10-30 | 2011-07-20 | 株式会社デンソー | ナビゲーションシステム |
US8606573B2 (en) * | 2008-03-28 | 2013-12-10 | Alon Konchitsky | Voice recognition improved accuracy in mobile environments |
WO2010052749A1 (ja) * | 2008-11-04 | 2010-05-14 | 三菱電機株式会社 | 雑音抑圧装置 |
JP5187666B2 (ja) * | 2009-01-07 | 2013-04-24 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
TWI404049B (zh) * | 2010-08-18 | 2013-08-01 | Hon Hai Prec Ind Co Ltd | 語音導航設備及語音導航方法 |
WO2012063963A1 (ja) * | 2010-11-11 | 2012-05-18 | 日本電気株式会社 | 音声認識装置、音声認識方法、および音声認識プログラム |
JP5916054B2 (ja) * | 2011-06-22 | 2016-05-11 | クラリオン株式会社 | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム |
JP5932399B2 (ja) * | 2012-03-02 | 2016-06-08 | キヤノン株式会社 | 撮像装置及び音声処理装置 |
WO2013149123A1 (en) * | 2012-03-30 | 2013-10-03 | The Ohio State University | Monaural speech filter |
JP6169849B2 (ja) * | 2013-01-15 | 2017-07-26 | 本田技研工業株式会社 | 音響処理装置 |
JP6235938B2 (ja) * | 2013-08-13 | 2017-11-22 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
US9830925B2 (en) * | 2014-10-22 | 2017-11-28 | GM Global Technology Operations LLC | Selective noise suppression during automatic speech recognition |
CN104575510B (zh) * | 2015-02-04 | 2018-08-24 | 深圳酷派技术有限公司 | 降噪方法、降噪装置和终端 |
US20160284349A1 (en) * | 2015-03-26 | 2016-09-29 | Binuraj Ravindran | Method and system of environment sensitive automatic speech recognition |
-
2015
- 2015-12-01 WO PCT/JP2015/083768 patent/WO2017094121A1/ja active Application Filing
- 2015-12-01 DE DE112015007163.6T patent/DE112015007163B4/de active Active
- 2015-12-01 US US15/779,315 patent/US20180350358A1/en not_active Abandoned
- 2015-12-01 KR KR1020187014775A patent/KR102015742B1/ko active IP Right Grant
- 2015-12-01 JP JP2017553538A patent/JP6289774B2/ja active Active
- 2015-12-01 CN CN201580084845.6A patent/CN108292501A/zh not_active Withdrawn
-
2016
- 2016-03-31 TW TW105110250A patent/TW201721631A/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000194392A (ja) | 1998-12-25 | 2000-07-14 | Sharp Corp | 騒音適応型音声認識装置及び騒音適応型音声認識プログラムを記録した記録媒体 |
JP2004206063A (ja) * | 2002-10-31 | 2004-07-22 | Seiko Epson Corp | 音響モデル作成方法および音声認識装置ならびに音声認識装置を有する乗り物 |
JP2005115569A (ja) | 2003-10-06 | 2005-04-28 | Matsushita Electric Works Ltd | 信号識別装置および信号識別方法 |
JP2007206501A (ja) | 2006-02-03 | 2007-08-16 | Advanced Telecommunication Research Institute International | 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2017094121A1 (ja) | 2018-02-08 |
US20180350358A1 (en) | 2018-12-06 |
DE112015007163T5 (de) | 2018-08-16 |
KR102015742B1 (ko) | 2019-08-28 |
TW201721631A (zh) | 2017-06-16 |
JP6289774B2 (ja) | 2018-03-07 |
KR20180063341A (ko) | 2018-06-11 |
CN108292501A (zh) | 2018-07-17 |
WO2017094121A1 (ja) | 2017-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE112017003563B4 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen | |
DE112015004785B4 (de) | Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal | |
DE112017004548B4 (de) | Verfahren und Vorrichtung zur robusten Geräuschschätzung für eine Sprachverbesserung in variablen Geräuschbedingungen | |
DE69636057T2 (de) | Sprecherverifizierungssystem | |
DE69829187T2 (de) | Halbüberwachte Sprecheradaptation | |
DE60023517T2 (de) | Klassifizierung von schallquellen | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE60115738T2 (de) | Sprachmodelle für die Spracherkennung | |
DE112015007163B4 (de) | Spracherkennungsvorrichtung, Sprachhervorhebungsvorrichtung, Spracherkennungsverfahren, Sprachhervorhebungsverfahren und Navigationssystem | |
DE60305568T2 (de) | Schlüsselworterkennung in einem Sprachsignal | |
DE69725106T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mit Rauschadaptierung | |
DE60010106T2 (de) | Verfahren und vorrichtung zum unterscheidenden training von akustischen modellen in einem spracherkennungssystem | |
DE102015213715A1 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
DE112009000805B4 (de) | Rauschreduktion | |
DE60004331T2 (de) | Sprecher-erkennung | |
DE602005000603T2 (de) | Verfahren zur Bestimmung von Wahrscheinlichkeitsparametern für ein veränderliches Zustandsraummodell | |
DE19630109A1 (de) | Verfahren zur Sprecherverifikation anhand mindestens eines von einem Sprecher eingesprochenen Sprachsignals, durch einen Rechner | |
DE69819438T2 (de) | Verfahren zur Spracherkennung | |
DE602004000716T2 (de) | Rauschadaptierungssystem für ein Sprachmodell, Verfahren zur Rauschadaptierung und Programm zur Rauschadaptierung für Spracherkennung | |
EP1251489A2 (de) | Training von Parametern eines Spracherkennungssystems zur Erkennung von Aussprachevarianten | |
WO1999059135A2 (de) | Anordnung und verfahren zur erkennung eines vorgegebenen wortschatzes in gesprochener sprache durch einen rechner | |
DE112014006795B4 (de) | Spracherkennungssystem und Spracherkennungsverfahren | |
EP0987682B1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
EP3624113A1 (de) | Vorrichtung zur verarbeitung eines signals | |
DE4322372A1 (de) | Verfahren und Vorrichtung zur Spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G10L0015200000 Ipc: G10L0021020000 |
|
R084 | Declaration of willingness to licence | ||
R016 | Response to examination communication | ||
R018 | Grant decision by examination section/examining division | ||
R020 | Patent grant now final |