DE69625950T2 - Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem - Google Patents

Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem

Info

Publication number
DE69625950T2
DE69625950T2 DE69625950T DE69625950T DE69625950T2 DE 69625950 T2 DE69625950 T2 DE 69625950T2 DE 69625950 T DE69625950 T DE 69625950T DE 69625950 T DE69625950 T DE 69625950T DE 69625950 T2 DE69625950 T2 DE 69625950T2
Authority
DE
Germany
Prior art keywords
word
words
speech
recognition
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69625950T
Other languages
English (en)
Other versions
DE69625950D1 (de
Inventor
Makoto Akabane
Yasuharu Asano
Kazuo Ishii
Tetsuya Kagami
Hiroshi Kakuda
Yasuhiko Kato
Hiroaki Ogawa
Miyuki Tanaka
Masao Watari
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Application granted granted Critical
Publication of DE69625950D1 publication Critical patent/DE69625950D1/de
Publication of DE69625950T2 publication Critical patent/DE69625950T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/085Methods for reducing search complexity, pruning

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

    HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung, ein Spracherkennungsverfahren und ein Sprachübersetzungssystem, die in einem solchen Fall geeignet verwendet werden, dass beispielsweise. Sprache (speech) erkannt wird und das Sprachsystem (language) dieses Spracherkennungsresultats in ein anderes Sprachsystem übersetzt wird.
  • Fig. 1 stellt schematisch ein Beispiel einer konventionellen Spracherkennungsvorrichtung zur Erkennung satzbasierter Sprache (Konversationsspracherkennung oder Sprachverstehen) dar. Eine Spracheingabeeinheit 1 ist beispielsweise aus einem Mikrofon zur Umwandlung von Ton bzw. Stimme - das heißt Luftwellen - in Ton- bzw. Stimmesignale (Sprachsignale), die elektrische Wellen sind, und einem Verstärker zum Verstärken der von diesem Mikrofon ausgegebenen Sprachsignale aufgebaut. Eine A/D-Wandlerschaltung 2 tastet das von der Spracheingabeeinheit 1 ausgegebene analoge Sprachsignal mit einer vorgewählten Taktzeitsteuerung bzw. einem vorgewählten Takttiming ab, um den Quantisierungsprozess, auszuführen, so dass dieses analoge Sprachsignal in ein digitales Sprachsignal (digitale Daten) umgewandelt wird.
  • Eine Analysierungseinheit 3 analysiert das von der A/D- Wandlereinheit 2 ausgegebene digitale Sprachsignal, um die Sprachmerkmalparameter, beispielsweise Sprachleistung in spezifischen Bereichen, den Prädiktivlinearkoeffizienten (line predictive coeffizient (LPC)) und den Cepstrum-Koeffizienten zu extrahieren. In anderen Worten führt die Analysierungseinheit 3 mittels einer Filterbank eine Filterung der Sprachsignale in Bezug auf die vorgewählten Bereiche aus. Dann richtet diese Analysierungseinheit 3 die gefilterten Sprachsignale gleich und glättet sie, um die Sprachleistung für die jeweiligen Bereiche zu berechnen. Alternativ dazu kann die Analysierungseinheit 3 an der eingegebenen Sprache beispielsweise den prädiktiven linearen Analysierungsprozess ausführen, um den Prädiktivlinearkoeffizienten zu erhalten. Auch kann die Analysierungseinheit 3 diesen Prädiktivlinearkoeffizienten verarbeiten, um den Cepstrum-Koeffizienten zu erhalten.
  • Die von der Analysierungseinheit 3 erhaltenen Merkmalparameter werden direkt an die Erkennungseinheit 50 ausgegeben, oder es werden die Merkmalparameter in der Einheit 3 vektorquantisiert und dann die vektorquantisierten Merkmalparameter an die Erkennungseinheit 50 ausgegeben.
  • Die Erkennungseinheit 50 führt eine Spracherkennung auf der Basis der von der Analysierungseinheit 3 erhaltenen Merkmalparameter (oder von durch Vektorquantisierung der Merkmalparameter erhaltenen Symbolen) entsprechend einem Spracherkennungsalgorithmus, beispielsweise dem dynamischen Programmier-Anpassungsverfahren (dynamic programming (DP) matsching model) und dem verdeckten Markoff-Modell (hidden Markoff model (HMM)) aus. Wird in diesem Fall in der Erkennungseinheit 50 eine Spracherkennung für Phonemeinheiten ausgeführt, wird der als der vorgeschlagene Kandidat für das Spracherkennungsresultat erhaltene vorgeschlagene Phonemkandidat in beispielsweise einer Gitterdatenform (nachfolgend als "vorgeschlagenes phonemisches Subjektgitter" bezeichnet) in die Analysierer- bzw. Analysealgorihmus- bzw. Parsereinheit 51 ausgegeben.
  • Die Parsereinheit 51 sieht zuerst im Wort-Lexikon 52 nach, in welchem der Index von Wortrubriken bzw. Wortköpfen (oder Morphemrubriken bzw. Morphemköpfen) (wenn beispielsweise das Wort "auslesen" ist, so wäre der Kopf "auslesen"), dessen phonemische Information (lesen), die Sprachteile und andere notwendige Information registriert sind. Dann kombiniert die Parsereinhelt 51 die in dem von der Erkennungseinheit 50 zugeführten vorgeschlagenen phonemischen Subjektgitter enthaltenen vorgeschlagenen phonemischen Kandidaten, um mehr als ein Wort zu bilden, und danach kombiniert sie mehr als ein Wort, um eine Wortserie (Satz oder Satzverbindung) zu bilden. Dann wendet die Parsereinheit 51 die im grammatischen Regel-Lexikon 53 registrierte grammatische Regel auf diese Wortserie auf der Basis eines vorgewählten Läuterungs- bzw. Ausschließungsalgorithmus an. Die Parsereinheit 51 wendet die grammatische Regel wiederholt auf diese von dem von der Erkennungseinheit 50 abgeleiteten vorgeschlagenen phonemischen Gitter bildbare Wortserie an, so dass die für die grammatische Regel geeigneteste Wortserie - nämlich ein Satz oder eine Satzverbindung - als ein Satz-/Spracherkennungsresultat (oder anders Sprachverstehresultat) ausgegeben wird. Es sei darauf hingewiesen, dass die grammatische Regel beispielsweise von Experten im Spracherkennungsfeld gebildet wird.
  • Bei der Spracherkennungsvorrichtung mit der oben beschriebenen Konfiguration wird bei Eingabe der Sprache in die Spracheingabeeinheit 1 diese Sprache über die A/D-Wandlereinheit 2 als das Sprachsignal an die Analysierungseinheit 3 ausgegeben. In der Analysierungseinheit 3 wird das Sprachsignal akustisch analysiert, um dadurch den Sprachmerkmalparameter aus diesem Sprachsignal zu extrahieren. Der Sprachmerkmalparameter wird der Erkennungseinheit 50 zugeführt. In dieser Erkennungseinheit 50 wird die Spracherkennung durch Anwendung dieses Merkmalparameters in Phonemeinheiten ausgeführt, und das resultierende vorgeschlagene phonemische Kandidatengitter wird an die Parsereinheit 51 ausgegeben. Die Parsereinheit 51 sieht im Wort-Lexikon 52 und grammatischen Regel-Lexikon 53 nach, so dass die von dem von der Erkennungseinheit 50 zugeführten vorgeschlagenen phonemischen Subjektgitter erhaltene Wortserie zur Ausgabe des Spracherkennungsresultats spracherkannt (sprachverstanden) werden kann.
  • Andererseits sind als der zum Ausführen der Satz- /Spracherkennung in der Parsereinheit 51 verwendete Läuterungsalgorithmus die folgenden Verfahren bekannt: Das Verfahren zum Analysieren des Satzes/der Sprache auf der Basis beispielsweise einer kontextfreien Grammatik auf parallele Weise, wobei die nicht analysierten Resultate belassen werden (der Parser zur Ausführung der Läuterungsoperation durch ein solches Verfahren wird als "Kartenparser" bezeichnet) und auch das Verfahren zur vorherigen Berechnung der zur Analyse erforderlichen Information aus der kontextfreien Grammatik zum automatischen Erzeugen der als eine "LR-Analysetabelle" bezeichneten Tabelle und zur Ausführung der Analyse in Bezug auf diese LR-Analysetabelle (der Parser zur Ausführung der Läuterungsoperation durch ein solches Verfahren wird als "expandierter LR-Parser" bezeichnet).
  • Nun hat das "LR" des oben beschriebenen LR-Parsers die folgende Bedeutung: das Symbol "L" von "LR" ist von dem Ausdruck "links nach rechts" abgekürzt, der impliziert, dass ein Satz von einer Linksrichtung zu einer Rechtsrichtung bzw. in Richtung von links nach rechts abgetastet wird. Das andere Symbols "R" ist vom Ausdruck "am meisten rechts liegende Ableitung" abgekürzt, der impliziert, dass bei einer Umschreibregel der kontextfreien Grammatik eine Regel auf das am meisten rechts liegende Nichtendesymbol angewendet wird. Es sei auch darauf hingewiesen, dass es einen anderen Typ Parser gibt, der als "LL-Parser" bezeichnet wird. Dieser LL-Parser tastet einen Satz von der Linksrichtung zur Rechtsrichtung bzw. in Richtung von links nach rechts ab und führt die am meisten links liegende Ableitung aus, die zur oben beschriebenen am meisten rechts liegenden Ableitung entgegengesetzt ist.
  • Andererseits sind beispielsweise in "Continuous Speech Recognition by using HMM-Phonemic Recogniton and Expanded LR- Structural Analyzing Method", geschieben von Kita et al., Transactions of the Institute of Information Processing, Vol. 31, Nr. 3, Seiten 472 bis 480, in 1990 und auch in "Continous Speech Recognition by using the Expanded LR Structural Analysing Method", geschrieben von Ito et al., Electronics Information Communication Institute Report, SP 90-74 mehrere verbesserte Verfahren vorgeschlagen. Das heißt, diese Verfahren sind so vorgeschlagen, dass in der Parsereinheit der expandierte LR-Parser prädiziert, welche phonemische Serie auftritt, und die Erkennungseinheit eine phonemische Identifikation in Bezug auf das prädizierte Phonem durch Verwendung des HMM ausführt. Gemäß diesem Verfahren ist es möglich, die Zahl Berechnungen während des Erkennungsprozesses zu reduzieren.
  • Außerdem ist in "Speech Language Processing by using Probability Grammar", geschrieben von Kita, Research Reports of Artificial Intelligence Institute, SIG-SLUD-9204-6 ein anderes Verfahren vorgeschlagen. Dies ist ein Verfahren, bei dem eine Information, welche die Rate betrifft, mit der im expandierten LR-Parser eine grammatische Regel angewendet wird, beim Wählen der geeigneten granunatische Regel in Betracht gezogen wird. In anderen Worten wurden bei diesem Verfahren bei Verwendung einer kontextfreien Grammatik als die grammatische Regel zuerst eine große Zahl gelehrter Texte konsultiert, um die Rate ausfindig zu machen, mit der generative Regeln angewendet wurden. Wird dann diese kontextfreie Grammatik in einer LR-Analysetabelle angezeigt, werden diese Ratendaten in der LR-Analysetabelle ebenfalls gezeigt. Während der Analyse mit dem expandierten LR-Parser werden Auftretungsratenberechnungen ausgeführt. Als Resultat wird für Sprachsystemausdrücke, die häufig auftreten, ein hoher Ratenwert erhalten, während für Nichttext (grammatisch inkorrekter Text) ein extrem kleiner Ratenwert erhalten wird. Bei diesem Verfahren kann auf diese Weise die Zahl Berechnungen noch weiter reduziert werden.
  • Andererseits sind im Gegensatz zum vorstehend erläuterten Verfahren andere Verfahren vorgeschlagen, bei denen zuerst durch Verwendung einer Information, deren Berechnungsaufwand klein ist, mehrere Hypothesen erhalten werden und dann diese Hypothesen durch Wählen der Information höheren Grades verringert werden, das heißt die Sprachsystembeschränkungen in zwei Stufen unterteilt werden. Diese verschiedenen Verfahren sind beispielsweise in "A Tree Trellis Based Fast Search for Finding the N Best Sentence Hypotheses in Contionuous Speech Recognition", F. K. Soong et al., Proceedings of Speech an Natural Language Workshop, DARPA, Seiten 12- 19, (1990), "The N-best algorithm: An efficient and exact procedure of finding the N most likely sentence hypotheses", R. Schwartz et al., Proceeding of ICASSP 90, Seiten 81-84 (1990) beschrieben.
  • Bei diesem Verfahren wird beim ersten Ausführen des Erkennungsprozesses in der Erkennungseinheit durch Verwendung der von der Analysierungseinheit erhaltenen Analyseresultate - beispielsweise das HMM - eine lose Sprachsystembeschränkung durch Verwendung des statistischen Sprachsystemmodells und eines Netzwerks endlicher Zustände wie beispielsweise eines Bigramms (bigram)oder ein Trigramms (trigram) ausgeführt. Das Bigramm und das Trigramm korrespondieren mit beispielsweise dem primären Markoff-Modell und dem sekundären Markoff- Modell, bei denen die Kettungswahrscheinlichkeit für Phoneme, Sätze und Wörter usw. auf der Basis einer großen Textdatenbank großen Umfangs studiert wird. Diese Bigramme und Trigramme sind als Modelle derart bekannt, dass der lokale Charakter des natürlichen Sprachsystems mit höherer Genauigkeit approximiert werden kann.
  • Dann wird unter diesen Einschränkungen die Verringerungsprozessoperation mittels beispielsweise der den Viterbi- Algorithmus verwendenden bekannten Strahlsuche (beam search) richtig ausgeführt. Demgemäss werden mehrere vorgeschlagene Satzkandidaten, die nach der Verringerungsverarbeitungsoperation bleiben, ausgegeben. Danach wird die präzisere grammatische Regel auf diese mehreren vorgeschlagenen Satzkandidaten angewendet, um die Satz-/Spracherkennung (das Sprachverstehen) auszuführen.
  • Bei den oben erläuterten konventionellen Verfahren wird die in der Parsereinheit verwendete grammatische Regel von Experten ausgeführt, um die von Menschen gesprochenen verschiedenen Satzformate zu erfassen. Jedoch ist es sehr schwierig diese Regel auf richtige Weise zu beschreiben, um eine korrekte Satz-/Spracherkennung zu ermöglichen. In anderen Worten werden, wenn die grammatische Regel unnötig strikt gemacht wird, alle Aussagen, die diese strikte Regel nicht erfüllen, nicht erkannt. Ist umgekehrt die grammatische Regel unnötig lose gemacht, würden Sätze, die keinen grammatischen Sinn machen (grammatisch inkorrekte Sätze) als Erkennungsresultat betrachtet.
  • Als Konsequenz werden generell gesprochen Satzbeispiele, die nicht richtig lexikalisch untergliedert oder nicht richtig syntaktisch analysiert sind, gesucht, und dann wird die grammatische Regel auf der Basis dieses Satzbeispiels geändert. Jedoch gibt es generell keine klare Lösung dafür, wie grammatische Regeln effektiv zu korrigieren sind. Auch ist es schwierig vorherzusagen, wie die Erkennungsverarbeitungsoperation geändert wird, wenn die grammatische Regel geändert wird. Demgemäss besteht das Risiko, dass nach Änderung der grammatische Regel bei Sätzen ein fehlerhafter Prozess ausgeführt wird, obgleich sie vor der Änderung dieser grammatischen Regel richtig verarbeitet werden können. Eine Korrektur der grammatischen Regel kann nicht leicht ausgeführt werden.
  • Ein Spracherkennungssystem, aus dem alle Merkmale des Oberbegriffs des Anspruchs 1 hervorgehen, ist in US-A-4980918 beschrieben.
  • Ein Worterkennungssystem, das zur Verbesserung der Erkennungsrate eine semantische Information der Wörter verwendet, ist aus Fukunaga et al.: "Recognition of Words with Semantic Information", Electronics and communications in Japan, Vol. 59 (1976), Seiten 12-19 bekannt.
  • Außerdem ist aus Marimoto et al.: "Integration os Speech Recognition and Language Processing in a Japanese To English Spoken Language Translation System", ICEI Transactions, Vol. E74 (1991), Seiten 1889-1896 eine Sprachübersetzungsvorrichtung zur Übersetzung eines Sprachsystems einer eingegebenen Sprache in ein anderes Sprachsystem bekannt.
  • AUFGABE UND ZUSAMMENFASSUNG DER ERFINDUNG
  • Die vorliegende Erfindung ist bei einem Versuch, die oben beschriebenen Probleme zu lösen gemacht worden, und deshalb ist ihre Aufgabe, ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung sowie eine Sprachübersetzungsvorrichtung bereitzustellen, die grammatische Qualifikationen vorgeschlagener Subjekte für Spracherkennungsresultate ohne Verwendung von grammatischen Regeln entscheiden können, was in einer mit höherer Präzision bewirkten Satz-/Spracherkennung (Sprachverstehen) resultiert.
  • Diese Aufgabe wird durch ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung sowie eine Sprachübersetzungsvorrichtung gemäß den beigefügten unabhängigen Ansprüchen gelöst. Vorteilhafte Eigenschaften und Merkmale der vorliegenden Erfindung sind in den korrespondierenden Unteransprüchen definiert.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Fig. 1 ist ein schematisches Blockschaltbild zum Zeigen eines Beispiels der Konfiguration der konventionellen Spracherkennungsvorrichtung;
  • Fig. 2 ist ein schematisches Blockschaltbild zum Zeigen einer Konfiguration einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung;
  • Fig. 3 ist ein Flussdiagramm zur Erläuterung von Operationen der in Fig. 2 gezeigten Beispiel-Wiedergewinnungseinheit 5;
  • Fig. 4 ist ein zur Erläuterung einer beim Schritt S1 des Flussdiagramms nach Fig. 3 definierten Prozessoperation verwendetes Erläuterungsdiagramm;
  • Fig. 5 ist ein zur Erläuterung einer beim Schritt S1 des Flussdiagramms nach Fig. 3 verwendetes Erläuterungsdiagramm;
  • Fig. 6 ist eine Darstellung zum Zeigen des in der Thesaurus-Speichereinheit 8 nach Fig. 2 gespeicherten Thesaurus;
  • Fig. 7 ist ein schematisches Blockschaltbild zur Darstellung einer Konfiguration einer Spracherkennungsvorrichtung gemäß einer zweiten Ausführungsform der vorliegenden Erfindung;
  • Fig. 8 zeigt ein Beispiel (Wortbigramm) eines bei der vorliegenden Erfindung angewendeten Sprachsystemmodells;
  • Fig. 9 ist ein schematisches Blockschaltbild zum Zeigen einer Konfiguration einer Spracherkennungsvorrichtung gemäß einer dritten Ausführungsform der vorliegenden Erfindung;
  • Fig. 10 ist ein schematisches Blockschaltbild zur Darstellung einer Konfiguration einer Sprachübersetzungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung; und
  • Fig. 11A bis Fig. 11E sind Erläuterungsdiagramme zur Erläuterung von Operationen der in Fig. 9 gezeigten Sprachübersetzungsvorrichtung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Fig. 2 stellt schematisch eine Konfiguration einer Spracherkennungsvorrichtung gemäß einer ersten Ausführungsform der vorliegenden Erfindung dar. Es sei darauf hingewiesen, dass die in Fig. 1 gezeigten gleichen Bezugszeichen als die zum Bezeichnen der gleichen oder ähnlichen Schaltungselemente verwendet werden, und Erläuterungen dieser Elemente sind fortgelassen.
  • Ähnlich zur Erkennungseinheit 50 nach Fig. 1 führt eine Erkennungseinheit 4 (Erkennungseinrichtung) eine Spracherkennung durch Verwendung eines von einer Analysierungseinheit 3 abgeleiteten Merkmalparameters (oder anders eines von einer Vektorquantisierung dieses Merkmalparameters erzeugten Symbols) entsprechend einem vorbestimmten Spracherkennungsalgorithmus aus. Es sei auch darauf hingewiesen, dass, obgleich die herkömmliche Erkennungseinheit 50 die Spracherkennung in Phonemeinheit ausgeführt hat, diese Erkennungseinheit 4 die Spracherkennung in Worteinheiten mit Bezug auf beispielsweise eine Wort-Lexikon 6 (nachfolgend zu diskutieren) ausführt. Dann wird in der Erkennungseinheit 4 ein von dem Spracherkennungsresultat in Worteinheiten erhaltenes vorgeschlagenes Subjekt des Worts (vorgeschlagenes Wortsubjekt) als ein vorgeschlagenes Subjekt für das Spracherkennungsresultat in Form beispielsweise eines Gitters ausgegeben (das in dieser Gitterform ausgegebene vorgeschlagene Wortsubjekt wird nachfolgend als ein "vorgeschlagenes Wortsubjektgitter" bezeichnet).
  • Eine Beispiel-Wiedergewinnungseinheit 5 (Berechnungseinrichtung) kombiniert die in dem von der Erkennungseinheit 4 abgeleiteten vorgeschlagenen Wortsubjektgitter enthaltenen vorgeschlagenen Wortsubjekte zusammen, um dadurch mehrere Wortkolumnen (Sätze), die aus wenigstens einem Wort aufgebaut sind, zu bilden. Dann berechnet diese Beispiel-Wiedergewinnungseinheit 5 einen Ähnlichkeitsgrad zwischen jeder dieser mehreren Wortkolumnen (Sätze, Satzverbindungen) und jedem der in einer Beispiel-Datenbank 7 (unten zu erläutern) gespeicherten Beispiele. Die Beispiel-Wiedergewinnungseinheit 5 kann das Erkennungsresultat (Satz, Satzverbindung) der in die Spracheingabeeinheit 1 eingegebenen Sprache auf der Basis des berechneten Ähnlichkeitsgrades bestimmen.
  • Es ist zu einzusehen, dass die Berechnung des Ähnlichkeitsgrades in der Beispiel-Wiedergewinnungseinheit 5 durch Verwendung des in der Thesaurus-Speichereinheit 8 gespeicherten Thesaurus ausgeführt wird. Auch kann die Prozessoperation zur Bildung mehrerer aus wenigstens einem Wort bestehenden Wortkolumnen (Sätze, Satzverbindungen) durch miteinander Kombinieren der im vorgeschlagenen Wortsubjektgitter vorgeschlagenen Wortsubjekte nicht durch die Beispiel-Wiedergewinnungseinheit 5, sondern durch die Erkennungseinheit 4 ausgeführt werden.
  • Im Wort-Lexikon 6 (Wort-Speichereinrichtung) sind ein Index von Wörtern, Phoneminformation derselben (lesen) und, falls erforderlich, weitere mit denselben korrespondierende Sprachteile sowie andere Information gespeichert. In der Erkennungseinheit 4 wird, was die in diesem Wort-Lexikon 6 gespeicherten Wörter betrifft, eine Spracherkennung ausgeführt.
  • In einer Beispiel-Datenbank 7 (Beispiel-Speichereinrichtung) sind mehrere Beispiele gespeichert oder registriert. Die Beispiele werden beispielsweise auf der Basis von Sätzen oder Satzverbindungen, in Zeitungen geschrieben sind und von in Originalen geschriebenen Sätzen oder Satzverbindungen, die einem Ansager gelesenen werden, gebildet.
  • In einer Thesaurus-Speichereinheit 8 (Wortkonzept- bzw. Wortbegriff-Speichereinrichtung) sind wenigstens die im Wort- Lexikon registrierten Wörter gespeichert, wobei diese Wörter durch ein Konzept bzw. einen Begriff kategorisiert sind. Bei dieser Ausführungsform ist, wie in Fig. 5 gezeigt, in der Thesaurus-Speichereinheit 8 ein Thesaurus derart gespeichert, dass die Wörter auf der Basis ihres Konzepts bzw. Begriffs in einer hierarchischen Baumstruktur ausgebildet sind.
  • Bei der Spracherkennungsvorrichtung mit der oben beschriebenen Konfiguration wird die in die Spracheingabeeinheit 1 eingegebene Sprache von einer A/D-Wandlereinheit 2 und weiter von einer Analysierungseinheit 3 (Extraktionseinrichtung) verarbeitet, um dadurch in einen Merkmalparameter (oder Symbol) umgewandelt zu werden, der (das) dann an die Erkennungseinheit 4 ausgegeben wird. In der Erkennungseinheit 4 wird die Spracherkennung in Worteinheiten entsprechend beispielsweise dem KMM durch Verwendung der Ausgabe aus der Analysierungseinheit 3 ausgeführt.
  • Es wird nun eine einfache Erläuterung dieses HMM gegeben. Das HMM ist als ein nicht entscheidender Endlichzustandautomat (nondecisive finite condition automaton) definiert. Dieses Modell ist durch mehrere Zustände und Übergänge zwischen diesen Zuständen anzeigende Pfade konstituiert. Bei einem solchen Modell ist ein Zustandübergangsprozess von jedem jeweiligen Zustand der Markoffsche Prozess. Wenn ein Zustand übergeht, wird ein einzelnes Symbol ausgegeben und ein Lernmodell ausgeführt. Es sei nun angenommen, dass es N Stücke von Modellzuständen gibt und K Sorten von Symbolen aus dem Modellausgegeben werden, und dass bei diesem Lernprozess eine große Zahl Lerndaten verwendet wird, um die Wahrscheinlichkeit (Zustandsübergangswahrscheinlichkeit) "aij" eines Übergangs von einem Zustand "i" zu einem Zustand "j" zu berechnen und um die Wahrscheinlichkeit "bij(yk)" (Symbolausgabewahrscheinlichkeit) zum Ausgeben eines Symbols "yk" zu diesem Zeitpunkt zu berechnen (es sei darauf hingewiesen, dass 0 < i, j < N + 1, 0 < k < k + 1 gilt).
  • Es sei darauf hingewiesen, dass es als den Parameter des HMM eine Wahrscheinlichkeit (Anfangszustandwahrscheinlichkeit) "&pi;i" gibt, wenn es beim Zustand "i" am Beginn ist. Normalerweise wird ein Links-nach-Rechts-Modell derart verwendet, dass ein Zustand nur zu sich selbst oder bei der Spracherkennung nur nach rechts übergeht, so dass der Anfangszustand der am meisten links liegende Zustand des Modells ist (Befindet sich das Modell im am meisten links liegenden Zustand, wird zuerst die Wahrscheinlichkeit gleich 1 gewählt, und die Wahrscheinlichkeit wird 0 gewählt, wenn sich das Modell in anderen Zuständen befindet). Dies hat zur Folge, dass es normalerweise nicht notwendig ist, im Lernprozess die Anfangszustandswahrscheinlichkeit zu berechnen.
  • Andererseits wird während der Spracherkennung eine Berechnung einer Wahrscheinlichkeit (Auftrittswahrscheinlichkeit) derart ausgeführt, dass die von der Analysierungseinheit 3 ausgegebene Symbolserie durch Anwenden der Zustandsübergangswahrscheinlichkeit und Symbolausgabewahrscheinlichkeit, die aus dem Ergebnis des Lernprozesses erhalten werden, überwacht wird (auftritt). Die höhere Auftrittswahrscheinlichkeit wird als das Erkennungsergebnis anerkannt.
  • Bei dieser Ausführungsform wird beispielsweise ein Modell in Phonemeinheiten (Phonemmodell), das durch eine vorhergehende Ausführung des Lernprozesses erhalten wird, in der Erkennungseinheit 4 gespeichert. Die Erkennungseinheit 4 koppelt die Phonemmodelle in Bezug auf die im Wort-Lexikon 6 registrierte phonemische Wortinformation aneinander und erzeugt auf diese Weise ein Modell eines im Wort-Lexikon 6 registrierten Wortes. Dann wird wie oben beschrieben die Auftrittswahrscheinlichkeit durch Anwendung dieses Modells berechnet und ein aus den Wörtern mit hoher Wahrscheinlichkeit konstruiertes Gitter als ein vorgeschlagenes Wortsubjektgitter ausgegeben.
  • Sind alternativ dazu nicht Phonemmodelle sondern Modelle in Worteinheiten (das heißt Wortmodelle) in der Erkennungseinheit 4 gespeichert, ist es möglich, eine kontinuierliche Spracherkennung durch direkte Verwendung dieses Modells auszuführen.
  • Das von der Erkennungseinheit 4 ausgegebene vorgeschlagene Wortsugjektgitter wird der Beispiel-Wiedergewinnungseinheit 5 zugeführt. Beim Empfang des vorgeschlagenen Wortsubjektgitters führt die Beispiel-Wiedergewinnungseinheit 2 bzw. 5 eine Prozessoperation beispielsweise gemäß dem Flussdiagramm nach Fig. 3 aus. Das heißt, zuerst werden beim Schritt S1 die Wörter zum Bilden bzw. Konstituieren des Wortgitters miteinander kombiniert und dann eine aus wenigstens einem Wort gebildete Wortkolumne oder Serie (Satz oder Satzverbindung) gebildet. Es sei darauf hingewiesen, dass sich zu diesem Zeitpunkt die Wörter des vorgeschlagenen Wortsubjektgitters entlang der Zeitbasisrichtung nicht einander überlappen und sie auch in der Zeitsequenz miteinander kombiniert werden.
  • In anderen Worten ist nun angenommen, dass, wie in Fig. 4 gezeigt, von der Erkennungseinheit 4 ein vorgeschlagenes Wortsubjektgitter, dessen Sprachabschnitt von einem Zeitmoment t1 bis zu einem Zeitmoment t5 definiert ist. Es ist zu erkennen, dass die Fig. 4 eine Situation derart darstellt, dass Wörter "a", "b", "c", "d" und "e" als die Wörter erkannt werden können, deren jedes die höchste Auftrittswahrscheinlichkeit in den vom Zeitmoment t1 zum Zeitmoment t2, vom Zeitmoment t2 zum Zeitmoment t4, vom Zeitmoment t4 zum Zeitmoment t5, vom Zeitmoment t1 zum Zeitmoment t3 und vom Zeitmoment t3 zum Zeitmoment t5 definierten Sprachabschnitten aufweisen.
  • In diesem Fall gibt es in der Zeitsequenz vier Sätze von Wortkombinationen, das heißt (a, b, c), (d, e), (a, e) und (d, c) die sich entlang der Zeitbasisrichtung einander nicht überlappen.
  • Beim Schritt S1 wird irgendeine der oben beschriebenen Kombinationen gebildet.
  • Praktisch gesprochen gibt es, da es wie in Fig. 4 gezeigt geschehen kann, dass während der Spracherkennung bei der Phonemsegmentation ein Fehler auftritt, im Wesentlichen keinen Fall, bei dem sich unmittelbar nach dem Sprachabschnitt eines gewissen Worts nicht der Sprachabschnitt eines anderen Worts befindet. Normalerweise ist selbst bei einer wie in Fig. 4 gezeigten kontinuierlichen Erzeugung der Wörter A, B und C aus einer zeitlichen Perspektive der Sprachabschnitt des Wortes A mit dem Sprachabschnitt des Wortes B überlappt und ist aus einer zeitlichen Perspektive der Sprachabschnitt des Wortes B vom Sprachabschnitt des Wortes C getrennt. Dies hat zur Folge, dass beim Schritt S1, obgleich sich die Wortkombinationen entlang der Zeitbasisrichtung wie unter der idealen Bedingung nicht überlappen, ein kleiner Überlapp in den Sprachabschnitten zugelassen ist, es sei denn, dass klar erkannt werden kann, dass verschiedene Wörter im gleichen Zeitmoment erzeugt werden und dann die Wortkombinationen gebildet werden.
  • Nach Bildung der Wortkombinationen geht die Verarbeitungsoperation zum Schritt S2 vor. Bei diesem Schritt S2 wird eine Berechnung zwischen einem Ähnlichkeitsgrad dieser Wortkombination und einem Ähnlichkeitsgrad des in der Beispiel- Datenbank 7 registrierten Beispiels durchgeführt. Gemäß dieser bevorzugten Ausführungsform wird als das Verfahren zur Berechnung dieses Ähnlichkeitsgrades ein Verfahren angewendet, das beispielsweise aus der am 6. Dezember 1991 offengelegten Japanischen Patentanmeldungsoffenlegung Nr. 3-276367 hervorgeht und in welcher der Thesaurus aus Wörtern in einer hierarchischen Baumstruktur auf der Basis der Ähnlichkeit (Konzept bzw. Begriff) der Wortbedeutungen gemacht ist. Das heißt in dem Fall, dass eine solche konzeptionelle bzw. begriffliche Hierarchie mit einer k-ten Hierarchie korrespondiert, bei der sowohl ein gewisses Wort zum Konstituieren einer Kombination von Wörtern als auch ein Wort zum Konstituieren des mit diesem Wort korrespondierenden Beispiels zur gleichen Kategorie gehören, sei nun angenommen, dass ein eine konzeptionelle bzw. begriffliche Ähnlichkeit zwischen diesen Wörtern anzeigender Wortähnlichkeitsgrad gleich (k - 1)/n ist (das Symbol "n" ist die hierarchische Zahl des Thesaurus), werden Wortähnlichkeitsgrade, was die jeweiligen Wörter zur Bildung der Wortkombinationen betrifft, und die jeweiligen Wörter zur Konstruktion des Beispiels berechnet. Dann werden die berechneten Resultate als die Ähnlichkeitsgrade zwischen den Wortkombinationen und dem Beispiel verwendet.
  • Konkret gesprochen werden unter der nunmehrigen Annahme, dass ein wie in Fig. 6 dargestellter Thesaurus in der Thesaurus-Speichereinheit 8 gespeichert ist, Ähnlichkeitsgrade wie folgt berechnet:
  • Es sei darauf hingewiesen, dass in Fig. 6 ein von einem rechteckigen Kästchen umgebenes Element ein Konzept bzw. einen Begriff zeigt, während ein von einem elliptischen Kästchen umgebenes Element ein Wort bezeichnet. In dieser Zeichnung ist das Konzept bzw. der Begriff, das bzw. der zur obersten Hierarchie (vierte Hierarchie) "Hendou (change = ändern)", "Koudou (action = Aktion)", "Jinbutsu (person = Person)" und "Shakai (society = Gesellschaft)" gehört, zusammen mit anderen Konzepten bzw.. Begriffen klassifiziert ist. Beispielsweise ist das Konzept bzw. der Begriff "Jinbutsu (person = Person, character = Charakter, Zeichen)" unter diesen obersten Konzepten bzw. Begriffen zusammen mit den darin enthaltenen Konzepten bzw. Begriffen "Ninshou (person = Person)" und "Shinzoku (relatives = Verwandte)" sowie mit anderen klassifiziert. Außerdem ist das Konzept bzw. der Begriff "Ninshou (person = Person)" mit "Jishou (the first person = die erste Person)" und Tashou (the second or third person = die zweite oder dritte Person)" und anderen klassifiziert. Zum Konzept bzw. Begriff "Tashou (the second or third person = die zweite oder dritte Person)" unter diesen sind die Wörter "Kare (he = er)" und "Kanojo (she = sie)" dazu kategorisiert, ebenso wie andere dazugehörige.
  • In der Fig. 6 ist die unterste konzeptionelle bzw. begriffliche Hierarchie als eine erste Hierarchie definiert, die von unten zweite konzeptionelle bzw. begriffliche Hierarchie ist als eine zweite Hierarchie definiert, die von unten dritte konzeptionelle bzw. begriffliche Hierarchie ist als eine dritte Hierarchie definiert und die oberste konzeptionelle bzw. begriffliche Hierarchie ist als eine vierte Hierarchie definiert. Da der Thesaurus nach Fig. 6 aus den vier hierarchischen Ebenen bzw. Schichten konstruiert ist, sind die Wortähnlichkeitsgrade der Wörter, deren Konzepte bzw. Begriffe miteinander koinzidieren, durch Zurückbringen des Thesaurus zurück zur ersten Hierarchie gleich 0 (= (1 - 1)/4). Auch ist der Ähnlichkeitsgrad der Wörter, deren Konzepte bzw. Begriffe durch Zurückbringen des Thesaurus zur zweiten Hierarchie miteinander koinzident sind, gleich 1/4 (= (2 - 1)/4).
  • Ähnlich ist der Wortähnlichkeitsgrad der Wörter, deren Konzepte bzw. Begriffe durch Zurückbringen des Thesaurus zur dritten Hierarchie oder zur vierten Hierarchie miteinender koinzident sind, gleich 1/2 bzw. 3/4.
  • Es sei nun beispielsweise angenommen, dass im Wort- Lexikon 6 nur unabhängige Wörter registriert sind. Dies hat zur Folge, dass in der Erkennungseinheit 4 eine kontinuierliche Spracherkennung nur an unabhängigen Wörtern ausgeführt wird. Dies hat zur Folge, dass beim Schritt S1 ist die Wörter "Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)" und "Omomuku (go = gehen, leave = weggehen)" kombiniert werden, um die Eingabewortserie ("Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)" zu bilden. Auch werden beispielsweise bei Berücksichtigung von "Watashi wa Gakko ni Iku" die Wortähnlichkeitsgrade zwischen den jeweiligen Wörtern zum Konstruieren der Eingabewortserie und der mit "Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)" korrespondierenden Wörter "Watashi (I = ich)", "Gakko (school = Schule)", "Iku (go to = gehen zu)", die das Beispiel "Watashi wa Gakko ni Iku (I go to school = ich gehe zur Schule)" bilden, unten wie folgt gegeben. Nun wird ein Wortähnlichkeitsgrad zwischen Wörtern X und Y durch d(X, Y) ausgedrückt.
  • In anderen Worten wird, da im Hinblick auf das Konzept bzw. den Begriff "Ninshou (person = Person)" das Konzept bzw. der Begriff des Wortes "Kare (he = er)" durch Zurückbringen des Thesaurus zur zweiten Hierarchie koinzident mit dem Konzept bzw. Begriff des Wortes "Watashi (I = Ich)" gemacht wird, der Wortähnlichkeitsgrad d("Kare (he = er)", "Watashi (I = ich)") gleich 1/4. Auch wird, da im Hinblick auf das Konzept "Shakai (society = Gesellschaft)" das Konzept bzw. der Begriff des Wortes "Ninchi (one'e new post = Eines neue Stelle bzw. Post)" durch Zurückbringen des Thesaurus zur dritten Hierarchie koinzident mit dem Konzept bzw. Begriff des Wortes "Gakkou (school = Schule)", der Wörtähnlichkeitsgrad d("Ninchi (one'e new post = Eines neue Stelle bzw. Post)" und "Gakkou (school = Schule)") gleich 1/2. Außerdem wird, da im Hinblick auf das Konzept "Ouhuku (go to and back = gehen zu und zurück)" das Konzept bzw. der Begriff des Wortes "Omomuku (go = gehen, leave = weggehen)" durch Zurückbringen des Thesaurus zurück zur ersten Hierarchie mit dem Konzept bzw. Begriff des Wortes "Tku (go to = gehen zu)" koinzident ist, der Wortähnlichkeitsgrad d("Omomuku (go = gehen, leave = weggehen)", "Iku (go to = gehen zu)") gleich 0.
  • Werden die oben beschriebenen Wortähnlichkeitsgrade akkumuliert, wird der resultierende akkumulierte Wert gleich 3/4 ( = 1/4 + 1/2 + 0). Dieser Wert wird als der Ähnlichkeitsgrad zwischen der Eingabewortserie ("Kare (he = er))", "Ninchi (one'e new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)") und dem Beispiel "Watashi wa Gakkou ni Iku (I go to school = ich gehe zur Schule)" anerkannt.
  • Die oben beschriebenen Berechnungen des Ähnlichkeitsgrades in Bezug auf die Eingabewortserie ("Kate (he = er)", "Ninchi (one'e new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)") wird für alle in der Beispiel-Datenbank 7 registrierten Beispiele ausgeführt.
  • Nach Fig. 3 wiederum wird nach Ausführung der Berechnung des Ähnlichkeitsgrades beim Schritt S2 die Prozessoperation zum Schritt S3 vorgebracht. Beim Schritt S3 wird eine Entscheidung getroffen, ob die beim Schritt S2 definierten Ähnlichkeitsgradberechnungen in Bezug auf alle vom vorgeschlagenen Wortsubjektgitter der Erkennungseinheit 4 erhaltenen Wortkombinationen ausgeführt worden sind oder nicht. Wird beim Schritt S3 so entschieden, dass die Ähnlichkeitsqradberechnungen in Bezug auf alle vom vorgeschlagenen Wortsubjektgitter erhaltenen Wortkombinationen noch nicht ausgeführt sind, wird die Prozessoperation zum vorherigen Schritt S1 zurückgebracht, bei dem eine Wortkombination (Eingabewortserie) neu gebildet wird und dann eine ähnliche Prozessoperation wiederholt wird.
  • In anderen Worten werden beim Schritt S1 bei der Bildung einer neuen Eingabewortserie wie beispielsweise ("Kanojo (she = sie)", "Haha (mother = Mutter)", "Niteiru (look like = aussehen wie)") ähnlich wie bei dem oben beschriebenen Fall des Schrittes S2 ein Wortähnlichkeitsgrad d("Kanojo (she = sie)", "Watashi (I = ich)"), ein anderer Wortähnlichkeitsgrad d("Haha (mother = Mutter)", "Gakko (school = Schule)") und ein anderer Wortähnlichkeitsgrad d("Niru (look like = aussehen wie)", "Iku (go to = gehen zu)") zu 1/4, 3/4 bzw. 3/4 berechnet. Diese Wortähnlichkeitsgrade d werden zwischen den Wörtern "Kanojo (she = sie)", "Haha (mother = Mutter)" zum Konstituieren dieser Eingabewortserie (es sei darauf hingewiesen, dass das Wort "Niteiru" als das Wort "Niru" verstanden wird) und die mit "Kanojo (she = sie)", "Haha (mother = Mutter)", "Niteiru (look like = aussehen wie)" korrespondierenden Wörtern "Watashi (I = ich)", "Gakko (school = Schule)", "Iku (go to = gehen zu)" zum Konstruieren des oben erwähnten Beispiels "Watashi wa Gakko ni Iku (I go to school = ich gehe zur Schule)" verknüpft. Dies hat zur Folge, dass ein Ähnlichkeitsgrad zwischen der Eingabewortserie ("Kanojo (she = sie)", "Haha (mother = Mutter)", "Niteiru (look like = aussehen wie)") und dem Beispiel "Watashi wa Gakko ni Iku (I go to school = ich gehe zur Schule)") zu 7/4 ( = 1/4 + 3/4 + 3/4) berechnet wird.
  • Wird andererseits beim Schritt S3 entschieden, dass die Ähnlichkeitsgradberechnungen an allen vom vorgeschlagenen Wortsubjektgitter erhaltenen Wortkombinationen ausgeführt worden ist, wird die Prozessoperation zum Schritt S4 vorgebracht. Bei diesem Schritt S4 werden ein Beispiel, dessen Ähnlichkeitsgrad der höchste ist, und die Eingabewortserie gewählt, und dann wird die Prozessoperation zu einem Schritt S5 vorgebracht. Beim Schritt S5 werden von den Wörtern, welche die beim Schritt S4 gewählten Beispiele bilden, die damit korrespondierenden Wörter, welche die beim Schritt S4 gewählte Eingabewortserie bilden, durch die Wörter ersetzt, die diese Eingabewortserie bilden. Die ersetzten Wörter werden als ein Satz-/Spracherkennungsresultat ausgegeben und auf diese Weise wird die Prozessoperation vollendet.
  • Zur einfachen Erläuterung heißt dies, dass nur "Watashi wa Gakko ni Iku (I go to school = ich gehe zur Schule)" das in der Beispiel-Datenbank 7 gespeicherte Beispiel ist und nur zwei Sätze Eingangswortserien ("Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)") und ("Kanojo (he = er)", "Haha (mother = Mutter)", "Niteiru (look like = aussehen wie)") gebildet werden. Wie oben beschrieben wird der Ähnlichkeitsgrad zwischen der Eingangswortserie ("Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)") oder ("Kanojo (Sie)", Haha (Mutter)", Niteiru (aussehen wie)") und dem Beispiel "Watashi wa Gäkkou ni Iku (I go to school = ich gehe zur Schule)" gleich 3/4 oder 7/4. Bei dieser Ausführungsform impliziert der hohe Ähnlichkeitsgrad den kleinen Wert des Ahnlichkeitsgrades (dies deshalb, weil in Fig. 6 die niedrigste konzeptionelle bzw. begriffliche Hierarchie als die erste Hierarchie definiert ist, dann die zweite Hierarchie kommt usw., deren alle den Thesaurus bilden. Wird umgekehrt die oberste konzeptionelle bzw. begriffliche Hierarchie als die erste Hierarchie definiert und ist die nächstniedrigere die zweite Hierarchie usw., deren alle den Thesaurus bilden, impliziert der hohe Ähnlichkeitsgrad einen großen Wert des Ähnlichkeitsgrades). Dies hat zur Folge, dass beim Schritt S4 die Eingabewortserie ("Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)") und das Beispiel "Watashi wa Gakkou ni Iku (I go to school = ich gehe zur Schule)" gewählt werden.
  • Dann werden beim Schritt S5 von den Wörtern zur Konstruktion des Beispiels "Watashi wa Gakkou ni Iku (ich gehe zur Schule)" die mit den die Eingabewortserie "Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (gehen, verlassen)") bildenden Wörtern korrespondierenden Wörter durch die diese Eingabewortserie "Kare (Er)", "Ninchi (eines neuen Post)", "Omomuku (gehen, verlassen)" bildende Wörter ersetzt. Das heißt "Watashi (I = ich)", "Gakkou (school = Schule)", "Iku (go to = gehen zu)" korrespondiert mit "Kare (he = er)", "Ninchi (one's new post = Eines neue Stelle bzw. Post)", "Omomuku (go = gehen, leave = weggehen)". Dann wird das Ersetzungsergebnis "Kare wa Nincho ni Omomuku (He leaves for his new post = er geht zu seiner neuen Stelle bzw. Post weg)" als das Satz- /Spracherkennungsresultat ausgegeben.
  • Wie vorstehend erläutert werden gemäß dieser Spracherkennungsvorrichtung bei Ausgabe mehrerer Eingabewortserien als die vorgeschlagenen Spracherkennungsresultatkandidaten diese vorgeschlagenen Kandidaten gemäß dem Beispiel klassifiziert. Dann kann die Eingabewortserie, die in Bezug auf das Beispiel den höchsten Ähnlichkeitsgrad aufweist, als das Spracherkennungsresultat erhalten werden. Dies hat zur Folge, dass es zum Klassifizieren mehrerer vorgeschlagener Spracherkennungsresultatkandidaten (das heißt zum Wählen eines einzelnen Spracherkennungsresultats aus mehreren vorgeschlagenen Spracherkennungsresultaten) nicht notwendig ist, die durch Sprachspezialisten beschriebenen grammatischen Regeln zu verwenden. Da auch die Beispiele leicht von Beschreibungen aus Zeitungen und dgl. gebildet werden können, ist es möglich, die Spracherkennungsvorrichtung leicht zu entwickeln (herzustellen).
  • Außerdem wird in dem Fall, dass eine Eingabesprache, für die kein korrektes Spracherkennungsresultat erhalten werden kann, eingegeben wird, diese Sprache nur als das Beispiel zur Beispiel-Datenbank 7 hinzugefügt wird, so dass Erkennungsleistungspegel leicht verbessert werden können. In diesem Fall besteht, da die Beispiele, deren Ähnlichkeitsgrade beim Schritt S2 berechnet werden sollen, nur erhöht sind, kein Risiko, dass nach Hinzufügung dieser Beispiele die Sprache, die vor der Hinzufügung dieser Beispiele korrekt erkannt werden kann, nicht korrekt erkannt wird.
  • Auch können in Kombination mit den Beispielen Ausdrücke ihrer Bedeutungen in der Beispiel-Datenbank 7 registriert werden, so dass die Bedeutungen einer eingegebenen Sprache betreffenden Details leicht verstanden werden können.
  • Daraufhin zeigt Fig. 7 schematisch eine Konfiguration einer Spracherkennungsvorrichtung gemäß einer zweiten Ausführungsform, bei der die vorliegende Erfindung angewendet ist. Es sei darauf hingewiesen, dass die in Fig. 2 gezeigten gleichen Bezugszeichen wie die zur Bezeichnung der gleichen oder ähnlichen Elemente dieser zweiten Ausführungsform verwendet sind. Das heißt, diese Spracherkennungsvorrichtung verwendet eine neue Konfiguration derart, dass anstelle der Erkennungseinheit 4 eine Erkennungseinheit 11 (Erkennungseinrichtung) verwendet ist und zusätzlich zu den verbleibenden Anordnungen der Erkennungsvorrichtung nach Fig. 2 eine Sprachsystemmodell-Speichereinheit 12 (Sprachsystemmodell- Speichereinrichtung) neu angewendet ist.
  • Die Sprachsystemmodell-Speichereinheit 12 speichert beispielsweise ein statistisches Sprachsystemmodell wie beispielsweise ein Bigramm oder einer Trigramm. Bei dieser Ausführungsform impliziert ein Sprachsystemmodell, dass ein Auftreten einer Wahrscheinlichkeit auf der Basis einer großen Satzdatenmenge wie beispielsweise Zeitungs- und Magazininformation berechnet wird, für die berechnet wird, wievielmal es passiert, dass Ketten in einer gewissen Einheit auftreten. In anderen Worten korrespondiert ein Sprachsystemmodell mit einer Tabelle zur Darstellung des Auftretens einer Wahrscheinlichkeit, dass in Kombination mit Kombinationen von Wörtern ein gewisses Wort mit einem anderen gewissen Wort verbunden werden kann. Eine statistische Einheit ist ein Phonem, ein Wort, ein Sprachteil usw. Es gibt statistische Verfahren, das heißt die Wahrscheinlichkeit, dass Einheiten individuell auftreten (Unigramm), die Wahrscheinlichkeit, dass eine spezifische Einheit zweikettenweise auftritt (Bigramm) und die Wahrscheinlichkeit, dass eine spezifische Einheit dreikettenweise auftritt (Trigramm).
  • In der Fig. 8 ist ein Beispiel eines Worteinheitbigramms dargestellt.
  • Ähnlich wie beispielsweise die Erkennungseinheit 4 führt die Erkennungseinheit 11 einen Spracherkennungsprozess derart aus, dass eine lose Sprachsystembeschränkung auf der Basis des in der Sprachsystemmodell-Speichereinheit 12 gespeicherten Sprachsystemmodells gemacht wird und mittels beispielsweise einer den Viterbi-Algorithmus verwendenden Sprachsuche unter dieser losen Sprachsystembeschränkung eine Verringerungsverarbeitungsoperation richtig ausgeführt wird. Dann werden mehrere vorgeschlagene Satzkandidaten als eine Anzahl verbleibender Spracherkennungsresultate erhalten. Die jeweils vorgeschlagenen Satzkandidaten werden beispielsweise durch Beseitigen eines Partikels in aus nur unabhängigen Wörtern bestehende Wortserien umgewandelt. Die umgewandelten Wortserien werden an die Beispiel-Wiedergewinnungseinheit 5 ausgegeben.
  • In die Beispiel-Wiedergewinnungseinheit 5 werden von der Erkennungseinheit 11 mehrere Wortserien als Eingabewortserien eingegeben und ihre Ähnlichkeitsgrade in Bezug auf die Beispiele berechnet.
  • Als eine 0Konsquenz ist es, da die auf der dem Sprachsystemmodell basierende Restriktion bzw. Beschränkung lose ist, denkbar, dass die von der Erkennungseinheit 11 ausgegebenen vorgeschlagenen Satzsubjekte nicht nur grammatisch korrekte und bedeutungsvolle Satzkandidaten enthalten, sondern auch fehlerhafte Satzkandidaten. Da jedoch solche fehlerhaften Satzkandidaten in der Beispiel-Wiedergewinnungseinheit 5 niedrigere Ähnlichkeitsgrade aufweisen, werden diese fehlerhaften Satzkandidaten nicht als finale Spracherkennungsresultate behandelt. In diesem Fall wird, da die Eingabewortserien in der Erkennungseinheit 11 durch die Sprachsystemmodelle eingeschränkt werden, die Zahl von Eingabewortserien, deren Erkennungsgrade von der Beispiel-Wiedergewinnungseinheit 5 berechnet werden, kleiner als die Zahl in Fig. 2. Dies hat zur Folge, dass der Satzerkennungsprozess mit hoher Geschwindigkeit ausgeführt werden kann.
  • Es sei darauf hingewiesen, das die Sprachsystemrestriktionen bzw. -beschränkungen nicht nur auf der Basis der Sprachsystemmodelle gemacht werden können, sondern auch beispielsweise durch Anwenden des Netzwerks mit endlich vielen Zuständen.
  • Fig. 9 zeigt schematisch eine Konfiguration einer Spracherkennungsvorrichtung gemäß einer dritten Ausführungsform, bei der die vorliegende Erfindung angewendet ist. Es sei darauf hingewiesen, dass die in Fig. 2 gezeigten gleichen Bezugszeichen als die zum Bezeichnen der gleichen oder ähnlichen Elemente dieser dritten Ausführungsform verwendet sind. Das heißt, diese Spracherkennungsvorrichtung verwendet zusätzlich zu der verbleibenden Konfiguration der Erkennungsvorrichtung nach Fig. 2 eine neue Konfiguration derart, dass eine Erkennungsbeispiel-Wiedergewinnungseinheit 21 anstelle der Erkennungseinheit 4 und die Beispiel-Wiedergewinnungseinheit 5 und außerdem ein expandiertes Wort-Lexikon 22 anstelle des Wort-Lexikons 6 und der Thesaurus-Speichereinheit 8 verwendet sind.
  • Die Erkennungs/Beispielwiedergewinnungs-Einheit 21 ist durch Zusammensetzen der Erkennungseinheit 4 mit der Beispiel-Wiedergewinnungseinheit 5 gebildet und derart konstruiert, dass der kontinuierliche Spracherkennungsprozess und die Ähnlichkeitsgradberechnung auf parallele Weise ausgeführt werden können. Auch ist das expandierte Wort-Lexikon 22 durch Zusammensetzen des in der Thesaurus-Speichereinheit 8 gespeicherten Thesaurus mit dem Wort-Lexikon 6, in welchem, wie in Fig. 6 gezeigt, Phoneminformation, Sprachteile und andere notwendige Information in Korrespondenz mit den Wörtern des Thesaurus gespeichert sind, zusammengesetzt.
  • In der Spracherkennungsvorrichtung mit der oben beschriebenen Konfiguration wird ähnlich zur Erkennungseinheit eine Spracherkennung in der Erkennungs/Beispielwiedergewinnungs-Einheit 21 ausgeführt, wobei auf das expandierte Wort- Lexikon 22 bezug genommen wird. Ist dieses expandierte Wort- Lexikon 22 wiedergewonnen, werden aus diesem nicht nur die zur Erkennung der Sprache erforderliche Information (beispielsweise die Phoneminformation von Wörtern), sondern auch zur Berechnung der Ähnlichkeitsgrade erforderliche andere Information ausgelesen.
  • Dies hat zur Folge, dass es bei der nachfolgenden Berechnung des Ähnlichkeitsgrads die Spracherkennungsprozessoperation mit hoher Geschwindigkeit ausgeführt werden kann, da es nicht länger notwendig ist, sich auf das expandierte Wort-Lexikon 22 zu beziehen. Außerdem kann in diesem Fall die Speicherkapazität dieses expandierten Wort-Lexikons 22 im Vergleich mit den Speicherkapazitäten, die erforderlich sind, wenn entweder das Wort-Lexikon 6 oder die Thesaurus-Speichereinheit 8 unabhängig realisiert sind, reduziert werden.
  • Als nächstes zeigt Fig. 10 eine Konfiguration einer Sprachübersetzungsvorrichtung gemäß einer Ausführungsform, bei der die vorliegende Erfindung angewendet ist. Diese Sprachübersetzungsvorrichtung weist eine Spracherkennungsvorrichtung 41, eine Übersetzungseinheit 42 und ein Original/Übersetzt-Wort-Lexikon 43 auf. Die Spracherkennungsvorrichtung 41 ist auf eine zu der in Fig. 2 gezeigten Spracherkennungsvorrichtung ähnliche Weise konfiguriert. Die Übersetzungseinheit 42 (Übersetzungseinrichtung) kann ein von der Spracherkennungsvorrichtung 41 ausgegebenes Sprachsystem in ein anderes Sprachsystem übersetzen, wobei auf das Original/Übersetzt-Wort-Lexikon 43 bezug genommen wird. Im Original/Übersetzt-Wort-Lexikon 43 sind beispielsweise ein japanisches Wort und ein englisches Wort (oder eine englische Wortserie), welches das übersetzte Wort dieses japanischen Worts ist, gespeichert.
  • Es ist zu erkennen, dass die Speicherinhalte des Wort- Lexikons 6, der Beispiel-Datenbank 7 und der Thesaurus- Speichereinheit 8, welche die Spracherkennungsvorrichtung 41 bilden, beispielsweise zu Japanisch gehören. Jedoch speichert die Beispiel-Datenbank 7 die japanischen Beispiele und auch die ins englische übersetzten Beispiele in Relation zu ihren korrespondierenden japanischen Beispielen.
  • Die Operationen dieser Sprachübersetzungsvorrichtung werden nun unter Bezugnahme auf die Fig. 11A bis 11E erläutert. Wird in die Sprachübersetzungsvorrichtung japanische Sprache eingegeben, wird von der Spracherkennungsvorrichtung 41 eine ähnliche Spracherkennungsprozessoperation wie in Fig. 2 ausgeführt. Dies hat zur Folge, dass in der Beispiel- Wiedergewinnungseinheit 5 sowohl eine Eingabewortreihe als auch ein Beispiel erhalten werden, deren Ähnlichkeitsgrade die höchsten sind. Dann werden die resultierende Eingabewortserie und das Beispiel an die Übersetzungseinheit 42 ausgegeben.
  • Es sei nun angenommen, dass eine Eingabewortserie, deren Ähnlichkeitsgrad der höchste Wert ist, und ein Beispiel dazu ("Watashi" "Gakkou", "Iku") bzw. "Watashi wa Tera ni Iku" sind, werden die Eingabewortserien ("Watashi", "Gakkou", "Iku") und "Watashi wa Tera ni Iku" an die Übersetzungseinheit 42 in Kombination mit einem mit dem zuerst erwähnten Beispiel korrespondierenden und in englisch geschriebenen Beispiel ausgegeben. Es sei darauf hingewiesen, dass, wie in Fig. 11A dargestellt, das japanische Beispiel "Watashi wa Tera ni Iku" und das englische Beispiel "I go to the Temple (ich gehe zum Tempel) " derart definiert sind, dass die strukturellen Wörter miteinander korrespondieren, das heißt ("Watashi" = "I (Ich)"), ("Tera = "Temple (Tempel)"), ("Iku" = "go (gehe)") gilt.
  • In der Übersetzungseinheit 42 werden von den Wörtern zum Konstruieren des japanischen Beispiels "Watashi wa Tera ni Iku" die mit der Eingabewortserie korrespondierenden Wörter "Watashi", "Tera", "Iku" zum Konstruieren der Eingabewortserie wie in Fig. 11B gezeigt durch die Wörter "Watashi", "Gakkou", "Iku" ersetzt. Als Folge wird das japanische Beispiel "Watashi wa Tera ni Iku" in das japanische Beispiel "Watashi wa Gakkou ni Iku" umgewandelt. Demgemäss wird dieses japanische Beispiel "Watashi wa Gakkou ni Iku" wie in Figur le dargestellt in Korrespondenz zum englischen Beispiel "I go to the Temple (ich gehe zum Tempel)" gebracht, das mit dem japanischen Beispiel "Watashi wa Tera ni Iku" korrespondiert.
  • Danach wandelt die Übersetzungseinheit 42 die Wörter zum Konstituieren der Eingabewortserie in englische Wörter oder eine englische Wortserie um, wobei auf das Original/Übersetzt-Wort-Lexikon 42 Bezug genommen wird. In anderen Worten werden in diesem Fall die Wörter "Watashi", "Gakkou", "Iku", welche die Eingangswortserie bilden, wie in Fig. 11D dargestellt in die Wörter "I (Ich)", "School (Schule)" bzw. "go to (gehe zu)" übersetzt.
  • Wie in Fig. 1115 gezeigt ersetzt dann die Übersetzungseinheit 42 das mit "Watashi" korrespondierende "I (Ich)", das mit "the temple (der Tempel)" korrespondierende "Gakkou", das mit "Iku" korrespondierende "go to (gehe zu)" (siehe Fig. 11C) durch das mit "Watashi" korrespondierende "I (Ich)", das mit "Gakkou" korrespondierende "school (Schule)" und das mit "Iku" korrespondierende "go to (gehe zu)" (siehe Fig. 11D). Als Resultat wird der erhaltene englische Satz "I go to School (ich gehe zur Schule)" ausgegeben. Dieses Übersetzungsergebnis wird auf einer Anzeige oder dgl. angezeigt oder in eine Sprachsynthetisierungsvorrichtung eingegeben, um als ein synthetisierter Ton ausgegeben zu werden.
  • Wird bei der konventionellen Sprachübersetzungsvorrichtung ein einzelner Satz als Spracherkennungsresultat ausgegeben, wird dieser ausgegebene Satz mittels einer Maschinenübersetzung übersetzt. Ein Hauptverfahren einer konventionellen Maschinenübersetzung wird wie folgt ausgeführt. Zuerst wird ein eingegebener Satz in ein Zwischensprachsystem umgewandelt und dann die Bedeutung des eingegebenen Satzes auf der Basis dieses Zwischensprachsysteras verstanden. Danach wird er in ein objektives Sprachsystem umgewandelt. Neuerdings ist jedoch ein Verfahren zur Durchführung des Übersetzungsprozesses auf der Basis des folgenden Beispiels als mögliche Anwendung untersucht worden. In anderen Worten wird gemäß diesem Verfahren ein dem eingegebenen Text ähnliches Beispiel wiedergewonnen. Die Wörter, die das resultierende Beispiel bilden, werden auf der Basis des Original/Übersetzt- Wort-Lexikons der zwei Sprachsysteme (das heißt des Sprachsystems des eingegebenen Textes und des übersetzten Sprachsystems) durch die Wörter des objektiven Sprachsystems erzeugt. Dies hat zur Folge, dass das übersetzte Resultat erhalten werden kann. Gemäß diesem konventionellen Verfahren besteht keine Notwendigkeit dafür, den eingegebenen Satz in ein Zwischensprachsystem umzuwandeln.
  • Da im Gegensatz dazu die Sprachübersetzungsvorrichtung nach Fig. 10 die Verarbeitungsoperation auf der Basis eines während der Spracherkennung erzeugten Beispiels ausführt, kann das bei dieser Spracherkennung verwendete Beispiel bei der Übersetzung direkt verwendet werden. Dies hat zur Folge, dass gemäß der in Fig. 10 gezeigten Sprachübersetzungsvorrichtung der Übersetzungsprozess im Vergleich zu einer Sprachübersetzungsvorrichtung derart, dass die Spracherkennungsvorrichtung und die Maschinenübersetzungsvorrichtung separat ausgebildet und miteinander verbunden sind, vereinfacht und auch mit hoher Geschwindigkeit ausgeführt werden kann.
  • Wenn auch die verschiedenen bevorzugten Ausführungsformen der vorliegenden Erfindung erläutert worden sind, so ist die vorliegende Erfindung nicht auf die oben erläuterten Ausführungsformen beschränkt, sondern kann beispielsweise auf eine Vorrichtung angewendet werden, die eingegebene Sprache verarbeiten kann.
  • Bei der oben beschriebenen Ausführungsform werden die Ähnlichkeitsgrade der Wörter direkt akkumuliert, und das akkumulierte Resultat wird als der Ähnlichkeitsgrad verwendet. Alternativ dazu kann der gewünschte Ähnlichkeitsgrad beispielsweise derart erhalten werden, dass der Wortähnlichkeitsgrad in Korrespondenz mit der Struktur des Thesaurus gewichtet und der gewichtete Wortähnlichkeitsgrad akkumuliert wird.
  • Wenn der Thesaurus so verwendet wird, dass bei der oben beschriebenen Ausführungsform der Ähnlichkeitsgrad berechnet wird, so ist das Verfahren zur Berechnung des Ähnlichkeitsgrades nicht darauf beschränkt.
  • Außerdem ist bei der Sprachübersetzungsvorrichtung nach Fig. 10 die Sprachübersetzung vom Japanischen ins Englische ausgeführt worden. Alternativ dazu kann beispielsweise jedes vom Japanischen verschiedene Sprachsystem ins Englische übersetzt werden oder kann Japanisch in jedes beliebige vom Englischen verschiedene Sprachsystem übersetzt werden, indem die registrierten Inhalte des Wort-Lexikons, der Beispiel-Datenbank 7, der Thesaurus-Speichereinheit 8 und des Original/Übersetzt-Wort-Lexikons 43 geändert werden.
  • Auch ist die in Fig. 10 gezeigte Sprachübersetzungsvorrichtung mit einer Spracherkennungsvorrichtung ausgerüstet, die ähnlich der in Fig. 2 gezeigten Spracherkennungsvorrichtung ausgebildet ist. Alternativ dazu kann diese Spracherkennungsvorrichtung 41 ähnlich wie die in Fig. 7 und Fig. 9 gezeigten Spracherkennungsvorrichtungen konfiguriert sein.
  • Gemäß der Spracherkennungsvorrichtung und dem Spracherkennungsverfahren nach der vorliegenden Erfindung wird der Ähnlichkeitsgrad zwischen jedem der mehreren vorgeschlagenen Erkennungsresultate und jedem der Beispiele berechnet, und dann kann das gewünschte Spracherkennungsresultat auf der Basis dieses berechneten Ähnlichkeitsgrades erhalten werden. Dies hat zur Folge, dass mehrere vorgeschlagene Erkennungsresultatkandidaten ohne Verwendung von grammatischen Regeln kategorisiert werden können, so dass das gewünschte Erkennungsresultat erhalten werden kann.
  • Auch wird gemäß der Sprachübersetzungsvorrichtung der vorliegenden Erfindung eine Berechnung zwischen jedem der mehreren vorgeschlagenen Erkennungsresultatkandidaten und jedem der Beispiele durchgeführt, und dann wird das Spracherkennungsresultat auf der Basis dieses berechneten Ähnlichkeitsgrades erhalten. Dann wird das Sprachsystem dieses Spracherkennungsresultats in ein anderes Sprachsystem übersetzt. Dies hat zur Folge, dass als Stimme eingegebene Sprache leicht übersetzt werden kann.

Claims (9)

1. Spracherkennungsvorrichtung zur Durchführung von Satz- /Spracherkennung, mit:
einer Extraktionseinrichtung (3) zum akustischen Analysieren von in sie eingegebener Sprache, um einen Merkmalparameter der eingegebenen Sprache zu extrahieren,
einer Erkennungseinrichtung (4) zur Erkennung der eingegebenen Sprache auf der Basis des von der Extraktionseinrichtung ausgegebenen Merkmalparameters, um dadurch mehrere vorgeschlagene Erkennungsresultatkandidaten zu gewinnen,
einer Beispiel-Speichereinrichtung (7) zum Speichern mehrerer Beispiele,
dadurch gekennzeichnet, dass
die Erkennungseinrichtung (4) die eingegebene Sprache in Worteinheiten erkennt,
Wörter in einer Wortbegriff-Speichereinrichtung (8) durch Ordnen der Wörter nach Kategorien gespeichert sind, wobei
der vorgeschlagene Erkennungsresultatkandidat durch Kombinieren von mehr als nur einem Wort mit jedem anderen erzeugt ist, und
eine Berechnungseinrichtung (5) einen für eine begriffliche Ähnlichkeitscharakteristik zwischen jedem der Wörter zum Konstituieren des vorgeschlagenen Erkennungsresultatkandidaten und jedem der Wörter zum Konstituieren der Beispiele in Bezug auf die Wortkonzept-Speichereinrichtung (8) anzeigenden Wortähnlichkeitsgrad berechnet und
- eine den höchsten Wortähnlichkeitsgrad aufweisende Kombination von Wörtern zum Konstituieren eines Beispiels und Wörtern zum Konstituieren des vorgeschlagenen Erkennungsresultats wählt und
- Wörter zum Konstituieren des gewählten Beispiels durch die den vorgeschlagenen Erkennungskandidaten konstituierenden gewählten Wörter ersetzt und
- das Ersetzungsresultat als das Satz-/Sprachresultat ausgibt.
2. Spracherkennungsvorrichtung nach Anspruch 1, wobei:
in der Wortbegriff-Speichereinrichtung (8) die Wörter in einer hierarchischen Baumstruktur auf der Basis ihres Begriffs gespeichert sind.
3. Spracherkennungsvorrichtung nach Anspruch 1, mit:
einer Sprachsystemmodell-Speichereinrichtung (12) zum Speichern eines gemäß der Wahrscheinlichkeit von Verbindungen zwischen mehreren Wörtern klassifizierten Sprachsystemmodells, wobei
die Erkennungseinrichtung (4) die Spracherkennung unter Restriktionen des in der Sprachsystemmodell- Speichereinrichtung (12) gespeicherten Sprachsystemmodells ausführt, um mehrere vorgeschlagene Erkennungsergebniskandidaten zu gewinnen.
4. Spracherkennungsvorrichtung nach einem der Ansprüche 1 bis 3, mit:
einer Wort-Speichereinrichtung (6) zum Speichern wenigstens des von der Erkennungseinrichtung (4) zu erkennenden Wortes, einer Phonem-Information über das Wort und einer Sprachteilinformation über das Wort, wobei
die Wortbegriff-Speichereinrichtung (8) und die Wort- Speichereinrichtung (6) in integraler Form ausgeführt sind.
5. Spracherkennungsverfahren zum Durchführen einer Satz- /Spracherkennung, mit den Schritten:
akustisches (3) Analysieren einer eingegebenen Sprache, um einen Merkmalparameter der eingegebenen Sprache zu extrahieren,
Erkennen (4) der eingegebenen Sprache auf der Basis des extrahierten Merkmalparameters, um mehrere vorgeschlagene Erkennungsresultatkandidaten zu gewinnen, und
Speichern mehrerer Beispiele in einer Beispiel- Speichereinrichtung (7),
dadurch gekennzeichnet, dass
die eingegebene Sprache in Worteinheiten erkannt wird,
Wörter in einer Wortbegriff-Speichereinrichtung (8) durch Ordnen der Wörter in Kategorien gespeichert werden, wobei
der vorgeschlagene Erkennungsresultatkandidat durch Kombinieren von mehr als nur einem Wort mit jedem anderen erzeugt wird, und
ein für eine begriffliche Ähnlichkeitscharakteristik zwischen jedem der Wörter zum Konstituieren des vorgeschlagenen Erkennungsresultatkandidaten und jedem der Wörter zum Konstituieren der Beispiele in Bezug auf die Wortbegriff- Speichereinrichtung (8) anzeigender Wortähnlichkeitsgrad berechnet wird, wobei
- eine den höchsten Wortähnlichkeitsgrad aufweisende Kombination von Wörtern zum Konstituieren eines Beispiels und Wörtern zum Konstituieren vorgeschlagenen Erkennungsresultats gewählt wird, und
- Wörter zum Konstituieren des gewählten Beispiels durch die den vorgeschlagenen Erkennungsresultatkandidaten konstituierenden gewählten Wörter ersetzt werden, und
- das Ersetzungsresultat als das Satz-/Sprachresultat ausgegeben wird.
6. Sprachübersetzungsvorrichtung zur Übersetzung eines Sprachsystems einer eingegebenen Sprache in ein anderes Sprachsystem, mit:
einer Extraktionseinrichtung (3) zum akustischen Analysieren einer in sie eingegebenen Sprache, um einen Merkmalparameter der eingegebenen Sprache zu extrahieren,
einer Erkennungseinrichtung (4) zur Erkennung der eingegebenen Sprache auf der Basis des aus der Extraktionseinrichtung ausgegebenen Merkmalparameters, um dadurch mehrere vorgeschlagene Erkennungsresultatkandidaten zu gewinnen,
einer Beispiel-Speichereinrichtung (7) zum Speichern mehrerer Beispiele,
dadurch gekennzeichnet, dass
die Erkennungseinrichtung (4) die eingegebene Sprache in Worteinheiten erkennt,
in einer Wortbegriff-Speichereinrichtung (8) Wörter durch Ordnen der Wörter in Kategorien gespeichert sind, wobei
der vorgeschlagene Erkennungsresultatkandidat durch Kombinieren von mehr als nur einem Wort mit jedem anderen erzeugt ist,
eine Berechnungseinrichtung (5) einen für eine begriffliche Ähnlichkeitscharakteristik zwischen jedem der Wörter zum Konstituieren des vorgeschlagenen Erkennungsresultatkandidaten und jedem der Wörter zum Konstituieren des Beispiels in Bezug auf die Wortbegriff-Speichereinrichtung (8) anzeigenden Wortähnlichkeitsgrad berechnet und
- eine den höchsten Wortähnlichkeitsgrad aufweisende Kombination von Wörtern zur Bildung eines Beispiels und Wörtern zur Bildung des vorgeschlagenen Spracherkennungsresultats wählt und
- Wörter zum Konstituieren des gewählten Beispiels durch die den vorgeschlagenen Erkennungsresultatkandidaten konstituierenden gewählten Wörter ersetzt und
- das Ersetzungsresultat als das Satz-/Sprachresultat ausgibt, und
- das Sprachsystem des von der Berechnungseinrichtung (5) ausgegebenen Spracherkennungsresultats von einer Übersetzungseinrichtung (42) in das andere Sprachsystem übersetzt wird.
7. Sprachübersetzungsvorrichtung nach Anspruch 6, wobei in der Wortbegriff-Speichereinrichtung (8) die Wörter in einer hierarchischen Baumstruktur auf der Basis ihres Begriffs gespeichert sind.
8. Sprachübersetzungsvorrichtung nach Anspruch 6, mit:
einer Sprachsystemmodell-Speichereinrichtung (12) zum Speichern eines entsprechend der Wahrscheinlichkeit von Verbindungen zwischen mehreren Wörtern klassifizierten Sprachsystemmodells, wobei
die Erkennungseinrichtung (11) die Spracherkennung unter Restriktion des in der Sprachsystemmodell-Speichereinrichtung (12) gespeicherten Sprachsystemmodells ausführt, um mehrere vorgeschlagene Erkennungsresultatskandidaten zu gewinnen.
9. Sprachübersetzungsvorrichtung nach einem der Ansprüche 6 bis 8, mit:
einer Wort-Speichereinrichtung zum Speichern wenigstens des von der Erkennungseinrichtung zu erkennenden Worts, einer Phonem-Information über das Wort und einer Sprachteilinformation über das Wort, wobei
die Wortbegriff-Speichereinrichtung und die Wort- Speichereinrichtung in integraler Form (22) ausgeführt sind.
DE69625950T 1995-04-07 1996-04-03 Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem Expired - Lifetime DE69625950T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP08221895A JP3741156B2 (ja) 1995-04-07 1995-04-07 音声認識装置および音声認識方法並びに音声翻訳装置

Publications (2)

Publication Number Publication Date
DE69625950D1 DE69625950D1 (de) 2003-03-06
DE69625950T2 true DE69625950T2 (de) 2003-12-24

Family

ID=13768288

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69625950T Expired - Lifetime DE69625950T2 (de) 1995-04-07 1996-04-03 Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem

Country Status (6)

Country Link
US (1) US5848389A (de)
EP (1) EP0736857B1 (de)
JP (1) JP3741156B2 (de)
KR (1) KR100441181B1 (de)
CN (1) CN1140870A (de)
DE (1) DE69625950T2 (de)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JP3716870B2 (ja) * 1995-05-31 2005-11-16 ソニー株式会社 音声認識装置および音声認識方法
FR2744277B1 (fr) * 1996-01-26 1998-03-06 Sextant Avionique Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre
JPH09330336A (ja) * 1996-06-11 1997-12-22 Sony Corp 情報処理装置
US6085162A (en) * 1996-10-18 2000-07-04 Gedanken Corporation Translation system and method in which words are translated by a specialized dictionary and then a general dictionary
US5956668A (en) * 1997-07-18 1999-09-21 At&T Corp. Method and apparatus for speech translation with unrecognized segments
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US6266642B1 (en) 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6442524B1 (en) 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6243669B1 (en) 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6282507B1 (en) 1999-01-29 2001-08-28 Sony Corporation Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection
US6223150B1 (en) 1999-01-29 2001-04-24 Sony Corporation Method and apparatus for parsing in a spoken language translation system
US6356865B1 (en) * 1999-01-29 2002-03-12 Sony Corporation Method and apparatus for performing spoken language translation
US6278968B1 (en) 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
US6374224B1 (en) 1999-03-10 2002-04-16 Sony Corporation Method and apparatus for style control in natural language generation
US6356869B1 (en) * 1999-04-30 2002-03-12 Nortel Networks Limited Method and apparatus for discourse management
US6510427B1 (en) * 1999-07-19 2003-01-21 Ameritech Corporation Customer feedback acquisition and processing system
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
US7031923B1 (en) 2000-03-06 2006-04-18 International Business Machines Corporation Verbal utterance rejection using a labeller with grammatical constraints
US6862566B2 (en) * 2000-03-10 2005-03-01 Matushita Electric Industrial Co., Ltd. Method and apparatus for converting an expression using key words
US6556972B1 (en) * 2000-03-16 2003-04-29 International Business Machines Corporation Method and apparatus for time-synchronized translation and synthesis of natural-language speech
US20020120451A1 (en) * 2000-05-31 2002-08-29 Yumiko Kato Apparatus and method for providing information by speech
JP3672800B2 (ja) * 2000-06-20 2005-07-20 シャープ株式会社 音声入力通信システム
JP4105841B2 (ja) * 2000-07-11 2008-06-25 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
DE10034235C1 (de) * 2000-07-14 2001-08-09 Siemens Ag Verfahren zur Spracherkennung und Spracherkenner
US7451085B2 (en) * 2000-10-13 2008-11-11 At&T Intellectual Property Ii, L.P. System and method for providing a compensated speech recognition model for speech recognition
JP4089148B2 (ja) 2000-10-17 2008-05-28 株式会社日立製作所 通訳サービス方法および通訳サービス装置
JP2003241790A (ja) * 2002-02-13 2003-08-29 Internatl Business Mach Corp <Ibm> 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム
US7194455B2 (en) 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
JP4528540B2 (ja) * 2004-03-03 2010-08-18 日本電信電話株式会社 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
CN101076851B (zh) * 2004-09-17 2011-12-28 新加坡科技研究局 口语识别系统以及用于训练和操作该系统的方法
US20070138267A1 (en) * 2005-12-21 2007-06-21 Singer-Harter Debra L Public terminal-based translator
US20070179784A1 (en) * 2006-02-02 2007-08-02 Queensland University Of Technology Dynamic match lattice spotting for indexing speech content
KR100901640B1 (ko) * 2006-05-10 2009-06-09 주식회사 케이티 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법
EP1879000A1 (de) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Uebertragung von textnachrichten durch navigationssystemen
JP4393494B2 (ja) 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US8219407B1 (en) 2007-12-27 2012-07-10 Great Northern Research, LLC Method for processing the output of a speech recognizer
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US20120245919A1 (en) * 2009-09-23 2012-09-27 Nuance Communications, Inc. Probabilistic Representation of Acoustic Segments
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
JP5921756B2 (ja) * 2013-02-25 2016-05-24 三菱電機株式会社 音声認識システムおよび音声認識装置
US9805028B1 (en) * 2014-09-17 2017-10-31 Google Inc. Translating terms using numeric representations
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
CN105161095B (zh) * 2015-07-29 2017-03-22 百度在线网络技术(北京)有限公司 语音识别语法树的构图方法及装置
US9678954B1 (en) * 2015-10-29 2017-06-13 Google Inc. Techniques for providing lexicon data for translation of a single word speech input
CN105786798B (zh) * 2016-02-25 2018-11-02 上海交通大学 一种人机交互中自然语言意图理解方法
CN107170453B (zh) * 2017-05-18 2020-11-03 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质
US20190043486A1 (en) * 2017-08-04 2019-02-07 EMR.AI Inc. Method to aid transcribing a dictated to written structured report
JP7178890B2 (ja) * 2018-12-11 2022-11-28 菱洋エレクトロ株式会社 音声認識システム、及び音声認識装置
CN111368032B (zh) * 2020-02-29 2020-12-11 重庆百事得大牛机器人有限公司 用于法律咨询的日常语言识别方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) * 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5384701A (en) * 1986-10-03 1995-01-24 British Telecommunications Public Limited Company Language translation system
JPH067355B2 (ja) * 1987-07-20 1994-01-26 工業技術院長 文章認識方法
JP2609173B2 (ja) * 1990-03-26 1997-05-14 株式会社エイ・ティ・アール自動翻訳電話研究所 用例主導型機械翻訳方法
JPH0421899A (ja) * 1990-05-16 1992-01-24 Matsushita Electric Ind Co Ltd 音声認識装置
US5369727A (en) * 1991-05-16 1994-11-29 Matsushita Electric Industrial Co., Ltd. Method of speech recognition with correlation of similarities
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
JPH06167992A (ja) * 1992-11-27 1994-06-14 Ricoh Co Ltd 音声パターン作成装置およびそれを用いた標準パターン登録装置
JPH06274546A (ja) * 1993-03-19 1994-09-30 A T R Jido Honyaku Denwa Kenkyusho:Kk 情報量一致度計算方式
US5615301A (en) * 1994-09-28 1997-03-25 Rivers; W. L. Automated language translation system

Also Published As

Publication number Publication date
EP0736857B1 (de) 2003-01-29
KR100441181B1 (ko) 2005-04-06
KR960038734A (ko) 1996-11-21
JP3741156B2 (ja) 2006-02-01
EP0736857A2 (de) 1996-10-09
JPH08278794A (ja) 1996-10-22
US5848389A (en) 1998-12-08
EP0736857A3 (de) 1998-04-22
DE69625950D1 (de) 2003-03-06
CN1140870A (zh) 1997-01-22

Similar Documents

Publication Publication Date Title
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69937176T2 (de) Segmentierungsverfahren zur Erweiterung des aktiven Vokabulars von Spracherkennern
DE69009522T2 (de) Diagrammanalysator für stochastische Unifikationsgrammatik.
DE19721198C2 (de) Statistisches Sprachmodell für flektierende Sprachen
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69816676T2 (de) System und verfahren zur bestimmung und minimalisierung eines endlichen transducers zur spracherkennung
DE69519297T2 (de) Verfahren und vorrichtung zur spracherkennung mittels optimierter partieller buendelung von wahrscheinlichkeitsmischungen
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
EP0925579B1 (de) Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem
DE69225173T2 (de) Spracherkennungsgerät
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE69717899T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE69527229T2 (de) Sprachinterpretator mit einem Kompiler mit vereinheitlicher Grammatik
DE69324428T2 (de) Verfahren zur Sprachformung und Gerät zur Spracherkennung
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69908047T2 (de) Verfahren und System zur automatischen Bestimmung von phonetischen Transkriptionen in Verbindung mit buchstabierten Wörtern
DE69908254T2 (de) System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung
DE69719236T2 (de) Verfahren und System zur Spracherkennung mittels verborgener Markoff-Modelle mit kontinuierlichen Ausgangswahrscheinlichkeiten
DE69933623T2 (de) Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE602004004310T2 (de) System mit kombiniertem statistischen und regelbasierten Grammatikmodell zur Spracherkennung und zum Sprachverstehen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8320 Willingness to grant licences declared (paragraph 23)