DE112009003930T5 - Spracherkennungsvorrichtung - Google Patents

Spracherkennungsvorrichtung Download PDF

Info

Publication number
DE112009003930T5
DE112009003930T5 DE112009003930T DE112009003930T DE112009003930T5 DE 112009003930 T5 DE112009003930 T5 DE 112009003930T5 DE 112009003930 T DE112009003930 T DE 112009003930T DE 112009003930 T DE112009003930 T DE 112009003930T DE 112009003930 T5 DE112009003930 T5 DE 112009003930T5
Authority
DE
Germany
Prior art keywords
speech recognition
sentence
recognized
unit
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE112009003930T
Other languages
English (en)
Other versions
DE112009003930B4 (de
Inventor
Jun Ishii
Kazuyuki Nogi
Takashi Ebihara
Hiroki Sakashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of DE112009003930T5 publication Critical patent/DE112009003930T5/de
Application granted granted Critical
Publication of DE112009003930B4 publication Critical patent/DE112009003930B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Es wird eine Spracherkennungsvorrichtung bereitgestellt mit einer Satzauswahleinheit 22 zum Auswählen von Sätzen, die jeweils eine vorbestimmte Anzahl oder weniger von akustischen Signalen aufweisen, als zu erkennende Sätze, aus Kandidaten, für die zu erkennenden Sätze.

Description

  • Erfindungsgebiet
  • Die vorliegende Erfindung betrifft eine Spracherkennungsvorrichtung.
  • Hintergrund der Erfindung
  • Eine herkömmliche Spracherkennungsvorrichtung wandelt die Möglichkeit der Konfusion eines neuen Wortes und eines bereits registrierten Wortes in eine Zahl um und evaluiert dann diese Zahl, um zu bestimmen, ob das neue Wort zu registrieren ist (siehe z. B. Patentreferenz 1). Ferner offenbart Patentreferenz 2 eine Spracherkennungsvorrichtung, die eine Speichereinheit zur Spracherkennung aufweist, die eine hierarchische Struktur hat und die eine Spracherkennung durchführt während der Inhalt einer folgenden Äußerung durch ein graduelles Verringern eines inklusiven Bereichs vorhergesagt wird.
  • Dokumente des Standes der Technik
    • Patentreferenz 1: JP 2002-207181 A
    • Patentreferenz 2: JP 2004-325704 A
  • Zusammenfassung der Erfindung
  • Eine herkömmliche Spracherkennungsvorrichtung erzeugt ein Spracherkennungswörterbuch unter Verwendung einer Textnotation von jedem Satz, bei dem es sich um ein zu erkennendes Objekt handelt. In einem Fall, bei dem viele Sätze vorliegen, bei denen es sich um die zu erkennenden Objekte handelt, oder jeder Satz lang ist, wird die Größe des Spracherkennungswörterbuches vergrößert. In einem Fall, bei der die Spracherkennungsvorrichtung z. B. über eine eingebettete Software zur Verwendung in einer Ausrüstung, wie z. B. in einem Navigationssystem oder in einem Mobiltelefon, implementiert wird, ist der Speicher dieser Ausrüstung limitiert. Ein Problem besteht daher darin, dass, wenn das Spracherkennungswörterbuch die verwendbare Kapazität des Speichers überschreitet, die Spracherkennungsvorrichtung nicht normal arbeitet.
  • Obwohl die herkömmliche Spracherkennungsvorrichtung, welche durch die Patentreferenz 1 offenbart ist, bestimmt, ob ein neues Wort registriert wird, aus dem evaluierten Wert bezüglich der Möglichkeit einer Konfusion zwischen dem neuen Wort und einem bereits registrierten Wort, ist im Gegensatz dazu ein Fall nicht berücksichtigt, bei dem die Spracherkennungsvorrichtung über Software implementiert wird, und somit wird der Fall nicht berücksichtigt, bei dem die Kapazität des Speichers einer Begrenzung unterliegt. Daher kann das oben erwähnte Problem durch die herkömmliche Spracherkennungsvorrichtung, die durch die Patentreferenz 1 offenbart ist, nicht gelöst werden.
  • Ferner erzeugt die Spracherkennungsvorrichtung, welche durch die Patentreferenz 2 offenbart ist, ein Spracherkennungswörterbuch unter Berücksichtigung der Reduzierung der Erkennungsperformance aufgrund des Anwachsens der Anzahl von erkennbaren Worten, aber berücksichtigt nicht einen Fall, bei dem die Kapazität des Speichers einer Begrenzung unterliegt, wie die oben erwähnte herkömmliche Spracherkennungsvorrichtung. Daher kann das oben erwähnte Problem durch die herkömmliche Spracherkennungsvorrichtung, die durch die Patentreferenz 2 offenbart ist, nicht gelöst werden.
  • Die vorliegende Erfindung dient zur Lösung des oben erwähnten Problems, und eine Aufgabe der vorliegenden Erfindung besteht daher in der Bereitstellung einer Spracherkennungsvorrichtung, die ein Anwachsen der Wörterbuchgröße eines Spracherkennungswörterbuchs davon unterdrücken kann.
  • Eine Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung umfasst eine Satzauswahleinheit zum Auswählen von Sätzen, die jeweils eine vorbestimmte Anzahl oder weniger von akustischen Einheiten umfassen, als zu erkennende Sätze, unter den Kandidaten für die zu erkennenden Sätze.
  • Da die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung Sätze auswählt, die jeweils akustische Einheiten umfassen, deren Anzahl gleich oder geringer als die vorbestimmte Anzahl ist, unter den Kandidaten für die zu erkennenden Sätze, als zu erkennende Sätze, kann die Spracherkennungsvorrichtung eine Vergrößerung der Größe eines Spracherkennungswörterbuchs unterdrücken, das aus den oben erwähnten zu erkennenden Sätzen besteht. Ferner wird ein Vorteil bereitgestellt, selbst in einem Fall, bei dem die Spracherkennungsvorrichtung über eine eingebettete Software zur Verwendung in einer Ausrüstung implementiert wird, wie z. B. in einem Navigationssystem oder in einem Mobiltelefon, in dem ein Spracherkennungswörterbuch mit einer Wörterbuchgröße implementiert werden kann, die in die verwendbare Kapazität eines darin angeordneten Speichers fällt.
  • Kurze Beschreibung der Figuren
  • 1 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung;
  • 2 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses der Spracherkennungsvorrichtung gemäß Ausführungsform 1;
  • 3 ist eine Ansicht zur Erläuterung eines Prozesses zum Ausschließen eines Kandidaten für zu erkennende Sätze;
  • 4 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung;
  • 5 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses der Spracherkennungsvorrichtung gemäß Ausführungsform 2;
  • 6 ist eine Ansicht zur Erläuterung eines Prozesses zum Erzeugen eines Wörterbuchs gemäß Ausführungsform 2;
  • 7 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung;
  • 8 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses der Spracherkennungsvorrichtung gemäß Ausführungsform 3;
  • 9 ist eine Ansicht zur Erläuterung eines Prozesses zum Trimmen eines Kandidaten für zu erkennende Sätze;
  • 10 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung;
  • 11 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses der Spracherkennungsvorrichtung gemäß Ausführungsform 4;
  • 12 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung;
  • 13 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses der Spracherkennungsvorrichtung gemäß Ausführungsform 5; und
  • 14 ist eine Ansicht zur Darstellung eines Beispiels zum Informieren einer Gruppe von Worten, die ausgeschlossen werden.
  • Ausführungsformen der Erfindung
  • Im Folgenden werden zur detaillierten Erläuterung dieser Erfindung die bevorzugten Ausführungsformen der vorliegenden Erfindung mit Bezug auf die begleitenden Zeichnungen beschrieben.
  • Ausführungsform 1
  • 1 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 1 der vorliegenden Erfindung. Die Spracherkennungsvorrichtung 1 in 1 gemäß Ausführungsform 1 umfasst eine Wörterbuch-Erzeugungsverarbeitungseinheit 2 und eine Spracherkennungseinheit 3. Die Wörterbuch-Erzeugungsverarbeitungseinheit 2 ist eine Einheit zum Erzeugen eines Spracherkennungswörterbuchs, welches nur aus Sätzen aufgebaut ist, die jeweils eine vorbestimmte Anzahl oder weniger von akustischen Einheiten aufweisen, und umfasst eine Zu-Erkennenden-Satz-Kandidat-Speichereinheit 21, eine Satzauswahleinheit 22, eine Zu-Erkennenden-Satz-Speichereinheit 23, eine Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 und eine Spracherkennungs-Wörterbuch-Speichereinheit 25.
  • Jeder Kandidat eines zu erfassenden Satzes, der in der Speichereinheit 21 gespeichert ist, umfasst eine Gruppe eines Kandidaten für einen Text, der durch die Spracherkennungsvorrichtung 1 erkannt werden soll, und akustische Einheiten, welche die Aussprache des Textes anzeigen. In dieser Ausführungsform bedeutet jeder zu erfassende Satz einen Satz, der akustische Einheiten aufweist, dessen Anzahl die vorbestimmte Anzahl oder geringer ist. Ferner ist jede akustische Einheit eine kurze phonetische Einheit, wie z. B. ein Phonem oder eine Silbe. Umso größer die Anzahl der akustischen Einheiten ist, die jeder zu erkennende Satz aufweist, umso größer ist die Größe des Spracherkennungswörterbuchs. Daher erzeugt die Spracherkennungsvorrichtung 1 gemäß Ausführungsform 1 das Spracherkennungswörterbuch nur von Sätzen, die jeweils akustische Einheiten aufweisen, dessen Anzahl gleich oder geringer als die vorbestimmte Anzahl ist, wodurch verhindert wird, dass die Wörterbuchgröße anwächst.
  • Die Satzauswahleinheit 22 ist eine Einheit zum Verwenden von Phonemen als akustische Einheiten und zum Ausschließen von Kandidaten von zu erkennenden Sätzen, die jeweils Phoneme aufweisen, dessen Anzahl eine definierte Anzahl übersteigt, die für jeden zu erkennenden Satz voreingestellt ist, aus den Kandidaten der zu erkennenden Sätzen, um einen Satz auszuwählen, der erfasst werden soll, welcher Phoneme aufweist, dessen Anzahl oder geringer als die oben erwähnte definierte Anzahl ist. Die Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 ist eine Einheit zum Erzeugen eines Spracherkennungs-Wörterbuchs unter Verwendung der zu erkennenden Sätze, welche von der Speichereinheit 23 gelesen werden.
  • Die Spracherkennungsverarbeitungseinheit 3 umfasst eine Spracherkennungs-Wörterbuch-Speichereinheit 25 und eine Spracherkennungseinheit 26. Die Spracherkennungseinheit 26 ist eine Einheit zum Durchführen eines Spracherkennungsprozesses an einer Sprache, die durch einen Nutzer geäußert wird, bei der es sich um das zu erkennenden Objekt handelt (von hier ab als eine zu erkennende Sprache bezeichnet), mit Bezug auf das in der Speichereinheit 25 gespeicherte Spracherkennungs-Wörterbuch, um ein Erkennungsresultat zu erfassen.
  • Indem ein Computer veranlasst wird, ein Wörterbucherzeugungs- und Spracherkennungsprogramm gemäß dem Umfang der vorliegenden Erfindung zu lesen, und dann die CPU des Computers veranlasst wird, dass Wörterbucherzeugungs- und Spracherkennungsprogramm auszuführen, können die Satzauswahleinheit 22, die Spracherkennungswörterbuch-Erzeugungseinheit 24 und die Spracherkennungseinheit 26 auf dem Computer als konkrete Einheiten implementiert werden, wobei in jeder von diesen Hardware und Software kooperativ zusammenarbeiten. Ferner können die Zu-Erkennenden-Satz-Kandidat-Speichereinheit 21, die Zu-Erkennenden-Satz-Speichereinheit 23 und die Spracherkennungs-Wörterbuch-Speichereinheit 25 in einem Speicherbereich einer Speichereinheit konstruiert werden, welche der oben erwähnte Computer aufweist (z. B. eine Festplattenlaufwerkeinheit oder ein externes Speichermedium).
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • 2 ist ein Flussdiagramm zur Darstellung des Betriebsflusses, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform ausgeführt wird. Die Schritte innerhalb der gestrichelten Linie in 2, welche durch das Symbol A bezeichnet ist, zeigen Prozesse, welche durch die Wörterbuch-Erzeugungsverarbeitungseinheit 2 ausgeführt werden, und die Schritte innerhalb der gestrichelten Linie in 2, die durch das Symbol B bezeichnet wird, zeigen Prozesse, welche durch die Spracherkennungseinheit 3 ausgeführt werden.
  • Zuerst liest die Satzauswahleinheit 22 Kandidaten der zu erkennenden Sätze, welche zum Erzeugen eines Spracherkennungswörterbuchs von der Speichereinheit 21 verwendet werden, um die Zu-Erkennenden-Satz-Kandidaten vorzubereiten (Schritt ST1). Als Nächstes initialisiert die Satzauswahleinheit 22 den gezählten Wert eines Zählers (nicht in 1 gezeigt) zum Zählen einer Satzzahl N, bei der es sich um eine laufende Nummer handelt, die jedem der Kandidaten der zu erkennenden Sätze gegeben wird, wobei die fortlaufenden Nummern an die Kandidaten der zu erkennenden Sätze in der Reihenfolge vergeben werden, in der diese verarbeitet werden, auf 0 (N = 0) (Schritt ST2).
  • Die Satzauswahleinheit 22 inkrementiert den gezählten Wert des oben erwähnten Zählers um 1 (Schritt ST3), und bestimmt, ob die Satznummer N gleich oder kleiner als die Nummer der Zu-Erkennenden-Satz-Kandidaten ist, die durch die Speichereinheit 21 ausgelesen wurden (Schritt ST4). Wenn die Satznummer N gleich oder geringer als die Nummer der Kandidaten der zu erfassenden Sätze ist (bei JA im Schritt ST4), bestimmt die Satzauswahleinheit 22, ob der Kandidat des zu erfassenden Satzes, der mit der gegenwärtigen Satznummer N zusammenhängt, akustische Einheiten aufweist, dessen Anzahl gleich oder geringer als die definierte Anzahl ist (Schritt ST5). Wenn der Kandidat des zu erfassenden Satzes, der mit der Satznummer N zusammenhängt, akustische Einheiten aufweist, dessen Anzahl gleich oder geringer als die definierte Anzahl ist (bei JA im Schritt ST5), speichert die Satzauswahleinheit 22 den Kandidaten des zu erfassenden Satzes, der mit der Publikationsnummer N zusammenhängt, als ein zu erkennender Satz in der Speichereinheit 23 (Schritt ST6).
  • Wenn im Gegensatz dazu der Kandidat des zu erkennenden Satzes, der mit der Satznummer N zusammenhängt, akustische Einheiten aufweist, dessen Anzahl weder gleich noch geringer als die definierte Anzahl ist (bei NEIN im Schritt ST5), schließt die Satzauswahleinheit 22 den Satz mit der Satznummer N von den Zu-Erkennenden-Satz-Kandidaten aus (Schritt ST8). Nach Beendigung des Prozesses von Schritt ST6 oder Schritt ST8, kehrt die Satzauswahleinheit 22 zum Schritt ST3 zurück und inkrementiert den gezählten Wert des Zählers zum Zählen der Satznummer N um 1, und fahrt die Prozesse in den Schritten ST4 bis ST8 an den Kandidaten des zu erkennenden Satzes, der mit der nächsten Satznummer zusammenhängt, wiederholt durch.
  • Im Folgenden wird der Ausschließungsprozess im Schritt ST8 erläutert.
  • 3 ist eine Ansicht zur Erläuterung des Prozesses zum Ausschließen von Kandidaten des zu erkennenden Satzes. Es wird ein Fall gezeigt, bei dem Phoneme als akustische Einheiten verwendet werden, und jeder Zu-Erkennenden-Satz-Kandidat von den Zu-Erkennenden-Satz-Kandidaten ausgeschlossen wird, dessen Anzahl von Phonemen 20 überschreitet. Wie in 3 gezeigt, weist ein Zu-Erkennenden-Satz-Kandidat mit der Satznummer N = 1, bei dem es sich um „kanagawaken kamakurasi” handelt ein Phonem-String „kanagawakeN kamakurasi” (21 Phoneme) auf, und wird von den Zu-Erkennenden-Satz-Kandidaten ausgeschlossen, da die Anzahl von Phonemen in dem Zu-Erkennenden-Satz-Kandidaten 20 überschreitet. Da jeder der Sätze mit der Satznummer N = 6 und 8 Phoneme aufweist, dessen Anzahl 20 überschreitet, werden diese vergleichbar von den Zu-Erkennenden-Satz-Kandidaten ausgeschlossen. Im Gegensatz dazu werden die Sätze mit der Satznummer N = 2 bis 5 und 7 in der Speichereinheit 23 als zu erkennende Sätze gespeichert.
  • Da die Phoneme, die jeden zu erkennenden Satz aufbauen, jeweils mit akustischen Modellen zusammenhängen, beeinflusst die Anzahl der Phoneme, die jeden zu erkennenden Satz aufbauen, stark die Größe des Spracherkennungswörterbuchs. Da alle Kandidatensätze, die jeweils Phoneme aufweisen, dessen Anzahl die definierte Anzahl überschreitet, von den Zu-Erkennenden-Satz-Kandidaten ausgeschlossen werden, kann dadurch gemäß dieser Ausführungsform 1 verhindert werden, dass die Wörterbuchgröße anwächst. Anstelle des Zählens von jedem Phonem, das jeden Satz aufbaut, wie in dem Beispiel der 3 gezeigt, um die Anzahl von Phonemen zu bestimmen, welche jeden Satz aufbauen, kann die Anzahl von Phonemen unter Verwendung einer molaren Anzahl berechnet werden.
  • Wenn, mit einem erneuten Verweis auf die Erläuterung der 2, die Satznummer N die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten überschreitet (die Satznummer N größer als Zeichen die Anzahl der Zu-Erkennenden-Satz-Kandidaten) (bei NEIN Schritt ST4), erzeugt. Die Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 ein Spracherkennungswörterbuch aus den zu erkennenden Sätzen, die bis dahin in der Speichereinheit 23 gespeichert wurden (Schritt ST7). Das erzeugte Spracherkennungswörterbuch wird in der Speichereinheit 25 gespeichert.
  • Die Spracherkennungseinheit 26 der Spracherkennungseinheit 3 gibt eine zu erkennende Sprache ein, welche durch einen Nutzer geäußert wird (Schritt ST 9), und führt einen Spracherkennungsprozess an der zu erkennenden Sprache mit Bezug auf das Spracherkennungswörterbuch durch, welches in der Speichereinheit 25 gespeichert ist, und gibt ein Erkennungsresultat aus (Schritt ST10).
  • Da, wie oben erwähnt, die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 1 die Satzauswahleinheit 22 umfasst, zum Auswählen von Sätzen, die jeweils akustische Einheiten aufweisen, dessen Anzahl gleich oder geringer als die vorbestimmte Anzahl ist, als zu erkennende Sätze, unter Zu-Erkennenden-Satz-Kandidaten, kann die Spracherkennungsvorrichtung eine Vergrößerung der Wörterbuchgröße des Spracherkennungswörterbuchs unterdrücken, und kann, selbst in einem Fall, bei dem die Spracherkennungsvorrichtung über eine eingebettete Software zur Verwendung in einer Ausrüstung, wie z. B. ein Navigationssystem oder ein Mobiltelefon, implementiert wird, das Spracherkennungswörterbuch mit einer Wörterbuchgröße implementieren, die in die verwendbare Kapazität des Speichers fällt. Somit ist die Spracherkennungsvorrichtung für einen Fall geeignet, bei dem die Spracherkennungsvorrichtung unter Verwendung einer eingebetteten Software ausgebildet ist.
  • Ausführungsform 2
  • 4 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 2 der vorliegenden Erfindung. Obwohl die Spracherkennungsvorrichtung 1A gemäß Ausführungsform 2, wie in 4 gezeigt, fundamental die gleiche Struktur aufweist, wie jene gemäß der oben erwähnten Ausführungsform 1, die in 1 gezeigt ist, unterscheidet sich die Spracherkennungsvorrichtung gemäß Ausführungsform 2 von jener gemäß Ausführungsform 1 darin, dass eine Satzauswahleinheit 22a angeordnet ist, zum Auswählen von zu erkennenden Sätzen gemäß der gesamten Anzahl von akustischen Einheiten, die in allen Zu-Erkennenden-Satz-Kandidaten enthalten sind, anstelle der Satzauswahleinheit 22 zum Auswählen von zu erfassenden Sätzen gemäß der Anzahl akustischer Einheiten, die in jedem Zu-Erkennenden-Satz-Kandidat enthalten sind.
  • Die Satzauswahleinheit 22a wählt zu erkennende Sätze aus, derart, dass die gesamte Summe der Akustischen Einheiten, die in allen der Zu-Erkennenden-Satz-Kandidaten enthalten sind, gleich oder geringer als eine definierte Anzahl ist, und speichert die ausgewählten zu erkennenden Sätze in der Speichereinheit 23. Da die anderen strukturellen Komponenten außer einer Spracherkennungsverarbeitungseinheit 3 und der Satzausfalleinheit 22a einer Wörterbuch-Erzeugungsverarbeitungseinheit 2 gleich zu denen gemäß der oben erwähnten Ausführungsform 1 sind, wird die Erläuterung der anderen strukturellen Komponenten im Folgenden weggelassen.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • 5 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 2 ausgeführt wird. Die Schritte in der gestrichelten Linie in 5, welche durch das Symbol A bezeichnet wird, zeigen Prozesse, welche durch die Wörterbuch-Erzeugungsverarbeitungseinheit 2 ausgeführt werden, und die Schritte in der gestrichelten Linie in 5, welche durch das Symbol B bezeichnet wird, zeigen Prozesse, welche durch die Spracherkennungs-Verarbeitungseinheit 3 ausgeführt werden.
  • Zuerst hielt die Satzauswahleinheit 22a Zu-Erkennenden-Satz-Kandidaten, die zum Erzeugen eines Erkennungswörterbuchs verwendet werden, aus einer Speichereinheit 21, um die Zu-Erkennenden-Satz-Kandidaten vorzubereiten (Schritt ST1). Als Nächstes sortiert die Satzauswahleinheit 22a alle vorbereiteten, Zu-Erkennenden-Satz-Kandidaten in einer anwachsenden Reihenfolge der Anzahl von akustischen Einheiten (Schritt ST1-1). Als nächstes initialisiert die Satzauswahleinheit 22a den gezählten Wert eines Zählers (nicht in 4 gezeigt) zum Zählen einer Satznummer N, bei der es sich um eine fortlaufende Nummer handelt, die an jeden der Zu-Erkennenden-Satz-Kandidaten vergeben wird, wobei die fortlaufenden Nummern an die Zu-Erkennenden-Satz-Kandidaten in der Reihenfolge vergeben werden, in der diese verarbeitet werden, auf 0 (N = 0), und initialisiert auch den gezählten Wert eines Zählers (nicht in 4 gezeigt) zum Zählen der gesamten Anzahl akustischer Einheiten, die in allen Zu-Erkennenden-Satz-Kandidaten enthalten sind, auf 0 (Schritt ST2a).
  • Die Satzauswahleinheit 22a inkrementiert den gezählten Wert des Zählers zum Zählen der Satznummer N um 1 (Schritt ST3), und bestimmt, ob die Satznummer N gleich oder geringer als die Anzahl der Zu-Erkennenden-Satz-Kandidaten ist, die aus der Speichereinheit 21 ausgelesen werden (Schritt ST4). Wenn die Satznummer N gleich oder geringer als die Anzahl der Zu-Erkennenden-Satz-Kandidaten ist (bei JA in Schritt ST4), addiert die Satzauswahleinheit 22 die Anzahl der akustischen Einheiten des Satzes, der die Satznummer N aufweist, zu dem gezählten Wert des Zählers zum Zählen der gesamten Anzahl der akustischen Einheiten (ST4-1).
  • Als Nächstes bestimmt die Satzauswahleinheit 22a, ob die gesamte Anzahl von akustischen Einheiten, die durch den gezielten Wert des oben erwähnten Zählers gezeigt ist, gleich oder geringer als eine definierte Anzahl ist (Schritt ST5a). Wenn die gesamte Anzahl der akustischen Einheiten gleich oder geringer als die definierte Anzahl ist (bei JA im Schritt ST5a), speichert die Satzauswahleinheit 22a den Zu-Erkennenden-Satz-Kandidat mit der Satznummer N in der Speichereinheit 23 als einen zu erkennenden Satz (Schritt ST6).
  • Wenn die Satznummer N die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten überschreitet (die Satznummer N > die Anzahl der Zu-Erkennenden-Satz-Kandidaten) (bei NEIN in Schritt ST4), erzeugt eine Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 ein Spracherkennungswörterbuch aus den zu erkennenden Sätzen, die in der Speichereinheit 23 bis dahin gespeichert wurden (Schritt ST7). Wenn die gesamte Anzahl der akustischen Einheiten die definierte Anzahl überschreitet (bei NEIN) im Schritt ST5a), stoppt die Satzauswahleinheit 22a das Speichern von zu erkennenden Sätzen in der Speichereinheit 23, und die Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 erzeugt ein Spracherkennungswörterbuch aus den zu erkennenden Sätzen, die in der Speichereinheit 23 bis dahin gespeichert wurden und speichert das Spracherkennungswörterbuch in der Speichereinheit 25 (Schritt ST8a).
  • Nach der Auswahl des zu erkennenden Satzes im Schritt ST6, kehrt die Satzauswahleinheit 22a zum Schritt ST3 zurück und inkrementiert den gezielten Wert des Zählers zum Zählen der Satznummer N um Eins, und führt dann wiederholt die Prozesse in den Schritten ST4 bis ST8a aus, an dem Zu-Erkennenden-Satz-Kandidat, der mit der nächsten Satznummer zusammenhängt.
  • Ein Spracherkennungsprozess mit Verweis auf das Spracherkennungswörterbuch, das durch die oben erwähnten Prozesse erzeugt wurde (Schritte ST9 und ST10) ist gleich zu dem, der in der oben erwähnten Ausführungsform 1 gezeigt ist.
  • 6 ist eine Ansicht zum Erläutern eines Prozesses, der durch die Wörterbuch-Erzeugungsverarbeitungseinheit gemäß Ausführungsform 2 ausgeführt wird, und zeigt einen Fall, bei dem Phoneme als akustische Einheiten verwendet werden und Zu-Erkennenden-Satz-Kandidaten einschließlich Phoneme, dessen gesamte Anzahl 100 nicht überschreitet, als zu erkennende Sätze ausgewählt werden können. In dem in 6 gezeigten Beispiel wählt die Satzauswahleinheit 22a sequentiell Sätze mit einer geringeren Anzahl von Phonemen aus, und stoppt die Auswahl, wenn die gesamte Anzahl von Phonemen, die in allen bereits ausgewählten Sätzen 100 überschreitet. Konkret ist in dem Beispiel die gesamte Anzahl der Phoneme, die in den Sätzen enthalten sind, welche die Satznummern N = 1 bis N = 6 aufweisen, insgesamt 94 Phoneme, und daher führt das Hinzufügen der Anzahl von Phonemen des Satzes mit der nächsten Satznummer N = 7 dazu, dass die gesamte Anzahl von Phonemen 100 überschreitet.
  • Daher werden die Sätze bis zu „Kanagawaken Kamakurasi” mit der Satznummer N = 6 als zu erkennende Sätze ausgewählt.
  • In dieser Ausführungsform wird eine Vielzahl von Sätzen, bei denen es sich um zu erkennende Sätze handeln kann, sequentiell ausgewählt, solange die gesamte Anzahl der akustischen Einheiten in der Vielzahl von Sätzen die definierte Anzahl nicht überschreitet. Umso größer die gesamte Anzahl der akustischen Einheiten ist, die alle die zu erkennenden Sätze aufweisen, umso größer ist die Größe des Spracherkennungswörterbuchs. Durch Erzeugen des Spracherkennungswörterbuchs, dessen gesamte Anzahl von akustischen Einheiten gleich oder geringer als die vorbestimmte Anzahl ist, kann daher die Spracherkennungsvorrichtung gemäß dieser Ausführungsform verhindern, dass die Wörterbuchgröße anwächst. Die Satzauswahleinheit 22a zum Auswählen von zu erkennenden Sätzen gemäß der gesamten Anzahl von akustischen Einheiten summiert die Gesamtanzahl von Phonemen, die in den bereits ausgewählten Zu-Erkennenden-Satz-Kandidaten enthalten sind, unter Verwendung von Phonemen als akustische Einheiten, und schließt den gegenwärtig ausgewählten Satz und alle folgenden Sätze aus wenn die gesamte Anzahl (die gesamte Anzahl von akustischen Einheiten), die bis dahin erhalten wurde, die definierte Anzahl überschreitet, um alle die zu erkennenden Sätze bereitzustellen, die bereits ausgewählt sind.
  • Wenn in der oben erwähnten Ausführungsform 2 die gesamte Anzahl der akustischen Einheiten, die in den bereits ausgewählten Zu-Erkennenden-Satz-Kandidaten enthalten sind, den definierten Wert im Schritt ST5a überschreitet, kann die Satzauswahleinheit 22a einen Zu-Erkennenden-Satz-Kandidaten auswählen, der gemäß dem Resultat des Spracherkennungsprozesses, der im Schritt ST10 ausgeführt wird, ausgeschlossen werden sollte.
  • Zum Beispiel setzt die Satzauswahleinheit einen Satz wieder ein, der eine große Anzahl von akustischen Einheiten aufweist, als ein Zu-Erkennenden-Satz-Kandidat, und verwendet diesen Satz als ein zu erkennender Satz, zum Erzeugen eines Spracherkennungswörterbuchs nach dem nächsten Auswahlprozess. Wenn das Spracherkennungsresultat, das mit Bezug auf das Spracherkennungswörterbuch erfasst wird, welches als ein Resultat davon erzeugt wird, ein gutes ist, zeigt die Spracherkennungsvorrichtung eine Mitteilung an, dass dieses Resultat dem Nutzer anzeigt, wodurch der Nutzer veranlasst wird, zu bestimmen, ob der Satz ausgeschlossen werden soll.
  • Wenn ferner die gesamte Anzahl der akustischen Einheiten, die in den bereits ausgewählten Zu-Erkennenden-Satz-Kandidaten enthalten sind, den definierten Wert überschreitet, kann die Spracherkennungsvorrichtung einen Prozess zum Trimmen eines Satzes ausführen, der im Folgenden in Ausführungsform 3 erwähnt wird, um die gesamte Anzahl von akustischen Einheiten anzupassen. In diesem Fall kann die Satzauswahleinheit 22a eine GUI (engl. Graphical User Interface) bereitstellen, zur Auswahl von Sätzen, die dem Trimmungsprozess unterworfen werden sollen, um zu ermöglichen, dass der Nutzer Sätze auswählen kann, die dem Trimmungsprozess gemäß der GUI unterworfen werden sollen.
  • Wenn, wie oben erwähnt, die gesamte Anzahl der akustischen Einheiten den definierten Wert überschreitet und wenn die Satznummer N > die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten ist, erzeugt die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 ein Spracherkennungswörterbuch aus den zu erkennenden Sätzen, die bis dahin in der Speichereinheit 23 gespeichert wurden. Da die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 2 auf diese Art ausgebildet ist, kann die Spracherkennungsvorrichtung eine Vergrößerung der Wörterbuchgröße des Spracherkennungswörterbuchs unterdrücken. Entsprechend ist die Spracherkennungsvorrichtung für einen Fall geeignet, bei der die Spracherkennungsvorrichtung unter Verwendung einer eingebetteten Software ausgebildet ist.
  • Ausführungsform 3
  • 7 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 3 der vorliegenden Erfindung. Obwohl, wie in 7 gezeigt, die Spracherkennungsvorrichtung 1B gemäß Ausführungsform fundamental die gleiche Struktur wie jene gemäß der oben erwähnten Ausführungsform 1 aufweist, die in 1 gezeigt ist, unterscheidet sich die Spracherkennungsvorrichtung gemäß Ausführungsform 3 von jener gemäß Ausführungsform 1 darin, dass eine Satztrimmungseinheit 27 gemäß der Anzahl von akustischen Einheiten, die in jedem Zu-Erkennenden-Satz-Kandidat enthalten sind, angeordnet ist, anstelle der Satzauswahleinheit 22 zum Auswählen von zu erkennenden Sätzen gemäß der Anzahl von akustischen Einheiten, die in jedem Zu-Erkennenden-Satz-Kandidat enthalten sind, und eine Speichereinheit 28 zum Speichern bereits getrimmter der Zu-Erkennenden-Satz-Speichereinheit 23 angeordnet ist.
  • Die Satztrimmungseinheit 27 ist eine Einheit zum Abschneiden einer Silbe einschließlich einer akustischen Einheit, bei der die Anzahl der akustischen Einheiten, die in dem Satz Kandidaten enthalten sind, die definierte Anzahl zuerst überschreitet, wenn ein Zu-Erkennenden-Satz-Kandidat eine Reihe von akustischen Einheiten aufweist, dessen Anzahl eine definierte Anzahl überschreitet, und von anschließenden Silben von dem oben erwähnten Satz, um einen Text auszubilden. Obwohl Sätze oder Texte mit vielen akustischen Einheiten zu einer Vergrößerung der Spracherkennungs-Wörterbuchgröße führen, bildet die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 selbst einen solchen Text in einen Text aus, in dem akustische Einheiten erkennbar sind, die in der Anzahl reduziert sind, um die definierte Anzahl nicht zu überschreiten.
  • Die Speichereinheit 28 speichert zu erkennende Sätze, an denen der Trimmungs- bzw. Wegschneideprozess durch die Satztrimmungseinheit 27 durchgeführt wird. Da die anderen strukturellen Komponenten außer der Satztrimmungseinheit 27 und der Speichereinheit 28 die gleichen wie jene der gemäß oben erwähnten Ausführungsform 1 sind, wird eine Erläuterung der anderen strukturellen Komponenten im Folgenden weggelassen.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • 8 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 3 ausgeführt wird. Die Schritte in der gestrichelten Linie in 8, die durch das Symbol A bezeichnet ist, zeigen Prozesse, die durch eine Wörterbuch-Erzeugungsverarbeitungseinheit 2 ausgeführt werden, und die Schritte in der gestrichelten Linie in 8, die durch das Symbol B bezeichnet wird, zeigen Schritte, die durch die Spracherkennungsverarbeitungseinheit 3 ausgeführt werden. Da in 8 die Prozesse in den Schritten ST1 bis ST7 die gleichen wie jene sind, die in 2 der oben erwähnten Ausführungsform 1 gezeigt sind, wird eine Erläuterung der Prozesse im Folgenden weggelassen.
  • Wenn die Anzahl der akustischen Einheiten, die in einem Zu-Erkennenden-Satz-Kandidat enthalten sind, der mit einer Satznummer N zusammenhängt, weder gleich noch geringer als die definierte Anzahl ist (bei NEIN im Schritt ST5), schneidet die Satztrimmungseinheit 27 eine Silbe weg, einschließlich einer akustischen Einheit, bei der die Anzahl der akustischen Einheiten, die in dem Zu-Erkennenden-Satz-Kandidat enthalten sind, die oben erwähnte definierte Anzahl zuerst überschreitet, und anschließende Silben von dem oben erwähnten Zu-Erkennenden-Satz-Kandidat, um einen Satz auszubilden, und speichert diesen Satz in die Speichereinheit 28, als ein zu erkennender Satz mit der Satznummer N (Schritt ST8b).
  • Wenn der Prozess im Schritt ST6 oder ST8b beendet ist, kehrt die Satztrimmungseinheit 27 zum Schritt ST3 zurück und inkrementiert den gezählten Wert eines Zählers zum Zählen der Satznummer N um Eins, und führt dann wiederholt die Prozesse in den Schritten ST4 bis ST8b aus, an dem Zu-Erkennenden-Satz-Kandidat, der mit der nächsten Satznummer zusammenhängt.
  • Im Folgenden wird der Satzwegschneideprozess im Schritt ST8b erläutert.
  • 9 ist eine Ansicht zur Erläuterung des Wegschneideprozesses zum Wegschneiden eines Zu-Erkennenden-Satz-Kandidaten, und zeigt einen Fall, bei dem Phoneme als akustische Einheiten verwendet werden, und bei dem jeder Zu-Erkennenden-Satz-Kandidat, der Phoneme aufweist, dessen Anzahl 20 überschreitet, in einen zu erkennenden Satz ausgebildet wird, indem eine Silbe einschließlich einem Phonem, bei dem die Anzahl von akustischen Einheiten, die in dem Zu-Erkennenden-Satz-Kandidat enthalten sind, zuerst 20 überschreitet, und anschließende Silben von dem Zu-Erkennenden-Satz-Kandidat weggeschnitten werden. In einem Beispiel, das in einem oberen Abschnitt der 9 gezeigt ist, sind die Zu-Erkennenden-Satz-Kandidaten mit der Satznummer N = 1, 6 und 8 Objekte zum Wegschneiden. In diesem Fall schneidet die Satztrimmungseinheit 27, wie in einem unteren Abschnitt der 9 gezeigt, eine Silbe einschließlich einem Phonem weg, bei dem die Anzahl zuerst 20 überschreitet, und anschließende Silben, von jedem der Zu-Erkennenden-Satz-Kandidaten.
  • Zum Beispiel weist der Zu-Erkennenden-Satz-Kandidat mit der Satznummer N = 1, bei dem es sich um „Kanagawaken Kamakurasi” handelt, einen Phonem-String „kanagawakeN kamakurasi” (21 Phoneme) auf, und die Anzahl der Phoneme in diesem Zu-Erkennenden-Satz-Kandidat überschreitet 20. Daher bestimmt die Satztrimmungseinheit die Silbe „si” einschließlich eines Phonems, bei dem die Anzahl zuerst 20 überschreitet, und anschließende Silben, als ein Objekt zum Wegschneiden, um „kanagawakeN kamakura” (19 Phoneme) als einen zu erkennenden Satz neu definiert. Konkret definiert die Satztrimmungseinheit an dem Ende des Textes die Silbe genau vor der Silbe „si” einschließlich des Phonems „i” neu, bei dem die Anzahl der Phoneme, die in dem originalen Text enthalten sind, 20 überschreitet. Die Satztrimmungseinheit führt den gleichen Satztrimmungsprozess auch an jedem der Zu-Erkennenden-Satz-Kandidaten durch, welche die Satznummern 6 und 8 aufweisen, und stellt danach nur die Zu-Erkennenden-Satz-Kandidaten bereit, die jeweils Phoneme aufweisen, dessen Anzahl 20 oder geringer ist, als bereits weggeschnittene, zu erkennende Sätze.
  • Anstelle des Durchführens des Satztrimmungsprozesses auf einer Pro-Silben-Basis, kann die Satztrimmungseinheit den Satztrimmungsprozess auch auf einer Pro-Phonem-Basis durchführen. In dem Beispiel von „kanagawakeN kamakurasi” ist z. B. das Phonem, bei dem die Anzahl der Phoneme, die in dem originalen Text enthalten sind, zuerst 20 überschreitet das Objekt zum Wegschneiden, und „kanagawakeN kamakuras” (20 Phoneme) wird neu als ein zu erkennender Satz definiert. Insbesondere definiert die Satztrimmungseinheit als Ende des Textes das Phonem genau vor dem Phonem „i” neu, an dem die Anzahl der Phoneme, die in dem originalen Text enthalten sind, 20 überschreitet.
  • Wenn, mit einem erneuten Verweis auf die Erläuterung von 8, die Satznummer N die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten überschreitet (die Satznummer N > die Anzahl von vorbereiteten Zu-Erkennenden-Satz-Kandidaten) (bei 9 im Schritt ST4), erzeugt eine Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 ein Spracherkennungswörterbuch nur aus den bereits weggeschnittenen, zu erkennenden Sätzen, die bis dahin in der Speichereinheit 23 gespeichert wurde (ST7). Das erzeugte Spracherkennungswörterbuch wird in einer Speichereinheit 25 gespeichert.
  • Eine Spracherkennungseinheit 26 der Spracherkennungsverarbeitungseinheit 3 gibt eine zu erkennende Sprache ein, die durch einen Nutzer geäußert wird (Schritt ST9), und führt einen Spracherkennungsprozess an der zu erkennenden Sprache durch, mit Bezug auf das Spracherkennungswörterbuch, das in der Speichereinheit 25 gespeichert ist, und gibt ein Erkennungsergebnis aus (Schritt ST10).
  • Wie oben erwähnt umfasst die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 die Satztrimmungseinheit 27 zum Wegschneiden entweder einer akustischen Einheit, bei der die Anzahl von akustischen Einheiten, die in dem Satz Kandidaten enthalten sind, die definierte Anzahl zuerst überschreitet, wenn ein Zu-Erkennenden-Satz-Kandidat eine Reihe von akustischen Einheiten aufweist, dessen Anzahl die definierte Anzahl überschreitet, und die anschließenden akustischen Einheiten, oder eine Silbe einschließlich der oben erwähnten akustischen Einheit und anschließende Silben von dem oben erwähnten Satz Kandidaten, um diesen weggeschnittenen Satz Kandidaten als einen zu erkennenden Satz zu definieren. Daher kann die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 3 einen solchen Zu-Erkennenden-Satz-Kandidaten in einen zu erkennenden Satz ausbilden, in dem akustische Einheiten erkennbar sind, welche in der Anzahl reduziert sind, sodass die definierte Anzahl nicht überschritten wird, und kann eine Vergrößerung der Wörterbuchgröße des Spracherkennungswörterbuchs unterdrücken, ohne die Anzahl erkennbarer Worte soweit wie möglich zu reduzieren. Entsprechend ist die Spracherkennungsvorrichtung für einen Fall geeignet, in dem die Spracherkennungsvorrichtung unter Verwendung einer eingebetteten Software ausgebildet ist.
  • Ausführungsform 4
  • 10 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 4 der vorliegenden Erfindung. Obwohl die Spracherkennungsvorrichtung 1C gemäß Ausführungsform 4, wie in 10 gezeigt, fundamental die gleiche Struktur aufweist, wie jene gemäß der oben erwähnten Ausführungsform 3, welche in 7 gezeigt ist, unterscheidet sich die Spracherkennungsvorrichtung gemäß Ausführungsform 4 von der gemäß Ausführungsform 3 darin, dass eine GM-hinzugefügte-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 zum Erzeugen eines Spracherkennungswörterbuchs unter Verwendung zu erkennender Sätze angeordnet ist, in denen jeweils ein Garbage-Modell (von hier ab geeignet als ein GM bezeichnet) zu einem bereits weggeschnittenen Satz hinzugefügt wird, anstelle der Spracherkennungs-Wörterbuch-Erzeugungseinheit 24, und eine Speichereinheit 30 zum Speichern von Garbage-Modellen angeordnet ist.
  • Die GM-hinzugefügte-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 ist eine Einheit zum Hinzufügen eines Garbage-Modells zu jedem bereits weggeschnittenen, zu erkennenden Satz, um ein Spracherkennungswörterbuch zu erzeugen. Jedes Garbage-Modell, das in der Speichereinheit 30 gespeichert ist, ist derart konfiguriert, dass ein Sprachintervall erfasst wird, und selbst eine Sprache erkannt werden kann, der eine unbekannte Äußerung folgt, einschließlich eines unnötigen Ausdrucks oder eines Rauschens.
  • Daher wird ein Garbage-Modell vor und nach jedem erkennbaren Wort in dem Spracherkennungswörterbuch hinzugefügt, sodass die Spracherkennungsvorrichtung eine Äußerung des oben erwähnten erkennbaren Worts erkennen kann, obwohl ein zusätzliches Wort vor und nach dem oben erwähnten erkennbaren Wort hinzugefügt wird. Als ein Ergebnis kann ein Abschnitt erkannt werden, der jedem bereits weggeschnittenen, zu erkennenden Satz gefolgt ist, der irgendwo in dem originalen Satz endet, und eine Reduzierung der Wertung (Wahrscheinlichkeit), die als ein Erkennungsresultat erfasst wird, kann verhindert werden. Da die anderen strukturellen Komponenten außer der GM-hinzugefügten-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 und der Speichereinheit 30 die gleichen wie jene gemäß der oben erwähnten Ausführungsform 3 sind, wird eine Erläuterung der anderen strukturellen Komponenten im Folgenden weggelassen.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert. 11 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses, der Durch die Spracherkennungsvorrichtung gemäß Ausführungsform 4 ausgeführt wird. Die Schritte in der gestrichelten Linie in 11, die durch das Symbol A bezeichnet wird, zeigen Prozesse, die durch eine Wörterbuch-Erzeugungsverarbeitungseinheit 2 ausgeführt werden, und die Schritte in der gestrichelten Linie in 11, die durch das Symbol B bezeichne wird, zeigen Prozesse, die durch die Spracherkennungsbearbeitungseinheit ausgeführt werden. Da in 11 die Prozesse in den Schritten ST1 bis ST6 und ST8b die gleichen wie jene sind, die in der 8 der oben erwähnten Ausführungsform 3 gezeigt sind, wird die Erläuterung der Prozesse im Folgenden weggelassen.
  • Wenn eine Satznummer N die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten überschreitet (die Satznummer N > die Anzahl der vorbereiteten Zu-Erkennenden-Satz-Kandidaten) (bei NEIN im Schritt ST4), fügt die GM-hinzugefügte-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 ein Garbage-Modell, welches aus der Speichereinheit 30 ausgelesen wird, zu dem Ende des bereits weggeschnittenen, zu erkennenden Satzes zu, die bis dahin in der Speichereinheit 28 gespeichert worden, und erzeugt ein Spracherkennungswörterbuch aus den zu erkennenden Sätzen, zu denen jeweils ein Garbage-Modell hinzugefügt wurde (Schritt ST7a). Das erzeugte Spracherkennungswörterbuch wird in der Speichereinheit 25 gespeichert.
  • Ein Spracherkennungsprozess mit Verweis auf das Spracherkennungswörterbuch, welches durch die oben erwähnten Prozesse Schritte ST9 und ST10) erzeugt wurde, ist gleich zu dem, der in der oben erwähnten Ausführungsform 1 gezeigt ist.
  • Wenn mit Bezug auf das Beispiel der 9, das in der oben erwähnten Ausführungsform 3 gezeigt ist, die zu erkennenden Sätze mit den Satznummern N = 1, 6 und 8 weggeschnitten wurden, setzt eine Satztrimmungseinheit 27 ein Flag, das anzeigt, dass das Wegschneiden an jedem von diesen zu erkennenden Sätzen durchgeführt wurde. Nachdem die GM-hinzugefügte-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 auf den Wert des Flags verweist, dass für jeden der zu erkennenden Sätze eingestellt wurde, und spezifiziert, dass jeder dieser zu erkennenden Sätze weggeschnitten wurde, fügt die GM-hinzugefügte-Spracherkennungs-Wörterbuch-Erzeugungseinheit 29 ein Garbage-Modell an das Ende von jedem der zu erkennenden Sätze zu, die die Satznummern N = 1, 6 und 8 aufweisen, um ein Spracherkennungswörterbuch unter Verwendung dieser zu erkennenden Sätze zu erzeugen.
  • Da wie oben erwähnt die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 4 ein Garbage-Modell an das Ende von jedem bereits weggeschnittenen, zu erkennenden Satz hinzufügt, um ein Spracherkennungswörterbuch zu erzeugen, kann die Spracherkennungsvorrichtung selbst einen bereits weggeschnittenen Satz erkennen, ohne die Anzahl erkennbarer Worte soweit wie möglich zu reduzieren. Daher kann die Spracherkennungsvorrichtung eine Vergrößerung der Wörterbuchgröße des Spracherkennungswörterbuchs unterdrücken, und kann eine Reduzierung der Wertung verhindern, die als ein Erkennungsresultat erfasst wird. Entsprechend ist die Spracherkennungsvorrichtung für einen Fall geeignet, bei der die Spracherkennungsvorrichtung unter Verwendung einer eingebetteten Software ausgebildet wird.
  • Ausführungsform 5
  • 12 ist ein Blockdiagramm zur Darstellung der Struktur einer Spracherkennungsvorrichtung gemäß Ausführungsform 5 der vorliegenden Erfindung. Obwohl, wie in 12 gezeigt, die Spracherkennungsvorrichtung 1D gemäß Ausführungsform 5 fundamental die gleiche Struktur aufweist, wie jede gemäß der oben erwähnten Ausführungsform 1, die in 1 gezeigt ist, unterscheidet sich die Spracherkennungsvorrichtung gemäß Ausführungsform 5 von jener gemäß Ausführungsform 1 darin, dass eine nicht-berücksichtigte-zu-erfassende-Objekt-Kandidat-Informationseinheit 31 angeordnet ist. Die nicht-berücksichtigtes-zu-erfassendes-Objekt-Kandidat-Informationseinheit 31 ist eine Einheit, die einen Nutzer über Zu-Erkennenden-Satz-Kandidaten informiert, die durch eine Satzauswahleinheit 22 ausgeschlossen wurden, als nicht berücksichtigte Objekte, die erkannt werden sollen. Da die anderen strukturellen Komponenten außer der nicht-berücksichtigten-zu-erkennenden-Objekt-Kandidaten-Informationseinheit 31 die gleichen sind wie jene gemäß der oben erwähnten Ausführungsform 1, wird die Erläuterung der anderen strukturellen Komponenten im Folgenden weggelassen.
  • Als Nächstes wird der Betrieb der Spracherkennungsvorrichtung erläutert.
  • 13 ist ein Flussdiagramm zur Darstellung eines Betriebsflusses, der durch die Spracherkennungsvorrichtung gemäß Ausführungsform 5 ausgeführt wird. Die Schritte, die durch eine gestrichelte Linie in 13 umschlossen sind, die durch das Symbol A bezeichnet ist, zeigen Prozesse an, die durch eine Wörterbuch-Erzeugungsverarbeitungseinheit 2 ausgeführt werden, und Schritte, die durch eine gestrichelte Linie in 13 umschlossen sind, die durch das Symbol B bezeichnet ist, zeigt Prozesse an, die durch eine Spracherkennungsverarbeitungseinheit 3 ausgeführt werden. Da in 13 Prozesse in den Schritten ST1 bis ST8 die gleichen wie jene in 2 der oben erwähnten Ausführungsform 1 sind, wird eine Erläuterung der Prozesse im Folgenden weggelassen.
  • Wenn Zu-Erkennenden-Satz-Kandidaten ausgeschlossen werden, die jeweils akustische Einheiten aufweisen, dessen Anzahl eine definierte Anzahl überschreitet, im Schritt ST8, informiert die Satzauswahleinheit 22 die Zu-Erkennenden-Satz-Kandidaten, die ausgeschlossen werden, an die nicht-berücksichtigtes-zu-erkennendes-Objekt-Kandidaten-Informationseinheit 31. Wenn eine Spracherkennungs-Wörterbuch-Erzeugungseinheit 24 ein Spracherkennungswörterbuch erzeugt, informiert die nicht-berücksichtigtes-zu-erkennendes-Objekt-Kandidaten-Informationseinheit 31 den Nutzer über die oben erwähnten Zu-Erkennenden-Satz-Kandidaten, die dadurch mitgeteilt werden (Schritt ST8-1). Da die Spracherkennungsvorrichtung auf diese Art ausgebildet ist, ermöglicht die Spracherkennungsvorrichtung, dass der Nutzer die zu erkennenden, nicht berücksichtigten Objekte kennt.
  • In einem Fall, bei dem z. B. Phoneme als akustische Einheiten verwendet werden, und nur Sätze mit 20 oder weniger Phonemen als zu erkennende Objekte ausgewählt werden, wie in 3 gezeigt, die in der oben erwähnten Ausführungsform 1 gezeigt wird, ist ein Zu-Erkennenden-Satz-Kandidat „Kanagawaken Kamakurasi” ein auszuschließendes Objekt, da die Phoneme des Zu-Erkennenden-Satz-Kandidaten „kanagawakeN kamakurasi” (21 Phoneme) sind und die Anzahl der Phoneme 20 überschreitet. Zu diesem Zeitpunkt informier die nicht-berücksichtigtes-zu-erkennendes-Objekt-Kandidaten-Informationseinheit 31 den Nutzer, dass die oben erwähnten Worte ein nicht berücksichtigtes, zu erkennendes Objekt sind. Als Informationsverfahren kann ein Verfahren zum Informieren des Nutzers bereitgestellt werden, dass die oben erwähnten Worte ein nicht berücksichtigtes, zu erkennendes Objekt sind, unter Verwendung eines Eintrags, das die Worte anzeigt, bei denen es sich um ein nicht berücksichtigtes, zu erkennendes Objekt handelt, und eine Anzeige kann bereitgestellt werden, die anzeigt, dass die Worte ein nicht berücksichtigtes, zu erkennendes Objekt sind, wie in 14 gezeigt.
  • Wenn, zur Erläuterung der 13 zurückkehrend, der Prozess des Schrittes ST6 oder ST8-1 beendet ist, kehrt die Satzauswahleinheit 22 zum Schritt ST3 zurück und inkrementiert den gezählten Wert eines Zählers zum Zählen einer Satznummer N um eins, und führt dann wiederholt die Prozesse in den Schritten ST4 bis ST8-1 an dem Zu-Erkennenden-Satz-Kandidat aus, der mit der nächsten Satznummer zusammenhängt.
  • Ein Spracherkennungsprozess mit Bezug auf ein Spracherkennungswörterbuch, welches durch die oben erwähnten Prozesse (Schritte ST9 und ST10) erzeugt wurde, ist gleich zu dem, der in der oben erwähnten Ausführungsform 1 gezeigt ist.
  • Da, wie oben erwähnt, die Spracherkennungsvorrichtung gemäß dieser Ausführungsform 5 die Nicht-Berücksichtigte-Zu-Erkennendes-Objekt-Kandidat-Informationseinheit 31 umfasst, zum Mitteilen von Kandidaten, die nicht als zu erkennende Sätze ausgewählt wurden, und von Kandidaten, bei denen es sich um Objekte handelt, die einem Wegschneideprozess unterworfen werden, an den Nutzer, kann die Spracherkennungsvorrichtung eine Vergrößerung der Wörterbuchgröße des Spracherkennungswörterbuchs unterdrücken, während ermöglicht wird, dass der Nutzer vorab die Worte versteht, bei denen es sich um nicht berücksichtigte, zu erkennende Objekte handelt. Entsprechend wird der Komfort der Spracherkennungsvorrichtung verbessert, und die Spracherkennungsvorrichtung ist für einen Fall geeignet, bei dem die Spracherkennungsvorrichtung unter Verwendung einer eingebetteten Software ausgebildet ist.
  • Die Nicht-Berücksichtigte-Zu-Erkennendes-Objekt-Kandidat-Informationseinheit 31 gemäß der oben erwähnten Ausführungsformen 5 kann zu der Struktur gemäß irgendeiner der oben erwähnten Ausführungsformen 2 bis 4 hinzugefügt werden. In diesem Fall informiert die nicht-berücksichtigte-zu-erkennendes-Objekt-Kandidat-Informationseinheit 31 den Nutzer über Kandidaten für Sätze, die zu erkennen sind, bei denen es sich um auszuschließende Objekte handelt, die durch die Satzauswahleinheit 22a ausgewählt werden, oder über Kandidaten für Sätze, die zu erkennen sind, bei denen es sich um wegzuschneidende Objekte handelt, die durch die Satztrimmungseinheit 27 ausgewählt werden. Selbst in einem Fall, bei dem die Spracherkennungsvorrichtung auf diese Art ausgebildet ist, ermöglicht die Spracherkennungsvorrichtung, dass der Nutzer vorab Texte versteht, die von zu erkennenden Objekten ausgeschlossen sind, oder bei denen es sich um weggeschnittene erkennbare Worte handelt, die irgendwo in dem originalen Satzenden, wenn ein Spracherkennungswörterbuch erzeugt wird. Entsprechend kann der Komfort für den Nutzer verbessert werden.
  • Industrielle Anwendbarkeit
  • Die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung kann eine Vergrößerung der Größe eines Spracherkennungswörterbuchs unterdrücken, das aus zu erkennenden Sätzen besteht. Selbst in einem Fall, bei dem die Spracherkennungsvorrichtung über eine eingebettete Software zur Verwendung in einer Ausrüstung implementiert wird, wie z. B. in einem Navigationssystem oder in einem Mobiltelefon, kann das Spracherkennungswörterbuch mit einer Wörterbuchgröße implementiert werden, die in die verwendbare Kapazität des Speichers fällt. Daher ist die Spracherkennungsvorrichtung gemäß der vorliegenden Erfindung für die Verwendung als eine Spracherkennungsvorrichtung geeignet, die eine große Speicherkapazität, und so weiter erfordert.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • JP 2002-207181 A [0002]
    • JP 2004-325704 A [0002]

Claims (7)

  1. Spracherkennungsvorrichtung mit einer Spracherkennungs-Wörterbuch-Erzeugungseinheit zum Erzeugen eines Spracherkennungswörterbuchs aus zu erkennenden Sätzen, und einer Spracherkennungseinheit zum Durchführen einer Spracherkennung an einer Sprache, bei der es sich um ein zu erkennendes Objekt handelt, mit Bezug auf das Spracherkennungswörterbuch, wobei die Spracherkennungsvorrichtung eine Satzauswahleinheit umfasst, zum Auswählen von Sätzen, die jeweils eine vorbestimmte Anzahl oder geringer von akustischen Einheiten aufweisen, als die zu erkennenden Sätze, aus Kandidaten für die zu erkennenden Sätze.
  2. Spracherkennungsvorrichtung mit einer Spracherkennungs-Wörterbuch-Erzeugungseinheit zum Erzeugen eines Spracherkennungswörterbuchs aus zu erkennenden Sätzen, und einer Spracherkennungseinheit zum Durchführen einer Spracherkennung an einer Sprache, bei der es sich um ein zu erkennendes Objekt handelt, mit Bezug auf das Spracherkennungswörterbuch, wobei die Spracherkennungsvorrichtung eine Satzauswahleinheit zum Auswählen von Sätzen umfasst, die akustische Einheiten aufweisen, dessen gesamte Anzahl gleich oder geringer als eine vorbestimmte Anzahl ist, aus Kandidaten für die zu erkennenden Sätze, um die Sätze zu definieren, die dadurch ausgewählt werden, als die zu erkennenden Sätze.
  3. Spracherkennungsvorrichtung mit einer Spracherkennungs-Wörterbuch-Erzeugungseinheit zum Erzeugen eines Spracherkennungswörterbuchs aus zu erkennenden Sätzen, und einer Spracherkennungseinheit zum Durchführung einer Spracherkennung an einer Sprache, bei der es sich um ein zu erkennendes Objekt handelt, mit Bezug auf das Spracherkennungswörterbuch, wobei die Spracherkennungsvorrichtung eine Satztrimmungseinheit umfasst zum, wenn ein Kandidat für den zu erkennenden Satz eine Reihe von akustischen Einheiten aufweist, dessen Anzahl eine vorbestimmte Anzahl überschreitet, wegschneiden entweder einer akustischen Einheit, bei der die Anzahl der akustischen Einheiten die vorbestimmte Anzahl zuerst überschreitet, und anschließender akustischer Einheiten, oder einer Silbe einschließlich der akustischen Einheit und anschließende Silben von den Kandidaten, um den weggeschnittenen Kandidaten als einen der zu erkennenden Sätze zu definieren.
  4. Spracherkennungsvorrichtung gemäß Anspruch 3, wobei die Spracherkennungs-Wörterbuch-Erzeugungseinheit ein Garbage-Modell an ein Ende des zu erkennenden Satzes hinzufügt, an dem der Wegschneideprozess durch die Satztrimmungseinheit durchgeführt wurde, um das Spracherkennungswörterbuch aus dem zu erkennenden Satz zu erzeugen, an den das Garbage-Modell hinzugefügt wurde.
  5. Spracherkennungsvorrichtung gemäß Anspruch 1, wobei die Spracherkennungsvorrichtung eine Informationseinheit umfasst zum Mitteilen entweder eines Kandidaten, der nicht als ein zu erkennender Satz ausgewählt wurde, oder eines Kandidaten, der einem Wegschneideprozess unterworfen wird.
  6. Spracherkennungsvorrichtung gemäß Anspruch 2, wobei die Spracherkennungsvorrichtung eine Informationseinheit umfasst zum Mitteilen entweder eines Kandidaten, der nicht als ein zu erkennender Satz ausgewählt wurde, oder eines Kandidaten, der einem Wegschneideprozess unterworfen wird.
  7. Spracherkennungsvorrichtung gemäß Anspruch 3, wobei die Spracherkennungsvorrichtung eine Informationseinheit umfasst zum Mitteilen entweder eines Kandidaten, der nicht als ein zu erkennender Satz ausgewählt wurde, oder eines Kandidaten, der einem Wegschneideprozess unterworfen wird.
DE112009003930.8T 2009-01-30 2009-10-20 Spracherkennungsvorrichtung Expired - Fee Related DE112009003930B4 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009-019702 2009-01-30
JP2009019702 2009-01-30
PCT/JP2009/005487 WO2010086927A1 (ja) 2009-01-30 2009-10-20 音声認識装置

Publications (2)

Publication Number Publication Date
DE112009003930T5 true DE112009003930T5 (de) 2012-09-27
DE112009003930B4 DE112009003930B4 (de) 2016-12-22

Family

ID=42395197

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009003930.8T Expired - Fee Related DE112009003930B4 (de) 2009-01-30 2009-10-20 Spracherkennungsvorrichtung

Country Status (5)

Country Link
US (1) US8200478B2 (de)
JP (1) JP4772164B2 (de)
CN (1) CN102246226B (de)
DE (1) DE112009003930B4 (de)
WO (1) WO2010086927A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102770910B (zh) * 2010-03-30 2015-10-21 三菱电机株式会社 声音识别装置
KR102245747B1 (ko) 2014-11-20 2021-04-28 삼성전자주식회사 사용자 명령어 등록을 위한 디스플레이 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207181A (ja) 2001-01-09 2002-07-26 Minolta Co Ltd 光スイッチ
JP2004325704A (ja) 2003-04-24 2004-11-18 Nissan Motor Co Ltd 音声認識装置

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US5033087A (en) * 1989-03-14 1991-07-16 International Business Machines Corp. Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
DE19501599C1 (de) * 1995-01-20 1996-05-02 Daimler Benz Ag Verfahren zur Spracherkennung
DE19508137A1 (de) * 1995-03-08 1996-09-12 Zuehlke Werner Prof Dr Ing Hab Verfahren zur schrittweisen Klassifikation arhythmisch segmentierter Worte
JP3790038B2 (ja) 1998-03-31 2006-06-28 株式会社東芝 サブワード型不特定話者音声認識装置
JP3700533B2 (ja) 2000-04-19 2005-09-28 株式会社デンソー 音声認識装置及び処理システム
GB2370401A (en) * 2000-12-19 2002-06-26 Nokia Mobile Phones Ltd Speech recognition
JP2002297181A (ja) 2001-03-30 2002-10-11 Kddi Corp 音声認識語彙登録判定方法及び音声認識装置
JP4727852B2 (ja) 2001-06-29 2011-07-20 クラリオン株式会社 ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
CN1628338A (zh) * 2002-04-29 2005-06-15 阿德诺塔有限公司 处理语音信息的方法和装置
JP2003337595A (ja) * 2002-05-22 2003-11-28 Takeaki Kamiyama 音声認識装置及び辞書生成装置及び音声認識システム及び音声認識方法及び辞書生成方法及び音声認識プログラム及び辞書生成プログラム及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体及び辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3981640B2 (ja) * 2003-02-20 2007-09-26 日本電信電話株式会社 音素モデル学習用文リスト生成装置、および生成プログラム
JP2005010691A (ja) * 2003-06-20 2005-01-13 P To Pa:Kk 音声認識装置、音声認識方法、会話制御装置、会話制御方法及びこれらのためのプログラム
JP2006178013A (ja) 2004-12-20 2006-07-06 Canon Inc データベース作成装置及び方法
JP5233989B2 (ja) * 2007-03-14 2013-07-10 日本電気株式会社 音声認識システム、音声認識方法、および音声認識処理プログラム
JP5046902B2 (ja) 2007-12-13 2012-10-10 三菱電機株式会社 音声検索装置
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
JP2010097239A (ja) * 2008-10-14 2010-04-30 Nec Corp 辞書作成装置、辞書作成方法、および辞書作成プログラム
US20110224985A1 (en) * 2008-10-31 2011-09-15 Ken Hanazawa Model adaptation device, method thereof, and program thereof
US8155961B2 (en) * 2008-12-09 2012-04-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002207181A (ja) 2001-01-09 2002-07-26 Minolta Co Ltd 光スイッチ
JP2004325704A (ja) 2003-04-24 2004-11-18 Nissan Motor Co Ltd 音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868431B2 (en) 2010-02-05 2014-10-21 Mitsubishi Electric Corporation Recognition dictionary creation device and voice recognition device

Also Published As

Publication number Publication date
US8200478B2 (en) 2012-06-12
JPWO2010086927A1 (ja) 2012-07-26
US20110196672A1 (en) 2011-08-11
DE112009003930B4 (de) 2016-12-22
CN102246226B (zh) 2013-11-13
CN102246226A (zh) 2011-11-16
WO2010086927A1 (ja) 2010-08-05
JP4772164B2 (ja) 2011-09-14

Similar Documents

Publication Publication Date Title
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE102020205786B4 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
EP1611568B1 (de) Dreistufige einzelworterkennung
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE112010005918B4 (de) Spracherkennungsvorrichtung
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
DE69832393T2 (de) Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE112010005168B4 (de) Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE112009004357B4 (de) Spracherkennungssystem
DE112011105407T5 (de) Spracherkennungsvorrichtung und Navigationsvorrichtung
EP0994461A2 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung
DE112010005425T5 (de) Spracherkennungsvorrichtung
WO2001018792A1 (de) Verfahren zum trainieren der grapheme nach phonemen regeln für die sprachsynthese
EP1282897B1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE112014007287B4 (de) Spracherkennungsvorrichtung und Spracherkennungsverfahren
EP1456837B1 (de) Verfahren und vorrichtung zur spracherkennung
DE102009021124A1 (de) Bediensystem für ein Fahrzeug
DE212016000292U1 (de) System zur Text-zu-Sprache-Leistungsbewertung
DE112009003930B4 (de) Spracherkennungsvorrichtung
EP1058235A2 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE60022291T2 (de) Unüberwachte anpassung eines automatischen spracherkenners mit grossem wortschatz
DE60029456T2 (de) Verfahren zur Online-Anpassung von Aussprachewörterbüchern
DE102005030965B4 (de) Erweiterung des dynamischen Vokabulars eines Spracherkennungssystems um weitere Voiceenrollments

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: HOFFMANN - EITLE PATENT- UND RECHTSANWAELTE PA, DE

Representative=s name: HOFFMANN - EITLE, DE

R016 Response to examination communication
R016 Response to examination communication
R084 Declaration of willingness to licence
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee