DE60113787T2 - Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung - Google Patents

Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung Download PDF

Info

Publication number
DE60113787T2
DE60113787T2 DE60113787T DE60113787T DE60113787T2 DE 60113787 T2 DE60113787 T2 DE 60113787T2 DE 60113787 T DE60113787 T DE 60113787T DE 60113787 T DE60113787 T DE 60113787T DE 60113787 T2 DE60113787 T2 DE 60113787T2
Authority
DE
Germany
Prior art keywords
candidate
word
text input
candidates
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60113787T
Other languages
English (en)
Other versions
DE60113787D1 (de
Inventor
Mitsuru Kawasaki-shi Endo
Makoto Musashino-shi Nishizaki
Natsuki Matsudo-shi Saito
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60113787D1 publication Critical patent/DE60113787D1/de
Application granted granted Critical
Publication of DE60113787T2 publication Critical patent/DE60113787T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren der Texteingabe unter Einsatz von Spracherkennung, genauer auf ein Verfahren und eine Vorrichtung zur Texteingabe in ein Kleingerät wie ein Mobiltelefon.
  • HINTERGRUND DER ERFINDUNG
  • Herkömmlicherweise gehört zu den Verfahren der Texteingabe unter Einsatz von Spracherkennung ein Verfahren, bei dem der Sprecher eine auf einem Wort oder einer minimalen Phrase beruhende Sprechäusserung für eine auf Äusserungen beruhende, Äusserung um Äusserung voranschreitende Spracherkennung spricht, und ein Verfahren, bei dem zur Spracherkennung eine einen ganzen Satz oder mehr darstellende Äusserung auf einmal gesprochen wird.
  • Im ersteren Verfahren werden, nachdem der Sprecher die Äusserung ausgesprochen hat, eine vorbestimmte Anzahl von Kandidaten menüartig angezeigt, aus denen der Sprecher eine Auswahl treffen darf, wie in JP-A-2-298997 beschrieben. Dieses Verfahren verlangt aber vom Sprecher, Phrase um Phrase mit Pausen auszusprechen, und in jeder Pause muss ein richtiges Wort ausgewählt werden. Daher hat es Probleme mit schwieriger Eingabehandhabung und Zeitaufwand gegeben.
  • Für letzteres Verfahren ist eine Offenbarung zum Beispiel aus dem Aufsatz „Wordbased approach to large-vocabulary continuous speech recognition for Japanese" („Auf Worten beruhendes Herangehen an eine kontinuierliche Spracherkennung mit grossem Vokabular für Japanisch", Information Processing Society of Japan Theses, Band 40, Nr. 4, Seiten 1395–1403, April 1999) bekannt.
  • 12 zeigt ein Betriebsablaufdiagramm für das herkömmliche Texteingabeverfahren, dessen Arbeit jetzt erklärt wird.
  • Zuerst gibt ein Benutzer eine Äusserung ein (S1201). Als Nächstes sucht das Gerät automatisch nach einem Erkennungsergebnis. In der Suche nach einem Erkennungsergebnis bestimmt das Gerät eine akustische Bewertung für die ganze Äusserung, während es eine Verbindung zwischen akustischen Elementen wie Tonelementen herstellt. Gleichzeitig wird eine sprachliche Bewertung für eine auf Sprache begründete Folge wie ein Wort bestimmt. Dann ordnet das Gerät die Erkennungsergebnisse in der Reihenfolge der Höhe der integrierten Bewertungen. Gewöhnlich umfasst eine Äusserung einen Satz aus mehreren bis mehreren zehn Wörtern. Um genaue Erkennungsergebnisse auszugeben, verbleiben dem Gerät während der Suche viele Wortkettenkandidaten, die Kombinationen von Wortkandidaten berücksichtigen (S1202).
  • Als Nächstes zeigt das Gerät die am höchsten bewertete Wortsequenz in der Reihenfolge der Erkennungsergebnisse für alle eingegebenen Äusserungen an (S1203). Als Nächstes korrigiert der Benutzer/die Benutzerin das angezeigte Erkennungsergebnis in den Teilen, die sich von seinen ihren Absichten unterscheiden (S1204). Wenn alle Korrekturen durch den Benutzer abgeschlossen sind, beendet das Gerät die die eine Äusserung betreffende Eingabeoperation (S1205).
  • Im herkömmlichen Stand der Technik werden aber die Erkennungsergebniskandidaten korrigiert, nachdem der Erkennungsprozess für den ganzen Satz ausgeführt worden ist. Dementsprechend liegt im Falle einer langen Äusserung eine grosse Belastung auf dem Erkennungsprozess, wofür eine erhöhte Speicherkapazität erforderlich ist. Daher hat ein Problem darin bestanden, die Gerätegrösse zu verringern.
  • Es ist ein Ziel der vorliegenden Erfindung, ein Verfahren zur Texteingabe zu realisieren, das in der Lage ist, die Gerätegrösse zu verringern und eine Äusserung von einem Satz oder mehr kontinuierlich einzugeben.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Zur Lösung des oben genannten Problems ermöglichen es ein Verfahren und eine Vorrichtung zur Texteingabe gemäss vorliegender Erfindung, wie in Ansprüchen 1 bis 19 beansprucht, dass ein Benutzer einen Suchprozess an einer Äusserung ausführt, die in einem Satz oder mehr eingegeben worden ist, indem er aufeinanderfolgend und vom Anfang eines Satzes beginnend Kandidaten Wort um Wort oder Phrase um Phrase auswählt und fixiert.
  • Konkreter umfassen ein Verfahren und eine Vorrichtung zur Texteingabe einen Schritt der kontinuierlichen Eingabe einer Äusserung; einen Schritt der Vorbereitung von Wortkettenkandidaten auf der Grundlage eines oder mehrerer Wörter, beginnend mit dem Anfang der eingegebenen Äusserung; einen Schritt der Anzeige der Kandidaten; und einen Schritt der Auswahl von angezeigten Kandidaten durch einen Benutzer; wobei für die darauffolgende Äusserung der Kandidatenvorbereitungsschritt, der Anzeigeschritt und der Auswahlschritt auf der Basis des ausgewählten Kandidaten in der Reihenfolge wiederholt werden.
  • Dadurch wird es unnötig, Speicherplatz für eine Suche zu reservieren, die eine Anzahl von Wortkettenkandidaten berücksichtigt, wodurch die Speicherkapazität stark verringert und der Umfang des Spracherkennungsprozesses verkleinert wird. Dadurch wird eine Verringerung der Gerätegrösse möglich. Weil es dem Benutzer gestattet ist, eine kontinuierliche Äusserung auf der Basis eines Satzes oder mehr einzugeben, wird er oder sie des Weiteren von den Mühen befreit, die bei einer auf Wörtern beruhenden Eingabe angetroffen werden.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist ein Konfigurationsblockdiagamm einer Texteingabevorrichtung gemäss einer ersten beispielhaften Ausführungsform der vorliegenden Erfindung;
  • 2 zeigt eine Mensch-Maschine-Schnittstelle der Texteingabevorrichtung gemäss der ersten beispielhaften Ausführungsform der Erfindung;
  • 3 zeigt ein Ablaufdiagramm, das die Arbeit der Texteingabevorrichtung gemäss der ersten beispielhaften Ausführungsform der Erfindung veranschaulicht;
  • 4 zeigt ein Ablaufdiagamm für eine Prozedur in einem Phrasenkandidaten-Vorbereitungsprozess in der Texteingabevorrichtung gemäss der ersten beispielhaften Ausführungsform der Erfindung;
  • 5 zeigt ein Beispiel der Daten während eines Erweiterungsprozesses in der Texteingabevorrichtung gemäss der ersten beispielhaften Ausführungsform der Erfindung;
  • 6 zeigt ein Beispiel der Daten während eines Prozesses der Aktualisierung der akustischen Bewertung in einem Texteingabeverfahren gemäss der ersten beispielhaften Ausführungsform der Erfindung;
  • 7 zeigt ein Ablaufdiagramm für eine Prozedur im Phrasenkandidaten-Vorbereitungsprozess in der Texteingabevorrichtung gemäss einer zweiten beispielhaften Ausführungsform der Erfindung;
  • 8 zeigt ein Beispiel der Daten während des Phrasenkandidaten-Vorbereitungsprozesses in der Texteingabevorrichtung gemäss der zweiten beispielhaften Ausführungsform der Erfindung;
  • 9 zeigt ein Ablaufdiagramm für eine Prozedur im Phrasenkandidaten-Vorbereitungsprozess in einer Texteingabevomchtung gemäss einer dritten beispielhaften Ausführungsform der Erfindung;
  • 10 zeigt ein Beispiel der Daten während des Phrasenkandidaten-Vorbereitungsprozesses in der Texteingabevorrichtung gemäss der dritten beispielhaften Ausführungsform der Erfindung;
  • 11 zeigt ein Beispiel der Daten während eines stärker bevorzugten Phrasenkandidaten-Vorbereitungsprozesses in der Texteingabevorrichtung gemäss der dritten beispielhaften Ausführungsform der Erfindung; und
  • 12 ist ein Konfigurationsblockdiagramm einer herkömmlichen Texteingabevorrichtung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Beispielhafte Ausführungsformen der vorliegenden Erfindung werden hiernach unter Bezugnahme auf die beigefügten Zeichnungen vorgestellt.
  • Erste beispielhafte Ausführungsform
  • 1 ist ein Konfigurationsblockdiagramm einer Texteingabevomchtung, die eine Ausführungsform der Erfindung darstellt. In 1 wird die durch einen Eingabeabschnitt 101 erfasste Eingabeäusserung in einen Äusserungs-Vorverarbeitungsabschnitt 102 eingegeben, wo sie einem A/D-Umwandlungsprozess unterworfen wird, dem ein Prozess des Herausziehens akustischer Merkmale folgt. Ein Wortkandidaten-Vorbereitungsabschnitt 103 erzeugt unter Bezugnahme auf ein Sprachmodell 104 eine vorbestimmte Anzahl von Wortkandidaten, die auf die bis dahin festgelegten Phrasen folgen. Hier schliesst das Sprachmodell 104 die Modellierung einer Beziehung zwischen Wörtern in einer Wortfolge ein. Im Falle einer ersten Äusserung liefert ein Kandidatenvorbereitungs-Befehlsabschnitt 109 nach Empfang eines Befehls von einem Betriebsabschnitt 108 einen den Anfang eines Satzes betreffenden Befehl an den Kandidatenvorbereitungsabschnitt 103. Nach Empfang dieses Befehls erzeugt der Kandidatenvorbereitungsabschnitt 103 unter Bezugnahme auf das Sprachmodell 104 die Wortkandidaten, die mit hoher Wahrscheinlichkeit am Anfang eines Satzes ausgesprochen werden. Die so vorbereiteten Wortkandidaten werden an einen Wortketten-Vorbereitungsabschnitt 106 übermittelt.
  • Andererseits empfängt der Vorbereitungsabschnitt 106 die akustischen Merkmale einer Satz um Satz gesprochenen Äusserung vom Verarbeitungsabschnitt 102 und speichert sie vorübergehend in einem Speicher 110. Der Vorbereitungsabschnitt 106 führt unter Bezugnahme auf ein akustisches Modell 105 und ein Wortlexikon 111 an einem Wortkandidaten vom Kandidaten-Vorbereitungsabschnitt 103 einen Erweiterungsprozess und einen Prozess der Aktualisierung der akustischen Bewertung aus. So wird eine vorbestimmte Anzahl von Wortketten als Minimalphrasenkandidaten vorbereitet. Das akustische Modell 105 enthält modellierte akustische Merkmale. Das Wortlexikon 111 enthält die Einträge von zu erkennenden Wörtern in Gestalt von Beispielen in phonetischen Symbolen. Der Erweiterungsprozess und der Prozess der Aktualisierung der akustischen Bewertung werden später eingehend betrachtet.
  • Ein Anzeigeabschnitt 107 zeigt so vorbereitete Wortkettenkandidaten an. Der Benutzer darf über den Betriebsabschnitt 108 aus den angezeigten Kandidaten eine korrekte Phrase auswählen. Einem Befehl des Betriebsabschnitts 108 entsprechend empfängt der Kandidatenvorbereitungs-Befehlsabschnitt 109 vom Wortketten-Vorbereitungsabschnitt 106 eine ausgewählte Phrase und gibt sie als eine fixierte Phrase aus. Inzwischen übermittelt der Befehlsabschnitt 109 die fixierte Phrase auch an den Kandidatenvorbereitungsabschnitt 103.
  • Der Wortkandidaten-Vorbereitungsabschnitt 103 empfängt die festgelegte Phrase und bereitet unter Bezugnahme auf das Sprachmodell 104 den nächsten Wortkandidaten vor, wie zuvor angedeutet. Der oben beschriebene Prozess wird wiederholt, bis ein eingegebener Satz fertig bearbeitet ist. Nach Abschluss werden die im Speicher 110 gespeicherten Merkmalsmengendaten gelöscht.
  • 2 ist eine Ansicht einer Mensch-Maschine-Schnittstelle an einem Mobiltelefon in der vorliegenden Ausführungsform. Mit einem Knopf VOICE (sprechen) 201 wird der Beginn einer Spracherkennung signalisiert. Mit einem Knopf CANDIDATE (Kandidat 202 wird die Anzeige oder Änderung eines Phrasenkandidaten angefordert. Auf einem Anzeigebildschirm 203 wird ein fixierter Text- oder Phrasenkandidat angezeigt. Mit einem Knopf FIX (fixieren) 204 wird ein Phrasenkandidat festgelegt.
  • 3 zeigt ein Ablaufdiagramm, das die Arbeit der erfindungsgemässen Texteingabevorrichtung skizziert. Die erfindungsgemässe Arbeit wird nun unter Verwendung der 1 bis 3 erklärt.
  • Zuerst drückt der Benutzer den Knopf VOICE 201 und spricht einen Satz aus, um eine Sprechäusserung einzugeben. Die Texteingabevorrichtung führt eine A/D-Umwandlung an der eingegebenen Äusserung aus. Dann führt die Vorrichtung Frame um Frame in Intervallen von zum Beispiel 10 ms einen Prozess des Herausziehens von Merkmalen wie der LPC-Cepstrum-Koeffizienten am umgewandelten Äusserungssignal aus (S301).
  • Der Benutzer drückt dann den Knopf CANDIDATE 202, um eine Anzeige von Phrasenkandidaten anzufordern (S302). Die Texteingabevorrichtung bereitet unter Verwendung der akustischen Merkmale der eingegebenen Äusserung und unter Verwendung von akustischen und Sprachmodellen eine Liste von Phrasenkandidaten vor und zeigt einen oder mehrere hochrangige Kandidaten auf dem Anzeigebildschirm 203 an (S303).
  • Die Phrasenkandidatenliste enthält Wortketten, die in der Reihenfolge der Höhe der integrierten Bewertung angeordnet sind, die die Summe einer akustischen Bewertung und einer gewichteten Sprachbewertung darstellt. Dabei kann die akustische Bewertung für eine Wortkette auf die folgende Weise bestimmt werden. Die akustische Bewertung, as(i, j) [acoustic score], für einen Eingabeframe i und einen Lexikonframe j kann mit Formel (1) berechnet werden:
    Figure 00100001
    wo t Transposition, –1 eine Umkehrmatrix, x(i) ein dem Eingabeframe i entsprechender Eingabevektor, Σ(j) und μ(j) eine Kovarianzmatrix und ein Mittelwertvektor der dem Lexikonframe j entsprechenden Merkmalsvektoren sind. Konkret umfasst das vorstehende akustische Modell einen Satz von Kovarianzmatrizen und Mittelwertvektoren der Lexikonframes. Der Eingabevektor ist ein aus der eingegebenen Äusserung herausgezogener Merkmalsvektor, zum Beispiel die LPC-Cepstrum-Koeffizienten. In ähnlicher Weise ist der Lexikonframe ein Merkmalsvektor, der aus dem akustischen Modell mit einem Wort herausgezogen wurde, das in einem Wortlexikon aufgezeichnet ist und das als dem Eingabeframe entsprechend angesehen wird. Man bemerke, dass die Merkmalsmengendaten nicht auf LPC-Cepstrum-Koeffizienten beschränkt sind, sondern MFCC (Melfrequenz-Cepstralkoeffizienten) verwendet werden können.
  • Die akustische Bewertung für ein Wort kann durch eine Anpassungsmethode wie DP-Matching bestimmt werden, d.h. indem eine Korrespondenzbeziehung zwischen einem Eingabeframe und einem Lexikonframe bestimmt und dann die akustischen Bewertungen addiert werden, die auf einem optimalen Pfad existieren, der mit der Korrespondenzbeziehung verbunden ist. Des Weiteren kann die akustische Bewertung für eine Wortkette bestimmt werden, indem auf Wörtern beruhende akustische Bewertungen zusammengezählt werden, während die zeitliche Ausrichtung zwischen benachbarten Worten berücksichtig wird.
  • Andererseits kann die Sprachbewertung für eine Wortkette auf folgende Weise bestimmt werden.
  • Konkret ist das Sprachmodell ein Satz von Verknüpfungswahrscheinlichkeiten P(w(i)|pre(i, n)), dass ein Wort w(i) auf die voraufgegangenen Wörter pre(i, n) in der Anzahl von n folgend erscheint. Die Sprachbewertung für eine Wortkette wird gewonnen, indem auf ein Sprachmodell Bezug genommen wird und eine Verknüpfungswahrscheinlichkeit oder deren logarithmischer Wert für jedes Wort bestimmt wird, während das voraufgegangene Wort berücksichtigt wird, woraufhin sie zusammengezählt werden.
  • Auf diese Weise kann aus akustischen Merkmalen der eingegebenen Äusserung und einem akustischen Modell eine akustische Bewertung gewonnen werden. Eine Sprachbewertung kann aus einer Wortkettenhypothese und einem Sprachmodell gewonnen werden. Nach einer Integration werden hoch bewertete Wortketten als Phrasenkandidaten in der Liste verzeichnet.
  • Als Nächstes bestätigt der Benutzer einen angezeigten Phrasenkandidaten. Wenn es kein gewünschter Kandidat ist, wird der Knopf CANDIDATE 202 gedrückt, um den nächsten Kandidaten anzuzeigen. Wenn ein gewünschter Kandidat angezeigt wird, dann drückt der Benutzer den Knopf FIX 204, um die Phrase zu fixieren (S304).
  • Das Fixieren wird Phrase um Phrase fortgesetzt. Wenn eine Fixierung der Phrasen nicht bis zum Ende einer Äusserung erfolgt ist, kehrt der Prozess zu Schritt S302 zurück, wodurch der Prozess am Ende der letzten fixierten Phrase vervollständigt wird (S305).
  • Wie im Vorausgegangenen wird in der Erfindung nach Fixierung eines Kandidaten durch die Phrasenkandidaten-Fixierungsoperation des Benutzers der nächste Phrasenkandidat vorbereitet. Folglich besteht kein Bedarf, die anderen Kandidaten zu sichern oder für eine Erkennung zu verarbeiten. Das Gerät kann daher mit einer verminderten Speicherkapazität zufriedenstellend arbeiten, so dass die Grösse des Geräts verringert werden kann.
  • Hierbei wird den linguistischen Elementen Beachtung geschenkt. Kurze Elemente wie Morpheme können selbst mit einer geringeren Zahl von Arten die Reichweite vergrössern und sind daher für eine Verringerung der Gerätegrösse geeignet. Als ein Auswahlblock für den Benutzer sind aber längere Komponenten wie zum Beispiel eine Minimalphrase leichter zu verstehen und werden daher bevorzugt. In der Erfindung werden Morpheme als die linguistischen Minimalelemente eingesetzt. Übrigens liefert die vorliegende Ausführungsform ein Beispiel dafür, dass eine kurze Phrase durch richtig verbundene Morpheme aufgebaut wird, was für die Wechselwirkung mit Menschen bevorzugt wird. Der Aufbauprozess wird als ein Prozess der Erweiterung von Morphemen bezeichnet.
  • Hierunter wird unter Verwendung der 4 bis 6 eine detaillierte Erklärung des Phrasenkandidaten-Vorbereitungsprozesses gegeben, der im Wortkettenvorbereitungsabschnitt 106 implementiert werden soll.
  • 4 ist ein Ablaufdiagramm, das die Prozedur eines erfindungsgemässen Phrasenkandidaten-Vorbereitungsprozesses zeigt. In dieser Ausführungsform wurde zuerst eine Liste von Phrasenkandidaten vorbereitet, indem auf Morphemen beruhende Kandidaten erweitert wurden (S401 bis S406). Als Nächstes wurde eine endgültige Phrasenkandidatenliste erstellt, indem die akustische Bewertung in den obigen Ergebnissen berücksichtigt wurde (S407 bis S412). 5 ist ein Beispiel für Daten des Prozesses, wo durch einen Erweiterungsprozess eine Liste von Phrasenkandidaten vorbereitet worden ist, die an eine fixierte Phrase „Your are standing" 500 angehängt werden könnten. 6 ist ein Beispiel für Daten des Prozesses, wo nach dem Erweiterungsprozess eine Phrasenkandidatenliste durch Aktualisierung der akustischen Bewertung erstellt wurde.
  • In 5 wird zuerst eine Liste der Phrasenkandidaten 510 vorbereitet, die an die fixierte Phrase „You are standing" 500 angehängt werden könnten. Diese kann mit einem Sprachmodell bestimmt werden, das im Voraus die Verknüpfungswahrscheinlichkeit aller Morpheme mit „You are standing" gelernt hatte.
  • Die bestimmte Morphemliste wird in der Reihenfolge der Höhe der Verknüpfungswahrscheinlichkeiten geordnet, wodurch eine Phrasenkandidatenliste 510 gewonnen wird. Jeder Phrasenkandidat erhält einen Anfangswert von 0 als Erweiterungs-Endflag (als ENDE in der Figur angedeutet), was die Möglichkeit einer Erweiterung von diesem Punkte an darstellt (S401). Wenn keine Erweiterung erfolgen soll, wird diese Erweiterungs-Endflag auf '1' gesetzt. In diesem Zustand ist der Phrasenkandidat zu kurz, um verstanden zu werden. Folglich sucht der Wortketten-Vorbereitungsabschnitt 106 nach denjenigen, die eine hohe Wahrscheinlichkeit der Verknüpfung zwischen diesem Phrasenkandidaten und dem folgenden Morphem besitzen, wodurch längere Phrasenkandidaten vorbereitet werden.
  • Aus diesem Grunde bestimmt der Wortkettenvorbereitungsabschnitt 106 zuerst Phrasenkandidaten für eine Erweiterung. Oben in der Liste angefangen, werden die Phrasenkandidaten betrachtet, um einen ersten Phrasenkandidaten auszuwählen, der eine Erweiterungs-Endflag '0' besitzt (S402). Die ausgewählten Kandidaten sind die in Liste 511 aufgeführten.
  • Als Nächstes bestimmt der Wortkettenvorbereitungsabschnitt 106 die Wahrscheinlichkeiten der Verknüpfung zwischen einem zu erweiternden Phrasenkandidaten und jedem Morphem, das an diesen Kandidaten angehängt werden könnte. Hier werden Morpheme, deren Verknüpfungswahrscheinlichkeit kleiner als ein im Voraus bestimmter Schwellenwert oder kleiner als die der Satzzeichen ist, sowie die Satzzeichen selbst zu „anderen Morphemen" zusammengefasst, um eine Summe ihrer Verknüpfungswahrscheinlichkeiten zu bestimmen. Die Verknüpfungswahrscheinlichkeit wird auf die Verknüpfungswahrscheinlichkeit „der anderen Morpheme" bezogen (S403). Die bestimmten Verknüpfungswahrscheinlichkeiten sind in einer Liste 512 aufgeführt, worin die Wahrscheinlichkeiten einer Verknüpfung von 'me' und 'the' mit 'by' verhältnismässig goss sind, während die anderen Wahrscheinlichkeiten als "$" zusammengefasst werden. In der Figur wird das Zeichen '$' entspeehend dem Konzept „die anderen Morpheme" verwendet. Das Zeichen '$' ist aber in den Listen 510, 520 und 530, die die Erweiterungs-Endflags (ENDE) zeigen, weggelassen. (Dies ist ähnlich wie 6, 8, 10 und 11, auf die später Bezug genommen wird.) Als Nächstes werden Erweiterungskandidaten vorbereitet. Die Verknüpfungswahrscheinlichkeit von „You are standing" → „by" wird mit der Verknüpfungswahrscheinlichkeit von „by" → „me" multipliziert, um eine Verknüpfungswahrscheinlichkeit von „You are standing" → „by me" zu liefern. Der Phrasenkandidat „by" wird als zu „by me" erweitert betrachtet. In ähnlicher Weise bereitet der Wortketten-Vorbereitungsabschnitt 106 einen Erweiterungskandidaten „by the" vor. Die Sammlung der „anderen Morpheme" hat viele Verzweigungen zu den folgenden Morphemen. Daher ist sie als eine Phrasengrenze geeignet. Der Wortketten-Vorbereitungsabschnitt 106 schliesst daher, dass die Erweiterung für die „anderen Morpheme" beendet ist. Entsprechend wird „by" unverändert zurückbehalten, um die Wahrscheinlichkeiten von „You are standing" → „by" und „by" → „($)" zu multiplizieren, wodurch eine Verknüpfungswahrscheinlichkeit geliefert wird. Ferner wird die Erweiterungs-Endflag auf '1' gesetzt (S404). Im Ergebnis wird eine Liste von erweiterten Kandidaten 513 vorbereitet. Damit ist eine erste Runde des Erweiterungsprozesses abgeschlossen.
  • Als Nächstes aktualisiert der Wortkettenvorbereitungsabschnitt 106 die Phrasenkandidatenliste. So schliesst der Wortkettenvorbereitungsabschnitt 106 den Prä-Erweiterungskandidaten 511 von der Phrasenkandidatenliste 510 aus. Dann fügt der Wortkettenvorbereitungsabschnitt 106 die Post-Erweiterungskandidaten 513 hinzu und ordnet sie in der Reihenfolge der Höhe der Verknüpfungswahrscheinlichkeiten (S405). Dies ergibt eine Liste von aktualisierten Phrasenkandidaten 520.
  • Dann führt der Wortkettenvorbereitungsabschnitt 106 eine Endbestimmung aus. In dieser Ausführungsform war der Abschluss nach Vollendung der 100. Runde von Erweiterungsprozessen, d.h. nach einer im Voraus festgelegten Anzahl von Malen (S406). Wenn sich der Erweiterungsprozess noch nicht in der 100. Runde befindet, wird er als nicht abgeschlossen betrachtet und kehrt zu S402 zurück. Indem der Erweiterungsprozess auf diese Weise fortgesetzt wurde, wurden die Kandidaten „by me", „by the way", „at home" usw. von korrekter Phrasenlänge gewonnen, wie in der Phrasenkandidatenliste 530 aufgefühut.
  • Übrigens kann die Endbestimmung den Prozess beenden, wenn die Anzahl von Phrasenkandidaten, deren Erweiterungs-Endflag auf '1' gesetzt ist, vom Spitzenplatz der Verknüpfungswahrscheinlichkeiten aus gezählt einen im Voraus festgelegten Wert erreicht. Ausserdem kann der Prozess zu dem Zeitpunkt beendet wo, wenn kein Phrasenkandidat mit einer Erweiterungs-Endflag von '0' vorhanden ist, dessen Verknüpfungswahrscheinlichkeit grösser als die der „anderen Morpheme" ist.
  • Als Nächstes wird ein Verfahren zur Vorbereitung einer Phrasenkandidatenliste erklärt, bei dem die Reihenfolge unter Berücksichtigung von akustischen Bewertungen festgelegt wird.
  • In 6 zeigt die fixierte Phrase „You are standing (Endzeit 503)" 600 an, dass im Schritt S301 der Zeitpunkt, zu dem die Äusserung „You are standing" abgeschlossen war (der Endzeitpunkt), bei 503 ms lag, und zwar gezählt von einer Anfangszeit, zu der der Knopf VOICE 201 gedrückt worden war.
  • Zuerst wird durch logarithmische Verarbeitung der Verknüpfungswahrscheinlichkeiten auf der Grundlage einer durch 100 Runden von Erweiterungsprozessen erzeugten Phrasenkandidatenliste 530 eine Sprachbewertung bestimmt. In dieser Ausführungsform wurde eine Sprachbewertung aus den Verknüpfungswahrscheinlichkeiten mit Formel (2) bestimmt: L = 20 log10l (2)wo L eine Sprachbewertung und 1 eine Verknüpfungswahrscheinlichkeit ist.
  • Der Anfangswert der akustischen Bewertung wurde auf einen genügend hohen Wert festgesetzt (hier auf 0,00). Inzwischen wurden die Sprachbewertung und die akustische Bewertung zu einer integrierten Bewertung summiert. Dann ordnete der Wortkettenvorbereitungsabschnitt 106 eine Phrasenkandidatenliste in der Reihenfolge der Höhe der integrierten Bewertungen, wodurch eine Liste 610 festgelegt wurde. Inzwischen wurde für die durch akustische Anpassung zu gewinnende Endzeit der Äusserung eine Endzeit 503 für die fixierte Phrase als Anfangswert für jeden Kandidaten festgesetzt (S407).
  • Als Nächstes bestimmte der Wortkettenvorbereitungsabschnitt 106 einen Kandidaten zur Aktualisierung der akustischen Bewertung. Unter Bezugnahme auf die Phrasenkandidaten und beginnend mit dem Spitzenplatz in der Liste wurde ein erster nicht aktualisierter Kandidat ausgewählt, dessen akustische Bewertung noch nicht aktualisiert worden war (S408). Man bemerke, dass die Entscheidung, ob die akustische Bewertung aktualisiert worden ist oder nicht, davon abhängt, ob eine Endzeit der fixierten Phrase und eine Endzeit der Phrasenkandidaten übereinstimmen oder nicht. In der Liste 610 wurde „by me" ausgewählt.
  • Eine akustische Bewertung für „by me" wird dann unter Verwendung einer Zeit von 503 ms oder von ungefähr 503 ms als Anfangszeitpunkt berechnet (S409). Im Ergebnis der akustischen Anpassung wurde der verhältnismässig hohe Wert von –12 für die akustische Bewertung aus Formel (1) in einem Äusserungsabschnitt mit einer Anfangszeit von 503 ms und einer Endzeit von 710 ms gewonnen (Liste 612).
  • Die repräsentativen Methoden einer solchen akustischen Anpassung schliessen Prozesse der A/D- Umwandlung des Äusserungssignals, die Umwandlung zu akustischen Merkmalen, die Berechnung einer akustischen Bewertung unter Bezugnahme auf das akustische Modell und die kumulative Berechnung der akustischen Bewertung durch DP-Matching ein. Diese Prozesse können auf einen kollektiven Prozess in der Äusserungseingabe im Schritt S301 und einen sequenziellen Prozess in der Berechnung der akustischen Bewertung in Schritt S409 aufgeteilt werden. Der kollektive Prozess verhindert eine doppelte Berechnung und ist daher für die Verarbeitungsmenge vorteilhaft. Der sequenzielle Prozess verlangt nicht, ein Ergebnis im Verlauf der Verarbeitung zu sichern, und ist daher bezüglich der Speicherkapazität vorteilhaft. Wie die Aufteilung erfolgen soll, muss in Abhängigkeit von der vorliegenden Hardwarekonfiguration bestimmt werden. In dieser Ausführungsform erfolgten die Berechnungen an der akustischen Bewertung unter Bezugnahme auf das akustische Modell und der kumulative Berechnungsprozess für die akustische Bewertung durch DP-Matching in Schritt S409.
  • Als Nächstes aktualisierte der Wortkettenvorbereitungsabschnitt 106 die Phrasenkandidatenwerte. Und zwar wurde die akustische Bewertung zu –12 aktualisiert, um die Summe aus Sprachbewertung und akustischer Bewertung zu bestimmen und dadurch die integrierte Bewertung zu aktualisieren. Die Phrasenkandidaten-Endzeit wurde unter Bezugnahme auf einen Anpassungsabschnitt aktualisiert (S410). Im Ergebnis wurde ein neuer Kandidat wie in Liste 613 angegeben.
  • Als Nächstes wird die Phrasenkandidatenliste aktualisiert. Und zwar löscht der Wortkettenvorbereitungsabschnitt 106 den vor Aktualisierung der akustischen Bewertung vorhandenen Kandidaten aus der Phrasenkandidatenliste 610. Dann fügt der Wortkettenvorbereitungsabschnitt 106 den Post-Aktualisierungskandidaten 613 zur Phrasenkandidatenliste 610 hinzu. Dann wird die Liste in der Reihenfolge der Höhe der integrierten Bewertungen umgeordnet (S411). Im Ergebnis wurde eine Phrasenkandidatenliste 620 gewonnen. Der obige Prozess wird als ein Prozess der Aktualisierung der akustischen Bewertung bezeichnet.
  • Als Nächstes führt der Wortkettenvorbereitungsabschnitt 106 eine Endbestimmung aus. In dieser Ausführungsform wurde abgeschlossen, wenn der Prozess der Aktualisierung der akustischen Bewertung 100 Runden, also eine vorbestimmte Anzahl von Malen, gelaufen war (S412). Bei weniger als 100 Runden wird nicht abgeschlossen, um zu Schritt S408 zurückzukehren. Auf diese Weise wurde durch Fortsetzung des Prozesses der Aktualisierung der akustischen Bewertung eine Liste von Phrasenkandidaten vorbereitet, die eine hohe Verwendungsfrequenz und eine hohe Bewertung der akustischen Anpassung an die Äusserung haben. In dieser Liste sind die Phrasenkandidaten in der Reihenfolge der Bewertungshöhe angeordnet.
  • Man bemerke, dass der Prozess durch die Endbestimmung abgeschlossen werden kann, wenn die Anzahl von Phrasenkandidaten, deren Endzeit sich von der fixierten Zeit unterscheidet, einen vorbestimmten Wert erreicht, wobei die Zählung mit dem Spitzenplatz der integrierten Bewertung beginnt.
  • Die Texteingabevorrichtung zeigt die wie oben gewonnene Phrasenkandidatenliste an, und zwar beginnend mit dem Phrasenkandidaten am Spitzenplatz. Daher führt die Texteingabevorrichtung zufriedenstellend einen Spracherkennungsprozess aus, der für ein relevantes Objekt der Phrase zur gegenwärtigen Zeit spezifisch ist, wodurch eine Texteingabe mit verringerter Verarbeitungsmenge und Speicherkapazität ermöglicht wird. Ferner können ein oder mehrere hochrangige Kandidaten in der Reihenfolge der Höhe der integrierten Bewertungen angezeigt werden, wodurch sich die Anzahl von Kandidaten verringert, die dem Benutzer dargeboten werden, um einen gewünschten Kandidaten zu gewinnen. Des Weiteren werden die Kandidaten Phrase um Phrase angezeigt, wodurch eine Auswahldarstellung geliefert wird, die für den Benutzer einfach zu erfassen ist.
  • Zweite beispielhafte Ausführungsform
  • Diese Ausführungsform unterscheidet sich von der ersten Ausführungsform dadurch, dass der Erweiterungsprozess und der Prozess der Aktualisierung der akustischen Bewertung im Wortkettenvorbereitungsabschnitt 106 ausgeführt werden, indem die Phrasenkandidatenliste gleichzeitig aktualisiert wird. Das Konfigurationsblockdiagramm, die Mensch-Maschine-Schnittstelle usw. der Texteingabevomchtung sind die gleichen wie die der ersten Ausführungsform.
  • 7 ist ein Ablaufdiagramm, das eine Prozedur des Phrasenkandidatenvorbereitungsprozesses der Texteingabevorrichtung gemäss der zweiten Ausführungsform der Erfindung zeigt.
  • 8 zeigt den Strom der Verarbeitungsdaten bei Vorbereitung einer Liste der Phrasenkandidaten, die an eine fixierte Phrase „You are standing" 500 angehängt werden könnten, durch abwechselnde Wiederholung des Erweiterungsprozesses und des akustischen Bewertungsprozesses.
  • Eine Erklärung wird hierunter konkret anhand der 7 und 8 gegeben.
  • Zuerst ist der Schritt S701 für die Aufstellung einer Liste der Phrasenkandidaten 810, die an die fixierte Phrase „You are standing" 500 angefügt werden könnten, der gleiche wie Schritt S401 der ersten Ausführungsform. Dann wird die Sprachbewertung, die durch logarithmische Verarbeitung der Verknüpfungswahrscheinlichkeiten der Kandidatenliste 801 gewonnen wird, zu einer akustischen Bewertung addiert, um eine integrierte Bewertung zu bestimmen und dadurch eine akustisch bewertete Kandidatenliste 802 vorzubereiten (S702). Als Nächstes wird, vom Spitzenplatz der akustisch bewerteten Kandidatenliste beginnend, ein nicht erweiterter Kandidat gesucht. So wird ein erster Kandidat als ein Kandidat für Erweiterungsverarbeitung gewonnen (S703). In Liste 802 ist der Kandidat durch „by" gegeben. Für diesen Kandidaten werden „me", „the" und „($)", die in ihrer Verknüpfungswahrscheinlichkeit vergleichbar gross sind, von „by" ausgehend unter Verwendung eines Sprachmodells ähnlich wie in S407 bestimmt (S704). Diese Phrasenkandidaten werden ähnlich wie in der ersten Ausführungsform zur Kandidatenliste 802 hinzugefügt. Die Liste wird in der Reihenfolge der Höhe der integrierten Bewertungen umgeordnet, wodurch neue Phrasenkandidaten 803 gewonnen werden (S705).
  • Als Nächstes wird der Kandidat gesucht, der die gleiche Endzeit wie die des fixierten Phrasenkandidaten besitzt, und zwar beginnend mit dem Spitzenplatz der Kandidatenliste, um eine akustische Bewertung an einem ersten Kandidaten zu bestimmen (S706). In Liste 803 entspricht „by me" dieser Bedingung. Indem eine akustische Bewertung für diesen Kandidaten in ähnlicher Weise wie in S409 bestimmt wurde, wurde –12 als ein vergleichsweise hoher Wert der akustischen Bewertung in einem Äusserungsabschnitt gefunden, der eine Anfangszeit von 503 ms und eine Endzeit von 710 ms besitzt. Dies widerspiegelt sich in der Phrasenkandidatenliste 803 (S707). Die Liste wurde nach der Höhe der integrierten Bewertung umgeordnet, wodurch die Phrasenkandidaten 804 gewonnen wurden (S708). Der Prozess der Schritte S703 bis S708 wurde eine im Voraus festgelegte Anzahl von Malen wiederholt, um eine Phrasenkandidatenliste 806 zu gewinnen. In dieser Ausführungsform betrug die Anzahl der Wiederholungen 100. In dieser Ausführungsform war das Ergebnis das gleiche wie das in der ersten Ausführungsform erhaltene Ergebnis.
  • Übrigens kann die Endbestimmung dieser Ausführungsform den Prozess beenden, wenn die Prozesse der Erweiterung und der akustischen Bewertung eine vorbestimmte Anzahl von Malen wiederholt worden sind. Es ist aber auch möglich, ein Ende zu bestimmen, wenn die Anzahl von Phrasenkandidaten, deren Erweiterungs-Endflag auf '1' gesetzt ist, vom Spitzenplatz aus gezählt einen vorbestimmten Wert erreicht.
  • Die Endbestimmung kann den Prozess auch beenden, wenn die Anzahl von Phrasenkandidaten, deren Endzeit sich von der fixierten Zeit unterscheidet, vom Spitzenplatz der integrierten Bewertung aus gezählt einen vorausbestimmten Wert erreicht.
  • Andernfalls kann die Endbestimmung mit der früher endenden von zwei Methoden erfolgen, nämlich der Methode, in der die Erweiterungs-Endflag verwendet wird, wie vorstehend beschrieben, oder der Methode, die eine Endzeit verwendet.
  • Dritte beispielhafte Ausführungsform
  • Diese Ausführungsform unterscheidet sich von der ersten Ausführungsform darin, dass die Prozesse der Erweiterung und der akustischen Bewertung im Wortkettenvorbereitungsabschnitt in der gegenüber der ersten Ausführungsform umgekehrten Reihenfolge ausgeführt werden. Das Konfigurationsblockdiagramm, die Mensch-Maschine-Schnittstelle usw. der Texteingabevomchtung sind die gleichen wie die der ersten Ausführungsform.
  • 9 ist ein Ablaufdiagramm, das eine Prozedur des Phrasenkandidatenvorbereitungsprozesses in der Texteingabevorrichtung gemäss der dritten Ausführungsform der Erfindung zeigt.
  • 10 zeigt den Strom der Verarbeitungsdaten bei Vorbereitung einer Liste der Phrasenkandidaten, die an eine fixierte Phrase „You are standing" 500 angehängt werden könnten, indem ein Erweiterungsprozess nach Abschluss der akustischen Bewertung ausgeführt wird.
  • Eine Erklärung wird hierunter konkret anhand der 9 und 10 gegeben. Zuerst ist der Schritt S901 für die Aufstellung einer Liste von Phrasenkandidaten 1001, die an die fixierte Phrase „You are standing" 500 angefügt werden könnten, der gleiche wie Schritt S401 der ersten Ausführungsform. Als Nächstes wird zur Sprachbewertung, die durch logarithmische Verarbeitung der Verknüpfungswahrscheinlichkeiten der Kandidatenliste gewonnen wird, eine akustische Bewertung addiert, um eine integrierte Bewertung zu bestimmen und dadurch eine vorläufige akustisch bewertete Kandidatenliste 1002 vorzubereiten (S902). Dann wird, vom Spitzenplatz in der Kandidatenliste 1002 beginnend, ein Kandidat gesucht, der eine Endzeit besitzt, die sich von einer Endzeit 503 des fixierten Phrasenkandidaten unterscheidet. Dadurch wird ein erster Kandidat als ein Kandidat für die Berechung einer akustischen Bewertung bestimmt (S903). Eine akustische Bewertung für diesen Kandidaten wird ähnlich wie in Schritt S409 berechnet (S904). In der Liste 1002 wurde „by" ausgewählt. Durch die Berechnung der akustischen Bewertung wurde –6 als eine vergleichsweise hohe akustische Bewertung für den Äusserungsabschnitt gefunden, der eine Anfangszeit von 503 ms und eine Endzeit von 604 ms besitzt (S904). Dies widerspiegelte sich in der Phrasenkandidatenliste 1002 (S905). Die Liste wurde nach der Höhe der integrierten Bewertung umgeordnet, wodurch neue Phrasenkandidaten 1003 gewonnen wurden (S906). Der Prozess der Schritte S903 bis S906 wurde eine im Voraus festgesetzte Anzahl von Malen wiederholt (S907). In dieser Ausführungsform war die Anzahl von Wiederholungen 100, wodurch eine Kandidatenliste 104 gewonnen wurde.
  • Als Nächstes wurde für diese Kandidatenliste 1004 ein Sprachmodell verwendet, um einen Erweiterungsprozess auszuführen. Als erstes wurde, beginnend mit dem Spitzenplatz in der Kandidatenliste 1004, eine Auswahl für einen ersten Kandidaten getroffen, dessen Erweiterungs-Endflag nicht auf '1' gesetzt ist (S908).
  • Dann wird Bezug genommen auf eine Verknüpfungswahrscheinlichkeit für das Sprachmodell (S909). Ähnlich wie im Schritt S403 werden „me", „the" und „($)", deren Verknüpfungswahrscheinlichkeit vergleichsweise gross ist, von „by" aus bestimmt (S910).
  • Diese Phrasenkandidaten werden ähnlich wie in der ersten Ausführungsform zur Kandidatenliste 1004 hinzugefügt. Diese Liste wird der Höhe der integrierten Bewertung gemäss umgeordnet, wodurch neue Phrasenkandidaten 1005 gewonnen werden (S911).
  • Der Prozess der Schritte S908 bis S911 wurde die im Voraus festgesetzten 100 Male wiederholt (S912), um die Phrasenkandidaten 1006 zu gewinnen. Da die akustische Bewertung nur einen ersten Morphemwert verwendet, unterscheidet sich das oben angeführte Ergebnis von dem der ersten oder zweiten Ausführungsform. Jedoch wurden ähnliche hochrangige Phrasen erhalten.
  • Übrigens schloss in dieser Ausführungsform die Endbestimmung im Prozess der Aktualisierung der akustischen Bewertung den Prozess durch eine im Voraus bestimmte Anzahl von Wiederholungen des Aktualisierungsprozesses ab. Es ist aber möglich, den Prozess abzuschliessen, wenn die Anzahl von Phrasenkandidaten, deren Endzeit sich von der fixierten Zeit unterscheidet, vom Spitzenplatz der integrierten Bewertung aus gezählt einen vorbestimmten Wert erreicht.
  • Die Endbestimmung im Erweiterungsprozess kann den Prozess ebenfalls abschliessen, wenn die Anzahl von Phrasenkandidaten, deren Erweiterungs-Endflag auf '1' gesetzt ist, vom Spitzenplatz aus gezählt einen vorbestimmten Wert erreicht.
  • In 11 wird der Erweiterungsprozess ähnlich wie in 10 ausgeführt, nachdem der Prozess der Aktualisierung der akustischen Bewertung beendet ist. Dieses Prozessdatenbeispiel unterscheidet sich aber von 10 dadurch, dass im Erweiterungsprozess die erweiterten Kandidaten im Schritt 910 vorbereitet wurden und dass danach die akustische Bewertung für das angeknüpfte Morphem berechnet und zur akustischen Bewertung vor der Erweiterung hinzugefügt wurde.
  • In einer Kandidatenliste 1005 in 11 werden „by me" und „by the" in ihrer Endzeit zu „710" bzw. „696" aktualisiert. Auf diese Weise wird bevorzugt, die akustische Bewertung zusammen mit einem Erweiterungsprozess zu aktualisieren, um die akustische Bewertung für den Phrasenkandidaten richtig zu bestimmen.
  • Übrigens wurde in Ausführungsformen 1 bis 3 am Beispiel erklärt, dass eine Phrasenkandidatenliste vorbereitet und ein Kandidat durch Eingabe über den Fixierknopf fixiert wird, wonach ein nächster Phrasenkandidat vorbereitet wird. Um die Zeit zwischen der Fixierung eines Kandidaten durch den Benutzer und der Anzeige des nächsten Phrasenkandidaten zu verkürzen, ist es aber möglich, während einer Zeit, zu der ein Kandidat angezeigt wird, den Kandidaten zu benutzen, um einen nächsten Phrasenkandidaten vorzubereiten. Andererseits kann, wenn der gewünschte Kandidat in der Anzeige der Kandidatenliste fehlt, der Knopf VOICE erneut gedrückt werden, um nur die Phrase auszusprechen, die erkannt werden soll, wodurch das Gerät veranlasst wird, einen Kandidaten neu vorzubereiten.
  • Wie oben beschrieben, ist es der vorliegenden Erfindung gemäss dem Benutzer erlaubt, einen auf Worten oder Phrasen beruhenden Suchprozess an der eingegebenen, auf einem oder mehreren Sätzen beruhenden Sprechäusserung auszuführen, um vom Anfang eines Satzes an Kandidaten sequenziell auszuwählen und zu fixieren. Dadurch wird die vorteilhafte Wirkung erzielt, eine Texteingabe zu realisieren, während sowohl eine Verringerung der Grösse des Geräts als auch eine Entlastung von mühsamer Eingabe von Sprechäusserungen erreicht wird.

Claims (19)

  1. Verfahren zur Texteingabe, dadurch gekennzeichnet, dass es umfasst: a) einen Schritt, einen Satz durch Sprechen einzugeben; b) einen Schritt, durch Prozesse der Spracherkennung der eingegebenen Sprechäusserung Wortkettenkandidaten zu finden, die aus einem oder mehreren Wörtern bestehen; c) einen Schritt, die Kandidaten anzuzeigen; und d) einen Schritt, einen angezeigten und durch einen Benutzer ausgewählten Kandidaten entgegenzunehmen; wobei die eingegebene Sprechäusserung erkannt wird, für die der Kandidatenfindungsschritt (b), der Anzeigeschritt (c) und der Auswahlschritt (d) auf der Grundlage des ausgewählten Kandidaten der Reihe nach vom Anfang der eingegebenen Sprechäusserung an wiederholt werden.
  2. Verfahren zur Texteingabe nach Anspruch 1, dadurch gekennzeichnet, dass der Kandidatenfindungsschritt (b) eine Wortkette auf der Grundlage von Sprachinformation und akustischer Information für die ausgewählten Wortketten findet, wenn im Voraus ausgewählte Wortketten vorhanden sind.
  3. Verfahren zur Texteingabe nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Wortketten ein Satz sind, der durch einen Erweiterungsprozess aufgebaut wurde, um die Wortverknüpfung in Übereinstimmung mit einer auf Wörtern beruhenden Verknüpfungswahrscheinlichkeit im Kandidatenfindungsschritt (b) zu wiederholen.
  4. Verfahren zur Texteingabe nach Anspruch 3, dadurch gekennzeichnet, dass der Kandidatenfindungschritt (b) weiter einen Prozess beinhaltet, den Kandidaten durch ein akustisches Bewertungsergebnis zu aktualisieren.
  5. Verfahren zur Texteingabe nach Anspruch 4, dadurch gekennzeichnet, dass der Erweiterungsprozess beendet wird, wenn die Anzahl von Satzkandidaten, die dem Erweiterungsprozess unterworfen worden sind, eine vorbestimmte Anzahl erreicht, die vom Spitzenplatz in einem Sprachbewertungsergebnis aus gezählt wird.
  6. Vorrichtung zur Texteingabe, dadurch gekennzeichnet, dass sie umfasst: einen Eingabeabschnitt (101) zur Eingabe einer Sprechäusserung; einen Abschnitt (102) zur Vorverarbeitung der Sprechäusserung, um für die Sprechäusserung eine Merkmalssumme aus dem Eingabeabschnitt herauszuziehen; einen Abschnitt (103) zur Vorbereitung von Wortkandidaten, um unter Verwendung eines Sprachmodells einen Folgewortkandidaten für eine festgelegte Wortkette vorzubereiten; einen Abschnitt (106) zur Wortkettenvorbereitung, um auf der Basis von einem bis mehreren Wörtern aus der herausgezogenen Merkmalssumme und aus dem Wortkandidaten Wortkettenkandidaten vorzubereiten, indem zumindest entweder ein Sprachmodell (104) oder ein akustisches Modell (105) verwendet wird; einen Anzeigeabschnitt (107) zur Anzeige der Wortkettenkandidaten; einen Betriebsabschnitt (108) für die Entgegennahme der Benutzerauswahl eines angezeigten Wortkettenkandidaten; und einen Abschnitt (109) zur Kandidatenvorbereitungsbeauftragung, um den Wortkandidatenvorbereitungsabschnitt (103) zu beauftragen, aus der durch den Benutzer ausgewählten Wortkette einen Folgewortkandidaten vorzubereiten.
  7. Vorrichtung zur Texteingabe nach Anspruch 6, dadurch gekennzeichnet, dass der Wortkettenvorbereitungsabschnitt durch einen Erweiterungsprozess, der die Wortverknüpfung in Übereinstimmung mit der auf Wörtern beruhenden Verknüpfungswahrscheinlichkeit wiederholt, einen auf Sätzen beruhenden Kandidaten vorbereitet.
  8. Vorrichtung zur Texteingabe nach Anspruch 7, dadurch gekennzeichnet, dass der Wortkettenvorbereitungsabschnitt weiter einen Aktualisierungsprozess beinhaltet, der auf einem akustischen Bewertungsergebnis beruht.
  9. Vorrichtung zur Texteingabe nach Anspruch 8, dadurch gekennzeichnet, dass der Wortkettenvorbereitungsabschnitt den Erweiterungsprozess beendet, wenn die Anzahl von Satzkandidaten, die dem Erweiterungsprozess unterworfen worden sind, eine vorbestimmte Anzahl erreicht, die vom Spitzenplatz in einem Sprachbewertungsergebnis aus gezählt wird.
  10. Mobiltelefon, das eine Texteingabevorrichtung nach Anspruch 6 besitzt.
  11. Mobiltelefon, das eine Texteingabevorrichtung nach Anspruch 7 besitzt.
  12. Mobiltelefon, das eine Texteingabevomchtung nach Anspruch 8 besitzt.
  13. Mobiltelefon, das eine Texteingabevorrichtung nach Anspruch 9 besitzt.
  14. Speichermedium, um, ein Programm zur Verfügung zu stellen, das dafür geeignet ist, einen Computer zu veranlassen, das Verfahren zur Texteingabe nach Anspruch 1 durchzuführen.
  15. Speichermedium, um ein Programm gemäss Anspruch 14 zur Verfügung zu stellen, dadurch gekennzeichnet, dass der Kandidatenfindungsschritt (b) weiter einen Prozess beinhaltet, den Kandidaten auf Grund eines akustischen Bewertungsergebnisses zu aktualisieren.
  16. Speichermedium, um ein Programm gemäss Anspruch 15 zur Verfügung zu stellen, dadurch gekennzeichnet, dass der Erweiterungsprozess beendet wird, wenn die Anzahl von Satzkandidaten, die dem Erweiterungsprozess unterworfen worden sind, eine vorbestimmte Anzahl erreicht, die vom Spitzenplatz in einem Sprachbewertungsergebnis aus gezählt wird.
  17. Computerprogrammprodukt, um einen Computer zu veranlassen, das in Anspruch 1 vorgestellte Verfahren zur Texteingabe zu implementieren, wenn das Computerprogrammprodukt in den Computer geladen wird.
  18. Computerprogrammprodukt nach Anspruch 17, dadurch gekennzeichnet, dass der Kandidatenfindungsschritt (b) weiter einen Prozess beinhaltet, den Kandidaten durch ein akustisches Bewertungsergebnis zu aktualisieren.
  19. Computerprogrammprodukt nach Anspruch 18, dadurch gekennzeichnet, dass der Erweiterungsprozess beendet wird, wenn die Anzahl von Satzkandidaten, die dem Erweiterungsprozess unterworfen worden sind, eine vorbestimmte Anzahl erreicht, die vom Spitzenplatz in einem Sprachbewertungsergebnis aus gezählt wird.
DE60113787T 2000-11-22 2001-11-15 Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung Expired - Fee Related DE60113787T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000355416 2000-11-22
JP2000355416 2000-11-22

Publications (2)

Publication Number Publication Date
DE60113787D1 DE60113787D1 (de) 2006-02-16
DE60113787T2 true DE60113787T2 (de) 2006-08-10

Family

ID=18827831

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60113787T Expired - Fee Related DE60113787T2 (de) 2000-11-22 2001-11-15 Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung

Country Status (3)

Country Link
US (1) US20020091520A1 (de)
EP (1) EP1209659B1 (de)
DE (1) DE60113787T2 (de)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7680648B2 (en) * 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
WO2007012912A1 (en) * 2005-07-27 2007-02-01 Nokia Corporation Method and device for entering text
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
US8436815B2 (en) 2007-05-25 2013-05-07 Microsoft Corporation Selective enabling of multi-input controls
GB0905457D0 (en) 2009-03-30 2009-05-13 Touchtype Ltd System and method for inputting text into electronic devices
GB0917753D0 (en) 2009-10-09 2009-11-25 Touchtype Ltd System and method for inputting text into electronic devices
US9424246B2 (en) 2009-03-30 2016-08-23 Touchtype Ltd. System and method for inputting text into electronic devices
US10191654B2 (en) 2009-03-30 2019-01-29 Touchtype Limited System and method for inputting text into electronic devices
US9189472B2 (en) 2009-03-30 2015-11-17 Touchtype Limited System and method for inputting text into small screen devices
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
CN104077105B (zh) * 2013-03-29 2018-04-27 联想(北京)有限公司 一种信息处理方法以及一种电子设备
CN104317476B (zh) * 2014-09-26 2018-03-06 百度在线网络技术(北京)有限公司 输入法程序界面的控制方法及装置
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
KR102380833B1 (ko) * 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
EP3089159B1 (de) 2015-04-28 2019-08-28 Google LLC Korrekturspracherkennung mittels selektivem re-speak
CN105183312A (zh) * 2015-08-28 2015-12-23 百度在线网络技术(北京)有限公司 输入处理方法及装置
GB201610984D0 (en) 2016-06-23 2016-08-10 Microsoft Technology Licensing Llc Suppression of input images
WO2018020759A1 (ja) * 2016-07-26 2018-02-01 ソニー株式会社 情報処理装置、および情報処理方法
JP7243106B2 (ja) * 2018-09-27 2023-03-22 富士通株式会社 修正候補提示方法、修正候補提示プログラムおよび情報処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0679234B2 (ja) * 1989-05-12 1994-10-05 シャープ株式会社 音声認識装置
AU3136895A (en) * 1994-07-21 1996-02-22 International Meta Systems, Inc. System and method for facilitating speech transcription
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5829000A (en) * 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
JP3531468B2 (ja) * 1998-03-30 2004-05-31 株式会社日立製作所 文書処理装置及び方法
US6178401B1 (en) * 1998-08-28 2001-01-23 International Business Machines Corporation Method for reducing search complexity in a speech recognition system

Also Published As

Publication number Publication date
EP1209659A2 (de) 2002-05-29
EP1209659A3 (de) 2004-01-02
DE60113787D1 (de) 2006-02-16
US20020091520A1 (en) 2002-07-11
EP1209659B1 (de) 2005-10-05

Similar Documents

Publication Publication Date Title
DE60113787T2 (de) Verfahren und Vorrichtung zur Texteingabe durch Spracherkennung
DE69421324T2 (de) Verfahren und Vorrichtung zur Sprachkommunikation
DE69827988T2 (de) Sprachmodelle für die Spracherkennung
DE112014006542B4 (de) Einrichtung und Verfahren zum Verständnis von einer Benutzerintention
DE60201262T2 (de) Hierarchische sprachmodelle
DE60035001T2 (de) Sprachsynthese mit Prosodie-Mustern
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE102017124264B4 (de) Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen
DE69829235T2 (de) Registrierung für die Spracherkennung
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
DE112014002819B4 (de) System und Verfahren zur Erkennung von Sprache
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE69625950T2 (de) Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem
DE69622565T2 (de) Verfahren und vorrichtung zur dynamischen anpassung eines spracherkennungssystems mit grossem wortschatz und zur verwendung von einschränkungen aus einer datenbank in einem spracherkennungssystem mit grossem wortschatz
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69917961T2 (de) Phonembasierte Sprachsynthese
DE60309822T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60318544T2 (de) Sprachmodell für die Spracherkennung
DE4397100C2 (de) Verfahren zum Erkennen von Sprachsignalen und Spracherkennungssystem mit rekursiver Grammatik mit endlicher Zustandsanzahl
DE69427717T2 (de) Sprachdialogsystem
DE69917960T2 (de) Phonembasierte Sprachsynthese
DE69738116T2 (de) Lokalisierung eines Musters in einem Signal
DE112010005425T5 (de) Spracherkennungsvorrichtung
DE112012002190T5 (de) Informationsgerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8339 Ceased/non-payment of the annual fee