DE60128816T2 - Spracherkennungsverfahren mit ersetzungsbefehl - Google Patents

Spracherkennungsverfahren mit ersetzungsbefehl Download PDF

Info

Publication number
DE60128816T2
DE60128816T2 DE60128816T DE60128816T DE60128816T2 DE 60128816 T2 DE60128816 T2 DE 60128816T2 DE 60128816 T DE60128816 T DE 60128816T DE 60128816 T DE60128816 T DE 60128816T DE 60128816 T2 DE60128816 T2 DE 60128816T2
Authority
DE
Germany
Prior art keywords
information
text information
text
word
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60128816T
Other languages
English (en)
Other versions
DE60128816D1 (de
Inventor
Heribert Wutte
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60128816D1 publication Critical patent/DE60128816D1/de
Publication of DE60128816T2 publication Critical patent/DE60128816T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

  • Die Erfindung bezieht sich auf ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer falsch erkannten Textteilinformation mit einem Sprachbefehl.
  • Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst.
  • Ein solches Spracherkennungsverfahren und ein solches Computerprogrammprodukt sind aus US-A-5.794.189 bekannt und werden durch einen Computer abgearbeitet, an den ein Mikrofon und ein Monitor angeschlossen sind. Das bekannte Spracherkennungsverfahren weist ein Nahbereichs-Texteditierverfahren auf, mit dem ein von dem Spracherkennungsverfahren innerhalb des zuletzt erkannten Satzes des erkannten Textes falsch erkanntes Wort mit Sprachbefehlen editiert werden kann.
  • Wenn der Benutzer bemerkt, dass der zuletzt von dem Spracherkennungsverfahren erkannte Satz ein falsch erkanntes Wort enthält, dann spricht er einen einteiligen Sprachbefehl „Oops" in das Mikrofon. Hierauf wird ein Editierfenster des Spracherkennungsverfahrens geöffnet, das den fehlerhaften Satz enthält. Anschließend kann der Benutzer das falsch erkannte Wort neuerlich sprechen, woraufhin das Nahbereichs-Texteditierverfahren durch Analyse der bei der Erkennung des fehlerhaften Satzes ermittelten Sprachanalyseinformationen versucht, das falsch erkannte Wort in dem fehlerhaften Satz zu finden und durch das neuerlich gesprochene und erkannte Wort zu ersetzen. Wenn der Benutzer die Ersetzung durch einen weiteren einteiligen Sprachbefehl bestätigt, dann wird das falsch erkannte Wort in dem fehlerhaften Satz des erkannten Textes durch das neuerlich gesprochene Wort ersetzt und das Editierfenster geschlossen.
  • Bei dem bekannten Nahbereichs-Editierverfahren hat sich als Nachteil erwiesen, dass der Benutzer zu mehreren Zeitpunkten in der richtigen Abfolge und abhängig von der mit dem Monitor dargestellten Information zwei unterschiedliche einteilige Sprachbefehle („Oops"; „Accept") und das zu ersetzende Wort in das Mikrofon sprechen muss, was relativ kompliziert ist. Weiterhin hat sich bei dem bekannten Nahbereichs-Editierverfahren als Nachteil erwiesen, dass das falsch erkannte Wort in dem fehlerhaften Satz nicht mit ausreichender Zuverlässigkeit gefunden wird.
  • Das bekannte Spracherkennungsverfahren weist weiterhin ein Dokument-Texteditierverfahren zum Editieren eines Wortes innerhalb des gesamten Textes eines aktiven Dokuments auf. Hierbei können sowohl von dem Spracherkennungsverfahren falsch oder richtig erkannte Wörter als auch mit der Tastatur des Computers eingegebene Wörter editiert werden. Wenn der Benutzer eines der Wörter des Textes ändern möchte, dann spricht er „Select" und das Wort, das er ändern möchte, in das Mikrofon des Computers, womit ein zweiteiliger Sprachbefehl zum Markieren eines Wortes offenbart ist. Dann erzeugt das bekannte Dokument-Texteditierverfahren eine Baumstruktur des gesamten Textes des Dokuments und sucht den zu dem gesprochenen Wort erkannten Text in der Baumstruktur.
  • Wenn der Computer ein Wort des Textes selektiert und markiert und mit dem Monitor darstellt, dann kann der Benutzer die Selektion mit einem einteiligen Sprachbefehl bestätigen oder widerrufen. Wenn der Benutzer die Selektion bestätigt und anschließend ein neues Wort in das Mikrofon spricht, dann wird das markierte Wort durch das neue Wort ersetzt.
  • Bei dem bekannten Dokument-Editierverfahren hat sich als Nachteil erwiesen, dass der Benutzer zu mehreren Zeitpunkten in der richtigen Abfolge und abhängig von der mit dem Monitor dargestellten Information zwei unterschiedliche Sprachbefehle („Select"; „Accept") und sowohl das zu ersetzende Wort als auch das neue Wort in das Mikrofon sprechen muss, was relativ kompliziert ist. Weiterhin hat sich bei dem bekannten Dokument-Editierverfahren als Nachteil erwiesen, dass das zu ersetzende Wort nicht mit ausreichender Zuverlässigkeit gefunden wird.
  • Die Erfindung hat sich zur Aufgabe gestellt, die vorstehend angeführten Schwierigkeiten zu beseitigen und ein verbessertes Spracherkennungsverfahren gemäß Anspruch 1 und ein verbessertes Computerprogrammprodukt gemäß Anspruch 6 zu schaffen. Zur Lösung dieser Aufgabe sind bei einem solchen Spracherkennungsverfahren erfindungsgemäße Merkmale vorgesehen, so dass das Spracherkennungsverfahren durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
  • Ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer in einer ersten Textinformation falsch erkannten Textteilinformation mit einem in einer zweiten Textinformation erkannten vierteiligen Sprachbefehl, wobei das Spracherkennungsverfahren die folgenden Schritte aufweist:
    • • Empfangen vom Sprachinformation und Erkennen der ersten Textinformation und der zweiten Textinformation;
    • • Prüfen, ob ein an der ersten Position der zweiten Textinformation enthaltenes Wort mit einem ersten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt, und prüfen, ob ein an dritter oder weiterer Position der zweiten Textinformation enthaltenes Wort mit einem dritten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt, wobei bei einem positiven Ergebnis der Prüfungen der nächste Schritt des Texteditierverfahrens abgearbeitet wird;
    • • Prüfen, ob in der ersten Textinformation die falsch erkannte Textteilinformation enthalten ist, die durch einen zwischen dem ersten Sprachteilbefehl und dem dritten Sprachteilbefehl enthaltenen zweiten Sprachteilbefehl der zweiten Textinformation gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung der nächste Schritt des Texteditierverfahrens abgearbeitet wird;
    • • Ersetzen der falsch erkannten Textteilinformation der ersten Textinformation durch eine neue Textteilinformation, die nach dem dritten Sprachteilbefehl als vierter Sprachteilbefehl des vierteiligen Sprachbefehls in der zweiten Textinformation enthalten ist.
  • Zur Lösung dieser Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale vorgesehen, so dass das Computerprogrammprodukt durch die nachfolgend beschriebenen Merkmale gekennzeichnet werden kann.
  • Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des Spracherkennungsverfahrens gemäß Anspruch 1 abgearbeitet werden, wenn das Produkt auf dem Computer läuft.
  • Hierdurch kann ein Benutzer durch nur einmaliges Sprechen eines vierteiligen Sprachbefehls ein falsch erkanntes Wort durch ein neues Wort ersetzen. Beispielsweise könnte ein Benutzer „Replace test by text" sprechen, um das falsch erkannte Wort „test" durch das Wort „text" zu ersetzen. Zusätzlich kann vor dem Ersetzen der falsch erkannten Textinformation eine „Re-Calculation" durchgeführt werden, bei der unter Ausnutzung der bei der Erkennung der ersten Textinformation ermittelten Sprachanalyseinformationen und der zusätzlichen in dem Sprachbefehl enthaltenen Informationen die erste Textinformation mit der größten Wahrscheinlichkeit einer richtigen Erkennung ermittelt wird. Die in dem Sprachbefehl enthaltenen Informationen enthalten auch die Information über die Aussprache des meist sehr ähnlich klingenden falsch erkannten Worts „test" und des eigentlich zu erkennenden Worts „text". Das Spracherkennungsverfahren hat daher bei der „Re-Calculation" der ersten Textinformation mit diesen zusätzlichen Informationen eine besonders genaue Sprachinformation zur Verfügung, weshalb eine hierbei ermittelte Editierinformation mit einer besonders hohen Zuverlässigkeit der durch den Benutzer gewünschten Ersetzung entspricht.
  • Besonders vorteilhaft ist es, wenn der Sprachbefehl nicht für das gesamte Dokument, sondern nur für den Textteil der ersten Textinformation wirksam ist, der gerade mit dem Monitor dargestellt wird. Wenn der Sprachbefehl eine falsche Ersetzung bewirkt hat, dann kann diese sehr leicht durch beispielsweise durch den Sprachbefehle „Undo" rückgängig gemacht werden.
  • Bei dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als vorteilhaft erwiesen, die Maßnahmen gemäß Anspruch 2 vorzusehen. Dies hat den Vorteil, dass der Benutzer bei einem Diktat nach einer Korrektur eines falsch erkannten Wortes unmittelbar weiter diktieren kann, ohne einen Sprachbefehl zur Positionierung des Cursors sprechen zu müssen.
  • Bei dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als vorteilhaft erwiesen, die Maßnahmen gemäß Anspruch 3 vorzusehen. Dies hat den Vorteil, dass ein Sprachbefehl zum Ersetzen eines falsch erkannten Wortes erhalten wird, der besonders einfach zu sprechen ist und der trotzdem sämtliche für die Ersetzung nötigen Informationen enthält.
  • Gemäß den Maßnahmen des Anspruchs 4 werden bei der Erkennung der zweiten Textinformation zu jedem Teil der Sprachinformation mehrere alternative Textteilinformationen ermittelt. Für die zweite Textinformation wird anschießend je Sprachteilinformation die alternative Textteilinformation gewählt, um für die gesamte erkannte zweite Textinformation die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation zu erhalten. Bei der Erkennung des gesprochenen vierteiligen Sprachbefehls kann es nunmehr dazu kommen, dass nicht die in der zweiten Textinformation enthaltene, sondern eine der anderen alternativen Textteilinformationen das mit dem Monitor dargestellte falsch erkannte Wort kennzeichnet.
  • Gemäß den Maßnahmen des Anspruchs 4 wird der Vorteil erhalten, dass, wenn die in der zweiten Textinformation enthaltene alternative Textteilinformation des zweiten Sprachteilbefehls nicht in der ersten Textinformation gefunden werden kann, auch die nicht in der zweiten Textinformation enthaltenen alternativen Textteilinformationen des zweiten Sprachteilbefehls als falsch erkannte Textteilinformation in der ersten Textinformation gesucht werden. Hierdurch wird die Zuverlässigkeit bei der Auffindung der falsch erkannten Textteilinformation in der ersten Textinformation noch weiter verbessert.
  • Gemäß den Maßnahmen des Anspruchs 5 wird der Vorteil erhalten, dass, wenn die als vierter Sprachteilbefehl in dem Sprachbefehl gesprochene neue Textteilinformation – ebenso wie die falsch erkannte Textteilinformation in der ersten Textinformation – falsch erkannt wird, die zu dem vierten Sprachteilbefehl erkannte alternative Textteilinformation mit der zweithöchsten Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation als neue Textteilinformation festgelegt wird. Hierdurch wird die Zuverlässigkeit bei der Ersetzung der falsch erkannten Textteilinformation durch die neue Textteilinformation noch weiter verbessert.
  • Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben.
  • Es zeigen:
  • 1 schematisch in Form eines Blockschaltbildes einen Computer, der ein Spracherkennungsverfahren mit einem Texteditierverfahren abarbeitet.
  • 2 ein Ablaufdiagramm eines Spracherkennungsverfahrens mit einem Texteditierverfahren, das von dem Computer von 1 abgearbeitet wird.
  • 3 die Struktur eines vierteiligen Sprachbefehls und eine von dem Computer als vierteiliger Sprachbefehl erkannte zweite Textinformation.
  • 4 Sprachteilinformationen und zu den Sprachteilinformationen von dem Computer erkannte alternative Textteilinformationen der zweiten Textinformation.
  • 1 zeigt einen Computer 1, an den ein Mikrofon 2 und ein Monitor 3 angeschlossen sind. In einen Arbeitsspeicher des Computers 1 ist eine auf einer CD-Rom gespeicherte Spracherkennungssoftware geladen, die ein Computerprogrammprodukt bildet. Der Computer 1 weist weiterhin einen Prozessor, eine Harddisk und weitere in 1 nicht näher dargestellte und heutzutage übliche Mittel zum Verarbeiten der Spracherkennungssoftware auf.
  • Wenn die Spracherkennungssoftware in den Arbeitsspeicher des Computers 1 geladen ist, arbeitet der Computer 1 ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer falsch erkannten Textteilinformation TW mit einem vierteiligen Sprachbefehl SB ab. Das Spracherkennungsverfahren mit dem Texteditierverfahren weist die Schritte eines Ablaufdiagramms 4 auf, das in 2 dargestellt ist.
  • Dem Computer 1 kann von dem Mikrofon 2 ein analoges Mikrofonsignal MS zugeführt werden, das eine Sprachinformation SI enthält, wenn ein Benutzer des Computers 1 in das Mikrofon 2 spricht. Der Computer 1 weist einen Analog/Digital-Wandler 5 auf, dem das analoge Mikrofonsignal MS zugeführt werden kann. Der Analog/Digital-Wandler 5 ist zum Digitalisieren des analogen Mikrofonsignals MS und zum Abgeben digitaler Audiodaten AD ausgebildet, die die in dem Mikrofonsignal MS enthaltene Sprachinformation SI enthalten.
  • Der Computer 1 enthält Erkennermittel 6, einen Wortschatzspeicher 7 und einen Sprachmodellspeicher 8. In dem Wortschatzspeicher 7 sind Phoneminformationen PI und Textteilinformationen TTI gespeichert. Eine Phoneminformation PI enthält hierbei eine Abfolge von Phonemen, die zur Kennzeichnung von Lauten verwendet werden. Eine Textteilinformation TTI enthält den Text eines oder auch mehrerer Wörter, die von dem Spracherkennungsverfahren erkannt werden sollen, wenn der Benutzer die in dem Wortschatzspeicher 7 gespeicherte Phoneminformation PI als Sprachinformation SI spricht. Der Computer 1 kann bei der Abarbeitung des Spracherkennungsverfahrens nur Wörter erkennen und als Textinformation TI abgeben, die in dem Wortschatzspeicher 7 gespeichert sind.
  • In dem Sprachmodellspeicher 8 sind Wahrscheinlichkeitsinformationen WI über die in einer Sprache übliche Abfolge von Wörtern gespeichert. So weist beispielsweise die Abfolge der Wörter „This is a test" eine höhere Gesamtwahrscheinlichkeit als die Abfolge der Wörter „This his a test" auf.
  • Den Erkennermitteln 6 können die Audiodaten AD von dem Analog/Digital-Wandler 5 zugeführt werden. Die in den Audiodaten AD enthaltene Sprachinformation SI wird bei der Abarbeitung des Spracherkennungsverfahrens von den Erkennermitteln 6 in Sprachteilinformationen STI aufgeteilt, denen Phoneminformationen PI zugeordnet werden. Die Phoneminformationen PI der Sprachteilinformationen STI werden in dem Wortschatzspeicher 7 gesucht, woraufhin die einer solchen gesuchten Phoneminformation PI in dem Wortschatzspeicher 7 zugeordnet gespeicherte Textteilinformation TTI ermittelt wird.
  • Wenn die gesuchte Phoneminformation PI in dem Wortschatzspeicher 7 nicht gefunden wird, dann werden mehrere in dem Wortschatzspeicher 7 gespeicherte, der gesuchten Phoneminformation PI ähnliche Phoneminformationen PI ermittelt und die diesen Phoneminformationen PI zugeordnet gespeicherten Textteilinformationen TTI ermittelt. Die zu der Phoneminformation PI einer Sprachteilinformation STI ermittelten Textteilinformationen TTI werden als alternative Textteilinformationen ATI zu der Sprachteilinformation STI in einer Alternativentabelle eingetragen. Eine solche Alternativentabelle AT ist in 4 dargestellt.
  • Die Erkennermittel 6 werten nach der Ermittlung der alternativen Textteilinformationen ATI die in dem Sprachmodellspeicher 8 gespeicherten Wahrscheinlichkeitsinformationen WI aus und ermitteln die Abfolge der alternativen Textteilinformationen ATI als erkannte Textinformation TI, die die größte Gesamtwahrscheinlichkeit einer richtigen Erkennung aufweist.
  • Die Erkennermittel 6 wenden zum Erkennen der der empfangenen Sprachinformation SI zuzuordnenden Textinformationen TI das sogenannte „Hidden-Markov-Modell" an, das seit langem bekannt ist. Auf die Erkennung der der empfangenen Sprachinformation SI zuzuordnenden Textinformation TI wird in diesem Dokument daher nicht weiter eingegangen.
  • Der Computer 1 enthält weiterhin Sprachanalysespeichermittel 9, die zum Speichern einer Sprachanalyseinformation SAI ausgebildet sind, die bei der Abarbeitung des Spracherkennungsverfahrens durch die Erkennermittel 6 ermittelt wird. Die Sprachanalyseinformation SAI enthält hierbei neben anderen Informationen die Sprachteilinformationen STI und zugehörige Phoneminformationen PI sowie die in der Alternativentabelle AT eingetragenen alternativen Textteilinformationen ATI. Eine solche Sprachanalyseinformation SAI ist dem Fachmann als sogenanntes „Lattice" bekannt.
  • Der Computer 1 enthält weiterhin Replacemittel 10, denen die von den Erkennermitteln 6 ermittelte erkannte Textinformation TI zugeführt werden kann, die entweder eine erste Textinformation TI oder eine zweite Textinformation TI2 bildet. Die Replacemittel 10 sind zum Prüfen ausgebildet, ob die erkannte Textinformation TI die Struktur eines vierteiligen Sprachbefehls SB = „REPLACE A WITH B" aufweist, wie dies in einer 3 dargestellt ist. Der vierteilige Sprachbefehl SB ist zum Ersetzen eines falsch erkannten Wortes vorgesehen, worauf anhand eines Anwendungsbeispiels des Ausführungsbeispiels von 1 näher eingegangen werden soll.
  • Das erste Wort des Sprachbefehls SB bildet einen ersten Sprachteilbefehl SB1 = „REPLACE" und das dritte oder ein weiteres Wort des Sprachbefehls SB bildet einen dritten Sprachteilbefehl SB3 = „WITH", wobei der erste Sprachteilbefehl SB1 und der dritte Sprachteilbefehl SB3 den Sprachbefehl SB als solchen kennzeichnen. Das zweite Wort und gegebenenfalls auch noch das dritte und vierte Wort in dem Sprachbefehl SB bilden einen zweiten Sprachteilbefehl SB2, für den stellvertretend der Buchstabe „A" angegeben ist. Der zweite Sprachteilbefehl SB2 kennzeichnet eine falsch erkannte Textteilinformation TW in der mit dem Monitor 1 dargestellten ersten Textinformation TI1. Das oder die auf den dritten Sprachteilbefehl SB3 = „WITH" folgenden Wörter bilden einen vierten Sprachteilbefehl SB4, für den stellvertretend der Buchstabe „B" angegeben ist. Der vierte Sprachteilbefehl SB4 kennzeichnet eine neue Textteilinformation TN, durch die die falsch erkannte Textteilinformation TW in der ersten Textinformation TI1 ersetzt werden soll. Auch hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
  • Die Replacemittel 10 sind zum unveränderten Abgeben der von den Erkennermitteln 6 erkannten Textinformation TI als die erste Textinformation TI1 ausgebildet, wenn die Struktur des vierteiligen Sprachbefehls SB in der Textinformation TI von den Replacemitteln 10 nicht gefunden wurde. Wenn die Replacemittel 10 andererseits die Struktur des vierteiligen Sprachbefehls SB in der Textinformation TI finden, dann sind die Replacemittel 10 zum Prüfen ausgebildet, ob in der erkannten ersten Textinformation TI1 die falsch erkannte Textteilinformation TF enthalten ist, die durch den zweiten Sprachteilbefehl SB2 gekennzeichnet ist. Wenn diese Prüfung ergibt, dass die falsch erkannte Textteilinformation TF des Sprachbefehls als falsch erkannte Textteilinformation TW in der ersten Textinformation TI1 enthalten ist, dann geben die Replacemittel 10 eine Detektionsinformation DI an die Erkennermittel 6 ab, die die Position der falsch erkannten Textteilinformation TW in der ersten Textinformation TI1 kennzeichnet.
  • Beim Empfang der Detektionsinformation DI führen die Erkennermittel 6 eine „Re-Calculation" durch, bei der die Sprachanalyseinformation SAI, die zu der Erkennung der Wörter in der näheren Umgebung des in der ersten Textinformation TI falsch erkannten Wortes TW geführt hat, und bei der die Sprachanalyseinformation SAI, die zu der Erkennung des Wortes TF des zweiten Sprachteilbefehls SB2 und des Wortes TN des vierten Sprachteilbefehls SB4 geführt hat, gemeinsam verarbeitet werden. Somit stehen bei der „Re-Calculation" die akustischen Informationen des von dem Benutzer zweimal ausgesprochenen, jedoch in der ersten Textinformation falsch erkannten Wortes TN sowie die akustischen Informationen der richtigen Aussprache des in der ersten Textinformation fälschlicherweise erkannten Wortes TW zur Verfügung. Als Ergebnis dieser „Re-Calculation" durch die Erkennermittel 6 geben die Erkennermittel 6 eine Editierinformation EI an die Replacemittel 10 ab, die die in der ersten Textinformation TI1 durchzuführende Ersetzung kennzeichnet. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
  • Der Computer 1 enthält weiterhin Editiermittel 11, die zum Verarbeiten der ersten Textinformation TI1 und der an sie abgegebenen Editierinformation EI ausgebildet sind. Hierbei wird die erste Textinformation TI1 von den Editiermitteln 11 verarbeitet und als analoges Monitorsignal DS an den Monitor 3 zur Darstellung abgegeben. Die Editiermittel 11 sind beim Empfang der Editierinformation EI zum Ersetzen der falsch erkannten Textteilinformation TW in der ersten Textinformation TI1 durch die neue Textteilinformation TN ausgebildet, die durch den vierten Sprachteilbefehl SB4 gekennzeichnet ist. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
  • Eine Tastatur 12 des Computers 1 kann an die Editiermittel 11 Eingabeinformationen 11 liefern, mit denen der Benutzer des Computers 1 Texteingaben und Eingaben zum Editieren der mit dem Monitor 3 dargestellten ersten Textinformation TI1 durchführen kann. Die Editiermittel 11 weisen hierbei die Funktionalität eines mit dem Computer 1 abgearbeiteten Editierprogramms auf, das beispielsweise durch das Softwareprogramm „Word for Windows®" gebildet sein kann.
  • Im Folgenden werden anhand eines Anwendungsbeispiels des Computers 1 gemäß 1 die Vorteile des Spracherkennungsverfahrens mit dem Texteditierverfahren erläutert. Gemäß dem Anwendungsbeispiel wird angenommen, dass der Benutzer des Computers 1 das Spracherkennungsprogramm in den Arbeitsspeicher des Computers 1 lädt, woraufhin die Abarbeitung des Spracherkennungsverfahrens bei einem Block 13 des Ablaufdiagramms 4 in 2 beginnt.
  • Bei einem Block 14 wird von den Erkennermitteln 6 geprüft, ob der Benutzer des Computers 1 in das Mikrofon 2 gesprochen hat und eine Sprachinformation SI an die Erkennermittel 6 abgegeben wurde. Gemäß dem Anwendungsbeispiel wird angenommen, dass der Benutzer beginnt, den Text „European Patents shall be..." des Artikels 52(1) des Europäischen Patentübereinkommens in das Mikrofon 2 zu diktieren, woraufhin eine entsprechende Sprachinformation SI über den Analog/Digital-Wandler 5 an die Erkennermittel 6 abgegeben wird.
  • Anschließend erkennen die Erkennermittel 6 bei der Abarbeitung des Blocks 14, dass eine Sprachinformation SI empfangen wurde und arbeiten bei einem Block 15 das Spracherkennungsverfahren wie vorstehend beschrieben ab. Hierbei wird auch die bei der Erkennung der Textinformation TI ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermitteln 9 gespeichert. Die Erkennermittel 6 geben als Ergebnis der Abarbeitung des Spracherkennungsverfahrens die folgende Textinformation TI an die Replacemittel 10 ab, wobei statt des von dem Benutzer diktierten Wortes „invention" fälschlicherweise das Wort TW1 = „invasion" und statt des von dem Benutzer diktierten Wortes „new" fälschlicherweise das Wort TW2 = „few" erkannt wurde: Textinformation TI = „European Patents shall be granted for any invasion which are susceptible of industrial application, which are few and which involve an inventive step. The following in particular shall not be regarded as inventions within the meaning of Paragraph 1:".
  • Die Replacemittel 10 arbeiten bei einem Block 16 einen ersten Teil des Texteditierverfahrens ab und prüfen hierbei laufend, ob die von den Erkennermitteln 6 empfangene Textinformation TI die Struktur des vierteiligen Sprachbefehls SB aufweist, um festzustellen, ob die erkannte Textinformation TI eine erste Textinformation TI1 oder eine zweite Textinformation TI2 ist. Da keines der Wörter der von den Erkennermitteln 6 erkannten Textinformation TI „REPLACE" oder „WITH" ist, wird die jeweils erkannte Textinformation TI von den Replacemitteln 10 als erste Textinformation TI1 an die Editiermittel 11 abgegeben.
  • Die Editiermittel 11 geben dann bei einem Block 17 die erste Textinformation TI1 als Monitorsignal DS an den Monitor 3 ab, der die erste Textinformation TI1 – wie in 1 dargestellt – anzeigt, woraufhin wiederum Block 14 des Ablaufdiagramms 4 abgearbeitet wird. Ein die nächste Eingabeposition kennzeichnender Cursor C der Editiermittel 11 ist zu diesem Zeitpunkt bei der Position nach dem letzten Zeichen ":" der ersten Textinformation TI1 positioniert.
  • Gemäß dem Anwendungsbeispiel wird nunmehr angenommen, dass der Benutzer bemerkt, dass das gesprochene Wort „INVENTION" falsch erkannt wurde und die erste Textinformation TI1 das falsch erkannte Wort TW1 = „INVASION" enthält. Der Benutzer möchte daher das falsch erkannte Wort TW1 = „INVASION" editieren und durch das neue Wort TN = „INVENTION" ersetzen, das die Erkennermittel 6 eigentlich anstatt des falsch erkannten Wortes TW1 = „INVASION" erkennen hätten sollen. Hierfür spricht der Benutzer die in 3 dargestellte zweite Textinformation TI2 = „REPLACE INVASION WITH INVENTION" des Sprachbefehls SB in das Mikrofon 2.
  • Bei der Abarbeitung des Blocks 14 erkennen die Erkennermittel 6, dass eine Sprachinformation SI empfangen wurde und bei Block 15 wird das Spracherkennungsverfahren für die empfangene Sprachinformation SI abgearbeitet, wobei die hierbei ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermittein 9 gespeichert wird. Bei dem Block 16 wird die von den Erkennermitteln 6 erkannte Textinformation TI geprüft und es wird festgestellt, dass in der erkannten Textinformation TI die Struktur des vierteiligen Sprachbefehls SB enthalten ist, worauf die erkannte Textinformation TI als zweite Textinformation TI2 gespeichert wird.
  • Anschließend wird – wie in 3 dargestellt – eine Zuordnung der in der zweiten Textinformation TI2 enthaltenen Textteilinformationen TTI zu den Sprachteilbefehlen SB durchgeführt. Eine Textteilinformation TF1 = „INVASION" wird als zweiter Sprachteilbefehl SB2 erkannt, der die falsche Textteilinformation TW1 = „INVASION" in der ersten Textinformation TI1 kennzeichnet. Weiterhin wird die Textteilinformation TN1 = „INVENTION" als vierter Sprachteilbefehl SB4 erkannt, der das neue Wort kennzeichnet, das das falsche Wort in der ersten Textinformation TI1 ersetzen soll. Danach wird das Texteditierverfahren bei einem Block 18 fortgesetzt.
  • Bei dem Block 18 prüfen die Replacemittel 10, ob die Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls SB2 ein Wort in der ersten Textinformation TI1 kennzeichnet. Diese Prüfung ergibt, dass das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1 mit der Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls SB2 übereinstimmt. Die Replacemittel 10 geben hierauf die Detektionsinformation DI an die Erkennermittel 6 ab, die das achte Wort in der ersten Textinformation TI1 kennzeichnet.
  • Bei einem Block 19 prüfen die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene neue Wort TN1 = „INVENTION" gleich dem falsch erkannten Wort TW1 = „INVASION" ist. Hierauf wird anhand eines zweiten Anwendungsbeispiels des Computers 1 gemäß 1 näher eingegangen.
  • Beim Empfang der Detektionsinformation DI arbeiten die Erkennermittel 6 einen Block 20 ab, bei dem die „Re-Calculation" für die Sprachteilinformationen STI durchgeführt wird, die zu der Erkennung der Wörter („ ... granted for any invasion which are ...") in der näheren Umgebung des achten Wortes in der ersten Textinformation TI1 und die zu der Erkennung des Wortes „INVASION" des zweiten Sprachteilbefehls SB2 und des Wortes „INVENTION” des vierten Sprachteilbefehls SB4 geführt haben. Hierbei werden auch die bei der Erkennung der ersten Textinformation TI1 und der zweiten Textinformation TI2 gespeicherten Sprachanalyseinformationen SAI berücksichtigt.
  • Bei der „Re-Calculation" stehen den Erkennermittel 6 als zusätzliche Informationen für eine bessere Erkennung die Informationen zur Verfügung, dass für das achte Wort in der ersten Textinformation TI1 eigentlich das Wort „INVENTION" hätte erkannt werden sollen und dass das falsch erkannte Wort von dem Benutzer so ausgesprochen wird, wie er es in dem zweiten Sprachteilbefehl SB2 ausgesprochen hat. Durch diese „Re-Calculation" mit den zusätzlichen Informationen ist das Ergebnis der anschließenden Ersetzung besonders zuverlässig. Zusätzlich können diese zusätzlichen Informationen zur Anpassung der in dem Wortschatzspeicher 7 gespeicherten Phoneminformationen PI und Textteilinformationen TTI sowie zur Anpassung der in dem Sprachmodellspeicher 8 gespeicherten Wahrscheinlichkeitsinformationen WI verwendet werden.
  • Als Ergebnis der „Re-Calculation" wird von den Erkennermitteln 6 die Editierinformation EI an die Replacemittel 10 abgegeben, die das nun richtig erkannte neue Wort „INVENTION" und die Position des achten Wortes in der ersten Textinformation TI als Position für die Ersetzung kennzeichnet. Als Ergebnis dieser „Re-Calculation" kann auch die Editierinformation EI ermittelt werden, mit der gleich mehrere Wörter durch das durch den zweiten Sprachteilbefehl B2 gekennzeichnete Wort „INVENTION" ersetzt werden. Dies ist dann der Fall, wenn aufgrund der Auswertung der Wahrscheinlichkeitsinformationen WI die Gesamtwahrscheinlichkeit einer richtigen Erkennung der ersten Textinformation TI1 höher ist, wenn auch die das neue Wort umgebenden Wörter in der ersten Textinformation TI1 verändert werden.
  • Als Abschluss der Abarbeitung des Blocks 20 geben die Erkennermittel 6 die bei der „Re-Calculation" mit hoher Zuverlässigkeit erkannte Textteilinformation TN = „INVENTION" und gegebenenfalls die Textteilinformation der um das achte Wort herum geänderten Wörter an die Replacemittel 10 als Editierinformation EI ab. Die Replacemittel 10 geben die von den Erkennermitteln 6 ermittelte Editierinformation EI an die Editiermittel 11 ab, worauf die Abarbeitung des Texteditierverfahrens bei einem Block 21 fortgesetzt wird.
  • Bei dem Block 21 positionieren die Editiermittel 11 den Cursor C auf das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1, worauf die Abarbeitung des Texteditierverfahrens bei einem Block 22 fortgesetzt wird. Bei dem Block 22 wird das achte Wort TW1 = „INVASION" durch das neue Wort TN1 = „INVENTION" ersetzt. Bei einem anschließend abgearbeiteten Block 23 wird der Cursor C wiederum auf die ursprüngliche Position, also auf die Position nach dem letzten Zeichen „:" der ersten Textinformation TI positioniert.
  • Dies hat den Vorteil, dass das falsch erkannte Wort TW1 = „INVASION" mit nur einem Sprachbefehl SB durch das Wort TN1 = „INVENTION" ersetzt wurde, das eigentlich statt des falsch erkannten Wortes TW1 von den Erkennermitteln 6 hätte erkannt werden sollen. Zusätzlich ist der Vorteil erhalten, dass der Cursor C nach der Ersetzung des falsch erkannten Wortes gleich wieder an der richtigen Position in der ersten Textinformation TI1 positioniert ist, um das Diktat des Artikels 52 des Europäischen Patentübereinkommens fortzusetzen.
  • Besonders vorteilhaft ist hierbei die effiziente Nutzung der Informationen aus der Geschichte der Erkennung des falschen Wortes, um bei der „Re-Calculation" die richtige Ersetzung zu ermitteln.
  • Im Folgenden sollen jetzt weitere Vorteile des Computers 1 anhand des zweiten Anwendungsbeispiels des Computers 1 erläutert werden. Gemäß dem zweiten Anwendungsbeispiel wird angenommen, dass der Benutzer des Computers 1 das falsch erkannte Wort TW2 = „FEW" in der ersten Textinformation TI1 durch das eigentlich an dieser Stelle diktierte Wort „NEW" ersetzen möchte. Hierfür spricht der Benutzer den Sprachbefehl SB = „REPLACE FEW WITH NEW" in das Mikrofon 2, woraufhin das Ablaufdiagramm 4 bei dem Block 15 fortgesetzt wird.
  • Bei der Abarbeitung des Spracherkennungsverfahrens bei dem Block 15 werden von den Erkennermitteln 6 zu jeder Sprachteilinformation STI mehrere alternative Textteilinformationen ATI ermitteln und in die Alternativentabelle AT eintragen, die in 4 dargestellt ist. Hierbei wird zu der zweiten Sprachteilinformation ST2 das Wort TF2 = „SUE" als erste alternative Textteilinformation AT1 und das Wort TF3 = „FEW" nur als zweite alternative Textteilinformation AT2 in die Alternativentabelle AT eingetragen. Zu der dritten Sprachteilinformation ST3 wird das Wort „BY" als erste alternative Textteilinformation AT1 und das Wort „LIE" als zweite alternative Textteilinformation AT2 in die Alternativentabelle AT eingetragen. Schließlich wird das in dem Sprachbefehl diktierte Wort „NEW" neuerlich falsch erkannt und zu der vierten Sprachteilinformation ST4 das Wort TN2 = „FEW" als erste alternative Textteilinformation AT1 in die Alternativentabelle AT eingetragen. Das Wort TN3 = „NEW" wird nur als zweite alternative Textteilinformation AT2 und das Wort „HUGH" als dritte alternative Textteilinformation AT3 in die Alternativentabelle AT eingetragen.
  • Da der Benutzer beim Sprechen des Sprachbefehls SB das Wort „FEW" nicht deutlich ausgesprochen hat, wurde von den Erkennermitteln 6 für die zweite Sprachteilinformation STI dem Wort „SUE" eine höhere Wahrscheinlichkeit einer richtigen Erkennung zugeordnet als dem Wort „FEW". Bei der Erkennung des von dem Benutzer ausgesprochenen Wortes „NEW" hatte das Spracherkennungsverfahren bereits bei der Erkennung der ersten Textinformation TI1 Schwierigkeiten, weshalb neuerlich dem Wort „FEW" eine höhere Wahrscheinlichkeit einer richtigen Erkennung zugeordnet wurde. Deshalb werden die alternativen Textteilinformationen „REPLACE SUE BY FEW" als wahrscheinlichste Variante in die zweite Textinformation TI2 aufgenommen und von den Erkennermitteln 6 als erkannte Textinformation TI an die Replacemittel 6 abgegeben.
  • Bei der Abarbeitung des Blocks 16 stellen die Replacemittel 10 fest, dass die Struktur des vierteiligen Sprachbefehls SB enthalten ist, woraufhin des Ablaufdiagramm 4 bei Block 18 fortgesetzt wird. Bei der Abarbeitung des Blocks 18 prüfen die Replacemittel 10, ob das in der zweiten Textinformation TI2 als zweiter Sprachteilbefehl SB2 enthaltene Wort TF2 = „SUE" in der ersten Textinformation TI1 enthalten ist. Diese Prüfung ergibt, dass das Wort TF2 = „SUE" nicht in der ersten Textinformation TI1 enthalten ist, weshalb das Texteditierverfahren bei einem Block 24 fortgesetzt wird.
  • Bei der Abarbeitung des Blocks 24 lesen die Replacemittel 10 die in den Sprachanalysespeichermitteln 9 gespeicherte Alternativentabelle AT aus und prüfen, ob eine der zu der zweiten Sprachteilinformation STI2 gespeicherte alternative Textteilinformation ATI in der ersten Textteilinformation TI1 enthalten ist. Als Ergebnis der Prüfung stellen die Replacemittel 10 fest, dass die zweite alternative Textteilinformation ATI2 – also das Wort TF3 = „FEW" – als siebzehntes Wort in der ersten Textteilinformation TI1 enthalten ist.
  • Dies hat den Vorteil, dass sogar dann, wenn durch eine undeutliche Aussprache des Sprachbefehls SB der zweite Sprachteilbefehl SB2 falsch erkannt wurde, das von dem Benutzer gewünschte Wort durch das richtige Wort ersetzt wird. Im Anschluss an die Abarbeitung des Blocks 24 wird der Block 19 abgearbeitet.
  • Bei dem Block 19 prüfen die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene neue Wort TN2 = „FEW" gleich dem falsch erkannten Wort TW2 = „FEW" ist. Diese Prüfung ergibt, das die beiden Wörter übereinstimmen, weshalb die Abarbeitung des Texteditierverfahrens bei einem Block 25 fortgesetzt wird.
  • Bei dem Block 25 ermitteln die Replacemittel 10 statt der wahrscheinlichsten alternativen Textteilinformation AT1 = „FEW" die zweitwahrscheinlichste alternative Textteilinformation AT2 = „NEW" als das neue Wort. Hierauf werden wie vorstehend beschrieben die Blöcke 20 bis 23 abgearbeitet und das Wort TW2 = „FEW" in der ersten Textteilinformation TI1 durch das Wort TN3 = „NEW" ersetzt.
  • Dies hat den Vorteil, dass, wenn das bereits in der ersten Textinformation TI1 falsch erkannte Wort auch in dem Sprachbefehl SB neuerlich falsch erkannt wurde, trotzdem mit großer Wahrscheinlichkeit eine vom Benutzer des Computers 1 gewünschte Ersetzung durchgeführt wird. Wenn eine der Ersetzungen durch den umfangreichen vierteiligen Sprachbefehl einmal nicht das gewünschte Ergebnis für den Benutzer erzielt hat, dann kann durch den Sprachbefehl „UNDO" die letzte Ersetzung sehr einfach rückgängig gemacht werden.
  • Es kann erwähnt werden, dass die Blöcke 14, 15 und 17 in dem Ablaufdiagramm 4 das Spracherkennungsverfahren repräsentieren und dass die Blöcke 16 und 18 bis 25 das Texteditierverfahren repräsentieren.
  • Es kann weiterhin erwähnt werden, dass jeder der vier Sprachteilbefehle ein oder mehrere Wörter enthalten kann. Weiterhin kann der dritte Sprachteilbefehl auch durch eine Pause beim Sprechen des vierteiligen Sprachbefehls gebildet sein. In diesem Fall würde der Benutzer entsprechend dem ersten Anwendungsbeispiel den vierteiligen Sprachbefehl „REPLACE INVASION" Pause „INVENTION" sprechen. In diesem Fall wäre der vierteilige Sprachbefehl durch das an der ersten Position in der zweiten Textinformation TI2 enthaltene Wort und durch die von den Erkennermitteln detektierte Pause nach dem zweiten oder weiteren Wort der zweiten Textinformation TI2 als vierteiliger Sprachbefehl gekennzeichnet.
  • 2
  • 13
    START
    14
    ÄUSSERUNG?
    15
    SPRACHE ERKENNEN
    16
    REPLACE "A" WITH "B"?
    17
    TI1 ANZEIGEN
    18
    "A" IN TI1?
    19
    "A" = "TW?
    20
    RE-CALCULATION
    21
    CURSOR POSITIONIEREN
    22
    REPLACE
    23
    CURSOR NEU POSITIONIEREN
    24
    ALTERNATIVE VON "A" IN TI1?
    25
    "A" = ALTERNATIVE VON "A"

Claims (7)

  1. Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer in einer ersten Textinformation (TI1) falsch erkannten Textteilinformation (TW) mit einem in einer zweiten Textinformation (TI2) erkannten vierteiligen Sprachbefehl (SP), wobei das Spracherkennungsverfahren die folgenden Schritte aufweist: • Empfangen von Sprachinformation (S1) und Erkennen der ersten Textinformation (TI1) und der zweiten Textinformation (TI2); • Prüfen, ob ein an der ersten Position der zweiten Textinformation (TI2) enthaltenes Wort mit einem ersten Sprachteilbefehl (SB1) des vierteiligen Sprachbefehls (SB) übereinstimmt, und prüfen, ob ein an dritter oder weiterer Position der zweiten Textinformation (TI2) enthaltenes Wort mit einem dritten Sprachteilbefehl (SB3) des vierteiligen Sprachbefehls (SB) übereinstimmt, wobei bei einem positiven Ergebnis der Prüfungen der nächste Schritt des Texteditierverfahrens abgearbeitet wird; • Prüfen, ob in der ersten Textinformation (TI1) die falsch erkannte Textteilinformation (TW) enthalten ist, die durch einen zwischen dem ersten Sprachteilbefehl (SB1) und dem dritten Sprachteilbefehl (SB3) enthaltenen zweiten Sprachteilbefehl (SB2) der zweiten Textinformation (TI2) gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung der nächste Schritt des Texteditierverfahrens abgearbeitet wird; • Ersetzen der falsch erkannten Textteilinformation (TW) der ersten Textinformation (TI1) durch eine neue Textteilinformation (TN), die nach dem dritten Sprachteilbefehl (SB3) als vierter Sprachteilbefehl (SB4) des vierteiligen Sprachbefehls (SB) in der zweiten Textinformation (TI2) enthalten ist.
  2. Spracherkennungsverfahren nach Anspruch 1, wobei nach dem Ersetzen der falsch erkannten Textteilinformation (TW) ein die Eingabeposition für eine weitere von dem Spracherkennungsverfahren (4) erkannte Textinformation (TI) kennzeichnender Cursor (C) am Ende der zuletzt erkannten ersten Textinformation (TI1) positioniert wird.
  3. Spracherkennungsverfahren nach Anspruch 1, wobei der vierteilige Sprachbefehl (SB) die Struktur „REPLACE A WITH B" aufweist und wobei der zweite Sprachteilbefehl „A" ein falsch erkanntes Wort und der vierte Sprachteilbefehl „B" ein eigentlich statt des falsch erkannten Wortes zu erkennendes Wort kennzeichnet.
  4. Spracherkennungsverfahren nach Anspruch 1, in dem die folgenden Schritte vorgesehen sind: • Ermitteln alternativer Textteilinformationen (ATI) zu jeder Sprachteilinformation (STI) der empfangenen Sprachinformation (SI) bei der Erkennung der zweiten Textinformation (TI2), wobei die in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation (TI2) aufweisen; • Prüfen, ob in der ersten Textinformation (TI1) die falsch erkannte Textteilinformation (TW) enthalten ist, die durch eine der nicht in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) des zweiten Sprachteilbefehls (SB2) gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung die falsch erkannte Textteilinformation (TW) durch die neue Textteilinformation (TN) ersetzt wird.
  5. Spracherkennungsverfahren nach Anspruch 1, wobei folgende weitere Schritte vorgesehen sind: • Ermitteln alternativer Textteilinformationen (ATI) zu jeder Sprachteilinformation (STI) der empfangenen Sprachinformation (SI) bei der Erkennung der zweiten Textinformation (TI2), wobei die in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation (TI2) aufweisen; • Prüfen, ob in die in der ersten Textinformation (TI1) enthaltene falsch erkannte Textteilinformation (TW) mit der in der zweiten Textinformation (TI2) enthaltenen neuen Textinformation (TN) übereinstimmt, wobei bei einem positiven Ergebnis der Prüfung eine zu der neuen Textinformation (TN) ermittelte alternative Textteilinformation (ATI) als neue Textinformation (TN) gespeichert wird.
  6. Computerprogrammprodukt, das, wenn es direkt in den internen Speicher eines digitalen Computers (1) geladen wird, Softwarecodeabschnitte umfasst, wobei mit dem Computer alle Schritte des Spracherkennungsverfahrens nach Anspruch 1 abgearbeitet werden.
  7. Computerprogrammprodukt nach Anspruch 6, wobei das Computerprogrammprodukt auf einem computerlesbaren Medium gespeichert ist.
DE60128816T 2000-09-08 2001-08-24 Spracherkennungsverfahren mit ersetzungsbefehl Expired - Lifetime DE60128816T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00890276 2000-09-08
EP00890276 2000-09-08
PCT/EP2001/009881 WO2002021510A1 (en) 2000-09-08 2001-08-24 Speech recognition method with a replace command

Publications (2)

Publication Number Publication Date
DE60128816D1 DE60128816D1 (de) 2007-07-19
DE60128816T2 true DE60128816T2 (de) 2008-02-07

Family

ID=8175965

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60128816T Expired - Lifetime DE60128816T2 (de) 2000-09-08 2001-08-24 Spracherkennungsverfahren mit ersetzungsbefehl

Country Status (7)

Country Link
US (1) US7027985B2 (de)
EP (1) EP1317750B1 (de)
JP (2) JP5093963B2 (de)
CN (1) CN1193342C (de)
AT (1) ATE364219T1 (de)
DE (1) DE60128816T2 (de)
WO (1) WO2002021510A1 (de)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
JP4765427B2 (ja) * 2005-06-20 2011-09-07 船井電機株式会社 音声認識機能付きav機器
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9842591B2 (en) 2010-05-19 2017-12-12 Sanofi-Aventis Deutschland Gmbh Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction
WO2012161359A1 (ko) * 2011-05-24 2012-11-29 엘지전자 주식회사 사용자 인터페이스 방법 및 장치
US9318110B2 (en) * 2011-09-09 2016-04-19 Roe Mobile Development Llc Audio transcription generator and editor
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10381002B2 (en) 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10373615B2 (en) 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
JP6417104B2 (ja) * 2014-04-16 2018-10-31 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
EP2980792A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Erzeugung eines verbesserten Signals mit unabhängiger Rausch-Füllung
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
JPWO2018043137A1 (ja) * 2016-08-31 2019-06-24 ソニー株式会社 情報処理装置及び情報処理方法
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和系统
CN108320743A (zh) * 2018-02-07 2018-07-24 上海速益网络科技有限公司 一种数据录入方法及装置
CN108364653B (zh) * 2018-02-12 2021-08-13 王磊 语音数据处理方法及处理装置
CN108831469B (zh) * 2018-08-06 2021-02-12 珠海格力电器股份有限公司 语音命令定制方法、装置和设备及计算机存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US5875429A (en) * 1997-05-20 1999-02-23 Applied Voice Recognition, Inc. Method and apparatus for editing documents through voice recognition
JP3815110B2 (ja) * 1999-04-09 2006-08-30 株式会社日立製作所 音声入力装置及び音声入力方法
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
JP5093963B2 (ja) * 2000-09-08 2012-12-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 置換コマンドを有する音声認識方法

Also Published As

Publication number Publication date
CN1193342C (zh) 2005-03-16
JP5093963B2 (ja) 2012-12-12
JP2012238017A (ja) 2012-12-06
EP1317750B1 (de) 2007-06-06
US20020046032A1 (en) 2002-04-18
ATE364219T1 (de) 2007-06-15
WO2002021510A1 (en) 2002-03-14
US7027985B2 (en) 2006-04-11
EP1317750A1 (de) 2003-06-11
CN1394331A (zh) 2003-01-29
JP2004508594A (ja) 2004-03-18
DE60128816D1 (de) 2007-07-19

Similar Documents

Publication Publication Date Title
DE60128816T2 (de) Spracherkennungsverfahren mit ersetzungsbefehl
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
JP5255769B2 (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69327188T2 (de) Einrichtung für automatische Spracherkennung
DE60211197T2 (de) Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
EP0797185B1 (de) Verfahren und Vorrichtung zur Spracherkennung
DE60209518T2 (de) Korrekturvorrichtung, die Teile eines erkannten Texts kennzeichnet
DE10040214A1 (de) Intelligente Korrektur diktierter Sprache
EP1892700A1 (de) Verfahren zur Spracherkennung und Sprachwiedergabe
EP0366192A2 (de) Textverarbeitungsvorrichtung
DE376501T1 (de) Spracherkennungssystem.
DE3910467A1 (de) Verfahren und vorrichtung zur erzeugung von berichten
US20020065653A1 (en) Method and system for the automatic amendment of speech recognition vocabularies
DE112015003382T5 (de) Spracherkennungseinrichtung und Spracherkennungsverfahren
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
DE19942178C1 (de) Verfahren zum Aufbereiten einer Datenbank für die automatische Sprachverarbeitung
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS AUSTRIA GMBH, WIEN, AT

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN