DE60128816T2

DE60128816T2 - Spracherkennungsverfahren mit ersetzungsbefehl

Info

Publication number: DE60128816T2
Application number: DE60128816T
Authority: DE
Inventors: Heribert Wutte
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2000-09-08
Filing date: 2001-08-24
Publication date: 2008-02-07
Anticipated expiration: 2021-08-25
Also published as: CN1193342C; JP5093963B2; JP2012238017A; EP1317750B1; US20020046032A1; ATE364219T1; WO2002021510A1; US7027985B2; EP1317750A1; CN1394331A; JP2004508594A; DE60128816D1

Description

Die Erfindung bezieht sich auf ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer falsch erkannten Textteilinformation mit einem Sprachbefehl.
Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst.
Ein solches Spracherkennungsverfahren und ein solches Computerprogrammprodukt sind aus US-A-5.794.189 bekannt und werden durch einen Computer abgearbeitet, an den ein Mikrofon und ein Monitor angeschlossen sind. Das bekannte Spracherkennungsverfahren weist ein Nahbereichs-Texteditierverfahren auf, mit dem ein von dem Spracherkennungsverfahren innerhalb des zuletzt erkannten Satzes des erkannten Textes falsch erkanntes Wort mit Sprachbefehlen editiert werden kann.
Wenn der Benutzer bemerkt, dass der zuletzt von dem Spracherkennungsverfahren erkannte Satz ein falsch erkanntes Wort enthält, dann spricht er einen einteiligen Sprachbefehl „Oops" in das Mikrofon. Hierauf wird ein Editierfenster des Spracherkennungsverfahrens geöffnet, das den fehlerhaften Satz enthält. Anschließend kann der Benutzer das falsch erkannte Wort neuerlich sprechen, woraufhin das Nahbereichs-Texteditierverfahren durch Analyse der bei der Erkennung des fehlerhaften Satzes ermittelten Sprachanalyseinformationen versucht, das falsch erkannte Wort in dem fehlerhaften Satz zu finden und durch das neuerlich gesprochene und erkannte Wort zu ersetzen. Wenn der Benutzer die Ersetzung durch einen weiteren einteiligen Sprachbefehl bestätigt, dann wird das falsch erkannte Wort in dem fehlerhaften Satz des erkannten Textes durch das neuerlich gesprochene Wort ersetzt und das Editierfenster geschlossen.
Bei dem bekannten Nahbereichs-Editierverfahren hat sich als Nachteil erwiesen, dass der Benutzer zu mehreren Zeitpunkten in der richtigen Abfolge und abhängig von der mit dem Monitor dargestellten Information zwei unterschiedliche einteilige Sprachbefehle („Oops"; „Accept") und das zu ersetzende Wort in das Mikrofon sprechen muss, was relativ kompliziert ist. Weiterhin hat sich bei dem bekannten Nahbereichs-Editierverfahren als Nachteil erwiesen, dass das falsch erkannte Wort in dem fehlerhaften Satz nicht mit ausreichender Zuverlässigkeit gefunden wird.
Das bekannte Spracherkennungsverfahren weist weiterhin ein Dokument-Texteditierverfahren zum Editieren eines Wortes innerhalb des gesamten Textes eines aktiven Dokuments auf. Hierbei können sowohl von dem Spracherkennungsverfahren falsch oder richtig erkannte Wörter als auch mit der Tastatur des Computers eingegebene Wörter editiert werden. Wenn der Benutzer eines der Wörter des Textes ändern möchte, dann spricht er „Select" und das Wort, das er ändern möchte, in das Mikrofon des Computers, womit ein zweiteiliger Sprachbefehl zum Markieren eines Wortes offenbart ist. Dann erzeugt das bekannte Dokument-Texteditierverfahren eine Baumstruktur des gesamten Textes des Dokuments und sucht den zu dem gesprochenen Wort erkannten Text in der Baumstruktur.
Wenn der Computer ein Wort des Textes selektiert und markiert und mit dem Monitor darstellt, dann kann der Benutzer die Selektion mit einem einteiligen Sprachbefehl bestätigen oder widerrufen. Wenn der Benutzer die Selektion bestätigt und anschließend ein neues Wort in das Mikrofon spricht, dann wird das markierte Wort durch das neue Wort ersetzt.
Bei dem bekannten Dokument-Editierverfahren hat sich als Nachteil erwiesen, dass der Benutzer zu mehreren Zeitpunkten in der richtigen Abfolge und abhängig von der mit dem Monitor dargestellten Information zwei unterschiedliche Sprachbefehle („Select"; „Accept") und sowohl das zu ersetzende Wort als auch das neue Wort in das Mikrofon sprechen muss, was relativ kompliziert ist. Weiterhin hat sich bei dem bekannten Dokument-Editierverfahren als Nachteil erwiesen, dass das zu ersetzende Wort nicht mit ausreichender Zuverlässigkeit gefunden wird.
Die Erfindung hat sich zur Aufgabe gestellt, die vorstehend angeführten Schwierigkeiten zu beseitigen und ein verbessertes Spracherkennungsverfahren gemäß Anspruch 1 und ein verbessertes Computerprogrammprodukt gemäß Anspruch 6 zu schaffen. Zur Lösung dieser Aufgabe sind bei einem solchen Spracherkennungsverfahren erfindungsgemäße Merkmale vorgesehen, so dass das Spracherkennungsverfahren durch die nachfolgend angegebene Weise gekennzeichnet werden kann.
Ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer in einer ersten Textinformation falsch erkannten Textteilinformation mit einem in einer zweiten Textinformation erkannten vierteiligen Sprachbefehl, wobei das Spracherkennungsverfahren die folgenden Schritte aufweist:

• Empfangen vom Sprachinformation und Erkennen der ersten Textinformation und der zweiten Textinformation;
• Prüfen, ob ein an der ersten Position der zweiten Textinformation enthaltenes Wort mit einem ersten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt, und prüfen, ob ein an dritter oder weiterer Position der zweiten Textinformation enthaltenes Wort mit einem dritten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt, wobei bei einem positiven Ergebnis der Prüfungen der nächste Schritt des Texteditierverfahrens abgearbeitet wird;
• Prüfen, ob in der ersten Textinformation die falsch erkannte Textteilinformation enthalten ist, die durch einen zwischen dem ersten Sprachteilbefehl und dem dritten Sprachteilbefehl enthaltenen zweiten Sprachteilbefehl der zweiten Textinformation gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung der nächste Schritt des Texteditierverfahrens abgearbeitet wird;
• Ersetzen der falsch erkannten Textteilinformation der ersten Textinformation durch eine neue Textteilinformation, die nach dem dritten Sprachteilbefehl als vierter Sprachteilbefehl des vierteiligen Sprachbefehls in der zweiten Textinformation enthalten ist.

Zur Lösung dieser Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale vorgesehen, so dass das Computerprogrammprodukt durch die nachfolgend beschriebenen Merkmale gekennzeichnet werden kann.
Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des Spracherkennungsverfahrens gemäß Anspruch 1 abgearbeitet werden, wenn das Produkt auf dem Computer läuft.
Hierdurch kann ein Benutzer durch nur einmaliges Sprechen eines vierteiligen Sprachbefehls ein falsch erkanntes Wort durch ein neues Wort ersetzen. Beispielsweise könnte ein Benutzer „Replace test by text" sprechen, um das falsch erkannte Wort „test" durch das Wort „text" zu ersetzen. Zusätzlich kann vor dem Ersetzen der falsch erkannten Textinformation eine „Re-Calculation" durchgeführt werden, bei der unter Ausnutzung der bei der Erkennung der ersten Textinformation ermittelten Sprachanalyseinformationen und der zusätzlichen in dem Sprachbefehl enthaltenen Informationen die erste Textinformation mit der größten Wahrscheinlichkeit einer richtigen Erkennung ermittelt wird. Die in dem Sprachbefehl enthaltenen Informationen enthalten auch die Information über die Aussprache des meist sehr ähnlich klingenden falsch erkannten Worts „test" und des eigentlich zu erkennenden Worts „text". Das Spracherkennungsverfahren hat daher bei der „Re-Calculation" der ersten Textinformation mit diesen zusätzlichen Informationen eine besonders genaue Sprachinformation zur Verfügung, weshalb eine hierbei ermittelte Editierinformation mit einer besonders hohen Zuverlässigkeit der durch den Benutzer gewünschten Ersetzung entspricht.
Besonders vorteilhaft ist es, wenn der Sprachbefehl nicht für das gesamte Dokument, sondern nur für den Textteil der ersten Textinformation wirksam ist, der gerade mit dem Monitor dargestellt wird. Wenn der Sprachbefehl eine falsche Ersetzung bewirkt hat, dann kann diese sehr leicht durch beispielsweise durch den Sprachbefehle „Undo" rückgängig gemacht werden.
Bei dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als vorteilhaft erwiesen, die Maßnahmen gemäß Anspruch 2 vorzusehen. Dies hat den Vorteil, dass der Benutzer bei einem Diktat nach einer Korrektur eines falsch erkannten Wortes unmittelbar weiter diktieren kann, ohne einen Sprachbefehl zur Positionierung des Cursors sprechen zu müssen.
Bei dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als vorteilhaft erwiesen, die Maßnahmen gemäß Anspruch 3 vorzusehen. Dies hat den Vorteil, dass ein Sprachbefehl zum Ersetzen eines falsch erkannten Wortes erhalten wird, der besonders einfach zu sprechen ist und der trotzdem sämtliche für die Ersetzung nötigen Informationen enthält.
Gemäß den Maßnahmen des Anspruchs 4 werden bei der Erkennung der zweiten Textinformation zu jedem Teil der Sprachinformation mehrere alternative Textteilinformationen ermittelt. Für die zweite Textinformation wird anschießend je Sprachteilinformation die alternative Textteilinformation gewählt, um für die gesamte erkannte zweite Textinformation die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation zu erhalten. Bei der Erkennung des gesprochenen vierteiligen Sprachbefehls kann es nunmehr dazu kommen, dass nicht die in der zweiten Textinformation enthaltene, sondern eine der anderen alternativen Textteilinformationen das mit dem Monitor dargestellte falsch erkannte Wort kennzeichnet.
Gemäß den Maßnahmen des Anspruchs 4 wird der Vorteil erhalten, dass, wenn die in der zweiten Textinformation enthaltene alternative Textteilinformation des zweiten Sprachteilbefehls nicht in der ersten Textinformation gefunden werden kann, auch die nicht in der zweiten Textinformation enthaltenen alternativen Textteilinformationen des zweiten Sprachteilbefehls als falsch erkannte Textteilinformation in der ersten Textinformation gesucht werden. Hierdurch wird die Zuverlässigkeit bei der Auffindung der falsch erkannten Textteilinformation in der ersten Textinformation noch weiter verbessert.
Gemäß den Maßnahmen des Anspruchs 5 wird der Vorteil erhalten, dass, wenn die als vierter Sprachteilbefehl in dem Sprachbefehl gesprochene neue Textteilinformation – ebenso wie die falsch erkannte Textteilinformation in der ersten Textinformation – falsch erkannt wird, die zu dem vierten Sprachteilbefehl erkannte alternative Textteilinformation mit der zweithöchsten Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation als neue Textteilinformation festgelegt wird. Hierdurch wird die Zuverlässigkeit bei der Ersetzung der falsch erkannten Textteilinformation durch die neue Textteilinformation noch weiter verbessert.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben.
Es zeigen:
1 schematisch in Form eines Blockschaltbildes einen Computer, der ein Spracherkennungsverfahren mit einem Texteditierverfahren abarbeitet.
2 ein Ablaufdiagramm eines Spracherkennungsverfahrens mit einem Texteditierverfahren, das von dem Computer von 1 abgearbeitet wird.
3 die Struktur eines vierteiligen Sprachbefehls und eine von dem Computer als vierteiliger Sprachbefehl erkannte zweite Textinformation.
4 Sprachteilinformationen und zu den Sprachteilinformationen von dem Computer erkannte alternative Textteilinformationen der zweiten Textinformation.
1 zeigt einen Computer 1, an den ein Mikrofon 2 und ein Monitor 3 angeschlossen sind. In einen Arbeitsspeicher des Computers 1 ist eine auf einer CD-Rom gespeicherte Spracherkennungssoftware geladen, die ein Computerprogrammprodukt bildet. Der Computer 1 weist weiterhin einen Prozessor, eine Harddisk und weitere in 1 nicht näher dargestellte und heutzutage übliche Mittel zum Verarbeiten der Spracherkennungssoftware auf.
Wenn die Spracherkennungssoftware in den Arbeitsspeicher des Computers 1 geladen ist, arbeitet der Computer 1 ein Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer falsch erkannten Textteilinformation TW mit einem vierteiligen Sprachbefehl SB ab. Das Spracherkennungsverfahren mit dem Texteditierverfahren weist die Schritte eines Ablaufdiagramms 4 auf, das in 2 dargestellt ist.
Dem Computer 1 kann von dem Mikrofon 2 ein analoges Mikrofonsignal MS zugeführt werden, das eine Sprachinformation SI enthält, wenn ein Benutzer des Computers 1 in das Mikrofon 2 spricht. Der Computer 1 weist einen Analog/Digital-Wandler 5 auf, dem das analoge Mikrofonsignal MS zugeführt werden kann. Der Analog/Digital-Wandler 5 ist zum Digitalisieren des analogen Mikrofonsignals MS und zum Abgeben digitaler Audiodaten AD ausgebildet, die die in dem Mikrofonsignal MS enthaltene Sprachinformation SI enthalten.
Der Computer 1 enthält Erkennermittel 6, einen Wortschatzspeicher 7 und einen Sprachmodellspeicher 8. In dem Wortschatzspeicher 7 sind Phoneminformationen PI und Textteilinformationen TTI gespeichert. Eine Phoneminformation PI enthält hierbei eine Abfolge von Phonemen, die zur Kennzeichnung von Lauten verwendet werden. Eine Textteilinformation TTI enthält den Text eines oder auch mehrerer Wörter, die von dem Spracherkennungsverfahren erkannt werden sollen, wenn der Benutzer die in dem Wortschatzspeicher 7 gespeicherte Phoneminformation PI als Sprachinformation SI spricht. Der Computer 1 kann bei der Abarbeitung des Spracherkennungsverfahrens nur Wörter erkennen und als Textinformation TI abgeben, die in dem Wortschatzspeicher 7 gespeichert sind.
In dem Sprachmodellspeicher 8 sind Wahrscheinlichkeitsinformationen WI über die in einer Sprache übliche Abfolge von Wörtern gespeichert. So weist beispielsweise die Abfolge der Wörter „This is a test" eine höhere Gesamtwahrscheinlichkeit als die Abfolge der Wörter „This his a test" auf.
Den Erkennermitteln 6 können die Audiodaten AD von dem Analog/Digital-Wandler 5 zugeführt werden. Die in den Audiodaten AD enthaltene Sprachinformation SI wird bei der Abarbeitung des Spracherkennungsverfahrens von den Erkennermitteln 6 in Sprachteilinformationen STI aufgeteilt, denen Phoneminformationen PI zugeordnet werden. Die Phoneminformationen PI der Sprachteilinformationen STI werden in dem Wortschatzspeicher 7 gesucht, woraufhin die einer solchen gesuchten Phoneminformation PI in dem Wortschatzspeicher 7 zugeordnet gespeicherte Textteilinformation TTI ermittelt wird.
Wenn die gesuchte Phoneminformation PI in dem Wortschatzspeicher 7 nicht gefunden wird, dann werden mehrere in dem Wortschatzspeicher 7 gespeicherte, der gesuchten Phoneminformation PI ähnliche Phoneminformationen PI ermittelt und die diesen Phoneminformationen PI zugeordnet gespeicherten Textteilinformationen TTI ermittelt. Die zu der Phoneminformation PI einer Sprachteilinformation STI ermittelten Textteilinformationen TTI werden als alternative Textteilinformationen ATI zu der Sprachteilinformation STI in einer Alternativentabelle eingetragen. Eine solche Alternativentabelle AT ist in 4 dargestellt.
Die Erkennermittel 6 werten nach der Ermittlung der alternativen Textteilinformationen ATI die in dem Sprachmodellspeicher 8 gespeicherten Wahrscheinlichkeitsinformationen WI aus und ermitteln die Abfolge der alternativen Textteilinformationen ATI als erkannte Textinformation TI, die die größte Gesamtwahrscheinlichkeit einer richtigen Erkennung aufweist.
Die Erkennermittel 6 wenden zum Erkennen der der empfangenen Sprachinformation SI zuzuordnenden Textinformationen TI das sogenannte „Hidden-Markov-Modell" an, das seit langem bekannt ist. Auf die Erkennung der der empfangenen Sprachinformation SI zuzuordnenden Textinformation TI wird in diesem Dokument daher nicht weiter eingegangen.
Der Computer 1 enthält weiterhin Sprachanalysespeichermittel 9, die zum Speichern einer Sprachanalyseinformation SAI ausgebildet sind, die bei der Abarbeitung des Spracherkennungsverfahrens durch die Erkennermittel 6 ermittelt wird. Die Sprachanalyseinformation SAI enthält hierbei neben anderen Informationen die Sprachteilinformationen STI und zugehörige Phoneminformationen PI sowie die in der Alternativentabelle AT eingetragenen alternativen Textteilinformationen ATI. Eine solche Sprachanalyseinformation SAI ist dem Fachmann als sogenanntes „Lattice" bekannt.
Der Computer 1 enthält weiterhin Replacemittel 10, denen die von den Erkennermitteln 6 ermittelte erkannte Textinformation TI zugeführt werden kann, die entweder eine erste Textinformation TI oder eine zweite Textinformation TI2 bildet. Die Replacemittel 10 sind zum Prüfen ausgebildet, ob die erkannte Textinformation TI die Struktur eines vierteiligen Sprachbefehls SB = „REPLACE A WITH B" aufweist, wie dies in einer 3 dargestellt ist. Der vierteilige Sprachbefehl SB ist zum Ersetzen eines falsch erkannten Wortes vorgesehen, worauf anhand eines Anwendungsbeispiels des Ausführungsbeispiels von 1 näher eingegangen werden soll.
Das erste Wort des Sprachbefehls SB bildet einen ersten Sprachteilbefehl SB1 = „REPLACE" und das dritte oder ein weiteres Wort des Sprachbefehls SB bildet einen dritten Sprachteilbefehl SB3 = „WITH", wobei der erste Sprachteilbefehl SB1 und der dritte Sprachteilbefehl SB3 den Sprachbefehl SB als solchen kennzeichnen. Das zweite Wort und gegebenenfalls auch noch das dritte und vierte Wort in dem Sprachbefehl SB bilden einen zweiten Sprachteilbefehl SB2, für den stellvertretend der Buchstabe „A" angegeben ist. Der zweite Sprachteilbefehl SB2 kennzeichnet eine falsch erkannte Textteilinformation TW in der mit dem Monitor 1 dargestellten ersten Textinformation TI1. Das oder die auf den dritten Sprachteilbefehl SB3 = „WITH" folgenden Wörter bilden einen vierten Sprachteilbefehl SB4, für den stellvertretend der Buchstabe „B" angegeben ist. Der vierte Sprachteilbefehl SB4 kennzeichnet eine neue Textteilinformation TN, durch die die falsch erkannte Textteilinformation TW in der ersten Textinformation TI1 ersetzt werden soll. Auch hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
Die Replacemittel 10 sind zum unveränderten Abgeben der von den Erkennermitteln 6 erkannten Textinformation TI als die erste Textinformation TI1 ausgebildet, wenn die Struktur des vierteiligen Sprachbefehls SB in der Textinformation TI von den Replacemitteln 10 nicht gefunden wurde. Wenn die Replacemittel 10 andererseits die Struktur des vierteiligen Sprachbefehls SB in der Textinformation TI finden, dann sind die Replacemittel 10 zum Prüfen ausgebildet, ob in der erkannten ersten Textinformation TI1 die falsch erkannte Textteilinformation TF enthalten ist, die durch den zweiten Sprachteilbefehl SB2 gekennzeichnet ist. Wenn diese Prüfung ergibt, dass die falsch erkannte Textteilinformation TF des Sprachbefehls als falsch erkannte Textteilinformation TW in der ersten Textinformation TI1 enthalten ist, dann geben die Replacemittel 10 eine Detektionsinformation DI an die Erkennermittel 6 ab, die die Position der falsch erkannten Textteilinformation TW in der ersten Textinformation TI1 kennzeichnet.
Beim Empfang der Detektionsinformation DI führen die Erkennermittel 6 eine „Re-Calculation" durch, bei der die Sprachanalyseinformation SAI, die zu der Erkennung der Wörter in der näheren Umgebung des in der ersten Textinformation TI falsch erkannten Wortes TW geführt hat, und bei der die Sprachanalyseinformation SAI, die zu der Erkennung des Wortes TF des zweiten Sprachteilbefehls SB2 und des Wortes TN des vierten Sprachteilbefehls SB4 geführt hat, gemeinsam verarbeitet werden. Somit stehen bei der „Re-Calculation" die akustischen Informationen des von dem Benutzer zweimal ausgesprochenen, jedoch in der ersten Textinformation falsch erkannten Wortes TN sowie die akustischen Informationen der richtigen Aussprache des in der ersten Textinformation fälschlicherweise erkannten Wortes TW zur Verfügung. Als Ergebnis dieser „Re-Calculation" durch die Erkennermittel 6 geben die Erkennermittel 6 eine Editierinformation EI an die Replacemittel 10 ab, die die in der ersten Textinformation TI1 durchzuführende Ersetzung kennzeichnet. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
Der Computer 1 enthält weiterhin Editiermittel 11, die zum Verarbeiten der ersten Textinformation TI1 und der an sie abgegebenen Editierinformation EI ausgebildet sind. Hierbei wird die erste Textinformation TI1 von den Editiermitteln 11 verarbeitet und als analoges Monitorsignal DS an den Monitor 3 zur Darstellung abgegeben. Die Editiermittel 11 sind beim Empfang der Editierinformation EI zum Ersetzen der falsch erkannten Textteilinformation TW in der ersten Textinformation TI1 durch die neue Textteilinformation TN ausgebildet, die durch den vierten Sprachteilbefehl SB4 gekennzeichnet ist. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen werden.
Eine Tastatur 12 des Computers 1 kann an die Editiermittel 11 Eingabeinformationen 11 liefern, mit denen der Benutzer des Computers 1 Texteingaben und Eingaben zum Editieren der mit dem Monitor 3 dargestellten ersten Textinformation TI1 durchführen kann. Die Editiermittel 11 weisen hierbei die Funktionalität eines mit dem Computer 1 abgearbeiteten Editierprogramms auf, das beispielsweise durch das Softwareprogramm „Word for Windows^®" gebildet sein kann.
Im Folgenden werden anhand eines Anwendungsbeispiels des Computers 1 gemäß 1 die Vorteile des Spracherkennungsverfahrens mit dem Texteditierverfahren erläutert. Gemäß dem Anwendungsbeispiel wird angenommen, dass der Benutzer des Computers 1 das Spracherkennungsprogramm in den Arbeitsspeicher des Computers 1 lädt, woraufhin die Abarbeitung des Spracherkennungsverfahrens bei einem Block 13 des Ablaufdiagramms 4 in 2 beginnt.
Bei einem Block 14 wird von den Erkennermitteln 6 geprüft, ob der Benutzer des Computers 1 in das Mikrofon 2 gesprochen hat und eine Sprachinformation SI an die Erkennermittel 6 abgegeben wurde. Gemäß dem Anwendungsbeispiel wird angenommen, dass der Benutzer beginnt, den Text „European Patents shall be..." des Artikels 52(1) des Europäischen Patentübereinkommens in das Mikrofon 2 zu diktieren, woraufhin eine entsprechende Sprachinformation SI über den Analog/Digital-Wandler 5 an die Erkennermittel 6 abgegeben wird.
Anschließend erkennen die Erkennermittel 6 bei der Abarbeitung des Blocks 14, dass eine Sprachinformation SI empfangen wurde und arbeiten bei einem Block 15 das Spracherkennungsverfahren wie vorstehend beschrieben ab. Hierbei wird auch die bei der Erkennung der Textinformation TI ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermitteln 9 gespeichert. Die Erkennermittel 6 geben als Ergebnis der Abarbeitung des Spracherkennungsverfahrens die folgende Textinformation TI an die Replacemittel 10 ab, wobei statt des von dem Benutzer diktierten Wortes „invention" fälschlicherweise das Wort TW1 = „invasion" und statt des von dem Benutzer diktierten Wortes „new" fälschlicherweise das Wort TW2 = „few" erkannt wurde: Textinformation TI = „European Patents shall be granted for any invasion which are susceptible of industrial application, which are few and which involve an inventive step. The following in particular shall not be regarded as inventions within the meaning of Paragraph 1:".
Die Replacemittel 10 arbeiten bei einem Block 16 einen ersten Teil des Texteditierverfahrens ab und prüfen hierbei laufend, ob die von den Erkennermitteln 6 empfangene Textinformation TI die Struktur des vierteiligen Sprachbefehls SB aufweist, um festzustellen, ob die erkannte Textinformation TI eine erste Textinformation TI1 oder eine zweite Textinformation TI2 ist. Da keines der Wörter der von den Erkennermitteln 6 erkannten Textinformation TI „REPLACE" oder „WITH" ist, wird die jeweils erkannte Textinformation TI von den Replacemitteln 10 als erste Textinformation TI1 an die Editiermittel 11 abgegeben.
Die Editiermittel 11 geben dann bei einem Block 17 die erste Textinformation TI1 als Monitorsignal DS an den Monitor 3 ab, der die erste Textinformation TI1 – wie in 1 dargestellt – anzeigt, woraufhin wiederum Block 14 des Ablaufdiagramms 4 abgearbeitet wird. Ein die nächste Eingabeposition kennzeichnender Cursor C der Editiermittel 11 ist zu diesem Zeitpunkt bei der Position nach dem letzten Zeichen ":" der ersten Textinformation TI1 positioniert.
Gemäß dem Anwendungsbeispiel wird nunmehr angenommen, dass der Benutzer bemerkt, dass das gesprochene Wort „INVENTION" falsch erkannt wurde und die erste Textinformation TI1 das falsch erkannte Wort TW1 = „INVASION" enthält. Der Benutzer möchte daher das falsch erkannte Wort TW1 = „INVASION" editieren und durch das neue Wort TN = „INVENTION" ersetzen, das die Erkennermittel 6 eigentlich anstatt des falsch erkannten Wortes TW1 = „INVASION" erkennen hätten sollen. Hierfür spricht der Benutzer die in 3 dargestellte zweite Textinformation TI2 = „REPLACE INVASION WITH INVENTION" des Sprachbefehls SB in das Mikrofon 2.
Bei der Abarbeitung des Blocks 14 erkennen die Erkennermittel 6, dass eine Sprachinformation SI empfangen wurde und bei Block 15 wird das Spracherkennungsverfahren für die empfangene Sprachinformation SI abgearbeitet, wobei die hierbei ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermittein 9 gespeichert wird. Bei dem Block 16 wird die von den Erkennermitteln 6 erkannte Textinformation TI geprüft und es wird festgestellt, dass in der erkannten Textinformation TI die Struktur des vierteiligen Sprachbefehls SB enthalten ist, worauf die erkannte Textinformation TI als zweite Textinformation TI2 gespeichert wird.
Anschließend wird – wie in 3 dargestellt – eine Zuordnung der in der zweiten Textinformation TI2 enthaltenen Textteilinformationen TTI zu den Sprachteilbefehlen SB durchgeführt. Eine Textteilinformation TF1 = „INVASION" wird als zweiter Sprachteilbefehl SB2 erkannt, der die falsche Textteilinformation TW1 = „INVASION" in der ersten Textinformation TI1 kennzeichnet. Weiterhin wird die Textteilinformation TN1 = „INVENTION" als vierter Sprachteilbefehl SB4 erkannt, der das neue Wort kennzeichnet, das das falsche Wort in der ersten Textinformation TI1 ersetzen soll. Danach wird das Texteditierverfahren bei einem Block 18 fortgesetzt.
Bei dem Block 18 prüfen die Replacemittel 10, ob die Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls SB2 ein Wort in der ersten Textinformation TI1 kennzeichnet. Diese Prüfung ergibt, dass das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1 mit der Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls SB2 übereinstimmt. Die Replacemittel 10 geben hierauf die Detektionsinformation DI an die Erkennermittel 6 ab, die das achte Wort in der ersten Textinformation TI1 kennzeichnet.
Bei einem Block 19 prüfen die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene neue Wort TN1 = „INVENTION" gleich dem falsch erkannten Wort TW1 = „INVASION" ist. Hierauf wird anhand eines zweiten Anwendungsbeispiels des Computers 1 gemäß 1 näher eingegangen.
Beim Empfang der Detektionsinformation DI arbeiten die Erkennermittel 6 einen Block 20 ab, bei dem die „Re-Calculation" für die Sprachteilinformationen STI durchgeführt wird, die zu der Erkennung der Wörter („ ... granted for any invasion which are ...") in der näheren Umgebung des achten Wortes in der ersten Textinformation TI1 und die zu der Erkennung des Wortes „INVASION" des zweiten Sprachteilbefehls SB2 und des Wortes „INVENTION” des vierten Sprachteilbefehls SB4 geführt haben. Hierbei werden auch die bei der Erkennung der ersten Textinformation TI1 und der zweiten Textinformation TI2 gespeicherten Sprachanalyseinformationen SAI berücksichtigt.
Bei der „Re-Calculation" stehen den Erkennermittel 6 als zusätzliche Informationen für eine bessere Erkennung die Informationen zur Verfügung, dass für das achte Wort in der ersten Textinformation TI1 eigentlich das Wort „INVENTION" hätte erkannt werden sollen und dass das falsch erkannte Wort von dem Benutzer so ausgesprochen wird, wie er es in dem zweiten Sprachteilbefehl SB2 ausgesprochen hat. Durch diese „Re-Calculation" mit den zusätzlichen Informationen ist das Ergebnis der anschließenden Ersetzung besonders zuverlässig. Zusätzlich können diese zusätzlichen Informationen zur Anpassung der in dem Wortschatzspeicher 7 gespeicherten Phoneminformationen PI und Textteilinformationen TTI sowie zur Anpassung der in dem Sprachmodellspeicher 8 gespeicherten Wahrscheinlichkeitsinformationen WI verwendet werden.
Als Ergebnis der „Re-Calculation" wird von den Erkennermitteln 6 die Editierinformation EI an die Replacemittel 10 abgegeben, die das nun richtig erkannte neue Wort „INVENTION" und die Position des achten Wortes in der ersten Textinformation TI als Position für die Ersetzung kennzeichnet. Als Ergebnis dieser „Re-Calculation" kann auch die Editierinformation EI ermittelt werden, mit der gleich mehrere Wörter durch das durch den zweiten Sprachteilbefehl B2 gekennzeichnete Wort „INVENTION" ersetzt werden. Dies ist dann der Fall, wenn aufgrund der Auswertung der Wahrscheinlichkeitsinformationen WI die Gesamtwahrscheinlichkeit einer richtigen Erkennung der ersten Textinformation TI1 höher ist, wenn auch die das neue Wort umgebenden Wörter in der ersten Textinformation TI1 verändert werden.
Als Abschluss der Abarbeitung des Blocks 20 geben die Erkennermittel 6 die bei der „Re-Calculation" mit hoher Zuverlässigkeit erkannte Textteilinformation TN = „INVENTION" und gegebenenfalls die Textteilinformation der um das achte Wort herum geänderten Wörter an die Replacemittel 10 als Editierinformation EI ab. Die Replacemittel 10 geben die von den Erkennermitteln 6 ermittelte Editierinformation EI an die Editiermittel 11 ab, worauf die Abarbeitung des Texteditierverfahrens bei einem Block 21 fortgesetzt wird.
Bei dem Block 21 positionieren die Editiermittel 11 den Cursor C auf das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1, worauf die Abarbeitung des Texteditierverfahrens bei einem Block 22 fortgesetzt wird. Bei dem Block 22 wird das achte Wort TW1 = „INVASION" durch das neue Wort TN1 = „INVENTION" ersetzt. Bei einem anschließend abgearbeiteten Block 23 wird der Cursor C wiederum auf die ursprüngliche Position, also auf die Position nach dem letzten Zeichen „:" der ersten Textinformation TI positioniert.
Dies hat den Vorteil, dass das falsch erkannte Wort TW1 = „INVASION" mit nur einem Sprachbefehl SB durch das Wort TN1 = „INVENTION" ersetzt wurde, das eigentlich statt des falsch erkannten Wortes TW1 von den Erkennermitteln 6 hätte erkannt werden sollen. Zusätzlich ist der Vorteil erhalten, dass der Cursor C nach der Ersetzung des falsch erkannten Wortes gleich wieder an der richtigen Position in der ersten Textinformation TI1 positioniert ist, um das Diktat des Artikels 52 des Europäischen Patentübereinkommens fortzusetzen.
Besonders vorteilhaft ist hierbei die effiziente Nutzung der Informationen aus der Geschichte der Erkennung des falschen Wortes, um bei der „Re-Calculation" die richtige Ersetzung zu ermitteln.
Im Folgenden sollen jetzt weitere Vorteile des Computers 1 anhand des zweiten Anwendungsbeispiels des Computers 1 erläutert werden. Gemäß dem zweiten Anwendungsbeispiel wird angenommen, dass der Benutzer des Computers 1 das falsch erkannte Wort TW2 = „FEW" in der ersten Textinformation TI1 durch das eigentlich an dieser Stelle diktierte Wort „NEW" ersetzen möchte. Hierfür spricht der Benutzer den Sprachbefehl SB = „REPLACE FEW WITH NEW" in das Mikrofon 2, woraufhin das Ablaufdiagramm 4 bei dem Block 15 fortgesetzt wird.
Bei der Abarbeitung des Spracherkennungsverfahrens bei dem Block 15 werden von den Erkennermitteln 6 zu jeder Sprachteilinformation STI mehrere alternative Textteilinformationen ATI ermitteln und in die Alternativentabelle AT eintragen, die in 4 dargestellt ist. Hierbei wird zu der zweiten Sprachteilinformation ST2 das Wort TF2 = „SUE" als erste alternative Textteilinformation AT1 und das Wort TF3 = „FEW" nur als zweite alternative Textteilinformation AT2 in die Alternativentabelle AT eingetragen. Zu der dritten Sprachteilinformation ST3 wird das Wort „BY" als erste alternative Textteilinformation AT1 und das Wort „LIE" als zweite alternative Textteilinformation AT2 in die Alternativentabelle AT eingetragen. Schließlich wird das in dem Sprachbefehl diktierte Wort „NEW" neuerlich falsch erkannt und zu der vierten Sprachteilinformation ST4 das Wort TN2 = „FEW" als erste alternative Textteilinformation AT1 in die Alternativentabelle AT eingetragen. Das Wort TN3 = „NEW" wird nur als zweite alternative Textteilinformation AT2 und das Wort „HUGH" als dritte alternative Textteilinformation AT3 in die Alternativentabelle AT eingetragen.
Da der Benutzer beim Sprechen des Sprachbefehls SB das Wort „FEW" nicht deutlich ausgesprochen hat, wurde von den Erkennermitteln 6 für die zweite Sprachteilinformation STI dem Wort „SUE" eine höhere Wahrscheinlichkeit einer richtigen Erkennung zugeordnet als dem Wort „FEW". Bei der Erkennung des von dem Benutzer ausgesprochenen Wortes „NEW" hatte das Spracherkennungsverfahren bereits bei der Erkennung der ersten Textinformation TI1 Schwierigkeiten, weshalb neuerlich dem Wort „FEW" eine höhere Wahrscheinlichkeit einer richtigen Erkennung zugeordnet wurde. Deshalb werden die alternativen Textteilinformationen „REPLACE SUE BY FEW" als wahrscheinlichste Variante in die zweite Textinformation TI2 aufgenommen und von den Erkennermitteln 6 als erkannte Textinformation TI an die Replacemittel 6 abgegeben.
Bei der Abarbeitung des Blocks 16 stellen die Replacemittel 10 fest, dass die Struktur des vierteiligen Sprachbefehls SB enthalten ist, woraufhin des Ablaufdiagramm 4 bei Block 18 fortgesetzt wird. Bei der Abarbeitung des Blocks 18 prüfen die Replacemittel 10, ob das in der zweiten Textinformation TI2 als zweiter Sprachteilbefehl SB2 enthaltene Wort TF2 = „SUE" in der ersten Textinformation TI1 enthalten ist. Diese Prüfung ergibt, dass das Wort TF2 = „SUE" nicht in der ersten Textinformation TI1 enthalten ist, weshalb das Texteditierverfahren bei einem Block 24 fortgesetzt wird.
Bei der Abarbeitung des Blocks 24 lesen die Replacemittel 10 die in den Sprachanalysespeichermitteln 9 gespeicherte Alternativentabelle AT aus und prüfen, ob eine der zu der zweiten Sprachteilinformation STI2 gespeicherte alternative Textteilinformation ATI in der ersten Textteilinformation TI1 enthalten ist. Als Ergebnis der Prüfung stellen die Replacemittel 10 fest, dass die zweite alternative Textteilinformation ATI2 – also das Wort TF3 = „FEW" – als siebzehntes Wort in der ersten Textteilinformation TI1 enthalten ist.
Dies hat den Vorteil, dass sogar dann, wenn durch eine undeutliche Aussprache des Sprachbefehls SB der zweite Sprachteilbefehl SB2 falsch erkannt wurde, das von dem Benutzer gewünschte Wort durch das richtige Wort ersetzt wird. Im Anschluss an die Abarbeitung des Blocks 24 wird der Block 19 abgearbeitet.
Bei dem Block 19 prüfen die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene neue Wort TN2 = „FEW" gleich dem falsch erkannten Wort TW2 = „FEW" ist. Diese Prüfung ergibt, das die beiden Wörter übereinstimmen, weshalb die Abarbeitung des Texteditierverfahrens bei einem Block 25 fortgesetzt wird.
Bei dem Block 25 ermitteln die Replacemittel 10 statt der wahrscheinlichsten alternativen Textteilinformation AT1 = „FEW" die zweitwahrscheinlichste alternative Textteilinformation AT2 = „NEW" als das neue Wort. Hierauf werden wie vorstehend beschrieben die Blöcke 20 bis 23 abgearbeitet und das Wort TW2 = „FEW" in der ersten Textteilinformation TI1 durch das Wort TN3 = „NEW" ersetzt.
Dies hat den Vorteil, dass, wenn das bereits in der ersten Textinformation TI1 falsch erkannte Wort auch in dem Sprachbefehl SB neuerlich falsch erkannt wurde, trotzdem mit großer Wahrscheinlichkeit eine vom Benutzer des Computers 1 gewünschte Ersetzung durchgeführt wird. Wenn eine der Ersetzungen durch den umfangreichen vierteiligen Sprachbefehl einmal nicht das gewünschte Ergebnis für den Benutzer erzielt hat, dann kann durch den Sprachbefehl „UNDO" die letzte Ersetzung sehr einfach rückgängig gemacht werden.
Es kann erwähnt werden, dass die Blöcke 14, 15 und 17 in dem Ablaufdiagramm 4 das Spracherkennungsverfahren repräsentieren und dass die Blöcke 16 und 18 bis 25 das Texteditierverfahren repräsentieren.
Es kann weiterhin erwähnt werden, dass jeder der vier Sprachteilbefehle ein oder mehrere Wörter enthalten kann. Weiterhin kann der dritte Sprachteilbefehl auch durch eine Pause beim Sprechen des vierteiligen Sprachbefehls gebildet sein. In diesem Fall würde der Benutzer entsprechend dem ersten Anwendungsbeispiel den vierteiligen Sprachbefehl „REPLACE INVASION" Pause „INVENTION" sprechen. In diesem Fall wäre der vierteilige Sprachbefehl durch das an der ersten Position in der zweiten Textinformation TI2 enthaltene Wort und durch die von den Erkennermitteln detektierte Pause nach dem zweiten oder weiteren Wort der zweiten Textinformation TI2 als vierteiliger Sprachbefehl gekennzeichnet.

2

13: START
14: ÄUSSERUNG?
15: SPRACHE ERKENNEN
16: REPLACE "A" WITH "B"?
17: TI1 ANZEIGEN
18: "A" IN TI1?
19: "A" = "TW?
20: RE-CALCULATION
21: CURSOR POSITIONIEREN
22: REPLACE
23: CURSOR NEU POSITIONIEREN
24: ALTERNATIVE VON "A" IN TI1?
25: "A" = ALTERNATIVE VON "A"

Claims

Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren einer in einer ersten Textinformation (TI1) falsch erkannten Textteilinformation (TW) mit einem in einer zweiten Textinformation (TI2) erkannten vierteiligen Sprachbefehl (SP), wobei das Spracherkennungsverfahren die folgenden Schritte aufweist: • Empfangen von Sprachinformation (S1) und Erkennen der ersten Textinformation (TI1) und der zweiten Textinformation (TI2); • Prüfen, ob ein an der ersten Position der zweiten Textinformation (TI2) enthaltenes Wort mit einem ersten Sprachteilbefehl (SB1) des vierteiligen Sprachbefehls (SB) übereinstimmt, und prüfen, ob ein an dritter oder weiterer Position der zweiten Textinformation (TI2) enthaltenes Wort mit einem dritten Sprachteilbefehl (SB3) des vierteiligen Sprachbefehls (SB) übereinstimmt, wobei bei einem positiven Ergebnis der Prüfungen der nächste Schritt des Texteditierverfahrens abgearbeitet wird; • Prüfen, ob in der ersten Textinformation (TI1) die falsch erkannte Textteilinformation (TW) enthalten ist, die durch einen zwischen dem ersten Sprachteilbefehl (SB1) und dem dritten Sprachteilbefehl (SB3) enthaltenen zweiten Sprachteilbefehl (SB2) der zweiten Textinformation (TI2) gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung der nächste Schritt des Texteditierverfahrens abgearbeitet wird; • Ersetzen der falsch erkannten Textteilinformation (TW) der ersten Textinformation (TI1) durch eine neue Textteilinformation (TN), die nach dem dritten Sprachteilbefehl (SB3) als vierter Sprachteilbefehl (SB4) des vierteiligen Sprachbefehls (SB) in der zweiten Textinformation (TI2) enthalten ist.
Spracherkennungsverfahren nach Anspruch 1, wobei nach dem Ersetzen der falsch erkannten Textteilinformation (TW) ein die Eingabeposition für eine weitere von dem Spracherkennungsverfahren (4) erkannte Textinformation (TI) kennzeichnender Cursor (C) am Ende der zuletzt erkannten ersten Textinformation (TI1) positioniert wird.
Spracherkennungsverfahren nach Anspruch 1, wobei der vierteilige Sprachbefehl (SB) die Struktur „REPLACE A WITH B" aufweist und wobei der zweite Sprachteilbefehl „A" ein falsch erkanntes Wort und der vierte Sprachteilbefehl „B" ein eigentlich statt des falsch erkannten Wortes zu erkennendes Wort kennzeichnet.
Spracherkennungsverfahren nach Anspruch 1, in dem die folgenden Schritte vorgesehen sind: • Ermitteln alternativer Textteilinformationen (ATI) zu jeder Sprachteilinformation (STI) der empfangenen Sprachinformation (SI) bei der Erkennung der zweiten Textinformation (TI2), wobei die in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation (TI2) aufweisen; • Prüfen, ob in der ersten Textinformation (TI1) die falsch erkannte Textteilinformation (TW) enthalten ist, die durch eine der nicht in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) des zweiten Sprachteilbefehls (SB2) gekennzeichnet ist, wobei bei einem positiven Ergebnis der Prüfung die falsch erkannte Textteilinformation (TW) durch die neue Textteilinformation (TN) ersetzt wird.
Spracherkennungsverfahren nach Anspruch 1, wobei folgende weitere Schritte vorgesehen sind: • Ermitteln alternativer Textteilinformationen (ATI) zu jeder Sprachteilinformation (STI) der empfangenen Sprachinformation (SI) bei der Erkennung der zweiten Textinformation (TI2), wobei die in der zweiten Textinformation (TI2) enthaltenen alternativen Textteilinformationen (ATI) die höchste Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation (TI2) aufweisen; • Prüfen, ob in die in der ersten Textinformation (TI1) enthaltene falsch erkannte Textteilinformation (TW) mit der in der zweiten Textinformation (TI2) enthaltenen neuen Textinformation (TN) übereinstimmt, wobei bei einem positiven Ergebnis der Prüfung eine zu der neuen Textinformation (TN) ermittelte alternative Textteilinformation (ATI) als neue Textinformation (TN) gespeichert wird.
Computerprogrammprodukt, das, wenn es direkt in den internen Speicher eines digitalen Computers (1) geladen wird, Softwarecodeabschnitte umfasst, wobei mit dem Computer alle Schritte des Spracherkennungsverfahrens nach Anspruch 1 abgearbeitet werden.
Computerprogrammprodukt nach Anspruch 6, wobei das Computerprogrammprodukt auf einem computerlesbaren Medium gespeichert ist.