-
Die
Erfindung bezieht sich auf ein Spracherkennungsverfahren mit einem
Texteditierverfahren zum Editieren einer falsch erkannten Textteilinformation
mit einem Sprachbefehl.
-
Die
Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt
das direkt in den internen Speicher eines digitalen Computers geladen werden
kann und Softwarecodeabschnitte umfasst.
-
Ein
solches Spracherkennungsverfahren und ein solches Computerprogrammprodukt
sind aus
US-A-5.794.189 bekannt
und werden durch einen Computer abgearbeitet, an den ein Mikrofon
und ein Monitor angeschlossen sind. Das bekannte Spracherkennungsverfahren
weist ein Nahbereichs-Texteditierverfahren auf, mit dem ein von
dem Spracherkennungsverfahren innerhalb des zuletzt erkannten Satzes
des erkannten Textes falsch erkanntes Wort mit Sprachbefehlen editiert
werden kann.
-
Wenn
der Benutzer bemerkt, dass der zuletzt von dem Spracherkennungsverfahren
erkannte Satz ein falsch erkanntes Wort enthält, dann spricht er einen einteiligen
Sprachbefehl „Oops" in das Mikrofon. Hierauf
wird ein Editierfenster des Spracherkennungsverfahrens geöffnet, das
den fehlerhaften Satz enthält.
Anschließend
kann der Benutzer das falsch erkannte Wort neuerlich sprechen, woraufhin
das Nahbereichs-Texteditierverfahren durch Analyse der bei der Erkennung
des fehlerhaften Satzes ermittelten Sprachanalyseinformationen versucht,
das falsch erkannte Wort in dem fehlerhaften Satz zu finden und durch
das neuerlich gesprochene und erkannte Wort zu ersetzen. Wenn der
Benutzer die Ersetzung durch einen weiteren einteiligen Sprachbefehl
bestätigt, dann
wird das falsch erkannte Wort in dem fehlerhaften Satz des erkannten
Textes durch das neuerlich gesprochene Wort ersetzt und das Editierfenster
geschlossen.
-
Bei
dem bekannten Nahbereichs-Editierverfahren hat sich als Nachteil
erwiesen, dass der Benutzer zu mehreren Zeitpunkten in der richtigen
Abfolge und abhängig
von der mit dem Monitor dargestellten Information zwei unterschiedliche
einteilige Sprachbefehle („Oops"; „Accept") und das zu ersetzende
Wort in das Mikrofon sprechen muss, was relativ kompliziert ist.
Weiterhin hat sich bei dem bekannten Nahbereichs-Editierverfahren
als Nachteil erwiesen, dass das falsch erkannte Wort in dem fehlerhaften
Satz nicht mit ausreichender Zuverlässigkeit gefunden wird.
-
Das
bekannte Spracherkennungsverfahren weist weiterhin ein Dokument-Texteditierverfahren zum
Editieren eines Wortes innerhalb des gesamten Textes eines aktiven
Dokuments auf. Hierbei können sowohl
von dem Spracherkennungsverfahren falsch oder richtig erkannte Wörter als
auch mit der Tastatur des Computers eingegebene Wörter editiert
werden. Wenn der Benutzer eines der Wörter des Textes ändern möchte, dann
spricht er „Select" und das Wort, das
er ändern
möchte,
in das Mikrofon des Computers, womit ein zweiteiliger Sprachbefehl
zum Markieren eines Wortes offenbart ist. Dann erzeugt das bekannte
Dokument-Texteditierverfahren eine Baumstruktur des gesamten Textes
des Dokuments und sucht den zu dem gesprochenen Wort erkannten Text in
der Baumstruktur.
-
Wenn
der Computer ein Wort des Textes selektiert und markiert und mit
dem Monitor darstellt, dann kann der Benutzer die Selektion mit
einem einteiligen Sprachbefehl bestätigen oder widerrufen. Wenn
der Benutzer die Selektion bestätigt
und anschließend
ein neues Wort in das Mikrofon spricht, dann wird das markierte
Wort durch das neue Wort ersetzt.
-
Bei
dem bekannten Dokument-Editierverfahren hat sich als Nachteil erwiesen,
dass der Benutzer zu mehreren Zeitpunkten in der richtigen Abfolge
und abhängig
von der mit dem Monitor dargestellten Information zwei unterschiedliche
Sprachbefehle („Select"; „Accept") und sowohl das
zu ersetzende Wort als auch das neue Wort in das Mikrofon sprechen muss,
was relativ kompliziert ist. Weiterhin hat sich bei dem bekannten
Dokument-Editierverfahren als Nachteil erwiesen, dass das zu ersetzende
Wort nicht mit ausreichender Zuverlässigkeit gefunden wird.
-
Die
Erfindung hat sich zur Aufgabe gestellt, die vorstehend angeführten Schwierigkeiten
zu beseitigen und ein verbessertes Spracherkennungsverfahren gemäß Anspruch
1 und ein verbessertes Computerprogrammprodukt gemäß Anspruch
6 zu schaffen. Zur Lösung
dieser Aufgabe sind bei einem solchen Spracherkennungsverfahren
erfindungsgemäße Merkmale
vorgesehen, so dass das Spracherkennungsverfahren durch die nachfolgend
angegebene Weise gekennzeichnet werden kann.
-
Ein
Spracherkennungsverfahren mit einem Texteditierverfahren zum Editieren
einer in einer ersten Textinformation falsch erkannten Textteilinformation
mit einem in einer zweiten Textinformation erkannten vierteiligen
Sprachbefehl, wobei das Spracherkennungsverfahren die folgenden
Schritte aufweist:
- • Empfangen vom Sprachinformation
und Erkennen der ersten Textinformation und der zweiten Textinformation;
- • Prüfen, ob
ein an der ersten Position der zweiten Textinformation enthaltenes
Wort mit einem ersten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt,
und prüfen,
ob ein an dritter oder weiterer Position der zweiten Textinformation enthaltenes
Wort mit einem dritten Sprachteilbefehl des vierteiligen Sprachbefehls übereinstimmt, wobei
bei einem positiven Ergebnis der Prüfungen der nächste Schritt
des Texteditierverfahrens abgearbeitet wird;
- • Prüfen, ob
in der ersten Textinformation die falsch erkannte Textteilinformation
enthalten ist, die durch einen zwischen dem ersten Sprachteilbefehl
und dem dritten Sprachteilbefehl enthaltenen zweiten Sprachteilbefehl
der zweiten Textinformation gekennzeichnet ist, wobei bei einem
positiven Ergebnis der Prüfung
der nächste
Schritt des Texteditierverfahrens abgearbeitet wird;
- • Ersetzen
der falsch erkannten Textteilinformation der ersten Textinformation
durch eine neue Textteilinformation, die nach dem dritten Sprachteilbefehl
als vierter Sprachteilbefehl des vierteiligen Sprachbefehls in der
zweiten Textinformation enthalten ist.
-
Zur
Lösung
dieser Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale
vorgesehen, so dass das Computerprogrammprodukt durch die nachfolgend
beschriebenen Merkmale gekennzeichnet werden kann.
-
Computerprogrammprodukt,
das direkt in den internen Speicher eines digitalen Computers geladen
werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer
die Schritte des Spracherkennungsverfahrens gemäß Anspruch 1 abgearbeitet werden,
wenn das Produkt auf dem Computer läuft.
-
Hierdurch
kann ein Benutzer durch nur einmaliges Sprechen eines vierteiligen
Sprachbefehls ein falsch erkanntes Wort durch ein neues Wort ersetzen.
Beispielsweise könnte
ein Benutzer „Replace test
by text" sprechen,
um das falsch erkannte Wort „test" durch das Wort „text" zu ersetzen. Zusätzlich kann
vor dem Ersetzen der falsch erkannten Textinformation eine „Re-Calculation" durchgeführt werden,
bei der unter Ausnutzung der bei der Erkennung der ersten Textinformation
ermittelten Sprachanalyseinformationen und der zusätzlichen
in dem Sprachbefehl enthaltenen Informationen die erste Textinformation
mit der größten Wahrscheinlichkeit
einer richtigen Erkennung ermittelt wird. Die in dem Sprachbefehl
enthaltenen Informationen enthalten auch die Information über die
Aussprache des meist sehr ähnlich
klingenden falsch erkannten Worts „test" und des eigentlich zu erkennenden Worts „text". Das Spracherkennungsverfahren
hat daher bei der „Re-Calculation" der ersten Textinformation
mit diesen zusätzlichen
Informationen eine besonders genaue Sprachinformation zur Verfügung, weshalb
eine hierbei ermittelte Editierinformation mit einer besonders hohen Zuverlässigkeit
der durch den Benutzer gewünschten Ersetzung
entspricht.
-
Besonders
vorteilhaft ist es, wenn der Sprachbefehl nicht für das gesamte
Dokument, sondern nur für
den Textteil der ersten Textinformation wirksam ist, der gerade
mit dem Monitor dargestellt wird. Wenn der Sprachbefehl eine falsche
Ersetzung bewirkt hat, dann kann diese sehr leicht durch beispielsweise
durch den Sprachbefehle „Undo" rückgängig gemacht
werden.
-
Bei
dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als
vorteilhaft erwiesen, die Maßnahmen
gemäß Anspruch
2 vorzusehen. Dies hat den Vorteil, dass der Benutzer bei einem Diktat
nach einer Korrektur eines falsch erkannten Wortes unmittelbar weiter
diktieren kann, ohne einen Sprachbefehl zur Positionierung des Cursors
sprechen zu müssen.
-
Bei
dem Spracherkennungsverfahren gemäß Anspruch 1 hat es sich als
vorteilhaft erwiesen, die Maßnahmen
gemäß Anspruch
3 vorzusehen. Dies hat den Vorteil, dass ein Sprachbefehl zum Ersetzen
eines falsch erkannten Wortes erhalten wird, der besonders einfach
zu sprechen ist und der trotzdem sämtliche für die Ersetzung nötigen Informationen
enthält.
-
Gemäß den Maßnahmen
des Anspruchs 4 werden bei der Erkennung der zweiten Textinformation
zu jedem Teil der Sprachinformation mehrere alternative Textteilinformationen
ermittelt. Für
die zweite Textinformation wird anschießend je Sprachteilinformation
die alternative Textteilinformation gewählt, um für die gesamte erkannte zweite
Textinformation die höchste
Gesamtwahrscheinlichkeit einer richtigen Erkennung der zweiten Textinformation
zu erhalten. Bei der Erkennung des gesprochenen vierteiligen Sprachbefehls
kann es nunmehr dazu kommen, dass nicht die in der zweiten Textinformation
enthaltene, sondern eine der anderen alternativen Textteilinformationen
das mit dem Monitor dargestellte falsch erkannte Wort kennzeichnet.
-
Gemäß den Maßnahmen
des Anspruchs 4 wird der Vorteil erhalten, dass, wenn die in der
zweiten Textinformation enthaltene alternative Textteilinformation
des zweiten Sprachteilbefehls nicht in der ersten Textinformation
gefunden werden kann, auch die nicht in der zweiten Textinformation
enthaltenen alternativen Textteilinformationen des zweiten Sprachteilbefehls
als falsch erkannte Textteilinformation in der ersten Textinformation
gesucht werden. Hierdurch wird die Zuverlässigkeit bei der Auffindung der
falsch erkannten Textteilinformation in der ersten Textinformation
noch weiter verbessert.
-
Gemäß den Maßnahmen
des Anspruchs 5 wird der Vorteil erhalten, dass, wenn die als vierter Sprachteilbefehl
in dem Sprachbefehl gesprochene neue Textteilinformation – ebenso
wie die falsch erkannte Textteilinformation in der ersten Textinformation – falsch
erkannt wird, die zu dem vierten Sprachteilbefehl erkannte alternative
Textteilinformation mit der zweithöchsten Gesamtwahrscheinlichkeit
einer richtigen Erkennung der zweiten Textinformation als neue Textteilinformation
festgelegt wird. Hierdurch wird die Zuverlässigkeit bei der Ersetzung
der falsch erkannten Textteilinformation durch die neue Textteilinformation
noch weiter verbessert.
-
Ausführungsbeispiele
der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben.
-
Es
zeigen:
-
1 schematisch
in Form eines Blockschaltbildes einen Computer, der ein Spracherkennungsverfahren
mit einem Texteditierverfahren abarbeitet.
-
2 ein
Ablaufdiagramm eines Spracherkennungsverfahrens mit einem Texteditierverfahren, das
von dem Computer von 1 abgearbeitet wird.
-
3 die
Struktur eines vierteiligen Sprachbefehls und eine von dem Computer
als vierteiliger Sprachbefehl erkannte zweite Textinformation.
-
4 Sprachteilinformationen
und zu den Sprachteilinformationen von dem Computer erkannte alternative
Textteilinformationen der zweiten Textinformation.
-
1 zeigt
einen Computer 1, an den ein Mikrofon 2 und ein
Monitor 3 angeschlossen sind. In einen Arbeitsspeicher
des Computers 1 ist eine auf einer CD-Rom gespeicherte
Spracherkennungssoftware geladen, die ein Computerprogrammprodukt bildet.
Der Computer 1 weist weiterhin einen Prozessor, eine Harddisk
und weitere in 1 nicht näher dargestellte und heutzutage übliche Mittel
zum Verarbeiten der Spracherkennungssoftware auf.
-
Wenn
die Spracherkennungssoftware in den Arbeitsspeicher des Computers 1 geladen
ist, arbeitet der Computer 1 ein Spracherkennungsverfahren mit
einem Texteditierverfahren zum Editieren einer falsch erkannten
Textteilinformation TW mit einem vierteiligen Sprachbefehl SB ab.
Das Spracherkennungsverfahren mit dem Texteditierverfahren weist die
Schritte eines Ablaufdiagramms 4 auf, das in 2 dargestellt
ist.
-
Dem
Computer 1 kann von dem Mikrofon 2 ein analoges
Mikrofonsignal MS zugeführt
werden, das eine Sprachinformation SI enthält, wenn ein Benutzer des Computers 1 in
das Mikrofon 2 spricht. Der Computer 1 weist einen
Analog/Digital-Wandler 5 auf,
dem das analoge Mikrofonsignal MS zugeführt werden kann. Der Analog/Digital-Wandler 5 ist
zum Digitalisieren des analogen Mikrofonsignals MS und zum Abgeben
digitaler Audiodaten AD ausgebildet, die die in dem Mikrofonsignal
MS enthaltene Sprachinformation SI enthalten.
-
Der
Computer 1 enthält
Erkennermittel 6, einen Wortschatzspeicher 7 und
einen Sprachmodellspeicher 8. In dem Wortschatzspeicher 7 sind
Phoneminformationen PI und Textteilinformationen TTI gespeichert.
Eine Phoneminformation PI enthält
hierbei eine Abfolge von Phonemen, die zur Kennzeichnung von Lauten
verwendet werden. Eine Textteilinformation TTI enthält den Text
eines oder auch mehrerer Wörter,
die von dem Spracherkennungsverfahren erkannt werden sollen, wenn
der Benutzer die in dem Wortschatzspeicher 7 gespeicherte
Phoneminformation PI als Sprachinformation SI spricht. Der Computer 1 kann
bei der Abarbeitung des Spracherkennungsverfahrens nur Wörter erkennen
und als Textinformation TI abgeben, die in dem Wortschatzspeicher 7 gespeichert
sind.
-
In
dem Sprachmodellspeicher 8 sind Wahrscheinlichkeitsinformationen
WI über
die in einer Sprache übliche
Abfolge von Wörtern
gespeichert. So weist beispielsweise die Abfolge der Wörter „This is
a test" eine höhere Gesamtwahrscheinlichkeit
als die Abfolge der Wörter „This his
a test" auf.
-
Den
Erkennermitteln 6 können
die Audiodaten AD von dem Analog/Digital-Wandler 5 zugeführt werden.
Die in den Audiodaten AD enthaltene Sprachinformation SI wird bei
der Abarbeitung des Spracherkennungsverfahrens von den Erkennermitteln 6 in
Sprachteilinformationen STI aufgeteilt, denen Phoneminformationen
PI zugeordnet werden. Die Phoneminformationen PI der Sprachteilinformationen STI
werden in dem Wortschatzspeicher 7 gesucht, woraufhin die
einer solchen gesuchten Phoneminformation PI in dem Wortschatzspeicher 7 zugeordnet gespeicherte
Textteilinformation TTI ermittelt wird.
-
Wenn
die gesuchte Phoneminformation PI in dem Wortschatzspeicher 7 nicht
gefunden wird, dann werden mehrere in dem Wortschatzspeicher 7 gespeicherte,
der gesuchten Phoneminformation PI ähnliche Phoneminformationen
PI ermittelt und die diesen Phoneminformationen PI zugeordnet gespeicherten
Textteilinformationen TTI ermittelt. Die zu der Phoneminformation
PI einer Sprachteilinformation STI ermittelten Textteilinformationen
TTI werden als alternative Textteilinformationen ATI zu der Sprachteilinformation
STI in einer Alternativentabelle eingetragen. Eine solche Alternativentabelle
AT ist in 4 dargestellt.
-
Die
Erkennermittel 6 werten nach der Ermittlung der alternativen
Textteilinformationen ATI die in dem Sprachmodellspeicher 8 gespeicherten
Wahrscheinlichkeitsinformationen WI aus und ermitteln die Abfolge
der alternativen Textteilinformationen ATI als erkannte Textinformation
TI, die die größte Gesamtwahrscheinlichkeit
einer richtigen Erkennung aufweist.
-
Die
Erkennermittel 6 wenden zum Erkennen der der empfangenen
Sprachinformation SI zuzuordnenden Textinformationen TI das sogenannte „Hidden-Markov-Modell" an, das seit langem
bekannt ist. Auf die Erkennung der der empfangenen Sprachinformation
SI zuzuordnenden Textinformation TI wird in diesem Dokument daher
nicht weiter eingegangen.
-
Der
Computer 1 enthält
weiterhin Sprachanalysespeichermittel 9, die zum Speichern
einer Sprachanalyseinformation SAI ausgebildet sind, die bei der
Abarbeitung des Spracherkennungsverfahrens durch die Erkennermittel 6 ermittelt
wird. Die Sprachanalyseinformation SAI enthält hierbei neben anderen Informationen
die Sprachteilinformationen STI und zugehörige Phoneminformationen PI
sowie die in der Alternativentabelle AT eingetragenen alternativen
Textteilinformationen ATI. Eine solche Sprachanalyseinformation
SAI ist dem Fachmann als sogenanntes „Lattice" bekannt.
-
Der
Computer 1 enthält
weiterhin Replacemittel 10, denen die von den Erkennermitteln 6 ermittelte
erkannte Textinformation TI zugeführt werden kann, die entweder
eine erste Textinformation TI oder eine zweite Textinformation TI2
bildet. Die Replacemittel 10 sind zum Prüfen ausgebildet,
ob die erkannte Textinformation TI die Struktur eines vierteiligen Sprachbefehls
SB = „REPLACE
A WITH B" aufweist, wie
dies in einer 3 dargestellt ist. Der vierteilige Sprachbefehl
SB ist zum Ersetzen eines falsch erkannten Wortes vorgesehen, worauf
anhand eines Anwendungsbeispiels des Ausführungsbeispiels von 1 näher eingegangen
werden soll.
-
Das
erste Wort des Sprachbefehls SB bildet einen ersten Sprachteilbefehl
SB1 = „REPLACE" und das dritte oder
ein weiteres Wort des Sprachbefehls SB bildet einen dritten Sprachteilbefehl
SB3 = „WITH", wobei der erste
Sprachteilbefehl SB1 und der dritte Sprachteilbefehl SB3 den Sprachbefehl
SB als solchen kennzeichnen. Das zweite Wort und gegebenenfalls
auch noch das dritte und vierte Wort in dem Sprachbefehl SB bilden
einen zweiten Sprachteilbefehl SB2, für den stellvertretend der Buchstabe „A" angegeben ist. Der
zweite Sprachteilbefehl SB2 kennzeichnet eine falsch erkannte Textteilinformation TW
in der mit dem Monitor 1 dargestellten ersten Textinformation
TI1. Das oder die auf den dritten Sprachteilbefehl SB3 = „WITH" folgenden Wörter bilden
einen vierten Sprachteilbefehl SB4, für den stellvertretend der Buchstabe „B" angegeben ist. Der
vierte Sprachteilbefehl SB4 kennzeichnet eine neue Textteilinformation
TN, durch die die falsch erkannte Textteilinformation TW in der
ersten Textinformation TI1 ersetzt werden soll. Auch hierauf soll
anhand des Anwendungsbeispiels näher
eingegangen werden.
-
Die
Replacemittel 10 sind zum unveränderten Abgeben der von den
Erkennermitteln 6 erkannten Textinformation TI als die
erste Textinformation TI1 ausgebildet, wenn die Struktur des vierteiligen Sprachbefehls
SB in der Textinformation TI von den Replacemitteln 10 nicht
gefunden wurde. Wenn die Replacemittel 10 andererseits
die Struktur des vierteiligen Sprachbefehls SB in der Textinformation
TI finden, dann sind die Replacemittel 10 zum Prüfen ausgebildet,
ob in der erkannten ersten Textinformation TI1 die falsch erkannte
Textteilinformation TF enthalten ist, die durch den zweiten Sprachteilbefehl SB2
gekennzeichnet ist. Wenn diese Prüfung ergibt, dass die falsch
erkannte Textteilinformation TF des Sprachbefehls als falsch erkannte
Textteilinformation TW in der ersten Textinformation TI1 enthalten
ist, dann geben die Replacemittel 10 eine Detektionsinformation
DI an die Erkennermittel 6 ab, die die Position der falsch
erkannten Textteilinformation TW in der ersten Textinformation TI1
kennzeichnet.
-
Beim
Empfang der Detektionsinformation DI führen die Erkennermittel 6 eine „Re-Calculation" durch, bei der die
Sprachanalyseinformation SAI, die zu der Erkennung der Wörter in
der näheren
Umgebung des in der ersten Textinformation TI falsch erkannten Wortes
TW geführt
hat, und bei der die Sprachanalyseinformation SAI, die zu der Erkennung des
Wortes TF des zweiten Sprachteilbefehls SB2 und des Wortes TN des
vierten Sprachteilbefehls SB4 geführt hat, gemeinsam verarbeitet
werden. Somit stehen bei der „Re-Calculation" die akustischen Informationen
des von dem Benutzer zweimal ausgesprochenen, jedoch in der ersten
Textinformation falsch erkannten Wortes TN sowie die akustischen Informationen
der richtigen Aussprache des in der ersten Textinformation fälschlicherweise
erkannten Wortes TW zur Verfügung.
Als Ergebnis dieser „Re-Calculation" durch die Erkennermittel 6 geben die
Erkennermittel 6 eine Editierinformation EI an die Replacemittel 10 ab,
die die in der ersten Textinformation TI1 durchzuführende Ersetzung
kennzeichnet. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen
werden.
-
Der
Computer 1 enthält
weiterhin Editiermittel 11, die zum Verarbeiten der ersten
Textinformation TI1 und der an sie abgegebenen Editierinformation
EI ausgebildet sind. Hierbei wird die erste Textinformation TI1
von den Editiermitteln 11 verarbeitet und als analoges
Monitorsignal DS an den Monitor 3 zur Darstellung abgegeben.
Die Editiermittel 11 sind beim Empfang der Editierinformation
EI zum Ersetzen der falsch erkannten Textteilinformation TW in der
ersten Textinformation TI1 durch die neue Textteilinformation TN
ausgebildet, die durch den vierten Sprachteilbefehl SB4 gekennzeichnet
ist. Hierauf soll anhand des Anwendungsbeispiels näher eingegangen
werden.
-
Eine
Tastatur 12 des Computers 1 kann an die Editiermittel 11 Eingabeinformationen 11 liefern, mit
denen der Benutzer des Computers 1 Texteingaben und Eingaben
zum Editieren der mit dem Monitor 3 dargestellten ersten
Textinformation TI1 durchführen
kann. Die Editiermittel 11 weisen hierbei die Funktionalität eines
mit dem Computer 1 abgearbeiteten Editierprogramms auf,
das beispielsweise durch das Softwareprogramm „Word for Windows®" gebildet sein kann.
-
Im
Folgenden werden anhand eines Anwendungsbeispiels des Computers 1 gemäß 1 die Vorteile
des Spracherkennungsverfahrens mit dem Texteditierverfahren erläutert. Gemäß dem Anwendungsbeispiel
wird angenommen, dass der Benutzer des Computers 1 das
Spracherkennungsprogramm in den Arbeitsspeicher des Computers 1 lädt, woraufhin
die Abarbeitung des Spracherkennungsverfahrens bei einem Block 13 des
Ablaufdiagramms 4 in 2 beginnt.
-
Bei
einem Block 14 wird von den Erkennermitteln 6 geprüft, ob der
Benutzer des Computers 1 in das Mikrofon 2 gesprochen
hat und eine Sprachinformation SI an die Erkennermittel 6 abgegeben
wurde. Gemäß dem Anwendungsbeispiel
wird angenommen, dass der Benutzer beginnt, den Text „European Patents
shall be..." des
Artikels 52(1) des Europäischen
Patentübereinkommens
in das Mikrofon 2 zu diktieren, woraufhin eine entsprechende
Sprachinformation SI über
den Analog/Digital-Wandler 5 an die Erkennermittel 6 abgegeben
wird.
-
Anschließend erkennen
die Erkennermittel 6 bei der Abarbeitung des Blocks 14,
dass eine Sprachinformation SI empfangen wurde und arbeiten bei einem
Block 15 das Spracherkennungsverfahren wie vorstehend beschrieben
ab. Hierbei wird auch die bei der Erkennung der Textinformation
TI ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermitteln 9 gespeichert.
Die Erkennermittel 6 geben als Ergebnis der Abarbeitung
des Spracherkennungsverfahrens die folgende Textinformation TI an
die Replacemittel 10 ab, wobei statt des von dem Benutzer
diktierten Wortes „invention" fälschlicherweise
das Wort TW1 = „invasion" und statt des von dem
Benutzer diktierten Wortes „new" fälschlicherweise
das Wort TW2 = „few" erkannt wurde: Textinformation
TI = „European
Patents shall be granted for any invasion which are susceptible
of industrial application, which are few and which involve an inventive step.
The following in particular shall not be regarded as inventions
within the meaning of Paragraph 1:".
-
Die
Replacemittel 10 arbeiten bei einem Block 16 einen
ersten Teil des Texteditierverfahrens ab und prüfen hierbei laufend, ob die
von den Erkennermitteln 6 empfangene Textinformation TI
die Struktur des vierteiligen Sprachbefehls SB aufweist, um festzustellen,
ob die erkannte Textinformation TI eine erste Textinformation TI1
oder eine zweite Textinformation TI2 ist. Da keines der Wörter der
von den Erkennermitteln 6 erkannten Textinformation TI „REPLACE" oder „WITH" ist, wird die jeweils
erkannte Textinformation TI von den Replacemitteln 10 als
erste Textinformation TI1 an die Editiermittel 11 abgegeben.
-
Die
Editiermittel 11 geben dann bei einem Block 17 die
erste Textinformation TI1 als Monitorsignal DS an den Monitor 3 ab,
der die erste Textinformation TI1 – wie in 1 dargestellt – anzeigt,
woraufhin wiederum Block 14 des Ablaufdiagramms 4 abgearbeitet
wird. Ein die nächste
Eingabeposition kennzeichnender Cursor C der Editiermittel 11 ist
zu diesem Zeitpunkt bei der Position nach dem letzten Zeichen ":" der ersten Textinformation TI1 positioniert.
-
Gemäß dem Anwendungsbeispiel
wird nunmehr angenommen, dass der Benutzer bemerkt, dass das gesprochene
Wort „INVENTION" falsch erkannt wurde
und die erste Textinformation TI1 das falsch erkannte Wort TW1 = „INVASION" enthält. Der Benutzer
möchte
daher das falsch erkannte Wort TW1 = „INVASION" editieren und durch das neue Wort TN
= „INVENTION" ersetzen, das die
Erkennermittel 6 eigentlich anstatt des falsch erkannten
Wortes TW1 = „INVASION" erkennen hätten sollen.
Hierfür
spricht der Benutzer die in 3 dargestellte zweite
Textinformation TI2 = „REPLACE
INVASION WITH INVENTION" des
Sprachbefehls SB in das Mikrofon 2.
-
Bei
der Abarbeitung des Blocks 14 erkennen die Erkennermittel 6,
dass eine Sprachinformation SI empfangen wurde und bei Block 15 wird
das Spracherkennungsverfahren für
die empfangene Sprachinformation SI abgearbeitet, wobei die hierbei
ermittelte Sprachanalyseinformation SAI in den Sprachanalysespeichermittein 9 gespeichert
wird. Bei dem Block 16 wird die von den Erkennermitteln 6 erkannte Textinformation
TI geprüft
und es wird festgestellt, dass in der erkannten Textinformation
TI die Struktur des vierteiligen Sprachbefehls SB enthalten ist,
worauf die erkannte Textinformation TI als zweite Textinformation
TI2 gespeichert wird.
-
Anschließend wird – wie in 3 dargestellt – eine Zuordnung
der in der zweiten Textinformation TI2 enthaltenen Textteilinformationen
TTI zu den Sprachteilbefehlen SB durchgeführt. Eine Textteilinformation
TF1 = „INVASION" wird als zweiter
Sprachteilbefehl SB2 erkannt, der die falsche Textteilinformation
TW1 = „INVASION" in der ersten Textinformation
TI1 kennzeichnet. Weiterhin wird die Textteilinformation TN1 = „INVENTION" als vierter Sprachteilbefehl
SB4 erkannt, der das neue Wort kennzeichnet, das das falsche Wort
in der ersten Textinformation TI1 ersetzen soll. Danach wird das
Texteditierverfahren bei einem Block 18 fortgesetzt.
-
Bei
dem Block 18 prüfen
die Replacemittel 10, ob die Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls
SB2 ein Wort in der ersten Textinformation TI1 kennzeichnet. Diese
Prüfung
ergibt, dass das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1 mit
der Textteilinformation TF1 = „INVASION" des zweiten Sprachteilbefehls SB2 übereinstimmt.
Die Replacemittel 10 geben hierauf die Detektionsinformation
DI an die Erkennermittel 6 ab, die das achte Wort in der
ersten Textinformation TI1 kennzeichnet.
-
Bei
einem Block 19 prüfen
die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene
neue Wort TN1 = „INVENTION" gleich dem falsch
erkannten Wort TW1 = „INVASION" ist. Hierauf wird
anhand eines zweiten Anwendungsbeispiels des Computers 1 gemäß 1 näher eingegangen.
-
Beim
Empfang der Detektionsinformation DI arbeiten die Erkennermittel 6 einen
Block 20 ab, bei dem die „Re-Calculation" für die Sprachteilinformationen
STI durchgeführt
wird, die zu der Erkennung der Wörter
(„ ...
granted for any invasion which are ...") in der näheren Umgebung des achten Wortes
in der ersten Textinformation TI1 und die zu der Erkennung des Wortes „INVASION" des zweiten Sprachteilbefehls
SB2 und des Wortes „INVENTION” des vierten
Sprachteilbefehls SB4 geführt
haben. Hierbei werden auch die bei der Erkennung der ersten Textinformation
TI1 und der zweiten Textinformation TI2 gespeicherten Sprachanalyseinformationen
SAI berücksichtigt.
-
Bei
der „Re-Calculation" stehen den Erkennermittel 6 als
zusätzliche
Informationen für
eine bessere Erkennung die Informationen zur Verfügung, dass
für das
achte Wort in der ersten Textinformation TI1 eigentlich das Wort „INVENTION" hätte erkannt werden
sollen und dass das falsch erkannte Wort von dem Benutzer so ausgesprochen
wird, wie er es in dem zweiten Sprachteilbefehl SB2 ausgesprochen hat.
Durch diese „Re-Calculation" mit den zusätzlichen
Informationen ist das Ergebnis der anschließenden Ersetzung besonders
zuverlässig.
Zusätzlich können diese
zusätzlichen
Informationen zur Anpassung der in dem Wortschatzspeicher 7 gespeicherten Phoneminformationen
PI und Textteilinformationen TTI sowie zur Anpassung der in dem
Sprachmodellspeicher 8 gespeicherten Wahrscheinlichkeitsinformationen
WI verwendet werden.
-
Als
Ergebnis der „Re-Calculation" wird von den Erkennermitteln 6 die
Editierinformation EI an die Replacemittel 10 abgegeben,
die das nun richtig erkannte neue Wort „INVENTION" und die Position des achten Wortes
in der ersten Textinformation TI als Position für die Ersetzung kennzeichnet.
Als Ergebnis dieser „Re-Calculation" kann auch die Editierinformation
EI ermittelt werden, mit der gleich mehrere Wörter durch das durch den zweiten
Sprachteilbefehl B2 gekennzeichnete Wort „INVENTION" ersetzt werden. Dies ist dann der Fall,
wenn aufgrund der Auswertung der Wahrscheinlichkeitsinformationen
WI die Gesamtwahrscheinlichkeit einer richtigen Erkennung der ersten
Textinformation TI1 höher
ist, wenn auch die das neue Wort umgebenden Wörter in der ersten Textinformation
TI1 verändert
werden.
-
Als
Abschluss der Abarbeitung des Blocks 20 geben die Erkennermittel 6 die
bei der „Re-Calculation" mit hoher Zuverlässigkeit
erkannte Textteilinformation TN = „INVENTION" und gegebenenfalls die Textteilinformation
der um das achte Wort herum geänderten
Wörter
an die Replacemittel 10 als Editierinformation EI ab. Die
Replacemittel 10 geben die von den Erkennermitteln 6 ermittelte
Editierinformation EI an die Editiermittel 11 ab, worauf
die Abarbeitung des Texteditierverfahrens bei einem Block 21 fortgesetzt
wird.
-
Bei
dem Block 21 positionieren die Editiermittel 11 den
Cursor C auf das achte Wort TW1 = „INVASION" in der ersten Textinformation TI1,
worauf die Abarbeitung des Texteditierverfahrens bei einem Block 22 fortgesetzt
wird. Bei dem Block 22 wird das achte Wort TW1 = „INVASION" durch das neue Wort TN1
= „INVENTION" ersetzt. Bei einem
anschließend abgearbeiteten
Block 23 wird der Cursor C wiederum auf die ursprüngliche
Position, also auf die Position nach dem letzten Zeichen „:" der ersten Textinformation
TI positioniert.
-
Dies
hat den Vorteil, dass das falsch erkannte Wort TW1 = „INVASION" mit nur einem Sprachbefehl
SB durch das Wort TN1 = „INVENTION" ersetzt wurde, das
eigentlich statt des falsch erkannten Wortes TW1 von den Erkennermitteln 6 hätte erkannt werden
sollen. Zusätzlich
ist der Vorteil erhalten, dass der Cursor C nach der Ersetzung des
falsch erkannten Wortes gleich wieder an der richtigen Position
in der ersten Textinformation TI1 positioniert ist, um das Diktat
des Artikels 52 des Europäischen
Patentübereinkommens
fortzusetzen.
-
Besonders
vorteilhaft ist hierbei die effiziente Nutzung der Informationen
aus der Geschichte der Erkennung des falschen Wortes, um bei der „Re-Calculation" die richtige Ersetzung
zu ermitteln.
-
Im
Folgenden sollen jetzt weitere Vorteile des Computers 1 anhand
des zweiten Anwendungsbeispiels des Computers 1 erläutert werden.
Gemäß dem zweiten
Anwendungsbeispiel wird angenommen, dass der Benutzer des Computers 1 das
falsch erkannte Wort TW2 = „FEW" in der ersten Textinformation
TI1 durch das eigentlich an dieser Stelle diktierte Wort „NEW" ersetzen möchte. Hierfür spricht der
Benutzer den Sprachbefehl SB = „REPLACE FEW WITH NEW" in das Mikrofon 2,
woraufhin das Ablaufdiagramm 4 bei dem Block 15 fortgesetzt
wird.
-
Bei
der Abarbeitung des Spracherkennungsverfahrens bei dem Block 15 werden
von den Erkennermitteln 6 zu jeder Sprachteilinformation
STI mehrere alternative Textteilinformationen ATI ermitteln und
in die Alternativentabelle AT eintragen, die in 4 dargestellt
ist. Hierbei wird zu der zweiten Sprachteilinformation ST2 das Wort
TF2 = „SUE" als erste alternative
Textteilinformation AT1 und das Wort TF3 = „FEW" nur als zweite alternative Textteilinformation
AT2 in die Alternativentabelle AT eingetragen. Zu der dritten Sprachteilinformation
ST3 wird das Wort „BY" als erste alternative
Textteilinformation AT1 und das Wort „LIE" als zweite alternative Textteilinformation
AT2 in die Alternativentabelle AT eingetragen. Schließlich wird
das in dem Sprachbefehl diktierte Wort „NEW" neuerlich falsch erkannt und zu der vierten
Sprachteilinformation ST4 das Wort TN2 = „FEW" als erste alternative Textteilinformation
AT1 in die Alternativentabelle AT eingetragen. Das Wort TN3 = „NEW" wird nur als zweite
alternative Textteilinformation AT2 und das Wort „HUGH" als dritte alternative
Textteilinformation AT3 in die Alternativentabelle AT eingetragen.
-
Da
der Benutzer beim Sprechen des Sprachbefehls SB das Wort „FEW" nicht deutlich ausgesprochen
hat, wurde von den Erkennermitteln 6 für die zweite Sprachteilinformation
STI dem Wort „SUE" eine höhere Wahrscheinlichkeit
einer richtigen Erkennung zugeordnet als dem Wort „FEW". Bei der Erkennung
des von dem Benutzer ausgesprochenen Wortes „NEW" hatte das Spracherkennungsverfahren
bereits bei der Erkennung der ersten Textinformation TI1 Schwierigkeiten,
weshalb neuerlich dem Wort „FEW" eine höhere Wahrscheinlichkeit
einer richtigen Erkennung zugeordnet wurde. Deshalb werden die alternativen
Textteilinformationen „REPLACE
SUE BY FEW" als
wahrscheinlichste Variante in die zweite Textinformation TI2 aufgenommen und
von den Erkennermitteln 6 als erkannte Textinformation
TI an die Replacemittel 6 abgegeben.
-
Bei
der Abarbeitung des Blocks 16 stellen die Replacemittel 10 fest,
dass die Struktur des vierteiligen Sprachbefehls SB enthalten ist,
woraufhin des Ablaufdiagramm 4 bei Block 18 fortgesetzt
wird. Bei der Abarbeitung des Blocks 18 prüfen die
Replacemittel 10, ob das in der zweiten Textinformation
TI2 als zweiter Sprachteilbefehl SB2 enthaltene Wort TF2 = „SUE" in der ersten Textinformation
TI1 enthalten ist. Diese Prüfung
ergibt, dass das Wort TF2 = „SUE" nicht in der ersten
Textinformation TI1 enthalten ist, weshalb das Texteditierverfahren
bei einem Block 24 fortgesetzt wird.
-
Bei
der Abarbeitung des Blocks 24 lesen die Replacemittel 10 die
in den Sprachanalysespeichermitteln 9 gespeicherte Alternativentabelle
AT aus und prüfen,
ob eine der zu der zweiten Sprachteilinformation STI2 gespeicherte
alternative Textteilinformation ATI in der ersten Textteilinformation
TI1 enthalten ist. Als Ergebnis der Prüfung stellen die Replacemittel 10 fest,
dass die zweite alternative Textteilinformation ATI2 – also das
Wort TF3 = „FEW" – als siebzehntes Wort in der
ersten Textteilinformation TI1 enthalten ist.
-
Dies
hat den Vorteil, dass sogar dann, wenn durch eine undeutliche Aussprache
des Sprachbefehls SB der zweite Sprachteilbefehl SB2 falsch erkannt
wurde, das von dem Benutzer gewünschte Wort
durch das richtige Wort ersetzt wird. Im Anschluss an die Abarbeitung
des Blocks 24 wird der Block 19 abgearbeitet.
-
Bei
dem Block 19 prüfen
die Replacemittel 10, ob das in dem Sprachbefehl SB enthaltene
neue Wort TN2 = „FEW" gleich dem falsch
erkannten Wort TW2 = „FEW" ist. Diese Prüfung ergibt,
das die beiden Wörter übereinstimmen,
weshalb die Abarbeitung des Texteditierverfahrens bei einem Block 25 fortgesetzt
wird.
-
Bei
dem Block 25 ermitteln die Replacemittel 10 statt
der wahrscheinlichsten alternativen Textteilinformation AT1 = „FEW" die zweitwahrscheinlichste alternative
Textteilinformation AT2 = „NEW" als das neue Wort.
Hierauf werden wie vorstehend beschrieben die Blöcke 20 bis 23 abgearbeitet
und das Wort TW2 = „FEW" in der ersten Textteilinformation
TI1 durch das Wort TN3 = „NEW" ersetzt.
-
Dies
hat den Vorteil, dass, wenn das bereits in der ersten Textinformation
TI1 falsch erkannte Wort auch in dem Sprachbefehl SB neuerlich falsch erkannt
wurde, trotzdem mit großer
Wahrscheinlichkeit eine vom Benutzer des Computers 1 gewünschte Ersetzung
durchgeführt
wird. Wenn eine der Ersetzungen durch den umfangreichen vierteiligen Sprachbefehl
einmal nicht das gewünschte
Ergebnis für
den Benutzer erzielt hat, dann kann durch den Sprachbefehl „UNDO" die letzte Ersetzung
sehr einfach rückgängig gemacht
werden.
-
Es
kann erwähnt
werden, dass die Blöcke 14, 15 und 17 in
dem Ablaufdiagramm 4 das Spracherkennungsverfahren repräsentieren
und dass die Blöcke 16 und 18 bis 25 das
Texteditierverfahren repräsentieren.
-
Es
kann weiterhin erwähnt
werden, dass jeder der vier Sprachteilbefehle ein oder mehrere Wörter enthalten
kann. Weiterhin kann der dritte Sprachteilbefehl auch durch eine
Pause beim Sprechen des vierteiligen Sprachbefehls gebildet sein.
In diesem Fall würde
der Benutzer entsprechend dem ersten Anwendungsbeispiel den vierteiligen Sprachbefehl „REPLACE
INVASION" Pause „INVENTION" sprechen. In diesem
Fall wäre
der vierteilige Sprachbefehl durch das an der ersten Position in
der zweiten Textinformation TI2 enthaltene Wort und durch die von
den Erkennermitteln detektierte Pause nach dem zweiten oder weiteren
Wort der zweiten Textinformation TI2 als vierteiliger Sprachbefehl
gekennzeichnet.
-
2
- 13
- START
- 14
- ÄUSSERUNG?
- 15
- SPRACHE
ERKENNEN
- 16
- REPLACE "A" WITH "B"?
- 17
- TI1
ANZEIGEN
- 18
- "A" IN TI1?
- 19
- "A" = "TW?
- 20
- RE-CALCULATION
- 21
- CURSOR
POSITIONIEREN
- 22
- REPLACE
- 23
- CURSOR
NEU POSITIONIEREN
- 24
- ALTERNATIVE
VON "A" IN TI1?
- 25
- "A" = ALTERNATIVE VON "A"