DE60209518T2

DE60209518T2 - Korrekturvorrichtung, die Teile eines erkannten Texts kennzeichnet

Info

Publication number: DE60209518T2
Application number: DE60209518T
Authority: DE
Inventors: Wolfgang Gschwendtner; Kresimir Rajic
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2001-10-12
Filing date: 2002-10-10
Publication date: 2006-08-24
Anticipated expiration: 2022-10-11
Also published as: US20030110030A1; WO2003034405A1; JP2005505805A; DE60209518D1; JP4336580B2; CN1312612C; CN1568501A; EP1442452B1; EP1442452A1; US6708148B2; ATE319161T1

Description

Die Erfindung betrifft eine Korrekturvorrichtung zum Korrigieren eines Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text erkannt wurde, wobei der erkannte Text Worte enthält, die richtig als gesprochene Worte des gesprochenen Texts erkannt wurden, und Worte enthält, die nicht richtig als solche erkannt wurden.
Die Erfindung betrifft ferner ein Korrekturverfahren zum Korrigieren eines Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text erkannt wurde, wobei der erkannte Text Worte enthält, die richtig als gesprochene Worte des gesprochenen Texts erkannt wurden, und Worte enthält, die nicht richtig als solche erkannt wurden.
Eine Korrekturvorrichtung dieser Art und ein Korrekturverfahren dieser Art sind aus der US-Patentschrift Nr. 5,031,113 bekannt, worin eine Diktiervorrichtung offenbart ist. Die bekannte Diktiervorrichtung ist durch einen Computer gebildet, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware ausführt. Ein Benutzer der bekannten Diktiervorrichtung kann einen gesprochenen Text in ein an den Computer angeschlossenes Mikrophon sprechen. Die Spracherkennungssoftware, die eine Spracherkennungsvorrichtung bildet, führt einen Spracherkennungsvorgang durch und weist dabei jedem gesprochenen Wort des gesprochenen Texts ein erkanntes Wort zu, was dazu führt, dass für den gesprochenen Text ein erkannter Text erhalten wird. Außerdem wird im Verlauf des Spracherkennungsvorgangs eine Anschlussinformation bestimmt, die das Wort des erkannten Texts markiert, das für jedes gesprochene Wort des gesprochenen Texts erkannt wurde.
Die bekannte Diktiervorrichtung bildet auch eine Korrekturvorrichtung, mit der unrichtig erkannte Worte durch Korrekturworte ersetzt werden können. Zu diesem Zweck kann ein Benutzer der Korrekturvorrichtung einen Synchronwiedergabemodus der Korrekturvorrichtung aktivieren, in dem der gesprochene Text akustisch wiedergegeben wird, und die Worte des erkannten Texts, die durch die Anschlussinformation markiert sind, synchron damit hervorgehoben (d.h., gekennzeichnet) werden. Der Synchronwieder gabemodus hat sich in der Praxis für die Korrektur eines Texts, der durch die Spracherkennungsvorrichtung erkannt wurde, als besonders vorteilhaft erwiesen. Es wurde außerdem festgestellt, dass viele Benutzer nicht den gesamten erkannten Text mit Hilfe des Synchronwiedergabemodus prüfen, sondern nur bestimmte Teile davon. Diese bestimmten Teile können zum Beispiel Teile des Texts sein, die besonders kritisch sind und völlig fehlerfrei sein müssen, oder können Teile des Texts sein, die für die Spracherkennungsvorrichtung besonders schwer zu erkennen sind und daher wahrscheinlich eine große Anzahl von unrichtig erkannten Worten enthalten.
Es wurde bei der bekannten Korrekturvorrichtung als nachteilig festgestellt, dass ein Benutzer nach dem Korrigieren des erkannten Texts mit der Korrekturvorrichtung über keine Möglichkeit verfügt, zu bestimmen, welche Teile des erkannten Texts mit Hilfe des Synchronwiedergabemodus korrigiert wurden, und welche Teile noch damit korrigiert werden müssen.
Es ist eine Aufgabe der Erfindung, eine Korrekturvorrichtung der im ersten obigen Absatz definierten Art und ein Korrekturverfahren der im zweiten obigen Absatz definierten Art bereitzustellen, wobei der oben beschriebene Nachteil vermieden wird.
Zur Erfüllung der oben angegebenen Aufgabe werden für eine Korrekturvorrichtung dieser Art Merkmale nach der Erfindung vorgeschlagen, so dass die Korrekturvorrichtung auf die nachstehend ausführlich angegebene Weise gekennzeichnet werden kann.
Es handelt sich um eine Korrekturvorrichtung zum Korrigieren eines Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text erkannt wurde, wobei ein Punkt einer Anschlussinformation für jeden Teil des gesprochenen Texts den zugehörigen erkannten Text markiert,
aufweisend ein Speichermittel, um zumindest den gesprochenen Text und den erkannten Text zu speichern, und
aufweisend ein Wiedergabemittel, um den gesprochenen Text akustisch wiederzugeben und gleichzeitig den zugehörigen erkannten Text, der durch den Punkt der Anschlussinformation markiert wurde, visuell zu kennzeichnen, wenn in der Korrekturvorrichtung ein Synchronwiedergabemodus aktiviert ist, und
aufweisend ein Kennzeichnungsmittel, um eine Kennzeichnungsinformation im Speichermittel zu speichern, welche Kennzeichnungsinformation jene Teile des erkannten Texts und/oder des gesprochenen Texts markiert, die zumindest einmal durch das Wiedergabemittel wiedergegeben wurden, als der Synchronwiedergabemodus aktiviert war.
Zur Erfüllung der oben angegebenen Aufgabe werden für ein Korrekturverfahren dieser Art Merkmale nach der Erfindung vorgeschlagen, so dass das Korrekturverfahren auf die nachstehend ausführlich angegebene Weise gekennzeichnet werden kann.
Es handelt sich um ein Korrekturverfahren zum Korrigieren eines Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text erkannt wurde, wobei ein Punkt einer Anschlussinformation für jeden Teil des gesprochenen Texts den zugehörigen erkannten Text markiert, und wobei die folgenden Schritte durchgeführt werden:
Speichern zumindest des gesprochenen Texts und des erkannten Texts;
wenn der Synchronwiedergabemodus aktiviert ist, akustisches Wiedergeben des gesprochenen Texts und gleichzeitiges visuelles Kennzeichnen des zugehörigen erkannten Texts, der durch die Anschlussinformation markiert ist;
Speichern einer Kennzeichnungsinformation, welche Kennzeichnungsinformation jene Teile des erkannten Texts und/oder des gesprochenen Texts markiert, die zumindest einmal vorher wiedergegeben wurden, als der Synchronwiedergabemodus aktiviert war.
Die Merkmale nach der Erfindung erreichen, dass jene Teile des erkannten Texts und/oder jene Teile des gesprochenen Texts, die zumindest einmal vorher akustisch wiedergegeben wurden und visuell gekennzeichnet wurden, als der Synchronwiedergabemodus aktiviert war, durch eine Kennzeichnungsinformation markiert werden. Auf diese Weise ist die Korrekturvorrichtung vorteilhafter Weise fähig, entweder den Teil des erkannten Texts, der bereits einmal mit Hilfe des Synchronwiedergabemodus korrigiert wurde, visuell zu kennzeichnen, oder den zugehörigen Teil des gesprochenen Texts akustisch zu kennzeichnen. Dies ermöglicht einem Benutzer der Korrekturvorrichtung nach der Erfindung, den erkannten Text beträchtlich leistungsfähiger zu korrigieren.
Die Vorkehrungen von Anspruch 2 und Anspruch 8 bieten den Vorteil, dass unerwünschte Teile des gesprochenen Texts, die durch die Spracherkennungsvorrichtung oder durch die Korrekturvorrichtung als Unterdrückungsinformation markiert sind, während des Synchronwiedergabemodus nicht akustisch wiedergegeben werden. Während des Synchronwiedergabemodus ist der Benutzer somit fähig, sich zufriedenstellender auf die wesentlichen Teile des gesprochenen Texts und die zugehörigen Teile des erkannten Texts zu konzentrieren. Außerdem kann die akustische Wiedergabe beschleunigt werden, so dass ein erkannter Text vorteilhafter Weise rascher korrigiert werden kann.
Die Vorkehrungen von Anspruch 3 und Anspruch 9 bieten den Vorteil, dass bestimmte Teile des gesprochenen Texts, obwohl sie unerwünscht sind, nach wie vor wiedergegeben werden, nämlich, wenn der Benutzer derartige Teile des gesprochenen Texts ein zweites oder weiteres Mal hört. Dies ist besonders vorteilhaft, da unerwünschte Teile des gesprochenen Texts dieser Art häufig verursachen, dass zu erkennende unrichtig erkannt werden, wenn der Spracherkennungsvorgang durchgeführt wird, und der Benutzer durch das Hören dieser unerwünschten Teile des Texts leichter fähig ist, Schlüsse hinsichtlich des Worts zu ziehen, das wirklich erkannt hätte werden sollen.
Die Vorkehrungen von 4 stellen eine Liste jener Teile des gesprochenen Texts bereit, deren Markierung durch die Unterdrückungsinformation als unerwünscht besonders vorteilhaft ist. Derartige unerwünschte Teile des Texts sind somit Teile des gesprochenen Texts, wo der Benutzer eine Pause machte (= Stille), während er diktierte, oder wo er ein Wort wiederholte oder einen sogenannten zögernden Laut (z.B. aah, mm ...) von sich gab, während er über den nächsten Satz nachdachte.
Die Vorkehrungen von Anspruch 5 bieten den Vorteil, dass die Korrekturvorrichtung jenen Teil des erkannten Texts, der im Synchronwiedergabemodus bereits zumindest einmal wiedergegeben und somit korrigiert wurde, visuell kennzeichnet, was für den Benutzer oder eine Person, die die Arbeit von Benutzern der Korrekturvorrichtung prüfen muss, nützlich ist. Als Ergebnis können professionelle Transkriptionsdienste eine leistungsfähige Qualitätskontrolle bieten.
Die Vorkehrungen von Anspruch 6 bieten den Vorteil, dass ein Positionierungsmittel, das zur Korrekturvorrichtung gehört, einen Textcursor davon abhängig, ob der erkannte Text und der zugehörige gesprochene Text im Synchronwiedergabemodus bereits einmal wiedergegeben wurden, N Worte oder M Worte stromaufwärts des Worts positioniert, das in jenem Augenblick gekennzeichnet wird, in dem der Synchronwiedergabemodus unterbrochen wird. Die definierten Zahlen könnten, zum Beispiel, M = 3 und N = 1 sein, was dazu führt, dass die längere Reaktionszeit des Korrektors, wenn ein unrichtig erkanntes Wort im erkannten Text zum ersten Mal gefunden wird, berücksichtigt würde. Diese Vorkehrungen sind besonders vorteilhaft, da der Textcursor gewöhnlich bereits auf dem unrichtig erkannten Wort, das korrigiert werden soll, positioniert ist, sobald der Synchronwiedergabemodus unterbrochen wurde, und somit Zeit, die zum manuellen Positionieren des Textcursors benötigt wird, gespart werden kann.
Die Erfindung wird nun unter Bezugnahme auf die Zeichnungen, die eine einzelne Ausführungsform als ein Beispiel zeigen, auf das die Erfindung jedoch nicht beschränkt ist, ausführlicher beschrieben werden.
1 zeigt eine Transkriptionsvorrichtung zum Transkribieren eines gesprochenen Texts in einen erkannten Text, wobei eine Korrekturvorrichtung bereitgestellt ist, um den erkannten Text zu korrigieren.
2 zeigt einen gesprochenen Text, einen entsprechenden Text, der durch die Transkriptionsvorrichtung erkannt wurde, und eine Anschlussinformation, die den zugehörigen Abschnitt des erkannten Texts für jeden Audioabschnitt des gesprochenen Texts markiert, in symbolischer Form.
3 zeigt eine Befehlstabelle, die in einer Befehlsspeicherstufe der Transkriptionsvorrichtung gespeichert ist.
4 zeigt eine Kennzeichnungstabelle, die im Speichermittel der Transkriptionsvorrichtung gespeichert ist.
5 zeigt fünf Beispiele eines Texts, der durch einen Benutzer der Transkriptionsvorrichtung gesprochen wird, in symbolischer Form.
6 zeigt den Text, der durch das Spracherkennungsmittel der Transkriptionsvorrichtung für die fünf Beispiele des gesprochenen Texts erkannt wird, wobei Teile des erkannten Texts durch eine erste Kennzeichnungsstufe des Spracherkennungsmittels automatisch gekennzeichnet wurden und ein Benutzer weitere Teile des Texts mit einer zweiten Kennzeichnungsstufe manuell markiert hat, in symbolischer Form.
7 zeigt die Texte, die durch die Korrekturvorrichtung der Transkriptionsvorrichtung für die fünf Beispiele dargestellt werden, wobei sowohl die automatisch als auch die manuell gekennzeichneten Texte des erkannten Texts als Ersatztexte dargestellt sind, in symbolischer Form.
8 zeigt den Text, der durch die Korrekturvorrichtung dargestellt wird, wenn alle Ersatztexte für gekennzeichnete Teile des Texts unterdrückt sind, in symbolischer Form.
9 zeigt, welche Teile des Texts während der ersten und einer anschließenden zweiten synchronen Wiedergabe des gesprochenen und des erkannten Texts wiedergegeben werden, in symbolischer Form.
1 zeigt eine Transkriptionsvorrichtung 1 zum Transkribieren eines gesprochenen Texts GT in einen erkannten Text ET und zum Bearbeiten von Teilen des erkannten Texts ET, die nicht richtig erkannt wurden. Die Transkriptionsvorrichtung 1 wird durch einen ersten Computer, der eine Spracherkennungssoftware ausführt und eine Spracherkennungsvorrichtung 2 bildet, und durch einen zweiten und einen dritten Computer, welcher zweite und dritte Computer jeweils eine Textverarbeitungssoftware ausführen und eine erste Korrekturvorrichtung 3 und eine zweite Korrekturvorrichtung 4 zum Korrigieren von Teilen des Texts, die nicht nichtig erkannt wurden, bilden, gebildet. Es kann bemerkt werden, dass eine Transkriptionsvorrichtung nach der Erfindung auch durch nur einen Computer gebildet werden könnte, der sowohl eine Spracherkennungsvorrichtung als auch eine Korrekturvorrichtung bildet, welcher Computer dann sowohl die Spracherkennungssoftware als auch die Textverarbeitungssoftware ausführen müsste.
An den ersten Computer, der die Spracherkennungsvorrichtung 2 bildet, ist ein Mikrophon 5 angeschlossen, von dem ein Audiosignal A, das den gesprochenen Text GT darstellt, ausgesendet werden kann. Die Spracherkennungsvorrichtung 2 enthält einen Analog-Digital-Wandler 6, ein Spracherkennungsmittel 7, ein Speichermittel 8, ein Parameterspeichermittel 9, ein Befehlsspeichermittel 10 und eine Anpassungsstufe 11. Das durch das Mikrophon 5 ausgesendete Audiosignal A kann an den Analog-Digital-Wandler 6 angelegt werden, der das Audiosignal A in digitale Audiodaten AD umwandelt.
Die Audiodaten AD, die den gesprochenen Text GT darstellen, können an das Spracherkennungsmittel 7 angelegt werden und dadurch im Speichermittel 8 gespeichert werden. Wenn durch das Spracherkennungsmittel 7 der Spracherkennungsvorgang durchgeführt wird, ist das Spracherkennungsmittel 7 dazu eingerichtet, den erkannten Text ET zu bestimmen, wobei Parameterinformationen PI, die im Parameterspeichermittel 9 gespeichert sind, dabei in Betracht gezogen werden. In diesem Fall enthalten die Parameterinformationen PI Vokabelinformationen, Sprachmodellinformationen und akustische Informationen.
Die Vokabelinformationen enthalten alle Worte, die durch das Spracherkennungsmittel 7 erkannt werden können, zuzüglich zusätzlicher Phonemabfolgen. Die Sprachmodellinformationen enthalten statistische Informationen im Zusammenhang mit Wortabfolgen, die in der Sprache des gesprochenen Texts GT üblich sind. Die akustischen Informationen enthalten Informationen über besondere Merkmale der Aussprache eines Benutzers der Transkriptionsvorrichtung 1 und über akustische Eigenschaften des Mikrophons 5 und des Analog-Digital-Wandlers 6.
Die Offenbarung der US-Patentschrift Nr. 5,031,113 wird als verweisend in die Offenbarung der vorliegenden Patentschrift aufgenommen angesehen, und da die Leistung eines Spracherkennungsvorgangs angesichts von Parameterinformationen PI dieser Art in der genannten US-Patentschrift offenbart ist, wird hier keine ausführliche Beschreibung davon gegeben werden. Das Ergebnis des Spracherkennungsvorgangs ist, dass Textdaten, die den erkannten Text ET enthalten, durch das Spracherkennungsmittel 7 im Speichermittel 8 gespeichert werden können.
Während der Durchführung des Spracherkennungsvorgangs kann durch das Spracherkennungsmittel 7 auch eine Anschlussinformation LI bestimmt werden, die den zugehörigen Text ET, der durch das Spracherkennungsmittel 7 für jeden Teil des gesprochenen Texts GT erkannt wird, markiert. Die Erzeugung der Anschlussinformation LI ist ebenfalls in der US-Patentschrift Nr. 5,031,113 offenbart, aus welchem Grund sie hier nicht ausführlich besprochen wird.
In 2 ist ein Text GT, der durch einen Verfasser – das heißt, durch einen Benutzer der Spracherkennungsvorrichtung 2 – in das Mikrophon 5 gesprochen wird, in symbolischer Form entlang einer Zeitachse t gezeigt. Der für diesen gesprochenen Text GT durch das Spracherkennungsmittel 7 erkannte Text ET ist ebenfalls gezeigt. Während der Spracherkennungsvorgang durchgeführt wird, wird der gesprochene Text in Audioabschnitte AS geteilt, die die zugehörige akustische Information enthalten. Die zugehörige akustische Information dieser Art kann zum Beispiel ein Wort, eine ziemlich lange Sprechpause zwischen zwei Worten, ein sogenannter zögernder Laut wie etwa "aah" oder "mm" oder ein Geräusch sein.
Die Anschlussinformation LI markiert den Anfang und das Ende jedes Audioabschnitts AS des gesprochenen Texts GT und der zugehörigen Abschnitte TS des erkannten Texts ET. Zum Beispiel enthält ein erster Audioabschnitt AS1 die 1,5 Sekunden dauernde akustische Information für das erste Wort "The" eines gesprochenen Texts GT und enthält ein erster Textabschnitt TS, der durch die Anschlussinformation LI zugeteilt ist, den Text des Worts "The", der durch das Spracherkennungsmittel 7 erkannt wurde.
Die Befehlsspeicherstufe 10 speichert Abfolgen von Worten, die durch die Spracherkennungsvorrichtung 2 als Befehle erkannt werden. Ein Teil einer Befehlstabelle BT, die in der Befehlsspeicherstufe 10 gespeichert ist, ist in 3 gezeigt. Durch Bezug nahme auf die Befehlstabelle BT erkennt das Spracherkennungsmittel 7 zum Beispiel die Abfolge von Worten "nächstes Wort fett" als einen Befehl, dass das nächste Wort im erkannten Text ET fett gezeigt werden soll. Diesem Befehl in der Befehlstabelle BT ist eine Befehlsnummer BI12 zugeteilt. Die Abfolge von Worten "füge Text von Modul 1 ein" wird ebenfalls als ein Befehl erkannt, in diesem Fall, dass ein Standardtext von einem Textmodul, das an einer Speicherstelle an der Position "341" in der Befehlsspeicherstufe 10 gespeichert ist, in den erkannten Text ET eingefügt werden soll.
Das Spracherkennungsmittel 7 umfasst ferner eine erste Kennzeichnungsstufe 12, die zur automatischen Bestimmung verschiedener Punkte einer Kennzeichnungsinformation MI und zum Speichern der so bestimmten Punkte der Kennzeichnungsinformation im Speichermittel 8 eingerichtet ist, welche Punkte der Kennzeichnungsinformation MI Teile des erkannten Texts ET und des gesprochenen Texts GT markieren, die eine bestimmte Eigenschaft aufweisen, welche allen so gekennzeichneten Teilen des Texts gemeinsam ist. Das Wort "automatisch" ist in diesem Zusammenhang so zu verstehen, dass es "ohne jegliche Handlung durch den Benutzer der Transkriptionsvorrichtung 1" bedeutet. Die erste Kennzeichnungsstufe 12 ist zur automatischen Kennzeichnung von ziemlich langen Sprechpausen mit einer Pausenkennzeichnungsinformation PMI, von zögernden Lauten mit einer Information zur Kennzeichnung von zögernden Lauten HMI, von Befehlen mit einer Befehlskennzeichnungsinformation CMI, von wiederholten Worten mit einer Wiederholungskennzeichnungsinformation RMI, von Daten mit einer Datumskennzeichnungsinformation DMI, und von Geräuschen mit einer Geräuschkennzeichnungsinformation GMI eingerichtet.
4 zeigt eine Kennzeichnungstabelle MT, die im Speichermittel 8 gespeichert ist, in welche Tabelle Punkte einer Kennzeichnungsinformation MI, die durch die erste Kennzeichnungsstufe 12 automatisch bestimmt werden, durch die erste Kennzeichnungsstufe 12 eingegeben werden. Für die automatische Kennzeichnung von Befehlen im erkannten Text ET vergleicht die erste Kennzeichnungsstufe 12 die Wortabfolgen, die in der Befehlstabelle BT enthalten sind, mit den Wortabfolgen, die im erkannten Text ET enthalten sind. Wenn eine Wortabfolge, die in der Befehlstabelle BT enthalten ist, im erkannten Text ET gefunden wird, gibt die erste Kennzeichnungsstufe 12 jene Textabschnitte TX des erkannten Texts ET, die diese Abfolge von Worten identifizieren, zuzüglich der Befehlsnummer BI als Befehlskennzeichnungsinformation CMI in die Kennzeichnungstabelle MT ein. Dies ist nachstehend unter Bezugnahme auf ein Anwendungsbeispiel ausführlicher beschrieben.
Es kann bemerkt werden, dass es anstelle des Identifizierens bestimmter Textabschnitte TX des erkannten Texts ET in der Kennzeichnungstabelle MT auch möglich wäre, dass in jedem Fall die passenden Audioabschnitte AS des gesprochenen Texts GT eingegeben werden. Die Audioabschnitte AS und die zugehörigen Textabschnitte TS können in jedem Fall mit Hilfe der Anschlussinformation bestimmt werden.
Das Spracherkennungsmittel 7 ist dazu eingerichtet, Pausen in der Sprache (Stille) zwischen zwei Worten zu erkennen, und die erste Kennzeichnungsstufe 12 ist dazu eingerichtet, entsprechende Audioabschnitte AS des gesprochenen Texts GT in der Kennzeichnungstabelle MT automatisch mit der Pausenkennzeichnungsinformation PMI zu kennzeichnen.
Die erste Kennzeichnungsstufe 12 ist dazu eingerichtet, zögernde Laute (z.B. "aah" oder "mhh"), die in der ersten Kennzeichnungsstufe 12 gespeichert sind, mit Worten zu vergleichen, die im erkannten Text ET enthalten sind, und Textabschnitte TS des erkannten Texts ET, die derartige zögernde Laute enthalten, automatisch mit der Information zur Kennzeichnung von zögernden Lauten HMI zu kennzeichnen.
Die erste Kennzeichnungsstufe 12 ist auch dazu eingerichtet, Audioabschnitte AS des gesprochenen Texts GT automatisch mit der Geräuschkennzeichnungsinformation GMI zu kennzeichnen, wenn diese Audioabschnitte AS Geräusche und/oder Laute enthalten. Zu diesem Zweck enthält die Kennzeichnungsstufe 12 einen Geräuschdetektor, der fähig ist, Geräusche und/oder Laute von Audioabschnitten, die Worte enthalten, zu unterscheiden.
Zum Kennzeichnen von wiederholten Worten im erkannten Text ET mit der Wiederholungskennzeichnungsinformation RMI ist die erste Kennzeichnungsstufe 12 dazu eingerichtet, Worte oder Abfolgen von Worten, die einander im erkannten Text ET folgen, zu vergleichen. Die Kennzeichnungstabelle MI enthält auch die Datumskennzeichnungsinformation DMT, die nachstehend unter Bezugnahme auf Anwendungsbeispiele näher beschrieben ist.
Die erste Korrekturvorrichtung 3 der Transkriptionsvorrichtung 1 umfasst ein Wiedergabemittel 13, das zusammen mit dem Speichermittel 8 und der Befehlsspeicherstufe 10 durch den zweiten Computer gebildet ist, der die Textverarbeitungssoftware ausführt. An diesen zweiten Computer sind auch ein Bildschirm 14, eine Tastatur 15 und ein Lautsprecher 16 angeschlossen, die ebenfalls der ersten Korrekturvorrichtung 3 zugehörig sind. Das Wiedergabemittel 13 ist zur akustischen Wiedergabe des gesprochenen Texts GT und zur gleichzeitigen visuellen oder optischen Kennzeichnung des zugehörigen erkannten Texts ET, der durch die Anschlussinformation markiert ist, eingerichtet, wenn in der ersten Korrekturvorrichtung 3 der Synchronwiedergabemodus aktiviert ist.
Die Korrektur des erkannten Texts ET im aktivierten Synchronwiedergabemodus ist erneut in der US-Patentschrift Nr. 5,031,113 offenbart und hat sich in der Praxis als sehr vorteilhaft erwiesen. In diesem Fall kann ein Korrektor – das heißt, ein Benutzer der ersten Korrekturvorrichtung 3, der den erkannten Text ET korrigiert – gleichzeitig den durch den Verfasser in das Mikrophon 5 gesprochenen Text GT hören und den Text ET, der dafür durch das Spracherkennungsmittel 7 erkannt wurde, prüfen oder bearbeiten. Der erkannte Text ET wird optisch auf dem Bildschirm 14 dargestellt, und das Wort, das durch das Spracherkennungsmittel 7 für das gerade akustisch wiedergegebene gesprochene Wort erkannt wurde, wird durch das Wiedergabemittel 13 optisch gekennzeichnet und entsprechend auf dem Bildschirm 14 dargestellt. Der Korrektor kann den Synchronwiedergabemodus aktivieren, unterbrechen und deaktivieren und den erkannten Text ET mit der Tastatur 15 bearbeiten.
Der Aufbau der zweiten Korrekturvorrichtung 4 ist im Wesentlichen der gleiche wie jener der in 1 ausführlich gezeigten ersten Korrekturvorrichtung 3, weshalb die zweite Korrekturvorrichtung 4 in 1 nur als ein Block gezeigt ist. Die zweite Korrekturvorrichtung 4 ist jedoch physisch von der Spracherkennungsvorrichtung 2 getrennt, weshalb die zweite Korrekturvorrichtung 4 zusätzlich ein Speichermittel und ein Befehlsspeichermittel aufweist, worin die im Speichermittel 8 und in der Befehlsspeicherstufe 10 gespeicherten Informationen gespeichert werden, bevor der mit der ersten Korrekturvorrichtung 3 korrigierte erkannte Text ET bearbeitet wird.
Die zweite Korrekturvorrichtung 4 kann zum Beispiel durch einen Prüfer – d.h., einen Benutzer der zweiten Korrekturvorrichtung 4 – verwendet werden, der nach der Vornahme der Korrektur des im Speichermittel 8 gespeicherten erkannten Texts ET durch den Korrektor die Qualität der durch den Korrektor erledigten Arbeit prüft. Zu diesem Zweck prüft der Prüfer, um festzustellen, ob der Korrektor irgendwelche Fehler im erkannten Text ET übersehen hat. Derartige Prüfer werden hauptsächlich durch Transkriptionsfirmen verwendet, die die Qualität der transkribierten Tete durch wahlloses Prüfen von korri gierten erkannten Texten sicherstellen. Dies ist unter Bezugnahme auf die Anwendungsbeispiele der Transkriptionsvorrichtung 1 ausführlich beschrieben.
Das Wiedergabemittel 13 der Transkriptionsvorrichtung 1 umfasst ferner eine zweite Kennzeichnungsstufe 17, die zusammen mit der Tastatur 15 und der ersten Kennzeichnungsstufe 12 das Kennzeichnungsmittel zum automatischen und manuellen Kennzeichnen von Teilen des gesprochenen Texts GT oder des erkannten Texts ET bildet. Mit der zweiten Kennzeichnungsstufe 17 verfügt der Korrektor beim Korrigieren des erkannten Texts ET über eine Gelegenheit, weitere Teile des Texts, die nicht automatisch gekennzeichnet wurden, manuell zu kennzeichnen.
Dieses manuelle Kennzeichnen von Teilen des Texts kann einerseits verwendet werden, um manuell Teile des erkannten Texts ET zu kennzeichnen, die die gleiche Eigenschaft wie Teile des Texts aufweisen, welche bereits automatisch gekennzeichnet wurden, um zu gestatten, dass die Parameterinformationen PI oder die in der Befehlstabelle BT gespeicherten Informationen mit Hilfe der Anpassungsstufe 11 angepasst werden. Diese Anpassung erreicht, dass die erste Kennzeichnungsstufe 12 das nächste Mal fähig sein wird, die Teile des Texts, die manuell gekennzeichnet wurden, automatisch zu kennzeichnen. Zusätzlich wird mit jeder Anpassung die Erkennungsrate der Spracherkennungsvorrichtung 2 verbessert. Als Ergebnis wird der Vorteil erhalten, dass die Transkriptionsvorrichtung die Arbeit, die der Korrektor erledigen muss, und mehr mit jeder weiteren Benutzung verringern kann.
Diese manuelle Kennzeichnung von Teilen des Texts kann andererseits verwendet werden, um Teile des Texts als gelöscht zu kennzeichnen, die dann nicht im erkannten Text erscheinen werden, der dem Verfasser übermittelt wird, aber dennoch nicht völlig gelöscht sind. Das Kennzeichnen eines Teils des Texts als gelöscht weist die Vorteile auf, dass solche Teile des Texts in einen späteren Stadium wieder in den erkannten Text aufgenommen werden können, falls dies nötig ist, und dass der Prüfer prüfen kann, ob es richtig war, dass diese Teile des Texts gelöscht wurden. Es ist jedoch besonders vorteilhaft, dass die Verbindung, die durch die Anschlussinformation LI zwischen dem gesprochenen Text GT und dem erkannten Text ET bereitgestellt wird, völlig unversehrt bleibt, da kein Teil des erkannten Texts ET tatsächlich gelöscht wird. Doch wenn der Synchronwiedergabemodus aktiviert ist, während Teile des gesprochenen Texts GT, die als gelöscht gekennzeichnet sind, akustisch wiedergegeben werden, kann anstelle des gelöschten Teils des Texts ein Ersatztext optisch gekennzeichnet werden, was nachstehend ausführlich beschrieben ist.
Diese Ergänzung der automatischen Kennzeichnung von Teilen des Texts mit der manuellen Kennzeichnung von Teilen des Texts, die die gleiche Eigenschaft aufweisen, stellt den weiteren Vorteil bereit, dass der bearbeitete erkannte Text ET auf eine besonders leistungsfähige Weise weiter bearbeitet werden kann. Somit kann zum Beispiel die Formatierung all jener Teile des erkannten Tests, die als Daten gekennzeichnet sind, mit besonderer Leistungsfähigkeit gleichmäßig abgeändert werden, wie nachstehend ausführlich beschrieben ist.
Die zweite Kennzeichnungsstufe 17 des Kennzeichnungsmittels ist auch dazu eingerichtet, eine Wiedergabekennzeichnungsinformation WMI im Speichermittel 8 zu speichern, welche Wiedergabekennzeichnungsinformation WMI jene Teile des erkannten Texts ET und/oder des gesprochenen Texts GT markiert, die im aktivierten Synchronwiedergabemodus zumindest einmal durch das Wiedergabemittel 13 wiedergegeben wurden.
Als Ergebnis wird der Vorteil erhalten, dass das Wiedergabemittel 13 durch Bewerten der in der Kennzeichnungstabelle MT enthaltenen Wiedergabekennzeichnungsinformation WMI fähig ist, entweder den Teil des erkannten Texts ET, der bereits einmal mit Hilfe des Synchronwiedergabemodus korrigiert wurde, visuell zu kennzeichnen, oder den zugehörigen Teil des gesprochenen Texts GT akustisch zu kennzeichnen. Als Ergebnis ist ein Benutzer der Korrekturvorrichtung nach der Erfindung fähig, den erkannten Text beträchtlich leistungsfähiger zu korrigieren, was nachstehend unter Bezugnahme auf ein Anwendungsbeispiel ausführlich beschrieben ist.
Das Wiedergabemittel 13 ist überdies dazu eingerichtet, die akustische Wiedergabe von unerwünschten Teilen des gesprochenen Texts GT zu unterdrücken, wenn der Synchronwiedergabemodus aktiviert ist, welche unerwünschten Teile durch eine Unterdrückungsinformation markiert sind, die im Speichermittel 8 gespeichert ist. Da dies der Fall ist, kann der Korrektor die Tastatur 15 verwenden, um festzulegen, welche der Punkte der Kennzeichnungsinformation MI, die in der Kennzeichnungstabelle MT enthalten sind, als Unterdrückungsinformation verwendet werden sollen. Der Benutzer kann zum Beispiel die Pausenkennzeichnungsinformation PMI und die Information zur Kennzeichnung von zögernden Lauten HMI als Unterdrückungsinformation wählen, so dass die so gekennzeichneten Teile des Texts unterdrückt werden, wenn der gesprochene Text GT zum ersten Mal wiedergegeben wird. Dies ist unter Bezugnahme auf ein Anwendungsbeispiel ausführlich beschrieben.
Die Vorteile der Transkriptionsvorrichtung 1 werden nun nachstehend unter Bezugnahme auf die in 3 bis 9 gezeigten Anwendungsbeispiele ausführlich beschrieben werden. 5 zeigt fünf Teile eines Texts GT, der durch den Verfasser in das Mikrophon 5 gesprochen wird. 6 zeigt den Text ET, der durch das Spracherkennungsmittel 7 für die fünf Teile des gesprochenen Texts GT erkannt wird, wobei Teile des erkannten Texts ET durch die erste Kennzeichnungsstufe 12 bereits automatisch gekennzeichnet wurden. Ebenfalls in 6 gezeigt sind Teile des Texts, die durch den Korrektor mit Hilfe der zweiten Kennzeichnungsstufe 17 manuell gekennzeichnet wurden. 7 zeigt den erkannten Text in einer Form, in der Teile des Texts, die automatisch und manuell gekennzeichnet waren, durch Ersatztexte ersetzt sind. 8 zeigt den erkannten Text ET in einer Form, in der alle gekennzeichneten Teile des Texts unterdrückt wurden, in welcher Form der erkannte Text ET dem Verfasser übermittelt wird.
Beim ersten Beispiel wollte der Verfasser den Text "... Firma PHILIPS ..." in das Mikrophon sprechen und gleichzeitig das Wort "PHILIPS" als fett kennzeichnen. Doch nach dem Wort "Firma" denkt der Verfasser kurz nach, wie der Wortlaut für den Befehl zur Fettschriftformatierung genau lautet, und während er dies tut, gibt er den zögernden Laut "aah" von sich, wie dies viele Verfasser tun. Der Verfasser sagt dann "nächstes fett", doch während er dies tut, fällt ihm ein, dass die richtige Abfolge von Worten für diesen Befehl "nächstes Wort fett" lautet, aus welchem Grund er "nein" sagt. Dann sagt er den korrigierten Befehl "nächstes Wort fett" und setzt den Text mit dem Wort "PHILIPS" fort.
Wie aus 6 ersichtlich ist, erkennt das Spracherkennungsmittel 7 den Textabschnitt TS3 = "aah" für den Audioabschnitt AS3, und kennzeichnet die erste Kennzeichnungsstufe 12 diesen zögernden Laut in der vierten Zeile der Kennzeichnungstabelle MT automatisch mit der Information zur Kennzeichnung von zögernden Lauten HMI. Anstelle des zögernden Lauts ist in 6 der Ersatztext <zög> gekennzeichnet, der dem Korrektor gestattet, zu erkennen, dass an diesem Punkt ein zögernder Laut gekennzeichnet wurde. Wenn der Korrektor beim Bearbeiten des erkannten Texts ET einen Textcursor des Wiedergabemittels 13 auf diesem Ersatztext positioniert, wird der zögernde Laut, der durch das Spracherkennungsmittel 7 erkannt wurde, dargestellt. Als Ergebnis wird der Vorteil erhalten, dass sich der Korrektor beim Korrigieren auf die wesentlichen Teile des erkannten Texts ET konzentrieren kann, aber fähig ist, diesen Laut jederzeit zu sehen, wenn er wissen möchte, welchen zögernden Laut der Verfasser hier von sich gab, damit er ein Wort neben dem zögernden Laut korrigieren kann.
Außerdem hat das Spracherkennungsmittel 7 nun für die Audioabschnitte AS7 bis AS9 die durch die Textabschnitte TS7 bis TS9 gebildete Wortabfolge "nächstes Wort fett" erkannt, der in der Befehlstabelle BT der Befehl zugeteilt ist, welcher die Befehlsnummer BI12 aufweist. Die erste Kennzeichnungsstufe 12 gibt diese Textabschnitte und diese Befehlsnummer vorteilhafter Weise automatisch als Befehlskennzeichnungsinformation CMI in die vierte Zeile der Kennzeichnungstabelle MT ein. In 6 ist anstelle dieser Textabschnitte der Ersatztext <bef> gezeigt, wodurch als Ergebnis die oben erwähnten Vorteile erhalten werden. Außerdem wird der Befehl BI12 ausgeführt und das Wort "PHILIPS", das den Textabschnitt TS10 bildet, der für den Audioabschnitt AS10 erkannt wurde, fett dargestellt.
Unter Verwendung der Tastatur 15 und der zweiten Kennzeichnungsstufe 17 kennzeichnet der Korrektur nun die Textabschnitte TS4 und TS5 als einen Befehl, der die Befehlsnummer BI12 aufweist, so dass die Wortabfolge "nächstes fett" durch die Kennzeichnungsstufe 12 beim nächsten Mal automatisch als ein Befehl erkannt werden wird. In 7 ist dieser Teil des Texts ebenfalls durch den Ersatztext <bef> für einen Befehl dargestellt.
Unter Verwendung der Befehlsnummer BI12 gibt die zweite Kennzeichnungsstufe 17 diese Wortabfolge TS4 + TS5 als Befehlskennzeichnungsinformation CMI in die fünfte Zeile der Kennzeichnungstabelle MI ein. Wenn in der Spracherkennungsvorrichtung 2 der Anpassungsmodus aktiviert ist, liest die Anpassungsstufe 11 die neue Befehlskennzeichnungsinformation CMI aus dem Speichermittel 8 und nimmt sie für den Befehl, der die Befehlsnummer BI12 aufweist, einen weiteren Eintrag in der Befehlstabelle BT vor.
Dies ergibt den Vorteil, dass der Korrektor weitere Wortabfolgen mit besonderer Leichtigkeit und Leistungsfähigkeit als Befehle definieren kann, welche Wortabfolgen durch die Spracherkennungsvorrichtung 2 im Anpassungsmodus übernommen werden. Wenn der Spracherkennungsvorgang das nächste Mal durchgeführt wird, wird die Wortabfolge "nächstes fett" somit automatisch als ein Befehl erkannt werden.
Mittels der Tastatur 15 und der zweiten Kennzeichnungsstufe 17 geht der Korrektor nun dazu über, den Textabschnitt TS6 "nein" als gelöschten Text zu kennzeichnen, da er festgestellt hat, dass der Verfasser dieses Wort unbeabsichtigt gesagt hat, und dass es nicht im endgültigen Text, der dem Verfasser übermittelt wird, enthalten sein soll. In 7 ist für diesen gelöschten Text der Ersatztext <überspringen> gezeigt.
Es kann erwähnt werden, dass der Korrektor auch die Textabschnitte TS4 bis TS6 als gelöschten Text kennzeichnen könnte, da der Befehl, die die Befehlsnummer BI12 aufweist, nicht zweimal vorkommen sollte.
Das manuelle Markieren des Textabschnitts TS6 als gelöschter Text ergibt den Vorteil, dass die durch die Anschlussinformation LI bereitgestellte Korrelation sogar während eines anschließenden Synchronwiedergabemodus, der zum Beispiel mit der zweiten Korrekturvorrichtung 4 durchgeführt wird, vollständig bewahrt werden wird und die Synchronwiedergabe ohne jegliche Fehler stattfinden wird.
8 zeigt den erkannten Text "... Firma PHILIPS ..." der beim ersten Beispiel schließlich dem Verfasser übermittelt wird, welcher Text trotz zögernder Laute, eines unbeabsichtigt gesprochenen Worts und eines falschen Befehls das ist, was der Verfasser wirklich meinte.
Beim zweiten Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 sprechen möchte, "... ich reparierte das linke Bein ...", doch in diesem Fall denkt er nach dem Audioabschnitt AS20 nach und ist er drei Sekunden lang still, was durch die erste Kennzeichnungsstufe 12 automatisch als eine Pause erkannt wird und als Pausenkennzeichnungsinformation PMI in die Kennzeichnungstabelle MT eingegeben wird. In 6 ist der Ersatztext <still> für diese Nachdenkpause gezeigt.
Im Anschluss an die Pause wiederholt der Verfasser das Wort "ich", was durch die erste Kennzeichnungsstufe 12 automatisch als ein wiederholtes Wort erkannt wird und als Wiederholungskennzeichnungsinformation RMI in die Kennzeichnungstabelle MT eingegeben wird. In 6 ist der Ersatztext <wied> für den Textabschnitt TS22 gezeigt.
Im Anschluss an das wiederholte Wort sagt der Verfasser "reparierte das linke", macht dann eine weitere Nachdenkpause, und sagt schließlich "das linke Bein". Die Nachdenkpause wird erneut automatisch durch die erste Kennzeichnungsstufe 12 gekennzeichnet, doch die Wiederholung der Worte "das linke" konnte nicht automatisch erkannt und gekennzeichnet werden. Der Korrektor kennzeichnet nun die Textabschnitte TS26 bis TS28 manuell als wiederholte Worte, wodurch verursacht wird, dass eine entsprechende Wiederholungskennzeichnungsinformation RMI in die Kennzeichnungstabelle MT eingegeben wird.
8 zeigt den erkannten Text "... das linke Bein ...", der beim zweiten Beispiel schließlich dem Verfasser übermittelt wird und trotz wiederholter Worte und Nachdenkpausen das ist, was der Verfasser wirklich meinte. Als Ergebnis der manuellen Kennzeichnung, die zusätzlich zur automatischen Kennzeichnung durchgeführt wurde, sind alle wiederholten Worte im erkannten Text gekennzeichnet und könnten durch eine weitere Verarbeitung zum Beispiel alle an der Anzeige unterdrückt oder für den Anpassungsmodus verwendet werden.
Beim dritten Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 sprechen möchte, "... und die Firma PHILIPS wird ...", doch muss er nach dem Wort "und" niesen. Der Audioabschnitt AS51 enthält daher ein Geräusch, das der Autor von sich gibt, wenn er niest. Das Spracherkennungsmittel 7 ist nicht fähig, für diesen Audioabschnitt AS51 ein Wort zu erkennen, weshalb die erste Kennzeichnungsstufe 12 diesen Audioabschnitt AS51 mit der Geräuschkennzeichnungsinformation GMI automatisch als Geräusch kennzeichnet und ihn als solches in die Kennzeichnungstabelle MT eingibt. In 6 ist der Ersatztext <nicht gespr> gezeigt.
Im Anschluss an das Niesen braucht der Verfasser fünf Sekunden, um sein Taschentuch zu finden, und putzt sich dann die Nase. Der Audioabschnitt AS52 wird wiederum automatisch als eine Pause gekennzeichnet und als solche in die Kennzeichnungstabelle MT eingegeben. Das Geräusch, das der Verfasser von sich gibt, wenn er sich die Nase putzt, ist dem Geräusch "tata" ähnlich, weshalb das Spracherkennungsmittel 7 fälschlich das Wort "dass" als Textabschnitt TS53 erkennt.
Vorteilhafter Weise ist der Korrektor, der diesen Fehler sofort bemerkt, wenn der Synchronwiedergabemodus aktiviert ist, fähig, den Textabschnitt TS53 mit der Geräuschkennzeichnungsinformation GMI manuell als Geräusch zu kennzeichnen. Dadurch wird der Vorteil erhalten, dass alle Geräusche im erkannten Text ET beim dritten Beispiel tatsächlich als solche gekennzeichnet sind und während weitere Verarbeitungsstufen alle auf die gleiche Weise verarbeitet werden können. Der Geräuschdetektor der ersten Kennzeichnungsstufe 12 kann zum Beispiel mit diesen gekennzeichneten Teilen des Texts so angepasst werden, dass derartige Geräusche in der Zukunft automatisch erkannt werden können.
Beim vierten Beispiel möchte der Verfasser einen Standardtext, der unter der Bezeichnung "Modul 1" als Textmodul in der Befehlsspeicherstufe 10 gespeichert ist, in den erkannten Text ET einsetzen, während er tatsächlich diktiert. Zu diesem Zweck diktiert der Verfasser "... ist am besten. Füge Textmodul eins ein. Alle ...". Die Textabschnitte TS73 bis TS76, die erkannt werden, werden als ein Befehl erkannt, der die Befehlsnummer BI13 aufweist, und in 6 ist der Ersatztext <Modul 1> gezeigt.
Dies ergibt den Vorteil, dass ein Textmodul automatisch auf eine besonders einfache Weise in den erkannten Text ET eingesetzt wurde. Der Korrektor oder Prüfer kann in diesem Fall vorteilhafter Weise zwischen drei Arten der Darstellung wählen. Er kann den Text sehen, der ursprünglich erkannt worden war – Textabschnitte TS73 bis TS76 – oder den Ersatztext sehen, oder den von der Befehlsspeicherstufe 10 hinzugefügten Standardtext sehen, der in 8 ersichtlich ist.
Beim fünften Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 spricht, "... zehnter Oktober Zweitausendundeins ...". Die Wortabfolge, die die erste Kennzeichnungsstufe 12 automatisch erkannt und als ein Datum gekennzeichnet haben würde, wäre "zehnter Oktober Zweitausendundeins" gewesen. Die Wortabfolge, die gesprochen worden war, wurde jedoch nicht als ein Datum erkannt, weshalb der Korrektor die Textabschnitte TS80 bis TS86 mit der Datumskennzeichnungsinformation DMI als ein Datum kennzeichnet.
Dies ergibt den Vorteil, dass das Format all jener Teile des Texts, die im erkannten Texts automatisch oder manuell als Daten gekennzeichnet wurden, in einem nachfolgenden Verarbeitungsvorgang auf eine besonders einfache und vereinheitlichte Weise geändert werden kann. Dazu kann der Korrektor zum Beispiel wählen, dass alle Daten, die mit der Datenkennzeichnungsinformation DMI gekennzeichnet sind, im Format "MM,TT,JJJJ" gezeigt werden sollen.
Nun wird unter Bezugnahme auf 9 ein Beispiel der Anwendung der ersten Korrekturvorrichtung 3 erklärt werden. Es wird in diesem Beispiel angenommen, dass der Korrektor den Synchronwiedergabemodus aktiviert, wonach der gesprochene Text GT und der erkannte Text ET beginnend mit dem Audioabschnitt AS1 bzw. dem Textabschnitt TS1 zum ersten Mal gleichzeitig wiedergegeben werden. Dies ist symbolisch durch den Pfeil P1 dargestellt. Der Korrektor hat das Wiedergabemittel 13 in einer solchen Weise konfiguriert, dass während der ersten Wiedergabe die Audioabschnitte für jene Teile des Texts, die mit der Pausenkennzeichnungsinformation PMI, der Information zur Kennzeichnung von zögernden Lauten HMI, und der Geräuschkennzeichnungsinformation GMI gekennzeichnet sind, nicht akustisch wiedergegeben werden. Dies gestattet dem Korrektor, den gesprochenen Text GT besonders rasch wiederzugeben und in der gleichen Zeit mehr erkannten Text ET zu korrigieren.
Während der Wiedergabe wird die Wiedergabekennzeichnungsinformation WMI in der Kennzeichnungstabelle TM fortlaufend aktualisiert. In dem Augenblick, in dem gerade der Audioabschnitt AS53 (der Verfasser putzt sich die Nase) wiedergegeben wird und der Textabschnitt TS53 visuell gekennzeichnet wird, sieht der Korrektor, dass das Wort "dass" nicht richtig erkannt wurde. Die Position des Textcursors zu diesem Zeitpunkt ist in 9 symbolisch durch P2 angegeben. Doch da sich der Korrektor nicht sicher ist, was wirklich erkannt hätte werden sollen, aktiviert er den Synchronwiedergabemodus beginnend mit dem Audioabschnitt AS50 erneut. Dies ist in 9 symbolisch durch den Pfeil P3 angegeben.
Das Wiedergabemittel 13 erkennt nun aus der Wiedergabekennzeichnungsinformation WMI, die in die vierte Zeile der Kennzeichnungstabelle TM eingegeben wurde, dass die Audioabschnitte AS1 bis AS53 im Synchronwiedergabemodus bereits einmal wiedergegeben worden sind, und gibt daher alle Audioabschnitte AS50 bis AS53 akustisch wieder. Dies ist in 9 symbolisch durch den Pfeil P4 angegeben. Erst beginnend mit der Wiedergabe des Audioabschnitts AS54 – siehe Pfeil P5 – werden gekennzeichnete Texte (PMI, GMI, HMI) während der akustischen Wiedergabe erneut unterdrückt werden.
Dies ergibt den Vorteil, dass alle Audioabschnitte des Diktats an jenen Textstellen im Diktat wiedergegeben werden, an denen der Korrektor alle verfügbaren Kennzeichnungsinformationen benötigt, um ihm eine richtige Korrektur des erkannten Texts ET zu ermöglichen. An anderen Textstellen, die der Korrektur durch ihr einmaliges Hören korrigieren kann, werden unnotwendige Audioabschnitte AS unterdrückt.
In der gleichen Weise können die Ersatztexte für gekennzeichnete Teile des Texts vorteilhafter Weise dargestellt werden, wenn der erkannte Text ET zum ersten Mal wiedergegeben wird, und kann eine Umschaltung zum Text ET, der tatsächlich erkannt wurde, nur dann vorgenommen werden, wenn die Wiedergabe wiederholt wird.
Die automatische Kennzeichnung von Teilen des Texts, die im Synchronwiedergabemodus bereits einmal wiedergegeben wurden, erbringt einen weiteren herausragenden Vorteil. Es ist die Aufgabe des Prüfers, durch wahllose Abtastung zu bestimmen, wie gut der Korrektor einen erkannten Text ET korrigiert hat. Die Wiedergabekennzeichnungsinformation ist für den Prüfer in dieser Hinsicht sehr hilfreich. Dies liegt daran, dass der Prüfer sofort erkennen kann, welche Teile des Texts der Korrektor mit Hilfe des Syn chronwiedergabemodus geprüft hat, und welche Teile er übersprungen und daher möglicherweise überhaupt nicht geprüft hat. Der Prüfer kann daher eine besondere Prüfung an Teilen des Texts vornehmen, die nicht mit der Wiedergabekennzeichnungsinformation WMI gekennzeichnet sind, um festzustellen, ob im erkannten Text ET irgendwelche Fehler vorhanden sind.
Die Wiedergabekennzeichnungsinformation WMI ist auch von Vorteil, wenn der Korrektor bei seiner Arbeit unterbrochen wurde und zu einem späteren Zeitpunkt damit fortfahren möchte. Als Ergebnis der akustischen Kennzeichnung (z.B. einem Dauerton als Hintergrund des gesprochenen Texts) oder der visuellen Kennzeichnung (z.B. Zeigen des erkannten Texts in Umkehrzeichen) des Texts, der durch die Wiedergabekennzeichnungsinformation WMI markiert ist, kann der Korrektor sofort mit seiner Arbeit weitermachen.
Die erste Korrekturvorrichtung 3 weist auch ein Positionierungsmittel 18 auf, das bereitgestellt ist, um zu gestatten, dass der Textcursor, der eine Texteingabeposition kennzeichnet, positioniert wird, wenn der Synchronwiedergabemodus unterbrochen wird, um ein unrichtig erkanntes Wort zu korrigieren, wobei das Positionierungsmittel 18 dazu eingerichtet ist, den Textcursor N Worte stromaufwärts des Worts zu positionieren, das im erkannten Text ET zur Zeit der Unterbrechung des Synchronwiedergabemodus gekennzeichnet wird, wenn dieser Teil des erkannten Texts bereits mit der Wiedergabekennzeichnungsinformation WMI gekennzeichnet wurde, und das Positionierungsmittel 18 dazu eingerichtet ist, den Textcursor M Worte stromaufwärts des Worts zu positionieren, das im erkannten Text ET zur Zeit der Unterbrechung des Synchronwiedergabemodus gekennzeichnet wird, wenn dieser Teil des erkannten Texts ET nicht mit der Wiedergabekennzeichnungsinformation WMI gekennzeichnet wurde.
Die definierten Zahlen könnten, zum Beispiel, M = 3 und N = 1 sein, was dazu führt, dass die längere Reaktionszeit des Korrektors, wenn ein unrichtig erkanntes Wort im erkannten Text zum ersten Mal gefunden wird, berücksichtigt würde. Diese Vorkehrungen sind besonders vorteilhaft, da der Textcursor gewöhnlich bereits auf dem unrichtig erkannten Wort positioniert ist, sobald der Synchronwiedergabemodus unterbrochen wurde, und somit Zeit, die zum manuellen Positionieren des Textcursors benötigt wird, gespart werden kann. Dies wird Fachleuten viele andere Kombinationen von vorteilhaften Werten für M und N offensichtlich machen.
Es wäre besonders vorteilhaft, wenn das Positionierungsmittel 18 so eingerichtet wäre, dass es selbstlehrend ist. In diesem Fall würde das Positionierungsmittel 18 die optimalen Werte für N und M aus den Positionierungseingaben bestimmen, die durch den Korrektor vorgenommen werden, nachdem der Synchronwiedegabemodus unterbrochen wurde (z.B. Textcursor zwei Worte vorwärts oder fünf Worte zurück), und würde es sie fortlaufend an die Reaktionszeit des Benutzers anpassen.
Die Anpassungsstufe 11 kann ebenfalls verwendet werden, um die im Parameterspeichermittel 9 gespeicherten Parameterinformationen PI anzupassen. Dies ergibt den Vorteil, dass die Erkennungsrate des Spracherkennungsmittels 7 stetig verbessert wird und im erkannten Text ET weniger Fehler enthalten sind.
Wie aus den obigen Anwendungsbeispielen ersichtlich ist, können einzelne Audioabschnitte oder Textabschnitte durch einen oder sogar mehrere Punkte einer Kennzeichnungsinformation MI gekennzeichnet werden. Dies gestattet, dass der erkannte Tast in einer vorteilhaften Weise auf sogenannten Ebenen verarbeitet wird. Da dies der Fall ist, kann zum Beispiel ein zögernder Laut, der in einem Befehl enthalten ist, auf die gleiche Weise wie alle anderen Teile des erkannten Texts ET, die als zögernde Laute gekennzeichnet sind, bearbeitet werden (z.B. unterdrückt werden, gelöscht werden, der Ersatztext dargestellt werden, der erkannte Text dargestellt werden). Dies beeinträchtigt die Bearbeitung des Befehls, der den zögernden Laut enthält, nicht. Wenn Teile des Texts mit mehreren Punkten einer Kennzeichnungsinformation MI gekennzeichnet sind, wird es somit möglich, dass diese Ebenen optisch dargestellt werden.
Es kann erwähnt werden, dass die automatische und die manuelle Kennzeichnung von Texten nach der Erfindung mit einer Vielzahl von unterschiedlichen Punkten einer Kennzeichnungsinformation MI ausgeführt werden kann. Punkte der Kennzeichnungsinformation MI dieser Art können zum Beispiel AutoInterpunktion, Stille, KeineSprache, Geräusche, Musik, Rechtschreibung, Zögern, Einsetzen, ZahlenFormatierung, DatumsFormatierung, KopfzeilenFormatierung, AufzählungsFormatierung, MengenFormatierung, SelbstKorrektur, PhrasenWiederholung, Stottern, Abschweifung, BuchstabierAbfolge, ÜberschüssigePhrase, NichtVerstanden, Bemerkung, Streichung, Befehl sein.
Es kann erwähnt werden, dass die Kennzeichnung von Teilen des Texts nicht wie oben erklärt durch Tabellen durchgeführt werden muss, sondern alternativ in Form einer Baumstruktur stattfinden kann. In diesem Fall würden gekennzeichnete Textab schnitte, die wiederum weitere gekennzeichnete Textabschnitte enthalten, in einer Form, die einem Baum ähnlich ist, an Ästen gezeigt werden.
Es kann erwähnt werden, dass die automatische Kennzeichnung statt später sogar stattfinden kann, während der Spracherkennungsvorgang durchgeführt wird.
Es kann erwähnt werden, dass zum Beispiel alle Teile des Texts, die durch das Spracherkennungsmittel 7 nur mit Schwierigkeiten – d.h., wahrscheinlich mit einer großen Anzahl von Fehlern bei der Erkennung -erkannt werden, durch die erste Kennzeichnungsstufe 12 automatisch gekennzeichnet werden können, und alle Teile des Texts, die durch den Korrektor im Synchronwiedergabemodus als schwierig erkannt werden, manuell gekennzeichnet werden können, um den Prüfer oder den Verfasser des gesprochenen Texts zu Prüfzwecken auf diese gekennzeichneten Teile des Texts aufmerksam zu machen. Dies ist eine besonders vorteilhafte Weise, um Informationen im Zusammenhang mit dem erkannten Text weiterzugeben.
Legende der Zeichnungen
3

COMMAND Befehl
TEXT MODULE Textmodul
next word bold nächstes Wort fett
bold fett
insert text module 1 füge Textmodul 1 ein
insert memory position 2341 füge Speicherposition 2341 ein
The patient is ... not now Der Patient wird... nicht jetzt.

5

"... company ahhhh bold next no next word bold PHILIPS ..." "... Firma ahhh nächstes fett nein nächstes Wort fett PHILIPS ..."
"... I --- fixed the left --- the left leg ..." "... ich --- reparierte das linke --- das linke Bein ..."
"... and person sneezes --- tatat company PHILIPS will ..." "... und Person niest tatat Firma PHILIPS wird ..."
"... is the best. Insert text module one. All ..." "... ist am besten. Füge Textmodul eins ein. Alle ..."
"... tenth of October two thousand and one ..." "... zehnter Oktober Zweitausendundeins..."

6

"... company <hes> next bold no <com> PHILIPS ..." "... Firma <zög> nächstes fett nein <bef> PHILIPS ..."
"... I <sil> <rep> fixed the left <sil> the left leg ..." "... ich <still> <wied> reparierte das linke <still> das linke Bein ..."
"... and <non sp> <sil> that company PHILIPS will ..." "... und <nicht gespr> <still> dass die Firma PHILIPS wird ..."
"... ist the best. <module 1>. All ..." "... ist am besten. <Modul 1>. Alle ..."
"... tenth of October two thousand and one ..." "... zehnter Oktober Zweitausendundeins ..."

7

"... company <hes> <com> <skip> >com> PHILIPS ..." "... Firma <zög> <bef> <überspringen> <bef> PHILIPS ..."
"... I <rep> fixed the left <rep> leg ..." "... ich <wied> reparierte das linke <wied> Bein ..."
"... and <non sp> <sil> <non sp> company PHILIPS will ..." "... und <nicht gespr> <still> <nicht gespr> die Firma PHILIPS wird ..."
"... is the best. <module 1>. All ...! "... ist am besten. <Modul 1>. Alle ..."
"... <date> Oct. 10^th, 2001 ..." "... <Datum> 10. Oktober 2001

8

"... company PHILIPS ..." "... Firma PHILIPS ..."
"... the left leg ..." "... das linke Bein ..."
"... and company PHILIPS will ..." "... und die Firma PHILIPS wird ..."
"... is the best. The patient ist ... not now. All ..." "... ist am besten. Der Patient wird ... nicht jetzt. Alle ..."
"... Oct. 10^th, 2001 ..." "... 10. Oktober 2001 ..."

Claims

Korrekturvorrichtung (3, 4) zum Korrigieren eines Texts (ET), der durch eine Spracherkennungsvorrichtung (2) aus einem gesprochenen Text (GT) erkannt wurde, wobei ein Punkt einer Anschlussinformation (LI) für jeden Teil des gesprochenen Texts (GT) den zugehörigen erkannten Text (ET) markiert, aufweisend ein Speichermittel (8), um zumindest den gesprochenen Text (GT) und den erkannten Text (ET) zu speichern, und aufweisend ein Wiedergabemittel (13), um den gesprochenen Text (GT) akustisch wiederzugeben und gleichzeitig den zugehörigen erkannten Text (ET), der durch den Punkt der Anschlussinformation (LI) markiert wurde, visuell zu kennzeichnen, wenn in der Korrekturvorrichtung (3, 4) ein Synchronwiedergabemodus aktiviert ist, und aufweisend ein Kennzeichnungsmittel (12, 15, 17), um eine Kennzeichnungsinformation (WMI) im Speichermittel (8) zu speichern, welche Kennzeichnungsinformation (WMI) jene Teile des erkannten Texts (ET) und/oder des gesprochenen Texts (GI) markiert, die zumindest einmal durch das Wiedergabemittel (13) wiedergegeben wurden, als der Synchronwiedergabemodus aktiviert war.
Korrekturvorrichtung (3, 4) nach Anspruch 1, wobei das Wiedergabemittel dazu (13) eingerichtet ist, die akustische Wiedergabe von unerwünschten Teilen des gesprochenen Texts (GM) zu unterdrücken, wenn der Synchronwiedergabemodus aktiviert ist, welche unerwünschten Teile durch eine Unterdrückungsinformation (PMI, HMI, GMI, DMI, RMI), die im Speichermittel (8) gespeichert ist, markiert werden.
Korrekturvorrichtung (3, 4) nach Anspruch 2, wobei das Wiedergabemittel dazu (13) eingerichtet ist, die unerwünschten Teile des gesprochenen Texts (GT), die durch die Unterdrückungsinformation (PMI, HMI, GMI, DMI, RMI) markiert sind, akustisch wiederzugeben, sofern diese unerwünschten Teile auch durch die Kennzeichnungsinformation (WMI) markiert sind, wenn der Synchronwiedergabemodus aktiviert ist.
Korrekturvorrichtung (3, 4) nach Anspruch 2, wobei unerwünschte Teile des gesprochenen Texts (GT), die durch die Unterdrückungsinformation (PMI, HMI, RMI) markiert sind, durch eine Pause im gesprochenen Text (GT), wiederholte Worte oder einen zögernden Klang gebildet werden.
Korrekturvorrichtung (3, 4) nach Anspruch 1, wobei das Wiedergabemittel (13) dazu eingerichtet ist, jene Teile des erkannten Texts (ET), die durch die Kennzeichnungsinformation (WMI) markiert sind, visuell zu kennzeichnen.
Korrekturvorrichtung (3, 4) nach Anspruch 1, wobei ein Positionierungsmittel (18) bereitgestellt ist, um einen Textcursor (P2) zu positionieren, der eine Texteingabeposition identifiziert, wenn der Synchronwiedergabemodus unterbrochen ist, um ein unrichtig erkanntes Wort zu korrigieren, und wobei das Positionierungsmittel (18) dazu eingerichtet ist, den Textcursor N Worte stromaufwärts des Worts des erkannten Texts (ET), das zur Zeit der Unterbrechung des Synchronwiedergabemodus gekennzeichnet wurde, zu positionieren, falls dieser Teil des erkannten Texts (ET) durch die Kennzeichnungsinformation (WMI) markiert ist, und wobei das Positionierungsmittel (18) dazu eingerichtet ist, den Textcursor M Worte stromaufwärts des Worts des erkannten Texts (ET), das zur Zeit der Unterbrechung des Synchronwiedergabemodus gekennzeichnet wurde, zu positionieren, falls dieser Teil des erkannten Texts (ET) nicht durch irgendeine Kennzeichnungsinformation (WMI) markiert ist.
Verfahren zum Korrigieren eines Texts (ET), der durch eine Spracherkennungsvorrichtung (2) aus einem gesprochenen Text (GT) erkannt wurde, wobei ein Punkt einer Anschlussinformation (LI) für jeden Teil des gesprochenen Texts (GT) den zugehörigen erkannten Text (ET) markiert, und wobei die folgenden Schritte durchgeführt werden: Speichern zumindest des gesprochenen Texts (GT) und des erkannten Texts (ET); wenn der Synchronwiedergabemodus aktiviert ist, akustisches Wiedergeben des gesprochenen Texts (GT) und gleichzeitiges visuelles Kennzeichnen des zugehörigen erkannten Texts (ET), der durch die Anschlussinformation (LI) markiert ist; Speichern einer Kennzeichnungsinformation (WMI), welche Kennzeichnungsinformation (WMI) jene Teile des erkannten Texts (ET) und/oder des gesprochenen Texts (GI) markiert, die zumindest einmal vorher wiedergegeben wurden, als der Synchronwiedergabemodus aktiviert war.
Verfahren zum Korrigieren nach Anspruch 7, wobei die folgenden weiteren Schritte durchgeführt werden: Unterdrücken der akustischen Wiedergabe von unerwünschten Teilen des gesprochenen Texts (GT), wenn der Synchronwiedergabemodus aktiviert ist, welche unerwünschten Teile durch eine gespeicherte Unterdrückungsinformation (PMI, HMI, GMI, DMI, RMI) markiert sind.
Verfahren zum Korrigieren nach Anspruch 8, wobei die folgenden weiteren Schritte durchgeführt werden: akustisches Wiedergeben der unerwünschten Teile des gesprochenen Texts (GI), die durch die Unterdrückungsinformation (PMI, HMI, GMI, DMI, RMI) markiert sind, wenn der Synchronwiedergabemodus aktiviert ist, sofern diese Teile zusätzlich durch die Kennzeichnungsinformation (WMI) markiert sind.