-
Die
Erfindung betrifft eine Korrekturvorrichtung zum Korrigieren eines
Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen
Text erkannt wurde, wobei der erkannte Text Worte enthält, die
richtig als gesprochene Worte des gesprochenen Texts erkannt wurden,
und Worte enthält,
die nicht richtig als solche erkannt wurden.
-
Die
Erfindung betrifft ferner ein Korrekturverfahren zum Korrigieren
eines Texts, der durch eine Spracherkennungsvorrichtung aus einem
gesprochenen Text erkannt wurde, wobei der erkannte Text Worte enthält, die
richtig als gesprochene Worte des gesprochenen Texts erkannt wurden,
und Worte enthält,
die nicht richtig als solche erkannt wurden.
-
Eine
Korrekturvorrichtung dieser Art und ein Korrekturverfahren dieser
Art sind aus der US-Patentschrift Nr. 5,031,113 bekannt, worin eine
Diktiervorrichtung offenbart ist. Die bekannte Diktiervorrichtung
ist durch einen Computer gebildet, der eine Spracherkennungssoftware
und eine Textverarbeitungssoftware ausführt. Ein Benutzer der bekannten Diktiervorrichtung
kann einen gesprochenen Text in ein an den Computer angeschlossenes
Mikrophon sprechen. Die Spracherkennungssoftware, die eine Spracherkennungsvorrichtung
bildet, führt
einen Spracherkennungsvorgang durch und weist dabei jedem gesprochenen
Wort des gesprochenen Texts ein erkanntes Wort zu, was dazu führt, dass
für den
gesprochenen Text ein erkannter Text erhalten wird. Außerdem wird
im Verlauf des Spracherkennungsvorgangs eine Anschlussinformation
bestimmt, die das Wort des erkannten Texts markiert, das für jedes
gesprochene Wort des gesprochenen Texts erkannt wurde.
-
Die
bekannte Diktiervorrichtung bildet auch eine Korrekturvorrichtung,
mit der unrichtig erkannte Worte durch Korrekturworte ersetzt werden
können. Zu
diesem Zweck kann ein Benutzer der Korrekturvorrichtung einen Synchronwiedergabemodus
der Korrekturvorrichtung aktivieren, in dem der gesprochene Text
akustisch wiedergegeben wird, und die Worte des erkannten Texts,
die durch die Anschlussinformation markiert sind, synchron damit
hervorgehoben (d.h., gekennzeichnet) werden. Der Synchronwieder gabemodus
hat sich in der Praxis für
die Korrektur eines Texts, der durch die Spracherkennungsvorrichtung
erkannt wurde, als besonders vorteilhaft erwiesen. Es wurde außerdem festgestellt,
dass viele Benutzer nicht den gesamten erkannten Text mit Hilfe des
Synchronwiedergabemodus prüfen,
sondern nur bestimmte Teile davon. Diese bestimmten Teile können zum
Beispiel Teile des Texts sein, die besonders kritisch sind und völlig fehlerfrei
sein müssen,
oder können
Teile des Texts sein, die für
die Spracherkennungsvorrichtung besonders schwer zu erkennen sind
und daher wahrscheinlich eine große Anzahl von unrichtig erkannten
Worten enthalten.
-
Es
wurde bei der bekannten Korrekturvorrichtung als nachteilig festgestellt,
dass ein Benutzer nach dem Korrigieren des erkannten Texts mit der Korrekturvorrichtung über keine
Möglichkeit
verfügt, zu
bestimmen, welche Teile des erkannten Texts mit Hilfe des Synchronwiedergabemodus
korrigiert wurden, und welche Teile noch damit korrigiert werden müssen.
-
Es
ist eine Aufgabe der Erfindung, eine Korrekturvorrichtung der im
ersten obigen Absatz definierten Art und ein Korrekturverfahren
der im zweiten obigen Absatz definierten Art bereitzustellen, wobei der
oben beschriebene Nachteil vermieden wird.
-
Zur
Erfüllung
der oben angegebenen Aufgabe werden für eine Korrekturvorrichtung
dieser Art Merkmale nach der Erfindung vorgeschlagen, so dass die
Korrekturvorrichtung auf die nachstehend ausführlich angegebene Weise gekennzeichnet
werden kann.
-
Es
handelt sich um eine Korrekturvorrichtung zum Korrigieren eines
Texts, der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text
erkannt wurde, wobei ein Punkt einer Anschlussinformation für jeden
Teil des gesprochenen Texts den zugehörigen erkannten Text markiert,
aufweisend
ein Speichermittel, um zumindest den gesprochenen Text und den erkannten
Text zu speichern, und
aufweisend ein Wiedergabemittel, um
den gesprochenen Text akustisch wiederzugeben und gleichzeitig den
zugehörigen
erkannten Text, der durch den Punkt der Anschlussinformation markiert
wurde, visuell zu kennzeichnen, wenn in der Korrekturvorrichtung
ein Synchronwiedergabemodus aktiviert ist, und
aufweisend ein
Kennzeichnungsmittel, um eine Kennzeichnungsinformation im Speichermittel
zu speichern, welche Kennzeichnungsinformation jene Teile des erkannten
Texts und/oder des gesprochenen Texts markiert, die zumindest einmal
durch das Wiedergabemittel wiedergegeben wurden, als der Synchronwiedergabemodus
aktiviert war.
-
Zur
Erfüllung
der oben angegebenen Aufgabe werden für ein Korrekturverfahren dieser
Art Merkmale nach der Erfindung vorgeschlagen, so dass das Korrekturverfahren
auf die nachstehend ausführlich angegebene
Weise gekennzeichnet werden kann.
-
Es
handelt sich um ein Korrekturverfahren zum Korrigieren eines Texts,
der durch eine Spracherkennungsvorrichtung aus einem gesprochenen Text
erkannt wurde, wobei ein Punkt einer Anschlussinformation für jeden
Teil des gesprochenen Texts den zugehörigen erkannten Text markiert,
und wobei die folgenden Schritte durchgeführt werden:
Speichern
zumindest des gesprochenen Texts und des erkannten Texts;
wenn
der Synchronwiedergabemodus aktiviert ist, akustisches Wiedergeben
des gesprochenen Texts und gleichzeitiges visuelles Kennzeichnen
des zugehörigen
erkannten Texts, der durch die Anschlussinformation markiert ist;
Speichern
einer Kennzeichnungsinformation, welche Kennzeichnungsinformation
jene Teile des erkannten Texts und/oder des gesprochenen Texts markiert,
die zumindest einmal vorher wiedergegeben wurden, als der Synchronwiedergabemodus
aktiviert war.
-
Die
Merkmale nach der Erfindung erreichen, dass jene Teile des erkannten
Texts und/oder jene Teile des gesprochenen Texts, die zumindest
einmal vorher akustisch wiedergegeben wurden und visuell gekennzeichnet
wurden, als der Synchronwiedergabemodus aktiviert war, durch eine
Kennzeichnungsinformation markiert werden. Auf diese Weise ist die Korrekturvorrichtung
vorteilhafter Weise fähig,
entweder den Teil des erkannten Texts, der bereits einmal mit Hilfe
des Synchronwiedergabemodus korrigiert wurde, visuell zu kennzeichnen,
oder den zugehörigen
Teil des gesprochenen Texts akustisch zu kennzeichnen. Dies ermöglicht einem
Benutzer der Korrekturvorrichtung nach der Erfindung, den erkannten
Text beträchtlich
leistungsfähiger
zu korrigieren.
-
Die
Vorkehrungen von Anspruch 2 und Anspruch 8 bieten den Vorteil, dass
unerwünschte
Teile des gesprochenen Texts, die durch die Spracherkennungsvorrichtung
oder durch die Korrekturvorrichtung als Unterdrückungsinformation markiert
sind, während
des Synchronwiedergabemodus nicht akustisch wiedergegeben werden.
Während
des Synchronwiedergabemodus ist der Benutzer somit fähig, sich
zufriedenstellender auf die wesentlichen Teile des gesprochenen
Texts und die zugehörigen
Teile des erkannten Texts zu konzentrieren. Außerdem kann die akustische
Wiedergabe beschleunigt werden, so dass ein erkannter Text vorteilhafter
Weise rascher korrigiert werden kann.
-
Die
Vorkehrungen von Anspruch 3 und Anspruch 9 bieten den Vorteil, dass
bestimmte Teile des gesprochenen Texts, obwohl sie unerwünscht sind, nach
wie vor wiedergegeben werden, nämlich,
wenn der Benutzer derartige Teile des gesprochenen Texts ein zweites
oder weiteres Mal hört.
Dies ist besonders vorteilhaft, da unerwünschte Teile des gesprochenen
Texts dieser Art häufig
verursachen, dass zu erkennende unrichtig erkannt werden, wenn der Spracherkennungsvorgang
durchgeführt
wird, und der Benutzer durch das Hören dieser unerwünschten Teile
des Texts leichter fähig
ist, Schlüsse
hinsichtlich des Worts zu ziehen, das wirklich erkannt hätte werden
sollen.
-
Die
Vorkehrungen von 4 stellen eine Liste jener Teile
des gesprochenen Texts bereit, deren Markierung durch die Unterdrückungsinformation
als unerwünscht
besonders vorteilhaft ist. Derartige unerwünschte Teile des Texts sind
somit Teile des gesprochenen Texts, wo der Benutzer eine Pause machte
(= Stille), während
er diktierte, oder wo er ein Wort wiederholte oder einen sogenannten
zögernden Laut
(z.B. aah, mm ...) von sich gab, während er über den nächsten Satz nachdachte.
-
Die
Vorkehrungen von Anspruch 5 bieten den Vorteil, dass die Korrekturvorrichtung
jenen Teil des erkannten Texts, der im Synchronwiedergabemodus bereits
zumindest einmal wiedergegeben und somit korrigiert wurde, visuell
kennzeichnet, was für den
Benutzer oder eine Person, die die Arbeit von Benutzern der Korrekturvorrichtung
prüfen
muss, nützlich
ist. Als Ergebnis können
professionelle Transkriptionsdienste eine leistungsfähige Qualitätskontrolle
bieten.
-
Die
Vorkehrungen von Anspruch 6 bieten den Vorteil, dass ein Positionierungsmittel,
das zur Korrekturvorrichtung gehört,
einen Textcursor davon abhängig,
ob der erkannte Text und der zugehörige gesprochene Text im Synchronwiedergabemodus bereits
einmal wiedergegeben wurden, N Worte oder M Worte stromaufwärts des
Worts positioniert, das in jenem Augenblick gekennzeichnet wird,
in dem der Synchronwiedergabemodus unterbrochen wird. Die definierten
Zahlen könnten,
zum Beispiel, M = 3 und N = 1 sein, was dazu führt, dass die längere Reaktionszeit
des Korrektors, wenn ein unrichtig erkanntes Wort im erkannten Text
zum ersten Mal gefunden wird, berücksichtigt würde. Diese
Vorkehrungen sind besonders vorteilhaft, da der Textcursor gewöhnlich bereits
auf dem unrichtig erkannten Wort, das korrigiert werden soll, positioniert
ist, sobald der Synchronwiedergabemodus unterbrochen wurde, und somit
Zeit, die zum manuellen Positionieren des Textcursors benötigt wird,
gespart werden kann.
-
Die
Erfindung wird nun unter Bezugnahme auf die Zeichnungen, die eine
einzelne Ausführungsform
als ein Beispiel zeigen, auf das die Erfindung jedoch nicht beschränkt ist,
ausführlicher
beschrieben werden.
-
1 zeigt
eine Transkriptionsvorrichtung zum Transkribieren eines gesprochenen
Texts in einen erkannten Text, wobei eine Korrekturvorrichtung bereitgestellt
ist, um den erkannten Text zu korrigieren.
-
2 zeigt
einen gesprochenen Text, einen entsprechenden Text, der durch die
Transkriptionsvorrichtung erkannt wurde, und eine Anschlussinformation,
die den zugehörigen
Abschnitt des erkannten Texts für
jeden Audioabschnitt des gesprochenen Texts markiert, in symbolischer
Form.
-
3 zeigt
eine Befehlstabelle, die in einer Befehlsspeicherstufe der Transkriptionsvorrichtung gespeichert
ist.
-
4 zeigt
eine Kennzeichnungstabelle, die im Speichermittel der Transkriptionsvorrichtung
gespeichert ist.
-
5 zeigt
fünf Beispiele
eines Texts, der durch einen Benutzer der Transkriptionsvorrichtung gesprochen
wird, in symbolischer Form.
-
6 zeigt
den Text, der durch das Spracherkennungsmittel der Transkriptionsvorrichtung
für die
fünf Beispiele
des gesprochenen Texts erkannt wird, wobei Teile des erkannten Texts
durch eine erste Kennzeichnungsstufe des Spracherkennungsmittels
automatisch gekennzeichnet wurden und ein Benutzer weitere Teile
des Texts mit einer zweiten Kennzeichnungsstufe manuell markiert
hat, in symbolischer Form.
-
7 zeigt
die Texte, die durch die Korrekturvorrichtung der Transkriptionsvorrichtung
für die fünf Beispiele
dargestellt werden, wobei sowohl die automatisch als auch die manuell
gekennzeichneten Texte des erkannten Texts als Ersatztexte dargestellt sind,
in symbolischer Form.
-
8 zeigt
den Text, der durch die Korrekturvorrichtung dargestellt wird, wenn
alle Ersatztexte für
gekennzeichnete Teile des Texts unterdrückt sind, in symbolischer Form.
-
9 zeigt,
welche Teile des Texts während der
ersten und einer anschließenden
zweiten synchronen Wiedergabe des gesprochenen und des erkannten
Texts wiedergegeben werden, in symbolischer Form.
-
1 zeigt
eine Transkriptionsvorrichtung 1 zum Transkribieren eines
gesprochenen Texts GT in einen erkannten Text ET und zum Bearbeiten
von Teilen des erkannten Texts ET, die nicht richtig erkannt wurden.
Die Transkriptionsvorrichtung 1 wird durch einen ersten
Computer, der eine Spracherkennungssoftware ausführt und eine Spracherkennungsvorrichtung 2 bildet,
und durch einen zweiten und einen dritten Computer, welcher zweite
und dritte Computer jeweils eine Textverarbeitungssoftware ausführen und
eine erste Korrekturvorrichtung 3 und eine zweite Korrekturvorrichtung 4 zum
Korrigieren von Teilen des Texts, die nicht nichtig erkannt wurden,
bilden, gebildet. Es kann bemerkt werden, dass eine Transkriptionsvorrichtung
nach der Erfindung auch durch nur einen Computer gebildet werden
könnte, der
sowohl eine Spracherkennungsvorrichtung als auch eine Korrekturvorrichtung
bildet, welcher Computer dann sowohl die Spracherkennungssoftware als
auch die Textverarbeitungssoftware ausführen müsste.
-
An
den ersten Computer, der die Spracherkennungsvorrichtung 2 bildet,
ist ein Mikrophon 5 angeschlossen, von dem ein Audiosignal
A, das den gesprochenen Text GT darstellt, ausgesendet werden kann.
Die Spracherkennungsvorrichtung 2 enthält einen Analog-Digital-Wandler 6,
ein Spracherkennungsmittel 7, ein Speichermittel 8,
ein Parameterspeichermittel 9, ein Befehlsspeichermittel 10 und eine
Anpassungsstufe 11. Das durch das Mikrophon 5 ausgesendete
Audiosignal A kann an den Analog-Digital-Wandler 6 angelegt
werden, der das Audiosignal A in digitale Audiodaten AD umwandelt.
-
Die
Audiodaten AD, die den gesprochenen Text GT darstellen, können an
das Spracherkennungsmittel 7 angelegt werden und dadurch
im Speichermittel 8 gespeichert werden. Wenn durch das Spracherkennungsmittel 7 der
Spracherkennungsvorgang durchgeführt
wird, ist das Spracherkennungsmittel 7 dazu eingerichtet,
den erkannten Text ET zu bestimmen, wobei Parameterinformationen
PI, die im Parameterspeichermittel 9 gespeichert sind, dabei
in Betracht gezogen werden. In diesem Fall enthalten die Parameterinformationen
PI Vokabelinformationen, Sprachmodellinformationen und akustische
Informationen.
-
Die
Vokabelinformationen enthalten alle Worte, die durch das Spracherkennungsmittel 7 erkannt
werden können,
zuzüglich
zusätzlicher
Phonemabfolgen. Die Sprachmodellinformationen enthalten statistische
Informationen im Zusammenhang mit Wortabfolgen, die in der Sprache
des gesprochenen Texts GT üblich
sind. Die akustischen Informationen enthalten Informationen über besondere
Merkmale der Aussprache eines Benutzers der Transkriptionsvorrichtung 1 und über akustische
Eigenschaften des Mikrophons 5 und des Analog-Digital-Wandlers 6.
-
Die
Offenbarung der US-Patentschrift Nr. 5,031,113 wird als verweisend
in die Offenbarung der vorliegenden Patentschrift aufgenommen angesehen,
und da die Leistung eines Spracherkennungsvorgangs angesichts von
Parameterinformationen PI dieser Art in der genannten US-Patentschrift
offenbart ist, wird hier keine ausführliche Beschreibung davon
gegeben werden. Das Ergebnis des Spracherkennungsvorgangs ist, dass
Textdaten, die den erkannten Text ET enthalten, durch das Spracherkennungsmittel 7 im
Speichermittel 8 gespeichert werden können.
-
Während der
Durchführung
des Spracherkennungsvorgangs kann durch das Spracherkennungsmittel 7 auch
eine Anschlussinformation LI bestimmt werden, die den zugehörigen Text
ET, der durch das Spracherkennungsmittel 7 für jeden
Teil des gesprochenen Texts GT erkannt wird, markiert. Die Erzeugung
der Anschlussinformation LI ist ebenfalls in der US-Patentschrift
Nr. 5,031,113 offenbart, aus welchem Grund sie hier nicht ausführlich besprochen
wird.
-
In 2 ist
ein Text GT, der durch einen Verfasser – das heißt, durch einen Benutzer der
Spracherkennungsvorrichtung 2 – in das Mikrophon 5 gesprochen
wird, in symbolischer Form entlang einer Zeitachse t gezeigt. Der
für diesen
gesprochenen Text GT durch das Spracherkennungsmittel 7 erkannte
Text ET ist ebenfalls gezeigt. Während
der Spracherkennungsvorgang durchgeführt wird, wird der gesprochene
Text in Audioabschnitte AS geteilt, die die zugehörige akustische
Information enthalten. Die zugehörige
akustische Information dieser Art kann zum Beispiel ein Wort, eine
ziemlich lange Sprechpause zwischen zwei Worten, ein sogenannter
zögernder
Laut wie etwa "aah" oder "mm" oder ein Geräusch sein.
-
Die
Anschlussinformation LI markiert den Anfang und das Ende jedes Audioabschnitts
AS des gesprochenen Texts GT und der zugehörigen Abschnitte TS des erkannten
Texts ET. Zum Beispiel enthält
ein erster Audioabschnitt AS1 die 1,5 Sekunden dauernde akustische
Information für
das erste Wort "The" eines gesprochenen
Texts GT und enthält ein
erster Textabschnitt TS, der durch die Anschlussinformation LI zugeteilt
ist, den Text des Worts "The", der durch das Spracherkennungsmittel 7 erkannt wurde.
-
Die
Befehlsspeicherstufe 10 speichert Abfolgen von Worten,
die durch die Spracherkennungsvorrichtung 2 als Befehle
erkannt werden. Ein Teil einer Befehlstabelle BT, die in der Befehlsspeicherstufe 10 gespeichert
ist, ist in 3 gezeigt. Durch Bezug nahme
auf die Befehlstabelle BT erkennt das Spracherkennungsmittel 7 zum
Beispiel die Abfolge von Worten "nächstes Wort
fett" als einen
Befehl, dass das nächste
Wort im erkannten Text ET fett gezeigt werden soll. Diesem Befehl
in der Befehlstabelle BT ist eine Befehlsnummer BI12 zugeteilt.
Die Abfolge von Worten "füge Text
von Modul 1 ein" wird ebenfalls
als ein Befehl erkannt, in diesem Fall, dass ein Standardtext von
einem Textmodul, das an einer Speicherstelle an der Position "341" in der Befehlsspeicherstufe 10 gespeichert
ist, in den erkannten Text ET eingefügt werden soll.
-
Das
Spracherkennungsmittel 7 umfasst ferner eine erste Kennzeichnungsstufe 12,
die zur automatischen Bestimmung verschiedener Punkte einer Kennzeichnungsinformation
MI und zum Speichern der so bestimmten Punkte der Kennzeichnungsinformation
im Speichermittel 8 eingerichtet ist, welche Punkte der
Kennzeichnungsinformation MI Teile des erkannten Texts ET und des
gesprochenen Texts GT markieren, die eine bestimmte Eigenschaft
aufweisen, welche allen so gekennzeichneten Teilen des Texts gemeinsam
ist. Das Wort "automatisch" ist in diesem Zusammenhang
so zu verstehen, dass es "ohne
jegliche Handlung durch den Benutzer der Transkriptionsvorrichtung 1" bedeutet. Die erste Kennzeichnungsstufe 12 ist
zur automatischen Kennzeichnung von ziemlich langen Sprechpausen mit
einer Pausenkennzeichnungsinformation PMI, von zögernden Lauten mit einer Information
zur Kennzeichnung von zögernden
Lauten HMI, von Befehlen mit einer Befehlskennzeichnungsinformation CMI,
von wiederholten Worten mit einer Wiederholungskennzeichnungsinformation
RMI, von Daten mit einer Datumskennzeichnungsinformation DMI, und von
Geräuschen
mit einer Geräuschkennzeichnungsinformation
GMI eingerichtet.
-
4 zeigt
eine Kennzeichnungstabelle MT, die im Speichermittel 8 gespeichert
ist, in welche Tabelle Punkte einer Kennzeichnungsinformation MI, die
durch die erste Kennzeichnungsstufe 12 automatisch bestimmt
werden, durch die erste Kennzeichnungsstufe 12 eingegeben
werden. Für
die automatische Kennzeichnung von Befehlen im erkannten Text ET
vergleicht die erste Kennzeichnungsstufe 12 die Wortabfolgen,
die in der Befehlstabelle BT enthalten sind, mit den Wortabfolgen,
die im erkannten Text ET enthalten sind. Wenn eine Wortabfolge,
die in der Befehlstabelle BT enthalten ist, im erkannten Text ET gefunden
wird, gibt die erste Kennzeichnungsstufe 12 jene Textabschnitte
TX des erkannten Texts ET, die diese Abfolge von Worten identifizieren,
zuzüglich der
Befehlsnummer BI als Befehlskennzeichnungsinformation CMI in die
Kennzeichnungstabelle MT ein. Dies ist nachstehend unter Bezugnahme
auf ein Anwendungsbeispiel ausführlicher
beschrieben.
-
Es
kann bemerkt werden, dass es anstelle des Identifizierens bestimmter
Textabschnitte TX des erkannten Texts ET in der Kennzeichnungstabelle MT
auch möglich
wäre, dass
in jedem Fall die passenden Audioabschnitte AS des gesprochenen
Texts GT eingegeben werden. Die Audioabschnitte AS und die zugehörigen Textabschnitte
TS können
in jedem Fall mit Hilfe der Anschlussinformation bestimmt werden.
-
Das
Spracherkennungsmittel 7 ist dazu eingerichtet, Pausen
in der Sprache (Stille) zwischen zwei Worten zu erkennen, und die
erste Kennzeichnungsstufe 12 ist dazu eingerichtet, entsprechende Audioabschnitte
AS des gesprochenen Texts GT in der Kennzeichnungstabelle MT automatisch
mit der Pausenkennzeichnungsinformation PMI zu kennzeichnen.
-
Die
erste Kennzeichnungsstufe 12 ist dazu eingerichtet, zögernde Laute
(z.B. "aah" oder "mhh"), die in der ersten
Kennzeichnungsstufe 12 gespeichert sind, mit Worten zu
vergleichen, die im erkannten Text ET enthalten sind, und Textabschnitte
TS des erkannten Texts ET, die derartige zögernde Laute enthalten, automatisch
mit der Information zur Kennzeichnung von zögernden Lauten HMI zu kennzeichnen.
-
Die
erste Kennzeichnungsstufe 12 ist auch dazu eingerichtet,
Audioabschnitte AS des gesprochenen Texts GT automatisch mit der
Geräuschkennzeichnungsinformation
GMI zu kennzeichnen, wenn diese Audioabschnitte AS Geräusche und/oder Laute
enthalten. Zu diesem Zweck enthält
die Kennzeichnungsstufe 12 einen Geräuschdetektor, der fähig ist,
Geräusche
und/oder Laute von Audioabschnitten, die Worte enthalten, zu unterscheiden.
-
Zum
Kennzeichnen von wiederholten Worten im erkannten Text ET mit der
Wiederholungskennzeichnungsinformation RMI ist die erste Kennzeichnungsstufe 12 dazu
eingerichtet, Worte oder Abfolgen von Worten, die einander im erkannten
Text ET folgen, zu vergleichen. Die Kennzeichnungstabelle MI enthält auch
die Datumskennzeichnungsinformation DMT, die nachstehend unter Bezugnahme
auf Anwendungsbeispiele näher
beschrieben ist.
-
Die
erste Korrekturvorrichtung 3 der Transkriptionsvorrichtung 1 umfasst
ein Wiedergabemittel 13, das zusammen mit dem Speichermittel 8 und
der Befehlsspeicherstufe 10 durch den zweiten Computer
gebildet ist, der die Textverarbeitungssoftware ausführt. An
diesen zweiten Computer sind auch ein Bildschirm 14, eine
Tastatur 15 und ein Lautsprecher 16 angeschlossen,
die ebenfalls der ersten Korrekturvorrichtung 3 zugehörig sind.
Das Wiedergabemittel 13 ist zur akustischen Wiedergabe
des gesprochenen Texts GT und zur gleichzeitigen visuellen oder
optischen Kennzeichnung des zugehörigen erkannten Texts ET, der
durch die Anschlussinformation markiert ist, eingerichtet, wenn
in der ersten Korrekturvorrichtung 3 der Synchronwiedergabemodus aktiviert
ist.
-
Die
Korrektur des erkannten Texts ET im aktivierten Synchronwiedergabemodus
ist erneut in der US-Patentschrift Nr. 5,031,113 offenbart und hat
sich in der Praxis als sehr vorteilhaft erwiesen. In diesem Fall
kann ein Korrektor – das
heißt,
ein Benutzer der ersten Korrekturvorrichtung 3, der den
erkannten Text ET korrigiert – gleichzeitig
den durch den Verfasser in das Mikrophon 5 gesprochenen
Text GT hören und
den Text ET, der dafür
durch das Spracherkennungsmittel 7 erkannt wurde, prüfen oder
bearbeiten. Der erkannte Text ET wird optisch auf dem Bildschirm 14 dargestellt,
und das Wort, das durch das Spracherkennungsmittel 7 für das gerade
akustisch wiedergegebene gesprochene Wort erkannt wurde, wird durch
das Wiedergabemittel 13 optisch gekennzeichnet und entsprechend
auf dem Bildschirm 14 dargestellt. Der Korrektor kann den
Synchronwiedergabemodus aktivieren, unterbrechen und deaktivieren
und den erkannten Text ET mit der Tastatur 15 bearbeiten.
-
Der
Aufbau der zweiten Korrekturvorrichtung 4 ist im Wesentlichen
der gleiche wie jener der in 1 ausführlich gezeigten
ersten Korrekturvorrichtung 3, weshalb die zweite Korrekturvorrichtung 4 in 1 nur
als ein Block gezeigt ist. Die zweite Korrekturvorrichtung 4 ist
jedoch physisch von der Spracherkennungsvorrichtung 2 getrennt,
weshalb die zweite Korrekturvorrichtung 4 zusätzlich ein
Speichermittel und ein Befehlsspeichermittel aufweist, worin die
im Speichermittel 8 und in der Befehlsspeicherstufe 10 gespeicherten
Informationen gespeichert werden, bevor der mit der ersten Korrekturvorrichtung 3 korrigierte
erkannte Text ET bearbeitet wird.
-
Die
zweite Korrekturvorrichtung 4 kann zum Beispiel durch einen
Prüfer – d.h.,
einen Benutzer der zweiten Korrekturvorrichtung 4 – verwendet
werden, der nach der Vornahme der Korrektur des im Speichermittel 8 gespeicherten
erkannten Texts ET durch den Korrektor die Qualität der durch
den Korrektor erledigten Arbeit prüft. Zu diesem Zweck prüft der Prüfer, um
festzustellen, ob der Korrektor irgendwelche Fehler im erkannten
Text ET übersehen
hat. Derartige Prüfer
werden hauptsächlich
durch Transkriptionsfirmen verwendet, die die Qualität der transkribierten
Tete durch wahlloses Prüfen
von korri gierten erkannten Texten sicherstellen. Dies ist unter
Bezugnahme auf die Anwendungsbeispiele der Transkriptionsvorrichtung 1 ausführlich beschrieben.
-
Das
Wiedergabemittel 13 der Transkriptionsvorrichtung 1 umfasst
ferner eine zweite Kennzeichnungsstufe 17, die zusammen
mit der Tastatur 15 und der ersten Kennzeichnungsstufe 12 das
Kennzeichnungsmittel zum automatischen und manuellen Kennzeichnen
von Teilen des gesprochenen Texts GT oder des erkannten Texts ET
bildet. Mit der zweiten Kennzeichnungsstufe 17 verfügt der Korrektor beim
Korrigieren des erkannten Texts ET über eine Gelegenheit, weitere
Teile des Texts, die nicht automatisch gekennzeichnet wurden, manuell
zu kennzeichnen.
-
Dieses
manuelle Kennzeichnen von Teilen des Texts kann einerseits verwendet
werden, um manuell Teile des erkannten Texts ET zu kennzeichnen, die
die gleiche Eigenschaft wie Teile des Texts aufweisen, welche bereits
automatisch gekennzeichnet wurden, um zu gestatten, dass die Parameterinformationen
PI oder die in der Befehlstabelle BT gespeicherten Informationen
mit Hilfe der Anpassungsstufe 11 angepasst werden. Diese
Anpassung erreicht, dass die erste Kennzeichnungsstufe 12 das
nächste Mal
fähig sein
wird, die Teile des Texts, die manuell gekennzeichnet wurden, automatisch
zu kennzeichnen. Zusätzlich
wird mit jeder Anpassung die Erkennungsrate der Spracherkennungsvorrichtung 2 verbessert.
Als Ergebnis wird der Vorteil erhalten, dass die Transkriptionsvorrichtung
die Arbeit, die der Korrektor erledigen muss, und mehr mit jeder
weiteren Benutzung verringern kann.
-
Diese
manuelle Kennzeichnung von Teilen des Texts kann andererseits verwendet
werden, um Teile des Texts als gelöscht zu kennzeichnen, die dann
nicht im erkannten Text erscheinen werden, der dem Verfasser übermittelt
wird, aber dennoch nicht völlig
gelöscht
sind. Das Kennzeichnen eines Teils des Texts als gelöscht weist
die Vorteile auf, dass solche Teile des Texts in einen späteren Stadium
wieder in den erkannten Text aufgenommen werden können, falls
dies nötig
ist, und dass der Prüfer
prüfen
kann, ob es richtig war, dass diese Teile des Texts gelöscht wurden.
Es ist jedoch besonders vorteilhaft, dass die Verbindung, die durch
die Anschlussinformation LI zwischen dem gesprochenen Text GT und
dem erkannten Text ET bereitgestellt wird, völlig unversehrt bleibt, da
kein Teil des erkannten Texts ET tatsächlich gelöscht wird. Doch wenn der Synchronwiedergabemodus
aktiviert ist, während
Teile des gesprochenen Texts GT, die als gelöscht gekennzeichnet sind, akustisch
wiedergegeben werden, kann anstelle des gelöschten Teils des Texts ein
Ersatztext optisch gekennzeichnet werden, was nachstehend ausführlich beschrieben
ist.
-
Diese
Ergänzung
der automatischen Kennzeichnung von Teilen des Texts mit der manuellen Kennzeichnung
von Teilen des Texts, die die gleiche Eigenschaft aufweisen, stellt
den weiteren Vorteil bereit, dass der bearbeitete erkannte Text
ET auf eine besonders leistungsfähige
Weise weiter bearbeitet werden kann. Somit kann zum Beispiel die
Formatierung all jener Teile des erkannten Tests, die als Daten gekennzeichnet
sind, mit besonderer Leistungsfähigkeit
gleichmäßig abgeändert werden,
wie nachstehend ausführlich
beschrieben ist.
-
Die
zweite Kennzeichnungsstufe 17 des Kennzeichnungsmittels
ist auch dazu eingerichtet, eine Wiedergabekennzeichnungsinformation
WMI im Speichermittel 8 zu speichern, welche Wiedergabekennzeichnungsinformation
WMI jene Teile des erkannten Texts ET und/oder des gesprochenen
Texts GT markiert, die im aktivierten Synchronwiedergabemodus zumindest
einmal durch das Wiedergabemittel 13 wiedergegeben wurden.
-
Als
Ergebnis wird der Vorteil erhalten, dass das Wiedergabemittel 13 durch
Bewerten der in der Kennzeichnungstabelle MT enthaltenen Wiedergabekennzeichnungsinformation
WMI fähig
ist, entweder den Teil des erkannten Texts ET, der bereits einmal
mit Hilfe des Synchronwiedergabemodus korrigiert wurde, visuell
zu kennzeichnen, oder den zugehörigen
Teil des gesprochenen Texts GT akustisch zu kennzeichnen. Als Ergebnis
ist ein Benutzer der Korrekturvorrichtung nach der Erfindung fähig, den
erkannten Text beträchtlich
leistungsfähiger
zu korrigieren, was nachstehend unter Bezugnahme auf ein Anwendungsbeispiel
ausführlich
beschrieben ist.
-
Das
Wiedergabemittel 13 ist überdies dazu eingerichtet,
die akustische Wiedergabe von unerwünschten Teilen des gesprochenen
Texts GT zu unterdrücken,
wenn der Synchronwiedergabemodus aktiviert ist, welche unerwünschten
Teile durch eine Unterdrückungsinformation
markiert sind, die im Speichermittel 8 gespeichert ist.
Da dies der Fall ist, kann der Korrektor die Tastatur 15 verwenden,
um festzulegen, welche der Punkte der Kennzeichnungsinformation
MI, die in der Kennzeichnungstabelle MT enthalten sind, als Unterdrückungsinformation
verwendet werden sollen. Der Benutzer kann zum Beispiel die Pausenkennzeichnungsinformation PMI
und die Information zur Kennzeichnung von zögernden Lauten HMI als Unterdrückungsinformation wählen, so
dass die so gekennzeichneten Teile des Texts unterdrückt werden,
wenn der gesprochene Text GT zum ersten Mal wiedergegeben wird.
Dies ist unter Bezugnahme auf ein Anwendungsbeispiel ausführlich beschrieben.
-
Die
Vorteile der Transkriptionsvorrichtung 1 werden nun nachstehend
unter Bezugnahme auf die in 3 bis 9 gezeigten
Anwendungsbeispiele ausführlich
beschrieben werden. 5 zeigt fünf Teile eines Texts GT, der
durch den Verfasser in das Mikrophon 5 gesprochen wird. 6 zeigt
den Text ET, der durch das Spracherkennungsmittel 7 für die fünf Teile
des gesprochenen Texts GT erkannt wird, wobei Teile des erkannten
Texts ET durch die erste Kennzeichnungsstufe 12 bereits
automatisch gekennzeichnet wurden. Ebenfalls in 6 gezeigt
sind Teile des Texts, die durch den Korrektor mit Hilfe der zweiten
Kennzeichnungsstufe 17 manuell gekennzeichnet wurden. 7 zeigt
den erkannten Text in einer Form, in der Teile des Texts, die automatisch und
manuell gekennzeichnet waren, durch Ersatztexte ersetzt sind. 8 zeigt
den erkannten Text ET in einer Form, in der alle gekennzeichneten
Teile des Texts unterdrückt
wurden, in welcher Form der erkannte Text ET dem Verfasser übermittelt
wird.
-
Beim
ersten Beispiel wollte der Verfasser den Text "... Firma PHILIPS ..." in das Mikrophon sprechen
und gleichzeitig das Wort "PHILIPS" als fett kennzeichnen.
Doch nach dem Wort "Firma" denkt der Verfasser
kurz nach, wie der Wortlaut für
den Befehl zur Fettschriftformatierung genau lautet, und während er
dies tut, gibt er den zögernden
Laut "aah" von sich, wie dies
viele Verfasser tun. Der Verfasser sagt dann "nächstes
fett", doch während er
dies tut, fällt
ihm ein, dass die richtige Abfolge von Worten für diesen Befehl "nächstes Wort fett" lautet, aus welchem
Grund er "nein" sagt. Dann sagt
er den korrigierten Befehl "nächstes Wort
fett" und setzt
den Text mit dem Wort "PHILIPS" fort.
-
Wie
aus 6 ersichtlich ist, erkennt das Spracherkennungsmittel 7 den
Textabschnitt TS3 = "aah" für den Audioabschnitt
AS3, und kennzeichnet die erste Kennzeichnungsstufe 12 diesen
zögernden Laut
in der vierten Zeile der Kennzeichnungstabelle MT automatisch mit
der Information zur Kennzeichnung von zögernden Lauten HMI. Anstelle
des zögernden
Lauts ist in 6 der Ersatztext <zög> gekennzeichnet, der
dem Korrektor gestattet, zu erkennen, dass an diesem Punkt ein zögernder
Laut gekennzeichnet wurde. Wenn der Korrektor beim Bearbeiten des
erkannten Texts ET einen Textcursor des Wiedergabemittels 13 auf
diesem Ersatztext positioniert, wird der zögernde Laut, der durch das
Spracherkennungsmittel 7 erkannt wurde, dargestellt. Als Ergebnis
wird der Vorteil erhalten, dass sich der Korrektor beim Korrigieren
auf die wesentlichen Teile des erkannten Texts ET konzentrieren
kann, aber fähig ist,
diesen Laut jederzeit zu sehen, wenn er wissen möchte, welchen zögernden
Laut der Verfasser hier von sich gab, damit er ein Wort neben dem
zögernden
Laut korrigieren kann.
-
Außerdem hat
das Spracherkennungsmittel 7 nun für die Audioabschnitte AS7 bis
AS9 die durch die Textabschnitte TS7 bis TS9 gebildete Wortabfolge "nächstes Wort fett" erkannt, der in
der Befehlstabelle BT der Befehl zugeteilt ist, welcher die Befehlsnummer
BI12 aufweist. Die erste Kennzeichnungsstufe 12 gibt diese
Textabschnitte und diese Befehlsnummer vorteilhafter Weise automatisch
als Befehlskennzeichnungsinformation CMI in die vierte Zeile der
Kennzeichnungstabelle MT ein. In 6 ist anstelle
dieser Textabschnitte der Ersatztext <bef> gezeigt,
wodurch als Ergebnis die oben erwähnten Vorteile erhalten werden.
Außerdem
wird der Befehl BI12 ausgeführt
und das Wort "PHILIPS", das den Textabschnitt
TS10 bildet, der für
den Audioabschnitt AS10 erkannt wurde, fett dargestellt.
-
Unter
Verwendung der Tastatur 15 und der zweiten Kennzeichnungsstufe 17 kennzeichnet
der Korrektur nun die Textabschnitte TS4 und TS5 als einen Befehl,
der die Befehlsnummer BI12 aufweist, so dass die Wortabfolge "nächstes fett" durch die Kennzeichnungsstufe 12 beim
nächsten
Mal automatisch als ein Befehl erkannt werden wird. In 7 ist
dieser Teil des Texts ebenfalls durch den Ersatztext <bef> für einen Befehl dargestellt.
-
Unter
Verwendung der Befehlsnummer BI12 gibt die zweite Kennzeichnungsstufe 17 diese
Wortabfolge TS4 + TS5 als Befehlskennzeichnungsinformation CMI in
die fünfte
Zeile der Kennzeichnungstabelle MI ein. Wenn in der Spracherkennungsvorrichtung 2 der
Anpassungsmodus aktiviert ist, liest die Anpassungsstufe 11 die
neue Befehlskennzeichnungsinformation CMI aus dem Speichermittel 8 und nimmt
sie für
den Befehl, der die Befehlsnummer BI12 aufweist, einen weiteren
Eintrag in der Befehlstabelle BT vor.
-
Dies
ergibt den Vorteil, dass der Korrektor weitere Wortabfolgen mit
besonderer Leichtigkeit und Leistungsfähigkeit als Befehle definieren
kann, welche Wortabfolgen durch die Spracherkennungsvorrichtung 2 im
Anpassungsmodus übernommen
werden. Wenn der Spracherkennungsvorgang das nächste Mal durchgeführt wird,
wird die Wortabfolge "nächstes fett" somit automatisch
als ein Befehl erkannt werden.
-
Mittels
der Tastatur 15 und der zweiten Kennzeichnungsstufe 17 geht
der Korrektor nun dazu über,
den Textabschnitt TS6 "nein" als gelöschten Text
zu kennzeichnen, da er festgestellt hat, dass der Verfasser dieses
Wort unbeabsichtigt gesagt hat, und dass es nicht im endgültigen Text,
der dem Verfasser übermittelt
wird, enthalten sein soll. In 7 ist für diesen
gelöschten
Text der Ersatztext <überspringen> gezeigt.
-
Es
kann erwähnt
werden, dass der Korrektor auch die Textabschnitte TS4 bis TS6 als
gelöschten Text
kennzeichnen könnte,
da der Befehl, die die Befehlsnummer BI12 aufweist, nicht zweimal
vorkommen sollte.
-
Das
manuelle Markieren des Textabschnitts TS6 als gelöschter Text
ergibt den Vorteil, dass die durch die Anschlussinformation LI bereitgestellte Korrelation
sogar während
eines anschließenden Synchronwiedergabemodus,
der zum Beispiel mit der zweiten Korrekturvorrichtung 4 durchgeführt wird, vollständig bewahrt
werden wird und die Synchronwiedergabe ohne jegliche Fehler stattfinden
wird.
-
8 zeigt
den erkannten Text "...
Firma PHILIPS ..." der
beim ersten Beispiel schließlich
dem Verfasser übermittelt
wird, welcher Text trotz zögernder
Laute, eines unbeabsichtigt gesprochenen Worts und eines falschen
Befehls das ist, was der Verfasser wirklich meinte.
-
Beim
zweiten Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 sprechen
möchte, "... ich reparierte
das linke Bein ...",
doch in diesem Fall denkt er nach dem Audioabschnitt AS20 nach und
ist er drei Sekunden lang still, was durch die erste Kennzeichnungsstufe 12 automatisch
als eine Pause erkannt wird und als Pausenkennzeichnungsinformation
PMI in die Kennzeichnungstabelle MT eingegeben wird. In 6 ist
der Ersatztext <still> für diese Nachdenkpause gezeigt.
-
Im
Anschluss an die Pause wiederholt der Verfasser das Wort "ich", was durch die erste
Kennzeichnungsstufe 12 automatisch als ein wiederholtes Wort
erkannt wird und als Wiederholungskennzeichnungsinformation RMI
in die Kennzeichnungstabelle MT eingegeben wird. In 6 ist
der Ersatztext <wied> für den Textabschnitt TS22 gezeigt.
-
Im
Anschluss an das wiederholte Wort sagt der Verfasser "reparierte das linke", macht dann eine weitere
Nachdenkpause, und sagt schließlich "das linke Bein". Die Nachdenkpause
wird erneut automatisch durch die erste Kennzeichnungsstufe 12 gekennzeichnet,
doch die Wiederholung der Worte "das linke" konnte nicht automatisch
erkannt und gekennzeichnet werden. Der Korrektor kennzeichnet nun
die Textabschnitte TS26 bis TS28 manuell als wiederholte Worte,
wodurch verursacht wird, dass eine entsprechende Wiederholungskennzeichnungsinformation
RMI in die Kennzeichnungstabelle MT eingegeben wird.
-
8 zeigt
den erkannten Text "...
das linke Bein ...",
der beim zweiten Beispiel schließlich dem Verfasser übermittelt
wird und trotz wiederholter Worte und Nachdenkpausen das ist, was
der Verfasser wirklich meinte. Als Ergebnis der manuellen Kennzeichnung,
die zusätzlich
zur automatischen Kennzeichnung durchgeführt wurde, sind alle wiederholten
Worte im erkannten Text gekennzeichnet und könnten durch eine weitere Verarbeitung
zum Beispiel alle an der Anzeige unterdrückt oder für den Anpassungsmodus verwendet
werden.
-
Beim
dritten Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 sprechen
möchte, "... und die Firma
PHILIPS wird ...",
doch muss er nach dem Wort "und" niesen. Der Audioabschnitt
AS51 enthält
daher ein Geräusch,
das der Autor von sich gibt, wenn er niest. Das Spracherkennungsmittel 7 ist nicht
fähig,
für diesen
Audioabschnitt AS51 ein Wort zu erkennen, weshalb die erste Kennzeichnungsstufe 12 diesen
Audioabschnitt AS51 mit der Geräuschkennzeichnungsinformation
GMI automatisch als Geräusch
kennzeichnet und ihn als solches in die Kennzeichnungstabelle MT
eingibt. In 6 ist der Ersatztext <nicht gespr> gezeigt.
-
Im
Anschluss an das Niesen braucht der Verfasser fünf Sekunden, um sein Taschentuch
zu finden, und putzt sich dann die Nase. Der Audioabschnitt AS52
wird wiederum automatisch als eine Pause gekennzeichnet und als
solche in die Kennzeichnungstabelle MT eingegeben. Das Geräusch, das
der Verfasser von sich gibt, wenn er sich die Nase putzt, ist dem
Geräusch "tata" ähnlich, weshalb das Spracherkennungsmittel 7 fälschlich
das Wort "dass" als Textabschnitt
TS53 erkennt.
-
Vorteilhafter
Weise ist der Korrektor, der diesen Fehler sofort bemerkt, wenn
der Synchronwiedergabemodus aktiviert ist, fähig, den Textabschnitt TS53
mit der Geräuschkennzeichnungsinformation GMI
manuell als Geräusch
zu kennzeichnen. Dadurch wird der Vorteil erhalten, dass alle Geräusche im
erkannten Text ET beim dritten Beispiel tatsächlich als solche gekennzeichnet
sind und während
weitere Verarbeitungsstufen alle auf die gleiche Weise verarbeitet
werden können.
Der Geräuschdetektor
der ersten Kennzeichnungsstufe 12 kann zum Beispiel mit
diesen gekennzeichneten Teilen des Texts so angepasst werden, dass
derartige Geräusche
in der Zukunft automatisch erkannt werden können.
-
Beim
vierten Beispiel möchte
der Verfasser einen Standardtext, der unter der Bezeichnung "Modul 1" als Textmodul in
der Befehlsspeicherstufe 10 gespeichert ist, in den erkannten
Text ET einsetzen, während
er tatsächlich
diktiert. Zu diesem Zweck diktiert der Verfasser "... ist am besten.
Füge Textmodul eins
ein. Alle ...".
Die Textabschnitte TS73 bis TS76, die erkannt werden, werden als
ein Befehl erkannt, der die Befehlsnummer BI13 aufweist, und in 6 ist
der Ersatztext <Modul
1> gezeigt.
-
Dies
ergibt den Vorteil, dass ein Textmodul automatisch auf eine besonders
einfache Weise in den erkannten Text ET eingesetzt wurde. Der Korrektor
oder Prüfer
kann in diesem Fall vorteilhafter Weise zwischen drei Arten der
Darstellung wählen.
Er kann den Text sehen, der ursprünglich erkannt worden war – Textabschnitte
TS73 bis TS76 – oder
den Ersatztext sehen, oder den von der Befehlsspeicherstufe 10 hinzugefügten Standardtext
sehen, der in 8 ersichtlich ist.
-
Beim
fünften
Beispiel lautet der Text, den der Verfasser in das Mikrophon 5 spricht, "... zehnter Oktober
Zweitausendundeins ...".
Die Wortabfolge, die die erste Kennzeichnungsstufe 12 automatisch
erkannt und als ein Datum gekennzeichnet haben würde, wäre "zehnter Oktober Zweitausendundeins" gewesen. Die Wortabfolge,
die gesprochen worden war, wurde jedoch nicht als ein Datum erkannt,
weshalb der Korrektor die Textabschnitte TS80 bis TS86 mit der Datumskennzeichnungsinformation
DMI als ein Datum kennzeichnet.
-
Dies
ergibt den Vorteil, dass das Format all jener Teile des Texts, die
im erkannten Texts automatisch oder manuell als Daten gekennzeichnet
wurden, in einem nachfolgenden Verarbeitungsvorgang auf eine besonders
einfache und vereinheitlichte Weise geändert werden kann. Dazu kann
der Korrektor zum Beispiel wählen,
dass alle Daten, die mit der Datenkennzeichnungsinformation DMI
gekennzeichnet sind, im Format "MM,TT,JJJJ" gezeigt werden sollen.
-
Nun
wird unter Bezugnahme auf 9 ein Beispiel
der Anwendung der ersten Korrekturvorrichtung 3 erklärt werden.
Es wird in diesem Beispiel angenommen, dass der Korrektor den Synchronwiedergabemodus
aktiviert, wonach der gesprochene Text GT und der erkannte Text
ET beginnend mit dem Audioabschnitt AS1 bzw. dem Textabschnitt TS1
zum ersten Mal gleichzeitig wiedergegeben werden. Dies ist symbolisch
durch den Pfeil P1 dargestellt. Der Korrektor hat das Wiedergabemittel 13 in
einer solchen Weise konfiguriert, dass während der ersten Wiedergabe
die Audioabschnitte für
jene Teile des Texts, die mit der Pausenkennzeichnungsinformation PMI,
der Information zur Kennzeichnung von zögernden Lauten HMI, und der
Geräuschkennzeichnungsinformation
GMI gekennzeichnet sind, nicht akustisch wiedergegeben werden. Dies
gestattet dem Korrektor, den gesprochenen Text GT besonders rasch
wiederzugeben und in der gleichen Zeit mehr erkannten Text ET zu
korrigieren.
-
Während der
Wiedergabe wird die Wiedergabekennzeichnungsinformation WMI in der
Kennzeichnungstabelle TM fortlaufend aktualisiert. In dem Augenblick,
in dem gerade der Audioabschnitt AS53 (der Verfasser putzt sich
die Nase) wiedergegeben wird und der Textabschnitt TS53 visuell
gekennzeichnet wird, sieht der Korrektor, dass das Wort "dass" nicht richtig erkannt
wurde. Die Position des Textcursors zu diesem Zeitpunkt ist in 9 symbolisch durch
P2 angegeben. Doch da sich der Korrektor nicht sicher ist, was wirklich
erkannt hätte
werden sollen, aktiviert er den Synchronwiedergabemodus beginnend
mit dem Audioabschnitt AS50 erneut. Dies ist in 9 symbolisch
durch den Pfeil P3 angegeben.
-
Das
Wiedergabemittel 13 erkennt nun aus der Wiedergabekennzeichnungsinformation
WMI, die in die vierte Zeile der Kennzeichnungstabelle TM eingegeben
wurde, dass die Audioabschnitte AS1 bis AS53 im Synchronwiedergabemodus
bereits einmal wiedergegeben worden sind, und gibt daher alle Audioabschnitte
AS50 bis AS53 akustisch wieder. Dies ist in 9 symbolisch
durch den Pfeil P4 angegeben. Erst beginnend mit der Wiedergabe
des Audioabschnitts AS54 – siehe
Pfeil P5 – werden
gekennzeichnete Texte (PMI, GMI, HMI) während der akustischen Wiedergabe
erneut unterdrückt
werden.
-
Dies
ergibt den Vorteil, dass alle Audioabschnitte des Diktats an jenen
Textstellen im Diktat wiedergegeben werden, an denen der Korrektor
alle verfügbaren
Kennzeichnungsinformationen benötigt, um
ihm eine richtige Korrektur des erkannten Texts ET zu ermöglichen.
An anderen Textstellen, die der Korrektur durch ihr einmaliges Hören korrigieren kann,
werden unnotwendige Audioabschnitte AS unterdrückt.
-
In
der gleichen Weise können
die Ersatztexte für
gekennzeichnete Teile des Texts vorteilhafter Weise dargestellt
werden, wenn der erkannte Text ET zum ersten Mal wiedergegeben wird,
und kann eine Umschaltung zum Text ET, der tatsächlich erkannt wurde, nur dann
vorgenommen werden, wenn die Wiedergabe wiederholt wird.
-
Die
automatische Kennzeichnung von Teilen des Texts, die im Synchronwiedergabemodus
bereits einmal wiedergegeben wurden, erbringt einen weiteren herausragenden
Vorteil. Es ist die Aufgabe des Prüfers, durch wahllose Abtastung
zu bestimmen, wie gut der Korrektor einen erkannten Text ET korrigiert
hat. Die Wiedergabekennzeichnungsinformation ist für den Prüfer in dieser
Hinsicht sehr hilfreich. Dies liegt daran, dass der Prüfer sofort
erkennen kann, welche Teile des Texts der Korrektor mit Hilfe des
Syn chronwiedergabemodus geprüft
hat, und welche Teile er übersprungen
und daher möglicherweise überhaupt
nicht geprüft
hat. Der Prüfer
kann daher eine besondere Prüfung
an Teilen des Texts vornehmen, die nicht mit der Wiedergabekennzeichnungsinformation
WMI gekennzeichnet sind, um festzustellen, ob im erkannten Text
ET irgendwelche Fehler vorhanden sind.
-
Die
Wiedergabekennzeichnungsinformation WMI ist auch von Vorteil, wenn
der Korrektor bei seiner Arbeit unterbrochen wurde und zu einem
späteren
Zeitpunkt damit fortfahren möchte.
Als Ergebnis der akustischen Kennzeichnung (z.B. einem Dauerton
als Hintergrund des gesprochenen Texts) oder der visuellen Kennzeichnung
(z.B. Zeigen des erkannten Texts in Umkehrzeichen) des Texts, der durch
die Wiedergabekennzeichnungsinformation WMI markiert ist, kann der
Korrektor sofort mit seiner Arbeit weitermachen.
-
Die
erste Korrekturvorrichtung 3 weist auch ein Positionierungsmittel 18 auf,
das bereitgestellt ist, um zu gestatten, dass der Textcursor, der
eine Texteingabeposition kennzeichnet, positioniert wird, wenn der
Synchronwiedergabemodus unterbrochen wird, um ein unrichtig erkanntes
Wort zu korrigieren, wobei das Positionierungsmittel 18 dazu
eingerichtet ist, den Textcursor N Worte stromaufwärts des
Worts zu positionieren, das im erkannten Text ET zur Zeit der Unterbrechung
des Synchronwiedergabemodus gekennzeichnet wird, wenn dieser Teil
des erkannten Texts bereits mit der Wiedergabekennzeichnungsinformation
WMI gekennzeichnet wurde, und das Positionierungsmittel 18 dazu
eingerichtet ist, den Textcursor M Worte stromaufwärts des
Worts zu positionieren, das im erkannten Text ET zur Zeit der Unterbrechung
des Synchronwiedergabemodus gekennzeichnet wird, wenn dieser Teil
des erkannten Texts ET nicht mit der Wiedergabekennzeichnungsinformation
WMI gekennzeichnet wurde.
-
Die
definierten Zahlen könnten,
zum Beispiel, M = 3 und N = 1 sein, was dazu führt, dass die längere Reaktionszeit
des Korrektors, wenn ein unrichtig erkanntes Wort im erkannten Text
zum ersten Mal gefunden wird, berücksichtigt würde. Diese
Vorkehrungen sind besonders vorteilhaft, da der Textcursor gewöhnlich bereits
auf dem unrichtig erkannten Wort positioniert ist, sobald der Synchronwiedergabemodus
unterbrochen wurde, und somit Zeit, die zum manuellen Positionieren
des Textcursors benötigt
wird, gespart werden kann. Dies wird Fachleuten viele andere Kombinationen
von vorteilhaften Werten für
M und N offensichtlich machen.
-
Es
wäre besonders
vorteilhaft, wenn das Positionierungsmittel 18 so eingerichtet
wäre, dass
es selbstlehrend ist. In diesem Fall würde das Positionierungsmittel 18 die
optimalen Werte für
N und M aus den Positionierungseingaben bestimmen, die durch den
Korrektor vorgenommen werden, nachdem der Synchronwiedegabemodus
unterbrochen wurde (z.B. Textcursor zwei Worte vorwärts oder
fünf Worte
zurück),
und würde
es sie fortlaufend an die Reaktionszeit des Benutzers anpassen.
-
Die
Anpassungsstufe 11 kann ebenfalls verwendet werden, um
die im Parameterspeichermittel 9 gespeicherten Parameterinformationen
PI anzupassen. Dies ergibt den Vorteil, dass die Erkennungsrate des
Spracherkennungsmittels 7 stetig verbessert wird und im
erkannten Text ET weniger Fehler enthalten sind.
-
Wie
aus den obigen Anwendungsbeispielen ersichtlich ist, können einzelne
Audioabschnitte oder Textabschnitte durch einen oder sogar mehrere Punkte
einer Kennzeichnungsinformation MI gekennzeichnet werden. Dies gestattet,
dass der erkannte Tast in einer vorteilhaften Weise auf sogenannten Ebenen
verarbeitet wird. Da dies der Fall ist, kann zum Beispiel ein zögernder
Laut, der in einem Befehl enthalten ist, auf die gleiche Weise wie
alle anderen Teile des erkannten Texts ET, die als zögernde Laute gekennzeichnet
sind, bearbeitet werden (z.B. unterdrückt werden, gelöscht werden,
der Ersatztext dargestellt werden, der erkannte Text dargestellt
werden). Dies beeinträchtigt
die Bearbeitung des Befehls, der den zögernden Laut enthält, nicht.
Wenn Teile des Texts mit mehreren Punkten einer Kennzeichnungsinformation
MI gekennzeichnet sind, wird es somit möglich, dass diese Ebenen optisch
dargestellt werden.
-
Es
kann erwähnt
werden, dass die automatische und die manuelle Kennzeichnung von
Texten nach der Erfindung mit einer Vielzahl von unterschiedlichen
Punkten einer Kennzeichnungsinformation MI ausgeführt werden
kann. Punkte der Kennzeichnungsinformation MI dieser Art können zum Beispiel
AutoInterpunktion, Stille, KeineSprache, Geräusche, Musik, Rechtschreibung,
Zögern,
Einsetzen, ZahlenFormatierung, DatumsFormatierung, KopfzeilenFormatierung,
AufzählungsFormatierung, MengenFormatierung,
SelbstKorrektur, PhrasenWiederholung, Stottern, Abschweifung, BuchstabierAbfolge, ÜberschüssigePhrase,
NichtVerstanden, Bemerkung, Streichung, Befehl sein.
-
Es
kann erwähnt
werden, dass die Kennzeichnung von Teilen des Texts nicht wie oben
erklärt durch
Tabellen durchgeführt
werden muss, sondern alternativ in Form einer Baumstruktur stattfinden kann.
In diesem Fall würden
gekennzeichnete Textab schnitte, die wiederum weitere gekennzeichnete Textabschnitte
enthalten, in einer Form, die einem Baum ähnlich ist, an Ästen gezeigt
werden.
-
Es
kann erwähnt
werden, dass die automatische Kennzeichnung statt später sogar
stattfinden kann, während
der Spracherkennungsvorgang durchgeführt wird.
-
Es
kann erwähnt
werden, dass zum Beispiel alle Teile des Texts, die durch das Spracherkennungsmittel 7 nur
mit Schwierigkeiten – d.h.,
wahrscheinlich mit einer großen
Anzahl von Fehlern bei der Erkennung -erkannt werden, durch die
erste Kennzeichnungsstufe 12 automatisch gekennzeichnet
werden können,
und alle Teile des Texts, die durch den Korrektor im Synchronwiedergabemodus als
schwierig erkannt werden, manuell gekennzeichnet werden können, um
den Prüfer
oder den Verfasser des gesprochenen Texts zu Prüfzwecken auf diese gekennzeichneten
Teile des Texts aufmerksam zu machen. Dies ist eine besonders vorteilhafte
Weise, um Informationen im Zusammenhang mit dem erkannten Text weiterzugeben.
-
Legende der Zeichnungen
-
3
-
- COMMAND Befehl
- TEXT MODULE Textmodul
- next word bold nächstes
Wort fett
- bold fett
- insert text module 1 füge
Textmodul 1 ein
- insert memory position 2341 füge Speicherposition 2341 ein
- The patient is ... not now Der Patient wird... nicht jetzt.
-
5
-
- "...
company ahhhh bold next no next word bold PHILIPS ..."
"... Firma ahhh nächstes fett
nein nächstes
Wort fett PHILIPS ..."
- "... I --- fixed
the left --- the left leg ..."
"... ich --- reparierte
das linke --- das linke Bein ..."
- "... and person
sneezes --- tatat company PHILIPS will ..."
"... und Person niest tatat Firma PHILIPS
wird ..."
- "... is the
best. Insert text module one. All ..."
"... ist am besten. Füge Textmodul eins ein. Alle
..."
- "... tenth of
October two thousand and one ..."
"... zehnter Oktober
Zweitausendundeins..."
-
6
-
- "...
company <hes> next bold no <com> PHILIPS ..."
"... Firma <zög> nächstes fett nein <bef> PHILIPS ..."
- "... I <sil> <rep> fixed
the left <sil> the left leg ..."
"... ich <still> <wied> reparierte
das linke <still> das linke Bein ..."
- "... and <non sp> <sil> that
company PHILIPS will ..."
"... und <nicht gespr> <still> dass
die Firma PHILIPS wird ..."
- "... ist the
best. <module 1>. All ..."
"... ist am besten. <Modul 1>. Alle ..."
- "... tenth of
October two thousand and one ..."
"... zehnter Oktober
Zweitausendundeins ..."
-
7
-
- "...
company <hes> <com> <skip> >com> PHILIPS ..."
"... Firma <zög> <bef> <überspringen> <bef> PHILIPS ..."
- "... I <rep> fixed the left <rep> leg ..."
"... ich <wied> reparierte das linke <wied> Bein ..."
- "... and <non sp> <sil> <non sp> company PHILIPS will
..."
"... und <nicht gespr> <still> <nicht gespr> die Firma PHILIPS
wird ..."
- "... is the
best. <module 1>. All ...!
"... ist am besten. <Modul 1>. Alle ..."
- "... <date> Oct. 10th,
2001 ..."
"... <Datum> 10. Oktober 2001
-
8
-
- "...
company PHILIPS ..."
"... Firma PHILIPS
..."
- "... the left
leg ..."
"... das linke Bein
..."
- "... and company
PHILIPS will ..."
"... und die Firma
PHILIPS wird ..."
- "... is the
best. The patient ist ... not now. All ..."
"... ist am besten. Der Patient wird
... nicht jetzt. Alle ..."
- "... Oct. 10th, 2001 ..."
"... 10. Oktober 2001 ..."