-
Die
Erfindung bezieht sich auf ein Verfahren zum Transkribieren von
Diktaten, wobei eine Diktatdatei in eine Textdatei umgewandelt wird.
-
Die
Erfindung bezieht sich weiterhin auf ein Transkriptionssystem zum
Transkribieren von Diktaten mit Mitteln zum Umwandeln einer Diktatdatei
in eine Textdatei.
-
Durch
Transkriptionsdienste werden Diktate, welche auf verschiedene Weise
aufgenommen worden sind, in Textdateien umgewandelt bzw. transkribiert. Üblicherweise
werden automatische Spracherkennungssysteme zum Transkribieren von
Diktaten verwendet. Da die auf diese Weise erhaltenen Texte immer
zu einem gewissen Prozentsatz Fehler bzw. unpassende Textstellen
aufweisen, müssen
die transkribierten Diktate nach der Umwandlung kontrolliert und
in der Textdatei enthaltene Fehler korrigiert werden. Üblicherweise
erfolgt dieses Korrigieren durch ein Vergleichen der Textdatei mit
der Diktatdatei durch Korrekturarbeitskräfte, welche die Diktatdatei abspielen
und parallel dazu die Textdatei kontrollieren. Im Falle einer von
der Korrekturarbeitskraft erkannten fehlerhaften oder ungeeigneten
Transkription bzw. Textstelle wird die fehlerhafte oder ungeeignete
Textstelle durch eine andere Textstelle ersetzt. Dieses Korrigieren
ist sehr zeitaufwendig und erhöht somit
die Kosten für
die Transkription deutlich. Da eine fehlerlose Transkription praktisch
nie erreicht werden wird, kann auf dieses nachträgliche Korrigieren nicht verzichtet
werden. Es ist daher ein Bestreben, das an eine Transkription anschließende Korrigieren
möglichst
rasch und effizient zu gestalten.
-
In
dem Patentdokument
US 5 712 957 ist
ein Verfahren zum Korrigieren von transkribierten Diktaten offenbart,
bei dem der transkribierte Text sowie mögliche Hypothesen, das sind
alternative Textstellen, angeboten und auf zwei verschiedene Arten
bewertet werden. Das Transkriptionsergebnis wird durch Kombination
der beiden Bewertungen geliefert. Diese Methode verringert zwar
die Fehlerwahrscheinlichkeit in einem transkribierten Text, macht
jedoch eine anschließende
zeitaufwendige Kontrolle durch eine Korrekturarbeitskraft dennoch
notwendig.
-
In
dem Patentdokument
US 6 064 961 wird ein
Verfahren offenbart, um einen transkribierten Text zu seiner Kontrolle
in einem Fenster darzustellen, wobei der jeweils momentan zu überprüfende Textteil immer
an einer definierten zentrierten Stelle des Fensters dargestellt
wird. Dadurch wird das Korrekturlesen des transkribierten Textes
erleichtert und allenfalls geringfügig beschleunigt.
-
Das
Dokument „Word
and Phone Level Acoustic Confidence Scoring" ICASSP 2000, S. 1799–1802 von
Kamppari et al. offenbart eine Ausführungsform eines Verfahrens
zum Transkribieren von Diktaten, bei dem mit Hilfe eines Spracherkennungssystems
eine Diktatdatei in eine Textdatei mit Textstellen umgewandelt wird.
Es verwendet Verfahren zum Erweitern von Standard-Log-Likelihood-Verhältnis-Techniken
mit zusätzlichen
Informationen, um die Robustheit von akustischen Konfidenzresultaten für Worterkennungsaufgaben
zu verbessern. Diese Wortniveaukonfidenzresultate können als
Indikatoren für
die Korrektheit von Worthypothesen dienen. Der nächste Schritt ist, Konfidenzresultate
in eine Dialogkomponente des Spracherkennungssystems einzubauen.
Diese Resultate können
nützlich
sein, um dem Benutzer ein fundiertes Feedback über eventuelle Fehlerkennung
geben, der das System unterlegen haben kann.
-
Aufgabe
der Erfindung ist es, ein Verfahren zum Transkribieren von Diktaten
durch Verbessern des zeitaufwendigen Korrekturverfahrens zu beschleunigen,
so dass das Transkriptionsergebnis, also der fertige Text, möglichst
rasch einem Autor des Diktats geliefert werden kann. Es sollte auch
möglich sein,
die Kosten für
die Transkription zu reduzieren.
-
Eine
weitere Aufgabe der Erfindung besteht in der Schaffung eines Transkriptionssystems
zum Transkribieren von Diktaten, welches eine möglichst rasche und effiziente
Transkription ermöglicht,
so dass der fertige Text möglichst
rasch und fehlerfrei beim Autor des Diktats eintreffen kann.
-
Die
erfindungsgemäße Aufgabe
wird in Bezug auf das Verfahren dadurch gelöst, dass zu den umgewandelten
oder transkribierten Textstellen Informationen über ihre Zuverlässigkeit
generiert werden und ein Konfidenzwert für die jeweilige Textstelle generiert
wird und ein Vergleichen der Textdatei mit der Diktatdatei lediglich
bei jenen Textstellen erfolgt, bei denen der Konfidenzwert unter
einem Konfidenzgrenzwert liegt, also möglicherweise fehlerhaft erkannte
Textstellen vorliegen und wobei die Diktatdatei mit Hilfe einer
Spracherkennungseinrichtung automatisch in eine Textdatei umgewandelt
wird und wobei vorgesehen wird, dass während eines Korrekturvorgangs
die Wiedergabege schwindigkeit für
ein Diktat beim Vergleichen der Textdatei mit der Diktatdatei in
Abhängigkeit
von dem Konfidenzwert der betreffenden transkribierten Textstelle
geändert
wird. Unter der Voraussetzung einer möglichst guten Konfidenzwertermittlung
für die
transkribierten Textstellen kann durch dieses Verfahren enorme Zeit
beim Korrigieren des transkribierten Textes eingespart werden. Erfahrungsgemäß müssen bei
Anwendung des erfindungsgemäßen Verfahrens
nur 10%–20%
eines Diktats von einer Korrekturarbeitskraft abgehört werden. Die
Abhängigkeit
kann entsprechend der Markierung der als möglicherweise fehlerhaft erkannten
Teststelle mehrstufig sein. Beispielsweise wird bei einer als sehr
wahrscheinlich fehlerhaft erkannten Teststelle die Wiedergabegeschwindigkeit
deutlich verringert, während
sie bei einer als weniger wahrscheinlich fehlerhaft erkannten Teststelle
erhöht
wird. Bei fehlerfreien Textstellen kann die Wiedergabegeschwindigkeit
für ein
Diktat bis auf ein festgelegtes Maximum erhöht werden. Beispielsweise kann
die Wiedergabegeschwindigkeit zwischen 50% und 200% einer normalen
Wiedergabegeschwindigkeit variiert werden.
-
Zusätzlich ist
es von Vorteil, wenn die als möglicherweise
fehlerhaft erkannten Textstellen markiert werden. Dies kann beispielsweise
durch ein Unterstreichen der betreffenden Textstellen oder durch farbliches
Hervorheben geschehen.
-
Wenn
der Konfidenzgrenzwert vorteilhafterweise eingestellt werden kann,
ist es möglich,
eine weitere Effizienzsteigerung zu erreichen.
-
Zur
Verbesserung des Endergebnisses ist es möglich, das Vergleichen der
Textdatei mit der Diktatdatei zu wiederholen, und zwar mit einem
vergrößerten Konfidenzgrenzwert,
so dass nur Textstellen mit hoher Fehlerwahrscheinlichkeit erkannt
werden und nur für
diese Fehler eine Korrektur durchgeführt wird. Zwar wird durch einen
zweiten Vergleichsvorgang die Gesamtzeit für die Transkription erhöht, aber
dies kann für
bestimmte Anwendungen sehr vorteilhaft oder sogar vorgeschrieben
sein.
-
Gelöst wird
die erfindungsgemäße Aufgabe auch
durch ein Transkriptionssystem zum Transkribieren von Diktaten mit
Umwandlungsmitteln zum Umwandeln einer Diktatdatei in eine Textdatei
mit Textstellen und mit Dateivergleichsmitteln zum Vergleichen der
Textdatei mit der Diktatdatei, und mit Konfidenzwert-Erzeugungsmitteln,
mit deren Hilfe zu jeder umgewandelten Textstelle ein Konfidenzwert generiert
werden kann, und mit Vergleichsmitteln zum Vergleichen des Konfidenzwertes
mit einem Konfidenzgrenzwert, wobei die Dateivergleichsmittel das
Vergleichen der Textdatei mit der Diktatdatei lediglich bei jenen
Textstellen durchführen,
bei denen der Konfidenzwert unter einem Kon fidenzgrenzwert liegt,
also möglicherweise
fehlerhaft erkannte Textstellen vorliegen und wobei die Umwandlungsmittel zum
Umwandeln der Diktatdatei in eine Textdatei durch eine Spracherkennungseinrichtung
gebildet sind, und mit einer Einrichtung zum Ändern der Wiedergabegeschwindigkeit
für eine
Diktatdatei in Abhängigkeit
von als möglicherweise
fehlerhaft erkannten Textstellen. Die Änderung der Wiedergabegeschwindigkeit
kann zwischen zwei festen Werten oder zwischen mehreren Werten in
Abhängigkeit
von dem Vergleichsergebnis des Konfidenzwertes der jeweiligen transkribierten
Textstelle mit dem Konfidenzgrenzwert erfolgen.
-
Dabei
sind vorteilhafterweise Markiermittel zum Markieren der als möglicherweise
fehlerhaft erkannten Textstellen vorgesehen. Dieses Markieren kann
in Abhängigkeit
von einem Konfidenzwert erfolgen, welcher einer erkannten Textstelle
beim Transkribieren zugeordnet wird. Eine Markierung kann beispielsweise
zum Hervorheben der als möglicherweise
fehlerhaft erkannten Textstelle, bei welcher der Konfidenzwert unter
einem Konfidenzgrenzwert liegt, verwendet werden.
-
Vorteilhafterweise
sind Mittel zum Eingeben des Konfidenzgrenzwertes und somit zu dessen Änderung
vorgesehen, mit welchen Mitteln gleichfalls eine Anpassung des Konfidenzwertes
der jeweiligen Textstelle an die jeweiligen Erfordernisse bzw. gemäß den Erfahrungen
einer Korrekturarbeitskraft erfolgen kann. Weiterhin kann ein weiterer
Korrekturdurchlauf mit verändertem
Konfidenzgrenzwert vorgesehen werden.
-
Um
dem Autor eines Diktats die Endkorrektur zu erleichtern, können Mittel
zum Gewichten der als möglicherweise
fehlerhaft erkannten Textstellen des transkribierten Textes, bei
welchem mögliche
Fehler oder Ungereimtheiten festgestellt wurden, vorgesehen sein.
Diese Mittel können
auch vom Autor des Diktats bei der Endkorrektur verwendet werden,
um der Korrekturarbeitskraft anzuzeigen, welche Textstellen auch
nach der Korrektur fehlerhaft waren, wodurch eine für den Transkriptionsprozess
wichtige Information gewonnen werden kann.
-
Die
Erfindung wird im Folgenden anhand von in den Zeichnungen dargestellten
bevorzugten Ausführungsbeispielen
näher beschrieben,
auf die die Erfindung aber nicht beschränkt ist.
-
1 zeigt
ein Blockschaltbild eines herkömmlichen
Transkriptionssystems.
-
2 zeigt
ein Ablaufdiagramm, das beim Korrigieren einer Textdatei mit möglicherweise
fehlerhaften Textstellen abgearbeitet wird.
-
3 zeigt
ein Ablaufdiagramm eines herkömmlichen
Verfahrens zum Korrigieren eines transkribierten Textes.
-
4 zeigt
zwei Varianten eines erfindungsgemäßen Verfahrens zum Korrigieren
eines transkribierten Textes.
-
5 zeigt
schematisch ein Verfahren zum Ändern
eines Konfidenzgrenzwertes bei einem erfindungsgemäßen Verfahren.
-
6 zeigt
ein Blockschaltbild eines Teils eines Transkriptionssystems gemäß der Erfindung.
-
In 1 ist
schematisch ein Blockschaltbild eines Transkriptionssystems T dargestellt,
bei dem ein Autor A ein Diktat spricht, das entweder in einem Diktiergerät 1 oder
in einem Personalcomputer 2 oder in einem tragbaren Computer 3 gespeichert wird.
Ebenso ist es möglich,
dass der Autor A das Diktat in ein Telefon 4 spricht, wonach
das Diktat beispielsweise in einem Zentralrechner gespeichert wird.
Das Diktiergerät 1 liefert
eine Diktatdatei 5, welche ein digitalisiertes Sprachsignal
enthält.
Ein geeignetes Format für
eine solche Datei, die ein digitalisiertes Sprachsignal enthält, ist
beispielsweise eine WAV-Datei.
Ebenso liefert der Personalcomputer 2 oder der tragbare
Computer 3 oder ein über
das Telefon 4 angesprochener Zentralrechner die entsprechende
Diktatdatei 5, welche das digitale Sprachsignal enthält. Die
Diktatdatei 5 oder auch ein Sprachsignal 6 werden üblicherweise
einer Spracherkennungseinrichtung 7 zugeführt, in
der eine automatische Umwandlung der Diktatdatei 5 bzw.
des Sprachsignals 6 in eine Textdatei 8 erfolgt.
Bei der Spracherkennung greift die Spracherkennungseinrichtung 7 auf
eine Informations-Datenbank 9 zu, in der eine Vielzahl
von möglichen
Wörtern,
die erkannt werden könnten,
enthalten sind. Dabei kann beispielsweise ein Stimmprofil und ein
Satzaufbau für
bestimmte Einsatzgebiete (beispielsweise aus dem medizinischen Bereich)
berücksichtigt
werden. Naturgemäß enthält die Textdatei 8 eine
gewisse Anzahl von fehlerhaften oder ungeeigneten Textstellen, welche
anschließend
korrigiert werden müssen.
Zu diesem Zweck wird die Textdatei 8 in hierfür vorgesehenen Dateivergleichsmittel 10 übertragen,
die im Folgenden auch als Korrektureinrichtung bezeichnet werden
kann. In der Korrektureinrichtung 10 wird die Textdatei 8 mit
der Diktatdatei 5 verglichen, und zwar üblicherweise durch eine Korrekturarbeitskraft,
wobei das akustische Signal des Autors A abgespielt bzw. wiedergege ben
wird und mit dem auf einem Bildschirm oder einer anderen Anzeigeeinrichtung
angezeigten Text der Textdatei 8 verglichen wird. Dieser Korrekturvorgang
erfordert naturgemäß besonders viel
Zeit und nimmt einen Großteil
der Gesamtbearbeitungszeit ein. Oftmals wird der Korrekturvorgang zumindest
ein weiteres Mal wiederholt.
-
3 zeigt
ein Ablaufdiagramm 400 eines herkömmlichen Verfahrenablaufes
zum Korrigieren eines transkribierten Textes. Oberhalb eines Ausschnitts
des Sprachsignals 6 der Diktatdatei 5 sind fünf Textstellen
W(n-3), W(n-2), W(n-1), W(n) und W(n+1) der Textdatei 8 dargestellt.
Entsprechend einem Block 408 des Ablaufdiagramms 400 wird
der Beginn des Sprachsignals 6 bzw. der Diktatdatei 5 gesucht
und mit der Wiedergabe der Diktatdatei 5 bzw. des Sprachsignals 6 und
einer synchronen Darstellung der Textdatei 8 beispielsweise
auf einem Bildschirm begonnen. Entsprechend Block 409 wird zur
Unterstützung
der Orientierung der Korrekturarbeitskraft beispielsweise ein Cursor
oder dergleichen im Text der Textdatei 8 entsprechend der
Position im Sprachsignal 6 mitgeführt oder die momentane Position
im Text durch entsprechendes Markieren der jeweiligen Textstelle
W(n) und allenfalls der vorangehenden Textstelle W(n-1) und nachfolgenden
Textstelle W(n+1) durchgeführt.
Entsprechend einem Block 410 werden die aktuellen Textstellen
beispielsweise durch Unterstreichen oder Ändern der Farbgebung der Textstellen
hervorgehoben. Die Korrekturarbeitskraft liest den dargestellten
Text der Textdatei 8 und hört gleichzeitig das Sprachsignal 6 und
korrigiert Textstellen, welche ihres Erachtens nach fehlerhaft oder
ungeeignet sind. Das Korrigieren erfolgt beispielsweise durch Überschreiben
einer als fehlerhaft markierten Textstelle W(n) mit einem richtigen oder
geeigneteren Text bzw. einem Textabschnitt.
-
Anschließend an
den Korrekturvorgang kann ein korrigierter Text 11 einer
Einrichtung 12 zur Qualitätskontrolle zugeführt werden.
Dieser Schritt der Qualitätskontrolle
erfolgt üblicherweise
ebenfalls durch eine Korrekturarbeitskraft, welche die Diktatdatei 5 mit
dem korrigierten Text 11 vergleicht. Schließlich wird
entsprechend einem Block 14 der 1 eine kontrollierte
Textdatei 13 dem Autor A zur Durchsicht übermittelt.
Diese Übermittlung
erfolgt beispielsweise durch Übersenden
der korrigierten und kontrollierten Textdatei 13 via E-Mail.
Nachdem der Autor A den Text kontrolliert hat, sendet er eine entsprechende
Meldung an die Transkriptionsstelle, worauf die Transkription beispielsweise
durch Erstellung der Rechnung abgeschlossen wird.
-
Bei
derartigen Transkriptionsverfahren ist es wichtig, die Zeitspanne
zwischen dem Aufnehmen eines Diktats durch den Autor A bis zum Erhalt
des fertigen Textes durch den Autor A entsprechend Block 14 gering
zu halten. Ein Großteil
dieser Zeitspanne wird bei automatischen Spracherkennungssystemen durch
die Korrektur und eine Qualitätskontrolle
eingenommen. Es ist daher ein vorrangiges Ziel, diese Zeitspanne
zu reduzieren und somit den gesamten Transkriptionsvorgang deutlich
zu verkürzen
und als Folge davon auch die Kosten für die Transkription gering
zu halten.
-
In 6 ist
ein Blockschaltbild eines für
die Erfindung maßgeblichen
Teiles eines Transkriptionssystems T dargestellt. Dabei wird die
Diktatdatei 5 der Spracherkennungseinrichtung 7 zugeführt und
in die Textdatei 8 umgewandelt, wie dies bereits im Zusammenhang
mit der 1 beschrieben worden ist. Die
Spracherkennungseinrichtung 7 weist Konfidenzwert-Erzeugungsmittel 25 auf,
die zum Generieren eines Konfidenzwertes zu einer umgewandelten Textstelle
W(n) ausgebildet sind. Das Generieren solcher Konfidenzwerte ist
in Fachkreisen bekannt und beispielsweise in A. Wendemuth, G. Rose,
J. G. A. Dalting: Advances in Confidence Measures for Large Vocabulary;
Int. Conf. on Acoustic Speech and Signal Processing 1999, behandelt.
-
Die
von den Konfidenzwert-Erzeugungsmitteln 25 gelieferten
Konfidenzwerte können
in einem Konfidenzwertebereich von Null (0) bis Eintausend (1000)
liegen, wobei ein Konfidenzwert von Eintausend (1000) bedeutet,
dass die Textstelle W(n) mit 99,99%iger Sicherheit richtig erkannt
bzw. transkribiert wurde. Es kann erwähnt werden, dass der Konfidenzwertebereich
gleichfalls durch einen anderen Zahlenbereich dargestellt werden
kann beispielsweise von null (0) bis Hundert (100).
-
Die
erhaltene Textdatei 8 wird der der Spracherkennungseinrichtung 7 nachgeschalteten
Korrektureinrichtung 10 zugeführt, die zum Darstellen der
Textdatei 8 und Wiedergeben der Diktatdatei 5 sowie
zum Erkennen und Markieren von möglicherweise
fehlerhaften Textstellen W(n) ausgebildet ist. An die Korrektureinrichtung 10 angeschlossen
sind eine Anzeigeeinrichtung 20, die zum Anzeigen bzw. zum
Darstellen der Textdatei 8 ausgebildet ist, und Eingabemittel 19,
die auch zum manuellen Ändern
eines Konfidenzwertes ausgebildet sind. Die Korrektureinrichtung 10 weist
Gewichtungsmittel 21 auf, die zum manuellen Gewichten der
Textstellen W(n) der Textdatei 8 vorgesehen und ausgebildet
sind. Die Korrektureinrichtung 10 weist weiterhin eine
Einrichtung 22 auf, die zum Ändern einer Wiedergabegeschwindigkeit
von Textstellen W(n) der Textdatei 8 ausgebildet ist. Des
weiteren sind in der Korrektureinrichtung 10 Markiermittel 23 enthalten,
die zum Markieren der Textstellen W(n) ausgebildet sind, und sind Vergleichsmittel 24 enthalten,
die zum Vergleichen des Konfidenzwertes mit einem Konfidenzgrenzwert ausgebildet
sind.
-
2 zeigt
ein Ablaufdiagramm 300 eines Verfahrens, das in der Korrektureinrichtung 10 des Transkriptionssystems
T gemäß der Erfindung
abläuft.
Dabei wird entsprechend einem Block 301 die Diktatdatei,
beispielsweise eine WAV-Datei, geöffnet und entsprechend einem
Block 302 der Konfidenzwert bzw. die Konfidenzinformation
in der Anzeigeeinrichtung 20, bei der es sich beispielsweise
um einen Bildschirm handeln kann, wiedergegeben. Das Darstellen
der Konfidenzinformation bzw. das Markieren der Textstellen erfolgt
entsprechend 6 in den Markiermitteln 23 und
kann auf verschiedene Arten erfolgen, beispielsweise durch Ändern der
Farbe des auf dem Bildschirm dargestellten Textes, also durch Einfärben der
Textstelle W(n) entsprechend dem zugehörigen Konfidenzwert oder durch
Einfärben
des Hintergrundes der Textstelle W(n) entsprechend dem zugehörigen Konfidenzwert.
Dabei kann beispielsweise die Farbe für die farbliche Darstellung der
Textstelle W(n) aus einem linearen Farbverlauf von einer Farbe Rot
für einen
minimalen Konfidenzwert bis zu einer Farbe Grün für einen maximalen Konfidenzwert
ermittelt werden. Es kann erwähnt werden,
dass das Markieren der Textstelle W(n) auch indirekt erfolgen kann,
indem die farbliche Darstellung aller anderen Textstellen gegenüber der
zu markierenden Textstelle W(n) geändert wird. Entsprechend einem
Block 303 wird vom Benutzer, beispielsweise der Korrekturarbeitskraft,
ein Konfidenzgrenzwert CG gewählt
und entsprechend Block 304 die Überprüfung des Textes auf mögliche Fehler
durchgeführt.
Der Konfidenzgrenzwert CG kann beispielsweise bei 80% oder 90% eines
maximalen Konfidenzwertbereiches liegen. Dementsprechend erfolgt für jede Textstelle
W(n) eine Abfrage bei einem Block 305, ob die Differenz
des Konfidenzwertes C(n) kleiner, gleich oder größer als der Konfidenzgrenzwert CG
ist. Im Falle des Überschreitens
des Konfidenzgrenzwertes CG wird entsprechend einem Block 306 keine
Markierung der ausgewählten
Textstelle W(n) als möglicherweise
fehlerhaft vorgenommen. Wird der Konfidenzgrenzwert CG unterschritten
oder ist er gleich, wird die entsprechende Textstelle W(n) als möglicherweise
fehlerhaft markiert. Mit Hilfe der gemäß diesem Ablaufdiagram 300 erkannten
Fehler in der Textdatei 8 kann eine effizientere und wesentlich raschere
Korrektur des transkribierten Textes bzw. der Textdatei 8 erfolgen.
Die Korrektur erfolgt nämlich so,
dass beim Vergleichen der Textdatei 8 mit der Diktatdatei 5 während des
Korrekturablaufes lediglich zu den als möglicherweise fehlerhaft erkannten Textstellen
gesprungen wird und lediglich die als möglicherweise fehlerhaft erkannten
Textstellen von der Korrekturarbeitskraft ausgebessert werden müssen. Auf
diese Weise kann erhebliche Zeit eingespart werden, da nicht die
komplette Diktatdatei 5 durch die Korrekturarbeitskraft
angehört werden
muss. Der Korrekturablauf kann beispielsweise so erfolgen, dass
die Wiedergabegeschwindigkeit für
das Diktat bzw. die Diktatdatei 5 in Abhängigkeit
von den als möglicherweise
fehlerhaft erkannten Textstellen geändert wird, wobei die Wiedergabegeschwindigkeit bei
nicht als fehlerhaft markierten Textstellen beispielsweise auf das
Doppelte erhöht
wird, wohingegen die Wiedergabegeschwindigkeit beim Wiedergeben
von möglicherweise
fehlerhaften Textstellen reduziert wird.
-
In 4 sind
Ablaufdiagramme 500A und 500B von zwei Varianten
des erfindungsgemäßen Verfahrens
dargestellt. Wieder ist schematisch über dem Sprachsignal 6 eine
Folge von sechs aufeinanderfolgenden Textstellen W(n-3) bis W(n+2)
dargestellt. Im dargestellten Beispiel sind drei Textstellen, nämlich W(n-2),
W(n-1) sowie W(n+1) als möglicherweise
fehlerhaft erkannt und dementsprechend markiert worden, was durch
eine Schraffur gekennzeichnet ist.
-
Entsprechend
dem Ablaufdiagramm 500A wird gemäß einem Block 511 die
Textdatei 8 und parallel dazu die Diktatdatei 5 bzw.
das Sprachsignal 6 geöffnet
und wiedergegeben und entsprechend einem Block 512 der
transkribierte Text auf der Anzeigeeinrichtung 20, bei
der es sich hierbei um einen Monitor handeln kann, dargestellt.
Gemäß einem Block 513 werden
jene Textstellen, welche als nicht fehlerhaft eingestuft wurden,
bei der Wiedergabe des Sprachsignals 6 bzw. der Diktatdatei 5 übersprungen und
zum Beginn der nächsten
als fehlerhaft markierten Textstelle W(n) gesprungen und ab dort
bis zu einer nächsten
nachfolgenden, als nicht fehlerhaft markierten, Textstelle wiedergegeben.
Entsprechend einem Block 514 wird überprüft, ob das Ende der Diktatdatei 5 bzw.
der Textdatei 8 erreicht worden ist, wobei bei einem negativen
Ergebnis dieser Entscheidungsfrage bei dem Block 513 fortgesetzt
wird und bei einem positiven Ergebnis der Ablauf beendet wird.
-
Entsprechend
dem Ablaufdiagramm 500B werden zuerst gemäß einem
Block 520 das Sprachsignal 6 bzw. die Diktatdatei 5 sowie
die zugehörige Textdatei 8 synchron
dazu gestartet und entsprechend einem Block 521 die Wiedergabe
des Sprachsignals 6 bzw. der Diktatdatei 5 gestartet.
Gemäß einem
Block 522 wird überprüft, ob das
Ende der Textdatei 8 bzw. Diktatdatei 5 erreicht
ist, wobei bei einem positiven Ergebnis der Ablauf beendet wird.
Anderenfalls wird bei einem negativen Ergebnis der Überprüfung bei
dem Block 522 bei einem Block 523 geprüft, ob die
Textstelle W(n) als fehlerhaft markiert ist, wobei bei einem positiven
Ergebnis der Ablauf bei einem Block 524 fortgesetzt wird
und anderenfalls zu einem Block 525 verzweigt wird. Sowohl
gemäß dem Block 524 als
auch gemäß dem Block 525 wird
die Wiedergabegeschwindigkeit für
die Wiedergabe des Sprachsignals 6 und die Darstellung
der Textdatei 8 geändert.
Beispielsweise kann gemäß dem Block 525 die
Wiedergabegeschwindigkeit für
die als nicht fehlerhaft markierten Textstellen W(n-3), W(n) sowie W(n+2)
doppelt so hoch wie die normale Wiedergabegeschwindigkeit und gemäß Block 524 die
Wiedergabegeschwindigkeit für
die als möglicherweise
fehlerhaft erkannten und dementsprechend markierten Textstellen
W(n-2), W(n-1) und
W(n+1) halb so groß wie
die normale Wiedergabegeschwindigkeit gewählt werden.
-
5 zeigt
schematisch ein Verfahren, bei dem die Konfidenzwerte manuell geändert werden. Wieder
ist ein Teil einer Textdatei 8 in Form von sechs aufeinanderfolgenden
Textstellen W(n-3) bis W(n+2) dargestellt und der Verlauf der automatisch
erstellten Konfidenzwerte in einem Verlauf 15 skizziert.
Entsprechend dem Verlauf 15 haben die Textstellen W(n-2),
W(n) sowie W(n+2) einen niedrigeren Konfidenzwert als die übrigen Textstellen.
Wenn jetzt die Korrekturarbeitskraft manuell einen Beitrag zu den Konfidenzwerten
entsprechend einem Verlauf 16 leistet, kann eine Korrektur
des Konfidenzwertverlaufs erfolgen. Beispielsweise kann die Korrekturarbeitskraft
während
des Abspielens der Textdatei 8 mit den Eingabemitteln 19,
bei denen es sich beispielsweise um eine Tastatur handeln kann,
festhalten, dass die Textstellen W(n-2) sowie W(n) und W(n+2) wahrscheinlich
fehlerhaft sind. Entsprechend einem Verlauf 17 wird durch
Kombination eines automatisch ermittelten Konfidenzwertverlaufs 15 und
des manuellen Konfidenzwertbeitrags 16 ein resultierender Konfidenzwertverlauf
generiert und als Folge lediglich die Textstelle W(n) als möglicherweise
fehlerhaft eingestuft. Somit kann durch einen Beitrag erfahrener
Korrekturarbeitskräfte
eine erhebliche Reduktion der als möglicherweise fehlerhaft erkannten
oder eingestuften Textstellen erfolgen und somit Zeit bei der nachfolgenden
Korrektur gespart werden.
-
Das
erfindungsgemäße Verfahren
bzw. das erfindungsgemäße System
zum Transkribieren von Diktaten kann sowohl bei der herkömmlichen
Korrektur des transkribierten Textes als auch bei der Qualitätskontrolle
des transkribierten Textes eingesetzt werden. Erfahrungsgemäß sind Einsparungen
bis zu 90% der Zeit der Korrektur gegenüber herkömmlichen Korrekturmethoden,
bei denen das gesamte Diktat abgehört werden muss, erreichbar.