DE60211197T2

DE60211197T2 - Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte

Info

Publication number: DE60211197T2
Application number: DE60211197T
Authority: DE
Inventors: Kwaku Frimpong-Ansah
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2001-10-31
Filing date: 2002-10-24
Publication date: 2007-05-03
Anticipated expiration: 2022-10-25
Also published as: WO2003038808A1; US20030083885A1; CN1578976A; EP1442451A1; JP2005507536A; JP4145796B2; DE60211197D1; US7184956B2; ATE325413T1; CN1269105C; EP1442451B1

Description

Die Erfindung bezieht sich auf ein Verfahren zum Transkribieren von Diktaten, wobei eine Diktatdatei in eine Textdatei umgewandelt wird.
Die Erfindung bezieht sich weiterhin auf ein Transkriptionssystem zum Transkribieren von Diktaten mit Mitteln zum Umwandeln einer Diktatdatei in eine Textdatei.
Durch Transkriptionsdienste werden Diktate, welche auf verschiedene Weise aufgenommen worden sind, in Textdateien umgewandelt bzw. transkribiert. Üblicherweise werden automatische Spracherkennungssysteme zum Transkribieren von Diktaten verwendet. Da die auf diese Weise erhaltenen Texte immer zu einem gewissen Prozentsatz Fehler bzw. unpassende Textstellen aufweisen, müssen die transkribierten Diktate nach der Umwandlung kontrolliert und in der Textdatei enthaltene Fehler korrigiert werden. Üblicherweise erfolgt dieses Korrigieren durch ein Vergleichen der Textdatei mit der Diktatdatei durch Korrekturarbeitskräfte, welche die Diktatdatei abspielen und parallel dazu die Textdatei kontrollieren. Im Falle einer von der Korrekturarbeitskraft erkannten fehlerhaften oder ungeeigneten Transkription bzw. Textstelle wird die fehlerhafte oder ungeeignete Textstelle durch eine andere Textstelle ersetzt. Dieses Korrigieren ist sehr zeitaufwendig und erhöht somit die Kosten für die Transkription deutlich. Da eine fehlerlose Transkription praktisch nie erreicht werden wird, kann auf dieses nachträgliche Korrigieren nicht verzichtet werden. Es ist daher ein Bestreben, das an eine Transkription anschließende Korrigieren möglichst rasch und effizient zu gestalten.
In dem Patentdokument US 5 712 957 ist ein Verfahren zum Korrigieren von transkribierten Diktaten offenbart, bei dem der transkribierte Text sowie mögliche Hypothesen, das sind alternative Textstellen, angeboten und auf zwei verschiedene Arten bewertet werden. Das Transkriptionsergebnis wird durch Kombination der beiden Bewertungen geliefert. Diese Methode verringert zwar die Fehlerwahrscheinlichkeit in einem transkribierten Text, macht jedoch eine anschließende zeitaufwendige Kontrolle durch eine Korrekturarbeitskraft dennoch notwendig.
In dem Patentdokument US 6 064 961 wird ein Verfahren offenbart, um einen transkribierten Text zu seiner Kontrolle in einem Fenster darzustellen, wobei der jeweils momentan zu überprüfende Textteil immer an einer definierten zentrierten Stelle des Fensters dargestellt wird. Dadurch wird das Korrekturlesen des transkribierten Textes erleichtert und allenfalls geringfügig beschleunigt.
Das Dokument „Word and Phone Level Acoustic Confidence Scoring" ICASSP 2000, S. 1799–1802 von Kamppari et al. offenbart eine Ausführungsform eines Verfahrens zum Transkribieren von Diktaten, bei dem mit Hilfe eines Spracherkennungssystems eine Diktatdatei in eine Textdatei mit Textstellen umgewandelt wird. Es verwendet Verfahren zum Erweitern von Standard-Log-Likelihood-Verhältnis-Techniken mit zusätzlichen Informationen, um die Robustheit von akustischen Konfidenzresultaten für Worterkennungsaufgaben zu verbessern. Diese Wortniveaukonfidenzresultate können als Indikatoren für die Korrektheit von Worthypothesen dienen. Der nächste Schritt ist, Konfidenzresultate in eine Dialogkomponente des Spracherkennungssystems einzubauen. Diese Resultate können nützlich sein, um dem Benutzer ein fundiertes Feedback über eventuelle Fehlerkennung geben, der das System unterlegen haben kann.
Aufgabe der Erfindung ist es, ein Verfahren zum Transkribieren von Diktaten durch Verbessern des zeitaufwendigen Korrekturverfahrens zu beschleunigen, so dass das Transkriptionsergebnis, also der fertige Text, möglichst rasch einem Autor des Diktats geliefert werden kann. Es sollte auch möglich sein, die Kosten für die Transkription zu reduzieren.
Eine weitere Aufgabe der Erfindung besteht in der Schaffung eines Transkriptionssystems zum Transkribieren von Diktaten, welches eine möglichst rasche und effiziente Transkription ermöglicht, so dass der fertige Text möglichst rasch und fehlerfrei beim Autor des Diktats eintreffen kann.
Die erfindungsgemäße Aufgabe wird in Bezug auf das Verfahren dadurch gelöst, dass zu den umgewandelten oder transkribierten Textstellen Informationen über ihre Zuverlässigkeit generiert werden und ein Konfidenzwert für die jeweilige Textstelle generiert wird und ein Vergleichen der Textdatei mit der Diktatdatei lediglich bei jenen Textstellen erfolgt, bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, also möglicherweise fehlerhaft erkannte Textstellen vorliegen und wobei die Diktatdatei mit Hilfe einer Spracherkennungseinrichtung automatisch in eine Textdatei umgewandelt wird und wobei vorgesehen wird, dass während eines Korrekturvorgangs die Wiedergabege schwindigkeit für ein Diktat beim Vergleichen der Textdatei mit der Diktatdatei in Abhängigkeit von dem Konfidenzwert der betreffenden transkribierten Textstelle geändert wird. Unter der Voraussetzung einer möglichst guten Konfidenzwertermittlung für die transkribierten Textstellen kann durch dieses Verfahren enorme Zeit beim Korrigieren des transkribierten Textes eingespart werden. Erfahrungsgemäß müssen bei Anwendung des erfindungsgemäßen Verfahrens nur 10%–20% eines Diktats von einer Korrekturarbeitskraft abgehört werden. Die Abhängigkeit kann entsprechend der Markierung der als möglicherweise fehlerhaft erkannten Teststelle mehrstufig sein. Beispielsweise wird bei einer als sehr wahrscheinlich fehlerhaft erkannten Teststelle die Wiedergabegeschwindigkeit deutlich verringert, während sie bei einer als weniger wahrscheinlich fehlerhaft erkannten Teststelle erhöht wird. Bei fehlerfreien Textstellen kann die Wiedergabegeschwindigkeit für ein Diktat bis auf ein festgelegtes Maximum erhöht werden. Beispielsweise kann die Wiedergabegeschwindigkeit zwischen 50% und 200% einer normalen Wiedergabegeschwindigkeit variiert werden.
Zusätzlich ist es von Vorteil, wenn die als möglicherweise fehlerhaft erkannten Textstellen markiert werden. Dies kann beispielsweise durch ein Unterstreichen der betreffenden Textstellen oder durch farbliches Hervorheben geschehen.
Wenn der Konfidenzgrenzwert vorteilhafterweise eingestellt werden kann, ist es möglich, eine weitere Effizienzsteigerung zu erreichen.
Zur Verbesserung des Endergebnisses ist es möglich, das Vergleichen der Textdatei mit der Diktatdatei zu wiederholen, und zwar mit einem vergrößerten Konfidenzgrenzwert, so dass nur Textstellen mit hoher Fehlerwahrscheinlichkeit erkannt werden und nur für diese Fehler eine Korrektur durchgeführt wird. Zwar wird durch einen zweiten Vergleichsvorgang die Gesamtzeit für die Transkription erhöht, aber dies kann für bestimmte Anwendungen sehr vorteilhaft oder sogar vorgeschrieben sein.
Gelöst wird die erfindungsgemäße Aufgabe auch durch ein Transkriptionssystem zum Transkribieren von Diktaten mit Umwandlungsmitteln zum Umwandeln einer Diktatdatei in eine Textdatei mit Textstellen und mit Dateivergleichsmitteln zum Vergleichen der Textdatei mit der Diktatdatei, und mit Konfidenzwert-Erzeugungsmitteln, mit deren Hilfe zu jeder umgewandelten Textstelle ein Konfidenzwert generiert werden kann, und mit Vergleichsmitteln zum Vergleichen des Konfidenzwertes mit einem Konfidenzgrenzwert, wobei die Dateivergleichsmittel das Vergleichen der Textdatei mit der Diktatdatei lediglich bei jenen Textstellen durchführen, bei denen der Konfidenzwert unter einem Kon fidenzgrenzwert liegt, also möglicherweise fehlerhaft erkannte Textstellen vorliegen und wobei die Umwandlungsmittel zum Umwandeln der Diktatdatei in eine Textdatei durch eine Spracherkennungseinrichtung gebildet sind, und mit einer Einrichtung zum Ändern der Wiedergabegeschwindigkeit für eine Diktatdatei in Abhängigkeit von als möglicherweise fehlerhaft erkannten Textstellen. Die Änderung der Wiedergabegeschwindigkeit kann zwischen zwei festen Werten oder zwischen mehreren Werten in Abhängigkeit von dem Vergleichsergebnis des Konfidenzwertes der jeweiligen transkribierten Textstelle mit dem Konfidenzgrenzwert erfolgen.
Dabei sind vorteilhafterweise Markiermittel zum Markieren der als möglicherweise fehlerhaft erkannten Textstellen vorgesehen. Dieses Markieren kann in Abhängigkeit von einem Konfidenzwert erfolgen, welcher einer erkannten Textstelle beim Transkribieren zugeordnet wird. Eine Markierung kann beispielsweise zum Hervorheben der als möglicherweise fehlerhaft erkannten Textstelle, bei welcher der Konfidenzwert unter einem Konfidenzgrenzwert liegt, verwendet werden.
Vorteilhafterweise sind Mittel zum Eingeben des Konfidenzgrenzwertes und somit zu dessen Änderung vorgesehen, mit welchen Mitteln gleichfalls eine Anpassung des Konfidenzwertes der jeweiligen Textstelle an die jeweiligen Erfordernisse bzw. gemäß den Erfahrungen einer Korrekturarbeitskraft erfolgen kann. Weiterhin kann ein weiterer Korrekturdurchlauf mit verändertem Konfidenzgrenzwert vorgesehen werden.
Um dem Autor eines Diktats die Endkorrektur zu erleichtern, können Mittel zum Gewichten der als möglicherweise fehlerhaft erkannten Textstellen des transkribierten Textes, bei welchem mögliche Fehler oder Ungereimtheiten festgestellt wurden, vorgesehen sein. Diese Mittel können auch vom Autor des Diktats bei der Endkorrektur verwendet werden, um der Korrekturarbeitskraft anzuzeigen, welche Textstellen auch nach der Korrektur fehlerhaft waren, wodurch eine für den Transkriptionsprozess wichtige Information gewonnen werden kann.
Die Erfindung wird im Folgenden anhand von in den Zeichnungen dargestellten bevorzugten Ausführungsbeispielen näher beschrieben, auf die die Erfindung aber nicht beschränkt ist.
1 zeigt ein Blockschaltbild eines herkömmlichen Transkriptionssystems.
2 zeigt ein Ablaufdiagramm, das beim Korrigieren einer Textdatei mit möglicherweise fehlerhaften Textstellen abgearbeitet wird.
3 zeigt ein Ablaufdiagramm eines herkömmlichen Verfahrens zum Korrigieren eines transkribierten Textes.
4 zeigt zwei Varianten eines erfindungsgemäßen Verfahrens zum Korrigieren eines transkribierten Textes.
5 zeigt schematisch ein Verfahren zum Ändern eines Konfidenzgrenzwertes bei einem erfindungsgemäßen Verfahren.
6 zeigt ein Blockschaltbild eines Teils eines Transkriptionssystems gemäß der Erfindung.
In 1 ist schematisch ein Blockschaltbild eines Transkriptionssystems T dargestellt, bei dem ein Autor A ein Diktat spricht, das entweder in einem Diktiergerät 1 oder in einem Personalcomputer 2 oder in einem tragbaren Computer 3 gespeichert wird. Ebenso ist es möglich, dass der Autor A das Diktat in ein Telefon 4 spricht, wonach das Diktat beispielsweise in einem Zentralrechner gespeichert wird. Das Diktiergerät 1 liefert eine Diktatdatei 5, welche ein digitalisiertes Sprachsignal enthält. Ein geeignetes Format für eine solche Datei, die ein digitalisiertes Sprachsignal enthält, ist beispielsweise eine WAV-Datei. Ebenso liefert der Personalcomputer 2 oder der tragbare Computer 3 oder ein über das Telefon 4 angesprochener Zentralrechner die entsprechende Diktatdatei 5, welche das digitale Sprachsignal enthält. Die Diktatdatei 5 oder auch ein Sprachsignal 6 werden üblicherweise einer Spracherkennungseinrichtung 7 zugeführt, in der eine automatische Umwandlung der Diktatdatei 5 bzw. des Sprachsignals 6 in eine Textdatei 8 erfolgt. Bei der Spracherkennung greift die Spracherkennungseinrichtung 7 auf eine Informations-Datenbank 9 zu, in der eine Vielzahl von möglichen Wörtern, die erkannt werden könnten, enthalten sind. Dabei kann beispielsweise ein Stimmprofil und ein Satzaufbau für bestimmte Einsatzgebiete (beispielsweise aus dem medizinischen Bereich) berücksichtigt werden. Naturgemäß enthält die Textdatei 8 eine gewisse Anzahl von fehlerhaften oder ungeeigneten Textstellen, welche anschließend korrigiert werden müssen. Zu diesem Zweck wird die Textdatei 8 in hierfür vorgesehenen Dateivergleichsmittel 10 übertragen, die im Folgenden auch als Korrektureinrichtung bezeichnet werden kann. In der Korrektureinrichtung 10 wird die Textdatei 8 mit der Diktatdatei 5 verglichen, und zwar üblicherweise durch eine Korrekturarbeitskraft, wobei das akustische Signal des Autors A abgespielt bzw. wiedergege ben wird und mit dem auf einem Bildschirm oder einer anderen Anzeigeeinrichtung angezeigten Text der Textdatei 8 verglichen wird. Dieser Korrekturvorgang erfordert naturgemäß besonders viel Zeit und nimmt einen Großteil der Gesamtbearbeitungszeit ein. Oftmals wird der Korrekturvorgang zumindest ein weiteres Mal wiederholt.
3 zeigt ein Ablaufdiagramm 400 eines herkömmlichen Verfahrenablaufes zum Korrigieren eines transkribierten Textes. Oberhalb eines Ausschnitts des Sprachsignals 6 der Diktatdatei 5 sind fünf Textstellen W(n-3), W(n-2), W(n-1), W(n) und W(n+1) der Textdatei 8 dargestellt. Entsprechend einem Block 408 des Ablaufdiagramms 400 wird der Beginn des Sprachsignals 6 bzw. der Diktatdatei 5 gesucht und mit der Wiedergabe der Diktatdatei 5 bzw. des Sprachsignals 6 und einer synchronen Darstellung der Textdatei 8 beispielsweise auf einem Bildschirm begonnen. Entsprechend Block 409 wird zur Unterstützung der Orientierung der Korrekturarbeitskraft beispielsweise ein Cursor oder dergleichen im Text der Textdatei 8 entsprechend der Position im Sprachsignal 6 mitgeführt oder die momentane Position im Text durch entsprechendes Markieren der jeweiligen Textstelle W(n) und allenfalls der vorangehenden Textstelle W(n-1) und nachfolgenden Textstelle W(n+1) durchgeführt. Entsprechend einem Block 410 werden die aktuellen Textstellen beispielsweise durch Unterstreichen oder Ändern der Farbgebung der Textstellen hervorgehoben. Die Korrekturarbeitskraft liest den dargestellten Text der Textdatei 8 und hört gleichzeitig das Sprachsignal 6 und korrigiert Textstellen, welche ihres Erachtens nach fehlerhaft oder ungeeignet sind. Das Korrigieren erfolgt beispielsweise durch Überschreiben einer als fehlerhaft markierten Textstelle W(n) mit einem richtigen oder geeigneteren Text bzw. einem Textabschnitt.
Anschließend an den Korrekturvorgang kann ein korrigierter Text 11 einer Einrichtung 12 zur Qualitätskontrolle zugeführt werden. Dieser Schritt der Qualitätskontrolle erfolgt üblicherweise ebenfalls durch eine Korrekturarbeitskraft, welche die Diktatdatei 5 mit dem korrigierten Text 11 vergleicht. Schließlich wird entsprechend einem Block 14 der 1 eine kontrollierte Textdatei 13 dem Autor A zur Durchsicht übermittelt. Diese Übermittlung erfolgt beispielsweise durch Übersenden der korrigierten und kontrollierten Textdatei 13 via E-Mail. Nachdem der Autor A den Text kontrolliert hat, sendet er eine entsprechende Meldung an die Transkriptionsstelle, worauf die Transkription beispielsweise durch Erstellung der Rechnung abgeschlossen wird.
Bei derartigen Transkriptionsverfahren ist es wichtig, die Zeitspanne zwischen dem Aufnehmen eines Diktats durch den Autor A bis zum Erhalt des fertigen Textes durch den Autor A entsprechend Block 14 gering zu halten. Ein Großteil dieser Zeitspanne wird bei automatischen Spracherkennungssystemen durch die Korrektur und eine Qualitätskontrolle eingenommen. Es ist daher ein vorrangiges Ziel, diese Zeitspanne zu reduzieren und somit den gesamten Transkriptionsvorgang deutlich zu verkürzen und als Folge davon auch die Kosten für die Transkription gering zu halten.
In 6 ist ein Blockschaltbild eines für die Erfindung maßgeblichen Teiles eines Transkriptionssystems T dargestellt. Dabei wird die Diktatdatei 5 der Spracherkennungseinrichtung 7 zugeführt und in die Textdatei 8 umgewandelt, wie dies bereits im Zusammenhang mit der 1 beschrieben worden ist. Die Spracherkennungseinrichtung 7 weist Konfidenzwert-Erzeugungsmittel 25 auf, die zum Generieren eines Konfidenzwertes zu einer umgewandelten Textstelle W(n) ausgebildet sind. Das Generieren solcher Konfidenzwerte ist in Fachkreisen bekannt und beispielsweise in A. Wendemuth, G. Rose, J. G. A. Dalting: Advances in Confidence Measures for Large Vocabulary; Int. Conf. on Acoustic Speech and Signal Processing 1999, behandelt.
Die von den Konfidenzwert-Erzeugungsmitteln 25 gelieferten Konfidenzwerte können in einem Konfidenzwertebereich von Null (0) bis Eintausend (1000) liegen, wobei ein Konfidenzwert von Eintausend (1000) bedeutet, dass die Textstelle W(n) mit 99,99%iger Sicherheit richtig erkannt bzw. transkribiert wurde. Es kann erwähnt werden, dass der Konfidenzwertebereich gleichfalls durch einen anderen Zahlenbereich dargestellt werden kann beispielsweise von null (0) bis Hundert (100).
Die erhaltene Textdatei 8 wird der der Spracherkennungseinrichtung 7 nachgeschalteten Korrektureinrichtung 10 zugeführt, die zum Darstellen der Textdatei 8 und Wiedergeben der Diktatdatei 5 sowie zum Erkennen und Markieren von möglicherweise fehlerhaften Textstellen W(n) ausgebildet ist. An die Korrektureinrichtung 10 angeschlossen sind eine Anzeigeeinrichtung 20, die zum Anzeigen bzw. zum Darstellen der Textdatei 8 ausgebildet ist, und Eingabemittel 19, die auch zum manuellen Ändern eines Konfidenzwertes ausgebildet sind. Die Korrektureinrichtung 10 weist Gewichtungsmittel 21 auf, die zum manuellen Gewichten der Textstellen W(n) der Textdatei 8 vorgesehen und ausgebildet sind. Die Korrektureinrichtung 10 weist weiterhin eine Einrichtung 22 auf, die zum Ändern einer Wiedergabegeschwindigkeit von Textstellen W(n) der Textdatei 8 ausgebildet ist. Des weiteren sind in der Korrektureinrichtung 10 Markiermittel 23 enthalten, die zum Markieren der Textstellen W(n) ausgebildet sind, und sind Vergleichsmittel 24 enthalten, die zum Vergleichen des Konfidenzwertes mit einem Konfidenzgrenzwert ausgebildet sind.
2 zeigt ein Ablaufdiagramm 300 eines Verfahrens, das in der Korrektureinrichtung 10 des Transkriptionssystems T gemäß der Erfindung abläuft. Dabei wird entsprechend einem Block 301 die Diktatdatei, beispielsweise eine WAV-Datei, geöffnet und entsprechend einem Block 302 der Konfidenzwert bzw. die Konfidenzinformation in der Anzeigeeinrichtung 20, bei der es sich beispielsweise um einen Bildschirm handeln kann, wiedergegeben. Das Darstellen der Konfidenzinformation bzw. das Markieren der Textstellen erfolgt entsprechend 6 in den Markiermitteln 23 und kann auf verschiedene Arten erfolgen, beispielsweise durch Ändern der Farbe des auf dem Bildschirm dargestellten Textes, also durch Einfärben der Textstelle W(n) entsprechend dem zugehörigen Konfidenzwert oder durch Einfärben des Hintergrundes der Textstelle W(n) entsprechend dem zugehörigen Konfidenzwert. Dabei kann beispielsweise die Farbe für die farbliche Darstellung der Textstelle W(n) aus einem linearen Farbverlauf von einer Farbe Rot für einen minimalen Konfidenzwert bis zu einer Farbe Grün für einen maximalen Konfidenzwert ermittelt werden. Es kann erwähnt werden, dass das Markieren der Textstelle W(n) auch indirekt erfolgen kann, indem die farbliche Darstellung aller anderen Textstellen gegenüber der zu markierenden Textstelle W(n) geändert wird. Entsprechend einem Block 303 wird vom Benutzer, beispielsweise der Korrekturarbeitskraft, ein Konfidenzgrenzwert CG gewählt und entsprechend Block 304 die Überprüfung des Textes auf mögliche Fehler durchgeführt. Der Konfidenzgrenzwert CG kann beispielsweise bei 80% oder 90% eines maximalen Konfidenzwertbereiches liegen. Dementsprechend erfolgt für jede Textstelle W(n) eine Abfrage bei einem Block 305, ob die Differenz des Konfidenzwertes C(n) kleiner, gleich oder größer als der Konfidenzgrenzwert CG ist. Im Falle des Überschreitens des Konfidenzgrenzwertes CG wird entsprechend einem Block 306 keine Markierung der ausgewählten Textstelle W(n) als möglicherweise fehlerhaft vorgenommen. Wird der Konfidenzgrenzwert CG unterschritten oder ist er gleich, wird die entsprechende Textstelle W(n) als möglicherweise fehlerhaft markiert. Mit Hilfe der gemäß diesem Ablaufdiagram 300 erkannten Fehler in der Textdatei 8 kann eine effizientere und wesentlich raschere Korrektur des transkribierten Textes bzw. der Textdatei 8 erfolgen. Die Korrektur erfolgt nämlich so, dass beim Vergleichen der Textdatei 8 mit der Diktatdatei 5 während des Korrekturablaufes lediglich zu den als möglicherweise fehlerhaft erkannten Textstellen gesprungen wird und lediglich die als möglicherweise fehlerhaft erkannten Textstellen von der Korrekturarbeitskraft ausgebessert werden müssen. Auf diese Weise kann erhebliche Zeit eingespart werden, da nicht die komplette Diktatdatei 5 durch die Korrekturarbeitskraft angehört werden muss. Der Korrekturablauf kann beispielsweise so erfolgen, dass die Wiedergabegeschwindigkeit für das Diktat bzw. die Diktatdatei 5 in Abhängigkeit von den als möglicherweise fehlerhaft erkannten Textstellen geändert wird, wobei die Wiedergabegeschwindigkeit bei nicht als fehlerhaft markierten Textstellen beispielsweise auf das Doppelte erhöht wird, wohingegen die Wiedergabegeschwindigkeit beim Wiedergeben von möglicherweise fehlerhaften Textstellen reduziert wird.
In 4 sind Ablaufdiagramme 500A und 500B von zwei Varianten des erfindungsgemäßen Verfahrens dargestellt. Wieder ist schematisch über dem Sprachsignal 6 eine Folge von sechs aufeinanderfolgenden Textstellen W(n-3) bis W(n+2) dargestellt. Im dargestellten Beispiel sind drei Textstellen, nämlich W(n-2), W(n-1) sowie W(n+1) als möglicherweise fehlerhaft erkannt und dementsprechend markiert worden, was durch eine Schraffur gekennzeichnet ist.
Entsprechend dem Ablaufdiagramm 500A wird gemäß einem Block 511 die Textdatei 8 und parallel dazu die Diktatdatei 5 bzw. das Sprachsignal 6 geöffnet und wiedergegeben und entsprechend einem Block 512 der transkribierte Text auf der Anzeigeeinrichtung 20, bei der es sich hierbei um einen Monitor handeln kann, dargestellt. Gemäß einem Block 513 werden jene Textstellen, welche als nicht fehlerhaft eingestuft wurden, bei der Wiedergabe des Sprachsignals 6 bzw. der Diktatdatei 5 übersprungen und zum Beginn der nächsten als fehlerhaft markierten Textstelle W(n) gesprungen und ab dort bis zu einer nächsten nachfolgenden, als nicht fehlerhaft markierten, Textstelle wiedergegeben. Entsprechend einem Block 514 wird überprüft, ob das Ende der Diktatdatei 5 bzw. der Textdatei 8 erreicht worden ist, wobei bei einem negativen Ergebnis dieser Entscheidungsfrage bei dem Block 513 fortgesetzt wird und bei einem positiven Ergebnis der Ablauf beendet wird.
Entsprechend dem Ablaufdiagramm 500B werden zuerst gemäß einem Block 520 das Sprachsignal 6 bzw. die Diktatdatei 5 sowie die zugehörige Textdatei 8 synchron dazu gestartet und entsprechend einem Block 521 die Wiedergabe des Sprachsignals 6 bzw. der Diktatdatei 5 gestartet. Gemäß einem Block 522 wird überprüft, ob das Ende der Textdatei 8 bzw. Diktatdatei 5 erreicht ist, wobei bei einem positiven Ergebnis der Ablauf beendet wird. Anderenfalls wird bei einem negativen Ergebnis der Überprüfung bei dem Block 522 bei einem Block 523 geprüft, ob die Textstelle W(n) als fehlerhaft markiert ist, wobei bei einem positiven Ergebnis der Ablauf bei einem Block 524 fortgesetzt wird und anderenfalls zu einem Block 525 verzweigt wird. Sowohl gemäß dem Block 524 als auch gemäß dem Block 525 wird die Wiedergabegeschwindigkeit für die Wiedergabe des Sprachsignals 6 und die Darstellung der Textdatei 8 geändert. Beispielsweise kann gemäß dem Block 525 die Wiedergabegeschwindigkeit für die als nicht fehlerhaft markierten Textstellen W(n-3), W(n) sowie W(n+2) doppelt so hoch wie die normale Wiedergabegeschwindigkeit und gemäß Block 524 die Wiedergabegeschwindigkeit für die als möglicherweise fehlerhaft erkannten und dementsprechend markierten Textstellen W(n-2), W(n-1) und W(n+1) halb so groß wie die normale Wiedergabegeschwindigkeit gewählt werden.
5 zeigt schematisch ein Verfahren, bei dem die Konfidenzwerte manuell geändert werden. Wieder ist ein Teil einer Textdatei 8 in Form von sechs aufeinanderfolgenden Textstellen W(n-3) bis W(n+2) dargestellt und der Verlauf der automatisch erstellten Konfidenzwerte in einem Verlauf 15 skizziert. Entsprechend dem Verlauf 15 haben die Textstellen W(n-2), W(n) sowie W(n+2) einen niedrigeren Konfidenzwert als die übrigen Textstellen. Wenn jetzt die Korrekturarbeitskraft manuell einen Beitrag zu den Konfidenzwerten entsprechend einem Verlauf 16 leistet, kann eine Korrektur des Konfidenzwertverlaufs erfolgen. Beispielsweise kann die Korrekturarbeitskraft während des Abspielens der Textdatei 8 mit den Eingabemitteln 19, bei denen es sich beispielsweise um eine Tastatur handeln kann, festhalten, dass die Textstellen W(n-2) sowie W(n) und W(n+2) wahrscheinlich fehlerhaft sind. Entsprechend einem Verlauf 17 wird durch Kombination eines automatisch ermittelten Konfidenzwertverlaufs 15 und des manuellen Konfidenzwertbeitrags 16 ein resultierender Konfidenzwertverlauf generiert und als Folge lediglich die Textstelle W(n) als möglicherweise fehlerhaft eingestuft. Somit kann durch einen Beitrag erfahrener Korrekturarbeitskräfte eine erhebliche Reduktion der als möglicherweise fehlerhaft erkannten oder eingestuften Textstellen erfolgen und somit Zeit bei der nachfolgenden Korrektur gespart werden.
Das erfindungsgemäße Verfahren bzw. das erfindungsgemäße System zum Transkribieren von Diktaten kann sowohl bei der herkömmlichen Korrektur des transkribierten Textes als auch bei der Qualitätskontrolle des transkribierten Textes eingesetzt werden. Erfahrungsgemäß sind Einsparungen bis zu 90% der Zeit der Korrektur gegenüber herkömmlichen Korrekturmethoden, bei denen das gesamte Diktat abgehört werden muss, erreichbar.

Claims

Verfahren zum Transkribieren von Diktaten, wobei eine Diktatdatei (5) in eine Textdatei (8) mit Textstellen (W(n)) umgewandelt wird und wobei die Textdatei (8) mit der Diktatdatei (5) verglichen wird, wobei beim Umwandeln zu umgewandelten Textstellen (W(n)) ein jeweiliger Konfidenzwert generiert wird und wobei das Vergleichen der Textdatei (8) mit der Diktatdatei (5) lediglich bei jenen Textstellen (W(n)) erfolgt, bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, also möglicherweise fehlerhafte Textstellen (W(n)) vorliegen und wobei die Diktatdatei (5) mit Hilfe einer Spracherkennungseinrichtung (7) automatisch in eine Textdatei (8) umgewandelt wird und wobei eine Wiedergabegeschwindigkeit für die Diktatdatei (5) beim Vergleichen der Textdatei (8) mit der Diktatdatei (5) in Abhängigkeit von dem Konfidenzwert der jeweiligen Textstelle (W(n)) geändert wird.
Verfahren nach Anspruch 1, wobei die als möglicherweise fehlerhaft erkannten Textstellen (W(n)), bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, markiert werden.
Verfahren nach Anspruch 1, wobei die als möglicherweise fehlerhaft erkannten Textstellen (W(n)), bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, mit einem Gewichtungsfaktor versehen werden.
Verfahren nach Anspruch 1, wobei der Konfidenzgrenzwert einstellbar ist.
Verfahren nach Anspruch 1, wobei das Vergleichen der Textdatei (8) mit der Diktatdatei (5) mit vergrößertem Konfidenzgrenzwert wiederholt wird.
Transkriptionssystem (T) zum Transkribieren von Diktaten mit Umwandlungsmitteln (7) zum Umwandeln einer Diktatdatei (5) in eine Textdatei (8) mit Textstellen (W(n)) und mit Dateivergleichsmitteln (10) zum Vergleichen der Textdatei (8) mit der Dik tatdatei (5), und mit Konfidenzwert-Erzeugungsmitteln (25), mit deren Hilfe zu jeder umgewandelten Textstelle (W(n)) ein Konfidenzwert generiert werden kann, und mit Vergleichsmitteln (24) zum Vergleichen des Konfidenzwertes mit einem Konfidenzgrenzwert, wobei die Dateivergleichsmittel (10) das Vergleichen der Textdatei (8) mit der Diktatdatei (5) lediglich bei jenen Textstellen (W(n)) durchführen, bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, also möglicherweise fehlerhaft erkannte Textstellen vorliegen und wobei die Umwandlungsmitteln (7) zum Umwandeln der Diktatdatei (5) in eine Textdatei (8) durch eine Spracherkennungseinrichtung gebildet sind und wobei eine Einrichtung (22) zum Ändern einer Wiedergabegeschwindigkeit für die Diktatdatei (5), beim Vergleichen der Textdatei (8) mit der Diktatdatei (5), in Abhängigkeit von dem Vergleichsergebnis des Konfidenzwertes der betreffenden Textstelle (W(n)) mit dem Konfidenzgrenzwert vorgesehen ist.
Transkriptionssystem (T) nach Anspruch 6, wobei Markiermittel (23) zum Markieren der als möglicherweise fehlerhaft erkannten Textstellen (W(n)), bei denen der Konfidenzwert unter einem Konfidenzgrenzwert liegt, vorgesehen sind.
Transkriptionssystem (T) nach Anspruch 6, wobei Mittel (21) zum Gewichten der Textstellen (W(n)) der Textdatei (8) vorgesehen sind.
Transkriptionssystem (T) nach Anspruch 6, wobei Mittel (19) zum Eingeben des Konfidenzgrenzwertes vorgesehen sind.