DE60205095T2

DE60205095T2 - Transkriptionsdienst mit abbruch der automatischen transkription

Info

Publication number: DE60205095T2
Application number: DE60205095T
Authority: DE
Inventors: F. Heinrich BARTOSIK
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2001-03-16
Filing date: 2002-03-13
Publication date: 2006-05-24
Anticipated expiration: 2022-03-14
Also published as: CN1223987C; US7174296B2; EP1374226A1; JP2004519729A; EP1374226B1; ATE300084T1; CN1459091A; DE60205095D1; US20030125951A1; WO2002075724A1; JP4738716B2

Description

Die Erfindung bezieht sich auf eine Transkriptionseinrichtung, der diktierte Audiodaten zuführbar sind und die zum Abgeben von mittels einer Spracherkennungssoftware der Transkriptionseinrichtung diesen Audiodaten automatisch zugeordneten Textdaten ausgebildet ist.
Die Erfindung bezieht sich weiterhin auf ein Transkriptionsverfahren, bei dem diktierte Audiodaten empfangbar sind und das zum Abgeben von bei der Abarbeitung des Transkriptionsverfahrens diesen Audiodaten automatisch zugeordneten Textdaten ausgebildet ist.
Die Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt, das durch die von der Transkriptionseinrichtung abgearbeitete Spracherkennungssoftware gebildet ist.
Das Dokument WO 00/46787 offenbart einen Transkriptionsservice zur im Wesentlichen automatischen Transkription eines Diktats, bei dem eine Transkriptionseinrichtung gemäß dem ersten Absatz ein Transkriptionsverfahren gemäß dem zweiten Absatz abarbeitet. Ein Benutzer des bekannten Systems kann diktierte Audiodaten als digitale Audiodaten über ein Datennetz an die Transkriptionseinrichtung senden, die durch einen Server gebildet ist.
Wenn der Benutzer den Transkriptionsservice erstmals in Anspruch nimmt, dann wird das Diktat des Benutzers von einem Angestellten des Transkriptionsservices – einer Schreibkraft – manuell transkribiert. Ein weiterer Angestellter des Transkriptionsservices – eine Korrekturkraft – überprüft den von der Schreibkraft transkribierten Text und editiert darin enthaltene Fehler. Die zu dem Diktat des Benutzers von dem Transkriptionsservice manuell transkribierten Textdaten werden samt einer Rechnung an den Benutzer übermittelt.
Die bekannte Transkriptionseinrichtung arbeitet mit einer Spracherkennungssoftware, die an den Benutzer des Transkriptionsservices angepasst wird, wobei Benutzerreferenzen gespeichert werden. Die Qualität der von der Transkriptionseinrichtung automatisch erkannten Textdaten hängt wesentlich davon ab, wie gut die Spracherkennungssoftware bereits auf den Benutzer trainiert ist. Die bekannte Transkriptionseinrichtung nutzt die Audiodaten aus dem Diktat des Benutzers samt der manuell transkribierten Textdaten, um die Spracherkennungssoftware zu trainieren und verbesserte Benutzerreferenzen abzuspeichern.
Wenn der Benutzer den Transkriptionsservice bereits öfter in Anspruch genommen hat, dann werden seine diktierten Audiodaten zusätzlich auch der Transkriptionseinrichtung zur automatischen Transkription zugeführt. Die daraufhin von der Transkriptionseinrichtung automatisch transkribierten Textdaten werden anschließend von der Korrekturkraft mit den manuell transkribierten Textdaten verglichen. Wenn in den automatisch transkribierten Textdaten relativ wenige Erkennfehler enthalten sind, dann werden die in Zukunft von diesem Benutzer empfangenen Diktate zuerst von der Transkriptionseinrichtung automatisch transkribiert und anschließend von der Korrekturkraft manuell korrigiert. Bei dem Transkriptionsservice werden Benutzereinstellungen gespeichert, die festlegen, auf welche Weise das Diktat eines bestimmten Benutzers transkribiert wird.
Der bekannte Transkriptionsservice offenbart weiterhin die Möglichkeit, dass ein Systemadministrator diese Benutzereinstellungen für eine begrenzte Zeitspanne derart verändert, dass Diktate des Benutzers ausschließlich manuell transkribiert werden, obwohl die automatische Transkription bereits relativ wenige Erkennfehler in den automatisch transkribierten Textdaten erzielt hat. Diese Änderung der Benutzereinstellung wird von dem Systemadministrator dann durchgeführt, wenn er über eine Krankheit oder eine Zahnbehandlung des Benutzers informiert wird, die durch die Veränderung der Aussprache des Benutzers zu einer schlechteren Erkennrate der automatischen Transkription führen würde.
Bei dem bekannten Transkriptionsservice hat sich als Nachteil erwiesen, dass bei der automatischen Transkription durch die Transkriptionseinrichtung manchmal sehr viele Erkennfehler in den automatisch erkannten Textdaten enthalten sind, wodurch die Korrekturkraft sehr viel Zeit zur Korrektur der Erkennfehler aufwenden muss.
Das Dokument US 5.033.088 offenbart weiterhin ein Gerät mit automatisch und schließlich manuell gestützter Reaktion auf Sprachinformation eines Anrufers. Die Sprachinformation des Anrufers wird aufgezeichnet und in ein Spracherkennungssystem des Gerätes eingegeben. Falls das Ergebnis des Spracherkennungssystems nicht zuverlässig ist, werden das Ergebnis und die aufgezeichnete Sprachinformation einem menschlichen Begleiter zur Nachprüfung und Korrektur zugeführt.
Wenn eine derartige Lösung für einen Transkriptionsservice zur automatischen Transkription eines Diktats verwendet würde, ergäbe sich das Problem, dass der Transkriptionsservice mit dem Transkribieren von vielleicht großen Mengen Audiodaten in automatisch transkribiertem Text festlaufen würde, ohne wegen der schlechten Qualität der empfangenen Audiodaten überhaupt die Möglichkeit zu einer erfolgreichen Transkription zu haben.
Die Erfindung hat sich zur Aufgabe gestellt, eine Transkriptionseinrichtung gemäß der in dem ersten Absatz angegebenen Art, ein Transkriptionsverfahren gemäß der in dem zweiten Absatz angegebenen Art sowie ein Computerprogrammprodukt gemäß der in dem dritten Absatz angegebenen Art zu schaffen, bei denen die vorstehend angeführten Nachteile vermieden sind.
Zur Lösung der vorstehend angegebenen Aufgabe sind bei einer solchen Transkriptionseinrichtung erfindungsgemäße Merkmale vorgesehen, sodass die Transkriptionseinrichtung durch die nachfolgend angegebene Weise gekennzeichnet werden kann:
Transkriptionseinrichtung zum automatischen Transkribieren eines Diktats mit
Empfangsmitteln zum Empfangen von diktierten Audiodaten und mit
Spracherkennungsmitteln zum Umwandeln der empfangenen Audiodaten in automatisch transkribierte Textdaten und mit
Abgabemitteln zum Abgeben der automatisch transkribierten Textdaten und mit
Abbruchmitteln zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung, wenn die automatische Transkription mit den Spracherkennungsmitteln automatisch transkribierte Textdaten schlechter Qualität mit relativ vielen mutmaßlichen Erkennfehlern ergeben würde oder bereits ergeben hat, welche Abbruchmittel zum Prüfen der Qualität der empfangenen Audiodaten für eine nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln und zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung ausgebildet sind, wenn die Qualität der empfangenen Audiodaten eine erfolgreiche automatische Transkription nicht zulässt.
Zur Lösung der vorstehend angegebenen Aufgabe sind bei einem solchen Transkriptionsverfahren erfindungsgemäße Merkmale vorgesehen, sodass das Transkriptionsverfahren durch die nachfolgend angegebene Weise gekennzeichnet werden kann:
Transkriptionsverfahren zum automatischen Transkribieren eines Diktates, wobei die folgenden Schritte abgearbeitet werden:

• Empfangen diktierter Audiodaten;
• Umwandeln der empfangenen Audiodaten in automatisch transkribierte Textdaten;
• Abgeben der automatisch transkribierten Textdaten;
• Abbrechen der Verarbeitung des Diktats, wenn die bei der automatischen Transkription ermittelten automatisch transkribierten Textdaten eine schlechte Qualität mit relativ vielen mutmaßlichen Erkennfehlern ergeben würde oder bereits ergeben hat.
• Prüfen der Qualität der empfangenen Audiodaten für eine nachgeschaltete Spracherkennung, wobei das Signal-Rauschverhältnis eines die empfangenen Audiodaten enthaltenden Audiosignals geprüft wird;
• Abbrechen der Verarbeitung des Diktats, wenn die Qualität der empfangenen Audiodaten eine erfolgreiche automatische Transkription nicht zulässt.

Zur Lösung der vorstehend angegebenen Aufgabe sind bei einem solchen Computerprogrammprodukt erfindungsgemäße Merkmale vorgesehen, sodass das Computerprogrammprodukt durch die nachfolgend angegebene Weise gekennzeichnet werden kann:
Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des Transkriptionsverfahrens gemäß Anspruch 7 abgearbeitet werden, wenn das Produkt auf dem Computer läuft.
Hierdurch wird der Vorteil erhalten, dass die Transkriptionseinrichtung gemäß dem Transkriptionsverfahren die Verarbeitung des Diktats des Benutzers von sich aus automatisch abbricht, wenn feststeht, dass die noch automatisch zu transkribierenden Textdaten oder die bereits automatisch transkribierten Textdaten wegen der schlechten Qualität der empfangenen Audiodaten so viele Erkennfehler aufweisen würden oder bereits aufweisen, dass eine Korrekturkraft mehr Zeit zum Editieren dieser Fehler aufwenden würde, als notwendig wäre, wenn das Diktat gleich von der Schreibkraft manuell transkribiert wird.
Auf diese Weise wird die letztendlich nicht erfolgreiche automatische Transkription problematischer Diktate sobald als möglich automatisch abgebrochen. Vorteilhafterweise wird somit die Arbeitszeit der Schreibkräfte und Korrekturkräfte effektiver genutzt und zusätzlich auch Rechenleistung des das Computerprogrammprodukt abarbeitenden Servers gespart.
Darüber hinaus wird der Vorteil erhalten, dass die Transkriptionseinrichtung die Qualität der empfangenen diktierten Audiodaten prüft und somit noch vor der eigentlichen automatischen Transkription mit Hilfe der Spracherkennungsmittel entscheidet, ob eine erfolgreiche automatische Transkription mit diesen Audiodaten überhaupt möglich ist.
Gemäß den Maßnahmen von Anspruch 2, von Anspruch 3, von Anspruch 4, von Anspruch 7 und von Anspruch 8 wird der Vorteil erhalten, dass aussagekräftige Kennzahlen für die Qualität der diktierten Audiodaten zur anschließenden Spracherkennung ermittelt werden. Basierend auf diesen Kennzahlen ist eine fundierte Entscheidung über Fortsetzung oder Abbruch der Verarbeitung des Diktats mit der Transkriptionseinrichtung möglich.
Gemäß den Maßnahmen von Anspruch 5 und von Anspruch 9 wird basierend auf einem von der Transkriptionseinrichtung ermittelten „Konfidenzmaß" die Anzahl der in den automatisch transkribierten Textdaten wahrscheinlich falsch erkannten Wörter mit der Anzahl aller Wörter in den automatisch transkribierten Textdaten ins Verhältnis gesetzt. Wenn diese Berechnung eine unter einer Fehlerschwelle liegende Fehlerrate ergibt, dann wird die Verarbeitung mit der Transkriptionseinrichtung abgebrochen und werden die automatisch transkribierten Textdaten nicht an die Korrekturkraft abgegeben.
Gemäß den Maßnahmen von Anspruch 6 und von Anspruch 10 wird der Vorteil erhalten, dass die Audiodaten eines problematischen Diktats unmittelbar nach dem Abbruch der Verarbeitung durch die Transkriptionseinrichtung von der Transkriptionseinrichtung zurückübertragen werden, um eine manuelle Transkription zu ermöglichen.
Die Erfindung wird im Folgenden anhand eines in den Figuren dargestellten Ausführungsbeispiels beschrieben, auf das die Erfindung aber nicht beschränkt ist.
1 zeigt ein Transkriptionssystem, an das ein Benutzer diktierte Audiodaten senden kann, woraufhin er von dem Transkriptionssystem zu dem Diktat transkribierte Textdaten und eine Rechnung erhält.
1 zeigt Benutzerterminals 1, 2 und 3, die über das Internet NET mit einem Server 4 eines Transkriptionssystems 5 verbunden sind. Das Benutzerterminal 1 ist durch einen Computer gebildet, an den ein Mikrofon angeschlossen ist. Ein Benutzer des Computers kann ein Diktat in das Mikrofon sprechen, das als digitale Audiodaten von einer mit dem Computer abgearbeiteten Soundrecorder-Software auf einer Festplatte des Computers gespeichert wird. Die digitalen Audiodaten können von dem Computer als Audiodaten AI an den Server 4 übermittelt werden. In der Audiodaten AI ist in weiterer Folge jeweils auch eine Benutzerinformation enthalten, die den Benutzer kennzeichnet.
Das Benutzerterminal 2 ist durch ein Telefon und einen Computer gebildet. Ein Benutzer des Benutzerterminals 2 kann den Server 4 über das Internet NET mit dem Telefon anrufen und ein Diktat in das Telefon sprechen, das als Audiodaten AI an den Server 4 übermittelt wird.
Das Benutzerterminal 3 ist durch ein digitales Diktiergerät und einen Computer gebildet. Der Benutzer des Benutzerterminals 3 kann ein Diktat mit dem Diktiergerät als digitale Audiodaten aufzeichnen und zu einem späteren Zeitpunkt auf eine Festplatte des Computers kopieren. Die digitalen Audiodaten können von dem Computer als Audiodaten AI an den Server 4 übermittelt werden.
Mit dem Transkriptionssystem 5 können an den Server 4 übermittelte diktierte Audiodaten AI transkribiert, also in transkribierte Textdaten TI umgewandelt werden. Die von dem Transkriptionssystem 5 transkribierten Textdaten TI werden anschließend von dem Server 4 an den Computer des Benutzerterminals 1, 2 oder 3 übermittelt, von dem die Audiodaten AI empfangen wurden. Die von dem Benutzerterminal 1, 2 oder 3 empfangenen transkribierten Textdaten TI werden schließlich mit dem Computer des jeweiligen Benutzerterminals 1, 2 oder 3 für den Benutzer dargestellt, worauf nachfolgend noch näher eingegangen ist.
An den Server 4 abgegebene Audiodaten AI können sowohl manuell als auch automatisch transkribiert werden. Die manuelle Transkription wird durch mehrere Mitarbeiter des Transkriptionssystems 5 (durch Schreibkräfte) durchgeführt, die symbolisch als Schreibkraft 6 dargestellt sind. Bei der manuellen Transkription hört die Schreibkraft 6 die diktierten Audiodaten AI ab und schreibt gleichzeitig mit einem Computer den gesprochenen Text als manuell transkribierte Textdaten MTTI auf, wie dies seit langem bekannt ist.
Weitere Mitarbeiter des Transkriptionssystems 5 (Korrekturkräfte, die symbolisch als Korrekturkraft 7 dargestellt sind) erhalten die von der Schreibkraft 6 manuell transkribierten Textdaten MTTI samt den zugehörigen diktierten Audiodaten AI. Die Korrekturkraft 7 hört sich nochmals die diktierten Audiodaten AI an, prüft die manuell transkribierten Textdaten MTTI auf Transkribierfehler und bessert gegebenenfalls gefundene Transkribierfehler aus. Die von der Korrekturkraft 7 geprüften manuell transkribierten Textdaten MTTI werden als transkribierte Textdaten TI an den Server 4 und von diesem an die jeweilige Benutzereinrichtung 1, 2 oder 3 abgegeben.
Der Server 4 weist Interfacemittel 8 auf, die durch ein von dem Server 4 abgearbeitetes Softwaremodul und ein Modem gebildet sind. Die Interfacemittel 8 sind zum Empfangen der Audiodaten AI von den Benutzereinrichtungen 1, 2 und 3 und zum Rückübertragen der empfangenen Audiodaten AI an die Schreibkraft 6 ausgebildet. Die Korrekturkraft 7 gibt die transkribierten Textdaten TI an die Interfacemittel 8 ab, welche diese an die richtige Benutzereinrichtung 1, 2 oder 3 übermittelt.
Der Server 4 weist weiterhin eine Transkriptionseinrichtung 9 zum automatischen Transkribieren der diktierten Audiodaten AI entsprechend einem Transkriptionsverfahren auf. Hierfür arbeitet die Transkriptionseinrichtung 9 eine Spracherkennungssoftware ab, die ein Computerprogrammprodukt bildet. Eine solche Spracherkennungssoftware ist beispielsweise unter der Bezeichnung „Speech Magic" von der Firma Philips in den Handel gebracht worden.
Die Transkriptionseinrichtung 9 enthält Empfangsmittel zum Empfangen diktierter Audiodaten, welche Empfangsmittel durch die Interfacemittel 8 gebildet sind. Die Transkriptionseinrichtung 9 enthält weiterhin drei Spracherkennungsmittel 10, 11 und 12, die zum Umwandeln der empfangenen Audiodaten AI in automatisch transkribierte Textdaten ATTI ausgebildet sind. Der Server 4 arbeitet die Spracherkennungssoftware dreimal parallel ab, wodurch die drei Spracherkennungsmittel 10, 11 und 12 gebildet werden. Hierdurch können die Audiodaten AI von drei Diktaten parallel verarbeitet werden und kann die Verarbeitungskapazität der Transkriptionseinrichtung 3 gesteigert werden.
Die Transkriptionseinrichtung 9 enthält weiterhin Abgabemittel 13, an die die von den Spracherkennungsmitteln 10, 11 und 12 automatisch transkribierten Textdaten ATTI abgebbar ist. Die Abgabemittel 13 sind zum Abgeben der diktierten Audiodaten AI samt der von einer der Spracherkennungsmittel 10, 11 oder 12 automatisch transkribierten Textdaten ATTI an die Korrekturkraft 7 ausgebildet. Die Korrekturkraft 7 hört sich noch mals die diktierten Audiodaten AI an, prüft die automatisch transkribierten Textdaten ATTI auf Transkribierfehler und bessert diese aus.
Ein solches vorstehend beschriebenes Transkriptionssystem 5 ist aus dem Dokument WO 00/46787 bekannt. Die Interfacemittel 8 geben die Audiodaten AI zur Transkription entweder an die Schreibkraft 6 zur manuellen Transkription oder an die Transkriptionseinrichtung 9 zur automatischen Transkription ab. Hierbei wird berücksichtigt, wie oft ein Benutzer bereits das Transkriptionssystem 5 genutzt hat, wie dies in dem Dokument WO 00/46787 beschrieben ist.
Die Transkriptionseinrichtung 9 weist Abbruchmittel zum Abbrechen der Verarbeitung von diktierten Audiodaten AI mit der Transkriptionseinrichtung 9 auf, wenn die automatische Transkription mit den Spracherkennungsmitteln 10, 11 oder 12 eine schlechte Qualität der automatisch transkribierten Textdaten ATTI mit relativ vielen Erkennfehlern ergeben würde oder bereits ergeben hat. Erste Abbruchmittel 14 der Transkriptionseinrichtung 9 sind zum Prüfen der Qualität der empfangenen Audiodaten AI für die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 und zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung 9 ausgebildet, wenn die Qualität der empfangenen Audiodaten AI eine erfolgreiche automatische Transkription nicht zulässt.
Die ersten Abbruchmittel 14 enthalten erste Prüfmittel 15 und Kontrollmittel 16. Die ersten Prüfmittel 15 weisen einen Analog/Digitalwandler auf, mit dem die als digitale Audiodaten empfangenen Audiodaten AI in ein analoges Audiosignal umgewandelt werden. Die ersten Prüfmittel 15 sind bei einer ersten Prüfung zum Prüfen des Signal-Rauschverhältnisses des analogen Audiosignals ausgebildet, wie dies allgemein bekannt ist. Die ersten Prüfmittel 15 sind bei einer zweiten Prüfung zum Prüfen des Pegels des analogen Audiosignals ausgebildet, wie dies ebenfalls allgemein bekannt ist.
Wenn die ersten Prüfmittel 15 bei der ersten Prüfung feststellen, dass das Signal-Rauschverhältnis des analogen Audiosignals schlechter als ein S/N-Schwellenwert (z.B. S/N-Schwellenwert = 20 dB) ist, dann sind die ersten Prüfmittel 15 zum Abgeben eines ersten Abbruchsignals ABI1 an die Kontrollmittel 16 ausgebildet. Wenn die ersten Prüfmittel 15 bei der zweiten Prüfung feststellen, dass der Pegel des analogen Audiosignals schlechter als ein Pegel-Schwellenwert (z.B. Pegel-Schwellenwert = –30 dB) ist, dann sind die ersten Prüfmittel 15 zum Abgeben eines zweiten Abbruchsignals ABI2 an die Kon trollmittel 16 ausgebildet. Zusätzlich werden die von den ersten Prüfmitteln 15 geprüften Audiodaten AI an die Kontrollmittel 16 zurückübertragen.
Wenn die ersten Prüfmittel 15 als Ergebnis der Prüfungen weder das erste Abbruchsignal ABI1 noch das zweite Abbruchsignal ABI2 an die Kontrollmittel 16 abgeben, dann sind die Kontrollmittel 16 zum Rückübertragen der Audiodaten AI an eines der Spracherkennungsmittel 10, 11 oder 12 ausgebildet, das derzeit verfügbar ist.
Hierdurch wird der Vorteil erhalten, dass die Transkriptionseinrichtung 9 eine automatische Transkription der diktierten Audiodaten AI durchführt, wenn die Qualität der empfangenen Audiodaten AI für die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 ausreichend gut ist. So kann vorteilhafterweise die Rechenleistung des Servers 4 optimal genutzt werden, da nur solche Diktate automatisch transkribiert werden, deren Audiodaten AI qualitativ gut sind.
Wenn andererseits die ersten Prüfmittel 15 als Ergebnis der Prüfungen das erste Abbruchsignal ABI1 und/oder das zweite Abbruchsignal ABI2 an die Kontrollmittel 16 abgeben, dann sind die Kontrollmittel 16 zum Rückübertragen der Audiodaten AI an die Schreibkraft 6 ausgebildet. Die Kontrollmittel 16 bilden hierbei Rückübertragungsmittel.
Hierdurch wird der Vorteil erhalten, dass die Transkriptionseinrichtung 9 die automatische Transkription der diktierten Audiodaten AI erst gar nicht durchführt und eine manuelle Transkription veranlasst, wenn die Qualität der empfangenen Audiodaten AI für die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 nicht ausreichend gut ist. Besonders vorteilhaft ist hierbei, dass die Kontrollmittel 16 die Audiodaten AI solcher Diktate gleich automatisch an die Schreibkraft 6 zur manuellen Transkription zurücküberträgt.
Die Spracherkennungsmittel 10, 11 und 12 sind bei der Umwandlung der Audiodaten AI in die automatisch transkribierten Textdaten ATTI zum Ermitteln eines sogenannten Konfidenzmaßes zu jedem Wort der automatisch transkribierten Textdaten ATTI ausgebildet, wie dies dem Fachmann seit längerer Zeit bekannt ist. Das Konfidenzmaß eines Wortes ist ein Wahrscheinlichkeitswert, der die Wahrscheinlichkeit angibt, mit der dieses Wort von den Spracherkennungsmitteln 10, 11 oder 12 richtig erkannt wurde. Die Spracherkennungsmittel 10, 11 und 12 sind zum Abgeben einer Zuverlässigkeitsinformation ZI an die Abgabemittel 13 ausgebildet, die das Konfidenzmaß für jedes Wort der automatische transkribierten Textdaten ATTI angibt.
Die Abgabemittel 13 der Transkriptionseinrichtung 9 bilden weiterhin zweite Prüfmittel, die zum Durchführen einer dritten Prüfung ausgebildet sind. Bei der dritten Prüfung prüfen die zweiten Prüfmittel, welche Anzahl K an Wörtern der automatisch transkribierten Textdaten ATTI einen niedrigeren Wahrscheinlichkeitswert als einen Schwellenwahrscheinlichkeitswert (z.B. Schwellenwahrscheinlichkeitswert = 50%) aufweisen.
Wenn diese Anzahl K von Erkennfehlern pro N Wörter der automatisch transkribierten Textdaten ATTI größer als ein Fehlerschwellenwert (z.B. Fehlerschwellenwert = 20%) ist, dann sind die zweiten Prüfmittel zum Abgeben eines dritten Abbruchsignals ABI3 an die Kontrollmittel 16 ausgebildet. Die dritten Prüfmittel der Abgabemittel 13 bilden hierbei gemeinsam mit den Kontrollmitteln 16 zweite Abbruchmittel. Wenn die Kontrollmittel 16 das dritte Abbruchsignal ABI3 empfangen, dann sind die Kontrollmittel 16 zum Abgeben dieser diktierten Audiodaten AI an die Schreibkraft 6 ausgebildet.
Hierdurch wird der Vorteil erhalten, dass automatisch transkribierte Textdaten ATTI mit vielen Erkennfehlern nicht an die Korrekturkraft 7 abgegeben werden, weil die Korrekturkraft 7 in diesem Fall für das Durchführen der notwendigen Korrekturen wesentlich länger brauchen würde, als wenn die Schreibkraft 6 dieses Diktat gleich manuell transkribiert.
Im Folgenden sollen die Vorteile der erfindungsgemäßen Transkriptionseinrichtung 9 anhand von drei Anwendungsbeispielen näher erläutert werden. Gemäß dem ersten Anwendungsbeispiel sei angenommen, dass ein Arzt bereits öfter den Transkriptionsservice des Transkriptionssystems 5 in Anspruch genommen hat. In den Spracherkennungsmitteln 10, 11 und 12 sind daher zu den Audiodaten AI bereits transkribierter Diktate ermittelte Benutzerreferenzen des Arztes gespeichert. Die Spracherkennungsmittel 10, 11 und 12 transkribieren Diktate des Arztes bereits mit sehr wenigen Erkennfehlern in den automatische transkribierten Textdaten ATTI.
Der Arzt nutzt sein Benutzerterminal 2, wobei er, nachdem er den Server 4 mit dem Telefon angerufen und sich identifiziert hat, ein Diktat in das Telefon diktiert. Hierbei vergisst der Arzt jedoch ein Fenster seines Arbeitszimmers zu schließen, weshalb den diktierten Audiodaten AI Strassengeräusche überlagert sind.
Da die Diktate dieses Arztes bereits öfter erfolgreich von der Transkriptionseinrichtung 9 automatisch transkribiert wurden, leiten die Interfacemittel 8 die empfangenen Audiodaten AI an die ersten Prüfmittel 15 weiter. Die ersten Prüfmittel 15 stellen bei der ersten Prüfung fest, dass das Signal-Rauschverhältnis des die Audiodaten AI enthaltenden Audiosignals zu schlecht ist, um bei der automatischen Transkription mit einem der Spracherkennungsmittel 10, 11 oder 12 automatisch transkribierte Textdaten ATTI mit vertretbar wenigen Erkennfehlern zu erhalten, und geben das erste Abbruchsignal ABI1 an die Kontrollmittel 16 ab. Die ersten Prüfmittel 15 stellen bei der zweiten Prüfung fest, dass der Pegel des die Audiodaten AI enthaltenden Audiosignals ausreichend gut ist und geben daher das zweite Abbruchsignal ABI2 nicht an die Kontrollmittel 16 ab.
Die ersten Abbruchmittel 14 sind vorteilhafterweise zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung 9 ausgebildet, bevor die Spracherkennungsmittel 10, 11 oder 12 mit der automatischen Transkription der Audiodaten AI begonnen haben. Hierbei übertragen die Kontrollmittel 16, nach dem Empfang des ersten Abbruchsignals ABI1, die empfangenen Audiodaten AI zurück an die Schreibkraft 6 zur manuellen Transkription des Diktats. Die Schreibkraft 6 kann somit dieses von Strassengeräuschen überlagerte und daher schwer transkribierbare Diktat manuell transkribieren und anschließend an die Korrekturkraft 7 abgeben.
Der in Summe für dieses Diktat notwendige manuelle und somit kostenintensive Arbeitsaufwand der Schreibkraft 6 und der Korrekturkraft 7 konnte somit vorteilhafterweise minimiert werden, da die Korrekturkraft 7 sehr lange gebraucht hätte, die automatisch transkribierten Textdaten ATTI zu editieren.
Gemäß dem zweiten Anwendungsbeispiel sei angenommen, dass der Arzt ein weiteres Diktat relativ leise diktiert, da sich ein schlafender Patient im Arbeitszimmer befindet. Die ersten Prüfmittel 15 stellen bei ihrer zweiten Prüfung der Audiodaten AI dieses weiteren Diktats fest, dass der Pegel des die Audiodaten AI enthaltenden Audiosignals kleiner als der Pegel-Schwellenwert ist und geben das zweite Abbruchsignal ABI2 an die Kontrollmittel 16 ab. Hierauf brechen die ersten Abbruchmittel 14 die Verarbeitung dieses weiteren Diktats bereits vor der automatischen Transkription ab, wodurch die vorstehend angeführten Vorteile erhalten werden.
Gemäß dem dritten Anwendungsbeispiel sei angenommen, dass der Arzt ein weiteres Diktat diktiert und zur Transkription an das Transkriptionssystem 5 übermittelt. Auch dieses weitere Diktat wird von den Interfacemitteln 8 an die Transkriptionseinrichtung 9 zurückübertragen. Da die Qualität dieser diktierter Audiodaten AI ausreichend gut ist, geben die ersten Prüfmittel weder das erste Abbruchsignal ABI1 noch das zweite Abbruchsignal ABI2 an die Kontrollmittel 16 ab.
Die zweiten Spracherkennungsmittel 11 transkribieren daraufhin diese weiteren diktierten Audiodaten AI, wobei die von den zweiten Spracherkennungsmitteln 11 automatisch transkribierten Textdaten ATTI eine den Fehlerschwellenwert übersteigende Anzahl an Erkennfehlern pro 100 Wörter der automatische transkribierten Textdaten ATTI aufweisen. Dies deshalb, weil der Arzt bei dem Diktat heiser war und eine andere Aussprache als üblich hat.
Die dritten Prüfmittel der Abgabemittel 13 stellen diese den Fehlerschwellenwert übersteigende Anzahl an Erkennfehlern bei ihrer dritten Prüfung automatisch fest und geben hierauf das dritte Abbruchsignal ABI3 an die Kontrollmittel 16 ab. Die Kontrollmittel 16 übertragen hieraufhin die Audiodaten AI dieses weiteren Diktats zurück an die Schreibkraft 6, wodurch die vorstehend angeführten Vorteile erhalten werden.
Es kann erwähnt werden, dass eine erfindungsgemäße Transkriptionseinrichtung weitere Prüfmittel zum Prüfen der empfangenen Audiodaten, zum Prüfen der Qualität von Zwischenergebnissen oder des Endergebnisses der automatischen Transkription aufweisen kann. Basierend auf diesen Prüfungen entscheiden die Abbruchmittel, ob ein Abbruch der Verarbeitung des Diktats mit der Transkriptionseinrichtung vorteilhaft ist.
Es kann erwähnt werden, dass erfindungsgemäße Abbruchmittel auch in einer Transkriptionseinrichtung für Online-Transkription vorgesehen sein können.
Es kann erwähnt werden, dass die Korrekturkraft üblicherweise nur stichprobenartig manuell transkribierte Textdaten MTTI prüft.
Es kann erwähnt werden, dass die Spracherkennungsmittel ebenfalls Abbruchmittel aufweisen können, die, beispielsweise nach einer 20 Sekunden langen Transkription der empfangenen Audiodaten, die Qualität der zu diesen Audiodaten automatisch transkribierten Textdaten ermitteln, mit dem Fehlerschwellenwert vergleichen und gegebenenfalls die Verarbeitung abbrechen. Hierdurch wäre der Vorteil erhalten, dass die Verarbeitung der empfangenen Audiodaten auch während der automatischen Transkription abgebrochen werden kann.
Es kann erwähnt werden, dass die ersten Abbruchmittel auch zum Prüfen der empfangenen Audiodaten auf nichtlineare Verzerrungen ausgebildet sein können. Solche nichtlinearen Verzerrungen treten beispielsweise dann auf, wenn das Audiosignal übersteuert wurde oder wenn beim Komprimieren/Dekomprimieren von Audiodaten Probleme aufgetreten sind. Da die Erkennrate der Spracherkennungsmittel schlechter ist, wenn die empfangenen Audiodaten nichtlineare Verzerrungen aufweisen, ist ein Abbruch der Verarbeitung der Audiodaten vorteilhaft, wenn die nichtlinearen Verzerrungen zu stark sind.

Claims

Transkriptionseinrichtung (5) zum automatischen Transkribieren eines Diktats mit Empfangsmitteln (8) zum Empfangen von diktierten Audiodaten (AI) und mit Spracherkennungsmitteln (10, 11, 12) zum Umwandeln der empfangenen Audiodaten (AI) in automatisch transkribierte Textdaten (ATTI) und mit Abgabemitteln (13) zum Abgeben der automatisch transkribierten Textdaten (ATTI) und mit Abbruchmitteln (13, 14, 16) zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung (5), wenn die automatische Transkription mit den Spracherkennungsmitteln (10, 11, 12) automatisch transkribierte Textdaten schlechter Qualität (ATTI) mit relativ vielen mutmaßlichen Erkennfehlern ergeben würde oder bereits ergeben hat, welche Abbruchmittel (14) zum Prüfen der Qualität der empfangenen Audiodaten (AI) für eine nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln (10, 11, 12) und zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung (5) ausgebildet sind, wenn die Qualität der empfangenen Audiodaten (AI) eine erfolgreiche automatische Transkription nicht zulässt.
Transkriptionseinrichtung (5) nach Anspruch 1, wobei die Abbruchmittel (14) zum Prüfen des Signal-Rauschverhältnisses eines die empfangenen Audiodaten (AI) enthaltenden Audiosignals ausgebildet sind.
Transkriptionseinrichtung (5) nach Anspruch 1, wobei die Abbruchmittel (14) zum Prüfen des Pegels des die empfangenen Audiodaten (AI) enthaltenden Audiosignals ausgebildet sind.
Transkriptionseinrichtung nach Anspruch 1, wobei die Abbruchmittel zum Prüfen ausgebildet sind, ob das die empfangenen Audiodaten enthaltende Audiosignal nichtlineare Verzerrungen aufweist.
Transkriptionseinrichtung (5) nach Anspruch 1, wobei die Abbruchmittel (13) zum Prüfen der Qualität der automatisch transkribierten Textdaten (ATTI) und zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung (5) ausgebildet sind, wenn die automatisch transkribierten Textdaten (ATTI) eine einen Fehlerschwellenwert übersteigende Anzahl an mutmaßlichen Erkennfehlern pro N Wörtern der automatisch transkribierten Textdaten (ATTI) enthält.
Transkriptionseinrichtung (5) nach Anspruch 1, wobei Rückübertragungsmittel (16) vorgesehen sind, die nach einem Abbruch der Verarbeitung des Diktats mit der Transkriptionseinrichtung (5) zum Rückübertragen der empfangenen Audiodaten (AI) ausgebildet sind, um eine manuelle Transkription des Diktats zu ermöglichen.
Transkriptionsverfahren zum automatischen Transkribieren eines Diktates, wobei die folgenden Schritte abgearbeitet werden: • Empfangen diktierter Audiodaten (AI); • Umwandeln der empfangenen Audiodaten (AI) in automatisch transkribierte Textdaten (ATTI); • Abgeben der automatisch transkribierten Textdaten (ATTI); • Abbrechen der Verarbeitung des Diktats, wenn die bei der automatischen Transkription ermittelten automatisch transkribierten Textdaten (ATTI) eine schlechte Qualität mit relativ vielen mutmaßlichen Erkennfehlern ergeben würde oder bereits ergeben hat. • Prüfen der Qualität der empfangenen Audiodaten (AI) für eine nachgeschaltete Spracherkennung, wobei das Signal-Rauschverhältnis eines die empfangenen Audiodaten (AI) enthaltenden Audiosignals geprüft wird; • Abbrechen der Verarbeitung des Diktats, wenn die Qualität der empfangenen Audiodaten (AI) eine erfolgreiche automatische Transkription nicht zulässt.
Transkriptionsverfahren nach Anspruch 7, wobei folgende weitere Schritte abgearbeitet werden: • Prüfen der Qualität der empfangenen Audiodaten (AI) für eine nachgeschaltete Spracherkennung, wobei der Pegel des die empfangenen Audiodaten (AI) enthaltenden Audiosignals geprüft wird; • Abbrechen der Verarbeitung des Diktats, wenn die Qualität der empfangenen Audiodaten (AI) eine erfolgreiche automatische Transkription nicht zulässt.
Transkriptionsverfahren nach Anspruch 7, wobei die folgenden weiteren Schritte abgearbeitet werden: • Prüfen der Qualität der automatisch transkribierten Textdaten (ATTI); • Abbrechen der Verarbeitung des Diktats, wenn die automatisch transkribierten Textdaten eine einen Fehlerschwellenwert übersteigende Anzahl an mutmaßlichen Erkennfehlern pro N Wörtern der automatisch transkribierten Textdaten (ATTI) enthalten.
Transkriptionsverfahren nach Anspruch 7, wobei die folgenden weiteren abgearbeitet werden: • Rückübertragen der empfangenen Audiodaten (AI), um eine manuelle Transkription des Diktats zu ermöglichen, wenn die Verarbeitung des Diktats abgebrochen wurde.
Computerprogrammprodukt, das direkt in den internen Speicher eines digitalen Computers (9) geladen werden kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer die Schritte des Transkriptionsverfahrens nach Anspruch 7 abgearbeitet werden, wenn das Produkt auf dem Computer (9) läuft.
Computerprogrammprodukt nach Anspruch 11, wobei es auf einem computerlesbaren Medium gespeichert ist.