-
Die
Erfindung bezieht sich auf eine Transkriptionseinrichtung, der diktierte
Audiodaten zuführbar
sind und die zum Abgeben von mittels einer Spracherkennungssoftware
der Transkriptionseinrichtung diesen Audiodaten automatisch zugeordneten
Textdaten ausgebildet ist.
-
Die
Erfindung bezieht sich weiterhin auf ein Transkriptionsverfahren,
bei dem diktierte Audiodaten empfangbar sind und das zum Abgeben
von bei der Abarbeitung des Transkriptionsverfahrens diesen Audiodaten
automatisch zugeordneten Textdaten ausgebildet ist.
-
Die
Erfindung bezieht sich weiterhin auf ein Computerprogrammprodukt,
das durch die von der Transkriptionseinrichtung abgearbeitete Spracherkennungssoftware
gebildet ist.
-
Das
Dokument WO 00/46787 offenbart einen Transkriptionsservice zur im
Wesentlichen automatischen Transkription eines Diktats, bei dem
eine Transkriptionseinrichtung gemäß dem ersten Absatz ein Transkriptionsverfahren
gemäß dem zweiten
Absatz abarbeitet. Ein Benutzer des bekannten Systems kann diktierte
Audiodaten als digitale Audiodaten über ein Datennetz an die Transkriptionseinrichtung senden,
die durch einen Server gebildet ist.
-
Wenn
der Benutzer den Transkriptionsservice erstmals in Anspruch nimmt,
dann wird das Diktat des Benutzers von einem Angestellten des Transkriptionsservices – einer
Schreibkraft – manuell
transkribiert. Ein weiterer Angestellter des Transkriptionsservices – eine Korrekturkraft – überprüft den von der
Schreibkraft transkribierten Text und editiert darin enthaltene
Fehler. Die zu dem Diktat des Benutzers von dem Transkriptionsservice
manuell transkribierten Textdaten werden samt einer Rechnung an
den Benutzer übermittelt.
-
Die
bekannte Transkriptionseinrichtung arbeitet mit einer Spracherkennungssoftware,
die an den Benutzer des Transkriptionsservices angepasst wird, wobei
Benutzerreferenzen gespeichert werden. Die Qualität der von
der Transkriptionseinrichtung automatisch erkannten Textdaten hängt wesentlich davon
ab, wie gut die Spracherkennungssoftware bereits auf den Benutzer
trainiert ist. Die bekannte Transkriptionseinrichtung nutzt die
Audiodaten aus dem Diktat des Benutzers samt der manuell transkribierten
Textdaten, um die Spracherkennungssoftware zu trainieren und verbesserte
Benutzerreferenzen abzuspeichern.
-
Wenn
der Benutzer den Transkriptionsservice bereits öfter in Anspruch genommen hat,
dann werden seine diktierten Audiodaten zusätzlich auch der Transkriptionseinrichtung
zur automatischen Transkription zugeführt. Die daraufhin von der
Transkriptionseinrichtung automatisch transkribierten Textdaten
werden anschließend
von der Korrekturkraft mit den manuell transkribierten Textdaten
verglichen. Wenn in den automatisch transkribierten Textdaten relativ
wenige Erkennfehler enthalten sind, dann werden die in Zukunft von
diesem Benutzer empfangenen Diktate zuerst von der Transkriptionseinrichtung automatisch
transkribiert und anschließend
von der Korrekturkraft manuell korrigiert. Bei dem Transkriptionsservice
werden Benutzereinstellungen gespeichert, die festlegen, auf welche
Weise das Diktat eines bestimmten Benutzers transkribiert wird.
-
Der
bekannte Transkriptionsservice offenbart weiterhin die Möglichkeit,
dass ein Systemadministrator diese Benutzereinstellungen für eine begrenzte
Zeitspanne derart verändert,
dass Diktate des Benutzers ausschließlich manuell transkribiert werden,
obwohl die automatische Transkription bereits relativ wenige Erkennfehler
in den automatisch transkribierten Textdaten erzielt hat. Diese Änderung der
Benutzereinstellung wird von dem Systemadministrator dann durchgeführt, wenn
er über
eine Krankheit oder eine Zahnbehandlung des Benutzers informiert
wird, die durch die Veränderung
der Aussprache des Benutzers zu einer schlechteren Erkennrate der
automatischen Transkription führen würde.
-
Bei
dem bekannten Transkriptionsservice hat sich als Nachteil erwiesen,
dass bei der automatischen Transkription durch die Transkriptionseinrichtung
manchmal sehr viele Erkennfehler in den automatisch erkannten Textdaten
enthalten sind, wodurch die Korrekturkraft sehr viel Zeit zur Korrektur der
Erkennfehler aufwenden muss.
-
Das
Dokument
US 5.033.088 offenbart
weiterhin ein Gerät
mit automatisch und schließlich
manuell gestützter
Reaktion auf Sprachinformation eines Anrufers. Die Sprachinformation
des Anrufers wird aufgezeichnet und in ein Spracherkennungssystem
des Gerätes
eingegeben. Falls das Ergebnis des Spracherkennungssystems nicht
zuverlässig ist,
werden das Ergebnis und die aufgezeichnete Sprachinformation einem
menschlichen Begleiter zur Nachprüfung und Korrektur zugeführt.
-
Wenn
eine derartige Lösung
für einen
Transkriptionsservice zur automatischen Transkription eines Diktats
verwendet würde,
ergäbe
sich das Problem, dass der Transkriptionsservice mit dem Transkribieren
von vielleicht großen
Mengen Audiodaten in automatisch transkribiertem Text festlaufen
würde, ohne
wegen der schlechten Qualität
der empfangenen Audiodaten überhaupt
die Möglichkeit
zu einer erfolgreichen Transkription zu haben.
-
Die
Erfindung hat sich zur Aufgabe gestellt, eine Transkriptionseinrichtung
gemäß der in
dem ersten Absatz angegebenen Art, ein Transkriptionsverfahren gemäß der in
dem zweiten Absatz angegebenen Art sowie ein Computerprogrammprodukt
gemäß der in
dem dritten Absatz angegebenen Art zu schaffen, bei denen die vorstehend
angeführten Nachteile
vermieden sind.
-
Zur
Lösung
der vorstehend angegebenen Aufgabe sind bei einer solchen Transkriptionseinrichtung
erfindungsgemäße Merkmale
vorgesehen, sodass die Transkriptionseinrichtung durch die nachfolgend
angegebene Weise gekennzeichnet werden kann:
Transkriptionseinrichtung
zum automatischen Transkribieren eines Diktats mit
Empfangsmitteln
zum Empfangen von diktierten Audiodaten und mit
Spracherkennungsmitteln
zum Umwandeln der empfangenen Audiodaten in automatisch transkribierte Textdaten
und mit
Abgabemitteln zum Abgeben der automatisch transkribierten
Textdaten und mit
Abbruchmitteln zum Abbrechen der Verarbeitung
des Diktats mit der Transkriptionseinrichtung, wenn die automatische
Transkription mit den Spracherkennungsmitteln automatisch transkribierte
Textdaten schlechter Qualität
mit relativ vielen mutmaßlichen Erkennfehlern
ergeben würde
oder bereits ergeben hat, welche Abbruchmittel zum Prüfen der
Qualität der
empfangenen Audiodaten für
eine nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln
und zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung
ausgebildet sind, wenn die Qualität der empfangenen Audiodaten eine
erfolgreiche automatische Transkription nicht zulässt.
-
Zur
Lösung
der vorstehend angegebenen Aufgabe sind bei einem solchen Transkriptionsverfahren
erfindungsgemäße Merkmale
vorgesehen, sodass das Transkriptionsverfahren durch die nachfolgend
angegebene Weise gekennzeichnet werden kann:
Transkriptionsverfahren
zum automatischen Transkribieren eines Diktates, wobei die folgenden
Schritte abgearbeitet werden:
- • Empfangen
diktierter Audiodaten;
- • Umwandeln
der empfangenen Audiodaten in automatisch transkribierte Textdaten;
- • Abgeben
der automatisch transkribierten Textdaten;
- • Abbrechen
der Verarbeitung des Diktats, wenn die bei der automatischen Transkription
ermittelten automatisch transkribierten Textdaten eine schlechte
Qualität
mit relativ vielen mutmaßlichen Erkennfehlern
ergeben würde
oder bereits ergeben hat.
- • Prüfen der
Qualität
der empfangenen Audiodaten für
eine nachgeschaltete Spracherkennung, wobei das Signal-Rauschverhältnis eines
die empfangenen Audiodaten enthaltenden Audiosignals geprüft wird;
- • Abbrechen
der Verarbeitung des Diktats, wenn die Qualität der empfangenen Audiodaten
eine erfolgreiche automatische Transkription nicht zulässt.
-
Zur
Lösung
der vorstehend angegebenen Aufgabe sind bei einem solchen Computerprogrammprodukt
erfindungsgemäße Merkmale
vorgesehen, sodass das Computerprogrammprodukt durch die nachfolgend
angegebene Weise gekennzeichnet werden kann:
Computerprogrammprodukt,
das direkt in den internen Speicher eines digitalen Computers geladen werden
kann und Softwarecodeabschnitte umfasst, wobei mit dem Computer
die Schritte des Transkriptionsverfahrens gemäß Anspruch 7 abgearbeitet werden,
wenn das Produkt auf dem Computer läuft.
-
Hierdurch
wird der Vorteil erhalten, dass die Transkriptionseinrichtung gemäß dem Transkriptionsverfahren
die Verarbeitung des Diktats des Benutzers von sich aus automatisch
abbricht, wenn feststeht, dass die noch automatisch zu transkribierenden
Textdaten oder die bereits automatisch transkribierten Textdaten
wegen der schlechten Qualität der
empfangenen Audiodaten so viele Erkennfehler aufweisen würden oder
bereits aufweisen, dass eine Korrekturkraft mehr Zeit zum Editieren
dieser Fehler aufwenden würde,
als notwendig wäre,
wenn das Diktat gleich von der Schreibkraft manuell transkribiert
wird.
-
Auf
diese Weise wird die letztendlich nicht erfolgreiche automatische
Transkription problematischer Diktate sobald als möglich automatisch
abgebrochen. Vorteilhafterweise wird somit die Arbeitszeit der Schreibkräfte und
Korrekturkräfte
effektiver genutzt und zusätzlich
auch Rechenleistung des das Computerprogrammprodukt abarbeitenden
Servers gespart.
-
Darüber hinaus
wird der Vorteil erhalten, dass die Transkriptionseinrichtung die
Qualität
der empfangenen diktierten Audiodaten prüft und somit noch vor der eigentlichen
automatischen Transkription mit Hilfe der Spracherkennungsmittel
entscheidet, ob eine erfolgreiche automatische Transkription mit diesen
Audiodaten überhaupt
möglich
ist.
-
Gemäß den Maßnahmen
von Anspruch 2, von Anspruch 3, von Anspruch 4, von Anspruch 7 und
von Anspruch 8 wird der Vorteil erhalten, dass aussagekräftige Kennzahlen
für die
Qualität
der diktierten Audiodaten zur anschließenden Spracherkennung ermittelt
werden. Basierend auf diesen Kennzahlen ist eine fundierte Entscheidung über Fortsetzung
oder Abbruch der Verarbeitung des Diktats mit der Transkriptionseinrichtung
möglich.
-
Gemäß den Maßnahmen
von Anspruch 5 und von Anspruch 9 wird basierend auf einem von der
Transkriptionseinrichtung ermittelten „Konfidenzmaß" die Anzahl der in
den automatisch transkribierten Textdaten wahrscheinlich falsch
erkannten Wörter
mit der Anzahl aller Wörter
in den automatisch transkribierten Textdaten ins Verhältnis gesetzt. Wenn
diese Berechnung eine unter einer Fehlerschwelle liegende Fehlerrate
ergibt, dann wird die Verarbeitung mit der Transkriptionseinrichtung
abgebrochen und werden die automatisch transkribierten Textdaten
nicht an die Korrekturkraft abgegeben.
-
Gemäß den Maßnahmen
von Anspruch 6 und von Anspruch 10 wird der Vorteil erhalten, dass die
Audiodaten eines problematischen Diktats unmittelbar nach dem Abbruch
der Verarbeitung durch die Transkriptionseinrichtung von der Transkriptionseinrichtung
zurückübertragen
werden, um eine manuelle Transkription zu ermöglichen.
-
Die
Erfindung wird im Folgenden anhand eines in den Figuren dargestellten
Ausführungsbeispiels
beschrieben, auf das die Erfindung aber nicht beschränkt ist.
-
1 zeigt
ein Transkriptionssystem, an das ein Benutzer diktierte Audiodaten
senden kann, woraufhin er von dem Transkriptionssystem zu dem Diktat
transkribierte Textdaten und eine Rechnung erhält.
-
1 zeigt
Benutzerterminals 1, 2 und 3, die über das
Internet NET mit einem Server 4 eines Transkriptionssystems 5 verbunden
sind. Das Benutzerterminal 1 ist durch einen Computer gebildet,
an den ein Mikrofon angeschlossen ist. Ein Benutzer des Computers
kann ein Diktat in das Mikrofon sprechen, das als digitale Audiodaten
von einer mit dem Computer abgearbeiteten Soundrecorder-Software
auf einer Festplatte des Computers gespeichert wird. Die digitalen
Audiodaten können
von dem Computer als Audiodaten AI an den Server 4 übermittelt
werden. In der Audiodaten AI ist in weiterer Folge jeweils auch eine
Benutzerinformation enthalten, die den Benutzer kennzeichnet.
-
Das
Benutzerterminal 2 ist durch ein Telefon und einen Computer
gebildet. Ein Benutzer des Benutzerterminals 2 kann den
Server 4 über
das Internet NET mit dem Telefon anrufen und ein Diktat in das Telefon
sprechen, das als Audiodaten AI an den Server 4 übermittelt
wird.
-
Das
Benutzerterminal 3 ist durch ein digitales Diktiergerät und einen
Computer gebildet. Der Benutzer des Benutzerterminals 3 kann
ein Diktat mit dem Diktiergerät
als digitale Audiodaten aufzeichnen und zu einem späteren Zeitpunkt
auf eine Festplatte des Computers kopieren. Die digitalen Audiodaten
können
von dem Computer als Audiodaten AI an den Server 4 übermittelt
werden.
-
Mit
dem Transkriptionssystem 5 können an den Server 4 übermittelte
diktierte Audiodaten AI transkribiert, also in transkribierte Textdaten
TI umgewandelt werden. Die von dem Transkriptionssystem 5 transkribierten
Textdaten TI werden anschließend von
dem Server 4 an den Computer des Benutzerterminals 1, 2 oder 3 übermittelt,
von dem die Audiodaten AI empfangen wurden. Die von dem Benutzerterminal 1, 2 oder 3 empfangenen
transkribierten Textdaten TI werden schließlich mit dem Computer des jeweiligen
Benutzerterminals 1, 2 oder 3 für den Benutzer
dargestellt, worauf nachfolgend noch näher eingegangen ist.
-
An
den Server 4 abgegebene Audiodaten AI können sowohl manuell als auch
automatisch transkribiert werden. Die manuelle Transkription wird durch
mehrere Mitarbeiter des Transkriptionssystems 5 (durch
Schreibkräfte)
durchgeführt,
die symbolisch als Schreibkraft 6 dargestellt sind. Bei
der manuellen Transkription hört
die Schreibkraft 6 die diktierten Audiodaten AI ab und
schreibt gleichzeitig mit einem Computer den gesprochenen Text als
manuell transkribierte Textdaten MTTI auf, wie dies seit langem
bekannt ist.
-
Weitere
Mitarbeiter des Transkriptionssystems 5 (Korrekturkräfte, die
symbolisch als Korrekturkraft 7 dargestellt sind) erhalten
die von der Schreibkraft 6 manuell transkribierten Textdaten
MTTI samt den zugehörigen
diktierten Audiodaten AI. Die Korrekturkraft 7 hört sich
nochmals die diktierten Audiodaten AI an, prüft die manuell transkribierten
Textdaten MTTI auf Transkribierfehler und bessert gegebenenfalls
gefundene Transkribierfehler aus. Die von der Korrekturkraft 7 geprüften manuell
transkribierten Textdaten MTTI werden als transkribierte Textdaten TI
an den Server 4 und von diesem an die jeweilige Benutzereinrichtung 1, 2 oder 3 abgegeben.
-
Der
Server 4 weist Interfacemittel 8 auf, die durch
ein von dem Server 4 abgearbeitetes Softwaremodul und ein
Modem gebildet sind. Die Interfacemittel 8 sind zum Empfangen
der Audiodaten AI von den Benutzereinrichtungen 1, 2 und 3 und
zum Rückübertragen
der empfangenen Audiodaten AI an die Schreibkraft 6 ausgebildet.
Die Korrekturkraft 7 gibt die transkribierten Textdaten
TI an die Interfacemittel 8 ab, welche diese an die richtige
Benutzereinrichtung 1, 2 oder 3 übermittelt.
-
Der
Server 4 weist weiterhin eine Transkriptionseinrichtung 9 zum
automatischen Transkribieren der diktierten Audiodaten AI entsprechend
einem Transkriptionsverfahren auf. Hierfür arbeitet die Transkriptionseinrichtung 9 eine
Spracherkennungssoftware ab, die ein Computerprogrammprodukt bildet. Eine
solche Spracherkennungssoftware ist beispielsweise unter der Bezeichnung „Speech
Magic" von der Firma
Philips in den Handel gebracht worden.
-
Die
Transkriptionseinrichtung 9 enthält Empfangsmittel zum Empfangen
diktierter Audiodaten, welche Empfangsmittel durch die Interfacemittel 8 gebildet
sind. Die Transkriptionseinrichtung 9 enthält weiterhin
drei Spracherkennungsmittel 10, 11 und 12, die
zum Umwandeln der empfangenen Audiodaten AI in automatisch transkribierte
Textdaten ATTI ausgebildet sind. Der Server 4 arbeitet
die Spracherkennungssoftware dreimal parallel ab, wodurch die drei Spracherkennungsmittel 10, 11 und 12 gebildet
werden. Hierdurch können
die Audiodaten AI von drei Diktaten parallel verarbeitet werden
und kann die Verarbeitungskapazität der Transkriptionseinrichtung 3 gesteigert
werden.
-
Die
Transkriptionseinrichtung 9 enthält weiterhin Abgabemittel 13,
an die die von den Spracherkennungsmitteln 10, 11 und 12 automatisch
transkribierten Textdaten ATTI abgebbar ist. Die Abgabemittel 13 sind
zum Abgeben der diktierten Audiodaten AI samt der von einer der
Spracherkennungsmittel 10, 11 oder 12 automatisch
transkribierten Textdaten ATTI an die Korrekturkraft 7 ausgebildet.
Die Korrekturkraft 7 hört
sich noch mals die diktierten Audiodaten AI an, prüft die automatisch
transkribierten Textdaten ATTI auf Transkribierfehler und bessert
diese aus.
-
Ein
solches vorstehend beschriebenes Transkriptionssystem 5 ist
aus dem Dokument WO 00/46787 bekannt. Die Interfacemittel 8 geben
die Audiodaten AI zur Transkription entweder an die Schreibkraft 6 zur
manuellen Transkription oder an die Transkriptionseinrichtung 9 zur
automatischen Transkription ab. Hierbei wird berücksichtigt, wie oft ein Benutzer
bereits das Transkriptionssystem 5 genutzt hat, wie dies
in dem Dokument WO 00/46787 beschrieben ist.
-
Die
Transkriptionseinrichtung 9 weist Abbruchmittel zum Abbrechen
der Verarbeitung von diktierten Audiodaten AI mit der Transkriptionseinrichtung 9 auf,
wenn die automatische Transkription mit den Spracherkennungsmitteln 10, 11 oder 12 eine schlechte
Qualität
der automatisch transkribierten Textdaten ATTI mit relativ vielen
Erkennfehlern ergeben würde
oder bereits ergeben hat. Erste Abbruchmittel 14 der Transkriptionseinrichtung 9 sind
zum Prüfen
der Qualität
der empfangenen Audiodaten AI für
die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 und
zum Abbrechen der Verarbeitung des Diktats mit der Transkriptionseinrichtung 9 ausgebildet,
wenn die Qualität
der empfangenen Audiodaten AI eine erfolgreiche automatische Transkription
nicht zulässt.
-
Die
ersten Abbruchmittel 14 enthalten erste Prüfmittel 15 und
Kontrollmittel 16. Die ersten Prüfmittel 15 weisen
einen Analog/Digitalwandler auf, mit dem die als digitale Audiodaten
empfangenen Audiodaten AI in ein analoges Audiosignal umgewandelt werden.
Die ersten Prüfmittel 15 sind
bei einer ersten Prüfung
zum Prüfen
des Signal-Rauschverhältnisses des
analogen Audiosignals ausgebildet, wie dies allgemein bekannt ist.
Die ersten Prüfmittel 15 sind
bei einer zweiten Prüfung
zum Prüfen
des Pegels des analogen Audiosignals ausgebildet, wie dies ebenfalls
allgemein bekannt ist.
-
Wenn
die ersten Prüfmittel 15 bei
der ersten Prüfung
feststellen, dass das Signal-Rauschverhältnis des analogen Audiosignals
schlechter als ein S/N-Schwellenwert (z.B. S/N-Schwellenwert = 20
dB) ist, dann sind die ersten Prüfmittel 15 zum
Abgeben eines ersten Abbruchsignals ABI1 an die Kontrollmittel 16 ausgebildet.
Wenn die ersten Prüfmittel 15 bei der
zweiten Prüfung
feststellen, dass der Pegel des analogen Audiosignals schlechter
als ein Pegel-Schwellenwert (z.B. Pegel-Schwellenwert = –30 dB)
ist, dann sind die ersten Prüfmittel 15 zum
Abgeben eines zweiten Abbruchsignals ABI2 an die Kon trollmittel 16 ausgebildet.
Zusätzlich
werden die von den ersten Prüfmitteln 15 geprüften Audiodaten
AI an die Kontrollmittel 16 zurückübertragen.
-
Wenn
die ersten Prüfmittel 15 als
Ergebnis der Prüfungen
weder das erste Abbruchsignal ABI1 noch das zweite Abbruchsignal
ABI2 an die Kontrollmittel 16 abgeben, dann sind die Kontrollmittel 16 zum
Rückübertragen
der Audiodaten AI an eines der Spracherkennungsmittel 10, 11 oder 12 ausgebildet, das
derzeit verfügbar
ist.
-
Hierdurch
wird der Vorteil erhalten, dass die Transkriptionseinrichtung 9 eine
automatische Transkription der diktierten Audiodaten AI durchführt, wenn die
Qualität
der empfangenen Audiodaten AI für
die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 ausreichend
gut ist. So kann vorteilhafterweise die Rechenleistung des Servers 4 optimal
genutzt werden, da nur solche Diktate automatisch transkribiert
werden, deren Audiodaten AI qualitativ gut sind.
-
Wenn
andererseits die ersten Prüfmittel 15 als
Ergebnis der Prüfungen
das erste Abbruchsignal ABI1 und/oder das zweite Abbruchsignal ABI2
an die Kontrollmittel 16 abgeben, dann sind die Kontrollmittel 16 zum
Rückübertragen
der Audiodaten AI an die Schreibkraft 6 ausgebildet. Die
Kontrollmittel 16 bilden hierbei Rückübertragungsmittel.
-
Hierdurch
wird der Vorteil erhalten, dass die Transkriptionseinrichtung 9 die
automatische Transkription der diktierten Audiodaten AI erst gar
nicht durchführt
und eine manuelle Transkription veranlasst, wenn die Qualität der empfangenen
Audiodaten AI für
die nachgeschaltete Spracherkennung mit den Spracherkennungsmitteln 10, 11 oder 12 nicht ausreichend
gut ist. Besonders vorteilhaft ist hierbei, dass die Kontrollmittel 16 die
Audiodaten AI solcher Diktate gleich automatisch an die Schreibkraft 6 zur manuellen
Transkription zurücküberträgt.
-
Die
Spracherkennungsmittel 10, 11 und 12 sind
bei der Umwandlung der Audiodaten AI in die automatisch transkribierten
Textdaten ATTI zum Ermitteln eines sogenannten Konfidenzmaßes zu jedem
Wort der automatisch transkribierten Textdaten ATTI ausgebildet,
wie dies dem Fachmann seit längerer
Zeit bekannt ist. Das Konfidenzmaß eines Wortes ist ein Wahrscheinlichkeitswert,
der die Wahrscheinlichkeit angibt, mit der dieses Wort von den Spracherkennungsmitteln 10, 11 oder 12 richtig
erkannt wurde. Die Spracherkennungsmittel 10, 11 und 12 sind
zum Abgeben einer Zuverlässigkeitsinformation
ZI an die Abgabemittel 13 ausgebildet, die das Konfidenzmaß für jedes
Wort der automatische transkribierten Textdaten ATTI angibt.
-
Die
Abgabemittel 13 der Transkriptionseinrichtung 9 bilden
weiterhin zweite Prüfmittel,
die zum Durchführen
einer dritten Prüfung
ausgebildet sind. Bei der dritten Prüfung prüfen die zweiten Prüfmittel, welche
Anzahl K an Wörtern
der automatisch transkribierten Textdaten ATTI einen niedrigeren
Wahrscheinlichkeitswert als einen Schwellenwahrscheinlichkeitswert
(z.B. Schwellenwahrscheinlichkeitswert = 50%) aufweisen.
-
Wenn
diese Anzahl K von Erkennfehlern pro N Wörter der automatisch transkribierten
Textdaten ATTI größer als
ein Fehlerschwellenwert (z.B. Fehlerschwellenwert = 20%) ist, dann
sind die zweiten Prüfmittel
zum Abgeben eines dritten Abbruchsignals ABI3 an die Kontrollmittel 16 ausgebildet.
Die dritten Prüfmittel
der Abgabemittel 13 bilden hierbei gemeinsam mit den Kontrollmitteln 16 zweite
Abbruchmittel. Wenn die Kontrollmittel 16 das dritte Abbruchsignal ABI3
empfangen, dann sind die Kontrollmittel 16 zum Abgeben
dieser diktierten Audiodaten AI an die Schreibkraft 6 ausgebildet.
-
Hierdurch
wird der Vorteil erhalten, dass automatisch transkribierte Textdaten
ATTI mit vielen Erkennfehlern nicht an die Korrekturkraft 7 abgegeben werden,
weil die Korrekturkraft 7 in diesem Fall für das Durchführen der
notwendigen Korrekturen wesentlich länger brauchen würde, als
wenn die Schreibkraft 6 dieses Diktat gleich manuell transkribiert.
-
Im
Folgenden sollen die Vorteile der erfindungsgemäßen Transkriptionseinrichtung 9 anhand von
drei Anwendungsbeispielen näher
erläutert
werden. Gemäß dem ersten
Anwendungsbeispiel sei angenommen, dass ein Arzt bereits öfter den
Transkriptionsservice des Transkriptionssystems 5 in Anspruch
genommen hat. In den Spracherkennungsmitteln 10, 11 und 12 sind
daher zu den Audiodaten AI bereits transkribierter Diktate ermittelte
Benutzerreferenzen des Arztes gespeichert. Die Spracherkennungsmittel 10, 11 und 12 transkribieren
Diktate des Arztes bereits mit sehr wenigen Erkennfehlern in den automatische
transkribierten Textdaten ATTI.
-
Der
Arzt nutzt sein Benutzerterminal 2, wobei er, nachdem er
den Server 4 mit dem Telefon angerufen und sich identifiziert
hat, ein Diktat in das Telefon diktiert. Hierbei vergisst der Arzt
jedoch ein Fenster seines Arbeitszimmers zu schließen, weshalb
den diktierten Audiodaten AI Strassengeräusche überlagert sind.
-
Da
die Diktate dieses Arztes bereits öfter erfolgreich von der Transkriptionseinrichtung 9 automatisch
transkribiert wurden, leiten die Interfacemittel 8 die
empfangenen Audiodaten AI an die ersten Prüfmittel 15 weiter.
Die ersten Prüfmittel 15 stellen
bei der ersten Prüfung
fest, dass das Signal-Rauschverhältnis
des die Audiodaten AI enthaltenden Audiosignals zu schlecht ist,
um bei der automatischen Transkription mit einem der Spracherkennungsmittel 10, 11 oder 12 automatisch
transkribierte Textdaten ATTI mit vertretbar wenigen Erkennfehlern
zu erhalten, und geben das erste Abbruchsignal ABI1 an die Kontrollmittel 16 ab.
Die ersten Prüfmittel 15 stellen
bei der zweiten Prüfung
fest, dass der Pegel des die Audiodaten AI enthaltenden Audiosignals
ausreichend gut ist und geben daher das zweite Abbruchsignal ABI2
nicht an die Kontrollmittel 16 ab.
-
Die
ersten Abbruchmittel 14 sind vorteilhafterweise zum Abbrechen
der Verarbeitung des Diktats mit der Transkriptionseinrichtung 9 ausgebildet, bevor
die Spracherkennungsmittel 10, 11 oder 12 mit der
automatischen Transkription der Audiodaten AI begonnen haben. Hierbei übertragen
die Kontrollmittel 16, nach dem Empfang des ersten Abbruchsignals ABI1,
die empfangenen Audiodaten AI zurück an die Schreibkraft 6 zur
manuellen Transkription des Diktats. Die Schreibkraft 6 kann
somit dieses von Strassengeräuschen überlagerte
und daher schwer transkribierbare Diktat manuell transkribieren
und anschließend
an die Korrekturkraft 7 abgeben.
-
Der
in Summe für
dieses Diktat notwendige manuelle und somit kostenintensive Arbeitsaufwand der
Schreibkraft 6 und der Korrekturkraft 7 konnte
somit vorteilhafterweise minimiert werden, da die Korrekturkraft 7 sehr
lange gebraucht hätte,
die automatisch transkribierten Textdaten ATTI zu editieren.
-
Gemäß dem zweiten
Anwendungsbeispiel sei angenommen, dass der Arzt ein weiteres Diktat relativ
leise diktiert, da sich ein schlafender Patient im Arbeitszimmer
befindet. Die ersten Prüfmittel 15 stellen
bei ihrer zweiten Prüfung
der Audiodaten AI dieses weiteren Diktats fest, dass der Pegel des
die Audiodaten AI enthaltenden Audiosignals kleiner als der Pegel-Schwellenwert
ist und geben das zweite Abbruchsignal ABI2 an die Kontrollmittel 16 ab.
Hierauf brechen die ersten Abbruchmittel 14 die Verarbeitung dieses
weiteren Diktats bereits vor der automatischen Transkription ab,
wodurch die vorstehend angeführten
Vorteile erhalten werden.
-
Gemäß dem dritten
Anwendungsbeispiel sei angenommen, dass der Arzt ein weiteres Diktat
diktiert und zur Transkription an das Transkriptionssystem 5 übermittelt.
Auch dieses weitere Diktat wird von den Interfacemitteln 8 an
die Transkriptionseinrichtung 9 zurückübertragen. Da die Qualität dieser
diktierter Audiodaten AI ausreichend gut ist, geben die ersten Prüfmittel
weder das erste Abbruchsignal ABI1 noch das zweite Abbruchsignal
ABI2 an die Kontrollmittel 16 ab.
-
Die
zweiten Spracherkennungsmittel 11 transkribieren daraufhin
diese weiteren diktierten Audiodaten AI, wobei die von den zweiten
Spracherkennungsmitteln 11 automatisch transkribierten
Textdaten ATTI eine den Fehlerschwellenwert übersteigende Anzahl an Erkennfehlern
pro 100 Wörter
der automatische transkribierten Textdaten ATTI aufweisen. Dies
deshalb, weil der Arzt bei dem Diktat heiser war und eine andere
Aussprache als üblich
hat.
-
Die
dritten Prüfmittel
der Abgabemittel 13 stellen diese den Fehlerschwellenwert übersteigende Anzahl
an Erkennfehlern bei ihrer dritten Prüfung automatisch fest und geben
hierauf das dritte Abbruchsignal ABI3 an die Kontrollmittel 16 ab.
Die Kontrollmittel 16 übertragen
hieraufhin die Audiodaten AI dieses weiteren Diktats zurück an die
Schreibkraft 6, wodurch die vorstehend angeführten Vorteile
erhalten werden.
-
Es
kann erwähnt
werden, dass eine erfindungsgemäße Transkriptionseinrichtung
weitere Prüfmittel
zum Prüfen
der empfangenen Audiodaten, zum Prüfen der Qualität von Zwischenergebnissen oder
des Endergebnisses der automatischen Transkription aufweisen kann.
Basierend auf diesen Prüfungen
entscheiden die Abbruchmittel, ob ein Abbruch der Verarbeitung des
Diktats mit der Transkriptionseinrichtung vorteilhaft ist.
-
Es
kann erwähnt
werden, dass erfindungsgemäße Abbruchmittel
auch in einer Transkriptionseinrichtung für Online-Transkription vorgesehen sein
können.
-
Es
kann erwähnt
werden, dass die Korrekturkraft üblicherweise
nur stichprobenartig manuell transkribierte Textdaten MTTI prüft.
-
Es
kann erwähnt
werden, dass die Spracherkennungsmittel ebenfalls Abbruchmittel
aufweisen können,
die, beispielsweise nach einer 20 Sekunden langen Transkription
der empfangenen Audiodaten, die Qualität der zu diesen Audiodaten
automatisch transkribierten Textdaten ermitteln, mit dem Fehlerschwellenwert
vergleichen und gegebenenfalls die Verarbeitung abbrechen. Hierdurch
wäre der
Vorteil erhalten, dass die Verarbeitung der empfangenen Audiodaten
auch während
der automatischen Transkription abgebrochen werden kann.
-
Es
kann erwähnt
werden, dass die ersten Abbruchmittel auch zum Prüfen der
empfangenen Audiodaten auf nichtlineare Verzerrungen ausgebildet
sein können.
Solche nichtlinearen Verzerrungen treten beispielsweise dann auf,
wenn das Audiosignal übersteuert
wurde oder wenn beim Komprimieren/Dekomprimieren von Audiodaten
Probleme aufgetreten sind. Da die Erkennrate der Spracherkennungsmittel
schlechter ist, wenn die empfangenen Audiodaten nichtlineare Verzerrungen
aufweisen, ist ein Abbruch der Verarbeitung der Audiodaten vorteilhaft,
wenn die nichtlinearen Verzerrungen zu stark sind.