DE10204924A1

DE10204924A1 - Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen

Info

Publication number: DE10204924A1
Application number: DE10204924A
Authority: DE
Inventors: Eric Thelen; Dietrich Klakow; Holger Scholl; Uli Waibel; Josef Reisinger
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2002-02-07
Filing date: 2002-02-07
Publication date: 2003-08-21
Also published as: JP2005517216A; EP1479070A1; AU2003205955A1; DE60312963D1; WO2003067573A1; ATE358869T1; EP1479070B1; US20060167685A1; DE60312963T2

Abstract

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Transkription gesprochener und schriftlicher Äußerungen. Dazu werden die Äußerungen einer Sprach- bzw. Texterkennung unterzogen und das Erkennungsergebnis (ME) zur Gewinnung der Transkription mit einer manuell erstellten Transkription (MT) der Äußerungen kombiniert. Die durch die Kombination nutzbar gemachte zusätzliche Information durch das Erkennungsergebnis (ME) erlaubt es dem Transkribierer, bei der manuellen Transkription relativ grob und damit schnell zu arbeiten. So kann er sich bei Benutzung einer Tastatur (25) beispielsweise auf das Anschlagen der Tasten nur einer Tastaturzeile beschränken und/oder manche Tastenanschläge ganz weglassen. Zusätzlich kann das manuelle Transkribieren auch durch das Vorschlagen auf Grund des Erkennungsergebnisses (ME) erwarteter Fortsetzungen (31) des bisher eingegebenen Textes (30) beschleunigt werden.

Description

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Transkription gesprochener und schriftlicher Äußerungen. Die Notwendigkeit solcher Transkriptionen ergibt sich in vielen Bereichen des geschäftlichen und privaten Lebens. So diktieren z. B. Röntgenärzte ihre Befunde und Anwälte ihre Schriftsätze, Studenten schreiben ihre Studien- und Diplomarbeiten oft zunächst von Hand nieder, und Besprechungsprotokolle werden oft zunächst nur unter Zuhilfenahme einer Kurzschrift (als Stenogramm) festgehalten.
Zur Weiterverarbeitung müssen diese gesprochenen und schriftlichen Äußerungen transkribiert werden, d. h. es muss eine Reinschrift von ihnen angefertigt werden. So geben z. B. die Angestellten eines Schreibbüros die beispielsweise auf Tonband oder Computerdatei festgehaltenen Befunde einer Röntgenabteilung manuell in ein Textverarbeitungssystem ein, oder eine Sekretärin tippt auf der Schreibmaschine den zunächst in Kurzschrift mitgeschriebenen von ihrem Chef diktierten Brief. Um eine maschinenverarbeitbare Transkription zu erhalten, ist es auf Grund moderner Technik jedoch heute nicht mehr zwingend, den Text direkt in einen Computer einzugeben. Alternativ kann man z. B. den Text sauber, beispielsweise in Druckbuchstaben, handschriftlich aufschreiben oder ihn deutlich, z. B. mit kleinen Pausen zwischen den einzelnen Worten, diktieren. Ein nachgeschaltetes Text- bzw. Spracherkennungssystem kann dann die sauber erstellte Vorlage bis auf wenige nötigenfalls manuell zu korrigierende Fehler verarbeiten.
Weiterhin besteht auch die Möglichkeit, die ursprüngliche gesprochene oder schriftliche Äußerung unmittelbar einem Mustererkennungssystem zuzuführen. Dazu werden auf dem Markt von verschiedenen Herstellern Sprach- und Texterkennungssysteme angeboten, so z. B. das Programm FreeSpeech der Firma Philips. Diese Mustererkennungssysteme arbeiten jedoch nur dann optimal, wenn die gesprochenen und schriftlichen Eingaben sauber und klar erstellt und die Mustererkennungsparameter der Systeme auf die Autoren und Art der Äußerungen und die Benutzungsbedingungen trainiert oder wenigstens auf diese angepasst wurden. Da dies oft nicht der Fall ist, und weil es selbst dann bei manchen Autoren, z. B. bei undeutlicher Handschrift, und/oder in manchen Situationen, z. B. bei hohem Geräuschpegel, trotzdem noch Probleme gibt, weisen diese mit Hilfe eines Mustererkennungssystems automatisch erstellten Transkriptionen üblicherweise der Verbesserung bedürfende Fehler auf.
Daher werden die Erkennungsergebnisse solcher Systeme in der Regel von einem menschlichen Transkribierer manuell korrigiert. Zur Unterstützung dieser manuellen Korrekturen bieten manche der Spracherkennungssysteme sogenannte Korrektureditoren an. So erlaubt z. B. der Korrektureditor von FreeSpeech eine Synchronisierung der Audiowiedergabe mit einer Textmarkierung auf dem Bildschirm, d. h. beim Abspielen des Audiosignals wird das an dieser Stelle erkannte Wort auf dem Bildschirm markiert. Nach Erkennen eines Fehlers korrigiert ihn der menschliche Transkribierer dann mit Hilfe einer Tastatur- und/oder Mauseingabe.
Die US 5,855,000 offenbart eine spezielle Variante eines Korrektureditors. Nach Lokalisierung eines Erkennungsfehlers (locating an error) korrigiert der menschliche Transkribierer diesen durch eine zweite Mustereingabe (secondary input signal), die vom Mustererkennungssystem in eine Reparaturhypothese (repair hypothesis) umgewandelt wird. Die Reparaturhypothese wird dann mit der ursprünglichen Erkennungshypothese (recognition hypothesis) zu einer neuen Hypothese kombiniert (correlating at least a portion of the recognition hypothesis with said repair hypothesis to produce a new hypothesis), die schließlich die ursprüngliche Erkennungshypothese ersetzt (replacing said located error with the new hypothesis).
Als zweite Mustereingabe kommt es dabei für den Transkribierer einer gesprochenen Äußerung insbesondere in Frage, die fehlerhaft erkannte Textpassage (noch einmal) ins Mikrofon des Systems zu sprechen (repair hypothesis from a respeaking of at least a portion of the utterance). Auch sieht eine Ausführungsform der US 5,855,000 vor, den Erkennungsfehler dadurch zu lokalisieren, dass der Transkribierer die entsprechende Passage nochmals spricht, die Erkennungshypothesen dieser Wiederholung automatisch in die ursprüngliche Erkennungshypothese eingeordnet und dem Transkribierer zur Bestätigung angeboten werden (Each hypothesis in the secondary n-best list is evaluated to determine if it is a substring of the first hypothesis of the primary recognition . . .).
Durch das Angebot eines zweiten Mustererkennungskanals und die Informationsausnutzung durch Kombination der Reparaturhypothese mit der ursprünglichen Erkennungshypothese verschafft die US 5,855,000 dem Transkribierer also neben den klassischen Korrektureingabemöglichkeiten über Tastatur und Maus eine weitere Eingabemodalität, die seine Produktivität bei der Korrektur des Ergebnisses einer ersten Mustererkennung erhöhen soll.
Trotz all dieser und weiterer bekannter Verbesserungen der Korrektureditoren und der Mustererkennungssysteme selbst besteht aber auch heute noch das Problem, dass der Prozess des Korrigierens des Mustererkennungsergebnisses einer gesprochenen oder schriftlichen Äußerung mehr Zeit und Mühe kosten kann als das direkte manuelle Transkribieren der Äußerung. Dies hat seine Gründe u. a. in der für die Korrektur erforderlichen hohen Aufmerksamkeit: "ein" und "kein" sind für ein Spracherkennungssystem sehr ähnliche Worte und auch für den Transkribierer sind die Unterschiede im Schriftbild leicht zu übersehen, und in der diskontinuierlichen Struktur des Korrekturprozesses: korrekte Passagen sind nur mitzuverfolgen, bei einer falschen Passage muss die Passage markiert oder der Textcursor positioniert, Zeichen gelöscht und/oder neue eingegeben werden. Dies führt dazu, dass nach dem Überschreiten einer gewissen Fehlerrate im Mustererkennungsergebnis dieses im Grunde nicht nur wertlos wird, sondern sogar zu einer ineffizienten Arbeitsweise für den Transkribierer führt, der besser die Äußerung direkt manuell transkribieren würde.
Es ist daher Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung anzugeben, die Mustererkennung einer gesprochenen oder schriftlichen Äußerung dahingehend für die Transkription der Äußerung nutzbar zu machen, dass ein menschlicher Transkribierer mindestens so effizient wie bei einer direkten manuellen Transkription arbeiten kann.
Diese Aufgabe wird gelöst durch die jeweiligen in den Patentansprüchen 1, 2, 8, 9 und 10 genannten Verfahren und Vorrichtungen. Alle diese Verfahren und Vorrichtungen beruhen auf dem Grundgedanken, im Gegensatz zum Stand der Technik nicht ein Mustererkennungsergebnis manuell korrigieren zu lassen, sondern den Prozess der manuellen Transkription einer gesprochenen oder schriftlichen Äußerung als solchen beizubehalten, um ihn aber dann durch eine Mustererkennung zu unterstützen.
Dies kann z. B. wie in den Ansprüchen 1, 8 und 10 beansprucht durch Kombination der manuellen Transkription und des Mustererkennungsergebnisses geschehen. Eine Äußerung wird also manuell transkribiert, um anschließend mit dem Mustererkennungsergebnis der Äußerung kombiniert zu werden. Da das Mustererkennungsergebnis zusätzliche Information zur manuellen Transkription hinzufügt, kann der menschliche Transkribierer dies bei seiner Arbeitsweise berücksichtigen, um die manuelle Transkription z. B. schneller oder auf für ihn angenehmere Weise zu erstellen.
So kann er z. B. wie in Anspruch 6 beansprucht den manuell transkribierten Text handschriftlich erstellen und/oder eine Kurzschrift benutzen. Schreibfehler können unkorrigiert bleiben. Wie in Anspruch 7 beansprucht können bei Benutzung einer Tastatur manche Tastaturanschläge weggelassen werden, oder es werden schneller zu erreichende Tasten angeschlagen, um die Tippgeschwindigkeit zu erhöhen. Besonders interessant ist hier beispielsweise die Beschränkung auf das Anschlagen der Tasten einer einzigen Tastaturzeile. Auf einer deutschen Tastatur kann z. B. für die Zeichen "4", "e", "d" und "c" jeweils immer nur ein "d" (mit dem Mittelfinger der linken Hand) angeschlagen werden. Lässt man auch das Betätigen der Umschalttaste weg, so vermeidet dies Handbewegungen beim Tippen völlig und die Tippgeschwindigkeit erhöht sich deutlich.
Solche Arbeitsweisen können durch speziell entworfene Tastaturen weiter unterstützt werden. Dabei kann beim Schreibstil und beim Entwurf der Tastatur berücksichtigt werden, dass die manuelle Transkription und das Mustererkennungsergebnis möglichst komplementär zueinander sein sollten. So kann z. B. eine manuelle Transkription ein Spracherkennungsergebnis ergänzen, indem sie ähnliche und damit leicht verwechselbare Laute wie z. B. "m" und "n" oder "b" oder "p" durch verschiedene Zeichen darstellt. Im oben erwähnten Beispiel einer Tastaturzeile einer deutschen Tastatur werden z. B. "m" und "n" durch die Tasten "j" und "h" dargestellt, sind also unterschieden. Bei Beschränkung auf die 10 Tasten der Ruheposition der Hände ("a", "s", "d", "f", "Leertaste" für die linke Hand und "Leertaste", "j", "k", "l", "ö" für die rechte Hand) dagegen fielen "m" und "n" beide auf "j", wären also nicht unterschieden, womit ein solcher Schreibstil und eine ihn unterstützende Tastatur für die manuelle Transkription nicht so geeignet wären.
Die Mustererkennung der gesprochenen oder schriftlichen Äußerung kann unabhängig von der manuellen Transkription vorgenommen werden. In diesem Fall sind Mustererkennung und manuelle Transkription voneinander unabhängig und ihre Ergebnisse werden nur nachträglich kombiniert. Es ist jedoch auch möglich, dass ein Prozess den anderen bei der Abarbeitung direkt unterstützt.
So beansprucht Anspruch 2 eine Konstellation, in der die Mustererkennung durch den manuell transkribierten Text unterstützt wird. Unteranspruch 5 nennt als Beispiele einer solchen Unterstützung die Auswahl von Erkennungsvokabular und Erkennungssprachmodell. Taucht so z. B. in der manuellen Transkription das durch Weglassen der Vokale verkürzt geschriebene Wort "wrd" auf, so werden für die Mustererkennung die Wörter "ward", "werd", "werde", "wird", "wurde", "würde" und "Würde" im Vokabular aktiviert. Entsprechend kann das Sprachmodell z. B. auf die Abfolge der in der manuellen Transkription auftauchenden Wortalternativen beschränkt werden.
Will man die Mustererkennung durch die manuelle Transkription darüber hinaus noch in besonderer Weise unterstützen, so kann der Transkribieren in den manuell transkribierten Text auch noch spezielle Kontrollanweisungen für die nachfolgende Mustererkennung einfügen. Z. B. könnte er Sprecherwechsel ggf. mit Angabe der Sprecheridentität markieren. Genauso könnten Angaben über die semantische und/oder formale Struktur der Textpassagen gemacht werden, z. B. Themenangaben oder Abschnittsangaben wie Briefkopf, Überschrift oder Grußformel. Die Mustererkennung könnte solche Meta-Informationen durch Benutzen geeigneter Mustererkennungsmodelle für verschiedene Sprecher, Sprachstrukturen und dergleichen zur Erhöhung der Erkennungsgüte verwenden. Dabei ist darauf zu achten, diese Zusatzangaben sparsam zu verwenden, damit der Zusatzaufwand des Transkribierers durch die verbesserte Mustererkennungsgüte gerechtfertigt ist.
Da in diesen Fällen die im manuell transkribierten Text enthaltene Information weitgehend bereits in einer entsprechenden Konfigurierung der Mustererkennung berücksichtigt werden kann, sieht eine Ausführungsform der Erfindung dafür vor, das Mustererkennungsergebnis direkt als Transkription der Äußerung zu übernehmen. Dies erspart den Aufwand einer weiteren Kombination mit dem manuell transkribierten Text.
Anspruch 9 dagegen beansprucht eine Konstellation, in der das Mustererkennungsergebnis die manuelle Transkription unterstützt. Dazu werden dem menschlichen Transkribierer während des Prozesses der manuellen Transkription Textfortsetzungen angeboten, die er z. B. durch Drücken einer speziellen Taste, beispielsweise der Tabulatortaste, oder auch nur durch kurzes Innenhalten beim Tippen akzeptieren oder durch Weiterschreiben ablehnen kann.
Hat der menschliche Transkribierer z. B. den Text "Es liegt" bereits eingegeben, so weist das Mustererkennungsergebnis vielleicht jetzt zwei mögliche Fortsetzungen, nämlich die alternativen Worte "ein" und "kein", auf. Die Vorrichtung zum Transkribieren kann diese Alternativen jetzt anbieten und der Transkribierer kann eine davon durch spezielle, z. B. in der hiermit in diese Anmeldung einbezogenen US 5,027,406 beschriebene Aktionen wie z. B. dem Drücken einer der beiden Funktionstasten "F1" und "F2" auswählen. Um den Schreibfluss des Transkribierers möglichst wenig zu stören, kann sie jedoch auch noch auf die Eingabe des nächsten Buchstabens warten. Gibt der Transkribierer dann ein "k" ein, so kann die Vorrichtung die Vervollständigung auf "kein" anbieten und der Transkribierer kann sie durch Drücken von "TAB" akzeptieren oder einfach weiterschreiben.
Nach Abschluss der Eingabe von "kein" wird das Spracherkennungsergebnis vielleicht eindeutig durch das Wort "Gehirntumor" fortgesetzt. Dieses Wort kann dann sofort nach der Eingabe von "kein" angeboten werden. Da das Spracherkennungsergebnis aber bereits nach Eingabe des "k" von "kein" eindeutig ist, kann nach Eingabe von "k" auch sofort die Vervollständigung zu "kein Gehirntumor" angeboten werden. Natürlich ist vor der Eingabe des "k" auch die Anzeige der beiden Alternativen "ein Gehirntumor" und "kein Gehirntumor" möglich.
Neben den in den Ansprüchen 2 und 9 beanspruchten Wechselwirkungen zwischen manueller Texterstellung und Mustererkennung sind auch noch weitere Interaktionsmöglichkeiten im Rahmen der Erfindung denkbar. So kann z. B. der Mustererkennungsprozess auch nach einer Eingabe eines ersten Teiles des Textes unter Berücksichtigung dieser Eingabe wiederholt werden, um dann die weitere Texterstellung in beschriebener Weise weiter zu unterstützen.
Die Kombination von manuell transkribiertem Text und Mustererkennungsergebnis kann im einfachsten Fall durch Übernahme eine der beiden Möglichkeiten für die Transkription vorgenommen werden. Eine Übernahme des Mustererkennungsergebnisses ist z. B. dann sinnvoll, wenn das Mustererkennungsergebnis eine sehr hohe Zuverlässigkeit aufweist. Den manuell transkribierten Text kann man dann übernehmen, wenn er offensichtlich keine Fehler aufweist, wenn man also z. B. alle seine Worte in einem Lexikon findet und keine grammatikalischen Regeln verletzt sind.
Dagegen beansprucht Unteranspruch 3 eine stochastische Kombination der beiden Möglichkeiten. Seien dafür O das Eingabesignal für die Mustererkennung, T mögliche Transkriptionen, MT der manuell transkribierte Text, ME das Mustererkennungsergebnis, bezeichne P(. . .) die verschiedenen Wahrscheinlichkeitsmodelle und P(. . .|. . .) die bedingten Wahrscheinlichkeiten. Dann ergibt sich die wahrscheinlichste Transkription T_opt nach der Bayes'schen Regel zu:
Werden manuelle Transkription und Mustererkennung unabhängig voneinander durchgeführt (und hängt die manuelle Transkription nur über die tatsächliche Transkription vom Eingabesignal O ab, d. h. ist P(MT|T, O) = P(MT|T), was auch für die folgenden Absätze angenommen wird) so ergibt sich weiter:

wird dagegen die Mustererkennung unter Berücksichtigung des manuell transkribierten Textes durchgeführt (Anspruch 2), so ist:

oder wird die manuelle Transkription durch die Mustererkennung unterstützt (Anspruch 9), so ist:
Für die stochastische Modellierung der Mustererkennung P(ME, O|T) bzw. P(ME, O|T, MT) lassen sich z. B. die bekannten Hidden-Markov-Modelle verwenden. So gilt beispielsweise für P(ME, O|T):

P(ME, O|T) = P(O|T),

da das Mustererkennungsergebnis ME sich in eindeutiger Weise aus dem Eingabesignal O ergibt: ME = ME(O), und daher nicht zur Wahrscheinlichkeit beiträgt. Letztere Wahrscheinlichkeit ist jedoch nichts anderes als das bekannte Produktionsmodell P(O|T), das üblicherweise auf einem Trainingskorpus trainiert wird.
Für die stochastische Modellierung der manuellen Transkription P(MT|T) bzw. P(MT|T, ME) kann man im einfachsten Fall eine Gleichverteilung der zu einer Transkription T passenden manuellen Transkriptionen MT annehmen. Dabei "passt" MT zu T, wenn man MT aus T durch Schreibfehler, durch das oben beschriebene Weglassen oder Ersetzen von Tastenanschlägen oder ähnliche Operationen erhalten kann. Statt einer Gleichverteilung kann man jedoch auch Statistiken für diese einzelnen Vorgänge beim Transkribieren, auf Wunsch auch separat für jeden Transkribierer, erstellen, um eine genauere stochastische Modellierung zu erhalten. Schließlich lassen sich für die Modellierung von P(T) z. B. die aus der Mustererkennung bekannten Sprachmodelltechniken verwenden.
Unteranspruch 4 beansprucht, das Mustererkennungsergebnis in Form einer bewerteten N-Besten-Liste oder in Form eines Wortgraphen zu berechnen und für die Kombination mit dem manuell transkribierten Text eine Wiederbewertung (englisch: re-scoring) der N-Besten-Liste oder des Wortgraphen an Hand des manuell transkribierten Textes durchzuführen. Dazu kann z. B. für jede Alternative der N-Besten-Liste bewertet werden, wie groß ihr Abstand zum manuell transkribierten Text ist, indem beispielsweise gezählt wird, wie viele Tastenanschläge weggelassen, hinzugefügt oder ersetzt werden müssten, um die Alternative mit der manuellen Transkription in Übereinstimmung zu bringen. Weiter können diese Prozesse des Weglassens, Hinzufügens und Ersetzens noch unterschiedlich bewertet werden. Die Summe dieser Bewertungen wird zusammen mit der Mustererkennungsbewertung der Alternative zu einer Neubewertung von ihr zusammengefasst. Liegen die stochastischen Modelle als Logarithmen von Wahrscheinlichkeiten vor, so kann man als Zusammenfassen die Addition der Bewertungen verwenden. Jedoch sind auch andere Möglichkeiten vorstellbar.
Für die Ausgestaltung der Kombination von manuell transkribiertem Text und Mustererkennungsergebnis stehen dem Fachmann auch noch weitere Möglichkeiten zur Verfügung. Insbesondere wird hier auf die bereits erwähnte US 5,855,000 verwiesen, die hiermit in diese Anmeldung einbezogen wird.
Manuelle Transkription, Mustererkennung und Kombination des manuell transkribierten Textes mit dem Mustererkennungsergebnis bilden Komponenten eines Gesamtsystems zur Transkription von gesprochenen und/oder schriftlichen Äußerungen. Je nach Systemgestaltung können diese Komponenten in einer gemeinsamen Vorrichtung oder auch separat voneinander untergebracht werden. So kann beispielsweise die Mustererkennung auf einem eigenen Server durchgeführt werden, ihr Ergebnis dann die manuelle Transkription auf einer entsprechenden manuellen Transkriptionsstation gemäß Anspruch 9 unterstützen, und die Kombination wieder auf einem eigenen Server laufen. Die Mustererkennung kann aber auch gemäß Anspruch 2 den manuell transkribierten Text berücksichtigen. So könnten manuelle Transkription, Mustererkennung und Kombination auch auf einer einzigen Station durchgeführt werden.
Eine Konfiguration, in der die manuelle Transkription nach der Mustererkennung durchgeführt wird, kann eine Möglichkeit vorsehen, dem menschlichen Transkribierer ein Maß für die Qualität der durchgeführten Mustererkennung, z. B. ein Zuverlässigkeitsmaß der Erkennungsgüte, anzuzeigen. Diesem Maß kann der Transkribierer dann seinen Transkriptionsstil anpassen. Bei unzuverlässigem Mustererkennungsergebnis kann er dann sorgfältiger transkribieren, während er bei hoher Mustererkennungsgüte sich viele Fehler oder weggelassene oder ersetzte Tastenanschläge erlauben kann. In einer Konfiguration, in der das Mustererkennungsergebnis bei der manuellen Transkription noch nicht vorliegt, kann dieses Gütemaß durch eine andere Größe, die ähnliche Aussagekraft hat, ersetzt werden, z. B. durch ein Signal-zu-Rausch-Verhältnis der Äußerung.
Die erfindungsgemäßen Transkriptionsverfahren lassen sich auch mit herkömmlichen Verfahren verbinden. So ist es z. B. denkbar, beim Vorliegen eines Mustererkennungsergebnisses Passagen hoher Güte nach einem herkömmlichen Verfahren zu transkribieren, d. h. dem Transkribierer das Mustererkennungsergebnis vorzugeben und dieses von ihm korrigieren zu lassen. Passagen niedriger Güte könnten in einer solchen Ansicht dann als weiße Bereiche erscheinen, in denen der Transkribierer frei, d. h. ohne Vorgabe, transkribiert und der manuelle Text dann gemäß dem erfindungsgemäßen Verfahren mit dem Mustererkennungsergebnis kombiniert wird.
Neben den eingangs erwähnten Anwendungsmöglichkeiten der Transkription gesprochener Äußerungen wie z. B. den Röntgenarztbefunden sind auch noch weitere Anwendungen denkbar. In Anspruch 11 werden insbesondere die Erstellung von SMS-Nachrichten (Short Message Service z. B. der GSM-Mobiltelefonie) und von Videountertiteln erwähnt.
So ließe sich eine SMS z. B. erstellen, indem man den Text spricht und über die Zahlentastatur des Mobiltelefons eingibt. Dabei würde es sich dann erübrigen, die Buchstaben auf der gegenüber einer Schreibmaschinentastatur reduzierten Handytastatur in eindeutiger Weise einzugeben. Es würde also z. B. genügen für das Wort "dein" auf einer Standardhandytastatur die Ziffernfolge "3, 3, 4, 6" einzugeben und die genaue Auswahl des Wortes "dein" aus den möglichen Buchstabenfolgen "[d, e, f] [d, e, f] [g, h, i] [m, n, o]" der Kombination mit dem Spracherkennungsergebnis zu überlassen. Hat man ein Handy mit Touchscreen und Schrifteingabe, so kann man statt der Tastatur natürlich auch auf den Touchscreen schreiben.
Auch für die Untertitelung von Videofilmen ließen sich die erfindungsgemäßen Verfahren verwenden; denn auch dabei handelt es sich lediglich um die Transkription sprachlicher Äußerungen. Ebenso ließen sich Fernseh- oder Radiosendungen in Textform überführen und diese Texte z. B. für Recherchezwecke in Textdatenbanken ablegen. Zur Behandlung von Hintergrundgeräuschen oder Hintergrundmusik oder den Umgang mit reinen nicht-sprachlichen Passagen wie Musik oder Filmgeräuschen könnten dazu ggf. dem Fachmann bekannte entsprechende Spracherkennungstechniken wie z. B. nichtlineare spektrale Subtraktion oder Segmentierungstechniken herangezogen werden.
Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden an Hand der Ausführungsbeispiele und insbesondere an Hand der beigefügten Zeichnungen näher erläutert. Es zeigen:
Fig. 1a, 1b das Spracherkennungsergebnis und den manuell erstellten Text zu einer gesprochenen Äußerung, und
Fig. 2 eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen.
Die Fig. 1a zeigt schematisch in Form eines Wortgraphen das Ergebnis ME der Spracherkennung der gesprochenen Äußerung "Es liegt kein Gehirntumor vor". In dieser Figur schreitet die Zeit nach rechts fort und die Knoten des Wortgraphen ME markieren Zeitpunkte im Sprachsignal. Die Pfeile zwischen den Knoten bezeichnen Erkennungsalternativen der zwischen den Zeitpunkten der Knoten liegenden Signalabschnitte. Aus Übersichtlichkeitsgründen sind in Fig. 1a nur die Knoten 1 und 2 und die zwischen ihnen liegenden Pfeile 5 und 6 mit Bezugszeichen versehen. Die Pfeile sind mit dem jeweils erkannten Wort bezeichnet, z. B. der Pfeil 5 mit dem erkannten Wort "liegt" und der Pfeil 6 mit dem Wort "lügt".
Wenn es sich um einen bewerteten Wortgraphen ME handelt, tragen die Pfeile zusätzlich zu dem jeweils erkannten Wort noch eine Bewertung (englisch: score), die hier entsprechend der üblichen Praxis so gewählt wurde, dass niedrigere Bewertungen bevorzugte Erkennungsalternativen bezeichnen. In Fig. 1a ist diese Bewertung wieder nur für die Pfeile 5 und 6 eingetragen und zwar die Bewertung "40" für den Pfeil 5 und die Bewertung "50" für den Pfeil 6. Dabei beziehen sich die Bewertungen in Fig. 1a nur auf die akustische Ähnlichkeit des jeweils erkannten Wortes zu dem zugehörigen Zeitabschnitt der gesprochenen Äußerung, entsprechen also in den weiter oben erwähnten Formeln den akustischen Bewertungen P(O|T).
Die Erkennungsalternativen ergeben sich aus einem solchen Wortgraphen ME, indem man alle möglichen Pfade durch den Wortgraphen ME bestimmt, d. h. indem man beginnend vom linken Ende des Graphen ME allen möglichen Pfeilen bis zu seinem rechten Ende folgt. Neben dem tatsächlich gesprochenen Satz "Es liegt kein Gehirntumor vor" kodiert der Graph ME also z. B. auch noch die Alternative "Es lügt enge Hirntumoren". Die beste Erkennungsalternative ist die mit der niedrigsten Bewertung. Diese Bewertung ergibt sich durch die Summe der Bewertungen der akustischen Ähnlichkeit und der Bewertungen mit Hilfe weiterer Informationsquellen, z. B. mit Hilfe eines Sprachmodells, das in den weiter oben erwähnten Formeln der Größe P(T) entspräche.
Während diese zuletzt erwähnte Erkennungsalternative "Es lügt enge Hirntumoren" sicher unsinnig ist und daher nur eine schlechte Bewertung durch ein Sprachmodell bekäme, würde sie sicher nur in den seltenen Fällen stark verzerrter akustischer Bewertungen, z. B. bei hohem Hintergrundrauschen während der gesprochenen Äußerung, als beste Erkennungsalternative ausgewählt. Die auch im Graphen ME enthaltene Alternative "Es liegt ein Gehirntumor vor", d. h. "ein" statt "kein", lässt sich jedoch weder akustisch noch durch ein Sprachmodell deutlich von der tatsächlich gesprochenen Wortfolge unterscheiden. Auf der anderen Seite stellt aber natürlich der Unterschied zwischen "ein" und "kein" die entscheidende Information in diesem Satz dar.
Fig. 1b zeigt eine mögliche manuelle Transkription MT derselben gesprochenen Äußerung. Als Darstellungsform wurde, um die Verbindung zum Spracherkennungsergebnis deutlich zu machen, auch hier ein Wortgraph gewählt, der natürlich linear ist, d. h. nur einen Pfad enthält. Der Übersichtlichkeit halber wurden auch in Fig. 1b nur die Knoten 10 und 11 und der Pfeil 15 mit Bezugszeichen versehen.
Beispielhaft werden in dieser manuellen Transkription MT einige Folgen aufgezeigt, die sich aus einer beschleunigten Arbeitsweise bei der manuellen Transkription ergeben könnten. So wurde konsequent überall Kleinschreibung verwendet, z. B. "es" statt "Es". In zwei Worten treten "Tippfehler" auf: in "ligt", d. h. der manuellen Transkription für "liegt", wurde der Tastaturanschlag für den Buchstaben "e" weggelassen und in "keim", der manuellen Transkription für "kein", wurde der Tippfehler "m" statt "n" gemacht (und nicht manuell korrigiert). Im Wort "gdhkfhgjjlf" (statt "Gehirntumor") wurde strikt der Anweisung gefolgt, nur die Tasten der zur Ruheposition der Hände beim Tippen gehörenden Tastaturzeile zu verwenden (wobei als Folge auch keine Großbuchstaben verwendet wurden). Dann fallen die Buchstaben "G" auf "g", "e" auf "d", "i" auf "k" r" auf "f", "n" auf "h", "t" auf "g", "u" und "m" auf "j" und "o" auf "l".
Diese manuelle Transkription MT kann jetzt in bekannter Weise z. B. zu einer Wiederbewertung (englisch: re-scoring) des Wortgraphen ME von Fig. 1a verwendet werden, auf deren Darstellung daher hier verzichtet wird. Bei einer solchen Wiederbewertung lassen sich solche Fakten berücksichtigen, wie z. B. dass das Hinzufügen eines Buchstabens beim Tippen unwahrscheinlicher ist als das Anschlagen einer falschen, auf der Tastatur direkt benachbarten Taste. Daher passt "keim" besser zu "kein" als zu "ein". Ähnlich ist das Weglassen eines Tastenanschlages wahrscheinlicher als Ersetzen von "ü" durch "i", also von Tasten, die von unterschiedlichen Fingern angeschlagen werden, womit "ligt" besser zu "liegt" als zu "lügt" passt. Damit löst die Kombination der manuellen Transkription MT mit dem Mustererkennungsergebnis ME in diesem Beispiel die schwierige Aufgabe "kein" von "ein" zu unterscheiden und die korrekte Transkription "Es liegt kein Gehirntumor vor" zu generieren.
Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen. An eine Verarbeitungseinheit 20 sind ein Datenspeicher 21, ein Mikrofon 22, ein Lautsprecher 23, eine Tastatur 25, ein Fußschalter 26 sowie ein Bildschirm 27 angeschlossen. Über das Mikrofon 22 kann die gesprochene Äußerung direkt aufgenommen und im Datenspeicher 21 als Audiodatei abgelegt werden. Die gesprochene Äußerung kann jedoch alternativ dazu auch über einen in Fig. 2 nicht gezeigten Datenträger oder über ein Netzwerk wie z. B. das Telefonnetz oder das Internet an die Verarbeitungseinheit 20 übertragen werden. Der Lautsprecher 23 dient zur Wiedergabe der gesprochenen Äußerung bei der manuellen Transkription. Alternativ zum Mikrofon 22 und/oder zum Lautsprecher 23 kann jedoch beispielsweise auch ein Headset verwendet werden.
Die Verarbeitungseinheit 20 kann dann selbst eine Spracherkennung der gesprochenen Äußerung vornehmen und das Erkennungsergebnis im Datenspeicher 21 ablegen. Sie kann dieses Erkennungsergebnis jedoch z. B. auch über ein Netzwerk entgegennehmen. Die Tastatur 25 dient zusammen mit dem Fußschalter 26 zur Eingabe der manuellen Transkription, der Bildschirm 27 zur Darstellung des manuell eingegebenen Textes und der auf Grund der Kombination der manuellen Eingabe mit dem Spracherkennungsergebnis vorgeschlagenen Worte und Wortvervollständigungen.
Auf dem Bildschirm 27 ist die Situation dargestellt, dass für die gesprochene Äußerung "Es liegt kein Gehirntumor vor" vorab bereits der Text 30 mit dem Inhalt "Es liegt k" manuell eingegeben wurde. Aufgrund der Kombination mit dem Spracherkennungsergebnis, das z. B. in Form des in Fig. 1a dargestellten Wortgraphen ME im Datenspeicher 21 vorliegen könnte, schlägt die Verarbeitungseinheit 20 dann die jetzt in diesem Wortgraphen ME eindeutige Textfortsetzung 31 mit dem Inhalt "ein Gehirntumor" vor, so dass jetzt auf dem Schirm der Text "Es liegt kein Gehirntumor" sichtbar ist. Zur Unterscheidung des Fortsetzungsvorschlags 31 von dem manuell eingegebenen Text 30 wird dieser anders dargestellt, hier z. B. in invertierter Darstellung (englisch: inverse video), d. h. in weißer Schrift auf schwarzem Grund. Durch Betätigen des Fußschalters 26 kann der menschliche Transkribierer diese Textfortsetzung 31 jetzt akzeptieren. Ist er jedoch nicht damit einverstanden, so schreibt er einfach auf der Tastatur 25 weiter.
Im Fall einer solchen Ablehnung der Textfortsetzung 31 kann es vorkommen, dass das Spracherkennungsergebnis keinen mit der eingegebenen manuellen Transkription verträglichen Pfad mehr enthält. Gehen wir dazu z. B. für das Spracherkennungsergebnis vom Wortgraphen ME der Fig. 1a aus, nehmen jedoch an, dass es sich bei der gesprochenen Äußerung um den Satz "Es liegt keine Hirnblutung vor" handelt. Dann erkennt die Verarbeitungseinheit 20, dass sich die bisherige manuelle Transkription nicht mehr mit dem Spracherkennungsergebnis ME kombinieren lässt, und kann eine entsprechende Korrekturprozedur starten. Z. B. kann sie die bisherige manuelle Eingabe dazu benutzen, um unter deren Berücksichtigung eine neue Spracherkennung der gesprochenen Äußerung zu starten, um diese dann für die weitere Kombination mit den bisherigen und den noch folgenden manuellen Eingaben zu verwenden.

Claims

1. Verfahren zur Transkription einer gesprochenen Äußerung, von der ein manuell transkribierter Text (MT) und ein Spracherkennungsergebnis (ME) vorliegen, durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME).

2. Verfahren zur Transkription einer gesprochenen Äußerung, von der ein manuell transkribierter Text (MT) vorliegt, mit den Schritten:

- Spracherkennung der gesprochenen Äußerung unter Berücksichtigung des manuell transkribierten Textes (MT), und

- Erstellung der Transkription der gesprochenen Äußerung durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) oder durch Übernahme des Spracherkennungsergebnisses (ME) für die Transkription.

3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) darin besteht, die nach stochastischen Modellen für die Prozesse der manuellen Transkription und der Spracherkennung wahrscheinlichste Transkription für die gesprochene Äußerung zu bestimmen.

4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
dass das Spracherkennungsergebnis (ME) eine bewertete N-Besten-Liste oder ein bewerteter Wortgraph (ME) ist, und
dass die Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) in einer Wiederbewertung der N-Besten-Liste oder des Wortgraphen (ME) unter Berücksichtigung des manuell transkribierten Textes (MT) besteht.

5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Berücksichtigung des manuell transkribierten Textes (MT) bei der Spracherkennung der gesprochenen Äußerung in der Auswahl des Spracherkennungsvokabulars und/oder des Spracherkennungssprachmodells besteht.

6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der manuell transkribierte Text (MT) handschriftlich und/oder in Form einer Kurzschrift vorliegt.

7. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der manuell transkribierte Text (MT) durch Tastatureingabe auf eine Weise erstellt wurde, bei der die zur Erstellung benötigte Zeit durch Weglassen von Tastaturanschlägen und/oder durch Anschlagen anderer Tasten zur Verringerung der Größe der Finger- und/oder Handbewegungen gegenüber der Erstellung einer allgemein verwendbaren manuellen Transkription verkürzt wurde.

8. Vorrichtung zur Transkription einer gesprochenen Äußerung, von der ein Spracherkennungsergebnis (ME) vorliegt, mit den Komponenten:
Komponenten (20, 21, 23, 25, 26, 27) zur manuellen Transkription der gesprochenen Äußerung, und
Komponente (20) zur Erstellung der Transkription der gesprochenen Äußerung durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME).

9. Vorrichtung zur spracherkennungsunterstützten manuellen Transkription einer gesprochenen Äußerung, von der ein Spracherkennungsergebnis (ME) vorliegt, mit den Komponenten:
Komponenten (25, 26) zur fortlaufenden Eingabe der manuellen Transkription (MT, 30) der gesprochenen Äußerung,
Komponente (20) zur fortlaufenden Kombination der manuellen Eingabe (30) und des Spracherkennungsergebnisses (ME),
Komponenten (20, 27) zum Vorschlagen einer auf Grund der fortlaufenden Kombination und des Spracherkennungsergebnisses (ME) erwarteten Fortsetzung (31) des bisher eingegebenen Textes (30), und
Komponenten (25, 26) zum Akzeptieren oder Ablehnen der vorgeschlagenen Textfortsetzung (31).

10. Verfahren zur Transkription einer schriftlichen Äußerung, von der ein manuell transkribierter Text (MT) und ein Texterkennungsergebnis (ME) vorliegen, durch Kombination des manuell transkribierten Textes (MT) und des Texterkennungsergebnisses (ME).

11. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 zur Erstellung einer SMS-Nachricht oder eines Videountertitels.