DE10204924A1 - Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen - Google Patents

Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen

Info

Publication number
DE10204924A1
DE10204924A1 DE10204924A DE10204924A DE10204924A1 DE 10204924 A1 DE10204924 A1 DE 10204924A1 DE 10204924 A DE10204924 A DE 10204924A DE 10204924 A DE10204924 A DE 10204924A DE 10204924 A1 DE10204924 A1 DE 10204924A1
Authority
DE
Germany
Prior art keywords
speech recognition
recognition result
transcription
text
transcribed text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10204924A
Other languages
English (en)
Inventor
Eric Thelen
Dietrich Klakow
Holger Scholl
Uli Waibel
Josef Reisinger
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10204924A priority Critical patent/DE10204924A1/de
Priority to JP2003566843A priority patent/JP2005517216A/ja
Priority to EP03702838A priority patent/EP1479070B1/de
Priority to AU2003205955A priority patent/AU2003205955A1/en
Priority to AT03702838T priority patent/ATE358869T1/de
Priority to PCT/IB2003/000374 priority patent/WO2003067573A1/en
Priority to US10/503,420 priority patent/US20060167685A1/en
Priority to DE60312963T priority patent/DE60312963T2/de
Publication of DE10204924A1 publication Critical patent/DE10204924A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Image Processing (AREA)

Abstract

Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Transkription gesprochener und schriftlicher Äußerungen. Dazu werden die Äußerungen einer Sprach- bzw. Texterkennung unterzogen und das Erkennungsergebnis (ME) zur Gewinnung der Transkription mit einer manuell erstellten Transkription (MT) der Äußerungen kombiniert. Die durch die Kombination nutzbar gemachte zusätzliche Information durch das Erkennungsergebnis (ME) erlaubt es dem Transkribierer, bei der manuellen Transkription relativ grob und damit schnell zu arbeiten. So kann er sich bei Benutzung einer Tastatur (25) beispielsweise auf das Anschlagen der Tasten nur einer Tastaturzeile beschränken und/oder manche Tastenanschläge ganz weglassen. Zusätzlich kann das manuelle Transkribieren auch durch das Vorschlagen auf Grund des Erkennungsergebnisses (ME) erwarteter Fortsetzungen (31) des bisher eingegebenen Textes (30) beschleunigt werden.

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Transkription gesprochener und schriftlicher Äußerungen. Die Notwendigkeit solcher Transkriptionen ergibt sich in vielen Bereichen des geschäftlichen und privaten Lebens. So diktieren z. B. Röntgenärzte ihre Befunde und Anwälte ihre Schriftsätze, Studenten schreiben ihre Studien- und Diplomarbeiten oft zunächst von Hand nieder, und Besprechungsprotokolle werden oft zunächst nur unter Zuhilfenahme einer Kurzschrift (als Stenogramm) festgehalten.
  • Zur Weiterverarbeitung müssen diese gesprochenen und schriftlichen Äußerungen transkribiert werden, d. h. es muss eine Reinschrift von ihnen angefertigt werden. So geben z. B. die Angestellten eines Schreibbüros die beispielsweise auf Tonband oder Computerdatei festgehaltenen Befunde einer Röntgenabteilung manuell in ein Textverarbeitungssystem ein, oder eine Sekretärin tippt auf der Schreibmaschine den zunächst in Kurzschrift mitgeschriebenen von ihrem Chef diktierten Brief. Um eine maschinenverarbeitbare Transkription zu erhalten, ist es auf Grund moderner Technik jedoch heute nicht mehr zwingend, den Text direkt in einen Computer einzugeben. Alternativ kann man z. B. den Text sauber, beispielsweise in Druckbuchstaben, handschriftlich aufschreiben oder ihn deutlich, z. B. mit kleinen Pausen zwischen den einzelnen Worten, diktieren. Ein nachgeschaltetes Text- bzw. Spracherkennungssystem kann dann die sauber erstellte Vorlage bis auf wenige nötigenfalls manuell zu korrigierende Fehler verarbeiten.
  • Weiterhin besteht auch die Möglichkeit, die ursprüngliche gesprochene oder schriftliche Äußerung unmittelbar einem Mustererkennungssystem zuzuführen. Dazu werden auf dem Markt von verschiedenen Herstellern Sprach- und Texterkennungssysteme angeboten, so z. B. das Programm FreeSpeech der Firma Philips. Diese Mustererkennungssysteme arbeiten jedoch nur dann optimal, wenn die gesprochenen und schriftlichen Eingaben sauber und klar erstellt und die Mustererkennungsparameter der Systeme auf die Autoren und Art der Äußerungen und die Benutzungsbedingungen trainiert oder wenigstens auf diese angepasst wurden. Da dies oft nicht der Fall ist, und weil es selbst dann bei manchen Autoren, z. B. bei undeutlicher Handschrift, und/oder in manchen Situationen, z. B. bei hohem Geräuschpegel, trotzdem noch Probleme gibt, weisen diese mit Hilfe eines Mustererkennungssystems automatisch erstellten Transkriptionen üblicherweise der Verbesserung bedürfende Fehler auf.
  • Daher werden die Erkennungsergebnisse solcher Systeme in der Regel von einem menschlichen Transkribierer manuell korrigiert. Zur Unterstützung dieser manuellen Korrekturen bieten manche der Spracherkennungssysteme sogenannte Korrektureditoren an. So erlaubt z. B. der Korrektureditor von FreeSpeech eine Synchronisierung der Audiowiedergabe mit einer Textmarkierung auf dem Bildschirm, d. h. beim Abspielen des Audiosignals wird das an dieser Stelle erkannte Wort auf dem Bildschirm markiert. Nach Erkennen eines Fehlers korrigiert ihn der menschliche Transkribierer dann mit Hilfe einer Tastatur- und/oder Mauseingabe.
  • Die US 5,855,000 offenbart eine spezielle Variante eines Korrektureditors. Nach Lokalisierung eines Erkennungsfehlers (locating an error) korrigiert der menschliche Transkribierer diesen durch eine zweite Mustereingabe (secondary input signal), die vom Mustererkennungssystem in eine Reparaturhypothese (repair hypothesis) umgewandelt wird. Die Reparaturhypothese wird dann mit der ursprünglichen Erkennungshypothese (recognition hypothesis) zu einer neuen Hypothese kombiniert (correlating at least a portion of the recognition hypothesis with said repair hypothesis to produce a new hypothesis), die schließlich die ursprüngliche Erkennungshypothese ersetzt (replacing said located error with the new hypothesis).
  • Als zweite Mustereingabe kommt es dabei für den Transkribierer einer gesprochenen Äußerung insbesondere in Frage, die fehlerhaft erkannte Textpassage (noch einmal) ins Mikrofon des Systems zu sprechen (repair hypothesis from a respeaking of at least a portion of the utterance). Auch sieht eine Ausführungsform der US 5,855,000 vor, den Erkennungsfehler dadurch zu lokalisieren, dass der Transkribierer die entsprechende Passage nochmals spricht, die Erkennungshypothesen dieser Wiederholung automatisch in die ursprüngliche Erkennungshypothese eingeordnet und dem Transkribierer zur Bestätigung angeboten werden (Each hypothesis in the secondary n-best list is evaluated to determine if it is a substring of the first hypothesis of the primary recognition . . .).
  • Durch das Angebot eines zweiten Mustererkennungskanals und die Informationsausnutzung durch Kombination der Reparaturhypothese mit der ursprünglichen Erkennungshypothese verschafft die US 5,855,000 dem Transkribierer also neben den klassischen Korrektureingabemöglichkeiten über Tastatur und Maus eine weitere Eingabemodalität, die seine Produktivität bei der Korrektur des Ergebnisses einer ersten Mustererkennung erhöhen soll.
  • Trotz all dieser und weiterer bekannter Verbesserungen der Korrektureditoren und der Mustererkennungssysteme selbst besteht aber auch heute noch das Problem, dass der Prozess des Korrigierens des Mustererkennungsergebnisses einer gesprochenen oder schriftlichen Äußerung mehr Zeit und Mühe kosten kann als das direkte manuelle Transkribieren der Äußerung. Dies hat seine Gründe u. a. in der für die Korrektur erforderlichen hohen Aufmerksamkeit: "ein" und "kein" sind für ein Spracherkennungssystem sehr ähnliche Worte und auch für den Transkribierer sind die Unterschiede im Schriftbild leicht zu übersehen, und in der diskontinuierlichen Struktur des Korrekturprozesses: korrekte Passagen sind nur mitzuverfolgen, bei einer falschen Passage muss die Passage markiert oder der Textcursor positioniert, Zeichen gelöscht und/oder neue eingegeben werden. Dies führt dazu, dass nach dem Überschreiten einer gewissen Fehlerrate im Mustererkennungsergebnis dieses im Grunde nicht nur wertlos wird, sondern sogar zu einer ineffizienten Arbeitsweise für den Transkribierer führt, der besser die Äußerung direkt manuell transkribieren würde.
  • Es ist daher Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung anzugeben, die Mustererkennung einer gesprochenen oder schriftlichen Äußerung dahingehend für die Transkription der Äußerung nutzbar zu machen, dass ein menschlicher Transkribierer mindestens so effizient wie bei einer direkten manuellen Transkription arbeiten kann.
  • Diese Aufgabe wird gelöst durch die jeweiligen in den Patentansprüchen 1, 2, 8, 9 und 10 genannten Verfahren und Vorrichtungen. Alle diese Verfahren und Vorrichtungen beruhen auf dem Grundgedanken, im Gegensatz zum Stand der Technik nicht ein Mustererkennungsergebnis manuell korrigieren zu lassen, sondern den Prozess der manuellen Transkription einer gesprochenen oder schriftlichen Äußerung als solchen beizubehalten, um ihn aber dann durch eine Mustererkennung zu unterstützen.
  • Dies kann z. B. wie in den Ansprüchen 1, 8 und 10 beansprucht durch Kombination der manuellen Transkription und des Mustererkennungsergebnisses geschehen. Eine Äußerung wird also manuell transkribiert, um anschließend mit dem Mustererkennungsergebnis der Äußerung kombiniert zu werden. Da das Mustererkennungsergebnis zusätzliche Information zur manuellen Transkription hinzufügt, kann der menschliche Transkribierer dies bei seiner Arbeitsweise berücksichtigen, um die manuelle Transkription z. B. schneller oder auf für ihn angenehmere Weise zu erstellen.
  • So kann er z. B. wie in Anspruch 6 beansprucht den manuell transkribierten Text handschriftlich erstellen und/oder eine Kurzschrift benutzen. Schreibfehler können unkorrigiert bleiben. Wie in Anspruch 7 beansprucht können bei Benutzung einer Tastatur manche Tastaturanschläge weggelassen werden, oder es werden schneller zu erreichende Tasten angeschlagen, um die Tippgeschwindigkeit zu erhöhen. Besonders interessant ist hier beispielsweise die Beschränkung auf das Anschlagen der Tasten einer einzigen Tastaturzeile. Auf einer deutschen Tastatur kann z. B. für die Zeichen "4", "e", "d" und "c" jeweils immer nur ein "d" (mit dem Mittelfinger der linken Hand) angeschlagen werden. Lässt man auch das Betätigen der Umschalttaste weg, so vermeidet dies Handbewegungen beim Tippen völlig und die Tippgeschwindigkeit erhöht sich deutlich.
  • Solche Arbeitsweisen können durch speziell entworfene Tastaturen weiter unterstützt werden. Dabei kann beim Schreibstil und beim Entwurf der Tastatur berücksichtigt werden, dass die manuelle Transkription und das Mustererkennungsergebnis möglichst komplementär zueinander sein sollten. So kann z. B. eine manuelle Transkription ein Spracherkennungsergebnis ergänzen, indem sie ähnliche und damit leicht verwechselbare Laute wie z. B. "m" und "n" oder "b" oder "p" durch verschiedene Zeichen darstellt. Im oben erwähnten Beispiel einer Tastaturzeile einer deutschen Tastatur werden z. B. "m" und "n" durch die Tasten "j" und "h" dargestellt, sind also unterschieden. Bei Beschränkung auf die 10 Tasten der Ruheposition der Hände ("a", "s", "d", "f", "Leertaste" für die linke Hand und "Leertaste", "j", "k", "l", "ö" für die rechte Hand) dagegen fielen "m" und "n" beide auf "j", wären also nicht unterschieden, womit ein solcher Schreibstil und eine ihn unterstützende Tastatur für die manuelle Transkription nicht so geeignet wären.
  • Die Mustererkennung der gesprochenen oder schriftlichen Äußerung kann unabhängig von der manuellen Transkription vorgenommen werden. In diesem Fall sind Mustererkennung und manuelle Transkription voneinander unabhängig und ihre Ergebnisse werden nur nachträglich kombiniert. Es ist jedoch auch möglich, dass ein Prozess den anderen bei der Abarbeitung direkt unterstützt.
  • So beansprucht Anspruch 2 eine Konstellation, in der die Mustererkennung durch den manuell transkribierten Text unterstützt wird. Unteranspruch 5 nennt als Beispiele einer solchen Unterstützung die Auswahl von Erkennungsvokabular und Erkennungssprachmodell. Taucht so z. B. in der manuellen Transkription das durch Weglassen der Vokale verkürzt geschriebene Wort "wrd" auf, so werden für die Mustererkennung die Wörter "ward", "werd", "werde", "wird", "wurde", "würde" und "Würde" im Vokabular aktiviert. Entsprechend kann das Sprachmodell z. B. auf die Abfolge der in der manuellen Transkription auftauchenden Wortalternativen beschränkt werden.
  • Will man die Mustererkennung durch die manuelle Transkription darüber hinaus noch in besonderer Weise unterstützen, so kann der Transkribieren in den manuell transkribierten Text auch noch spezielle Kontrollanweisungen für die nachfolgende Mustererkennung einfügen. Z. B. könnte er Sprecherwechsel ggf. mit Angabe der Sprecheridentität markieren. Genauso könnten Angaben über die semantische und/oder formale Struktur der Textpassagen gemacht werden, z. B. Themenangaben oder Abschnittsangaben wie Briefkopf, Überschrift oder Grußformel. Die Mustererkennung könnte solche Meta-Informationen durch Benutzen geeigneter Mustererkennungsmodelle für verschiedene Sprecher, Sprachstrukturen und dergleichen zur Erhöhung der Erkennungsgüte verwenden. Dabei ist darauf zu achten, diese Zusatzangaben sparsam zu verwenden, damit der Zusatzaufwand des Transkribierers durch die verbesserte Mustererkennungsgüte gerechtfertigt ist.
  • Da in diesen Fällen die im manuell transkribierten Text enthaltene Information weitgehend bereits in einer entsprechenden Konfigurierung der Mustererkennung berücksichtigt werden kann, sieht eine Ausführungsform der Erfindung dafür vor, das Mustererkennungsergebnis direkt als Transkription der Äußerung zu übernehmen. Dies erspart den Aufwand einer weiteren Kombination mit dem manuell transkribierten Text.
  • Anspruch 9 dagegen beansprucht eine Konstellation, in der das Mustererkennungsergebnis die manuelle Transkription unterstützt. Dazu werden dem menschlichen Transkribierer während des Prozesses der manuellen Transkription Textfortsetzungen angeboten, die er z. B. durch Drücken einer speziellen Taste, beispielsweise der Tabulatortaste, oder auch nur durch kurzes Innenhalten beim Tippen akzeptieren oder durch Weiterschreiben ablehnen kann.
  • Hat der menschliche Transkribierer z. B. den Text "Es liegt" bereits eingegeben, so weist das Mustererkennungsergebnis vielleicht jetzt zwei mögliche Fortsetzungen, nämlich die alternativen Worte "ein" und "kein", auf. Die Vorrichtung zum Transkribieren kann diese Alternativen jetzt anbieten und der Transkribierer kann eine davon durch spezielle, z. B. in der hiermit in diese Anmeldung einbezogenen US 5,027,406 beschriebene Aktionen wie z. B. dem Drücken einer der beiden Funktionstasten "F1" und "F2" auswählen. Um den Schreibfluss des Transkribierers möglichst wenig zu stören, kann sie jedoch auch noch auf die Eingabe des nächsten Buchstabens warten. Gibt der Transkribierer dann ein "k" ein, so kann die Vorrichtung die Vervollständigung auf "kein" anbieten und der Transkribierer kann sie durch Drücken von "TAB" akzeptieren oder einfach weiterschreiben.
  • Nach Abschluss der Eingabe von "kein" wird das Spracherkennungsergebnis vielleicht eindeutig durch das Wort "Gehirntumor" fortgesetzt. Dieses Wort kann dann sofort nach der Eingabe von "kein" angeboten werden. Da das Spracherkennungsergebnis aber bereits nach Eingabe des "k" von "kein" eindeutig ist, kann nach Eingabe von "k" auch sofort die Vervollständigung zu "kein Gehirntumor" angeboten werden. Natürlich ist vor der Eingabe des "k" auch die Anzeige der beiden Alternativen "ein Gehirntumor" und "kein Gehirntumor" möglich.
  • Neben den in den Ansprüchen 2 und 9 beanspruchten Wechselwirkungen zwischen manueller Texterstellung und Mustererkennung sind auch noch weitere Interaktionsmöglichkeiten im Rahmen der Erfindung denkbar. So kann z. B. der Mustererkennungsprozess auch nach einer Eingabe eines ersten Teiles des Textes unter Berücksichtigung dieser Eingabe wiederholt werden, um dann die weitere Texterstellung in beschriebener Weise weiter zu unterstützen.
  • Die Kombination von manuell transkribiertem Text und Mustererkennungsergebnis kann im einfachsten Fall durch Übernahme eine der beiden Möglichkeiten für die Transkription vorgenommen werden. Eine Übernahme des Mustererkennungsergebnisses ist z. B. dann sinnvoll, wenn das Mustererkennungsergebnis eine sehr hohe Zuverlässigkeit aufweist. Den manuell transkribierten Text kann man dann übernehmen, wenn er offensichtlich keine Fehler aufweist, wenn man also z. B. alle seine Worte in einem Lexikon findet und keine grammatikalischen Regeln verletzt sind.
  • Dagegen beansprucht Unteranspruch 3 eine stochastische Kombination der beiden Möglichkeiten. Seien dafür O das Eingabesignal für die Mustererkennung, T mögliche Transkriptionen, MT der manuell transkribierte Text, ME das Mustererkennungsergebnis, bezeichne P(. . .) die verschiedenen Wahrscheinlichkeitsmodelle und P(. . .|. . .) die bedingten Wahrscheinlichkeiten. Dann ergibt sich die wahrscheinlichste Transkription Topt nach der Bayes'schen Regel zu:


  • Werden manuelle Transkription und Mustererkennung unabhängig voneinander durchgeführt (und hängt die manuelle Transkription nur über die tatsächliche Transkription vom Eingabesignal O ab, d. h. ist P(MT|T, O) = P(MT|T), was auch für die folgenden Absätze angenommen wird) so ergibt sich weiter:


    wird dagegen die Mustererkennung unter Berücksichtigung des manuell transkribierten Textes durchgeführt (Anspruch 2), so ist:


    oder wird die manuelle Transkription durch die Mustererkennung unterstützt (Anspruch 9), so ist:


  • Für die stochastische Modellierung der Mustererkennung P(ME, O|T) bzw. P(ME, O|T, MT) lassen sich z. B. die bekannten Hidden-Markov-Modelle verwenden. So gilt beispielsweise für P(ME, O|T):

    P(ME, O|T) = P(O|T),

    da das Mustererkennungsergebnis ME sich in eindeutiger Weise aus dem Eingabesignal O ergibt: ME = ME(O), und daher nicht zur Wahrscheinlichkeit beiträgt. Letztere Wahrscheinlichkeit ist jedoch nichts anderes als das bekannte Produktionsmodell P(O|T), das üblicherweise auf einem Trainingskorpus trainiert wird.
  • Für die stochastische Modellierung der manuellen Transkription P(MT|T) bzw. P(MT|T, ME) kann man im einfachsten Fall eine Gleichverteilung der zu einer Transkription T passenden manuellen Transkriptionen MT annehmen. Dabei "passt" MT zu T, wenn man MT aus T durch Schreibfehler, durch das oben beschriebene Weglassen oder Ersetzen von Tastenanschlägen oder ähnliche Operationen erhalten kann. Statt einer Gleichverteilung kann man jedoch auch Statistiken für diese einzelnen Vorgänge beim Transkribieren, auf Wunsch auch separat für jeden Transkribierer, erstellen, um eine genauere stochastische Modellierung zu erhalten. Schließlich lassen sich für die Modellierung von P(T) z. B. die aus der Mustererkennung bekannten Sprachmodelltechniken verwenden.
  • Unteranspruch 4 beansprucht, das Mustererkennungsergebnis in Form einer bewerteten N-Besten-Liste oder in Form eines Wortgraphen zu berechnen und für die Kombination mit dem manuell transkribierten Text eine Wiederbewertung (englisch: re-scoring) der N-Besten-Liste oder des Wortgraphen an Hand des manuell transkribierten Textes durchzuführen. Dazu kann z. B. für jede Alternative der N-Besten-Liste bewertet werden, wie groß ihr Abstand zum manuell transkribierten Text ist, indem beispielsweise gezählt wird, wie viele Tastenanschläge weggelassen, hinzugefügt oder ersetzt werden müssten, um die Alternative mit der manuellen Transkription in Übereinstimmung zu bringen. Weiter können diese Prozesse des Weglassens, Hinzufügens und Ersetzens noch unterschiedlich bewertet werden. Die Summe dieser Bewertungen wird zusammen mit der Mustererkennungsbewertung der Alternative zu einer Neubewertung von ihr zusammengefasst. Liegen die stochastischen Modelle als Logarithmen von Wahrscheinlichkeiten vor, so kann man als Zusammenfassen die Addition der Bewertungen verwenden. Jedoch sind auch andere Möglichkeiten vorstellbar.
  • Für die Ausgestaltung der Kombination von manuell transkribiertem Text und Mustererkennungsergebnis stehen dem Fachmann auch noch weitere Möglichkeiten zur Verfügung. Insbesondere wird hier auf die bereits erwähnte US 5,855,000 verwiesen, die hiermit in diese Anmeldung einbezogen wird.
  • Manuelle Transkription, Mustererkennung und Kombination des manuell transkribierten Textes mit dem Mustererkennungsergebnis bilden Komponenten eines Gesamtsystems zur Transkription von gesprochenen und/oder schriftlichen Äußerungen. Je nach Systemgestaltung können diese Komponenten in einer gemeinsamen Vorrichtung oder auch separat voneinander untergebracht werden. So kann beispielsweise die Mustererkennung auf einem eigenen Server durchgeführt werden, ihr Ergebnis dann die manuelle Transkription auf einer entsprechenden manuellen Transkriptionsstation gemäß Anspruch 9 unterstützen, und die Kombination wieder auf einem eigenen Server laufen. Die Mustererkennung kann aber auch gemäß Anspruch 2 den manuell transkribierten Text berücksichtigen. So könnten manuelle Transkription, Mustererkennung und Kombination auch auf einer einzigen Station durchgeführt werden.
  • Eine Konfiguration, in der die manuelle Transkription nach der Mustererkennung durchgeführt wird, kann eine Möglichkeit vorsehen, dem menschlichen Transkribierer ein Maß für die Qualität der durchgeführten Mustererkennung, z. B. ein Zuverlässigkeitsmaß der Erkennungsgüte, anzuzeigen. Diesem Maß kann der Transkribierer dann seinen Transkriptionsstil anpassen. Bei unzuverlässigem Mustererkennungsergebnis kann er dann sorgfältiger transkribieren, während er bei hoher Mustererkennungsgüte sich viele Fehler oder weggelassene oder ersetzte Tastenanschläge erlauben kann. In einer Konfiguration, in der das Mustererkennungsergebnis bei der manuellen Transkription noch nicht vorliegt, kann dieses Gütemaß durch eine andere Größe, die ähnliche Aussagekraft hat, ersetzt werden, z. B. durch ein Signal-zu-Rausch-Verhältnis der Äußerung.
  • Die erfindungsgemäßen Transkriptionsverfahren lassen sich auch mit herkömmlichen Verfahren verbinden. So ist es z. B. denkbar, beim Vorliegen eines Mustererkennungsergebnisses Passagen hoher Güte nach einem herkömmlichen Verfahren zu transkribieren, d. h. dem Transkribierer das Mustererkennungsergebnis vorzugeben und dieses von ihm korrigieren zu lassen. Passagen niedriger Güte könnten in einer solchen Ansicht dann als weiße Bereiche erscheinen, in denen der Transkribierer frei, d. h. ohne Vorgabe, transkribiert und der manuelle Text dann gemäß dem erfindungsgemäßen Verfahren mit dem Mustererkennungsergebnis kombiniert wird.
  • Neben den eingangs erwähnten Anwendungsmöglichkeiten der Transkription gesprochener Äußerungen wie z. B. den Röntgenarztbefunden sind auch noch weitere Anwendungen denkbar. In Anspruch 11 werden insbesondere die Erstellung von SMS-Nachrichten (Short Message Service z. B. der GSM-Mobiltelefonie) und von Videountertiteln erwähnt.
  • So ließe sich eine SMS z. B. erstellen, indem man den Text spricht und über die Zahlentastatur des Mobiltelefons eingibt. Dabei würde es sich dann erübrigen, die Buchstaben auf der gegenüber einer Schreibmaschinentastatur reduzierten Handytastatur in eindeutiger Weise einzugeben. Es würde also z. B. genügen für das Wort "dein" auf einer Standardhandytastatur die Ziffernfolge "3, 3, 4, 6" einzugeben und die genaue Auswahl des Wortes "dein" aus den möglichen Buchstabenfolgen "[d, e, f] [d, e, f] [g, h, i] [m, n, o]" der Kombination mit dem Spracherkennungsergebnis zu überlassen. Hat man ein Handy mit Touchscreen und Schrifteingabe, so kann man statt der Tastatur natürlich auch auf den Touchscreen schreiben.
  • Auch für die Untertitelung von Videofilmen ließen sich die erfindungsgemäßen Verfahren verwenden; denn auch dabei handelt es sich lediglich um die Transkription sprachlicher Äußerungen. Ebenso ließen sich Fernseh- oder Radiosendungen in Textform überführen und diese Texte z. B. für Recherchezwecke in Textdatenbanken ablegen. Zur Behandlung von Hintergrundgeräuschen oder Hintergrundmusik oder den Umgang mit reinen nicht-sprachlichen Passagen wie Musik oder Filmgeräuschen könnten dazu ggf. dem Fachmann bekannte entsprechende Spracherkennungstechniken wie z. B. nichtlineare spektrale Subtraktion oder Segmentierungstechniken herangezogen werden.
  • Diese und weitere Aspekte und Vorteile der Erfindung werden im Folgenden an Hand der Ausführungsbeispiele und insbesondere an Hand der beigefügten Zeichnungen näher erläutert. Es zeigen:
  • Fig. 1a, 1b das Spracherkennungsergebnis und den manuell erstellten Text zu einer gesprochenen Äußerung, und
  • Fig. 2 eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen.
  • Die Fig. 1a zeigt schematisch in Form eines Wortgraphen das Ergebnis ME der Spracherkennung der gesprochenen Äußerung "Es liegt kein Gehirntumor vor". In dieser Figur schreitet die Zeit nach rechts fort und die Knoten des Wortgraphen ME markieren Zeitpunkte im Sprachsignal. Die Pfeile zwischen den Knoten bezeichnen Erkennungsalternativen der zwischen den Zeitpunkten der Knoten liegenden Signalabschnitte. Aus Übersichtlichkeitsgründen sind in Fig. 1a nur die Knoten 1 und 2 und die zwischen ihnen liegenden Pfeile 5 und 6 mit Bezugszeichen versehen. Die Pfeile sind mit dem jeweils erkannten Wort bezeichnet, z. B. der Pfeil 5 mit dem erkannten Wort "liegt" und der Pfeil 6 mit dem Wort "lügt".
  • Wenn es sich um einen bewerteten Wortgraphen ME handelt, tragen die Pfeile zusätzlich zu dem jeweils erkannten Wort noch eine Bewertung (englisch: score), die hier entsprechend der üblichen Praxis so gewählt wurde, dass niedrigere Bewertungen bevorzugte Erkennungsalternativen bezeichnen. In Fig. 1a ist diese Bewertung wieder nur für die Pfeile 5 und 6 eingetragen und zwar die Bewertung "40" für den Pfeil 5 und die Bewertung "50" für den Pfeil 6. Dabei beziehen sich die Bewertungen in Fig. 1a nur auf die akustische Ähnlichkeit des jeweils erkannten Wortes zu dem zugehörigen Zeitabschnitt der gesprochenen Äußerung, entsprechen also in den weiter oben erwähnten Formeln den akustischen Bewertungen P(O|T).
  • Die Erkennungsalternativen ergeben sich aus einem solchen Wortgraphen ME, indem man alle möglichen Pfade durch den Wortgraphen ME bestimmt, d. h. indem man beginnend vom linken Ende des Graphen ME allen möglichen Pfeilen bis zu seinem rechten Ende folgt. Neben dem tatsächlich gesprochenen Satz "Es liegt kein Gehirntumor vor" kodiert der Graph ME also z. B. auch noch die Alternative "Es lügt enge Hirntumoren". Die beste Erkennungsalternative ist die mit der niedrigsten Bewertung. Diese Bewertung ergibt sich durch die Summe der Bewertungen der akustischen Ähnlichkeit und der Bewertungen mit Hilfe weiterer Informationsquellen, z. B. mit Hilfe eines Sprachmodells, das in den weiter oben erwähnten Formeln der Größe P(T) entspräche.
  • Während diese zuletzt erwähnte Erkennungsalternative "Es lügt enge Hirntumoren" sicher unsinnig ist und daher nur eine schlechte Bewertung durch ein Sprachmodell bekäme, würde sie sicher nur in den seltenen Fällen stark verzerrter akustischer Bewertungen, z. B. bei hohem Hintergrundrauschen während der gesprochenen Äußerung, als beste Erkennungsalternative ausgewählt. Die auch im Graphen ME enthaltene Alternative "Es liegt ein Gehirntumor vor", d. h. "ein" statt "kein", lässt sich jedoch weder akustisch noch durch ein Sprachmodell deutlich von der tatsächlich gesprochenen Wortfolge unterscheiden. Auf der anderen Seite stellt aber natürlich der Unterschied zwischen "ein" und "kein" die entscheidende Information in diesem Satz dar.
  • Fig. 1b zeigt eine mögliche manuelle Transkription MT derselben gesprochenen Äußerung. Als Darstellungsform wurde, um die Verbindung zum Spracherkennungsergebnis deutlich zu machen, auch hier ein Wortgraph gewählt, der natürlich linear ist, d. h. nur einen Pfad enthält. Der Übersichtlichkeit halber wurden auch in Fig. 1b nur die Knoten 10 und 11 und der Pfeil 15 mit Bezugszeichen versehen.
  • Beispielhaft werden in dieser manuellen Transkription MT einige Folgen aufgezeigt, die sich aus einer beschleunigten Arbeitsweise bei der manuellen Transkription ergeben könnten. So wurde konsequent überall Kleinschreibung verwendet, z. B. "es" statt "Es". In zwei Worten treten "Tippfehler" auf: in "ligt", d. h. der manuellen Transkription für "liegt", wurde der Tastaturanschlag für den Buchstaben "e" weggelassen und in "keim", der manuellen Transkription für "kein", wurde der Tippfehler "m" statt "n" gemacht (und nicht manuell korrigiert). Im Wort "gdhkfhgjjlf" (statt "Gehirntumor") wurde strikt der Anweisung gefolgt, nur die Tasten der zur Ruheposition der Hände beim Tippen gehörenden Tastaturzeile zu verwenden (wobei als Folge auch keine Großbuchstaben verwendet wurden). Dann fallen die Buchstaben "G" auf "g", "e" auf "d", "i" auf "k" r" auf "f", "n" auf "h", "t" auf "g", "u" und "m" auf "j" und "o" auf "l".
  • Diese manuelle Transkription MT kann jetzt in bekannter Weise z. B. zu einer Wiederbewertung (englisch: re-scoring) des Wortgraphen ME von Fig. 1a verwendet werden, auf deren Darstellung daher hier verzichtet wird. Bei einer solchen Wiederbewertung lassen sich solche Fakten berücksichtigen, wie z. B. dass das Hinzufügen eines Buchstabens beim Tippen unwahrscheinlicher ist als das Anschlagen einer falschen, auf der Tastatur direkt benachbarten Taste. Daher passt "keim" besser zu "kein" als zu "ein". Ähnlich ist das Weglassen eines Tastenanschlages wahrscheinlicher als Ersetzen von "ü" durch "i", also von Tasten, die von unterschiedlichen Fingern angeschlagen werden, womit "ligt" besser zu "liegt" als zu "lügt" passt. Damit löst die Kombination der manuellen Transkription MT mit dem Mustererkennungsergebnis ME in diesem Beispiel die schwierige Aufgabe "kein" von "ein" zu unterscheiden und die korrekte Transkription "Es liegt kein Gehirntumor vor" zu generieren.
  • Fig. 2 zeigt eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen. An eine Verarbeitungseinheit 20 sind ein Datenspeicher 21, ein Mikrofon 22, ein Lautsprecher 23, eine Tastatur 25, ein Fußschalter 26 sowie ein Bildschirm 27 angeschlossen. Über das Mikrofon 22 kann die gesprochene Äußerung direkt aufgenommen und im Datenspeicher 21 als Audiodatei abgelegt werden. Die gesprochene Äußerung kann jedoch alternativ dazu auch über einen in Fig. 2 nicht gezeigten Datenträger oder über ein Netzwerk wie z. B. das Telefonnetz oder das Internet an die Verarbeitungseinheit 20 übertragen werden. Der Lautsprecher 23 dient zur Wiedergabe der gesprochenen Äußerung bei der manuellen Transkription. Alternativ zum Mikrofon 22 und/oder zum Lautsprecher 23 kann jedoch beispielsweise auch ein Headset verwendet werden.
  • Die Verarbeitungseinheit 20 kann dann selbst eine Spracherkennung der gesprochenen Äußerung vornehmen und das Erkennungsergebnis im Datenspeicher 21 ablegen. Sie kann dieses Erkennungsergebnis jedoch z. B. auch über ein Netzwerk entgegennehmen. Die Tastatur 25 dient zusammen mit dem Fußschalter 26 zur Eingabe der manuellen Transkription, der Bildschirm 27 zur Darstellung des manuell eingegebenen Textes und der auf Grund der Kombination der manuellen Eingabe mit dem Spracherkennungsergebnis vorgeschlagenen Worte und Wortvervollständigungen.
  • Auf dem Bildschirm 27 ist die Situation dargestellt, dass für die gesprochene Äußerung "Es liegt kein Gehirntumor vor" vorab bereits der Text 30 mit dem Inhalt "Es liegt k" manuell eingegeben wurde. Aufgrund der Kombination mit dem Spracherkennungsergebnis, das z. B. in Form des in Fig. 1a dargestellten Wortgraphen ME im Datenspeicher 21 vorliegen könnte, schlägt die Verarbeitungseinheit 20 dann die jetzt in diesem Wortgraphen ME eindeutige Textfortsetzung 31 mit dem Inhalt "ein Gehirntumor" vor, so dass jetzt auf dem Schirm der Text "Es liegt kein Gehirntumor" sichtbar ist. Zur Unterscheidung des Fortsetzungsvorschlags 31 von dem manuell eingegebenen Text 30 wird dieser anders dargestellt, hier z. B. in invertierter Darstellung (englisch: inverse video), d. h. in weißer Schrift auf schwarzem Grund. Durch Betätigen des Fußschalters 26 kann der menschliche Transkribierer diese Textfortsetzung 31 jetzt akzeptieren. Ist er jedoch nicht damit einverstanden, so schreibt er einfach auf der Tastatur 25 weiter.
  • Im Fall einer solchen Ablehnung der Textfortsetzung 31 kann es vorkommen, dass das Spracherkennungsergebnis keinen mit der eingegebenen manuellen Transkription verträglichen Pfad mehr enthält. Gehen wir dazu z. B. für das Spracherkennungsergebnis vom Wortgraphen ME der Fig. 1a aus, nehmen jedoch an, dass es sich bei der gesprochenen Äußerung um den Satz "Es liegt keine Hirnblutung vor" handelt. Dann erkennt die Verarbeitungseinheit 20, dass sich die bisherige manuelle Transkription nicht mehr mit dem Spracherkennungsergebnis ME kombinieren lässt, und kann eine entsprechende Korrekturprozedur starten. Z. B. kann sie die bisherige manuelle Eingabe dazu benutzen, um unter deren Berücksichtigung eine neue Spracherkennung der gesprochenen Äußerung zu starten, um diese dann für die weitere Kombination mit den bisherigen und den noch folgenden manuellen Eingaben zu verwenden.

Claims (11)

1. Verfahren zur Transkription einer gesprochenen Äußerung, von der ein manuell transkribierter Text (MT) und ein Spracherkennungsergebnis (ME) vorliegen, durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME).
2. Verfahren zur Transkription einer gesprochenen Äußerung, von der ein manuell transkribierter Text (MT) vorliegt, mit den Schritten:
- Spracherkennung der gesprochenen Äußerung unter Berücksichtigung des manuell transkribierten Textes (MT), und
- Erstellung der Transkription der gesprochenen Äußerung durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) oder durch Übernahme des Spracherkennungsergebnisses (ME) für die Transkription.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) darin besteht, die nach stochastischen Modellen für die Prozesse der manuellen Transkription und der Spracherkennung wahrscheinlichste Transkription für die gesprochene Äußerung zu bestimmen.
4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
dass das Spracherkennungsergebnis (ME) eine bewertete N-Besten-Liste oder ein bewerteter Wortgraph (ME) ist, und
dass die Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME) in einer Wiederbewertung der N-Besten-Liste oder des Wortgraphen (ME) unter Berücksichtigung des manuell transkribierten Textes (MT) besteht.
5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Berücksichtigung des manuell transkribierten Textes (MT) bei der Spracherkennung der gesprochenen Äußerung in der Auswahl des Spracherkennungsvokabulars und/oder des Spracherkennungssprachmodells besteht.
6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der manuell transkribierte Text (MT) handschriftlich und/oder in Form einer Kurzschrift vorliegt.
7. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass der manuell transkribierte Text (MT) durch Tastatureingabe auf eine Weise erstellt wurde, bei der die zur Erstellung benötigte Zeit durch Weglassen von Tastaturanschlägen und/oder durch Anschlagen anderer Tasten zur Verringerung der Größe der Finger- und/oder Handbewegungen gegenüber der Erstellung einer allgemein verwendbaren manuellen Transkription verkürzt wurde.
8. Vorrichtung zur Transkription einer gesprochenen Äußerung, von der ein Spracherkennungsergebnis (ME) vorliegt, mit den Komponenten:
Komponenten (20, 21, 23, 25, 26, 27) zur manuellen Transkription der gesprochenen Äußerung, und
Komponente (20) zur Erstellung der Transkription der gesprochenen Äußerung durch Kombination des manuell transkribierten Textes (MT) und des Spracherkennungsergebnisses (ME).
9. Vorrichtung zur spracherkennungsunterstützten manuellen Transkription einer gesprochenen Äußerung, von der ein Spracherkennungsergebnis (ME) vorliegt, mit den Komponenten:
Komponenten (25, 26) zur fortlaufenden Eingabe der manuellen Transkription (MT, 30) der gesprochenen Äußerung,
Komponente (20) zur fortlaufenden Kombination der manuellen Eingabe (30) und des Spracherkennungsergebnisses (ME),
Komponenten (20, 27) zum Vorschlagen einer auf Grund der fortlaufenden Kombination und des Spracherkennungsergebnisses (ME) erwarteten Fortsetzung (31) des bisher eingegebenen Textes (30), und
Komponenten (25, 26) zum Akzeptieren oder Ablehnen der vorgeschlagenen Textfortsetzung (31).
10. Verfahren zur Transkription einer schriftlichen Äußerung, von der ein manuell transkribierter Text (MT) und ein Texterkennungsergebnis (ME) vorliegen, durch Kombination des manuell transkribierten Textes (MT) und des Texterkennungsergebnisses (ME).
11. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 zur Erstellung einer SMS-Nachricht oder eines Videountertitels.
DE10204924A 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen Withdrawn DE10204924A1 (de)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE10204924A DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
JP2003566843A JP2005517216A (ja) 2002-02-07 2003-01-30 話されたおよび書かれたことばの高速かつパターン認識に支援された書き起こし方法および装置
EP03702838A EP1479070B1 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
AU2003205955A AU2003205955A1 (en) 2002-02-07 2003-01-30 Method and device for the rapid, pattern-recognition-supported transcription of spoken and written utterances
AT03702838T ATE358869T1 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
PCT/IB2003/000374 WO2003067573A1 (en) 2002-02-07 2003-01-30 Method and device for the rapid, pattern-recognition-supported transcription of spoken and written utterances
US10/503,420 US20060167685A1 (en) 2002-02-07 2003-01-30 Method and device for the rapid, pattern-recognition-supported transcription of spoken and written utterances
DE60312963T DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10204924A DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen

Publications (1)

Publication Number Publication Date
DE10204924A1 true DE10204924A1 (de) 2003-08-21

Family

ID=27618362

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10204924A Withdrawn DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
DE60312963T Expired - Lifetime DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE60312963T Expired - Lifetime DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Country Status (7)

Country Link
US (1) US20060167685A1 (de)
EP (1) EP1479070B1 (de)
JP (1) JP2005517216A (de)
AT (1) ATE358869T1 (de)
AU (1) AU2003205955A1 (de)
DE (2) DE10204924A1 (de)
WO (1) WO2003067573A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
KR100654183B1 (ko) * 2005-11-07 2006-12-08 한국전자통신연구원 음성 인식을 이용한 문자 입력 시스템 및 그 방법
US9230222B2 (en) * 2008-07-23 2016-01-05 The Quantum Group, Inc. System and method enabling bi-translation for improved prescription accuracy
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP6165619B2 (ja) * 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN109285548A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0122880A2 (de) * 1983-04-19 1984-10-24 E.S.P. Elektronische Spezialprojekte Aktiengesellschaft Elektronische Einrichtung zum Schnellschreiben mit elektronischen Schreibmaschinen, Druckern, Photozetsmaschinen, Verarbeitungseinheiten und ähnlichen Maschinen
JPS6091435A (ja) * 1983-10-25 1985-05-22 Fujitsu Ltd 文字入力装置
JPS62229300A (ja) * 1986-03-31 1987-10-08 キヤノン株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
EP0505621A3 (en) * 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JPH0883092A (ja) * 1994-09-14 1996-03-26 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置及び情報入力方法
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
JP3254977B2 (ja) * 1995-08-31 2002-02-12 松下電器産業株式会社 音声認識方法及び音声認識装置
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
WO1999000790A1 (en) * 1997-06-27 1999-01-07 M.H. Segan Limited Partnership Speech recognition computer input and device
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
FI981154A (fi) * 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
JP2000056796A (ja) * 1998-08-07 2000-02-25 Asahi Chem Ind Co Ltd 音声入力装置および方法
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
JP2000339305A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書作成装置、及び文書作成方法
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
JP2001159896A (ja) * 1999-12-02 2001-06-12 Nec Software Okinawa Ltd 音声認識機能を利用した簡易文字入力方法
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US6836759B1 (en) * 2000-08-22 2004-12-28 Microsoft Corporation Method and system of handling the selection of alternates for recognized words
US6788815B2 (en) * 2000-11-10 2004-09-07 Microsoft Corporation System and method for accepting disparate types of user input
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
US20020152075A1 (en) * 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US20030112277A1 (en) * 2001-12-14 2003-06-19 Koninklijke Philips Electronics N.V. Input of data using a combination of data input systems
US6986106B2 (en) * 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers

Also Published As

Publication number Publication date
JP2005517216A (ja) 2005-06-09
EP1479070A1 (de) 2004-11-24
AU2003205955A1 (en) 2003-09-02
DE60312963D1 (de) 2007-05-16
WO2003067573A1 (en) 2003-08-14
ATE358869T1 (de) 2007-04-15
EP1479070B1 (de) 2007-04-04
US20060167685A1 (en) 2006-07-27
DE60312963T2 (de) 2007-12-13

Similar Documents

Publication Publication Date Title
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
US20200243094A1 (en) Switching between speech recognition systems
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
US20200175962A1 (en) Training speech recognition systems using word sequences
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE60010827T2 (de) Hintergrundsystem für Audiodatenbeseitigung
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
US20090037171A1 (en) Real-time voice transcription system
CN109977398B (zh) 一种特定领域的语音识别文本纠错方法
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
EP1071075A2 (de) Verfahren zur Eingabe von Daten in ein System
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
Chen Speech recognition with automatic punctuation
DE60312963T2 (de) Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee