DE60312963T2 - Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen - Google Patents

Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen Download PDF

Info

Publication number
DE60312963T2
DE60312963T2 DE60312963T DE60312963T DE60312963T2 DE 60312963 T2 DE60312963 T2 DE 60312963T2 DE 60312963 T DE60312963 T DE 60312963T DE 60312963 T DE60312963 T DE 60312963T DE 60312963 T2 DE60312963 T2 DE 60312963T2
Authority
DE
Germany
Prior art keywords
pattern recognition
transcription
manual transcription
manual
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60312963T
Other languages
English (en)
Other versions
DE60312963D1 (de
Inventor
Eric Philips Intellectual Property & THELEN
Dietrich Philips Intellectual Proper KLAKOW
Holger Philips Intellectual Property SCHOLL
Ulrich Philips Intellectual Property WAIBEL
Josef Philips Intellectual Property REISINGER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE60312963T priority Critical patent/DE60312963T2/de
Publication of DE60312963D1 publication Critical patent/DE60312963D1/de
Application granted granted Critical
Publication of DE60312963T2 publication Critical patent/DE60312963T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • G06V30/1423Image acquisition using hand-held instruments; Constructional details of the instruments the instrument generating sequences of position coordinates corresponding to handwriting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Image Processing (AREA)

Description

  • Die Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Transkription gesprochener und schriftlicher Äußerungen. Die Notwendigkeit solcher Transkriptionen ergibt sich in vielen Bereichen des geschäftlichen und privaten Lebens. So diktieren z. B. Röntgenärzte ihre Befunde und Anwälte ihre Schriftsätze, Studenten schreiben ihre Studien- und Diplomarbeiten oft zunächst von Hand nieder, und Besprechungsprotokolle werden oft zunächst nur unter Zuhilfenahme einer Kurzschrift festgehalten.
  • Zur Weiterverarbeitung müssen diese gesprochenen und schriftlichen Äußerungen transkribiert werden, d. h. es muss eine Reinschrift von ihnen angefertigt werden. So geben z. B. die Angestellten eines Schreibbüros die beispielsweise auf Tonband oder Computerdatei festgehaltenen Befunde einer Röntgenabteilung manuell in ein Textverarbeitungssystem ein, oder eine Sekretärin tippt auf der Schreibmaschine den zunächst in Kurzschrift mitgeschriebenen von ihrem Chef diktierten Brief. Um eine maschinenverarbeitbare Transkription zu erhalten, ist es auf Grund moderner Technik jedoch heute nicht mehr zwingend, den Text direkt in einen Computer einzugeben. Alternativ kann man z. B. den Text sauber, beispielsweise in Druckbuchstaben, handschriftlich aufschreiben oder ihn deutlich, z. B. mit kleinen Pausen zwischen den einzelnen Wörtern, diktieren. Ein nachgeschaltetes Text- bzw. Spracherkennungssystem kann dann die sauber erstellte Vorlage bis auf wenige nötigenfalls manuell zu korrigierende Fehler verarbeiten.
  • Weiterhin besteht auch die Möglichkeit, die ursprüngliche gesprochene oder schriftliche Äußerung unmittelbar einem Mustererkennungssystem zuzuführen. Dazu werden auf dem Markt von verschiedenen Herstellern Sprach- und Texterkennungssysteme angeboten, so z. B. das Programm FreeSpeech der Firma Philips. Diese Mustererkennungssysteme arbeiten jedoch nur dann optimal, wenn die gesprochenen und schriftlichen Eingaben sauber und klar erstellt und die Mustererkennungsparameter der Systeme auf die Autoren und Art der Äußerungen und die Benutzungsbedingungen trainiert oder wenigstens an diese angepasst wurden. Da dies oft nicht der Fall ist, und weil es selbst dann bei manchen Autoren, z. B. bei undeutlicher Handschrift, und/oder in manchen Situationen, z. B. bei hohem Geräuschpegel, trotzdem noch Probleme gibt, weisen diese mit Hilfe eines Mustererkennungssystems automatisch erstellten Transkriptionen üblicherweise verbesserungsbedürftige Fehler auf.
  • Daher werden die Erkennungsergebnisse solcher Systeme in der Regel von einem menschlichen Transkribierer manuell korrigiert. Zur Unterstützung dieser manuellen Korrekturen bieten manche der Spracherkennungssysteme sogenannte Korrektureditoren an. So erlaubt z. B. der Korrektureditor von FreeSpeech eine Synchronisierung der Audiowiedergabe mit einer Textmarkierung auf dem Bildschirm, d. h. beim Abspielen des Audiosignals wird das an dieser Stelle erkannte Wort auf dem Bildschirm markiert. Nach Erkennen eines Fehlers korrigiert ihn der menschliche Transkribierer dann mit Hilfe einer Tastatur- und/oder Mauseingabe.
  • US 5.855.000 offenbart eine spezielle Variante eines Korrektureditors. Nach Lokalisierung eines Erkennungsfehlers korrigiert der menschliche Transkribierer diesen durch ein zweites Eingabesignal, das vom Mustererkennungssystem in eine Reparaturhypothese umgewandelt wird. Die Reparaturhypothese wird dann mit der ursprünglichen Erkennungshypothese zu einer neuen Hypothese kombiniert ("correlating at least a portion of the recognition hypothesis with said repair hypothesis to produce a new hypothesis"), die schließlich die ursprüngliche Erkennungshypothese ersetzt ("replacing said located error with the new hypothesis").
  • Als zweites Eingabesignal kommt es dabei für den Transkribierer einer gesprochenen Äußerung insbesondere in Frage, die fehlerhaft erkannte Textpassage (noch einmal) ins Mikrofon des Systems zu sprechen ("repair hypothesis from a respeaking of at least a portion of the utterance"). Auch sieht eine Ausführungsform der US 5.855.000 vor, den Erkennungsfehler dadurch zu lokalisieren, dass der Transkribierer die entsprechende Passage nochmals spricht; wobei die Erkennungshypothesen dieser Wiederholung automatisch in die ursprüngliche Erkennungshypothese eingeordnet und dem Transkribierer zur Bestätigung angeboten werden ("Each hypothesis in the secondary n-best list is evaluated to determine if it is a substring of the first hypothesis of the primary recognition ...").
  • Durch das Angebot eines zweiten Eingabesignals und die Informationsausnutzung durch Kombination der Reparaturhypothese mit der ursprünglichen Erkennungshypothese verschafft die US 5.855.000 dem Transkribierer also neben den klassischen Korrektureingabemöglichkeiten über Tastatur und Maus eine weitere Eingabemodalität, die seine Produktivität bei der Korrektur des Ergebnisses einer ersten Mustererkennung erhöhen soll.
  • Trotz all dieser und weiterer bekannter Verbesserungen der Korrektureditoren und der Mustererkennungssysteme selbst besteht aber auch heute noch das Problem, dass der Prozess des Korrigierens des Mustererkennungsergebnisses einer gesprochenen oder schriftlichen Äußerung mehr Zeit und Mühe kosten kann als das direkte manuelle Transkribieren der Äußerung. Dies hat seine Gründe u. a. in der für die Korrektur erforderlichen hohen Aufmerksamkeit: Wörter wie „ein" und „kein" sind für ein Spracherkennungssystem sehr ähnlich und auch für den Transkribierer sind die Unterschiede im Schriftbild leicht zu übersehen, und in der diskontinuierlichen Struktur des Korrekturprozesses: korrekte Passagen sind nur mitzuverfolgen, aber bei einer falschen Passage muss die Passage markiert oder der Textcursor positioniert, Zeichen gelöscht und/oder neue eingegeben werden. Dies führt dazu, dass nach dem Überschreiten einer gewissen Fehlerrate im Mustererkennungsergebnis dieses im Grunde nicht nur wertlos wird, sondern sogar zu einer ineffizienten Arbeitsweise für den Transkribierer führt, der besser die Äußerung direkt manuell transkribieren würde.
  • Es ist daher Aufgabe der Erfindung, ein Verfahren und eine Vorrichtung anzugeben, die Mustererkennung einer gesprochenen oder schriftlichen Äußerung dahingehend für die Transkription der Äußerung nutzbar zu machen, dass ein menschlicher Transkribierer mindestens so effizient wie bei einer direkten manuellen Transkription arbeiten kann.
  • Diese Aufgabe wird gelöst durch die in den Patentansprüchen 1, 2, 8 bzw. 9 genannten Verfahren und Vorrichtungen. Alle diese Verfahren und Vorrichtungen beruhen auf dem Grundgedanken, im Gegensatz zum Stand der Technik nicht ein Mustererkennungsergebnis manuell korrigieren zu lassen, sondern den Prozess der manuellen Transkription einer gesprochenen oder schriftlichen Äußerung als solchen beizubehalten, um ihn aber dann durch eine Mustererkennung zu unterstützen.
  • Dies kann z. B., wie in den Ansprüchen 1 und 8 beansprucht, durch Kombination der manuellen Transkription und des Mustererkennungsergebnisses geschehen. Eine Äußerung wird manuell transkribiert, um anschließend mit dem Mustererkennungsergebnis der Äußerung kombiniert zu werden. Da das Mustererkennungsergebnis zusätzliche Information zur manuellen Transkription hinzufügt, kann der menschliche Transkribierer dies bei seiner Arbeitsweise berücksichtigen, um die manuelle Transkription z. B. schneller oder auf für ihn angenehmere Weise zu erstellen.
  • So kann er z. B., wie in Anspruch 6 beansprucht, den manuell transkribierten Text handschriftlich erstellen und/oder eine Kurzschrift benutzen. Schreibfehler können unkorrigiert bleiben. Wie in Anspruch 7 beansprucht, können bei Benutzung einer Tastatur manche Tastenanschläge weggelassen werden, oder es werden schneller zu erreichende Tasten angeschlagen, um die Tippgeschwindigkeit zu erhöhen. Besonders interessant ist hier beispielsweise die Beschränkung auf das Anschlagen der Tasten einer einzigen Tastaturzeile. Auf einer deutschen Tastatur kann z. B. für die Zeichen „4", „e", „d" und „c" jeweils immer nur ein „d" (mit dem Mittelfinger der linken Hand) angeschlagen werden. Lässt man auch das Betätigen der Umschalttaste weg, so vermeidet dies Handbewegungen beim Tippen völlig und die Tippgeschwindigkeit erhöht sich deutlich.
  • Solche Arbeitsweisen können durch speziell entworfene Tastaturen weiter unterstützt werden. Dabei kann beim Schreibstil und beim Entwurf der Tastatur berücksichtigt werden, dass die manuelle Transkription und das Mustererkennungsergebnis möglichst komplementär zueinander sein sollten. So kann z. B. eine manuelle Transkription ein Spracherkennungsergebnis ergänzen, indem sie ähnliche und damit leicht verwechselbare Laute wie z. B. „m" und „n" oder „b" oder „p" durch verschiedene Zeichen darstellt. Im oben erwähnten Beispiel einer Tastaturzeile einer deutschen Tastatur werden z. B. „m" und „n" durch die Tasten "j" und „h" dargestellt, sind also unterschieden. Bei Beschränkung auf die 10 Tasten der Ruheposition der Hände („a", „s", „d", „f", „Leertaste" für die linke Hand und „Leertaste", "j", „k", „l", „ö" für die rechte Hand) dagegen fielen „m" und „n" beide auf „j", wären also nicht unterschieden, womit ein solcher Schreibstil und eine ihn unterstützende Tastatur für die manuelle Transkription nicht so geeignet wären.
  • Die Mustererkennung der gesprochenen oder schriftlichen Äußerung kann unabhängig von der manuellen Transkription vorgenommen werden. In diesem Fall sind Mustererkennung und manuelle Transkription voneinander unabhängig und ihre Ergebnisse werden nur nachträglich kombiniert. Es ist jedoch auch möglich, dass ein Prozess den anderen bei der Abarbeitung direkt unterstützt.
  • So beansprucht Anspruch 2 beispielsweise eine Ausführungsform, in der die Mustererkennung durch den manuell transkribierten Text unterstützt wird. Unteranspruch 5 nennt als Beispiele einer solchen Unterstützung die Auswahl von Erkennungsvokabular und Erkennungssprachmodell. Taucht so z. B. in der manuellen Transkription das durch Weglassen der Vokale verkürzt geschriebene Wort „wrd" auf, so werden für die Mustererkennung die Wörter „ward", „werd", „werde", „wird", „wurde", „würde" und „Würde" im Vokabular aktiviert. Entsprechend kann das Sprachmodell z. B. auf die Abfolge der in der manuellen Transkription auftauchenden Wortalternativen beschränkt werden.
  • Will man die Mustererkennung durch die manuelle Transkription darüber hinaus noch in besonderer Weise unterstützen, so kann der Transkribierer in den manuell transkribierten Text auch noch spezielle Kontrollanweisungen für die nachfolgende Mustererkennung einfügen. Beispielsweise könnte er einen Sprecherwechsel mit Angabe der Sprecheridentität markieren. Genauso könnten Angaben über die semantische und/oder formale Struktur der Textpassagen gemacht werden, z. B. Themenangaben oder Abschnittsangaben wie Briefkopf, Überschrift oder Grußformel. Die Mustererkennung könnte solche Meta-Informationen durch Benutzen geeigneter Mustererkennungsmodelle für verschiedene Sprecher, Sprachstrukturen und dergleichen zur Erhöhung der Erkennungsgüte verwenden. Dabei ist darauf zu achten, diese Zusatzangaben sparsam zu verwenden, damit der Zusatzaufwand des Transkribierers durch die verbesserte Mustererkennungsgüte gerechtfertigt ist.
  • Da in diesen Fällen die im manuell transkribierten Text enthaltene Information weitgehend bereits in einer entsprechenden Konfigurierung der Mustererkennung berücksichtigt werden kann, sieht eine Ausführungsform der Erfindung vor, das Mustererkennungsergebnis direkt als Transkription der Äußerung zu übernehmen. Dies erspart den Aufwand einer weiteren Kombination mit dem manuell transkribierten Text.
  • Die Kombination von manuell transkribiertem Text und Mustererkennungsergebnis kann im einfachsten Fall durch Übernahme eine der beiden Möglichkeiten für die Transkription vorgenommen werden. Eine Übernahme des Mustererkennungsergebnisses ist z. B. dann sinnvoll, wenn das Mustererkennungsergebnis eine sehr hohe Zuverlässigkeit aufweist. Den manuell transkribierten Text kann man dann übernehmen, wenn er offensichtlich keine Fehler aufweist, wenn man also z. B. alle seine Wörter in einem Lexikon findet und keine grammatikalischen Regeln verletzt sind.
  • Dagegen beansprucht Unteranspruch 3 eine stochastische Kombination der beiden Möglichkeiten. Seien dafür O das Eingabesignal für die Mustererkennung, T mögliche Transkriptionen, MT der manuell transkribierte Text, ME das Mustererkennungsergebnis, P(...) die verschiedenen Wahrscheinlichkeitsmodelle und P(...|...) die bedingten Wahrscheinlichkeiten. Dann ergibt sich die wahrscheinlichste Transkription Topt nach der Bayes'schen Regel zu:
    Figure 00060001
  • Werden manuelle Transkription und Mustererkennung unabhängig voneinander durchgeführt (und hängt die manuelle Transkription nur über die tatsächliche Transkription vom Eingabesignal O ab, d. h. ist P(MT|T,O) = P(MT|T), was auch für die folgenden Absätze angenommen wird) so ergibt sich weiter:
    Figure 00060002
    wird dagegen die Mustererkennung unter Berücksichtigung des manuell transkribierten Textes durchgeführt (Anspruch 2), so ist:
    Figure 00060003
    oder wird die manuelle Transkription durch die Mustererkennung unterstützt (Anspruch 9), so ist:
    Figure 00060004
  • Für die stochastische Modellierung der Mustererkennung P(ME,O|T) bzw. P(ME,O|T,MT) lassen sich z. B. die bekannten Hidden-Markov-Modelle verwenden. So gilt beispielsweise für P(ME,O|T): P(ME,O|T) = P(O|T),da das Mustererkennungsergebnis ME sich in eindeutiger Weise aus dem Eingabesignal O ergibt: ME = ME(O), und daher nicht zur Wahrscheinlichkeit beiträgt. Letztere Wahrscheinlichkeit ist jedoch nichts anderes als das bekannte Produktionsmodell P(O|T), das üblicherweise auf einem Trainingskorpus trainiert wird.
  • Für die stochastische Modellierung der manuellen Transkription P(MT|T) bzw. P(MT|T,ME) kann man im einfachsten Fall eine Gleichverteilung der zu einer Transkription T passenden manuellen Transkriptionen MT annehmen. Dabei „passt" MT zu T, wenn man MT aus T durch Schreibfehler, durch das oben beschriebene Weglassen oder Ersetzen von Tastenanschlägen oder ähnliche Operationen erhalten kann. Statt einer Gleichverteilung kann man jedoch auch Statistiken für diese einzelnen Vorgänge beim Transkribieren, auf Wunsch auch separat für jeden Transkribierer, erstellen, um eine genauere stochastische Modellierung zu erhalten. Schließlich lassen sich für die Modellierung von P(T) z. B. die aus der Mustererkennung bekannten Sprachmodelltechniken verwenden.
  • Unteranspruch 4 beansprucht, das Mustererkennungsergebnis in Form einer bewerteten N-Besten-Liste oder in Form eines Wortgraphen zu berechnen und für die Kombination mit dem manuell transkribierten Text eine Wiederbewertung der N-Besten-Liste oder des Wortgraphen an Hand des manuell transkribierten Textes durchzuführen. Dazu kann z. B. für jede Alternative der N-Besten-Liste bewertet werden, wie groß ihr Abstand zum manuell transkribierten Text ist, indem beispielsweise gezählt wird, wie viele Tastenanschläge weggelassen, hinzugefügt oder ersetzt werden müssten, um die Alternative mit der manuellen Transkription in Übereinstimmung zu bringen. Weiter können diese Prozesse des Weglassens, Hinzufügens und Ersetzens noch unterschiedlich bewertet werden. Die Summe dieser Bewertungen wird zusammen mit der Mustererkennungsbewertung der Alternative zu einer Neubewertung zusammengefasst. Liegen die stochastischen Modelle als Logarithmen von Wahrscheinlichkeiten vor, so kann man als Zusammenfassen die Addition der Bewertungen verwenden. Jedoch sind auch andere Möglichkeiten vorstellbar.
  • Für die Ausgestaltung der Kombination von manuell transkribiertem Text und Mustererkennungsergebnis stehen dem Fachmann noch weitere Möglichkeiten zur Verfügung. Insbesondere wird hier auf die bereits erwähnte US 5.855.000 verwiesen.
  • Manuelle Transkription, Mustererkennung und Kombination des manuell transkribierten Textes mit dem Mustererkennungsergebnis bilden Komponenten eines Gesamtsystems zur Transkription von gesprochenen und/oder schriftlichen Äußerungen. Je nach Systemgestaltung können diese Komponenten in einer gemeinsamen Vorrichtung oder auch separat voneinander untergebracht werden. So kann beispielsweise die Mustererkennung auf einem eigenen Server durchgeführt werden und die Kombination wieder auf einem eigenen Server laufen. Die Mustererkennung kann aber auch gemäß Anspruch 2 den manuell transkribierten Text berücksichtigen. So könnten manuelle Transkription, Mustererkennung und Kombination auch auf einer einzigen Station durchgeführt werden.
  • Eine Konfiguration, in der die manuelle Transkription nach der Mustererkennung durchgeführt wird, kann eine Möglichkeit vorsehen, dem menschlichen Transkribierer ein Maß für die Qualität der durchgeführten Mustererkennung, z. B. ein Zuverlässigkeitsmaß der Erkennungsgüte, anzuzeigen. Diesem Maß kann der Transkribierer dann seinen Transkriptionsstil anpassen. Bei unzuverlässigem Mustererkennungsergebnis kann er dann sorgfältiger transkribieren, während er bei hoher Mustererkennungsgüte sich viele Fehler oder weggelassene oder ersetzte Tastenanschläge erlauben kann. In einer Konfiguration, in der das Mustererkennungsergebnis bei der manuellen Transkription noch nicht vorliegt, kann dieses Gütemaß durch eine andere Größe, die ähnliche Aussagekraft hat, ersetzt werden, z. B. durch ein Signal-zu-Rausch-Verhältnis der Äußerung.
  • Die erfindungsgemäßen Transkriptionsverfahren lassen sich auch mit herkömmlichen Verfahren verbinden. So ist es z. B. denkbar, beim Vorliegen eines Mustererkennungsergebnisses Passagen hoher Güte nach einem herkömmlichen Verfahren zu transkribieren, d. h. dem Transkribierer das Mustererkennungsergebnis vorzugeben und dieses von ihm korrigieren zu lassen. Passagen niedriger Güte könnten in einer solchen Ansicht dann als weiße Bereiche erscheinen, in denen der Transkribierer frei, d. h. ohne Vorgabe, transkribiert und der manuelle Text dann gemäß dem erfindungsgemäßen Verfahren mit dem Mustererkennungsergebnis kombiniert wird.
  • Neben den eingangs erwähnten Anwendungsmöglichkeiten der Transkription gesprochener Äußerungen, wie z. B. den Röntgenarztbefunden, sind auch noch weitere Anwendungen denkbar. In Anspruch 9 werden insbesondere die Erstellung von SMS-Nachrichten (Short Message Service z. B. bei der GSM-Mobiltelefonie) und von Videountertiteln erwähnt.
  • So ließe sich eine SMS z. B. erstellen, indem man den Text spricht und über die Zahlentastatur des Mobiltelefons eingibt. Dabei würde es sich dann erübrigen, die Buchstaben auf der gegenüber einer Schreibmaschinentastatur reduzierten Handytastatur in eindeutiger Weise einzugeben. Es würde also z. B. genügen für das Wort „dein" auf einer Standard-Handytastatur die Ziffernfolge „3, 3, 4, 6" einzugeben und die genaue Auswahl des Wortes „dein" aus den möglichen Buchstabenfolgen „[d, e, f] [d, e, f] [g, h, i] [m, n, o]" der Kombination mit dem Spracherkennungsergebnis zu überlassen. Hat man ein Handy mit Touchscreen und Schrifteingabe, so kann man natürlich auch auf den Touchscreen schreiben, statt die Tastatur zu verwenden.
  • Auch für die Untertitelung von Videofilmen ließen sich die erfindungsgemäßen Verfahren verwenden; denn auch dabei handelt es sich lediglich um die Transkription sprachlicher Äußerungen. Ebenso ließen sich Fernseh- oder Radiosendungen in Textform überführen und diese Texte könnten z. B. für Recherchezwecke in Textdatenbanken abgelegt werden. Zur Behandlung von Hintergrundgeräuschen oder Hintergrundmusik oder den Umgang mit reinen nichtsprachlichen Passagen wie Musik oder Filmgeräuschen könnten gegebenenfalls dem Fachmann bekannte entsprechende Spracherkennungstechniken wie z. B. nichtlineare spektrale Subtraktion oder Segmentierungstechniken herangezogen werden.
  • Die Erfindung wird im Folgenden an Hand der in der Zeichnung dargestellten Ausführungsbeispiele näher erläutert, auf die die Erfindung jedoch nicht beschränkt ist. Es zeigen:
  • 1a, 1b das Spracherkennungsergebnis und den manuell erstellten Text zu einer gesprochenen Äußerung, und
  • 2 eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen.
  • 1a zeigt schematisch in Form eines Wortgraphen das Ergebnis ME der Spracherkennung der gesprochenen Äußerung „Es liegt kein Gehirntumor vor". In dieser Figur schreitet die Zeit nach rechts fort und die Knoten des Wortgraphen ME markieren Zeitpunkte im Sprachsignal. Die Pfeile zwischen den Knoten bezeichnen Erkennungsalternativen der zwischen den Zeitpunkten der Knoten liegenden Signalabschnitte. Der Übersichtlichkeit halber sind in 1a nur die Knoten 1 und 2 und die zwischen ihnen liegenden Pfeile 5 und 6 mit Bezugszeichen versehen. Die Pfeile sind darüber hinaus je mit einem Symbol bezeichnet, d. h. mit einer Zahl größer als 100, die in einer sprachunabhängigen Weise das in jedem Fall erkannte Wort angibt. Die folgende Tabelle gibt den Zusammenhang dieser Zahlen mit den erkannten deutschsprachigen Wörtern sowie die englische Übersetzung der deutschsprachigen Wörter wieder.
    Figure 00090001
    Figure 00100001
  • So trägt z. B. der Pfeil 5 das Symbol 106, das das erkannte deutschsprachige Wort „liegt" angibt, und der Pfeil 6 das Symbol 102, das das deutschsprachige Wort „lügt" angibt.
  • Wenn es sich um einen bewerteten Wortgraphen ME handelt, tragen die Pfeile zusätzlich zu dem jeweils erkannten Wort noch eine Bewertung, die hier entsprechend der üblichen Praxis so gewählt wurde, dass niedrigere Bewertungen bevorzugte Erkennungsalternativen bezeichnen. In 1a ist diese Bewertung wieder nur für die Pfeile 5 und 6 eingetragen und zwar die Bewertung „40" für den Pfeil 5 und die Bewertung „50" für den Pfeil 6. Dabei beziehen sich die Bewertungen in 1a nur auf die akustische Ähnlichkeit des jeweils erkannten Wortes zu dem zugehörigen Zeitabschnitt der gesprochenen Äußerung, entsprechen also in den weiter oben erwähnten Formeln den akustischen Bewertungen P(O|T).
  • Die Erkennungsalternativen ergeben sich aus einem solchen Wortgraphen ME, indem man alle möglichen Pfade durch den Wortgraphen ME bestimmt, d. h. indem man beginnend vom linken Ende des Graphen ME allen möglichen Pfeilen bis zu seinem rechten Ende folgt. Neben dem tatsächlich gesprochenen Satz „Es liegt kein Gehirntumor vor" codiert der Graph ME also z. B. auch noch die Alternative „Es lügt enge Hirntumoren". Die beste Erkennungsalternative ist die mit der niedrigsten Bewertung. Diese Bewertung ergibt sich durch die Summe der Bewertungen der akustischen Ähnlichkeit und der Bewertungen mit Hilfe weiterer Informationsquellen, z. B. mit Hilfe eines Sprachmodells, das in den weiter oben erwähnten Formeln der Größe P(T) entspräche. Während diese zuletzt erwähnte Erkennungsalternative „Es lügt enge Hirntumoren" sicher unsinnig ist und daher nur eine schlechte Bewertung durch ein Sprachmodell bekäme, würde sie sicher nur in den seltenen Fällen stark verzerrter akustischer Bewertungen, z. B. bei hohem Hintergrundrauschen während der gesprochenen Äußerung, als beste Erkennungsalternative ausgewählt. Die auch im Graphen ME enthaltene Alternative „Es liegt ein Gehirntumor vor", d. h. „ein" statt „kein", lässt sich jedoch weder akustisch noch durch ein Sprachmodell deutlich von der tatsächlich gesprochenen Wortfolge unterscheiden. Auf der anderen Seite stellt aber natürlich der Unterschied zwischen „ein" und „kein" die entscheidende Information in diesem Satz dar.
  • 1b zeigt eine mögliche manuelle Transkription MT derselben gesprochenen Äußerung. Als Darstellungsform wurde, um die Verbindung zum Spracherkennungsergebnis deutlich zu machen, auch hier ein Wortgraph gewählt, der natürlich linear ist, d. h. nur einen Pfad enthält. Der Übersichtlichkeit halber wurden auch in 1b nur die Knoten 10 und 11 und der Pfeil 15 mit Bezugszeichen versehen. Die von den Pfeilen des Wortgraphen getragenen Symbole bezeichnen wieder in einer sprachunabhängigen Weise die deutschsprachigen Wörter der Transkription. Die folgende Tabelle gibt den Zusammenhang zwischen diesen Symbolen und den deutschsprachigen Wörtern wieder sowie Anmerkungen zu der Weise, in der diese Wörter getippt worden sind.
  • Figure 00110001
  • Beispielhaft werden in dieser manuellen Transkription MT einige Folgen aufgezeigt, die sich aus einer beschleunigten Arbeitsweise bei der manuellen Transkription ergeben könnten. In zwei Wörtern treten „Tippfehler" auf: in „ligt", d. h. der manuellen Transkription für „liegt", wurde der Tastenanschlag für den Buchstaben „e" weggelassen und in „keim", der manuellen Transkription für „kein", wurde der Tippfehler „m" statt „n" gemacht (und nicht manuell korrigiert). Im Wort „gdhkfhgjjlf" (statt „Gehirntumor") wurde strikt der Anweisung gefolgt, nur die Tasten der zur Ruheposition der Hände beim Tippen gehörenden Tastaturzeile zu verwenden (wobei als Folge auch keine Großbuchstaben verwendet wurden). Dann fallen die Buchstaben "G" auf "g", "e" auf "d", "i" auf "k", "r" auf "f", "n" auf "h", "t" auf "g", "u" und "m" auf "j" und "o" auf "l".
  • Diese manuelle Transkription MT kann jetzt in bekannter Weise z. B. zu einer Wiederbewertung des Wortgraphen ME von 1a verwendet werden, auf deren Darstellung hier jedoch verzichtet wird. Bei einer solchen Wiederbewertung lassen sich solche Fakten berücksichtigen, wie z. B. dass das Hinzufügen eines Buchstabens beim Tippen unwahrscheinlicher ist als das Anschlagen einer falschen, auf der Tastatur direkt benachbarten Taste. Daher passt „keim" besser zu „kein" als zu „ein". Ähnlich ist das Weglassen eines Tastenanschlages wahrscheinlicher als Ersetzen von „ü" durch „i", also von Tasten, die von unterschiedlichen Fingern angeschlagen werden, womit „ligt" besser zu „liegt" als zu „lügt" passt. Damit löst die Kombination der manuellen Transkription MT mit dem Mustererkennungsergebnis ME in diesem Beispiel die schwierige Aufgabe „kein" von „ein" zu unterscheiden und die korrekte Transkription „Es liegt kein Gehirntumor vor" zu generieren.
  • 2 zeigt eine erfindungsgemäße Vorrichtung zur spracherkennungsunterstützten manuellen Transkription gesprochener Äußerungen. An eine Verarbeitungseinheit 20 sind ein Datenspeicher 21, ein Mikrofon 22, ein Lautsprecher 23, eine Tastatur 25, ein Fußschalter 26 sowie ein Bildschirm 27 angeschlossen. Über das Mikrofon 22 kann die gesprochene Äußerung direkt aufgenommen und im Datenspeicher 21 als Audiodatei abgelegt werden. Die gesprochene Äußerung kann jedoch alternativ dazu auch über einen in 2 nicht gezeigten Datenträger oder über ein Netzwerk wie z. B. ein Telefonnetz oder das Internet an die Verarbeitungseinheit 20 übertragen werden. Der Lautsprecher 23 dient zur Wiedergabe der gesprochenen Äußerung bei der manuellen Transkription. Alternativ zum Mikrofon 22 und/oder zum Lautsprecher 23 kann jedoch beispielsweise auch ein Headset verwendet werden.
  • Die Verarbeitungseinheit 20 kann dann selbst eine Spracherkennung der gesprochenen Äußerung vornehmen und das Erkennungsergebnis im Datenspeicher 21 ablegen. Sie kann dieses Erkennungsergebnis jedoch z. B. auch über ein Netzwerk entgegennehmen. Die Tastatur 25 dient zusammen mit dem Fußschalter 26 zur Eingabe der manuellen Transkription und der Bildschirm 27 zur visuellen Darstellung. Die Erfindung kann auch mit dem Vorschlag von Textkombinationen kombiniert werden, wie aus dem Stand der Technik für Korrektureditoren bekannt ist. In diesem Fall dient der Bildschirm 27 zur Darstellung des manuell eingegebenen Textes und der auf Grund der Kombination der manuellen Eingabe mit dem Spracherkennungsergebnis vorgeschlagenen Wörter und Wortvervollständigungen.
  • Auf dem Bildschirm 27 ist die Situation dargestellt, dass für die gesprochene Äußerung „Es liegt kein Gehirntumor vor" vorab bereits der Text 30 mit dem Inhalt „Es liegt k" manuell eingegeben wurde. Aufgrund der Kombination mit dem Spracherkennungsergebnis, das z. B. in Form des in 1a dargestellten Wortgraphen ME im Datenspeicher 21 vorliegen könnte, schlägt die Verarbeitungseinheit 20 dann die jetzt in diesem Wortgraphen ME eindeutige Textfortsetzung 31 mit dem Inhalt „ein Gehirntumor vor" vor, so dass jetzt auf dem Schirm der Text „Es liegt kein Gehirntumor vor" sichtbar ist. Zur Unterscheidung des Fortsetzungsvorschlags 31 von dem manuell eingegebenen Text 30 wird dieser anders dargestellt, hier z. B. in invertierter Darstellung (Englisch: inverse video), d. h. in weißer Schrift auf schwarzem Grund. Durch Betätigen des Fußschalters 26 kann der menschliche Transkribierer diese Textfortsetzung 31 jetzt akzeptieren. Ist er jedoch nicht damit einverstanden, so schreibt er einfach auf der Tastatur 25 weiter.
  • Wieder werden die in 1 bereits verwendeten Symbole erneut verwendet, um in 2 eine sprachunabhängige Darstellung zu verschaffen,, d. h. Text 30 wird als Symbolfolge "105 106 1" und Text 31 als "07 108 109" dargestellt, wobei die oben eingeführte Entsprechung genutzt wird, deren relevanter Teil hier wiederholt wird:
    Figure 00130001
    Figure 00140001
  • Wie bereits in 2 gesagt, wird die Situation angenommen, dass das "k" von "kein" gerade als letzter Teil des getippten Textes 30 eingegeben wurde und das "ein" von "kein" als erster Teil der vorgeschlagenen Fortsetzung 31 des Tippens vorgeschlagen wird. Dies ist in 2 dargestellt, indem die "1" des Symbols 107 als letzter Teil von Text 30 and die "07" des Symbols 107 als erster Teil von Text 31 dargestellt wird.
  • Im Fall einer Ablehnung der Textfortsetzung 31 durch den menschlichen Transkribierer, z. B. indem er mit Tippen fortfährt, kann es vorkommen, dass das Spracherkennungsergebnis keinen mit der eingegebenen manuellen Transkription verträglichen Pfad mehr enthält. Gehen wir dazu z. B. für das Spracherkennungsergebnis vom Wortgraphen ME von 1a aus, nehmen jedoch an, dass es sich bei der gesprochenen Äußerung um den Satz „Es liegt keine Hirnblutung vor" handelt. Dann erkennt die Verarbeitungseinheit 20, dass sich die bisherige manuelle Transkription nicht mehr mit dem Spracherkennungsergebnis ME kombinieren lässt, und kann eine entsprechende Korrekturprozedur starten. Z. B. kann sie die bisherige manuelle Eingabe dazu benutzen, um unter deren Berücksichtigung eine neue Spracherkennung der gesprochenen Äußerung zu starten, um diese dann für die weitere Kombination mit den bisherigen und den noch folgenden manuellen Eingaben zu verwenden.

Claims (9)

  1. Verfahren zur Transkription einer gesprochenen oder schriftlichen Äußerung mit den folgenden Schritten: – manuelle Transkription der Äußerung, – Mustererkennung der Äußerung, wobei die manuelle Transkription und die Mustererkennung in beliebiger Reihenfolge ausgeführt werden können, und – Kombination der manuellen Transkription (MT) und des Mustererkennungsergebnisses (ME) zum Korrigieren und/oder Vervollständigen der manuellen Transkription (MT).
  2. Verfahren zur Transkription einer gesprochenen oder schriftlichen Äußerung mit den folgenden Schritten: – manuelle Transkription der Äußerung, – Mustererkennung der Äußerung unter Berücksichtigung des manuell transkribierten Textes (MT) und – Erstellung der Transkription der Äußerung durch Kombination der manuellen Transkription (MT) und des Mustererkennungsergebnisses (ME) zum Korrigieren und/oder Vervollständigen der manuellen Transkription (MT).
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Kombination des manuell transkribierten Textes (MT) und des Mustererkennungsergebnisses (ME) darin besteht, die nach stochastischen Modellen für die Prozesse der manuellen Transkription und der Mustererkennung wahrscheinlichste Transkription für die Äußerung zu bestimmen.
  4. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass: – das Mustererkennungsergebnis (ME) eine bewertete N-Besten-Liste oder ein bewerteter Wortgraph (ME) ist und – die Kombination des manuell transkribierten Textes (MT) und des Mustererkennungsergebnisses (ME) in einer Wiederbewertung der N-Besten-Liste oder des Wortgraphen (ME) unter Berücksichtigung des manuell transkribierten Textes (MT) besteht.
  5. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Berücksichtigung des manuell transkribierten Textes (MT) bei der Mustererkennung der Äußerung in der Auswahl des Mustererkennungsvokabulars und/oder des Mustererkennungssprachmodells besteht.
  6. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Äußerung eine gesprochenen Äußerung ist, die Mustererkennung Spracherkennung ist und die manuelle Transkription Handgeschriebenes und/oder eine Form einer Kurzschrift beinhaltet.
  7. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die manuelle Transkription durch Tastatureingabe auf eine Weise ausgeführt wird, bei der die zum Tippen benötigte Zeit durch Weglassen von Tastenanschlägen und/oder durch Anschlagen anderer Tasten zur Verringerung der Größe der Finger- und/oder Handbewegungen im Vergleich zu der Erstellung einer allgemein verwendbaren manuellen Transkription verkürzt wird.
  8. Vorrichtung zur Transkription einer gesprochenen oder schriftlichen Äußerung mit den folgenden Komponenten: – Mitteln zur Eingabe der manuellen Transkription der Äußerung, – Mitteln zur Müstererkennung der Äußerung, – Mitteln zur Kombination der manuellen Transkription (MT) und des Mustererkennungsergebnisses (ME) zum Korrigieren und/oder Vervollständigen der manuellen Transkription (MT).
  9. Verwendung eines Verfahrens nach einem der Ansprüche 1 bis 7 zur Erstellung einer SMS-Nachricht oder eines Videountertitels.
DE60312963T 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen Expired - Lifetime DE60312963T2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE60312963T DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE10204924 2002-02-07
DE10204924A DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
DE60312963T DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
PCT/IB2003/000374 WO2003067573A1 (en) 2002-02-07 2003-01-30 Method and device for the rapid, pattern-recognition-supported transcription of spoken and written utterances

Publications (2)

Publication Number Publication Date
DE60312963D1 DE60312963D1 (de) 2007-05-16
DE60312963T2 true DE60312963T2 (de) 2007-12-13

Family

ID=27618362

Family Applications (2)

Application Number Title Priority Date Filing Date
DE10204924A Withdrawn DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen
DE60312963T Expired - Lifetime DE60312963T2 (de) 2002-02-07 2003-01-30 Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE10204924A Withdrawn DE10204924A1 (de) 2002-02-07 2002-02-07 Verfahren und Vorrichtung zur schnellen mustererkennungsunterstützten Transkription gesprochener und schriftlicher Äußerungen

Country Status (7)

Country Link
US (1) US20060167685A1 (de)
EP (1) EP1479070B1 (de)
JP (1) JP2005517216A (de)
AT (1) ATE358869T1 (de)
AU (1) AU2003205955A1 (de)
DE (2) DE10204924A1 (de)
WO (1) WO2003067573A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050273337A1 (en) * 2004-06-02 2005-12-08 Adoram Erell Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
KR100654183B1 (ko) * 2005-11-07 2006-12-08 한국전자통신연구원 음성 인식을 이용한 문자 입력 시스템 및 그 방법
US9230222B2 (en) * 2008-07-23 2016-01-05 The Quantum Group, Inc. System and method enabling bi-translation for improved prescription accuracy
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP6165619B2 (ja) * 2013-12-13 2017-07-19 株式会社東芝 情報処理装置、情報処理方法、および情報処理プログラム
CN109285548A (zh) * 2017-07-19 2019-01-29 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
US10573312B1 (en) * 2018-12-04 2020-02-25 Sorenson Ip Holdings, Llc Transcription generation from multiple speech recognition systems
US11017778B1 (en) 2018-12-04 2021-05-25 Sorenson Ip Holdings, Llc Switching between speech recognition systems
CN110956959B (zh) * 2019-11-25 2023-07-25 科大讯飞股份有限公司 语音识别纠错方法、相关设备及可读存储介质
US11488604B2 (en) 2020-08-19 2022-11-01 Sorenson Ip Holdings, Llc Transcription of audio

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0122880A2 (de) * 1983-04-19 1984-10-24 E.S.P. Elektronische Spezialprojekte Aktiengesellschaft Elektronische Einrichtung zum Schnellschreiben mit elektronischen Schreibmaschinen, Druckern, Photozetsmaschinen, Verarbeitungseinheiten und ähnlichen Maschinen
JPS6091435A (ja) * 1983-10-25 1985-05-22 Fujitsu Ltd 文字入力装置
JPS62229300A (ja) * 1986-03-31 1987-10-08 キヤノン株式会社 音声認識装置
US5027406A (en) * 1988-12-06 1991-06-25 Dragon Systems, Inc. Method for interactive speech recognition and training
EP0505621A3 (en) * 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
US5502774A (en) * 1992-06-09 1996-03-26 International Business Machines Corporation Automatic recognition of a consistent message using multiple complimentary sources of information
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JPH0883092A (ja) * 1994-09-14 1996-03-26 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置及び情報入力方法
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
JP3254977B2 (ja) * 1995-08-31 2002-02-12 松下電器産業株式会社 音声認識方法及び音声認識装置
US5855000A (en) * 1995-09-08 1998-12-29 Carnegie Mellon University Method and apparatus for correcting and repairing machine-transcribed input using independent or cross-modal secondary input
US5960447A (en) * 1995-11-13 1999-09-28 Holt; Douglas Word tagging and editing system for speech recognition
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
DE69817844T2 (de) * 1997-06-27 2004-05-06 M.H. Segan Ltd. Partnership, Great Barrington Verfahren und vorrichtung zur spracherkennungscomputereingabe
US6219453B1 (en) * 1997-08-11 2001-04-17 At&T Corp. Method and apparatus for performing an automatic correction of misrecognized words produced by an optical character recognition technique by using a Hidden Markov Model based algorithm
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6078885A (en) * 1998-05-08 2000-06-20 At&T Corp Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
FI981154A (fi) * 1998-05-25 1999-11-26 Nokia Mobile Phones Ltd Menetelmä ja laite puheen tunnistamiseksi
JP2000056796A (ja) * 1998-08-07 2000-02-25 Asahi Chem Ind Co Ltd 音声入力装置および方法
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6167376A (en) * 1998-12-21 2000-12-26 Ditzik; Richard Joseph Computer system with integrated telephony, handwriting and speech recognition functions
JP2000339305A (ja) * 1999-05-31 2000-12-08 Toshiba Corp 文書作成装置、及び文書作成方法
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
JP2001042996A (ja) * 1999-07-28 2001-02-16 Toshiba Corp 文書作成装置、文書作成方法
US6789231B1 (en) * 1999-10-05 2004-09-07 Microsoft Corporation Method and system for providing alternatives for text derived from stochastic input sources
JP2001159896A (ja) * 1999-12-02 2001-06-12 Nec Software Okinawa Ltd 音声認識機能を利用した簡易文字入力方法
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
US7243069B2 (en) * 2000-07-28 2007-07-10 International Business Machines Corporation Speech recognition by automated context creation
US6836759B1 (en) * 2000-08-22 2004-12-28 Microsoft Corporation Method and system of handling the selection of alternates for recognized words
US6788815B2 (en) * 2000-11-10 2004-09-07 Microsoft Corporation System and method for accepting disparate types of user input
US20020152071A1 (en) * 2001-04-12 2002-10-17 David Chaiken Human-augmented, automatic speech recognition engine
US20020152075A1 (en) * 2001-04-16 2002-10-17 Shao-Tsu Kung Composite input method
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6996525B2 (en) * 2001-06-15 2006-02-07 Intel Corporation Selecting one of multiple speech recognizers in a system based on performance predections resulting from experience
US7058575B2 (en) * 2001-06-27 2006-06-06 Intel Corporation Integrating keyword spotting with graph decoder to improve the robustness of speech recognition
US7467089B2 (en) * 2001-09-05 2008-12-16 Roth Daniel L Combined speech and handwriting recognition
US6708148B2 (en) * 2001-10-12 2004-03-16 Koninklijke Philips Electronics N.V. Correction device to mark parts of a recognized text
US7124085B2 (en) * 2001-12-13 2006-10-17 Matsushita Electric Industrial Co., Ltd. Constraint-based speech recognition system and method
US7103542B2 (en) * 2001-12-14 2006-09-05 Ben Franklin Patent Holding Llc Automatically improving a voice recognition system
US20030112277A1 (en) * 2001-12-14 2003-06-19 Koninklijke Philips Electronics N.V. Input of data using a combination of data input systems
US6986106B2 (en) * 2002-05-13 2006-01-10 Microsoft Corporation Correction widget
US7137076B2 (en) * 2002-07-30 2006-11-14 Microsoft Corporation Correcting recognition results associated with user input
US7228275B1 (en) * 2002-10-21 2007-06-05 Toyota Infotechnology Center Co., Ltd. Speech recognition system having multiple speech recognizers

Also Published As

Publication number Publication date
DE60312963D1 (de) 2007-05-16
ATE358869T1 (de) 2007-04-15
JP2005517216A (ja) 2005-06-09
EP1479070A1 (de) 2004-11-24
WO2003067573A1 (en) 2003-08-14
DE10204924A1 (de) 2003-08-21
US20060167685A1 (en) 2006-07-27
EP1479070B1 (de) 2007-04-04
AU2003205955A1 (en) 2003-09-02

Similar Documents

Publication Publication Date Title
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE68928097T2 (de) Spracherkennungssystem
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
US20180143956A1 (en) Real-time caption correction by audience
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
DE69712216T2 (de) Verfahren und gerät zum übersetzen von einer sparche in eine andere
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
US20180144747A1 (en) Real-time caption correction by moderator
CN111369996A (zh) 一种特定领域的语音识别文本纠错方法
CN109977398B (zh) 一种特定领域的语音识别文本纠错方法
DE112007000727T5 (de) Tragbare elektronische Vorrichtung und Verfahren zur Durchführung einer Rechtschreibprüfung während einer Texteingabe und zum Integrieren der Ausgabe der Rechtschreibprüfung in die Ausgabe einer Disambiguierung
JPS61107430A (ja) 音声情報の編集装置
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE60312963T2 (de) Methode und gerät zur schnellen, durch mustererkennung gestützen transkription von gesprochenen und geschriebenen äusserungen
DE60020504T2 (de) Anpassung eines spracherkenners an korrigierte texte
DE112015003357B4 (de) Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage
DE3855426T2 (de) Korrekturunterstützungsgerät mit Dokumentenausgabe
DE60119643T2 (de) Homophonewahl in der Spracherkennung
Fetter Detection and transcription of OOV words

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS AUSTRIA GMBH, WIEN, AT

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN