DE69818930T2 - Verfahren zur Ausrichtung von Text an Audiosignalen - Google Patents

Verfahren zur Ausrichtung von Text an Audiosignalen Download PDF

Info

Publication number
DE69818930T2
DE69818930T2 DE1998618930 DE69818930T DE69818930T2 DE 69818930 T2 DE69818930 T2 DE 69818930T2 DE 1998618930 DE1998618930 DE 1998618930 DE 69818930 T DE69818930 T DE 69818930T DE 69818930 T2 DE69818930 T2 DE 69818930T2
Authority
DE
Germany
Prior art keywords
text
section
audio
sections
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1998618930
Other languages
English (en)
Other versions
DE69818930D1 (de
Inventor
Oren Glickman
Christopher Frank Joerg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Compaq Computer Corp
Original Assignee
Compaq Computer Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Compaq Computer Corp filed Critical Compaq Computer Corp
Application granted granted Critical
Publication of DE69818930D1 publication Critical patent/DE69818930D1/de
Publication of DE69818930T2 publication Critical patent/DE69818930T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf die Verarbeitung von Sprachsignalen und insbesondere auf das Ausrichten digitalisierten Texts auf analoge gesprochene Wörter.
  • Hintergrund der Erfindung
  • Bei einer rechnergestützten Informationsgewinnungsanwendung kann es vorkommen, dass ein Benutzer Teile einer Audiodatei, z.B. ein mitgeschnittenes Radioprogramm, die einen spezifischen Inhalt haben, lokalisieren möchte. Wenn die Informationsgewinnungsanwendung eine ausgerichtete Texttranskription der Audiodatei hat, dann kann die Textdatei unter der Verwendung herkömmlicher Textsuchverfahren zum Lokalisieren des entsprechenden Teils in der Audiodatei durchsucht werden. Die Ausrichtung ermöglicht es nämlich, dass auf die Audiodatei direkt durch Wörter zugegriffen werden kann. Eine Audio-Text-Ausrichtung kann auch zum Durchsuchen einer Videodatei (Video) verwendet werden, wenn das Video eine Tonspur enthält, die mit einer Texttranskription ausgerichtet ist, z.B. das Videosignal untertitelt ist.
  • Die meisten bekannten Ausrichtungsverfahren sind Erweiterungen herkömmlicher rechnergestützter Spracherkennungen, die in einem sehr eingeschränkten Modus zur zwangsweisen Erkennung des Zieltexts betrieben werden. Typischerweise wird die Ausrichtung von links nach rechts durchgeführt, indem ein Erkennungsfenster über die Audiosignale zeitlich vorwärts bewegt wird. Die zeitlich gemessene Breite des Fensters kann so groß sein, dass das Erkennungsprogramm sich von lokalen Fehlern erholen kann. Dieser Typ einer Ausrichtung wird wohl besser als "Zwangserkennung" bezeichnet.
  • Das Problem der Zwangsausrichtung unterscheidet sich vom Problem der Erkennung. Im Fall der Erkennung gelten die gesprochenen Wörter als unbekannt, und die Aufgabe besteht darin, die gesprochenen Wörter zu erkennen. Bei der Ausrichtung ist der Text bekannt, jedoch ist die zeitliche Ausrichtung des Texts mit den gesprochenen Wörtern der Tonspur unbekannt.
  • Daher haben die Verfahren auf der Grundlage einer Zwangserkennung etliche Nachteile und Einschränkungen. Zum Beispiel funktionieren diese Verfahren bei rauschigen oder anderen schwierigen Tonspuren schlecht, wie zum Beispiel in dem Fall, wo sich außersprachliche Audiosignale mit den gesprochenen Wörtern überlagern. Wenn außerdem der Audiostrom lang ist, z.B. eine Stunde oder mehr, besteht eine sehr hohe Wahrscheinlichkeit eines groben Ausrichtungsfehlers. Da diese Verfahren sich auf einen einzigen Durchgang von links nach rechts über den Audiostrom stützen, kann ein einziger Fehler, der früh im Durchlauf geschieht, dazu führen, dass der verbleibende Strom fehlausgerichtet ist. Außerdem kann es sein, dass solche Verfahren überhaupt nicht funktionieren, wenn der Text nicht die gesamte Dauer des Audiostroms, sondern nur einen Teil davon repräsentiert.
  • Zusammenfassung der Erfindung
  • Ein rechnergestütztes Verfahren ist vorgesehen zum Ausrichten einer Textdatei mit einer Audiodatei. Die Textdatei enthält geschriebene Wörter, und die Audiodatei enthält gesprochene Wörter. Zwischen einem Teil, jedoch nicht notwendigerweise allen Wörtern der Textdatei und der Audiodatei besteht eine einszu-eins Entsprechung.
  • Die Erfindung besteht in ihrer weitgefassten Form aus einem rechnergestützten Verfahren und einer Vorrichtung zum Ausrichten von Textabschnitten einer Textdatei mit Audioabschnitten einer Audiodatei, wie in Anspruch 1 bzw. Anspruch 15 angeführt.
  • Wie im Folgenden beschrieben, wird ein Vokabular- und Sprachmodell aus dem Textabschnitt erzeugt. Das Sprachmodell kann in der Form von Trigrammen sein, welche die relativen Wahrscheinlichkeiten von Ein-, Zwei- und Dreiwortfolgen im Textabschnitt angeben.
  • Eine Wortliste, die mit Zeitabstimmungsinformation annotiert ist, wird dadurch erzeugt, dass unter Verwendung des Vokabular- und Sprachmodells gesprochene Wörter aus dem Audioabschnitt erkannt werden. Die Spracherkennung kann eine standardmäßige Spracherkennung sein, die akustisch-phonetische Modelle verwendet.
  • Die Wortliste wird mit dem Textabschnitt ausgerichtet, wobei zu beachten ist, dass es mehrere mögliche Ausrichtungen geben kann. Dynamische Programmierverfahren werden zur Bestimmung einer bestmöglichen Ausrichtung verwendet. Den besten Ausrichtungen der geschriebenen und gesprochenen Wörter entsprechende Anker werden gewählt, und die Anker werden zur Aufteilung des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte verwendet. Diese Schritte werden an den unausgerichteten Abschnitten wiederholt, bis ein Endzustand erreicht wird. Der Endzustand kann dadurch erkannt werden, dass der Textabschnitt und der Audioabschnitt voll ausgerichtet sind, oder dadurch, dass ein bestimmter unausgerichteter Abschnitt eine Dauer von weniger als einem vorbestimmten Schwellenwert hat.
  • In einer Ausführungsform der Erfindung wird während der nächsten Iteration das Vokabular- und Sprachmodell aus den unausgerichteten Abschnitten neu aufgebaut.
  • Kurzbeschreibung der Zeichnungen
  • Ein eingehenderes Verständnis der Erfindung kann aus der folgenden Beschreibung einer bevorzugten Ausführungsform gezogen werden, die lediglich als Beispiel angeführt wird und zusammen mit den beigefügten Zeichnungen zu verstehen ist. Es zeigt:
  • 1 ein Blockdiagramm von Teilen einer Text- und einer Audiodatei, die gemäß einer bevorzugten Ausführungsform der Erfindung auszurichten sind;
  • 2 ein Blockdiagramm einer von oben nach unten durchgeführten Aufteilung der Text- und der Audiodatei von 1 in Abschnitte;
  • 3 ein Fließdiagramm eines Verfahrens zur Durchführung der Ausrichtung der Abschnitte gemäß einer bevorzugten Ausführungsform der Erfindung;
  • 4 ein Blockdiagramm zweier möglicher Ausrichtungen;
  • 5 ein Blockdiagramm von Ankern und unausgerichteten und ausgerichteten Teilen der Abschnitte;
  • 6 ein Fließdiagramm für die Einstellung der Verarbeitung der Abschnitte während aufeinander folgender Iterationen; und
  • 7 ein Blockdiagramm eines sprecherabhängigen Ausrichtungsvorgangs.
  • Detaillierte Beschreibung bevorzugter Ausführungsformen
  • 1 zeigt Teile einer Audiodatei 110 und einer entsprechenden Textdatei 120, die erfindungsgemäß auszurichten sind. Die Textdatei 120 ist eine volle oder teilweise Transkription der gesprochenen Wörter der Audiodatei.
  • In der Praxis ist der Inhalt der Audiodatei 110 zeitabhängig. Das bedeutet, dass die analogen Audiosignale sich mit einer gleichmäßigen Rate über zum Beispiel mehrere Stunden hinweg vorwärts bewegen. Einige Wörter (lang 111) können zeitlich gestreckt werden, um eine Betonung zu erzielen, andere Wörter (112) können je nach der Diktion des Sprechers eine kurze Dauer haben. Wörter 113 können miteinander verschmelzen, wenn die Sprache undeutlich ist. Dies macht es schwierig, das Ende eines Wortes und den Anfang eines nächsten Wortes zu unterscheiden.
  • Die Datei 110 kann auch Stille und andere Audiosignale enthalten, zum Beispiel außertextliche Wörter, Musik- und Hintergrundgeräusche, für die es keinen entsprechenden Text gibt. Die Audiosignale können auch durch andere Kanalbedingungen, wie zum Beispiel Verzerrung und durch Kompression verursachte Aberrationen beschädigt sein.
  • In der Textdatei 120 sind die die Wörter des Texts bildenden Zeichen in einem räumlichen Verhältnis zueinander, d.h. es gibt keine Zeitvorstellung. Jedes Zeichen wird typischerweise als ein digitaler String mit einer festen Länge (ein Byte 121) gespeichert, und eine räumliche Trennung zwischen Wörtern, Sätzen und vielleicht sogar Absätzen sind üblicherweise unter der Verwendung von Interpunktionszeichen 122, z.B. Leerzeichen oder Punktzeichen klar voneinander abgesetzt.
  • Das Problem besteht in der Ausrichtung der zeitlich angeordneten Audiosignale mit den räumlich angeordneten Textsignalen, wie das durch Pfeile 130 gezeigt ist. Wie in 2 gezeigt, verwendet im Gegensatz zum Stand der Technik, wo die Ausrichtung üblicherweise in serieller Weise erfolgt, die vorliegende Anordnung ein von oben nach unten vorgehendes iteratives "Teile-und-Herrsche-Verfahren".
  • Beim iterativen Verfahren werden die Audio- und die Textdatei 110 bzw. 120 während aufeinanderfolgender Stufen der Iterationen bei "Ankern" 200 in kleinere Abschnitte 201, 202, 203, 204,... 299 aufgeteilt. Die Trennlinien zwischen Abschnitten werden zu Zwecken dieser Erfindung als "Anker" bezeichnet. Der Vorgang ist zum Beispiel dann abgeschlossen, wenn die beiden Dateien voll ausgerichtet sind oder wenn keine zusätzlichen Anker mehr erfasst werden können.
  • Aufgrund der der Spracherkennung innewohnenden Unsicherheiten kann es für jeden Abschnitt mehrere mögliche Ausrichtungen geben. Deswegen werden die möglichen Ausrichtungen bewertet, und die besten Ausrichtungen werden als die Anker ausgewählt, wo die Dateien korrekt in ausgerichtete und unausgerichtete Abschnitte unterteilt werden können. Da die Ausrichtung von oben nach unten erfolgt, besteht eine kleinere Wahrscheinlichkeit, dass es zu groben Fehlausrichtungen kommt.
  • Wie in 3 gezeigt, beginnt das bevorzugte Verfahren 300 bei einem Analyseschritt 301 durch das Verarbeiten eines aktuellen Textabschnitts 310 der Textdatei 120 zum Erzeugen eines Vokabular- und Sprachmodells (V-LM) 320 für den Textabschnitt 310. Anfänglich kann der aktuelle Abschnitt 310 die gesamte Textdatei 110 sein. Das V-LM 320 kann unter der Verwendung standardmäßiger Sprachanalysewerkzeuge erstellt werden, wie zum Beispiel dasjenige, das mit der Spracherkennung Sphinx II geliefert wird, das an der Carnegie-Mellon University entwickelt wurde. Hier ist das Sprachmodell in der Form von Trigrammen 321, bei denen die relativen Wahrscheinlichkeiten aller Ein-, Zwei-, Dreiwortfolgen dadurch bestimmt werden, dass berücksichtigt wird, wie oft diese Folgen im Textabschnitt 310 vorkommen.
  • Im Schritt 302 wird der entsprechende Abschnitt der Audiodatei 330 unter der Verwendung des V-LM 320 und akustisch-phonetischer Modelle 325 zum Erzeugen einer Wortliste 331 durch die Spracherkennung verarbeitet, die mit Zeitinformation 332 und möglichen Sicherheitsbewertungen 333 versehen ist. Die Spracherkennung kann ein beliebiges standardmäßiges Spracherkennungsprogramm sein. Zum Beispiel verwendet das Spracherkennungsprogramm Sphinx II 203 eine versteckte Markov-Modellierung (Hidden Markov Modeling / HMM), es kann jedoch auch eine statistische Laufbahnmodellierung (Statistical Trajectory Modeling / STM) verwendet werden. Die akustisch-phonetischen Modelle 325 charakterisieren akustischphonetische Einheiten statistisch. Die akustisch-phonetischen Modelle 325 werden üblicherweise aus einem Trainingscorpus heraus trainiert. Die akustischphonetischen Modell 325 können anfänglich sprecherunabhängig sein.
  • Die Wortliste 331 speichert nur die Wörter, die tatsächlich im Audioabschnitt 330 erkannt wurden, sequenziell. Es wird darauf hingewiesen, dass im Gegensatz zum Stand der Technik dieser Schritt 302 ohne Berücksichtigung dessen durchgeführt wird, was die Wörter sein mögen, die im Textabschnitt 310 angegeben sind. Die Zeitabstimmungsinformation 332 gibt für jedes erkannte Wort die Startzeit und die Dauer jedes erkannten Wortes an. Die Sicherheitsbewertungen 333 geben den Grad der Sicherheit an, mit dem ein Wort korrekt erkannt wurde.
  • Die Wortliste 331 und die Zeitabstimmungsinformation 332 sind nicht notwendigerweise absolut korrekt, das bedeutet, dass die erkannten gesprochenen Wörter der Liste 331 nur eine "beste Schätzung" der gesprochenen Wörter des Audioabschnitts 330 darstellen, wie durch die Sicherheitsbewertungen 333 angegeben. Manche Wörter können auch verfehlt werden, und andere Wörter können falsch verstanden werden, z.B. kann "way" als "weight" missverstanden werden.
  • In Schritt 303 wird die erkannte Wortliste 331 mit dem Textabschnitt 310 ausgerichtet. Eine dynamische Programmierung oder ähnliche Verfahren können zum Ausrichten der Wortliste 331 mit dem Textabschnitt 310 verwendet werden.
  • Dynamische Programmierverfahren, die eine beste eins-zu-eins-Entsprechung zwischen zwei Listen von Textelementen (Tokens) bestimmen, sind wohl bekannt. Die Textelemente sind hier gesprochene Wörter und Textwörter.
  • Wie in 4 gezeigt, kann es für bestimmte aufgelistete Wörter 401 und entsprechende Textabschnitte 402 mehrere mögliche Ausrichtungen geben. Die gestrichelten Linien 403 zeigen eine eins-zu-eins-Entsprechung, bei der die größte Anzahl von Wörtern ausgerichtet ist. Die durch die durchgezogenen Linien 404 angezeigte Ausrichtung ist vorzugsweise auf der Grundlage der Ausrichtung längerer Wörter. Wünschenswert ist das Wählen der "besten" Ausrichtungen.
  • Zum Beispiel kann jede mögliche Ausrichtung bewertet werden. Die Punktebewertung einer bestimmten Ausrichtung kann sich immer dann erhöhen, wenn identische Wörter ausgerichtet werden, und verringern, wenn unterschiedliche Wörter ausgerichtet werden. Die Punktebewertung kann für "lange" Wörter so gewichtet werden, das die Punktzahl erhöht wird, da lange Wörter wahrscheinlich mit einer geringeren Häufigkeit auftreten. Außerdem können auch lange Abfolgen korrekt ausgerichteter Wörter den Punktestand erhöhen.
  • Wenn zum Beispiel die Abfolge der gesprochenen Wörter "there's a long way to go" im Audioabschnitt 330 exakt zum entsprechenden Teil des Textabschnitts 310 passt, ist die Wahrscheinlichkeit sehr groß, dass es sich dabei um das tatsächlich Gesagte handelt und dass die Ausrichtung korrekt ist. Wenn an einem anderen Punkt in der Ausrichtung nur das Wort "a" übereinstimmt, dann ist die Korrektheit der Ausrichtung weniger sicher.
  • Wie in 5 gezeigt, werden Ausrichtungen, die am wahrscheinlichsten korrekt sind, als "Anker" 200 im Audioabschnitt 330 und im Textabschnitt 310 gewählt. Ein Anker 200 ist als ein Ort definiert, bei dem die gesprochenen Wörter des Audioabschnitts mit ziemlich großer Sicherheit auf die geschriebenen Wörter des Textabschnitts ausgerichtet sind. In einer bevorzugten Ausführungsform wird eine beliebige Abfolge von vier Wörtern als korrekt angenommen. Wenn es keine solchen Abfolgen gibt, kann der Schwellenwert auf drei Wörter gesenkt werden, und dann auf zwei. Es gibt auch andere Möglichkeiten, wie zum Beispiel die Auswahl nur der längsten korrekten Abfolge als Anker, oder die Berücksichtigung der Gesamtwortlängen bei der Bestimmung der Länge einer korrekten Abfolge. Zur gleichen Zeit können die Anker 200 im Textabschnitt 310 mit der entsprechenden Zeitinformation versehen werden, die aus dem Audioabschnitt 330 gezogen wird.
  • Beim Schritt 305 werden die Anker 200 zur Aufteilung des Textabschnitts 310 und des Audioabschnitts 330 in entsprechende ausgerichtete Abschnitte (schraffiert) 501 und unausgerichtete Abschnitte 502 verwendet. Die Startzeiten und Zeitdauern der Abschnitte 501 und 502 sind aus der zur Annotierung der Abschnitte verwendeten Zeitinformation bekannt.
  • Die unausgerichteten Text- und Audioabschnitte 502 werden durch die Schritte 301 bis 305 erneut verarbeitet, bis ein erwünschter Endzustand erreicht wird, z.B. die Text- und die Audiodatei vollständig ausgerichtet sind oder keine neuen Anker mehr erfasst werden können. Es besteht auch die Möglichkeit, dass ein Teil der Wörter eines Ankers 200 jeden unausgerichteten Abschnitt 502 nach der Aufteilung beginnen und/oder beenden können, um die Wahrscheinlichkeit zu erhöhen, dass einige Wörter im unausgerichteten Abschnitt sind, die beim nächsten Durchgang korrekt erkannt werden.
  • Es wird darauf hingewiesen, dass bei jeder Iteration das Vokabular- und Sprachmodell 320 nur aus den Wörtern dieses Textabschnitts aufgebaut wird, und dass nur dieses bestimmte V-LM 320 zur Erkennung von Wörtern im aktuellen Audioabschnitt 330 verwendet wird.
  • Die Iterationen können aus verschiedenen Gründen beendet werden. Einer besteht darin, dass es keine Wörter und daher keine Unterabschnitte mehr auszurichten gibt. Ein anderer besteht darin, dass die letzte Iteration nicht genug ausgerichtete Wörter gefunden hat, so dass aus einer weiteren Iteration nichts mehr zu gewinnen ist. Die Iterationen können je nach der erwünschten Präzision auch früher eingestellt werden. Wenn zum Beispiel die Ausrichtung für Indizierungszwecke benötigt wird, könnten die Iterationen eingestellt werden, wenn die Zeitdauer eines Abschnitts eine gewisse Kürze (zum Beispiel wenige Sekunden) erreicht hat.
  • Da das vorliegende Verfahren immer kleiner werdende unausgerichtete Abschnitte mit einem kleiner werdenden Vokabular- und Sprachmodell durchgearbeitet, kann das vorliegende Verfahren Rauschen und andere Schwierigkeiten im Audiostrom besser bewältigen, zum Beispiel bei Audioströmen, bei denen sich Sprache und Musik überlagern. Außerdem ist es bei diesem Verfahren weniger wahrscheinlich, dass lange Audioströme fehlausgerichtet werden, weil eine Vorgehensweise von oben nach unten (top-down) verwendet wird, wobei eine Fehlausrichtung in einem Abschnitt eine Ausrichtung in einem anderen Abschnitt nicht beeinflusst. Außerdem funktioniert das Verfahren auch, wenn die Textdatei nicht die gesamte Dauer der Audiodatei, sondern nur einen Teil davon repräsentiert. Große Abschnitte in der Audiodatei, für die es keine entsprechenden Textabschnitte gibt, werden so ganz einfach bewältigt.
  • 6 zeigt die Ausrichtung und Aufteilung von Abschnitten über mehrere Iterationen. In Block 601 sind die Wörter eines gesamten Abschnitts unausgerichtet. In Block 602 wurden nach der Verarbeitung 650 die schraffierten Teile 501 ausgerichtet. Die unausgerichteten Teile 502 (Blöcke 603) werden erneut verarbeitet 660, um weitere ausgerichtete Teile (in Blöcken 604) zu lokalisieren und so weiter (Verarbeitung 680). Der Block 605 zeigt, dass keine weiteren Abschnitte auszurichten sind.
  • Wie in 6 gezeigt, können die Verarbeitungsschritte 301 bis 305 während der Iterationen auf verschiedene Arten und Weisen dynamisch eingestellt werden. Zum Beispiel werden im Schritt 610 die Ergebnisse der ausgerichteten Teile zum Einstellen der akustisch-phonetischen Modelle 325 der Spracherkennung 302 verwendet. Dadurch lernt die Spracherkennung 302, die gesprochenen Wörter einer bestimmten Audiodatei besser zu erkennen. Anders ausgedrückt werden die ausgerichteten Teile des vorhergehenden Durchgangs zu Sprachtrainingsdaten für die Spracherkennung 302, so dass bei den unausgerichteten Teilen der nächste Durchgang robuster ist.
  • Zum Beispiel kann die Spracherkennung 302 anfänglich so konfiguriert sein, dass sie mit sprecherunabhängigen Modellen funktioniert. Mit einem zunehmenden "Lernen" durch die Spracherkennung der Sprache des Sprechers der Wörter in der Audiodatei werden die akustisch-phonetischen Modelle der Spracherkennung immer sprecherabhängiger, d.h. "feiner eingestellt". Außerdem können auch für Audiodateien einer relativ langen Zeitdauer die Modelle so eingerichtet werden, dass sie Kanalparameter, wie zum Beispiel Rauschen, Verzerrung und Kompressionsverfahren, die auf die Sprache angewendet wurden, berücksichtigen, d.h. das vorliegende Verfahren kommt mit schwierigen Audiodateien besser zurecht.
  • Während einer Einstellung der Spracherkennung zur Verbesserung der Leistung kann auch die Ausrichtungseinrichtung und/oder die Anker-Wahleinrichtung im Schritt 630 so eingestellt werden, dass sie mehr oder weniger aggressiv vorgeht. Zum Beispiel können die Variablen und Kriterien, die durch die dynamischen Programmierungsverfahren des Ausrichters 302 verwendet werden, bei sich verbessernder Spracherkennung lockerer gehandhabt werden. Dies bedeutet, dass große Abschnitte ausgerichteter Wörter in aufeinander folgenden Iterationen schneller erfasst werden.
  • Wenn während eines einzigen Durchgangs keine Anker identifiziert werden, können in ähnlicher Weise unausgerichtete Teile unter der Verwendung anderer Bewertungsverfahren verarbeitet werden, und so weiter. Mit dem vorliegenden Verfahren kann die Präzision der Ausrichtung dynamisch eingestellt werden, um für eine bestimmte Anwendung angemessene Ergebnisse zu erzielen.
  • Wie in 7 gezeigt ist, kann das vorliegende Verfahren auch zur Durchführung einer Sprecheridentifikation verwendet werden. Zum Beispiel enthält eine Audiodatei 710 Teile 701, die von einem ersten Sprecher (Bob) gesprochen wurden, und Teile 702, die von einem zweiten Sprecher (Alice) gesprochen wurden. Eine entsprechende Textdatei 720 ist vollständig oder teilweise mit Sprecheridentifikationsinformation annotiert, z.B. es geht jedem Teil eines transkribierten Texts eine entsprechende Sprecheridentifikation 721 und 722 voraus. Nun kann die Spracherkennung 302 für die mehreren Sprecher getrennte akustischphonetische Modelle 731 und 732 entwickeln. Nachdem die Modelle "trainiert" wurden, kann die Sprechererkennung automatisch durchgeführt werden.
  • Dieses Verfahren kann auch zur Durchführung einer "automatischen" Untertitelung verwendet werden. Zum Beispiel wird ein erstes Band eines Nachrichtenprogramms vollständig oder teilweise mit der "Nachrichtensprecher"-Identifikation, wie oben beschrieben, transkribiert werden. Nachdem die Spracherkennung 302 für eine bestimmte Gruppe von Nachrichtensprechern trainiert wurde, können nachfolgende Video-(oder Audio-)Bänder transkribiert werden, um Textdateien zu erzeugen, ohne dass dabei die Sprecher explizit identifiziert werden. Die Modelle 325 können entsprechend eingestellt werden, wenn sich das Personal des Nachrichtenprogramms ändert.
  • Zusammengefasst ist das vorliegende Verfahren ein von oben nach unten vorgehendes iteratives Ausrichtungsverfahren und kein sequenzielles von links nach rechts vorgehendes Ausrichtungsverfahren. Während jeder Iteration eines Abschnitts bearbeitet die Spracherkennung das zeitabhängige Signal zur Erkennung von Textelementen (Tokens) und richtet die Textelemente mit digitalen Versionen der Textelemente aus. Unausgerichtete Textelemente werden erneut verarbeitet. Dieses Verfahren kann auch zur Ausrichtung anderer Typen von Signalen zum Beispiel in Systemen zur automatischen Erkennung von Handschriften und zum Lippenlesen eingesetzt werden.
  • Es versteht sich, dass die oben beschriebenen Ausführungsformen lediglich Veranschaulichungen der Prinzipien der Erfindungen sind. Verschiedene andere Modifikationen und Veränderungen können vom Fachmann vorgenommen werden, die dann in den Umfang der Erfindung fallen.

Claims (15)

  1. Rechnergestütztes Verfahren zum Ausrichten von Textabschnitten (310) einer Textdatei an Audioabschnitten (330) einer Audiodatei, mit den folgenden Schritten: – Erzeugen (301) eines Vokabular- und Sprachmodells (320) aus dem Textabschnitt (310); – Erkennen (302) einer Wortliste (332) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – Ausrichten (303) der Wortliste (332) am Textabschnitt (310); – Wählen entsprechender "Anker" (304), die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und im Textabschnitt; – Aufteilen des Textabschnitts (305) und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß der Anker; und – Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist.
  2. Verfahren nach Anspruch 1, bei dem der Textabschnitt der gesamten Textdatei entspricht und der Audioabschnitt der gesamten Audiodatei entspricht.
  3. Verfahren nach Anspruch 1, bei dem das Sprachmodell in der Form von Triggrammen vorliegt, wobei die Trigramme die relativen Wahrscheinlichkeiten der Ein-, Zwei- und Dreiwortfolgen im Textabschnitt anzeigen.
  4. Verfahren nach Anspruch 1, bei dem die Wortliste eine sequentielle Liste erkannter gesprochener Wörter des Audioabschnitts enthält.
  5. Verfahren nach Anspruch 1, weiter enthaltend den Schritt des Versehens der Wortliste mit Zeitinformation, wobei die Zeitinformation die Anfangszeit und die Zeitdauer eines jeden gesprochenen Worts enthält.
  6. Verfahren nach Anspruch 1, bei dem die Wortliste unter der Verwendung akustisch-phonetischer Modelle einer Spracherkennung erkannt wird.
  7. Verfahren nach Anspruch 1, weiter mit den Schritten des Bestimmens mehrerer möglicher Ausrichtungen, des Bewertens einer jeden möglichen Ausrichtung und des Auswählens einer besten Ausrichtung unter der Verwendung einer dynamischen Programmierung, weiter mit dem Schritt des Erhöhens der Bewertung einer bestimmten möglichen Ausrichtung, wenn eine bestimmte mögliche Ausrichtung eine längste Abfolge korrekt ausgerichteter Wörter enthält.
  8. Verfahren nach Anspruch 5, weiter mit dem Schritt des Versehens des Textabschnitts mit Zeitinformation für korrekt ausgerichtete Wörter des Audioabschnitts.
  9. Verfahren nach Anspruch 1, bei dem der Endzustand ein vollständig an einem Audioabschnitt ausgerichteter Text ist.
  10. Verfahren nach Anspruch 1, bei dem der Endzustand die Erfassung aller Anker im Text- und im Audioabschnitt ist.
  11. Verfahren nach Anspruch 1, bei dem der Endzustand für einen bestimmten unausgerichteten Abschnitt erreicht ist, wenn dieser bestimmte unausgerichtete Abschnitt eine Zeitdauer hat, die geringer als ein bestimmter Schwellenwert ist.
  12. Verfahren nach Anspruch 1, bei dem die unausgerichteten Abschnitte Teile benachbarter ausgerichteter Abschnitte enthalten, um die Wahrscheinlichkeit zu erhöhen, dass Wörter des unausgerichteten Abschnitts korrekt erkannt werden.
  13. Verfahren nach Anspruch 1, bei dem das Vokabular- und Sprachmodell während der nächsten Iterationen aus den unausgerichteten Abschnitten erneut aufgebaut wird.
  14. Verfahren nach Anspruch 1, bei dem der Textabschnitt einem Teil des Audioabschnitts entspricht.
  15. Vorrichtung zum Ausrichten von Textabschnitten (310) einer Textdatei an Audioabschnitten (330) einer Audiodatei, mit: – einer Einrichtung (301) zum Analysieren des Textabschnitts zum Erzeugen eines Vokabular- und Sprachmodells (320) für den Textabschnitt; – einer Spracherkennung (302) zum Erzeugen einer Wortliste (332) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – einer Einrichtung (303) zum Ausrichten der Wortliste (332) am Textabschnitt (310); – einer Einrichtung (304) zum Wählen entsprechender Anker, die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und dem Textabschnitt; – einer Einrichtung zum Aufteilen (305) des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß den Ankern; und – einer Einrichtung zum Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist.
DE1998618930 1997-08-29 1998-08-10 Verfahren zur Ausrichtung von Text an Audiosignalen Expired - Fee Related DE69818930T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US921347 1997-08-29
US08/921,347 US6076059A (en) 1997-08-29 1997-08-29 Method for aligning text with audio signals

Publications (2)

Publication Number Publication Date
DE69818930D1 DE69818930D1 (de) 2003-11-20
DE69818930T2 true DE69818930T2 (de) 2005-01-13

Family

ID=25445309

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998618930 Expired - Fee Related DE69818930T2 (de) 1997-08-29 1998-08-10 Verfahren zur Ausrichtung von Text an Audiosignalen

Country Status (4)

Country Link
US (1) US6076059A (de)
EP (1) EP0899719B1 (de)
JP (1) JPH11191000A (de)
DE (1) DE69818930T2 (de)

Families Citing this family (114)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6850609B1 (en) * 1997-10-28 2005-02-01 Verizon Services Corp. Methods and apparatus for providing speech recording and speech transcription services
US6473778B1 (en) * 1998-12-24 2002-10-29 At&T Corporation Generating hypermedia documents from transcriptions of television programs using parallel text alignment
US6324499B1 (en) * 1999-03-08 2001-11-27 International Business Machines Corp. Noise recognizer for speech recognition systems
US6535848B1 (en) * 1999-06-08 2003-03-18 International Business Machines Corporation Method and apparatus for transcribing multiple files into a single document
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US7412643B1 (en) 1999-11-23 2008-08-12 International Business Machines Corporation Method and apparatus for linking representation and realization data
US6925436B1 (en) * 2000-01-28 2005-08-02 International Business Machines Corporation Indexing with translation model for feature regularization
US7047191B2 (en) * 2000-03-06 2006-05-16 Rochester Institute Of Technology Method and system for providing automated captioning for AV signals
US6263308B1 (en) * 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
EP1295482B1 (de) * 2000-06-09 2010-09-01 British Broadcasting Corporation Erzeugung von untertiteln für bewegte bilder
DE10042943C2 (de) * 2000-08-31 2003-03-06 Siemens Ag Zuordnen von Phonemen zu den sie erzeugenden Graphemen
US6993246B1 (en) 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US6975985B2 (en) * 2000-11-29 2005-12-13 International Business Machines Corporation Method and system for the automatic amendment of speech recognition vocabularies
US7496510B2 (en) * 2000-11-30 2009-02-24 International Business Machines Corporation Method and apparatus for the automatic separating and indexing of multi-speaker conversations
WO2002080143A1 (en) 2001-03-29 2002-10-10 Koninklijke Philips Electronics N.V. Synchronise an audio cursor and a text cursor during editing
US20020152064A1 (en) * 2001-04-12 2002-10-17 International Business Machines Corporation Method, apparatus, and program for annotating documents to expand terms in a talking browser
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
US6839667B2 (en) * 2001-05-16 2005-01-04 International Business Machines Corporation Method of speech recognition by presenting N-best word candidates
US6963834B2 (en) * 2001-05-29 2005-11-08 International Business Machines Corporation Method of speech recognition using empirically determined word candidates
US20030033147A1 (en) * 2001-06-08 2003-02-13 Recording For The Blind & Dyslexic Incorporated Method and apparatus for coordinating text and audio events in a digital talking book
ATE496363T1 (de) * 2001-10-12 2011-02-15 Nuance Comm Austria Gmbh Spracherkennungsvorrichtung mit markierung von erkannten textteilen
US7146321B2 (en) * 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US7133829B2 (en) * 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
KR20030043299A (ko) * 2001-11-27 2003-06-02 주식회사 엘지이아이 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법
KR100563680B1 (ko) * 2001-11-27 2006-03-28 엘지전자 주식회사 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법
US6766294B2 (en) 2001-11-30 2004-07-20 Dictaphone Corporation Performance gauge for a distributed speech recognition system
US6785654B2 (en) 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030128856A1 (en) * 2002-01-08 2003-07-10 Boor Steven E. Digitally programmable gain amplifier
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US7292975B2 (en) * 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7231351B1 (en) * 2002-05-10 2007-06-12 Nexidia, Inc. Transcript alignment
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US20030229491A1 (en) * 2002-06-06 2003-12-11 International Business Machines Corporation Single sound fragment processing
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
US6816834B2 (en) * 2002-10-23 2004-11-09 Jon Jaroker System and method for secure real-time high accuracy speech to text conversion of general quality speech
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
AT6921U1 (de) * 2002-11-28 2004-05-25 Sail Labs Technology Ag Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen
US20040176139A1 (en) * 2003-02-19 2004-09-09 Motorola, Inc. Method and wireless communication device using voice recognition for entering text characters
US7979281B2 (en) * 2003-04-29 2011-07-12 Custom Speech Usa, Inc. Methods and systems for creating a second generation session file
JP4113059B2 (ja) * 2003-07-28 2008-07-02 株式会社東芝 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム
US7346506B2 (en) * 2003-10-08 2008-03-18 Agfa Inc. System and method for synchronized text display and audio playback
JP3945778B2 (ja) * 2004-03-12 2007-07-18 インターナショナル・ビジネス・マシーンズ・コーポレーション 設定装置、プログラム、記録媒体、及び設定方法
US7461004B2 (en) * 2004-05-27 2008-12-02 Intel Corporation Content filtering for a digital audio signal
US8504369B1 (en) * 2004-06-02 2013-08-06 Nuance Communications, Inc. Multi-cursor transcription editing
US7356469B2 (en) * 2004-08-20 2008-04-08 International Business Machines Corporation Method and system for trimming audio files
US20060136226A1 (en) * 2004-10-06 2006-06-22 Ossama Emam System and method for creating artificial TV news programs
US7836412B1 (en) 2004-12-03 2010-11-16 Escription, Inc. Transcription editing
US7693713B2 (en) * 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20070055514A1 (en) * 2005-09-08 2007-03-08 Beattie Valerie L Intelligent tutoring feedback
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
JP5313466B2 (ja) * 2007-06-28 2013-10-09 ニュアンス コミュニケーションズ,インコーポレイテッド 音声の再生に同期して音声の内容を表示させる技術
US7716054B2 (en) * 2007-06-29 2010-05-11 Microsoft Corporation Activity-ware for non-textual objects
US8140335B2 (en) 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
JP2009237285A (ja) * 2008-03-27 2009-10-15 Toshiba Corp 人物名付与装置および方法
US8589161B2 (en) 2008-05-27 2013-11-19 Voicebox Technologies, Inc. System and method for an integrated, multi-modal, multi-device natural language voice services environment
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8131545B1 (en) 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US8498867B2 (en) * 2009-01-15 2013-07-30 K-Nfb Reading Technology, Inc. Systems and methods for selection and use of multiple characters for document narration
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
US20100299131A1 (en) * 2009-05-21 2010-11-25 Nexidia Inc. Transcript alignment
US8332225B2 (en) * 2009-06-04 2012-12-11 Microsoft Corporation Techniques to create a custom voice font
US9280969B2 (en) * 2009-06-10 2016-03-08 Microsoft Technology Licensing, Llc Model training for automatic speech recognition from imperfect transcription data
US20100332225A1 (en) * 2009-06-29 2010-12-30 Nexidia Inc. Transcript alignment
US8843368B2 (en) 2009-08-17 2014-09-23 At&T Intellectual Property I, L.P. Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment
US8281231B2 (en) * 2009-09-11 2012-10-02 Digitalsmiths, Inc. Timeline alignment for closed-caption text using speech recognition transcripts
US8571866B2 (en) * 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US8645134B1 (en) * 2009-11-18 2014-02-04 Google Inc. Generation of timed text using speech-to-text technology and applications thereof
US20110153330A1 (en) * 2009-11-27 2011-06-23 i-SCROLL System and method for rendering text synchronized audio
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US9615140B1 (en) 2010-05-27 2017-04-04 Edward Malinowski Method and device for delivery of subtitle synchronized with a media stream
US20120047437A1 (en) * 2010-08-23 2012-02-23 Jeffrey Chan Method for Creating and Navigating Link Based Multimedia
US9028255B2 (en) 2010-10-06 2015-05-12 Dominic William Massaro Method and system for acquisition of literacy
US10019995B1 (en) 2011-03-01 2018-07-10 Alice J. Stiebel Methods and systems for language learning based on a series of pitch patterns
US11062615B1 (en) 2011-03-01 2021-07-13 Intelligibility Training LLC Methods and systems for remote language learning in a pandemic-aware world
US8855797B2 (en) 2011-03-23 2014-10-07 Audible, Inc. Managing playback of synchronized content
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US9679608B2 (en) 2012-06-28 2017-06-13 Audible, Inc. Pacing content
US9099089B2 (en) 2012-08-02 2015-08-04 Audible, Inc. Identifying corresponding regions of content
US8804035B1 (en) * 2012-09-25 2014-08-12 The Directv Group, Inc. Method and system for communicating descriptive data in a television broadcast system
US9367196B1 (en) 2012-09-26 2016-06-14 Audible, Inc. Conveying branched content
US9632647B1 (en) 2012-10-09 2017-04-25 Audible, Inc. Selecting presentation positions in dynamic content
US9223830B1 (en) 2012-10-26 2015-12-29 Audible, Inc. Content presentation analysis
US9542936B2 (en) * 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US9280906B2 (en) 2013-02-04 2016-03-08 Audible. Inc. Prompting a user for input during a synchronous presentation of audio content and textual content
WO2014191054A1 (en) * 2013-05-31 2014-12-04 Longsand Limited Processing of audio data
US9317486B1 (en) 2013-06-07 2016-04-19 Audible, Inc. Synchronizing playback of digital content with captured physical content
US9489360B2 (en) 2013-09-05 2016-11-08 Audible, Inc. Identifying extra material in companion content
US20150081294A1 (en) * 2013-09-19 2015-03-19 Maluuba Inc. Speech recognition for user specific language
US9898459B2 (en) 2014-09-16 2018-02-20 Voicebox Technologies Corporation Integration of domain information into state transitions of a finite state transducer for natural language processing
CN107003996A (zh) 2014-09-16 2017-08-01 声钰科技 语音商务
WO2016061309A1 (en) 2014-10-15 2016-04-21 Voicebox Technologies Corporation System and method for providing follow-up responses to prior natural language inputs of a user
US10431214B2 (en) 2014-11-26 2019-10-01 Voicebox Technologies Corporation System and method of determining a domain and/or an action related to a natural language input
US10614799B2 (en) 2014-11-26 2020-04-07 Voicebox Technologies Corporation System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance
JP6459818B2 (ja) * 2015-07-22 2019-01-30 ブラザー工業株式会社 テキスト対応付け装置、テキスト対応付け方法、及びプログラム
CN106231432B (zh) * 2016-07-29 2019-08-06 北京小米移动软件有限公司 分享视频的方法及装置
WO2018023106A1 (en) 2016-07-29 2018-02-01 Erik SWART System and method of disambiguating natural language processing requests
US10657202B2 (en) * 2017-12-11 2020-05-19 International Business Machines Corporation Cognitive presentation system and method
US11443646B2 (en) 2017-12-22 2022-09-13 Fathom Technologies, LLC E-Reader interface system with audio and highlighting synchronization for digital books
US10671251B2 (en) 2017-12-22 2020-06-02 Arbordale Publishing, LLC Interactive eReader interface generation based on synchronization of textual and audial descriptors
US20200335125A1 (en) * 2019-04-19 2020-10-22 Raytheon Company Detection of audio anomalies
US11977517B2 (en) 2022-04-12 2024-05-07 Dell Products L.P. Warm start file compression using sequence alignment
US20230325354A1 (en) * 2022-04-12 2023-10-12 Dell Products L.P. Hyperparameter optimization in file compression using sequence alignment

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5333275A (en) * 1992-06-23 1994-07-26 Wheatley Barbara J System and method for time aligning speech
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5737725A (en) * 1996-01-09 1998-04-07 U S West Marketing Resources Group, Inc. Method and system for automatically generating new voice files corresponding to new text from a script

Also Published As

Publication number Publication date
EP0899719B1 (de) 2003-10-15
DE69818930D1 (de) 2003-11-20
EP0899719A3 (de) 1999-10-27
US6076059A (en) 2000-06-13
EP0899719A2 (de) 1999-03-03
JPH11191000A (ja) 1999-07-13

Similar Documents

Publication Publication Date Title
DE69818930T2 (de) Verfahren zur Ausrichtung von Text an Audiosignalen
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69829235T2 (de) Registrierung für die Spracherkennung
DE69926481T2 (de) Vorrichtung und verfahren für aufnahme, entwurf und wiedergabe synchronisierter audio- und videodaten unter verwendung von spracherkennung und drehbüchern
DE112010005959B4 (de) Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE602004012909T2 (de) Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text
DE69938374T2 (de) Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle
EP0925461B1 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
DE60211197T2 (de) Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
DE60126722T2 (de) Aussprache von neuen Wörtern zur Sprachverarbeitung
DE602005002706T2 (de) Verfahren und System für die Umsetzung von Text-zu-Sprache
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE102007015497B4 (de) Spracherkennungsvorrichtung und Spracherkennungsprogramm
DE602005004503T2 (de) Multilinguale Spracherkennung
EP1282112B1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
DE102020205786A1 (de) Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE112006000322T5 (de) Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm
EP1058235B1 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee