DE69818930T2

DE69818930T2 - Verfahren zur Ausrichtung von Text an Audiosignalen

Info

Publication number: DE69818930T2
Application number: DE1998618930
Authority: DE
Inventors: Oren Glickman; Christopher Frank Joerg
Original assignee: Compaq Computer Corp
Current assignee: Compaq Computer Corp
Priority date: 1997-08-29
Filing date: 1998-08-10
Publication date: 2005-01-13
Anticipated expiration: 2018-08-11
Also published as: EP0899719B1; DE69818930D1; EP0899719A3; US6076059A; EP0899719A2; JPH11191000A

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf die Verarbeitung von Sprachsignalen und insbesondere auf das Ausrichten digitalisierten Texts auf analoge gesprochene Wörter.
Hintergrund der Erfindung
Bei einer rechnergestützten Informationsgewinnungsanwendung kann es vorkommen, dass ein Benutzer Teile einer Audiodatei, z.B. ein mitgeschnittenes Radioprogramm, die einen spezifischen Inhalt haben, lokalisieren möchte. Wenn die Informationsgewinnungsanwendung eine ausgerichtete Texttranskription der Audiodatei hat, dann kann die Textdatei unter der Verwendung herkömmlicher Textsuchverfahren zum Lokalisieren des entsprechenden Teils in der Audiodatei durchsucht werden. Die Ausrichtung ermöglicht es nämlich, dass auf die Audiodatei direkt durch Wörter zugegriffen werden kann. Eine Audio-Text-Ausrichtung kann auch zum Durchsuchen einer Videodatei (Video) verwendet werden, wenn das Video eine Tonspur enthält, die mit einer Texttranskription ausgerichtet ist, z.B. das Videosignal untertitelt ist.
Die meisten bekannten Ausrichtungsverfahren sind Erweiterungen herkömmlicher rechnergestützter Spracherkennungen, die in einem sehr eingeschränkten Modus zur zwangsweisen Erkennung des Zieltexts betrieben werden. Typischerweise wird die Ausrichtung von links nach rechts durchgeführt, indem ein Erkennungsfenster über die Audiosignale zeitlich vorwärts bewegt wird. Die zeitlich gemessene Breite des Fensters kann so groß sein, dass das Erkennungsprogramm sich von lokalen Fehlern erholen kann. Dieser Typ einer Ausrichtung wird wohl besser als "Zwangserkennung" bezeichnet.
Das Problem der Zwangsausrichtung unterscheidet sich vom Problem der Erkennung. Im Fall der Erkennung gelten die gesprochenen Wörter als unbekannt, und die Aufgabe besteht darin, die gesprochenen Wörter zu erkennen. Bei der Ausrichtung ist der Text bekannt, jedoch ist die zeitliche Ausrichtung des Texts mit den gesprochenen Wörtern der Tonspur unbekannt.
Daher haben die Verfahren auf der Grundlage einer Zwangserkennung etliche Nachteile und Einschränkungen. Zum Beispiel funktionieren diese Verfahren bei rauschigen oder anderen schwierigen Tonspuren schlecht, wie zum Beispiel in dem Fall, wo sich außersprachliche Audiosignale mit den gesprochenen Wörtern überlagern. Wenn außerdem der Audiostrom lang ist, z.B. eine Stunde oder mehr, besteht eine sehr hohe Wahrscheinlichkeit eines groben Ausrichtungsfehlers. Da diese Verfahren sich auf einen einzigen Durchgang von links nach rechts über den Audiostrom stützen, kann ein einziger Fehler, der früh im Durchlauf geschieht, dazu führen, dass der verbleibende Strom fehlausgerichtet ist. Außerdem kann es sein, dass solche Verfahren überhaupt nicht funktionieren, wenn der Text nicht die gesamte Dauer des Audiostroms, sondern nur einen Teil davon repräsentiert.
Zusammenfassung der Erfindung
Ein rechnergestütztes Verfahren ist vorgesehen zum Ausrichten einer Textdatei mit einer Audiodatei. Die Textdatei enthält geschriebene Wörter, und die Audiodatei enthält gesprochene Wörter. Zwischen einem Teil, jedoch nicht notwendigerweise allen Wörtern der Textdatei und der Audiodatei besteht eine einszu-eins Entsprechung.
Die Erfindung besteht in ihrer weitgefassten Form aus einem rechnergestützten Verfahren und einer Vorrichtung zum Ausrichten von Textabschnitten einer Textdatei mit Audioabschnitten einer Audiodatei, wie in Anspruch 1 bzw. Anspruch 15 angeführt.
Wie im Folgenden beschrieben, wird ein Vokabular- und Sprachmodell aus dem Textabschnitt erzeugt. Das Sprachmodell kann in der Form von Trigrammen sein, welche die relativen Wahrscheinlichkeiten von Ein-, Zwei- und Dreiwortfolgen im Textabschnitt angeben.
Eine Wortliste, die mit Zeitabstimmungsinformation annotiert ist, wird dadurch erzeugt, dass unter Verwendung des Vokabular- und Sprachmodells gesprochene Wörter aus dem Audioabschnitt erkannt werden. Die Spracherkennung kann eine standardmäßige Spracherkennung sein, die akustisch-phonetische Modelle verwendet.
Die Wortliste wird mit dem Textabschnitt ausgerichtet, wobei zu beachten ist, dass es mehrere mögliche Ausrichtungen geben kann. Dynamische Programmierverfahren werden zur Bestimmung einer bestmöglichen Ausrichtung verwendet. Den besten Ausrichtungen der geschriebenen und gesprochenen Wörter entsprechende Anker werden gewählt, und die Anker werden zur Aufteilung des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte verwendet. Diese Schritte werden an den unausgerichteten Abschnitten wiederholt, bis ein Endzustand erreicht wird. Der Endzustand kann dadurch erkannt werden, dass der Textabschnitt und der Audioabschnitt voll ausgerichtet sind, oder dadurch, dass ein bestimmter unausgerichteter Abschnitt eine Dauer von weniger als einem vorbestimmten Schwellenwert hat.
In einer Ausführungsform der Erfindung wird während der nächsten Iteration das Vokabular- und Sprachmodell aus den unausgerichteten Abschnitten neu aufgebaut.
Kurzbeschreibung der Zeichnungen
Ein eingehenderes Verständnis der Erfindung kann aus der folgenden Beschreibung einer bevorzugten Ausführungsform gezogen werden, die lediglich als Beispiel angeführt wird und zusammen mit den beigefügten Zeichnungen zu verstehen ist. Es zeigt:
1 ein Blockdiagramm von Teilen einer Text- und einer Audiodatei, die gemäß einer bevorzugten Ausführungsform der Erfindung auszurichten sind;
2 ein Blockdiagramm einer von oben nach unten durchgeführten Aufteilung der Text- und der Audiodatei von 1 in Abschnitte;
3 ein Fließdiagramm eines Verfahrens zur Durchführung der Ausrichtung der Abschnitte gemäß einer bevorzugten Ausführungsform der Erfindung;
4 ein Blockdiagramm zweier möglicher Ausrichtungen;
5 ein Blockdiagramm von Ankern und unausgerichteten und ausgerichteten Teilen der Abschnitte;
6 ein Fließdiagramm für die Einstellung der Verarbeitung der Abschnitte während aufeinander folgender Iterationen; und
7 ein Blockdiagramm eines sprecherabhängigen Ausrichtungsvorgangs.
Detaillierte Beschreibung bevorzugter Ausführungsformen
1 zeigt Teile einer Audiodatei 110 und einer entsprechenden Textdatei 120, die erfindungsgemäß auszurichten sind. Die Textdatei 120 ist eine volle oder teilweise Transkription der gesprochenen Wörter der Audiodatei.
In der Praxis ist der Inhalt der Audiodatei 110 zeitabhängig. Das bedeutet, dass die analogen Audiosignale sich mit einer gleichmäßigen Rate über zum Beispiel mehrere Stunden hinweg vorwärts bewegen. Einige Wörter (lang 111) können zeitlich gestreckt werden, um eine Betonung zu erzielen, andere Wörter (112) können je nach der Diktion des Sprechers eine kurze Dauer haben. Wörter 113 können miteinander verschmelzen, wenn die Sprache undeutlich ist. Dies macht es schwierig, das Ende eines Wortes und den Anfang eines nächsten Wortes zu unterscheiden.
Die Datei 110 kann auch Stille und andere Audiosignale enthalten, zum Beispiel außertextliche Wörter, Musik- und Hintergrundgeräusche, für die es keinen entsprechenden Text gibt. Die Audiosignale können auch durch andere Kanalbedingungen, wie zum Beispiel Verzerrung und durch Kompression verursachte Aberrationen beschädigt sein.
In der Textdatei 120 sind die die Wörter des Texts bildenden Zeichen in einem räumlichen Verhältnis zueinander, d.h. es gibt keine Zeitvorstellung. Jedes Zeichen wird typischerweise als ein digitaler String mit einer festen Länge (ein Byte 121) gespeichert, und eine räumliche Trennung zwischen Wörtern, Sätzen und vielleicht sogar Absätzen sind üblicherweise unter der Verwendung von Interpunktionszeichen 122, z.B. Leerzeichen oder Punktzeichen klar voneinander abgesetzt.
Das Problem besteht in der Ausrichtung der zeitlich angeordneten Audiosignale mit den räumlich angeordneten Textsignalen, wie das durch Pfeile 130 gezeigt ist. Wie in 2 gezeigt, verwendet im Gegensatz zum Stand der Technik, wo die Ausrichtung üblicherweise in serieller Weise erfolgt, die vorliegende Anordnung ein von oben nach unten vorgehendes iteratives "Teile-und-Herrsche-Verfahren".
Beim iterativen Verfahren werden die Audio- und die Textdatei 110 bzw. 120 während aufeinanderfolgender Stufen der Iterationen bei "Ankern" 200 in kleinere Abschnitte 201, 202, 203, 204,... 299 aufgeteilt. Die Trennlinien zwischen Abschnitten werden zu Zwecken dieser Erfindung als "Anker" bezeichnet. Der Vorgang ist zum Beispiel dann abgeschlossen, wenn die beiden Dateien voll ausgerichtet sind oder wenn keine zusätzlichen Anker mehr erfasst werden können.
Aufgrund der der Spracherkennung innewohnenden Unsicherheiten kann es für jeden Abschnitt mehrere mögliche Ausrichtungen geben. Deswegen werden die möglichen Ausrichtungen bewertet, und die besten Ausrichtungen werden als die Anker ausgewählt, wo die Dateien korrekt in ausgerichtete und unausgerichtete Abschnitte unterteilt werden können. Da die Ausrichtung von oben nach unten erfolgt, besteht eine kleinere Wahrscheinlichkeit, dass es zu groben Fehlausrichtungen kommt.
Wie in 3 gezeigt, beginnt das bevorzugte Verfahren 300 bei einem Analyseschritt 301 durch das Verarbeiten eines aktuellen Textabschnitts 310 der Textdatei 120 zum Erzeugen eines Vokabular- und Sprachmodells (V-LM) 320 für den Textabschnitt 310. Anfänglich kann der aktuelle Abschnitt 310 die gesamte Textdatei 110 sein. Das V-LM 320 kann unter der Verwendung standardmäßiger Sprachanalysewerkzeuge erstellt werden, wie zum Beispiel dasjenige, das mit der Spracherkennung Sphinx II geliefert wird, das an der Carnegie-Mellon University entwickelt wurde. Hier ist das Sprachmodell in der Form von Trigrammen 321, bei denen die relativen Wahrscheinlichkeiten aller Ein-, Zwei-, Dreiwortfolgen dadurch bestimmt werden, dass berücksichtigt wird, wie oft diese Folgen im Textabschnitt 310 vorkommen.
Im Schritt 302 wird der entsprechende Abschnitt der Audiodatei 330 unter der Verwendung des V-LM 320 und akustisch-phonetischer Modelle 325 zum Erzeugen einer Wortliste 331 durch die Spracherkennung verarbeitet, die mit Zeitinformation 332 und möglichen Sicherheitsbewertungen 333 versehen ist. Die Spracherkennung kann ein beliebiges standardmäßiges Spracherkennungsprogramm sein. Zum Beispiel verwendet das Spracherkennungsprogramm Sphinx II 203 eine versteckte Markov-Modellierung (Hidden Markov Modeling / HMM), es kann jedoch auch eine statistische Laufbahnmodellierung (Statistical Trajectory Modeling / STM) verwendet werden. Die akustisch-phonetischen Modelle 325 charakterisieren akustischphonetische Einheiten statistisch. Die akustisch-phonetischen Modelle 325 werden üblicherweise aus einem Trainingscorpus heraus trainiert. Die akustischphonetischen Modell 325 können anfänglich sprecherunabhängig sein.
Die Wortliste 331 speichert nur die Wörter, die tatsächlich im Audioabschnitt 330 erkannt wurden, sequenziell. Es wird darauf hingewiesen, dass im Gegensatz zum Stand der Technik dieser Schritt 302 ohne Berücksichtigung dessen durchgeführt wird, was die Wörter sein mögen, die im Textabschnitt 310 angegeben sind. Die Zeitabstimmungsinformation 332 gibt für jedes erkannte Wort die Startzeit und die Dauer jedes erkannten Wortes an. Die Sicherheitsbewertungen 333 geben den Grad der Sicherheit an, mit dem ein Wort korrekt erkannt wurde.
Die Wortliste 331 und die Zeitabstimmungsinformation 332 sind nicht notwendigerweise absolut korrekt, das bedeutet, dass die erkannten gesprochenen Wörter der Liste 331 nur eine "beste Schätzung" der gesprochenen Wörter des Audioabschnitts 330 darstellen, wie durch die Sicherheitsbewertungen 333 angegeben. Manche Wörter können auch verfehlt werden, und andere Wörter können falsch verstanden werden, z.B. kann "way" als "weight" missverstanden werden.
In Schritt 303 wird die erkannte Wortliste 331 mit dem Textabschnitt 310 ausgerichtet. Eine dynamische Programmierung oder ähnliche Verfahren können zum Ausrichten der Wortliste 331 mit dem Textabschnitt 310 verwendet werden.
Dynamische Programmierverfahren, die eine beste eins-zu-eins-Entsprechung zwischen zwei Listen von Textelementen (Tokens) bestimmen, sind wohl bekannt. Die Textelemente sind hier gesprochene Wörter und Textwörter.
Wie in 4 gezeigt, kann es für bestimmte aufgelistete Wörter 401 und entsprechende Textabschnitte 402 mehrere mögliche Ausrichtungen geben. Die gestrichelten Linien 403 zeigen eine eins-zu-eins-Entsprechung, bei der die größte Anzahl von Wörtern ausgerichtet ist. Die durch die durchgezogenen Linien 404 angezeigte Ausrichtung ist vorzugsweise auf der Grundlage der Ausrichtung längerer Wörter. Wünschenswert ist das Wählen der "besten" Ausrichtungen.
Zum Beispiel kann jede mögliche Ausrichtung bewertet werden. Die Punktebewertung einer bestimmten Ausrichtung kann sich immer dann erhöhen, wenn identische Wörter ausgerichtet werden, und verringern, wenn unterschiedliche Wörter ausgerichtet werden. Die Punktebewertung kann für "lange" Wörter so gewichtet werden, das die Punktzahl erhöht wird, da lange Wörter wahrscheinlich mit einer geringeren Häufigkeit auftreten. Außerdem können auch lange Abfolgen korrekt ausgerichteter Wörter den Punktestand erhöhen.
Wenn zum Beispiel die Abfolge der gesprochenen Wörter "there's a long way to go" im Audioabschnitt 330 exakt zum entsprechenden Teil des Textabschnitts 310 passt, ist die Wahrscheinlichkeit sehr groß, dass es sich dabei um das tatsächlich Gesagte handelt und dass die Ausrichtung korrekt ist. Wenn an einem anderen Punkt in der Ausrichtung nur das Wort "a" übereinstimmt, dann ist die Korrektheit der Ausrichtung weniger sicher.
Wie in 5 gezeigt, werden Ausrichtungen, die am wahrscheinlichsten korrekt sind, als "Anker" 200 im Audioabschnitt 330 und im Textabschnitt 310 gewählt. Ein Anker 200 ist als ein Ort definiert, bei dem die gesprochenen Wörter des Audioabschnitts mit ziemlich großer Sicherheit auf die geschriebenen Wörter des Textabschnitts ausgerichtet sind. In einer bevorzugten Ausführungsform wird eine beliebige Abfolge von vier Wörtern als korrekt angenommen. Wenn es keine solchen Abfolgen gibt, kann der Schwellenwert auf drei Wörter gesenkt werden, und dann auf zwei. Es gibt auch andere Möglichkeiten, wie zum Beispiel die Auswahl nur der längsten korrekten Abfolge als Anker, oder die Berücksichtigung der Gesamtwortlängen bei der Bestimmung der Länge einer korrekten Abfolge. Zur gleichen Zeit können die Anker 200 im Textabschnitt 310 mit der entsprechenden Zeitinformation versehen werden, die aus dem Audioabschnitt 330 gezogen wird.
Beim Schritt 305 werden die Anker 200 zur Aufteilung des Textabschnitts 310 und des Audioabschnitts 330 in entsprechende ausgerichtete Abschnitte (schraffiert) 501 und unausgerichtete Abschnitte 502 verwendet. Die Startzeiten und Zeitdauern der Abschnitte 501 und 502 sind aus der zur Annotierung der Abschnitte verwendeten Zeitinformation bekannt.
Die unausgerichteten Text- und Audioabschnitte 502 werden durch die Schritte 301 bis 305 erneut verarbeitet, bis ein erwünschter Endzustand erreicht wird, z.B. die Text- und die Audiodatei vollständig ausgerichtet sind oder keine neuen Anker mehr erfasst werden können. Es besteht auch die Möglichkeit, dass ein Teil der Wörter eines Ankers 200 jeden unausgerichteten Abschnitt 502 nach der Aufteilung beginnen und/oder beenden können, um die Wahrscheinlichkeit zu erhöhen, dass einige Wörter im unausgerichteten Abschnitt sind, die beim nächsten Durchgang korrekt erkannt werden.
Es wird darauf hingewiesen, dass bei jeder Iteration das Vokabular- und Sprachmodell 320 nur aus den Wörtern dieses Textabschnitts aufgebaut wird, und dass nur dieses bestimmte V-LM 320 zur Erkennung von Wörtern im aktuellen Audioabschnitt 330 verwendet wird.
Die Iterationen können aus verschiedenen Gründen beendet werden. Einer besteht darin, dass es keine Wörter und daher keine Unterabschnitte mehr auszurichten gibt. Ein anderer besteht darin, dass die letzte Iteration nicht genug ausgerichtete Wörter gefunden hat, so dass aus einer weiteren Iteration nichts mehr zu gewinnen ist. Die Iterationen können je nach der erwünschten Präzision auch früher eingestellt werden. Wenn zum Beispiel die Ausrichtung für Indizierungszwecke benötigt wird, könnten die Iterationen eingestellt werden, wenn die Zeitdauer eines Abschnitts eine gewisse Kürze (zum Beispiel wenige Sekunden) erreicht hat.
Da das vorliegende Verfahren immer kleiner werdende unausgerichtete Abschnitte mit einem kleiner werdenden Vokabular- und Sprachmodell durchgearbeitet, kann das vorliegende Verfahren Rauschen und andere Schwierigkeiten im Audiostrom besser bewältigen, zum Beispiel bei Audioströmen, bei denen sich Sprache und Musik überlagern. Außerdem ist es bei diesem Verfahren weniger wahrscheinlich, dass lange Audioströme fehlausgerichtet werden, weil eine Vorgehensweise von oben nach unten (top-down) verwendet wird, wobei eine Fehlausrichtung in einem Abschnitt eine Ausrichtung in einem anderen Abschnitt nicht beeinflusst. Außerdem funktioniert das Verfahren auch, wenn die Textdatei nicht die gesamte Dauer der Audiodatei, sondern nur einen Teil davon repräsentiert. Große Abschnitte in der Audiodatei, für die es keine entsprechenden Textabschnitte gibt, werden so ganz einfach bewältigt.
6 zeigt die Ausrichtung und Aufteilung von Abschnitten über mehrere Iterationen. In Block 601 sind die Wörter eines gesamten Abschnitts unausgerichtet. In Block 602 wurden nach der Verarbeitung 650 die schraffierten Teile 501 ausgerichtet. Die unausgerichteten Teile 502 (Blöcke 603) werden erneut verarbeitet 660, um weitere ausgerichtete Teile (in Blöcken 604) zu lokalisieren und so weiter (Verarbeitung 680). Der Block 605 zeigt, dass keine weiteren Abschnitte auszurichten sind.
Wie in 6 gezeigt, können die Verarbeitungsschritte 301 bis 305 während der Iterationen auf verschiedene Arten und Weisen dynamisch eingestellt werden. Zum Beispiel werden im Schritt 610 die Ergebnisse der ausgerichteten Teile zum Einstellen der akustisch-phonetischen Modelle 325 der Spracherkennung 302 verwendet. Dadurch lernt die Spracherkennung 302, die gesprochenen Wörter einer bestimmten Audiodatei besser zu erkennen. Anders ausgedrückt werden die ausgerichteten Teile des vorhergehenden Durchgangs zu Sprachtrainingsdaten für die Spracherkennung 302, so dass bei den unausgerichteten Teilen der nächste Durchgang robuster ist.
Zum Beispiel kann die Spracherkennung 302 anfänglich so konfiguriert sein, dass sie mit sprecherunabhängigen Modellen funktioniert. Mit einem zunehmenden "Lernen" durch die Spracherkennung der Sprache des Sprechers der Wörter in der Audiodatei werden die akustisch-phonetischen Modelle der Spracherkennung immer sprecherabhängiger, d.h. "feiner eingestellt". Außerdem können auch für Audiodateien einer relativ langen Zeitdauer die Modelle so eingerichtet werden, dass sie Kanalparameter, wie zum Beispiel Rauschen, Verzerrung und Kompressionsverfahren, die auf die Sprache angewendet wurden, berücksichtigen, d.h. das vorliegende Verfahren kommt mit schwierigen Audiodateien besser zurecht.
Während einer Einstellung der Spracherkennung zur Verbesserung der Leistung kann auch die Ausrichtungseinrichtung und/oder die Anker-Wahleinrichtung im Schritt 630 so eingestellt werden, dass sie mehr oder weniger aggressiv vorgeht. Zum Beispiel können die Variablen und Kriterien, die durch die dynamischen Programmierungsverfahren des Ausrichters 302 verwendet werden, bei sich verbessernder Spracherkennung lockerer gehandhabt werden. Dies bedeutet, dass große Abschnitte ausgerichteter Wörter in aufeinander folgenden Iterationen schneller erfasst werden.
Wenn während eines einzigen Durchgangs keine Anker identifiziert werden, können in ähnlicher Weise unausgerichtete Teile unter der Verwendung anderer Bewertungsverfahren verarbeitet werden, und so weiter. Mit dem vorliegenden Verfahren kann die Präzision der Ausrichtung dynamisch eingestellt werden, um für eine bestimmte Anwendung angemessene Ergebnisse zu erzielen.
Wie in 7 gezeigt ist, kann das vorliegende Verfahren auch zur Durchführung einer Sprecheridentifikation verwendet werden. Zum Beispiel enthält eine Audiodatei 710 Teile 701, die von einem ersten Sprecher (Bob) gesprochen wurden, und Teile 702, die von einem zweiten Sprecher (Alice) gesprochen wurden. Eine entsprechende Textdatei 720 ist vollständig oder teilweise mit Sprecheridentifikationsinformation annotiert, z.B. es geht jedem Teil eines transkribierten Texts eine entsprechende Sprecheridentifikation 721 und 722 voraus. Nun kann die Spracherkennung 302 für die mehreren Sprecher getrennte akustischphonetische Modelle 731 und 732 entwickeln. Nachdem die Modelle "trainiert" wurden, kann die Sprechererkennung automatisch durchgeführt werden.
Dieses Verfahren kann auch zur Durchführung einer "automatischen" Untertitelung verwendet werden. Zum Beispiel wird ein erstes Band eines Nachrichtenprogramms vollständig oder teilweise mit der "Nachrichtensprecher"-Identifikation, wie oben beschrieben, transkribiert werden. Nachdem die Spracherkennung 302 für eine bestimmte Gruppe von Nachrichtensprechern trainiert wurde, können nachfolgende Video-(oder Audio-)Bänder transkribiert werden, um Textdateien zu erzeugen, ohne dass dabei die Sprecher explizit identifiziert werden. Die Modelle 325 können entsprechend eingestellt werden, wenn sich das Personal des Nachrichtenprogramms ändert.
Zusammengefasst ist das vorliegende Verfahren ein von oben nach unten vorgehendes iteratives Ausrichtungsverfahren und kein sequenzielles von links nach rechts vorgehendes Ausrichtungsverfahren. Während jeder Iteration eines Abschnitts bearbeitet die Spracherkennung das zeitabhängige Signal zur Erkennung von Textelementen (Tokens) und richtet die Textelemente mit digitalen Versionen der Textelemente aus. Unausgerichtete Textelemente werden erneut verarbeitet. Dieses Verfahren kann auch zur Ausrichtung anderer Typen von Signalen zum Beispiel in Systemen zur automatischen Erkennung von Handschriften und zum Lippenlesen eingesetzt werden.
Es versteht sich, dass die oben beschriebenen Ausführungsformen lediglich Veranschaulichungen der Prinzipien der Erfindungen sind. Verschiedene andere Modifikationen und Veränderungen können vom Fachmann vorgenommen werden, die dann in den Umfang der Erfindung fallen.

Claims

Rechnergestütztes Verfahren zum Ausrichten von Textabschnitten (310) einer Textdatei an Audioabschnitten (330) einer Audiodatei, mit den folgenden Schritten: – Erzeugen (301) eines Vokabular- und Sprachmodells (320) aus dem Textabschnitt (310); – Erkennen (302) einer Wortliste (332) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – Ausrichten (303) der Wortliste (332) am Textabschnitt (310); – Wählen entsprechender "Anker" (304), die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und im Textabschnitt; – Aufteilen des Textabschnitts (305) und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß der Anker; und – Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist.
Verfahren nach Anspruch 1, bei dem der Textabschnitt der gesamten Textdatei entspricht und der Audioabschnitt der gesamten Audiodatei entspricht.
Verfahren nach Anspruch 1, bei dem das Sprachmodell in der Form von Triggrammen vorliegt, wobei die Trigramme die relativen Wahrscheinlichkeiten der Ein-, Zwei- und Dreiwortfolgen im Textabschnitt anzeigen.
Verfahren nach Anspruch 1, bei dem die Wortliste eine sequentielle Liste erkannter gesprochener Wörter des Audioabschnitts enthält.
Verfahren nach Anspruch 1, weiter enthaltend den Schritt des Versehens der Wortliste mit Zeitinformation, wobei die Zeitinformation die Anfangszeit und die Zeitdauer eines jeden gesprochenen Worts enthält.
Verfahren nach Anspruch 1, bei dem die Wortliste unter der Verwendung akustisch-phonetischer Modelle einer Spracherkennung erkannt wird.
Verfahren nach Anspruch 1, weiter mit den Schritten des Bestimmens mehrerer möglicher Ausrichtungen, des Bewertens einer jeden möglichen Ausrichtung und des Auswählens einer besten Ausrichtung unter der Verwendung einer dynamischen Programmierung, weiter mit dem Schritt des Erhöhens der Bewertung einer bestimmten möglichen Ausrichtung, wenn eine bestimmte mögliche Ausrichtung eine längste Abfolge korrekt ausgerichteter Wörter enthält.
Verfahren nach Anspruch 5, weiter mit dem Schritt des Versehens des Textabschnitts mit Zeitinformation für korrekt ausgerichtete Wörter des Audioabschnitts.
Verfahren nach Anspruch 1, bei dem der Endzustand ein vollständig an einem Audioabschnitt ausgerichteter Text ist.
Verfahren nach Anspruch 1, bei dem der Endzustand die Erfassung aller Anker im Text- und im Audioabschnitt ist.
Verfahren nach Anspruch 1, bei dem der Endzustand für einen bestimmten unausgerichteten Abschnitt erreicht ist, wenn dieser bestimmte unausgerichtete Abschnitt eine Zeitdauer hat, die geringer als ein bestimmter Schwellenwert ist.
Verfahren nach Anspruch 1, bei dem die unausgerichteten Abschnitte Teile benachbarter ausgerichteter Abschnitte enthalten, um die Wahrscheinlichkeit zu erhöhen, dass Wörter des unausgerichteten Abschnitts korrekt erkannt werden.
Verfahren nach Anspruch 1, bei dem das Vokabular- und Sprachmodell während der nächsten Iterationen aus den unausgerichteten Abschnitten erneut aufgebaut wird.
Verfahren nach Anspruch 1, bei dem der Textabschnitt einem Teil des Audioabschnitts entspricht.
Vorrichtung zum Ausrichten von Textabschnitten (310) einer Textdatei an Audioabschnitten (330) einer Audiodatei, mit: – einer Einrichtung (301) zum Analysieren des Textabschnitts zum Erzeugen eines Vokabular- und Sprachmodells (320) für den Textabschnitt; – einer Spracherkennung (302) zum Erzeugen einer Wortliste (332) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – einer Einrichtung (303) zum Ausrichten der Wortliste (332) am Textabschnitt (310); – einer Einrichtung (304) zum Wählen entsprechender Anker, die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und dem Textabschnitt; – einer Einrichtung zum Aufteilen (305) des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß den Ankern; und – einer Einrichtung zum Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist.