DE69818930T2 - Verfahren zur Ausrichtung von Text an Audiosignalen - Google Patents
Verfahren zur Ausrichtung von Text an Audiosignalen Download PDFInfo
- Publication number
- DE69818930T2 DE69818930T2 DE1998618930 DE69818930T DE69818930T2 DE 69818930 T2 DE69818930 T2 DE 69818930T2 DE 1998618930 DE1998618930 DE 1998618930 DE 69818930 T DE69818930 T DE 69818930T DE 69818930 T2 DE69818930 T2 DE 69818930T2
- Authority
- DE
- Germany
- Prior art keywords
- text
- section
- audio
- sections
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 47
- 230000005236 sound signal Effects 0.000 title description 7
- 238000011156 evaluation Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 241000252794 Sphinx Species 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Description
- Gebiet der Erfindung
- Die vorliegende Erfindung bezieht sich allgemein auf die Verarbeitung von Sprachsignalen und insbesondere auf das Ausrichten digitalisierten Texts auf analoge gesprochene Wörter.
- Hintergrund der Erfindung
- Bei einer rechnergestützten Informationsgewinnungsanwendung kann es vorkommen, dass ein Benutzer Teile einer Audiodatei, z.B. ein mitgeschnittenes Radioprogramm, die einen spezifischen Inhalt haben, lokalisieren möchte. Wenn die Informationsgewinnungsanwendung eine ausgerichtete Texttranskription der Audiodatei hat, dann kann die Textdatei unter der Verwendung herkömmlicher Textsuchverfahren zum Lokalisieren des entsprechenden Teils in der Audiodatei durchsucht werden. Die Ausrichtung ermöglicht es nämlich, dass auf die Audiodatei direkt durch Wörter zugegriffen werden kann. Eine Audio-Text-Ausrichtung kann auch zum Durchsuchen einer Videodatei (Video) verwendet werden, wenn das Video eine Tonspur enthält, die mit einer Texttranskription ausgerichtet ist, z.B. das Videosignal untertitelt ist.
- Die meisten bekannten Ausrichtungsverfahren sind Erweiterungen herkömmlicher rechnergestützter Spracherkennungen, die in einem sehr eingeschränkten Modus zur zwangsweisen Erkennung des Zieltexts betrieben werden. Typischerweise wird die Ausrichtung von links nach rechts durchgeführt, indem ein Erkennungsfenster über die Audiosignale zeitlich vorwärts bewegt wird. Die zeitlich gemessene Breite des Fensters kann so groß sein, dass das Erkennungsprogramm sich von lokalen Fehlern erholen kann. Dieser Typ einer Ausrichtung wird wohl besser als "Zwangserkennung" bezeichnet.
- Das Problem der Zwangsausrichtung unterscheidet sich vom Problem der Erkennung. Im Fall der Erkennung gelten die gesprochenen Wörter als unbekannt, und die Aufgabe besteht darin, die gesprochenen Wörter zu erkennen. Bei der Ausrichtung ist der Text bekannt, jedoch ist die zeitliche Ausrichtung des Texts mit den gesprochenen Wörtern der Tonspur unbekannt.
- Daher haben die Verfahren auf der Grundlage einer Zwangserkennung etliche Nachteile und Einschränkungen. Zum Beispiel funktionieren diese Verfahren bei rauschigen oder anderen schwierigen Tonspuren schlecht, wie zum Beispiel in dem Fall, wo sich außersprachliche Audiosignale mit den gesprochenen Wörtern überlagern. Wenn außerdem der Audiostrom lang ist, z.B. eine Stunde oder mehr, besteht eine sehr hohe Wahrscheinlichkeit eines groben Ausrichtungsfehlers. Da diese Verfahren sich auf einen einzigen Durchgang von links nach rechts über den Audiostrom stützen, kann ein einziger Fehler, der früh im Durchlauf geschieht, dazu führen, dass der verbleibende Strom fehlausgerichtet ist. Außerdem kann es sein, dass solche Verfahren überhaupt nicht funktionieren, wenn der Text nicht die gesamte Dauer des Audiostroms, sondern nur einen Teil davon repräsentiert.
- Zusammenfassung der Erfindung
- Ein rechnergestütztes Verfahren ist vorgesehen zum Ausrichten einer Textdatei mit einer Audiodatei. Die Textdatei enthält geschriebene Wörter, und die Audiodatei enthält gesprochene Wörter. Zwischen einem Teil, jedoch nicht notwendigerweise allen Wörtern der Textdatei und der Audiodatei besteht eine einszu-eins Entsprechung.
- Die Erfindung besteht in ihrer weitgefassten Form aus einem rechnergestützten Verfahren und einer Vorrichtung zum Ausrichten von Textabschnitten einer Textdatei mit Audioabschnitten einer Audiodatei, wie in Anspruch 1 bzw. Anspruch 15 angeführt.
- Wie im Folgenden beschrieben, wird ein Vokabular- und Sprachmodell aus dem Textabschnitt erzeugt. Das Sprachmodell kann in der Form von Trigrammen sein, welche die relativen Wahrscheinlichkeiten von Ein-, Zwei- und Dreiwortfolgen im Textabschnitt angeben.
- Eine Wortliste, die mit Zeitabstimmungsinformation annotiert ist, wird dadurch erzeugt, dass unter Verwendung des Vokabular- und Sprachmodells gesprochene Wörter aus dem Audioabschnitt erkannt werden. Die Spracherkennung kann eine standardmäßige Spracherkennung sein, die akustisch-phonetische Modelle verwendet.
- Die Wortliste wird mit dem Textabschnitt ausgerichtet, wobei zu beachten ist, dass es mehrere mögliche Ausrichtungen geben kann. Dynamische Programmierverfahren werden zur Bestimmung einer bestmöglichen Ausrichtung verwendet. Den besten Ausrichtungen der geschriebenen und gesprochenen Wörter entsprechende Anker werden gewählt, und die Anker werden zur Aufteilung des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte verwendet. Diese Schritte werden an den unausgerichteten Abschnitten wiederholt, bis ein Endzustand erreicht wird. Der Endzustand kann dadurch erkannt werden, dass der Textabschnitt und der Audioabschnitt voll ausgerichtet sind, oder dadurch, dass ein bestimmter unausgerichteter Abschnitt eine Dauer von weniger als einem vorbestimmten Schwellenwert hat.
- In einer Ausführungsform der Erfindung wird während der nächsten Iteration das Vokabular- und Sprachmodell aus den unausgerichteten Abschnitten neu aufgebaut.
- Kurzbeschreibung der Zeichnungen
- Ein eingehenderes Verständnis der Erfindung kann aus der folgenden Beschreibung einer bevorzugten Ausführungsform gezogen werden, die lediglich als Beispiel angeführt wird und zusammen mit den beigefügten Zeichnungen zu verstehen ist. Es zeigt:
-
1 ein Blockdiagramm von Teilen einer Text- und einer Audiodatei, die gemäß einer bevorzugten Ausführungsform der Erfindung auszurichten sind; -
2 ein Blockdiagramm einer von oben nach unten durchgeführten Aufteilung der Text- und der Audiodatei von1 in Abschnitte; -
3 ein Fließdiagramm eines Verfahrens zur Durchführung der Ausrichtung der Abschnitte gemäß einer bevorzugten Ausführungsform der Erfindung; -
4 ein Blockdiagramm zweier möglicher Ausrichtungen; -
5 ein Blockdiagramm von Ankern und unausgerichteten und ausgerichteten Teilen der Abschnitte; -
6 ein Fließdiagramm für die Einstellung der Verarbeitung der Abschnitte während aufeinander folgender Iterationen; und -
7 ein Blockdiagramm eines sprecherabhängigen Ausrichtungsvorgangs. - Detaillierte Beschreibung bevorzugter Ausführungsformen
-
1 zeigt Teile einer Audiodatei110 und einer entsprechenden Textdatei120 , die erfindungsgemäß auszurichten sind. Die Textdatei120 ist eine volle oder teilweise Transkription der gesprochenen Wörter der Audiodatei. - In der Praxis ist der Inhalt der Audiodatei
110 zeitabhängig. Das bedeutet, dass die analogen Audiosignale sich mit einer gleichmäßigen Rate über zum Beispiel mehrere Stunden hinweg vorwärts bewegen. Einige Wörter (lang 111) können zeitlich gestreckt werden, um eine Betonung zu erzielen, andere Wörter (112 ) können je nach der Diktion des Sprechers eine kurze Dauer haben. Wörter113 können miteinander verschmelzen, wenn die Sprache undeutlich ist. Dies macht es schwierig, das Ende eines Wortes und den Anfang eines nächsten Wortes zu unterscheiden. - Die Datei
110 kann auch Stille und andere Audiosignale enthalten, zum Beispiel außertextliche Wörter, Musik- und Hintergrundgeräusche, für die es keinen entsprechenden Text gibt. Die Audiosignale können auch durch andere Kanalbedingungen, wie zum Beispiel Verzerrung und durch Kompression verursachte Aberrationen beschädigt sein. - In der Textdatei
120 sind die die Wörter des Texts bildenden Zeichen in einem räumlichen Verhältnis zueinander, d.h. es gibt keine Zeitvorstellung. Jedes Zeichen wird typischerweise als ein digitaler String mit einer festen Länge (ein Byte121 ) gespeichert, und eine räumliche Trennung zwischen Wörtern, Sätzen und vielleicht sogar Absätzen sind üblicherweise unter der Verwendung von Interpunktionszeichen122 , z.B. Leerzeichen oder Punktzeichen klar voneinander abgesetzt. - Das Problem besteht in der Ausrichtung der zeitlich angeordneten Audiosignale mit den räumlich angeordneten Textsignalen, wie das durch Pfeile
130 gezeigt ist. Wie in2 gezeigt, verwendet im Gegensatz zum Stand der Technik, wo die Ausrichtung üblicherweise in serieller Weise erfolgt, die vorliegende Anordnung ein von oben nach unten vorgehendes iteratives "Teile-und-Herrsche-Verfahren". - Beim iterativen Verfahren werden die Audio- und die Textdatei
110 bzw.120 während aufeinanderfolgender Stufen der Iterationen bei "Ankern"200 in kleinere Abschnitte201 ,202 ,203 ,204 ,...299 aufgeteilt. Die Trennlinien zwischen Abschnitten werden zu Zwecken dieser Erfindung als "Anker" bezeichnet. Der Vorgang ist zum Beispiel dann abgeschlossen, wenn die beiden Dateien voll ausgerichtet sind oder wenn keine zusätzlichen Anker mehr erfasst werden können. - Aufgrund der der Spracherkennung innewohnenden Unsicherheiten kann es für jeden Abschnitt mehrere mögliche Ausrichtungen geben. Deswegen werden die möglichen Ausrichtungen bewertet, und die besten Ausrichtungen werden als die Anker ausgewählt, wo die Dateien korrekt in ausgerichtete und unausgerichtete Abschnitte unterteilt werden können. Da die Ausrichtung von oben nach unten erfolgt, besteht eine kleinere Wahrscheinlichkeit, dass es zu groben Fehlausrichtungen kommt.
- Wie in
3 gezeigt, beginnt das bevorzugte Verfahren300 bei einem Analyseschritt301 durch das Verarbeiten eines aktuellen Textabschnitts310 der Textdatei120 zum Erzeugen eines Vokabular- und Sprachmodells (V-LM)320 für den Textabschnitt310 . Anfänglich kann der aktuelle Abschnitt310 die gesamte Textdatei110 sein. Das V-LM320 kann unter der Verwendung standardmäßiger Sprachanalysewerkzeuge erstellt werden, wie zum Beispiel dasjenige, das mit der Spracherkennung Sphinx II geliefert wird, das an der Carnegie-Mellon University entwickelt wurde. Hier ist das Sprachmodell in der Form von Trigrammen321 , bei denen die relativen Wahrscheinlichkeiten aller Ein-, Zwei-, Dreiwortfolgen dadurch bestimmt werden, dass berücksichtigt wird, wie oft diese Folgen im Textabschnitt310 vorkommen. - Im Schritt
302 wird der entsprechende Abschnitt der Audiodatei330 unter der Verwendung des V-LM320 und akustisch-phonetischer Modelle325 zum Erzeugen einer Wortliste331 durch die Spracherkennung verarbeitet, die mit Zeitinformation332 und möglichen Sicherheitsbewertungen333 versehen ist. Die Spracherkennung kann ein beliebiges standardmäßiges Spracherkennungsprogramm sein. Zum Beispiel verwendet das Spracherkennungsprogramm Sphinx II203 eine versteckte Markov-Modellierung (Hidden Markov Modeling / HMM), es kann jedoch auch eine statistische Laufbahnmodellierung (Statistical Trajectory Modeling / STM) verwendet werden. Die akustisch-phonetischen Modelle325 charakterisieren akustischphonetische Einheiten statistisch. Die akustisch-phonetischen Modelle325 werden üblicherweise aus einem Trainingscorpus heraus trainiert. Die akustischphonetischen Modell325 können anfänglich sprecherunabhängig sein. - Die Wortliste
331 speichert nur die Wörter, die tatsächlich im Audioabschnitt330 erkannt wurden, sequenziell. Es wird darauf hingewiesen, dass im Gegensatz zum Stand der Technik dieser Schritt302 ohne Berücksichtigung dessen durchgeführt wird, was die Wörter sein mögen, die im Textabschnitt310 angegeben sind. Die Zeitabstimmungsinformation332 gibt für jedes erkannte Wort die Startzeit und die Dauer jedes erkannten Wortes an. Die Sicherheitsbewertungen333 geben den Grad der Sicherheit an, mit dem ein Wort korrekt erkannt wurde. - Die Wortliste
331 und die Zeitabstimmungsinformation332 sind nicht notwendigerweise absolut korrekt, das bedeutet, dass die erkannten gesprochenen Wörter der Liste331 nur eine "beste Schätzung" der gesprochenen Wörter des Audioabschnitts330 darstellen, wie durch die Sicherheitsbewertungen333 angegeben. Manche Wörter können auch verfehlt werden, und andere Wörter können falsch verstanden werden, z.B. kann "way" als "weight" missverstanden werden. - In Schritt
303 wird die erkannte Wortliste331 mit dem Textabschnitt310 ausgerichtet. Eine dynamische Programmierung oder ähnliche Verfahren können zum Ausrichten der Wortliste331 mit dem Textabschnitt310 verwendet werden. - Dynamische Programmierverfahren, die eine beste eins-zu-eins-Entsprechung zwischen zwei Listen von Textelementen (Tokens) bestimmen, sind wohl bekannt. Die Textelemente sind hier gesprochene Wörter und Textwörter.
- Wie in
4 gezeigt, kann es für bestimmte aufgelistete Wörter401 und entsprechende Textabschnitte402 mehrere mögliche Ausrichtungen geben. Die gestrichelten Linien403 zeigen eine eins-zu-eins-Entsprechung, bei der die größte Anzahl von Wörtern ausgerichtet ist. Die durch die durchgezogenen Linien404 angezeigte Ausrichtung ist vorzugsweise auf der Grundlage der Ausrichtung längerer Wörter. Wünschenswert ist das Wählen der "besten" Ausrichtungen. - Zum Beispiel kann jede mögliche Ausrichtung bewertet werden. Die Punktebewertung einer bestimmten Ausrichtung kann sich immer dann erhöhen, wenn identische Wörter ausgerichtet werden, und verringern, wenn unterschiedliche Wörter ausgerichtet werden. Die Punktebewertung kann für "lange" Wörter so gewichtet werden, das die Punktzahl erhöht wird, da lange Wörter wahrscheinlich mit einer geringeren Häufigkeit auftreten. Außerdem können auch lange Abfolgen korrekt ausgerichteter Wörter den Punktestand erhöhen.
- Wenn zum Beispiel die Abfolge der gesprochenen Wörter "there's a long way to go" im Audioabschnitt
330 exakt zum entsprechenden Teil des Textabschnitts310 passt, ist die Wahrscheinlichkeit sehr groß, dass es sich dabei um das tatsächlich Gesagte handelt und dass die Ausrichtung korrekt ist. Wenn an einem anderen Punkt in der Ausrichtung nur das Wort "a" übereinstimmt, dann ist die Korrektheit der Ausrichtung weniger sicher. - Wie in
5 gezeigt, werden Ausrichtungen, die am wahrscheinlichsten korrekt sind, als "Anker"200 im Audioabschnitt330 und im Textabschnitt310 gewählt. Ein Anker200 ist als ein Ort definiert, bei dem die gesprochenen Wörter des Audioabschnitts mit ziemlich großer Sicherheit auf die geschriebenen Wörter des Textabschnitts ausgerichtet sind. In einer bevorzugten Ausführungsform wird eine beliebige Abfolge von vier Wörtern als korrekt angenommen. Wenn es keine solchen Abfolgen gibt, kann der Schwellenwert auf drei Wörter gesenkt werden, und dann auf zwei. Es gibt auch andere Möglichkeiten, wie zum Beispiel die Auswahl nur der längsten korrekten Abfolge als Anker, oder die Berücksichtigung der Gesamtwortlängen bei der Bestimmung der Länge einer korrekten Abfolge. Zur gleichen Zeit können die Anker200 im Textabschnitt310 mit der entsprechenden Zeitinformation versehen werden, die aus dem Audioabschnitt330 gezogen wird. - Beim Schritt
305 werden die Anker200 zur Aufteilung des Textabschnitts310 und des Audioabschnitts330 in entsprechende ausgerichtete Abschnitte (schraffiert) 501 und unausgerichtete Abschnitte502 verwendet. Die Startzeiten und Zeitdauern der Abschnitte501 und502 sind aus der zur Annotierung der Abschnitte verwendeten Zeitinformation bekannt. - Die unausgerichteten Text- und Audioabschnitte
502 werden durch die Schritte301 bis305 erneut verarbeitet, bis ein erwünschter Endzustand erreicht wird, z.B. die Text- und die Audiodatei vollständig ausgerichtet sind oder keine neuen Anker mehr erfasst werden können. Es besteht auch die Möglichkeit, dass ein Teil der Wörter eines Ankers200 jeden unausgerichteten Abschnitt502 nach der Aufteilung beginnen und/oder beenden können, um die Wahrscheinlichkeit zu erhöhen, dass einige Wörter im unausgerichteten Abschnitt sind, die beim nächsten Durchgang korrekt erkannt werden. - Es wird darauf hingewiesen, dass bei jeder Iteration das Vokabular- und Sprachmodell
320 nur aus den Wörtern dieses Textabschnitts aufgebaut wird, und dass nur dieses bestimmte V-LM320 zur Erkennung von Wörtern im aktuellen Audioabschnitt330 verwendet wird. - Die Iterationen können aus verschiedenen Gründen beendet werden. Einer besteht darin, dass es keine Wörter und daher keine Unterabschnitte mehr auszurichten gibt. Ein anderer besteht darin, dass die letzte Iteration nicht genug ausgerichtete Wörter gefunden hat, so dass aus einer weiteren Iteration nichts mehr zu gewinnen ist. Die Iterationen können je nach der erwünschten Präzision auch früher eingestellt werden. Wenn zum Beispiel die Ausrichtung für Indizierungszwecke benötigt wird, könnten die Iterationen eingestellt werden, wenn die Zeitdauer eines Abschnitts eine gewisse Kürze (zum Beispiel wenige Sekunden) erreicht hat.
- Da das vorliegende Verfahren immer kleiner werdende unausgerichtete Abschnitte mit einem kleiner werdenden Vokabular- und Sprachmodell durchgearbeitet, kann das vorliegende Verfahren Rauschen und andere Schwierigkeiten im Audiostrom besser bewältigen, zum Beispiel bei Audioströmen, bei denen sich Sprache und Musik überlagern. Außerdem ist es bei diesem Verfahren weniger wahrscheinlich, dass lange Audioströme fehlausgerichtet werden, weil eine Vorgehensweise von oben nach unten (top-down) verwendet wird, wobei eine Fehlausrichtung in einem Abschnitt eine Ausrichtung in einem anderen Abschnitt nicht beeinflusst. Außerdem funktioniert das Verfahren auch, wenn die Textdatei nicht die gesamte Dauer der Audiodatei, sondern nur einen Teil davon repräsentiert. Große Abschnitte in der Audiodatei, für die es keine entsprechenden Textabschnitte gibt, werden so ganz einfach bewältigt.
-
6 zeigt die Ausrichtung und Aufteilung von Abschnitten über mehrere Iterationen. In Block601 sind die Wörter eines gesamten Abschnitts unausgerichtet. In Block602 wurden nach der Verarbeitung650 die schraffierten Teile501 ausgerichtet. Die unausgerichteten Teile502 (Blöcke603 ) werden erneut verarbeitet660 , um weitere ausgerichtete Teile (in Blöcken604 ) zu lokalisieren und so weiter (Verarbeitung680 ). Der Block605 zeigt, dass keine weiteren Abschnitte auszurichten sind. - Wie in
6 gezeigt, können die Verarbeitungsschritte301 bis305 während der Iterationen auf verschiedene Arten und Weisen dynamisch eingestellt werden. Zum Beispiel werden im Schritt610 die Ergebnisse der ausgerichteten Teile zum Einstellen der akustisch-phonetischen Modelle325 der Spracherkennung302 verwendet. Dadurch lernt die Spracherkennung302 , die gesprochenen Wörter einer bestimmten Audiodatei besser zu erkennen. Anders ausgedrückt werden die ausgerichteten Teile des vorhergehenden Durchgangs zu Sprachtrainingsdaten für die Spracherkennung302 , so dass bei den unausgerichteten Teilen der nächste Durchgang robuster ist. - Zum Beispiel kann die Spracherkennung
302 anfänglich so konfiguriert sein, dass sie mit sprecherunabhängigen Modellen funktioniert. Mit einem zunehmenden "Lernen" durch die Spracherkennung der Sprache des Sprechers der Wörter in der Audiodatei werden die akustisch-phonetischen Modelle der Spracherkennung immer sprecherabhängiger, d.h. "feiner eingestellt". Außerdem können auch für Audiodateien einer relativ langen Zeitdauer die Modelle so eingerichtet werden, dass sie Kanalparameter, wie zum Beispiel Rauschen, Verzerrung und Kompressionsverfahren, die auf die Sprache angewendet wurden, berücksichtigen, d.h. das vorliegende Verfahren kommt mit schwierigen Audiodateien besser zurecht. - Während einer Einstellung der Spracherkennung zur Verbesserung der Leistung kann auch die Ausrichtungseinrichtung und/oder die Anker-Wahleinrichtung im Schritt
630 so eingestellt werden, dass sie mehr oder weniger aggressiv vorgeht. Zum Beispiel können die Variablen und Kriterien, die durch die dynamischen Programmierungsverfahren des Ausrichters302 verwendet werden, bei sich verbessernder Spracherkennung lockerer gehandhabt werden. Dies bedeutet, dass große Abschnitte ausgerichteter Wörter in aufeinander folgenden Iterationen schneller erfasst werden. - Wenn während eines einzigen Durchgangs keine Anker identifiziert werden, können in ähnlicher Weise unausgerichtete Teile unter der Verwendung anderer Bewertungsverfahren verarbeitet werden, und so weiter. Mit dem vorliegenden Verfahren kann die Präzision der Ausrichtung dynamisch eingestellt werden, um für eine bestimmte Anwendung angemessene Ergebnisse zu erzielen.
- Wie in
7 gezeigt ist, kann das vorliegende Verfahren auch zur Durchführung einer Sprecheridentifikation verwendet werden. Zum Beispiel enthält eine Audiodatei710 Teile701 , die von einem ersten Sprecher (Bob) gesprochen wurden, und Teile702 , die von einem zweiten Sprecher (Alice) gesprochen wurden. Eine entsprechende Textdatei720 ist vollständig oder teilweise mit Sprecheridentifikationsinformation annotiert, z.B. es geht jedem Teil eines transkribierten Texts eine entsprechende Sprecheridentifikation721 und722 voraus. Nun kann die Spracherkennung302 für die mehreren Sprecher getrennte akustischphonetische Modelle731 und732 entwickeln. Nachdem die Modelle "trainiert" wurden, kann die Sprechererkennung automatisch durchgeführt werden. - Dieses Verfahren kann auch zur Durchführung einer "automatischen" Untertitelung verwendet werden. Zum Beispiel wird ein erstes Band eines Nachrichtenprogramms vollständig oder teilweise mit der "Nachrichtensprecher"-Identifikation, wie oben beschrieben, transkribiert werden. Nachdem die Spracherkennung
302 für eine bestimmte Gruppe von Nachrichtensprechern trainiert wurde, können nachfolgende Video-(oder Audio-)Bänder transkribiert werden, um Textdateien zu erzeugen, ohne dass dabei die Sprecher explizit identifiziert werden. Die Modelle325 können entsprechend eingestellt werden, wenn sich das Personal des Nachrichtenprogramms ändert. - Zusammengefasst ist das vorliegende Verfahren ein von oben nach unten vorgehendes iteratives Ausrichtungsverfahren und kein sequenzielles von links nach rechts vorgehendes Ausrichtungsverfahren. Während jeder Iteration eines Abschnitts bearbeitet die Spracherkennung das zeitabhängige Signal zur Erkennung von Textelementen (Tokens) und richtet die Textelemente mit digitalen Versionen der Textelemente aus. Unausgerichtete Textelemente werden erneut verarbeitet. Dieses Verfahren kann auch zur Ausrichtung anderer Typen von Signalen zum Beispiel in Systemen zur automatischen Erkennung von Handschriften und zum Lippenlesen eingesetzt werden.
- Es versteht sich, dass die oben beschriebenen Ausführungsformen lediglich Veranschaulichungen der Prinzipien der Erfindungen sind. Verschiedene andere Modifikationen und Veränderungen können vom Fachmann vorgenommen werden, die dann in den Umfang der Erfindung fallen.
Claims (15)
- Rechnergestütztes Verfahren zum Ausrichten von Textabschnitten (
310 ) einer Textdatei an Audioabschnitten (330 ) einer Audiodatei, mit den folgenden Schritten: – Erzeugen (301 ) eines Vokabular- und Sprachmodells (320 ) aus dem Textabschnitt (310 ); – Erkennen (302 ) einer Wortliste (332 ) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – Ausrichten (303 ) der Wortliste (332 ) am Textabschnitt (310 ); – Wählen entsprechender "Anker" (304 ), die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und im Textabschnitt; – Aufteilen des Textabschnitts (305 ) und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß der Anker; und – Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist. - Verfahren nach Anspruch 1, bei dem der Textabschnitt der gesamten Textdatei entspricht und der Audioabschnitt der gesamten Audiodatei entspricht.
- Verfahren nach Anspruch 1, bei dem das Sprachmodell in der Form von Triggrammen vorliegt, wobei die Trigramme die relativen Wahrscheinlichkeiten der Ein-, Zwei- und Dreiwortfolgen im Textabschnitt anzeigen.
- Verfahren nach Anspruch 1, bei dem die Wortliste eine sequentielle Liste erkannter gesprochener Wörter des Audioabschnitts enthält.
- Verfahren nach Anspruch 1, weiter enthaltend den Schritt des Versehens der Wortliste mit Zeitinformation, wobei die Zeitinformation die Anfangszeit und die Zeitdauer eines jeden gesprochenen Worts enthält.
- Verfahren nach Anspruch 1, bei dem die Wortliste unter der Verwendung akustisch-phonetischer Modelle einer Spracherkennung erkannt wird.
- Verfahren nach Anspruch 1, weiter mit den Schritten des Bestimmens mehrerer möglicher Ausrichtungen, des Bewertens einer jeden möglichen Ausrichtung und des Auswählens einer besten Ausrichtung unter der Verwendung einer dynamischen Programmierung, weiter mit dem Schritt des Erhöhens der Bewertung einer bestimmten möglichen Ausrichtung, wenn eine bestimmte mögliche Ausrichtung eine längste Abfolge korrekt ausgerichteter Wörter enthält.
- Verfahren nach Anspruch 5, weiter mit dem Schritt des Versehens des Textabschnitts mit Zeitinformation für korrekt ausgerichtete Wörter des Audioabschnitts.
- Verfahren nach Anspruch 1, bei dem der Endzustand ein vollständig an einem Audioabschnitt ausgerichteter Text ist.
- Verfahren nach Anspruch 1, bei dem der Endzustand die Erfassung aller Anker im Text- und im Audioabschnitt ist.
- Verfahren nach Anspruch 1, bei dem der Endzustand für einen bestimmten unausgerichteten Abschnitt erreicht ist, wenn dieser bestimmte unausgerichtete Abschnitt eine Zeitdauer hat, die geringer als ein bestimmter Schwellenwert ist.
- Verfahren nach Anspruch 1, bei dem die unausgerichteten Abschnitte Teile benachbarter ausgerichteter Abschnitte enthalten, um die Wahrscheinlichkeit zu erhöhen, dass Wörter des unausgerichteten Abschnitts korrekt erkannt werden.
- Verfahren nach Anspruch 1, bei dem das Vokabular- und Sprachmodell während der nächsten Iterationen aus den unausgerichteten Abschnitten erneut aufgebaut wird.
- Verfahren nach Anspruch 1, bei dem der Textabschnitt einem Teil des Audioabschnitts entspricht.
- Vorrichtung zum Ausrichten von Textabschnitten (
310 ) einer Textdatei an Audioabschnitten (330 ) einer Audiodatei, mit: – einer Einrichtung (301 ) zum Analysieren des Textabschnitts zum Erzeugen eines Vokabular- und Sprachmodells (320 ) für den Textabschnitt; – einer Spracherkennung (302 ) zum Erzeugen einer Wortliste (332 ) aus dem Audioabschnitt unter der Verwendung des Vokabular- und Sprachmodells; – einer Einrichtung (303 ) zum Ausrichten der Wortliste (332 ) am Textabschnitt (310 ); – einer Einrichtung (304 ) zum Wählen entsprechender Anker, die als Trennlinien zwischen Abschnitten definiert sind, in der Wortliste und dem Textabschnitt; – einer Einrichtung zum Aufteilen (305 ) des Textabschnitts und des Audioabschnitts in unausgerichtete und ausgerichtete Abschnitte gemäß den Ankern; und – einer Einrichtung zum Wiederholen der Schritte des Erzeugens, Erkennens, Ausrichtens, Wählens und Aufteilens an den unausgerichteten Abschnitten, bis ein Endzustand erreicht ist.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US921347 | 1997-08-29 | ||
US08/921,347 US6076059A (en) | 1997-08-29 | 1997-08-29 | Method for aligning text with audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69818930D1 DE69818930D1 (de) | 2003-11-20 |
DE69818930T2 true DE69818930T2 (de) | 2005-01-13 |
Family
ID=25445309
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998618930 Expired - Fee Related DE69818930T2 (de) | 1997-08-29 | 1998-08-10 | Verfahren zur Ausrichtung von Text an Audiosignalen |
Country Status (4)
Country | Link |
---|---|
US (1) | US6076059A (de) |
EP (1) | EP0899719B1 (de) |
JP (1) | JPH11191000A (de) |
DE (1) | DE69818930T2 (de) |
Families Citing this family (114)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6850609B1 (en) * | 1997-10-28 | 2005-02-01 | Verizon Services Corp. | Methods and apparatus for providing speech recording and speech transcription services |
US6473778B1 (en) * | 1998-12-24 | 2002-10-29 | At&T Corporation | Generating hypermedia documents from transcriptions of television programs using parallel text alignment |
US6324499B1 (en) * | 1999-03-08 | 2001-11-27 | International Business Machines Corp. | Noise recognizer for speech recognition systems |
US6535848B1 (en) * | 1999-06-08 | 2003-03-18 | International Business Machines Corporation | Method and apparatus for transcribing multiple files into a single document |
US6442518B1 (en) * | 1999-07-14 | 2002-08-27 | Compaq Information Technologies Group, L.P. | Method for refining time alignments of closed captions |
US7412643B1 (en) | 1999-11-23 | 2008-08-12 | International Business Machines Corporation | Method and apparatus for linking representation and realization data |
US6925436B1 (en) * | 2000-01-28 | 2005-08-02 | International Business Machines Corporation | Indexing with translation model for feature regularization |
US7047191B2 (en) * | 2000-03-06 | 2006-05-16 | Rochester Institute Of Technology | Method and system for providing automated captioning for AV signals |
US6263308B1 (en) * | 2000-03-20 | 2001-07-17 | Microsoft Corporation | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process |
US6260011B1 (en) * | 2000-03-20 | 2001-07-10 | Microsoft Corporation | Methods and apparatus for automatically synchronizing electronic audio files with electronic text files |
US6505153B1 (en) | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
EP1295482B1 (de) * | 2000-06-09 | 2010-09-01 | British Broadcasting Corporation | Erzeugung von untertiteln für bewegte bilder |
DE10042943C2 (de) * | 2000-08-31 | 2003-03-06 | Siemens Ag | Zuordnen von Phonemen zu den sie erzeugenden Graphemen |
US6993246B1 (en) | 2000-09-15 | 2006-01-31 | Hewlett-Packard Development Company, L.P. | Method and system for correlating data streams |
US6975985B2 (en) * | 2000-11-29 | 2005-12-13 | International Business Machines Corporation | Method and system for the automatic amendment of speech recognition vocabularies |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
WO2002080143A1 (en) | 2001-03-29 | 2002-10-10 | Koninklijke Philips Electronics N.V. | Synchronise an audio cursor and a text cursor during editing |
US20020152064A1 (en) * | 2001-04-12 | 2002-10-17 | International Business Machines Corporation | Method, apparatus, and program for annotating documents to expand terms in a talking browser |
US7016829B2 (en) * | 2001-05-04 | 2006-03-21 | Microsoft Corporation | Method and apparatus for unsupervised training of natural language processing units |
US6839667B2 (en) * | 2001-05-16 | 2005-01-04 | International Business Machines Corporation | Method of speech recognition by presenting N-best word candidates |
US6963834B2 (en) * | 2001-05-29 | 2005-11-08 | International Business Machines Corporation | Method of speech recognition using empirically determined word candidates |
US20030033147A1 (en) * | 2001-06-08 | 2003-02-13 | Recording For The Blind & Dyslexic Incorporated | Method and apparatus for coordinating text and audio events in a digital talking book |
ATE496363T1 (de) * | 2001-10-12 | 2011-02-15 | Nuance Comm Austria Gmbh | Spracherkennungsvorrichtung mit markierung von erkannten textteilen |
US7146321B2 (en) * | 2001-10-31 | 2006-12-05 | Dictaphone Corporation | Distributed speech recognition system |
US7133829B2 (en) * | 2001-10-31 | 2006-11-07 | Dictaphone Corporation | Dynamic insertion of a speech recognition engine within a distributed speech recognition system |
KR20030043299A (ko) * | 2001-11-27 | 2003-06-02 | 주식회사 엘지이아이 | 오디오 데이터와 부가 데이터간의 동기 기록 관리 및재생방법 |
KR100563680B1 (ko) * | 2001-11-27 | 2006-03-28 | 엘지전자 주식회사 | 재기록 가능 기록매체의 오디오 가사 데이터 기록 관리 및재생방법 |
US6766294B2 (en) | 2001-11-30 | 2004-07-20 | Dictaphone Corporation | Performance gauge for a distributed speech recognition system |
US6785654B2 (en) | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
US20030128856A1 (en) * | 2002-01-08 | 2003-07-10 | Boor Steven E. | Digitally programmable gain amplifier |
WO2003063067A1 (en) * | 2002-01-24 | 2003-07-31 | Chatterbox Systems, Inc. | Method and system for locating positions in printed texts and delivering multimedia information |
US7292975B2 (en) * | 2002-05-01 | 2007-11-06 | Nuance Communications, Inc. | Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7231351B1 (en) * | 2002-05-10 | 2007-06-12 | Nexidia, Inc. | Transcript alignment |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US20030229491A1 (en) * | 2002-06-06 | 2003-12-11 | International Business Machines Corporation | Single sound fragment processing |
US7693720B2 (en) | 2002-07-15 | 2010-04-06 | Voicebox Technologies, Inc. | Mobile systems and methods for responding to natural language speech utterance |
US6816834B2 (en) * | 2002-10-23 | 2004-11-09 | Jon Jaroker | System and method for secure real-time high accuracy speech to text conversion of general quality speech |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
AT6921U1 (de) * | 2002-11-28 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur automatischen übereinstimmung von audio-segmenten mit textelementen |
US20040176139A1 (en) * | 2003-02-19 | 2004-09-09 | Motorola, Inc. | Method and wireless communication device using voice recognition for entering text characters |
US7979281B2 (en) * | 2003-04-29 | 2011-07-12 | Custom Speech Usa, Inc. | Methods and systems for creating a second generation session file |
JP4113059B2 (ja) * | 2003-07-28 | 2008-07-02 | 株式会社東芝 | 字幕信号処理装置、字幕信号処理方法及び字幕信号処理プログラム |
US7346506B2 (en) * | 2003-10-08 | 2008-03-18 | Agfa Inc. | System and method for synchronized text display and audio playback |
JP3945778B2 (ja) * | 2004-03-12 | 2007-07-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 設定装置、プログラム、記録媒体、及び設定方法 |
US7461004B2 (en) * | 2004-05-27 | 2008-12-02 | Intel Corporation | Content filtering for a digital audio signal |
US8504369B1 (en) * | 2004-06-02 | 2013-08-06 | Nuance Communications, Inc. | Multi-cursor transcription editing |
US7356469B2 (en) * | 2004-08-20 | 2008-04-08 | International Business Machines Corporation | Method and system for trimming audio files |
US20060136226A1 (en) * | 2004-10-06 | 2006-06-22 | Ossama Emam | System and method for creating artificial TV news programs |
US7836412B1 (en) | 2004-12-03 | 2010-11-16 | Escription, Inc. | Transcription editing |
US7693713B2 (en) * | 2005-06-17 | 2010-04-06 | Microsoft Corporation | Speech models generated using competitive training, asymmetric training, and data boosting |
US7640160B2 (en) | 2005-08-05 | 2009-12-29 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7620549B2 (en) | 2005-08-10 | 2009-11-17 | Voicebox Technologies, Inc. | System and method of supporting adaptive misrecognition in conversational speech |
US7949529B2 (en) | 2005-08-29 | 2011-05-24 | Voicebox Technologies, Inc. | Mobile systems and methods of supporting natural language human-machine interactions |
US20070055514A1 (en) * | 2005-09-08 | 2007-03-08 | Beattie Valerie L | Intelligent tutoring feedback |
US8032372B1 (en) | 2005-09-13 | 2011-10-04 | Escription, Inc. | Dictation selection |
US9020811B2 (en) * | 2006-10-13 | 2015-04-28 | Syscom, Inc. | Method and system for converting text files searchable text and for processing the searchable text |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
US7818176B2 (en) | 2007-02-06 | 2010-10-19 | Voicebox Technologies, Inc. | System and method for selecting and presenting advertisements based on natural language processing of voice-based input |
JP5313466B2 (ja) * | 2007-06-28 | 2013-10-09 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声の再生に同期して音声の内容を表示させる技術 |
US7716054B2 (en) * | 2007-06-29 | 2010-05-11 | Microsoft Corporation | Activity-ware for non-textual objects |
US8140335B2 (en) | 2007-12-11 | 2012-03-20 | Voicebox Technologies, Inc. | System and method for providing a natural language voice user interface in an integrated voice navigation services environment |
JP2009237285A (ja) * | 2008-03-27 | 2009-10-15 | Toshiba Corp | 人物名付与装置および方法 |
US8589161B2 (en) | 2008-05-27 | 2013-11-19 | Voicebox Technologies, Inc. | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US9305548B2 (en) | 2008-05-27 | 2016-04-05 | Voicebox Technologies Corporation | System and method for an integrated, multi-modal, multi-device natural language voice services environment |
US8131545B1 (en) | 2008-09-25 | 2012-03-06 | Google Inc. | Aligning a transcript to audio data |
US8498867B2 (en) * | 2009-01-15 | 2013-07-30 | K-Nfb Reading Technology, Inc. | Systems and methods for selection and use of multiple characters for document narration |
US8326637B2 (en) | 2009-02-20 | 2012-12-04 | Voicebox Technologies, Inc. | System and method for processing multi-modal device interactions in a natural language voice services environment |
US20100299131A1 (en) * | 2009-05-21 | 2010-11-25 | Nexidia Inc. | Transcript alignment |
US8332225B2 (en) * | 2009-06-04 | 2012-12-11 | Microsoft Corporation | Techniques to create a custom voice font |
US9280969B2 (en) * | 2009-06-10 | 2016-03-08 | Microsoft Technology Licensing, Llc | Model training for automatic speech recognition from imperfect transcription data |
US20100332225A1 (en) * | 2009-06-29 | 2010-12-30 | Nexidia Inc. | Transcript alignment |
US8843368B2 (en) | 2009-08-17 | 2014-09-23 | At&T Intellectual Property I, L.P. | Systems, computer-implemented methods, and tangible computer-readable storage media for transcription alignment |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US8571866B2 (en) * | 2009-10-23 | 2013-10-29 | At&T Intellectual Property I, L.P. | System and method for improving speech recognition accuracy using textual context |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US8645134B1 (en) * | 2009-11-18 | 2014-02-04 | Google Inc. | Generation of timed text using speech-to-text technology and applications thereof |
US20110153330A1 (en) * | 2009-11-27 | 2011-06-23 | i-SCROLL | System and method for rendering text synchronized audio |
US8572488B2 (en) * | 2010-03-29 | 2013-10-29 | Avid Technology, Inc. | Spot dialog editor |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US9615140B1 (en) | 2010-05-27 | 2017-04-04 | Edward Malinowski | Method and device for delivery of subtitle synchronized with a media stream |
US20120047437A1 (en) * | 2010-08-23 | 2012-02-23 | Jeffrey Chan | Method for Creating and Navigating Link Based Multimedia |
US9028255B2 (en) | 2010-10-06 | 2015-05-12 | Dominic William Massaro | Method and system for acquisition of literacy |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
US8855797B2 (en) | 2011-03-23 | 2014-10-07 | Audible, Inc. | Managing playback of synchronized content |
JP5404726B2 (ja) * | 2011-09-26 | 2014-02-05 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
US9679608B2 (en) | 2012-06-28 | 2017-06-13 | Audible, Inc. | Pacing content |
US9099089B2 (en) | 2012-08-02 | 2015-08-04 | Audible, Inc. | Identifying corresponding regions of content |
US8804035B1 (en) * | 2012-09-25 | 2014-08-12 | The Directv Group, Inc. | Method and system for communicating descriptive data in a television broadcast system |
US9367196B1 (en) | 2012-09-26 | 2016-06-14 | Audible, Inc. | Conveying branched content |
US9632647B1 (en) | 2012-10-09 | 2017-04-25 | Audible, Inc. | Selecting presentation positions in dynamic content |
US9223830B1 (en) | 2012-10-26 | 2015-12-29 | Audible, Inc. | Content presentation analysis |
US9542936B2 (en) * | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
US9280906B2 (en) | 2013-02-04 | 2016-03-08 | Audible. Inc. | Prompting a user for input during a synchronous presentation of audio content and textual content |
WO2014191054A1 (en) * | 2013-05-31 | 2014-12-04 | Longsand Limited | Processing of audio data |
US9317486B1 (en) | 2013-06-07 | 2016-04-19 | Audible, Inc. | Synchronizing playback of digital content with captured physical content |
US9489360B2 (en) | 2013-09-05 | 2016-11-08 | Audible, Inc. | Identifying extra material in companion content |
US20150081294A1 (en) * | 2013-09-19 | 2015-03-19 | Maluuba Inc. | Speech recognition for user specific language |
US9898459B2 (en) | 2014-09-16 | 2018-02-20 | Voicebox Technologies Corporation | Integration of domain information into state transitions of a finite state transducer for natural language processing |
CN107003996A (zh) | 2014-09-16 | 2017-08-01 | 声钰科技 | 语音商务 |
WO2016061309A1 (en) | 2014-10-15 | 2016-04-21 | Voicebox Technologies Corporation | System and method for providing follow-up responses to prior natural language inputs of a user |
US10431214B2 (en) | 2014-11-26 | 2019-10-01 | Voicebox Technologies Corporation | System and method of determining a domain and/or an action related to a natural language input |
US10614799B2 (en) | 2014-11-26 | 2020-04-07 | Voicebox Technologies Corporation | System and method of providing intent predictions for an utterance prior to a system detection of an end of the utterance |
JP6459818B2 (ja) * | 2015-07-22 | 2019-01-30 | ブラザー工業株式会社 | テキスト対応付け装置、テキスト対応付け方法、及びプログラム |
CN106231432B (zh) * | 2016-07-29 | 2019-08-06 | 北京小米移动软件有限公司 | 分享视频的方法及装置 |
WO2018023106A1 (en) | 2016-07-29 | 2018-02-01 | Erik SWART | System and method of disambiguating natural language processing requests |
US10657202B2 (en) * | 2017-12-11 | 2020-05-19 | International Business Machines Corporation | Cognitive presentation system and method |
US11443646B2 (en) | 2017-12-22 | 2022-09-13 | Fathom Technologies, LLC | E-Reader interface system with audio and highlighting synchronization for digital books |
US10671251B2 (en) | 2017-12-22 | 2020-06-02 | Arbordale Publishing, LLC | Interactive eReader interface generation based on synchronization of textual and audial descriptors |
US20200335125A1 (en) * | 2019-04-19 | 2020-10-22 | Raytheon Company | Detection of audio anomalies |
US11977517B2 (en) | 2022-04-12 | 2024-05-07 | Dell Products L.P. | Warm start file compression using sequence alignment |
US20230325354A1 (en) * | 2022-04-12 | 2023-10-12 | Dell Products L.P. | Hyperparameter optimization in file compression using sequence alignment |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5333275A (en) * | 1992-06-23 | 1994-07-26 | Wheatley Barbara J | System and method for time aligning speech |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
US5737725A (en) * | 1996-01-09 | 1998-04-07 | U S West Marketing Resources Group, Inc. | Method and system for automatically generating new voice files corresponding to new text from a script |
-
1997
- 1997-08-29 US US08/921,347 patent/US6076059A/en not_active Expired - Fee Related
-
1998
- 1998-08-10 EP EP98115010A patent/EP0899719B1/de not_active Expired - Lifetime
- 1998-08-10 DE DE1998618930 patent/DE69818930T2/de not_active Expired - Fee Related
- 1998-08-28 JP JP10242823A patent/JPH11191000A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
EP0899719B1 (de) | 2003-10-15 |
DE69818930D1 (de) | 2003-11-20 |
EP0899719A3 (de) | 1999-10-27 |
US6076059A (en) | 2000-06-13 |
EP0899719A2 (de) | 1999-03-03 |
JPH11191000A (ja) | 1999-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69818930T2 (de) | Verfahren zur Ausrichtung von Text an Audiosignalen | |
DE69923379T2 (de) | Nicht-interaktive Registrierung zur Spracherkennung | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE69829235T2 (de) | Registrierung für die Spracherkennung | |
DE69926481T2 (de) | Vorrichtung und verfahren für aufnahme, entwurf und wiedergabe synchronisierter audio- und videodaten unter verwendung von spracherkennung und drehbüchern | |
DE112010005959B4 (de) | Verfahren und System zur automatischen Erkennung eines Endpunkts einer Tonaufnahme | |
DE60207742T2 (de) | Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE69938374T2 (de) | Verfahren und Vorrichtung zur Spracherkennung mittels sowohl eines neuralen Netzwerks als auch verborgener Markov-Modelle | |
EP0925461B1 (de) | Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem | |
DE60211197T2 (de) | Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte | |
DE60126722T2 (de) | Aussprache von neuen Wörtern zur Sprachverarbeitung | |
DE602005002706T2 (de) | Verfahren und System für die Umsetzung von Text-zu-Sprache | |
DE60203705T2 (de) | Umschreibung und anzeige eines eingegebenen sprachsignals | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE102007015497B4 (de) | Spracherkennungsvorrichtung und Spracherkennungsprogramm | |
DE602005004503T2 (de) | Multilinguale Spracherkennung | |
EP1282112B1 (de) | Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
DE102020205786A1 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
EP1058235B1 (de) | Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |