DE60307965T2 - Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen - Google Patents

Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen Download PDF

Info

Publication number
DE60307965T2
DE60307965T2 DE60307965T DE60307965T DE60307965T2 DE 60307965 T2 DE60307965 T2 DE 60307965T2 DE 60307965 T DE60307965 T DE 60307965T DE 60307965 T DE60307965 T DE 60307965T DE 60307965 T2 DE60307965 T2 DE 60307965T2
Authority
DE
Germany
Prior art keywords
speech
voice message
recorded
decision
specified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60307965T
Other languages
English (en)
Other versions
DE60307965D1 (de
Inventor
Moustafa Ottawa Elshafei
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitel Knowledge Corp
Original Assignee
Mitel Knowledge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitel Knowledge Corp filed Critical Mitel Knowledge Corp
Application granted granted Critical
Publication of DE60307965D1 publication Critical patent/DE60307965D1/de
Publication of DE60307965T2 publication Critical patent/DE60307965T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft im Allgemeinen interaktive Sprachausgabe-(IVR)-Systeme und insbesondere eine Vorrichtung und ein Verfahren zum Ändern der Wiedergaberate von aufgezeichneter Sprache.
  • HINTERGRUND DER ERFINDUNG
  • Vorher aufgezeichnete Sprachmitteilungen werden in IVR-Telekommunikationsanwendungen weit verbreitet verwendet. Sprachmitteilungen diese Art stellen Anweisungen und Navigationsführung unter Verwendung von natürlicher und reicher Sprache für Benutzer bereit. In vielen Fällen wird gewünscht, die Rate zu ändern, mit der aufgezeichnete Sprache wiedergegeben wird. Wiedergabe von Sprache mit verschiedenen Raten stellt ein herausforderndes Problem dar, und viele Techniken wurden in Betracht gezogen.
  • Eine bekannte Technik beinhaltet die Wiedergabe von aufgezeichneten Mitteilungen mit einer Taktrate, die schneller ist als die Taktrate, die während der Aufzeichnung der Mitteilungen verwendet wurde. Leider wird dadurch die Tonhöhe der wiedergegebenen Mitteilungen erhöht, was in einer unerwünschten Verminderung der Verständlichkeit resultiert.
  • Eine andere bekannte Technik beinhaltet Wegfallenlassen von kurzen Segmenten aus aufgezeichneten Mitteilungen in regelmäßigen Abständen. Leider führt diese Technik Verzerrungen in die wiedergegebenen Mitteilungen ein und erfordert daher komplizierte Verfahren zum Glätten von aneinander grenzenden Sprachsegmenten in den Mitteilungen, um die Mitteilungen verständlich zu machen.
  • Zeitkompression kann auch verwendet werden, um die Rate zu erhöhen, mit der aufgezeichnete Sprache wiedergegeben wird, und viele Zeitkompressionstechniken wurden in Betracht gezogen. Eine Zeitkompressionstechnik beinhaltet das Entfernen von Pausen aus aufgezeichneter Sprache. Wenn dies durchgeführt wird, finden viele Benutzer, obwohl die resultierende wiedergegebene Sprache natürlich ist, das Zuhören wegen der fehlenden Pausen anstrengend. Es wurde herausgefunden, dass Pausen für Zuhörer erforderlich sind, um aufgezeichnete Mitteilungen zu verstehen und ihnen zu folgen.
  • U.S.-Patent Nr. 5341432 an Suzuki et al offenbart eine populäre Zeitkompressionstechnik, die gemeinhin als das synchronisierte Überlappungs-Hinzufügungs-(SOLA)-Verfahren bezeichnet wird. Bei diesem Verfahren werden redundante Informationen in aufgezeichneter Sprache erkannt und entfernt. Insbesondere wird der Anfang eines neuen Sprachsegments über das Ende des vorangehenden Sprachsegments geschoben, um den Punkt der höchsten Kreuzkorrelation (d. h. der maximalen Ähnlichkeit) zu finden. Die überlappenden Sprachsegmente werden dann gemittelt oder zusammen geglättet. Obwohl dieses Verfahren Sprache guter Qualität erzeugt, ist es nur zur Verwendung mit deutlich gesprochenen Sprachabschnitten geeignet.
  • Andere Techniken zum Ändern der Wiedergaberate von aufgezeichneter Sprache wurden auch in Betracht gezogen. Beispielsweise offenbart U.S.-Patent Nr. 6205420 an Takagi et al ein Verfahren und eine Vorrichtung zum sofortigen Ändern der Geschwindigkeit von Sprachdaten, um die Anpassung der Geschwindigkeit von Sprachdaten an das Zuhörvermögen des Benutzers zuzulassen. Ein Blockdatenteiler teilt die eingegebenen Sprachdaten in Blöcke mit Blocklängen, die von jeweiligen Attributen abhängig sind. Ein Verbindungsdatengenerator erzeugt Verbindungsdaten, die verwendet werden, um aneinander grenzende Blöcke von Sprachdaten zu verbinden.
  • U.S.-Patent Nr. 6009386 an Cruikshank et al offenbart ein Verfahren zum Ändern der Wiedergabe von Sprache unter Verwendung von Teilband-Wavelet-Codierung. Digitalisierte Sprache wird in ein Wavelet-codiertes Audiosignal umgewandelt. Periodische Rahmen in dem Wavelet-codierten Audiosignal werden identifiziert und angrenzende periodische Rahmen werden fallengelassen.
  • U.S.-Patent Nr. 5493608 an O'Sullivan et al offenbart ein System für adaptive Auswahl der Sprachrate einer gegebenen Sprachmitteilung, basierend auf der gemessenen Reaktionszeit eines Benutzers. Das System wählt eine Sprachmitteilung mit geeigneter Sprachrate aus einer Pluralität von vorher aufgezeichneten Sprachmitteilungen aus, die mit verschiedenen Sprachraten aufgezeichnet wurden.
  • U.S.-Patent Nr. 5828994 an Covell et al offenbart ein System zur Kompression von Sprache, wobei verschiedene Teile von Sprache in drei grobe Kategorien klassifiziert werden. Insbesondere werden verschiedene Teile von Sprache in Pausen, unbetonte Silben, Wörter und Phrasen sowie betonte Silben, Wörter und Phrasen klassifiziert. Wenn ein Sprachsignal komprimiert wird, werden Pausen am stärksten beschleunigt, unbetonte Laute werden mit einem mittleren Betrag komprimiert und betonte Laute werden am wenigsten komprimiert.
  • US-A-6324501 offenbart ein Verfahren, bei dem Sprachsignale unter Einfluss eines Signals, das empfindlich ist für ein kleines Fenster, das für das Signal, das verändert wird, stationär ist, zeitlich skaliert werden.
  • Obwohl der oben ausgewiesene Stand der Technik Techniken offenbart, die es gestatten, die Wiedergaberate von aufgezeichneter Sprache zu ändern, sind Verbesserungen wünschenswert. Daher ist es eine Aufgabe der vorliegenden Erfindung, eine neue Vorrichtung und ein neues Verfahren zum Ändern der Wiedergaberate von aufgezeichneter Sprache bereitzustellen.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Nach einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache bereitgestellt, umfassend:
    Speicher, der mindestens eine aufgezeichnete Sprachmitteilung speichert; und
    ein Wiedergabemodul, Eingang empfangend, der eine aufgezeichnete Sprachmitteilung in dem Speicher, die wiedergegeben werden soll, und die Rate, mit der die spezifizierte Sprachmitteilung wiedergegeben werden soll, spezifiziert, das Wiedergabemodul einen Satz von Entscheidungsregeln verwendend zur Modifizierung der spezifizierten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Merkmalen der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate vor der Wiedergabe der aufgezeichneten Sprachmitteilung, die Merkmale basierend auf Jitterzuständen der Sprachrahmenparameter, die für die spezifizierte Sprachmitteilung generiert wurden.
  • In einer bevorzugten Ausführungsform ist der Eingang, der die Wiedergaberate spezifiziert, vom Benutzer auswählbar, und wird der Eingang, der die aufgezeichnete Sprachmitteilung spezifiziert, von einem interaktiven Sprachausgabesysteme erzeugt. Vorzugsweise enthält das Wiedergabemodul einen Entscheidungsprozessor, der Sprache modifizierende Aktionen basierend auf den Sprachrahmenparametern und der spezifizierten Wiedergaberate unter Verwendung von Entscheidungsregeln aus dem Satz erzeugt, und einen Signalprozessor, der die spezifizierte Sprachmitteilung, die wiederzugeben ist, in Übereinstmmunung mit den Sprache modifizierenden Aktionen modifiziert.
  • In einer bevorzugten Ausführungsform enthalten die Sprachrahmenparameter scheinbare Periodizitätsperiode Pt, Rahmenenergie Et und Sprachperiodizität β. Der Entscheidungsprozessor klassifiziert jeden der Sprachrahmenparameter in Entscheidungsregionen und verwendet die klassifizierten Sprachrahmenparameter zur Bestimmung der Zustände von Periodizitätsperioden-Jitter, Energie-Jitter und Periodizitätsstärke-Jitter. Die Sprache modifizierenden Aktionen basieren auf den bestimmten Jitterzuständen.
  • Es ist außerdem vorzuziehen, dass die Vorrichtung weiterhin ein Merkmalsextraktionsmodul enthält. Das Merkmalsextraktionsmodul erzeugt die Merkmalstabellen basierend auf den aufgezeichneten Sprachmitteilungen. Insbesondere unterteilt das Merkmalsextraktionsmodul während der Erzeugung der einzelnen Merkmalstabellen die assoziierte aufgezeichnete Sprachmitteilung in Sprachrahmen, berechnet die scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität für jeden Sprachrahmen und vergleicht die berechnete scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität mit korrespondierenden Parametern von angrenzenden Sprachrahmen, um die Sprachrahmenparameter zu erhalten.
  • Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Ändern der Wiedergaberate einer aufgezeichneten Sprachmitteilung als Reaktion auf einen vom Benutzer ausgewählten Wiedergaberaten-Befehl, die folgenden Schritte umfassend:
    Verwendung eines Satzes von Entscheidungsregeln zum Modifizieren der aufgezeichneten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Jitterzuständen der Sprachrahmenparameter, die für die aufgezeichnete Sprachmitteilung generiert wurden, und dem vom Benutzer ausgewählten Wiedergaberaten-Befehl; und
    Wiedergabe der modifizierten aufgezeichneten Sprachmitteilung.
  • Die vorliegende Erfindung bietet Vorteile darin, dass die Wiedergaberate von aufgezeichneter Sprache geändert werden kann, ohne die Natürlichkeit der aufgezeichneten Sprache wesentlich zu beeinträchtigen. Dies wird erreicht durch Anwendung von akustischen und prosodischen Anhaltspunkten der aufgezeichneten Sprache, die wiedergegeben werden soll, und Verwendung dieser Anhaltspunkte zum Modifizieren der aufgezeichneten Sprache nach einem Satz von durch Wahrnehmung abgeleiteten Entscheidungsregeln basierend auf den Jitterzuständen der Sprachrahmen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Eine Ausführungsform der vorliegenden Erfindung wird jetzt ausführlicher beschrieben unter Bezugnahme auf die beigefügten Zeichnungen, von denen:
  • 1 ein schematisches Blockdiagramm einer Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache zeigt;
  • 2 Entscheidungsebenen für Rahmenenergie zeigt;
  • 3 Entscheidungsebenen für Periodizitätsstärke-Indikatoren zeigt;
  • 4 Entscheidungsregionen für Rahmenenergie-Jitterzustände zeigt;
  • 5 Entscheidungsregionen für Periodizitätsperioden-Jitterzustände zeigt; und
  • 6 Entscheidungsregionen für Periodizitätsstärke-Jitterzustände zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Jetzt Bezug nehmend auf 1, wird eine Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache dargestellt und allgemein mit dem Bezugszeichen 10 gekennzeichnet. Wie ersichtlich ist, enthält Vorrichtung 10 ein Wiedergabemodul 12, ein Merkmalsextraktionsmodul 14, Speicher 16, der eine Pluralität von Sprachaufzeichnungen VR1 bis VRN speichert, und Speicher 18, der eine Pluralität von Merkmalstabellen FT1 bis FTN speichert. Die Sprachaufzeichnungen können beispielsweise Sprachansagen, Sprachpostmitteilungen oder jede andere aufgezeichnete Sprache sein. Jede Merkmalstabelle FTN ist mit einer entsprechenden einen der in Speicher 16 gespeicherten Sprachaufzeichnungen assoziiert.
  • Das Wiedergabemodul 12 enthält ein Systembefehlsregister (SCR) 20, ein Benutzerbefehlsregister (UCR) 22, einen Entscheidungsprozessor (DP) 24, einen Signalprozessor (SP) 26 und einen Puffer 28. Der Puffer 28 stellt Ausgang zu einer Sprachausgabevorrichtung 38 bereit, die die aufgezeichnete Sprache wiedergibt. Das Systembefehlsregister 20 empfängt Eingangsbefehle von einem interaktiven Sprachausgabe-(IVR)-System 40 zur Wiedergabe von spezifizierten Sprachaufzeichnungen. Das Benutzerbefehlsregister 22 empfängt eingegebene Benutzerbefehle (UI) 42 zur Anpassung der Wiedergaberate von wiederzugebenden Sprachaufzeichnungen VRN.
  • Das Merkmalsextraktionsmodul 14 reagiert auf eingegebene Befehle von dem IVR-System 40 und erzeugt die Merkmalstabellen FT1 bis FTN basierend auf den assoziierten Sprachaufzeichnungen VR1 bis VRN. Insbesondere teilt das Merkmalsextraktionsmodul 14 für jede Sprachaufzeichnung VRN die Sprachaufzeichnung auf in Sprachrahmen von fester Länge FL. Jeder Sprachrahmen wird unabhängig analysiert und eine Pluralität von extrahierten Sprachrahmenparametern wird berechnet, nämlich die scheinbare Periodizitätsperiode Pt, die Rahmenenergie Et und die Sprachperiodizität β. Ein finaler Satz von Sprachrahmenparametern wird dann basierend auf den Jitterzuständen der Sprachrahmen durch Vergleichen der extrahierten Sprachrahmenparameter mit korrespondierenden Sprachrahmenparametern von angrenzenden Sprachrahmen und von der gesamten Sprachaufzeichnung bestimmt. Der finale Satz von Sprachrahmenparametern enthält Periodizitätsperioden-Jitter-, Energie-Jitter- und Periodizitätsstärke-Jitter-Parameter. Der finale Satz von Sprachrahmenparametern wird in der Merkmalstabelle FTN gespeichert und wird während der Wiedergabe der assoziierten Sprachaufzeichnung VRN verwendet, wie beschrieben werden wird.
  • Während der Berechnung der extrahierten Sprachrahmenparameter für jeden Sprachrahmen speichert das Merkmalsextraktionsmodul 14 den Sprachrahmen und vorherige Sprachmuster in einem Puffer, der vorgesehen ist, ungefähr 25 ms Sprache zu halten. Die Sprache wird dann durch einen Tiefpassfilter geleitet, der definiert ist durch die Funktion: H(z) = (1 + z–1)/2 (1)
  • Das Merkmalsextraktionsmodul 14 ist durch die folgende Funktion definiert:
    Figure 00050001
    wobei s(t) ein Muster der ursprünglichen Sprache zur Zeit t ist, k eine Konstante ist und N1 gleich FL/2 ist.
  • Die scheinbare Periodizitätsperiode Pt ist definiert durch die Funktion: Pt = arg(min(W(k)·s(t,k)) für k von kmin bis kmax (3)
  • Die ausgewählten Werte der Konstanten kmin und kmax sind abhängig von der Abtastrate, dem Geschlecht des Sprechers und davon, ob Informationen über die Charakteristika der Sprecherstimme im Voraus bekannt sind. Zur Reduzierung der Möglichkeit von Fehlklassifizierung wird die Berechnung zuerst für drei oder vier Sprachaufzeichnungen durchgeführt, und dann werden statistische Werte über den Sprecher erfasst. Anschließend wird ein reduzierter Bereich für kmax und kmin berechnet und verwendet. In dieser Ausführungsform wird der ausgewählte Bereich für eine männliche Ansage als zwischen 40 und 120 Mustern liegend angenommen. Die Gewichtungsfunktion W(k) benachteiligt die Auswahl von Harmonischen als Periodizitätsperiode.
  • Die Rahmenenergie Et wird berechnet unter Verwendung der Formel:
    Figure 00050002
  • Die Sprachperiodizität β wird unter Verwendung von Verfahren berechnet, die Fachleuten gut bekannt sind, wie beispielsweise durch Autokorrelationsanalyse von aufeinander folgenden Sprachrahmen-Mustern.
  • Die Generierung der Merkmalstabellen FTN kann offline durchgeführt werden, nachdem die Sprachaufzeichnungen VRN berechnet wurden, oder alternativ beim Empfang einer neuen Sprachaufzeichnung VRN.
  • Wenn ein eingegebener Befehl von dem Systembefehlsregister 20 von dem IVR-System 40 zur Wiedergabe einer spezifizierten Sprachaufzeichnung VRN empfangen wird, wird die spezifizierte Sprachaufzeichnung VRN aus dem Speicher 16 abgerufen und zu dem Signalprozessor 26 befördert. Die mit der spezifizierten Sprachaufzeichnung VRN assoziierte Merkmalstabelle FTN wird auch bestimmt, und der finale Satz von Sprachrahmenparametern in der Merkmalstabelle FTN wird zu dem Entscheidungsprozessor 24 befördert. Der Entscheidungsprozessor 24 empfängt auch eingegebene Benutzerbefehle, die die vom Benutzer ausgewählte Wiedergaberate für die spezifizierte Sprachaufzeichnung VRN angeben, aus dem Benutzerbefehlsregister 22. In dieser besonderen Ausführungsform kann der Benutzer eine von sieben Wiedergaberaten für die spezifizierte Sprachaufzeichnung VRN auswählen. Die Wiedergaberaten enthalten langsam1, langsam2, langsam3, normal, schnell1, schnell2 und schnell3.
  • Als Reaktion auf die Sprachrahmenparameter und die vom Benutzer ausgewählte Wiedergaberate verwendet der Entscheidungsprozessor 24 einen Satz von durch Wahrnehmung angesteuerte Entscheidungsregeln, um zu bestimmen, wie die spezifizierte Sprachaufzeichnung VRN wiederzugeben ist. Jede vom Benutzer auswählbare Wiedergaberate erregt einen anderen Satz von Entscheidungsregeln, der verwendet wird, um den Bedingungszustand der Sprachrahmen nach einem Satz von Entscheidungsregionen zu testen. Wenn ein gegebener Sprachrahmen die Bedingungen erfüllt, die in einem Satz von Entscheidungsregionen dargelegt sind, generiert der Entscheidungsprozessor 24 geeignete Modifizierungsbefehle oder -aktionen und befördert die Modifizierungsbefehle zu dem Signalprozessor 26. Der Signalprozessor 26 wiederum modifiziert die spezifizierte Sprachaufzeichnung VRN gemäß den Modifizierungsbefehlen, die von dem Entscheidungsprozessor 24 empfangen wurden. Die modifizierte Sprachaufzeichnung VRN wird dann in dem Puffer 28 akkumuliert. Wenn der Signalprozessor 26 die Verarbeitung der Sprachaufzeichnung VRN abschließt, sendet der Signalprozessor 26 die modifiziere Sprachaufzeichnung VRN von dem Puffer 28 zu der Sprachausgabevorrichtung 38 für Wiedergabe mit der von dem Benutzer spezifizieren Rate.
  • Während des Testens der Sprachrahmen-Zustände wird der Bereich von jedem Sprachrahmenparameter oder jeder Kombination von Sprachrahmenparametern in Regionen aufgeteilt. Der Zustand von jedem Sprachrahmenparameter wird dann bestimmt nach der (den) Region(en), in die der Wert des Sprachrahmenparameters fällt. 2 zeigt die Entscheidungsregionen für die Rahmenenergie Et. Die Entscheidungsregionen sind bezeichnet mit sehr niedrig (VL), niedrig (L), mittel (M), hoch (H) und sehr hoch (VH). Wenn beispielsweise die Rahmenenergie 0,78 beträgt, ist der Energiezustand (ES) des Sprachrahmens hoch H. Die Rahmenenergie-Entscheidungsregionen basieren auf statistischen Werten, die von allen der Sprachrahmen in der spezifizierten Sprachaufzeichnung erfasst wurden. Gleichermaßen zeigt 3 die Entscheidungsregionen für die Sprachperiodizität β. Die Entscheidungsregionen sind ungleichmäßig und sind mit VL, L, M, H und VH gekennzeichnet. Beispielsweise ist der Periodizitätsstärke-Zustand (PSS) niedrig, wenn die Sprachperiodizität β des Sprachrahmens 0,65 beträgt.
  • Die Entscheidungsregionen für den Sprachrahmenenergie-Jitterzustand (EJS) sind in 4 dargestellt. Der EJS wird als zunehmend bezeichnet, wenn der Punkt (Et-Et-1, Et+1-Et) in den Bereich fällt, der durch die Linien 100 und 102 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des EJSs als schnell, langsam oder stetig definiert. Die anderen EJS-Entscheidungsregionen in 4 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der EJS als abnehmend bezeichnet, wenn der Punkt (Et-Et-1, Et+1-Et) in den Bereich fällt, der durch die Linien 104 und 106 begrenzt wird.
  • 5 zeigt die Entscheidungsregionen für den Periodizitätsperioden-Jitterzustand (PPJS). Der PPJS wird als zunehmend bezeichnet, wenn der Punkt (Pt-Pt-1, Pt+1-Pt) in den Bereich fällt, der durch die Linien 200 und 202 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des PPJSs als schnell, langsam oder stetig definiert. Die anderen PPJS-Entscheidungsregionen in 5 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der PPJS als abnehmend bezeichnet, wenn der Punkt (Pt-Pt-1, Pt+1-Pt) in den Bereich fällt, der durch die Linien 204 und 206 begrenzt wird.
  • 6 zeigt die Entscheidungsregionen für den Periodizitätsstärken-Jitterzustand (PSJS). Der PSJS wird als zunehmend bezeichnet, wenn der Punkt (βtt-1, βt+1t) in den Bereich fällt, der durch die Linien 300 und 302 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des PSJSs als schnell, langsam oder stetig definiert. Die anderen PSJS-Entscheidungsregionen in 6 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der PSJS als abnehmend bezeichnet, wenn der Punkt (βtt-1, βt+1t) in den Bereich fällt, der durch die Linien 304 und 306 begrenzt wird.
  • Bei bekannten Zuständen der Sprachrahmenparameter verwendet der Entscheidungsprozessor 24 die Entscheidungsregeln, die als Reaktion auf die vom Benutzer ausgewählte Wiedergaberate erregt werden, um die geeigneten Modifizierungsbefehle zu generieren. Jede Entscheidungsregel umfasst einen Satz von Bedingungen und einen korrespondierenden Satz von Aktionen. Die Bedingungen definieren, wann die Entscheidungsregel anwendbar ist. Wenn eine Entscheidungsregel als anwendbar angesehen wird, können eine oder mehrere von dieser Entscheidungsregel enthaltenden Aktionen dann ausgeführt werden. Diese Aktionen sind mit den Zuständen der Sprachrahmenparameter assoziiert, die entweder den Satz von Bedingungen, die in der Entscheidungsregel spezifiziert sind, erfüllen oder diesen nicht erfüllen. Der Entscheidungsprozessor 24 testet diese Entscheidungsregeln und implementiert sie in einer einer Vielzahl von Weisen wie beispielsweise einfache Wenn-Dann-Befehle, neuronale Netze oder unscharfe Logik.
  • Die folgende Schreibweise beschreibt eine Entscheidungsregel:
    Rule_ID {Bedingungen}{Aktionen}{wenn Beschränkung(en)}
  • Oder wenn {Bedingung} dann {Aktionen} sonst {Aktionen} wenn {Beschränkung Der Bezeichner, rule_id, ist eine Kennzeichnung, die für Bezugnahme auf die Entscheidungsregel verwendet wird.
  • Bedingungen spezifizieren die Ereignisse, die die Obligation aktivieren.
  • Beschränkung begrenzt die Anwendbarkeit einer Entscheidungsregel, z. B. auf eine bestimmte Zeitperiode, oder macht sie nach einem bestimmten Datum gültig, um die Anwendbarkeit von sowohl Autorisierungs- als auch Obligationsentscheidungen basierend auf Zeit oder Werten von Attributen der Sprachrahmen zu begrenzen.
  • Anhang A enthält einen beispielhaften Satz von Entscheidungsregeln, die von dem Entscheidungsprozessor 24 verwendet werden, um die Modifizierungsbefehle basierend auf der vom Benutzer ausgewählten Wiedergaberate und den Zuständen der Sprachrahmenparameter zu generieren.
  • Wie für Fachleute ersichtlich ist, können, obwohl ein bestimmter Satz von Entscheidungsregeln offenbart wurde, andere verfeinerte Entscheidungsregeln in den Satz aufgenommen werden, die andere Fälle von Jitterzuständen abdecken. Beispielsweise kann der Satz von Entscheidungsregeln auch Entscheidungsregeln enthalten, die Quasi-Periodizität mit langsamen oder schnellen Periodizitäts-Jittern, Phonemübergänge, zunehmende/abnehmende Periodizitäts-Jitter sowie andere Jitterzustände abdecken.
  • Die Entscheidungsregeln können auf einfache Weise unter Verwendung eines neuronalen Netzes oder unscharfer Logikmodellierung implementiert werden. Andere mathematische Modellierungstechniken wie statistische dynamische Modellierung oder Cluster- und Mustervergleich-Modellierung können auch verwendet werden.
  • Obwohl eine bevorzugte Ausführungsform der vorliegenden Erfindung beschrieben wurde, ist für Fachleute ersichtlich, dass Variationen und Modifikationen vorgenommen werden können, ohne das Wesen und den Rahmen davon zu verlassen, wie durch die beigefügten Patentansprüche definiert.
  • ANHANG A
  • Langsam1
  • R-S1.1
    • Den aktuellen Rahmen in den Puffer kopieren.
  • R-S1.2
    • Wenn {(PSI ist VH} UND (E ist H) UND (PJS ist STETIG) UND (EJS ist STETIG) UND (PSJS ist STETIG)}
    • Dann {1- Die letzten Pt Muster kopieren.
    • Hinter dem aktuellen Rahmen einfügen.}
  • Langsam2
  • R-S2.1
  • Den aktuellen Rahmen in den Puffer kopieren.
  • R-S2.2
    • Wenn {(PSI ist VH) UND (E ist H) UND (PPJS ist STETIG) UND (EJS ist STETIG) UND (PSJS ist STETIG)}
    • Dann {1- Die letzten Pt Muster kopieren.
    • Die zwei (Pt Muster) hinter dem aktuellen Rahmen einfügen.}
  • R-S2.3
    • Wenn {(PSI ist H) UND (E ist M) UND (PPJS ist STETIG)}
    • Dann {1- Die letzten Pt Muster kopieren.
    • Seine Energie auf den normalisierten Durchschnitt von Et und Et+1 skalieren. Hinter dem aktuellen Rahmen einfügen.}
    • Diese Aktion kann nur einmal für jede zwei aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-S2.4
    • Wenn (PSI ist VH) UND (E ist H) UND (PPJS ist ZUNEHMEND oder ABNEHMEND) UND (EJS ist STETIG)}
    • DANN {1- Die letzten (Pt + Pt+1)/2 Muster kopieren.
    • Hinter dem aktuellen Rahmen einfügen.}
    • Diese Aktion kann nur einmal für jede 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • Langsam3
    • R-S3.1 bis R-S3.3 sind gleich wie jeweils R-S2.1 bis R-S2.3
  • R-S3.4
    • Wenn {(PSI ist VH oder H) UND (E ist H) UND (PPJS ist ZUNEHMEND oder ABNEHMEND) UND (EJS ist STETIG)}
    • DANN {1- Die letzten (Pt + Pt+1)/2 Muster kopieren.
    • Hinter dem aktuellen Rahmen einfügen.}
    • Diese Aktion kann nur einmal für jede 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-S3.5
    • Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann {
    • Den letzten Unterrahmen kopieren.
    • Seine Energie auf den normalisierten Durchschnitt von Et und Et+1 skalieren.
    • Hinter dem aktuellen Rahmen einfügen.}
  • R-S3.6
    • Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • DANN {1- Die letzten FL/2 Muster kopieren. 2- Seine Energie auf den normalisierten Durchschnitt von Et und Et+1 skalieren. 3- Hinter dem aktuellen Rahmen einfügen.}
    • Diese Aktion kann nur für bis zu 15 aufeinander folgende Rahmen ausgeführt werden.
  • R-S3.7
    • Wenn {(PSI ist VH oder H) UND (PPJS ist STETIG) UND (EJS ist ABNEHMEND)}
    • Dann {1- Die letzten Pt Muster kopieren. 2- Seine Energie auf den normalisierten Durchschnitt von Et und Et+1 skalieren. 3- Hinter dem aktuellen Rahmen einfügen.}
    • Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • Schnell1
  • R-F1.1
    • Wenn {(PSI ist VL) UND (E ist VH) UND (PSJS ist JITTER) UND (EJS ist JITTER) UND (PPJS ist JITTER)
    • Dann {Diesen Rahmen wegfallen lassen.}
  • R-F1.2
    • Wenn {(PSI ist VH) UND (E ist H) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 4 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F1.3
    • Wenn {(PSI ist VH) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprunglichen Sprache ausgeführt werden.
  • R-F1.4
    • Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann {Den letzten Unterrahmen wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur für bis zu 20 aufeinander folgende Rahmen ausgeführt werden.
    • Wenn die in dieser Regel angegebenen Zustände (nach 20 aufeinander folgenden Rahmen) noch bestehen, den gesamten Rahmen wegfallen lassen.
  • R-F1.5
    • Wenn {keine der obigen Regeln angewandt werden} Dann {Den Rahmen unverändert in den Ausgangspuffer kopieren}
  • Schnell2
  • R-F2.1
    • Gleich wie R-F1.1
  • R-F2.2
    • Wenn {(PSI ist VH oder H) UND (E ist H) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F2.3
    • Wenn {(PSI ist VH oder H) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F2.4
    • Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur für bis zu 20 aufeinander folgende Rahmen ausgeführt werden.
    • Wenn die in dieser Regel angegebenen Zustände noch bestehen, den gesamten Rahmen wegfallen lassen.
  • R-F2.5
    • Wenn {(PSI ist H oder M) UND (E ist M) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist STETIG)
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F2.6
    • Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann Den letzten Unterrahmen wegfallen lassen; den Rest des Rahmens erhalten.}
  • R-F2.7
    • Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (EJS ist STETIG) UND (PPJS ist LANGSAM ZUNEHMEND ODER LANGSAM ABNEHMEND)}
    • Dann {1- Die letzten (Pt + Pt-1)/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal für alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F2.8
    • Wenn {keine der obigen Regeln angewandt wird} Dann {Den Rahmen unverändert in den Ausgangspuffer kopieren}
  • Schnell3
  • R-F3.1
    • ist gleich wie R-F2.1
  • R-F3.2
    • ist gleich wie R-F2.2
  • R-F3.3
    • Wenn {(PSI ist VH oder H) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
  • R-F3.4
    • Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur für bis zu 10 aufeinander folgende Rahmen ausgeführt werden.
    • Wenn die in dieser Regel angegebenen Zustände noch bestehen, den gesamten Rahmen wegfallen lassen.
  • R-F3.5
    • Wenn {(PSI ist H oder M) UND (E ist M) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
    • Dann {Die letzten Pt Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F3.6
    • Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
    • Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
  • R-F3.7
    • Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (EJS ist STETIG) UND (PPJS ist LANGSAM ZUNEHMEND ODER LANGSAM ABNEHMEND)}
    • Dann {1- Die letzten (Pt + Pt-1)/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
    • Diese Aktion kann nur einmal für alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F3.8
    • Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (PSJS ist NICHT JITTER) UND (EJS ist LANGSAM-ABNEHMEND) UND (PPJS ist STETIG)}
    • Dann {Die letzten (Pt + Pt-1)/2 Muster wegfallen lassen; Den Rest des Rahmens erhalten. Die Energie des ersten Untenahmens von Ft+1 auf (Et+1 + Et)/2 setzen. Die Grenzmuster der Rahmen glätten.}
    • Diese Aktion kann nur eimnal für alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.
  • R-F3.9
    • Wenn {keine der obigen Regeln angewandt wird} Dann {Den Rahmen unverändert in den Ausgangspuffer kopieren}

Claims (13)

  1. Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache, umfassend: Speicher, der mindestens eine aufgezeichnete Sprachmitteilung speichert; und ein Wiedergabemodul, Eingang empfangend, der eine aufgezeichnete Sprachmitteilung in dem Speicher, die wiedergegeben werden soll, und die Rate, mit der die spezifizierte Sprachmitteilung wiedergegeben werden soll, spezifiziert, das Wiedergabemodul einen Satz von Entscheidungsregeln verwendend zur Modifizierung der spezifizierten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Merkmalen der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate vor der Wiedergabe der aufgezeichneten Sprachmitteilung, die Merkmale basierend auf Jitterzuständen der Sprachrahmenparameter, die für die spezifizierte Sprachmitteilung generiert wurden.
  2. Vorrichtung nach Anspruch 1, wobei der Eingang, der die Wiedergaberate spezifiziert, vom Benutzer auswählbar ist.
  3. Vorrichtung nach Anspruch 2, wobei der Eingang, der die aufgezeichnete Sprachmitteilung spezifiziert, von einem interaktiven Sprachausgabesystem generiert wird.
  4. Vorrichtung nach einem der Ansprüche 1 bis 3, wobei das Wiedergabemodul umfasst: einen Entscheidungsprozessor, der Sprache modifizierende Aktionen basierend auf Sprachrahmenparameter der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate unter Verwendung von Entscheidungsregeln aus dem Satz generiert; und einen Signalprozessor, der die spezifizierte Sprachmitteilung gemäß den Sprache modifizierenden Aktionen modifiziert.
  5. Vorrichtung nach Anspruch 4, wobei die Sprachrahmenparameter scheinbare Periodizitätsperiode Pt, Rahmenenergie Et und Sprachperiodizität β enthalten.
  6. Vorrichtung nach Anspruch 5, wobei der Entscheidungsprozessor jeden der Sprachrahmenparameter in Entscheidungsregionen klassifiziert und die klassifizierten Sprachrahmenparameter verwendet, um die Zustände von Periodizitätsperioden-Jitter, den Energie-Jitter und Periodizitätsstärke-Jitter zu bestimmen, wobei die Sprache modifizierenden Aktionen auf den bestimmten Jitterzuständen basieren.
  7. Vorrichtung nach Anspruch 6, wobei die Entscheidungsregionen unscharfe Regionen sind, die bestimmten Zustände unter Verwendung von unscharfer Logik durch den Entscheidungsprozessor identifiziert werden und die Sprache modifizierenden Aktionen unter Verwendung von unscharfen Regeln von dem Entscheidungsprozessor generiert werden.
  8. Vorrichtung nach Anspruch 6, wobei die Entscheidungsregionen unter Verwendung eines neuronalen Netzes, das Eingangsneuronen und Ausgangsneuronen aufweist, aufgeteilt werden und wobei die Sprachrahmenparameter mit Eingangsneuronen des neuronalen Netzes verbunden sind, die Sprache modifizierenden Aktionen durch die Ausgangsneuronen des neuronalen Netzes bestimmt werden.
  9. Vorrichtung nach einem der Ansprüche 1 bis 8, wobei der Speicher eine Pluralität von aufgezeichneten Sprachmitteilungen und eine Pluralität von Merkmalstabellen speichert, jede Merkmalstabelle mit einer individuellen einen der Sprachmitteilungen assoziiert ist und Sprachrahmenparameter basierend auf den Jitterzuständen von Sprachrahmen der assoziierten Sprachmitteilung enthält.
  10. Vorrichtung nach Anspruch 9, wobei die Vorrichtung weiter ein Merkmalsextraktionsmodul enthält, das Merkmalsextraktionsmodul die Merkmalstabellen basierend auf den aufgezeichneten Sprachmitteilungen erzeugt.
  11. Vorrichtung nach Anspruch 10, wobei das Merkmalsextraktionsmodul auf ein interaktives Sprachausgabesystem reagiert.
  12. Vorrichtung nach Anspruch 10 oder 11, wobei das Merkmalsextraktionsmodul während der Erzeugung jeder Merkmalstabelle die assoziierte aufgezeichnete Sprachmiteilung in Sprachrahmen aufteilt, die scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität für jeden Sprachrahmen berechnet und die berechnete scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität mit korrespondierenden Parametern von angrenzenden Sprachrahmen vergleicht, um die Sprachrahmenparameter hervorzubringen.
  13. Verfahren zum Ändern der Wiedergaberate einer aufgezeichneten Sprachmitteilung als Reaktion auf einen vom Benutzer ausgewählten Wiedergaberaten-Befehl, die folgenden Schritte umfassend: Verwendung eines Satzes von Entscheidungsregeln zur Modifizierung der aufgezeichneten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Jitterzuständen von Sprachrahmenparametern, die für die aufgezeichnete Sprachmitteilung generiert wurden, und dem vom Benutzer ausgewählten Wiedergaberaten-Befehl; und Wiedergabe der modifizierten aufgezeichneten Sprachmitteilung.
DE60307965T 2002-12-04 2003-12-04 Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen Expired - Lifetime DE60307965T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0228245 2002-12-04
GBGB0228245.7A GB0228245D0 (en) 2002-12-04 2002-12-04 Apparatus and method for changing the playback rate of recorded speech

Publications (2)

Publication Number Publication Date
DE60307965D1 DE60307965D1 (de) 2006-10-12
DE60307965T2 true DE60307965T2 (de) 2007-04-26

Family

ID=9949022

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60307965T Expired - Lifetime DE60307965T2 (de) 2002-12-04 2003-12-04 Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen

Country Status (5)

Country Link
US (1) US7143029B2 (de)
EP (1) EP1426926B1 (de)
CA (1) CA2452022C (de)
DE (1) DE60307965T2 (de)
GB (1) GB0228245D0 (de)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
TWI281627B (en) * 2005-07-05 2007-05-21 Sunplus Technology Co Ltd Programmable controller
US20130069858A1 (en) * 2005-08-26 2013-03-21 Daniel O'Sullivan Adaptive communications system
US20070250311A1 (en) * 2006-04-25 2007-10-25 Glen Shires Method and apparatus for automatic adjustment of play speed of audio data
US8781082B1 (en) * 2008-10-02 2014-07-15 United Services Automobile Association (Usaa) Systems and methods of interactive voice response speed control
US20100162122A1 (en) * 2008-12-23 2010-06-24 At&T Mobility Ii Llc Method and System for Playing a Sound Clip During a Teleconference
US20130282844A1 (en) 2012-04-23 2013-10-24 Contact Solutions LLC Apparatus and methods for multi-mode asynchronous communication
US9635067B2 (en) 2012-04-23 2017-04-25 Verint Americas Inc. Tracing and asynchronous communication network and routing method
JP5999839B2 (ja) * 2012-09-10 2016-09-28 ルネサスエレクトロニクス株式会社 音声案内システム及び電子機器
EP2881944B1 (de) * 2013-12-05 2016-04-13 Nxp B.V. Audiosignalverarbeitungsvorrichtung
EP3103038B1 (de) 2014-02-06 2019-03-27 Contact Solutions, LLC Systeme, vorrichtungen und verfahren zur kommunikationsstromänderung
US9166881B1 (en) 2014-12-31 2015-10-20 Contact Solutions LLC Methods and apparatus for adaptive bandwidth-based communication management
WO2017024248A1 (en) 2015-08-06 2017-02-09 Contact Solutions LLC Tracing and asynchronous communication network and routing method
US10063647B2 (en) 2015-12-31 2018-08-28 Verint Americas Inc. Systems, apparatuses, and methods for intelligent network communication and engagement
CN107808007A (zh) * 2017-11-16 2018-03-16 百度在线网络技术(北京)有限公司 信息处理方法和装置
JP6992612B2 (ja) * 2018-03-09 2022-01-13 ヤマハ株式会社 音声処理方法および音声処理装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5650398A (en) * 1979-10-01 1981-05-07 Hitachi Ltd Sound synthesizer
EP0427953B1 (de) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Einrichtung und Methode zur Veränderung von Sprechgeschwindigkeit
US5493608A (en) * 1994-03-17 1996-02-20 Alpha Logic, Incorporated Caller adaptive voice response system
JPH09198089A (ja) 1996-01-19 1997-07-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
US5848130A (en) * 1996-12-31 1998-12-08 At&T Corp System and method for enhanced intelligibility of voice messages
JP2955247B2 (ja) * 1997-03-14 1999-10-04 日本放送協会 話速変換方法およびその装置
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding
JP3422716B2 (ja) 1999-03-11 2003-06-30 日本電信電話株式会社 話速変換方法および装置および話速変換プログラムを格納した記録媒体
US6324501B1 (en) * 1999-08-18 2001-11-27 At&T Corp. Signal dependent speech modifications
US6260011B1 (en) * 2000-03-20 2001-07-10 Microsoft Corporation Methods and apparatus for automatically synchronizing electronic audio files with electronic text files
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
CN1211781C (zh) 2000-08-09 2005-07-20 汤姆森许可公司 音频速度变换的方法和系统

Also Published As

Publication number Publication date
DE60307965D1 (de) 2006-10-12
EP1426926A3 (de) 2004-08-25
EP1426926B1 (de) 2006-08-30
US20050149329A1 (en) 2005-07-07
CA2452022C (en) 2007-06-05
US7143029B2 (en) 2006-11-28
CA2452022A1 (en) 2004-06-04
EP1426926A2 (de) 2004-06-09
GB0228245D0 (en) 2003-01-08

Similar Documents

Publication Publication Date Title
DE69719825T2 (de) Videowiedergabe mit synchronisiertem ton bei veränderlicher geschwindigkeit
DE60307965T2 (de) Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen
DE69527410T2 (de) CELP-Koder und -Dekoder und Verfahren dazu
DE69127818T2 (de) System zur verarbeitung kontinuierlicher sprache
DE69230324T2 (de) Verfahren zur Zeitskalenmodifikation von Signalen
DE69719270T2 (de) Sprachsynthese unter Verwendung von Hilfsinformationen
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE60225400T2 (de) Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE60004420T2 (de) Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem
DE69414752T2 (de) Sprecherunabhängiges Erkennungssystem für isolierte Wörter unter Verwendung eines neuronalen Netzes
DE3242866C2 (de)
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69613611T2 (de) System zur Speicherung von und zum Zugriff auf Sprachinformation
DE9006717U1 (de) Anrufbeantworter für die digitale Aufzeichnung und Wiedergabe von Sprachsignalen
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE602004008666T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung eines nichtlinearen Prädiktors
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE69318209T2 (de) Verfahren und Anordnung zur Sprachsynthese
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE69717377T2 (de) Sprachgeschwindigkeitsumwandler
EP1058235A2 (de) Wiedergabeverfahren für sprachgesteuerte Systeme mit text-basierter Sprachsynthese
DE69620304T2 (de) Vorrichtung und Verfahren zur Spracherkennung
DE69801165T2 (de) Signalverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: BETTEN & RESCH, 80333 MUENCHEN