DE60307965T2

DE60307965T2 - Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen

Info

Publication number: DE60307965T2
Application number: DE60307965T
Authority: DE
Inventors: Moustafa Ottawa Elshafei
Original assignee: Mitel Knowledge Corp
Current assignee: Mitel Knowledge Corp
Priority date: 2002-12-04
Filing date: 2003-12-04
Publication date: 2007-04-26
Anticipated expiration: 2023-12-05
Also published as: EP1426926A3; US20050149329A1; EP1426926A2; CA2452022A1; CA2452022C; GB0228245D0; US7143029B2; EP1426926B1; DE60307965D1

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft im Allgemeinen interaktive Sprachausgabe-(IVR)-Systeme und insbesondere eine Vorrichtung und ein Verfahren zum Ändern der Wiedergaberate von aufgezeichneter Sprache.
HINTERGRUND DER ERFINDUNG
Vorher aufgezeichnete Sprachmitteilungen werden in IVR-Telekommunikationsanwendungen weit verbreitet verwendet. Sprachmitteilungen diese Art stellen Anweisungen und Navigationsführung unter Verwendung von natürlicher und reicher Sprache für Benutzer bereit. In vielen Fällen wird gewünscht, die Rate zu ändern, mit der aufgezeichnete Sprache wiedergegeben wird. Wiedergabe von Sprache mit verschiedenen Raten stellt ein herausforderndes Problem dar, und viele Techniken wurden in Betracht gezogen.
Eine bekannte Technik beinhaltet die Wiedergabe von aufgezeichneten Mitteilungen mit einer Taktrate, die schneller ist als die Taktrate, die während der Aufzeichnung der Mitteilungen verwendet wurde. Leider wird dadurch die Tonhöhe der wiedergegebenen Mitteilungen erhöht, was in einer unerwünschten Verminderung der Verständlichkeit resultiert.
Eine andere bekannte Technik beinhaltet Wegfallenlassen von kurzen Segmenten aus aufgezeichneten Mitteilungen in regelmäßigen Abständen. Leider führt diese Technik Verzerrungen in die wiedergegebenen Mitteilungen ein und erfordert daher komplizierte Verfahren zum Glätten von aneinander grenzenden Sprachsegmenten in den Mitteilungen, um die Mitteilungen verständlich zu machen.
Zeitkompression kann auch verwendet werden, um die Rate zu erhöhen, mit der aufgezeichnete Sprache wiedergegeben wird, und viele Zeitkompressionstechniken wurden in Betracht gezogen. Eine Zeitkompressionstechnik beinhaltet das Entfernen von Pausen aus aufgezeichneter Sprache. Wenn dies durchgeführt wird, finden viele Benutzer, obwohl die resultierende wiedergegebene Sprache natürlich ist, das Zuhören wegen der fehlenden Pausen anstrengend. Es wurde herausgefunden, dass Pausen für Zuhörer erforderlich sind, um aufgezeichnete Mitteilungen zu verstehen und ihnen zu folgen.
U.S.-Patent Nr. 5341432 an Suzuki et al offenbart eine populäre Zeitkompressionstechnik, die gemeinhin als das synchronisierte Überlappungs-Hinzufügungs-(SOLA)-Verfahren bezeichnet wird. Bei diesem Verfahren werden redundante Informationen in aufgezeichneter Sprache erkannt und entfernt. Insbesondere wird der Anfang eines neuen Sprachsegments über das Ende des vorangehenden Sprachsegments geschoben, um den Punkt der höchsten Kreuzkorrelation (d. h. der maximalen Ähnlichkeit) zu finden. Die überlappenden Sprachsegmente werden dann gemittelt oder zusammen geglättet. Obwohl dieses Verfahren Sprache guter Qualität erzeugt, ist es nur zur Verwendung mit deutlich gesprochenen Sprachabschnitten geeignet.
Andere Techniken zum Ändern der Wiedergaberate von aufgezeichneter Sprache wurden auch in Betracht gezogen. Beispielsweise offenbart U.S.-Patent Nr. 6205420 an Takagi et al ein Verfahren und eine Vorrichtung zum sofortigen Ändern der Geschwindigkeit von Sprachdaten, um die Anpassung der Geschwindigkeit von Sprachdaten an das Zuhörvermögen des Benutzers zuzulassen. Ein Blockdatenteiler teilt die eingegebenen Sprachdaten in Blöcke mit Blocklängen, die von jeweiligen Attributen abhängig sind. Ein Verbindungsdatengenerator erzeugt Verbindungsdaten, die verwendet werden, um aneinander grenzende Blöcke von Sprachdaten zu verbinden.
U.S.-Patent Nr. 6009386 an Cruikshank et al offenbart ein Verfahren zum Ändern der Wiedergabe von Sprache unter Verwendung von Teilband-Wavelet-Codierung. Digitalisierte Sprache wird in ein Wavelet-codiertes Audiosignal umgewandelt. Periodische Rahmen in dem Wavelet-codierten Audiosignal werden identifiziert und angrenzende periodische Rahmen werden fallengelassen.
U.S.-Patent Nr. 5493608 an O'Sullivan et al offenbart ein System für adaptive Auswahl der Sprachrate einer gegebenen Sprachmitteilung, basierend auf der gemessenen Reaktionszeit eines Benutzers. Das System wählt eine Sprachmitteilung mit geeigneter Sprachrate aus einer Pluralität von vorher aufgezeichneten Sprachmitteilungen aus, die mit verschiedenen Sprachraten aufgezeichnet wurden.
U.S.-Patent Nr. 5828994 an Covell et al offenbart ein System zur Kompression von Sprache, wobei verschiedene Teile von Sprache in drei grobe Kategorien klassifiziert werden. Insbesondere werden verschiedene Teile von Sprache in Pausen, unbetonte Silben, Wörter und Phrasen sowie betonte Silben, Wörter und Phrasen klassifiziert. Wenn ein Sprachsignal komprimiert wird, werden Pausen am stärksten beschleunigt, unbetonte Laute werden mit einem mittleren Betrag komprimiert und betonte Laute werden am wenigsten komprimiert.
US-A-6324501 offenbart ein Verfahren, bei dem Sprachsignale unter Einfluss eines Signals, das empfindlich ist für ein kleines Fenster, das für das Signal, das verändert wird, stationär ist, zeitlich skaliert werden.
Obwohl der oben ausgewiesene Stand der Technik Techniken offenbart, die es gestatten, die Wiedergaberate von aufgezeichneter Sprache zu ändern, sind Verbesserungen wünschenswert. Daher ist es eine Aufgabe der vorliegenden Erfindung, eine neue Vorrichtung und ein neues Verfahren zum Ändern der Wiedergaberate von aufgezeichneter Sprache bereitzustellen.
ZUSAMMENFASSUNG DER ERFINDUNG
Nach einem Aspekt der vorliegenden Erfindung wird eine Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache bereitgestellt, umfassend:
Speicher, der mindestens eine aufgezeichnete Sprachmitteilung speichert; und
ein Wiedergabemodul, Eingang empfangend, der eine aufgezeichnete Sprachmitteilung in dem Speicher, die wiedergegeben werden soll, und die Rate, mit der die spezifizierte Sprachmitteilung wiedergegeben werden soll, spezifiziert, das Wiedergabemodul einen Satz von Entscheidungsregeln verwendend zur Modifizierung der spezifizierten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Merkmalen der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate vor der Wiedergabe der aufgezeichneten Sprachmitteilung, die Merkmale basierend auf Jitterzuständen der Sprachrahmenparameter, die für die spezifizierte Sprachmitteilung generiert wurden.
In einer bevorzugten Ausführungsform ist der Eingang, der die Wiedergaberate spezifiziert, vom Benutzer auswählbar, und wird der Eingang, der die aufgezeichnete Sprachmitteilung spezifiziert, von einem interaktiven Sprachausgabesysteme erzeugt. Vorzugsweise enthält das Wiedergabemodul einen Entscheidungsprozessor, der Sprache modifizierende Aktionen basierend auf den Sprachrahmenparametern und der spezifizierten Wiedergaberate unter Verwendung von Entscheidungsregeln aus dem Satz erzeugt, und einen Signalprozessor, der die spezifizierte Sprachmitteilung, die wiederzugeben ist, in Übereinstmmunung mit den Sprache modifizierenden Aktionen modifiziert.
In einer bevorzugten Ausführungsform enthalten die Sprachrahmenparameter scheinbare Periodizitätsperiode P_t, Rahmenenergie E_t und Sprachperiodizität β. Der Entscheidungsprozessor klassifiziert jeden der Sprachrahmenparameter in Entscheidungsregionen und verwendet die klassifizierten Sprachrahmenparameter zur Bestimmung der Zustände von Periodizitätsperioden-Jitter, Energie-Jitter und Periodizitätsstärke-Jitter. Die Sprache modifizierenden Aktionen basieren auf den bestimmten Jitterzuständen.
Es ist außerdem vorzuziehen, dass die Vorrichtung weiterhin ein Merkmalsextraktionsmodul enthält. Das Merkmalsextraktionsmodul erzeugt die Merkmalstabellen basierend auf den aufgezeichneten Sprachmitteilungen. Insbesondere unterteilt das Merkmalsextraktionsmodul während der Erzeugung der einzelnen Merkmalstabellen die assoziierte aufgezeichnete Sprachmitteilung in Sprachrahmen, berechnet die scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität für jeden Sprachrahmen und vergleicht die berechnete scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität mit korrespondierenden Parametern von angrenzenden Sprachrahmen, um die Sprachrahmenparameter zu erhalten.
Nach einem anderen Aspekt der vorliegenden Erfindung wird ein Verfahren bereitgestellt zum Ändern der Wiedergaberate einer aufgezeichneten Sprachmitteilung als Reaktion auf einen vom Benutzer ausgewählten Wiedergaberaten-Befehl, die folgenden Schritte umfassend:
Verwendung eines Satzes von Entscheidungsregeln zum Modifizieren der aufgezeichneten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Jitterzuständen der Sprachrahmenparameter, die für die aufgezeichnete Sprachmitteilung generiert wurden, und dem vom Benutzer ausgewählten Wiedergaberaten-Befehl; und
Wiedergabe der modifizierten aufgezeichneten Sprachmitteilung.
Die vorliegende Erfindung bietet Vorteile darin, dass die Wiedergaberate von aufgezeichneter Sprache geändert werden kann, ohne die Natürlichkeit der aufgezeichneten Sprache wesentlich zu beeinträchtigen. Dies wird erreicht durch Anwendung von akustischen und prosodischen Anhaltspunkten der aufgezeichneten Sprache, die wiedergegeben werden soll, und Verwendung dieser Anhaltspunkte zum Modifizieren der aufgezeichneten Sprache nach einem Satz von durch Wahrnehmung abgeleiteten Entscheidungsregeln basierend auf den Jitterzuständen der Sprachrahmen.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Eine Ausführungsform der vorliegenden Erfindung wird jetzt ausführlicher beschrieben unter Bezugnahme auf die beigefügten Zeichnungen, von denen:
1 ein schematisches Blockdiagramm einer Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache zeigt;
2 Entscheidungsebenen für Rahmenenergie zeigt;
3 Entscheidungsebenen für Periodizitätsstärke-Indikatoren zeigt;
4 Entscheidungsregionen für Rahmenenergie-Jitterzustände zeigt;
5 Entscheidungsregionen für Periodizitätsperioden-Jitterzustände zeigt; und
6 Entscheidungsregionen für Periodizitätsstärke-Jitterzustände zeigt.
AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
Jetzt Bezug nehmend auf 1, wird eine Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache dargestellt und allgemein mit dem Bezugszeichen 10 gekennzeichnet. Wie ersichtlich ist, enthält Vorrichtung 10 ein Wiedergabemodul 12, ein Merkmalsextraktionsmodul 14, Speicher 16, der eine Pluralität von Sprachaufzeichnungen VR₁ bis VR_N speichert, und Speicher 18, der eine Pluralität von Merkmalstabellen FT₁ bis FT_N speichert. Die Sprachaufzeichnungen können beispielsweise Sprachansagen, Sprachpostmitteilungen oder jede andere aufgezeichnete Sprache sein. Jede Merkmalstabelle FT_N ist mit einer entsprechenden einen der in Speicher 16 gespeicherten Sprachaufzeichnungen assoziiert.
Das Wiedergabemodul 12 enthält ein Systembefehlsregister (SCR) 20, ein Benutzerbefehlsregister (UCR) 22, einen Entscheidungsprozessor (DP) 24, einen Signalprozessor (SP) 26 und einen Puffer 28. Der Puffer 28 stellt Ausgang zu einer Sprachausgabevorrichtung 38 bereit, die die aufgezeichnete Sprache wiedergibt. Das Systembefehlsregister 20 empfängt Eingangsbefehle von einem interaktiven Sprachausgabe-(IVR)-System 40 zur Wiedergabe von spezifizierten Sprachaufzeichnungen. Das Benutzerbefehlsregister 22 empfängt eingegebene Benutzerbefehle (UI) 42 zur Anpassung der Wiedergaberate von wiederzugebenden Sprachaufzeichnungen VR_N.
Das Merkmalsextraktionsmodul 14 reagiert auf eingegebene Befehle von dem IVR-System 40 und erzeugt die Merkmalstabellen FT₁ bis FT_N basierend auf den assoziierten Sprachaufzeichnungen VR₁ bis VR_N. Insbesondere teilt das Merkmalsextraktionsmodul 14 für jede Sprachaufzeichnung VR_N die Sprachaufzeichnung auf in Sprachrahmen von fester Länge FL. Jeder Sprachrahmen wird unabhängig analysiert und eine Pluralität von extrahierten Sprachrahmenparametern wird berechnet, nämlich die scheinbare Periodizitätsperiode P_t, die Rahmenenergie E_t und die Sprachperiodizität β. Ein finaler Satz von Sprachrahmenparametern wird dann basierend auf den Jitterzuständen der Sprachrahmen durch Vergleichen der extrahierten Sprachrahmenparameter mit korrespondierenden Sprachrahmenparametern von angrenzenden Sprachrahmen und von der gesamten Sprachaufzeichnung bestimmt. Der finale Satz von Sprachrahmenparametern enthält Periodizitätsperioden-Jitter-, Energie-Jitter- und Periodizitätsstärke-Jitter-Parameter. Der finale Satz von Sprachrahmenparametern wird in der Merkmalstabelle FT_N gespeichert und wird während der Wiedergabe der assoziierten Sprachaufzeichnung VR_N verwendet, wie beschrieben werden wird.
Während der Berechnung der extrahierten Sprachrahmenparameter für jeden Sprachrahmen speichert das Merkmalsextraktionsmodul 14 den Sprachrahmen und vorherige Sprachmuster in einem Puffer, der vorgesehen ist, ungefähr 25 ms Sprache zu halten. Die Sprache wird dann durch einen Tiefpassfilter geleitet, der definiert ist durch die Funktion: H(z) = (1 + z–1)/2 (1)
Das Merkmalsextraktionsmodul 14 ist durch die folgende Funktion definiert:
wobei s(t) ein Muster der ursprünglichen Sprache zur Zeit t ist, k eine Konstante ist und N1 gleich FL/2 ist.
Die scheinbare Periodizitätsperiode P_t ist definiert durch die Funktion: Pt = arg(min(W(k)·s(t,k)) für k von kmin bis kmax (3)
Die ausgewählten Werte der Konstanten kmin und kmax sind abhängig von der Abtastrate, dem Geschlecht des Sprechers und davon, ob Informationen über die Charakteristika der Sprecherstimme im Voraus bekannt sind. Zur Reduzierung der Möglichkeit von Fehlklassifizierung wird die Berechnung zuerst für drei oder vier Sprachaufzeichnungen durchgeführt, und dann werden statistische Werte über den Sprecher erfasst. Anschließend wird ein reduzierter Bereich für kmax und kmin berechnet und verwendet. In dieser Ausführungsform wird der ausgewählte Bereich für eine männliche Ansage als zwischen 40 und 120 Mustern liegend angenommen. Die Gewichtungsfunktion W(k) benachteiligt die Auswahl von Harmonischen als Periodizitätsperiode.
Die Rahmenenergie E_t wird berechnet unter Verwendung der Formel:
Die Sprachperiodizität β wird unter Verwendung von Verfahren berechnet, die Fachleuten gut bekannt sind, wie beispielsweise durch Autokorrelationsanalyse von aufeinander folgenden Sprachrahmen-Mustern.
Die Generierung der Merkmalstabellen FT_N kann offline durchgeführt werden, nachdem die Sprachaufzeichnungen VR_N berechnet wurden, oder alternativ beim Empfang einer neuen Sprachaufzeichnung VR_N.
Wenn ein eingegebener Befehl von dem Systembefehlsregister 20 von dem IVR-System 40 zur Wiedergabe einer spezifizierten Sprachaufzeichnung VR_N empfangen wird, wird die spezifizierte Sprachaufzeichnung VR_N aus dem Speicher 16 abgerufen und zu dem Signalprozessor 26 befördert. Die mit der spezifizierten Sprachaufzeichnung VR_N assoziierte Merkmalstabelle FT_N wird auch bestimmt, und der finale Satz von Sprachrahmenparametern in der Merkmalstabelle FT_N wird zu dem Entscheidungsprozessor 24 befördert. Der Entscheidungsprozessor 24 empfängt auch eingegebene Benutzerbefehle, die die vom Benutzer ausgewählte Wiedergaberate für die spezifizierte Sprachaufzeichnung VR_N angeben, aus dem Benutzerbefehlsregister 22. In dieser besonderen Ausführungsform kann der Benutzer eine von sieben Wiedergaberaten für die spezifizierte Sprachaufzeichnung VR_N auswählen. Die Wiedergaberaten enthalten langsam1, langsam2, langsam3, normal, schnell1, schnell2 und schnell3.
Als Reaktion auf die Sprachrahmenparameter und die vom Benutzer ausgewählte Wiedergaberate verwendet der Entscheidungsprozessor 24 einen Satz von durch Wahrnehmung angesteuerte Entscheidungsregeln, um zu bestimmen, wie die spezifizierte Sprachaufzeichnung VR_N wiederzugeben ist. Jede vom Benutzer auswählbare Wiedergaberate erregt einen anderen Satz von Entscheidungsregeln, der verwendet wird, um den Bedingungszustand der Sprachrahmen nach einem Satz von Entscheidungsregionen zu testen. Wenn ein gegebener Sprachrahmen die Bedingungen erfüllt, die in einem Satz von Entscheidungsregionen dargelegt sind, generiert der Entscheidungsprozessor 24 geeignete Modifizierungsbefehle oder -aktionen und befördert die Modifizierungsbefehle zu dem Signalprozessor 26. Der Signalprozessor 26 wiederum modifiziert die spezifizierte Sprachaufzeichnung VR_N gemäß den Modifizierungsbefehlen, die von dem Entscheidungsprozessor 24 empfangen wurden. Die modifizierte Sprachaufzeichnung VR_N wird dann in dem Puffer 28 akkumuliert. Wenn der Signalprozessor 26 die Verarbeitung der Sprachaufzeichnung VR_N abschließt, sendet der Signalprozessor 26 die modifiziere Sprachaufzeichnung VR_N von dem Puffer 28 zu der Sprachausgabevorrichtung 38 für Wiedergabe mit der von dem Benutzer spezifizieren Rate.
Während des Testens der Sprachrahmen-Zustände wird der Bereich von jedem Sprachrahmenparameter oder jeder Kombination von Sprachrahmenparametern in Regionen aufgeteilt. Der Zustand von jedem Sprachrahmenparameter wird dann bestimmt nach der (den) Region(en), in die der Wert des Sprachrahmenparameters fällt. 2 zeigt die Entscheidungsregionen für die Rahmenenergie E_t. Die Entscheidungsregionen sind bezeichnet mit sehr niedrig (VL), niedrig (L), mittel (M), hoch (H) und sehr hoch (VH). Wenn beispielsweise die Rahmenenergie 0,78 beträgt, ist der Energiezustand (ES) des Sprachrahmens hoch H. Die Rahmenenergie-Entscheidungsregionen basieren auf statistischen Werten, die von allen der Sprachrahmen in der spezifizierten Sprachaufzeichnung erfasst wurden. Gleichermaßen zeigt 3 die Entscheidungsregionen für die Sprachperiodizität β. Die Entscheidungsregionen sind ungleichmäßig und sind mit VL, L, M, H und VH gekennzeichnet. Beispielsweise ist der Periodizitätsstärke-Zustand (PSS) niedrig, wenn die Sprachperiodizität β des Sprachrahmens 0,65 beträgt.
Die Entscheidungsregionen für den Sprachrahmenenergie-Jitterzustand (EJS) sind in 4 dargestellt. Der EJS wird als zunehmend bezeichnet, wenn der Punkt (E_t-E_t-1, E_t+1-E_t) in den Bereich fällt, der durch die Linien 100 und 102 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des EJSs als schnell, langsam oder stetig definiert. Die anderen EJS-Entscheidungsregionen in 4 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der EJS als abnehmend bezeichnet, wenn der Punkt (E_t-E_t-1, E_t+1-E_t) in den Bereich fällt, der durch die Linien 104 und 106 begrenzt wird.
5 zeigt die Entscheidungsregionen für den Periodizitätsperioden-Jitterzustand (PPJS). Der PPJS wird als zunehmend bezeichnet, wenn der Punkt (P_t-P_t-1, P_t+1-P_t) in den Bereich fällt, der durch die Linien 200 und 202 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des PPJSs als schnell, langsam oder stetig definiert. Die anderen PPJS-Entscheidungsregionen in 5 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der PPJS als abnehmend bezeichnet, wenn der Punkt (P_t-P_t-1, P_t+1-P_t) in den Bereich fällt, der durch die Linien 204 und 206 begrenzt wird.
6 zeigt die Entscheidungsregionen für den Periodizitätsstärken-Jitterzustand (PSJS). Der PSJS wird als zunehmend bezeichnet, wenn der Punkt (β_t-β_t-1, β_t+1-β_t) in den Bereich fällt, der durch die Linien 300 und 302 begrenzt wird. Innerhalb dieses Bereichs wird weitere Qualifizierung des PSJSs als schnell, langsam oder stetig definiert. Die anderen PSJS-Entscheidungsregionen in 6 sind ähnlich dargestellt und weiter qualifiziert. Beispielsweise wird der PSJS als abnehmend bezeichnet, wenn der Punkt (β_t-β_t-1, β_t+1-β_t) in den Bereich fällt, der durch die Linien 304 und 306 begrenzt wird.
Bei bekannten Zuständen der Sprachrahmenparameter verwendet der Entscheidungsprozessor 24 die Entscheidungsregeln, die als Reaktion auf die vom Benutzer ausgewählte Wiedergaberate erregt werden, um die geeigneten Modifizierungsbefehle zu generieren. Jede Entscheidungsregel umfasst einen Satz von Bedingungen und einen korrespondierenden Satz von Aktionen. Die Bedingungen definieren, wann die Entscheidungsregel anwendbar ist. Wenn eine Entscheidungsregel als anwendbar angesehen wird, können eine oder mehrere von dieser Entscheidungsregel enthaltenden Aktionen dann ausgeführt werden. Diese Aktionen sind mit den Zuständen der Sprachrahmenparameter assoziiert, die entweder den Satz von Bedingungen, die in der Entscheidungsregel spezifiziert sind, erfüllen oder diesen nicht erfüllen. Der Entscheidungsprozessor 24 testet diese Entscheidungsregeln und implementiert sie in einer einer Vielzahl von Weisen wie beispielsweise einfache Wenn-Dann-Befehle, neuronale Netze oder unscharfe Logik.
Die folgende Schreibweise beschreibt eine Entscheidungsregel:
Rule_ID {Bedingungen}{Aktionen}{wenn Beschränkung(en)}
Oder wenn {Bedingung} dann {Aktionen} sonst {Aktionen} wenn {Beschränkung Der Bezeichner, rule_id, ist eine Kennzeichnung, die für Bezugnahme auf die Entscheidungsregel verwendet wird.
Bedingungen spezifizieren die Ereignisse, die die Obligation aktivieren.
Beschränkung begrenzt die Anwendbarkeit einer Entscheidungsregel, z. B. auf eine bestimmte Zeitperiode, oder macht sie nach einem bestimmten Datum gültig, um die Anwendbarkeit von sowohl Autorisierungs- als auch Obligationsentscheidungen basierend auf Zeit oder Werten von Attributen der Sprachrahmen zu begrenzen.
Anhang A enthält einen beispielhaften Satz von Entscheidungsregeln, die von dem Entscheidungsprozessor 24 verwendet werden, um die Modifizierungsbefehle basierend auf der vom Benutzer ausgewählten Wiedergaberate und den Zuständen der Sprachrahmenparameter zu generieren.
Wie für Fachleute ersichtlich ist, können, obwohl ein bestimmter Satz von Entscheidungsregeln offenbart wurde, andere verfeinerte Entscheidungsregeln in den Satz aufgenommen werden, die andere Fälle von Jitterzuständen abdecken. Beispielsweise kann der Satz von Entscheidungsregeln auch Entscheidungsregeln enthalten, die Quasi-Periodizität mit langsamen oder schnellen Periodizitäts-Jittern, Phonemübergänge, zunehmende/abnehmende Periodizitäts-Jitter sowie andere Jitterzustände abdecken.
Die Entscheidungsregeln können auf einfache Weise unter Verwendung eines neuronalen Netzes oder unscharfer Logikmodellierung implementiert werden. Andere mathematische Modellierungstechniken wie statistische dynamische Modellierung oder Cluster- und Mustervergleich-Modellierung können auch verwendet werden.
Obwohl eine bevorzugte Ausführungsform der vorliegenden Erfindung beschrieben wurde, ist für Fachleute ersichtlich, dass Variationen und Modifikationen vorgenommen werden können, ohne das Wesen und den Rahmen davon zu verlassen, wie durch die beigefügten Patentansprüche definiert.
ANHANG A
Langsam1
R-S1.1

Den aktuellen Rahmen in den Puffer kopieren.

R-S1.2

Wenn {(PSI ist VH} UND (E ist H) UND (PJS ist STETIG) UND (EJS ist STETIG) UND (PSJS ist STETIG)}
Dann {1- Die letzten P_t Muster kopieren.
Hinter dem aktuellen Rahmen einfügen.}

Langsam2
R-S2.1
Den aktuellen Rahmen in den Puffer kopieren.
R-S2.2

Wenn {(PSI ist VH) UND (E ist H) UND (PPJS ist STETIG) UND (EJS ist STETIG) UND (PSJS ist STETIG)}
Dann {1- Die letzten P_t Muster kopieren.
Die zwei (P_t Muster) hinter dem aktuellen Rahmen einfügen.}

R-S2.3

Wenn {(PSI ist H) UND (E ist M) UND (PPJS ist STETIG)}
Dann {1- Die letzten P_t Muster kopieren.
Seine Energie auf den normalisierten Durchschnitt von E_t und E_t+1 skalieren. Hinter dem aktuellen Rahmen einfügen.}
Diese Aktion kann nur einmal für jede zwei aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-S2.4

Wenn (PSI ist VH) UND (E ist H) UND (PPJS ist ZUNEHMEND oder ABNEHMEND) UND (EJS ist STETIG)}
DANN {1- Die letzten (P_t + P_t+1)/2 Muster kopieren.
Hinter dem aktuellen Rahmen einfügen.}
Diese Aktion kann nur einmal für jede 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

Langsam3

R-S3.1 bis R-S3.3 sind gleich wie jeweils R-S2.1 bis R-S2.3

R-S3.4

Wenn {(PSI ist VH oder H) UND (E ist H) UND (PPJS ist ZUNEHMEND oder ABNEHMEND) UND (EJS ist STETIG)}
DANN {1- Die letzten (P_t + P_t+1)/2 Muster kopieren.
Hinter dem aktuellen Rahmen einfügen.}
Diese Aktion kann nur einmal für jede 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-S3.5

Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann {
Den letzten Unterrahmen kopieren.
Seine Energie auf den normalisierten Durchschnitt von E_t und E_t+1 skalieren.
Hinter dem aktuellen Rahmen einfügen.}

R-S3.6

Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
DANN {1- Die letzten FL/2 Muster kopieren. 2- Seine Energie auf den normalisierten Durchschnitt von E_t und E_t+1 skalieren. 3- Hinter dem aktuellen Rahmen einfügen.}
Diese Aktion kann nur für bis zu 15 aufeinander folgende Rahmen ausgeführt werden.

R-S3.7

Wenn {(PSI ist VH oder H) UND (PPJS ist STETIG) UND (EJS ist ABNEHMEND)}
Dann {1- Die letzten P_t Muster kopieren. 2- Seine Energie auf den normalisierten Durchschnitt von E_t und E_t+1 skalieren. 3- Hinter dem aktuellen Rahmen einfügen.}
Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

Schnell1
R-F1.1

Wenn {(PSI ist VL) UND (E ist VH) UND (PSJS ist JITTER) UND (EJS ist JITTER) UND (PPJS ist JITTER)
Dann {Diesen Rahmen wegfallen lassen.}

R-F1.2

Wenn {(PSI ist VH) UND (E ist H) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 4 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F1.3

Wenn {(PSI ist VH) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprunglichen Sprache ausgeführt werden.

R-F1.4

Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann {Den letzten Unterrahmen wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur für bis zu 20 aufeinander folgende Rahmen ausgeführt werden.
Wenn die in dieser Regel angegebenen Zustände (nach 20 aufeinander folgenden Rahmen) noch bestehen, den gesamten Rahmen wegfallen lassen.

R-F1.5

Wenn {keine der obigen Regeln angewandt werden} Dann {Den Rahmen unverändert in den Ausgangspuffer kopieren}

Schnell2
R-F2.1

Gleich wie R-F1.1

R-F2.2

Wenn {(PSI ist VH oder H) UND (E ist H) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F2.3

Wenn {(PSI ist VH oder H) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F2.4

Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur für bis zu 20 aufeinander folgende Rahmen ausgeführt werden.
Wenn die in dieser Regel angegebenen Zustände noch bestehen, den gesamten Rahmen wegfallen lassen.

R-F2.5

Wenn {(PSI ist H oder M) UND (E ist M) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist STETIG)
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F2.6

Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann Den letzten Unterrahmen wegfallen lassen; den Rest des Rahmens erhalten.}

R-F2.7

Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (EJS ist STETIG) UND (PPJS ist LANGSAM ZUNEHMEND ODER LANGSAM ABNEHMEND)}
Dann {1- Die letzten (P_t + P_t-1)/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal für alle 3 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F2.8

Wenn {keine der obigen Regeln angewandt wird} Dann {Den Rahmen unverändert in den Ausgangspuffer kopieren}

Schnell3
R-F3.1

ist gleich wie R-F2.1

R-F3.2

ist gleich wie R-F2.2

R-F3.3

Wenn {(PSI ist VH oder H) UND (E ist M oder L) UND (PSJS ist STETIG) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}

R-F3.4

Wenn {(PSI ist VL) UND (E ist VL) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur für bis zu 10 aufeinander folgende Rahmen ausgeführt werden.
Wenn die in dieser Regel angegebenen Zustände noch bestehen, den gesamten Rahmen wegfallen lassen.

R-F3.5

Wenn {(PSI ist H oder M) UND (E ist M) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist STETIG)}
Dann {Die letzten P_t Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F3.6

Wenn {(PSI ist VL) UND (E ist L) UND (PSJS ist JITTER) UND (EJS ist STETIG) UND (PPJS ist JITTER)}
Dann {Die letzten FL/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}

R-F3.7

Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (EJS ist STETIG) UND (PPJS ist LANGSAM ZUNEHMEND ODER LANGSAM ABNEHMEND)}
Dann {1- Die letzten (P_t + P_t-1)/2 Muster wegfallen lassen; den Rest des Rahmens erhalten.}
Diese Aktion kann nur einmal für alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F3.8

Wenn {(PSI ist VH oder H) UND (E ist H oder M) UND (PSJS ist NICHT JITTER) UND (EJS ist LANGSAM-ABNEHMEND) UND (PPJS ist STETIG)}
Dann {Die letzten (P_t + P_t-1)/2 Muster wegfallen lassen; Den Rest des Rahmens erhalten. Die Energie des ersten Untenahmens von F_t+1 auf (E_t+1 + E_t)/2 setzen. Die Grenzmuster der Rahmen glätten.}
Diese Aktion kann nur eimnal für alle 2 aufeinander folgende Rahmen der ursprünglichen Sprache ausgeführt werden.

R-F3.9

Claims

Vorrichtung zum Ändern der Wiedergaberate von aufgezeichneter Sprache, umfassend: Speicher, der mindestens eine aufgezeichnete Sprachmitteilung speichert; und ein Wiedergabemodul, Eingang empfangend, der eine aufgezeichnete Sprachmitteilung in dem Speicher, die wiedergegeben werden soll, und die Rate, mit der die spezifizierte Sprachmitteilung wiedergegeben werden soll, spezifiziert, das Wiedergabemodul einen Satz von Entscheidungsregeln verwendend zur Modifizierung der spezifizierten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Merkmalen der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate vor der Wiedergabe der aufgezeichneten Sprachmitteilung, die Merkmale basierend auf Jitterzuständen der Sprachrahmenparameter, die für die spezifizierte Sprachmitteilung generiert wurden.
Vorrichtung nach Anspruch 1, wobei der Eingang, der die Wiedergaberate spezifiziert, vom Benutzer auswählbar ist.
Vorrichtung nach Anspruch 2, wobei der Eingang, der die aufgezeichnete Sprachmitteilung spezifiziert, von einem interaktiven Sprachausgabesystem generiert wird.
Vorrichtung nach einem der Ansprüche 1 bis 3, wobei das Wiedergabemodul umfasst: einen Entscheidungsprozessor, der Sprache modifizierende Aktionen basierend auf Sprachrahmenparameter der spezifizierten Sprachmitteilung und der spezifizierten Wiedergaberate unter Verwendung von Entscheidungsregeln aus dem Satz generiert; und einen Signalprozessor, der die spezifizierte Sprachmitteilung gemäß den Sprache modifizierenden Aktionen modifiziert.
Vorrichtung nach Anspruch 4, wobei die Sprachrahmenparameter scheinbare Periodizitätsperiode P_t, Rahmenenergie E_t und Sprachperiodizität β enthalten.
Vorrichtung nach Anspruch 5, wobei der Entscheidungsprozessor jeden der Sprachrahmenparameter in Entscheidungsregionen klassifiziert und die klassifizierten Sprachrahmenparameter verwendet, um die Zustände von Periodizitätsperioden-Jitter, den Energie-Jitter und Periodizitätsstärke-Jitter zu bestimmen, wobei die Sprache modifizierenden Aktionen auf den bestimmten Jitterzuständen basieren.
Vorrichtung nach Anspruch 6, wobei die Entscheidungsregionen unscharfe Regionen sind, die bestimmten Zustände unter Verwendung von unscharfer Logik durch den Entscheidungsprozessor identifiziert werden und die Sprache modifizierenden Aktionen unter Verwendung von unscharfen Regeln von dem Entscheidungsprozessor generiert werden.
Vorrichtung nach Anspruch 6, wobei die Entscheidungsregionen unter Verwendung eines neuronalen Netzes, das Eingangsneuronen und Ausgangsneuronen aufweist, aufgeteilt werden und wobei die Sprachrahmenparameter mit Eingangsneuronen des neuronalen Netzes verbunden sind, die Sprache modifizierenden Aktionen durch die Ausgangsneuronen des neuronalen Netzes bestimmt werden.
Vorrichtung nach einem der Ansprüche 1 bis 8, wobei der Speicher eine Pluralität von aufgezeichneten Sprachmitteilungen und eine Pluralität von Merkmalstabellen speichert, jede Merkmalstabelle mit einer individuellen einen der Sprachmitteilungen assoziiert ist und Sprachrahmenparameter basierend auf den Jitterzuständen von Sprachrahmen der assoziierten Sprachmitteilung enthält.
Vorrichtung nach Anspruch 9, wobei die Vorrichtung weiter ein Merkmalsextraktionsmodul enthält, das Merkmalsextraktionsmodul die Merkmalstabellen basierend auf den aufgezeichneten Sprachmitteilungen erzeugt.
Vorrichtung nach Anspruch 10, wobei das Merkmalsextraktionsmodul auf ein interaktives Sprachausgabesystem reagiert.
Vorrichtung nach Anspruch 10 oder 11, wobei das Merkmalsextraktionsmodul während der Erzeugung jeder Merkmalstabelle die assoziierte aufgezeichnete Sprachmiteilung in Sprachrahmen aufteilt, die scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität für jeden Sprachrahmen berechnet und die berechnete scheinbare Periodizitätsperiode, die Rahmenenergie und die Sprachperiodizität mit korrespondierenden Parametern von angrenzenden Sprachrahmen vergleicht, um die Sprachrahmenparameter hervorzubringen.
Verfahren zum Ändern der Wiedergaberate einer aufgezeichneten Sprachmitteilung als Reaktion auf einen vom Benutzer ausgewählten Wiedergaberaten-Befehl, die folgenden Schritte umfassend: Verwendung eines Satzes von Entscheidungsregeln zur Modifizierung der aufgezeichneten Sprachmitteilung, die wiedergegeben werden soll, basierend auf Jitterzuständen von Sprachrahmenparametern, die für die aufgezeichnete Sprachmitteilung generiert wurden, und dem vom Benutzer ausgewählten Wiedergaberaten-Befehl; und Wiedergabe der modifizierten aufgezeichneten Sprachmitteilung.