DE10309834A1

DE10309834A1 - Verfahren zur Wiedergabe gesprochener Informationen

Info

Publication number: DE10309834A1
Application number: DE2003109834
Authority: DE
Inventors: Gerald Dipl.-Ing. Bieber; Holger Dipl.-Math. Diener; Mathias Dipl.-Math. Mainka; Korten Dipl.-Ing. Malte (FH)
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2003-03-05
Filing date: 2003-03-05
Publication date: 2004-09-16
Also published as: WO2004079721A1

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen. Um für eine bessere Verständlichkeit oder Aufnehmbarkeit zu sorgen, werden bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht oder die Messsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Feststellung der Erfüllung des vorgegebenen Messsignalkriteriums wird automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird. Beispielsweise können die vorgegebenen Sprachmerkmale ein Satz von Schlüsselwörtern sein, z. B. die Zahlen von 1 bis 100, so dass bei Auftreten einer Zahl diese verlangsamt, z. B. von einem Anrufbeantworter, wiedergegeben wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen.
Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen und wiederzugeben sind, werden in vielen Bereichen angewendet, beispielsweise in Telefonen, Diktiergeräten, Anrufbeantwortern, bei Mailboxen von Mobiltelefonen, in Hörgeräten etc.. Ein häufig auftretendes Problem besteht darin, dass bestimmte Passagen für den Hörer nur schwer verständlich sind oder der Hörer die Informationen nicht schnell genug aufnehmen kann, beispielsweise wenn die gesprochene Nachricht eine Folge von Zahlen, z.B. eine Telefonnummer enthält, die der Hörer sich merken oder notieren müsste.
Es ist ferner bekannt, dass Audiodaten durch eine Zeitskalenmodifikation manipuliert werden können, die eine verlangsamte oder beschleunigte Wiedergabe der Daten unter Beibehaltung der Tonhöhe bewirken können. Solche Zeitskalenmodifikationen arbeiten mit einer Übertragung der Tonsignale aus dem Zeitbereich in den Frequenzbereich und benutzen eine sogenannte Schnelle-Fourier-Transformation (Fast Fourier Transform). Alternativ zur Transformation von Tönen in den Frequenzbereich können Töne direkt im Zeitbereich durch die Tondauermodifikation verändert werden. Ein grundlegender Artikel für derartige Verfahren ist beispielsweise der Artikel "Phase Vocoder", von J.L. Flanagan und R.M. Golden, The Bell System Technical Journal, November 1966, Seiten 1394 bis 1509. Verbesserungen derartiger Verfahren sind in der Folge in vielfältiger Weise vorgenommen worden, Beispiele sind "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", von Jean Laroche and Mark Dolson, Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999, Seiten 91 bis 94, und "Computationally Efficient Algorithm for Time Scale Modification" von S. Yim und B.I. Pawate, IEEE International Conference on Acoustics, Speech and Signal Processing, 7. – 10. Mai, Atlanta, Georgia. Die darin und in vielen anderen Veröffentlichungen beschriebenen Verfahren zur Zeitskalenmodifikation von Tonsignalen unter Beibehaltung der Tonhöhe werden im Folgenden nicht näher beschrieben und bezüglich weiterer Einzelheiten wird auf die genannten Artikel verwiesen.
Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zur Wiedergabe von gesprochenen Informationen anzugeben, mit dem der Inhalt der gesprochenen Informationen für den Hörer besser erfassbar und aufnehmbar ist.
Zur Lösung dieser Aufgabe dienen die Merkmale des Patentanspruchs 1. Vorteilhafte Ausführungsformen der Erfindung sind in den Unteransprüchen angegeben.
Gemäß der vorliegenden Erfindung werden die wiederzugebenden Tonsignale durch eine Spracherkennung automatisch untersucht und nach vorgegebenen Sprachmerkmalen abgesucht oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder der Feststellung, dass das vorgegebene Kriterium des Meßsignals erfüllt ist, wird die Wiedergabe der gesprochenen Information verlangsamt, indem eine Zeitskalenmodifikation unter Anwendung der Schnellen-Fourier-Transformation oder Tondauermodifikation durchgeführt wird, so dass die Wiedergabe der gesprochenen Information verlangsamt ist, aber bei im Wesentlichen unveränderter Tonhöhe erfolgt .
Die vorgegebenen Sprachmerkmale können z.B. ein Satz von Schlüsselwörtern sein, z.B. die Zahlen von 1 bis 100. Wird ein solches Schlüsselwort, also z.B. eine Zahl, etwa eine Telefonnummer, in dem Tonsignal erfasst, wird automatisch eine Zeitskalenmodifikation durchgeführt, so dass die Schlüsselwörter verlangsamt, bei gleicher Tonhöhe wiedergegeben werden.
Beispielsweise kann in dem Fall, dass die Schlüsselwörter gesprochene Zahlen sind, bei einem Anrufbeantworter oder der Mailbox eines Mobiltelefons die Wiedergabe einer aufgezeichneten gesprochenen Nachricht bei Auftreten von Zahlen, z.B. Telefonnummern, in der Nachricht automatisch verlangsamt erfolgen, so dass der Hörer die Zahlen besser aufnehmen oder einfacher notieren kann. Die für die Spracherkennung und Zeitskalenmodifikation notwendigen Datenverarbeitungsschritte bezüglich der Tonsignale können in einem speziell dafür vorbereiteten Prozessor, der beispielsweise in das Mobiltelefon oder in den Anrufbeantworter integriert ist, vorgenommen werden. Bei Anwendungen, in denen die gesprochenen Informationen in Echtzeit eingehen und mit dem erfindungsgemäßen Verfahren behandelt werden sollen, muß auch ein Pufferspeicher vorhanden sein, der Teile der eingehenden gesprochenen Informationen aufnehmen kann, während Passagen der gesprochenen Information verlangsamt wiedergegeben werden.
Eine weitere Ausführungsform, die insbesondere z.B. bei Diktiergeräten Anwendung finden kann, benutzt als Sprachmerkmale vor gegebene Schlüsselwörter, die von dem Sprecher als Markierungen in der gesprochenen Information gesetzt werden können, um zwischen zwei Markierungen eine verlangsamte Wiedergabe der gesprochenen Information zu bewirken.
In einer weiteren Ausführungsform kann als vorgegebenes Sprachmerkmal das Überschreiten einer vorgegebenen Sprechgeschwindigkeit verwendet werden, wobei die Sprechgeschwindigkeit als die Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird. Damit kann automatisch eine verlangsamte Wiedergabe der gesprochenen Informationen bewirkt werden, solange die gesprochene Information eine Sprechgeschwindigkeit über einem vorgegebenen Grenzwert hat, und so für eine leichter verständliche Wiedergabe, beispielsweise durch ein Diktiergerät, einen Anrufbeantworter, ein Telefon oder ein Hörgerät gesorgt werden.
Als weiteres vorgegebenes Sprachmerkmal kann die sogenannte Sprachenergie verwendet werden, die als Summe über die Amplitudenquadrate der Tonsignale (bzw. als Integral über die Amplitudenquadrate im Fall eines kontinuierlichen Analogsignals) über ein vorgegebenes Zeitintervall bestimmt wird, wobei das vorgegebene Sprachmerkmal erfüllt ist, wenn die Sprachenergie über einem vorgegebenen Grenzwert liegt.
Gemäß einer alternativen Ausführungsform wird das Messsignal wenigstens eines Sensors für einen Zustandsparameter auf die Erfüllung eines vorgegebenen Kriteriums überwacht und bei Vorliegen des vorgegebenen Kriteriums wird automatisch eine verlangsamte Wiedergabe der gesprochenen Information bei unveränderter Tonhöhe durchgeführt. Ein Beispiel dafür ist ein Navigationssystem in einem Kraftfahrzeug, das dem Fahrer verbale Anweisungen gibt. Sensoren können Zustandsparameter erfassen, die schwierige Fahrsituationen signalisieren. Beispielsweise könnte die Fahrzeuggeschwindigkeit erfasst und bei hohen Geschwindigkeiten, wenn der Fahrer durch die Fahrsituation sehr konzentriert sein muss, eine Verlangsamung der Wiedergabe der gespro chenen Informationen bewirkt werden. Andere beispielhafte Zustandsparameter in diesem Anwendungszusammenhang sind der Lautstärkepegel durch Umgebungsgeräusche, Beschleunigungswerte (bei Bremsmanövern, Kurvenfahrten oder Beschleunigung), Umgebungstemperatur, Witterungsbedingungen (erfasst z.B. durch Regensensoren) etc..
Weitere mögliche Ausführungsformen können die Erfassung von Zustandsparametern des Hörers umfassen, beispielsweise die Erfassung von Messsignalen, die physiologische Parameter des Hörers repräsentieren, wie etwa Herzschlag, Hautwiderstand oder dergleichen. Die Erfassung von physiologischen Zustandsparametern und die Überprüfung auf Vorliegen eines vorgegebenen Kriteriums zur Auslösung der verlangsamten Wiedergabe der gesprochenen Information kann zum Beispiel bei computergesteuerten Lernprogrammen sinnvoll sein, um unter vorgegebenen Bedingungen eine verlangsamte Wiedergabe der gesprochenen Informationen zu bewirken.
In den Zeichnungen zeigen
1: die Tonsignale einer gesprochenen Information, und
2: die Tonsignale der gesprochenen Information aus 1 nach Zeitskalenmodifikation eines Schlüsselwortes.
In 1 ist ein Tonsignal (in Prozent auf der Ordinatenachse) einer gesprochenen Information als Funktion der Zeit beispielhaft dargestellt, das gemäß einer Ausführungsform des vorliegenden Verfahrens auf Schlüsselwörter untersucht wird. Das markierte Intervall wurde als ein vorgegebenes Schlüsselwort erkannt.
Das erkannte Schlüsselwort wurde dann einer Zeitskalenmodifikation unterzogen und um einen Faktor 2 verlangsamt, bei im Wesentlichen unveränderter Tonhöhe wiedergegeben. Das entsprechend zeitskalenmodifizierte Tonsignal mit zweifach verlangsamten Schlüsselwort ist in 2 dargestellt.

Claims

Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen, wobei bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht werden oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameters automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht werden, und bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Festellung der Erfüllung des vorgegebenen Meßsignalkriteriums automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt wird, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird.
Verfahren nach Anspruch 1, bei dem als Sprachmerkmale ein Satz von vorgegebenen Schlüsselwörtern verwendet wird, nach denen die Tonsignale der gesprochenen Informationen abgesucht werden und bei deren Auftreten das Schlüsselwort selbst die verlangsamte Wiedergabe der gesprochenen Informationen ausgelöst wird.
Verfahren nach Anspruch 2, bei dem als Schlüsselwörter Zahlen verwendet werden.
Verfahren nach Anspruch 2 oder 3, bei dem nur das Schlüsselwort selbst verlangsamt wiedergegeben wird.
Verfahren nach Anspruch 2, bei dem die gesprochene Information für eine vorgegebene Zeitdauer nach Auslösung der verlangsamten Wiedergabe verlangsamt wiedergegeben wird.
Verfahren nach Anspruch 5, bei dem die gesprochene Information nach Auslösung der verlangsamten Wiedergabe bis zur Erfassung eines weiteren Schlüsselwortes verlangsamt wiedergegeben wird.
Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprechgeschwindigkeit, die als Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechgeschwindigkeit über einem vorgegebenen Grenzwert liegt.
Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprachenergie, die als Summe (Integral) über die Amplitudenquadrate der Tonsignale über ein vorgegebenes Zeitintervall bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechenergie über einem vorgegebenen Grenzwert liegt.
Verfahren nach einem der vorhergehenden Ansprüche, bei dem die gesprochene Information durch ein Telephon wiedergegeben wird.
Verfahren nach Anspruch 9, bei dem die gesprochene Information von einer Mailbox eines Mobiltelephons abgerufen und durch das Mobiltelephon wiedergegeben wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information von einem Anrufbeantworter gespeicherte Nachricht ist, die von dem Anrufbeantworter wiedergegeben wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Hörgerät wiedergegeben wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein automatisches Fahrzeug-Navigationsgerät wiedergegen wird.
Verfahren nach Anspruch 13, bei als Meßsignal ein die Fahrsituation repräsentierender Parameter überwacht wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch einen Walkman wiedergegen wird.
Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Diktiergerät wiedergegen wird.