DE10309834A1 - Verfahren zur Wiedergabe gesprochener Informationen - Google Patents

Verfahren zur Wiedergabe gesprochener Informationen Download PDF

Info

Publication number
DE10309834A1
DE10309834A1 DE2003109834 DE10309834A DE10309834A1 DE 10309834 A1 DE10309834 A1 DE 10309834A1 DE 2003109834 DE2003109834 DE 2003109834 DE 10309834 A DE10309834 A DE 10309834A DE 10309834 A1 DE10309834 A1 DE 10309834A1
Authority
DE
Germany
Prior art keywords
spoken information
predetermined
spoken
speech
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE2003109834
Other languages
English (en)
Inventor
Gerald Dipl.-Ing. Bieber
Holger Dipl.-Math. Diener
Mathias Dipl.-Math. Mainka
Korten Dipl.-Ing. Malte (FH)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to DE2003109834 priority Critical patent/DE10309834A1/de
Priority to PCT/EP2004/002202 priority patent/WO2004079721A1/de
Publication of DE10309834A1 publication Critical patent/DE10309834A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen. Um für eine bessere Verständlichkeit oder Aufnehmbarkeit zu sorgen, werden bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht oder die Messsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Feststellung der Erfüllung des vorgegebenen Messsignalkriteriums wird automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird. Beispielsweise können die vorgegebenen Sprachmerkmale ein Satz von Schlüsselwörtern sein, z. B. die Zahlen von 1 bis 100, so dass bei Auftreten einer Zahl diese verlangsamt, z. B. von einem Anrufbeantworter, wiedergegeben wird.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen.
  • Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen und wiederzugeben sind, werden in vielen Bereichen angewendet, beispielsweise in Telefonen, Diktiergeräten, Anrufbeantwortern, bei Mailboxen von Mobiltelefonen, in Hörgeräten etc.. Ein häufig auftretendes Problem besteht darin, dass bestimmte Passagen für den Hörer nur schwer verständlich sind oder der Hörer die Informationen nicht schnell genug aufnehmen kann, beispielsweise wenn die gesprochene Nachricht eine Folge von Zahlen, z.B. eine Telefonnummer enthält, die der Hörer sich merken oder notieren müsste.
  • Es ist ferner bekannt, dass Audiodaten durch eine Zeitskalenmodifikation manipuliert werden können, die eine verlangsamte oder beschleunigte Wiedergabe der Daten unter Beibehaltung der Tonhöhe bewirken können. Solche Zeitskalenmodifikationen arbeiten mit einer Übertragung der Tonsignale aus dem Zeitbereich in den Frequenzbereich und benutzen eine sogenannte Schnelle-Fourier-Transformation (Fast Fourier Transform). Alternativ zur Transformation von Tönen in den Frequenzbereich können Töne direkt im Zeitbereich durch die Tondauermodifikation verändert werden. Ein grundlegender Artikel für derartige Verfahren ist beispielsweise der Artikel "Phase Vocoder", von J.L. Flanagan und R.M. Golden, The Bell System Technical Journal, November 1966, Seiten 1394 bis 1509. Verbesserungen derartiger Verfahren sind in der Folge in vielfältiger Weise vorgenommen worden, Beispiele sind "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", von Jean Laroche and Mark Dolson, Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999, Seiten 91 bis 94, und "Computationally Efficient Algorithm for Time Scale Modification" von S. Yim und B.I. Pawate, IEEE International Conference on Acoustics, Speech and Signal Processing, 7. – 10. Mai, Atlanta, Georgia. Die darin und in vielen anderen Veröffentlichungen beschriebenen Verfahren zur Zeitskalenmodifikation von Tonsignalen unter Beibehaltung der Tonhöhe werden im Folgenden nicht näher beschrieben und bezüglich weiterer Einzelheiten wird auf die genannten Artikel verwiesen.
  • Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zur Wiedergabe von gesprochenen Informationen anzugeben, mit dem der Inhalt der gesprochenen Informationen für den Hörer besser erfassbar und aufnehmbar ist.
  • Zur Lösung dieser Aufgabe dienen die Merkmale des Patentanspruchs 1. Vorteilhafte Ausführungsformen der Erfindung sind in den Unteransprüchen angegeben.
  • Gemäß der vorliegenden Erfindung werden die wiederzugebenden Tonsignale durch eine Spracherkennung automatisch untersucht und nach vorgegebenen Sprachmerkmalen abgesucht oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder der Feststellung, dass das vorgegebene Kriterium des Meßsignals erfüllt ist, wird die Wiedergabe der gesprochenen Information verlangsamt, indem eine Zeitskalenmodifikation unter Anwendung der Schnellen-Fourier-Transformation oder Tondauermodifikation durchgeführt wird, so dass die Wiedergabe der gesprochenen Information verlangsamt ist, aber bei im Wesentlichen unveränderter Tonhöhe erfolgt .
  • Die vorgegebenen Sprachmerkmale können z.B. ein Satz von Schlüsselwörtern sein, z.B. die Zahlen von 1 bis 100. Wird ein solches Schlüsselwort, also z.B. eine Zahl, etwa eine Telefonnummer, in dem Tonsignal erfasst, wird automatisch eine Zeitskalenmodifikation durchgeführt, so dass die Schlüsselwörter verlangsamt, bei gleicher Tonhöhe wiedergegeben werden.
  • Beispielsweise kann in dem Fall, dass die Schlüsselwörter gesprochene Zahlen sind, bei einem Anrufbeantworter oder der Mailbox eines Mobiltelefons die Wiedergabe einer aufgezeichneten gesprochenen Nachricht bei Auftreten von Zahlen, z.B. Telefonnummern, in der Nachricht automatisch verlangsamt erfolgen, so dass der Hörer die Zahlen besser aufnehmen oder einfacher notieren kann. Die für die Spracherkennung und Zeitskalenmodifikation notwendigen Datenverarbeitungsschritte bezüglich der Tonsignale können in einem speziell dafür vorbereiteten Prozessor, der beispielsweise in das Mobiltelefon oder in den Anrufbeantworter integriert ist, vorgenommen werden. Bei Anwendungen, in denen die gesprochenen Informationen in Echtzeit eingehen und mit dem erfindungsgemäßen Verfahren behandelt werden sollen, muß auch ein Pufferspeicher vorhanden sein, der Teile der eingehenden gesprochenen Informationen aufnehmen kann, während Passagen der gesprochenen Information verlangsamt wiedergegeben werden.
  • Eine weitere Ausführungsform, die insbesondere z.B. bei Diktiergeräten Anwendung finden kann, benutzt als Sprachmerkmale vor gegebene Schlüsselwörter, die von dem Sprecher als Markierungen in der gesprochenen Information gesetzt werden können, um zwischen zwei Markierungen eine verlangsamte Wiedergabe der gesprochenen Information zu bewirken.
  • In einer weiteren Ausführungsform kann als vorgegebenes Sprachmerkmal das Überschreiten einer vorgegebenen Sprechgeschwindigkeit verwendet werden, wobei die Sprechgeschwindigkeit als die Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird. Damit kann automatisch eine verlangsamte Wiedergabe der gesprochenen Informationen bewirkt werden, solange die gesprochene Information eine Sprechgeschwindigkeit über einem vorgegebenen Grenzwert hat, und so für eine leichter verständliche Wiedergabe, beispielsweise durch ein Diktiergerät, einen Anrufbeantworter, ein Telefon oder ein Hörgerät gesorgt werden.
  • Als weiteres vorgegebenes Sprachmerkmal kann die sogenannte Sprachenergie verwendet werden, die als Summe über die Amplitudenquadrate der Tonsignale (bzw. als Integral über die Amplitudenquadrate im Fall eines kontinuierlichen Analogsignals) über ein vorgegebenes Zeitintervall bestimmt wird, wobei das vorgegebene Sprachmerkmal erfüllt ist, wenn die Sprachenergie über einem vorgegebenen Grenzwert liegt.
  • Gemäß einer alternativen Ausführungsform wird das Messsignal wenigstens eines Sensors für einen Zustandsparameter auf die Erfüllung eines vorgegebenen Kriteriums überwacht und bei Vorliegen des vorgegebenen Kriteriums wird automatisch eine verlangsamte Wiedergabe der gesprochenen Information bei unveränderter Tonhöhe durchgeführt. Ein Beispiel dafür ist ein Navigationssystem in einem Kraftfahrzeug, das dem Fahrer verbale Anweisungen gibt. Sensoren können Zustandsparameter erfassen, die schwierige Fahrsituationen signalisieren. Beispielsweise könnte die Fahrzeuggeschwindigkeit erfasst und bei hohen Geschwindigkeiten, wenn der Fahrer durch die Fahrsituation sehr konzentriert sein muss, eine Verlangsamung der Wiedergabe der gespro chenen Informationen bewirkt werden. Andere beispielhafte Zustandsparameter in diesem Anwendungszusammenhang sind der Lautstärkepegel durch Umgebungsgeräusche, Beschleunigungswerte (bei Bremsmanövern, Kurvenfahrten oder Beschleunigung), Umgebungstemperatur, Witterungsbedingungen (erfasst z.B. durch Regensensoren) etc..
  • Weitere mögliche Ausführungsformen können die Erfassung von Zustandsparametern des Hörers umfassen, beispielsweise die Erfassung von Messsignalen, die physiologische Parameter des Hörers repräsentieren, wie etwa Herzschlag, Hautwiderstand oder dergleichen. Die Erfassung von physiologischen Zustandsparametern und die Überprüfung auf Vorliegen eines vorgegebenen Kriteriums zur Auslösung der verlangsamten Wiedergabe der gesprochenen Information kann zum Beispiel bei computergesteuerten Lernprogrammen sinnvoll sein, um unter vorgegebenen Bedingungen eine verlangsamte Wiedergabe der gesprochenen Informationen zu bewirken.
  • In den Zeichnungen zeigen
  • 1: die Tonsignale einer gesprochenen Information, und
  • 2: die Tonsignale der gesprochenen Information aus 1 nach Zeitskalenmodifikation eines Schlüsselwortes.
  • In 1 ist ein Tonsignal (in Prozent auf der Ordinatenachse) einer gesprochenen Information als Funktion der Zeit beispielhaft dargestellt, das gemäß einer Ausführungsform des vorliegenden Verfahrens auf Schlüsselwörter untersucht wird. Das markierte Intervall wurde als ein vorgegebenes Schlüsselwort erkannt.
  • Das erkannte Schlüsselwort wurde dann einer Zeitskalenmodifikation unterzogen und um einen Faktor 2 verlangsamt, bei im Wesentlichen unveränderter Tonhöhe wiedergegeben. Das entsprechend zeitskalenmodifizierte Tonsignal mit zweifach verlangsamten Schlüsselwort ist in 2 dargestellt.

Claims (16)

  1. Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen, wobei bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht werden oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameters automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht werden, und bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Festellung der Erfüllung des vorgegebenen Meßsignalkriteriums automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt wird, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird.
  2. Verfahren nach Anspruch 1, bei dem als Sprachmerkmale ein Satz von vorgegebenen Schlüsselwörtern verwendet wird, nach denen die Tonsignale der gesprochenen Informationen abgesucht werden und bei deren Auftreten das Schlüsselwort selbst die verlangsamte Wiedergabe der gesprochenen Informationen ausgelöst wird.
  3. Verfahren nach Anspruch 2, bei dem als Schlüsselwörter Zahlen verwendet werden.
  4. Verfahren nach Anspruch 2 oder 3, bei dem nur das Schlüsselwort selbst verlangsamt wiedergegeben wird.
  5. Verfahren nach Anspruch 2, bei dem die gesprochene Information für eine vorgegebene Zeitdauer nach Auslösung der verlangsamten Wiedergabe verlangsamt wiedergegeben wird.
  6. Verfahren nach Anspruch 5, bei dem die gesprochene Information nach Auslösung der verlangsamten Wiedergabe bis zur Erfassung eines weiteren Schlüsselwortes verlangsamt wiedergegeben wird.
  7. Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprechgeschwindigkeit, die als Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechgeschwindigkeit über einem vorgegebenen Grenzwert liegt.
  8. Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprachenergie, die als Summe (Integral) über die Amplitudenquadrate der Tonsignale über ein vorgegebenes Zeitintervall bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechenergie über einem vorgegebenen Grenzwert liegt.
  9. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die gesprochene Information durch ein Telephon wiedergegeben wird.
  10. Verfahren nach Anspruch 9, bei dem die gesprochene Information von einer Mailbox eines Mobiltelephons abgerufen und durch das Mobiltelephon wiedergegeben wird.
  11. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information von einem Anrufbeantworter gespeicherte Nachricht ist, die von dem Anrufbeantworter wiedergegeben wird.
  12. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Hörgerät wiedergegeben wird.
  13. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein automatisches Fahrzeug-Navigationsgerät wiedergegen wird.
  14. Verfahren nach Anspruch 13, bei als Meßsignal ein die Fahrsituation repräsentierender Parameter überwacht wird.
  15. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch einen Walkman wiedergegen wird.
  16. Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Diktiergerät wiedergegen wird.
DE2003109834 2003-03-05 2003-03-05 Verfahren zur Wiedergabe gesprochener Informationen Withdrawn DE10309834A1 (de)

Priority Applications (2)

Application Number Priority Date Filing Date Title
DE2003109834 DE10309834A1 (de) 2003-03-05 2003-03-05 Verfahren zur Wiedergabe gesprochener Informationen
PCT/EP2004/002202 WO2004079721A1 (de) 2003-03-05 2004-03-04 Verfahren zur wiedergabe gesprochener informationen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2003109834 DE10309834A1 (de) 2003-03-05 2003-03-05 Verfahren zur Wiedergabe gesprochener Informationen

Publications (1)

Publication Number Publication Date
DE10309834A1 true DE10309834A1 (de) 2004-09-16

Family

ID=32864214

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2003109834 Withdrawn DE10309834A1 (de) 2003-03-05 2003-03-05 Verfahren zur Wiedergabe gesprochener Informationen

Country Status (2)

Country Link
DE (1) DE10309834A1 (de)
WO (1) WO2004079721A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005021524A1 (de) * 2005-05-10 2006-11-16 Siemens Ag Verfahren und Vorrichtung zum Eingeben von Zeichen in eine Datenverarbeitungsanlage

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4375083A (en) * 1980-01-31 1983-02-22 Bell Telephone Laboratories, Incorporated Signal sequence editing method and apparatus with automatic time fitting of edited segments
US5848130A (en) * 1996-12-31 1998-12-08 At&T Corp System and method for enhanced intelligibility of voice messages
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
JP4584434B2 (ja) * 2000-10-03 2010-11-24 株式会社東海理化電機製作所 音声ガイダンス切替装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102005021524A1 (de) * 2005-05-10 2006-11-16 Siemens Ag Verfahren und Vorrichtung zum Eingeben von Zeichen in eine Datenverarbeitungsanlage

Also Published As

Publication number Publication date
WO2004079721A1 (de) 2004-09-16

Similar Documents

Publication Publication Date Title
DE69816221T2 (de) Sprachschnellheitsveränderungsverfahren und vorrichtung
DE60213913T2 (de) System und Verfahren zur Inhaltsdarstellung
DE602005005186T2 (de) Verfahren und system zur schallquellen-trennung
DE10040214B4 (de) Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem
DE19748800C2 (de) Verfahren und Vorrichtung zum Umschalten eines Kopfhörers
DE102019200954A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE112017001830T5 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
EP1895745A1 (de) Verfahren und Kommunikationssystem zum kontinuierlichen Aufnehmen von Umgebungsdaten
EP0572531A1 (de) Akustisches verfahren und akustische einrichtung zur identifizierung von menschlichen tonquellen
CN108305637A (zh) 耳机语音处理方法、终端设备及存储介质
DE102019200956A1 (de) Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen
DE60128372T2 (de) Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem
DE4106405C2 (de) Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem
EP0906620A1 (de) Einrichtung und verfahren zum aufzeichnen eines informationssignales in einem aufzeichnungsträger
DE102019201456B3 (de) Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes
DE102012016820A1 (de) Fahrerassistenzsystem und Betriebsverfahren dafür
DE112010005706B4 (de) Spracherkennungsvorrichtung
DE10309834A1 (de) Verfahren zur Wiedergabe gesprochener Informationen
DE19811879C1 (de) Einrichtung und Verfahren zum Erkennen von Sprache
DE102016003401B4 (de) Erfassungsvorrichtung und Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug
DE10025655B4 (de) Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten
DE112019007580B4 (de) Schallfeld-Steuerungsvorrichtung und Schallfeld-Steuerungsverfahren
DE102017102234A1 (de) Verfahren und Vorrichtung zur räumlichen Darstellung virtueller Geräuschquellen in einem Fahrzeug
DE19514465C2 (de) Analysator für Spherics-Signale
DE10033104C2 (de) Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee