DE10309834A1 - Verfahren zur Wiedergabe gesprochener Informationen - Google Patents
Verfahren zur Wiedergabe gesprochener Informationen Download PDFInfo
- Publication number
- DE10309834A1 DE10309834A1 DE2003109834 DE10309834A DE10309834A1 DE 10309834 A1 DE10309834 A1 DE 10309834A1 DE 2003109834 DE2003109834 DE 2003109834 DE 10309834 A DE10309834 A DE 10309834A DE 10309834 A1 DE10309834 A1 DE 10309834A1
- Authority
- DE
- Germany
- Prior art keywords
- spoken information
- predetermined
- spoken
- speech
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Navigation (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen. Um für eine bessere Verständlichkeit oder Aufnehmbarkeit zu sorgen, werden bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht oder die Messsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Feststellung der Erfüllung des vorgegebenen Messsignalkriteriums wird automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird. Beispielsweise können die vorgegebenen Sprachmerkmale ein Satz von Schlüsselwörtern sein, z. B. die Zahlen von 1 bis 100, so dass bei Auftreten einer Zahl diese verlangsamt, z. B. von einem Anrufbeantworter, wiedergegeben wird.
Description
- Die vorliegende Erfindung betrifft ein Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen.
- Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen und wiederzugeben sind, werden in vielen Bereichen angewendet, beispielsweise in Telefonen, Diktiergeräten, Anrufbeantwortern, bei Mailboxen von Mobiltelefonen, in Hörgeräten etc.. Ein häufig auftretendes Problem besteht darin, dass bestimmte Passagen für den Hörer nur schwer verständlich sind oder der Hörer die Informationen nicht schnell genug aufnehmen kann, beispielsweise wenn die gesprochene Nachricht eine Folge von Zahlen, z.B. eine Telefonnummer enthält, die der Hörer sich merken oder notieren müsste.
- Es ist ferner bekannt, dass Audiodaten durch eine Zeitskalenmodifikation manipuliert werden können, die eine verlangsamte oder beschleunigte Wiedergabe der Daten unter Beibehaltung der Tonhöhe bewirken können. Solche Zeitskalenmodifikationen arbeiten mit einer Übertragung der Tonsignale aus dem Zeitbereich in den Frequenzbereich und benutzen eine sogenannte Schnelle-Fourier-Transformation (Fast Fourier Transform). Alternativ zur Transformation von Tönen in den Frequenzbereich können Töne direkt im Zeitbereich durch die Tondauermodifikation verändert werden. Ein grundlegender Artikel für derartige Verfahren ist beispielsweise der Artikel "Phase Vocoder", von J.L. Flanagan und R.M. Golden, The Bell System Technical Journal, November 1966, Seiten 1394 bis 1509. Verbesserungen derartiger Verfahren sind in der Folge in vielfältiger Weise vorgenommen worden, Beispiele sind "New Phase-Vocoder Techniques for Pitch-Shifting, Harmonizing And Other Exotic Effects", von Jean Laroche and Mark Dolson, Proc. 1999 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, New Paltz, New York, Oct. 17-20, 1999, Seiten 91 bis 94, und "Computationally Efficient Algorithm for Time Scale Modification" von S. Yim und B.I. Pawate, IEEE International Conference on Acoustics, Speech and Signal Processing, 7. – 10. Mai, Atlanta, Georgia. Die darin und in vielen anderen Veröffentlichungen beschriebenen Verfahren zur Zeitskalenmodifikation von Tonsignalen unter Beibehaltung der Tonhöhe werden im Folgenden nicht näher beschrieben und bezüglich weiterer Einzelheiten wird auf die genannten Artikel verwiesen.
- Es ist Aufgabe der vorliegenden Erfindung, ein Verfahren zur Wiedergabe von gesprochenen Informationen anzugeben, mit dem der Inhalt der gesprochenen Informationen für den Hörer besser erfassbar und aufnehmbar ist.
- Zur Lösung dieser Aufgabe dienen die Merkmale des Patentanspruchs 1. Vorteilhafte Ausführungsformen der Erfindung sind in den Unteransprüchen angegeben.
- Gemäß der vorliegenden Erfindung werden die wiederzugebenden Tonsignale durch eine Spracherkennung automatisch untersucht und nach vorgegebenen Sprachmerkmalen abgesucht oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameter automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht. Bei Erfassung eines vorgegebenen Sprachmerkmals oder der Feststellung, dass das vorgegebene Kriterium des Meßsignals erfüllt ist, wird die Wiedergabe der gesprochenen Information verlangsamt, indem eine Zeitskalenmodifikation unter Anwendung der Schnellen-Fourier-Transformation oder Tondauermodifikation durchgeführt wird, so dass die Wiedergabe der gesprochenen Information verlangsamt ist, aber bei im Wesentlichen unveränderter Tonhöhe erfolgt .
- Die vorgegebenen Sprachmerkmale können z.B. ein Satz von Schlüsselwörtern sein, z.B. die Zahlen von 1 bis 100. Wird ein solches Schlüsselwort, also z.B. eine Zahl, etwa eine Telefonnummer, in dem Tonsignal erfasst, wird automatisch eine Zeitskalenmodifikation durchgeführt, so dass die Schlüsselwörter verlangsamt, bei gleicher Tonhöhe wiedergegeben werden.
- Beispielsweise kann in dem Fall, dass die Schlüsselwörter gesprochene Zahlen sind, bei einem Anrufbeantworter oder der Mailbox eines Mobiltelefons die Wiedergabe einer aufgezeichneten gesprochenen Nachricht bei Auftreten von Zahlen, z.B. Telefonnummern, in der Nachricht automatisch verlangsamt erfolgen, so dass der Hörer die Zahlen besser aufnehmen oder einfacher notieren kann. Die für die Spracherkennung und Zeitskalenmodifikation notwendigen Datenverarbeitungsschritte bezüglich der Tonsignale können in einem speziell dafür vorbereiteten Prozessor, der beispielsweise in das Mobiltelefon oder in den Anrufbeantworter integriert ist, vorgenommen werden. Bei Anwendungen, in denen die gesprochenen Informationen in Echtzeit eingehen und mit dem erfindungsgemäßen Verfahren behandelt werden sollen, muß auch ein Pufferspeicher vorhanden sein, der Teile der eingehenden gesprochenen Informationen aufnehmen kann, während Passagen der gesprochenen Information verlangsamt wiedergegeben werden.
- Eine weitere Ausführungsform, die insbesondere z.B. bei Diktiergeräten Anwendung finden kann, benutzt als Sprachmerkmale vor gegebene Schlüsselwörter, die von dem Sprecher als Markierungen in der gesprochenen Information gesetzt werden können, um zwischen zwei Markierungen eine verlangsamte Wiedergabe der gesprochenen Information zu bewirken.
- In einer weiteren Ausführungsform kann als vorgegebenes Sprachmerkmal das Überschreiten einer vorgegebenen Sprechgeschwindigkeit verwendet werden, wobei die Sprechgeschwindigkeit als die Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird. Damit kann automatisch eine verlangsamte Wiedergabe der gesprochenen Informationen bewirkt werden, solange die gesprochene Information eine Sprechgeschwindigkeit über einem vorgegebenen Grenzwert hat, und so für eine leichter verständliche Wiedergabe, beispielsweise durch ein Diktiergerät, einen Anrufbeantworter, ein Telefon oder ein Hörgerät gesorgt werden.
- Als weiteres vorgegebenes Sprachmerkmal kann die sogenannte Sprachenergie verwendet werden, die als Summe über die Amplitudenquadrate der Tonsignale (bzw. als Integral über die Amplitudenquadrate im Fall eines kontinuierlichen Analogsignals) über ein vorgegebenes Zeitintervall bestimmt wird, wobei das vorgegebene Sprachmerkmal erfüllt ist, wenn die Sprachenergie über einem vorgegebenen Grenzwert liegt.
- Gemäß einer alternativen Ausführungsform wird das Messsignal wenigstens eines Sensors für einen Zustandsparameter auf die Erfüllung eines vorgegebenen Kriteriums überwacht und bei Vorliegen des vorgegebenen Kriteriums wird automatisch eine verlangsamte Wiedergabe der gesprochenen Information bei unveränderter Tonhöhe durchgeführt. Ein Beispiel dafür ist ein Navigationssystem in einem Kraftfahrzeug, das dem Fahrer verbale Anweisungen gibt. Sensoren können Zustandsparameter erfassen, die schwierige Fahrsituationen signalisieren. Beispielsweise könnte die Fahrzeuggeschwindigkeit erfasst und bei hohen Geschwindigkeiten, wenn der Fahrer durch die Fahrsituation sehr konzentriert sein muss, eine Verlangsamung der Wiedergabe der gespro chenen Informationen bewirkt werden. Andere beispielhafte Zustandsparameter in diesem Anwendungszusammenhang sind der Lautstärkepegel durch Umgebungsgeräusche, Beschleunigungswerte (bei Bremsmanövern, Kurvenfahrten oder Beschleunigung), Umgebungstemperatur, Witterungsbedingungen (erfasst z.B. durch Regensensoren) etc..
- Weitere mögliche Ausführungsformen können die Erfassung von Zustandsparametern des Hörers umfassen, beispielsweise die Erfassung von Messsignalen, die physiologische Parameter des Hörers repräsentieren, wie etwa Herzschlag, Hautwiderstand oder dergleichen. Die Erfassung von physiologischen Zustandsparametern und die Überprüfung auf Vorliegen eines vorgegebenen Kriteriums zur Auslösung der verlangsamten Wiedergabe der gesprochenen Information kann zum Beispiel bei computergesteuerten Lernprogrammen sinnvoll sein, um unter vorgegebenen Bedingungen eine verlangsamte Wiedergabe der gesprochenen Informationen zu bewirken.
- In den Zeichnungen zeigen
-
1 : die Tonsignale einer gesprochenen Information, und -
2 : die Tonsignale der gesprochenen Information aus1 nach Zeitskalenmodifikation eines Schlüsselwortes. - In
1 ist ein Tonsignal (in Prozent auf der Ordinatenachse) einer gesprochenen Information als Funktion der Zeit beispielhaft dargestellt, das gemäß einer Ausführungsform des vorliegenden Verfahrens auf Schlüsselwörter untersucht wird. Das markierte Intervall wurde als ein vorgegebenes Schlüsselwort erkannt. - Das erkannte Schlüsselwort wurde dann einer Zeitskalenmodifikation unterzogen und um einen Faktor 2 verlangsamt, bei im Wesentlichen unveränderter Tonhöhe wiedergegeben. Das entsprechend zeitskalenmodifizierte Tonsignal mit zweifach verlangsamten Schlüsselwort ist in
2 dargestellt.
Claims (16)
- Verfahren zur Wiedergabe gesprochener Informationen, die als analoge oder digitale Tonsignale vorliegen, wobei bei dem Verfahren die Tonsignale der gesprochenen Informationen automatisch nach vorgegebenen Sprachmerkmalen abgesucht werden oder die Meßsignale wenigstens eines Sensors für einen Zustandsparameters automatisch auf die Erfüllung eines vorgegebenen Kriteriums überwacht werden, und bei Erfassung eines vorgegebenen Sprachmerkmals oder bei Festellung der Erfüllung des vorgegebenen Meßsignalkriteriums automatisch die Wiedergabe der gesprochenen Information verlangsamt, aber bei im Wesentlichen unveränderter Tonhöhe durchgeführt wird, indem eine Zeitskalenmodifikation unter Anwendung von Schneller-Fourier-Transformation oder Tondauermodifikation durchgeführt wird.
- Verfahren nach Anspruch 1, bei dem als Sprachmerkmale ein Satz von vorgegebenen Schlüsselwörtern verwendet wird, nach denen die Tonsignale der gesprochenen Informationen abgesucht werden und bei deren Auftreten das Schlüsselwort selbst die verlangsamte Wiedergabe der gesprochenen Informationen ausgelöst wird.
- Verfahren nach Anspruch 2, bei dem als Schlüsselwörter Zahlen verwendet werden.
- Verfahren nach Anspruch 2 oder 3, bei dem nur das Schlüsselwort selbst verlangsamt wiedergegeben wird.
- Verfahren nach Anspruch 2, bei dem die gesprochene Information für eine vorgegebene Zeitdauer nach Auslösung der verlangsamten Wiedergabe verlangsamt wiedergegeben wird.
- Verfahren nach Anspruch 5, bei dem die gesprochene Information nach Auslösung der verlangsamten Wiedergabe bis zur Erfassung eines weiteren Schlüsselwortes verlangsamt wiedergegeben wird.
- Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprechgeschwindigkeit, die als Anzahl von gesprochenen Lauten pro Zeiteinheit in dem Tonsignal bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechgeschwindigkeit über einem vorgegebenen Grenzwert liegt.
- Verfahren nach Anspruch 1, bei dem als vorgegebenes Sprachmerkmal die Sprachenergie, die als Summe (Integral) über die Amplitudenquadrate der Tonsignale über ein vorgegebenes Zeitintervall bestimmt wird, verwendet wird und die Wiedergabe der gesprochenen Informationen verlangsamt wird, solange die Sprechenergie über einem vorgegebenen Grenzwert liegt.
- Verfahren nach einem der vorhergehenden Ansprüche, bei dem die gesprochene Information durch ein Telephon wiedergegeben wird.
- Verfahren nach Anspruch 9, bei dem die gesprochene Information von einer Mailbox eines Mobiltelephons abgerufen und durch das Mobiltelephon wiedergegeben wird.
- Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information von einem Anrufbeantworter gespeicherte Nachricht ist, die von dem Anrufbeantworter wiedergegeben wird.
- Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Hörgerät wiedergegeben wird.
- Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein automatisches Fahrzeug-Navigationsgerät wiedergegen wird.
- Verfahren nach Anspruch 13, bei als Meßsignal ein die Fahrsituation repräsentierender Parameter überwacht wird.
- Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch einen Walkman wiedergegen wird.
- Verfahren nach einem der Ansprüche 1 bis 8, bei dem die gesprochene Information durch ein Diktiergerät wiedergegen wird.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003109834 DE10309834A1 (de) | 2003-03-05 | 2003-03-05 | Verfahren zur Wiedergabe gesprochener Informationen |
PCT/EP2004/002202 WO2004079721A1 (de) | 2003-03-05 | 2004-03-04 | Verfahren zur wiedergabe gesprochener informationen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2003109834 DE10309834A1 (de) | 2003-03-05 | 2003-03-05 | Verfahren zur Wiedergabe gesprochener Informationen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10309834A1 true DE10309834A1 (de) | 2004-09-16 |
Family
ID=32864214
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2003109834 Withdrawn DE10309834A1 (de) | 2003-03-05 | 2003-03-05 | Verfahren zur Wiedergabe gesprochener Informationen |
Country Status (2)
Country | Link |
---|---|
DE (1) | DE10309834A1 (de) |
WO (1) | WO2004079721A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005021524A1 (de) * | 2005-05-10 | 2006-11-16 | Siemens Ag | Verfahren und Vorrichtung zum Eingeben von Zeichen in eine Datenverarbeitungsanlage |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4375083A (en) * | 1980-01-31 | 1983-02-22 | Bell Telephone Laboratories, Incorporated | Signal sequence editing method and apparatus with automatic time fitting of edited segments |
US5848130A (en) * | 1996-12-31 | 1998-12-08 | At&T Corp | System and method for enhanced intelligibility of voice messages |
US6505153B1 (en) * | 2000-05-22 | 2003-01-07 | Compaq Information Technologies Group, L.P. | Efficient method for producing off-line closed captions |
JP4584434B2 (ja) * | 2000-10-03 | 2010-11-24 | 株式会社東海理化電機製作所 | 音声ガイダンス切替装置 |
-
2003
- 2003-03-05 DE DE2003109834 patent/DE10309834A1/de not_active Withdrawn
-
2004
- 2004-03-04 WO PCT/EP2004/002202 patent/WO2004079721A1/de active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005021524A1 (de) * | 2005-05-10 | 2006-11-16 | Siemens Ag | Verfahren und Vorrichtung zum Eingeben von Zeichen in eine Datenverarbeitungsanlage |
Also Published As
Publication number | Publication date |
---|---|
WO2004079721A1 (de) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
DE60213913T2 (de) | System und Verfahren zur Inhaltsdarstellung | |
DE602005005186T2 (de) | Verfahren und system zur schallquellen-trennung | |
DE10040214B4 (de) | Verfahren und System zur automatischen Erkennung einer Aktualisierung eines Sprachmodells in einem Spracherkennungssystem | |
DE19748800C2 (de) | Verfahren und Vorrichtung zum Umschalten eines Kopfhörers | |
DE102019200954A1 (de) | Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen | |
DE112017001830T5 (de) | Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen | |
EP1895745A1 (de) | Verfahren und Kommunikationssystem zum kontinuierlichen Aufnehmen von Umgebungsdaten | |
EP0572531A1 (de) | Akustisches verfahren und akustische einrichtung zur identifizierung von menschlichen tonquellen | |
CN108305637A (zh) | 耳机语音处理方法、终端设备及存储介质 | |
DE102019200956A1 (de) | Signalverarbeitungseinrichtung, System und Verfahren zur Verarbeitung von Audiosignalen | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE4106405C2 (de) | Geräuschunterdrückungseinrichtung für ein Spracherkennungsystem | |
EP0906620A1 (de) | Einrichtung und verfahren zum aufzeichnen eines informationssignales in einem aufzeichnungsträger | |
DE102019201456B3 (de) | Verfahren für eine individualisierte Signalverarbeitung eines Audiosignals eines Hörgerätes | |
DE102012016820A1 (de) | Fahrerassistenzsystem und Betriebsverfahren dafür | |
DE112010005706B4 (de) | Spracherkennungsvorrichtung | |
DE10309834A1 (de) | Verfahren zur Wiedergabe gesprochener Informationen | |
DE19811879C1 (de) | Einrichtung und Verfahren zum Erkennen von Sprache | |
DE102016003401B4 (de) | Erfassungsvorrichtung und Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug | |
DE10025655B4 (de) | Verfahren zum Entfernen einer unerwünschten Komponente aus einem Signal und System zum Unterscheiden zwischen unerwünschten und erwünschten Signalkomponenten | |
DE112019007580B4 (de) | Schallfeld-Steuerungsvorrichtung und Schallfeld-Steuerungsverfahren | |
DE102017102234A1 (de) | Verfahren und Vorrichtung zur räumlichen Darstellung virtueller Geräuschquellen in einem Fahrzeug | |
DE19514465C2 (de) | Analysator für Spherics-Signale | |
DE10033104C2 (de) | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |