DE19854341A1 - Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem - Google Patents

Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem

Info

Publication number
DE19854341A1
DE19854341A1 DE19854341A DE19854341A DE19854341A1 DE 19854341 A1 DE19854341 A1 DE 19854341A1 DE 19854341 A DE19854341 A DE 19854341A DE 19854341 A DE19854341 A DE 19854341A DE 19854341 A1 DE19854341 A1 DE 19854341A1
Authority
DE
Germany
Prior art keywords
speech
detector
speech signal
signal
averager
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19854341A
Other languages
English (en)
Inventor
Michael Walker
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel SA filed Critical Alcatel SA
Priority to DE19854341A priority Critical patent/DE19854341A1/de
Priority to EP99440312A priority patent/EP1005016A3/de
Priority to US09/442,392 priority patent/US6539350B1/en
Publication of DE19854341A1 publication Critical patent/DE19854341A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Noise Elimination (AREA)

Abstract

Die Sprachpegelmessung hat besondere Bedeutung für eine erfolgreiche Echokompensation in Telekommunikationssystemen, für eine Geräuschunterdrückung in lärmerfüllter Umgebung, beispielsweise in Militärfahrzeugen, oder bei der Spracherkennung und in Sprachkodierungs- und -dekodierungseinrichtungen. DOLLAR A Erfindungsgemäß wird ein Verfahren angegeben, das die Sprachpegelmessung nur dann zuläßt, wenn Merkmale von Sprache erkannt und Störer sowie Sprachpausen für die Messung ausgeblendet werden. Dazu werden Sprach- und Pausendetektoren sowie ein Mittelwertbildner eingesetzt, dessen Zeitverhalten weitgehend an die Wahrnehmungsfähigkeit des menschlichen Ohres angepaßt ist. Kurz gesprochene Vokale werden somit gut erfaßt, nasale Laute oder Konsonanten werden bei fallenden Pegeln weitgehend unterdrückt. Es wird eine Sprachpegelmeßeinrichtung angegeben, die in kurzer Adaptionszeit sehr genaue Ergebnisse liefert.

Description

In Sprachsignalverarbeitungssystemen wird der aktuelle Sprachpegel beispielsweise zur Skalierung von Signalen, zur Schwellwertentscheidung, zur Sprachpausendetektion und/oder zur automatischen Verstärkungseinstellung verwendet. Besondere Bedeutung hat die Sprachpegelmessung für eine erfolgreiche Echokompensation in Telekommunikationssystemen, für eine Geräuschunterdrückung in lärmerfüllter Umgebung, beispielsweise in Militärfahrzeugen, oder bei der Spracherkennung und in Sprachkodierungs- und Sprachdekodierungseinrichtungen.
Es ist allgemein bekannt, einen Mittelwert SL (speech level) aus den Abtastwerten x(k) eines Sprachsignals x(t) innerhalb eines Zeitintervalls gemäß Gleichung G1 zu bilden.
Bei Sprachpausen nimmt der Mittelwert SL in einer von der Anzahl N der Abtastwerte bestimmten Zeit den Wert des Ruhegeräuschs an. Zu Beginn der Sprachaktivität benötigt ein Mittelwertbildner eine von der Anzahl N bestimmte Zeit, um den Sprachpegel zu bestimmen. Die Mittelung in einem Zeitintervall von 125 ms erfordert einen Datenspeicher von 1000 Datenworten bei einer Abtastrate von 8 kHz. Abgesehen von dem beträchtlichen Rechen- und Speicheraufwand besteht bei der einfachen Mittelwertbildung die Gefahr, daß bei kurzer Mittelungszeit durch Störeinflüsse Fehler bei der Bestimmung des Sprachpegels auftreten. Bei langer Mittelungszeit ist einerseits die Information über die Größe des Sprachpegels sehr spät verfügbar, andererseits treten bei Sprachpegeländerungen Fehlmessungen des Sprachpegels auf.
Weiterhin ist bekannt, rekursive Filter zur Mittelwertbildung zu verwenden, vgl. Hentschke: Grundzüge der Digitaltechnik, Stuttgart: Teubner 1988, Seiten 52-54. Der Rechen- und Speicheraufwand für diese digitalen Filter ist relativ gering, jedoch werden alle Signalwerte gemittelt, so daß eine Unterscheidung zwischen Sprache und Störgeräusch ausgeschlossen ist.
Aus dem Gebiet der Sprachverarbeitung ist das Verfahren der linearen Prädiktion (linear predictive coding, LPC) bekannt, mit dem grundsätzlich auch Unterscheidungsmerkmale von Sprache und Störgeräusch ermittelbar sind. Die LPC-Analyse ist sehr genau und kann sehr schnell durchgeführt werden und ist ein leistungsfähiges Verfahren, mit dem unter anderem die Grundfrequenz, das Spektrum und die Formate eines Sprachsignals bestimmt werden können, vgl. Eppinger, Herter: Sprachverarbeitung, München, Wien: Hanser 1983, Seiten 73-77. Ein solches aufwendiges Verfahren ist jedoch aus kommerziellen Gründen für Massenprodukte, wie Telekommunikationsendgeräte, nicht geeignet.
Mit der Erfindung wird nun die Aufgabe gelöst, ein kostengünstig realisierbares Verfahren zur Sprachpegelmessung und eine Schaltungsanordnung zur Realisierung des Verfahrens anzugeben, die folgende Eigenschaften haben:
  • - Aus einem Zeitsignal soll der aktuelle Sprachpegel möglichst rasch und präzise ermittelt werden,
  • - Die Adaptionszeit der Sprachpegelmeßschaltung soll kurz sein, um hörbare Fehler, wie Lautstärkeschwankungen zu vermeiden,
  • - Der gemessene Sprachpegel soll unabhängig von Pegelschwankungen der Sprache, hervorgerufen beispielsweise durch nasale Laute oder offene Vokale, sein,
  • - Der gemessene Sprachpegel soll unabhängig von kurzzeitigen Störeinflüssen, wie beispielsweise Räuspern, Husten, Klatschen, Türenschlagen, sein, obwohl gerade diese Störer eine großen Energieinhalt haben,
  • - In Sprachpausen soll der gemessene Wert des Sprachpegels erhalten bleiben, um das von der automatischen Verstärkungsregelung (Automatic Gain Control, AGC) bekannte Atmen der Lautstärke zu unterdrücken.
Diese Aufgabe wird durch das im ersten Patentanspruch beschriebene Verfahren und durch die im siebenten Patentanspruch beschriebene Schaltungsanordnung gelöst.
Das Wesen der Erfindung besteht darin, daß ein gemessener Sprachpegelwert nur dann zur Weiterverarbeitung in einem Sprachsignalverarbeitungssystem zugelassen wird, wenn charakteristische Merkmale der Sprache erkannt und Störsignale und Sprachpausen bei der Messung ausgeblendet wurden.
Die Erfindung wird nachstehend an einem Ausführungsbeispiel beschrieben. In der dazugehörigen Zeichnung zeigen
Fig. 1 ein Blockschaltbild der erfindungsgemäßen Schaltungsanordnung,
Fig. 2 eine Darstellung der Zeitfunktionen der Abtastwerte eines Sprachsignals, eines Kurzzeitmittelwertes und eines tiefpaßgefilterten Sprachsignals und
Fig. 3 ein Blockschaltbild einer Anordnung zur Ermittlung des Kurzzeitmittelwertes.
Gemäß Fig. 1 besteht die Schaltungsanordnung im wesentlichen aus einem Sprachpausendetektor 1, einem Sprachdetektor 2, einem Mittelwertbildner 3, einem Speicher 4 sowie einer Schaltung 5 zur Bildung eines Absolutwertes. Am Schaltungseingang liegt die Abtastfunktion x(k) eines Sprachsignals, am Schaltungsausgang wird der Wert eines Sprachpegels SL ausgegeben. Wird eine Sprachpause, Ausgangssignal P des Sprachpausendetektors 1, und wird keine Sprache, Ausgangssignal F des Sprachdetektors 2, erkannt, so befinden sich gemäß Fig. 1 ein erster Schalter S1, ein zweiter Schalter S2 und ein dritter Schalter S3 in der gezeichneten Stellung. Liegt ein Sprachsignal in Form der Abtastfunktion x(k) vor, d. h. eine Sprachpause P wird nicht erkannt, wird der Sprachdetektor 2 über den geschlossenen ersten Schalter S1 aktiviert und die Mittelwertbildung über die Schaltung 5 und den geschlossenen zweiten Schalter S2 mit dem Mittelwertbildner 3 eingeleitet. Wurde ein Sprachsignal erkannt, so wird über das Ausgangssignal F des Sprachdetektors 2 der dritte Schalter S3 geschlossen und das Ausgangssignal SAM(x) des Mittelwertbildners 3 wird über den dritten Schalter S3 in den Speicher 4 übernommen. Während der Sprachpausen wird der zuletzt gemessene Sprachpegel SL aus dem Speicher 4 über den zweiten Schalter S2 dem Mittelwertbildner 3 übergeben.
Mit dem Mittelwertbildner 3 wird ein Kurzzeitmittelwert SAM(x) (Short Average Magnitude) so gebildet, daß das Zeitverhalten des Kurzzeitmittelwertes SAM(x) der subjektiven Wahrnehmungsfunktion des menschlichen Ohres weitgehend angepaßt ist. Ein Dynamiksprung von leisen zu lauten Tönen wird dazu mit einer kleinen Zeitkonstanten τs, beispielsweise kleiner als 6,5 ms, berechnet. Ein Dynamiksprung von lauten zu leisen Tönen wird entsprechend dem Nachverdeckungseffekt des menschlichen Ohres mit einer großen Zeitkonstanten τl, beispielsweise 65 ms bis 300 ms, berechnet. Kurz gesprochene Vokale werden auf diese Weise gut erfaßt. Nasale Laute oder Konsonanten mit im Vergleich zu Vokalen geringerem Pegel werden bei der Sprachpegelmessung durch die große Zeitkonstante τl bei fallenden Pegeln weitgehend unterdrückt. Durch die unterschiedlichen Zeitkonstanten τs, τl für steigenden und fallenden Signalverlauf wird eine schnelle Adaption des Kurzzeitmittelwertes SAM(x) an den aktuellen Spitzenwert des Kurzzeitpegels des Sprachsignals erreicht. Dieser Spitzenwert des Kurzzeitpegels des Sprachsignals bestimmt somit unabhängig vom Sprachinhalt den relativen Sprachpegel.
Fig. 2 zeigt das Zeitverhalten der Abtastwerte für drei Funktionen. Die Eingangsfunktion x(k) der Sprachpegelmeßschaltung gemäß Fig. 1 ist als Funktionsverlauf 6 einer Sprachprobe dargestellt. Der Funktionsverlauf 7 zeigt den Verlauf des Kurzzeitmittelwertes SAM (x(k)), kurz SAM (x), unter Berücksichtigung der Wirkungsweise der unterschiedlichen Zeitkonstanten τs, τl wie zuvor beschrieben. Zum Vergleich ist noch ein dritter Funktionsverlauf 8 dargestellt, der die Wirkung eines einfachen Tiefpasses wiedergibt. Daraus geht hervor, daß ein Tiefpaß für eine rasche und präzise Ermittlung des aktuellen Sprachpegels ungeeignet ist.
In Fig. 3 sind Einzelheiten des Mittelwertbildners 3 dargestellt, der ein rekursives Filter, ein an sich bekanntes IIR-Filter 9 (Infinite Impulse Response Filter), und eine Schaltungsanordnung 10 zur Umschaltung der Zeitkonstanten τs, τl enthält. Die Schaltung 5 zur Bildung des Absolutwertes entspricht der in Fig. 1 dargestellten Schaltung. Um den zuvor beschriebenen Verlauf des Kurzzeitmittelwertes SAM (x) zu erzielen, ist eine Umschaltung der Zeitkonstanten τs, τl nach folgender Gleichung G2 erforderlich:
Das bedeutet, wenn der Abtastwert x(k) des Sprachsignals x(t) größer ist als der Kurzzeitmittelwert SAM (x), beispielsweise in Fig. 2 Funktionsverlauf 6, Abtastzeitpunkte 0 bis 12, wird für die Zeitkonstanten a, β der Wert der kurzen Zeitkonstanten ts zur Berechnung des Kurzzeitmittelwertes SAM (x) verwendet.
Zur Realisierung des Sprachpausendetektors 1 in Fig. 1 wird ein Verfahren verwendet, mit dem das zeitliche Verhalten der Abtastfunktion x(k) des Sprachsignals ausgewertet wird. Der Kurzzeitmittelwert SAM (x) der Abtastfunktion x(k) wird mit einem in einem Zeitintervall ermittelten Langzeitminimalwert aus einer Anzahl Kurzzeitmittelwerte SAM (x) verglichen.
Der Minimalwert der Kurzzeitmittelwerte SAM (x) wird in einem Zeitintervall von t = 0 . . . tlam, beispielsweise tlam = 3 s bis 7 s gesucht. Ist der aktuelle Kurzzeitmittelwert SAM (x) kleiner als dieser Minimalwert, so wird das Eingangssignal x(k) an der Sprachpegelmeßschaltung als Pause P gewertet. Sprachsignale würden immer größer als der ermittelte Minimalwert sein. Zur sicheren Bestimmung des aktuellen Sprachpegels ist nicht nur die Unterscheidung zwischen Sprache und Sprachpause erforderlich, sondern auch die Unterscheidung zwischen Sprache und Störern. Dazu dient der in Fig. 1 dargestellte Sprachdetektor 2, dessen Ausgangssignal F als Entscheidungskriterium für die Übernahme des Kurzzeitmittelwertes SAM (x) in den Speicher 4 dient. Unterscheidungsmerkmale zwischen Sprache und Störer sind beispielsweise das Zeitverhalten, die Periodizität oder die LPC- Koeffizientendarstellung eines LPC-Filters. Für die vorliegende Aufgabenstellung ist die Auswertung des Zeitverhaltens vorteilhaft. Dazu wird die Tatsache ausgenutzt, daß Störer kurzzeitig wirken, im allgemeinen kürzer als 200 ms, während ein Sprecher eine größere Zeit, mindestens 1 s, aktiv ist, um eine Information abzugeben und die Sprachfunktion keine kurzzeitigen hohen Momentanwerte aufweist. Die Ungleichung G4 beschreibt die Bedingung, die für die Detektion des Eingangssignals x(k) als Sprache erfüllt sein muß.
für i < τ (s).Fa
mit
i = Anzahl der Abtastwerte k
τ (s) = Sprechzeit
Fa = Abtastfrequenz
[SAM (x) . . . SAM (x-i)] bedeutet, daß eine Anregung für eine bestimmte Mindestzeit vorhanden sein muß, damit nicht bereits ein Rauschen als Anregung detektiert wird. Die rechte Seite der Ungleichung G4 wurde bei der Beschreibung der Ungleichung G3 erläutert. Die Zeitüberwachung für die Sprechzeit τ (s) wird mit einem hier nicht dargestellten Zähler durchgeführt, der durch den Sprachpausendetektor 1 gestartet und zurückgesetzt wird. Beim Überschreiten der definierten Sprechzeit τ (s) wird der zuvor vom Mittelwertbildner 3 gemessene Kurzzeitmittelwert SAM (x) in den Speicher 4 übernommen. Es ist praktisch vorteilhaft, als Sprechzeit τ (s) eine Dauer von 300 ms zu definieren.
Es ist auch möglich, die Zeitkonstanten τs, τl des Mittelwertbildners 3 zu variieren, um einen für den jeweiligen Anwendungsfall angepaßten Sprachpegel SL zu erhalten. Die in dem Ausführungsbeispiel beschriebene Bildung eines Kurzzeitmittelwertes SAM (x) wird vorteilhafterweise in stark geräuschbehafteter Umgebung, beispielsweise in einem Panzer eingesetzt. Bei undeutlichen Sprechern ist es günstiger, einen Mittelwert (Medium Average Magnitude) MAM (x) zu bilden, indem die kleine Zeitkonstante τs vergrößert und die große Zeitkonstante τl des Mittelwertbildners 3 verkleinert wird.
Mit geringem Rechen- und Speicheraufwand wird wie beschrieben eine kostengünstige und zuverlässige Sprachpegelmessung realisiert.

Claims (9)

1. Verfahren zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem mit folgenden Verfahrensschritten:
  • 1. Ein Sprachsignal (x(k)) wird sowohl einem Sprachpausendetektor (1) als auch einem Sprachdetektor (2) zugeführt,
  • 2. Bei von dem Sprachpausendetektor (1) erkannter Pause (P) und, von dem Sprachdetektor (2) erkannter Sprache (F) wird von dem Sprachsignal (x(k)) ein Mittelwert mit einem Mittelwertbildner (3) gemessen, dessen Übertragungsfunktion an die Übertragungsfunktion des menschlichen Ohres angepaßt ist,
  • 3. Bei erkannter Sprache (F) wird der gemessene Mittelwert in einem Speicher (4) zur Weiterverarbeitung als gemessener Sprachpegel (SL) abgelegt.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mit dem Sprachpausendetektor (1) eine Pause (P) im Sprachsignal (x(k)) erkannt wird, wenn der Kurzzeitmittelwert des Sprachsignals (x(k)) kleiner ist als der in einem definierten Zeitintervall ermittelte Langzeitmittelwert des Sprachsignals (x(k)).
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß mit dem Sprachdetektor (2) Sprache (F) im Sprachsignal (x(k)) erkannt wird, wenn die Anregung des Sprachdetektors für eine Mindestzeit den in einem definierten Zeitintervall ermittelten Langzeitmittelwert des Sprachsignals (x(k)) überschreitet.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Mittelwertbildner (3) einen Kurzzeitmittelwert des Sprachsignals (x(k)) derart bildet, daß die Mittelwertbildung bei ansteigendem Verlauf des Sprachsignals (x(k)) und bei fallendem Verlauf des Sprachsignals (x(k)) durch unterschiedliche Zeitkonstanten (τs, τl) erfolgt.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß bei ansteigendem Verlauf des Sprachsignals (x(k)), also bei einem Dynamiksprung von leisen zu lauten Tönen, für die Mittelwertbildung eine kleine Zeitkonstante (τs), beispielsweise ts < 6,5 ms, verwendet wird.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß bei fallendem Verlauf des Sprachsignals (x(k)) für die Mittelwertbildung eine große Zeitkonstante (τl), beispielsweise τl = 65 ms . . . 300 ms, verwendet wird und damit der Nachverdeckungseffekt des menschlichen Ohres nachgebildet wird.
7. Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem, deren Eingang (x(k)) sowohl mit einem Sprachpausendetektor (1) als auch mit einem Sprachdetektor (2) und einem Mittelwertbildner (3), dessen Ausgang einem Speicher (4) liegt, verbunden ist.
8. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnet, daß der Eingang des Sprachdetektors (2) über einen ersten Schalter (S1) und der Eingang des Mittelwertbildners (3) über einen zweiten Schalter (S2) an den Eingang (x(k)) der Schaltungsanordnung geschaltet sind, wobei der erste Schalter (S1) und der zweite Schalter (S2) in Abhängigkeit von dem Ausgangssignal (P) des Sprachpausendetektors (1) gesteuert werden.
9. Schaltungsanordnung nach Anspruch 7, dadurch gekennzeichnet, daß der Ausgang des Mittelwertbildners (3) über einen dritten Schalter (S3), der von dem Ausgangssignal (F) des Sprachdetektors (2) gesteuert wird, mit dem Eingang des Speichers (4) verbunden ist.
DE19854341A 1998-11-25 1998-11-25 Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem Withdrawn DE19854341A1 (de)

Priority Applications (3)

Application Number Priority Date Filing Date Title
DE19854341A DE19854341A1 (de) 1998-11-25 1998-11-25 Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
EP99440312A EP1005016A3 (de) 1998-11-25 1999-11-12 Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
US09/442,392 US6539350B1 (en) 1998-11-25 1999-11-18 Method and circuit arrangement for speech level measurement in a speech signal processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19854341A DE19854341A1 (de) 1998-11-25 1998-11-25 Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem

Publications (1)

Publication Number Publication Date
DE19854341A1 true DE19854341A1 (de) 2000-06-08

Family

ID=7888949

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19854341A Withdrawn DE19854341A1 (de) 1998-11-25 1998-11-25 Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem

Country Status (3)

Country Link
US (1) US6539350B1 (de)
EP (1) EP1005016A3 (de)
DE (1) DE19854341A1 (de)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19939102C1 (de) * 1999-08-18 2000-10-26 Siemens Ag Verfahren und Anordnung zum Erkennen von Sprache
EP1278185A3 (de) * 2001-07-13 2005-02-09 Alcatel Verfahren zur Verbesserung von Geräuschunterdrückung bei der Sprachübertragung
KR100406307B1 (ko) * 2001-08-09 2003-11-19 삼성전자주식회사 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템
EP1429314A1 (de) * 2002-12-13 2004-06-16 Sony International (Europe) GmbH Korrektion der Energie als Eingangsparameter für die Sprachverarbeitung
DK2560410T3 (da) * 2011-08-15 2019-09-16 Oticon As Kontrol af udgangsmodulation i et høreinstrument
US8255218B1 (en) * 2011-09-26 2012-08-28 Google Inc. Directing dictation into input fields
US8543397B1 (en) 2012-10-11 2013-09-24 Google Inc. Mobile device voice activation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3230391C2 (de) * 1982-08-14 1991-01-10 Philips Kommunikations Industrie Ag, 8500 Nuernberg, De
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.
EP0565224A2 (de) * 1992-02-27 1993-10-13 AT&T Corp. Eindringungsfreie Sprachpegel- und dynamische Rauschmessung
DE69105154T2 (de) * 1990-02-13 1995-03-23 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung.
DE3236834C2 (de) * 1981-10-05 1995-09-28 Exxon Corp Verfahren und Gerät zur Sprachanalyse

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
DE3276731D1 (en) * 1982-04-27 1987-08-13 Philips Nv Speech analysis system
DE3276732D1 (en) * 1982-04-27 1987-08-13 Philips Nv Speech analysis system
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4625083A (en) * 1985-04-02 1986-11-25 Poikela Timo J Voice operated switch
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
JPH07326981A (ja) * 1994-05-31 1995-12-12 Japan Radio Co Ltd Vox制御通信装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3236834C2 (de) * 1981-10-05 1995-09-28 Exxon Corp Verfahren und Gerät zur Sprachanalyse
DE3230391C2 (de) * 1982-08-14 1991-01-10 Philips Kommunikations Industrie Ag, 8500 Nuernberg, De
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.
DE69105154T2 (de) * 1990-02-13 1995-03-23 Matsushita Electric Ind Co Ltd Sprachsignalverarbeitungsvorrichtung.
EP0565224A2 (de) * 1992-02-27 1993-10-13 AT&T Corp. Eindringungsfreie Sprachpegel- und dynamische Rauschmessung

Also Published As

Publication number Publication date
EP1005016A2 (de) 2000-05-31
EP1005016A3 (de) 2000-11-29
US6539350B1 (en) 2003-03-25

Similar Documents

Publication Publication Date Title
DE69816610T2 (de) Verfahren und vorrichtung zur rauschverminderung, insbesondere bei hörhilfegeräten
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE69535709T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate bei einem Vokoder mit variabler Rate
EP1088300B1 (de) Verfahren zur durchführung einer maschinengestützten beurteilung der übertragungsqualität von audiosignalen
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
EP0698986B1 (de) Verfahren zur adaptiven Echokompensation
DE112009000805B4 (de) Rauschreduktion
DE19747885B4 (de) Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
DE2747821C2 (de) Verstärkeranordnung für akustische Signale mit Mitteln zum Unterdrücken unerwünschter Störsignale
DE3802903C2 (de)
EP0938831B1 (de) Gehörangepasste qualitätsbeurteilung von audiosignalen
DE3233637A1 (de) Vorrichtung zur bestimmung der dauer von sprach- oder tonsignalen
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
EP0747880B1 (de) Spracherkennungssystem
DE19715126C2 (de) Sprachsignal-Codiervorrichtung
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE3243231C2 (de)
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE60200632T2 (de) Verfahren zur Sprachaktivitätsdetektion in einem Signal, und Sprachkodierer mit Vorrichtung zur Ausführung des Verfahrens
DE19854341A1 (de) Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
EP1202253B1 (de) Adaptiver Geräuschpegelschätzer
EP1453355A1 (de) Signalverarbeitung in einem Hörgerät
DE3810068C2 (de)
EP0902416B1 (de) Verfahren und Einrichtung zum Erkennen einer Spracheingabe während einer Ansage

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8139 Disposal/non-payment of the annual fee