DE3243231C2 - - Google Patents

Info

Publication number
DE3243231C2
DE3243231C2 DE3243231A DE3243231A DE3243231C2 DE 3243231 C2 DE3243231 C2 DE 3243231C2 DE 3243231 A DE3243231 A DE 3243231A DE 3243231 A DE3243231 A DE 3243231A DE 3243231 C2 DE3243231 C2 DE 3243231C2
Authority
DE
Germany
Prior art keywords
short
threshold
determined
value
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3243231A
Other languages
English (en)
Other versions
DE3243231A1 (de
Inventor
Bernd Dipl.-Ing. 8501 Eckental De Selbach
Peter Dr.-Ing. 8522 Herzogenaurauch-Niederndorf De Vary
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Kommunikations Industrie AG
Original Assignee
Philips Kommunikations Industrie AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=6178780&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE3243231(C2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Philips Kommunikations Industrie AG filed Critical Philips Kommunikations Industrie AG
Priority to DE19823243231 priority Critical patent/DE3243231A1/de
Priority to CA000441366A priority patent/CA1203627A/en
Priority to US06/552,998 priority patent/US4700394A/en
Priority to DE8383201638T priority patent/DE3373037D1/de
Priority to EP83201638A priority patent/EP0110467B2/de
Priority to AU21545/83A priority patent/AU561076B2/en
Priority to JP58220467A priority patent/JPS59105695A/ja
Publication of DE3243231A1 publication Critical patent/DE3243231A1/de
Publication of DE3243231C2 publication Critical patent/DE3243231C2/de
Application granted granted Critical
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Analogue/Digital Conversion (AREA)
  • Telephone Function (AREA)

Description

Die Erfindung betrifft ein Verfahren zur Nachführung einer vom Kurzzeitmittelwert des empfangenen Sprachsignals, das von Störsignalen überlagert sein kann, abhängigen Rauschschwelle gemäß dem Oberbegriff der Patentansprüche 1 und 2.
Derartige Verfahren sind z. B. die Vorraussetzung für die Unterdrückung von Störsignalen beim Telefonieren aus akustisch gestörter Umgebung. Während der Sprachpause werden charakteristische Parameter des Störsignales gemessen und dazu verwendet, die Störungen vor der Übertragung möglichst vollständig aus dem zu übertragenden Signal mit adaptiven Filtern herauszufiltern.
Aus der DE-AS 24 55 477, Spalte 10 ist eine Anordnung in analoger Technik zur Erkennung von Sprachpausen bekannt, der folgendes Verfahren zugrunde liegt: Das Sprachsignal wird in gleich lange Abschnitte zerlegt und für jeden Abschnitt wird durch Gleichrichtung und Mittelwertbildung ein Spannungswert gewonnen, der zur mittleren Lautstärke des Abschnittes proportional ist. Schließlich wird durch Mittelwertbildung über mehrere Sprachabschnitte ein weiterer Spannungswert bestimmt, der zur mittleren Gesprächslautstärke proportional ist. Durch einen Vergleich der beiden Mittelwerte wird entschieden, ob ein Abschnitt einer Sprachpause angehört oder nicht.
Bei dieser Pausenerkennung ist unter anderem nicht berücksichtigt, daß z. B. stimmlose Laute zu einem Leistungseinbruch im Sprachsignal führen und die betreffenden Sprachabschnitte deshalb fälschlicherweise als Sprachpausen angesehen werden. Derartige Fehlentscheidungen treten bei dem bekannten Verfahren um so häufiger auf, je stärker das Sprachsignal von Störsignalen überlagert ist.
Aus der Zeitschrift "Frequenz", Band 35, 1981, Heft 10, Seiten 265 bis 270 ist ein Verfahren für die automatische Sprechererkennung bekannt, bei dem die Zeitverläufe von Intensität und Grundperiode der Sprache bestimmt werden. Wie im Abschnitt 4. "Implementierung des Verfahrens" auf Seite 267, rechte Spalte bis Seite 268, linke Spalte beschrieben ist, wird das digitale Sprachsignal in überlappende Segmente unterteilt und zyklisch aufeinanderfolgend werden die Intensität und die Grundperiode bestimmt. Für eine bestimmte Anzahl von Abtastwerten wird dabei zunächst die Intensität berechnet, wobei der berechnete Wert der Intensität mit einer Rauschschwelle verglichen wird, um Sprechpausen mit niedrigem Hintergrundrauschen unterscheiden zu können. Durch die fest vorgegebene Rauschschwelle können Störsignale mit geringer Störleistung und konstanter Periode (z. B. Verstärkerrauschen) bei der Festlegung der Lage der Rauschschwelle berücksichtigt werden.
Weiterhin ist aus der Zeitschrift "IEEE Transactions on Acoustics, Speech and Signal Processing" Vol. ASSP-28, 1980, Nr. 2, Seiten 137 bis 145 ein Verfahren zur Geräuschreduktion bekannt, bei dem eine adaptive Nachführung der Rauschschwelle unter Verwendung eines berechneten Histogramms vorgenommen wird. Zur Schätzung des Betragsspektrums im Sinne eines minimalen, mittleren quadratischen Fehlers, wird der Erwartungswert für zwei Zustände (Sprache und Störung bzw. nur Störung) an festen Frequenzpunkten ermittelt, wobei diesem Verfahren die Annahme zugrundeliegt, daß beide Zustände mit gleicher Wahrscheinlichkeit auftreten und die Störung an einen festen Frequenzpunkt durch einen Gauß-Prozeß zu beschreiben ist.
Die Berechnung der Wahrscheinlichkeitsdichte (Histogramm) erfordert für beispielsweise 128 Frequenzpunkte eine ebenso hohe Anzahl von Speichern und jeweils für die Bestimmung der Rauschschwelle die Berechnung eines vollständigen Histogramms.
Weiterhin ist aus der EP-A1-00 47 589 eine Schaltungsanordnung zur Erkennung von Sprachpausen in einem Sprachsignal bekannt, bei der ein Kurzzeitmittelwert zu bestimmten Taktzeitpunkten eines Taktes bestimmt wird.
Die daraus bekannte Schaltungsanordnung weist eine feste Schwelle und zwei adaptiv nachgeführte Schwellen auf, wobei zur Nachführung der Schwellen das Vorzeichen der jeweiligen Steigung im Sprachsignal ausgenutzt wird.
Die Nachführung der Rauschschwellen erfolgt bei diesem Verfahren um konstante Beträge, so daß die adaptiven Rauschschwellen nicht in Abhängigkeit von eigenen Werten zu vorangegangenen Taktzeitpunkten bestimmt werden. Vorzugsweise wird eine solche Schaltungsanordnung zur Erkennung von Sprachpausen in einem Sprachsignal verwendet, welchem nur schwache Störsignale überlagert sind.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Nachführung einer Rauschschwelle derart anzugeben, daß Fehlentscheidungen im oben erläuterten Sinne vermieden werden und daß eine Sprachpausenerkennung auch dann ermöglicht wird, wenn sich die mittlere Geräuschleistung nur langsam verändert.
Diese Aufgabe wird jeweils durch die im kennzeichnenden Teil der Ansprüche 1 oder 2 angegebenen Verfahrensschritte gelöst. Vorteilhafte Ausgestaltungen geben die Unteransprüche an.
Anhand der in der Zeichnung dargestellten Ausführungsform soll die Erfindung näher beschrieben und erläutert werden.
Es zeigt
Fig. 1 ein Blockschaltbild einer Ausführungsform zur Durchführung des erfindungsgemäßen Verfahrens,
Fig. 2, 3 und 4 Diagramme zur Erläuterung des erfindungsgemäßen Verfahrens.
Im Blockbild nach Fig. 1 werden aus dem an einer Klemme E angelegten, gestörten Sprachsignal durch einen Analog-Digital-Umsetzer A/D zu Abtastzeitpunkten kT o Abtastwerte x(k) gewonnen, wobei k eine natürliche Zahl und 1/T o die Abtastfrequenz darstellt. Die Abtastwerte x(k) werden an einen Mittelwertbildner M weitergegeben.
Der Mittelwertbildner M erzeugt zu allen Taktzeitpunkten T(n) mit dem zeitlichen Abstand mT o aus den Beträgen von m aufeinanderfolgenden Abtastwerten einen sogenannten Kurzzeitmittelwert.
Als Mittelwert ist das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet, da zu dessen Bestimmung der Bausteineaufwand geringer ist als z. B. zur Bildung des quadratischen Mittels. Jeder Kurzzeitmittelwert G(n) ist näherungsweise ein Maß für die mittlere Leistung des gestörten Sprachsignales über einen Zeitraum von etwa 100 ms. Durch diese Angabe und durch die Abtastfrequenz ist auch die Zahl m der Abtastwerte festgelegt, die zur Bestimmung eines der Kurzzeitmittelwerte G(n) erforderlich sind. Wird z. B. das gestörte Sprachsignal mit 10 kHz abgetastet, so muß m etwa 1000 betragen. Jede der Größen G (1), G (2) . . . ergibt sich also aus etwa tausend aufeinanderfolgenden Abtastwerten.
Die Einheit GL der Fig. 1 führt eine Glättung der Folge der Kurzzeitmittelwerte G(n) durch. Näheres über den Zweck und die Art und Weise der Glättung wird weiter unten angegeben.
Parallel zur Glättung wird durch den Block PA der Fig. 1 aus den Kurzzeitmittelwerten ein Schätzwert P(n) für die mittlere Geräuschleistung, d. h. für die mittlere Leistung des Störsignales bestimmt. Genaueres über den Schätzwert P(n) wird ebenfalls weiter unten ausgeführt. Ein Vergleicher V in Fig. 1 vergleicht eine vom Schätzwert P(n) abhängige Schwelle S mit den geglätteten Kurzzeitmittelwerten GG(n). Ist der geglättete Kurzzeitmittelwert GG(n) kleiner als die Schwelle S, wird ein Signal an eine Einheit EN weitergeleitet. Hat die Einheit EN z. B. zu zwei aufeinanderfolgenden Taktzeitpunkten T(n-1) und T(n) ein derartiges Signal erhalten, so läßt sie ihrerseits durch ein eigenes Signal an einer Klemme A das Vorliegen einer Sprachpause erkennen.
Das Diagramm a) der Fig. 2 zeigt ein mögliches Ausgangssignal AM des Mittelwertbildners M, d. h. eine mögliche Folge der Kurzzeitmittelwerte G (1), G (2) . . . In dem Diagramm a) ist das Ausgangssignal AM so normiert, daß sein absolutes Maximum den Wert 1 annimmt. Bei den eingetragenen Amplitudenschwellen handelt es sich um den Schätzwert P(n) (untere Schwelle, unterbrochen gezeichnet) und die Schwelle S (obere Schwelle, durchgezogen). Im Diagramm b) ist schematisch das zugehörige Sprachsignal S mit seinen wahren Pausen P abgebildet. Würde eine Pausenbestimmung aufgrund der Unterschreitung der oberen Amplitudenschwelle im Diagramm a) - diese Pausenbestimmung ist im Diagramm c) abgebildet - vorgenommen werden, so würde sich eine Vielzahl von Fehlentscheidungen ergeben, wie ein Vergleich der Diagramme b) und c) zeigt. Eine Verschiebung der oberen Schwelle nach unten würde zwar dazu führen, daß die im Diagramm c) enthaltenen Leistungseinbrüche, die nicht auf Sprachpausen beruhen, auch nicht angezeigt würden, jedoch würde dann die Aussage über die Pausenlängen erheblich verfälscht werden.
Daher erfolgt vor der Entscheidung auf Pause eine Glättung des Ausgangssignales AM, und zwar entweder mit Hilfe eines linearen Digitalfilters, durch das aus drei aufeinanderfolgenden Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) ein Wert GG(n) des geglätteten Signales erhalten wird, oder mit Hilfe eines Median-Filters.
Bei der linearen Filterung hat sich ein Filter mit den Koeffizienten ¼, ½ und ¼ als günstig erwiesen.
Bei der Medianfilterung werden z. B. fünf aufeinanderfolgende Kurzzeitmittelwerte G(n) . . . G(n-4) der Größe nach geordnet und dann der mittlere Wert als Ausgangswert GG(n) des Filters ausgelesen. Wie das Ausgangssignal des Mittelwertbildners M nach der Glättung mit einem linearen Digitalfilter aussieht, ist dem Diagramm a) der Fig. 3 zu entnehmen. Im Diagramm b) sind wiederum schematisch die wahren Sprachabschnitte und die wahren Pausen des Sprachsignales aufgetragen, und das Diagramm c) zeigt die Sprachabschnitte und Sprachpausen, wie sie sich analog zum Diagramm c) in Fig. 1 ergeben. Durch die lineare Glättung ist die Zahl der Fehlentscheidungen erheblich zurückgegangen, wie der Vergleich von Fig. 2 und Fig. 3 zeigt. Auch bei Glättung mit einem Median-Filter verringert sich - wie dem Diagramm c) der Fig. 4 zu entnehmen ist - die Zahl der Fehlentscheidungen.
Eine weitere Maßnahme, kürzere Leistungseinbrüche im gestörten Sprachsignal nicht als Pausen zu mißdeuten, besteht darin, z. B. einen Leistungseinbruch erst bei zweimaligem Unterschreiten der oberen Amplitudenschwelle in der Fig. 2, 3 oder 4 als Sprachpause anzusehen.
Die in der Fig. 2, 3 und 4 eingezeichneten Amplitudenschwellen werden - wie oben schon angedeutet - von der Einheit PA in Fig. 1 ermittelt, und zwar wird zunächst für jeden Zeitpunkt T(n) der Schätzwert P(n) der Geräuschleistung bestimmt. Diese Größe soll ein ungefähres Maß für die mittlere Leistung des Störsignales sein, wobei die Mittelungszeit in der Größenordnung einer Sekunde liegt.
Weil der Schätzwert P(n) der Geräuschleistung während längerer Sprachpausen - auf deren Erkennung wird weiter unten eingegangen - auf einen aktuellen Wert gebracht wird, liefert das erfindungsgemäße Verfahren auch dann noch gute Ergebnisse, wenn sich die oben erwähnte mittlere Leistung des Störsignales nur langsam verändert, d. h., wenn sie in Zeitintervallen der Größe ein bis zwei Sekunden als stationär anzusehen ist.
Fällt der Zeitpunkt T(n) in eine längere Sprachpause, so wird der Schätzwert P(n) als Linearkombination aus dem vorangegangenen Schätzwert P(n-1) und dem Kurzzeitmittelwert G(n) nach der Gleichung
P(n) = (1-a )P(n-1) + α P(n)
neu bestimmt. Der Wert der in dieser Gleichung auftretenden Konstante α liegt zwischen Null und Eins. Ein typischer Wert für α ist 0,5. Liegt keine längere Sprachpause vor, so wird der vorangegangene Schätzwert beibehalten, d. h. es wird P(n) = P(n-1) gesetzt. Zu Beginn des gesamten Verfahrens wird der Schätzwert zu Null gewählt.
Um die längeren Sprachpausen zu erkennen, wird laufend geprüft, ob die Differenz zweier aufeinanderfolgender Kurzzeitmittelwerte betragsmäßig unter eine Schwelle D fällt. Ist z. B. K mal nacheinander die Ungleichung
|G(n) - G(n-1)| < D = γ G(n)
erfüllt, so wird dieser Umstand als Vorliegen einer längeren Sprachpause gewertet und der neue Schätzwert P(n) nach der oben angegebenen Gleichung bestimmt. Die Schwelle D ist proportional zum Kurzzeitmittelwert G(n) gewählt, um zu gleichen Aussagen zu gelangen, wenn z. B. die Pegel aller Signale verdoppelt würden. Der Proportionalitätsfaktor γ und die Anzahl K sind experimentell so zu bestimmen, daß durch das Erkennungsverfahren möglichst wenige Fehlentscheidungen gefällt werden. Typische Werte sind K = 10 und γ = 1,1.
Ein anderer Weg, einen möglichst guten Schätzwert P(n) für eine langsam veränderliche Geräuschleistung zu erhalten, besteht darin, zu jedem Taktzeitpunkt T(n) eine Vergrößerung des schon vorhandenen Schätzwertes P(n-1) um einen festen Betrag c vorzunehmen, wenn der Schätzwert P(n-1) kleiner als der Kurzzeitmittelwert G(n) ist. Jedes Mal also, wenn die Ungleichung P(n-1) < G(n) erfüllt ist, wird P(n) = P(n-1) + c gesetzt.
Die Konstante c ist so zu wählen, daß der Schätzwert bei ungehinderter Vergrößerung in ein bis zwei Sekunden die Aussteuerungsgrenze erreicht hat. Liegt andererseits der schon vorhandene Schätzwert P(n-1) über dem augenblicklichen Kurzzeitmittelwert G(n), so wird der neue Schätzwert P(n) gegenüber dem vorhandenen erniedrigt, und zwar gemäß der Gleichung
P(n) = (1-β )P(n-1) + β G(n),
die den neuen Schätzwert als Linearkombination des vorangegangenen Schätzwertes und des augenblicklichen Kurzzeitmittelwertes G(n) darstellt. Die Erniedrigung des Schätzwertes läßt sich am deutlichsten erkennen, wenn die Konstante β zu Eins gewählt wird. Dann ergibt sich nämlich P(n) = G(n) < P(n-1). Werte um 0,5 haben sich jedoch für die Konstante β als günstiger erwiesen.
Die Schwelle S, die zur Pausenentscheidung herangezogen wird, ist proportional zum Schätzwert P(n). Typisch für den Zusammenhang zwischen der Schwelle S und dem Schätzwert P(n) ist die Gleichung S = 1,1 P(n).

Claims (8)

1. Verfahren zur Nachführung einer vom Kurzzeitmittelwert des empfangenen Sprachsignals, das von Störsignalen überlagert sein kann, abhängigen Rauschschwelle (Funktion des Schätzwerts der Geräuschleistung), dadurch gekennzeichnet, daß die Nachführung der Rauschschwelle (S) nur dann erfolgt, wenn die Differenz von zu aufeinanderfolgenden Taktzeitpunkten T(n) bestimmten Kurzzeitmittelwerten G(n) betragsmäßig unter einer festen zweiten Schwelle (D) liegt, und daß die Rauschschwelle (S) in Abhängigkeit von dem zum momentanen Taktzeitpunkt T(n) bestimmten Kurzzeitmittelwert G(n) und von der zum vorangegangenen Taktzeitpunkt T(n-1) bestimmten Rauschschwelle (S) dann verändert wird, wenn lückenlos für eine Anzahl K vorangegangener Taktzeitpunkte T(n-1) die Differenz unter der festen zweiten Schwelle (D) lag.
2. Verfahren zur Nachführung einer vom Kurzzeitmittelwert des empfangenen Sprachsignals, das von Störsignalen überlagert sein kann, abhängigen Rauschschwelle (Funktion des Schätzwerts der Geräuschleistung), dadurch gekennzeichnet, daß die Rauschschwelle (S) linear erhöht wird, wenn die zum vorangegangenen Taktzeitpunkt T(n-1) bestimmte Rauschschwelle (S) kleiner dem zum momentanen Taktzeit T(n) bestimmten Kurzzeitmittelwert G(n) ist, und daß die Rauschschwelle (S) andernfalls in Abhängigkeit von dem zum momentanen Taktzeitpunkt T(n) bestimmten Kurzzeitmittelwert G(n) und von der zum vorangegangenen Taktzeitpunkt T(n-1) bestimmten Rauschschwelle (S) abgesenkt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Kurzzeitmittelwert G(n) das arithmetische Mittel aus den Beträgen der Abtastwerte verwendet wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) für die mittlere Geräuschleistung nur dann nach der Gleichung P(n) = (1-α )P(n-₁) + αG(n)mit α als einer ersten Konstanten bestimmt wird, wenn die Differenz der Kurzmittelwerte G(n) - G(n-1) betragsmäßig unter einer zweiten Schwelle (D) liegt und dieser Fall lückenlos für eine Anzahl K vorangegangener Taktzeitpunkte eingetreten ist, und daß andernfalls der Schätzwert P(n) gleich dem vorangegangenen Schätzwert P(n-1) gesetzt wird.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß der Schätzwert P(n) für die mittlere Geräuschleistung nur dann nach der Gleichung P(n) = P(n-1) + cmit c als einer zweiten Konstanten bestimmt wird, wenn die UngleichungP(n-1) < G(n)erfüllt ist, und daß anderenfalls der Schätzwert P(n) mit einer dritten Konstanten β zuP(n) = (1-β )P(n-1) + β G(n)gewählt wird.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die erste Schwelle (S) proportional zum Schätzwert P(n) gewählt wird.
7. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß ein geglätteter Kurzzeitmittelwert GG(n) aus drei Kurzzeitmittelwerten G(n), G(n-1) und G(n-2) nach der Formel berechnet wird, wobei die Konstanten C o, C₁, C₂ alle größer oder gleich Null sind und ihre Summe den Wert Eins hat.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Glättung durch ein Median-Filter vorgenommen wird.
DE19823243231 1982-11-23 1982-11-23 Verfahren zur erkennung von sprachpausen Granted DE3243231A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE19823243231 DE3243231A1 (de) 1982-11-23 1982-11-23 Verfahren zur erkennung von sprachpausen
EP83201638A EP0110467B2 (de) 1982-11-23 1983-11-17 Anordnung zur Erkennung von Sprachpausen
US06/552,998 US4700394A (en) 1982-11-23 1983-11-17 Method of recognizing speech pauses
DE8383201638T DE3373037D1 (en) 1982-11-23 1983-11-17 Arrangement for the detection of speech intervals
CA000441366A CA1203627A (en) 1982-11-23 1983-11-17 Method of recognizing speech pauses
AU21545/83A AU561076B2 (en) 1982-11-23 1983-11-21 Method of recognizing speech pauses
JP58220467A JPS59105695A (ja) 1982-11-23 1983-11-22 音声ポ−ズ認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19823243231 DE3243231A1 (de) 1982-11-23 1982-11-23 Verfahren zur erkennung von sprachpausen

Publications (2)

Publication Number Publication Date
DE3243231A1 DE3243231A1 (de) 1984-05-24
DE3243231C2 true DE3243231C2 (de) 1987-07-02

Family

ID=6178780

Family Applications (2)

Application Number Title Priority Date Filing Date
DE19823243231 Granted DE3243231A1 (de) 1982-11-23 1982-11-23 Verfahren zur erkennung von sprachpausen
DE8383201638T Expired DE3373037D1 (en) 1982-11-23 1983-11-17 Arrangement for the detection of speech intervals

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE8383201638T Expired DE3373037D1 (en) 1982-11-23 1983-11-17 Arrangement for the detection of speech intervals

Country Status (6)

Country Link
US (1) US4700394A (de)
EP (1) EP0110467B2 (de)
JP (1) JPS59105695A (de)
AU (1) AU561076B2 (de)
CA (1) CA1203627A (de)
DE (2) DE3243231A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4220524A1 (de) * 1992-06-23 1992-10-22 Matzner Rolf Dipl Ing Verfahren und vorrichtung zur getrennten schaetzung der einzelleistungen zweier stochastischer prozesse aus der beobachtung des durch additive ueberlagerung entstandenen summenprozesses

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
EP0167364A1 (de) * 1984-07-06 1986-01-08 AT&T Corp. Sprachpausenbestimmung mit Teilbandkodierung
AU583871B2 (en) * 1984-12-31 1989-05-11 Itt Industries, Inc. Apparatus and method for automatic speech recognition
JPH0748695B2 (ja) * 1986-05-23 1995-05-24 株式会社日立製作所 音声符号化方式
DE3626862A1 (de) * 1986-08-08 1988-02-11 Philips Patentverwaltung Mehrstufige sender- antennenkoppeleinrichtung
DE3739681A1 (de) * 1987-11-24 1989-06-08 Philips Patentverwaltung Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
FR2631147B1 (fr) * 1988-05-04 1991-02-08 Thomson Csf Procede et dispositif de detection de signaux vocaux
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
US5305422A (en) * 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
DE4405723A1 (de) * 1994-02-23 1995-08-24 Daimler Benz Ag Verfahren zur Geräuschreduktion eines gestörten Sprachsignals
DE19730518C1 (de) * 1997-07-16 1999-02-11 Siemens Ag Verfahren und Einrichtung zum Erkennen einer Sprechpause
GB0103242D0 (en) * 2001-02-09 2001-03-28 Radioscape Ltd Method of analysing a compressed signal for the presence or absence of information content
DE10120231A1 (de) * 2001-04-19 2002-10-24 Deutsche Telekom Ag Verfahren und Anordnung zur einkanaligen Geräuschreduktion für gestörte Sprachsignale
WO2005038773A1 (en) * 2003-10-16 2005-04-28 Koninklijke Philips Electronics N.V. Voice activity detection with adaptive noise floor tracking
RU2436173C1 (ru) * 2010-06-15 2011-12-10 Государственное образовательное учреждение высшего профессионального образования "Рязанский государственный радиотехнический университет" Способ обнаружения пауз в речевых сигналах и устройство его реализующее
US8543061B2 (en) 2011-05-03 2013-09-24 Suhami Associates Ltd Cellphone managed hearing eyeglasses
CN104658546B (zh) * 2013-11-19 2019-02-01 腾讯科技(深圳)有限公司 录音处理方法和装置
RU2691603C1 (ru) * 2018-08-22 2019-06-14 Акционерное общество "Концерн "Созвездие" Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1044353B (it) * 1975-07-03 1980-03-20 Telettra Lab Telefon Metodo e dispositivo per il rico noscimento della presenza e.o assenza di segnale utile parola parlato su linee foniche canali fonici
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4025721A (en) * 1976-05-04 1977-05-24 Biocommunications Research Corporation Method of and means for adaptively filtering near-stationary noise from speech
US4028496A (en) * 1976-08-17 1977-06-07 Bell Telephone Laboratories, Incorporated Digital speech detector
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
JPS56135898A (en) * 1980-03-26 1981-10-23 Sanyo Electric Co Voice recognition device
CA1147071A (en) * 1980-09-09 1983-05-24 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
US4531228A (en) * 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4220524A1 (de) * 1992-06-23 1992-10-22 Matzner Rolf Dipl Ing Verfahren und vorrichtung zur getrennten schaetzung der einzelleistungen zweier stochastischer prozesse aus der beobachtung des durch additive ueberlagerung entstandenen summenprozesses

Also Published As

Publication number Publication date
EP0110467A1 (de) 1984-06-13
EP0110467B1 (de) 1987-08-12
AU561076B2 (en) 1987-04-30
AU2154583A (en) 1984-05-31
DE3243231A1 (de) 1984-05-24
EP0110467B2 (de) 1991-06-19
US4700394A (en) 1987-10-13
JPS59105695A (ja) 1984-06-19
DE3373037D1 (en) 1987-09-17
CA1203627A (en) 1986-04-22

Similar Documents

Publication Publication Date Title
DE3243231C2 (de)
DE3101851C2 (de) Vorrichtung zum Erkennen von Sprache
DE69614989T2 (de) Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung
EP1005695B1 (de) Verfahren und vorrichtung zum erfassen eines anschlags in einem zeitdiskreten audiosignal
DE68929442T2 (de) Vorrichtung zur Erfassung von Sprachlauten
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE2233872C2 (de) Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals
DE69300413T2 (de) Verfahren zum Identifizieren von Sprach- und Rufverlaufsignalen.
DE3012771C2 (de)
DE69028428T2 (de) Vorrichtung zum Erfassen eines Sprachsignals
EP0111947A1 (de) Anordnung zur Erkennung von Sprachpausen
DE3422877C2 (de)
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
EP1391029B1 (de) Verfahren zum bestimmen der drehstellung der antriebswelle eines kommutierten gleichstrommotors
EP0076233A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69325053T2 (de) Verfahren zur Verbesserung der Empfindlichkeit und des Sprachschutzes eines Mehrfrequenzempfängers
DE03730668T1 (de) Sprachsignalinterpolationseinrichtung
DE69511508T2 (de) Sprachaktivitätsdetektion
DE69524768T2 (de) Filter sowie ein repetierendes und ein lernfähiges steuerungssystem, beide mit einem derartigen filter ausgestattet
DE19848586C2 (de) Detektor und Verfahren zum Detektieren von Tönen oder von anderen periodischen Signalen
EP4253969B1 (de) Verfahren zur sättigungsdetektion eines stromwandlers
DE19854341A1 (de) Verfahren und Schaltungsanordnung zur Sprachpegelmessung in einem Sprachsignalverarbeitungssystem
WO1996005565A1 (de) Verfahren zur erkennung von signalen mittels fuzzy-klassifikation
DE3003556C2 (de) Verfahren und Vorrichtung zur Bestimmung eines Nutzsignals aus einem mit Störsignalen überlagerten bandbegrenzten Signal
DE68919924T2 (de) Verfahren zur Feststellung des Sättigungspegels eines Sprachsignals.

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee