DE19600404A1

DE19600404A1 - Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache

Info

Publication number: DE19600404A1
Application number: DE19600404A
Authority: DE
Inventors: Matthew W Taylor; Ralph D Smallwood
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1995-01-31
Filing date: 1996-01-08
Publication date: 1996-08-01
Anticipated expiration: 2016-01-09
Also published as: JPH08248973A; US5822726A; DE19600404C2; CA2166239C; CA2166239A1

Description

Gebiet der Erfindung

Die Erfindung bezieht sich allgemein auf Sprachdetekto ren und insbesondere auf die Identifizierung des Sprachbe ginns.

Hintergrund der Erfindung

Viele Audiovorrichtungen verwenden Detektoren, die zwi schen Sprache und Hintergrundlärm unterscheiden, um den Be ginn eines Sprachsignals festzustellen. Diese Vorrichtungen umfassen Tonbandgeräte, Telefonausrüstungen, wie beispiels weise automatische Wähleinrichtungen, zellulare Telefone, schnurlose Telefone und Telefone, die ohne Hände zu bedienen sind; Computerausrüstungen und verschiedene andere Vorrich tungen.

Beispielsweise beginnen Tonbandgeräte mit einer Sprach steuerung automatisch mit dem Aufzeichnen, wenn ein Sprach signal erkannt wird. Diese Geräte laufen üblicherweise so lange, bis keine Sprache mehr detektiert wird. Freisprechte lefone umfassen eine Sendepfadschaltung, eine Empfangspfad schaltung und eine Steuerung, die einen Sendezustand aus wählt, der die Sendepfadschaltung einschaltet, oder einen Empfangszustand, der die Empfangspfadschaltung einschaltet. Während des Freisprechens schaltet die Steuerung zwischen den Sende- und Empfangszuständen in Abhängigkeit von dem Vorhan densein oder dem Fehlen von Sprache in den Empfangs- und Sen depfaden hin und her. Unabhängig von der Vorrichtung, die ei ne Schaltung zur Erkennung des Sprachbeginns verwendet, ist es wichtig, daß der Sprachdetektor zuverlässig und schnell das Vorhandensein von Sprache erkennt, wenn der Benutzer mit dem Sprechen beginnt.

Bekannte Schaltungen zur Detektion von Sprache verwenden analoge oder digitale Schaltkreise. Analoge Schaltungen zur Detektion des Vorhandenseins von Sprache umfassen einen Lang zeitkonstantintegrator und einen Kurzzeitkonstantintegrator. Ein Vergleicher ist mit den Ausgängen der Integratoren ver bunden. Wenn der Ausgangspegel des Langzeitkonstantintegra tors kleiner ist als der Ausgangspegel der Kurzzeitkonstant integrators, zeigt der Ausgang des Vergleichers an, daß Spra che vorhanden ist. Wenn der Ausgangswert des Kurzzeitkon stantintegrators kleiner ist als der Ausgangswert des Lang zeitkonstantintegrators, zeigt der Ausgangswert des Verglei chers an, daß keine Sprache vorhanden ist. Eine Steuerschal tung, die mit dem Ausgang des Vergleichers verbunden ist, de tektiert den Beginn der Sprache, abhängig von der Übergangs änderung des Ausgangswertes des Vergleichers.

Digitale Sprachdetektorschaltungen verwenden üblicher weise einen digitalen Signalprozessor, um die analoge Schal tung des analogen Sprachdetektors zu simulieren. Diese digi talen Schaltungen tasten das Eingangssignal mit einer Rate ab, die die Nyquist-Rate überschreitet. Wie der Fachmann er kennt, besitzt die Nyquist-Rate den doppelten Wert der Fre quenz des interessierenden Eingangssignals. Eine Abtastrate, die mit der Nyquist-Rate von Sprachsignalen korrespondiert, beträgt mindestens 6000 Hz. Die Abtastungen des Eingangssig nals, die mit dieser hohen Rate gewonnen wurden, werden in einem infiniten Impulsantwortfilter (IIR) oder einem finiten Impulsantwortfilter (FIR) gefiltert. Es wird ein Vergleich der gefilterten Signale durchgeführt, um das Vorhandensein von Sprache zu detektieren.

Obwohl Sprachdetektoren, die analoge oder digitale Schaltungen verwenden, wirksam den Beginn der Sprache erken nen, bleibt es wünschenswert, diese Detektoren zu verbessern. Die analogen Systeme erfordern analoge Operationsverstärker, Dioden, Widerstände, Kondensatoren und einen Vergleicher, die externe Bauteile gegenüber einem beliebigen dabei verwendeten digitalen Signalprozessor darstellen. Diese Bauteile sind teuer, erfordern Leiterplattenfläche, bei der möglichst Ein sparungen vorgenommen werden sollen, um die Größe und das Ge wicht der Vorrichtung, die den Detektor verwendet, zu redu zieren. Die digitalen Systeme verwenden einen mäßig schnellen Analog/Digital (A/D)-Wandler, ein Antifaltungsfilter, spezia lisierte Hardware, die Tausende von Multiplikationen in jeder Sekunde durchführt, und eine kritische Zeitgebung, um wirksam die analogen Filter zu simulieren. Diese Schaltungen erfor dern Schaltkreise für die Sprachdetektion, da die digitalen Signalprozessoren, die verwendet werden, um andere Operatio nen durchzuführen, nicht auch als Sprachdetektoren des Stan des der Technik verwendet werden können, oder es muß ein zu sätzlicher digitaler Signalprozessor vorgesehen werden, der die Sprachdetektion durchführt. Alternativ dazu muß ein teu rerer digitaler Signalprozessor verwendet werden, um alle die Schaltungsfunktionen für die elektronische Vorrichtung auszu führen.

Es besteht somit ein Bedürfnis nach einer Schaltung, die das Vorhandensein von Sprache mit einer hohen Zuverlässigkeit detektiert, ohne die analogen Schaltkreise analoger Systeme oder die ausgedehnten Resourcen digitaler Schaltungen zu ver wenden, die bei den existierenden digitalen Systemen für die Detektion von Sprache erforderlich sind.

Kurze Beschreibung der Zeichnungen

Fig. 1 ist ein Schaltungsschema in Blockdiagrammform, das eine Schaltung zeigt, die einen Sprachdetektor umfaßt;

Fig. 2 ist ein Flußdiagramm, das den Betrieb des Prozes sors in Fig. 1 zeigt;

Fig. 3 ist eine Wahrscheinlichkeitsverteilung, die ein Histogramm eines gleichgerichteten sinusförmigen Ein gangssignals zeigt;

Fig. 4 zeigt ein Rauschhistogramm, wobei die Zahl des Auftretens auf der vertikalen Achse und die Amplitude auf der horizontalen Achse dargestellt ist;

Fig. 5 zeigt ein Histogramm von Rausch- und Sprachsigna len, wobei die Zahl des Auftretens auf der vertikalen Achse und die Amplitude auf der horizontalen Achse dargestellt ist;

Fig. 6 ist ein Schaltungsschema in Blockdiagrammform, das eine alternative Ausführungsform des Sprachdetektors von Fig. 1 zeigt;

Fig. 7 ist ein Rauschhistogramm für eine Verallgemeine rung von 20 Meßgrößen mit der Anzahl des Auftretens auf der vertikalen Achse und der Binzahl auf der horizontalen Achse;

Fig. 8 ist ein Rauschhistogramm für einen lärmigeren Hintergrundpegel, als der der in Fig. 7 gezeigt ist, und es zeigt die Zahl des Auftretens auf der vertikalen Achse und die Bin auf der horizontalen Achse für eine Verallgemeinerung von 20 Meßgrößen;

Fig. 9 ist eine perspektivische Ansicht, die ein schnur loses Telefon zeigt, in welchem die vorliegende Erfindung verwendet werden kann;

Fig. 10 ist ein Schaltschema in Blockdiagrammform, das eine Tonschaltung für das schnurlose Telefon der Fig. 9 zeigt;

Fig. 11 ist ein Schaltschema in Blockdiagrammform, das eine Sendeschaltung einschließlich eines Sprachdetektors für das Telefon der Fig. 10 zeigt; und

Fig. 12 ist ein Flußdiagramm, das einen alternativen Be trieb des Prozessors zeigt.

Detaillierte Beschreibung der Zeichnungen

Eine Tonschaltung 103, die einen Sprachdetektor 101 (Fig. 1) umfaßt, umfaßt einen Schaltungseingang 105 für die Verbindung mit einer Eingangssignalsquelle 104. Ein Steuer signalgenerator 113 erzeugt Steuersignale an deren Steueraus gang. Eine Abtastschaltung 112 ist mit dem Schaltungseingang 105 und dem Steuersignalgenerator 113 verbunden. Die Abtast schaltung tastet die Eingangssignale in Abhängigkeit vom Steuersignal ab. Ein Prozessor 116 ist mit der Abtastschal tung verbunden, um die Signalabtastungen zu empfangen. Der Prozessor wertet die Signalabtastungen aus, um ein Hinter grundlärmpegel festzustellen und er detektiert das Vorhanden sein von Sprache, wenn die Eingangssignale den Hintergrund lärmpegel überschreiten. Bei einer Ausführungsform handelt es sich beim Steuersignal um ein Zufallssignal. Bei einer ande ren Ausführungsform liegt die mittlere Frequenz des Steuer signals unterhalb der Nyquist-Rate. Bei einer weiteren Aus führungsform zählt der Prozessor die Abtastungen des empfan genen Signals innerhalb eines vorbestimmten Bereichs und stellt einen Hintergrundlärmpegel aus der Zahl der Abtastun gen fest, die sich innerhalb des vorbestimmten Bereichs be finden.

Die Audioschaltung 103 umfaßt einen Schaltungseingang 105, der mit einer Signalquelle 104 verbunden ist. Die Quelle der Eingangssignale kann ein Mikrofon zur Umwandlung hörbarer Signale in Tonsignale, ein MODEM (das heißt, ein Modula tor/Demodulator), ein digitaler Signalempfänger, eine Gabel schaltung (das heißt, eine Umwandlungsvorrichtung von zwei Leitungen auf vier Leitungen) oder dergleichen sein. Der Signalquellenausgang umfaßt elektrische Signale, die die menschliche Sprache darstellen und auf die nachfolgend als menschliche Sprachsignale Bezug genommen wird. Die Eingangs signalquelle kann somit eine Telefonleitung, einen Demodula tor, einen Meßwandler oder dergleichen umfassen. Die Ton signale können Sprache und/oder Daten umfassen.

Der Ausgang der Signalquelle 104 (Fig. 1) ist mit einem Schaltungseingang 105 über einen Leiter 106 verbunden. Der Schaltungeingang 105 ist mit einer Konditionierschaltung 108 über einen zweiten Leiter 109 verbunden. Die Konditionier schaltung 108 umfaßt eine Schaltung, die ein Signal erzeugt, das eine vorbestimmte Betriebscharakteristik hat, die geeig net ist für die Verarbeitung durch andere Schaltungen, wie beispielsweise einen Sprachdetektor 101. Wenn die Eingangssi gnale in einem analogen Format vorhanden sind, wandelt die Konditionierschaltung das Eingangssignal in ein digitales Si gnal um.

Der Ausgang der Konditionierschaltung 108 ist mit einer Abtastschaltung 112 über einen dritten Leiter oder einen Signalbus 114 verbunden. Die Abstastschaltung 112 tastet die von der Konditionierschaltung 108 ausgegebene konditionierten Signale mit einer Abtastrate ab, die durch ein Steuersignal am Steuereingang 117 gesteuert wird. Das Steuersignal wird auf einem Leiter 115 geführt, der zwischen einem Ausgang 118 eines Steuersignalgenerators 113 und einem Steuereingang 117 geschaltet ist. Der Steuersignalgenerator 113 erzeugt ein zu fälliges Steuersignal. Der Steuersignalgenerator kann unter Verwendung eines handelsüblichen Signalprozessors oder irgend einer anderen geeigneten Signalgeneratorschaltung implemen tiert werden. Die Zufallssteuersignale haben vorzugsweise ei ne mittlere Frequenz, die unter der Nyquist-Rate für Sprach signale liegt, vorzugsweise eine Frequenz, die innerhalb des Sprachfrequenzbereichs liegt. Es wird angenommen, daß sich der menschliche Sprachbereich von ungefähr 100 bis 3500 Hz erstreckt.

Der Steuersignalgenerator 113 erzeugt ein Zufallssteuer signal am Ausgang 118, wie das oben angegeben ist. Das Steu ersignal kann entweder zufällige Zeitintervalle zwischen den Pulsen aufweisen oder es kann der Steuersignalgenerator in zufälliger Weise angeschaltet werden, um ein Steuersignal mit fester Frequenz während zufälliger Intervalle zu erzeugen. Indem man es ermöglicht, daß der Steuersignalgenerator zufäl lig eingeschaltet wird, kann ein Prozessor, der primär andere Funktionen erfüllt, eine Spracherkennung während der ander weitig inaktiven Perioden durchführen. Das macht einen zu sätzlichen Sprachdetektorprozessor oder einen teueren Mikro prozessor, der einen Mehrfachbetrieb ausführen kann, über flüssig. Es ist zu beachten, daß Prozessoren in einen inakti ven Zustand oder einen Ruhezustand treten, wenn vorbestimmte Bedingungen erfüllt sind, die in zufälligen Intervallen auf treten.

Der Ausgang der Abtastschaltung 112 umfaßt Abtastungen der Eingangssignale und ist mit dem Eingang eines Prozessors 116 über einen vierten Leiter oder einen Signalbus 119 ver bunden. Der Prozessor 116 detektiert das Vorhandensein eines Sprachsignals aus den zufälligen Abtastausgangssignalen, die von der Abtastschaltung 112 ausgegeben werden.

Fachleute werden erkennen, daß die Signale, die auf den Leitern 114 und 119 geführt werden, serielle Daten auf einem einzelnen Leiter oder parallele Daten auf einem mehradrigen Bus sein können.

Der Betrieb des Prozessors 116 wird nun unter Bezug auf Fig. 2 beschrieben. Fig. 2 zeigt eine Sprachdetektion für Signale, die ein 8-Bit Wort haben, auf den Leitern oder Bus sen 114 und 119 in Fig. 1. Nach der Initialisierung im Block 299 wird ein Sprachsignalschwellwert Th auf seinen maximalen Wert 255 gesetzt; ein Abtastzähler wird rückgesetzt; Bins 0-9 werden rückgesetzt; und ein Sprachtimer wird rückgesetzt. Der Prozessor 116 gibt eine 8-Bit Abtastung Si von der Abtast schaltung ein, wie das in Block 300 gezeigt ist. Wenn die di gitale Abtastung Si einen Wert von 0 bis 24 hat, wie das im Entscheidungsblock 301 bestimmt wird, wird ein Zähler, auf den nachfolgend als Bin 0 Bezug genommen wird, erhöht, wie das in Block 302 gezeigt ist. Es ist anzumerken, daß jeder der Bins mit einem entsprechenden vorbestimmten Bereich ver bunden ist, der eine Untermenge der mögliche Pegel des Aus gangssignals der Konditionierschaltung darstellt. Der vorbe stimmte Bereich, der mit Bin 0 verbunden ist, beträgt 0-24. Wenn die digitale Abtastung einen Wert von 25-50 hat, wie das im Entscheidungsblock 303 bestimmt wird, so wird ein Zäh ler, auf den nachfolgend als Bin 1 Bezug genommen wird, er höht, wie das in Block 304 gezeigt ist. Wenn die digitale Ab tastung Si einen Wert von 51 bis 76 hat, wie das in Entschei dungsblock 305 bestimmt wird, so wird der Zähler in Bin 2 er höht, wie das in Block 306 gezeigt ist. Wenn die Abtastung Si einen Wert von 77 bis 101 hat, wie das in Entscheidungsblock 307 bestimmt wird, so wird ein Zähler in Bin 3 erhöht, wie das in Block 308 gezeigt ist. Wenn die digitale Abtastung ei nen Wert von 102 bis 127 hat, wie das in Entscheidungsblock 309 bestimmt wird, so wird ein Zähler in Bin 4 erhöht, wie das in Block 310 gezeigt ist. Wenn die digitale Signalabta stung einen Wert von 128 bis 153 hat, wie das in Entschei dungsblock 311 bestimmt wird, wird ein Zähler, auf den nach folgend als Bin 5 Bezug genommen wird, erhöht, wie das in Block 312 gezeigt ist. Wenn die digitale Signalabtastung Si einen Wert von 154 bis 178 hat, wie das in Entscheidungsblock 313 bestimmt wird, so wird ein Zähler in Bin 6 erhöht, wie das in Block 314 angezeigt ist. Wenn der digitale Signalwert einen Wert von 179 bis 205 hat, wie das in Entscheidungsblock 315 bestimmt wird, so wird ein Zähler in Bin 7 erhöht, wie das in Block 316 gezeigt ist. Wenn die Abtastung Si einen Wert von 206 bis 230 hat, wie das in Entscheidungsblock 317 bestimmt wird, so wird ein Zähler in Bin 8 erhöht, wie das in Block 318 angezeigt ist. Wenn die digitale Signalabtastung Si einen Wert von 231 bis 255 hat, wie das in Entscheidungsblock 319 bestimmt wird, so wird ein Zähler in Bin 9 erhöht, wie das in Block 320 angezeigt ist.

Nach Erhöhung einer der Bins 0-9 in einer der Blöcke 302-320 bestimmt der Prozessor 116, ob ein Abtastzähler eine vorbestimmte Zahl M, die sich beispielsweise im Bereich von 100 bis 200 befindet, überschritten hat, wie das im Entschei dungsblock 325 gezeigt ist. M ist eine vorbestimmte Zahl von Abtastungen, die bei der Festlegung eines Sprachsignal schwellwerts Th verwendet werden sollen. Wenn der Abtastzäh ler M nicht überschritten hat, bestimmt der Mikroprozessor, ob die Abtastung Si einen aktuellen Sprachsignalschwellwert Th überschreitet, wie das im Entscheidungsblock 327 gezeigt ist. Der aktuelle Sprachsignalschwellwert Th besteht aus dem Hintergrundlärmschwellwert. Wenn die digitale Abtastung Si den Schwellwert Th nicht überschreitet, so handelt es sich bei der Abtastung um Hintergrundlärm, und der Prozessor gibt die nächste Abtastung in Block 300 ein.

Wenn im Entscheidungsblock 325 bestimmt wurde, daß der Abtastzähler M überschreitet, so fährt der Prozessor 116 mit der Berechnung des nächsten Schwellwerts Th fort. Der Prozes sor schaut sich die Abtastzahlen in jedem der Bins 0-9 an. Der Prozessor 116 erkennt aufeinanderfolgende Bins, die im wesentlichen den gleichen Zählwert wie Bin 0 haben, wie das in Block 328 gezeigt ist. Der Schwellwert Th wird so gewählt, daß er die höchste Zahl im höchsten Bin darstellt, der im we sentlichen den gleichen Zählwert wie Bin 0 aufweist. Somit wird, wenn jeder der Bins 0-3 im wesentlichen den gleichen Zählwert und Bin 4 einen wesentlich niedrigeren Zählwert auf weist, der Schwellwert auf 101 gesetzt, da 101 der höchste Pegel in Bin 4 ist.

Der Prozessor 116 bestimmt dann, ob die Bins, die mit den Pegeln oberhalb des Schwellwerts Th verbunden sind, einen von Null verschiedenen Zählwert aufweisen, wie das in Ent scheidungsblock 330 gezeigt ist. Wenn der Schwellwert 101 be trägt (das heißt, der Schwellwert befindet sich in Bin 3), und einer oder mehrere der Bins 4-9 einen von Null verschie denen Zählwert aufweisen, so wird der Prozessor den Beginn von Sprache im Entscheidungsblock 330 detektieren. Der Pro zessor wird auch den Beginn der Sprache im Entscheidungsblock 327 detektieren, wenn die Abtastung Si den vorher festgesetz ten Schwellwert Th überschreitet.

Wenn der Beginn der Sprache im Entscheidungsblock 332 oder im Block 327 detektiert wird, startet der Prozessor 116 einen Sprachtimer und erzeugt eine Sprachanwesenheitssignal ausgabe auf dem Leiter 120 (Fig. 1), wie das in Block 332 ge zeigt ist. Das Sprachanwesenheitssignal wird wird vom Be triebssystem verwendet, das den Sprachdetektor benutzt.

Wenn im Entscheidungsblock 330 oder im folgenden Block 332 der Beginn der Sprache nicht detektiert wurde, so löscht der Prozessor 116 den Abtastzähler M und die Bins 0-9, wie das in Block 334 gezeigt ist. Das gestattet es dem Prozessor 116, neue Binzählwerte für die nächsten M Abtastungen zu bil den, die nach Rückkehr zu Block 300 folgen.

Der Prozessor 116 bestimmt im Entscheidungsblock 336, ob der Sprachtimer abgelaufen ist. Der Sprachtimer liefert eine Haltefunktion, bei der es sich beispielsweise um eine Periode von fünf Sekunden handeln kann. Während der Halteperiode än dert sich der Zustand des Sprachdetektors nicht. Das gewähr leistet, daß der Sprachdetektor seinen Zustand während kurzen Sprachpausen nicht ändert. Wenn Sprache während der Haltepe riode detektiert wird, wie das in den Blöcken 342 und 344 be stimmt wird, kehrt der Prozessor zu Block 332 zurück, um den Haltetimer rückzusetzen. Wenn die Halteperiode abläuft, ohne daß Sprache detektiert wurde, erzeugt der Prozessor ein Sprachabwesenheitssignal für das Betriebssystem, wie das in Block 338 gezeigt ist. Der Prozessor löscht dann den Sprach timer in Entscheidungsblock 340 und kehrt zu Block 300 zu rück, um die nächste Abtastung einzugeben.

Somit wird deutlich, daß der Prozessor 116 eine feste Zahl M von Abtastungen verwendet, um einen Sprachschwellwert pegel zu erzeugen. Da die Steuersignale zufällig erzeugt wer den, variiert die Zeitdauer, die durch den durch den Prozes sor 116 erzeugten Schwellwert dargestellt wird, in zufälliger Weise. Zusätzlich wird das maximale Fenster, innerhalb dessen Abtastungen vorgenommen werden, durch die feste Zahl der ver wendeten Abtastungen beschränkt. Durch einen Neustart der Schwellwertberechnung ohne Verwendung einer Abtastinformation einer vorhergehenden Schwellwertpegelberechnung ändert sich das Histogramm schnell, wenn die Bedingungen des Hintergrund lärms sich ändern. Die Komplexität des Histogramms wird wei terhin vermindert durch eine Zuordnung von "Bins" mit mehr als einem Ausgangspegel durch die Konditionierschaltung 108.

Der Betrieb des Sprachdetektors wird nun unter Bezug nahme auf die Fig. 3 bis 5 näher beschrieben. Ein Histo gramm, das im Prozessor 116 für ein gleichgerichtetes sinus förmiges Eingangssignal am Schaltungseingang 105 erzeugt wird, ist in Fig. 3 gezeigt. Die Sinuswelle wird auf den Be reich des Konditionierschaltungsausgangs 108 (Fig. 1) norma lisiert, so daß die Spitze der sinusförmigen Welle den höch sten Pegel 255 annimmt. Das dargestellte Histogramm umfaßt zehn Bins 0-9, die mit den entsprechenden Ausgangspegeln des 8-Bit Ausgangs der Konditionierschaltung 108 verbunden sind. Jedes Bin ist durch ein Rechteck in Fig. 3 dargestellt. Die tatsächliche Verteilung der Abtastungen ist durch die Kurve A in Fig. 3 dargestellt. Wie man aus Fig. 3 sieht, ist der Zählwert in Bin 9, der mit den höchsten Amplitudenabtastungen verbunden ist, größer als die Zählwerte in den Bins 0-8, und die Zählwerte nehmen zu, wenn die Amplitude, die mit den Bins verbunden ist, zunimmt. Somit stellen die Zählwerte in den Bins 0-9 genau die Signalwelle dar.

Die tatsächliche Verteilung der Abtastungen in einem Hi stogramm des zufälligen Hintergrundlärms ist in Fig. 4 ge zeigt. Da der wirkliche Hintergrundlärm aus der Summe einer Vielzahl von sinusförmigen Signalen mit verschiedenen Fre quenzen besteht, so ist das Hintergrundlärmhistogramm eine Summation der Sinuswellenverteilung dieser Frequenzen. Wie man aus Fig. 4 sieht, nähert sich das Histogramm des Zufalls lärms einer Rechteckverteilung (gepunktet dargestellt) an, da die Hintergrundsignale verschiedener Frequenzen verschiedene Amplituden aufweisen, und da die Histogramme für Signale mit verschiedenen Frequenzen sich überlappen. Wenn die Zufällig keit der Signale und die Zahl der Abtastungen zunimmt, wird das Histogramm rechtwinklig.

Die Anmelder haben entdeckt, daß das Histogramm in einem wirklich zufällig abgetasteten System unabhängig von der Fre quenz ist. Die Anmelder haben auch entdeckt, daß eine Erhö hung oder eine Erniedrigung der Amplitude des Hintergrund lärms eine Verschiebung des Histogramms nach links bezie hungsweise nach rechts ergibt (das heißt, eine Verschiebung von "x" nach rechts oder links, wenn die Amplitude des Hin tergrundlärms sich erhöht beziehungsweise erniedrigt). Die Anmelder haben ferner herausgefunden, daß die Verwendung von Bins zur Zählung von Abtastungen über entsprechenden Amplitu denbereichen bewirken, daß das Histogramm eine rechtwinklige re Form annimmt.

Hintergrundlärm und Sprache kann aus dem Histogramm er kannt werden. Somit stellt die gestrichelte im allgemeinen rechtwinklige Linie I über den Amplituden, die die größere Zahl von Abtastungen aufweist, den Hintergrundlärm dar. Si gnale, die den Schwellwert x, der durch den Kasten festge setzt wird, überschreiten, sind Sprachsignale.

Fig. 5 zeigt die Auswirkung eines Sprachsignals auf dem Hintergrundlärm. Das Sprachsignal verursacht die Verschiebung der Abtastungen nach rechts. Das nach rechts Verschieben ist im Kasten J gezeigt, der Sprachsignale mit einer Amplitude darstellt, die höher ist als die Hintergrundlärmsignale. Die Anmelder haben herausgefunden, daß die Zahl der Abtastungen, die eine höhere mit Sprache verbundene Amplitude (das heißt, eine Amplitude über dem Schwellwert x) aufweist, typischer weise kleiner ist als die Zahl von Abtastungen, die Amplitu den kleiner als x (Hintergrundlärm) aufweisen. Der Schwell wert x kann während der Sprache gehalten werden.

In den in den Fig. 4 und 5 gezeigten Beispielen fällt der Schwellwert x in das Bin 6. Der Schwellwert Th wird so gewählt, daß er die höchste mit Bin 6 verbundene Amplitude aufweist, womit der Sprachschwellwert Th, der vom Sprachde tektor in der in Fig. 2 gezeigten Ausführungsform verwendet wird, leicht größer ist als der tatsächliche Schwellwert x.

Eine alternative Ausführungsform ist in Fig. 6 gezeigt. Die Ausführungsform der Fig. 6 zeigt eine analoge Konditio nierschaltung 108, einschließlich eines Vorverstärkers 225 zur Verstärkung des von der Signalquelle 104 ausgegebenen elektrischen Signals. Ein Bandpaßfilter (BPF) 229 ist mit dem Ausgangs des Vorverstärkers 225 über einen Leiter 228 verbun den. Das BPF entfernt Rauschsignale, die sich außerhalb des Sprachfrequenzbereichs befinden. Ein A/D-Wandler 231 ist mit dem Ausgang des BPF über einen Leiter 230 verbunden. Der A/D- Wandler erzeugt digitale Verkörperungen der verstärkten und gefilterten Verkörperungen der Eingangssignale. Eine digitale Konditionierschaltung würde konventionelle digitale Signal konditionierkomponenten, wie Gleichrichter, Demodulatoren, Filter oder dergleichen enthalten, die nicht gezeigt sind.

Der Prozessor 616 umfaßt einen Hintergrundlärmschwell wertgenerator 226 (Fig. 6), einen Vergleicher 234 und eine Steuerung 232. Der Hintergrundlärmschwellwertgenerator 226 erzeugt ein Schwellwertsignal, das den Sprachschwellwertpegel darstellt. Der Vergleicher 234 besitzt einen ersten Eingang, der mit dem Hintergrundlärmschwellwertgenerator über einen Leiter 227 verbunden ist. Der andere Eingang des Vergleichers ist mit dem Leiter 119 verbunden. Der Ausgang des Verglei chers 234 ist mit der Steuerung 232 verbunden, die unter Ver wendung irgend eines geeigneten konventionellen Signalprozes sors implementiert werden kann.

Der Hintergrundlärmschwellwertgenerator 226 (Fig. 6) er zeugt einen Hintergrundlärmschwellwert Th. Der Schwellwertge nerator führt die Schritte 300-320, 325, 328 und 334 in Fig. 2 aus, um diesen Schwellwert zu erzeugen. Der Schwellwertpegel wird kontinuierlich dem Vergleicher 234 zugeführt. Die Steue rung führt die Blöcke 332, 336, 342, 344, 338 und 340 der Fig. 2 durch, um eine Haltefunktion zu liefern.

Im Betrieb vergleicht der Vergleicher 234 (Fig. 6) den Schwellwertsignalausgang durch den Hintergrundlärmschwell werterzeugungsgenerator mit dem abgetasteten Signal, und gibt ein Vergleichsergebnis an die Steuerung aus. Wenn das abgeta stete Signal größer als das Schwellwertsignal ist, nimmt der Ausgang der Steuerung einen hohen logischen Pegel an, der das Vorhandensein von Sprache anzeigt. Wenn das augenblickliche Signal kleiner ist als das Schwellwertsignal, gibt der Ver gleicher ein niederpegeliges Signal aus, das die Abwesenheit des Sprachsignals anzeigt.

Bezieht man sich nun auf Fig. 7, so ist dort ein schnur loses Telefon 800 gezeigt, das einen Handapparat 801 und eine Basis 802 umfaßt. Radiofrequenzsignale (RF), die durch den Pfeil S dargestellt sind, werden zwischen dem Handapparat 801 und der Basis 802 über die Antennen 811 und 813 übertragen. Die Basis 802 ist mit einem (nicht gezeigten) landgebundenen Telefonnetz über ein Kabel 815 verbunden. Obwohl hier ein schnurloses Telefon gezeigt ist, kann die Erfindung auch bei mobilen oder tragbaren zellularen Telefonen oder dergleichen angewandt werden. Somit umfaßt der hier verwendete Begriff "Funktelefon" alle solchen Telefone und ihre Äquivalente. Die vorliegenden Erfindung kann auch in anderen elektronischen Ausrüstungen, wie beispielsweise Computern, persönlichen Kom munikatoren, festverdrahteten Telefonen, Zweiwegeradios oder dergleichen verwendet werden.

Der Handapparat 801 (Fig. 7) des schnurlosen Telefons 800 umfaßt eine Audioschaltung 903 (Fig. 8). Die dargestellte Signalquelle 104 ist ein Mikrofon, das mit einem RF-Sender 905 verbunden ist. Beim Mikrophon kann es sich um jeden ge eigneten, handelsüblichen Tonwandler handeln. Der Sender ist wiederum mit einer Antenne 811 verbunden.

Ein RF-Empfänger 907 ist zwischen Antenne 811 und einen Lautsprecher 909 geschaltet. Eine Steuerung 911 ist mit dem Sender und dem Empfänger verbunden. Die Steuerung kann unter Verwendung jedes geeigneten Mikroprozessors implementiert werden, beispielsweise unter Verwendung der integrierten Mi kroprozessor mit der Schaltung Nr. HC-11 von Motorola.

Der Sender 905 (Fig. 9) umfaßt einen Schaltungseingang 105, der mit einem Vorverstärker 225 verbunden ist. Der Aus gang des Vorverstärkers 225 ist mit dem BPF 229 verbunden.

BPF 229 entfernt Signale außerhalb des Sprachfrequenzbereichs und läßt Signale zwischen ungefähr 200 und 3000 Hz passieren. Der Ausgang des Bandpaßfilters ist mit einem A/D-Wandler 231 verbunden. Der A/D-Wandler 231 arbeitet mit einer konventio nellen Signalfrequenzrate für A/D-Sprachsignalkonversion. Der Ausgang des A/D-Wandlers ist mit einem adaptiven differen tiellen pulskodemodulierten (ADPCM) Wandler 1020 verbunden. Der ADPCM erzeugt ein pulskodemoduliertes Ausgangssignal, das in nachfolgende Schaltungen eingegeben wird, wie beispiels weise in den Modulator/Demodulator (MODEM) 1021 des Handappa rats 801. Das MODEM überträgt das Signal, das vom ADPCM aus gegeben wird zur Transcerverschaltung in der Basis 802. Der Vorverstärker, das Bandpaßfilter, der A/D-Wandler und das ADPCM sind in einem Standardinterface, wie beispielsweise der integrierten Schaltung MC145540 der Firma Motorola, enthal ten.

Ein Prozessor 916 ist mit dem Ausgang der Abtastschal tung verbunden, um den Beginn der Sprache zu detektieren. Der Prozessor führt die Sprachdetektion wie nachfolgend beschrie ben durch. Die Hauptsteuerung für den Funktelefonhandapparat kann unter Verwendung jedes geeigneten handelsüblichen Signalprozessors, wie beispielsweise dem HC-11 von Motorola, implementiert werden.

Bei einer vorteilhaften Implementierung der Erfindung umfaßt das Funktelefon 200 einen HC-11 Mikroprozessor, um Te lefonfunktionen durchzuführen. Dieser Mikroprozessor tritt in einen Ruhe- oder Wartezustand, wenn er keine anderen Steuer funktionen durchführt. Während dieses Ruhezustands, der zu fällig auftritt, tastet der Prozessor das Ausgangssignal des A/D-Wandlers ab, um den Hintergrundlärmschwellwert zu detek tieren. Die mittlere Abtastrate wird reduziert, da Abtastun gen zur Erzeugung des Lärmschwellwertes nur während des War tezustands vorgenommen werden, während dem der Prozessor keine anderen Operationen durchführt. Der Sprachdetektor kann somit unter Verwendung einer Schaltung für andere Funktionen implementiert werden und er arbeitet im Hintergrund. Das er spart eine getrennte Schaltung für die Sprachdetektion. In der Praxis betrug die mittlere Frequenz des Steuersignals we niger als 1000 Hz und es wurden gute Sprachdetektionszeiten erreicht, beim Detektieren des Sprachbeginns vom Ruhezustand aus.

Der Betrieb des Telefons 800 (Fig. 7 und 8) funktio niert derart, daß ein (nicht gezeigter) Leistungsverstärker im Sender 905 eingeschaltet wird, wenn Sprache vorhanden ist, und danach wieder abgeschaltet wird. Auf diese Art zieht der Leistungsverstärker keinen Strom, wenn keine Sprachsignale am Mikrofon vorhanden sind, und der Leistungsverstärker wird während der Sprache eingeschaltet, um Signale über die An tenne 811 zu übertragen. Die Steuerung 911 ist mit dem Sender verbunden, um den Sender einzuschalten, damit er Signale an die Antenne ausgibt, wenn zunächst das Vorhandensein von Sprache detektiert wurde. Der Verstärker wird während der Halteperiode mit Energie versorgt und er wird danach abge schaltet. Der Sender wird im Ausgeben von Signalen unterbro chen, nachdem eine vorbestimmte Zeit vergangen ist, nachdem keine Sprache mehr in der digitalen Darstellung des Ausgangs signals des A/D-Wandlers vorhanden ist.

Die Anmelder haben weiter herausgefunden, daß das erste Bin (das nullte Bin) vorteilhafterweise verwendet wird, um den Schwellwertpegel festzusetzen. Ein Beispiel für das Fest setzen des Schwellwerts unter Verwendung des Bins 0 wird un ter Bezug auf die Fig. 10 und 11 beschrieben. Fig. 10 zeigt eine Verteilung von 20 Abtastungen, wenn sich alle Ab tastungen in den Bins 0-3 befinden. Der Hintergrundlärm schwellwert wird auf den Amplitudenpegel, der mit dem nied rigsten Signalpegel von Bin 3 verbunden ist, gesetzt. Somit ergibt ein Eingangssignalabtastwert, der einen Amplitudenpe gel aufweist, der mit den Bins 4-9 verbunden ist, ein Sprachanwesenheitssignal, das erzeugt wird. Wenn der Hinter grundlärm einen höheren Pegel aufweist, so erscheinen die 20 Abtastungen im Zählwert der Bins 0-4. Somit ist der Schwell wert der höchste Pegel, der mit Bin 4 verbunden ist. Wenn die Eingangssignalabtastung einen Pegel aufweist, der mit den Bins 5-9 verknüpft ist, so gibt der Prozessor 916 ein Signal aus, das das Vorhandensein von Sprache anzeigt.

Wenn der Prozessor 916 128 Abtastungen und zehn Bins verwendet, so stellt sich die Beziehung zwischen dem Zählwert des nullten Bins und dem Hintergrundlärm wie folgt dar. Wenn der Zählwert des Bins 0 größer oder gleich 65 ist, so befin det sich der maximale Pegel, der dem Hintergrundlärm zugeord net ist, in Bin 0, und der Sprachschwellwert Th beträgt 24. Wenn der Zählwert in Bin 0 größer oder gleich 43 und kleiner als 65 ist, so befindet sich der maximale Wert, der dem Hin tergrundlärm zugeordnet ist, in Bin 1, und der Sprachschwell wert Th beträgt 50. Wenn der Zählwert in Bin 0 größer oder gleich 33 und kleiner als 43 ist, so befindet sich der maxi male Wert, der dem Hintergrundlärm zugeordnet ist, in Bin 2, und der Sprachschwellwert Th beträgt 76. Wenn der Zählwert in Bin 0 größer oder gleich 26 und kleiner als 32 ist, so befin det sich der maximale Wert, der dem Hintergrundlärm zugeord net ist, in Bin 3, und der Sprachschwellwert Th beträgt 101. Wenn der Zählwert in Bin 0 größer oder gleich 22 und kleiner als 27 ist, so befindet sich der maximale Wert, der dem Hin tergrundlärm zugeordnet ist, in Bin 4, und der Sprachschwell wert Th beträgt 127. Wenn der Zählwert in Bin 0 19, 20 oder 21 beträgt, so befindet sich der maximale Wert, der dem Hin tergrundlärm zugeordnet ist, in Bin 5, und der Sprachschwell wert Th beträgt 153. Wenn der Zählwert in Bin 0 17 oder 18 beträgt, so befindet sich der maximale Wert, der dem Hinter grundlärm zugeordnet ist, in Bin 6, und der Sprachschwellwert Th beträgt 205. Wenn der Zählwert in Bin 0 15 oder 16 be trägt, so befindet sich der maximale Wert, der dem Hinter grundlärm zugeordnet ist, in Bin 7, und der Sprachschwellwert Th beträgt 205. Wenn der Zählwert in Bin 0 13 oder 14 be trägt, so befindet sich der maximale Wert, der dem Hinter grundlärm zugeordnet ist, in Bin 8, und der Sprachschwellwert Th beträgt 230.

Auf diese Art kann das nullte Bin verwendet werden, um den Sprachschwellwert festzusetzen, und die verbleibenden Bins müssen nicht verfolgt werden. Diese Verwendung des null ten Bins reduziert wesentlich die Komplexität des Hinter grundlärmschwellwertgenerators, da die Beziehungen zwischen Binzählwert Null und dem Hintergrundlärmschwellwert in einer durch einen Speicher bereitgestellten Tabelle gespeichert werden können, wobei der Binzählwert als Adresse verwendet wird und die Schwellwerte in mit den Adressen verbundenen Speicherbereichen gespeichert sind. Dies wird durch die Ver wendung eines ROM ermöglicht, bei der der Zählwert in Bin 0 die Adresse des ROM darstellt und die Datenausgabe des ROM den Schwellwert Th darstellt.

Nachfolgend ist ein Pseudokode für das Sprachdetektions unterprogramm gezeigt, der das nullte Bin verwendet, um den Sprachschwellwert zu berechnen. Das Unterprogramm kann sich beispielsweise in der Ruheroutine eines Funktelefons befin den. Die Ruheroutine ist eine von mehreren Funktionen in ei nem miteinander arbeitenden Multitasksystem des Prozessors (116, 616 oder 916) eines HC-11 Mikroprozessors eines zellu laren Telefons, und sie wird typischerweise auf dem niedrig sten Prioritätspegel durchgeführt. Das heißt, die Ruheroutine wird nur durchgeführt, wenn alle anderen Routinen gerade nicht arbeiten.
Pseudo Code
MARKE Initialisiere
Abtastzähler = 0
Schwellwert = 0
MARKE Schleife
Erhalte Abtastwert vom A/D-Wandler
Erhöhe Abtastzähler
Wenn der Abtastwert innerhalb des Histogramms von Bin 0 fällt, dann erhöhe Bin 0 Zählwert Ende des Bedingungsbefehls
Wenn Abtastwert den Schwellwert überschreitet, dann gibt Signal OS aus, da Sprache vorhanden ist Ende des Bedingungsbefehls
Wenn Abtastwert < 128
dann
aktualisiere Mittelwert von Bin 0
lade neuen Schwellwert von der Tabelle, basierend auf dem Mittelwert von Bin 0
lösche Abtastzähler
teile Bin 0 Zählwert durch 2.

Wenn Abtastwert den Schwellwert während der Abklingzeit nicht überschritten hat, dann gibt Signal OS aus, da keine Sprache vorhanden ist Ende des Bedingungsbefehls
Ende des Bedingungsbefehls
gehe zur Marke SCHLEIFE.

Die Funktion eines Prozessors 916, der den obigen Pseu dokode ausführt, wird nun unter Bezugnahme auf Fig. 12 be schrieben. Der Prozessor 916 (Fig. 9) tritt in das Sprachde tektionsunterprogramm im Wartezustand der Vorrichtung ein. Der Prozessor wird in Block 1100 initialisiert. In diesem Block wird ein Abtastzähler und ein Sprachhaltezeittimer ge löscht. Der Prozessor gibt dann einen einen durch den A/D- Wandler 231 ausgegebenen Abtastwert ein, wie das in Block 1102 (Fig. 12) gezeigt ist. Wenn das Eingangssignal ein digi tales Signal ist, so gibt die Konditionierschaltung 108 eine digitale Abtastung ohne Verwendung des A/D-Wandlers aus. Der Prozessor 916 bestimmt dann im Entscheidungsblock 1104, ob der Abtastpegel dem Signalpegelbereich von Bin 0 entspricht. Wenn der Abtastpegel dem Bereich von Bin 0 entspricht, so er höht der Prozessor den Zählwert in Bin 0, wie das in Block 1106 gezeigt ist.

Wenn im Entscheidungsblock 1104 (Fig. 12) festgestellt wurde, daß sich die Abtastung nicht in Bin 0 befindet, oder nach einer Erhöhung von Bin 0 in Block 1106, stellt der Pro zessor 916 fest, ob die Eingangsabtastung den Lärmschwellwert x (Fig. 4 und 5) überschreitet, wie das im Entscheidungs block 1108 gezeigt ist. Wenn die Eingangsabtastung den Schwellwert x überschreitet, so startet der Prozessor den Sprachhalte-Timer und erzeugt ein Sprachanwesenheitssignal, wie das in Block 1110 gezeigt ist. Der Halte-Timer kann ein 5 Sekunden Timer sein. Während der fünf Sekunden wird sich der Zustand des Detektors nicht ändern. Das gewährleistet, daß der Detektor bei kurzen Sprachpausen nicht zwischen einem Sprachanwesenheits- und einem Sprachabwesenheitssignal hin und her schwankt.

Der Prozessor 916 bestimmt dann, ob der Abtastzählwert größer als 128 ist, wie das in Entscheidungsblock 1112 ge zeigt ist. Wenn der Abtastzählwert nicht größer als 128 ist, kehrt der Prozessor zu Block 1102 zurück, um einen anderen Abtastwert einzugeben. Wenn der Abtastzählwert größer als 128 ist, lädt der Prozessor 916 einen neuen Schwellwert aus einer Tabelle, basierend auf dem aktuellen Wert des Bins 0, wie das in Block 1114 gezeigt ist. Der Prozessor 916 löscht dann den Abtastzählwert und teilt den Zählwert des Bins 0 durch 2, wie das in Block 1116 gezeigt ist. Alternativ dazu kann der Zähl wert des Bins 0 gelöscht werden. Der Vorteil des Teilens des vorherigen Zählwerts des Bins 0 durch 2 besteht darin, daß das Histogramm Information über zurückliegende Schwellwerte zu rückbehält. Wenn der Bin jedesmal gelöscht wird, wenn der Ab tastzählwert die vorbestimmte Zahl von Abtastungen erreicht, so basiert der Bin immer auf einem aktuellen Hintergrundlärm pegel.

Der Prozessor 916 bestimmt dann, ob der Sprachhalte-Ti mer abgelaufen ist, wie das in Entscheidungsblock 1122 ge zeigt ist. Wenn der Sprachhalte-Timer nicht abgelaufen ist, kehrt der Prozessor zurück, um im Block 1102 die nächste Ab tastung einzugeben. Wenn der Sprachhalte-Timer abgelaufen ist, so erkennt der Prozessor, daß Sprache vorhanden ist, wie das in Block 1120 gezeigt ist.

Der Prozessor 916 legt somit den Schwellwert fest, nach dem 128 Abtastungen in ihn eingegeben wurden. Der Schwellwert wird aus eine Tabelle ausgewählt, die durch ein ROM darge stellt werden kann, das vorbestimmte Beziehungen zwischen Ab tastzählwerten und Schwellwertpegel aufweist. Der Schwellwert ist umgekehrt proportional zum Zählwert in Bin 0. Ein großer Bin 0 Zählwert, der anzeigt, daß viele Abtastungen einen niedrigen Pegel aufweisen, ergibt einen niedrigen Schwell wert. Umgekehrt wird, wenn der Wert von Bin 0 niedrig ist, was einen hohen Hintergrundlärm anzeigt, der Schwellwert hö her sein.

Somit ist ersichtlich, daß ein Verfahren und eine Vor richtung zur Detektion von Sprache beschrieben sind, die ohne externe analoge Filter oder zeitverbrauchende digitale IIR- oder FIR-Filter wechselnde Hintergrundlärmpegel erkennen. Weiterhin detektiert die Schaltung unter Verwendung einer em pirisch abgeleiteten Tabelle zuverlässig die Anwesenheit von Sprache. Das Ersetzen alter Abtastungen durch neue Abtastun gen nach einer vorbestimmten maximalen Zahl von Abtastungen, wie es durch das Histogramm verkörpert ist, erleichtert es den Lärmschwellwertpegel dynamischer zu überwachen. Sprache kann detektiert werden, indem geringe Verschiebungen in der Form des Rechtecks erkannt werden. Durch die ausschließliche Verwendung des Zählwerts von Bin 0, werden die Speicheranfor derungen und die Prozessorresourcen, die für den Sprachdetek tor notwendig sind, reduziert.

Die vorliegende Erfindung gestattet es dem Prozessor, ein zufälliges Steuersignal zu verwenden. Das zufällige Steu ersignal hat entweder zufällige Zeitintervalle zwischen jedem Puls für die Steuerung der Abtastung oder es schaltet den Signalgenerator, der Signale erzeugt, die gleichförmige In tervalle zwischen jedem Puls besitzen, in zufälliger Weise ein. Dies gestattet es einem Prozessor, der vorwiegend für andere Funktionen vorgesehen ist, die Sprachdetektion während anderweitig inaktiver Perioden durchzuführen, womit ein extra Prozessor für die Sprachdetektion vermieden wird.

Es wird deutlich, daß solche Prozessoren, die, wenn vor bestimmte Bedingungen erfüllt sind, in einen inaktiven Zustand oder Ruhezustand gehen, dies in solchen Funktelefon systemen in zufälligen Intervallen tun. Somit wird, sogar wenn das Steuersignal während der Erzeugung eine feste Fre quenz aufweist, die mittlere Abtastfrequenz des Steuersignals durch die ungleichmäßigen Zeiten zwischen und während denen der Prozessor in den Ruhezustand tritt zufällig sein.

Das neue System erleichtert die Sprachdetektion in einer lauten Umgebung ohne übertrieben viele analoge Teile oder ei ne erheblichen Zahl von Zahlenverschlüsselungsverfahren zu benötigen. Obwohl die Verfahren anhand eines schnurlosen Te lefons dargestellt wurden, werden sich auch Anwendungen in einer beliebigen anderen Schaltung, die Tonsignale verarbeitet, finden.

Claims

1. Sprachdetektor mit:
einem Schaltungseingang (105) zur Verbindung mit einer Quelle von Eingangssignalen;
einem Signalgenerator (113) zur Erzeugung eines Steuer signals an einem Steuersignalausgang;
einer Abtastschaltung (112), die mit dem Schaltungsein gang verbunden ist, um die Eingangssignale zu empfangen, wo bei die Abtastschaltung einen Steuereingang, der mit dem Steuersignalausgang verbunden ist, enthält, um das Steuersi gnal zu empfangen und um Abtastungen, die den Eingangssigna len entsprechen, als Funktion des Steuersignals zu erzeugen; und
einem Prozessor (116), der mit der Abtastschaltung ver bunden ist, um die Abtastungen zu empfangen, wobei der Pro zessor in Abhängigkeit von den Abtastungen einen Hintergrund lärmschwellwert und das Vorhandensein eines Sprachsignals in den Eingangssignalen erkennt, wenn die Eingangssignale den Hintergrundlärmschwellwert übersteigen;
dadurch gekennzeichnet, daß es sich beim Steuersignalge nerator um einen Zufallssignalgenerator handelt, und daß das Steuersignal ein Zufallssignal ist.

2. Sprachdetektor nach Anspruch 1, weiterhin dadurch ge kennzeichnet, daß er einen Audiomeßwandler (104) umfaßt, wo bei der Schaltungseingang mit dem Audiomeßwandler verbunden ist und das Zufallssteuersignal eine mittlere Frequenz auf weist, die innerhalb des Frequenzbereichs der menschlichen Sprache liegt.

3. Sprachdetektor nach Anspruch 2, weiterhin dadurch ge kennzeichnet, daß der Prozessor (116) ein Bin umfaßt, das ei nem vorbestimmten Bereich von Eingangssignalen zugeordnet ist, wobei das Bin einen Wert speichert, der einen Zählwert von Abtastungen im vorbestimmten Bereich der Eingangssignale darstellt.

4. Sprachdetektor nach Anspruch 3, weiterhin dadurch ge kennzeichnet, daß eine Vielzahl von Bins verwendet werden, um ein Histogramm zu erzeugen, wobei jeder der Bins einen Zähl wert darstellt, der einer Zahl von Abtastungen in dem jewei ligen vorbestimmten Bereich entspricht.

5. Sprachdetektor nach Anspruch 4, weiterhin dadurch ge kennzeichnet, daß die Konditionierschaltung einen A/D-Wandler (231) umfaßt und daß die Abtastschaltung mit dem A/D-Wandler verbunden ist, wobei der Prozessor ein Bin umfaßt, das mit einer Untermenge von Ausgabepegeln des A/D-Wandlers verknüpft ist, und der Hintergrundlärmschwellwert durch den Zählwert des Bins festgesetzt wird.

6. Sprachdetektor nach Anspruch 5, weiterhin dadurch ge kennzeichnet, daß der Prozessor einen Zählwert in einem null ten Bin verwendet, um einen Sprachsignalschwellwert zu be stimmen.

7. Audioschaltung mit:
einem Mikrophon (104) zur Umwandlung von hörbaren Signa len in Eingangssignale;
einem Signalgenerator (113) zur Erzeugung eines Steuersignals;
einer Abtastschaltung (112), die mit dem Mikrofon und dem Signalgenerator verbunden ist, wobei die Abtastschaltung die Eingangssignale als Funktion des Steuersignals abtastet und ein davon abhängiges Ausgangssignal erzeugt; und
einem Prozessor (116), der mit der Abtastschaltung ver bunden ist, um das abgetastete Signal zu empfangen und in Ab hängigkeit davon einen Hintergrundlärmschwellwert zu erken nen, wobei der Prozessor das Vorhandensein eines Sprachsi gnals in den Eingangssignalen erkennt, wenn die Eingangssi gnale den Hintergrundlärmschwellwert übersteigen;
dadurch gekennzeichnet, daß das Steuersignal eine mitt lere Frequenz aufweist, die unterhalb einer Nyquist-Rate für ein menschliches Sprachsignal liegt.

8. Audioschaltung nach Anspruch 7, dadurch gekennzeich net, daß das Steuersignal ein Zufallssignal ist, das eine mittlere Frequenz aufweist, die im Frequenzbereich der menschlichen Sprache liegt.

9. Audioschaltung nach Anspruch 8, weiterhin dadurch ge kennzeichnet, daß sie einen A/D-Wandler (231) umfaßt, der die Eingangssignale in digitale Signale wandelt, wobei der A/D- Wandler Ausgangspegel aufweist, und die Abtastschaltung mit einem Ausgang des A/D-Wandlers verbunden ist, worin eine Vielzahl von Bins zur Erzeugung eines Histogramms verwendet werden, und worin jedes der Bins mit einem vorbestimmten Be reich des Ausgangspegels des A/D-Wandlers verbunden ist.

10. Audioschaltung nach Anspruch 9, weiterhin dadurch gekennzeichnet, daß der Prozessor ein vorbestimmtes Bin um faßt, das einen Wert speichert, der einen Zählwert von Abta stungen in einer vorbestimmten Untergruppe der Ausgangspegel des A/D-Wandlers darstellt, und wobei der Hintergrundlärm schwellwert durch den Wert im vorbestimmten Bin festgelegt wird.