DE19600404A1 - Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache - Google Patents

Detektor und Verfahren zur Feststellung des Vorhandenseins von Sprache

Info

Publication number
DE19600404A1
DE19600404A1 DE19600404A DE19600404A DE19600404A1 DE 19600404 A1 DE19600404 A1 DE 19600404A1 DE 19600404 A DE19600404 A DE 19600404A DE 19600404 A DE19600404 A DE 19600404A DE 19600404 A1 DE19600404 A1 DE 19600404A1
Authority
DE
Germany
Prior art keywords
speech
signal
processor
bin
control signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19600404A
Other languages
English (en)
Other versions
DE19600404C2 (de
Inventor
Matthew W Taylor
Ralph D Smallwood
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Motorola Solutions Inc
Original Assignee
Motorola Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Motorola Inc filed Critical Motorola Inc
Publication of DE19600404A1 publication Critical patent/DE19600404A1/de
Application granted granted Critical
Publication of DE19600404C2 publication Critical patent/DE19600404C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • H04B1/44Transmit/receive switching
    • H04B1/46Transmit/receive switching by voice-frequency signals; by pilot signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Time-Division Multiplex Systems (AREA)

Description

Gebiet der Erfindung
Die Erfindung bezieht sich allgemein auf Sprachdetekto­ ren und insbesondere auf die Identifizierung des Sprachbe­ ginns.
Hintergrund der Erfindung
Viele Audiovorrichtungen verwenden Detektoren, die zwi­ schen Sprache und Hintergrundlärm unterscheiden, um den Be­ ginn eines Sprachsignals festzustellen. Diese Vorrichtungen umfassen Tonbandgeräte, Telefonausrüstungen, wie beispiels­ weise automatische Wähleinrichtungen, zellulare Telefone, schnurlose Telefone und Telefone, die ohne Hände zu bedienen sind; Computerausrüstungen und verschiedene andere Vorrich­ tungen.
Beispielsweise beginnen Tonbandgeräte mit einer Sprach­ steuerung automatisch mit dem Aufzeichnen, wenn ein Sprach­ signal erkannt wird. Diese Geräte laufen üblicherweise so lange, bis keine Sprache mehr detektiert wird. Freisprechte­ lefone umfassen eine Sendepfadschaltung, eine Empfangspfad­ schaltung und eine Steuerung, die einen Sendezustand aus­ wählt, der die Sendepfadschaltung einschaltet, oder einen Empfangszustand, der die Empfangspfadschaltung einschaltet. Während des Freisprechens schaltet die Steuerung zwischen den Sende- und Empfangszuständen in Abhängigkeit von dem Vorhan­ densein oder dem Fehlen von Sprache in den Empfangs- und Sen­ depfaden hin und her. Unabhängig von der Vorrichtung, die ei­ ne Schaltung zur Erkennung des Sprachbeginns verwendet, ist es wichtig, daß der Sprachdetektor zuverlässig und schnell das Vorhandensein von Sprache erkennt, wenn der Benutzer mit dem Sprechen beginnt.
Bekannte Schaltungen zur Detektion von Sprache verwenden analoge oder digitale Schaltkreise. Analoge Schaltungen zur Detektion des Vorhandenseins von Sprache umfassen einen Lang­ zeitkonstantintegrator und einen Kurzzeitkonstantintegrator. Ein Vergleicher ist mit den Ausgängen der Integratoren ver­ bunden. Wenn der Ausgangspegel des Langzeitkonstantintegra­ tors kleiner ist als der Ausgangspegel der Kurzzeitkonstant­ integrators, zeigt der Ausgang des Vergleichers an, daß Spra­ che vorhanden ist. Wenn der Ausgangswert des Kurzzeitkon­ stantintegrators kleiner ist als der Ausgangswert des Lang­ zeitkonstantintegrators, zeigt der Ausgangswert des Verglei­ chers an, daß keine Sprache vorhanden ist. Eine Steuerschal­ tung, die mit dem Ausgang des Vergleichers verbunden ist, de­ tektiert den Beginn der Sprache, abhängig von der Übergangs­ änderung des Ausgangswertes des Vergleichers.
Digitale Sprachdetektorschaltungen verwenden üblicher­ weise einen digitalen Signalprozessor, um die analoge Schal­ tung des analogen Sprachdetektors zu simulieren. Diese digi­ talen Schaltungen tasten das Eingangssignal mit einer Rate ab, die die Nyquist-Rate überschreitet. Wie der Fachmann er­ kennt, besitzt die Nyquist-Rate den doppelten Wert der Fre­ quenz des interessierenden Eingangssignals. Eine Abtastrate, die mit der Nyquist-Rate von Sprachsignalen korrespondiert, beträgt mindestens 6000 Hz. Die Abtastungen des Eingangssig­ nals, die mit dieser hohen Rate gewonnen wurden, werden in einem infiniten Impulsantwortfilter (IIR) oder einem finiten Impulsantwortfilter (FIR) gefiltert. Es wird ein Vergleich der gefilterten Signale durchgeführt, um das Vorhandensein von Sprache zu detektieren.
Obwohl Sprachdetektoren, die analoge oder digitale Schaltungen verwenden, wirksam den Beginn der Sprache erken­ nen, bleibt es wünschenswert, diese Detektoren zu verbessern. Die analogen Systeme erfordern analoge Operationsverstärker, Dioden, Widerstände, Kondensatoren und einen Vergleicher, die externe Bauteile gegenüber einem beliebigen dabei verwendeten digitalen Signalprozessor darstellen. Diese Bauteile sind teuer, erfordern Leiterplattenfläche, bei der möglichst Ein­ sparungen vorgenommen werden sollen, um die Größe und das Ge­ wicht der Vorrichtung, die den Detektor verwendet, zu redu­ zieren. Die digitalen Systeme verwenden einen mäßig schnellen Analog/Digital (A/D)-Wandler, ein Antifaltungsfilter, spezia­ lisierte Hardware, die Tausende von Multiplikationen in jeder Sekunde durchführt, und eine kritische Zeitgebung, um wirksam die analogen Filter zu simulieren. Diese Schaltungen erfor­ dern Schaltkreise für die Sprachdetektion, da die digitalen Signalprozessoren, die verwendet werden, um andere Operatio­ nen durchzuführen, nicht auch als Sprachdetektoren des Stan­ des der Technik verwendet werden können, oder es muß ein zu­ sätzlicher digitaler Signalprozessor vorgesehen werden, der die Sprachdetektion durchführt. Alternativ dazu muß ein teu­ rerer digitaler Signalprozessor verwendet werden, um alle die Schaltungsfunktionen für die elektronische Vorrichtung auszu­ führen.
Es besteht somit ein Bedürfnis nach einer Schaltung, die das Vorhandensein von Sprache mit einer hohen Zuverlässigkeit detektiert, ohne die analogen Schaltkreise analoger Systeme oder die ausgedehnten Resourcen digitaler Schaltungen zu ver­ wenden, die bei den existierenden digitalen Systemen für die Detektion von Sprache erforderlich sind.
Kurze Beschreibung der Zeichnungen
Fig. 1 ist ein Schaltungsschema in Blockdiagrammform, das eine Schaltung zeigt, die einen Sprachdetektor umfaßt;
Fig. 2 ist ein Flußdiagramm, das den Betrieb des Prozes­ sors in Fig. 1 zeigt;
Fig. 3 ist eine Wahrscheinlichkeitsverteilung, die ein Histogramm eines gleichgerichteten sinusförmigen Ein­ gangssignals zeigt;
Fig. 4 zeigt ein Rauschhistogramm, wobei die Zahl des Auftretens auf der vertikalen Achse und die Amplitude auf der horizontalen Achse dargestellt ist;
Fig. 5 zeigt ein Histogramm von Rausch- und Sprachsigna­ len, wobei die Zahl des Auftretens auf der vertikalen Achse und die Amplitude auf der horizontalen Achse dargestellt ist;
Fig. 6 ist ein Schaltungsschema in Blockdiagrammform, das eine alternative Ausführungsform des Sprachdetektors von Fig. 1 zeigt;
Fig. 7 ist ein Rauschhistogramm für eine Verallgemeine­ rung von 20 Meßgrößen mit der Anzahl des Auftretens auf der vertikalen Achse und der Binzahl auf der horizontalen Achse;
Fig. 8 ist ein Rauschhistogramm für einen lärmigeren Hintergrundpegel, als der der in Fig. 7 gezeigt ist, und es zeigt die Zahl des Auftretens auf der vertikalen Achse und die Bin auf der horizontalen Achse für eine Verallgemeinerung von 20 Meßgrößen;
Fig. 9 ist eine perspektivische Ansicht, die ein schnur­ loses Telefon zeigt, in welchem die vorliegende Erfindung verwendet werden kann;
Fig. 10 ist ein Schaltschema in Blockdiagrammform, das eine Tonschaltung für das schnurlose Telefon der Fig. 9 zeigt;
Fig. 11 ist ein Schaltschema in Blockdiagrammform, das eine Sendeschaltung einschließlich eines Sprachdetektors für das Telefon der Fig. 10 zeigt; und
Fig. 12 ist ein Flußdiagramm, das einen alternativen Be­ trieb des Prozessors zeigt.
Detaillierte Beschreibung der Zeichnungen
Eine Tonschaltung 103, die einen Sprachdetektor 101 (Fig. 1) umfaßt, umfaßt einen Schaltungseingang 105 für die Verbindung mit einer Eingangssignalsquelle 104. Ein Steuer­ signalgenerator 113 erzeugt Steuersignale an deren Steueraus­ gang. Eine Abtastschaltung 112 ist mit dem Schaltungseingang 105 und dem Steuersignalgenerator 113 verbunden. Die Abtast­ schaltung tastet die Eingangssignale in Abhängigkeit vom Steuersignal ab. Ein Prozessor 116 ist mit der Abtastschal­ tung verbunden, um die Signalabtastungen zu empfangen. Der Prozessor wertet die Signalabtastungen aus, um ein Hinter­ grundlärmpegel festzustellen und er detektiert das Vorhanden­ sein von Sprache, wenn die Eingangssignale den Hintergrund­ lärmpegel überschreiten. Bei einer Ausführungsform handelt es sich beim Steuersignal um ein Zufallssignal. Bei einer ande­ ren Ausführungsform liegt die mittlere Frequenz des Steuer­ signals unterhalb der Nyquist-Rate. Bei einer weiteren Aus­ führungsform zählt der Prozessor die Abtastungen des empfan­ genen Signals innerhalb eines vorbestimmten Bereichs und stellt einen Hintergrundlärmpegel aus der Zahl der Abtastun­ gen fest, die sich innerhalb des vorbestimmten Bereichs be­ finden.
Die Audioschaltung 103 umfaßt einen Schaltungseingang 105, der mit einer Signalquelle 104 verbunden ist. Die Quelle der Eingangssignale kann ein Mikrofon zur Umwandlung hörbarer Signale in Tonsignale, ein MODEM (das heißt, ein Modula­ tor/Demodulator), ein digitaler Signalempfänger, eine Gabel­ schaltung (das heißt, eine Umwandlungsvorrichtung von zwei Leitungen auf vier Leitungen) oder dergleichen sein. Der Signalquellenausgang umfaßt elektrische Signale, die die menschliche Sprache darstellen und auf die nachfolgend als menschliche Sprachsignale Bezug genommen wird. Die Eingangs­ signalquelle kann somit eine Telefonleitung, einen Demodula­ tor, einen Meßwandler oder dergleichen umfassen. Die Ton­ signale können Sprache und/oder Daten umfassen.
Der Ausgang der Signalquelle 104 (Fig. 1) ist mit einem Schaltungseingang 105 über einen Leiter 106 verbunden. Der Schaltungeingang 105 ist mit einer Konditionierschaltung 108 über einen zweiten Leiter 109 verbunden. Die Konditionier­ schaltung 108 umfaßt eine Schaltung, die ein Signal erzeugt, das eine vorbestimmte Betriebscharakteristik hat, die geeig­ net ist für die Verarbeitung durch andere Schaltungen, wie beispielsweise einen Sprachdetektor 101. Wenn die Eingangssi­ gnale in einem analogen Format vorhanden sind, wandelt die Konditionierschaltung das Eingangssignal in ein digitales Si­ gnal um.
Der Ausgang der Konditionierschaltung 108 ist mit einer Abtastschaltung 112 über einen dritten Leiter oder einen Signalbus 114 verbunden. Die Abstastschaltung 112 tastet die von der Konditionierschaltung 108 ausgegebene konditionierten Signale mit einer Abtastrate ab, die durch ein Steuersignal am Steuereingang 117 gesteuert wird. Das Steuersignal wird auf einem Leiter 115 geführt, der zwischen einem Ausgang 118 eines Steuersignalgenerators 113 und einem Steuereingang 117 geschaltet ist. Der Steuersignalgenerator 113 erzeugt ein zu­ fälliges Steuersignal. Der Steuersignalgenerator kann unter Verwendung eines handelsüblichen Signalprozessors oder irgend einer anderen geeigneten Signalgeneratorschaltung implemen­ tiert werden. Die Zufallssteuersignale haben vorzugsweise ei­ ne mittlere Frequenz, die unter der Nyquist-Rate für Sprach­ signale liegt, vorzugsweise eine Frequenz, die innerhalb des Sprachfrequenzbereichs liegt. Es wird angenommen, daß sich der menschliche Sprachbereich von ungefähr 100 bis 3500 Hz erstreckt.
Der Steuersignalgenerator 113 erzeugt ein Zufallssteuer­ signal am Ausgang 118, wie das oben angegeben ist. Das Steu­ ersignal kann entweder zufällige Zeitintervalle zwischen den Pulsen aufweisen oder es kann der Steuersignalgenerator in zufälliger Weise angeschaltet werden, um ein Steuersignal mit fester Frequenz während zufälliger Intervalle zu erzeugen. Indem man es ermöglicht, daß der Steuersignalgenerator zufäl­ lig eingeschaltet wird, kann ein Prozessor, der primär andere Funktionen erfüllt, eine Spracherkennung während der ander­ weitig inaktiven Perioden durchführen. Das macht einen zu­ sätzlichen Sprachdetektorprozessor oder einen teueren Mikro­ prozessor, der einen Mehrfachbetrieb ausführen kann, über­ flüssig. Es ist zu beachten, daß Prozessoren in einen inakti­ ven Zustand oder einen Ruhezustand treten, wenn vorbestimmte Bedingungen erfüllt sind, die in zufälligen Intervallen auf­ treten.
Der Ausgang der Abtastschaltung 112 umfaßt Abtastungen der Eingangssignale und ist mit dem Eingang eines Prozessors 116 über einen vierten Leiter oder einen Signalbus 119 ver­ bunden. Der Prozessor 116 detektiert das Vorhandensein eines Sprachsignals aus den zufälligen Abtastausgangssignalen, die von der Abtastschaltung 112 ausgegeben werden.
Fachleute werden erkennen, daß die Signale, die auf den Leitern 114 und 119 geführt werden, serielle Daten auf einem einzelnen Leiter oder parallele Daten auf einem mehradrigen Bus sein können.
Der Betrieb des Prozessors 116 wird nun unter Bezug auf Fig. 2 beschrieben. Fig. 2 zeigt eine Sprachdetektion für Signale, die ein 8-Bit Wort haben, auf den Leitern oder Bus­ sen 114 und 119 in Fig. 1. Nach der Initialisierung im Block 299 wird ein Sprachsignalschwellwert Th auf seinen maximalen Wert 255 gesetzt; ein Abtastzähler wird rückgesetzt; Bins 0-9 werden rückgesetzt; und ein Sprachtimer wird rückgesetzt. Der Prozessor 116 gibt eine 8-Bit Abtastung Si von der Abtast­ schaltung ein, wie das in Block 300 gezeigt ist. Wenn die di­ gitale Abtastung Si einen Wert von 0 bis 24 hat, wie das im Entscheidungsblock 301 bestimmt wird, wird ein Zähler, auf den nachfolgend als Bin 0 Bezug genommen wird, erhöht, wie das in Block 302 gezeigt ist. Es ist anzumerken, daß jeder der Bins mit einem entsprechenden vorbestimmten Bereich ver­ bunden ist, der eine Untermenge der mögliche Pegel des Aus­ gangssignals der Konditionierschaltung darstellt. Der vorbe­ stimmte Bereich, der mit Bin 0 verbunden ist, beträgt 0-24. Wenn die digitale Abtastung einen Wert von 25-50 hat, wie das im Entscheidungsblock 303 bestimmt wird, so wird ein Zäh­ ler, auf den nachfolgend als Bin 1 Bezug genommen wird, er­ höht, wie das in Block 304 gezeigt ist. Wenn die digitale Ab­ tastung Si einen Wert von 51 bis 76 hat, wie das in Entschei­ dungsblock 305 bestimmt wird, so wird der Zähler in Bin 2 er­ höht, wie das in Block 306 gezeigt ist. Wenn die Abtastung Si einen Wert von 77 bis 101 hat, wie das in Entscheidungsblock 307 bestimmt wird, so wird ein Zähler in Bin 3 erhöht, wie das in Block 308 gezeigt ist. Wenn die digitale Abtastung ei­ nen Wert von 102 bis 127 hat, wie das in Entscheidungsblock 309 bestimmt wird, so wird ein Zähler in Bin 4 erhöht, wie das in Block 310 gezeigt ist. Wenn die digitale Signalabta­ stung einen Wert von 128 bis 153 hat, wie das in Entschei­ dungsblock 311 bestimmt wird, wird ein Zähler, auf den nach­ folgend als Bin 5 Bezug genommen wird, erhöht, wie das in Block 312 gezeigt ist. Wenn die digitale Signalabtastung Si einen Wert von 154 bis 178 hat, wie das in Entscheidungsblock 313 bestimmt wird, so wird ein Zähler in Bin 6 erhöht, wie das in Block 314 angezeigt ist. Wenn der digitale Signalwert einen Wert von 179 bis 205 hat, wie das in Entscheidungsblock 315 bestimmt wird, so wird ein Zähler in Bin 7 erhöht, wie das in Block 316 gezeigt ist. Wenn die Abtastung Si einen Wert von 206 bis 230 hat, wie das in Entscheidungsblock 317 bestimmt wird, so wird ein Zähler in Bin 8 erhöht, wie das in Block 318 angezeigt ist. Wenn die digitale Signalabtastung Si einen Wert von 231 bis 255 hat, wie das in Entscheidungsblock 319 bestimmt wird, so wird ein Zähler in Bin 9 erhöht, wie das in Block 320 angezeigt ist.
Nach Erhöhung einer der Bins 0-9 in einer der Blöcke 302-320 bestimmt der Prozessor 116, ob ein Abtastzähler eine vorbestimmte Zahl M, die sich beispielsweise im Bereich von 100 bis 200 befindet, überschritten hat, wie das im Entschei­ dungsblock 325 gezeigt ist. M ist eine vorbestimmte Zahl von Abtastungen, die bei der Festlegung eines Sprachsignal­ schwellwerts Th verwendet werden sollen. Wenn der Abtastzäh­ ler M nicht überschritten hat, bestimmt der Mikroprozessor, ob die Abtastung Si einen aktuellen Sprachsignalschwellwert Th überschreitet, wie das im Entscheidungsblock 327 gezeigt ist. Der aktuelle Sprachsignalschwellwert Th besteht aus dem Hintergrundlärmschwellwert. Wenn die digitale Abtastung Si den Schwellwert Th nicht überschreitet, so handelt es sich bei der Abtastung um Hintergrundlärm, und der Prozessor gibt die nächste Abtastung in Block 300 ein.
Wenn im Entscheidungsblock 325 bestimmt wurde, daß der Abtastzähler M überschreitet, so fährt der Prozessor 116 mit der Berechnung des nächsten Schwellwerts Th fort. Der Prozes­ sor schaut sich die Abtastzahlen in jedem der Bins 0-9 an. Der Prozessor 116 erkennt aufeinanderfolgende Bins, die im wesentlichen den gleichen Zählwert wie Bin 0 haben, wie das in Block 328 gezeigt ist. Der Schwellwert Th wird so gewählt, daß er die höchste Zahl im höchsten Bin darstellt, der im we­ sentlichen den gleichen Zählwert wie Bin 0 aufweist. Somit wird, wenn jeder der Bins 0-3 im wesentlichen den gleichen Zählwert und Bin 4 einen wesentlich niedrigeren Zählwert auf­ weist, der Schwellwert auf 101 gesetzt, da 101 der höchste Pegel in Bin 4 ist.
Der Prozessor 116 bestimmt dann, ob die Bins, die mit den Pegeln oberhalb des Schwellwerts Th verbunden sind, einen von Null verschiedenen Zählwert aufweisen, wie das in Ent­ scheidungsblock 330 gezeigt ist. Wenn der Schwellwert 101 be­ trägt (das heißt, der Schwellwert befindet sich in Bin 3), und einer oder mehrere der Bins 4-9 einen von Null verschie­ denen Zählwert aufweisen, so wird der Prozessor den Beginn von Sprache im Entscheidungsblock 330 detektieren. Der Pro­ zessor wird auch den Beginn der Sprache im Entscheidungsblock 327 detektieren, wenn die Abtastung Si den vorher festgesetz­ ten Schwellwert Th überschreitet.
Wenn der Beginn der Sprache im Entscheidungsblock 332 oder im Block 327 detektiert wird, startet der Prozessor 116 einen Sprachtimer und erzeugt eine Sprachanwesenheitssignal­ ausgabe auf dem Leiter 120 (Fig. 1), wie das in Block 332 ge­ zeigt ist. Das Sprachanwesenheitssignal wird wird vom Be­ triebssystem verwendet, das den Sprachdetektor benutzt.
Wenn im Entscheidungsblock 330 oder im folgenden Block 332 der Beginn der Sprache nicht detektiert wurde, so löscht der Prozessor 116 den Abtastzähler M und die Bins 0-9, wie das in Block 334 gezeigt ist. Das gestattet es dem Prozessor 116, neue Binzählwerte für die nächsten M Abtastungen zu bil­ den, die nach Rückkehr zu Block 300 folgen.
Der Prozessor 116 bestimmt im Entscheidungsblock 336, ob der Sprachtimer abgelaufen ist. Der Sprachtimer liefert eine Haltefunktion, bei der es sich beispielsweise um eine Periode von fünf Sekunden handeln kann. Während der Halteperiode än­ dert sich der Zustand des Sprachdetektors nicht. Das gewähr­ leistet, daß der Sprachdetektor seinen Zustand während kurzen Sprachpausen nicht ändert. Wenn Sprache während der Haltepe­ riode detektiert wird, wie das in den Blöcken 342 und 344 be­ stimmt wird, kehrt der Prozessor zu Block 332 zurück, um den Haltetimer rückzusetzen. Wenn die Halteperiode abläuft, ohne daß Sprache detektiert wurde, erzeugt der Prozessor ein Sprachabwesenheitssignal für das Betriebssystem, wie das in Block 338 gezeigt ist. Der Prozessor löscht dann den Sprach­ timer in Entscheidungsblock 340 und kehrt zu Block 300 zu­ rück, um die nächste Abtastung einzugeben.
Somit wird deutlich, daß der Prozessor 116 eine feste Zahl M von Abtastungen verwendet, um einen Sprachschwellwert­ pegel zu erzeugen. Da die Steuersignale zufällig erzeugt wer­ den, variiert die Zeitdauer, die durch den durch den Prozes­ sor 116 erzeugten Schwellwert dargestellt wird, in zufälliger Weise. Zusätzlich wird das maximale Fenster, innerhalb dessen Abtastungen vorgenommen werden, durch die feste Zahl der ver­ wendeten Abtastungen beschränkt. Durch einen Neustart der Schwellwertberechnung ohne Verwendung einer Abtastinformation einer vorhergehenden Schwellwertpegelberechnung ändert sich das Histogramm schnell, wenn die Bedingungen des Hintergrund­ lärms sich ändern. Die Komplexität des Histogramms wird wei­ terhin vermindert durch eine Zuordnung von "Bins" mit mehr als einem Ausgangspegel durch die Konditionierschaltung 108.
Der Betrieb des Sprachdetektors wird nun unter Bezug­ nahme auf die Fig. 3 bis 5 näher beschrieben. Ein Histo­ gramm, das im Prozessor 116 für ein gleichgerichtetes sinus­ förmiges Eingangssignal am Schaltungseingang 105 erzeugt wird, ist in Fig. 3 gezeigt. Die Sinuswelle wird auf den Be­ reich des Konditionierschaltungsausgangs 108 (Fig. 1) norma­ lisiert, so daß die Spitze der sinusförmigen Welle den höch­ sten Pegel 255 annimmt. Das dargestellte Histogramm umfaßt zehn Bins 0-9, die mit den entsprechenden Ausgangspegeln des 8-Bit Ausgangs der Konditionierschaltung 108 verbunden sind. Jedes Bin ist durch ein Rechteck in Fig. 3 dargestellt. Die tatsächliche Verteilung der Abtastungen ist durch die Kurve A in Fig. 3 dargestellt. Wie man aus Fig. 3 sieht, ist der Zählwert in Bin 9, der mit den höchsten Amplitudenabtastungen verbunden ist, größer als die Zählwerte in den Bins 0-8, und die Zählwerte nehmen zu, wenn die Amplitude, die mit den Bins verbunden ist, zunimmt. Somit stellen die Zählwerte in den Bins 0-9 genau die Signalwelle dar.
Die tatsächliche Verteilung der Abtastungen in einem Hi­ stogramm des zufälligen Hintergrundlärms ist in Fig. 4 ge­ zeigt. Da der wirkliche Hintergrundlärm aus der Summe einer Vielzahl von sinusförmigen Signalen mit verschiedenen Fre­ quenzen besteht, so ist das Hintergrundlärmhistogramm eine Summation der Sinuswellenverteilung dieser Frequenzen. Wie man aus Fig. 4 sieht, nähert sich das Histogramm des Zufalls­ lärms einer Rechteckverteilung (gepunktet dargestellt) an, da die Hintergrundsignale verschiedener Frequenzen verschiedene Amplituden aufweisen, und da die Histogramme für Signale mit verschiedenen Frequenzen sich überlappen. Wenn die Zufällig­ keit der Signale und die Zahl der Abtastungen zunimmt, wird das Histogramm rechtwinklig.
Die Anmelder haben entdeckt, daß das Histogramm in einem wirklich zufällig abgetasteten System unabhängig von der Fre­ quenz ist. Die Anmelder haben auch entdeckt, daß eine Erhö­ hung oder eine Erniedrigung der Amplitude des Hintergrund­ lärms eine Verschiebung des Histogramms nach links bezie­ hungsweise nach rechts ergibt (das heißt, eine Verschiebung von "x" nach rechts oder links, wenn die Amplitude des Hin­ tergrundlärms sich erhöht beziehungsweise erniedrigt). Die Anmelder haben ferner herausgefunden, daß die Verwendung von Bins zur Zählung von Abtastungen über entsprechenden Amplitu­ denbereichen bewirken, daß das Histogramm eine rechtwinklige­ re Form annimmt.
Hintergrundlärm und Sprache kann aus dem Histogramm er­ kannt werden. Somit stellt die gestrichelte im allgemeinen rechtwinklige Linie I über den Amplituden, die die größere Zahl von Abtastungen aufweist, den Hintergrundlärm dar. Si­ gnale, die den Schwellwert x, der durch den Kasten festge­ setzt wird, überschreiten, sind Sprachsignale.
Fig. 5 zeigt die Auswirkung eines Sprachsignals auf dem Hintergrundlärm. Das Sprachsignal verursacht die Verschiebung der Abtastungen nach rechts. Das nach rechts Verschieben ist im Kasten J gezeigt, der Sprachsignale mit einer Amplitude darstellt, die höher ist als die Hintergrundlärmsignale. Die Anmelder haben herausgefunden, daß die Zahl der Abtastungen, die eine höhere mit Sprache verbundene Amplitude (das heißt, eine Amplitude über dem Schwellwert x) aufweist, typischer­ weise kleiner ist als die Zahl von Abtastungen, die Amplitu­ den kleiner als x (Hintergrundlärm) aufweisen. Der Schwell­ wert x kann während der Sprache gehalten werden.
In den in den Fig. 4 und 5 gezeigten Beispielen fällt der Schwellwert x in das Bin 6. Der Schwellwert Th wird so gewählt, daß er die höchste mit Bin 6 verbundene Amplitude aufweist, womit der Sprachschwellwert Th, der vom Sprachde­ tektor in der in Fig. 2 gezeigten Ausführungsform verwendet wird, leicht größer ist als der tatsächliche Schwellwert x.
Eine alternative Ausführungsform ist in Fig. 6 gezeigt. Die Ausführungsform der Fig. 6 zeigt eine analoge Konditio­ nierschaltung 108, einschließlich eines Vorverstärkers 225 zur Verstärkung des von der Signalquelle 104 ausgegebenen elektrischen Signals. Ein Bandpaßfilter (BPF) 229 ist mit dem Ausgangs des Vorverstärkers 225 über einen Leiter 228 verbun­ den. Das BPF entfernt Rauschsignale, die sich außerhalb des Sprachfrequenzbereichs befinden. Ein A/D-Wandler 231 ist mit dem Ausgang des BPF über einen Leiter 230 verbunden. Der A/D- Wandler erzeugt digitale Verkörperungen der verstärkten und gefilterten Verkörperungen der Eingangssignale. Eine digitale Konditionierschaltung würde konventionelle digitale Signal­ konditionierkomponenten, wie Gleichrichter, Demodulatoren, Filter oder dergleichen enthalten, die nicht gezeigt sind.
Der Prozessor 616 umfaßt einen Hintergrundlärmschwell­ wertgenerator 226 (Fig. 6), einen Vergleicher 234 und eine Steuerung 232. Der Hintergrundlärmschwellwertgenerator 226 erzeugt ein Schwellwertsignal, das den Sprachschwellwertpegel darstellt. Der Vergleicher 234 besitzt einen ersten Eingang, der mit dem Hintergrundlärmschwellwertgenerator über einen Leiter 227 verbunden ist. Der andere Eingang des Vergleichers ist mit dem Leiter 119 verbunden. Der Ausgang des Verglei­ chers 234 ist mit der Steuerung 232 verbunden, die unter Ver­ wendung irgend eines geeigneten konventionellen Signalprozes­ sors implementiert werden kann.
Der Hintergrundlärmschwellwertgenerator 226 (Fig. 6) er­ zeugt einen Hintergrundlärmschwellwert Th. Der Schwellwertge­ nerator führt die Schritte 300-320, 325, 328 und 334 in Fig. 2 aus, um diesen Schwellwert zu erzeugen. Der Schwellwertpegel wird kontinuierlich dem Vergleicher 234 zugeführt. Die Steue­ rung führt die Blöcke 332, 336, 342, 344, 338 und 340 der Fig. 2 durch, um eine Haltefunktion zu liefern.
Im Betrieb vergleicht der Vergleicher 234 (Fig. 6) den Schwellwertsignalausgang durch den Hintergrundlärmschwell­ werterzeugungsgenerator mit dem abgetasteten Signal, und gibt ein Vergleichsergebnis an die Steuerung aus. Wenn das abgeta­ stete Signal größer als das Schwellwertsignal ist, nimmt der Ausgang der Steuerung einen hohen logischen Pegel an, der das Vorhandensein von Sprache anzeigt. Wenn das augenblickliche Signal kleiner ist als das Schwellwertsignal, gibt der Ver­ gleicher ein niederpegeliges Signal aus, das die Abwesenheit des Sprachsignals anzeigt.
Bezieht man sich nun auf Fig. 7, so ist dort ein schnur­ loses Telefon 800 gezeigt, das einen Handapparat 801 und eine Basis 802 umfaßt. Radiofrequenzsignale (RF), die durch den Pfeil S dargestellt sind, werden zwischen dem Handapparat 801 und der Basis 802 über die Antennen 811 und 813 übertragen. Die Basis 802 ist mit einem (nicht gezeigten) landgebundenen Telefonnetz über ein Kabel 815 verbunden. Obwohl hier ein schnurloses Telefon gezeigt ist, kann die Erfindung auch bei mobilen oder tragbaren zellularen Telefonen oder dergleichen angewandt werden. Somit umfaßt der hier verwendete Begriff "Funktelefon" alle solchen Telefone und ihre Äquivalente. Die vorliegenden Erfindung kann auch in anderen elektronischen Ausrüstungen, wie beispielsweise Computern, persönlichen Kom­ munikatoren, festverdrahteten Telefonen, Zweiwegeradios oder dergleichen verwendet werden.
Der Handapparat 801 (Fig. 7) des schnurlosen Telefons 800 umfaßt eine Audioschaltung 903 (Fig. 8). Die dargestellte Signalquelle 104 ist ein Mikrofon, das mit einem RF-Sender 905 verbunden ist. Beim Mikrophon kann es sich um jeden ge­ eigneten, handelsüblichen Tonwandler handeln. Der Sender ist wiederum mit einer Antenne 811 verbunden.
Ein RF-Empfänger 907 ist zwischen Antenne 811 und einen Lautsprecher 909 geschaltet. Eine Steuerung 911 ist mit dem Sender und dem Empfänger verbunden. Die Steuerung kann unter Verwendung jedes geeigneten Mikroprozessors implementiert werden, beispielsweise unter Verwendung der integrierten Mi­ kroprozessor mit der Schaltung Nr. HC-11 von Motorola.
Der Sender 905 (Fig. 9) umfaßt einen Schaltungseingang 105, der mit einem Vorverstärker 225 verbunden ist. Der Aus­ gang des Vorverstärkers 225 ist mit dem BPF 229 verbunden.
BPF 229 entfernt Signale außerhalb des Sprachfrequenzbereichs und läßt Signale zwischen ungefähr 200 und 3000 Hz passieren. Der Ausgang des Bandpaßfilters ist mit einem A/D-Wandler 231 verbunden. Der A/D-Wandler 231 arbeitet mit einer konventio­ nellen Signalfrequenzrate für A/D-Sprachsignalkonversion. Der Ausgang des A/D-Wandlers ist mit einem adaptiven differen­ tiellen pulskodemodulierten (ADPCM) Wandler 1020 verbunden. Der ADPCM erzeugt ein pulskodemoduliertes Ausgangssignal, das in nachfolgende Schaltungen eingegeben wird, wie beispiels­ weise in den Modulator/Demodulator (MODEM) 1021 des Handappa­ rats 801. Das MODEM überträgt das Signal, das vom ADPCM aus­ gegeben wird zur Transcerverschaltung in der Basis 802. Der Vorverstärker, das Bandpaßfilter, der A/D-Wandler und das ADPCM sind in einem Standardinterface, wie beispielsweise der integrierten Schaltung MC145540 der Firma Motorola, enthal­ ten.
Ein Prozessor 916 ist mit dem Ausgang der Abtastschal­ tung verbunden, um den Beginn der Sprache zu detektieren. Der Prozessor führt die Sprachdetektion wie nachfolgend beschrie­ ben durch. Die Hauptsteuerung für den Funktelefonhandapparat kann unter Verwendung jedes geeigneten handelsüblichen Signalprozessors, wie beispielsweise dem HC-11 von Motorola, implementiert werden.
Bei einer vorteilhaften Implementierung der Erfindung umfaßt das Funktelefon 200 einen HC-11 Mikroprozessor, um Te­ lefonfunktionen durchzuführen. Dieser Mikroprozessor tritt in einen Ruhe- oder Wartezustand, wenn er keine anderen Steuer­ funktionen durchführt. Während dieses Ruhezustands, der zu­ fällig auftritt, tastet der Prozessor das Ausgangssignal des A/D-Wandlers ab, um den Hintergrundlärmschwellwert zu detek­ tieren. Die mittlere Abtastrate wird reduziert, da Abtastun­ gen zur Erzeugung des Lärmschwellwertes nur während des War­ tezustands vorgenommen werden, während dem der Prozessor keine anderen Operationen durchführt. Der Sprachdetektor kann somit unter Verwendung einer Schaltung für andere Funktionen implementiert werden und er arbeitet im Hintergrund. Das er­ spart eine getrennte Schaltung für die Sprachdetektion. In der Praxis betrug die mittlere Frequenz des Steuersignals we­ niger als 1000 Hz und es wurden gute Sprachdetektionszeiten erreicht, beim Detektieren des Sprachbeginns vom Ruhezustand aus.
Der Betrieb des Telefons 800 (Fig. 7 und 8) funktio­ niert derart, daß ein (nicht gezeigter) Leistungsverstärker im Sender 905 eingeschaltet wird, wenn Sprache vorhanden ist, und danach wieder abgeschaltet wird. Auf diese Art zieht der Leistungsverstärker keinen Strom, wenn keine Sprachsignale am Mikrofon vorhanden sind, und der Leistungsverstärker wird während der Sprache eingeschaltet, um Signale über die An­ tenne 811 zu übertragen. Die Steuerung 911 ist mit dem Sender verbunden, um den Sender einzuschalten, damit er Signale an die Antenne ausgibt, wenn zunächst das Vorhandensein von Sprache detektiert wurde. Der Verstärker wird während der Halteperiode mit Energie versorgt und er wird danach abge­ schaltet. Der Sender wird im Ausgeben von Signalen unterbro­ chen, nachdem eine vorbestimmte Zeit vergangen ist, nachdem keine Sprache mehr in der digitalen Darstellung des Ausgangs­ signals des A/D-Wandlers vorhanden ist.
Die Anmelder haben weiter herausgefunden, daß das erste Bin (das nullte Bin) vorteilhafterweise verwendet wird, um den Schwellwertpegel festzusetzen. Ein Beispiel für das Fest­ setzen des Schwellwerts unter Verwendung des Bins 0 wird un­ ter Bezug auf die Fig. 10 und 11 beschrieben. Fig. 10 zeigt eine Verteilung von 20 Abtastungen, wenn sich alle Ab­ tastungen in den Bins 0-3 befinden. Der Hintergrundlärm­ schwellwert wird auf den Amplitudenpegel, der mit dem nied­ rigsten Signalpegel von Bin 3 verbunden ist, gesetzt. Somit ergibt ein Eingangssignalabtastwert, der einen Amplitudenpe­ gel aufweist, der mit den Bins 4-9 verbunden ist, ein Sprachanwesenheitssignal, das erzeugt wird. Wenn der Hinter­ grundlärm einen höheren Pegel aufweist, so erscheinen die 20 Abtastungen im Zählwert der Bins 0-4. Somit ist der Schwell­ wert der höchste Pegel, der mit Bin 4 verbunden ist. Wenn die Eingangssignalabtastung einen Pegel aufweist, der mit den Bins 5-9 verknüpft ist, so gibt der Prozessor 916 ein Signal aus, das das Vorhandensein von Sprache anzeigt.
Wenn der Prozessor 916 128 Abtastungen und zehn Bins verwendet, so stellt sich die Beziehung zwischen dem Zählwert des nullten Bins und dem Hintergrundlärm wie folgt dar. Wenn der Zählwert des Bins 0 größer oder gleich 65 ist, so befin­ det sich der maximale Pegel, der dem Hintergrundlärm zugeord­ net ist, in Bin 0, und der Sprachschwellwert Th beträgt 24. Wenn der Zählwert in Bin 0 größer oder gleich 43 und kleiner als 65 ist, so befindet sich der maximale Wert, der dem Hin­ tergrundlärm zugeordnet ist, in Bin 1, und der Sprachschwell­ wert Th beträgt 50. Wenn der Zählwert in Bin 0 größer oder gleich 33 und kleiner als 43 ist, so befindet sich der maxi­ male Wert, der dem Hintergrundlärm zugeordnet ist, in Bin 2, und der Sprachschwellwert Th beträgt 76. Wenn der Zählwert in Bin 0 größer oder gleich 26 und kleiner als 32 ist, so befin­ det sich der maximale Wert, der dem Hintergrundlärm zugeord­ net ist, in Bin 3, und der Sprachschwellwert Th beträgt 101. Wenn der Zählwert in Bin 0 größer oder gleich 22 und kleiner als 27 ist, so befindet sich der maximale Wert, der dem Hin­ tergrundlärm zugeordnet ist, in Bin 4, und der Sprachschwell­ wert Th beträgt 127. Wenn der Zählwert in Bin 0 19, 20 oder 21 beträgt, so befindet sich der maximale Wert, der dem Hin­ tergrundlärm zugeordnet ist, in Bin 5, und der Sprachschwell­ wert Th beträgt 153. Wenn der Zählwert in Bin 0 17 oder 18 beträgt, so befindet sich der maximale Wert, der dem Hinter­ grundlärm zugeordnet ist, in Bin 6, und der Sprachschwellwert Th beträgt 205. Wenn der Zählwert in Bin 0 15 oder 16 be­ trägt, so befindet sich der maximale Wert, der dem Hinter­ grundlärm zugeordnet ist, in Bin 7, und der Sprachschwellwert Th beträgt 205. Wenn der Zählwert in Bin 0 13 oder 14 be­ trägt, so befindet sich der maximale Wert, der dem Hinter­ grundlärm zugeordnet ist, in Bin 8, und der Sprachschwellwert Th beträgt 230.
Auf diese Art kann das nullte Bin verwendet werden, um den Sprachschwellwert festzusetzen, und die verbleibenden Bins müssen nicht verfolgt werden. Diese Verwendung des null­ ten Bins reduziert wesentlich die Komplexität des Hinter­ grundlärmschwellwertgenerators, da die Beziehungen zwischen Binzählwert Null und dem Hintergrundlärmschwellwert in einer durch einen Speicher bereitgestellten Tabelle gespeichert werden können, wobei der Binzählwert als Adresse verwendet wird und die Schwellwerte in mit den Adressen verbundenen Speicherbereichen gespeichert sind. Dies wird durch die Ver­ wendung eines ROM ermöglicht, bei der der Zählwert in Bin 0 die Adresse des ROM darstellt und die Datenausgabe des ROM den Schwellwert Th darstellt.
Nachfolgend ist ein Pseudokode für das Sprachdetektions­ unterprogramm gezeigt, der das nullte Bin verwendet, um den Sprachschwellwert zu berechnen. Das Unterprogramm kann sich beispielsweise in der Ruheroutine eines Funktelefons befin­ den. Die Ruheroutine ist eine von mehreren Funktionen in ei­ nem miteinander arbeitenden Multitasksystem des Prozessors (116, 616 oder 916) eines HC-11 Mikroprozessors eines zellu­ laren Telefons, und sie wird typischerweise auf dem niedrig­ sten Prioritätspegel durchgeführt. Das heißt, die Ruheroutine wird nur durchgeführt, wenn alle anderen Routinen gerade nicht arbeiten.
Pseudo Code
MARKE Initialisiere
Abtastzähler = 0
Schwellwert = 0
MARKE Schleife
Erhalte Abtastwert vom A/D-Wandler
Erhöhe Abtastzähler
Wenn der Abtastwert innerhalb des Histogramms von Bin 0 fällt, dann erhöhe Bin 0 Zählwert Ende des Bedingungsbefehls
Wenn Abtastwert den Schwellwert überschreitet, dann gibt Signal OS aus, da Sprache vorhanden ist Ende des Bedingungsbefehls
Wenn Abtastwert < 128
dann
aktualisiere Mittelwert von Bin 0
lade neuen Schwellwert von der Tabelle, basierend auf dem Mittelwert von Bin 0
lösche Abtastzähler
teile Bin 0 Zählwert durch 2.
Wenn Abtastwert den Schwellwert während der Abklingzeit nicht überschritten hat, dann gibt Signal OS aus, da keine Sprache vorhanden ist Ende des Bedingungsbefehls
Ende des Bedingungsbefehls
gehe zur Marke SCHLEIFE.
Die Funktion eines Prozessors 916, der den obigen Pseu­ dokode ausführt, wird nun unter Bezugnahme auf Fig. 12 be­ schrieben. Der Prozessor 916 (Fig. 9) tritt in das Sprachde­ tektionsunterprogramm im Wartezustand der Vorrichtung ein. Der Prozessor wird in Block 1100 initialisiert. In diesem Block wird ein Abtastzähler und ein Sprachhaltezeittimer ge­ löscht. Der Prozessor gibt dann einen einen durch den A/D- Wandler 231 ausgegebenen Abtastwert ein, wie das in Block 1102 (Fig. 12) gezeigt ist. Wenn das Eingangssignal ein digi­ tales Signal ist, so gibt die Konditionierschaltung 108 eine digitale Abtastung ohne Verwendung des A/D-Wandlers aus. Der Prozessor 916 bestimmt dann im Entscheidungsblock 1104, ob der Abtastpegel dem Signalpegelbereich von Bin 0 entspricht. Wenn der Abtastpegel dem Bereich von Bin 0 entspricht, so er­ höht der Prozessor den Zählwert in Bin 0, wie das in Block 1106 gezeigt ist.
Wenn im Entscheidungsblock 1104 (Fig. 12) festgestellt wurde, daß sich die Abtastung nicht in Bin 0 befindet, oder nach einer Erhöhung von Bin 0 in Block 1106, stellt der Pro­ zessor 916 fest, ob die Eingangsabtastung den Lärmschwellwert x (Fig. 4 und 5) überschreitet, wie das im Entscheidungs­ block 1108 gezeigt ist. Wenn die Eingangsabtastung den Schwellwert x überschreitet, so startet der Prozessor den Sprachhalte-Timer und erzeugt ein Sprachanwesenheitssignal, wie das in Block 1110 gezeigt ist. Der Halte-Timer kann ein 5 Sekunden Timer sein. Während der fünf Sekunden wird sich der Zustand des Detektors nicht ändern. Das gewährleistet, daß der Detektor bei kurzen Sprachpausen nicht zwischen einem Sprachanwesenheits- und einem Sprachabwesenheitssignal hin und her schwankt.
Der Prozessor 916 bestimmt dann, ob der Abtastzählwert größer als 128 ist, wie das in Entscheidungsblock 1112 ge­ zeigt ist. Wenn der Abtastzählwert nicht größer als 128 ist, kehrt der Prozessor zu Block 1102 zurück, um einen anderen Abtastwert einzugeben. Wenn der Abtastzählwert größer als 128 ist, lädt der Prozessor 916 einen neuen Schwellwert aus einer Tabelle, basierend auf dem aktuellen Wert des Bins 0, wie das in Block 1114 gezeigt ist. Der Prozessor 916 löscht dann den Abtastzählwert und teilt den Zählwert des Bins 0 durch 2, wie das in Block 1116 gezeigt ist. Alternativ dazu kann der Zähl­ wert des Bins 0 gelöscht werden. Der Vorteil des Teilens des vorherigen Zählwerts des Bins 0 durch 2 besteht darin, daß das Histogramm Information über zurückliegende Schwellwerte zu­ rückbehält. Wenn der Bin jedesmal gelöscht wird, wenn der Ab­ tastzählwert die vorbestimmte Zahl von Abtastungen erreicht, so basiert der Bin immer auf einem aktuellen Hintergrundlärm­ pegel.
Der Prozessor 916 bestimmt dann, ob der Sprachhalte-Ti­ mer abgelaufen ist, wie das in Entscheidungsblock 1122 ge­ zeigt ist. Wenn der Sprachhalte-Timer nicht abgelaufen ist, kehrt der Prozessor zurück, um im Block 1102 die nächste Ab­ tastung einzugeben. Wenn der Sprachhalte-Timer abgelaufen ist, so erkennt der Prozessor, daß Sprache vorhanden ist, wie das in Block 1120 gezeigt ist.
Der Prozessor 916 legt somit den Schwellwert fest, nach­ dem 128 Abtastungen in ihn eingegeben wurden. Der Schwellwert wird aus eine Tabelle ausgewählt, die durch ein ROM darge­ stellt werden kann, das vorbestimmte Beziehungen zwischen Ab­ tastzählwerten und Schwellwertpegel aufweist. Der Schwellwert ist umgekehrt proportional zum Zählwert in Bin 0. Ein großer Bin 0 Zählwert, der anzeigt, daß viele Abtastungen einen niedrigen Pegel aufweisen, ergibt einen niedrigen Schwell­ wert. Umgekehrt wird, wenn der Wert von Bin 0 niedrig ist, was einen hohen Hintergrundlärm anzeigt, der Schwellwert hö­ her sein.
Somit ist ersichtlich, daß ein Verfahren und eine Vor­ richtung zur Detektion von Sprache beschrieben sind, die ohne externe analoge Filter oder zeitverbrauchende digitale IIR- oder FIR-Filter wechselnde Hintergrundlärmpegel erkennen. Weiterhin detektiert die Schaltung unter Verwendung einer em­ pirisch abgeleiteten Tabelle zuverlässig die Anwesenheit von Sprache. Das Ersetzen alter Abtastungen durch neue Abtastun­ gen nach einer vorbestimmten maximalen Zahl von Abtastungen, wie es durch das Histogramm verkörpert ist, erleichtert es den Lärmschwellwertpegel dynamischer zu überwachen. Sprache kann detektiert werden, indem geringe Verschiebungen in der Form des Rechtecks erkannt werden. Durch die ausschließliche Verwendung des Zählwerts von Bin 0, werden die Speicheranfor­ derungen und die Prozessorresourcen, die für den Sprachdetek­ tor notwendig sind, reduziert.
Die vorliegende Erfindung gestattet es dem Prozessor, ein zufälliges Steuersignal zu verwenden. Das zufällige Steu­ ersignal hat entweder zufällige Zeitintervalle zwischen jedem Puls für die Steuerung der Abtastung oder es schaltet den Signalgenerator, der Signale erzeugt, die gleichförmige In­ tervalle zwischen jedem Puls besitzen, in zufälliger Weise ein. Dies gestattet es einem Prozessor, der vorwiegend für andere Funktionen vorgesehen ist, die Sprachdetektion während anderweitig inaktiver Perioden durchzuführen, womit ein extra Prozessor für die Sprachdetektion vermieden wird.
Es wird deutlich, daß solche Prozessoren, die, wenn vor­ bestimmte Bedingungen erfüllt sind, in einen inaktiven Zustand oder Ruhezustand gehen, dies in solchen Funktelefon­ systemen in zufälligen Intervallen tun. Somit wird, sogar wenn das Steuersignal während der Erzeugung eine feste Fre­ quenz aufweist, die mittlere Abtastfrequenz des Steuersignals durch die ungleichmäßigen Zeiten zwischen und während denen der Prozessor in den Ruhezustand tritt zufällig sein.
Das neue System erleichtert die Sprachdetektion in einer lauten Umgebung ohne übertrieben viele analoge Teile oder ei­ ne erheblichen Zahl von Zahlenverschlüsselungsverfahren zu benötigen. Obwohl die Verfahren anhand eines schnurlosen Te­ lefons dargestellt wurden, werden sich auch Anwendungen in einer beliebigen anderen Schaltung, die Tonsignale verarbeitet, finden.

Claims (10)

1. Sprachdetektor mit:
einem Schaltungseingang (105) zur Verbindung mit einer Quelle von Eingangssignalen;
einem Signalgenerator (113) zur Erzeugung eines Steuer­ signals an einem Steuersignalausgang;
einer Abtastschaltung (112), die mit dem Schaltungsein­ gang verbunden ist, um die Eingangssignale zu empfangen, wo­ bei die Abtastschaltung einen Steuereingang, der mit dem Steuersignalausgang verbunden ist, enthält, um das Steuersi­ gnal zu empfangen und um Abtastungen, die den Eingangssigna­ len entsprechen, als Funktion des Steuersignals zu erzeugen; und
einem Prozessor (116), der mit der Abtastschaltung ver­ bunden ist, um die Abtastungen zu empfangen, wobei der Pro­ zessor in Abhängigkeit von den Abtastungen einen Hintergrund­ lärmschwellwert und das Vorhandensein eines Sprachsignals in den Eingangssignalen erkennt, wenn die Eingangssignale den Hintergrundlärmschwellwert übersteigen;
dadurch gekennzeichnet, daß es sich beim Steuersignalge­ nerator um einen Zufallssignalgenerator handelt, und daß das Steuersignal ein Zufallssignal ist.
2. Sprachdetektor nach Anspruch 1, weiterhin dadurch ge­ kennzeichnet, daß er einen Audiomeßwandler (104) umfaßt, wo­ bei der Schaltungseingang mit dem Audiomeßwandler verbunden ist und das Zufallssteuersignal eine mittlere Frequenz auf­ weist, die innerhalb des Frequenzbereichs der menschlichen Sprache liegt.
3. Sprachdetektor nach Anspruch 2, weiterhin dadurch ge­ kennzeichnet, daß der Prozessor (116) ein Bin umfaßt, das ei­ nem vorbestimmten Bereich von Eingangssignalen zugeordnet ist, wobei das Bin einen Wert speichert, der einen Zählwert von Abtastungen im vorbestimmten Bereich der Eingangssignale darstellt.
4. Sprachdetektor nach Anspruch 3, weiterhin dadurch ge­ kennzeichnet, daß eine Vielzahl von Bins verwendet werden, um ein Histogramm zu erzeugen, wobei jeder der Bins einen Zähl­ wert darstellt, der einer Zahl von Abtastungen in dem jewei­ ligen vorbestimmten Bereich entspricht.
5. Sprachdetektor nach Anspruch 4, weiterhin dadurch ge­ kennzeichnet, daß die Konditionierschaltung einen A/D-Wandler (231) umfaßt und daß die Abtastschaltung mit dem A/D-Wandler verbunden ist, wobei der Prozessor ein Bin umfaßt, das mit einer Untermenge von Ausgabepegeln des A/D-Wandlers verknüpft ist, und der Hintergrundlärmschwellwert durch den Zählwert des Bins festgesetzt wird.
6. Sprachdetektor nach Anspruch 5, weiterhin dadurch ge­ kennzeichnet, daß der Prozessor einen Zählwert in einem null­ ten Bin verwendet, um einen Sprachsignalschwellwert zu be­ stimmen.
7. Audioschaltung mit:
einem Mikrophon (104) zur Umwandlung von hörbaren Signa­ len in Eingangssignale;
einem Signalgenerator (113) zur Erzeugung eines Steuersignals;
einer Abtastschaltung (112), die mit dem Mikrofon und dem Signalgenerator verbunden ist, wobei die Abtastschaltung die Eingangssignale als Funktion des Steuersignals abtastet und ein davon abhängiges Ausgangssignal erzeugt; und
einem Prozessor (116), der mit der Abtastschaltung ver­ bunden ist, um das abgetastete Signal zu empfangen und in Ab­ hängigkeit davon einen Hintergrundlärmschwellwert zu erken­ nen, wobei der Prozessor das Vorhandensein eines Sprachsi­ gnals in den Eingangssignalen erkennt, wenn die Eingangssi­ gnale den Hintergrundlärmschwellwert übersteigen;
dadurch gekennzeichnet, daß das Steuersignal eine mitt­ lere Frequenz aufweist, die unterhalb einer Nyquist-Rate für ein menschliches Sprachsignal liegt.
8. Audioschaltung nach Anspruch 7, dadurch gekennzeich­ net, daß das Steuersignal ein Zufallssignal ist, das eine mittlere Frequenz aufweist, die im Frequenzbereich der menschlichen Sprache liegt.
9. Audioschaltung nach Anspruch 8, weiterhin dadurch ge­ kennzeichnet, daß sie einen A/D-Wandler (231) umfaßt, der die Eingangssignale in digitale Signale wandelt, wobei der A/D- Wandler Ausgangspegel aufweist, und die Abtastschaltung mit einem Ausgang des A/D-Wandlers verbunden ist, worin eine Vielzahl von Bins zur Erzeugung eines Histogramms verwendet werden, und worin jedes der Bins mit einem vorbestimmten Be­ reich des Ausgangspegels des A/D-Wandlers verbunden ist.
10. Audioschaltung nach Anspruch 9, weiterhin dadurch gekennzeichnet, daß der Prozessor ein vorbestimmtes Bin um­ faßt, das einen Wert speichert, der einen Zählwert von Abta­ stungen in einer vorbestimmten Untergruppe der Ausgangspegel des A/D-Wandlers darstellt, und wobei der Hintergrundlärm­ schwellwert durch den Wert im vorbestimmten Bin festgelegt wird.
DE19600404A 1995-01-31 1996-01-08 Sprachdetektor zur Feststellung des Vorhandenseins von Sprache Expired - Fee Related DE19600404C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/381,675 US5822726A (en) 1995-01-31 1995-01-31 Speech presence detector based on sparse time-random signal samples

Publications (2)

Publication Number Publication Date
DE19600404A1 true DE19600404A1 (de) 1996-08-01
DE19600404C2 DE19600404C2 (de) 1998-11-19

Family

ID=23505948

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19600404A Expired - Fee Related DE19600404C2 (de) 1995-01-31 1996-01-08 Sprachdetektor zur Feststellung des Vorhandenseins von Sprache

Country Status (4)

Country Link
US (1) US5822726A (de)
JP (1) JPH08248973A (de)
CA (1) CA2166239C (de)
DE (1) DE19600404C2 (de)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19716862A1 (de) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
EP1076929A1 (de) * 1998-05-15 2001-02-21 Northrop Grumman Corporation Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
DE10320190A1 (de) * 2003-05-07 2004-12-02 Sennheiser Electronic Gmbh & Co. Kg Detektionsvorrichtung

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100209595B1 (ko) * 1997-01-16 1999-07-15 구본준 인터럽트 발생장치 및 발생방법
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
WO2002029780A2 (en) * 2000-10-04 2002-04-11 Clarity, Llc Speech detection with source separation
DE10244699B4 (de) * 2002-09-24 2006-06-01 Voice Inter Connect Gmbh Verfahren zur Bestimmung der Sprachaktivität
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20070033042A1 (en) * 2005-08-03 2007-02-08 International Business Machines Corporation Speech detection fusing multi-class acoustic-phonetic, and energy features
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US9026369B2 (en) 2008-04-24 2015-05-05 The Invention Science Fund I, Llc Methods and systems for presenting a combination treatment
US9064036B2 (en) 2008-04-24 2015-06-23 The Invention Science Fund I, Llc Methods and systems for monitoring bioactive agent use
US9560967B2 (en) 2008-04-24 2017-02-07 The Invention Science Fund I Llc Systems and apparatus for measuring a bioactive agent effect
US8615407B2 (en) * 2008-04-24 2013-12-24 The Invention Science Fund I, Llc Methods and systems for detecting a bioactive agent effect
US9649469B2 (en) 2008-04-24 2017-05-16 The Invention Science Fund I Llc Methods and systems for presenting a combination treatment
US9239906B2 (en) 2008-04-24 2016-01-19 The Invention Science Fund I, Llc Combination treatment selection methods and systems
US8682687B2 (en) * 2008-04-24 2014-03-25 The Invention Science Fund I, Llc Methods and systems for presenting a combination treatment
US7974787B2 (en) 2008-04-24 2011-07-05 The Invention Science Fund I, Llc Combination treatment alteration methods and systems
US20090270687A1 (en) * 2008-04-24 2009-10-29 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for modifying bioactive agent use
US7801686B2 (en) * 2008-04-24 2010-09-21 The Invention Science Fund I, Llc Combination treatment alteration methods and systems
US8930208B2 (en) 2008-04-24 2015-01-06 The Invention Science Fund I, Llc Methods and systems for detecting a bioactive agent effect
US9449150B2 (en) 2008-04-24 2016-09-20 The Invention Science Fund I, Llc Combination treatment selection methods and systems
US9662391B2 (en) 2008-04-24 2017-05-30 The Invention Science Fund I Llc Side effect ameliorating combination therapeutic products and systems
US8876688B2 (en) 2008-04-24 2014-11-04 The Invention Science Fund I, Llc Combination treatment modification methods and systems
US8606592B2 (en) 2008-04-24 2013-12-10 The Invention Science Fund I, Llc Methods and systems for monitoring bioactive agent use
US9282927B2 (en) 2008-04-24 2016-03-15 Invention Science Fund I, Llc Methods and systems for modifying bioactive agent use
US20100163024A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Methods and systems for presenting an inhalation experience
US20100169260A1 (en) * 2008-12-30 2010-07-01 Searete Llc Methods and systems for presenting an inhalation experience
US20100163025A1 (en) * 2008-12-30 2010-07-01 Searete Llc Methods and systems for presenting an inhalation experience
US20100163038A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100168602A1 (en) * 2008-12-30 2010-07-01 Searete Llc Methods and systems for presenting an inhalation experience
US8694330B2 (en) * 2008-12-30 2014-04-08 The Invention Science Fund I, Llc Methods and systems for presenting an inhalation experience
US20100163027A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US8738395B2 (en) * 2008-12-30 2014-05-27 The Invention Science Fund I, Llc Methods and systems for presenting an inhalation experience
US8706518B2 (en) * 2008-12-30 2014-04-22 The Invention Science Fund I, Llc Methods and systems for presenting an inhalation experience
US20100169259A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100168525A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US8725529B2 (en) * 2008-12-30 2014-05-13 The Invention Science Fund I, Llc Methods and systems for presenting an inhalation experience
US20100166613A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100163036A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100163034A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100163033A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US20100168529A1 (en) * 2008-12-30 2010-07-01 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Methods and systems for presenting an inhalation experience
US8712794B2 (en) * 2008-12-30 2014-04-29 The Invention Science Fund I, Llc Methods and systems for presenting an inhalation experience
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
US20170078806A1 (en) 2015-09-14 2017-03-16 Bitwave Pte Ltd Sound level control for hearing assistive devices
US10251001B2 (en) 2016-01-13 2019-04-02 Bitwave Pte Ltd Integrated personal amplifier system with howling control
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
CN111916090B (zh) * 2020-08-17 2024-03-05 北京百瑞互联技术股份有限公司 一种lc3编码器近奈奎斯特频率信号检测方法、检测器、存储介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3810068A1 (de) * 1988-03-25 1989-10-05 Telefonbau & Normalzeit Gmbh Verfahren zur erkennung von sprachsignalen
EP0459363A1 (de) * 1990-05-28 1991-12-04 Matsushita Electric Industrial Co., Ltd. Sprachkodierer
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2157143A5 (de) * 1971-10-19 1973-06-01 Queffeulou Jean Yves
US3832493A (en) * 1973-06-18 1974-08-27 Itt Digital speech detector
US4028496A (en) * 1976-08-17 1977-06-07 Bell Telephone Laboratories, Incorporated Digital speech detector
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4365112A (en) * 1980-03-17 1982-12-21 Storage Technology Corporation Speech detector circuit for a TASI system
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
EP0127718B1 (de) * 1983-06-07 1987-03-18 International Business Machines Corporation Verfahren zur Aktivitätsdetektion in einem Sprachübertragungssystem
US4764966A (en) * 1985-10-11 1988-08-16 International Business Machines Corporation Method and apparatus for voice detection having adaptive sensitivity
DE3810681A1 (de) * 1988-03-29 1989-10-12 Udo Kienle Verfahren zur herstellung eines natuerlichen suessungsmittels auf der basis von stevia rebaudiana und seine verwendung
US5152007A (en) * 1991-04-23 1992-09-29 Motorola, Inc. Method and apparatus for detecting speech
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3810068A1 (de) * 1988-03-25 1989-10-05 Telefonbau & Normalzeit Gmbh Verfahren zur erkennung von sprachsignalen
DE68903872T2 (de) * 1988-05-04 1993-06-24 Thomson Csf Verfahren und anordnung zur feststellung der anwesenheit von sprachsignalen.
EP0459363A1 (de) * 1990-05-28 1991-12-04 Matsushita Electric Industrial Co., Ltd. Sprachkodierer

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19716862A1 (de) * 1997-04-22 1998-10-29 Deutsche Telekom Ag Sprachaktivitätserkennung
US6374211B2 (en) 1997-04-22 2002-04-16 Deutsche Telekom Ag Voice activity detection method and device
EP1076929A1 (de) * 1998-05-15 2001-02-21 Northrop Grumman Corporation Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
EP1076929A4 (de) * 1998-05-15 2004-12-22 Northrop Grumman Corp Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
DE10320190A1 (de) * 2003-05-07 2004-12-02 Sennheiser Electronic Gmbh & Co. Kg Detektionsvorrichtung
DE10320190B4 (de) * 2003-05-07 2005-07-07 Sennheiser Electronic Gmbh & Co. Kg Detektionsvorrichtung
US7574011B2 (en) 2003-05-07 2009-08-11 Sennheiser Electronic Gmbh & Co. Kg Detection device

Also Published As

Publication number Publication date
JPH08248973A (ja) 1996-09-27
US5822726A (en) 1998-10-13
DE19600404C2 (de) 1998-11-19
CA2166239C (en) 2000-08-08
CA2166239A1 (en) 1996-08-01

Similar Documents

Publication Publication Date Title
DE19600404C2 (de) Sprachdetektor zur Feststellung des Vorhandenseins von Sprache
EP1514347B1 (de) Verfahren zur digitalen filterung
DE68919641T2 (de) Halbduplex-Lautfernsprecher.
DE3914841C2 (de)
US4442540A (en) Data over voice transmission arrangement
DE3687684T2 (de) Automatischer pegelregler in einer digitalen datenverarbeitungsanlage.
DE69832043T2 (de) Vorrichtung und verfahren zur erkennung und charakterisierung von signalen in einem kommunikationssystem
DE3531793C2 (de)
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE2045508A1 (de) Datenverarbeitungsverfahren und vorrichtung
DE10308467A1 (de) Verfahren zur Signalton-/Alarmsignaldetektion und Telefonalarmsignaldetektor
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
DE69730351T2 (de) Disable-tondetektor für einen netzwerkechokompensator
DE69433587T2 (de) Vorrichtung zur Detektion von Abschaltsignalisierung
DE3422877C2 (de)
DE2558402C3 (de) Digitaler Mehrfrequenzcodesignalempfänger für Fernmelde-, insbesondere Fernsprechvermittlungsanlagen
DE69206300T2 (de) Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals.
DE102004033547B4 (de) Leistungsrampensteuerschaltung und -verfahren für einen Sender
DE60217859T2 (de) Verfahren und Vorrichtung zur Detektierung von Tonsignalen
DE69206483T2 (de) Modulare Beobachtungsanordnung zur Verkehrsbeobachtung von digitalen Signalen.
DE69930109T2 (de) Sprachgesteuerter schalter zur verwendung bei hohem umgebungsgeräusch
Moore et al. On nonlinear filters involving transformation of the time variable
EP0899932A2 (de) Modem
US5350956A (en) Deviation limiting transmission circuit

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee