DE3235279C2 - Spracherkennungseinrichtung - Google Patents

Spracherkennungseinrichtung

Info

Publication number
DE3235279C2
DE3235279C2 DE3235279A DE3235279A DE3235279C2 DE 3235279 C2 DE3235279 C2 DE 3235279C2 DE 3235279 A DE3235279 A DE 3235279A DE 3235279 A DE3235279 A DE 3235279A DE 3235279 C2 DE3235279 C2 DE 3235279C2
Authority
DE
Germany
Prior art keywords
signal
level
time
spoken
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
DE3235279A
Other languages
English (en)
Other versions
DE3235279A1 (de
Inventor
Norimasa Yokohama Kanagawa Kishi
Kazunori Yokosuka Kanagawa Noso
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Publication of DE3235279A1 publication Critical patent/DE3235279A1/de
Application granted granted Critical
Publication of DE3235279C2 publication Critical patent/DE3235279C2/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Durch die vorliegende Spracherkennungseinrichtung (Fig. 4) werden aus dem einer Mikrophonschaltung (2, 6) entnommenen Sprachbefehlssignal in Abhängigkeit davon, ob und wann dieses Signal nach Gleichrichtung und Glättung länger als für die Dauer eines ersten bzw. eines zweiten gegebenen Zeitraums einen den im Nutzsignal enthaltenen Störgeräuschanteil berücksichtigenden variablen Bezugsspannungspegel überschreitet oder unterschreitet, ein Sprachbefehlsstartsignal und ein Sprachbefehlsendsignal erzeugt. Zur Erzeugung des den Störgeräuschanteil berücksichtigenden variablen Bezugsspannungspegels (T ↓v) wird zusätzlich zu einer üblichen ersten Glättungsschaltung (15) mit einer ersten Zeitkonstante eine zweite Glättungsschaltung (20) mit einer etwa 100 bis 2000 ms betragenden zweiten Zeitkonstante und einem Verstärkungsgrad von eins bis vier aufweisenden nachgeschalteten Verstärker (21) verwendet. Die Ausgänge der beiden Glättungsschaltungen (15, 20) werden einem Pegelkomparator (7-1) mit nachgeschaltetem Prüfdauerkomparator (7-2) zur Erzeugung der Sprachbefehlsstart- und Sprachbefehlsendsignale zugeführt. Die erfindungsgemäße Spracherkennungseinrichtung ist in der Lage, jeden gesprochenen Befehl einwandfrei zu identifizieren und Verwechslungen von im Fahrzeuginnenraum vorhandenen Nebengeräuschen mit gesprochenen Befehlen zu verhindern.

Description

dadurch gekennzeichnet, daß
— ein erstes Glättungsglied (15-2) das Sprachbefehlssignai (F i g. 5 (A)) mit einer ersten Zeitkonstanien glättet und das geglättete Signal (F i g. 5 (B)) einem Eingang des Pegelkomparators (7-1) zuführt,
— ein zv-'eites Glättungsglied (20), das als Vergleichspegel-Festlegeschaltung wirkt, das Sprachbefehlssignai mit einer zweiten Zeitkonstanten glättet, die erheblich länger ist ak die erste, und das so gebildete Signal als Vergleichspegelsignal (Tv in Fig.5(B)) dem anderen Eingang des Pegelkomparators (7-1) zuführt.
2. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Zeitkonstante des ersten Glättungsgliedes (15-2) 20 bis 30 msec und die Zeitkonsiante des zweiten Glättungsgliedes (20) 100—2000 msec beträgt.
3. Spracherkennungseinrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß ein Gleichspannungsverstärker (21) mit einem Verstärkungsfaktor zwischen 1 und 4 zwischen das zweite Glättungsglied
(20) und den Pegelkomparator (7-1) geschaltet ist. §
4. Spracherkennungseinrichtung nach einem der Ansprüche 1 —3, dadurch gekennzeichnet, daß der Pegel- |
komparator (7-1) und das zweite Glättungsglied (20) durch einen Mikrocomputer (200) gebildet sind. jj
5. Spracherkennungseinrichtung nach Anspruch 4, dadurch gekennzeichnet, daß auch das erste Glättungsglied (15-2) durch den Mikrocomputer (200) gebildet ist.
Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung nach der im Oberbegriff des Patentanspruchs 1 angegebenen Definition, die sich vor allem für Steuerungszwecke in Kraftfahrzeugen eignet.
Eine bekannte Spracherkennungseinrichtung wird in damit ausgerüsteten Kraftfahrzeugen dazu benutzt, |
durch in ein Mikrofon gesprochene Befehle wie »Scheinwerfer ein« oder »Scheinwerfer aus« die Fahrzeug- P
Scheinwerfer ein- bzw. auszuschalten. In jedem Fall muß die Spracherkennungseinrichtung in der Lage sein, unterschiedliche gesprochene Befehle zu unterscheiden, um jeweils das richtige Betätigungselement oder Stellglied aktivieren zu können.
Bei Kraftfahrzeugen ist die Verwendung herkömmlicher Spracherkennungseinrichtungen besonders deshalb mit Schwierigkeiten verbunden, weil sie für den Einsatz unter akustisch relativ ruhigen Umgebungsbedingungen konzipiert sind, in einem fahrenden Kraftfahrzeug aber außer dem gesprochenen Befehl auch noch die vorhandene und sehr unterschiedliche Geräuschkulisse aufnehmen. Ein Problem besteht darin, zu verhindern, daß die durch den Motorlauf angeregten Störgeräusche im Fahrzeuginnenraum fälschlich als gesprochener Befehl aufgefaßt werden.
Zur besseren Unterscheidung zwischen gesprochenen Befehlen und Störgeräusch enthält die Spracherkennungseinrichtung einen Stimmdetektor, welcher Anfang und Ende jedes gesprochenen Befehls daran erkennen soll, daß die Größe eines erzeugten Sprachbefehlssignals einen fest vorgegebenen Bezugsspannungspegel für die Dauer eines ersten gegebenen Zeitraums überschreitet und danach für die Dauer eines zweiten gegebenen Zeitraums unterschreitet.
Die bekannte Spracherkennungseinrichtung hat den grundlegenden Nachteil, daß ihr Stimmdetektor mit einem fest vorgegebenen Bezugsspannungspegel arbeitet. Jedes vorhandene Störgeräusch, das eine gewisse Stärke überschreitet, wird zwangsläufig auch für längere Zeit den gegebenen Bezugsspannungspegel übersteigen, so daß jede stärkere Geräuschentwicklung im Innenraum des Kraftfahrzeugs irrtümlich als der Anfang eines gesprochenen Befehls aufgefaßt werden kann.
Eine Spracherkennungseinrichtung mit variablem Bezugsspannungspegel ist aus der US-PS 43 51 983 bekannt. Die dort beschriebene Spracherkennungseinrichtung dient jedoch nicht dazu, um Befehle zum Auslösen von Funktionen an einem Kraftfahrzeug zu erkennen, sondern sie dient dazu, in Nachrichtenübertragungssystemen zu erkennen, wann Sprachsignale gesendet werden und wann nicht. Zu diesem Zweck weist die Einrichtung einen Pegeldetektor auf, der auf Grund eines Signalpegels, der einen Vergleichspegel überschreitet, ein Signal abgibt und dadurch eine Sprachauswerteschaltung aktiviert. Der Vergleichspegel wird dadurch gewonnen, daß innerhalb einer festgelegten Periode der höchste Signalpegelwert ausgesondert wird, und mit einem gespeicherten Wert verglichen wird. Ist der neue Wert höher als der bereits gespeicherte, so ersetzt er den gespeicherten Wert. Der so gebildete aktuelle Höchstwert wird mit einem Faktor < 1 multipliziert. Dieser verringerte f Höchstwert bildet den Vergleichspegel.
Die aus dem genannten US-Patent bekannte Einrichtung hat den Vorteil, daß der Vergleichspegel für den Komparator an unterschiedlich starke Störgeräusche anpaßbar ist Die Einrichtung läßt sich allerdings dann nicht mehr verwenden, wenn es vorkommen kann, daß besonders hohe Störpegel auftreten. Ein solcher besonders hoher Maximalwert wird nämlich mit dem festen Faktor < 1 multipliziert Ist der Störwert besonders hoch, so wird ein sehr hoher Vergleichspegel berechnet, der in einer normalen Periode von den gesendeten Signalen, selbst wenn diese Sprachsignale und Störsignale gleichzeitig enthalten, nicht mehr überschritten wird. Dann spricht die Spracherkennungsschaltung überhaupt nicht mehr an, obwohl Sprache gesendet wird. Eine solche Fehlfunktion wäre bei einer Anwendung in einem Kraftfahrzeug statt in einem Nachrichtenübertragungssystem dauernd zu befürchten, da beim Betrieb eines Kraftfahrzeuges zum Teil sehr starke, kurzzeitige Störgeräusche auftreten.
Der Erfindung liegt die Aufgabe zugrunde, eine für den Betrieb in Kraftfahrzeugen verwendbare Spracherkennungseinrichtung zu schaffen, die trotz vorhandener Umgebungsgeräusche gesprochene Befehle einwandfrei identifizieren und daraufhin ein Befehlssigna! abgeben kann.
Die Erfindung ist durch die kennzeichnenden Merkmale des Hauptanspruchs gegeben. Vorteilhafte Ausgestallungen sind Gegenstand von Unteransprüchen.
Die Spracherkennungseinrichtung bildet den Vergleichspegel nicht mehr durch Auswahl eines Höchstwertes des Sprachbefehlssignales und Multiplizieren desselben mit einem Faktor < 1, sondern vielmehr durch einen Mittelwert mit Hilfe eines Glättungsgliedes. Dadurch führen auch kurzzeitige, sehr starke Störungen nicht zu einem unrealistisch hohen Vergleichswert, der selbst durch ein Signal, das Sprache und Störgeräusche gleichzeitig enthält, nicht mehr überschritten werden kann. Damit garantiert die erfindungsgemäße Spracherkennungseinrichtung, daß auch in der störgeräuschanfälligen Umgebung eines Kraftfahrzeuges ein gesprochener Befehl immer einwandfrei identifiziert werden kann.
Die Einrichtung mit dem Glättungsglied kann durch diskrete Bauteile oder auch mit Hilfe eines Mikrocomputers aufgebaut sein. Das Verwenden eines Mikrocomputers ist insbesondere dann vorteilhaft, wenn ein solcher bereits für andere Steuerungsaufgaben vorliegt.
Die Erfindung und vorteilhafte Einzelheiten werden nachstehend unter Bezug auf eine Zeichnung in beispielsweiser Ausführungsform näher erläutert. Es zeigt
F i g. 1 ein schematisches Blockschaltbild zu einer auch für den Stand der Technik typischen Spracherkennungseinrichtung,
F i g. 2 ein Blockschaltbild zu einem in der Spracherkennungseinrichtung gemäß F i g. 1 enthaltenen bekannten Stimmdetektor,
F i g. 3A, 3B, 3C, 3D grafische Darstellungen von an vier Meßpunkten (A), (B), (C) bzw. (D) in F i g. 2 auftretenden Signalformen bei Verarbeitung eines Störgeräusch enthaltenden Sprachbefehlssignals in Verbindung mit einem festen Bezugsspannungspegel,
F i g. 4 ein schematisches Blockschaltbild eines ersten Ausführungsbeispiels einer Stimmdetektorschaltung für eine erfindungsgemäße Spracherkennungseinrichtung für Kraftfahrzeuge,
F i g. 5A1 5B, 5C, 5D grafische Darstellungen von an den Meßpunkten (A), (B), (C) bzw. (D) der Schaltung von F i g. 4 auftretenden Signalformen bei der Verarbeitung eines mit Störgeräusch durchsetzten gesprochenen Befehls unter Anwendung eines variablen Bezugsspannungspegels,
F i g. 6 ein schematisches Blockschaltbild eines zweiten Ausführungsbeispiels eines erfindungsgemäßen Stimmdetektors für eine zur Verwendung in Kraftfahrzeugen vorgesehene Spracherkennungseinrichtung mit Mikrocomputer,
F i g. 7 ein Flußdiagramm zu einer Methode der Erkennung des Beginns eines Sprachbefehlssignals in Verbindung mit einem in dem Mikrocomputer von F i g. 6 gespeicherten Programm,
F i g. 8 eine grafische Darstellung zur Darstellung der Glättung eines Signals mittels arithmetischer Rechenoperationen,
F i g. 9 ein schematisches Blockschaltbild zu einem einen Mikrocomputer enthaltenden dritten Ausfführungsbeispiel der Erfindung, und
F i g. 10 ein Flußdiagramm zur Erläuterung der Erkennung des Beginns eines Sprachbefehlssignals in Verbindung mit einem in dem Mikrocomputer von F i g. 9 gespeicherten Programm.
Vor Verwendung der in F i g. 1 schematisch dargestellten und für den Stand der Technik typischen Spracherkennungseinrichtung 100 ist es erforderlich, daß der Benutzer zuerst eine Aufzeichnungstaste 1 drückt und in einer besonderen Betriebsart »Voraufzeichnung« mehrere gesprochene Befehle aufzeichnet. Das von der betätigten Aufzeichnungstaste 1 über eine Schnittstelleneinheit 4 und Leitung 4a an eine Steuerschaltung 5 abgegebene Signal wird in der Steuerschaltung 5 in ein Aufzeichnungssignal zur Aktivierung aller an der Voraufzeichnung beteiligten Schaltungen bzw. Einheiten umgesetzt. Ein vom Benutzer gesprochener Befehl wie beispielsweise »Tür öffnen« wird von einem Mikrofon in ein entsprechendes elektrisches Signai verwandelt, welches durch eine hauptsächlich einen das Spektrum normalisierenden Verstärker enthaltende Sprachverarbeitungsschaltung 6, verstärkt, mittels einer nachgeschalteten und aus einem Gleichrichter mit Sieb- bzw. Glättungsglied bestehenden Effektivwert-Glättungsschaltung 15 auf den quadratischen Mittelwert geglättet und danach an einen Stimmdetektor 7 abgegeben.
Der Verstärker zum Normalisieren des Spektrums hat die Funktion, das natürliche Leistungs- oder Lautstärkespektrum der menschlichen Sprache durch entgegengesetzte unterschiedliche Verstärkung verschiedener Frequenzen auf ein annähernd gleichmäßiges Leistungs- oder Lautstärkeniveau einzuebnen. Der Stimmdetektor 7 deutet, wenn die Stärke eines Sprachbefehlssignals einen vorgegebenen Pegel für die Dauer eines festgelegten Zeitraums (150 bis 250 ms) überschreitet, diesen Befund als den Beginn des Sprachbefehlssignals und, wenn die Stärke dieses Signals für die Dauer eines festgelegten Zeitraums (etwa 300 ms) einen vorgegebenen Pegel unterschreitet, als das Ende des Sprachbefehlssignals. Bei Feststellung des Signalbeginns gibt der Stimmdetektor
7 ein neues Aufzeichnungssignal an die Steuerschaltung 5 ab, damit jene durch Aktivierung einer Gruppe von Bandpaßfiltern 8 die Aufspaltung des vom Mikrofon 2 kommenden Sprachbefehlssignals in eine Anzahl festgelegter Frequenzbänder veranlaßt. Eine Parameter-Aufbereitungsschaltung 9 übernimmt die in Frequenzbänder zerlegten Sprachbefehlssignale, gewinnt daraus durch Quadrieren oder Gleichrichtung eine spektrale Lautstärkeverteilung über die Frequenzbänder und setzt das Ergebnis in entsprechende digitale zeitserielle matrixphonetische Musterdaten um, welche in einer nachgeschalteten Speichereinheit 10 gespeichert werden. Weil die Spracherkennungseinrichtung 100 durch Betätigung der Aufzeichnungstaste 1 auf die Betriebsart »Voraufzeichnung« von Sprachbefehlssignalen geschaltet worden ist, werden die so gewonnenen zeitseriellen matrixphonetischen Musterdaten in einen Musterspeicher 11 übertragen und darin als Bezugsdaten für die Identifizierung gesprochener Befehle gespeichert.
Nach erfolgter Aufzeichnung der als Bezugsmuster für gesprochene Befehle dienenden Bezugsdaten kann der Benutzer, während er eine Identifiziertaste 3 betätigt, Befehle wie beispielsweise »Türen öffnen« in das Mikrofon sprechen. Durch Betätigung der Identifiziertaste 3 wird bei der Schnittstelleneinheit 4 ein Signal ausgelöst, und über eine Leitung 4b an die Steuerschaltung 5 abgegeben, damit jene die gesamte Spracherkennungseinrichtung auf die Betriebsart »Identifizierung« umstellt Sobald in dieser Betriebsart der Benutzer einen Befehl in das Mikrofon 2 spricht und dieser Befehl einem zuvor aufgezeichneten gesprochenen Befehl ähnlich ist, und wenn der Stimmdetektor 7 ein Signal abgibt, dann wird das vom Mikrofon 2 kommende Sprachbefehlssignal von der Sprachverarbeitungsschaltung 6 verstärkt, von den Bandpaßfiltern 8 gefiltert und in Frequenzbänder mit entsprechendem Lautstärkespektrum aufgeteilt, von der Aufbereitungsschaltung 9 durch Quadrieren oder Gleichrichten in entsprechende digitale zeitserielle matrixphonetische Musterdaten umgewandelt und (wie bei der Betriebsart »Voraufzeichnung«) in der Speichereinheit 10 gespeichert.
Danach werden die in der Speichereinheit 10 in der Betriebsart »Identifizierung« gespeicherten zeitseriellen matrixphonetischen Musterdaten mit den in dem Musterspeicher 11 in der Betriebsart »Voraufzeichnung« gespeicherten zeitseriellen matrixphonetischen Musterdaten mittels eines Ähnlichkeits-Komparators 12 verglichen. Der Komparator 12 ermittelt nach Durchführung eines Zeit- und Pegelausgleichs zwecks Ausgleichs unterschiedlicher Sprechweise (da dieselbe Person einmal laut und schnell, zu anderer Zeit dagegen langsam und leise sprechen kann) zwischen dem gesprochenen Befehl und dem gespeicherten Bezugsbefehl einen Korrelationsfaktor, welcher (wie weiter unten erläutert wird) gewöhnlich mittels Berechnung des Tchebycheff-Abs ta nds zwischen den bei der Betriebsart Identifizierung und den bei der Betriebsart Voraufzeichnung gewonnenen zeitseriellen matrixphonetischen Musterdaten gewonnen wird. Wenn eine nachgeschaltete Prüfschaltung 13 ■feststellt, daß die errechneten Werte in einem festgelegten Bereich liegen und folglich Ähnlichkeit zwischen dem voraufgezeichneten und dem soeben gesprochenen Befehl besteht, dann veranlaßt sie durch Abgabe eines entsprechenden Befehlssignals an das betreffende Stellglied 14 beispielsweise das Öffnen der Fahrzeugtüren. Alle diese Vorgänge werden durch entsprechende Steuersignale aus der Steuerschaltung 5 kontrolliert.
Die vorstehend in Verbindung mit F i g. 1 beschriebene Spracherkennungseinrichtung 100 besteht aus diskreten Bauelementen oder Einheiten; sie können statt dessen auch durch einen Mikrocomputer mit Zentraleinheit, ROM, RAM, Taktgenerator usw. enthalten, der die Funktionen der beschriebenen Einheiten 7,9,10,11,12, und 13 ersetzt und gleiche und/oder ähnliche Rechenvorgänge, Operationen u.dgl. ausführt.
Für den Fall, daß vier Bandpaßfilter vorhanden sind und jeder davon mit zweiunddreißig aufeinanderfolgenden Zeitschritten arbeitet, können die digitalen zeitseriellen matrixphonetischen Musterdaten der Betriebsart Voraufzeichnung wie folgt ausgedrückt werden:
FiA) = f HJ) ■■
Darin sind mit A ein erster voraufgezeichneter (Bezugs-) Sprachbefehl (z. B. »Türen öffnen«), mit / der Filterindex und mit/der Zeitschrittindex bezeichnet
Wenn mit B ein erster, in der Betriebsart Identifizierung gesprochener Sprachbefehl (in diesem Fall »Türen öffnen«) bezeichnet ist, dann kann derTchebycheff-Abstand durch folgenden Ausdruck errechnet werden:
32
l=\FiA)-F(B)\= Σ Σ \fAiU)-fHU)\.
In der in Fi g. 2 dargestellten, auch für die vorliegende Erfindung als bedeutsam zu betrachtenden Stimmdetektorschaltung der herkömmlichen Spracherkennungseinrichtung nach Fi g. 1 wird der durch das Mikrofon 2 in ein Sprachbefehlssignal umgesetzte gesprochene Befehl über die Sprachverarbeitungsschaltung 6, die hier im wesentlichen aus einem die höheren Frequenzen, die in der menschlichen Sprache von Natur schwächer sind, zwecks Normalisierung des Spektrums bevorzugt verstärkenden Verstärker besteht, in Form eines in F i g. 3(A) dargestellten mit Störgeräusch vermischten Sprachbefehlssignals abgegeben. Dieses verstärkte Sprachbefehlssignal wird den Bandpaßfiltern 8 als Anfangsglieder für die Signalüberprüfung, und ferner der Effektivwert-
I I
Glättungsschaltung 15 zugeführt. Die im wesentlichen aus einem Gleichrichter 15-1 und einem Siebglied 15-2 zur Einleitung der Ermittlung von Anfang und Ende des gesprochenen Befehls bestehende Glättungsschaltung 15 gibt an den Stimmdetektor 7 ein F i g. 3(B) entsprechendes gleichgerichtetes und geglättetes Sprachbefehlssignal ab, welches in einem Pegelkomparator 7-1 mit einem Bezugsspannungspegel 7} verglichen wird. Der Pegelkomparator 7-1 gibt jeweils für die Zeit, in welcher der Signalpegel den Bezugsspannungspegel 7} überschreitet, ein hochliegendes Pulssignal gemäß Fig.3(C) an einen Pulsdauerkomparator 7-2 ab, welcher seinerseits dieses hochliegende Pulssignal mit einer vorgegebenen Bezugsanfangszeit ts sowie einer anderen vorgegebenen Bezugsendzeit te vergleicht und abhängig davon, ob das hochliegende Pulssignal in seiner Länge die Bezugsanfangszeit ts oder die Bezugsendzeit te überschreitet, ein hochliegendes bzw. tiefliegendes Signal gemäß F i g. 3(D) abgibt.
Das erste hochliegende Pulssignal fi in F i g. 3(C) ist kürzer als die Bezugsanfangszeit ts, folglich gibt der Pulsdauerkomparator 7-2 hier kein hochliegendes Signal ab, jedoch bei dem zweiten hochliegenden Pulssignal i2, welches sichtlich länger als das Bezugsanfangssignal ts ist. Dieses jetzt aufgetretene hochliegende Signal aus dem Pulsdauerkomparator 7-2 signalisiert den Beginn eines gesprochenen Befehls, tritt aber erst um den Zeitraum ts verzögert nach der eigentlichen Startzeit Ps des gesprochenen Befehls auf und wird so lange abgegeben, bis der is Komparator 7-2 das Ende des gesprochenen Befehls erkennt.
Ein Einbruch im hochliegenden Signal des Pegelkomparators 7-1 zur Zeit h wird von dem Pulsdauerkomparator 7-2 nicht berücksichtigt, weil er kürzer als die Bezugszeit te ist.
Erst der hinter dem hochliegenden Pulssignal U beginnende Zeitraum f5 ist langer als die Bezugsendzeit fe; hier erkennt der Pulsdauerkomparator 7-2 das Ende des gesprochenen Befehls und gibt, gegenüber dem eigentlichen Befehls-Endzeitpunkt Pe um die Bezugsendzeit te verzögert, ein tiefliegendes Endsignal ab; dieses dauert bis zum erkannten Beginn des nächsten gesprochenen Befehls.
Durch das von dem Pulsdauerkomparator 7-2 abgegebene hochliegende Signal (siehe Fig.3D) wird die Steuerschaltung 5 veranlaßt, durch entsprechende Steuersignale die Bandpaßfiltergruppe 8 und andere Schaltungseinheiten zur Überprüfung des von der Sprachverarbeitungsschaltung 6 ausgehenden Sprachbefehlssignals, wie oben erläutert, zu aktivieren.
Da die bekannte Spracherkennungseinrichtung von F i g. 1 und 2 mit einem auf den unveränderbaren festgelegten Bezugsspannungspegel 77abgestimmten Pegelkomparator 7-1 arbeitet, ist sie in vielen Fällen nicht in der Lage, zwischen gesprochenen Befehlen und bestimmten Geräuscharten und/oder Geräuschpegeln im Fahrzeuginnenraum zu unterscheiden. Die Start- und/oder Endzeitpunkte gesprochener Befehle sind daher oft nicht eindeutig erkennbar, und es kommt vor, daß Geräusche als Sprachansätze gedeutet und/oder gesprochene Befehle ignoriert werden.
Als Grundidee der Erfindung ist vorgesehen, mit einem laufend dem im Ausgangssignal der Verstärker- bzw. Sprachverarbeitungsschaltung enthaltenen Stör- oder Geräuschpegel angepaßten variablen Bezugsspannungspegeln zu arbeiten. Mit diesem Mittel ist es möglich, Anfang und Ende jedes gesprochenen Befehls auch bei mehr oder weniger starken Nebengeräuschen im Fahrzeug sicher festzustellen.
Das in F i g. 4 dargestellte erste Ausführungsbeispiel einer der Erfindung entsprechenden Stimmdetektorschaltung enthält die bereits in Verbindung mit Fig. 2 ausführlich erläuterten Grundkomponenten in Form der aus dem Gleichrichter 15-1 und dem Siebglied 15-2, welches in F i g. 4 eine Zeitkonsiante von 20 bis 30 ms hat, bestehenden Effektivwert-Glättungsschaltung 15 und des aus dem Pegelkomparator 7-1 und Prüfdauerkomparator 7-2 bestehenden Stimmdetektors 7. Außerdem umfaßt die erfindungsgemäße Stimmdetektorschaltung von F i g. 4 eine an den Ausgang des Gleichrichters 15-1 angeschlossene zweite Glättungsschaltung (Glättungsglied) 20 mit einer Zeitkonstanten von 100 bis 2000 ms und einen nachgeschalteten Gleichspannungsverstärker 21 mit einem Verstärkungsgrad von etwa i bis 4 zur Abgabe eines durch Giättung des mix Störgeräusch gemischten Sprachbefehlssignals erzeugten variablen Bezugsspannungspegels Tv an den Pegelkomparator 7-1.
Ein in das Mikrophon 2 gesprochener Befehl wird in Form eines entsprechenden Signals durch die Signalverarbeitungsschaltung 6 verstärkt und im gesamten Frequenzbereich auf etwa gleiche Amplitudenwerte normalisiert. Das so aufbereitete und Störgeräuschanteile enthaltende Sprachbefehlssignal wird, wie es in F i g. 5(A) dargestellt ist, an die Bandpaßfiltergruppe 8 zwecks Durchführung der Analysierung des Spektrums bezüglich Zeit und Leistung und parallel dazu an die erste Glättungsschaltung 15 als Anfangsglied der Stimmdetektorschaltung zur Bestimmung der Anfangs- und Endpunkte des gesprochenen Befehls abgegeben.
Der Pegelkomparator 7-1 vergleicht das an dem ersten Glättungsglied 15-2 einschließlich Störgeräuschanteil abgegebene Sprachbefehlssignal gemäß F i g. 5(B) mit dem vom Gleichspannungsverstärker 21 abgegebenen variabler. Bezugsspannungspegel Tv (unterbrochene Linie in F i g. 5(B)) und gibt jedesmal, wenn der Signalspanhungspegel größer als der variable Bezugsspannungspegel Tv ist, gemäß F i g. 5(C) ein hochliegendes Pulssignal an den Pulsdauerkomparator 7-2 ab, damit jener die Länge oder Dauer des hochliegenden Pulssignals mit der Länge oder Dauer einer vorgegebenen Bezugsanfangszeit f/ (zum Beispiel 150 ms) und einer vorgegebenen Bezugsendzeit W (beispielsweise 300 ms) vergleicht Der Pulsdauerkomparator 7-2 gibt gemäß F i g. 5(D) ein hochliegendes Ausgangssignal ab, wenn das hochliegende Eingangssignal langer als die Bezugsanfangszeit fjist, jedoch ein tiefliegendes Ausgangssignal ab, wenn das tiefliegende Eingangssignal länger als die Bezugsendzeit f/ ist.
Da bei diesem Ausführungsbeispiel der Erfindung die erste Glättungsschaltung 15 eine Zeitkonstante von 20 bis 30 ms und die zweite Glättungsschaltung 20 eine andere Zeitkonstante von 100 bis 2000 ms hat, wird das durch die Schaltung 15 erzeugte gleichgerichtete Sprachbefehlssignal (durchgehende Linie in Fig.5(B)) dem Verlauf des vom Mikrophon 2 kommenden und mit Störsignalen durchsetzten Sprachbefehlssignals wesentlich ausgeprägter nachgeführt als der durch die zweite Glättungsschaltung 20 erzeugte variable Bezugsspannungspegel Tv. Je größer oder kleiner der Störsignalanteil des Nutzsignals ist, desto größer oder kleiner wird auch der Bezugsspannungspegel Tv gestaltet Durch günstige Wahl der Zeitkonstante der zweiten Glättungsschaltung 20
ist es möglich, den Einfluß des Nutz- bzw. Sprachbefehlssignalpegels auf den Bezugsspannungspegel T, fast ganz izu unterdrücken, denn gesprochene Befehle sind relativ kurzzeitig, sie haben eine Dauer von etwa einer Sekunde.
Gemäß F i g. 5(C) und 5(D) läßt der Pulsdauerkomparator 7-2 ein erstes Pulssignal W aus dem Pegelkomparator 7-1 unberücksichtigt, weil er kürzer als die Bezugsanfangszeit t/ ist, und gibt erst um die Bezugsanfangszeit U verzögert nach der Startzeit P5' des gesprochenen Befehls ein hochliegendes Kennzeichensignal (F i g. 5(D)) ab, welches erst nach Ablauf der sich an den Befehls-Endzeitpunkt P/ anschließenden Bezugsendzeit te' abgebrochen wird, das heißt auf den niedrigen Signalpegel übergeht.
Das hochliegende Kennzeichensignal des Pulsdauerkomparators 7-2 berücksichtigt die hochliegenden Pulssignale ti! und W (F i g. 5(C)) und läßt die dazwischen liegende Niedrigpulsperiode h' unberücksichtigt, weil sie :; kürzer als die Bezugsendzeit te' ist. Erst der tiefliegende Impuls f/ des Pegelkomparators 7-1, der das Ende des Sprachbefehlssignals markiert, führt nach Ablauf der Bezugsendzeit U nach dem Befehls-Endzeitpunkt Pe' zur Beendigung des als Steuersignal für die Steuerschaltung 5 zur Aktivierung der Bandpaßfiltergruppe 8 und
anderer Schaltungseinheiten zwecks Überprüfung und Verarbeitung des von der Schaltung 6 kommenden Sprachbefehlssignals ausgenutzten hochliegenden Kennzeichensignals durch den Pulsdauerkomparator 7-2.
Bei dem in F i g. 6 dargestellten abgewandelten Ausführungsbeispiel der Erfindung sind der Stimmdetektor 7 mit dem Pegelkomparator 7-1 und der Pulsdauerkomparator 7-2, die zweite Glättungsschaltung 20 und der Gleichspannungsverstärker 21 mit allen ihren Funktionen durch einen Mikrocomputer 200 mit einem Analog/ Digitalwandler, einer Zentraleinheit, einem ROM (Festwertspeicher), einem RAM (Speicher mit freiem Zugriff), einer Eingabe/Ausgabe-Schnittstelleneinheit und dgl. ersetzt worden. Somit werden gewisse Funktionen statt durch Hardware hier mittels Datenverarbeitungsoperationen in Verbindung mit einer geeigneten Software durchgeführt.
Das aus dem Mikrophon 2 kommende und in der Sprachverarbeitungsschaltung 6 verstärkte sowie normalisierte Sprachbefehlssignal wird in F i g. 6 den Bandpaßfiltern 8 zur Spektralanalyse und gleichzeitig der Effektivwert-Glättungsschaltung 15 mit dem Gleichrichter 15-1 und dem ersten Glättungsglied 15-2, dessen Zeitkonstante auf etwa 20 bis 30 ms festgelegt ist, zugeführt. Das so geglättete Sprachbefehlssignal geht aus der Schaltung 15 zuerst in den im Mikrocomputer 200 enthaltenen Analog/Digitalwandler, und der Mikrocomputer 200 ermittelt aus dem soweit aufbereiteten und digital umgesetzten Sprachbefehissignal Anfang und Ende des gesprochenen Befehls.
Im Verlauf des in F i g. 7 als Flußdiagramm dargestellten Programms zur Gewinnung des Sprachbefehlsstartsignals aus den vom Analog/Digitalwandler abgegebenen Digitalsignalen wird zuerst ein Zähler rückgesetzt, welcher zwecks Ermittlung des ersten gegebenen Zeitraums, in welchem ein von dem ersten Glättungsglied 15-2 abgegebenes Sprachbefehlssignal den Bezugsspannungspegel überschreitet, eine Abtaststartzeit / im Schritt 1 hochzählt. In diesem Fall beträgt eine zwischen /und / + 1 vergehende erste Abtastzeit Ti etwa 10 bis 30ms.
Nach jeder ersten Vorgabeperiode Twerden die durch den Analog/Digitalwandler aus dem Sprachbefehlssignal gewonnenen Digitalsignalwerte x, im Verlauf von Schritt 2 im RAM gespeichert. Danach erfolgt in Schritt 3 eine Durchschnittsbildung dieser gespeicherten Digitalsignalwerte beispielsweise nach folgender Formel:
q
1 V /. η (1)
y,= -r JL *('"*)'
Q-P+1L1, .
woriny,der Mittelwert über das Zeitintervall von i—p bis i—q(pund q sind festgelegte Zeitabschnitte) in F i g. 8 ist, oder nach Formel
Yi = (l-r)y(i-i) + nc,-, 0 < r < 0,1 (2)
worin yp-ij der vorhergehende Mittelwert und r eine zwischen 0 und 1 liegende Durchschnittsbildungskonstante sind. Durch diese Gleichung wird ebenfalls nach F i g. 8 der vorhergehende Mittelwert yp-i) auf der Basis des laufenden Signalwertes λ>· korrigiert, und nach dem so laufend ermittelten Mittelwert y, wird im nächsten Schritt 4 beispielsweise nach folgender Formel der Bezugsspannungspegel TH errechnet
TH = ocyi + ß,
worin α eine zwischen 1 und 3 liegende Konstante und β eine andere Konstante sind. Falls der ursprüngliche Signalwert x-, größer als der errechnete Bezugsspannungspegel TH(Schritt 5) ist, wird der Zähler (n —n + 1) in Schritt 8 hochgezählt In Schritt 6 wird der erreichte Zählwert π mit einer beispielsweise durch Division des ersten gegebenen Zeitraums t/ durch die erste Vorgabeperiode T(NS = ts'IT) in Schritt 9 errechneten festen Bezugszahl Ns verglichen und, falls π kleiner als Ns ist, die Abtaststartzeit e in Schritt 7 auf den neuesten Stand gebracht, und dann kehrt das Programm zum Schritt 2 zurück. Falls jedoch π größer als Ns ist, dann wird mit Schritt 10 das Sprachbefehlsstartsignal zur Einleitung des Vergleichs des gesprochenen Befehls mit gespeicherten Sprachbefehlssignalen ausgegeben.
Wie schon erwähnt, umfaßt dieses Programm-Flußdiagramm die gleichen Funktionen wie die zweite Glättungsschaltung 20 (100 ms bis 2000 ms) mit dem Gleichspannungsverstärker, Pegelkomparator 7-1 und Pulsdauerkomparator 7-2 der Schaltung in F i g. 4.
Wenn der Mikrocomputer 200 statt des zuvor beschriebenen Sprachbefehlsstartsignals das Sprachbefehlsendsignal errechnen soll, dann sind in dem Flußdiagramm gemäß Fig.7 nur geänderte Schritte 5 und 9 erforderlich. Falls x, kleiner als THist, wird der Zähler in Schritt 5 hochgezählt, und im Schritt 9 muß Ns durch die H
Bezugszahl Nc = k'/Tersetzt werden.
Bei dem in F i g. 9 dargestellten dritten Ausführungsbeispiel der Erfindung sind außer dem aus Pegelkomparator 7-1 und Pulsdauerkomparator 7-2 bestehenden Stimmdetektor 7 sowie der zweiten .Glättungsschaltung 20 mit nachgeschaltetcm Gleichspannungsverstärker 21 auch noch die Glättungsschaltung 15 mit dem Gleichrichter 15-1 sowie dem ersten Glättungsglied 15-2 mit allen ihren Funktionen durch eine entsprechend programmierten Mikrocomputer 200 ersetzt, so daß bei dieser abgewandelten Spracherkennungseinrichtung 100 (noch mehr als bei dem Ausführungsbeispiel von F i g. 6) in sehr großem Umfang diskrete Bauelemente (Hardware) durch geeignete Software ersetzt worden sind.
Das aus dem Mikrophon 2 kommende Störanteile enthaltende und in der Sprachverarbeitungsschaltung verstärkte Sprachbefehlssignal wird in Fig.9 in die Bandpaßfilter 8 zur Durchführung der zeit/leistungsorienlierten Spektralanalyse und gleichzeitig in den Analog/Digitalwandlerteil des Mikrocomputers 200 eingespeist. Die dem Eingangs-Sprachbefehlssignal entsprechenden Digitalsignale benutzt der Mikrocomputer 200 zur Ermittlung von Anfang und Ende jedes in das Mikrophon 2 gesprochenen Befehls.
Durch das in Fig. 10 als Flußdiagramm dargestellte Zusatzprogramm in Verbindung mit dem bereits in Verbindung mit Fi g. 7 erläuterten Romprogramm wird zuerst ein Zähler rückgesetzt, welcher zwecks Ermittlung des ersten gegebenen Zeitraums, in welchem ein von der Schaltung 6 kommendes geglättetes Sprachbefehlssignal den Bezugsspannungspegel überschreitet, in Schritt Γ eine Abtaststartzeit /' hochgezählt. In diesem Fall dauert eine zweite Abtastzeit T^ zwischen /' und /' + 1 etwa 0,1 bis 0,2 ms.
Bei der Analogschaltung (F i g. 4) hatten das erste Glättungsglied eine Zeitkonstante von 20 bis 30 ms und die zweite Glättungsschaltung eine Zeitkonstante von 100 bis 2000 ms. Was für Analogschaltungen die Zeitkonstante, ist in den Digitalschaltungen des Mikrocomputers 200 die Abtastzeit. Im vorliegenden Fall wird im Mikrocomputer 200 in einer dem ersten Glättungsglied 15-2 entsprechenden ersten Glättungsrechenschaltung mit einer ersten Abtastzeit und in einer der zweiten Glättungsschaltung 20 entsprechenden zweiten Glättungsrechenschaltung mit einer der zweiten Glättungsschaltung entsprechenden zweiten Abtastzeit T2 gearbeitet. Eine Erhöhung der Abtastzeit hat die gleiche Wirkung wie eine Verkürzung der Zeitkonstante.
Nach Ablauf jeder auf etwa 0,1 bis 0,2 ms festgelegten zweiten Abtastzeit Ti werden im zweiten Schritt 2' die gewonnenen Digitalsignalwerte z, im RAM gespeichert, und im Schritt 3' bildet das Programm aus diesen Speicherwerten beispielsweise den Mittelwert x/ entweder nach der Formel
1 V|7 ι Ο)
χ,- = -τ· 2-i lz«· μ ' ·
worin dieser Mittelwert x„ (ähnlich wie in F i g. 8) über den zwischen i—b und i—a liegenden Zeitraums gebildet wird, oder nach der Formel
χ,- = il-c)xu „ + C-ΙΖ,Ι; 0<C<0,l, (2)
worin X(,- ;; der vorhergehende Mittelwert und c eine Durchschnittsbildungskonstante sind. In diesem Ausdruck wird der vorhergehende Mittelwert xp-t) auf der Basis eines die Funktion des Gleichrichters 15-1 erfüllenden Strommittelwertes \z,\, korrigiert. Danach werden die zuvor in Verbindung mit Fig. 7 erläuterten Schritte 1 bis 10 durchgeführt, jedoch mit der Abwandlung, daß hier die Werte Ns und Ne durch Division der Werte rs, und ift durch die gegenüber dem Fall von F i g. 7 verkürzte zweite Abtastzeit Ti gewonnen werden.
In der vorliegenden Spracherkennungseinrichtung für den Gebrauch in Kraftfahrzeugen oder dgl. werden die mit geräuschbedingten Störkomponenten durchsetzten, aus einem Mikrophon kommenden Sprachbefehlssigna-Ie gleichgerichtet, geglättet und mit einem variablen, das heißt dem jeweils vorhandenen Störpegel angepaßten Bezugsspannungspegel verglichen. So ist es möglich, auch bei stark schwankendem Umgebungsgeräuschpegel im Innenraum eines Kraftfahrzeugs Anfang und Ende jedes gesprochenen Befehls einwandfrei zu identifizieren und alle gesprochenen Befehle fehlerfrei in entsprechende Steuer- oder Betätigungssignale umzusetzen.
Hierzu 6 Blatt Zeichnungen

Claims (1)

Patentansprüche:
1. Spracherkennungseinrichtung zum Abgeben eines Signales auf einen gesprochenen Befehl hin, dem Störgeräusche überlagert sind, mit
— einem Mikrofon, das den Befehl einschließlich der Störgeräusche aufnimmt und als Sprachbefehlssignai abgibt,
— einem Pegelkomparator, der den Pegel des Sprachbefehlssignales mit einem Vergleichspegel (Tv) vergleicht und eine Sprachauswerteschaltung nur dann aktiviert, wenn der Pegel des Sprachbefehlssignales den Vergleichspegel übersteigt, und
— einer Vergleichspegel-Festlegeschaltung,
DE3235279A 1981-09-25 1982-09-23 Spracherkennungseinrichtung Expired DE3235279C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56150730A JPS5852695A (ja) 1981-09-25 1981-09-25 車両用音声検出装置

Publications (2)

Publication Number Publication Date
DE3235279A1 DE3235279A1 (de) 1983-04-21
DE3235279C2 true DE3235279C2 (de) 1986-08-21

Family

ID=15503152

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3235279A Expired DE3235279C2 (de) 1981-09-25 1982-09-23 Spracherkennungseinrichtung

Country Status (3)

Country Link
US (1) US4597098A (de)
JP (1) JPS5852695A (de)
DE (1) DE3235279C2 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3243232A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
DE3243231A1 (de) * 1982-11-23 1984-05-24 Philips Kommunikations Industrie AG, 8500 Nürnberg Verfahren zur erkennung von sprachpausen
JPS59139099A (ja) * 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
IT1160148B (it) * 1983-12-19 1987-03-04 Cselt Centro Studi Lab Telecom Dispositivo per la verifica del parlatore
EP0167364A1 (de) * 1984-07-06 1986-01-08 AT&T Corp. Sprachpausenbestimmung mit Teilbandkodierung
DE3520311A1 (de) * 1985-06-07 1986-12-11 Bundesrepublik Deutschland, vertreten durch den Bundesminister der Verteidigung, dieser vertreten durch den Präsidenten des Bundesamtes für Wehrtechnik und Beschaffung, 5400 Koblenz Filterschaltung
US5774851A (en) * 1985-08-15 1998-06-30 Canon Kabushiki Kaisha Speech recognition apparatus utilizing utterance length information
US4918732A (en) * 1986-01-06 1990-04-17 Motorola, Inc. Frame comparison method for word recognition in high noise environments
US4926488A (en) * 1987-07-09 1990-05-15 International Business Machines Corporation Normalization of speech by adaptive labelling
JPH027099A (ja) * 1988-06-27 1990-01-11 Toshiba Corp 過大音声検出装置
US4949187A (en) * 1988-12-16 1990-08-14 Cohen Jason M Video communications system having a remotely controlled central source of video and audio data
US4979214A (en) * 1989-05-15 1990-12-18 Dialogic Corporation Method and apparatus for identifying speech in telephone signals
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
US5832440A (en) * 1996-06-10 1998-11-03 Dace Technology Trolling motor with remote-control system having both voice--command and manual modes
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6561461B2 (en) 1999-07-09 2003-05-13 Aero Astro, Inc. Orbit transfer vehicle with support services
US6550720B2 (en) 1999-07-09 2003-04-22 Aeroastro Aerobraking orbit transfer vehicle
DE19944325A1 (de) * 1999-09-15 2001-03-22 Thomson Brandt Gmbh Verfahren und Vorrichtung zur Spracherkennung
US7457750B2 (en) 2000-10-13 2008-11-25 At&T Corp. Systems and methods for dynamic re-configurable speech recognition
DE60139144D1 (de) * 2000-11-30 2009-08-13 Nippon Telegraph & Telephone Audio-dekodierer und audio-dekodierungsverfahren
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US8781821B2 (en) * 2012-04-30 2014-07-15 Zanavox Voiced interval command interpretation
US9564128B2 (en) * 2013-12-09 2017-02-07 Qualcomm Incorporated Controlling a speech recognition process of a computing device
US20180158447A1 (en) * 2016-04-01 2018-06-07 Intel Corporation Acoustic environment understanding in machine-human speech communication

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1122274B (de) * 1958-07-10 1962-01-18 Standard Elektrik Lorenz Ag Verfahren und Anordnung zur automatischen Erkennung von Sprache
US4027102A (en) * 1974-11-29 1977-05-31 Pioneer Electronic Corporation Voice versus pulsed tone signal discrimination circuit
JPS5272504A (en) * 1975-12-15 1977-06-17 Fuji Xerox Co Ltd Device for recognizing word audio
GB1569450A (en) * 1976-05-27 1980-06-18 Nippon Electric Co Speech recognition system
US4028496A (en) * 1976-08-17 1977-06-07 Bell Telephone Laboratories, Incorporated Digital speech detector
JPS5348601A (en) * 1976-10-16 1978-05-02 Oki Electric Ind Co Ltd Noise control system
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
CH633903A5 (de) * 1978-09-26 1982-12-31 Feller Ag Sprachschalter fuer ein an eine telefonleitung anzuschliessendes geraet.
US4351983A (en) * 1979-03-05 1982-09-28 International Business Machines Corp. Speech detector with variable threshold
FR2451680A1 (fr) * 1979-03-12 1980-10-10 Soumagne Joel Discriminateur parole/silence pour interpolation de la parole
FR2466825A1 (fr) * 1979-09-28 1981-04-10 Thomson Csf Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif

Also Published As

Publication number Publication date
JPS5852695A (ja) 1983-03-28
US4597098A (en) 1986-06-24
DE3235279A1 (de) 1983-04-21

Similar Documents

Publication Publication Date Title
DE3235279C2 (de) Spracherkennungseinrichtung
DE3236724C2 (de) Durch Sprache steuerbare Betätigungseinrichtung für Kraftfahrzeuge oder dergleichen
DE2719973C2 (de)
DE69917361T2 (de) Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen
DE4029697C2 (de) Sprachgesteuertes Fernbedienungssystem
DE3238855C2 (de) Spracherkennungseinrichtung
EP1005695B1 (de) Verfahren und vorrichtung zum erfassen eines anschlags in einem zeitdiskreten audiosignal
DE3802903C2 (de)
WO1995015668A1 (de) Schaltungsanordnung für die automatische regelung von hörhilfsgeräten
WO2001020965A2 (de) Verfahren zur bestimmung einer momentanen akustischen umgebungssituation, anwendung des verfharens und ein hörgerät
EP0747880B1 (de) Spracherkennungssystem
DE2536585B2 (de) Anordnung zur statistischen Signalanalyse
EP1874082B1 (de) Vorrichtung und Verfahren zur Schrittweitensteuerung eines adaptiven Filters
DE3238853A1 (de) Sprachsteuerbare betaetigungseinrichtung fuer kraftfahrzeuge
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE3739681A1 (de) Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens
DE102017205652B3 (de) Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
WO2001022790A2 (de) Verfahren zum betrieb eines hörgerätes und ein hörgerät
DE69130687T2 (de) Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal
EP1101390B1 (de) Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe
CH691787A5 (de) Klirrunterdruckung bei Hörgeräten mit AGC.
DE2805478C2 (de) Schaltungsanordnung zur Diskriminierung von Sprachsignalen
DE4103913C2 (de) Verfahren und Einrichtung zur Steuerung von Geräten
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee