DE3235279C2 - Spracherkennungseinrichtung - Google Patents
SpracherkennungseinrichtungInfo
- Publication number
- DE3235279C2 DE3235279C2 DE3235279A DE3235279A DE3235279C2 DE 3235279 C2 DE3235279 C2 DE 3235279C2 DE 3235279 A DE3235279 A DE 3235279A DE 3235279 A DE3235279 A DE 3235279A DE 3235279 C2 DE3235279 C2 DE 3235279C2
- Authority
- DE
- Germany
- Prior art keywords
- signal
- level
- time
- spoken
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000002452 interceptive effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 2
- 230000002045 lasting effect Effects 0.000 abstract 1
- 230000002463 transducing effect Effects 0.000 abstract 1
- 230000007704 transition Effects 0.000 abstract 1
- 238000009499 grossing Methods 0.000 description 38
- 238000012545 processing Methods 0.000 description 14
- 238000005070 sampling Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000015607 signal release Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Durch die vorliegende Spracherkennungseinrichtung (Fig. 4) werden aus dem einer Mikrophonschaltung (2, 6) entnommenen Sprachbefehlssignal in Abhängigkeit davon, ob und wann dieses Signal nach Gleichrichtung und Glättung länger als für die Dauer eines ersten bzw. eines zweiten gegebenen Zeitraums einen den im Nutzsignal enthaltenen Störgeräuschanteil berücksichtigenden variablen Bezugsspannungspegel überschreitet oder unterschreitet, ein Sprachbefehlsstartsignal und ein Sprachbefehlsendsignal erzeugt. Zur Erzeugung des den Störgeräuschanteil berücksichtigenden variablen Bezugsspannungspegels (T ↓v) wird zusätzlich zu einer üblichen ersten Glättungsschaltung (15) mit einer ersten Zeitkonstante eine zweite Glättungsschaltung (20) mit einer etwa 100 bis 2000 ms betragenden zweiten Zeitkonstante und einem Verstärkungsgrad von eins bis vier aufweisenden nachgeschalteten Verstärker (21) verwendet. Die Ausgänge der beiden Glättungsschaltungen (15, 20) werden einem Pegelkomparator (7-1) mit nachgeschaltetem Prüfdauerkomparator (7-2) zur Erzeugung der Sprachbefehlsstart- und Sprachbefehlsendsignale zugeführt. Die erfindungsgemäße Spracherkennungseinrichtung ist in der Lage, jeden gesprochenen Befehl einwandfrei zu identifizieren und Verwechslungen von im Fahrzeuginnenraum vorhandenen Nebengeräuschen mit gesprochenen Befehlen zu verhindern.
Description
dadurch gekennzeichnet, daß
— ein erstes Glättungsglied (15-2) das Sprachbefehlssignai (F i g. 5 (A)) mit einer ersten Zeitkonstanien
glättet und das geglättete Signal (F i g. 5 (B)) einem Eingang des Pegelkomparators (7-1) zuführt,
— ein zv-'eites Glättungsglied (20), das als Vergleichspegel-Festlegeschaltung wirkt, das Sprachbefehlssignai
mit einer zweiten Zeitkonstanten glättet, die erheblich länger ist ak die erste, und das so gebildete
Signal als Vergleichspegelsignal (Tv in Fig.5(B)) dem anderen Eingang des Pegelkomparators (7-1)
zuführt.
2. Spracherkennungseinrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Zeitkonstante des
ersten Glättungsgliedes (15-2) 20 bis 30 msec und die Zeitkonsiante des zweiten Glättungsgliedes (20)
100—2000 msec beträgt.
3. Spracherkennungseinrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß ein Gleichspannungsverstärker
(21) mit einem Verstärkungsfaktor zwischen 1 und 4 zwischen das zweite Glättungsglied
(20) und den Pegelkomparator (7-1) geschaltet ist. §
4. Spracherkennungseinrichtung nach einem der Ansprüche 1 —3, dadurch gekennzeichnet, daß der Pegel- |
komparator (7-1) und das zweite Glättungsglied (20) durch einen Mikrocomputer (200) gebildet sind. jj
5. Spracherkennungseinrichtung nach Anspruch 4, dadurch gekennzeichnet, daß auch das erste Glättungsglied
(15-2) durch den Mikrocomputer (200) gebildet ist.
Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung nach der im Oberbegriff des Patentanspruchs
1 angegebenen Definition, die sich vor allem für Steuerungszwecke in Kraftfahrzeugen eignet.
Eine bekannte Spracherkennungseinrichtung wird in damit ausgerüsteten Kraftfahrzeugen dazu benutzt, |
durch in ein Mikrofon gesprochene Befehle wie »Scheinwerfer ein« oder »Scheinwerfer aus« die Fahrzeug- P
Scheinwerfer ein- bzw. auszuschalten. In jedem Fall muß die Spracherkennungseinrichtung in der Lage sein,
unterschiedliche gesprochene Befehle zu unterscheiden, um jeweils das richtige Betätigungselement oder Stellglied
aktivieren zu können.
Bei Kraftfahrzeugen ist die Verwendung herkömmlicher Spracherkennungseinrichtungen besonders deshalb
mit Schwierigkeiten verbunden, weil sie für den Einsatz unter akustisch relativ ruhigen Umgebungsbedingungen
konzipiert sind, in einem fahrenden Kraftfahrzeug aber außer dem gesprochenen Befehl auch noch die vorhandene
und sehr unterschiedliche Geräuschkulisse aufnehmen. Ein Problem besteht darin, zu verhindern, daß die
durch den Motorlauf angeregten Störgeräusche im Fahrzeuginnenraum fälschlich als gesprochener Befehl
aufgefaßt werden.
Zur besseren Unterscheidung zwischen gesprochenen Befehlen und Störgeräusch enthält die Spracherkennungseinrichtung
einen Stimmdetektor, welcher Anfang und Ende jedes gesprochenen Befehls daran erkennen
soll, daß die Größe eines erzeugten Sprachbefehlssignals einen fest vorgegebenen Bezugsspannungspegel für
die Dauer eines ersten gegebenen Zeitraums überschreitet und danach für die Dauer eines zweiten gegebenen
Zeitraums unterschreitet.
Die bekannte Spracherkennungseinrichtung hat den grundlegenden Nachteil, daß ihr Stimmdetektor mit
einem fest vorgegebenen Bezugsspannungspegel arbeitet. Jedes vorhandene Störgeräusch, das eine gewisse
Stärke überschreitet, wird zwangsläufig auch für längere Zeit den gegebenen Bezugsspannungspegel übersteigen,
so daß jede stärkere Geräuschentwicklung im Innenraum des Kraftfahrzeugs irrtümlich als der Anfang
eines gesprochenen Befehls aufgefaßt werden kann.
Eine Spracherkennungseinrichtung mit variablem Bezugsspannungspegel ist aus der US-PS 43 51 983 bekannt.
Die dort beschriebene Spracherkennungseinrichtung dient jedoch nicht dazu, um Befehle zum Auslösen
von Funktionen an einem Kraftfahrzeug zu erkennen, sondern sie dient dazu, in Nachrichtenübertragungssystemen
zu erkennen, wann Sprachsignale gesendet werden und wann nicht. Zu diesem Zweck weist die Einrichtung
einen Pegeldetektor auf, der auf Grund eines Signalpegels, der einen Vergleichspegel überschreitet, ein Signal
abgibt und dadurch eine Sprachauswerteschaltung aktiviert. Der Vergleichspegel wird dadurch gewonnen, daß
innerhalb einer festgelegten Periode der höchste Signalpegelwert ausgesondert wird, und mit einem gespeicherten
Wert verglichen wird. Ist der neue Wert höher als der bereits gespeicherte, so ersetzt er den gespeicherten
Wert. Der so gebildete aktuelle Höchstwert wird mit einem Faktor < 1 multipliziert. Dieser verringerte
f Höchstwert bildet den Vergleichspegel.
Die aus dem genannten US-Patent bekannte Einrichtung hat den Vorteil, daß der Vergleichspegel für den
Komparator an unterschiedlich starke Störgeräusche anpaßbar ist Die Einrichtung läßt sich allerdings dann
nicht mehr verwenden, wenn es vorkommen kann, daß besonders hohe Störpegel auftreten. Ein solcher besonders
hoher Maximalwert wird nämlich mit dem festen Faktor < 1 multipliziert Ist der Störwert besonders hoch,
so wird ein sehr hoher Vergleichspegel berechnet, der in einer normalen Periode von den gesendeten Signalen,
selbst wenn diese Sprachsignale und Störsignale gleichzeitig enthalten, nicht mehr überschritten wird. Dann
spricht die Spracherkennungsschaltung überhaupt nicht mehr an, obwohl Sprache gesendet wird. Eine solche
Fehlfunktion wäre bei einer Anwendung in einem Kraftfahrzeug statt in einem Nachrichtenübertragungssystem
dauernd zu befürchten, da beim Betrieb eines Kraftfahrzeuges zum Teil sehr starke, kurzzeitige Störgeräusche
auftreten.
Der Erfindung liegt die Aufgabe zugrunde, eine für den Betrieb in Kraftfahrzeugen verwendbare Spracherkennungseinrichtung
zu schaffen, die trotz vorhandener Umgebungsgeräusche gesprochene Befehle einwandfrei
identifizieren und daraufhin ein Befehlssigna! abgeben kann.
Die Erfindung ist durch die kennzeichnenden Merkmale des Hauptanspruchs gegeben. Vorteilhafte Ausgestallungen
sind Gegenstand von Unteransprüchen.
Die Spracherkennungseinrichtung bildet den Vergleichspegel nicht mehr durch Auswahl eines Höchstwertes
des Sprachbefehlssignales und Multiplizieren desselben mit einem Faktor < 1, sondern vielmehr durch einen
Mittelwert mit Hilfe eines Glättungsgliedes. Dadurch führen auch kurzzeitige, sehr starke Störungen nicht zu
einem unrealistisch hohen Vergleichswert, der selbst durch ein Signal, das Sprache und Störgeräusche gleichzeitig
enthält, nicht mehr überschritten werden kann. Damit garantiert die erfindungsgemäße Spracherkennungseinrichtung,
daß auch in der störgeräuschanfälligen Umgebung eines Kraftfahrzeuges ein gesprochener Befehl
immer einwandfrei identifiziert werden kann.
Die Einrichtung mit dem Glättungsglied kann durch diskrete Bauteile oder auch mit Hilfe eines Mikrocomputers
aufgebaut sein. Das Verwenden eines Mikrocomputers ist insbesondere dann vorteilhaft, wenn ein solcher
bereits für andere Steuerungsaufgaben vorliegt.
Die Erfindung und vorteilhafte Einzelheiten werden nachstehend unter Bezug auf eine Zeichnung in beispielsweiser
Ausführungsform näher erläutert. Es zeigt
F i g. 1 ein schematisches Blockschaltbild zu einer auch für den Stand der Technik typischen Spracherkennungseinrichtung,
F i g. 2 ein Blockschaltbild zu einem in der Spracherkennungseinrichtung gemäß F i g. 1 enthaltenen bekannten
Stimmdetektor,
F i g. 3A, 3B, 3C, 3D grafische Darstellungen von an vier Meßpunkten (A), (B), (C) bzw. (D) in F i g. 2 auftretenden
Signalformen bei Verarbeitung eines Störgeräusch enthaltenden Sprachbefehlssignals in Verbindung mit
einem festen Bezugsspannungspegel,
F i g. 4 ein schematisches Blockschaltbild eines ersten Ausführungsbeispiels einer Stimmdetektorschaltung für
eine erfindungsgemäße Spracherkennungseinrichtung für Kraftfahrzeuge,
F i g. 5A1 5B, 5C, 5D grafische Darstellungen von an den Meßpunkten (A), (B), (C) bzw. (D) der Schaltung von
F i g. 4 auftretenden Signalformen bei der Verarbeitung eines mit Störgeräusch durchsetzten gesprochenen
Befehls unter Anwendung eines variablen Bezugsspannungspegels,
F i g. 6 ein schematisches Blockschaltbild eines zweiten Ausführungsbeispiels eines erfindungsgemäßen
Stimmdetektors für eine zur Verwendung in Kraftfahrzeugen vorgesehene Spracherkennungseinrichtung mit
Mikrocomputer,
F i g. 7 ein Flußdiagramm zu einer Methode der Erkennung des Beginns eines Sprachbefehlssignals in Verbindung
mit einem in dem Mikrocomputer von F i g. 6 gespeicherten Programm,
F i g. 8 eine grafische Darstellung zur Darstellung der Glättung eines Signals mittels arithmetischer Rechenoperationen,
F i g. 9 ein schematisches Blockschaltbild zu einem einen Mikrocomputer enthaltenden dritten Ausfführungsbeispiel
der Erfindung, und
F i g. 10 ein Flußdiagramm zur Erläuterung der Erkennung des Beginns eines Sprachbefehlssignals in Verbindung
mit einem in dem Mikrocomputer von F i g. 9 gespeicherten Programm.
Vor Verwendung der in F i g. 1 schematisch dargestellten und für den Stand der Technik typischen Spracherkennungseinrichtung
100 ist es erforderlich, daß der Benutzer zuerst eine Aufzeichnungstaste 1 drückt und in
einer besonderen Betriebsart »Voraufzeichnung« mehrere gesprochene Befehle aufzeichnet. Das von der betätigten
Aufzeichnungstaste 1 über eine Schnittstelleneinheit 4 und Leitung 4a an eine Steuerschaltung 5 abgegebene
Signal wird in der Steuerschaltung 5 in ein Aufzeichnungssignal zur Aktivierung aller an der Voraufzeichnung
beteiligten Schaltungen bzw. Einheiten umgesetzt. Ein vom Benutzer gesprochener Befehl wie beispielsweise
»Tür öffnen« wird von einem Mikrofon in ein entsprechendes elektrisches Signai verwandelt, welches
durch eine hauptsächlich einen das Spektrum normalisierenden Verstärker enthaltende Sprachverarbeitungsschaltung
6, verstärkt, mittels einer nachgeschalteten und aus einem Gleichrichter mit Sieb- bzw. Glättungsglied
bestehenden Effektivwert-Glättungsschaltung 15 auf den quadratischen Mittelwert geglättet und danach an
einen Stimmdetektor 7 abgegeben.
Der Verstärker zum Normalisieren des Spektrums hat die Funktion, das natürliche Leistungs- oder Lautstärkespektrum
der menschlichen Sprache durch entgegengesetzte unterschiedliche Verstärkung verschiedener
Frequenzen auf ein annähernd gleichmäßiges Leistungs- oder Lautstärkeniveau einzuebnen. Der Stimmdetektor
7 deutet, wenn die Stärke eines Sprachbefehlssignals einen vorgegebenen Pegel für die Dauer eines festgelegten
Zeitraums (150 bis 250 ms) überschreitet, diesen Befund als den Beginn des Sprachbefehlssignals und, wenn die
Stärke dieses Signals für die Dauer eines festgelegten Zeitraums (etwa 300 ms) einen vorgegebenen Pegel
unterschreitet, als das Ende des Sprachbefehlssignals. Bei Feststellung des Signalbeginns gibt der Stimmdetektor
7 ein neues Aufzeichnungssignal an die Steuerschaltung 5 ab, damit jene durch Aktivierung einer Gruppe von
Bandpaßfiltern 8 die Aufspaltung des vom Mikrofon 2 kommenden Sprachbefehlssignals in eine Anzahl festgelegter
Frequenzbänder veranlaßt. Eine Parameter-Aufbereitungsschaltung 9 übernimmt die in Frequenzbänder
zerlegten Sprachbefehlssignale, gewinnt daraus durch Quadrieren oder Gleichrichtung eine spektrale Lautstärkeverteilung
über die Frequenzbänder und setzt das Ergebnis in entsprechende digitale zeitserielle matrixphonetische
Musterdaten um, welche in einer nachgeschalteten Speichereinheit 10 gespeichert werden. Weil die
Spracherkennungseinrichtung 100 durch Betätigung der Aufzeichnungstaste 1 auf die Betriebsart »Voraufzeichnung«
von Sprachbefehlssignalen geschaltet worden ist, werden die so gewonnenen zeitseriellen matrixphonetischen
Musterdaten in einen Musterspeicher 11 übertragen und darin als Bezugsdaten für die Identifizierung
gesprochener Befehle gespeichert.
Nach erfolgter Aufzeichnung der als Bezugsmuster für gesprochene Befehle dienenden Bezugsdaten kann der
Benutzer, während er eine Identifiziertaste 3 betätigt, Befehle wie beispielsweise »Türen öffnen« in das Mikrofon
sprechen. Durch Betätigung der Identifiziertaste 3 wird bei der Schnittstelleneinheit 4 ein Signal ausgelöst,
und über eine Leitung 4b an die Steuerschaltung 5 abgegeben, damit jene die gesamte Spracherkennungseinrichtung
auf die Betriebsart »Identifizierung« umstellt Sobald in dieser Betriebsart der Benutzer einen Befehl in das
Mikrofon 2 spricht und dieser Befehl einem zuvor aufgezeichneten gesprochenen Befehl ähnlich ist, und wenn
der Stimmdetektor 7 ein Signal abgibt, dann wird das vom Mikrofon 2 kommende Sprachbefehlssignal von der
Sprachverarbeitungsschaltung 6 verstärkt, von den Bandpaßfiltern 8 gefiltert und in Frequenzbänder mit entsprechendem
Lautstärkespektrum aufgeteilt, von der Aufbereitungsschaltung 9 durch Quadrieren oder Gleichrichten
in entsprechende digitale zeitserielle matrixphonetische Musterdaten umgewandelt und (wie bei der
Betriebsart »Voraufzeichnung«) in der Speichereinheit 10 gespeichert.
Danach werden die in der Speichereinheit 10 in der Betriebsart »Identifizierung« gespeicherten zeitseriellen
matrixphonetischen Musterdaten mit den in dem Musterspeicher 11 in der Betriebsart »Voraufzeichnung«
gespeicherten zeitseriellen matrixphonetischen Musterdaten mittels eines Ähnlichkeits-Komparators 12 verglichen.
Der Komparator 12 ermittelt nach Durchführung eines Zeit- und Pegelausgleichs zwecks Ausgleichs
unterschiedlicher Sprechweise (da dieselbe Person einmal laut und schnell, zu anderer Zeit dagegen langsam und
leise sprechen kann) zwischen dem gesprochenen Befehl und dem gespeicherten Bezugsbefehl einen Korrelationsfaktor,
welcher (wie weiter unten erläutert wird) gewöhnlich mittels Berechnung des Tchebycheff-Abs ta nds
zwischen den bei der Betriebsart Identifizierung und den bei der Betriebsart Voraufzeichnung gewonnenen
zeitseriellen matrixphonetischen Musterdaten gewonnen wird. Wenn eine nachgeschaltete Prüfschaltung 13
■feststellt, daß die errechneten Werte in einem festgelegten Bereich liegen und folglich Ähnlichkeit zwischen dem
voraufgezeichneten und dem soeben gesprochenen Befehl besteht, dann veranlaßt sie durch Abgabe eines
entsprechenden Befehlssignals an das betreffende Stellglied 14 beispielsweise das Öffnen der Fahrzeugtüren.
Alle diese Vorgänge werden durch entsprechende Steuersignale aus der Steuerschaltung 5 kontrolliert.
Die vorstehend in Verbindung mit F i g. 1 beschriebene Spracherkennungseinrichtung 100 besteht aus diskreten
Bauelementen oder Einheiten; sie können statt dessen auch durch einen Mikrocomputer mit Zentraleinheit,
ROM, RAM, Taktgenerator usw. enthalten, der die Funktionen der beschriebenen Einheiten 7,9,10,11,12, und
13 ersetzt und gleiche und/oder ähnliche Rechenvorgänge, Operationen u.dgl. ausführt.
Für den Fall, daß vier Bandpaßfilter vorhanden sind und jeder davon mit zweiunddreißig aufeinanderfolgenden
Zeitschritten arbeitet, können die digitalen zeitseriellen matrixphonetischen Musterdaten der Betriebsart
Voraufzeichnung wie folgt ausgedrückt werden:
FiA) = f HJ) ■■
Darin sind mit A ein erster voraufgezeichneter (Bezugs-) Sprachbefehl (z. B. »Türen öffnen«), mit / der
Filterindex und mit/der Zeitschrittindex bezeichnet
Wenn mit B ein erster, in der Betriebsart Identifizierung gesprochener Sprachbefehl (in diesem Fall »Türen
öffnen«) bezeichnet ist, dann kann derTchebycheff-Abstand durch folgenden Ausdruck errechnet werden:
32
l=\FiA)-F(B)\= Σ Σ \fAiU)-fHU)\.
In der in Fi g. 2 dargestellten, auch für die vorliegende Erfindung als bedeutsam zu betrachtenden Stimmdetektorschaltung
der herkömmlichen Spracherkennungseinrichtung nach Fi g. 1 wird der durch das Mikrofon 2 in
ein Sprachbefehlssignal umgesetzte gesprochene Befehl über die Sprachverarbeitungsschaltung 6, die hier im
wesentlichen aus einem die höheren Frequenzen, die in der menschlichen Sprache von Natur schwächer sind,
zwecks Normalisierung des Spektrums bevorzugt verstärkenden Verstärker besteht, in Form eines in F i g. 3(A)
dargestellten mit Störgeräusch vermischten Sprachbefehlssignals abgegeben. Dieses verstärkte Sprachbefehlssignal
wird den Bandpaßfiltern 8 als Anfangsglieder für die Signalüberprüfung, und ferner der Effektivwert-
I I
Glättungsschaltung 15 zugeführt. Die im wesentlichen aus einem Gleichrichter 15-1 und einem Siebglied 15-2 zur
Einleitung der Ermittlung von Anfang und Ende des gesprochenen Befehls bestehende Glättungsschaltung 15
gibt an den Stimmdetektor 7 ein F i g. 3(B) entsprechendes gleichgerichtetes und geglättetes Sprachbefehlssignal
ab, welches in einem Pegelkomparator 7-1 mit einem Bezugsspannungspegel 7} verglichen wird. Der Pegelkomparator
7-1 gibt jeweils für die Zeit, in welcher der Signalpegel den Bezugsspannungspegel 7} überschreitet, ein
hochliegendes Pulssignal gemäß Fig.3(C) an einen Pulsdauerkomparator 7-2 ab, welcher seinerseits dieses
hochliegende Pulssignal mit einer vorgegebenen Bezugsanfangszeit ts sowie einer anderen vorgegebenen Bezugsendzeit
te vergleicht und abhängig davon, ob das hochliegende Pulssignal in seiner Länge die Bezugsanfangszeit
ts oder die Bezugsendzeit te überschreitet, ein hochliegendes bzw. tiefliegendes Signal gemäß F i g. 3(D)
abgibt.
Das erste hochliegende Pulssignal fi in F i g. 3(C) ist kürzer als die Bezugsanfangszeit ts, folglich gibt der
Pulsdauerkomparator 7-2 hier kein hochliegendes Signal ab, jedoch bei dem zweiten hochliegenden Pulssignal i2,
welches sichtlich länger als das Bezugsanfangssignal ts ist. Dieses jetzt aufgetretene hochliegende Signal aus dem
Pulsdauerkomparator 7-2 signalisiert den Beginn eines gesprochenen Befehls, tritt aber erst um den Zeitraum ts
verzögert nach der eigentlichen Startzeit Ps des gesprochenen Befehls auf und wird so lange abgegeben, bis der is
Komparator 7-2 das Ende des gesprochenen Befehls erkennt.
Ein Einbruch im hochliegenden Signal des Pegelkomparators 7-1 zur Zeit h wird von dem Pulsdauerkomparator
7-2 nicht berücksichtigt, weil er kürzer als die Bezugszeit te ist.
Erst der hinter dem hochliegenden Pulssignal U beginnende Zeitraum f5 ist langer als die Bezugsendzeit fe;
hier erkennt der Pulsdauerkomparator 7-2 das Ende des gesprochenen Befehls und gibt, gegenüber dem
eigentlichen Befehls-Endzeitpunkt Pe um die Bezugsendzeit te verzögert, ein tiefliegendes Endsignal ab; dieses
dauert bis zum erkannten Beginn des nächsten gesprochenen Befehls.
Durch das von dem Pulsdauerkomparator 7-2 abgegebene hochliegende Signal (siehe Fig.3D) wird die
Steuerschaltung 5 veranlaßt, durch entsprechende Steuersignale die Bandpaßfiltergruppe 8 und andere Schaltungseinheiten
zur Überprüfung des von der Sprachverarbeitungsschaltung 6 ausgehenden Sprachbefehlssignals,
wie oben erläutert, zu aktivieren.
Da die bekannte Spracherkennungseinrichtung von F i g. 1 und 2 mit einem auf den unveränderbaren festgelegten
Bezugsspannungspegel 77abgestimmten Pegelkomparator 7-1 arbeitet, ist sie in vielen Fällen nicht in der
Lage, zwischen gesprochenen Befehlen und bestimmten Geräuscharten und/oder Geräuschpegeln im Fahrzeuginnenraum
zu unterscheiden. Die Start- und/oder Endzeitpunkte gesprochener Befehle sind daher oft nicht
eindeutig erkennbar, und es kommt vor, daß Geräusche als Sprachansätze gedeutet und/oder gesprochene
Befehle ignoriert werden.
Als Grundidee der Erfindung ist vorgesehen, mit einem laufend dem im Ausgangssignal der Verstärker- bzw.
Sprachverarbeitungsschaltung enthaltenen Stör- oder Geräuschpegel angepaßten variablen Bezugsspannungspegeln
zu arbeiten. Mit diesem Mittel ist es möglich, Anfang und Ende jedes gesprochenen Befehls auch bei mehr
oder weniger starken Nebengeräuschen im Fahrzeug sicher festzustellen.
Das in F i g. 4 dargestellte erste Ausführungsbeispiel einer der Erfindung entsprechenden Stimmdetektorschaltung
enthält die bereits in Verbindung mit Fig. 2 ausführlich erläuterten Grundkomponenten in Form der
aus dem Gleichrichter 15-1 und dem Siebglied 15-2, welches in F i g. 4 eine Zeitkonsiante von 20 bis 30 ms hat,
bestehenden Effektivwert-Glättungsschaltung 15 und des aus dem Pegelkomparator 7-1 und Prüfdauerkomparator
7-2 bestehenden Stimmdetektors 7. Außerdem umfaßt die erfindungsgemäße Stimmdetektorschaltung von
F i g. 4 eine an den Ausgang des Gleichrichters 15-1 angeschlossene zweite Glättungsschaltung (Glättungsglied)
20 mit einer Zeitkonstanten von 100 bis 2000 ms und einen nachgeschalteten Gleichspannungsverstärker 21 mit
einem Verstärkungsgrad von etwa i bis 4 zur Abgabe eines durch Giättung des mix Störgeräusch gemischten
Sprachbefehlssignals erzeugten variablen Bezugsspannungspegels Tv an den Pegelkomparator 7-1.
Ein in das Mikrophon 2 gesprochener Befehl wird in Form eines entsprechenden Signals durch die Signalverarbeitungsschaltung
6 verstärkt und im gesamten Frequenzbereich auf etwa gleiche Amplitudenwerte normalisiert.
Das so aufbereitete und Störgeräuschanteile enthaltende Sprachbefehlssignal wird, wie es in F i g. 5(A)
dargestellt ist, an die Bandpaßfiltergruppe 8 zwecks Durchführung der Analysierung des Spektrums bezüglich
Zeit und Leistung und parallel dazu an die erste Glättungsschaltung 15 als Anfangsglied der Stimmdetektorschaltung
zur Bestimmung der Anfangs- und Endpunkte des gesprochenen Befehls abgegeben.
Der Pegelkomparator 7-1 vergleicht das an dem ersten Glättungsglied 15-2 einschließlich Störgeräuschanteil
abgegebene Sprachbefehlssignal gemäß F i g. 5(B) mit dem vom Gleichspannungsverstärker 21 abgegebenen
variabler. Bezugsspannungspegel Tv (unterbrochene Linie in F i g. 5(B)) und gibt jedesmal, wenn der Signalspanhungspegel
größer als der variable Bezugsspannungspegel Tv ist, gemäß F i g. 5(C) ein hochliegendes Pulssignal
an den Pulsdauerkomparator 7-2 ab, damit jener die Länge oder Dauer des hochliegenden Pulssignals mit der
Länge oder Dauer einer vorgegebenen Bezugsanfangszeit f/ (zum Beispiel 150 ms) und einer vorgegebenen
Bezugsendzeit W (beispielsweise 300 ms) vergleicht Der Pulsdauerkomparator 7-2 gibt gemäß F i g. 5(D) ein
hochliegendes Ausgangssignal ab, wenn das hochliegende Eingangssignal langer als die Bezugsanfangszeit fjist,
jedoch ein tiefliegendes Ausgangssignal ab, wenn das tiefliegende Eingangssignal länger als die Bezugsendzeit f/
ist.
Da bei diesem Ausführungsbeispiel der Erfindung die erste Glättungsschaltung 15 eine Zeitkonstante von 20
bis 30 ms und die zweite Glättungsschaltung 20 eine andere Zeitkonstante von 100 bis 2000 ms hat, wird das
durch die Schaltung 15 erzeugte gleichgerichtete Sprachbefehlssignal (durchgehende Linie in Fig.5(B)) dem
Verlauf des vom Mikrophon 2 kommenden und mit Störsignalen durchsetzten Sprachbefehlssignals wesentlich
ausgeprägter nachgeführt als der durch die zweite Glättungsschaltung 20 erzeugte variable Bezugsspannungspegel
Tv. Je größer oder kleiner der Störsignalanteil des Nutzsignals ist, desto größer oder kleiner wird auch der
Bezugsspannungspegel Tv gestaltet Durch günstige Wahl der Zeitkonstante der zweiten Glättungsschaltung 20
ist es möglich, den Einfluß des Nutz- bzw. Sprachbefehlssignalpegels auf den Bezugsspannungspegel T, fast ganz
izu unterdrücken, denn gesprochene Befehle sind relativ kurzzeitig, sie haben eine Dauer von etwa einer
Sekunde.
Gemäß F i g. 5(C) und 5(D) läßt der Pulsdauerkomparator 7-2 ein erstes Pulssignal W aus dem Pegelkomparator
7-1 unberücksichtigt, weil er kürzer als die Bezugsanfangszeit t/ ist, und gibt erst um die Bezugsanfangszeit
U verzögert nach der Startzeit P5' des gesprochenen Befehls ein hochliegendes Kennzeichensignal (F i g. 5(D))
ab, welches erst nach Ablauf der sich an den Befehls-Endzeitpunkt P/ anschließenden Bezugsendzeit te' abgebrochen
wird, das heißt auf den niedrigen Signalpegel übergeht.
Das hochliegende Kennzeichensignal des Pulsdauerkomparators 7-2 berücksichtigt die hochliegenden Pulssignale ti! und W (F i g. 5(C)) und läßt die dazwischen liegende Niedrigpulsperiode h' unberücksichtigt, weil sie :; kürzer als die Bezugsendzeit te' ist. Erst der tiefliegende Impuls f/ des Pegelkomparators 7-1, der das Ende des Sprachbefehlssignals markiert, führt nach Ablauf der Bezugsendzeit U nach dem Befehls-Endzeitpunkt Pe' zur Beendigung des als Steuersignal für die Steuerschaltung 5 zur Aktivierung der Bandpaßfiltergruppe 8 und
Das hochliegende Kennzeichensignal des Pulsdauerkomparators 7-2 berücksichtigt die hochliegenden Pulssignale ti! und W (F i g. 5(C)) und läßt die dazwischen liegende Niedrigpulsperiode h' unberücksichtigt, weil sie :; kürzer als die Bezugsendzeit te' ist. Erst der tiefliegende Impuls f/ des Pegelkomparators 7-1, der das Ende des Sprachbefehlssignals markiert, führt nach Ablauf der Bezugsendzeit U nach dem Befehls-Endzeitpunkt Pe' zur Beendigung des als Steuersignal für die Steuerschaltung 5 zur Aktivierung der Bandpaßfiltergruppe 8 und
anderer Schaltungseinheiten zwecks Überprüfung und Verarbeitung des von der Schaltung 6 kommenden
Sprachbefehlssignals ausgenutzten hochliegenden Kennzeichensignals durch den Pulsdauerkomparator 7-2.
Bei dem in F i g. 6 dargestellten abgewandelten Ausführungsbeispiel der Erfindung sind der Stimmdetektor 7
mit dem Pegelkomparator 7-1 und der Pulsdauerkomparator 7-2, die zweite Glättungsschaltung 20 und der
Gleichspannungsverstärker 21 mit allen ihren Funktionen durch einen Mikrocomputer 200 mit einem Analog/
Digitalwandler, einer Zentraleinheit, einem ROM (Festwertspeicher), einem RAM (Speicher mit freiem Zugriff),
einer Eingabe/Ausgabe-Schnittstelleneinheit und dgl. ersetzt worden. Somit werden gewisse Funktionen statt
durch Hardware hier mittels Datenverarbeitungsoperationen in Verbindung mit einer geeigneten Software
durchgeführt.
Das aus dem Mikrophon 2 kommende und in der Sprachverarbeitungsschaltung 6 verstärkte sowie normalisierte
Sprachbefehlssignal wird in F i g. 6 den Bandpaßfiltern 8 zur Spektralanalyse und gleichzeitig der Effektivwert-Glättungsschaltung
15 mit dem Gleichrichter 15-1 und dem ersten Glättungsglied 15-2, dessen Zeitkonstante
auf etwa 20 bis 30 ms festgelegt ist, zugeführt. Das so geglättete Sprachbefehlssignal geht aus der Schaltung 15
zuerst in den im Mikrocomputer 200 enthaltenen Analog/Digitalwandler, und der Mikrocomputer 200 ermittelt
aus dem soweit aufbereiteten und digital umgesetzten Sprachbefehissignal Anfang und Ende des gesprochenen
Befehls.
Im Verlauf des in F i g. 7 als Flußdiagramm dargestellten Programms zur Gewinnung des Sprachbefehlsstartsignals
aus den vom Analog/Digitalwandler abgegebenen Digitalsignalen wird zuerst ein Zähler rückgesetzt,
welcher zwecks Ermittlung des ersten gegebenen Zeitraums, in welchem ein von dem ersten Glättungsglied 15-2
abgegebenes Sprachbefehlssignal den Bezugsspannungspegel überschreitet, eine Abtaststartzeit / im Schritt 1
hochzählt. In diesem Fall beträgt eine zwischen /und / + 1 vergehende erste Abtastzeit Ti etwa 10 bis 30ms.
Nach jeder ersten Vorgabeperiode Twerden die durch den Analog/Digitalwandler aus dem Sprachbefehlssignal
gewonnenen Digitalsignalwerte x, im Verlauf von Schritt 2 im RAM gespeichert. Danach erfolgt in Schritt 3 eine
Durchschnittsbildung dieser gespeicherten Digitalsignalwerte beispielsweise nach folgender Formel:
q
1 V /. η (1)
1 V /. η (1)
y,= -r JL *('"*)'
Q-P+1L1,
.
woriny,der Mittelwert über das Zeitintervall von i—p bis i—q(pund q sind festgelegte Zeitabschnitte) in F i g. 8
ist, oder nach Formel
worin yp-ij der vorhergehende Mittelwert und r eine zwischen 0 und 1 liegende Durchschnittsbildungskonstante
sind. Durch diese Gleichung wird ebenfalls nach F i g. 8 der vorhergehende Mittelwert yp-i) auf der Basis des
laufenden Signalwertes λ>· korrigiert, und nach dem so laufend ermittelten Mittelwert y, wird im nächsten Schritt
4 beispielsweise nach folgender Formel der Bezugsspannungspegel TH errechnet
TH = ocyi + ß,
worin α eine zwischen 1 und 3 liegende Konstante und β eine andere Konstante sind. Falls der ursprüngliche
Signalwert x-, größer als der errechnete Bezugsspannungspegel TH(Schritt 5) ist, wird der Zähler (n —n + 1) in
Schritt 8 hochgezählt In Schritt 6 wird der erreichte Zählwert π mit einer beispielsweise durch Division des
ersten gegebenen Zeitraums t/ durch die erste Vorgabeperiode T(NS = ts'IT) in Schritt 9 errechneten festen
Bezugszahl Ns verglichen und, falls π kleiner als Ns ist, die Abtaststartzeit e in Schritt 7 auf den neuesten Stand
gebracht, und dann kehrt das Programm zum Schritt 2 zurück. Falls jedoch π größer als Ns ist, dann wird mit
Schritt 10 das Sprachbefehlsstartsignal zur Einleitung des Vergleichs des gesprochenen Befehls mit gespeicherten
Sprachbefehlssignalen ausgegeben.
Wie schon erwähnt, umfaßt dieses Programm-Flußdiagramm die gleichen Funktionen wie die zweite Glättungsschaltung
20 (100 ms bis 2000 ms) mit dem Gleichspannungsverstärker, Pegelkomparator 7-1 und Pulsdauerkomparator
7-2 der Schaltung in F i g. 4.
Wenn der Mikrocomputer 200 statt des zuvor beschriebenen Sprachbefehlsstartsignals das Sprachbefehlsendsignal
errechnen soll, dann sind in dem Flußdiagramm gemäß Fig.7 nur geänderte Schritte 5 und 9
erforderlich. Falls x, kleiner als THist, wird der Zähler in Schritt 5 hochgezählt, und im Schritt 9 muß Ns durch die H
Bezugszahl Nc = k'/Tersetzt werden.
Bei dem in F i g. 9 dargestellten dritten Ausführungsbeispiel der Erfindung sind außer dem aus Pegelkomparator
7-1 und Pulsdauerkomparator 7-2 bestehenden Stimmdetektor 7 sowie der zweiten .Glättungsschaltung 20
mit nachgeschaltetcm Gleichspannungsverstärker 21 auch noch die Glättungsschaltung 15 mit dem Gleichrichter
15-1 sowie dem ersten Glättungsglied 15-2 mit allen ihren Funktionen durch eine entsprechend programmierten
Mikrocomputer 200 ersetzt, so daß bei dieser abgewandelten Spracherkennungseinrichtung 100 (noch mehr
als bei dem Ausführungsbeispiel von F i g. 6) in sehr großem Umfang diskrete Bauelemente (Hardware) durch
geeignete Software ersetzt worden sind.
Das aus dem Mikrophon 2 kommende Störanteile enthaltende und in der Sprachverarbeitungsschaltung
verstärkte Sprachbefehlssignal wird in Fig.9 in die Bandpaßfilter 8 zur Durchführung der zeit/leistungsorienlierten
Spektralanalyse und gleichzeitig in den Analog/Digitalwandlerteil des Mikrocomputers 200 eingespeist.
Die dem Eingangs-Sprachbefehlssignal entsprechenden Digitalsignale benutzt der Mikrocomputer 200 zur
Ermittlung von Anfang und Ende jedes in das Mikrophon 2 gesprochenen Befehls.
Durch das in Fig. 10 als Flußdiagramm dargestellte Zusatzprogramm in Verbindung mit dem bereits in
Verbindung mit Fi g. 7 erläuterten Romprogramm wird zuerst ein Zähler rückgesetzt, welcher zwecks Ermittlung
des ersten gegebenen Zeitraums, in welchem ein von der Schaltung 6 kommendes geglättetes Sprachbefehlssignal
den Bezugsspannungspegel überschreitet, in Schritt Γ eine Abtaststartzeit /' hochgezählt. In diesem
Fall dauert eine zweite Abtastzeit T^ zwischen /' und /' + 1 etwa 0,1 bis 0,2 ms.
Bei der Analogschaltung (F i g. 4) hatten das erste Glättungsglied eine Zeitkonstante von 20 bis 30 ms und die
zweite Glättungsschaltung eine Zeitkonstante von 100 bis 2000 ms. Was für Analogschaltungen die Zeitkonstante,
ist in den Digitalschaltungen des Mikrocomputers 200 die Abtastzeit. Im vorliegenden Fall wird im Mikrocomputer
200 in einer dem ersten Glättungsglied 15-2 entsprechenden ersten Glättungsrechenschaltung mit
einer ersten Abtastzeit und in einer der zweiten Glättungsschaltung 20 entsprechenden zweiten Glättungsrechenschaltung
mit einer der zweiten Glättungsschaltung entsprechenden zweiten Abtastzeit T2 gearbeitet. Eine
Erhöhung der Abtastzeit hat die gleiche Wirkung wie eine Verkürzung der Zeitkonstante.
Nach Ablauf jeder auf etwa 0,1 bis 0,2 ms festgelegten zweiten Abtastzeit Ti werden im zweiten Schritt 2' die
gewonnenen Digitalsignalwerte z, im RAM gespeichert, und im Schritt 3' bildet das Programm aus diesen
Speicherwerten beispielsweise den Mittelwert x/ entweder nach der Formel
1 V|7 ι Ο)
χ,- = -τ· 2-i lz«· μ ' ·
worin dieser Mittelwert x„ (ähnlich wie in F i g. 8) über den zwischen i—b und i—a liegenden Zeitraums gebildet
wird, oder nach der Formel
χ,- = il-c)xu „ + C-ΙΖ,Ι; 0<C<0,l, (2)
worin X(,- ;; der vorhergehende Mittelwert und c eine Durchschnittsbildungskonstante sind. In diesem Ausdruck
wird der vorhergehende Mittelwert xp-t) auf der Basis eines die Funktion des Gleichrichters 15-1 erfüllenden
Strommittelwertes \z,\, korrigiert. Danach werden die zuvor in Verbindung mit Fig. 7 erläuterten Schritte 1 bis
10 durchgeführt, jedoch mit der Abwandlung, daß hier die Werte Ns und Ne durch Division der Werte rs, und ift
durch die gegenüber dem Fall von F i g. 7 verkürzte zweite Abtastzeit Ti gewonnen werden.
In der vorliegenden Spracherkennungseinrichtung für den Gebrauch in Kraftfahrzeugen oder dgl. werden die
mit geräuschbedingten Störkomponenten durchsetzten, aus einem Mikrophon kommenden Sprachbefehlssigna-Ie
gleichgerichtet, geglättet und mit einem variablen, das heißt dem jeweils vorhandenen Störpegel angepaßten
Bezugsspannungspegel verglichen. So ist es möglich, auch bei stark schwankendem Umgebungsgeräuschpegel
im Innenraum eines Kraftfahrzeugs Anfang und Ende jedes gesprochenen Befehls einwandfrei zu identifizieren
und alle gesprochenen Befehle fehlerfrei in entsprechende Steuer- oder Betätigungssignale umzusetzen.
Hierzu 6 Blatt Zeichnungen
Claims (1)
1. Spracherkennungseinrichtung zum Abgeben eines Signales auf einen gesprochenen Befehl hin, dem
Störgeräusche überlagert sind, mit
— einem Mikrofon, das den Befehl einschließlich der Störgeräusche aufnimmt und als Sprachbefehlssignai
abgibt,
— einem Pegelkomparator, der den Pegel des Sprachbefehlssignales mit einem Vergleichspegel (Tv)
vergleicht und eine Sprachauswerteschaltung nur dann aktiviert, wenn der Pegel des Sprachbefehlssignales
den Vergleichspegel übersteigt, und
— einer Vergleichspegel-Festlegeschaltung,
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP56150730A JPS5852695A (ja) | 1981-09-25 | 1981-09-25 | 車両用音声検出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3235279A1 DE3235279A1 (de) | 1983-04-21 |
DE3235279C2 true DE3235279C2 (de) | 1986-08-21 |
Family
ID=15503152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3235279A Expired DE3235279C2 (de) | 1981-09-25 | 1982-09-23 | Spracherkennungseinrichtung |
Country Status (3)
Country | Link |
---|---|
US (1) | US4597098A (de) |
JP (1) | JPS5852695A (de) |
DE (1) | DE3235279C2 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3243232A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
DE3243231A1 (de) * | 1982-11-23 | 1984-05-24 | Philips Kommunikations Industrie AG, 8500 Nürnberg | Verfahren zur erkennung von sprachpausen |
JPS59139099A (ja) * | 1983-01-31 | 1984-08-09 | 株式会社東芝 | 音声区間検出装置 |
IT1160148B (it) * | 1983-12-19 | 1987-03-04 | Cselt Centro Studi Lab Telecom | Dispositivo per la verifica del parlatore |
EP0167364A1 (de) * | 1984-07-06 | 1986-01-08 | AT&T Corp. | Sprachpausenbestimmung mit Teilbandkodierung |
DE3520311A1 (de) * | 1985-06-07 | 1986-12-11 | Bundesrepublik Deutschland, vertreten durch den Bundesminister der Verteidigung, dieser vertreten durch den Präsidenten des Bundesamtes für Wehrtechnik und Beschaffung, 5400 Koblenz | Filterschaltung |
US5774851A (en) * | 1985-08-15 | 1998-06-30 | Canon Kabushiki Kaisha | Speech recognition apparatus utilizing utterance length information |
US4918732A (en) * | 1986-01-06 | 1990-04-17 | Motorola, Inc. | Frame comparison method for word recognition in high noise environments |
US4926488A (en) * | 1987-07-09 | 1990-05-15 | International Business Machines Corporation | Normalization of speech by adaptive labelling |
JPH027099A (ja) * | 1988-06-27 | 1990-01-11 | Toshiba Corp | 過大音声検出装置 |
US4949187A (en) * | 1988-12-16 | 1990-08-14 | Cohen Jason M | Video communications system having a remotely controlled central source of video and audio data |
US4979214A (en) * | 1989-05-15 | 1990-12-18 | Dialogic Corporation | Method and apparatus for identifying speech in telephone signals |
US5168524A (en) * | 1989-08-17 | 1992-12-01 | Eliza Corporation | Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation |
US5475791A (en) * | 1993-08-13 | 1995-12-12 | Voice Control Systems, Inc. | Method for recognizing a spoken word in the presence of interfering speech |
US5832440A (en) * | 1996-06-10 | 1998-11-03 | Dace Technology | Trolling motor with remote-control system having both voice--command and manual modes |
US5995924A (en) * | 1997-05-05 | 1999-11-30 | U.S. West, Inc. | Computer-based method and apparatus for classifying statement types based on intonation analysis |
US6561461B2 (en) | 1999-07-09 | 2003-05-13 | Aero Astro, Inc. | Orbit transfer vehicle with support services |
US6550720B2 (en) | 1999-07-09 | 2003-04-22 | Aeroastro | Aerobraking orbit transfer vehicle |
DE19944325A1 (de) * | 1999-09-15 | 2001-03-22 | Thomson Brandt Gmbh | Verfahren und Vorrichtung zur Spracherkennung |
US7457750B2 (en) | 2000-10-13 | 2008-11-25 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
DE60139144D1 (de) * | 2000-11-30 | 2009-08-13 | Nippon Telegraph & Telephone | Audio-dekodierer und audio-dekodierungsverfahren |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US8781821B2 (en) * | 2012-04-30 | 2014-07-15 | Zanavox | Voiced interval command interpretation |
US9564128B2 (en) * | 2013-12-09 | 2017-02-07 | Qualcomm Incorporated | Controlling a speech recognition process of a computing device |
US20180158447A1 (en) * | 2016-04-01 | 2018-06-07 | Intel Corporation | Acoustic environment understanding in machine-human speech communication |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1122274B (de) * | 1958-07-10 | 1962-01-18 | Standard Elektrik Lorenz Ag | Verfahren und Anordnung zur automatischen Erkennung von Sprache |
US4027102A (en) * | 1974-11-29 | 1977-05-31 | Pioneer Electronic Corporation | Voice versus pulsed tone signal discrimination circuit |
JPS5272504A (en) * | 1975-12-15 | 1977-06-17 | Fuji Xerox Co Ltd | Device for recognizing word audio |
GB1569450A (en) * | 1976-05-27 | 1980-06-18 | Nippon Electric Co | Speech recognition system |
US4028496A (en) * | 1976-08-17 | 1977-06-07 | Bell Telephone Laboratories, Incorporated | Digital speech detector |
JPS5348601A (en) * | 1976-10-16 | 1978-05-02 | Oki Electric Ind Co Ltd | Noise control system |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
CH633903A5 (de) * | 1978-09-26 | 1982-12-31 | Feller Ag | Sprachschalter fuer ein an eine telefonleitung anzuschliessendes geraet. |
US4351983A (en) * | 1979-03-05 | 1982-09-28 | International Business Machines Corp. | Speech detector with variable threshold |
FR2451680A1 (fr) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | Discriminateur parole/silence pour interpolation de la parole |
FR2466825A1 (fr) * | 1979-09-28 | 1981-04-10 | Thomson Csf | Dispositif de detection de signaux vocaux et systeme d'alternat comportant un tel dispositif |
-
1981
- 1981-09-25 JP JP56150730A patent/JPS5852695A/ja active Pending
-
1982
- 1982-09-23 DE DE3235279A patent/DE3235279C2/de not_active Expired
-
1985
- 1985-08-21 US US06/767,674 patent/US4597098A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPS5852695A (ja) | 1983-03-28 |
US4597098A (en) | 1986-06-24 |
DE3235279A1 (de) | 1983-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3235279C2 (de) | Spracherkennungseinrichtung | |
DE3236724C2 (de) | Durch Sprache steuerbare Betätigungseinrichtung für Kraftfahrzeuge oder dergleichen | |
DE2719973C2 (de) | ||
DE69917361T2 (de) | Vorrichtung zur Sprachdetektion bei Umgebungsgeräuschen | |
DE4029697C2 (de) | Sprachgesteuertes Fernbedienungssystem | |
DE3238855C2 (de) | Spracherkennungseinrichtung | |
EP1005695B1 (de) | Verfahren und vorrichtung zum erfassen eines anschlags in einem zeitdiskreten audiosignal | |
DE3802903C2 (de) | ||
WO1995015668A1 (de) | Schaltungsanordnung für die automatische regelung von hörhilfsgeräten | |
WO2001020965A2 (de) | Verfahren zur bestimmung einer momentanen akustischen umgebungssituation, anwendung des verfharens und ein hörgerät | |
EP0747880B1 (de) | Spracherkennungssystem | |
DE2536585B2 (de) | Anordnung zur statistischen Signalanalyse | |
EP1874082B1 (de) | Vorrichtung und Verfahren zur Schrittweitensteuerung eines adaptiven Filters | |
DE3238853A1 (de) | Sprachsteuerbare betaetigungseinrichtung fuer kraftfahrzeuge | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE3739681A1 (de) | Verfahren zum bestimmen von anfangs- und endpunkt isoliert gesprochener woerter in einem sprachsignal und anordnung zur durchfuehrung des verfahrens | |
DE102017205652B3 (de) | Verfahren zum Betrieb einer Hörvorrichtung und Hörvorrichtung | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
WO2001022790A2 (de) | Verfahren zum betrieb eines hörgerätes und ein hörgerät | |
DE69130687T2 (de) | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal | |
EP1101390B1 (de) | Hörhilfe mit verbesserter sprachverständlichkeit durch frequenzselektive signalverarbeitung sowie verfahren zum betrieb einer derartigen hörhilfe | |
CH691787A5 (de) | Klirrunterdruckung bei Hörgeräten mit AGC. | |
DE2805478C2 (de) | Schaltungsanordnung zur Diskriminierung von Sprachsignalen | |
DE4103913C2 (de) | Verfahren und Einrichtung zur Steuerung von Geräten | |
DE4325404C2 (de) | Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |