DE3645118C2 - - Google Patents
Info
- Publication number
- DE3645118C2 DE3645118C2 DE3645118A DE3645118A DE3645118C2 DE 3645118 C2 DE3645118 C2 DE 3645118C2 DE 3645118 A DE3645118 A DE 3645118A DE 3645118 A DE3645118 A DE 3645118A DE 3645118 C2 DE3645118 C2 DE 3645118C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- voice
- pattern
- section
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004880 explosion Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008602 contraction Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Toys (AREA)
Description
Die Erfindung betrifft eine Einrichtung zum Registrieren
eines Sprachbezugsmusters in Form eines Sprachlautes oder
Sprachwortes nach dem Oberbegriff des Anspruches 1 bzw. des
Anspruches 2.
Eine derartige Einrichtung zum Registrieren eines Sprachbezugsmusters
in Form eines Sprachlautes oder Sprachwortes
ist aus der DE-OS 23 47 738 bekannt. Diese bekannte Einrichtung
enthält eine Wandlereinrichtung zum Umwandeln des
Sprachlautes oder des Sprachwortes in ein entsprechendes
elektrisches Sprachsignal mit einer entsprechenden Zeitfrequenz-
Verteilung. Diese bekannte Einrichtung umfaßt ferner
auch eine Verarbeitungseinrichtung zur Verarbeitung des
elektrischen Sprachsignals und schließlich auch eine Speichereinrichtung
zur Abspeicherung des verarbeiteten elektrischen
Sprachsignals als Sprachbezugsmuster. Es ist ferner
eine Detektoreinrichtung vorgesehen, welche einen
Explosionsabschnitt oder einen Vokalabschnitt mit relativ
hohem Signalpegel des Sprachwortes erfassen kann, wobei die
Verarbeitungseinrichtung eine Überlagerungseinrichtung enthält,
um zur Bildung eines aus mehreren Proben nach einer
bestimmten Regel kombinierten zu speichernden Sprachbezugsmusters,
das vom, unter einer vorgegebenen Energieschwelle
liegenden, Lautabschnitt befreite Sprachwort einem bereits
vorher erzeugten und gespeicherten Sprachbezugsmuster des
gleichen Sprachwortes oder Sprachlautes zu überlagern.
Aus der US-PS 39 09 532 ist ein adaptiver Sprachkodierer
bekannt, bei dem die Energie von Kodeworten am Ausgang des
Kodierers dazu verwendet werden kann, sehr genau den Anfang
und das Ende eines kodierten Sprachlautes zu bestimmen. So
wird beispielsweise der Anfang eines Sprachlautes festgestellt,
wenn die Energie des kodierten Wortes einen vorbestimmten
Schwellenwert überschreitet, und zwar während
einer festen Zeitdauer. Auf ähnliche Weise wird das Ende
eines Sprachlautes festgestellt, wenn die Energie des Kodewortes
unter den Schwellenwert abfällt, und zwar während
einer weiteren festen Zeitdauer.
Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren
von Audiosignalen bekannt, bei welchem die Nulldurchgänge
eines Audiosignals in digitale Impulsfolgen umgewandelt
und damit Signalpausen vorgegebener minimaler Dauer
detektiert werden. Zum Zwecke der Erhöhung der Erkennungssicherheit
bei gleichzeitiger Verringerung des technischen
Aufwands wird zur Ausnutzung der Signaldynamik des Audiosignals
die Analog-Digital-Wandlung des Audiosignals auf
zwei unterschiedlichen Schwellen durchgeführt. Mittels der
an der niedrigen Schwelle gewandelten Impulsfolge werden
sowohl Signalpausen mit einer einen vorgegebenen unteren
Wert übersteigenden Dauer als auch Signalpausen mit einer
einen vorgegebenen oberen Wert übersteigenden Dauer detektiert,
während mittels der an der höheren Schwelle gewandelten
Impulsfolge nur Signalpausen detektiert werden, deren
Dauer den höheren Wert übersteigt.
Aus der DE 34 22 877 A1 ist ein Verfahren und eine Vorrichtung
zum Ermitteln der Endpunkte von Sprachsignalen bekannt,
wobei das jeweilige Sprachsignal einem Steuerschaltkreis
mit mehreren Bandpaßfiltern zugeführt wird und von
diesem Bandpaßfilter dann zu einem Maximalwertdetektor gelangt.
Der Maximalwert der Filterausgangssignale wird einem
Endpunkt-Detektor zugeführt, wo die Endpunkte mit Hilfe des
Maximalwerts und mindestens eines Schwellwertes ermittelt
werden.
Bei all diesen bekannten Verfahren und Einrichtungen wird
gewöhnlich als Übungswort das gesamte gesprochene Wort oder
auch der gesamte gesprochene Laut verarbeitet. Wenn dabei
der beginnende Abschnitt eines Sprachlautes oder Sprachwortes
einen Verschlußlaut aufweist oder ein einsilbiges Wort
einen Verschlußlaut aufweist, kann es vorkommen, daß in dem
einen Fall eines gesprochenen Lautes oder eines gesprochenen
Wortes zu Beginn des Lautes oder Wortes ein Zischlautabschnitt
auftritt oder auch nicht auftritt. Da somit in
einem Fall eines gesprochenen Sprachlautes oder eines
Sprachwortes ein Zischlautabschnitt noch vorhanden sein
kann, während im anderen Fall ein solcher Zischlautabschnitt
vollständig fehlen kann, ergeben sich bei den bekannten
Verfahren und Einrichtungen bei der Durchführung
einer Korrelationsfunktion Schwierigkeiten, da das abgespeicherte
Wort oder Laut keinen Zischlautabschnitt aufweisen
kann, während das gesprochene Befehlswort einen solchen
Zischlautabschnitt aufweist. Dies kann daher zu einer fehlerhaften
Spracherkennung führen.
Die der Erfindung zugrundeliegende Aufgabe besteht darin,
eine Einrichtung zum Registrieren eines Sprachbezugsmusters
in Form eines Sprachlautes oder Sprachwortes der angegebenen
Gattung zu schaffen, welche die Möglichkeit bietet,
auch eindeutig definierte Sprachbezugsmuster in Verbindung
mit Sprachlauten oder Sprachworten zu erzeugen, die mit
einem Zischlautabschnitt behaftet sind.
Die Lösung dieser Aufgabe ergibt sich aus dem Kennzeichnungsteil
des Anspruches 1 bzw. Anspruches 2.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen
der Erfindung ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen
unter Hinweis auf die Zeichnung näher erläutert. Es zeigt:
Fig. 1 ein Blockschaltbild, das eine Einrichtung
zum Registrieren eines Sprechbezugsmusters
gemäß einem Ausführungsbeispiel mit Merkmalen nach der
Erfindung wiedergibt;
Fig. 2 eine Darstellung, die ein Beispiel des Zeit-
Frequenz-Spektralmusters für einen stimmhaften
Verschlußlaut wiedergibt;
Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige
Änderung der Sprachenergie eines bestimmten
Verschlußlautes mit und ohne Zischlautabschnitt
A zeigen;
Fig. 4 ein Blockschaltbild, welches eine Einrichtung
zum Registrieren von Sprechbezugsmustern gemäß
einem weiteren Ausführungsbeispiel mit
Merkmalen nach der Erfindung wiedergibt;
Fig. 5 ein Blockschaltbild, das den detaillierten
Aufbau eines Ausführungsbeispiels der Detektoreinrichtung
für den Startpunkt der Überlagerung
wiedergibt, der in der in Fig. 1
gezeigten Einrichtung vorgesehen ist; und
Fig. 6 ein Blockschaltbild, welches den detaillierten
Aufbau eines Beispiels der Überlagerungseinheit
zeigt, die in der in Fig. 1 gezeigten
Einrichtung vorgesehen ist.
Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in
Blockform eine Einrichtung zum Registrieren eines Sprechbezugsmusters
zur Verwendung bei der Wiedererkennung von
Sprache gezeigt; diese weist ein Mikrofon 1 auf, um Schall
in Form einer Druckwelle in ein elektrisches Sprachsignal
umzuwandeln, einen Frequenzanalysator 2 zum Verarbeiten des
elektrischen Sprachsignals, um ein Sprechmuster in Form
einer Zeit-Frequenz-Verteilung zu bilden, eine Detektor-Einrichtung
3 zum Ermitteln des Ausgangspunkts für die Überlagerung sowie
eine Überlagerungseinrichtung 4. Bei dieser Einrichtung
wird derselbe Sprachlaut dem Mikrofon 1 mehrfach von derselben
oder unterschiedlichen Personen zugeführt, und somit
wird eine Anzahl von Sprachmustern aufeinanderfolgend
erzeugt. Die vielen Sprachmuster werden aufeinanderfolgend
überlagert, wobei man ein zusammengesetztes Sprachbezugsmuster
für einen speziellen Sprachlaut registriert. Das so
registrierte Sprachbezugsmuster kann später zum Identifizieren
unbekannter Sprache durch Herstellen einer Übereinstimmung
verwendet werden, wie dies in der Technik bekannt
ist.
Es wird ein
Sprachsignal der Frequenzanalyse unterzogen, um ein Sprachbezugsmuster
in Form einer Zeit-Frequenz-Verteilung zu erhalten,
und ein Ausgangspunkt dieses Sprachbezugsmusters
zur Überlagerung über ein bereits vorher erzeugtes Sprachmuster
für denselben Sprachlaut wird durch die Detektor-Einrichtung
3 zum Ermitteln des Ausgangspunkts für die Überlagerung ermittelt.
Dieser Ausgangspunkt für die Überlagerung wird am
Anfangsabschnitt des Sprachmusters auf eine solche Weise
bestimmt, daß Sprachenergie gleich oder kleiner ist als ein
bestimmter Wert und eine Niederfrequenz-Komponente der
Sprachenergie gleich oder größer ist als ein bestimmter
Wert. Wenn dieser Ausgangspunkt für die Überlagerung gefunden
ist, dann wird die Überlagerung über die vorangegangenen
Sprachmuster für denselben Laut eingeleitet, wobei
dieser Ausgangspunkt benutzt wird. Da das Sprachmuster
über die bereits vorher registrierten Sprachmuster
für denselben Sprachlaut überlagert wird, wird stets ein
einziges, zusammengesetztes Sprachbezugsmuster hinterlassen,
das für einen speziellen Sprachlaut registriert bzw.
aufgezeichnet wird. Als andere Vorgehensweise kann jener
Abschnitt des Sprachmusters vom Beginn bis zu dem Ausgangspunkt
für die Überlagerung, der auf diese Weise ermittelt
wurde, abgeschnitten oder vom Sprachmuster entfernt
werden, und dann kann die Überlagerung durchgeführt
werden.
Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz-
Spektralverteilungsmuster des Lautes "gi" als stimmhaften
Verschlußlaut zeigt. Wie gezeigt, weist das Muster
einen Zischlautabschnitt A, einen Explosionsabschnitt B und
einen Vokalabschnitt C auf. Der Zischlautabschnitt A ist charakteristisch
für einen stimmhaften Verschlußlaut und unterscheidet
sich von Person zu Person sowie von Zeit zu
Zeit selbst bei derselben Person, und sogar bei derselben
Person erscheint er manchmal und erscheint manchmal nicht.
Selbst wenn der Zischlautabschnitt A erscheint, ist seine Zeitdauer
unvorhersagbar und äußerst unstabil. Im übrigen ist
im Zischlautabschnitt A kein bemerkenswerter Unterschied hinsichtlich
der Form des Spektralmusters unter den drei Arten
von stimmhaften Verschlußlauten "b", "d" und "g" zu
sehen. Deshalb kann, wenn zwei oder mehr Sprachmuster für
denselben Sprachlaut einfach vom Beginn des Sprachintervalls
eines jeden Musters überlagert werden, der Explosionsabschnitt
B, der ein kritisches Element bei der Identifizierung
eines stimmhaften Verschlußlautes ist, in
Überlagerung mit dem Zischlautabschnitt A oder dem Vokalabschnitt
C gelangen, wobei die Bildung eines überlagerten
Sprachbezugsmusters, das mit hoher Genauigkeit registriert
werden soll, verhindert ist.
Die Grundlage der vorliegenden Erfindung für die Überlagerung
zweier oder mehrerer Sprachmuster für einen speziellen
Sprachlaut zur Registrierung wird unter Bezugnahme auf
die Fig. 3a und 3b beschrieben. Fig. 3a zeigt die Änderung
in der Sprachenergie eines speziellen stimmhaften Verschlußlauts
mit einem Zischlautabschnitt A am Beginn als Funktion der
Zeit. Fig. 3b zeigt die Änderung der Sprachenergie eines
speziellen stimmhaften Verschlußlautes, der keinen Zischlautabschnitt
aufweist. Wie in Fig. 3a gezeigt, kann der Zischlautabschnitt
A dann identifiziert werden, wenn zwei Bedingungen
erfüllt sind. Das heißt, beim Beginn des Sprachmusters,
wie in Fig. 3a anhand der zeitabhängigen Sprachenergie gezeigt,
befindet sich ein Zeitraum, während welchem 1 die
Schallenergie gleich oder kleiner ist als ein bestimmter
Wert und 2 eine niederfrequente Komponente ein Verhältnis
bzw. einen Anteil aufweist, der gleich oder größer ist
als ein bestimmter Wert der Schallenergie. In Übereinstimmung
mit der vorliegenden Erfindung wird nach Abschluß eines
solchen Zeitraumes vom Beginn eines Sprachmusters an, d. h.
nach dem Ende des Zischlautabschnitts A, die Überlagerung der
Sprachmuster durchgeführt. Als Ergebnis ist stets sichergestellt,
daß die Explosionsabschnitte B, die bei der Identifizierung
eines stimmhaften Verschlußlauts kritisch sind,
genau überlagert werden, wobei es gestattet ist, ein überlagertes
Sprachbezugsmuster mit hoher Genauigkeit zu registrieren.
Es erfolgt nun die detaillierte Beschreibung unter Bezugnahme
auf ein spezielleres Beispiel; der Frequenzanalysator
2 weist eine Bandpaßfilterbank bzw. eine Reihe
von Bandpaßfiltern auf, die mit 29 Kanälen versehen sind,
deren Mittelfrequenz von 250 Hz bis 6300 Hz in Stufen
von 1/6 Oktaven verändert ist. Wenn somit ein Sprachsignal
von einem Mikrofon oder ein spezieller Sprachlaut durch
den Frequenzanalysator verarbeitet wird, dann wird ein
Zeit-Frequenz-Verteilungsmuster bei jedem Zeitraum erhalten.
Die während eines jeden Zeitraums erhaltenen Daten
werden "Rahmen" genannt, und somit können die Daten auch
durch eine Rahmennummer vom Beginn des Musters aus identifiziert
werden. Ein Sprachmuster wird aufeinanderfolgend
durch den Frequenzanalysator 2 erzeugt und wird in die Detektor-
Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung
eingespeist. An der Detektor-Einrichtung 3 für die Ermittlung
des Ausgangspunkts der Überlagerung wird die Sprachenergie
eines Rahmens mit einer maximalen Sprachenergie
während eines Sprachintervalls herausgezogen und als Emax
identifiziert. Wenn während eines Zeitraums vom Beginnen
des Sprachintervalls bis zu 100 bis 300 ms, vorzugsweise
200 ms, ein Intervall vorliegt, in welchem 1 die Sprachenergie
gleich oder kleiner ist als 10 bis 40%, vorzugsweise
20%, und 2 eine Niederfrequenz-Komponente von 200 Hz
bis 1 kHz, vorzugsweise 500 Hz, oder weniger, 60 bis 100%,
vorzugsweise 80%, der Sprachenergie einnimmt, dann wird
die Überlagerung nach dem Ende dieses Intervalls eingeleitet.
Ein Beispiel einer Detektor-Einrichtung 3 zum Ermitteln des Ausgangspunkts
für die Überlagerung ist im einzelnen in Fig. 5
gezeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Detektor-Einrichtung
3 zum Ermitteln des Ausgangspunktes für die
Überlagerung ein Paar aus einem ersten bzw. zweiten Addierer
3a und 3b auf, die mit dem Frequenzanalysator 2 verbunden
sind. Der erste Addierer 3a addiert die Ausgänge
von allen Kanälen 1 bis 29, die den Frequenzbereich von
250 Hz bis 6300 Hz der Bandpaßfilterbank abdecken, die
im Frequenzanalysator 2 vorgesehen ist. Andererseits ist
der zweite Addierer 3b vorgesehen, um die Ausgänge aus den
Kanälen 1 bis 7 zu addieren, und zwar entsprechend einem
Niederfrequenzbereich von 250 Hz bis 500 Hz. Die beim ersten
Addierer 3a erhaltenen, aufaddierten Daten werden
zwischenzeitlich in einem ersten Register 3c gespeichert,
während jene Daten, die im zweiten Addierer 3b addiert
wurden, zwischenzeitlich in einem zweiten Register 3d gespeichert
werden. Ein erster Multiplikator 3e ist angeschlossen,
um die im ersten Register 3c gespeicherten Daten
aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8
(80%), wird mit den Daten aus dem ersten Register 3c multipliziert
und das resultierende Ergebnis wird zwischenzeitlich
in einem dritten Register 3g abgespeichert. Die
Angaben im zweiten Register 3d, die mit C2 bezeichnet
sind, werden dann mit den Angaben im dritten Register 3g,
die mit C1 bezeichnet sind, bei einem ersten Vergleicher
3j verglichen, der einen Ausgang "1" liefert, wenn C1 kleiner
ist als C2, und "0", wenn C1 gleich oder größer ist als
C2.
An das erste Register 3c ist auch ein Höchstwertdetektor
3f angeschlossen, der einen Höchstwert der addierten Daten
für jeden Zeitraum oder Rahmen feststellt und diesen
Maximalwert einem zweiten Multiplikator 3h zuführt. Am
Multiplikator wird ein zweiter bestimter Faktor, etwa
0,2 (20%), mit dem Höchstwert multipliziert, der vom
Höchstwertdetektor 3f zugeführt wird, und die resultierenden
Größen werden zwischenzeitlich in einem vierten Register
3i abgespeichert. Die Daten im vierten Register, 3i,
die mit C3 bezeichnet sind, werden dann mit den Daten im
ersten Register 3c, die mit C4 bezeichnet sind, durch
einen Komparator 3k verglichen, der an seinem
Ausgang "1" abgibt, wenn C3 größer ist als C4, und "0" abgibt,
wenn C3 gleich oder kleiner ist als C4.
Es ergibt sich dann bei dieser Anordnung, wenn von erstem
und zweitem Komparator 3j und 3k jeder "1" als Ausgang an
eine UND-Schaltung 31 abgibt und somit die UND-Schaltung
31 "1" als ihren Ausgang abgibt, daß der Zischlautabschnitt
A des Sprachmusters verarbeitet wird. Wenn die UND-Schaltung
31 "0" als ihren Ausgang zum erstenmal abgibt, dann
bezeichnet dies das Ende des Zischlaufabschnitts A, so daß der
entsprechende Rahmen als Ausgangspunkt für die Überlagerung
an einem Ausgangspunkt-Detektor 3m ermittelt und dann
der Überlagerungseinheit 4 zugeführt wird.
Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlagerungseinheit
4 in der in Fig. 1 gezeigten Einrichtung.
Wie gezeigt, weist die Überlagerungseinrichtung 4 ein Register
4a auf, um zwischenzeitlich ein Sprachmuster in
Form einer Zeit-Frequenz-Verteilung zu speichern, welche
gerade von einem eingehenden Sprachlaut erzeugt wurde.
Die dargestellte Überlagerungseinheit 4 weist auch ein anderes
Register 4d auf, welches die Anzahl von Rahmen eines
jeden registrierten Sprachmusters speichert. Wenn das neue
Sprachmuster in das Register 4a eingespeichert wird, dann
wird die Anzahl der Rahmen, die dem neuen Sprachmuster
überlagert werden sollen (d. h. die Anzahl von Rahmen vom
Überlagerungsausgangspunkt bis zum Ende des Sprachintervalls)
verglichen mit der Anzahl von Rahmen, die im Register
4d für den entsprechenden Sprachlaut gespeichert sind,
und dann wird das Maß der linearen Expansion/Kontraktion
(d. h. die Anzahl der Rahmen), die für das neue Sprachmuster
ausgeführt werden muß, das im Register 4a gespeichert
ist, bestimmt. Dann wird das neue im Register 4a gespeicherte
Sprachmuster der linearen Expansion bzw. Kontraktion
unterzogen, wobei die Anzahl von Rahmen des neuen
Sprachmusters, das überlagert werden soll, auf die Anzahl
von Rahmen des restrierten Sprachmusters abgeglichen
wird, welches im Register 4d gespeichert ist, wie
oben erwähnt.
Es ist auch noch ein weiteres Register 4e zum Speichern
der Anzahl von Überlagerungen für jedes registrierte
Sprachbezugsmuster und ein noch weiteres Register 4f zum
Speichern der registrierten Sprachbezugsmuster vorgesehen.
Der Wert des registrierten Sprachbezugsmusters, das
im Register 4f gespeichert ist, wird mit der entsprechenden
Anzahl von Überlagerungen, die im Register 4e gespeichert
sind, an einem Multiplikator 4g multipliziert und dann
werden die resultierenden Daten zum neuen Sprachbezugsmuster,
das der Behandlung linearer Expansion bzw. Kontraktion
unterzogen wurde, bei einem Addierer 4h hinzuaddiert.
Es wird dann das addierte Ergebnis dividiert durch (Anzahl
von Überlagerungen +1) an einem Dividierer 4i und dessen
Ergebnis wird im Register 4f als erneuertes Sprachbezugsmuster
gespeichert. Um genauer auszuführen, wird davon ausgegangen,
daß Xÿ einen Wert eines registrierten Sprachbezugsmusters
am i-ten Kanal und j-ten Rahmen und Yÿ den
Wert eines neu eingehenden Sprachmusters für denselben
Sprachlaut am i-ten Kanal und j-ten Rahmen bezeichnet;
dann kann der Wert Xÿ′ als durch Überlagerung erneuertes
Sprachmuster auf die folgende Weise ausgedrückt werden:
wobei m die Anzahl von Überlagerungen bezeichnet.
Es muß vermerkt werden, daß die Anzahl von Überlagerungen,
die im Register 4e für den entsprechenden Sprachlaut gespeichert
ist, durch den Schritt +1 jedesmal dann erneuert
wird, wenn eine Überlagerung ausgeführt wird.
Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel
mit Merkmalen nach der vorliegenden Erfindung, welches eine Modifizierung der
Anordnung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt
werden, daß, wie es durchgehend in der vorliegenden Beschreibung
und den Zeichnungen praktiziert wurde, gleiche
Bezugszeichen gleiche bzw. ähnliche Elemente bezeichnen,
ohne daß diese sonstwie speziell vermerkt werden. Im vorliegenden
Ausführungsbeispiel wird eine Muster-Abschneideeinheit
5 anstelle des Detektors 3 für den Ausgangspunkt
der Überlagerung verwendet. In Übereinstimmung mit diesem
Ausführungsbeispiel wird, wenn ein Zeitraum am Beginn eines
Sprachmusters auf eine solche Weise vorliegt, daß die
Sprachenergie gleich oder kleiner ist als ein erster bestimmter
Wert und eine Niederfrequenz-Komponente gleich
oder größer ist als ein zweiter bestimmter Wert, der als
Anteil der Sprachenergie bestimmt ist, ein solcher Zeitraum
an der Muster-Abschneideeinheit 5 entfernt bzw. unterdrückt
wird, bevor das Muster überlagert wird. Als ein
Beispiel kann die Muster-Abschneideeinheit 5 jene Anordnung
aufweisen, wie sie in Fig. 5 gezeigt ist. In diesem Fall
sollte jedoch der Detektor 3m für den Ausgangspunkt ersetzt
werden durch einen Abschneide-Endpunktdetektor, dessen
Funktion es ist, einen Rahmen zu ermitteln, wenn der
Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde,
und dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten
Rahmen abzutrennen und zu verwerfen.
Wenn somit ein Sprachlaut in Form einer Druckwelle als Eingang
in das Mikrofon 1 gelangt, wird er in ein elektrisches
Sprachsignal umgewandelt, welches dann durch den Frequenzanalysator
2 so verarbeitet wird, daß ein Sprachmuster erzeugt
wird. Wenn dann das Sprachmuster der Muster-Abschneideeinheit
5 zugeführt wird, werden dessen Sprachstärke und
das Verhältnis der Stärke der Niederfrequenz-Komponente
zur Sprachstärke, welche eine Summe aller Ausgänge der
Bandpaßfilterbank (29 Kanäle im dargestellten Beispiel)
ist, ermittelt. Dann wird geprüft, ob ein solcher Zeitraum
am vorderen Abschnitt des Sprachmusters vorliegt, bei welchem
die Sprachenergie gleich oder kleiner ist als ein erster
bestimmter Wert und die Stärke der Niederfrequenz-Komponente
gleich oder größer ist als ein zweiter bestimmter
Wert. Wenn es sich dann herausgestellt hat, daß ein
solcher Zeitraum vorliegt, wird dieser abgetrennt und verworfen,
bevor das Sprachmuster der Überlagerungseinheit 4
zugeführt wird. Deshalb werden an der Überlagerungseinheit
4 mehrere Sprachmuster, deren anfängliche Abschnitte abgeschnitten
wurden, überlagert, um ein zusammengesetztes
Sprachbezugsmuster für die Registrierung zu definieren.
Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel
der Zischlautabschnitt A, der in Fig. 3a gezeigt ist,
von der Muster-Abschneideeinheit 5 so entfernt, daß ein
Sprachmuster gebildet ist, das nur aus dem Explosionsabschnitt
B und dem Vokalabschnitt C zusammengesetzt ist.
Selbst wenn in diesem Fall das Sprachmuster eines stimmhaften
Verschlußlauts, der einen Zischlautabschnitt aufweist,
über das Sprachmuster eines stimmhaften Verschlußlauts
überlagert werden soll, der keinen Zischlautabschnitt aufweist,
ist stets sichergestellt, daß die Explosionsabschnitte
übereinander angeordnet werden, wobei es ermöglicht ist,
ein überlagertes Sprachbezugsmuster mit hoher Genauigkeit
zu registrieren bzw. zu speichern.
Claims (10)
1. Einrichtung zum Registrieren eines Sprachbezugsmusters
in Form eines Sprachlautes, mit einer Wandlereinrichtung
zum Umwandeln des Sprachlautes in ein elektrisches Sprachsignal
mit einer entsprechenden Zeitfrequenz-Verteilung,
mit einer Verarbeitungseinrichtung zur Verarbeitung des
elektrischen Signals, die eine Überlagerungseinrichtung
enthält, um den Sprachlaut einem bereits vorher erzeugten
und gespeicherten Sprachmuster des gleichen Sprachlautes zu
überlagern, mit einer Detektoreinrichtung, welche einen
Explosionsabschnitt oder einen Vokalabschnitt mit relativ
hohem Signalpegel des Sprachlautes erfaßt, und mit einer
Speichereinrichtung zur Abspeicherung des verarbeiteten
elektrischen Sprachsignals als Sprachbezugsmuster,
dadurch gekennzeichnet, daß
- a) die Detektoreinrichtung (3) dafür ausgebildet ist, das Vorhandensein oder Fehlen eines Zischlautabschnitts (A) innerhalb einer vorbestimmten Zeitdauer vom Zeitpunkt des Empfangs eines Sprachlautes ab gerechnet, festzustellen, dessen Sprachenergie gleich einem vorbestimmten Wert ist oder unter diesem Wert liegt und eine Niederfrequenzkomponente entsprechend einem bestimmten Verhältnis oder Anteil besitzt, und
- b) die Überlagerungseinrichtung (4) den vom Zischlautabschnitt (A) befreiten Sprachlaut dem bereits vorher erzeugten und gespeicherten Sprachbezugsmuster des gleichen Sprachlautes überlagert.
2. Einrichtung zum Registrieren eines Sprachbezugsmusters
in Form eines Sprachwortes, mit einer Wandlereinrichtung
zum Umwandeln des Sprachwortes in ein elektrisches Sprachsignal
mit einer entsprechenden Zeitfrequenz-Verteilung,
mit einer Verarbeitungseinrichtung zur Verarbeitung des
elektrischen Signals, die eine Überlagerungseinrichtung
enthält, um das Sprachwort einem bereits vorher erzeugten
und gespeicherten Sprachmuster des gleichen Sprachwortes zu
überlagern, mit einer Detektoreinrichtung, welche einen
Explosionsabschnitt oder einen Vokalabschnitt mit relativ
hohem Signalpegel des Sprachwortes erfaßt, und mit einer
Speichereinrichtung zur Abspeicherung des verarbeiteten
elektrischen Signals als Sprachbezugsmuster,
dadurch gekennzeichnet, daß
- a) die Detektoreinrichtung (3) dafür ausgebildet ist, das Vorhandensein oder Fehlen eines Zischlautabschnitts (A) innerhalb einer vorbestimmten Zeitdauer vom Zeitpunkt des Empfangs eines Sprachwortes ab gerechnet, festzustellen, dessen Sprachenergie gleich einem vorbestimmten Wert ist oder unter diesem Wert liegt und eine Niederfrequenzkomponente entsprechend einem bestimmten Verhältnis oder Anteil besitzt, und
- b) die Überlagerungseinrichtung (4) das vom Zischlautabschnitt (A) befreite Sprachwort dem bereits vorher erzeugten und gespeicherten Sprachbezugsmuster des gleichen Sprachwortes überlagert.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet,
daß die Wandlereinrichtung ein Mikrofon (1) aufweist.
4. Einrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Verarbeitungseinrichtung (2) einen Frequenzanalysator
aufweist, der mit mehreren Bandpaßfiltern
mit unterschiedlichem Frequenzbereich versehen ist.
5. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch
gekennzeichnet, daß die Detektoreinrichtung (3) einen
Schwellenwertdetektor aufweist, dessen Schwellenwert dem
vorbestimmten Wert entspricht.
6. Einrichtung nach Anspruch 5, dadurch gekennzeichnet,
daß der Schwellenwertdetektor (2) einen Höchstwertdetektor
aufweist, der den Höchstwert des Sprechmusters ermittelt,
und daß der bestimmte Wert auf einen ersten Bereich von 10
bis 40% des Höchstwerts festgesetzt ist.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet,
daß ein dem relativ hohen Signalpegel entsprechender zweiter
Schwellenwert auf einen zweiten Bereich von 60 bis
100% des Höchstwerts festgesetzt ist.
8. Einrichtung nach einem der Ansprüche 1 bis 7, dadurch
gekennzeichnet, daß die Niederfrequenz-Komponente auf einen
Bereich von 200 Hz bis 1 kHz festgesetzt ist.
9. Einrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet,
daß der erste und zweite Bereich etwa auf 20%
bzw. 80% festgesetzt ist.
10. Einrichtung nach Anspruch 8, dadurch gekennzeichnet,
daß die Niederfrequenz-Komponente auf 500 Hz festgelegt
ist.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19863630518 DE3630518C2 (de) | 1985-09-06 | 1986-09-08 | Einrichtung zum lautweisen Identifizieren eines Sprechmusters |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19725585A JPS6257000A (ja) | 1985-09-06 | 1985-09-06 | 音声認識装置 |
JP60197254A JPS6256999A (ja) | 1985-09-06 | 1985-09-06 | パタ−ン登録方式 |
JP61061726A JPS62217296A (ja) | 1986-03-19 | 1986-03-19 | 音声認識装置の入力キヤンセル法 |
JP61089138A JPS62244100A (ja) | 1986-04-17 | 1986-04-17 | 音声区間検出方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3645118A1 DE3645118A1 (de) | 1989-08-17 |
DE3645118C2 true DE3645118C2 (de) | 1992-06-04 |
Family
ID=27464076
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3645118A Expired - Fee Related DE3645118C2 (de) | 1985-09-06 | 1986-09-08 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4833713A (de) |
DE (1) | DE3645118C2 (de) |
FR (1) | FR2587137B1 (de) |
GB (2) | GB2181874B (de) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3733659A1 (de) * | 1986-10-03 | 1988-04-21 | Ricoh Kk | Verfahren zum vergleichen von mustern |
FR2604816B1 (fr) * | 1986-10-03 | 1990-08-17 | Ricoh Kk | Procede de comparaison de formes dans un systeme de reconnaissance de formes |
US4937870A (en) * | 1988-11-14 | 1990-06-26 | American Telephone And Telegraph Company | Speech recognition arrangement |
US5222147A (en) * | 1989-04-13 | 1993-06-22 | Kabushiki Kaisha Toshiba | Speech recognition LSI system including recording/reproduction device |
US5220595A (en) * | 1989-05-17 | 1993-06-15 | Kabushiki Kaisha Toshiba | Voice-controlled apparatus using telephone and voice-control method |
WO1992015090A1 (en) * | 1991-02-22 | 1992-09-03 | Seaway Technologies, Inc. | Acoustic method and apparatus for identifying human sonic sources |
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5428707A (en) * | 1992-11-13 | 1995-06-27 | Dragon Systems, Inc. | Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance |
US6073097A (en) * | 1992-11-13 | 2000-06-06 | Dragon Systems, Inc. | Speech recognition system which selects one of a plurality of vocabulary models |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
JP2655046B2 (ja) * | 1993-09-13 | 1997-09-17 | 日本電気株式会社 | ベクトル量子化装置 |
US5675639A (en) * | 1994-10-12 | 1997-10-07 | Intervoice Limited Partnership | Voice/noise discriminator |
WO1996022595A1 (en) * | 1995-01-19 | 1996-07-25 | Ann Adcock Corporation | Speaker verification method |
US5835894A (en) * | 1995-01-19 | 1998-11-10 | Ann Adcock Corporation | Speaker and command verification method |
GB9602691D0 (en) * | 1996-02-09 | 1996-04-10 | Canon Kk | Word model generation |
DE19625294A1 (de) * | 1996-06-25 | 1998-01-02 | Daimler Benz Aerospace Ag | Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens |
US5915001A (en) | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US5864814A (en) * | 1996-12-04 | 1999-01-26 | Justsystem Corp. | Voice-generating method and apparatus using discrete voice data for velocity and/or pitch |
TW333610B (en) * | 1997-10-16 | 1998-06-11 | Winbond Electronics Corp | The phonetic detecting apparatus and its detecting method |
AU1393899A (en) * | 1998-11-10 | 2000-05-29 | Sherrie Ann Adcock | Method of comparing utterances for security control |
US6519565B1 (en) | 1998-11-10 | 2003-02-11 | Voice Security Systems, Inc. | Method of comparing utterances for security control |
US20020010715A1 (en) * | 2001-07-26 | 2002-01-24 | Garry Chinn | System and method for browsing using a limited display device |
US7336282B2 (en) * | 2003-09-11 | 2008-02-26 | Ricoh Company, Ltd. | System, recording medium and program for inputting operation condition of instrument |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US9043210B1 (en) | 2012-10-02 | 2015-05-26 | Voice Security Systems, Inc. | Biometric voice command and control switching device and method of use |
CN110070884B (zh) * | 2019-02-28 | 2022-03-15 | 北京字节跳动网络技术有限公司 | 音频起始点检测方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4144582A (en) * | 1970-12-28 | 1979-03-13 | Hyatt Gilbert P | Voice signal processing system |
GB1435779A (en) * | 1972-09-21 | 1976-05-12 | Threshold Tech | Word recognition |
US3909532A (en) * | 1974-03-29 | 1975-09-30 | Bell Telephone Labor Inc | Apparatus and method for determining the beginning and the end of a speech utterance |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
FR2433800A1 (fr) * | 1978-08-17 | 1980-03-14 | Thomson Csf | Discriminateur de parole et recepteur comportant un tel discriminateur |
JPS58130393A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
DE3236000A1 (de) * | 1982-09-29 | 1984-03-29 | Blaupunkt-Werke Gmbh, 3200 Hildesheim | Verfahren zum klassifizieren von audiosignalen |
JPH067357B2 (ja) * | 1982-10-19 | 1994-01-26 | シャープ株式会社 | 音声認識装置 |
JPS603700A (ja) * | 1983-06-22 | 1985-01-10 | 日本電気株式会社 | 音声検出方式 |
-
1986
- 1986-09-04 GB GB8621389A patent/GB2181874B/en not_active Expired
- 1986-09-04 US US06/903,524 patent/US4833713A/en not_active Expired - Lifetime
- 1986-09-05 FR FR868612511A patent/FR2587137B1/fr not_active Expired - Fee Related
- 1986-09-08 DE DE3645118A patent/DE3645118C2/de not_active Expired - Fee Related
-
1988
- 1988-09-23 GB GB8822389A patent/GB2208022B/en not_active Expired
Also Published As
Publication number | Publication date |
---|---|
FR2587137A1 (fr) | 1987-03-13 |
GB8621389D0 (en) | 1986-10-15 |
DE3645118A1 (de) | 1989-08-17 |
US4833713A (en) | 1989-05-23 |
GB2208022A (en) | 1989-02-15 |
GB8822389D0 (en) | 1988-10-26 |
GB2181874B (en) | 1989-08-16 |
FR2587137B1 (fr) | 1990-02-09 |
GB2181874A (en) | 1987-04-29 |
GB2208022B (en) | 1989-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3645118C2 (de) | ||
DE2326517A1 (de) | Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern | |
DE2626793B2 (de) | Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals | |
DE3216800A1 (de) | Anordnung zur eingabe von befehlsworten durch sprache | |
DE2422028C2 (de) | Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort | |
DE2719973A1 (de) | Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache | |
DE2524804A1 (de) | Verfahren und vorrichtung zur automatischen spracherkennung | |
DE3236885A1 (de) | Verfahren und geraet zur sprachanalyse | |
EP0076233B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE2919085A1 (de) | Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung | |
DE4031638C2 (de) | ||
DE4306508A1 (de) | Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal | |
EP0319078A2 (de) | Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens | |
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
DE3238853A1 (de) | Sprachsteuerbare betaetigungseinrichtung fuer kraftfahrzeuge | |
DE3422877C2 (de) | ||
EP0285222B1 (de) | Verfahren zum Erkennen zusammenhängend gesprochener Wörter | |
DE4130633A1 (de) | Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal | |
EP0703569B1 (de) | System zum Ermitteln von Wörtern aus einem Sprachsignal | |
DE4031421A1 (de) | Musteranpassungssystem fuer eine spracherkennungseinrichtung | |
DE1572516A1 (de) | Schaltungsanordnung fuer die Spracherkennung | |
DE3630518C2 (de) | Einrichtung zum lautweisen Identifizieren eines Sprechmusters | |
DE3642591C2 (de) | ||
DE2312356A1 (de) | Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen | |
EP0231490B1 (de) | Verfahren zur Spracherkennung in geräuschvoller Umgebung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
Q172 | Divided out of (supplement): |
Ref country code: DE Ref document number: 3630518 |
|
8110 | Request for examination paragraph 44 | ||
AC | Divided out of |
Ref country code: DE Ref document number: 3630518 Format of ref document f/p: P |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
AC | Divided out of |
Ref country code: DE Ref document number: 3630518 Format of ref document f/p: P |
|
8339 | Ceased/non-payment of the annual fee |