DE3645118C2 - - Google Patents

Info

Publication number
DE3645118C2
DE3645118C2 DE3645118A DE3645118A DE3645118C2 DE 3645118 C2 DE3645118 C2 DE 3645118C2 DE 3645118 A DE3645118 A DE 3645118A DE 3645118 A DE3645118 A DE 3645118A DE 3645118 C2 DE3645118 C2 DE 3645118C2
Authority
DE
Germany
Prior art keywords
speech
voice
pattern
section
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3645118A
Other languages
English (en)
Other versions
DE3645118A1 (de
Inventor
Tetsuya Yokohama Kanagawa Jp Muroi
Seigou Yokosuka Kanagawa Jp Yasuda
Toshiki Kawamoto
Junichiro Yokohama Kanagawa Jp Fujimoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP19725585A external-priority patent/JPS6257000A/ja
Priority claimed from JP60197254A external-priority patent/JPS6256999A/ja
Priority claimed from JP61061726A external-priority patent/JPS62217296A/ja
Priority claimed from JP61089138A external-priority patent/JPS62244100A/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to DE19863630518 priority Critical patent/DE3630518C2/de
Publication of DE3645118A1 publication Critical patent/DE3645118A1/de
Application granted granted Critical
Publication of DE3645118C2 publication Critical patent/DE3645118C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Toys (AREA)

Description

Die Erfindung betrifft eine Einrichtung zum Registrieren eines Sprachbezugsmusters in Form eines Sprachlautes oder Sprachwortes nach dem Oberbegriff des Anspruches 1 bzw. des Anspruches 2.
Eine derartige Einrichtung zum Registrieren eines Sprachbezugsmusters in Form eines Sprachlautes oder Sprachwortes ist aus der DE-OS 23 47 738 bekannt. Diese bekannte Einrichtung enthält eine Wandlereinrichtung zum Umwandeln des Sprachlautes oder des Sprachwortes in ein entsprechendes elektrisches Sprachsignal mit einer entsprechenden Zeitfrequenz- Verteilung. Diese bekannte Einrichtung umfaßt ferner auch eine Verarbeitungseinrichtung zur Verarbeitung des elektrischen Sprachsignals und schließlich auch eine Speichereinrichtung zur Abspeicherung des verarbeiteten elektrischen Sprachsignals als Sprachbezugsmuster. Es ist ferner eine Detektoreinrichtung vorgesehen, welche einen Explosionsabschnitt oder einen Vokalabschnitt mit relativ hohem Signalpegel des Sprachwortes erfassen kann, wobei die Verarbeitungseinrichtung eine Überlagerungseinrichtung enthält, um zur Bildung eines aus mehreren Proben nach einer bestimmten Regel kombinierten zu speichernden Sprachbezugsmusters, das vom, unter einer vorgegebenen Energieschwelle liegenden, Lautabschnitt befreite Sprachwort einem bereits vorher erzeugten und gespeicherten Sprachbezugsmuster des gleichen Sprachwortes oder Sprachlautes zu überlagern.
Aus der US-PS 39 09 532 ist ein adaptiver Sprachkodierer bekannt, bei dem die Energie von Kodeworten am Ausgang des Kodierers dazu verwendet werden kann, sehr genau den Anfang und das Ende eines kodierten Sprachlautes zu bestimmen. So wird beispielsweise der Anfang eines Sprachlautes festgestellt, wenn die Energie des kodierten Wortes einen vorbestimmten Schwellenwert überschreitet, und zwar während einer festen Zeitdauer. Auf ähnliche Weise wird das Ende eines Sprachlautes festgestellt, wenn die Energie des Kodewortes unter den Schwellenwert abfällt, und zwar während einer weiteren festen Zeitdauer.
Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren von Audiosignalen bekannt, bei welchem die Nulldurchgänge eines Audiosignals in digitale Impulsfolgen umgewandelt und damit Signalpausen vorgegebener minimaler Dauer detektiert werden. Zum Zwecke der Erhöhung der Erkennungssicherheit bei gleichzeitiger Verringerung des technischen Aufwands wird zur Ausnutzung der Signaldynamik des Audiosignals die Analog-Digital-Wandlung des Audiosignals auf zwei unterschiedlichen Schwellen durchgeführt. Mittels der an der niedrigen Schwelle gewandelten Impulsfolge werden sowohl Signalpausen mit einer einen vorgegebenen unteren Wert übersteigenden Dauer als auch Signalpausen mit einer einen vorgegebenen oberen Wert übersteigenden Dauer detektiert, während mittels der an der höheren Schwelle gewandelten Impulsfolge nur Signalpausen detektiert werden, deren Dauer den höheren Wert übersteigt.
Aus der DE 34 22 877 A1 ist ein Verfahren und eine Vorrichtung zum Ermitteln der Endpunkte von Sprachsignalen bekannt, wobei das jeweilige Sprachsignal einem Steuerschaltkreis mit mehreren Bandpaßfiltern zugeführt wird und von diesem Bandpaßfilter dann zu einem Maximalwertdetektor gelangt. Der Maximalwert der Filterausgangssignale wird einem Endpunkt-Detektor zugeführt, wo die Endpunkte mit Hilfe des Maximalwerts und mindestens eines Schwellwertes ermittelt werden.
Bei all diesen bekannten Verfahren und Einrichtungen wird gewöhnlich als Übungswort das gesamte gesprochene Wort oder auch der gesamte gesprochene Laut verarbeitet. Wenn dabei der beginnende Abschnitt eines Sprachlautes oder Sprachwortes einen Verschlußlaut aufweist oder ein einsilbiges Wort einen Verschlußlaut aufweist, kann es vorkommen, daß in dem einen Fall eines gesprochenen Lautes oder eines gesprochenen Wortes zu Beginn des Lautes oder Wortes ein Zischlautabschnitt auftritt oder auch nicht auftritt. Da somit in einem Fall eines gesprochenen Sprachlautes oder eines Sprachwortes ein Zischlautabschnitt noch vorhanden sein kann, während im anderen Fall ein solcher Zischlautabschnitt vollständig fehlen kann, ergeben sich bei den bekannten Verfahren und Einrichtungen bei der Durchführung einer Korrelationsfunktion Schwierigkeiten, da das abgespeicherte Wort oder Laut keinen Zischlautabschnitt aufweisen kann, während das gesprochene Befehlswort einen solchen Zischlautabschnitt aufweist. Dies kann daher zu einer fehlerhaften Spracherkennung führen.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine Einrichtung zum Registrieren eines Sprachbezugsmusters in Form eines Sprachlautes oder Sprachwortes der angegebenen Gattung zu schaffen, welche die Möglichkeit bietet, auch eindeutig definierte Sprachbezugsmuster in Verbindung mit Sprachlauten oder Sprachworten zu erzeugen, die mit einem Zischlautabschnitt behaftet sind.
Die Lösung dieser Aufgabe ergibt sich aus dem Kennzeichnungsteil des Anspruches 1 bzw. Anspruches 2.
Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.
Im folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigt:
Fig. 1 ein Blockschaltbild, das eine Einrichtung zum Registrieren eines Sprechbezugsmusters gemäß einem Ausführungsbeispiel mit Merkmalen nach der Erfindung wiedergibt;
Fig. 2 eine Darstellung, die ein Beispiel des Zeit- Frequenz-Spektralmusters für einen stimmhaften Verschlußlaut wiedergibt;
Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige Änderung der Sprachenergie eines bestimmten Verschlußlautes mit und ohne Zischlautabschnitt A zeigen;
Fig. 4 ein Blockschaltbild, welches eine Einrichtung zum Registrieren von Sprechbezugsmustern gemäß einem weiteren Ausführungsbeispiel mit Merkmalen nach der Erfindung wiedergibt;
Fig. 5 ein Blockschaltbild, das den detaillierten Aufbau eines Ausführungsbeispiels der Detektoreinrichtung für den Startpunkt der Überlagerung wiedergibt, der in der in Fig. 1 gezeigten Einrichtung vorgesehen ist; und
Fig. 6 ein Blockschaltbild, welches den detaillierten Aufbau eines Beispiels der Überlagerungseinheit zeigt, die in der in Fig. 1 gezeigten Einrichtung vorgesehen ist.
Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in Blockform eine Einrichtung zum Registrieren eines Sprechbezugsmusters zur Verwendung bei der Wiedererkennung von Sprache gezeigt; diese weist ein Mikrofon 1 auf, um Schall in Form einer Druckwelle in ein elektrisches Sprachsignal umzuwandeln, einen Frequenzanalysator 2 zum Verarbeiten des elektrischen Sprachsignals, um ein Sprechmuster in Form einer Zeit-Frequenz-Verteilung zu bilden, eine Detektor-Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung sowie eine Überlagerungseinrichtung 4. Bei dieser Einrichtung wird derselbe Sprachlaut dem Mikrofon 1 mehrfach von derselben oder unterschiedlichen Personen zugeführt, und somit wird eine Anzahl von Sprachmustern aufeinanderfolgend erzeugt. Die vielen Sprachmuster werden aufeinanderfolgend überlagert, wobei man ein zusammengesetztes Sprachbezugsmuster für einen speziellen Sprachlaut registriert. Das so registrierte Sprachbezugsmuster kann später zum Identifizieren unbekannter Sprache durch Herstellen einer Übereinstimmung verwendet werden, wie dies in der Technik bekannt ist.
Es wird ein Sprachsignal der Frequenzanalyse unterzogen, um ein Sprachbezugsmuster in Form einer Zeit-Frequenz-Verteilung zu erhalten, und ein Ausgangspunkt dieses Sprachbezugsmusters zur Überlagerung über ein bereits vorher erzeugtes Sprachmuster für denselben Sprachlaut wird durch die Detektor-Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung ermittelt. Dieser Ausgangspunkt für die Überlagerung wird am Anfangsabschnitt des Sprachmusters auf eine solche Weise bestimmt, daß Sprachenergie gleich oder kleiner ist als ein bestimmter Wert und eine Niederfrequenz-Komponente der Sprachenergie gleich oder größer ist als ein bestimmter Wert. Wenn dieser Ausgangspunkt für die Überlagerung gefunden ist, dann wird die Überlagerung über die vorangegangenen Sprachmuster für denselben Laut eingeleitet, wobei dieser Ausgangspunkt benutzt wird. Da das Sprachmuster über die bereits vorher registrierten Sprachmuster für denselben Sprachlaut überlagert wird, wird stets ein einziges, zusammengesetztes Sprachbezugsmuster hinterlassen, das für einen speziellen Sprachlaut registriert bzw. aufgezeichnet wird. Als andere Vorgehensweise kann jener Abschnitt des Sprachmusters vom Beginn bis zu dem Ausgangspunkt für die Überlagerung, der auf diese Weise ermittelt wurde, abgeschnitten oder vom Sprachmuster entfernt werden, und dann kann die Überlagerung durchgeführt werden.
Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz- Spektralverteilungsmuster des Lautes "gi" als stimmhaften Verschlußlaut zeigt. Wie gezeigt, weist das Muster einen Zischlautabschnitt A, einen Explosionsabschnitt B und einen Vokalabschnitt C auf. Der Zischlautabschnitt A ist charakteristisch für einen stimmhaften Verschlußlaut und unterscheidet sich von Person zu Person sowie von Zeit zu Zeit selbst bei derselben Person, und sogar bei derselben Person erscheint er manchmal und erscheint manchmal nicht. Selbst wenn der Zischlautabschnitt A erscheint, ist seine Zeitdauer unvorhersagbar und äußerst unstabil. Im übrigen ist im Zischlautabschnitt A kein bemerkenswerter Unterschied hinsichtlich der Form des Spektralmusters unter den drei Arten von stimmhaften Verschlußlauten "b", "d" und "g" zu sehen. Deshalb kann, wenn zwei oder mehr Sprachmuster für denselben Sprachlaut einfach vom Beginn des Sprachintervalls eines jeden Musters überlagert werden, der Explosionsabschnitt B, der ein kritisches Element bei der Identifizierung eines stimmhaften Verschlußlautes ist, in Überlagerung mit dem Zischlautabschnitt A oder dem Vokalabschnitt C gelangen, wobei die Bildung eines überlagerten Sprachbezugsmusters, das mit hoher Genauigkeit registriert werden soll, verhindert ist.
Die Grundlage der vorliegenden Erfindung für die Überlagerung zweier oder mehrerer Sprachmuster für einen speziellen Sprachlaut zur Registrierung wird unter Bezugnahme auf die Fig. 3a und 3b beschrieben. Fig. 3a zeigt die Änderung in der Sprachenergie eines speziellen stimmhaften Verschlußlauts mit einem Zischlautabschnitt A am Beginn als Funktion der Zeit. Fig. 3b zeigt die Änderung der Sprachenergie eines speziellen stimmhaften Verschlußlautes, der keinen Zischlautabschnitt aufweist. Wie in Fig. 3a gezeigt, kann der Zischlautabschnitt A dann identifiziert werden, wenn zwei Bedingungen erfüllt sind. Das heißt, beim Beginn des Sprachmusters, wie in Fig. 3a anhand der zeitabhängigen Sprachenergie gezeigt, befindet sich ein Zeitraum, während welchem 1 die Schallenergie gleich oder kleiner ist als ein bestimmter Wert und 2 eine niederfrequente Komponente ein Verhältnis bzw. einen Anteil aufweist, der gleich oder größer ist als ein bestimmter Wert der Schallenergie. In Übereinstimmung mit der vorliegenden Erfindung wird nach Abschluß eines solchen Zeitraumes vom Beginn eines Sprachmusters an, d. h. nach dem Ende des Zischlautabschnitts A, die Überlagerung der Sprachmuster durchgeführt. Als Ergebnis ist stets sichergestellt, daß die Explosionsabschnitte B, die bei der Identifizierung eines stimmhaften Verschlußlauts kritisch sind, genau überlagert werden, wobei es gestattet ist, ein überlagertes Sprachbezugsmuster mit hoher Genauigkeit zu registrieren.
Es erfolgt nun die detaillierte Beschreibung unter Bezugnahme auf ein spezielleres Beispiel; der Frequenzanalysator 2 weist eine Bandpaßfilterbank bzw. eine Reihe von Bandpaßfiltern auf, die mit 29 Kanälen versehen sind, deren Mittelfrequenz von 250 Hz bis 6300 Hz in Stufen von 1/6 Oktaven verändert ist. Wenn somit ein Sprachsignal von einem Mikrofon oder ein spezieller Sprachlaut durch den Frequenzanalysator verarbeitet wird, dann wird ein Zeit-Frequenz-Verteilungsmuster bei jedem Zeitraum erhalten. Die während eines jeden Zeitraums erhaltenen Daten werden "Rahmen" genannt, und somit können die Daten auch durch eine Rahmennummer vom Beginn des Musters aus identifiziert werden. Ein Sprachmuster wird aufeinanderfolgend durch den Frequenzanalysator 2 erzeugt und wird in die Detektor- Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung eingespeist. An der Detektor-Einrichtung 3 für die Ermittlung des Ausgangspunkts der Überlagerung wird die Sprachenergie eines Rahmens mit einer maximalen Sprachenergie während eines Sprachintervalls herausgezogen und als Emax identifiziert. Wenn während eines Zeitraums vom Beginnen des Sprachintervalls bis zu 100 bis 300 ms, vorzugsweise 200 ms, ein Intervall vorliegt, in welchem 1 die Sprachenergie gleich oder kleiner ist als 10 bis 40%, vorzugsweise 20%, und 2 eine Niederfrequenz-Komponente von 200 Hz bis 1 kHz, vorzugsweise 500 Hz, oder weniger, 60 bis 100%, vorzugsweise 80%, der Sprachenergie einnimmt, dann wird die Überlagerung nach dem Ende dieses Intervalls eingeleitet.
Ein Beispiel einer Detektor-Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung ist im einzelnen in Fig. 5 gezeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Detektor-Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung ein Paar aus einem ersten bzw. zweiten Addierer 3a und 3b auf, die mit dem Frequenzanalysator 2 verbunden sind. Der erste Addierer 3a addiert die Ausgänge von allen Kanälen 1 bis 29, die den Frequenzbereich von 250 Hz bis 6300 Hz der Bandpaßfilterbank abdecken, die im Frequenzanalysator 2 vorgesehen ist. Andererseits ist der zweite Addierer 3b vorgesehen, um die Ausgänge aus den Kanälen 1 bis 7 zu addieren, und zwar entsprechend einem Niederfrequenzbereich von 250 Hz bis 500 Hz. Die beim ersten Addierer 3a erhaltenen, aufaddierten Daten werden zwischenzeitlich in einem ersten Register 3c gespeichert, während jene Daten, die im zweiten Addierer 3b addiert wurden, zwischenzeitlich in einem zweiten Register 3d gespeichert werden. Ein erster Multiplikator 3e ist angeschlossen, um die im ersten Register 3c gespeicherten Daten aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8 (80%), wird mit den Daten aus dem ersten Register 3c multipliziert und das resultierende Ergebnis wird zwischenzeitlich in einem dritten Register 3g abgespeichert. Die Angaben im zweiten Register 3d, die mit C2 bezeichnet sind, werden dann mit den Angaben im dritten Register 3g, die mit C1 bezeichnet sind, bei einem ersten Vergleicher 3j verglichen, der einen Ausgang "1" liefert, wenn C1 kleiner ist als C2, und "0", wenn C1 gleich oder größer ist als C2.
An das erste Register 3c ist auch ein Höchstwertdetektor 3f angeschlossen, der einen Höchstwert der addierten Daten für jeden Zeitraum oder Rahmen feststellt und diesen Maximalwert einem zweiten Multiplikator 3h zuführt. Am Multiplikator wird ein zweiter bestimter Faktor, etwa 0,2 (20%), mit dem Höchstwert multipliziert, der vom Höchstwertdetektor 3f zugeführt wird, und die resultierenden Größen werden zwischenzeitlich in einem vierten Register 3i abgespeichert. Die Daten im vierten Register, 3i, die mit C3 bezeichnet sind, werden dann mit den Daten im ersten Register 3c, die mit C4 bezeichnet sind, durch einen Komparator 3k verglichen, der an seinem Ausgang "1" abgibt, wenn C3 größer ist als C4, und "0" abgibt, wenn C3 gleich oder kleiner ist als C4.
Es ergibt sich dann bei dieser Anordnung, wenn von erstem und zweitem Komparator 3j und 3k jeder "1" als Ausgang an eine UND-Schaltung 31 abgibt und somit die UND-Schaltung 31 "1" als ihren Ausgang abgibt, daß der Zischlautabschnitt A des Sprachmusters verarbeitet wird. Wenn die UND-Schaltung 31 "0" als ihren Ausgang zum erstenmal abgibt, dann bezeichnet dies das Ende des Zischlaufabschnitts A, so daß der entsprechende Rahmen als Ausgangspunkt für die Überlagerung an einem Ausgangspunkt-Detektor 3m ermittelt und dann der Überlagerungseinheit 4 zugeführt wird.
Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlagerungseinheit 4 in der in Fig. 1 gezeigten Einrichtung. Wie gezeigt, weist die Überlagerungseinrichtung 4 ein Register 4a auf, um zwischenzeitlich ein Sprachmuster in Form einer Zeit-Frequenz-Verteilung zu speichern, welche gerade von einem eingehenden Sprachlaut erzeugt wurde. Die dargestellte Überlagerungseinheit 4 weist auch ein anderes Register 4d auf, welches die Anzahl von Rahmen eines jeden registrierten Sprachmusters speichert. Wenn das neue Sprachmuster in das Register 4a eingespeichert wird, dann wird die Anzahl der Rahmen, die dem neuen Sprachmuster überlagert werden sollen (d. h. die Anzahl von Rahmen vom Überlagerungsausgangspunkt bis zum Ende des Sprachintervalls) verglichen mit der Anzahl von Rahmen, die im Register 4d für den entsprechenden Sprachlaut gespeichert sind, und dann wird das Maß der linearen Expansion/Kontraktion (d. h. die Anzahl der Rahmen), die für das neue Sprachmuster ausgeführt werden muß, das im Register 4a gespeichert ist, bestimmt. Dann wird das neue im Register 4a gespeicherte Sprachmuster der linearen Expansion bzw. Kontraktion unterzogen, wobei die Anzahl von Rahmen des neuen Sprachmusters, das überlagert werden soll, auf die Anzahl von Rahmen des restrierten Sprachmusters abgeglichen wird, welches im Register 4d gespeichert ist, wie oben erwähnt.
Es ist auch noch ein weiteres Register 4e zum Speichern der Anzahl von Überlagerungen für jedes registrierte Sprachbezugsmuster und ein noch weiteres Register 4f zum Speichern der registrierten Sprachbezugsmuster vorgesehen. Der Wert des registrierten Sprachbezugsmusters, das im Register 4f gespeichert ist, wird mit der entsprechenden Anzahl von Überlagerungen, die im Register 4e gespeichert sind, an einem Multiplikator 4g multipliziert und dann werden die resultierenden Daten zum neuen Sprachbezugsmuster, das der Behandlung linearer Expansion bzw. Kontraktion unterzogen wurde, bei einem Addierer 4h hinzuaddiert. Es wird dann das addierte Ergebnis dividiert durch (Anzahl von Überlagerungen +1) an einem Dividierer 4i und dessen Ergebnis wird im Register 4f als erneuertes Sprachbezugsmuster gespeichert. Um genauer auszuführen, wird davon ausgegangen, daß Xÿ einen Wert eines registrierten Sprachbezugsmusters am i-ten Kanal und j-ten Rahmen und Yÿ den Wert eines neu eingehenden Sprachmusters für denselben Sprachlaut am i-ten Kanal und j-ten Rahmen bezeichnet; dann kann der Wert Xÿ′ als durch Überlagerung erneuertes Sprachmuster auf die folgende Weise ausgedrückt werden:
wobei m die Anzahl von Überlagerungen bezeichnet.
Es muß vermerkt werden, daß die Anzahl von Überlagerungen, die im Register 4e für den entsprechenden Sprachlaut gespeichert ist, durch den Schritt +1 jedesmal dann erneuert wird, wenn eine Überlagerung ausgeführt wird.
Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung, welches eine Modifizierung der Anordnung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt werden, daß, wie es durchgehend in der vorliegenden Beschreibung und den Zeichnungen praktiziert wurde, gleiche Bezugszeichen gleiche bzw. ähnliche Elemente bezeichnen, ohne daß diese sonstwie speziell vermerkt werden. Im vorliegenden Ausführungsbeispiel wird eine Muster-Abschneideeinheit 5 anstelle des Detektors 3 für den Ausgangspunkt der Überlagerung verwendet. In Übereinstimmung mit diesem Ausführungsbeispiel wird, wenn ein Zeitraum am Beginn eines Sprachmusters auf eine solche Weise vorliegt, daß die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und eine Niederfrequenz-Komponente gleich oder größer ist als ein zweiter bestimmter Wert, der als Anteil der Sprachenergie bestimmt ist, ein solcher Zeitraum an der Muster-Abschneideeinheit 5 entfernt bzw. unterdrückt wird, bevor das Muster überlagert wird. Als ein Beispiel kann die Muster-Abschneideeinheit 5 jene Anordnung aufweisen, wie sie in Fig. 5 gezeigt ist. In diesem Fall sollte jedoch der Detektor 3m für den Ausgangspunkt ersetzt werden durch einen Abschneide-Endpunktdetektor, dessen Funktion es ist, einen Rahmen zu ermitteln, wenn der Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde, und dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten Rahmen abzutrennen und zu verwerfen.
Wenn somit ein Sprachlaut in Form einer Druckwelle als Eingang in das Mikrofon 1 gelangt, wird er in ein elektrisches Sprachsignal umgewandelt, welches dann durch den Frequenzanalysator 2 so verarbeitet wird, daß ein Sprachmuster erzeugt wird. Wenn dann das Sprachmuster der Muster-Abschneideeinheit 5 zugeführt wird, werden dessen Sprachstärke und das Verhältnis der Stärke der Niederfrequenz-Komponente zur Sprachstärke, welche eine Summe aller Ausgänge der Bandpaßfilterbank (29 Kanäle im dargestellten Beispiel) ist, ermittelt. Dann wird geprüft, ob ein solcher Zeitraum am vorderen Abschnitt des Sprachmusters vorliegt, bei welchem die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und die Stärke der Niederfrequenz-Komponente gleich oder größer ist als ein zweiter bestimmter Wert. Wenn es sich dann herausgestellt hat, daß ein solcher Zeitraum vorliegt, wird dieser abgetrennt und verworfen, bevor das Sprachmuster der Überlagerungseinheit 4 zugeführt wird. Deshalb werden an der Überlagerungseinheit 4 mehrere Sprachmuster, deren anfängliche Abschnitte abgeschnitten wurden, überlagert, um ein zusammengesetztes Sprachbezugsmuster für die Registrierung zu definieren.
Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel der Zischlautabschnitt A, der in Fig. 3a gezeigt ist, von der Muster-Abschneideeinheit 5 so entfernt, daß ein Sprachmuster gebildet ist, das nur aus dem Explosionsabschnitt B und dem Vokalabschnitt C zusammengesetzt ist.
Selbst wenn in diesem Fall das Sprachmuster eines stimmhaften Verschlußlauts, der einen Zischlautabschnitt aufweist, über das Sprachmuster eines stimmhaften Verschlußlauts überlagert werden soll, der keinen Zischlautabschnitt aufweist, ist stets sichergestellt, daß die Explosionsabschnitte übereinander angeordnet werden, wobei es ermöglicht ist, ein überlagertes Sprachbezugsmuster mit hoher Genauigkeit zu registrieren bzw. zu speichern.

Claims (10)

1. Einrichtung zum Registrieren eines Sprachbezugsmusters in Form eines Sprachlautes, mit einer Wandlereinrichtung zum Umwandeln des Sprachlautes in ein elektrisches Sprachsignal mit einer entsprechenden Zeitfrequenz-Verteilung, mit einer Verarbeitungseinrichtung zur Verarbeitung des elektrischen Signals, die eine Überlagerungseinrichtung enthält, um den Sprachlaut einem bereits vorher erzeugten und gespeicherten Sprachmuster des gleichen Sprachlautes zu überlagern, mit einer Detektoreinrichtung, welche einen Explosionsabschnitt oder einen Vokalabschnitt mit relativ hohem Signalpegel des Sprachlautes erfaßt, und mit einer Speichereinrichtung zur Abspeicherung des verarbeiteten elektrischen Sprachsignals als Sprachbezugsmuster, dadurch gekennzeichnet, daß
  • a) die Detektoreinrichtung (3) dafür ausgebildet ist, das Vorhandensein oder Fehlen eines Zischlautabschnitts (A) innerhalb einer vorbestimmten Zeitdauer vom Zeitpunkt des Empfangs eines Sprachlautes ab gerechnet, festzustellen, dessen Sprachenergie gleich einem vorbestimmten Wert ist oder unter diesem Wert liegt und eine Niederfrequenzkomponente entsprechend einem bestimmten Verhältnis oder Anteil besitzt, und
  • b) die Überlagerungseinrichtung (4) den vom Zischlautabschnitt (A) befreiten Sprachlaut dem bereits vorher erzeugten und gespeicherten Sprachbezugsmuster des gleichen Sprachlautes überlagert.
2. Einrichtung zum Registrieren eines Sprachbezugsmusters in Form eines Sprachwortes, mit einer Wandlereinrichtung zum Umwandeln des Sprachwortes in ein elektrisches Sprachsignal mit einer entsprechenden Zeitfrequenz-Verteilung, mit einer Verarbeitungseinrichtung zur Verarbeitung des elektrischen Signals, die eine Überlagerungseinrichtung enthält, um das Sprachwort einem bereits vorher erzeugten und gespeicherten Sprachmuster des gleichen Sprachwortes zu überlagern, mit einer Detektoreinrichtung, welche einen Explosionsabschnitt oder einen Vokalabschnitt mit relativ hohem Signalpegel des Sprachwortes erfaßt, und mit einer Speichereinrichtung zur Abspeicherung des verarbeiteten elektrischen Signals als Sprachbezugsmuster, dadurch gekennzeichnet, daß
  • a) die Detektoreinrichtung (3) dafür ausgebildet ist, das Vorhandensein oder Fehlen eines Zischlautabschnitts (A) innerhalb einer vorbestimmten Zeitdauer vom Zeitpunkt des Empfangs eines Sprachwortes ab gerechnet, festzustellen, dessen Sprachenergie gleich einem vorbestimmten Wert ist oder unter diesem Wert liegt und eine Niederfrequenzkomponente entsprechend einem bestimmten Verhältnis oder Anteil besitzt, und
  • b) die Überlagerungseinrichtung (4) das vom Zischlautabschnitt (A) befreite Sprachwort dem bereits vorher erzeugten und gespeicherten Sprachbezugsmuster des gleichen Sprachwortes überlagert.
3. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, daß die Wandlereinrichtung ein Mikrofon (1) aufweist.
4. Einrichtung nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Verarbeitungseinrichtung (2) einen Frequenzanalysator aufweist, der mit mehreren Bandpaßfiltern mit unterschiedlichem Frequenzbereich versehen ist.
5. Einrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Detektoreinrichtung (3) einen Schwellenwertdetektor aufweist, dessen Schwellenwert dem vorbestimmten Wert entspricht.
6. Einrichtung nach Anspruch 5, dadurch gekennzeichnet, daß der Schwellenwertdetektor (2) einen Höchstwertdetektor aufweist, der den Höchstwert des Sprechmusters ermittelt, und daß der bestimmte Wert auf einen ersten Bereich von 10 bis 40% des Höchstwerts festgesetzt ist.
7. Einrichtung nach Anspruch 6, dadurch gekennzeichnet, daß ein dem relativ hohen Signalpegel entsprechender zweiter Schwellenwert auf einen zweiten Bereich von 60 bis 100% des Höchstwerts festgesetzt ist.
8. Einrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Niederfrequenz-Komponente auf einen Bereich von 200 Hz bis 1 kHz festgesetzt ist.
9. Einrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß der erste und zweite Bereich etwa auf 20% bzw. 80% festgesetzt ist.
10. Einrichtung nach Anspruch 8, dadurch gekennzeichnet, daß die Niederfrequenz-Komponente auf 500 Hz festgelegt ist.
DE3645118A 1985-09-06 1986-09-08 Expired - Fee Related DE3645118C2 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19863630518 DE3630518C2 (de) 1985-09-06 1986-09-08 Einrichtung zum lautweisen Identifizieren eines Sprechmusters

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP19725585A JPS6257000A (ja) 1985-09-06 1985-09-06 音声認識装置
JP60197254A JPS6256999A (ja) 1985-09-06 1985-09-06 パタ−ン登録方式
JP61061726A JPS62217296A (ja) 1986-03-19 1986-03-19 音声認識装置の入力キヤンセル法
JP61089138A JPS62244100A (ja) 1986-04-17 1986-04-17 音声区間検出方式

Publications (2)

Publication Number Publication Date
DE3645118A1 DE3645118A1 (de) 1989-08-17
DE3645118C2 true DE3645118C2 (de) 1992-06-04

Family

ID=27464076

Family Applications (1)

Application Number Title Priority Date Filing Date
DE3645118A Expired - Fee Related DE3645118C2 (de) 1985-09-06 1986-09-08

Country Status (4)

Country Link
US (1) US4833713A (de)
DE (1) DE3645118C2 (de)
FR (1) FR2587137B1 (de)
GB (2) GB2181874B (de)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3733659A1 (de) * 1986-10-03 1988-04-21 Ricoh Kk Verfahren zum vergleichen von mustern
FR2604816B1 (fr) * 1986-10-03 1990-08-17 Ricoh Kk Procede de comparaison de formes dans un systeme de reconnaissance de formes
US4937870A (en) * 1988-11-14 1990-06-26 American Telephone And Telegraph Company Speech recognition arrangement
US5222147A (en) * 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
US5220595A (en) * 1989-05-17 1993-06-15 Kabushiki Kaisha Toshiba Voice-controlled apparatus using telephone and voice-control method
WO1992015090A1 (en) * 1991-02-22 1992-09-03 Seaway Technologies, Inc. Acoustic method and apparatus for identifying human sonic sources
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US6073097A (en) * 1992-11-13 2000-06-06 Dragon Systems, Inc. Speech recognition system which selects one of a plurality of vocabulary models
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
JP2655046B2 (ja) * 1993-09-13 1997-09-17 日本電気株式会社 ベクトル量子化装置
US5675639A (en) * 1994-10-12 1997-10-07 Intervoice Limited Partnership Voice/noise discriminator
WO1996022595A1 (en) * 1995-01-19 1996-07-25 Ann Adcock Corporation Speaker verification method
US5835894A (en) * 1995-01-19 1998-11-10 Ann Adcock Corporation Speaker and command verification method
GB9602691D0 (en) * 1996-02-09 1996-04-10 Canon Kk Word model generation
DE19625294A1 (de) * 1996-06-25 1998-01-02 Daimler Benz Aerospace Ag Spracherkennungsverfahren und Anordnung zum Durchführen des Verfahrens
US5915001A (en) 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US5864814A (en) * 1996-12-04 1999-01-26 Justsystem Corp. Voice-generating method and apparatus using discrete voice data for velocity and/or pitch
TW333610B (en) * 1997-10-16 1998-06-11 Winbond Electronics Corp The phonetic detecting apparatus and its detecting method
AU1393899A (en) * 1998-11-10 2000-05-29 Sherrie Ann Adcock Method of comparing utterances for security control
US6519565B1 (en) 1998-11-10 2003-02-11 Voice Security Systems, Inc. Method of comparing utterances for security control
US20020010715A1 (en) * 2001-07-26 2002-01-24 Garry Chinn System and method for browsing using a limited display device
US7336282B2 (en) * 2003-09-11 2008-02-26 Ricoh Company, Ltd. System, recording medium and program for inputting operation condition of instrument
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US9043210B1 (en) 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
CN110070884B (zh) * 2019-02-28 2022-03-15 北京字节跳动网络技术有限公司 音频起始点检测方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4144582A (en) * 1970-12-28 1979-03-13 Hyatt Gilbert P Voice signal processing system
GB1435779A (en) * 1972-09-21 1976-05-12 Threshold Tech Word recognition
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4087630A (en) * 1977-05-12 1978-05-02 Centigram Corporation Continuous speech recognition apparatus
FR2433800A1 (fr) * 1978-08-17 1980-03-14 Thomson Csf Discriminateur de parole et recepteur comportant un tel discriminateur
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
DE3236000A1 (de) * 1982-09-29 1984-03-29 Blaupunkt-Werke Gmbh, 3200 Hildesheim Verfahren zum klassifizieren von audiosignalen
JPH067357B2 (ja) * 1982-10-19 1994-01-26 シャープ株式会社 音声認識装置
JPS603700A (ja) * 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式

Also Published As

Publication number Publication date
FR2587137A1 (fr) 1987-03-13
GB8621389D0 (en) 1986-10-15
DE3645118A1 (de) 1989-08-17
US4833713A (en) 1989-05-23
GB2208022A (en) 1989-02-15
GB8822389D0 (en) 1988-10-26
GB2181874B (en) 1989-08-16
FR2587137B1 (fr) 1990-02-09
GB2181874A (en) 1987-04-29
GB2208022B (en) 1989-08-16

Similar Documents

Publication Publication Date Title
DE3645118C2 (de)
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE3216800A1 (de) Anordnung zur eingabe von befehlsworten durch sprache
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE2719973A1 (de) Verfahren und vorrichtung zum adaptiven filtern von fast stationaerem geraeusch aus sprache
DE2524804A1 (de) Verfahren und vorrichtung zur automatischen spracherkennung
DE3236885A1 (de) Verfahren und geraet zur sprachanalyse
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE2919085A1 (de) Vorverarbeitungsverfahren und -vorrichtung fuer eine spracherkennungsvorrichtung
DE4031638C2 (de)
DE4306508A1 (de) Verfahren und Anordnung zum Ermitteln von Wörtern in einem Sprachsignal
EP0319078A2 (de) Verfahren zum Bestimmen von Anfangs- und Endpunkt isoliert gesprochener Wörter in einem Sprachsignal und Anordnung zur Durchführung des Verfahrens
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE3238853A1 (de) Sprachsteuerbare betaetigungseinrichtung fuer kraftfahrzeuge
DE3422877C2 (de)
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE4130633A1 (de) Verfahren zum erkennen der gesprochenen woerter in einem sprachsignal
EP0703569B1 (de) System zum Ermitteln von Wörtern aus einem Sprachsignal
DE4031421A1 (de) Musteranpassungssystem fuer eine spracherkennungseinrichtung
DE1572516A1 (de) Schaltungsanordnung fuer die Spracherkennung
DE3630518C2 (de) Einrichtung zum lautweisen Identifizieren eines Sprechmusters
DE3642591C2 (de)
DE2312356A1 (de) Verfahren und vorrichtung zur bestimmung der grundfrequenz von sprachsignalen
EP0231490B1 (de) Verfahren zur Spracherkennung in geräuschvoller Umgebung

Legal Events

Date Code Title Description
Q172 Divided out of (supplement):

Ref country code: DE

Ref document number: 3630518

8110 Request for examination paragraph 44
AC Divided out of

Ref country code: DE

Ref document number: 3630518

Format of ref document f/p: P

D2 Grant after examination
8364 No opposition during term of opposition
AC Divided out of

Ref country code: DE

Ref document number: 3630518

Format of ref document f/p: P

8339 Ceased/non-payment of the annual fee