DE3630518C2

DE3630518C2 - Device for loudly identifying a speech pattern

Info

Publication number: DE3630518C2
Application number: DE19863630518
Authority: DE
Inventors: Tetsuya Muroi; Seigou Yasuda; Toshiki Kawamoto; Junichiro Fujimoto
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1985-09-06
Filing date: 1986-09-08
Publication date: 1996-05-02
Anticipated expiration: 2006-09-09
Also published as: DE3630518A1

Abstract

Sound is converted into an electrical speech signal which is fed to a processor to transform the signal in a predetermined way so as to produce a speech model in the form of a time-frequency distribution. A detector determines a section of the model in which the speech energy of the sound is equal to or less than a first value, and in which the low frequency component of the sound is equal to or greater than a second value. The speech model is superimposed over the already produced speech model for the same sound according to the conclusion of the section. Pref. the section chosen is the hiss-component of the sound, and the converter device is a microphone.

Description

Die Erfindung betrifft eine Einrichtung zum lautweisen Iden tifizieren eines Sprechmusters nach dem Oberbegriff des An spruches 1.The invention relates to a device for sound identification tify a speech pattern according to the generic term of the An saying 1.

Eine derartige Einrichtung zum lautweisen Identifizieren eines Sprechmusters ist aus der DE-OS 23 47 738 bekannt. Die se bekannte Einrichtung enthält eine Wandlereinrichtung zum Umwandeln einer zu erkennenden Sprache in ein elektrisches Sprechsignal. Es ist ferner eine Frequenzanalyseeinrichtung vorhanden, die Teil einer Verarbeitungseinrichtung ist zum Verarbeiten des Sprechsignals in einer vorbestimmten Weise zum Erzeugen eines Sprechmusters in Form einer Zeit-Frequenz- Verteilung. Die bekannte Einrichtung umfaßt ferner eine De tektoreinrichtung zum Ermitteln eines zeitlichen Abschnitts des Sprechmusters vom Beginn eines Beobachtungszeitraums ab, wobei dieser Abschnitt für die Sprechmustererkennung weiter verarbeitet wird, enthält ferner eine Einrichtung zum Bestim men der Übereinstimmung des Sprechmusters mit mindestens einem einer Anzahl registrierter Sprechmuster, wobei der Be obachtungszeitraum jeweils einen Laut umfaßt.Such a device for identifying loudly a speech pattern is known from DE-OS 23 47 738. The This known device contains a converter device for Convert a language to be recognized into an electrical one Speech signal. It is also a frequency analysis device available, which is part of a processing facility for Processing the speech signal in a predetermined manner to generate a speech pattern in the form of a time-frequency Distribution. The known device also includes a De tector device for determining a time segment the speech pattern from the beginning of an observation period, this section continues for speech pattern recognition processed, also contains a device for determination the agreement of the speech pattern with at least one of a number of registered speech patterns, the Be period includes one sound each.

Aus der DE 32 36 000 A1 ist ein Verfahren zum Klassifizieren von Audiosignalen bekannt, bei dem die Nulldurchgänge eines Audiosignals in digitale Impulsfolgen umgewandelt und damit Signalpausen vorgegebener minimaler Dauer detektiert werden können. Dieses bekannte Verfahren ist aber beispielsweise nicht dafür geeignet, um bestimmte Lautabschnitte, wie bei spielsweise Zischlautabschnitte eines Sprachsignals, detek tieren zu können.DE 32 36 000 A1 describes a method for classifying known from audio signals, in which the zero crossings of a Audio signal converted into digital pulse trains and thus Signal pauses of a predetermined minimum duration are detected can. However, this known method is for example not suitable for certain sections of sound, as in for example sibilant sections of a speech signal, detec to be able to animals.

Aus der US-PS 3 909 532 ist eine Einrichtung zum Identifizie ren eines Sprechmusters bekannt, die darauf basiert, daß die Energie von Codeworten am Ausgang eines adaptiven Sprachko dierers dazu verwendet wird, den Anfang und das Ende eines Sprechmusters zu ermitteln. Der Beginn eines Sprechmusters wird beispielsweise dadurch ermittelt, indem festgestellt wird, ob die Energie des Sprechmusters einen vorbestimmten Schwellenwert für eine vorbestimmte Zeitdauer überschreitet. Diese bekannte Einrichtung basiert somit auf der Anwendung des Signalpegel-Detektorverfahrens, d. h. es werden Teile eines zu erkennenden Sprachmusters an sich gar nicht erfaßt, deren Energie unterhalb des genannten vorbestimmten Schwel lenwertes liegen. Bei dieser bekannten Einrichtung wird daher beispielsweise der Zischlautabschnitt eines zu erkennenden Sprechmusters überhaupt nicht erfaßt, sondern erst der nach folgende Explosionsabschnitt, der einen entsprechend höheren Signalpegel hat, so daß dieser Signalpegel oberhalb des Schwellenwertes liegt. Bei dieser bekannten Einrichtung wer den ferner auch immer Teile des Sprechmusters abgeschnitten, die aber unter Umständen für eine exakte Spracherkennung er forderlich sein können. A device for identification is known from US Pat. No. 3,909,532 known speech pattern based on the fact that the Energy of code words at the output of an adaptive Sprachko which is used to indicate the beginning and end of a Determine speech pattern. The beginning of a speech pattern is determined, for example, by determining becomes whether the energy of the speech pattern has a predetermined Threshold exceeds for a predetermined period of time. This known device is therefore based on the application the signal level detector method, d. H. there are parts of a speech pattern to be recognized as such, whose energy is below said predetermined smolder len values. In this known device is therefore for example the sibilant section of one to be recognized Speech pattern not recorded at all, but only after following explosion section, which is a correspondingly higher one Has signal level, so that this signal level above the Threshold. In this known facility who who also cut off parts of the speech pattern, but under certain circumstances for exact speech recognition can be demanding.

Auf dem Gebiet des Erkennens von Sprache ist es außerdem all gemein bekannt, mehrere Sprechmuster durch Wiederholen des selben Lautes oder Wortes zu erzeugen und die Sprechmuster dann zu überlagern, um ein zusammengesetztes Sprechmuster zur Registrierung in einer Sprachbibliothek zu definieren. Wenn man eine Anzahl von Sprechmustern erzeugt, kann dieselbe Per son denselben Laut oder dasselbe Wort eine bestimmte Anzahl von Malen wiederholen, oder zwei oder mehrere unterschiedli che Personen können solche Sprechmuster erzeugen. Der Grund für die Überlagerung einer Anzahl von Sprechmustern zum Defi nieren eines zusammengesetzten Sprechmusters für die Regi strierung ist jener, daß ein solches zusammengesetztes Sprech muster es ermöglicht, unbekannte Sprachdaten mit einer erhöh ten Erfolgschance zu identifizieren, weil üblicherweise eini ge Unterschiede zwischen den Sprechmustern vorliegen, selbst wenn dieselbe Person denselben Laut oder dasselbe Wort auf einanderfolgend ausspricht.In the field of language recognition, it is also all commonly known, multiple speech patterns by repeating the to produce the same sound or word and the speech patterns then overlay to a composite speech pattern Define registration in a language library. If one can generate a number of speech patterns, the same per son the same sound or the same word a certain number repeat of paint, or two or more different Such people can create such speech patterns. The reason for overlaying a number of speech patterns to the defi a compound speech pattern for the director stration is that such a compound speech pattern enables unknown speech data to be increased identify the best chance of success because usually some there are differences between the speech patterns, even when the same person uses the same sound or word pronounce one after the other.

Beim Überlagern einer Anzahl von Sprechmustern für denselben Laut oder dasselbe Wort wird in Übereinstimmung mit einer Vorgehensweise aus dem Stand der Technik ein Sprechintervall für einen stimmhaften Laut zunächst bestimmt, und die Überla gerung wird unmittelbar vom Beginn des Sprechintervalls aus durchgeführt. Wenn in diesem Fall der beginnende Abschnitt eines stimmhaften Wortes einen Verschlußlaut aufweist oder ein einsilbiges Wort einen Verschlußlaut aufweist, dann ist es wahrscheinlich, daß die Verschlußlaute zweier oder mehre rer Sprechmuster nicht genau übereinanderliegen, und zwar beispielsweise infolge des Vorliegens oder Fehlens eines Zischabschnitts und/oder Unterschieden in der Zeitdauer eines solchen Zischabschnitts, wodurch es erschwert ist, ein ge naues, zusammengesetztes Sprechmuster zur Registrierung zu definieren. Zusätzlich wird beim Vorgang der Erkennung einer unbekannten Sprachinformation in Übereinstimmung mit der Vor gehensweise aus dem Stand der Technik ein Sprechmuster aus der unbekannten Sprachinformation erzeugt und das Sprechin tervall wird bestimmt, und dann wird die Übereinstimmung mit registrierten Sprechmustern hergestellt, um die unbekannte Sprachinformation zu identifizieren. In diesem Fall wird in Übereinstimmung mit dem Stand der Technik das Sprechmuster der unbekannten Sprachinformation verglichen mit den regi strierten Sprechmustern, und zwar unmittelbar vom Beginn des Sprechintervalls ausgehend. Wie oben erwähnt, ist dies nicht vorteilhaft, weil das Vorliegen oder das Fehlen eines Zisch abschnitts zu einer fehlerhaften Spracherkennung führen könn te.When overlaying a number of speech patterns for the same According to or the same word is in accordance with a Procedure from the prior art a speaking interval for a voiced sound, and the overlap is immediately from the beginning of the speaking interval carried out. If in this case the beginning section of a voiced word has a locking sound or a monosyllabic word has a lock sound, then is it is likely that the locking sounds of two or more our speech patterns are not exactly on top of each other for example, due to the presence or absence of one Hissing section and / or differences in the duration of a such hissing section, which makes it difficult to ge exact, composite speech pattern for registration define. In addition, a unknown voice information in accordance with the pre proceeding from the prior art a speech pattern the unknown speech information and the speech tervall is determined and then the match with registered speech patterns made to the unknown Identify voice information. In this case, Consistent with the state of the art speech pattern the unknown language information compared to the regi pattern of speech, immediately from the beginning of the Outgoing speech interval. As mentioned above, this is not advantageous because the presence or absence of a hiss can lead to incorrect speech recognition te.

Es ist zusätzlich auch bekannt, eine eingehende Sprachinfor mation zurückzuweisen, wenn ihr Sprechintervall zu kurz ist, weil dies eine Schwierigkeit beim Durchführen des Vorganges der Spracherkennung bieten könnte. Wenn unbekannte Sprachda ten, die zu identifizieren sind, im Schallpegel zu niedrig liegen, trifft oft eine Schwierigkeit bei der Identifizierung der unbekannten Sprachdaten auf. Es ist somit oftmals er wünscht, die Behandlung solcher unbekannter Sprachdaten zu rückzuweisen, deren Schallpegel zu niedrig liegt.It is also known to have incoming voice information rejection if their speaking interval is too short, because this is a difficulty in performing the process that could offer speech recognition. If unknown speech data To be identified, the sound level is too low are often difficult to identify the unknown voice data. So it is often him wishes to handle such unknown voice data reject whose sound level is too low.

Die der Erfindung zugrundeliegende Aufgabe besteht darin, eine Einrichtung zum lautweisen Identifizieren eines Sprech musters der angegebenen Gattung zu schaffen, welche die Mög lichkeit bietet, eine zeitgenauere Erkennung derjenigen Ab schnitte eines zu identifizierenden Sprechmusters zu ermögli chen, die für die Spracherkennung zu verwenden sind.The object underlying the invention is means for loudly identifying a speech to create patterns of the specified genus, which the Mög offers a more timely detection of those Ab cuts of a speech pattern to be identified Chen, which are to be used for the speech recognition.

Diese Aufgabe wird erfindungsgemäß durch die im Kennzeich nungsteil des Anspruches 1 aufgeführten Merkmale gelöst.This object is achieved by the in the character solved part of claim 1 listed features.

Besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.Particularly advantageous refinements and developments the invention emerge from the subclaims.

Im folgenden wird die Erfindung anhand von Ausführungsbei spielen unter Hinweis auf die Zeichnung näher erläutert. Es zeigen:In the following the invention is based on exemplary embodiments play explained with reference to the drawing. It demonstrate:

Fig. 1 ein Blockschaltbild, das eine Einrichtung zum Regi strieren von Sprechmustern zeigt und die in Über einstimmung mit einem Ausführungsbeispiel mit Merk malen nach der Erfindung aufgebaut ist, Fig. 1 shows a block diagram strieren means for regi of speech patterns, and the mismatch in over with an embodiment with shopping paint according to the invention is constructed,

Fig. 2 eine Darstellung, die ein Beispiel des Zeit-Fre quenz-Spektralmusters für einen stimmhaften Ver schlußlaut zeigt, Fig. 2 is a diagram showing an example of the time-Fri-frequency spectral pattern for a voiced Ver final sound,

Fig. 3a und 3b jeweils ein Diagramm, die die zeitabhängige Änderung des Sprachsignalpegels eines stimmhaften Verschlußlautes mit und ohne Zischabschnitt A zei gen, FIGS. 3a and 3b are each a graph showing the gene, the time-dependent change of the voice signal level of a voiced sound with and without a sibilant portion A zei,

Fig. 4 ein Blockschaltbild, das eine Einrichtung zum Regi strieren von Sprechmustern zeigt, die in Überein stimmung mit einem anderen Ausführungsbeispiel mit Merkmalen nach der vorliegenden Erfindung aufgebaut ist, Fig. 4 is a block diagram strieren means for regi showing of speech patterns, the atmosphere in line with another embodiment having features of the present invention is constructed,

Fig. 5 ein Blockschaltbild, das den detaillierten Aufbau eines Ausführungsbeispiels des Detektors 3 für den Startpunkt der Überlagerung zeigt, der in der in Fig. 1 gezeigten Einrichtung vorgesehen ist; und Fig. 5 is a block diagram showing the detailed structure of an embodiment of the detector 3 for the starting point of the superposition, which is provided in the device shown in Fig. 1; and

Fig. 6 ein Blockschaltbild, das den detaillierten Aufbau eines Beispiels der Überlagerungseinheit 4 zeigt, die in der in Fig. 1 gezeigten Einrichtung vorgese hen ist. Fig. 6 is a block diagram showing the detailed structure of an example of the superimposition unit 4 , which is provided in the device shown in Fig. 1 hen.

Es wird zunächst auf Fig. 1 Bezug genommen; dort ist in Blockform eine Einrichtung zum Registrieren eines Sprechbe zugsmusters zur Verwendung bei der Wiedererkennung von Spra che gezeigt; diese weist ein Mikrophon 1 auf, um Schall in Form einer Druckwelle in ein elektrisches Sprachsignal umzu wandeln, einen Frequenzanalysator (Frequenzanalyseeinrichtung) 2 zum Verarbeiten des elek trischen Sprachsignals, um ein Sprechmuster in Form einer Zeit-Frequenz-Verteilung zu bilden, eine Einrichtung (Detektoreinrichtung) 3 zum Ermitteln des Ausgangspunkts für die Überlagerung sowie eine Überlagerungseinheit 4. Bei dieser Einrichtung wird derselbe Sprachlaut dem Mikrophon 1 mehrfach von derselben oder unter schiedlichen Personen zugeführt, und somit wird eine Anzahl von Sprechmustern aufeinanderfolgend erzeugt. Die vielen Sprechmuster werden aufeinanderfolgend überlagert, wobei man ein zusammengesetztes Sprechbezugsmuster für einen speziellen Sprachlaut registriert. Das so registrierte Sprechbezugsmu ster kann später zum Identifizieren unbekannter Sprache durch Herstellen einer Übereinstimmung verwendet werden, wie dies in der Technik bekannt ist.Reference is first made to FIG. 1; there is shown in block form a device for registering a speech reference pattern for use in recognizing speech; this has a microphone 1 for converting sound in the form of a pressure wave into an electrical speech signal, a frequency analyzer (frequency analysis device) 2 for processing the electrical speech signal to form a speech pattern in the form of a time-frequency distribution, a device ( Detector device) 3 for determining the starting point for the superimposition and a superimposition unit 4 . In this device, the same speech sound is supplied to the microphone 1 multiple times by the same or different people, and thus a number of speech patterns are generated in succession. The many speech patterns are successively overlaid, whereby a composite speech reference pattern is registered for a specific speech. The speech reference pattern thus registered can later be used to identify unknown language by making a match, as is known in the art.

In Übereinstimmung mit der vorliegenden Erfindung wird ein Sprachsignal der Frequenzanalyse unterzogen, um ein Sprech muster in Form einer Zeit-Frequenz-Verteilung zu erhalten, und ein Ausgangspunkt dieses Sprechmusters zur Überlagerung über ein bereits vorher erzeugtes Sprechmuster für denselben Sprachlaut wird durch die Einrichtung 3 zum Ermitteln des Ausgangspunkts für die Überlagerung ermittelt. Dieser Aus gangspunkt für die Überlagerung wird am Anfangsabschnitt des Sprechmusters auf eine solche Weise bestimmt, daß Sprach energie gleich oder kleiner ist als ein bestimmter Wert und eine Niederfrequenz-Komponente der Sprechenergie gleich oder größer ist als ein bestimmter Wert. Wenn dieser Ausgangspunkt für die Überlagerung gefunden ist, dann wird die Überlagerung über die vorangegangenen Sprechmuster für denselben Laut ein geleitet, wobei dieser Ausgangspunkt benutzt wird. Da das Sprechmuster über die bereits vorher registrierten Sprechmu ster für denselben Sprachlaut überlagert wird, wird stets ein einziges, zusammengesetztes Sprechbezugsmuster hinterlassen, das für einen speziellen Sprachlaut registriert bzw. aufge zeichnet wird. Als andere Vorgehensweise kann jener Abschnitt des Sprechmusters vom Beginn bis zu dem Ausgangspunkt für die Überlagerung, der auf diese Weise ermittelt wurde, abge schnitten oder vom Sprechmuster entfernt werden, und dann kann die Überlagerung durchgeführt werden.In accordance with the present invention, a speech signal is subjected to frequency analysis in order to obtain a speech pattern in the form of a time-frequency distribution, and a starting point of this speech pattern for superimposing on a speech pattern previously generated for the same speech sound is determined by the device 3 Determine the starting point for the overlay. This starting point for the overlay is determined at the initial portion of the speech pattern in such a way that speech energy is equal to or less than a certain value and a low frequency component of the speech energy is equal to or greater than a certain value. If this starting point for the overlay has been found, then the overlay is initiated over the previous speech patterns for the same sound, using this starting point. Since the speech pattern is superimposed over the previously registered speech pattern for the same speech, a single, composed speech reference pattern is always left, which is registered or recorded for a specific speech. Alternatively, that portion of the speech pattern from the beginning to the starting point for the overlay that is determined in this way can be cut off or removed from the speech pattern, and then the overlay can be performed.

Fig. 2 ist eine Perspektivdarstellung, die ein Zeit-Frequenz- Spektralverteilungsmuster des Lautes "gi" als stimmhaften Verschlußlaut zeigt. Wie gezeigt, weist das Muster einen Zischabschnitt A, einen Explosionsabschnitt B und einen Vo kalabschnitt C auf. Der Zischabschnitt A ist charakteristisch für einen stimmhaften Verschlußlaut und unterscheidet sich von Person zu Person sowie von Zeit zu Zeit selbst bei der selben Person, und sogar bei derselben Person erscheint er manchmal und erscheint manchmal nicht. Selbst wenn der Zisch abschnitt A erscheint, ist seine Zeitdauer vorhersagbar und äußerst unstabil. Im übrigen ist im Zischabschnitt A kein be merkenswerter Unterschied hinsichtlich der Form des Spektral musters unter den drei Arten von stimmhaften Verschlußlauten "b", "d" und "g" zu sehen. Deshalb kann, wenn zwei oder mehr Sprechmuster für denselben Sprachlaut einfach vom Beginn des Sprechintervalls eines jeden Musters überlagert werden, der Explosionsabschnitt B, der ein kritisches Element bei der Identifizierung eines stimmhaften Verschlußlautes ist, in Überlagerung mit dem Zischabschnitt A oder dem Vokalabschnitt C gelangen, wobei die Bildung eines überlagerten Sprechbe zugsmusters, das mit hoher Genauigkeit registriert werden soll, verhindert ist. Fig. 2 is a perspective view showing a time-frequency spectral distribution pattern of the sound "gi" as a voiced shutter sound. As shown, the pattern has a hissing section A, an exploding section B and a voice section C. The hissing section A is characteristic of a voiced closure sound and differs from person to person and from time to time even with the same person, and even sometimes appears and sometimes does not appear even with the same person. Even if the hiss section A appears, its duration is predictable and extremely unstable. Incidentally, in the hissing section A, there is no remarkable difference in the shape of the spectral pattern among the three types of voiced closure sounds "b", "d" and "g". Therefore, if two or more speech patterns for the same speech are simply overlaid from the beginning of the speaking interval of each pattern, the explosion section B, which is a critical element in identifying a voiced closure sound, can overlap with the hissing section A or the vowel section C, the formation of a superimposed speech reference pattern to be registered with high accuracy is prevented.

Die Grundlage der vorliegenden Erfindung für die Überlagerung zweier oder mehrerer Sprechmuster für einen speziellen Laut zur Registrierung wird unter Bezugnahme auf die Fig. 3a und 3b beschrieben. Fig. 3a zeigt die Änderung in der Sprachener gie eines speziellen stimmhaften Verschlußlautes mit einem Zischabschnitt A am Beginn als Funktion der Zeit. Fig. 3b zeigt die Änderung der Sprachenergie eines speziellen stimm haften Verschlußlautes, der keinen Zischabschnitt aufweist. Wie in Fig. 3a gezeigt, kann der Zischabschnitt A dann iden tifiziert werden, wenn zwei Bedingungen erfüllt sind. Das heißt, beim Beginn des Sprechmusters, wie in Fig. 3a anhand der zeitabhängigen Sprachenergie gezeigt, befindet sich ein Zeitraum, während welchem (1.) die Schallenergie gleich oder kleiner ist als ein bestimmter Wert und (2.) eine niederfre quente Komponente ein Verhältnis bzw. einen Anteil aufweist, der gleich oder größer ist als ein bestimmter Wert der Schallenergie. In Übereinstimmung mit der vorliegenden Erfin dung wird nach Abschluß eines solchen Zeitraums vom Beginn eines Sprechmusters an, d. h. nach dem Ende des Zischab schnitts A, die Überlagerung der Sprechmuster durchgeführt. Als Ergebnis ist stets sichergestellt, daß die Explosionsab schnitte B, die bei der Identifizierung eines stimmhaften Verschlußlauts kritisch sind, genau überlagert werden, wobei es gestattet ist, ein überlagertes Sprechbezugsmuster mit ho her Genauigkeit zu registrieren.The basis of the present invention for overlaying two or more speech patterns for a particular sound for registration will be described with reference to Figs. 3a and 3b. Fig. 3a shows the change in the language of a special voiced closure sound with a hissing section A at the beginning as a function of time. Fig. 3b shows the change in speech energy of a special voiced closure sound that has no hissing section. As shown in FIG. 3a, the hissing section A can be identified when two conditions are met. That is, at the beginning of the speech pattern, as shown in Fig. 3a based on the time-dependent speech energy, there is a period during which (1.) the sound energy is equal to or less than a certain value and (2.) a low-frequency component Ratio or has a proportion that is equal to or greater than a certain value of the sound energy. In accordance with the present invention, after the completion of such a period from the beginning of a speech pattern, ie after the end of the hissing section A, the speech patterns are superimposed. As a result, it is always ensured that the Explosionsab sections B, which are critical in the identification of a voiced closure sound, are precisely overlaid, it being permitted to register a superimposed speech reference pattern with high accuracy.

Es erfolgt nun die detailliertere Beschreibung unter Bezug nahme auf ein spezielleres Beispiel; der Frequenzanalysator 2 weist eine Bandpaßfilterbank bzw. eine Reihe von Bandpaßfil tern auf, die mit 29 Kanälen versehen sind, deren Mittelfre quenz von 250 Hz bis 6300 Hz in Stufen von 1/6 Oktaven verän dert ist. Wenn somit ein Sprechsignal von einem Mikrophon oder ein spezieller Sprachlaut durch den Frequenzanalysator verarbeitet wird, dann wird ein Zeit-Frequenz-Verteilungsmu ster bei jedem Zeitraum erhalten. Die während eines jeden Zeitraums erhaltenen Daten werden "Rahmen" genannt, und somit können die Daten auch durch eine Rahmennummer vom Beginn des Musters aus identifiziert werden. Ein Sprechmuster wird auf einanderfolgend durch den Frequenzanalysator 2 erzeugt und wird in die Einrichtung 3 zum Ermitteln des Ausgangspunktes für die Überlagerung eingespeist. An der Einrichtung 3 für die Ermittlung des Ausgangspunkts der Überlagerung wird die Sprachenergie eines Rahmens mit einer maximalen Sprachenergie während eines Sprechintervalls herausgezogen und als Emax identifiziert. Wenn während eines Zeitraums vom Beginnen des Sprechintervalls bis zu 100 bis 300 ms, vorzugsweise 200 ms, ein Intervall vorliegt, in welchem (1) die Sprachenergie gleich oder kleiner ist als 10 bis 40%, vorzugsweise 20%, und (2) eine Niederfrequenz-Komponente von 200 Hz bis 1 kHz, vor zugsweise 500 Hz, oder weniger, 60 bis 100%, vorzugsweise 80%, der Sprachenergie einnimmt, dann wird die Überlagerung nach dem Ende dieses Intervalls eingeleitet.There now follows a more detailed description with reference to a more specific example; the frequency analyzer 2 has a bandpass filter bank or a series of Bandpaßfil tern, which are provided with 29 channels, the Mittelfre frequency of 250 Hz to 6300 Hz is changed in steps of 1/6 octaves. Thus, when a speech signal from a microphone or a special speech sound is processed by the frequency analyzer, a time-frequency distribution pattern is obtained every period. The data obtained during each period is called "frame", and thus the data can also be identified by a frame number from the beginning of the pattern. A speech pattern is generated in succession by the frequency analyzer 2 and is fed into the device 3 for determining the starting point for the superimposition. At the device 3 for determining the starting point of the superimposition, the speech energy of a frame with a maximum speech energy is extracted during a speaking interval and identified as Emax. If during an interval from the beginning of the speaking interval up to 100 to 300 ms, preferably 200 ms, there is an interval in which (1) the speech energy is equal to or less than 10 to 40%, preferably 20%, and (2) a low frequency Component of 200 Hz to 1 kHz, preferably 500 Hz or less, 60 to 100%, preferably 80%, of the speech energy, then the superposition is initiated after the end of this interval.

Ein Beispiel einer Einrichtung 3 zum Ermitteln des Ausgangs punkts für die Überlagerung ist im einzelnen in Fig. 5 ge zeigt. Bei dem in Fig. 5 gezeigten Beispiel weist die Ein richtung 3 zum Ermitteln des Ausgangspunktes für die Überla gerung ein Paar aus einem ersten bzw. zweiten Addierer 3a und 3b auf, die mit dem Frequenzanalysator 2 verbunden sind. Der erste Addierer 3a addiert die Ausgänge von allen Kanälen 1 bis 29, die den Frequenzbereich von 250 Hz bis 6300 Hz der Bandpaßfilterbank abdecken, die im Frequenzanalysator 2 vor gesehen ist. Andererseits ist der zweite Addierer 3b vorgese hen, um die Ausgänge aus den Kanälen 1 bis 7 zu addieren, und zwar entsprechend einem Niederfrequenzbereich von 250 Hz bis 500 Hz. Die beim ersten Addierer 3a erhaltenen, aufaddierten Daten werden zwischenzeitlich in einem ersten Register 3c ge speichert, während jene Daten, die im zweiten Addierer 3b addiert wurden, zwischenzeitlich in einem zweiten Register 3d gespeichert werden. Ein erster Multiplikator 3e ist ange schlossen, um die im ersten Register 3c gespeicherten Daten aufzunehmen, und ein erster bestimmter Faktor, etwa 0,8 (80%), wird mit den Daten aus dem ersten Register 3c multi pliziert und das resultierende Ergebnis wird zwischenzeitlich in einem dritten Register 3g abgespeichert. Die Angaben im zweiten Register 3d, die mit C2 bezeichnet sind, werden dann mit den Angaben im dritten Register 3g, die mit C1 bezeichnet sind, bei einem ersten Komparator 3j verglichen, der einen Ausgang "1" liefert, wenn C1 kleiner ist als C2, und "0", wenn C1 gleich oder größer ist als C2.An example of a device 3 for determining the starting point for the overlay is shown in detail in FIG. 5 ge. In the example shown in FIG. 5, the device 3 for determining the starting point for the superimposition has a pair of first and second adders 3 a and 3 b, which are connected to the frequency analyzer 2 . The first adder 3 a adds the outputs of all channels 1 to 29 , which cover the frequency range from 250 Hz to 6300 Hz of the bandpass filter bank, which is seen in the frequency analyzer 2 before. On the other hand, the second adder 3 b is provided to add the outputs from channels 1 to 7 , in accordance with a low-frequency range from 250 Hz to 500 Hz. The added data obtained with the first adder 3 a are meanwhile stored in a first register 3 c ge stores, while those data that have been added in the second adder 3 b are temporarily stored in a second register 3 d. A first multiplier 3 e is connected to record the data stored in the first register 3 c, and a first specific factor, approximately 0.8 (80%), is multiplied by the data from the first register 3 c and the resulting one The result is meanwhile stored in a third register 3 g. The information in the second register 3 d, which is denoted by C2, is then compared with the information in the third register 3 g, which is denoted by C1, in a first comparator 3 j, which provides an output "1" if C1 is smaller is as C2, and "0" when C1 is equal to or greater than C2.

An das erste Register 3c ist auch ein Höchstwertdetektor 3f angeschlossen, der einen Höchstwert der addierten Daten für jeden Zeitraum oder Rahmen feststellt und diesen Maximalwert einem zweiten Multiplikator 3h zuführt. Am Multiplikator wird ein zweiter bestimmter Faktor, etwa 0,2 (20%), mit dem Höchstwert multipliziert, der vom Höchstwertdetektor 3f zuge führt wird, und die resultierenden Größen werden zwischen zeitlich in einem vierten Register 3i abgespeichert. Die Da ten im vierten Register 3i, die mit C3 bezeichnet sind, wer den dann mit den Daten im ersten Register 3c, die mit C4 be zeichnet sind, durch einen zweiten Komparator 3k verglichen, der an seinem Ausgang "1" abgibt, wenn C3 größer ist als C4, und "0", wenn C3 gleich oder kleiner ist als C4.A maximum value detector 3 f is also connected to the first register 3 c, which detects a maximum value of the added data for each period or frame and supplies this maximum value to a second multiplier 3 h. At the multiplier, a second specific factor, approximately 0.2 (20%), is multiplied by the maximum value, which is supplied by the maximum value detector 3 f, and the resulting variables are temporarily stored in a fourth register 3 i. The data in the fourth register 3 i, denoted C3, who then compares the data in the first register 3 c, denoted C4, by a second comparator 3 k, which outputs "1" at its output if C3 is greater than C4 and "0" if C3 is equal to or less than C4.

Es ergibt sich dann bei dieser Anordnung, wenn von erstem und zweitem Komparator 3j und 3k jeder "1" als Ausgang an eine UND-Schaltung 31 abgibt und somit die UND-Schaltung 31 "1" als ihren Ausgang abgibt, daß der Zischabschnitt A des Sprechmusters verarbeitet wird. Wenn die UND-Schaltung 31 "0" als ihren Ausgang zum erstenmal abgibt, dann bezeichnet dies das Ende des Zischabschnitts A, so daß der entsprechende Rah men als Ausgangspunkt für die Überlagerung an einem Ausgangs punkt-Detektor 3m ermittelt und dann der Überlagerungseinheit 4 zugeführt wird. It results in this arrangement if the first and second comparators 3 j and 3 k each output "1" as an output to an AND circuit 31 and thus the AND circuit 31 outputs "1" as its output that the hissing section A of the speech pattern is processed. If the AND circuit 31 outputs "0" as its output for the first time, then this denotes the end of the hissing section A, so that the corresponding frame men determined as the starting point for the superimposition at an output point detector 3m and then supplied to the superimposition unit 4 becomes.

Ferner zeigt Fig. 6 im einzelnen ein Beispiel der Überlage rungseinheit 4 in der in Fig. 1 gezeigten Einrichtung. Wie gezeigt, weist die Überlagerungseinheit 4 ein Register 4a auf, um zwischenzeitlich ein Sprechmuster in Form einer Zeit- Frequenz-Verteilung zu speichern, welche gerade von einem eingehenden Sprachlaut erzeugt wurde. Die dargestellte Über lagerungseinheit 4 weist auch ein anderes Register 4d auf, welches die Anzahl von Rahmen eines jeden registrierten Sprechmusters speichert. Wenn das neue Sprechmuster in das Register 4a eingespeichert wird, dann wird die Anzahl der Rahmen, die dem neuem Sprechmuster überlagert werden soll (d. h. die Anzahl von Rahmen vom Überlagerungsausgangspunkt bis zum Ende des Sprechintervalls) verglichen mit der Anzahl von Rahmen, die im Register 4d für den entsprechenden Sprach laut gespeichert sind, und dann wird das Maß der linearen Expansion/Kontraktion (d. h. die Anzahl der Rahmen), die für das neue Sprechmuster ausgeführt werden muß, das im Register 4a gespeichert ist, bestimmt. Dann wird das neue, im Register 4a gespeicherte Sprechmuster der linearen Expansion bzw. Kon traktion unterzogen, wobei die Anzahl von Rahmen des neuen Sprechmusters, das überlagert werden soll, auf die Anzahl von Rahmen des registrierten Sprechmusters abgeglichen wird, wel ches im Register 4d gespeichert ist, wie oben erwähnt.Furthermore, FIG. 6 shows in detail an example of the overlay unit 4 in the device shown in FIG. 1. As shown, the overlay unit 4 has a register 4 a to temporarily store a speech pattern in the form of a time-frequency distribution, which was just generated by an incoming speech. The illustrated overlay unit 4 also has another register 4 d, which stores the number of frames of each registered speech pattern. If the new speech pattern is stored in the register 4 a, then the number of frames to be overlaid on the new speech pattern (ie the number of frames from the overlay starting point to the end of the speaking interval) is compared with the number of frames in the register 4 d are stored out loud for the corresponding speech, and then the measure of linear expansion / contraction (ie the number of frames) that must be carried out for the new speech pattern that is stored in register 4 a is determined. Then the new speech pattern stored in register 4 a is subjected to linear expansion or contraction, the number of frames of the new speech pattern to be overlaid being compared to the number of frames of the registered speech pattern, which is in register 4 d is stored as mentioned above.

Es ist auch noch ein weiteres Register 4e zum Speichern der Anzahl von Überlagerungen für jedes registrierte Sprechbe zugsmuster und ein noch weiteres Register 4f zum Speichern der registrierten Sprechbezugsmuster vorgesehen. Der Wert des registrierten Sprechbezugsmusters, das im Register 4f gespei chert ist, wird mit der entsprechenden Anzahl von Überlage rungen, die im Register 4e gespeichert sind, an einem Multi plikator 4g multipliziert und dann werden die resultierenden Daten zum neuen Sprechbezugsmuster, das der Behandlung linea rer Expansion bzw. Kontraktion unterzogen wurde, bei einem Addierer 4h hinzuaddiert. Es wird dann das addierte Ergebnis dividiert durch (Anzahl von Überlagerungen + 1) an einem Di vidierer 4i und dessen Ergebnis wird im Register 4f als er neuertes Sprechbezugsmuster gespeichert. Um genauer auszufüh ren, wird davon ausgegangen, das Xÿ einen Wert eines regi strierten Sprechbezugsmusters am i-ten Kanal und j-ten Rahmen und Yÿ den Wert eines neu eingehenden Sprechmusters für den selben Laut am i-ten Kanal und j-ten Rahmen bezeichnet; dann kann der Wert Xÿ′ als durch Überlagerung erneuertes Sprech muster auf die folgende Weise ausgedrückt werden:There is also another register 4 e for storing the number of overlays for each registered speech reference pattern and another register 4 f for storing the registered speech reference patterns. The value of the registered speech reference pattern, which is stored in register 4 f, is multiplied by the corresponding number of overlays, which are stored in register 4 e, on a multiplier 4 g and then the resulting data becomes the new speech reference pattern, the was subjected to the treatment of linear expansion or contraction, added for 4 h with an adder. Then the added result is divided by (number of overlays + 1) on a divider 4 i and its result is stored in register 4 f as the newer speech reference pattern. To be more specific, it is assumed that Xÿ denotes a value of a registered speech reference pattern on the i-th channel and j-th frame, and Yÿ denotes the value of a new incoming speech pattern for the same sound on the i-th channel and j-th frame ; then the value Xÿ ′ can be expressed as a speech pattern renewed by overlay in the following way:

wobei m die Anzahl von Überlagerungen bezeichnet.where m is the number of overlays.

Es muß vermerkt werden, daß die Anzahl von Überlagerungen, die im Register 4e für den entsprechenden Sprachlaut gespei chert ist, durch den Schritt +1 jedesmal dann erneuert wird, wenn eine Überlagerung ausgeführt wird.It should be noted that the number of superpositions that is chert Stored in the register 4e for the corresponding phoneme is then replaced by the step +1 each time a superposition is carried out.

Fig. 4 zeigt in Blockform ein anderes Ausführungsbeispiel der vorliegenden Erfindung, welches eine Modifizierung der Anord nung ist, die in Fig. 1 gezeigt ist. Es muß vermerkt werden, daß, wie es durchgehend in der vorliegenden Beschreibung und den Zeichnungen praktiziert wurde, gleiche Bezugszeichen gleiche bzw. ähnliche Elemente bezeichnen, ohne daß diese sonstwie speziell vermerkt werden. Im vorliegenden Ausfüh rungsbeispiel wird eine Muster-Abschneideeinheit 5 anstelle der Detektoreinrichtung 3 für den Ausgangspunkt der Überlagerung ver wendet. In Übereinstimmung mit diesem Ausführungsbeispiel wird, wenn ein Zeitraum am Beginn eines Sprechmusters auf eine solche Weise vorliegt, daß die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und eine Nieder freuqnez-Komponente gleich oder größer ist als ein zweiter bestimmter Wert, der als Anteil der Sprachenergie bestimmt ist, ein solcher Zeitraum an der Muster-Abschneideeinheit 5 entfernt bzw. unterdrückt wird, bevor das Muster überlagert wird. Als ein Beispiel kann die Muster-Abschneideeinheit 5 jede Anordnung aufweisen, wie sie in Fig. 5 gezeigt ist. In diesem Fall sollte jedoch Ausgangspunkt-Detektor 3m ersetzt werden durch einen Abschneide-Endpunktdetektor, dessen Funktion es ist, einen Rahmen zu ermitteln, wenn der Ausgang von der UND-Schaltung 31 das erste Mal "0" wurde, und dann alle vorherigen Rahmen bis zu dem durch "0" ermittelten Rahmen abzutrennen und zu verwerfen. Fig. 4 shows in block form another embodiment of the present invention, which is a modification of the arrangement shown in Fig. 1. It should be noted that, as has been practiced throughout this description and the drawings, the same reference numerals designate the same or similar elements without being otherwise noted. In the present exemplary embodiment, a pattern cutting unit 5 is used instead of the detector device 3 for the starting point of the overlay. In accordance with this embodiment, when there is a period at the beginning of a speech pattern in such a manner that the speech energy is equal to or less than a first certain value and a low frequency component is equal to or larger than a second certain value called as Share of the speech energy is determined, such a period of time is removed or suppressed at the pattern clipping unit 5 before the pattern is superimposed. As an example, the pattern clipping unit 5 may have any arrangement as shown in FIG. 5. In this case, however, the starting point detector 3 m should be replaced by a clipping end point detector, the function of which is to detect a frame when the output from the AND circuit 31 first becomes "0" and then all previous frames up to the frame determined by "0" and discard.

Wenn somit ein Sprachlaut in Form einer Druckwelle als Ein gang in das Mikrophon 1 gelangt, wird er in ein elektrisches Sprechsignal umgewandelt, welches dann durch den Frequenzana lysator 2 so verarbeitet wird, daß ein Sprechmuster erzeugt wird. Wenn dann das Sprechmuster der Muster-Abschneideeinheit 5 zugeführt wird, werden dessen Sprachstärke und das Verhält nis der Stärke der Niederfrequenz-Komponente zur Sprachstär ke, welche eine Summe aller Ausgänge der Bandpaßfilterbank (29 Kanäle im dargestellten Beispiel) ist, ermittelt. Dann wird geprüft, ob ein solcher Zeitraum am vorderen Abschnitt des Sprechmusters vorliegt, bei welchem die Sprachenergie gleich oder kleiner ist als ein erster bestimmter Wert und die Stärke der Niederfrequenz-Komponente gleich oder größer ist als ein zweiter bestimmter Wert. Wenn es sich dann her ausgestellt hat, daß ein solcher Zeitraum vorliegt, wird die ser abgetrennt und verworfen, bevor das Sprechmuster der Überlagerungseinheit 4 zugeführt wird. Deshalb werden an der Überlagerungseinheit 4 mehrere Sprechmuster, deren anfängli che Abschnitte abgeschnitten wurden, überlagert, um ein zu sammengesetztes Sprechbezugsmuster für die Registrierung zu definieren.Thus, when a speech sound in the form of a pressure wave enters the microphone 1 as an input, it is converted into an electrical speech signal, which is then processed by the frequency analyzer 2 so that a speech pattern is generated. If the speech pattern of the pattern clipping unit 5 is then fed, its speech strength and the ratio of the strength of the low-frequency component to the speech strength, which is a sum of all outputs of the bandpass filter bank (29 channels in the example shown), are determined. It is then checked whether there is such a period of time at the front section of the speech pattern in which the speech energy is equal to or less than a first specific value and the strength of the low-frequency component is equal to or greater than a second specific value. If it then turns out that such a period is present, the water is separated and discarded before the speech pattern is supplied to the overlay unit 4 . Therefore, a plurality of speech patterns whose initial sections have been cut off are overlaid on the overlay unit 4 to define a composite speech reference pattern for registration.

Somit wird in Übereinstimmung mit diesem Ausführungsbeispiel der Zischabschnitt A, der in Fig. 3a gezeigt ist, von der Mu ster-Abschneideeinheit 5 so entfernt, daß ein Sprechmuster gebildet ist, das nur aus dem Explosionsabschnitt B und dem Vokalabschnitt C zusammengesetzt ist.Thus, in accordance with this embodiment, the hissing portion A shown in Fig. 3a is removed from the pattern cutting unit 5 so as to form a speech pattern composed only of the explosion portion B and the vowel portion C.

Selbst wenn in diesem Fall das Sprechmuster eines stimmhaften Verschlußlauts, der einen Zischabschnitt aufweist, über das Sprechmuster eines stimmhaften Verschlußlauts überlagert wer den soll, der keinen Zischabschnitt aufweist, ist stets si chergestellt, daß die Explosionsabschnitte übereinander ange ordnet werden, wobei es ermöglicht ist, ein überlagertes Sprechbezugsmuster mit hoher Genauigkeit zu registrieren bzw. zu speichern.Even if in this case the speech pattern is voiced Sealing volume, which has a hissing section over which Speech patterns of a voiced closure sound overlays who the one that has no hissing section is always si made that the explosion sections are one above the other can be classified, allowing a superimposed Register speech reference patterns with high accuracy or save.

Claims

1. A device for identifying a speech pattern aloud, with a converter device for converting a speech to be recognized into an electrical speech signal, with a frequency analysis device containing processing device for processing the speech signal in a predetermined manner to generate a speech pattern in the form of a time frequency -Distribution, with a detector device for determining a temporal section of the speech pattern from the beginning of an observation period, this section being further processed for speech pattern recognition, and with an overlay unit for determining the agreement of the speech pattern with at least one of a number of registered speech patterns, the observation period each comprising a sound, characterized in that

a) the frequency analysis device ( 2 ) downstream detector device ( 3 ) divides the frequency bands supplied by the frequency analysis device ( 2 ) into groups according to a total frequency range (215 Hz-6300 Hz) and a lower frequency range (250 Hz to 500 Hz) , where the frequency bands of the respective group are added,
b) the detector device ( 3 ) is also designed to determine whether the sum level of the deep frequency bands is greater than the weighted sum level of all frequency bands,
c) the detector device ( 3 ) is further designed to determine whether the weighted maximum value of the sum level of all frequency bands is greater than the sum level of all frequency bands, in order to then use this part of the speech pattern as a hissing section (A) with a relatively low signal level at the beginning of Recognize speech pattern and thus also determine the end of the hissing sound section (A) and the beginning of the following explosion section (B) and / or the vowel section (C) of the speech pattern, and
d) the overlay unit ( 4 ) for determining the agreement of the speech pattern is designed to cut off the relatively low-level sibilants at the beginning of the speech pattern, but not to cut off relatively low-level other sounds.

2. Device according to claim 1, characterized in that the detector device ( 3 ) specifies two threshold values, the first of which is so low to suppress the sibilant section (A) and of which the second is so high by a low-frequency component of the speech pattern to select.

3. Device according to claim 1, characterized in that the converter device has a microphone ( 1 ).

4. Device according to claim 1, characterized in that the frequency analysis device ( 2 ) has a plurality of bandpass filters with different frequency ranges.

5. Device according to claim 1, characterized in that the processing device ( 6 ) has a maximum value detector which determines the maximum value of the speech pattern.

6. Device according to claim 1, characterized in that the lower frequency range extends from 200 Hz to 1 kHz.

7. Device according to claim 1, wherein the speech pattern consists of several frames that follow one another in time, characterized by
identification means ( 17 ) for identifying the speech pattern by matching a plurality of registered speech patterns,
a detector device ( 14 ) for determining a speech interval by comparing the speech pattern with a first reference value,
an adder ( 15 ) for adding up the speech signal level of the speech pattern over a certain number of frames, and
means for comparing ( 16 ) the added speech signal levels with a pair of upper and lower reference values and for canceling the speech pattern when the added value is outside a range between the upper and lower reference values.

8. Device according to claim 7, characterized in that the speech signal levels of the specified number of frames be added as long as their speech signal levels are equal to or are higher than a second reference value.

9. Device according to claim 7 or 8, characterized net that the second reference value and the upper and lower Change the reference value as a function of the background noise level are changeable.

10. The device according to claim 7, characterized in that the adding device ( 15 ) adds the speech signal level of the speech pattern over the entire speech interval and divides the total speech signal level by the total number of frames to define an average frame signal level, and that the Comparing means ( 16 ) for comparing the average frame signal level with the pair of upper and lower reference value.

11. The device according to claim 2, characterized in that the second threshold to a value in the range of 60 to 100% of the maximum value of the speech pattern is set.