EP0508547B1

EP0508547B1 - Circuit for speech recognition

Info

Publication number: EP0508547B1
Application number: EP92201023A
Authority: EP
Inventors: Peter Dr. Meyer; Hans-Wilhelm Dr. Rühl
Original assignee: Philips Patentverwaltung GmbH; Koninklijke Philips Electronics NV
Current assignee: Philips Intellectual Property and Standards GmbH; Koninklijke Philips NV
Priority date: 1991-04-12
Filing date: 1992-04-09
Publication date: 1998-08-26
Anticipated expiration: 2012-04-09
Also published as: JP3493033B2; DE4111995A1; JPH05108099A; EP0508547A2; US5878392A; DE59209469D1; EP0508547A3

Description

Die Erfindung betrifft eine Schaltungsanordnung zur Spracherkennung mit einer Auswerteschaltung zur Ermittlung von spektralen Merkmalsvektoren von Zeitrahmen eines digitalen Sprachsignals mittels einer Spektralanalyse, zur Logarithmierung der spektralen Merkmalsvektoren und zum Vergleich der logarithmierten spektralen Merkmalsvektoren mit Referenz-Merkmalsvektoren.The invention relates to a circuit arrangement for Speech recognition with an evaluation circuit for determination of spectral feature vectors of a digital time frame Speech signal by means of a spectral analysis, for Logarithmization of the spectral feature vectors and Comparison of the logarithmic spectral feature vectors with reference feature vectors.

Sprecherabhängige Spracherkennungseinrichtungen werden in vielen Bereichen erfolgreich eingesetzt, so z.B. in Systemen, die gesprochenen Text erkennen, verstehen und in eine Handlung umsetzen (akustisch gegebene Befehle zur Steuerung von Geräten), wobei das zu erkennende Sprachsignal oftmals zusätzlich über eine Telefonleitung (Fernwirken über Telefon) übertragen wird.Speaker-dependent speech recognition devices are used in successfully used in many areas, e.g. in systems, recognize, understand and translate the spoken text into one Implement action (acoustic commands to control of devices), the speech signal to be recognized often also via a telephone line (telecontrol over the phone).

In dem Buch "Automatische Spracheingabe und Sprachausgabe" von K. Sickert, Haar bei München, Verlag Markt und Technik, 1983, Seiten 223-230 und 322-326 wird der prinzipielle Aufbau einer Spracherkennnungseinrichtung beschrieben, bei der das Sprachsignal zunächst analysiert wird, um die informationstragenden Merkmale zu extrahieren. Diese Merkmale werden durch sogenannte Merkmalsvektoren repräsentiert, die mit den in einem Referenzspeicher abgelegten, während einer Lernphase ermittelten Referenz-Merkmalsvektoren in einer Erkennungseinheit verglichen werden.In the book "Automatic Speech and Speech" by K. Sickert, Haar near Munich, Verlag Markt and Technik, 1983, pages 223-230 and 322-326 becomes the principal Structure of a speech recognition device described, in which the speech signal is first analyzed to extract the information-bearing characteristics. This Features are represented by so-called feature vectors, those with those stored in a reference memory, Reference feature vectors determined during a learning phase be compared in a recognition unit.

Aus der Veröffentlichung "Verfahren für Freisprechen, Spracherkennung und Sprachcodierung in der SPS51" von W. Armbrüster, S. Dobler und P. Meyer, PKI Technische Mitteilungen 1/1990, Seiten 35-41 ist eine technische Realisierung einer sprecherabhängigen Spracherkennungseinrichtung bekannt. In dieser Spracherkennungseinrichtung werden bei einer Analyse eines digitalen Sprachsignals der zeitliche Verlauf dieses Signals im Spektralbereich betrachtet und spektrale Merkmalsvektoren ermittelt, die zur Beschreibung der charakteristischen Merkmale des Sprachsignals geeignet sind. In einer Lern- bzw. Trainingsphase, im weiteren als Training bezeichnet, wird jedes zu erkennende Wort mehrmals aufgenommen. Dabei werden jeweils spektrale Merkmalsvektoren ermittelt, woraus durch Mittelung wortspezifische Referenz-Merkmalsvektoren erzeugt werden. Nach Abschluß des Trainings stehen für jedes trainierte Wort Referenz-Merkmalsvektoren, die in einem Referenzmusterspeicher abgelegt sind, zur Verfügung. Im Normalbetrieb, der Testphase, werden für ein zu erkennendes Sprachsignal die spektralen Merkmalsvektoren bestimmt und einer Erkennungseinheit zugeführt, in der ein Vergleich mit den abgespeicherten Referenz-Merkmalsvektoren mittels eines auf der dynamischen Programmierung basierenden Verfahren stattfindet.From the publication "Handsfree Procedure, Speech recognition and coding in the SPS51 "from W. Armbrüster, S. Dobler and P. Meyer, PKI Technical Communications 1/1990, pages 35-41 is a technical realization a speaker-dependent speech recognition device known. In this speech recognition device, an digital speech signal the temporal course of this signal in the spectral range is considered and spectral feature vectors determined to describe the characteristic features of the speech signal are suitable. In a learning or Training phase, hereinafter referred to as training, is every word to be recognized recorded several times. Spectral feature vectors are determined in each case, from which word-specific reference feature vectors are generated by averaging will. After completion of the training, reference feature vectors are available for each word that is trained, which are stored in a reference pattern memory. In normal operation, the test phase, are for a to be recognized Speech signal determines the spectral feature vectors and a recognition unit supplied in which a comparison with the stored reference feature vectors using a dynamic programming based Procedure takes place.

Aus der Offenlegungsschrift DE 36 39 756 A1 ist eine Stimmspektrumsanalyseeinrichtung und -verfahren bekannt. Dieses Stimmdatenverarbeitungssystem bezieht sich speziell auf ein System zur Extraktion lokaler Spitzen als Stimmerkmale aus einem Stimmenzeitspektrum in Form eines Frequenzverteilungsmusters, das bei einer Stimmerkennungstechnik entwickelt wird. Dabei wird ein Stimmsignal, das eine relativ niedrigfrequente Komponente und eine relativ hochfrequente Komponente aufweist, periodisch mit einem vorbestimmten Zeitintervall über einen vorbestimmten Frequenzbereich abgetastet, wodurch eine Serie von abgetasteten Stimmdaten erzeugt wird, die man dann durch ein Hochpaßfilter laufen läßt, um die relativ hochfrequenten Komponenten als ein Quantitätsmerkmal des Stimmsignals zu extrahieren. Das Stimmsignal wird periodisch einer Frequenzanalyse mit einem vorbestimmten Zeitintervall unterworfen, so daß periodisch ein Satz von Daten (Rahmen) erzeugt wird, der eine Frequenzspektralverteilung aufweist. Aus dem annähernd periodischen Signal von Stimmustern, die den zu einem bestimmten Zeitpunkt abgetasteten Rahmen entsprechen, wird dann eine hochfrequente Komponente extrahiert. In einer Ausführungsform, bei der die Serie von Stimmustern in Digitaldaten umgewandelt wurde, kann dazu insbesondere ein digitales Hochpaßfilter verwendet werden. Dabei werden allerdings in jedem Fall lineare analoge Ausgangssignale der Filterbank, die die Frequenzanalyse ausführt, ohne weitere Verarbeitung hochpaßgefiltert. Insgesamt soll mit dem Gegenstand der Entgegenhaltung ein Näherungsverfahren zum Extrahieren von Merkmalsdaten aus einem Stimmsignal zur Verwendung bei einem Stimmerkennungssystem angegeben werden. Daher handelt es sich um ein Verfahren und System zum Erkennen von Stimmen unterschiedlicher Sprecher. Mit einem solchen Verfahren/System zur Betonung sprecherspezifischer Stimmeigenschaften werden jedoch sprachspezifische Eigenschaften unterdrückt.From the published patent application DE 36 39 756 A1 is a Voice spectrum analysis device and method known. This Voice data processing system specifically refers to an extraction system local peaks as voting characteristics from a voice time spectrum in the form of a Frequency distribution pattern that is developed in a voice recognition technique. This is a voice signal that has a relatively low frequency component and a has relatively high-frequency component, periodically with a predetermined Time interval sampled over a predetermined frequency range, whereby a Series of sampled voice data is generated, which can then be identified by a High pass filter runs to the relatively high frequency components as one Extract quantity characteristic of the voice signal. The voice signal will periodically a frequency analysis with a predetermined time interval subjected so that a set of data (frames) is generated periodically, the one Has frequency spectral distribution. From the approximately periodic signal from Vocal patterns that frame the frame scanned at a given time a high-frequency component is then extracted. In a Embodiment in which the series of vocal patterns are converted to digital data a digital high-pass filter can be used. Here in any case, linear analog output signals from the filter bank, the performs the frequency analysis, high pass filtered without further processing. All in all is an approximation to the subject of the document Extract feature data from a voice signal for use with a Voice recognition system can be specified. Therefore, it is a process and system for recognizing voices of different speakers. With a such a method / system to emphasize speaker-specific voice characteristics however, language-specific properties are suppressed.

Probleme bei der Erzielung eines zuverlässigen Erkennungsergebnisses ergeben sich vor allem durch die Überlagerung des Sprachsignals mit Störgrößen, wie z.B. Verzerrungen des Frequenzganges oder quasistationäre Störgeräusche. Solche Störgrößen werden überwiegend bei der Übertragung des Signals über eine Telefonleitung und/ oder durch Hintergrundrauschen bei der Aufnahme eingestreut. Zudem verschlechtern sich die Erkennungsergebnisse, wenn die Ermittlung von Referenz-Merkmalsvektoren während des Trainings unter anderen Aufnahmebedingungen als die Ermittlung von Merkmalsvektoren während der Testphase erfolgt. In diesem Fall kann die Erkennungseinheit den Vergleich zwischen Merkmalsvektoren und Referenz-Merkmalsvektoren nicht mehr zuverlässig vornehmen, woraus eine Erhöhung der Fehlerrate bei der Erkennung resultiert.Problems arise in achieving a reliable recognition result especially by overlaying the speech signal with disturbances, e.g. Distortion of the frequency response or quasi-stationary noise. Such Disturbances are predominantly when the signal is transmitted over a telephone line and / or interspersed by background noise when recording. In addition The recognition results deteriorate when the determination of reference feature vectors during training under shooting conditions other than feature vectors are determined during the test phase. In this case the recognition unit can make the comparison between feature vectors and No longer reliably make reference feature vectors, from which a This increases the error rate in the detection.

Darüber hinaus werden die Einsatzmöglichkeiten von Spracherkennungseinrichtungen vor allem dadurch eingeengt, daß die Mehrzahl der bisherigen technischen Realisierungen lediglich zur sprecherabhängigen Spracherkennung, die ein Training durch den jeweiligen Benutzer impliziert, geeignet sind. Ein Einsatz von solchen sprecherabhängigen Spracherkennungseinrichtungen in Systemen, in denen der gesprochene Text von häufig wechselnden Benutzern erkannt und/oder beantwortet werden soll (z.B. vollautomatische Auskunftssysteme mit sprachlichem Dialog) ist nur schlecht möglich.In addition, the uses of speech recognition devices restricted mainly by the fact that the majority of previous technical realizations only for speaker-dependent Speech recognition, which implies training by the respective user, is suitable are. Use of such speaker-dependent Speech recognition devices in systems in which the spoken text by frequently changing users should be recognized and / or answered (e.g. fully automatic information systems with linguistic dialogue) is only bad possible.

Die Aufgabe der vorliegenden Erfindung ist es deshalb, eine Schaltungsanordnung zur Spracherkennung der eingangs genannten Art so zu verbessern, daß eine sprecherunabhängige Erkennung ermöglicht und der Einfluß von Störgrößen auf das Erkennungsergebnis vermindert wird.The object of the present invention is therefore a circuit arrangement to improve speech recognition of the type mentioned so that a speaker-independent detection enables and the influence of disturbances on the Detection result is reduced.

Die Aufgabe wird erfindungsgemäß dadurch gelöst, daß vor dem Vergleich mit den Referenz-Merkmalsvektoren in der Auswerteschaltung eine rekursive Hochpaßfilterung der spektralen Merkmalsvektoren durch Berechnung hochpaßgefilterter spektraler Merkmalsvektoren M(n, i) gemäß der Vorschrift M(n, i) = V(n, i) - V(n-1, i) + C · M(n-1, i) vorgesehen ist, wobei V(n, i) die ungefilterten spektralen Merkmalsvektoren, n einen Zeitrahmen, i eine spektrale Komponente eines spektralen Merkmalsvektors M bzw. V und C eine vorgegebene Konstante bezeichnet.The object is achieved in that prior to the comparison with the reference feature vectors in the evaluation circuit a recursive high-pass filtering of the spectral feature vectors by calculation of high-pass filtered spectral feature vectors M (n, i) according to the regulation M (n, i) = V (n, i) - V (n-1, i) + C · M (n-1, i) is provided, V (n, i) denoting the unfiltered spectral feature vectors, n a time frame, i a spectral component of a spectral feature vector M or V and C a predetermined constant.

Die spektralen Merkmalsvektoren enthalten eine Zahl von Komponenten, die während einer Merkmalsextraktion durch zahlreiche Verarbeitungsschritte ermittelt werden. Hierbei werden die Komponenten unter anderem einer Logarithmierung unterworfen. Stationäre oder langsam veränderliche Störungen bzw. Änderungen des Frequenzganges, die während der Aufnahme oder der Übertragung des Sprachsignals dem zu erkennenden Sprachsignal überlagert wurden, führen in den logarithmierten Komponenten der Merkmalsvektoren zu additiven Termen, die durch eine Hochpaßfilterung der Komponenten der spektralen Merkmalsvektoren unterdrückt werden. Daneben wird durch den Einsatz einer rekursiven Hochpaßfilterung eine erhebliche Verbesserung der Sprecherunabhängigkeit der Spracherkennung erzielt. Die Schaltungsanordnung zur Spracherkennung muß im Normalfall nur noch einmal trainiert werden und ist anschließend in der Lage, Sprachsignale auch dann zu erkennen, wenn sie von Personen gesprochen werden, die die Schaltungsanordnung zur Spracherkennung nicht trainiert haben. Hierdurch wird ein enormes Anwendungssprektrum für die erfindungsgemäße Schaltungsanordnung zur Spracherkennung eröffnet. Sie kann z.B. zur Realisierung eines Telefonauskunftsystems mit sprachlichem Dialog oder zur Steuerung von Geräten mittels Spracheingabe eingesetzt werden, wobei das Training der Schaltungsanordnung zur Spracherkennung bereits vom Hersteller vorgenommen werden kann und somit ein Trainieren durch den Benutzer entfällt. Darüber hinaus bewirkt die vor dem Vergleich mit Referenz-Merkmalsvektoren vorgesehene Filterung der spektralen Merkmalsvektoren mit einem rekursiven Hochpaß - selbstverständlich werden auch die zur Bestimmung der Referenz-Merkmalsvektoren ermittelten spektralen Merkmalsvektoren während der Trainigsphase dieser Filterung unterworfen - eine deutliche Reduzierung des Einflusses von stationären Störgeräuschen (z.B. durch Brummen in einer Telefonverbindung hervorgerufen) und eine verbesserte Unterdrückung von Frequenzgangverzerrungen. Es sei an dieser Stelle bemerkt, daß die Auswerteschaltung der Schaltungsanordnung zur Spracherkennung wahlweise durch einen Prozessor oder durch diskrete Bauelemente gebildet wird. Darüber hinaus können ein oder mehrere, der in der Auswerteschaltung vorgesehenen Schritte wahlweise mit diskreten Bauelementen oder als Rechnerprogramm eines Prozessors realisiert werden.The spectral feature vectors contain a number of components that determined during a feature extraction through numerous processing steps will. Here, the components are, among other things, logarithmic subject. Stationary or slowly changing faults or changes in the Frequency response that during the recording or transmission of the Speech signal were superimposed on the speech signal to be recognized, lead to the logarithmic components of the feature vectors to additive terms, by suppresses high-pass filtering of the components of the spectral feature vectors will. In addition, through the use of recursive high-pass filtering a significant improvement in speaker independence of speech recognition achieved. The circuit arrangement for speech recognition normally only has to be trained once and is then able to deliver speech signals even then to recognize when they are spoken by people who use the circuitry have not trained for speech recognition. This will make an enormous Application spectrum for the circuit arrangement according to the invention Speech recognition opened. It can e.g. to realize a Telephone information system with voice dialogue or for controlling devices be used by voice input, the training of Circuitry for speech recognition already made by the manufacturer can be and thus no training by the user. Furthermore causes the one provided before the comparison with reference feature vectors Filtering the spectral feature vectors with a recursive high pass - the ones used to determine the reference feature vectors are also taken for granted determined spectral feature vectors during the training phase of this filtering subject - a significant reduction in the influence of stationary Noise (e.g. caused by hum in a telephone connection) and improved suppression of frequency response distortion. It should be noted at this point that the evaluation circuit of the circuit arrangement for speech recognition either by a processor or by discrete Components is formed. In addition, one or more of those in the Evaluation circuit provided steps optionally with discrete components or can be implemented as a computer program of a processor.

Dabei ist die rekursive Hochpaßfilterung in der Auswerteschaltung durch Berechnung hochpaßgefilterter spektraler Merkmalsvektoren M(n, i) gemäß der Vorschrift M(n, i) = V(n, i) - V(n-1, i) + C · M(n-1, i) vorgesehen, wobei n einen Zeitrahmen, V(n, i) die ungefilterten spektralen Merkmalsvektoren des Zeitrahmens n, M(n-1, i) die spektralen Merkmalsvektoren des Zeitrahmens n - 1, i eine spektrale Komponente eines spektralen Merkmalsvektors M bzw. V und C eine vorgegebene Konstante bezeichnet. Bei einer Untersuchung von mehreren verschiedenen rekursiven und nicht rekursiven Hochpaßfilterungen hat sich gezeigt, daß die vorgeschlagene rekursive Hochpaßfilterung erster Ordnung zu den besten Erkennungsergebnissen führt. Die Güte dieser Erkennungsergebnisse hängt zudem im hohen Maße von dem für die Konstante C gewählten Wert ab. Für die Konstante C muß ein Wert im Bereich von 0 < C < 1 gewählt werden. Da für einen Wert von C = 0 der rekursive Hochpaß zu einem Differenzierer entartet und für einen Wert C = 1 nur ein Gleichanteil der Komponenten des spektralen Merkmalsvektors unterdrückt wird, hat sich für C ein Wert von ungefähr 0,7 als vorteilhaft erwiesen, um sprecherspezifische Merkmale in den spektralen Merkmalsvektoren zu unterdrücken. Bei zu großen Abweichungen von diesem Wert verschlechtern sich die Erkennungsergebnisse deutlich.The recursive high-pass filtering in the evaluation circuit by calculation of high-pass filtered spectral feature vectors M (n, i) according to the regulation M (n, i) = V (n, i) - V (n-1, i) + C · M (n-1, i) provided, where n is a time frame, V (n, i) the unfiltered spectral feature vectors of the time frame n, M (n-1, i) the spectral feature vectors of the time frame n - 1, i is a spectral component of a spectral feature vector M or V and C denotes a predetermined constant. An examination of several different recursive and non-recursive high-pass filters has shown that the proposed first-order recursive high-pass filtering leads to the best recognition results. The quality of these recognition results also depends to a large extent on the value chosen for the constant C. A value in the range of 0 <C <1 must be selected for the constant C. Since the recursive high pass to a differentiator is degenerated for a value of C = 0 and only a DC component of the components of the spectral feature vector is suppressed for a value C = 1, a value of approximately 0.7 has proven to be advantageous for C in order to be speaker-specific Suppress features in the spectral feature vectors. If the deviations from this value are too large, the recognition results deteriorate significantly.

In einer Ausgestaltung der Erfindung ist für eine in der Auswerteschaltung vorzunehmende Spektralanalyse eine Aufteilung des digitalen Sprachsignals in sich überlappende Zeitrahmen, eine nachfolgende Wichtung der Abtastwerte eines Zeitrahmens mit einem Hamming-Fenster und eine schnelle Fouriertransformation mit einer anschließenden Betragsbildung zur Ermittlung von spektralen Merkmals-vektoren vorgesehen. In one embodiment of the invention, one is in the evaluation circuit spectral analysis to be carried out a division of the digital speech signal in itself overlapping time frames, a subsequent weighting of the sample values Time frame with a Hamming window and a fast Fourier transformation with a subsequent calculation of the amount to determine spectral feature vectors intended.

Im einzelnen bedeutet dies, daß jeweils eine bestimmte Zahl von Abtastwerten des digitalen Sprachsignals zu Blökken, im weiteren als Zeitrahmen bezeichnet, zusammengefaßt wird. Jeder Abtastwert ist dabei in mehreren Zeitrahmen enthalten, d.h. die Zeitrahmen sind zeitlich versetzt und überlappen sich. Die Abtastwerte eines Zeitrahmens bilden die Grundlage für die Ermittlung eines dem Zeitrahmen zugeordneten spektralen Merkmalsvektors. Bei der Bestimmung des spektralen Merkmalsvektors werden die Abtastwerte eines Zeitrahmens mit einem Hamming-Fenster gewichtet, wie es z.B. in dem Buch "Automatische Spracheingabe und Sprachausgabe" von K. Sickert, Haar bei München, Verlag Markt und Technik, 1983, Seiten 118-119 beschrieben ist. Die Abtastwerte jedes Zeitrahmens werden im Anschluß daran einer schnellen Fourier-Transformation (FFT) unterworfen und aus dem resultierenden Spektrum wird durch eine Quadrierung und eine Betragsbildung das Leistungsdichtespektrum ermittelt. Die spektralen Werte des Leistungsdichtespektrums eines Zeitrahmens bilden die Komponenten des zugeordneten Merkmalsvektors.Specifically, this means that each one is specific Number of samples of the digital speech signal in blocks, hereinafter referred to as the time frame, summarized becomes. Each sample is in several time frames included, i.e. the time frames are staggered and overlap. Form the samples of a time frame the basis for determining a the time frame assigned spectral feature vector. When determining of the spectral feature vector are the samples of a timeframe weighted with a Hamming window, like it e.g. in the book "Automatic voice input and Speech output "by K. Sickert, Haar near Munich, publisher Markt und Technik, 1983, pages 118-119. The samples of each time frame are then followed subjected to a fast Fourier transform (FFT) and the resulting spectrum is squared and the power density spectrum determined. The spectral values of the power density spectrum of a time frame form the components of the assigned feature vector.

Es sei hier erwähnt, daß die Bestimmung der spektralen Merkmalsvektoren alternativ durch eine Filterbank-Analyse, wie sie aus dem Buch "Automatische Spracheingabe und Sprachausgabe" von K. Sickert, Haar bei München, Verlag Markt und Technik, 1983, Seiten 129-131 bzw. Seite 324 bekannt ist, vorgenommen werden kann. Die in der Erfindung eingesetzte, auf der schnellen Fouriertransformation basierende Spektralanalyse bietet den Vorteil, daß sie im Gegensatz zur Filterbank-Analyse, auch mittels eines Programms in einem Prozessor, z.B. in einem Signalprozessor, realisierbar ist.It should be mentioned here that the determination of the spectral Feature vectors alternatively through a filter bank analysis, as they are from the book "Automatic speech input and Speech output "by K. Sickert, Haar near Munich, publisher Markt und Technik, 1983, pages 129-131 and 324 respectively is can be made. The in the invention used, based on the fast Fourier transformation Spectral analysis has the advantage that it is in the Contrary to filter bank analysis, also by means of a program in a processor, e.g. in a signal processor, is feasible.

In einer weiteren vorteilhaften Ausgestaltung der Erfindung ist die Auswerteschaltung zur Reduzierung von Komponenten der spektralen Merkmalsvektoren durch eine Faltung mit Faltungskernen eingerichtet. Die Faltungskerne (Mittenfrequenzen) werden so gewählt, daß sie in regelmäßigen Abständen auf der sogenannten "mel"-Skala (Melodie-Kurve) der subjektiven musikalischen Tonhöhe liegen, wodurch eine Auswahl von Komponenten der spektralen Merkmalsvektoren nach psycho-akustischen Aspekten gewährleistet ist. Der Verlauf der "mel"-Skala ist z.B. aus dem Buch "Das Ohr als Nachrichtenempfänger" von E. Zwicker und R. Feldtkeller, S. Hirzel Verlag, Stuttgart, 1967 bekannt.In a further advantageous embodiment of the invention is the evaluation circuit for reducing components of the spectral feature vectors by convolution decorated with folding cores. The convolution kernels (Center frequencies) are chosen so that they are in regular Distances on the so-called "mel" scale (melody curve) the subjective musical pitch, whereby a selection of components of the spectral feature vectors guaranteed according to psycho-acoustic aspects is. The course of the "mel" scale is e.g. from the Book "The ear as a message recipient" by E. Zwicker and R. Feldtkeller, S. Hirzel Verlag, Stuttgart, 1967 known.

Die aus der Faltung resultierende Unterabtastung führt in vorteilhafter Weise zu einer erheblichen Reduzierung der Komponenten der spektralen Merkmalsvektoren und damit zu einer deutlichen Datenreduktion.The subsampling resulting from the convolution leads to advantageously to a significant reduction in Components of the spectral feature vectors and thus too a significant data reduction.

Eine weitere Ausführungsform zeichnet sich dadurch aus, daß eine in der Auswerteschaltung vorzunehmende Logarithmierung der spektralen Merkmalsvektoren bei einer auf der schnellen Fouriertransformation basierenden Spektralanalyse vor der Faltung vorgesehen ist. Hierdurch wird eine Kompandierung der Komponenten der spektralen Merkmalsvektoren erreicht, woraus eine erhebliche Reduktion der zu verarbeitenden Datenmenge resultiert.Another embodiment is characterized by that a logarithm to be carried out in the evaluation circuit of the spectral feature vectors at one on the fast Fourier transform based spectral analysis is provided before folding. This will create a Companding the components of the spectral feature vectors achieved, resulting in a significant reduction in processing amount of data results.

Eine Verringerung des Einflusses von Störgrößen, die von im allgemeinen unbekannten Eigenschaften eines Übertragungsweges des Sprachsignals abhängig sind, wird in einer Ausgestaltung durch eine Intensitätsnormierung der spektralen Merkmalsvektoren erzielt. Es wird hierzu ein Mittelwert der Komponenten eines jeden spektralen Merkmalsvektors berechnet und anschließend von jeder Komponente subtrahiert. Der Mittelwert entspricht einer mittleren Energie eines spektralen Merkmalsvektors und wird deshalb als weitere Komponente eines spektralen Merkmalsvektors aufgenommen. Durch die vorgeschlagene Intensitätsnormierung wird zudem die für die Erkennung nachteilige Abhängigkeit der Komponenten von der Lautstärke des Sprachsignals annähernd beseitigt und die Leistungsfähigkeit der Spracherkennung verbessert.A reduction in the influence of disturbance variables caused by generally unknown properties of a transmission path of the speech signal are dependent in one Design through an intensity normalization of the spectral Feature vectors achieved. This becomes an average of the components of each spectral feature vector calculated and then from each component subtracted. The mean corresponds to a mean Energy of a spectral feature vector and therefore as a further component of a spectral feature vector added. Through the proposed intensity standardization also becomes the dependency disadvantageous for the detection of the components on the volume of the speech signal almost eliminated and the performance of the Voice recognition improved.

Im folgenden soll anhand des in den Fig. 1 bis 3 schematisch dargestellten Ausführungsbeispiels die Erfindung näher beschrieben und erläutert werden.1 to 3 schematically illustrated embodiment Invention will be described and explained in more detail.

Es zeigt:

Fig. 1: ein Blockschaltbild einer Schaltungsanordnung zur Spracherkennung,
Fig. 2: ein Flußablaufdiagramm der Spracherkennung, wie sie in der Auswerteschaltung der Schaltungsanordnung zur Spracherkennung vorgesehen ist.
Fig. 3: ein Flußablaufdiagramm der Merkmalsextraktion, wie sie in der Auswerteschaltung der Schaltungsanordnung zur Spracherkennung vorgesehen ist.

It shows:

Fig. 1: 2 shows a block diagram of a circuit arrangement for speech recognition,
Fig. 2: a flowchart of the speech recognition, as is provided in the evaluation circuit of the circuit arrangement for speech recognition.
Fig. 3: a flowchart of the feature extraction, as is provided in the evaluation circuit of the circuit arrangement for speech recognition.

Fig. 1 zeigt den Aufbau einer Schaltungsanordnung zur Spracherkennung. Ein zu erkennendes analoges Sprachsignal 1, das beispielsweise über ein Mikrofon oder eine Telefonleitung zugeführt wird und beispielsweise im Frequenzbereich von 0,3 bis 3,4 KHz liegt, wird durch einen Analog-Digital-Wandler 2 mit einer Frequenz von 8 KHz abgetastet und in ein digitales Sprachsignal 3 umgewandelt. Eine Auswerteschaltung 4, die im Ausführungsbeispiel durch einen Signalprozessor mit einem Speicher realisiert ist, ermittelt aus dem digitalen Sprachsignal 3 ein Erkennungssignal 5, welches in einem geeigneten Datenformat Informationen über die im digitalen Sprachsignal 3 erkannten Wörter enthält. Das Erkennungssignal 5 bildet die Grundlage für eine weiterführende Verarbeitung, wie z.B. der Auslösung von Handlungen (Steuerung von Geräten) oder der Ausgabe einer Antwort durch eine Spracherzeugung (Dialogauskunftssystem). Die Schaltungsanordnung kann selbstverständlich in alle gängigen Systeme eingebracht werden, in denen die Erkennung von einzelnen Wörtern oder eine kontinuierliche Spracherkennung vorgesehen ist. Eine Auflistung von Anwendungsmöglichkeiten einer Schaltungsanordnung zur Spracherkennung ist z.B. in dem Buch "Sprachverarbeitung und Sprachübertragung" von K. Fellbaum, Berlin, Springer Verlag, 1984, Seite 204 zu finden.Fig. 1 shows the structure of a circuit arrangement for Voice recognition. An analog voice signal to be recognized 1, for example via a microphone or a Telephone line is supplied and for example in the frequency domain from 0.3 to 3.4 KHz, is replaced by a Analog-to-digital converter 2 with a frequency of 8 kHz sampled and converted into a digital speech signal 3. An evaluation circuit 4 in the embodiment realized by a signal processor with a memory is determined from the digital voice signal 3, a recognition signal 5, which is in a suitable data format Information about those recognized in the digital voice signal 3 Contains words. The detection signal 5 forms the Basis for further processing, e.g. the triggering of actions (control of devices) or the output of a response by language generation (dialog information system). The circuit arrangement can of course be brought into all common systems, in which the recognition of single words or a continuous speech recognition is provided. A list of applications of a circuit arrangement for speech recognition is e.g. in the book "Sprachverarbeitung and voice transmission "by K. Fellbaum, Berlin, Springer Verlag, 1984, page 204.

Fig. 2 verdeutlicht anhand eines Flußdiagramms die in der Auswerteschaltung 4 von Fig.1 vorgesehenen Schritte zur Erzeugung des Erkennungssignals 5. Dabei sind gleiche Teile mit den gleichen Bezugszeichen versehen. Die Auswerteschaltung 4 wird im Ausführungsbeispiel durch einen Signalprozessor mit einem Speicher gebildet, der entsprechend den Flußablaufdiagrammen von Fig.2 und Fig.3 programmiert ist. Aus dem digitalen Sprachsignal 3 werden mit Hilfe einer Merkmalsextraktion (Block 20), deren Schritte in Fig.3 detailliert beschrieben werden, spektrale Merkmalsvektoren 21 gewonnen.Fig. 2 illustrates using a flowchart in the Evaluation circuit 4 of steps provided for Generation of the detection signal 5. The same are the same Parts have the same reference numerals. The evaluation circuit 4 is in the embodiment by a Signal processor with a memory formed accordingly programmed the flow charts of Fig.2 and Fig.3 is. From the digital voice signal 3 with Using a feature extraction (block 20), its steps are described in detail in FIG. 3, spectral feature vectors 21 won.

In der Auswerteschaltung 4 werden durch eine Verzweigung 22 die zwei Betriebsarten "Training" und "Testphase" unterschieden. Bevor eine Erkennung von Wörtern des digitalen Sprachsignals 3 möglich ist, muß die Schaltungsanordnung während des Trainings zunächst mit den Worten trainiert werden, die später während der Testphase erkannt werden sollen. Während des Trainings wird jedes zu trainierende Wort mehrmals aufgenommen und der Schaltungsanordnung zugeführt. Bei jedem Aufnahmevorgang wird eine Merkmalsextraktion (Block 20) vorgenommen und die resultierenden, für das trainierte Wort spezifischen spektralen Merkmalsvektoren 21 einem Trainingsblock (Block 23) zugeführt. Im Trainingsblock (Block 23) werden aus den, aus mehreren Aufnahmen stammenden Merkmalsvektoren in bekannter Weise eine Reihe von wortspezifischen Referenz-Merkmalsvektoren gebildet, die anschließend abgespeichert (Block 24) werden. Nach Abschluß des Trainings beinhaltet der Speicher für jedes trainierte Wort Referenz-Merkmalsvektoren, auf die während einer Erkennung (Block 25) in der Testphase zugegriffen wird.In the evaluation circuit 4 are a branch 22 the two operating modes "training" and "test phase" distinguished. Before recognizing words of digital Speech signal 3 is possible, the circuit must during the training first with the words be trained, which are later recognized during the test phase should be. During training, everyone is trained Word recorded several times and the circuit arrangement fed. With each recording process one Feature extraction (block 20) and the resulting, spectral specific for the trained word Feature vectors 21 are fed to a training block (block 23). In the training block (block 23), are made of feature vectors originating from several recordings in known Way a series of word-specific reference feature vectors formed, which are then saved (Block 24). Included after completing the training the memory for each trained word reference feature vectors, on the during a detection (block 25) in the test phase is accessed.

In der Testphase wird, wie im Training, für das zu erkennende digitale Sprachsignal 3 eine Merkmalsextraktion (Block 20) vorgenommen. Die resultierenden spektralen Mermalsvektoren 21 werden nun jedoch über die Verzweigung 22 der Erkennung (Block 25) zugeführt. Die Erkennung (Block 25) führt einen Vergleich der spektralen Merkmals-vektoren 21 mit den abgespeicherten (Block 24) Referenz-Merkmalsvektoren durch und liefert ein Erkennungssignal 5, daß das Erkennungsergebnis in geeigneter Form wiedergibt und das Ausgangssignal der Schaltungsanordnung zur Spracherkennung darstellt.In the test phase, as in training, is for what is to be recognized digital voice signal 3 a feature extraction (Block 20). The resulting spectral Marking vectors 21 are however now over the branch 22 fed to the detection (block 25). The detection (Block 25) performs a comparison of the spectral feature vectors 21 with the stored (block 24) reference feature vectors through and provides a detection signal 5, that the recognition result reflects in a suitable form and the output signal of the circuit arrangement for speech recognition represents.

Aufbau, Abläufe bzw. Funktionsweise des Trainingsblocks (Block 23), die Abspeicherung der Referenz-Merkmalsvektoren (Block 24) sowie der Erkennung (Block 25) sind bekannt aus der Veröffentlichung "Verfahren für Freisprechen, Spracherkennung und Sprachcodierung in der SPS51" von W. Armbrüster, S. Dobler und P. Meyer, PKI Technische Mitteilungen 1/1990, Seiten 35-41 und/oder aus den Druckschriften "The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition" von H. Ney , IEEE Transactions ASSP, Vol. ASSP-32, No. 2, April 1984, Seiten 263-271 und "Speaker-dependent connected-speech recognition via dynamic programming and statistical methods" von H.Boulard et al., in K. Kohler, Bibliotheca Phonetica, (Karger, Basel), No.12, 1985, Seiten 115-148.Structure, processes and mode of operation of the training block (Block 23), the storage of the reference feature vectors (Block 24) and the detection (Block 25) are known from the publication "Handsfree method, Speech recognition and coding in the SPS51 "by W. Armbrüster, S. Dobler and P. Meyer, PKI Technical bulletins 1/1990, pages 35-41 and / or from the publications "The Use of a One-Stage Dynamic Programming Algorithm for Connected Word Recognition "by H. Ney, IEEE Transactions ASSP, Vol. ASSP-32, No. 2nd of April 1984, pages 263-271 and "Speaker-dependent connected-speech recognition via dynamic programming and statistical methods "by H.Boulard et al., in K. Kohler, Bibliotheca Phonetica, (Karger, Basel), No.12, 1985, pages 115-148.

Fig. 3 zeigt ein Flußablaufdiagramm der Merkmalsextraktion, wie sie in der Auswerteschaltung der Schaltungsanordnung zur Spracherkennung vorgesehen ist. In Fig. 3 werden anhand eines Flußablaufdiagramms die notwendigen Schritte für eine Merkmalsextraktion (vgl. Block 20, Fig. 2), wie sie in der Auswerteschaltung 4 der Schaltungsanordnung 6 zur Spracherkennung vorgesehen ist, näher erläutert.3 shows a flowchart of feature extraction, as in the evaluation circuit of the circuit arrangement is provided for speech recognition. 3 are the necessary based on a flow chart Steps for a feature extraction (see block 20, Fig. 2), as in the evaluation circuit 4 Circuit arrangement 6 is provided for speech recognition, explained in more detail.

Das digitale Sprachsignal 3 wird zunächst in sich überlappende, aus jeweils 256 Abtastwerten bestehende Zeitrahmen gemäß der Vorschrift (Block 30): B(n, s) = { s(96·n), ..., s(96·n + 255) } aufgeteilt, wobei n einen Zeitrahmen, s die Abtastwerte des digitalen Sprachsignals 3 und B(n, s) die 256 zu einem Zeitrahmen n gehörenden Abtastwerte s bezeichnet. Die Vorschrift besagt, daß jeder Zeitrahmen n aus 256 aufeinanderfolgenden Abtastwerten s des digitalen Sprachsignals 3 besteht, wobei jeweils nach 96 Abtastwerten ein neuer Zeitrahmen gebildet wird, so daß sich die Zeitrahmen überlappen. Da die Abtastung mit einer Rate von 8 KHz erfolgt, wird alle 96/8000 s = 12 ms ein neuer Zeitrahmen gebildet, der 256 Abtastwerte enthält. Wie Block 31 zeigt, wird jeder Zeitrahmen anschließend einer Wichtung mit einem Hamming-Fenster unterworfen , wie es z.B. aus dem Buch "Automatische Spracheingabe und Sprachausgabe" von K. Sickert, Haar bei München, Verlag Markt und Technik, 1983, Seite 119, bekannt ist. Dazu wird eine Multiplikation mit einem Vektor H, der die Koeffizienten des Hamming-Fensters enthält, gemäß B(n, s) = B(n, s) · H vorgenommen. Nach der Wichtung mit dem Hamming-Fenster (Block 31) wird für jeden Zeitrahmen n ein logarithmiertes Leistungsdichtespektrum ermittelt (Block 32), in dem durch eine schnelle Fouriertransformation (FFT) ein komplexes Spektrum des Zeitrahmens n berechnet und daraus durch Bildung eines Betragsquadrates die Leistungsdichtespektren B(n, f), wobei f die Frequenz bezeichnet, ermittelt werden. Durch Logarithmierung der Leistungsdichtespektren B(n, f) resultieren die logarithmierten Leistungsdichtespektren B(n, f) der Zeitrahmen. Die logarithmierten Leistungsdichtespektren B(n, f) werden somit gemäß der Vorschrift B(n, f) = log(¦FFT( B(n, s))¦2 ) ermittelt, wobei B(n, s) die mit dem Hamming-Fenster gewichteten Abtastwerte eines Zeitrahmens n und FFT symbolisch die schnelle Fouriertransformation bezeichnet. Eine solche Bestimmung der logarithmierten Leistungsdichtespektren der Zeitrahmen ist z. B. aus der Veröffentlichung "Verfahren für Freisprechen, Spracherkennung und Sprachcodierung in der SPS51" von W. Armbrüster, S. Dobler und P. Meyer, PKI Technische Mitteilungen 1/1990, Seiten 35-41 bekannt.The digital voice signal 3 is first of all in overlapping time frames, each consisting of 256 samples, in accordance with the regulation (block 30): B (n, s) = {s (96n), ..., s (96n + 255)} divided, where n denotes a time frame, s the samples of the digital voice signal 3 and B (n, s) denotes the 256 samples s belonging to a time frame n. The regulation states that each time frame n consists of 256 consecutive samples s of the digital speech signal 3, a new time frame being formed after every 96 samples, so that the time frames overlap. Since the sampling takes place at a rate of 8 kHz, a new time frame is formed every 96/8000 s = 12 ms, which contains 256 sampling values. As block 31 shows, each time frame is then subjected to a weighting with a Hamming window, as is known, for example, from the book "Automatic Speech Input and Speech Output" by K. Sickert, Haar bei Munich, Verlag Markt und Technik, 1983, page 119 is. For this purpose, a multiplication by a vector H, which contains the coefficients of the Hamming window, is carried out according to B (n, s) = B (n, s) · H performed. After weighting with the Hamming window (block 31), a logarithmic power density spectrum is determined for each time frame n (block 32), in which a complex spectrum of the time frame n is calculated by means of a fast Fourier transformation (FFT) and the power density spectra are calculated from this by forming an amount square B (n, f), where f denotes the frequency. By logarithmizing the power density spectra B (n, f), the logarithmic power density spectra B (n, f) of the time frames result. The logarithmic power density spectra B (n, f) are thus in accordance with the regulation B (n, f) = log (¦FFT (B (n, s)) ¦ 2nd ) determined, where B (n, s) symbolically denotes the samples of a time frame n weighted with the Hamming window and FFT symbolically denotes the fast Fourier transform. Such a determination of the logarithmic power density spectra of the time frame is e.g. B. from the publication "Procedure for hands-free talking, speech recognition and speech coding in the SPS51" by W. Armbrüster, S. Dobler and P. Meyer, PKI Technische Mitteilungen 1/1990, pages 35-41.

Die resultierenden logarithmierten Leistungsdichtespektren B(n, f) der Zeitrahmen enthalten jeweils 256 spektrale Werte. Durch Faltung der logarithmierten Leistungsdichtespektren der Zeitrahmen mit 15 Faltungskernen K (f, i) gemäß V(n, i) = B(n, f) * K(f, i) mit i = 1,..., 15 wobei V(n, i) einen spektralen Merkmalsvektor, n den Zeitrahmen, "*" das Symbol für die Faltungsoperation und i eine Komponente des spektralen Merkmalsvektors V(n, i) bezeichnet, erhält man für jeden Zeitrahmen n einen spektralen Merkmalsvektor V(n, i). Die Faltungskerne sind, wie dies bereits in der Beschreibungseinleitung beschrieben wurde, so gewählt, daß sie bei der Faltung fünfzehn auf der "mel"-Skala gleichverteilte Spektralwerte aus den Leistungsdichtespektren der Zeitrahmen extrahiert werden, die zusammen die Komponenten eines spektralen Merkmalsvektors V(n, i) bilden. Die in Block 33 vorgenommene Faltung und die anschließende Zusammenfassung der resultierenden Komponenten zu einem spektralen Merkmalsvektor V(n, i) führt zu einer erheblichen Datenreduktion und vereinfacht die spätere Erkennung.The resulting logarithmic power density spectra B (n, f) of the time frames each contain 256 spectral values. By folding the logarithmic power density spectra according to the time frame with 15 convolution cores K (f, i) V (n, i) = B (n, f) * K (f, i) with i = 1, ..., 15 where V (n, i) denotes a spectral feature vector, n the time frame, "*" the symbol for the convolution operation and i a component of the spectral feature vector V (n, i), a spectral feature vector V (n , i). As already described in the introduction to the description, the convolution kernels are selected such that they are extracted from the power density spectra of the time frames during the convolution of fifteen spectral values which are equally distributed on the "mel" scale and which together form the components of a spectral feature vector V (n, i) form. The convolution carried out in block 33 and the subsequent combination of the resulting components to form a spectral feature vector V (n, i) leads to a considerable reduction in data and simplifies subsequent detection.

Wie Block 34 zeigt, wird für jeden spektralen Merkmalsvektor V(n, i) die mittlere Energie V(n, 0) gemäß V(n, 0) = Σ V(n, i) / 15 , i = 1, ..., 15 bestimmt und als Komponente i = 0 in den spektralen Merkmalsvektor V(n, i) aufgenommen. Zudem wird die mittlere Energie V(n, 0) von jeder Komponente i = 1, ..., 15 eines spektralen Merkmalsvektors subtrahiert. Dies entspricht einer Normierung der spektralen Merkmalsvektoren auf die mittlere Energie gemäß der Vorschrift: V(n, i) = V(n, i) - V(n, 0) , i = 1,..., 15 As block 34 shows, for each spectral feature vector V (n, i) the mean energy V (n, 0) is according to V (n, 0) = Σ V (n, i) / 15, i = 1, ..., 15 determined and included as component i = 0 in the spectral feature vector V (n, i). In addition, the average energy V (n, 0) is subtracted from each component i = 1, ..., 15 of a spectral feature vector. This corresponds to a normalization of the spectral feature vectors to the mean energy according to the regulation: V (n, i) = V (n, i) - V (n, 0), i = 1, ..., 15

Es resultiert für jeden Zeitrahmen ein aus 16 Komponenten bestehender spektraler Merkmalsvektor V(n, i). There are 16 components for each time frame existing spectral feature vector V (n, i).

Anschließend ist für die spektralen Merkmalsvektoren V(n, i) eine rekursive Hochpaßfilterung gemäß der Vorschrift M(n, i) = V(n, i) - V(n-1, i) + C · M(n-1, i) vorgesehen, wobei M(n, i) die hochpaßgefilterten spektralen Merkmalsvektoren, V(n - 1, i) die spektralen Merkmalsvektoren des Zeitrahmens n - 1, M(n - 1, i) die hochpaßgefilteren spektralen Merkmalsvektoren des Zeitrahmens n - 1, und C eine vorgegebene Konstante bezeichnet. Für die Konstante C wird ein Wert von ungefähr 0,7 gewählt. Die resultierenden spektralen Merkmals-vektoren M(n, i) bilden die der weiteren Verarbeitung zugrundeliegenden Merkmalsvektoren 21.Then there is a recursive high-pass filtering for the spectral feature vectors V (n, i) according to the regulation M (n, i) = V (n, i) - V (n-1, i) + C · M (n-1, i) provided, where M (n, i) the high-pass filtered spectral feature vectors, V (n-1, i) the spectral feature vectors of the time frame n-1, M (n-1, i) the high-pass filtered spectral feature vectors of the time frame n-1, and C denotes a predetermined constant. A value of approximately 0.7 is chosen for the constant C. The resulting spectral feature vectors M (n, i) form the feature vectors 21 on which the further processing is based.

Claims

A circuit arrangement (6) for speech which includes an evaluation circuit (4) for determining spectral feature vectors (21) of time frames of a digital speech signal (3) by means of a spectral analysis, for logarithmizing (32) the spectral feature vectors (21), and for comparing the logarithmized spectral feature vectors (21) with reference feature vectors (26), characterized in that prior to the comparison with the reference feature vectors (26) recursive high-pass filtering (35) of the spectral feature vectors is carried out in of the evaluation circuit (4) by calculation of high-pass filtered spectral feature vectors M(n, i) in conformity to the rule: M(n, i) = V(n, i) - V(n-1, i) + C · M(n-1, i) in which V(n, i) represents the non-filtered spectral feature vectors, n is a time frame, i represents a spectral component of a spectral feature vector M or V, and C is a given constant.
A circuit arrangement as claimed in Claim 1, characterized in that a value in the range 0 < C < 1 is chosen for the constant C.
A circuit arrangement as claimed in one of the preceding Claims,
characterized in that the spectral analysis to be performed in the evaluation circuit (4) includes a subdivision (30) of the digital speech signal (3) into overlapping time frames, a subsequent weighting (31) of the sample values of a time frame by means of a Hamming window, and a fast Fourier transformation (32) with subsequent formation of an absolute value so as to determine spectral feature vectors (21).
A circuit arrangement as claimed in Claim 3, characterized in that the evaluation circuit (4) is arranged to reduce the number of components of the spectral feature vectors (21) by convolution (33) with convolution centres.
A circuit arrangement as claimed in Claim 4, characterized in that the logarithmization (32) of the spectral feature vectors (21) is carried out in the evaluation circuit (4) in a spectral analysis based on the fast Fourier transformation, prior to the convolution (33).
A circuit arrangement as claimed in one of the preceding Claims,
characterized in that
the evaluation circuit (4) is arranged so as to carry out intensity standardization (34) of the spectral feature vectors (21) prior to the recursive high-pass filtering (35).