DE3750314T2

DE3750314T2 - Speech processor.

Info

Publication number: DE3750314T2
Application number: DE3750314T
Authority: DE
Inventors: Nicholas John Arnold Forse
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1986-06-02
Filing date: 1987-05-29
Publication date: 1994-11-17
Anticipated expiration: 2007-05-30
Also published as: FI92113B; GB8613327D0; US4912766A; KR880701435A; WO1987007750A1; FI92113C; ATE183009T1; CA1310418C; ES2056819T3; FI872450A; DE3752288T2; EP0750291A1; HK137096A; ATE109582T1; JP2654503B2; EP0248609A1; FI872450A0; JPH0677894A; DE3750314D1; JPH09325790A

Abstract

In a speech processor such as a speech recogniser, the problem of detecting the beginning and end of speech or a word accurately, to enable the creation of a speech or a word template which consistently matches stored speech or word templates is solved by characterising background noise and forming a background noise template, setting a speech threshold above which speech is detected and stored, and subtracting the background noise template from the stored speech to form a speech template. <IMAGE>

Description

Diese Erfindung bezieht sich auf Sprachprozessoren mit automatischer Verstärkungsfaktorsteuerung und insbesondere auf Spracherkenner.This invention relates to speech processors with automatic gain control and, in particular, to speech recognizers.

Automatische Spracherkenner arbeiten, indem sie Merkmale vergleichen, die hörbaren Sprachsignalen entnommen sind. Merkmale, die der zu erkennenden Sprache entnommen sind, werden mit gespeicherten Merkmalen verglichen, die von einer bekannten Sprachäußerung entnommen sind.Automatic speech recognizers work by comparing features taken from audible speech signals. Features taken from the speech to be recognized are compared with stored features taken from a known speech utterance.

Zur genauen Erkennung ist es wichtig, daß die Merkmale, die dem gleichen Wort oder Laut, das oder der dann zu unterschiedlichen Zeiten gesprochen wird, entnommen sind, genügend ähnlich sind. Jedoch macht es der große Dynamikbereich von Sprache schwierig, dies zu erreichen, insbesondere in Bereichen, wie dem freihändigen Telefonieren, wo der durch das Mikrofon empfangene Tonpegel über einen weiten Bereich variieren kann. Um diese Sprachpegel-Variation zu kompensieren, verwenden die meisten Spracherkenner eine Form einer automatischen Verstärkungsfaktorsteuerung (AGC).For accurate recognition, it is important that the features extracted from the same word or sound spoken at different times are sufficiently similar. However, the wide dynamic range of speech makes this difficult to achieve, particularly in areas such as hands-free telephony where the sound level received by the microphone can vary over a wide range. To compensate for this speech level variation, most speech recognizers use some form of automatic gain control (AGC).

Die AGC-Schaltung steuert den Verstärkungsfaktor, um zu versichern, daß der durchschnittliche Signalpegel, der von dem Merkmals-Extrahierer verwendet wird, so nahe wie möglich über eine gegebene Zeitperiode konstant ist. Somit wird leisen Sprachäußerungen ein größerer Verstärkungsfaktor verliehen als lauten Äußerungen. Diese Form eines AGC läuft gut, wenn das Eingabesignal kontinuierliche Sprache ist, da nach einer Zeitperiode der Schaltungsverstärkungsfaktor den Signalpegel optimieren wird, um eine konsistente Merkmalsextrahierung zu ergeben. Bei Nichtvorhandensein von Sprache wird der Verstärkungsfaktor der AGC-Schaltung jedoch auf einen Pegel ansteigen, der durch das Hintergrundrauschen bestimmt ist, so daß beim Einsetzen einer Sprachäußerung der Verstärkungsfaktor der AGC-Schaltung zu hoch eingestellt sein wird. Während der Äußerung wird der Verstärkungsfaktor der Schaltung automatisch reduziert, wobei die Geschwindigkeit der Verstärkungsfaktoränderung durch die "Angriffs"-Zeit der AGC bestimmt ist. Der Beginn einer Äußerung ist somit einem viel größeren Verstärkungsfaktor unterworfen, und jegliche entnommenen Merkmale werden einen viel größeren Energiegehalt haben als ähnliche Merkmale, die später entnommen werden, wenn der Verstärkungsfaktor reduziert worden ist.The AGC circuit controls the gain to ensure that the average signal level used by the feature extractor is as close to constant as possible over a given period of time. Thus, soft speech utterances are given a larger gain than loud utterances. This form of AGC works well when the input signal is continuous speech, since after a period of time the circuit gain will optimize the signal level to give consistent feature extraction. In the absence of speech, however, the gain of the AGC circuit will rise to a level determined by the background noise, so that at the onset of a speech utterance the gain of the AGC circuit will be set too high. During the utterance the circuit gain is automatically reduced, the rate of gain change being determined by the "attack" time of the AGC. The onset of an utterance is thus subject to a much larger gain, and any extracted features will have a much greater energy content than similar features extracted later when the gain has been reduced.

Dieser Verzerrungseffekt ist abhängig von dem Eingangssignalpegel; je größer der Sprachpegel ist, umso größer ist die Verzerrung. Somit werden die ersten wenigen entnommenen Merkmale nicht den in fiktiver Weise ähnlich gespeicherten Merkmalen entsprechen, und dies kann oft zu einer schwachen Erkennungsfähigkeit führen.This distortion effect depends on the input signal level; the higher the speech level, the greater the distortion. Thus, the first few features extracted will not correspond to the fictitiously similarly stored features, and this can often lead to a weak recognition ability.

Es ist ein Ziel der vorliegenden Erfindung, eine Lösung zu diesem Problem anzugeben.It is an object of the present invention to provide a solution to this problem.

Gemäß der vorliegenden Erfindung wird ein Sprachprozessor bereitgestellt, der aufweist: einen Eingang, um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung, um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler, um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung, um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegten Verstärkungsfaktor anzeigend ist; und daß am Ende einer Abtastperiode die Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.According to the present invention there is provided a speech processor comprising: an input for receiving speech signals; signal processing means for extracting spectral parameters from the speech signals; an analog-to-digital converter for digitizing the extracted parameters; automatic gain control means for controlling the signal level applied to the converter; characterized in that the spectral parameters are at least temporarily and that for each such stored parameter there is also stored a gain coefficient indicative of the gain factor applied to the gain control means; and that at the end of a sampling period the gain coefficients in that period, if different, are set equal to the lowest gain coefficient stored in that period, the magnitudes of the corresponding stored spectral parameters being adjusted proportionally.

In einem Sprachprozessor gemäß der Erfindung, der als ein Spracherkenner konfiguriert ist, wird eine automatische Verstärkungsfaktorsteuerung durch eine digital geschaltete Dämpfungseinheit bereitgestellt, deren Verstärkungsfaktor durch den Mikroprozessor bestimmt wird, der die Spracherkennung ausführt. Der Mikroprozessor steuert den Verstärkungsfaktor; um zu versichern, daß der Dynamikbereich des Analog-Digital- Wandlers (was zwischen Merkmalsextrahierung und dem Mikroprozessor auftritt, der den Erkenner steuert, selbst wenn analoge AGCs verwendet werden) nicht überschritten wird (außer während der Anpassung des AGC). Der prinzipielle Unterschied zwischen den bekannten analogen AGCs und dem System gemäß der Erfindung liegt darin, daß im letzteren der Mikroprozessor eine Steuerung der Verstärkungsfaktoreinstellung ausübt und daher den verwendeten Verstärkungsfaktor für jedes entnommene Merkmal speichern kann. Nachdem die Äußerung beendet ist, kann der Mikroprozessor die optimale Verstärkungsfaktoreinstellung für die vollständige Äußerung bestimmen. Alle gespeicherten Merkmale werden dann auf diese optimale Verstärkungsfaktoreinstellung normalisiert. Damit wird ein konsistenter Satz von Merkmalen unabhängig vom Eingangssignal-Verstärkungsfaktor entnommen.In a speech processor according to the invention configured as a speech recognizer, automatic gain control is provided by a digitally switched attenuator unit, the gain of which is determined by the microprocessor performing the speech recognition. The microprocessor controls the gain to ensure that the dynamic range of the analog-to-digital converter (which occurs between feature extraction and the microprocessor controlling the recognizer, even when analog AGCs are used) is not exceeded (except during adjustment of the AGC). The principal difference between the known analog AGCs and the system according to the invention is that in the latter the microprocessor exercises control of the gain setting and can therefore store the gain used for each extracted feature. After the utterance is finished, the microprocessor can determine the optimal gain setting for the complete utterance. All stored features are then normalized to this optimal gain setting. This extracts a consistent set of features regardless of the input signal gain.

Ausführungsbeispiele der Erfindung werden weiter beschrieben und mit Bezug auf die begleitende Zeichnung erklärt werden, in der:Embodiments of the invention will be further described and explained with reference to the accompanying drawings, in which:

Fig. 1 ein schematisches Diagramm eines Spracherkenners gemäß der vorliegenden Erfindung ist.Fig. 1 is a schematic diagram of a speech recognizer according to the present invention.

In dieser Patentanmeldung ist die Erfindung mit Bezugnahme auf einen Spracherkenner beschrieben, der das Abgleichen von Schablonen verwendet; wie jedoch dem Fachmann bewußt ist, ist die Erfindung gleichermaßen anwendbar auf jeden der herkömmlichen Typen von Spracherkennern, einschließlich jenen, die ein stochastisches Modellieren, Markov- Ketten, dynamisches Zeitverziehen und Phonem-Erkennung verwenden.In this patent application, the invention is described with reference to a speech recognizer that uses template matching; however, as will be appreciated by those skilled in the art, the invention is equally applicable to any of the conventional types of speech recognizers, including those that use stochastic modeling, Markov chains, dynamic time warping, and phoneme recognition.

Spracherkennung basiert auf dem Vergleichen von Energiekonturen von einer Anzahl (allgemein 8 bis 16) von Filterkanälen. Während Sprache vorhanden ist, wird das Energiespektrum von jedem Filterkanal mit einem Analog-Digital-Wandler (A-D) digitalisiert, um eine Schablone zu erzeugen, die in einem Speicher gespeichert ist.Speech recognition is based on comparing energy contours from a number (generally 8 to 16) of filter channels. While speech is present, the energy spectrum from each filter channel is digitized using an analog-to-digital (A-D) converter to produce a template that is stored in memory.

Die anfängliche Phase der Erkennung ist als "Training" bekannt und besteht aus dem Erzeugen der Referenz-Schablonen, indem die Worte auf den Erkenner gesprochen werden, die erkannt werden sollen. Sobald Referenz-Schablonen für die zu erkennenden Worte hergestellt worden sind, kann eine Spracherkennung versucht werden.The initial phase of recognition is known as "training" and consists of creating reference templates by speaking the words to be recognized to the recognizer. Once reference templates for the words to be recognized have been created, speech recognition can be attempted.

Wenn der Erkenner einer Äußerung ausgesetzt wird, erzeugt er eine Test-Schablone, die mit den Referenz-Schablonen in dem Speicher verglichen werden können, um die nächstliegende Übereinstimmung zu finden.When the recognizer is exposed to an utterance, it generates a test template that can be compared with the reference templates in memory to find the closest match.

Die fundamentalen Elemente des Spracherkenners gemäß der vorliegenden Erfindung sind in Fig. 1 gezeigt. Sprachsignale, die durch das Mikrofon 1 empfangen und durch einen Verstärker 2 verstärkt sind, werden zu einer Filterbank 3a geführt. In der Filterbank werden die Sprachsignale in eine Vielzahl (in diesem Fall 16) von Frequenzbändern gefiltert, und die Signale werden durch einen Gleichrichter 4 gleichgerichtet. Die gefilterten und gleichgerichteten Signale werden durch einen Tiefpaßfilter 3b geglättet und dann sequentiell durch einen Multiplexer 5 abgetastet, der das resultierende Einkanalsignal an die DAGC-Schaltung 8 speist, die ihrerseits einen Analog-Digital-Wandler 6 speist, von dem der digitalisierte Signalstrom zu dem steuernden Mikroprozessor 7 geführt wird.The fundamental elements of the speech recognizer according to the present invention are shown in Fig. 1. Speech signals received by the microphone 1 and amplified by an amplifier 2 are fed to a filter bank 3a. In the filter bank the speech signals are filtered into a plurality (in this case 16) of frequency bands and the signals are rectified by a rectifier 4. The filtered and rectified signals are smoothed by a low-pass filter 3b and then sampled sequentially by a multiplexer 5 which feeds the resulting single-channel signal to the DAGC circuit 8 which in turn feeds an analog-to-digital converter 6 from which the digitized signal stream is fed to the controlling microprocessor 7.

Der Multiplexer adressiert jeden Filterkanal für 20 Mikrosekunden, bevor der Nächste adressiert wird. Am Ende jedes 10 Millisekunden Zeitschlitzes wird die abgetastete Energie jedes Kanals für diese Periode gespeichert. Die Schablonen, die während des Trainings oder der Erkennung erzeugt werden, bestehen aus bis zu 100 Zeitschlitz-Abtastungen für jeden Filterkanal.The multiplexer addresses each filter channel for 20 microseconds before addressing the next one. At the end of each 10 millisecond time slot, the sampled energy of each channel is stored for that period. The templates generated during training or detection consist of up to 100 time slot samples for each filter channel.

Die digitale AGC arbeitet auf die folgende Weise. Jedesmal, wenn der Multiplexer einen Filterkanal adressiert, beurteilt der Mikroprozessor den Energiepegel des Kanals, um zu bestimmen, ob der A-D-Wandler überlastet worden ist und daher der Verstärkungsfaktor zu hoch ist. Wenn der Mikroprozessor bestimmt, daß der Verstärkungsfaktor zu hoch ist, dekrementiert er den Verstärkungsfaktor der AGC um einen Schritt, was einer Reduzierung im Verstärkungsfaktor von 1,5 dB entspricht, und betrachtet erneut den Energiepegel des Kanals. Der Multiplexer schreitet nicht zyklisch zu dem nächsten Kanal fort, bis der Mikroprozessor bestimmt hat, daß der Verstärkungsfaktor in ausreichender Weise reduziert worden ist, um ein Überlasten des A-D-Wandlers zu verhindern. Wenn der Multiplexer zyklisch zu dem nächsten Filterkanal fortschreitet, wird der Verstärkungsfaktor der AGC-Schaltung an dem neuen niedrigen Pegel gehalten, außer wenn dieser Pegel zu einem Überlasten des A-D-Wandlers mit dem Energiepegel des neuen Kanals führt, in welchem Fall der Verstärkungsfaktor nach unten inkrementiert wird, wie vorher beschrieben. Wenn der Multiplexer den letzten Filterkanal adressiert hat, normalisiert der Mikroprozessor die Energiepegel aller Kanäle, indem ihre Verstärkungskoeffizienten (die zusammen mit der Energiepegelinformation in dem Speicher 9 gespeichert worden ist, welcher zu dem Mikroprozessor gehört) auf das durch den Mikroprozessor festgelegte Minimum eingestellt werden. Auf diese Weise wird ein konsistenter Satz von Merkmalen unabhängig von dem anfänglichen Eingangssignalverstärkungsfaktor und irgendwelchen Änderungen im Verstärkungsfaktor während der Bildung der Schablone entnommen.The digital AGC works in the following way. Each time the multiplexer addresses a filter channel, the microprocessor evaluates the channel's power level to determine if the ADC has been overloaded and therefore the gain is too high. If the microprocessor determines that the gain is too high, it decrements the AGC's gain by one step, which corresponds to a 1.5 dB reduction in gain, and looks at the channel's power level again. The multiplexer does not cycle to the next channel until the microprocessor has determined that the gain has been reduced sufficiently. to prevent overloading of the AD converter. As the multiplexer cycles to the next filter channel, the gain of the AGC circuit is maintained at the new low level, unless that level results in overloading the AD converter with the energy level of the new channel, in which case the gain is incremented downwards as previously described. When the multiplexer has addressed the last filter channel, the microprocessor normalizes the energy levels of all channels by setting their gain coefficients (which have been stored together with the energy level information in the memory 9 associated with the microprocessor) to the minimum set by the microprocessor. In this way, a consistent set of features is extracted regardless of the initial input signal gain and any changes in the gain during formation of the template.

Es ist auch eine Anforderung an den Spracherkenner, den Anfang und das Ende der Sprache oder des Worts mit einem hohen Maß an Genauigkeit zu erfassen. Der Spracherkenner gemäß der vorliegenden Erfindung verwendet die folgende Technik:It is also a requirement for the speech recognizer to detect the beginning and end of the speech or word with a high degree of accuracy. The speech recognizer according to the present invention uses the following technique:

A. Der Energiepegel des Hintergrundrauschens wird gemessen und für 32 Zeitschlitze (bei 10 Millisekunden für eine Abtastung) gespeichert, während gleichzeitig die Verstärkungsfaktoren der AGC-Schaltung wie oben beschrieben eingestellt (reduziert) werden, um mit der maximalen Rauschenergie umzugehen.A. The background noise energy level is measured and stored for 32 time slots (at 10 milliseconds for one sample) while simultaneously adjusting (reducing) the AGC circuit gains as described above to deal with the maximum noise energy.

B. Die Abtastung maximaler Energie wird gefunden, indem alle die Filterwerte für jeden Zeitschlitz addiert werden, durch 16 (die Anzahl von Filterkanälen) dividiert werden, und mit einem Verstärkungsfaktor entsprechend dem Verstärkungsfaktor der DAGC-Schaltung multipliziert werden, und indem dann jeder Zeitschlitz verglichen wird, um das Maximum zu finden.B. The maximum energy sample is found by adding all the filter values for each time slot, dividing by 16 (the number of filter channels), and multiplying by a gain factor according to the gain factor of the DAGC circuit and then comparing each time slot to find the maximum.

C. Die Schwelle, die überschritten werden muß, bevor angenommen wird, daß Sprache vorhanden ist, ist eingestellt, um gleich 1,5mal die maximale Rauschenergie, die in Schritt B bestimmt ist, zu sein.C. The threshold that must be exceeded before it is assumed that speech is present is set to be equal to 1.5 times the maximum noise energy determined in step B.

D. Die durchschnittliche Rauschenergie für jeden Filterkanal wird gefunden und gespeichert (für jeden Kanal ist es die Summe der Energien über alle 32 Zeitschlitze, dividiert durch 32), um eine Rauschschablone festzulegen.D. The average noise energy for each filter channel is found and stored (for each channel it is the sum of the energies over all 32 time slots divided by 32) to establish a noise template.

E. Danach wird die Filterbank alle 10 Millisekunden abgefahren, und die Daten werden in einem temporären Umlaufspeicher aus 100 Zeitabtastungen gespeichert, bis die durchschnittliche Filterenergie die in C berechnete Rausch/Sprach-Schwelle überschreitet.E. The filter bank is then scanned every 10 milliseconds, and the data is stored in a temporary circular buffer of 100 time samples until the average filter energy exceeds the noise/speech threshold calculated in C.

F. Wenn die Rausch/Sprach-Schwelle nach 32 Abtastungen nicht überschritten ist, wird eine Prüfung durchgeführt, um zu versichern, daß der Verstärkungsfaktor der DAGC-Schaltung nicht zu niedrig eingestellt ist. Dies wird gemacht, indem der maximale Filterkanalwert betrachtet wird, der in diesen 32 Zeitschlitzen gespeichert ist. Wenn dieser Maximalpegel um 1,5 dB oder mehr unter dem maximal akzeptierbaren Eingangspegel für den A-D-Wandler ist, wird der Verstärkungsfaktor der AGC um 1 inkrementiert, um den Verstärkungsfaktor um 1,5 dB zu erhöhen.F. If the noise/speech threshold is not exceeded after 32 samples, a check is made to ensure that the gain of the DAGC circuit is not set too low. This is done by looking at the maximum filter channel value stored in these 32 time slots. If this maximum level is 1.5 dB or more below the maximum acceptable input level for the A-D converter, the AGC gain is incremented by 1 to increase the gain by 1.5 dB.

Wenn die Schwelle nach 32 Abtastungen nicht überschritten ist und die DAGC-Einstellung richtig ist, dann wird die Rausch/Sprach-Schwelle erneut berechnet, indem die Maximalenergie über die letzten 32 Abtastungen (wie in B) gefunden wird und mit 1,5 (wie in C) multipliziert wird.If the threshold is not exceeded after 32 samples and the DAGC setting is correct, then the noise/speech threshold is recalculated by finding the maximum energy over the last 32 samples (as in B) and multiplying it by 1.5 (as in C).

G. Sobald die Rausch/Sprach-Schwelle überschritten worden ist, wird die Filterbank alle 10 Millisekunden abgefahren, und die Filterdaten werden in dem Speicher gespeichert, um die Sprachschablonen zu bilden, bis entweder 100 Abtastungen eingetragen worden sind oder bis der Energiepegel unterhalb die Rausch/ Sprach-Schwelle für 20 aufeinanderfolgende Abtastungen fällt. Wie oben beschrieben, wird, wenn während der Dateneingabe der A-D-Wandler überlastet wird, die AGC-Einstellung um 1 dekrementiert, und die Daten für diesen Filterkanal werden erneut verarbeitet. Wenn während des Abfahrens der 16 Filterkanäle der Verstärkungsfaktor der DAGC-Schaltung reduziert wird, werden die Daten von allen 16 Kanälen erneut eingegeben, so daß alle Filterdaten der gleichen AGC-Einstellung entsprechen. Der verwendete AGC-Wert wird in dem Speicher zusammen mit den Filterdaten aufgezeichnet. Die verwendete AGC-Einstellung am Anfang jedes Zeitschlitzes wird von dem vorherigen Zeitrahmen genommen, wodurch der Verstärkungsfaktor während der Sprachverarbeitungsphase nur reduziert werden kann (nicht erhöht). Dies stellt kein Problem dar, da am Ende der Schablonenperiode alle Schablonendaten auf eine einheitliche AGC-Einstellung normalisiert werden.G. Once the noise/speech threshold has been exceeded, the filter bank is cycled every 10 milliseconds and the filter data is stored in memory to form the speech templates until either 100 samples have been entered or until the energy level falls below the noise/speech threshold for 20 consecutive samples. As described above, if during data entry the ADC is overloaded, the AGC setting is decremented by 1 and the data for that filter channel is reprocessed. If during the 16 filter channels the gain of the DAGC circuit is reduced, the data from all 16 channels is reentered so that all filter data corresponds to the same AGC setting. The AGC value used is recorded in memory along with the filter data. The AGC setting used at the beginning of each time slot is taken from the previous time frame, which allows the gain to only be reduced (not increased) during the speech processing phase. This is not a problem because at the end of the template period all template data is normalized to a uniform AGC setting.

H. Um zu versichern, daß der Anfang von Sprache nicht durch die Sprach/Rausch-Detektor-Schwelle verfehlt wird, werden die 15 Zeitabtastungen vor der Spracherfassung von dem temporären Umlaufspeicher an den Anfang der "Sprach"-Schablone transferriert.H. To ensure that the onset of speech is not missed by the speech/noise detector threshold, the 15 time samples prior to speech detection are taken from the temporary Recirculating memory transferred to the beginning of the "Speech" template.

I. Wenn mehr als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die Rauschschablone durch Analysieren (wie in D) der ältesten 32 Zeitrahmen in dem temporären Umlaufspeicher erneut berechnet. Wenn weniger als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die in Schritt D festgelegte Rauschschablone in den folgenden Schritten verwendet.I. If more than 100 samples have been processed before speech is detected, the noise template is recalculated by analyzing (as in D) the oldest 32 time frames in the temporary wraparound memory. If less than 100 samples have been processed before speech is detected, the noise template determined in step D is used in the following steps.

J. Die minimale Verstärkungsfaktoreinstellung der AGC über der Sprachschablone wird dann gefunden und sowohl die Sprach- als auch die Rauschschablone werden auf diese Einstellung normalisiert, was dazu führt, daß beide Schablonen die Werte enthalten, die eingetragen worden wären, wäre dieser Verstärkungsfaktor von Anfang an verwendet worden.J. The minimum AGC gain setting over the speech template is then found and both the speech and noise templates are normalized to this setting, resulting in both templates containing the values that would have been entered had this gain been used from the start.

K. Die normalisierte Rauschschablone wird dann von jedem Zeitrahmen der normalisierten Sprachschablone subtrahiert.K. The normalized noise template is then subtracted from each time frame of the normalized speech template.

L. Die maximale Energie in der normalisierten Sprachschablone wird nun gefunden, und eine neue Rausch/Sprach-Schwelle wird berechnet - gleich der maximalen Energie minus 18 dB. Diese neue Schwelle wird verwendet, um die normalisierte Sprachschablone abzufahren, um den Anfangs- und den Endpunkt der Sprache zu bestimmen.L. The maximum energy in the normalized speech template is now found and a new noise/speech threshold is calculated equal to the maximum energy minus 18 dB. This new threshold is used to sweep the normalized speech template to determine the start and end points of the speech.

M. Die Sprachschablone wird dann am Anfangs- und am Endpunkt gestutzt und wird entweder in dem Speicher (Training) gespeichert oder zur Erkennung verwendet. Das folgende tabellenartige Beispiel stellt die Werte dar, die nach dem Messen des Hintergrundrauschens für 320 Millisekunden (32 Zeitschlitze von jeweils 10 Millisekunden) gespeichert werden. Filterbanknummer echte durchschnittliche Energie Durchschnittliche RauschschabloneM. The speech template is then trimmed at the start and end points and is stored either in the memory (training) or used for detection. The following table example shows the values stored after measuring the background noise for 320 milliseconds (32 time slots of 10 milliseconds each). Filter bank number real average Energy Average Noise Template

Ein DAGC-Wert von 4 ist äquivalent einer 6 dB-Dämpfung des Signals, das in den A-D läuft, und somit müßten, um die "echte" Energie zu berechnen, alle die obigen Filterbankwerte verdoppelt werden.A DAGC value of 4 is equivalent to a 6 dB attenuation of the signal going into the A-D, and thus to calculate the "real" energy, all of the above filter bank values would have to be doubled.

Die maximale echte Energie (die gemittelt über alle Filter) war: -410.The maximum true energy (averaged over all filters) was: -410.

Schwelle, die zum Starten/Beenden einer Schablonenaufzeichnung zu überschreiten ist: -615.Threshold to be exceeded to start/stop a template recording: -615.

Da die Hauptanwendung der Erfindung die Spracherkennung ist, ist sie mit Bezug auf diese Anwendung beschrieben worden. Jedoch ist, wie einem Fachmann bewußt sein wird, die Erfindung nicht nur auf Spracherkennung anwendbar, sondern ist auf praktisch jede Situation anwendbar, wo Sprachsignale zur Merkmalsentnahme verarbeitet werden.Since the main application of the invention is speech recognition, it has been described with reference to this application. However, as will be appreciated by one skilled in the art, the invention is not only applicable to speech recognition, but is applicable to virtually any situation where speech signals are processed for feature extraction.

Der Sprachprozessor gemäß der vorliegenden Erfindung ist besonders geeignet zur Verwendung in Anwendungen, wo Hintergrundrauschen und Variationen im Pegel dieses Hintergrundrauschens ein Problem für bekannte Sprachprozessoren ist. Eine solche Anwendung ist beim freihändigen Telefonieren und insbesondere freihändiges Telefonieren, bei dem zellulare Funkendgeräte involviert sind. Solche Endgeräte werden häufig in Kraftfahrzeugen verwendet, wo es zweckmäßig ist, eine Spracherkennung zu verwenden, um eine freihändige Rufverbindung und freihändiges Wählen zu gewährleisten. Das Problem erwächst jedoch daraus, daß Wind-, Fahrbahn- und Motorgeräusche sich stark ändern und eine genaue Erkennung von Sprache schwierig machen. Wenn Spracherkennung für freihändiges Telefonieren bei dieser Anwendung voll akzeptabel sein soll, ist es klar notwendig, daß der Erkenner gesprochene Befehle akzeptiert und richtig in Antwort darauf agiert beim Vorhandensein von Hintergrundrauschen, ohne regelmäßig zu erfordern, daß die Befehle wiederholt werden.The speech processor according to the present invention is particularly suitable for use in applications where background noise and variations in the level of this background noise are a problem for known speech processors. One such application is in hands-free telephony, and in particular hands-free telephony involving cellular radio terminals. Such terminals are often used in motor vehicles where it is convenient to use speech recognition to provide hands-free call connection and dialling. The problem arises, however, that wind, road and engine noise vary greatly and make accurate recognition of speech difficult. If speech recognition for hands-free telephony is to be fully acceptable in this application, it is clearly necessary that the recognizer accepts spoken commands and acts correctly in response to them in the presence of background noise, without requiring regular repetition of the commands.

Die verbesserte Genauigkeit der Erfindung, die durch die vorliegende Erfindung gewährleistet wird, ist von besonderem Vorteil bei dieser Anwendung.The improved accuracy of the invention provided by the present invention is of particular advantage in this application.

Claims

1. A speech processor comprising: an input (1) for receiving speech signals; signal processing means (3) for extracting spectral parameters from the speech signals; an analog-to-digital converter (6) for digitizing the extracted parameters; automatic gain control means (8) for controlling the signal level applied to the converter; characterized in that the spectral parameters are stored at least temporarily and that for each such stored parameter there is also stored a gain coefficient indicative of the gain applied to the gain control means; and that at the end of a sampling period the stored gain coefficients in that period, if different, are set equal to the lowest gain coefficient stored in that period, the magnitudes of the corresponding stored spectral parameters being adjusted proportionally.

2. Speech processor according to claim 1, wherein each extracted spectral parameter corresponds to the energy content of a particular frequency band in a time slot of length t, further characterized in that for each extracted parameter the signal level applied to the analog-to-digital converter is determined in a small fraction of time t, and if the signal level is greater than a predetermined level, the Gain is reduced and the signal level is measured again, wherein the signal strength measurement and gain reduction are repeated within the time slot t until the signal level is at a final level that does not exceed the predetermined level.

3. Speech processor according to claim 2, wherein the predetermined level is equal to the maximum level that does not exceed the dynamic range of the analog-to-digital converter.

4. Speech processor according to claim 2 or 3, wherein in a single time slot of length t the spectral parameters for a plurality of discrete frequency bands are determined, further characterized in that the different frequency bands are addressed sequentially, the final gain coefficient of each frequency band being used as the initial gain coefficient of the next addressed frequency band.

5. Speech processor according to one of claims 2 to 4, wherein the sampling period is composed of a plurality of time slots of length t.

6. Speech processor according to one of the preceding claims, wherein it is configured as a speech recognizer.

7. Speech processor according to one of the preceding claims, wherein the gain control device comprises a digitally switched attenuator under the control of a microprocessor, one of whose inputs is connected to the digital output of the analog-to-digital converter, whereby the gain of the attenuator is determined by the microprocessor.

8. A cellular radio terminal having a speech recognizer for selecting functions in response to spoken instructions, characterized in that the speech recognizer comprises a speech processor according to one of claims 1 to 5.

9. A method for processing speech, comprising:

filtering an input speech signal into a plurality of spectral components over a sampling period;

sequentially amplifying the plurality of spectral components by appropriate signal amplification factors;

converting the amplified plurality of spectral components into digital signals representing the spectral components;

Measuring and storing signals representing (a) spectral components of the input speech signal and (b) the corresponding signal gain factors; and

Adjusting the value of the stored spectral components associated with at least an initial portion of the speech signal to be based on the smallest signal gain factor used in the sampling period to amplify subsequent spectral components of the speech signal within the sampling period.

10. A method for processing speech, comprising:

Receiving input speech signals and providing spectral parameter digital data measured therefrom including an automatic gain adjustment that controls the level of the measured speech signal components, but which may inherently provide excessive signal gain after the initial part of a speech signal, which gain is thereafter automatically adjusted to lower levels during the continuation of the speech signal;

and storing and subsequently reducing excessive signal gain factors associated with the speech signal components during at least the initial portion of a speech signal to produce an optimized effective signal gain over the entire speech signal, the optimized gain of which is based on the smallest signal gain used during the continuation of the speech signal.