DE3750314T2 - Speech processor. - Google Patents

Speech processor.

Info

Publication number
DE3750314T2
DE3750314T2 DE3750314T DE3750314T DE3750314T2 DE 3750314 T2 DE3750314 T2 DE 3750314T2 DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T2 DE3750314 T2 DE 3750314T2
Authority
DE
Germany
Prior art keywords
speech
gain
signal
stored
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE3750314T
Other languages
German (de)
Other versions
DE3750314D1 (en
Inventor
Nicholas John Arnold Forse
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
British Telecommunications PLC
Original Assignee
British Telecommunications PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecommunications PLC filed Critical British Telecommunications PLC
Publication of DE3750314D1 publication Critical patent/DE3750314D1/en
Application granted granted Critical
Publication of DE3750314T2 publication Critical patent/DE3750314T2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/38Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
    • H04B1/40Circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Circuits Of Receivers In General (AREA)
  • Facsimiles In General (AREA)
  • Telephonic Communication Services (AREA)
  • Analogue/Digital Conversion (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Multi-Process Working Machines And Systems (AREA)
  • Sewing Machines And Sewing (AREA)
  • Machine Translation (AREA)
  • Display Devices Of Pinball Game Machines (AREA)
  • Telephone Function (AREA)

Abstract

In a speech processor such as a speech recogniser, the problem of detecting the beginning and end of speech or a word accurately, to enable the creation of a speech or a word template which consistently matches stored speech or word templates is solved by characterising background noise and forming a background noise template, setting a speech threshold above which speech is detected and stored, and subtracting the background noise template from the stored speech to form a speech template. <IMAGE>

Description

Diese Erfindung bezieht sich auf Sprachprozessoren mit automatischer Verstärkungsfaktorsteuerung und insbesondere auf Spracherkenner.This invention relates to speech processors with automatic gain control and, in particular, to speech recognizers.

Automatische Spracherkenner arbeiten, indem sie Merkmale vergleichen, die hörbaren Sprachsignalen entnommen sind. Merkmale, die der zu erkennenden Sprache entnommen sind, werden mit gespeicherten Merkmalen verglichen, die von einer bekannten Sprachäußerung entnommen sind.Automatic speech recognizers work by comparing features taken from audible speech signals. Features taken from the speech to be recognized are compared with stored features taken from a known speech utterance.

Zur genauen Erkennung ist es wichtig, daß die Merkmale, die dem gleichen Wort oder Laut, das oder der dann zu unterschiedlichen Zeiten gesprochen wird, entnommen sind, genügend ähnlich sind. Jedoch macht es der große Dynamikbereich von Sprache schwierig, dies zu erreichen, insbesondere in Bereichen, wie dem freihändigen Telefonieren, wo der durch das Mikrofon empfangene Tonpegel über einen weiten Bereich variieren kann. Um diese Sprachpegel-Variation zu kompensieren, verwenden die meisten Spracherkenner eine Form einer automatischen Verstärkungsfaktorsteuerung (AGC).For accurate recognition, it is important that the features extracted from the same word or sound spoken at different times are sufficiently similar. However, the wide dynamic range of speech makes this difficult to achieve, particularly in areas such as hands-free telephony where the sound level received by the microphone can vary over a wide range. To compensate for this speech level variation, most speech recognizers use some form of automatic gain control (AGC).

Die AGC-Schaltung steuert den Verstärkungsfaktor, um zu versichern, daß der durchschnittliche Signalpegel, der von dem Merkmals-Extrahierer verwendet wird, so nahe wie möglich über eine gegebene Zeitperiode konstant ist. Somit wird leisen Sprachäußerungen ein größerer Verstärkungsfaktor verliehen als lauten Äußerungen. Diese Form eines AGC läuft gut, wenn das Eingabesignal kontinuierliche Sprache ist, da nach einer Zeitperiode der Schaltungsverstärkungsfaktor den Signalpegel optimieren wird, um eine konsistente Merkmalsextrahierung zu ergeben. Bei Nichtvorhandensein von Sprache wird der Verstärkungsfaktor der AGC-Schaltung jedoch auf einen Pegel ansteigen, der durch das Hintergrundrauschen bestimmt ist, so daß beim Einsetzen einer Sprachäußerung der Verstärkungsfaktor der AGC-Schaltung zu hoch eingestellt sein wird. Während der Äußerung wird der Verstärkungsfaktor der Schaltung automatisch reduziert, wobei die Geschwindigkeit der Verstärkungsfaktoränderung durch die "Angriffs"-Zeit der AGC bestimmt ist. Der Beginn einer Äußerung ist somit einem viel größeren Verstärkungsfaktor unterworfen, und jegliche entnommenen Merkmale werden einen viel größeren Energiegehalt haben als ähnliche Merkmale, die später entnommen werden, wenn der Verstärkungsfaktor reduziert worden ist.The AGC circuit controls the gain to ensure that the average signal level used by the feature extractor is as close to constant as possible over a given period of time. Thus, soft speech utterances are given a larger gain than loud utterances. This form of AGC works well when the input signal is continuous speech, since after a period of time the circuit gain will optimize the signal level to give consistent feature extraction. In the absence of speech, however, the gain of the AGC circuit will rise to a level determined by the background noise, so that at the onset of a speech utterance the gain of the AGC circuit will be set too high. During the utterance the circuit gain is automatically reduced, the rate of gain change being determined by the "attack" time of the AGC. The onset of an utterance is thus subject to a much larger gain, and any extracted features will have a much greater energy content than similar features extracted later when the gain has been reduced.

Dieser Verzerrungseffekt ist abhängig von dem Eingangssignalpegel; je größer der Sprachpegel ist, umso größer ist die Verzerrung. Somit werden die ersten wenigen entnommenen Merkmale nicht den in fiktiver Weise ähnlich gespeicherten Merkmalen entsprechen, und dies kann oft zu einer schwachen Erkennungsfähigkeit führen.This distortion effect depends on the input signal level; the higher the speech level, the greater the distortion. Thus, the first few features extracted will not correspond to the fictitiously similarly stored features, and this can often lead to a weak recognition ability.

Es ist ein Ziel der vorliegenden Erfindung, eine Lösung zu diesem Problem anzugeben.It is an object of the present invention to provide a solution to this problem.

Gemäß der vorliegenden Erfindung wird ein Sprachprozessor bereitgestellt, der aufweist: einen Eingang, um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung, um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler, um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung, um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegten Verstärkungsfaktor anzeigend ist; und daß am Ende einer Abtastperiode die Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.According to the present invention there is provided a speech processor comprising: an input for receiving speech signals; signal processing means for extracting spectral parameters from the speech signals; an analog-to-digital converter for digitizing the extracted parameters; automatic gain control means for controlling the signal level applied to the converter; characterized in that the spectral parameters are at least temporarily and that for each such stored parameter there is also stored a gain coefficient indicative of the gain factor applied to the gain control means; and that at the end of a sampling period the gain coefficients in that period, if different, are set equal to the lowest gain coefficient stored in that period, the magnitudes of the corresponding stored spectral parameters being adjusted proportionally.

In einem Sprachprozessor gemäß der Erfindung, der als ein Spracherkenner konfiguriert ist, wird eine automatische Verstärkungsfaktorsteuerung durch eine digital geschaltete Dämpfungseinheit bereitgestellt, deren Verstärkungsfaktor durch den Mikroprozessor bestimmt wird, der die Spracherkennung ausführt. Der Mikroprozessor steuert den Verstärkungsfaktor; um zu versichern, daß der Dynamikbereich des Analog-Digital- Wandlers (was zwischen Merkmalsextrahierung und dem Mikroprozessor auftritt, der den Erkenner steuert, selbst wenn analoge AGCs verwendet werden) nicht überschritten wird (außer während der Anpassung des AGC). Der prinzipielle Unterschied zwischen den bekannten analogen AGCs und dem System gemäß der Erfindung liegt darin, daß im letzteren der Mikroprozessor eine Steuerung der Verstärkungsfaktoreinstellung ausübt und daher den verwendeten Verstärkungsfaktor für jedes entnommene Merkmal speichern kann. Nachdem die Äußerung beendet ist, kann der Mikroprozessor die optimale Verstärkungsfaktoreinstellung für die vollständige Äußerung bestimmen. Alle gespeicherten Merkmale werden dann auf diese optimale Verstärkungsfaktoreinstellung normalisiert. Damit wird ein konsistenter Satz von Merkmalen unabhängig vom Eingangssignal-Verstärkungsfaktor entnommen.In a speech processor according to the invention configured as a speech recognizer, automatic gain control is provided by a digitally switched attenuator unit, the gain of which is determined by the microprocessor performing the speech recognition. The microprocessor controls the gain to ensure that the dynamic range of the analog-to-digital converter (which occurs between feature extraction and the microprocessor controlling the recognizer, even when analog AGCs are used) is not exceeded (except during adjustment of the AGC). The principal difference between the known analog AGCs and the system according to the invention is that in the latter the microprocessor exercises control of the gain setting and can therefore store the gain used for each extracted feature. After the utterance is finished, the microprocessor can determine the optimal gain setting for the complete utterance. All stored features are then normalized to this optimal gain setting. This extracts a consistent set of features regardless of the input signal gain.

Ausführungsbeispiele der Erfindung werden weiter beschrieben und mit Bezug auf die begleitende Zeichnung erklärt werden, in der:Embodiments of the invention will be further described and explained with reference to the accompanying drawings, in which:

Fig. 1 ein schematisches Diagramm eines Spracherkenners gemäß der vorliegenden Erfindung ist.Fig. 1 is a schematic diagram of a speech recognizer according to the present invention.

In dieser Patentanmeldung ist die Erfindung mit Bezugnahme auf einen Spracherkenner beschrieben, der das Abgleichen von Schablonen verwendet; wie jedoch dem Fachmann bewußt ist, ist die Erfindung gleichermaßen anwendbar auf jeden der herkömmlichen Typen von Spracherkennern, einschließlich jenen, die ein stochastisches Modellieren, Markov- Ketten, dynamisches Zeitverziehen und Phonem-Erkennung verwenden.In this patent application, the invention is described with reference to a speech recognizer that uses template matching; however, as will be appreciated by those skilled in the art, the invention is equally applicable to any of the conventional types of speech recognizers, including those that use stochastic modeling, Markov chains, dynamic time warping, and phoneme recognition.

Spracherkennung basiert auf dem Vergleichen von Energiekonturen von einer Anzahl (allgemein 8 bis 16) von Filterkanälen. Während Sprache vorhanden ist, wird das Energiespektrum von jedem Filterkanal mit einem Analog-Digital-Wandler (A-D) digitalisiert, um eine Schablone zu erzeugen, die in einem Speicher gespeichert ist.Speech recognition is based on comparing energy contours from a number (generally 8 to 16) of filter channels. While speech is present, the energy spectrum from each filter channel is digitized using an analog-to-digital (A-D) converter to produce a template that is stored in memory.

Die anfängliche Phase der Erkennung ist als "Training" bekannt und besteht aus dem Erzeugen der Referenz-Schablonen, indem die Worte auf den Erkenner gesprochen werden, die erkannt werden sollen. Sobald Referenz-Schablonen für die zu erkennenden Worte hergestellt worden sind, kann eine Spracherkennung versucht werden.The initial phase of recognition is known as "training" and consists of creating reference templates by speaking the words to be recognized to the recognizer. Once reference templates for the words to be recognized have been created, speech recognition can be attempted.

Wenn der Erkenner einer Äußerung ausgesetzt wird, erzeugt er eine Test-Schablone, die mit den Referenz-Schablonen in dem Speicher verglichen werden können, um die nächstliegende Übereinstimmung zu finden.When the recognizer is exposed to an utterance, it generates a test template that can be compared with the reference templates in memory to find the closest match.

Die fundamentalen Elemente des Spracherkenners gemäß der vorliegenden Erfindung sind in Fig. 1 gezeigt. Sprachsignale, die durch das Mikrofon 1 empfangen und durch einen Verstärker 2 verstärkt sind, werden zu einer Filterbank 3a geführt. In der Filterbank werden die Sprachsignale in eine Vielzahl (in diesem Fall 16) von Frequenzbändern gefiltert, und die Signale werden durch einen Gleichrichter 4 gleichgerichtet. Die gefilterten und gleichgerichteten Signale werden durch einen Tiefpaßfilter 3b geglättet und dann sequentiell durch einen Multiplexer 5 abgetastet, der das resultierende Einkanalsignal an die DAGC-Schaltung 8 speist, die ihrerseits einen Analog-Digital-Wandler 6 speist, von dem der digitalisierte Signalstrom zu dem steuernden Mikroprozessor 7 geführt wird.The fundamental elements of the speech recognizer according to the present invention are shown in Fig. 1. Speech signals received by the microphone 1 and amplified by an amplifier 2 are fed to a filter bank 3a. In the filter bank the speech signals are filtered into a plurality (in this case 16) of frequency bands and the signals are rectified by a rectifier 4. The filtered and rectified signals are smoothed by a low-pass filter 3b and then sampled sequentially by a multiplexer 5 which feeds the resulting single-channel signal to the DAGC circuit 8 which in turn feeds an analog-to-digital converter 6 from which the digitized signal stream is fed to the controlling microprocessor 7.

Der Multiplexer adressiert jeden Filterkanal für 20 Mikrosekunden, bevor der Nächste adressiert wird. Am Ende jedes 10 Millisekunden Zeitschlitzes wird die abgetastete Energie jedes Kanals für diese Periode gespeichert. Die Schablonen, die während des Trainings oder der Erkennung erzeugt werden, bestehen aus bis zu 100 Zeitschlitz-Abtastungen für jeden Filterkanal.The multiplexer addresses each filter channel for 20 microseconds before addressing the next one. At the end of each 10 millisecond time slot, the sampled energy of each channel is stored for that period. The templates generated during training or detection consist of up to 100 time slot samples for each filter channel.

Die digitale AGC arbeitet auf die folgende Weise. Jedesmal, wenn der Multiplexer einen Filterkanal adressiert, beurteilt der Mikroprozessor den Energiepegel des Kanals, um zu bestimmen, ob der A-D-Wandler überlastet worden ist und daher der Verstärkungsfaktor zu hoch ist. Wenn der Mikroprozessor bestimmt, daß der Verstärkungsfaktor zu hoch ist, dekrementiert er den Verstärkungsfaktor der AGC um einen Schritt, was einer Reduzierung im Verstärkungsfaktor von 1,5 dB entspricht, und betrachtet erneut den Energiepegel des Kanals. Der Multiplexer schreitet nicht zyklisch zu dem nächsten Kanal fort, bis der Mikroprozessor bestimmt hat, daß der Verstärkungsfaktor in ausreichender Weise reduziert worden ist, um ein Überlasten des A-D-Wandlers zu verhindern. Wenn der Multiplexer zyklisch zu dem nächsten Filterkanal fortschreitet, wird der Verstärkungsfaktor der AGC-Schaltung an dem neuen niedrigen Pegel gehalten, außer wenn dieser Pegel zu einem Überlasten des A-D-Wandlers mit dem Energiepegel des neuen Kanals führt, in welchem Fall der Verstärkungsfaktor nach unten inkrementiert wird, wie vorher beschrieben. Wenn der Multiplexer den letzten Filterkanal adressiert hat, normalisiert der Mikroprozessor die Energiepegel aller Kanäle, indem ihre Verstärkungskoeffizienten (die zusammen mit der Energiepegelinformation in dem Speicher 9 gespeichert worden ist, welcher zu dem Mikroprozessor gehört) auf das durch den Mikroprozessor festgelegte Minimum eingestellt werden. Auf diese Weise wird ein konsistenter Satz von Merkmalen unabhängig von dem anfänglichen Eingangssignalverstärkungsfaktor und irgendwelchen Änderungen im Verstärkungsfaktor während der Bildung der Schablone entnommen.The digital AGC works in the following way. Each time the multiplexer addresses a filter channel, the microprocessor evaluates the channel's power level to determine if the ADC has been overloaded and therefore the gain is too high. If the microprocessor determines that the gain is too high, it decrements the AGC's gain by one step, which corresponds to a 1.5 dB reduction in gain, and looks at the channel's power level again. The multiplexer does not cycle to the next channel until the microprocessor has determined that the gain has been reduced sufficiently. to prevent overloading of the AD converter. As the multiplexer cycles to the next filter channel, the gain of the AGC circuit is maintained at the new low level, unless that level results in overloading the AD converter with the energy level of the new channel, in which case the gain is incremented downwards as previously described. When the multiplexer has addressed the last filter channel, the microprocessor normalizes the energy levels of all channels by setting their gain coefficients (which have been stored together with the energy level information in the memory 9 associated with the microprocessor) to the minimum set by the microprocessor. In this way, a consistent set of features is extracted regardless of the initial input signal gain and any changes in the gain during formation of the template.

Es ist auch eine Anforderung an den Spracherkenner, den Anfang und das Ende der Sprache oder des Worts mit einem hohen Maß an Genauigkeit zu erfassen. Der Spracherkenner gemäß der vorliegenden Erfindung verwendet die folgende Technik:It is also a requirement for the speech recognizer to detect the beginning and end of the speech or word with a high degree of accuracy. The speech recognizer according to the present invention uses the following technique:

A. Der Energiepegel des Hintergrundrauschens wird gemessen und für 32 Zeitschlitze (bei 10 Millisekunden für eine Abtastung) gespeichert, während gleichzeitig die Verstärkungsfaktoren der AGC-Schaltung wie oben beschrieben eingestellt (reduziert) werden, um mit der maximalen Rauschenergie umzugehen.A. The background noise energy level is measured and stored for 32 time slots (at 10 milliseconds for one sample) while simultaneously adjusting (reducing) the AGC circuit gains as described above to deal with the maximum noise energy.

B. Die Abtastung maximaler Energie wird gefunden, indem alle die Filterwerte für jeden Zeitschlitz addiert werden, durch 16 (die Anzahl von Filterkanälen) dividiert werden, und mit einem Verstärkungsfaktor entsprechend dem Verstärkungsfaktor der DAGC-Schaltung multipliziert werden, und indem dann jeder Zeitschlitz verglichen wird, um das Maximum zu finden.B. The maximum energy sample is found by adding all the filter values for each time slot, dividing by 16 (the number of filter channels), and multiplying by a gain factor according to the gain factor of the DAGC circuit and then comparing each time slot to find the maximum.

C. Die Schwelle, die überschritten werden muß, bevor angenommen wird, daß Sprache vorhanden ist, ist eingestellt, um gleich 1,5mal die maximale Rauschenergie, die in Schritt B bestimmt ist, zu sein.C. The threshold that must be exceeded before it is assumed that speech is present is set to be equal to 1.5 times the maximum noise energy determined in step B.

D. Die durchschnittliche Rauschenergie für jeden Filterkanal wird gefunden und gespeichert (für jeden Kanal ist es die Summe der Energien über alle 32 Zeitschlitze, dividiert durch 32), um eine Rauschschablone festzulegen.D. The average noise energy for each filter channel is found and stored (for each channel it is the sum of the energies over all 32 time slots divided by 32) to establish a noise template.

E. Danach wird die Filterbank alle 10 Millisekunden abgefahren, und die Daten werden in einem temporären Umlaufspeicher aus 100 Zeitabtastungen gespeichert, bis die durchschnittliche Filterenergie die in C berechnete Rausch/Sprach-Schwelle überschreitet.E. The filter bank is then scanned every 10 milliseconds, and the data is stored in a temporary circular buffer of 100 time samples until the average filter energy exceeds the noise/speech threshold calculated in C.

F. Wenn die Rausch/Sprach-Schwelle nach 32 Abtastungen nicht überschritten ist, wird eine Prüfung durchgeführt, um zu versichern, daß der Verstärkungsfaktor der DAGC-Schaltung nicht zu niedrig eingestellt ist. Dies wird gemacht, indem der maximale Filterkanalwert betrachtet wird, der in diesen 32 Zeitschlitzen gespeichert ist. Wenn dieser Maximalpegel um 1,5 dB oder mehr unter dem maximal akzeptierbaren Eingangspegel für den A-D-Wandler ist, wird der Verstärkungsfaktor der AGC um 1 inkrementiert, um den Verstärkungsfaktor um 1,5 dB zu erhöhen.F. If the noise/speech threshold is not exceeded after 32 samples, a check is made to ensure that the gain of the DAGC circuit is not set too low. This is done by looking at the maximum filter channel value stored in these 32 time slots. If this maximum level is 1.5 dB or more below the maximum acceptable input level for the A-D converter, the AGC gain is incremented by 1 to increase the gain by 1.5 dB.

Wenn die Schwelle nach 32 Abtastungen nicht überschritten ist und die DAGC-Einstellung richtig ist, dann wird die Rausch/Sprach-Schwelle erneut berechnet, indem die Maximalenergie über die letzten 32 Abtastungen (wie in B) gefunden wird und mit 1,5 (wie in C) multipliziert wird.If the threshold is not exceeded after 32 samples and the DAGC setting is correct, then the noise/speech threshold is recalculated by finding the maximum energy over the last 32 samples (as in B) and multiplying it by 1.5 (as in C).

G. Sobald die Rausch/Sprach-Schwelle überschritten worden ist, wird die Filterbank alle 10 Millisekunden abgefahren, und die Filterdaten werden in dem Speicher gespeichert, um die Sprachschablonen zu bilden, bis entweder 100 Abtastungen eingetragen worden sind oder bis der Energiepegel unterhalb die Rausch/ Sprach-Schwelle für 20 aufeinanderfolgende Abtastungen fällt. Wie oben beschrieben, wird, wenn während der Dateneingabe der A-D-Wandler überlastet wird, die AGC-Einstellung um 1 dekrementiert, und die Daten für diesen Filterkanal werden erneut verarbeitet. Wenn während des Abfahrens der 16 Filterkanäle der Verstärkungsfaktor der DAGC-Schaltung reduziert wird, werden die Daten von allen 16 Kanälen erneut eingegeben, so daß alle Filterdaten der gleichen AGC-Einstellung entsprechen. Der verwendete AGC-Wert wird in dem Speicher zusammen mit den Filterdaten aufgezeichnet. Die verwendete AGC-Einstellung am Anfang jedes Zeitschlitzes wird von dem vorherigen Zeitrahmen genommen, wodurch der Verstärkungsfaktor während der Sprachverarbeitungsphase nur reduziert werden kann (nicht erhöht). Dies stellt kein Problem dar, da am Ende der Schablonenperiode alle Schablonendaten auf eine einheitliche AGC-Einstellung normalisiert werden.G. Once the noise/speech threshold has been exceeded, the filter bank is cycled every 10 milliseconds and the filter data is stored in memory to form the speech templates until either 100 samples have been entered or until the energy level falls below the noise/speech threshold for 20 consecutive samples. As described above, if during data entry the ADC is overloaded, the AGC setting is decremented by 1 and the data for that filter channel is reprocessed. If during the 16 filter channels the gain of the DAGC circuit is reduced, the data from all 16 channels is reentered so that all filter data corresponds to the same AGC setting. The AGC value used is recorded in memory along with the filter data. The AGC setting used at the beginning of each time slot is taken from the previous time frame, which allows the gain to only be reduced (not increased) during the speech processing phase. This is not a problem because at the end of the template period all template data is normalized to a uniform AGC setting.

H. Um zu versichern, daß der Anfang von Sprache nicht durch die Sprach/Rausch-Detektor-Schwelle verfehlt wird, werden die 15 Zeitabtastungen vor der Spracherfassung von dem temporären Umlaufspeicher an den Anfang der "Sprach"-Schablone transferriert.H. To ensure that the onset of speech is not missed by the speech/noise detector threshold, the 15 time samples prior to speech detection are taken from the temporary Recirculating memory transferred to the beginning of the "Speech" template.

I. Wenn mehr als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die Rauschschablone durch Analysieren (wie in D) der ältesten 32 Zeitrahmen in dem temporären Umlaufspeicher erneut berechnet. Wenn weniger als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die in Schritt D festgelegte Rauschschablone in den folgenden Schritten verwendet.I. If more than 100 samples have been processed before speech is detected, the noise template is recalculated by analyzing (as in D) the oldest 32 time frames in the temporary wraparound memory. If less than 100 samples have been processed before speech is detected, the noise template determined in step D is used in the following steps.

J. Die minimale Verstärkungsfaktoreinstellung der AGC über der Sprachschablone wird dann gefunden und sowohl die Sprach- als auch die Rauschschablone werden auf diese Einstellung normalisiert, was dazu führt, daß beide Schablonen die Werte enthalten, die eingetragen worden wären, wäre dieser Verstärkungsfaktor von Anfang an verwendet worden.J. The minimum AGC gain setting over the speech template is then found and both the speech and noise templates are normalized to this setting, resulting in both templates containing the values that would have been entered had this gain been used from the start.

K. Die normalisierte Rauschschablone wird dann von jedem Zeitrahmen der normalisierten Sprachschablone subtrahiert.K. The normalized noise template is then subtracted from each time frame of the normalized speech template.

L. Die maximale Energie in der normalisierten Sprachschablone wird nun gefunden, und eine neue Rausch/Sprach-Schwelle wird berechnet - gleich der maximalen Energie minus 18 dB. Diese neue Schwelle wird verwendet, um die normalisierte Sprachschablone abzufahren, um den Anfangs- und den Endpunkt der Sprache zu bestimmen.L. The maximum energy in the normalized speech template is now found and a new noise/speech threshold is calculated equal to the maximum energy minus 18 dB. This new threshold is used to sweep the normalized speech template to determine the start and end points of the speech.

M. Die Sprachschablone wird dann am Anfangs- und am Endpunkt gestutzt und wird entweder in dem Speicher (Training) gespeichert oder zur Erkennung verwendet. Das folgende tabellenartige Beispiel stellt die Werte dar, die nach dem Messen des Hintergrundrauschens für 320 Millisekunden (32 Zeitschlitze von jeweils 10 Millisekunden) gespeichert werden. Filterbanknummer echte durchschnittliche Energie Durchschnittliche RauschschabloneM. The speech template is then trimmed at the start and end points and is stored either in the memory (training) or used for detection. The following table example shows the values stored after measuring the background noise for 320 milliseconds (32 time slots of 10 milliseconds each). Filter bank number real average Energy Average Noise Template

Ein DAGC-Wert von 4 ist äquivalent einer 6 dB-Dämpfung des Signals, das in den A-D läuft, und somit müßten, um die "echte" Energie zu berechnen, alle die obigen Filterbankwerte verdoppelt werden.A DAGC value of 4 is equivalent to a 6 dB attenuation of the signal going into the A-D, and thus to calculate the "real" energy, all of the above filter bank values would have to be doubled.

Die maximale echte Energie (die gemittelt über alle Filter) war: -410.The maximum true energy (averaged over all filters) was: -410.

Schwelle, die zum Starten/Beenden einer Schablonenaufzeichnung zu überschreiten ist: -615.Threshold to be exceeded to start/stop a template recording: -615.

Da die Hauptanwendung der Erfindung die Spracherkennung ist, ist sie mit Bezug auf diese Anwendung beschrieben worden. Jedoch ist, wie einem Fachmann bewußt sein wird, die Erfindung nicht nur auf Spracherkennung anwendbar, sondern ist auf praktisch jede Situation anwendbar, wo Sprachsignale zur Merkmalsentnahme verarbeitet werden.Since the main application of the invention is speech recognition, it has been described with reference to this application. However, as will be appreciated by one skilled in the art, the invention is not only applicable to speech recognition, but is applicable to virtually any situation where speech signals are processed for feature extraction.

Der Sprachprozessor gemäß der vorliegenden Erfindung ist besonders geeignet zur Verwendung in Anwendungen, wo Hintergrundrauschen und Variationen im Pegel dieses Hintergrundrauschens ein Problem für bekannte Sprachprozessoren ist. Eine solche Anwendung ist beim freihändigen Telefonieren und insbesondere freihändiges Telefonieren, bei dem zellulare Funkendgeräte involviert sind. Solche Endgeräte werden häufig in Kraftfahrzeugen verwendet, wo es zweckmäßig ist, eine Spracherkennung zu verwenden, um eine freihändige Rufverbindung und freihändiges Wählen zu gewährleisten. Das Problem erwächst jedoch daraus, daß Wind-, Fahrbahn- und Motorgeräusche sich stark ändern und eine genaue Erkennung von Sprache schwierig machen. Wenn Spracherkennung für freihändiges Telefonieren bei dieser Anwendung voll akzeptabel sein soll, ist es klar notwendig, daß der Erkenner gesprochene Befehle akzeptiert und richtig in Antwort darauf agiert beim Vorhandensein von Hintergrundrauschen, ohne regelmäßig zu erfordern, daß die Befehle wiederholt werden.The speech processor according to the present invention is particularly suitable for use in applications where background noise and variations in the level of this background noise are a problem for known speech processors. One such application is in hands-free telephony, and in particular hands-free telephony involving cellular radio terminals. Such terminals are often used in motor vehicles where it is convenient to use speech recognition to provide hands-free call connection and dialling. The problem arises, however, that wind, road and engine noise vary greatly and make accurate recognition of speech difficult. If speech recognition for hands-free telephony is to be fully acceptable in this application, it is clearly necessary that the recognizer accepts spoken commands and acts correctly in response to them in the presence of background noise, without requiring regular repetition of the commands.

Die verbesserte Genauigkeit der Erfindung, die durch die vorliegende Erfindung gewährleistet wird, ist von besonderem Vorteil bei dieser Anwendung.The improved accuracy of the invention provided by the present invention is of particular advantage in this application.

Claims (10)

1. Sprachprozessor, der aufweist: einen Eingang (1), um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung (3), um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler (6), um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung (8), um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegte Verstärkung anzeigend ist; und daß am Ende einer Abtastperiode die gespeicherten Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.1. A speech processor comprising: an input (1) for receiving speech signals; signal processing means (3) for extracting spectral parameters from the speech signals; an analog-to-digital converter (6) for digitizing the extracted parameters; automatic gain control means (8) for controlling the signal level applied to the converter; characterized in that the spectral parameters are stored at least temporarily and that for each such stored parameter there is also stored a gain coefficient indicative of the gain applied to the gain control means; and that at the end of a sampling period the stored gain coefficients in that period, if different, are set equal to the lowest gain coefficient stored in that period, the magnitudes of the corresponding stored spectral parameters being adjusted proportionally. 2. Sprachprozessor nach Anspruch 1, bei dem jeder entnommene Spektralparameter dem Energiegehalt eines bestimmten Frequenzbandes in einem Zeitschlitz der Länge t entspricht, weiterhin dadurch gekennzeichnet, daß für jeden entnommenen Parameter der an den Analog-Digital-Wandler angelegte Signalpegel in einem kleinen Bruchteil der Zeit t bestimmt wird, und wenn der Signalpegel größer als ein vorbestimmter Pegel ist, wird die Verstärkung reduziert und der Signalpegel erneut bemessen, wobei die Signalstärkebemessung und die Verstärkungsreduzierung innerhalb des Zeitschlitzes t wiederholt werden, bis der Signalpegel an einem Endpegel ist, der den vorbestimmten Pegel nicht überschreitet.2. Speech processor according to claim 1, wherein each extracted spectral parameter corresponds to the energy content of a particular frequency band in a time slot of length t, further characterized in that for each extracted parameter the signal level applied to the analog-to-digital converter is determined in a small fraction of time t, and if the signal level is greater than a predetermined level, the Gain is reduced and the signal level is measured again, wherein the signal strength measurement and gain reduction are repeated within the time slot t until the signal level is at a final level that does not exceed the predetermined level. 3. Sprachprozessor nach Anspruch 2, wobei der vorbestimmte Pegel gleich dem Maximalpegel ist, der nicht den Dynamikbereich des Analog-Digital-Wandlers überschreitet.3. Speech processor according to claim 2, wherein the predetermined level is equal to the maximum level that does not exceed the dynamic range of the analog-to-digital converter. 4. Sprachprozessor nach Anspruch 2 oder 3, wobei in einem einzelnen Zeitschlitz der Länge t die spektralen Parameter für eine Vielzahl von diskreten Frequenzbändern festgelegt werden, weiterhin dadurch gekennzeichnet, daß die unterschiedlichen Frequenzbänder sequentiell adressiert werden, wobei der Endverstärkungskoeffizient jedes Frequenzbandes als der anfängliche Verstärkungskoeffizient des nächsten adressierten Frequenzbandes verwendet wird.4. Speech processor according to claim 2 or 3, wherein in a single time slot of length t the spectral parameters for a plurality of discrete frequency bands are determined, further characterized in that the different frequency bands are addressed sequentially, the final gain coefficient of each frequency band being used as the initial gain coefficient of the next addressed frequency band. 5. Sprachprozessor nach einem der Ansprüche 2 bis 4, wobei die Abtastperiode sich aus einer Vielzahl von Zeitschlitzen der Länge t zusammensetzt.5. Speech processor according to one of claims 2 to 4, wherein the sampling period is composed of a plurality of time slots of length t. 6. Sprachprozessor nach einem der vorhergehenden Ansprüche, wobei dieser als Spracherkenner konfiguriert ist.6. Speech processor according to one of the preceding claims, wherein it is configured as a speech recognizer. 7. Sprachprozessor nach einem der vorhergehenden Ansprüche, wobei die Verstärkungssteuerungseinrichtung ein digital geschaltetes Dämpfungsglied unter der Steuerung eines Mikroprozessors aufweist, wobei einer dessen Eingänge mit dem Digitalausgang des Analog-Digital-Wandlers verbunden ist, wobei die Verstärkung des Dämpfungsglieds durch den Mikroprozessor bestimmt wird.7. Speech processor according to one of the preceding claims, wherein the gain control device comprises a digitally switched attenuator under the control of a microprocessor, one of whose inputs is connected to the digital output of the analog-to-digital converter, whereby the gain of the attenuator is determined by the microprocessor. 8. Zellulares Funk-Endgerät, das einen Spracherkenner zum Wählen von Funktionen in Antwort auf gesprochene Anweisungen aufweist, dadurch gekennzeichnet, daß der Spracherkenner einen Sprachprozessor nach einem der Ansprüche 1 bis 5 aufweist.8. A cellular radio terminal having a speech recognizer for selecting functions in response to spoken instructions, characterized in that the speech recognizer comprises a speech processor according to one of claims 1 to 5. 9. Verfahren zum Verarbeiten von Sprache, das aufweist:9. A method for processing speech, comprising: Filtern eines Eingabesprachsignals in eine Vielzahl von Spektralkomponenten über eine Abtastperiode;filtering an input speech signal into a plurality of spectral components over a sampling period; sequentielles Verstärken der Vielzahl von Spektralkomponenten durch entsprechende Signalverstärkungsfaktoren;sequentially amplifying the plurality of spectral components by appropriate signal amplification factors; Umwandeln der verstärkten Vielzahl von Spektralkomponenten in Digitalsignale, die die Spektralkomponenten darstellen;converting the amplified plurality of spectral components into digital signals representing the spectral components; Messen und Speichern von Signalen, die (a) Spektralkomponenten des Eingabesprachsignals und (b) die entsprechenden Signalverstärkungsfaktoren darstellen; undMeasuring and storing signals representing (a) spectral components of the input speech signal and (b) the corresponding signal gain factors; and Einstellen des Wertes der gespeicherten Spektralkomponenten, die zumindest zu einem anfänglichen Abschnitt des Sprachsignals gehören, um auf dem kleinsten Signalverstärkungsfaktor, der in der Abtastperiode verwendet wird, zu beruhen, um nachfolgende Spektralkomponenten des Sprachsignals innerhalb der Abtastperiode zu verstärken.Adjusting the value of the stored spectral components associated with at least an initial portion of the speech signal to be based on the smallest signal gain factor used in the sampling period to amplify subsequent spectral components of the speech signal within the sampling period. 10. Verfahren zum Verarbeiten von Sprache, das aufweist:10. A method for processing speech, comprising: Empfangen von Eingabesprachsignalen und Bereitstellen von davon gemessenen Spektralparameter-Digitaldaten einschließlich einer automatischen Verstärkungseinstellung, die den Pegel der gemessenen Sprachsignalkomponenten einstellt, die jedoch nach dem anfänglichen Teil eines Sprachsignals inhärent eine übermäßige Signalverstärkung bereitstellen kann, welche Verstärkung danach automatisch auf geringere Pegel während des Fortlaufs des Sprachsignals eingestellt wird;Receiving input speech signals and providing spectral parameter digital data measured therefrom including an automatic gain adjustment that controls the level of the measured speech signal components, but which may inherently provide excessive signal gain after the initial part of a speech signal, which gain is thereafter automatically adjusted to lower levels during the continuation of the speech signal; und Speichern und nachfolgendes Reduzieren übermäßiger Signalverstärkungsfaktoren, die zu den Sprachsignalkomponenten während zumindest des anfänglichen Teiles eines Sprachsignals gehören, um eine optimierte effektive Signalverstärkung über das gesamte Sprachsignal zu erzeugen, dessen optimierte Verstärkung auf der kleinsten Signalverstärkung beruht, die während des Fortlaufs des Sprachsignals verwendet wird.and storing and subsequently reducing excessive signal gain factors associated with the speech signal components during at least the initial portion of a speech signal to produce an optimized effective signal gain over the entire speech signal, the optimized gain of which is based on the smallest signal gain used during the continuation of the speech signal.
DE3750314T 1986-06-02 1987-05-29 Speech processor. Expired - Fee Related DE3750314T2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB868613327A GB8613327D0 (en) 1986-06-02 1986-06-02 Speech processor

Publications (2)

Publication Number Publication Date
DE3750314D1 DE3750314D1 (en) 1994-09-08
DE3750314T2 true DE3750314T2 (en) 1994-11-17

Family

ID=10598774

Family Applications (2)

Application Number Title Priority Date Filing Date
DE3750314T Expired - Fee Related DE3750314T2 (en) 1986-06-02 1987-05-29 Speech processor.
DE3752288T Expired - Fee Related DE3752288T2 (en) 1986-06-02 1987-05-29 Speech processor

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE3752288T Expired - Fee Related DE3752288T2 (en) 1986-06-02 1987-05-29 Speech processor

Country Status (13)

Country Link
US (1) US4912766A (en)
EP (2) EP0750291B1 (en)
JP (3) JP2561850B2 (en)
KR (1) KR950011963B1 (en)
AT (2) ATE109582T1 (en)
CA (1) CA1310418C (en)
DE (2) DE3750314T2 (en)
DK (1) DK171426B1 (en)
ES (1) ES2056819T3 (en)
FI (1) FI92113C (en)
GB (1) GB8613327D0 (en)
HK (1) HK137096A (en)
WO (1) WO1987007750A1 (en)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK510275A (en) * 1975-11-12 1977-05-13 Struers K S ELECTROLYTICAL POLISHER
JPH02189600A (en) * 1989-01-19 1990-07-25 Sanyo Electric Co Ltd Speech recognition device
US5333155A (en) * 1991-04-25 1994-07-26 Rohde & Schwarz Gmbh & Co. Kg Method and system for transmitting digital audio signals from recording studios to the various master stations of a broadcasting network
US6134521A (en) * 1994-02-17 2000-10-17 Motorola, Inc. Method and apparatus for mitigating audio degradation in a communication system
AU720511B2 (en) * 1995-08-24 2000-06-01 British Telecommunications Public Limited Company Pattern recognition
US5774841A (en) * 1995-09-20 1998-06-30 The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration Real-time reconfigurable adaptive speech recognition command and control apparatus and method
US6012027A (en) * 1997-05-27 2000-01-04 Ameritech Corporation Criteria for usable repetitions of an utterance during speech reference enrollment
US7630895B2 (en) * 2000-01-21 2009-12-08 At&T Intellectual Property I, L.P. Speaker verification method
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US6188986B1 (en) 1998-01-02 2001-02-13 Vos Systems, Inc. Voice activated switch method and apparatus
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
DE19960161C2 (en) * 1998-12-15 2002-03-28 Daimler Chrysler Ag Method for the detection of voice-modulated broadcasts
FI118359B (en) * 1999-01-18 2007-10-15 Nokia Corp Method of speech recognition and speech recognition device and wireless communication
US6519559B1 (en) * 1999-07-29 2003-02-11 Intel Corporation Apparatus and method for the enhancement of signals
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
US6594630B1 (en) * 1999-11-19 2003-07-15 Voice Signal Technologies, Inc. Voice-activated control for electrical device
US7155385B2 (en) 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
KR100841096B1 (en) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 Preprocessing of digital audio data for mobile speech codecs
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
US7885420B2 (en) 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7895036B2 (en) 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7725315B2 (en) 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US8073689B2 (en) 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
AU2003901539A0 (en) * 2003-03-28 2003-05-01 Cochlear Limited Noise floor estimator
US7949520B2 (en) 2004-10-26 2011-05-24 QNX Software Sytems Co. Adaptive filter pitch extraction
US7680652B2 (en) 2004-10-26 2010-03-16 Qnx Software Systems (Wavemakers), Inc. Periodic signal enhancement system
US7716046B2 (en) 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
US8306821B2 (en) 2004-10-26 2012-11-06 Qnx Software Systems Limited Sub-band periodic signal enhancement system
US8543390B2 (en) 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
US8170879B2 (en) 2004-10-26 2012-05-01 Qnx Software Systems Limited Periodic signal enhancement system
US8284947B2 (en) 2004-12-01 2012-10-09 Qnx Software Systems Limited Reverberation estimation and suppression system
US20060146652A1 (en) * 2005-01-03 2006-07-06 Sdi Technologies, Inc. Sunset timer
US8027833B2 (en) 2005-05-09 2011-09-27 Qnx Software Systems Co. System for suppressing passing tire hiss
US8311819B2 (en) 2005-06-15 2012-11-13 Qnx Software Systems Limited System for detecting speech with background voice estimates and noise estimates
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
US7117075B1 (en) * 2005-08-15 2006-10-03 Report On Board Llc Driver activity and vehicle operation logging and reporting
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
US7844453B2 (en) 2006-05-12 2010-11-30 Qnx Software Systems Co. Robust noise estimation
US8326620B2 (en) 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US8335685B2 (en) 2006-12-22 2012-12-18 Qnx Software Systems Limited Ambient noise compensation system robust to high excitation noise
US8850154B2 (en) 2007-09-11 2014-09-30 2236008 Ontario Inc. Processing system having memory partitioning
US8904400B2 (en) 2007-09-11 2014-12-02 2236008 Ontario Inc. Processing system having a partitioning component for resource partitioning
US8694310B2 (en) 2007-09-17 2014-04-08 Qnx Software Systems Limited Remote control server protocol system
US8209514B2 (en) 2008-02-04 2012-06-26 Qnx Software Systems Limited Media processing system having resource partitioning
DE102010041435A1 (en) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Method for reconstructing a speech signal and hearing device
WO2013061252A2 (en) 2011-10-24 2013-05-02 Cochlear Limited Post-filter common-gain determination
JP6127422B2 (en) 2012-09-25 2017-05-17 セイコーエプソン株式会社 Speech recognition apparatus and method, and semiconductor integrated circuit device

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3411153A (en) * 1964-10-12 1968-11-12 Philco Ford Corp Plural-signal analog-to-digital conversion system
US4000369A (en) * 1974-12-05 1976-12-28 Rockwell International Corporation Analog signal channel equalization with signal-in-noise embodiment
US4032710A (en) * 1975-03-10 1977-06-28 Threshold Technology, Inc. Word boundary detector for speech recognition equipment
CA1056504A (en) * 1975-04-02 1979-06-12 Visvaldis A. Vitols Keyword detection in continuous speech using continuous asynchronous correlation
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
FR2451680A1 (en) * 1979-03-12 1980-10-10 Soumagne Joel SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION
US4262355A (en) * 1979-05-11 1981-04-14 Rca Corporation System for limiting intermodulation distortion of talkspurt signals
US4292470A (en) * 1979-09-10 1981-09-29 Interstate Electronics Corp. Audio signal recognition computer
JPS56126896A (en) * 1980-03-10 1981-10-05 Nippon Electric Co Voice recognizing system
US4352957A (en) * 1980-03-17 1982-10-05 Storage Technology Corporation Speech detector circuit with associated gain control for a tasi system
JPS56159400U (en) * 1980-04-24 1981-11-27
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section
JPS57178299A (en) * 1981-04-27 1982-11-02 Kyosan Electric Mfg Recognition pattern preparation system
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4489434A (en) * 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
JPS5984300A (en) * 1982-11-08 1984-05-15 株式会社日立製作所 Voice section detecting circuit
JPS59111697A (en) * 1982-12-17 1984-06-27 株式会社日立製作所 Voice recognition system
US4627091A (en) * 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS6063600A (en) * 1983-08-26 1985-04-11 日本電気株式会社 Variable threshold type voice detector
US4696040A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with energy normalization and silence suppression
JPS6085628A (en) * 1983-10-15 1985-05-15 Fujitsu Ten Ltd Communication equipment
JPS60254100A (en) * 1984-05-30 1985-12-14 沖電気工業株式会社 Voice recognition system
JPS6195398A (en) * 1984-10-17 1986-05-14 株式会社東芝 Voice recognition equipment
JPS61113100A (en) * 1984-11-08 1986-05-30 ヤマハ株式会社 Voice parameter detector
US4821325A (en) * 1984-11-08 1989-04-11 American Telephone And Telegraph Company, At&T Bell Laboratories Endpoint detector
FR2576472B1 (en) * 1985-01-22 1988-02-12 Alcatel Thomson Faisceaux METHOD AND DEVICE FOR AUTOMATICALLY GAIN CONTROL OF A TIME-DIVISION MULTIPLE ACCESS RECEIVER
JPH0673079B2 (en) * 1985-03-29 1994-09-14 沖電気工業株式会社 Voice section detection circuit
JPH06105394B2 (en) * 1986-03-19 1994-12-21 株式会社東芝 Voice recognition system

Also Published As

Publication number Publication date
FI92113B (en) 1994-06-15
GB8613327D0 (en) 1986-07-09
US4912766A (en) 1990-03-27
KR880701435A (en) 1988-07-27
WO1987007750A1 (en) 1987-12-17
FI92113C (en) 1994-09-26
ATE183009T1 (en) 1999-08-15
CA1310418C (en) 1992-11-17
ES2056819T3 (en) 1994-10-16
FI872450A (en) 1987-12-03
DE3752288T2 (en) 2000-07-06
EP0750291A1 (en) 1996-12-27
HK137096A (en) 1996-08-02
ATE109582T1 (en) 1994-08-15
JP2654503B2 (en) 1997-09-17
EP0248609A1 (en) 1987-12-09
FI872450A0 (en) 1987-06-02
JPH0677894A (en) 1994-03-18
DE3750314D1 (en) 1994-09-08
JPH09325790A (en) 1997-12-16
EP0750291B1 (en) 1999-08-04
DK282587A (en) 1987-12-03
DK282587D0 (en) 1987-06-02
EP0248609B1 (en) 1994-08-03
DK171426B1 (en) 1996-10-21
JPS63503487A (en) 1988-12-15
JP2561850B2 (en) 1996-12-11
KR950011963B1 (en) 1995-10-12
DE3752288D1 (en) 1999-09-09

Similar Documents

Publication Publication Date Title
DE3750314T2 (en) Speech processor.
DE69636985T2 (en) LANGUAGE PRESENCE DETECTOR FOR HALF-DUPLEX AUDIO COMMUNICATION SYSTEM
DE4126902C2 (en) Speech interval - detection unit
DE3790072C2 (en) Automatic gain control of analog signal
DE3235279C2 (en) Speech recognition device
DE69918635T2 (en) Apparatus and method for speech processing
DE3236885A1 (en) METHOD AND DEVICE FOR VOICE ANALYSIS
DE19952538A1 (en) Automatic speech recognition system gain regulation involves computing upper, lower, mean energy traces for tracking speech signal, and computing normalized energy from upper trace
DE3013344A1 (en) DEVICE AND METHOD FOR CONTROLLING INPUT SIGNALS
DE3043516C2 (en) Method and device for speech recognition
DE3422877C2 (en)
DE2020753A1 (en) Device for recognizing given speech sounds
DE4031638A1 (en) VOICE RECOGNITION DEVICE
DE3750365T2 (en) Speaker identification.
DE3314570A1 (en) METHOD AND ARRANGEMENT FOR ADJUSTING THE REINFORCEMENT
DE69922769T2 (en) Apparatus and method for speech processing
DE4031421A1 (en) PATTERN ADJUSTMENT SYSTEM FOR A VOICE RECOGNITION DEVICE
DE2021126C3 (en) Speech recognition arrangement
EP1152527A1 (en) Device and method for adaption of an acoustic signal depending on the ambient noise
DE69112855T2 (en) Speech signal processing device.
EP1279164A1 (en) Method for detecting a voice activity decision (voice activity detector)
EP0845921A1 (en) Method and circuit for regulating the volume in digital hearing aids
DE1206167B (en) Circuit to improve the recognizability of sounds in sound analysis
EP0946015B1 (en) Method and system for estimating transmission quality
EP1382034A1 (en) Method for determining intensity parameters of background noise in speech pauses of voice signals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee