DE3750314T2 - Speech processor. - Google Patents
Speech processor.Info
- Publication number
- DE3750314T2 DE3750314T2 DE3750314T DE3750314T DE3750314T2 DE 3750314 T2 DE3750314 T2 DE 3750314T2 DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T DE3750314 T DE 3750314T DE 3750314 T2 DE3750314 T2 DE 3750314T2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- gain
- signal
- stored
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003595 spectral effect Effects 0.000 claims description 16
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 3
- 230000001413 cellular effect Effects 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 230000003321 amplification Effects 0.000 claims 1
- 238000001914 filtration Methods 0.000 claims 1
- 238000005259 measurement Methods 0.000 claims 1
- 238000003199 nucleic acid amplification method Methods 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003134 recirculating effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Control Of Amplification And Gain Control (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Interface Circuits In Exchanges (AREA)
- Mobile Radio Communication Systems (AREA)
- Noise Elimination (AREA)
- Circuits Of Receivers In General (AREA)
- Facsimiles In General (AREA)
- Telephonic Communication Services (AREA)
- Analogue/Digital Conversion (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Multi-Process Working Machines And Systems (AREA)
- Sewing Machines And Sewing (AREA)
- Machine Translation (AREA)
- Display Devices Of Pinball Game Machines (AREA)
- Telephone Function (AREA)
Abstract
Description
Diese Erfindung bezieht sich auf Sprachprozessoren mit automatischer Verstärkungsfaktorsteuerung und insbesondere auf Spracherkenner.This invention relates to speech processors with automatic gain control and, in particular, to speech recognizers.
Automatische Spracherkenner arbeiten, indem sie Merkmale vergleichen, die hörbaren Sprachsignalen entnommen sind. Merkmale, die der zu erkennenden Sprache entnommen sind, werden mit gespeicherten Merkmalen verglichen, die von einer bekannten Sprachäußerung entnommen sind.Automatic speech recognizers work by comparing features taken from audible speech signals. Features taken from the speech to be recognized are compared with stored features taken from a known speech utterance.
Zur genauen Erkennung ist es wichtig, daß die Merkmale, die dem gleichen Wort oder Laut, das oder der dann zu unterschiedlichen Zeiten gesprochen wird, entnommen sind, genügend ähnlich sind. Jedoch macht es der große Dynamikbereich von Sprache schwierig, dies zu erreichen, insbesondere in Bereichen, wie dem freihändigen Telefonieren, wo der durch das Mikrofon empfangene Tonpegel über einen weiten Bereich variieren kann. Um diese Sprachpegel-Variation zu kompensieren, verwenden die meisten Spracherkenner eine Form einer automatischen Verstärkungsfaktorsteuerung (AGC).For accurate recognition, it is important that the features extracted from the same word or sound spoken at different times are sufficiently similar. However, the wide dynamic range of speech makes this difficult to achieve, particularly in areas such as hands-free telephony where the sound level received by the microphone can vary over a wide range. To compensate for this speech level variation, most speech recognizers use some form of automatic gain control (AGC).
Die AGC-Schaltung steuert den Verstärkungsfaktor, um zu versichern, daß der durchschnittliche Signalpegel, der von dem Merkmals-Extrahierer verwendet wird, so nahe wie möglich über eine gegebene Zeitperiode konstant ist. Somit wird leisen Sprachäußerungen ein größerer Verstärkungsfaktor verliehen als lauten Äußerungen. Diese Form eines AGC läuft gut, wenn das Eingabesignal kontinuierliche Sprache ist, da nach einer Zeitperiode der Schaltungsverstärkungsfaktor den Signalpegel optimieren wird, um eine konsistente Merkmalsextrahierung zu ergeben. Bei Nichtvorhandensein von Sprache wird der Verstärkungsfaktor der AGC-Schaltung jedoch auf einen Pegel ansteigen, der durch das Hintergrundrauschen bestimmt ist, so daß beim Einsetzen einer Sprachäußerung der Verstärkungsfaktor der AGC-Schaltung zu hoch eingestellt sein wird. Während der Äußerung wird der Verstärkungsfaktor der Schaltung automatisch reduziert, wobei die Geschwindigkeit der Verstärkungsfaktoränderung durch die "Angriffs"-Zeit der AGC bestimmt ist. Der Beginn einer Äußerung ist somit einem viel größeren Verstärkungsfaktor unterworfen, und jegliche entnommenen Merkmale werden einen viel größeren Energiegehalt haben als ähnliche Merkmale, die später entnommen werden, wenn der Verstärkungsfaktor reduziert worden ist.The AGC circuit controls the gain to ensure that the average signal level used by the feature extractor is as close to constant as possible over a given period of time. Thus, soft speech utterances are given a larger gain than loud utterances. This form of AGC works well when the input signal is continuous speech, since after a period of time the circuit gain will optimize the signal level to give consistent feature extraction. In the absence of speech, however, the gain of the AGC circuit will rise to a level determined by the background noise, so that at the onset of a speech utterance the gain of the AGC circuit will be set too high. During the utterance the circuit gain is automatically reduced, the rate of gain change being determined by the "attack" time of the AGC. The onset of an utterance is thus subject to a much larger gain, and any extracted features will have a much greater energy content than similar features extracted later when the gain has been reduced.
Dieser Verzerrungseffekt ist abhängig von dem Eingangssignalpegel; je größer der Sprachpegel ist, umso größer ist die Verzerrung. Somit werden die ersten wenigen entnommenen Merkmale nicht den in fiktiver Weise ähnlich gespeicherten Merkmalen entsprechen, und dies kann oft zu einer schwachen Erkennungsfähigkeit führen.This distortion effect depends on the input signal level; the higher the speech level, the greater the distortion. Thus, the first few features extracted will not correspond to the fictitiously similarly stored features, and this can often lead to a weak recognition ability.
Es ist ein Ziel der vorliegenden Erfindung, eine Lösung zu diesem Problem anzugeben.It is an object of the present invention to provide a solution to this problem.
Gemäß der vorliegenden Erfindung wird ein Sprachprozessor bereitgestellt, der aufweist: einen Eingang, um Sprachsignale zu empfangen; eine Signalverarbeitungseinrichtung, um Spektralparameter aus den Sprachsignalen zu entnehmen; einen Analog-Digital-Wandler, um die entnommenen Parameter zu digitalisieren; eine automatische Verstärkungssteuerungseinrichtung, um den an den Wandler angelegten Signalpegel zu steuern; dadurch gekennzeichnet, daß die Spektralparameter zumindest vorübergehend gespeichert werden und daß für jeden solchen gespeicherten Parameter auch ein Verstärkungskoeffizient gespeichert wird, der für den an die Verstärkungssteuerungseinrichtung angelegten Verstärkungsfaktor anzeigend ist; und daß am Ende einer Abtastperiode die Verstärkungskoeffizienten in dieser Periode, wenn unterschiedlich, gleich dem niedrigsten in dieser Periode gespeicherten Verstärkungskoeffizienten gesetzt werden, wobei die Größen der entsprechenden gespeicherten Spektralparameter proportional eingestellt werden.According to the present invention there is provided a speech processor comprising: an input for receiving speech signals; signal processing means for extracting spectral parameters from the speech signals; an analog-to-digital converter for digitizing the extracted parameters; automatic gain control means for controlling the signal level applied to the converter; characterized in that the spectral parameters are at least temporarily and that for each such stored parameter there is also stored a gain coefficient indicative of the gain factor applied to the gain control means; and that at the end of a sampling period the gain coefficients in that period, if different, are set equal to the lowest gain coefficient stored in that period, the magnitudes of the corresponding stored spectral parameters being adjusted proportionally.
In einem Sprachprozessor gemäß der Erfindung, der als ein Spracherkenner konfiguriert ist, wird eine automatische Verstärkungsfaktorsteuerung durch eine digital geschaltete Dämpfungseinheit bereitgestellt, deren Verstärkungsfaktor durch den Mikroprozessor bestimmt wird, der die Spracherkennung ausführt. Der Mikroprozessor steuert den Verstärkungsfaktor; um zu versichern, daß der Dynamikbereich des Analog-Digital- Wandlers (was zwischen Merkmalsextrahierung und dem Mikroprozessor auftritt, der den Erkenner steuert, selbst wenn analoge AGCs verwendet werden) nicht überschritten wird (außer während der Anpassung des AGC). Der prinzipielle Unterschied zwischen den bekannten analogen AGCs und dem System gemäß der Erfindung liegt darin, daß im letzteren der Mikroprozessor eine Steuerung der Verstärkungsfaktoreinstellung ausübt und daher den verwendeten Verstärkungsfaktor für jedes entnommene Merkmal speichern kann. Nachdem die Äußerung beendet ist, kann der Mikroprozessor die optimale Verstärkungsfaktoreinstellung für die vollständige Äußerung bestimmen. Alle gespeicherten Merkmale werden dann auf diese optimale Verstärkungsfaktoreinstellung normalisiert. Damit wird ein konsistenter Satz von Merkmalen unabhängig vom Eingangssignal-Verstärkungsfaktor entnommen.In a speech processor according to the invention configured as a speech recognizer, automatic gain control is provided by a digitally switched attenuator unit, the gain of which is determined by the microprocessor performing the speech recognition. The microprocessor controls the gain to ensure that the dynamic range of the analog-to-digital converter (which occurs between feature extraction and the microprocessor controlling the recognizer, even when analog AGCs are used) is not exceeded (except during adjustment of the AGC). The principal difference between the known analog AGCs and the system according to the invention is that in the latter the microprocessor exercises control of the gain setting and can therefore store the gain used for each extracted feature. After the utterance is finished, the microprocessor can determine the optimal gain setting for the complete utterance. All stored features are then normalized to this optimal gain setting. This extracts a consistent set of features regardless of the input signal gain.
Ausführungsbeispiele der Erfindung werden weiter beschrieben und mit Bezug auf die begleitende Zeichnung erklärt werden, in der:Embodiments of the invention will be further described and explained with reference to the accompanying drawings, in which:
Fig. 1 ein schematisches Diagramm eines Spracherkenners gemäß der vorliegenden Erfindung ist.Fig. 1 is a schematic diagram of a speech recognizer according to the present invention.
In dieser Patentanmeldung ist die Erfindung mit Bezugnahme auf einen Spracherkenner beschrieben, der das Abgleichen von Schablonen verwendet; wie jedoch dem Fachmann bewußt ist, ist die Erfindung gleichermaßen anwendbar auf jeden der herkömmlichen Typen von Spracherkennern, einschließlich jenen, die ein stochastisches Modellieren, Markov- Ketten, dynamisches Zeitverziehen und Phonem-Erkennung verwenden.In this patent application, the invention is described with reference to a speech recognizer that uses template matching; however, as will be appreciated by those skilled in the art, the invention is equally applicable to any of the conventional types of speech recognizers, including those that use stochastic modeling, Markov chains, dynamic time warping, and phoneme recognition.
Spracherkennung basiert auf dem Vergleichen von Energiekonturen von einer Anzahl (allgemein 8 bis 16) von Filterkanälen. Während Sprache vorhanden ist, wird das Energiespektrum von jedem Filterkanal mit einem Analog-Digital-Wandler (A-D) digitalisiert, um eine Schablone zu erzeugen, die in einem Speicher gespeichert ist.Speech recognition is based on comparing energy contours from a number (generally 8 to 16) of filter channels. While speech is present, the energy spectrum from each filter channel is digitized using an analog-to-digital (A-D) converter to produce a template that is stored in memory.
Die anfängliche Phase der Erkennung ist als "Training" bekannt und besteht aus dem Erzeugen der Referenz-Schablonen, indem die Worte auf den Erkenner gesprochen werden, die erkannt werden sollen. Sobald Referenz-Schablonen für die zu erkennenden Worte hergestellt worden sind, kann eine Spracherkennung versucht werden.The initial phase of recognition is known as "training" and consists of creating reference templates by speaking the words to be recognized to the recognizer. Once reference templates for the words to be recognized have been created, speech recognition can be attempted.
Wenn der Erkenner einer Äußerung ausgesetzt wird, erzeugt er eine Test-Schablone, die mit den Referenz-Schablonen in dem Speicher verglichen werden können, um die nächstliegende Übereinstimmung zu finden.When the recognizer is exposed to an utterance, it generates a test template that can be compared with the reference templates in memory to find the closest match.
Die fundamentalen Elemente des Spracherkenners gemäß der vorliegenden Erfindung sind in Fig. 1 gezeigt. Sprachsignale, die durch das Mikrofon 1 empfangen und durch einen Verstärker 2 verstärkt sind, werden zu einer Filterbank 3a geführt. In der Filterbank werden die Sprachsignale in eine Vielzahl (in diesem Fall 16) von Frequenzbändern gefiltert, und die Signale werden durch einen Gleichrichter 4 gleichgerichtet. Die gefilterten und gleichgerichteten Signale werden durch einen Tiefpaßfilter 3b geglättet und dann sequentiell durch einen Multiplexer 5 abgetastet, der das resultierende Einkanalsignal an die DAGC-Schaltung 8 speist, die ihrerseits einen Analog-Digital-Wandler 6 speist, von dem der digitalisierte Signalstrom zu dem steuernden Mikroprozessor 7 geführt wird.The fundamental elements of the speech recognizer according to the present invention are shown in Fig. 1. Speech signals received by the microphone 1 and amplified by an amplifier 2 are fed to a filter bank 3a. In the filter bank the speech signals are filtered into a plurality (in this case 16) of frequency bands and the signals are rectified by a rectifier 4. The filtered and rectified signals are smoothed by a low-pass filter 3b and then sampled sequentially by a multiplexer 5 which feeds the resulting single-channel signal to the DAGC circuit 8 which in turn feeds an analog-to-digital converter 6 from which the digitized signal stream is fed to the controlling microprocessor 7.
Der Multiplexer adressiert jeden Filterkanal für 20 Mikrosekunden, bevor der Nächste adressiert wird. Am Ende jedes 10 Millisekunden Zeitschlitzes wird die abgetastete Energie jedes Kanals für diese Periode gespeichert. Die Schablonen, die während des Trainings oder der Erkennung erzeugt werden, bestehen aus bis zu 100 Zeitschlitz-Abtastungen für jeden Filterkanal.The multiplexer addresses each filter channel for 20 microseconds before addressing the next one. At the end of each 10 millisecond time slot, the sampled energy of each channel is stored for that period. The templates generated during training or detection consist of up to 100 time slot samples for each filter channel.
Die digitale AGC arbeitet auf die folgende Weise. Jedesmal, wenn der Multiplexer einen Filterkanal adressiert, beurteilt der Mikroprozessor den Energiepegel des Kanals, um zu bestimmen, ob der A-D-Wandler überlastet worden ist und daher der Verstärkungsfaktor zu hoch ist. Wenn der Mikroprozessor bestimmt, daß der Verstärkungsfaktor zu hoch ist, dekrementiert er den Verstärkungsfaktor der AGC um einen Schritt, was einer Reduzierung im Verstärkungsfaktor von 1,5 dB entspricht, und betrachtet erneut den Energiepegel des Kanals. Der Multiplexer schreitet nicht zyklisch zu dem nächsten Kanal fort, bis der Mikroprozessor bestimmt hat, daß der Verstärkungsfaktor in ausreichender Weise reduziert worden ist, um ein Überlasten des A-D-Wandlers zu verhindern. Wenn der Multiplexer zyklisch zu dem nächsten Filterkanal fortschreitet, wird der Verstärkungsfaktor der AGC-Schaltung an dem neuen niedrigen Pegel gehalten, außer wenn dieser Pegel zu einem Überlasten des A-D-Wandlers mit dem Energiepegel des neuen Kanals führt, in welchem Fall der Verstärkungsfaktor nach unten inkrementiert wird, wie vorher beschrieben. Wenn der Multiplexer den letzten Filterkanal adressiert hat, normalisiert der Mikroprozessor die Energiepegel aller Kanäle, indem ihre Verstärkungskoeffizienten (die zusammen mit der Energiepegelinformation in dem Speicher 9 gespeichert worden ist, welcher zu dem Mikroprozessor gehört) auf das durch den Mikroprozessor festgelegte Minimum eingestellt werden. Auf diese Weise wird ein konsistenter Satz von Merkmalen unabhängig von dem anfänglichen Eingangssignalverstärkungsfaktor und irgendwelchen Änderungen im Verstärkungsfaktor während der Bildung der Schablone entnommen.The digital AGC works in the following way. Each time the multiplexer addresses a filter channel, the microprocessor evaluates the channel's power level to determine if the ADC has been overloaded and therefore the gain is too high. If the microprocessor determines that the gain is too high, it decrements the AGC's gain by one step, which corresponds to a 1.5 dB reduction in gain, and looks at the channel's power level again. The multiplexer does not cycle to the next channel until the microprocessor has determined that the gain has been reduced sufficiently. to prevent overloading of the AD converter. As the multiplexer cycles to the next filter channel, the gain of the AGC circuit is maintained at the new low level, unless that level results in overloading the AD converter with the energy level of the new channel, in which case the gain is incremented downwards as previously described. When the multiplexer has addressed the last filter channel, the microprocessor normalizes the energy levels of all channels by setting their gain coefficients (which have been stored together with the energy level information in the memory 9 associated with the microprocessor) to the minimum set by the microprocessor. In this way, a consistent set of features is extracted regardless of the initial input signal gain and any changes in the gain during formation of the template.
Es ist auch eine Anforderung an den Spracherkenner, den Anfang und das Ende der Sprache oder des Worts mit einem hohen Maß an Genauigkeit zu erfassen. Der Spracherkenner gemäß der vorliegenden Erfindung verwendet die folgende Technik:It is also a requirement for the speech recognizer to detect the beginning and end of the speech or word with a high degree of accuracy. The speech recognizer according to the present invention uses the following technique:
A. Der Energiepegel des Hintergrundrauschens wird gemessen und für 32 Zeitschlitze (bei 10 Millisekunden für eine Abtastung) gespeichert, während gleichzeitig die Verstärkungsfaktoren der AGC-Schaltung wie oben beschrieben eingestellt (reduziert) werden, um mit der maximalen Rauschenergie umzugehen.A. The background noise energy level is measured and stored for 32 time slots (at 10 milliseconds for one sample) while simultaneously adjusting (reducing) the AGC circuit gains as described above to deal with the maximum noise energy.
B. Die Abtastung maximaler Energie wird gefunden, indem alle die Filterwerte für jeden Zeitschlitz addiert werden, durch 16 (die Anzahl von Filterkanälen) dividiert werden, und mit einem Verstärkungsfaktor entsprechend dem Verstärkungsfaktor der DAGC-Schaltung multipliziert werden, und indem dann jeder Zeitschlitz verglichen wird, um das Maximum zu finden.B. The maximum energy sample is found by adding all the filter values for each time slot, dividing by 16 (the number of filter channels), and multiplying by a gain factor according to the gain factor of the DAGC circuit and then comparing each time slot to find the maximum.
C. Die Schwelle, die überschritten werden muß, bevor angenommen wird, daß Sprache vorhanden ist, ist eingestellt, um gleich 1,5mal die maximale Rauschenergie, die in Schritt B bestimmt ist, zu sein.C. The threshold that must be exceeded before it is assumed that speech is present is set to be equal to 1.5 times the maximum noise energy determined in step B.
D. Die durchschnittliche Rauschenergie für jeden Filterkanal wird gefunden und gespeichert (für jeden Kanal ist es die Summe der Energien über alle 32 Zeitschlitze, dividiert durch 32), um eine Rauschschablone festzulegen.D. The average noise energy for each filter channel is found and stored (for each channel it is the sum of the energies over all 32 time slots divided by 32) to establish a noise template.
E. Danach wird die Filterbank alle 10 Millisekunden abgefahren, und die Daten werden in einem temporären Umlaufspeicher aus 100 Zeitabtastungen gespeichert, bis die durchschnittliche Filterenergie die in C berechnete Rausch/Sprach-Schwelle überschreitet.E. The filter bank is then scanned every 10 milliseconds, and the data is stored in a temporary circular buffer of 100 time samples until the average filter energy exceeds the noise/speech threshold calculated in C.
F. Wenn die Rausch/Sprach-Schwelle nach 32 Abtastungen nicht überschritten ist, wird eine Prüfung durchgeführt, um zu versichern, daß der Verstärkungsfaktor der DAGC-Schaltung nicht zu niedrig eingestellt ist. Dies wird gemacht, indem der maximale Filterkanalwert betrachtet wird, der in diesen 32 Zeitschlitzen gespeichert ist. Wenn dieser Maximalpegel um 1,5 dB oder mehr unter dem maximal akzeptierbaren Eingangspegel für den A-D-Wandler ist, wird der Verstärkungsfaktor der AGC um 1 inkrementiert, um den Verstärkungsfaktor um 1,5 dB zu erhöhen.F. If the noise/speech threshold is not exceeded after 32 samples, a check is made to ensure that the gain of the DAGC circuit is not set too low. This is done by looking at the maximum filter channel value stored in these 32 time slots. If this maximum level is 1.5 dB or more below the maximum acceptable input level for the A-D converter, the AGC gain is incremented by 1 to increase the gain by 1.5 dB.
Wenn die Schwelle nach 32 Abtastungen nicht überschritten ist und die DAGC-Einstellung richtig ist, dann wird die Rausch/Sprach-Schwelle erneut berechnet, indem die Maximalenergie über die letzten 32 Abtastungen (wie in B) gefunden wird und mit 1,5 (wie in C) multipliziert wird.If the threshold is not exceeded after 32 samples and the DAGC setting is correct, then the noise/speech threshold is recalculated by finding the maximum energy over the last 32 samples (as in B) and multiplying it by 1.5 (as in C).
G. Sobald die Rausch/Sprach-Schwelle überschritten worden ist, wird die Filterbank alle 10 Millisekunden abgefahren, und die Filterdaten werden in dem Speicher gespeichert, um die Sprachschablonen zu bilden, bis entweder 100 Abtastungen eingetragen worden sind oder bis der Energiepegel unterhalb die Rausch/ Sprach-Schwelle für 20 aufeinanderfolgende Abtastungen fällt. Wie oben beschrieben, wird, wenn während der Dateneingabe der A-D-Wandler überlastet wird, die AGC-Einstellung um 1 dekrementiert, und die Daten für diesen Filterkanal werden erneut verarbeitet. Wenn während des Abfahrens der 16 Filterkanäle der Verstärkungsfaktor der DAGC-Schaltung reduziert wird, werden die Daten von allen 16 Kanälen erneut eingegeben, so daß alle Filterdaten der gleichen AGC-Einstellung entsprechen. Der verwendete AGC-Wert wird in dem Speicher zusammen mit den Filterdaten aufgezeichnet. Die verwendete AGC-Einstellung am Anfang jedes Zeitschlitzes wird von dem vorherigen Zeitrahmen genommen, wodurch der Verstärkungsfaktor während der Sprachverarbeitungsphase nur reduziert werden kann (nicht erhöht). Dies stellt kein Problem dar, da am Ende der Schablonenperiode alle Schablonendaten auf eine einheitliche AGC-Einstellung normalisiert werden.G. Once the noise/speech threshold has been exceeded, the filter bank is cycled every 10 milliseconds and the filter data is stored in memory to form the speech templates until either 100 samples have been entered or until the energy level falls below the noise/speech threshold for 20 consecutive samples. As described above, if during data entry the ADC is overloaded, the AGC setting is decremented by 1 and the data for that filter channel is reprocessed. If during the 16 filter channels the gain of the DAGC circuit is reduced, the data from all 16 channels is reentered so that all filter data corresponds to the same AGC setting. The AGC value used is recorded in memory along with the filter data. The AGC setting used at the beginning of each time slot is taken from the previous time frame, which allows the gain to only be reduced (not increased) during the speech processing phase. This is not a problem because at the end of the template period all template data is normalized to a uniform AGC setting.
H. Um zu versichern, daß der Anfang von Sprache nicht durch die Sprach/Rausch-Detektor-Schwelle verfehlt wird, werden die 15 Zeitabtastungen vor der Spracherfassung von dem temporären Umlaufspeicher an den Anfang der "Sprach"-Schablone transferriert.H. To ensure that the onset of speech is not missed by the speech/noise detector threshold, the 15 time samples prior to speech detection are taken from the temporary Recirculating memory transferred to the beginning of the "Speech" template.
I. Wenn mehr als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die Rauschschablone durch Analysieren (wie in D) der ältesten 32 Zeitrahmen in dem temporären Umlaufspeicher erneut berechnet. Wenn weniger als 100 Abtastungen verarbeitet wurden, bevor Sprache erfaßt ist, wird die in Schritt D festgelegte Rauschschablone in den folgenden Schritten verwendet.I. If more than 100 samples have been processed before speech is detected, the noise template is recalculated by analyzing (as in D) the oldest 32 time frames in the temporary wraparound memory. If less than 100 samples have been processed before speech is detected, the noise template determined in step D is used in the following steps.
J. Die minimale Verstärkungsfaktoreinstellung der AGC über der Sprachschablone wird dann gefunden und sowohl die Sprach- als auch die Rauschschablone werden auf diese Einstellung normalisiert, was dazu führt, daß beide Schablonen die Werte enthalten, die eingetragen worden wären, wäre dieser Verstärkungsfaktor von Anfang an verwendet worden.J. The minimum AGC gain setting over the speech template is then found and both the speech and noise templates are normalized to this setting, resulting in both templates containing the values that would have been entered had this gain been used from the start.
K. Die normalisierte Rauschschablone wird dann von jedem Zeitrahmen der normalisierten Sprachschablone subtrahiert.K. The normalized noise template is then subtracted from each time frame of the normalized speech template.
L. Die maximale Energie in der normalisierten Sprachschablone wird nun gefunden, und eine neue Rausch/Sprach-Schwelle wird berechnet - gleich der maximalen Energie minus 18 dB. Diese neue Schwelle wird verwendet, um die normalisierte Sprachschablone abzufahren, um den Anfangs- und den Endpunkt der Sprache zu bestimmen.L. The maximum energy in the normalized speech template is now found and a new noise/speech threshold is calculated equal to the maximum energy minus 18 dB. This new threshold is used to sweep the normalized speech template to determine the start and end points of the speech.
M. Die Sprachschablone wird dann am Anfangs- und am Endpunkt gestutzt und wird entweder in dem Speicher (Training) gespeichert oder zur Erkennung verwendet. Das folgende tabellenartige Beispiel stellt die Werte dar, die nach dem Messen des Hintergrundrauschens für 320 Millisekunden (32 Zeitschlitze von jeweils 10 Millisekunden) gespeichert werden. Filterbanknummer echte durchschnittliche Energie Durchschnittliche RauschschabloneM. The speech template is then trimmed at the start and end points and is stored either in the memory (training) or used for detection. The following table example shows the values stored after measuring the background noise for 320 milliseconds (32 time slots of 10 milliseconds each). Filter bank number real average Energy Average Noise Template
Ein DAGC-Wert von 4 ist äquivalent einer 6 dB-Dämpfung des Signals, das in den A-D läuft, und somit müßten, um die "echte" Energie zu berechnen, alle die obigen Filterbankwerte verdoppelt werden.A DAGC value of 4 is equivalent to a 6 dB attenuation of the signal going into the A-D, and thus to calculate the "real" energy, all of the above filter bank values would have to be doubled.
Die maximale echte Energie (die gemittelt über alle Filter) war: -410.The maximum true energy (averaged over all filters) was: -410.
Schwelle, die zum Starten/Beenden einer Schablonenaufzeichnung zu überschreiten ist: -615.Threshold to be exceeded to start/stop a template recording: -615.
Da die Hauptanwendung der Erfindung die Spracherkennung ist, ist sie mit Bezug auf diese Anwendung beschrieben worden. Jedoch ist, wie einem Fachmann bewußt sein wird, die Erfindung nicht nur auf Spracherkennung anwendbar, sondern ist auf praktisch jede Situation anwendbar, wo Sprachsignale zur Merkmalsentnahme verarbeitet werden.Since the main application of the invention is speech recognition, it has been described with reference to this application. However, as will be appreciated by one skilled in the art, the invention is not only applicable to speech recognition, but is applicable to virtually any situation where speech signals are processed for feature extraction.
Der Sprachprozessor gemäß der vorliegenden Erfindung ist besonders geeignet zur Verwendung in Anwendungen, wo Hintergrundrauschen und Variationen im Pegel dieses Hintergrundrauschens ein Problem für bekannte Sprachprozessoren ist. Eine solche Anwendung ist beim freihändigen Telefonieren und insbesondere freihändiges Telefonieren, bei dem zellulare Funkendgeräte involviert sind. Solche Endgeräte werden häufig in Kraftfahrzeugen verwendet, wo es zweckmäßig ist, eine Spracherkennung zu verwenden, um eine freihändige Rufverbindung und freihändiges Wählen zu gewährleisten. Das Problem erwächst jedoch daraus, daß Wind-, Fahrbahn- und Motorgeräusche sich stark ändern und eine genaue Erkennung von Sprache schwierig machen. Wenn Spracherkennung für freihändiges Telefonieren bei dieser Anwendung voll akzeptabel sein soll, ist es klar notwendig, daß der Erkenner gesprochene Befehle akzeptiert und richtig in Antwort darauf agiert beim Vorhandensein von Hintergrundrauschen, ohne regelmäßig zu erfordern, daß die Befehle wiederholt werden.The speech processor according to the present invention is particularly suitable for use in applications where background noise and variations in the level of this background noise are a problem for known speech processors. One such application is in hands-free telephony, and in particular hands-free telephony involving cellular radio terminals. Such terminals are often used in motor vehicles where it is convenient to use speech recognition to provide hands-free call connection and dialling. The problem arises, however, that wind, road and engine noise vary greatly and make accurate recognition of speech difficult. If speech recognition for hands-free telephony is to be fully acceptable in this application, it is clearly necessary that the recognizer accepts spoken commands and acts correctly in response to them in the presence of background noise, without requiring regular repetition of the commands.
Die verbesserte Genauigkeit der Erfindung, die durch die vorliegende Erfindung gewährleistet wird, ist von besonderem Vorteil bei dieser Anwendung.The improved accuracy of the invention provided by the present invention is of particular advantage in this application.
Claims (10)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB868613327A GB8613327D0 (en) | 1986-06-02 | 1986-06-02 | Speech processor |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3750314D1 DE3750314D1 (en) | 1994-09-08 |
DE3750314T2 true DE3750314T2 (en) | 1994-11-17 |
Family
ID=10598774
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3750314T Expired - Fee Related DE3750314T2 (en) | 1986-06-02 | 1987-05-29 | Speech processor. |
DE3752288T Expired - Fee Related DE3752288T2 (en) | 1986-06-02 | 1987-05-29 | Speech processor |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE3752288T Expired - Fee Related DE3752288T2 (en) | 1986-06-02 | 1987-05-29 | Speech processor |
Country Status (13)
Country | Link |
---|---|
US (1) | US4912766A (en) |
EP (2) | EP0750291B1 (en) |
JP (3) | JP2561850B2 (en) |
KR (1) | KR950011963B1 (en) |
AT (2) | ATE109582T1 (en) |
CA (1) | CA1310418C (en) |
DE (2) | DE3750314T2 (en) |
DK (1) | DK171426B1 (en) |
ES (1) | ES2056819T3 (en) |
FI (1) | FI92113C (en) |
GB (1) | GB8613327D0 (en) |
HK (1) | HK137096A (en) |
WO (1) | WO1987007750A1 (en) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DK510275A (en) * | 1975-11-12 | 1977-05-13 | Struers K S | ELECTROLYTICAL POLISHER |
JPH02189600A (en) * | 1989-01-19 | 1990-07-25 | Sanyo Electric Co Ltd | Speech recognition device |
US5333155A (en) * | 1991-04-25 | 1994-07-26 | Rohde & Schwarz Gmbh & Co. Kg | Method and system for transmitting digital audio signals from recording studios to the various master stations of a broadcasting network |
US6134521A (en) * | 1994-02-17 | 2000-10-17 | Motorola, Inc. | Method and apparatus for mitigating audio degradation in a communication system |
AU720511B2 (en) * | 1995-08-24 | 2000-06-01 | British Telecommunications Public Limited Company | Pattern recognition |
US5774841A (en) * | 1995-09-20 | 1998-06-30 | The United States Of America As Represented By The Adminstrator Of The National Aeronautics And Space Administration | Real-time reconfigurable adaptive speech recognition command and control apparatus and method |
US6012027A (en) * | 1997-05-27 | 2000-01-04 | Ameritech Corporation | Criteria for usable repetitions of an utterance during speech reference enrollment |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6353809B2 (en) * | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
US6188986B1 (en) | 1998-01-02 | 2001-02-13 | Vos Systems, Inc. | Voice activated switch method and apparatus |
GB9822529D0 (en) * | 1998-10-16 | 1998-12-09 | Dragon Syst Uk Ltd | Speech processing |
DE19960161C2 (en) * | 1998-12-15 | 2002-03-28 | Daimler Chrysler Ag | Method for the detection of voice-modulated broadcasts |
FI118359B (en) * | 1999-01-18 | 2007-10-15 | Nokia Corp | Method of speech recognition and speech recognition device and wireless communication |
US6519559B1 (en) * | 1999-07-29 | 2003-02-11 | Intel Corporation | Apparatus and method for the enhancement of signals |
US6910011B1 (en) * | 1999-08-16 | 2005-06-21 | Haman Becker Automotive Systems - Wavemakers, Inc. | Noisy acoustic signal enhancement |
US7117149B1 (en) * | 1999-08-30 | 2006-10-03 | Harman Becker Automotive Systems-Wavemakers, Inc. | Sound source classification |
US6594630B1 (en) * | 1999-11-19 | 2003-07-15 | Voice Signal Technologies, Inc. | Voice-activated control for electrical device |
US7155385B2 (en) | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
KR100841096B1 (en) * | 2002-10-14 | 2008-06-25 | 리얼네트웍스아시아퍼시픽 주식회사 | Preprocessing of digital audio data for mobile speech codecs |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
US7885420B2 (en) | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US7895036B2 (en) | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7725315B2 (en) | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US8073689B2 (en) | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
AU2003901539A0 (en) * | 2003-03-28 | 2003-05-01 | Cochlear Limited | Noise floor estimator |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US7680652B2 (en) | 2004-10-26 | 2010-03-16 | Qnx Software Systems (Wavemakers), Inc. | Periodic signal enhancement system |
US7716046B2 (en) | 2004-10-26 | 2010-05-11 | Qnx Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8284947B2 (en) | 2004-12-01 | 2012-10-09 | Qnx Software Systems Limited | Reverberation estimation and suppression system |
US20060146652A1 (en) * | 2005-01-03 | 2006-07-06 | Sdi Technologies, Inc. | Sunset timer |
US8027833B2 (en) | 2005-05-09 | 2011-09-27 | Qnx Software Systems Co. | System for suppressing passing tire hiss |
US8311819B2 (en) | 2005-06-15 | 2012-11-13 | Qnx Software Systems Limited | System for detecting speech with background voice estimates and noise estimates |
US8170875B2 (en) | 2005-06-15 | 2012-05-01 | Qnx Software Systems Limited | Speech end-pointer |
US7117075B1 (en) * | 2005-08-15 | 2006-10-03 | Report On Board Llc | Driver activity and vehicle operation logging and reporting |
US7995713B2 (en) * | 2006-04-03 | 2011-08-09 | Agere Systems Inc. | Voice-identification-based signal processing for multiple-talker applications |
US7844453B2 (en) | 2006-05-12 | 2010-11-30 | Qnx Software Systems Co. | Robust noise estimation |
US8326620B2 (en) | 2008-04-30 | 2012-12-04 | Qnx Software Systems Limited | Robust downlink speech and noise detector |
US8335685B2 (en) | 2006-12-22 | 2012-12-18 | Qnx Software Systems Limited | Ambient noise compensation system robust to high excitation noise |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
DE102010041435A1 (en) * | 2010-09-27 | 2012-03-29 | Siemens Medical Instruments Pte. Ltd. | Method for reconstructing a speech signal and hearing device |
WO2013061252A2 (en) | 2011-10-24 | 2013-05-02 | Cochlear Limited | Post-filter common-gain determination |
JP6127422B2 (en) | 2012-09-25 | 2017-05-17 | セイコーエプソン株式会社 | Speech recognition apparatus and method, and semiconductor integrated circuit device |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3411153A (en) * | 1964-10-12 | 1968-11-12 | Philco Ford Corp | Plural-signal analog-to-digital conversion system |
US4000369A (en) * | 1974-12-05 | 1976-12-28 | Rockwell International Corporation | Analog signal channel equalization with signal-in-noise embodiment |
US4032710A (en) * | 1975-03-10 | 1977-06-28 | Threshold Technology, Inc. | Word boundary detector for speech recognition equipment |
CA1056504A (en) * | 1975-04-02 | 1979-06-12 | Visvaldis A. Vitols | Keyword detection in continuous speech using continuous asynchronous correlation |
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
FR2451680A1 (en) * | 1979-03-12 | 1980-10-10 | Soumagne Joel | SPEECH / SILENCE DISCRIMINATOR FOR SPEECH INTERPOLATION |
US4262355A (en) * | 1979-05-11 | 1981-04-14 | Rca Corporation | System for limiting intermodulation distortion of talkspurt signals |
US4292470A (en) * | 1979-09-10 | 1981-09-29 | Interstate Electronics Corp. | Audio signal recognition computer |
JPS56126896A (en) * | 1980-03-10 | 1981-10-05 | Nippon Electric Co | Voice recognizing system |
US4352957A (en) * | 1980-03-17 | 1982-10-05 | Storage Technology Corporation | Speech detector circuit with associated gain control for a tasi system |
JPS56159400U (en) * | 1980-04-24 | 1981-11-27 | ||
JPS57177197A (en) * | 1981-04-24 | 1982-10-30 | Hitachi Ltd | Pick-up system for sound section |
JPS57178299A (en) * | 1981-04-27 | 1982-11-02 | Kyosan Electric Mfg | Recognition pattern preparation system |
US4410763A (en) * | 1981-06-09 | 1983-10-18 | Northern Telecom Limited | Speech detector |
US4489434A (en) * | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
JPS5984300A (en) * | 1982-11-08 | 1984-05-15 | 株式会社日立製作所 | Voice section detecting circuit |
JPS59111697A (en) * | 1982-12-17 | 1984-06-27 | 株式会社日立製作所 | Voice recognition system |
US4627091A (en) * | 1983-04-01 | 1986-12-02 | Rca Corporation | Low-energy-content voice detection apparatus |
JPS6063600A (en) * | 1983-08-26 | 1985-04-11 | 日本電気株式会社 | Variable threshold type voice detector |
US4696040A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with energy normalization and silence suppression |
JPS6085628A (en) * | 1983-10-15 | 1985-05-15 | Fujitsu Ten Ltd | Communication equipment |
JPS60254100A (en) * | 1984-05-30 | 1985-12-14 | 沖電気工業株式会社 | Voice recognition system |
JPS6195398A (en) * | 1984-10-17 | 1986-05-14 | 株式会社東芝 | Voice recognition equipment |
JPS61113100A (en) * | 1984-11-08 | 1986-05-30 | ヤマハ株式会社 | Voice parameter detector |
US4821325A (en) * | 1984-11-08 | 1989-04-11 | American Telephone And Telegraph Company, At&T Bell Laboratories | Endpoint detector |
FR2576472B1 (en) * | 1985-01-22 | 1988-02-12 | Alcatel Thomson Faisceaux | METHOD AND DEVICE FOR AUTOMATICALLY GAIN CONTROL OF A TIME-DIVISION MULTIPLE ACCESS RECEIVER |
JPH0673079B2 (en) * | 1985-03-29 | 1994-09-14 | 沖電気工業株式会社 | Voice section detection circuit |
JPH06105394B2 (en) * | 1986-03-19 | 1994-12-21 | 株式会社東芝 | Voice recognition system |
-
1986
- 1986-06-02 GB GB868613327A patent/GB8613327D0/en active Pending
-
1987
- 1987-05-29 DE DE3750314T patent/DE3750314T2/en not_active Expired - Fee Related
- 1987-05-29 AT AT87304793T patent/ATE109582T1/en active
- 1987-05-29 EP EP93203407A patent/EP0750291B1/en not_active Expired - Lifetime
- 1987-05-29 EP EP87304793A patent/EP0248609B1/en not_active Expired - Lifetime
- 1987-05-29 WO PCT/GB1987/000376 patent/WO1987007750A1/en unknown
- 1987-05-29 AT AT93203407T patent/ATE183009T1/en not_active IP Right Cessation
- 1987-05-29 DE DE3752288T patent/DE3752288T2/en not_active Expired - Fee Related
- 1987-05-29 JP JP62503341A patent/JP2561850B2/en not_active Expired - Lifetime
- 1987-05-29 KR KR1019880700114A patent/KR950011963B1/en not_active IP Right Cessation
- 1987-05-29 ES ES87304793T patent/ES2056819T3/en not_active Expired - Lifetime
- 1987-06-01 US US07/055,966 patent/US4912766A/en not_active Expired - Lifetime
- 1987-06-01 CA CA000538514A patent/CA1310418C/en not_active Expired - Fee Related
- 1987-06-02 DK DK282587A patent/DK171426B1/en not_active IP Right Cessation
- 1987-06-02 FI FI872450A patent/FI92113C/en not_active IP Right Cessation
-
1993
- 1993-01-11 JP JP5019720A patent/JP2654503B2/en not_active Expired - Fee Related
-
1996
- 1996-07-25 HK HK137096A patent/HK137096A/en not_active IP Right Cessation
-
1997
- 1997-01-30 JP JP9032774A patent/JPH09325790A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
FI92113B (en) | 1994-06-15 |
GB8613327D0 (en) | 1986-07-09 |
US4912766A (en) | 1990-03-27 |
KR880701435A (en) | 1988-07-27 |
WO1987007750A1 (en) | 1987-12-17 |
FI92113C (en) | 1994-09-26 |
ATE183009T1 (en) | 1999-08-15 |
CA1310418C (en) | 1992-11-17 |
ES2056819T3 (en) | 1994-10-16 |
FI872450A (en) | 1987-12-03 |
DE3752288T2 (en) | 2000-07-06 |
EP0750291A1 (en) | 1996-12-27 |
HK137096A (en) | 1996-08-02 |
ATE109582T1 (en) | 1994-08-15 |
JP2654503B2 (en) | 1997-09-17 |
EP0248609A1 (en) | 1987-12-09 |
FI872450A0 (en) | 1987-06-02 |
JPH0677894A (en) | 1994-03-18 |
DE3750314D1 (en) | 1994-09-08 |
JPH09325790A (en) | 1997-12-16 |
EP0750291B1 (en) | 1999-08-04 |
DK282587A (en) | 1987-12-03 |
DK282587D0 (en) | 1987-06-02 |
EP0248609B1 (en) | 1994-08-03 |
DK171426B1 (en) | 1996-10-21 |
JPS63503487A (en) | 1988-12-15 |
JP2561850B2 (en) | 1996-12-11 |
KR950011963B1 (en) | 1995-10-12 |
DE3752288D1 (en) | 1999-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3750314T2 (en) | Speech processor. | |
DE69636985T2 (en) | LANGUAGE PRESENCE DETECTOR FOR HALF-DUPLEX AUDIO COMMUNICATION SYSTEM | |
DE4126902C2 (en) | Speech interval - detection unit | |
DE3790072C2 (en) | Automatic gain control of analog signal | |
DE3235279C2 (en) | Speech recognition device | |
DE69918635T2 (en) | Apparatus and method for speech processing | |
DE3236885A1 (en) | METHOD AND DEVICE FOR VOICE ANALYSIS | |
DE19952538A1 (en) | Automatic speech recognition system gain regulation involves computing upper, lower, mean energy traces for tracking speech signal, and computing normalized energy from upper trace | |
DE3013344A1 (en) | DEVICE AND METHOD FOR CONTROLLING INPUT SIGNALS | |
DE3043516C2 (en) | Method and device for speech recognition | |
DE3422877C2 (en) | ||
DE2020753A1 (en) | Device for recognizing given speech sounds | |
DE4031638A1 (en) | VOICE RECOGNITION DEVICE | |
DE3750365T2 (en) | Speaker identification. | |
DE3314570A1 (en) | METHOD AND ARRANGEMENT FOR ADJUSTING THE REINFORCEMENT | |
DE69922769T2 (en) | Apparatus and method for speech processing | |
DE4031421A1 (en) | PATTERN ADJUSTMENT SYSTEM FOR A VOICE RECOGNITION DEVICE | |
DE2021126C3 (en) | Speech recognition arrangement | |
EP1152527A1 (en) | Device and method for adaption of an acoustic signal depending on the ambient noise | |
DE69112855T2 (en) | Speech signal processing device. | |
EP1279164A1 (en) | Method for detecting a voice activity decision (voice activity detector) | |
EP0845921A1 (en) | Method and circuit for regulating the volume in digital hearing aids | |
DE1206167B (en) | Circuit to improve the recognizability of sounds in sound analysis | |
EP0946015B1 (en) | Method and system for estimating transmission quality | |
EP1382034A1 (en) | Method for determining intensity parameters of background noise in speech pauses of voice signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |