DE19710953A1 - Sound signal recognition method - Google Patents

Sound signal recognition method

Info

Publication number
DE19710953A1
DE19710953A1 DE1997110953 DE19710953A DE19710953A1 DE 19710953 A1 DE19710953 A1 DE 19710953A1 DE 1997110953 DE1997110953 DE 1997110953 DE 19710953 A DE19710953 A DE 19710953A DE 19710953 A1 DE19710953 A1 DE 19710953A1
Authority
DE
Grant status
Application
Patent type
Prior art keywords
characterized
spectra
method according
device according
transformation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE1997110953
Other languages
German (de)
Inventor
Frank Dr Rer Nat Kowalewski
Original Assignee
Frank Dr Rer Nat Kowalewski
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00-G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

The components of the individual spectra are weighted initially with frequency dependent sensitivity factors (11). From these components the covering spectra are calculated. By subtraction (20) of the covering, and the spectra to be covered, an information is derived that is not perceivable by human hearing. The spectra to be covered are calculated from a transformation (12) according to sound and low-pass filtering (13), and a subsequent transformation (14) according to a loudness distinguishing scale. The covering spectra are obtained from a weighted delay (16), using low-pass filters (15), a static loudness transformation (17), a sliding transformation (18) and a transformation (19) according to the loudness distinguishing scale (20).

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erkennung von Schallsignalen, insbesondere von Sprachsignalen. The invention relates to a method and apparatus for detection of acoustic signals, in particular of speech signals.

In heute üblichen Spracherkennern werden die zu erkennenden Schallsignale zu nächst in eine Frequenz-Zeit-Darstellung (Spektrogramm) überführt. In today usual speech recognizers to be recognized sound signals to the next in a frequency-time representation (spectrogram) are transferred. Diese Spek trogramme werden mit vorgegebenen Spektrogrammen verglichen (Einzelworterkennung), bzw. Teile der zu erkennenden Spektrogramme werden mit vorgegebenen Teilspektrogrammen verglichen (Erkennung kontinuierlicher Sprache). These spectrograms with predetermined spectrograms compared (isolated word recognition), or parts to be recognized spectrograms with predetermined partial spectrograms compared (continuous speech recognition). Das dem zu erkennenden Spektrogramm ähnlichste Spektrogramm bzw. die den zu erkennenden Teilspektrogrammen ähnlichsten Teilspektrogram me werden bestimmt, und es werden Erkennungssignale daraus abgeleitet. The most similar to the spectrogram spectrogram to be recognized or to be recognized part spectrograms similar Teilspektrogram me are determined, and detection signals are derived therefrom.

Die Spektrogramme werden durch Kurzzeit-FFT, Filter-Bank, LPC- oder Cep strum-Analyse bestimmt. The spectrograms are determined by short-time FFT, filter bank, LPC or Cep strum analysis. LPC- und Cepstrum-Analyse entsprechen dem Erre gungs/Stimmkanal-Modell der menschlichen Stimmgebung. LPC and cepstrum analysis correspond to the confining Erre / vocal tract model of human vocalization. Sie versuchen die erregungs- und die stimmkanalabhängigen Eigenschaften des Schallsignals zu trennen. They are trying to separate the excitation and the vocal channel-dependent properties of the sound signal. Die Bildung von Leistungsspektren mit Hilfe von Kurzzeit-FFT oder Filter-Bank kann als grobes Modell der menschlichen Hörwahrnehmung aufgefaßt wer den. The formation of power spectra by means of short-time FFT or filter bank may be construed as a rough model of the human auditory perception who the. Durch Nachbearbeitung der Spektrogramme wird teilweise versucht, einfa che psychoakustische Effekte zu berücksichtigen. By reworking the spectrograms Sometimes they try to consider simp che psychoacoustic effects. Neben der relativ weit verbreiteten Frequenztransformation auf die Bark-Skala [US 4 956 865; In addition to the relatively widespread frequency transformation to the Bark scale [US 4,956,865; Bridle, 1974; Bridle, 1974; Mermelstein, 1976; Mermelstein, 1976; Cohen, 1989; Cohen, 1989; Gramß, 1989; Gramß, 1989; Hermansky, 1990; Hermansky, 1990; Ruske, 1992], werden seltener die statische Lautheitsempfindung [Hanson, 1984; Ruske, 1992], are rarely static loudness perception [Hanson, 1984; Schotola, 1984; Schotola, 1984; Cohen, 1989; Cohen, 1989; Gramß, 1989; Gramß, 1989; Hermansky, 1990; Hermansky, 1990; Ruske, 1992], die Hörempfindlichkeit [Cohen, 1989; Ruske, 1992], the hearing sensitivity [Cohen, 1989; Hermansky, 1990] oder zeitliche Verdeckungs phänomene [Cohen, 1989; Hermansky, 1990] or temporal concealment phenomena [Cohen, 1989; Gramß, 1989; Gramß, 1989; Paping, 1991; Paping, 1991; Gramß, 1992; Gramß, 1992; Aikawa, 1993; Aikawa, 1993; Pavel, 1994] des Menschen modelliert. Pavel, 1994] of the People modeled. Zum Teil wird die aus psychoaku stischen Untersuchungen hervorgegangene, als geeignetes Modell aber umstrit tene, 3 Bark-Integration eingesetzt [Hermansky, 1990; In part, which emerged from psychoaku stischen studies as a suitable model but umstrit tene, 3 Bark integration is used [Hermansky, 1990; Kowalewski, 1991]. Kowalewski, 1991].

Die Spektrogramme werden außerdem nach nicht psychoakustischen Gesichts punkten nach bearbeitet, vor allem um eine gegenüber Störungen robustere Er kennung zu erreichen [US 4 905 286; The spectrograms are also to not psychoacoustic face points to edit, especially to a more robust against interference He identification to achieve [US 4,905,286; US 4 914 692; US 4,914,692; US 5 220 610; US 5,220,610; US 5 590 242; US 5,590,242; Porter, 1984]. Porter, 1984]. Häufig werden dynamische Spektrogrammerkmale bestimmt, um die Erkennung unabhängig von langsamen Spektrumsänderungen zu machen [US 4 956 865; Often dynamic Spektrogrammerkmale be determined in order to render the detection independent of slow changes spectrum [US 4,956,865; Elenius, 1982; Elenius, 1982; Furui, 1986; Furui, 1986; Hanson, 1990; Hanson, 1990; Hermansky, 1994]. Hermansky, 1994]. Sprecherunabhängigkeit der Erkennung erreicht man entweder durch einen aus reichend großen Satz an Vergleichsspektrogrammen, der Sprachversionen vieler verschiedener Sprecher enthält, oder durch Sprecheradaptation [Lee, 1991; Speaker independence of detection can be reached either by one of sufficiently large set of comparison spectrograms, which contains language versions of many different speakers, or speaker adaptation [Lee, 1991; Ahadi, 1995; Ahadi, 1995; Kamm, 1995]. Kamm, 1995].

Da die heute in der Spracherkennung verwendeten Methoden der Spektrogramm berechnung entweder der Sprachkodierung entstammen oder das menschliche Gehör nur grob modellieren, enthalten die berechneten Spektrogramme im allge meinen Informationen, die vom Menschen nicht wahrgenommen werden. Since the methods of spectrogram used in speech recognition today calculating either the speech coding originate or roughly model the human hearing that contain calculated spectrograms in general to my information, which are not perceived by humans. Ent sprechend weichen die damit erreichten Erkennungsleistungen stark von denen des Menschen ab. Accordingly the recognition performance thus achieved is extremely different from those of humans. Die zusätzlichen nicht wahrnehmbaren Informationen führen zu größerer Versionsabhängigkeit, Sprecherabhängigkeit und Störungsanfällig keit (z. B. gegenüber Hintergrundgeräuschen oder Übertragungsverlusten) der maschinellen Erkenner. The additional information imperceptible lead to greater version dependency, addiction and speaker disorder susceptible speed (z. B. compared to background noise or transmission losses) of the mechanical detector.

Die Kompensation der Versions- und Sprecherabhängigkeit durch viele Ver gleichsspektrogramme verschiedener Sprachversionen bzw. Sprecher hat den Nachteil des höheren Aufwandes bei der Bestimmung der ähnlichsten Vergleichs spektrogramme. The compensation of the version and speaker dependence by many United same spectrograms of different language versions or speaker has spectrograms the disadvantage of the higher expenses in determining the most similar comparison. Sprecheradaptation erfordert vor der eigentlichen Erkennung eine Adaptationsphase, die zusätzlichen Zeitaufwand bedeutet und für kurze Erkennungsaufgaben nicht vertretbar ist. Speaker adaptation requires an adaptation phase, which means additional cost and is not acceptable for a short recognition tasks before the actual detection.

Nicht psychoakustisch orientierte Methoden zur Eliminierung von Störungen des Sprachsignals haben den Nachteil, im allgemeinen andere Informationen als das menschliche Gehör zu entfernen. Not psycho-acoustically oriented methods for eliminating interference of the speech signal have to remove the general information other than the human ear the disadvantage. Die Robustheit der Erkennung gegenüber Stö rungen weicht von der des Menschen ab. The robustness of the recognition against Stö conclusions different from that of humans.

Aufgabe der Erfindung ist es, die Erkennungsraten heutiger Erkenner für Schall signale zu verbessern. Object of the invention is to improve the detection rates today recognizer for sound signals. Die Erkennung soll robuster gegenüber Störungen ge macht werden. The recognition is to be robust to interference makes ge. Die Schallsignale sollen möglichst ähnlich dem Menschen erkannt werden. The sound signals are to be recognized as similar as possible to the people. Sprachsignale sollen versionsunabhängiger und sprecherunabhängiger erkannt werden. Voice signals to be recognized version independent and speaker-independent.

Diese Aufgabe wird durch das Verfahren mit den Merkmalen des Anspruchs 1 ge löst. This object is achieved by the method having the features of claim 1 ge.

Das Verfahren ahmt die auditive Wahrnehmung des Menschen nach. The process mimics the auditory perception of man. Dadurch macht es die Erkennung von Schallsignalen, gegenüber heute gebräuchlichen Verfahren, der menschlichen Erkennung ähnlicher. This makes the detection of acoustic signals against use today process of human recognition similar. Das Verfahren berücksichtigt die subjektive Tonhöhenwahrnehmung des Menschen, die Frequenzabhängigkeit der Hörempfindlichkeit, die statische Lautstärkewahrnehmung und Simultan- und Nachverdeckungsphänomene. The method takes into account the subjective pitch perception of man, the frequency dependence of hearing sensitivity, the static volume perception and simultaneous and Nachverdeckungsphänomene. Neben diesen auszugsweise auch durch andere Verfahren berücksichtigten psychoakustischen Effekten, werden Effekte nachge ahmt, die andere Verfahren nicht nachahmen, und zwar die Hörschwelle des Menschen, das Intensitätsunterscheidungsvermögen und die Abhängigkeit der Nachverdeckung von der Testtonlänge. In addition to these excerpts by other methods considered psychoacoustic effects are effects nachge mimics, not imitate the other method, namely the threshold of human hearing, the intensity of discrimination and the dependence of post-masking of the Testtonlänge. Statische Lautheit und Simultanver deckung werden korrekter berücksichtigt. Static loudness and Simultanver cover are properly taken into account.

Es werden Signalanteile eliminiert, die vom Menschen nicht wahrgenommen wer den. It eliminates signal components that are not perceived by the people who the. Aus Sprachsignalen werden Anteile entfernt, die keine sprachliche Informa tion enthalten. From speech signals components are removed that do not contain linguistic informa tion. Dadurch wird die Erkennung von Sprache versions- und sprecherunabhängiger. Thus, the recognition of speech is version and speaker independent. In Einzelworterkennungsexperimenten fanden wir im Ver gleich zu einem den Stand der heutigen Technik verwendenden Verfahren eine Erhöhung der sprecherabhängigen Erkennungsraten von 92,7% auf 98,8%. In isolated word recognition experiments, we found in Ver equal to the state of today's technology used method to increase the speaker-dependent recognition rate of 92.7% to 98.8%. Die sprecherunabhängigen Raten stiegen von durchschnittlich 70,9% auf 87,4% (Tabelle 1). The speaker-independent rates rose from an average of 70.9% to 87.4% (Table 1).

Diese Erkennungsraten wurden mit dem unten beschriebenen Ausführungsbei spiel des Verfahrens erzielt. This recognition rates were achieved with the below-described Ausführungsbei play of the procedure. Der verwendete A/D-Wandler hatte eine Abtastrate von T s = 1/16 kHz. The A / D converter used had a sampling rate of T s = 1/16 kHz. Es wurden N = 64-komponentige Spektren berechnet. Were calculated = 64 N-component spectra. Die Vergleichsraten wurden mit einer Anordnung bestimmt, die anstelle des gesam ten unten beschriebenen nicht-linearen Filters nur die dem Stand der Technik ent sprechenden Teile verwendet, und zwar die Gewichtung ( 11 ) der Spektrumskomponenten entsprechend der menschlichen Hörkurve und die Be rechnung der statischen Lautheit ( 12 ) durch das Monom W 1/4 . The comparative rates were determined with an arrangement, which uses only the prior art ent speaking parts instead of the TOTAL th below-described non-linear filter, namely the weight (11) of the spectrum components in accordance with the human auditory curve and the loading calculation of the static loudness (12) through the monomial W 1/4. Beide Spracher kenner wurden sowohl in den sprecherabhängigen als auch in den sprecherunabhängigen Experimenten mit einer Version eines männlichen Spre chers der 62 zu erkennenden Wörter trainiert. Both Spracher connoisseurs were 62 trained in both the speaker-dependent and speaker-independent in the experiments with a version of a male case-chers of words to be recognized. In der Testphase waren andere Versionen desselben oder anderer Sprecher zu erkennen. In the test phase, other versions were the same or detect other speakers.

Durch die verbesserte Versions- und Sprecherunabhängigkeit des Verfahrens können mit weniger Vergleichsspektrogrammen ähnliche oder bessere Erken nungsraten erzielt werden als mit herkömmlichen Verfahren. Due to the improved version and speaker independence of the process similar or better can be achieved Erken drying rates than with conventional methods with less compared spectrograms. Der besonders zeitkritische Spektrogrammerkennungsprozeß kann hierdurch beschleunigt wer den. The most time-critical Spektrogrammerkennungsprozeß can hereby who accelerates.

Durch Verwendung des Verfahrens wird die Erkennung gegenüber Störungen ro buster. By using the method, the recognition to interference ro is buster. Die sprecherabhängigen Erkennungsraten für verrauschte und höhenan gehobene Sprache wurde durch Einsatz des Verfahrens von durchschnittlich 58,3% auf 97,2% erhöht (Tabelle 1). The speaker-dependent recognition rate for noisy and höhenan elevated language has been increased by use of the method of an average of 58.3% to 97.2% (Table 1). Die Experimente wurden mit denselben un gestörten Lerndaten wie oben durchgeführt. The experiments were carried out with the same un disturbed learning data above.

Tabelle 1 Table 1

Erkennungsraten detection rates

Die Erkennungsraten lassen sich weiter steigern, indem das Filter an Art und Stär ke vorhandener Störungen angepaßt wird. The detection rates can be increased further by the filter is matched to the type and Staer ke existing disorders. Durch Erhöhung des im unten gege benen Ausführungsbeispiel beschriebenen Parameters W₀ bei additiven Störungen, nimmt die Erkennungsrate für verrauschte Sprache noch einmal von 96,0% auf 99,2% zu (Tabelle 1). By increasing the parameter W₀ described below gege surrounded embodiment in additive disorders, the recognition rate for noisy speech increases again from 96.0% to 99.2% (Table 1).

Da das nicht-lineare Filter auf zeitlich grob abgetasteten Spektrogrammen arbei tet, erfordert es nur geringen rechnerischen Mehraufwand gegenüber Verfahren, die psychoakustische Effekte nicht berücksichtigen. Since the non-linear filter tet to gross sampled time spectrograms processing, it requires little computational overhead over methods do not take into account the psychoacoustic effects.

Ein Ausführungsbeispiel der Erfindung ist in Abb. 1 und Abb. 2 darge stellt. An embodiment of the invention is shown in Fig. 1 and Fig. 2 Darge. Es handelt sich um ein Verfahren zur Einzelworterkennung. It is a method for isolated word recognition. Abb. 1 zeigt es in der Übersicht. Fig. 1 shows it in the overview.

Das zu erkennende Schallsignal wird zunächst einer Kurzzeitfrequenzanalyse ( 1 ) unterzogen, die entsprechend der Bark-Skala unterteilte Leistungsspektren lie fert. To be recognized sound signal a short-time frequency analysis (1) is first subjected, the divided according to the Bark scale power spectra lie fert. Die Leistungsspektren bilden das Spektrogramm des Schallsignals. The power spectra form the spectrogram of the sound signal. Dieses Spektrogramm wird durch ein zweidimensionales nicht-lineares Filter ( 2 ) in eine der menschlichen auditiven Erkennung besser entsprechende Form transfor miert. This spectrogram is mized by a two-dimensional non-linear filter (2) in one of the human auditory recognition better shape corresponding to transfor. Die transformierten Spektrogramme werden durch einen Vergleicher ( 3 ) mit vorgegebenen Spektrogrammen verglichen. The transformed spectrograms are compared by a comparator (3) with predetermined spectrograms. Das dem zu erkennenden Spektro gramm ähnlichste Vergleichsspektrogramm wird bestimmt. The program to be recognized spectro most similar Vergleichsspektrogramm is determined.

Wesentliches und neues Element des Erkennungsverfahrens ist das zweidimen sionale Filter ( 2 ). Key and a new member of the recognition method is the zweidimen dimensional filter (2). Es ist für die erhöhten Erkennungsraten verantwortlich. It is responsible for the increased detection rates. Abb. 2 zeigt seinen Aufbau. Fig. 2 shows its structure.

Die Komponenten der Einzelspektren werden zuerst mit frequenzabhängigen Empfindlichkeitsfaktoren gewichtet ( 11 ). The components of the individual spectra are first weighted with frequency-dependent sensitivity factors (11). Aus den gewichteten Spektren werden verdeckende und zu verdeckende Spektren berechnet. obscuring and concealing spectra are calculated from the weighted spectra. Durch komponentenwei se Subtraktion ( 20 ) der verdeckenden von den zu verdeckenden Spektren, wer den aus den zu verdeckenden Spektren Informationen entfernt, die der Mensch nicht wahrnimmt. By komponentenwei se subtraction (20) of the masking of the spectra to be concealed, who the removed from the spectra to be concealed information that is not perceived by the human.

Die zu verdeckenden Spektren errechnen sich aus den gewichteten durch kom ponentenweise Transformation ( 12 ) auf die statische Lautheit, Tiefpaßfilterung ( 13 ) und nachfolgende Transformation ( 14 ) auf eine Lautheitsunterscheidungs skala. The spectra to be concealed are calculated from the weighted by kom ponentenweise transformation (12) on the static loudness, low-pass filtering (13) and subsequent transformation (14) to a loudness scale discrimination. Die verdeckenden Spektren erhält man aus den gewichteten durch Tief paßfilterung ( 15 ), zeitliche Verzögerung ( 16 ), Anwendung der statischen Lautheitstransformation ( 17 ), lineare, bzgl. der Frequenz verschmierende Trans formation ( 18 ) und Transformation ( 19 ) auf die Lautheitsunterscheidungsskala. The masking spectrum is obtained from the weighted paßfilterung by deep (15), time delay (16), application of the static loudness transformation (17), linear, related to. The frequency smearing Trans formation (18) and transformation (19) on the loudness discrimination scale.

Im folgenden werden die einzelnen Schritte des Ausführungsbeispiels näher be schrieben. The individual steps of the embodiment are described in more detail be.

Das durch A/D-Wandlung gewonnene und zu den diskreten Zeitpunkten t ν = ν·T s , ν ε IN, T 1/16 kHz vorliegende Schallsignal S ν = S(t ν ) wird ge mäß der Rechenvorschrift The recovered by A / D conversion and at the discrete time points t ν = ν · t s, IN ε, T ν 1/16 kHz present sound signal S ν = S (t ν) is of the computation rule accelerator as

diskret Fourier-t-transformiert [Terhardt, 1985], mit den Bark-Skalen angepaßten Analyseparametern discretely [Terhardt 1985] matched with the Bark scale Fourier transformed analysis parameters t-

wobei in which

nach [Traunmüller, 1987] als Approximation der Bark-Skala genommen wird. for [Traunmüller 1987] is taken as the approximation of the Bark scale. Die Komponenten S n, ν der Fourier-t-Spektren entsprechen dem mit verschiede nen Bandpässen gefilterten Schallsignal. The components S n, ν the Fourier t spectra correspond to the filtered with Various NEN bandpass filters the sound signal. Die quadrierten Übertragungsfunktio nen der Bandpässe sind für T s = 1/16 kHz und N = 64 in Abb. 3 dargestellt. The squared Übertragungsfunktio NEN of the bandpass filters are 1/16 kHz and N = 64 = shown in Fig. 3 for T s.

Die Leistungssignale P n, ν = |S n, ν |² werden gemäß The power signals P n, ν = | S n, ν | ² are under
P′ n,0 = 0 P 'n, 0 = 0
P′ n, ν = α·P′ n, ν -1 + (1-α)·P n, ν P 'n, ν = α · P' n, ν -1 + (1-α) · P n, ν
Q′ n,µ = P′ n,c·µ Q 'n, μ = P' n, c · μ

≈ 10 ms T = ganzzahliges Vielfaches von T s ≈ 10 ms T = integer multiple of t s

zeitlich geglättet und im zeitlichen Abstand T abgetastet. temporally smoothed and sampled at the time interval T. Abb. 4 zeigt oben ein so gewonnenes Spektrogramm des Wortes "Senken". Fig. 4 shows a top so obtained spectrogram of the word "lower". Die Leistungsspektren werden nun dem zweidimensionalen Filter ( 2 ) zugeführt. The power spectra are then fed to the two-dimensional filter (2). Entsprechend Corresponding

W n,µ = w n ·Q n,µ W n, μ = w n · Q n, μ

werden die Spektrumskomponenten zunächst mit Empfindlichkeitsfaktoren w n gewichtet (11). the spectrum components are initially with sensitivity factors w n weighted (11). Die Faktoren ergeben sich aus der menschlichen Hörschwelle L(ω) zu The factors to arise from the human hearing threshold L (ω)

L(ω) kann durch lineare Interpolation der in Tabelle 2 gezeigten Werte angenä hert werden. L (ω) can be Hert angenä by linear interpolation of the values ​​shown in Table 2 below.

Tabelle 2 table 2

Menschliche Hörschwelle human hearing threshold

Die für die anschließende Berechnung der verdeckenden und der zu verdecken den Spektren nötigen statischen Lautheitstransformationen ( 12 ) und ( 17 ) können sinnvoll durch The for the subsequent calculation of the masking and covering of the spectra necessary static loudness transformations (12) and (17) can sense

approximiert werden. are approximated. W und W′ bezeichnen hier wie im folgenden das Eingangs bzw. Ausgangssignal des Verarbeitungsschrittes. W and W 'denote here as in the following the input or output signal of the processing step. Für eine möglichst menschen ähnliche Erkennung ist W₀ auf den Eingangswert W zu setzen, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zuge hörigen gewichteten Spektrums erzeugt. For people as possible similar detection W₀ is to be set to the input value W, the generates a 1 kHz tone with a sound level of 36 dB at the most sensitive point of the supplied for 1 kHz impaired weighted spectrum.

Die Tiefpaßfilter ( 13 ) und ( 15 ) bestimmen die zeitlichen Verdeckungseigenschaf ten des zweidimensionalen Filters. The low-pass filter (13) and (15) determine the time masking char acteristics of the two-dimensional filter. Sie können identisch und als Leaky-Integrato ren ausgeführt werden: They can be identical run and as leaky Integrato ren:

W′ n,µ = β·W′ n,µ-1 + (1-β)·W n,µ W 'n, μ = β · F' n, μ-1 + (1-β) · W n, μ

Diese Filter haben den Vorteil sehr einfach berechnet werden zu können. These filters have the advantage to be easily calculated. Für β erweist sich ein Wert von 0,6 als günstig. For β a value of 0.6 proves to be favorable.

Die Verzögerung ( 16 ) in der Berechnung der verdeckenden Spektren kann für Verzögerungszeiten, die nicht ganzzahlige Vielfache von T sind, nur angenähert werden, etwa durch die lineare Interpolation The delay (16) in calculating the masking spectrum can be used for delay times that are not integer multiples of T, only be approximated, for example by linear interpolation

Für γ erweist sich ein Wert von 1,0 als sinnvoll. For γ, a value of 1.0 proves to be useful.

Die zur Verschmierung der verdeckenden Spektren nötige lineare Transforma tion ( 18 ) The time required for smearing of the occluding spectra linear transformers tion (18)

soll Simultanverdeckungseffekte der menschlichen Hörwahrnehmung modellie ren. Die Zeilen der Tranformationsmatrix sollten daher dem Kehrwert psychoaku stischer Tuningkurven entsprechen. to simultaneous masking effects of the human auditory perception modellie reindeer. The rows of Tranformationsmatrix should therefore correspond to the inverse of psychoaku-extremist tuning curves. Das wird durch die Wahl That is the choice

erreicht. reached. δ kann sinnvoll auf 0,05 gesetzt werden. δ can be usefully set to 0.05. Abb. 5 zeigt die resultie rende Matrix für N = Z(f Nyq ) = 21 in bildlicher Form. Fig. 5 shows the resultie Rende matrix for N = Z (f Nyq) = 21, in pictorial form.

Bei der oben gegebenen Wahl der statischen Lautheitstransformationen ( 12 ) und ( 17 ), ist es sinnvoll die Lautheitsunterscheidungstransformationen ( 14 ) und ( 19 ) gemäß Given the above choice of static loudness transformations (12) and (17) it is advisable the loudness discrimination transformations (14) and (19) in accordance with

vorzunehmen. make.

Abb. 4 zeigt unten das darüber dargestellte Wort "Senken" nach Bearbei tung durch das beschriebene zweidimensionale Filter ( 2 ). Fig. 4 below shows the word appearing about "lowering" by machining processing by the described two-dimensional filter (2).

Zum Vergleich der gefilterten Spektrogramme mit vorgegebenen Spektrogram men wird ein DTW-Verfahren ( 3 ) eingesetzt. For comparison of the filtered spectrograms with predetermined spectrogram men a DTW-process (3) is used. Die vorgegebenen Spektrogramme werden aus Wortversionen berechnet, deren Wortklassen bekannt sind. The given spectrograms are calculated from word versions, the word classes are known. Die Spektrogramme werden mit demselben Verfahren wie die zu erkennenden Spek trogramme berechnet. The spectrograms are calculated using the same method as the recognizable spectrograms. Es wird das Vergleichsspektrogramm bestimmt, dessen DTW-Abstand zum zu erkennenden Spektrogramm am kleinsten ist. the Vergleichsspektrogramm it is determined the DTW distance to be recognized spectrogram is smallest. Seine Wort klasse wird ausgegeben. His word class is issued.

Mit Vorteil kann ein modifiziertes DTW-Verfahren eingesetzt werden, das beliebi ge Zeitverzerrungen zuläßt und Schritte ohne Zeitverzerrung mit einem Faktor C Diag ε [0, 1], vorzugsweise C Diag = 0, 7, gewichtet. Advantageously, a modified DTW method may be employed which allows beliebi ge time distortions and steps without time distortion by a factor C Diag ε [0, 1], preferably C Diag = 0, 7 weighted. Der Abstand D(W (1) , W (2) ) zweier Spektrogramme W (1) n,µ , W (2) n, ν (µ = 1, . . ., M₁; v = 1, . . ., M₂) berechnet sich dann nach: The distance D (W (1) W (2)) of two spectrograms W (1) n, μ, W (2) n, ν (μ = 1, M₁,... V = 1,... M₂) is then calculated by:

Referenzen credentials

Ahadi, SM und PC Woodland: "Rapid speaker adaptation using model predic tion", Proc. Ahadi, SM and PC Woodland: "Rapid speaker adaptation using model Predic tion", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech 1995, Detroit, MI, 684-687. Speech 1995, Detroit, MI, 684-687.
Aikawa, K., H. Singer, H. Kawahara und Y. Tohkura: "A dynamic cepstrum incor porating time-frequency masking and its application to continuous speech re cognition", Proc. Aikawa, K., H. Singer, H. Kawahara and Y. Tohkura: "A dynamic cepstrum incor porating time-frequency masking and its application to continuous speech re cognition", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech Signal Process. Speech Signal Process. 1993, Minneapolis, MN, II-668-671. 1993, Minneapolis, MN, II 668-671.
Bridle, JS und MD Brown: "An experimental automatic word recognition sy stem", JSRU Report Nr. 1003, Ruislip, England: Joint Speech Research Unit, 1974. Bridle, JS and MD Brown: "An experimental automatic word recognition sy stem", JSRU Report No. 1003, Ruislip, England. Joint Speech Research Unit in 1974.
Cohen JR: "Application of an auditory model to speech recognition", J. Acoust. Cohen JR: "Application of an auditory model to speech recognition", J. Acoust. Soc. Soc. Amer., Bd. 85 (1989), Nr. 6, 2623-2629. Amer., Vol. 85 (1989), Nr. 6, 2623-2629.
Elenius, K. und M. Blomberg: "Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system", Proc. Elenius, K. and M. Blomberg: "Effects of emphasizing transitional or stationary parts of the speech signal in a discrete utterance recognition system", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech Signal Process. Speech Signal Process. 1982, Paris, France, 535-537. 1982, Paris, France, 535-537.
Furui, S.: "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Tans. Acoust. Furui, S .: "Speaker-independent isolated word recognition using dynamic features of speech spectrum", IEEE Tans. Acoust. Speech Signal Process., Bd. 34 (1986), 52-59. Speech Signal Process., Vol. 34 (1986), 52-59.
Gramß, T. und HW Strube: "Entwicklung mehrschichtiger neuronaler Netzwerke zur Worterkennung und -reproduktion", Informationstechnik, Bd. 5 (1989), 324-333. Gramß, T. and HW Strube: "Development of multilayer neural networks for the word recognition and reproduction," Information Technology, Vol 5 (1989), 324-333..
Gramß, T.: "Worterkennung mit einem künstlichen neuronalen Netz", Dissertati on, Georg-August-Universität Göttingen, 1992. Gramß, T .: "word recognition with an artificial neural network" Dissertati on, Georg-August-University of Goettingen., 1992
Hanson, B. und D. Wong: "The harmonic magnitude suppression (HMS) tech nique for intelligibility enhancement in the presence of interfering speech", Proc. Hanson, B. and D. Wong: "The harmonic suppression magnitude (HMS) tech nique for intelligibility enhancement in the presence of interfering speech", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech Signal Process. Speech Signal Process. 1984, 18.A.5.1.-18.A.5.4. 1984 18.A.5.1.-18.A.5.4.
Hanson, BA und TH Applebaum: "Robust speaker-independent word recogni tion using static, dynamic and acceleration features: experiments with Iombard and noisy speech", Proc. Hanson, BA and TH Applebaum: "Robust speaker-independent word recogni tion using static, dynamic and acceleration features: experiments with Iombard and noisy speech", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech Signal Process. Speech Signal Process. 1990, 857-860. 1990, 857-860.
Hermansky H.: "Perceptual linear predictive (PLP) analysis of speech", J. Acoust. Hermansky H .: "Perceptual linear predictive (PLP) analysis of speech", J. Acoust. Soc. Soc. Amer., Bd. 87 (1990), Nr. 4, 1738-1752. Amer., Vol. 87 (1990), no. 4, 1738-1752.
Hermansky H. und N. Morgan: "RASTA processing of speech", IEEE Trans. Speech Audio Process., Bd. 2 (1994), Nr. 4, 578-589. Hermansky H. and N. Morgan: "RASTA processing of speech", IEEE Trans Speech Audio Process, Vol 2 (1994), No. 4, 578-589.....
Kamm T., AG Andreou und J. Cohen: "Vocal tract normalization in speech re cognition: Compensation for systematic speaker variability", Proc. Comb T., AG Andreou and J. Cohen: "Vocal tract normalization in speech re cognition: Compensation for systematic variability speaker", Proc. 1 5th Annual Speech Research Symposium 1995, Johns Hopkins University, Baltimore, MI, 175-179. 1 5th Annual Speech Research Symposium 1995, Johns Hopkins University, Baltimore, MI, 175-179.
Kowalewski, F.: "Rückgekoppelte und wachsende neuronale Netze zur dynami schen Erkennung von Sprache", Dissertation, Georg-August-Universität Göt tingen, 1991. Kowalewski, F .: "Recurrent and growing neural networks to dynami rule recognizing speech," Dissertation, Georg-August University Göt tingen., 1991
Lee CH., CH. Lee CH., CH. Lin und BH. Lin and bra. Juang: "A study on speaker adaptation of the para meters of continuous density hidden Markov models", IEEE Trans. Signal Pro cess., Bd. 39 (1991), Nr. 4, 806-814. Juang, "A study on speaker adaptation of the para meters of continuous density hidden Markov models", IEEE Trans Signal Pro cess, Vol 39 (1991), No. 4, 806-814.....
Mermelstein, P.: "Distance measures for speech recognition, psychological and instrumental", in Pattern Recognition and Artificial Intelligenoe, Hrsg. RCH Chen, Academic Press, New York, 1976, 374-388. Mermelstein, P .: "Distance measures for speech recognition, psychological and instrumental" in Pattern Recognition and Artificial Intelligenoe, ed. RCH Chen, Academic Press, New York, 1976, 374-388.
Paping, M. und HW Strube: "Psychoakustische Vorverarbeitung zur Spracher kennung", Fortschritte der Akustik - DAGA′91,1 991, 997-1000. Paping, M. and HW Strube: "Psycho-acoustic preprocessing for Spracher recognition," Advances in Acoustics - DAGA'91,1 991, 997-1000.
Pavel M. und H. Hermansky: "Temporal masking in automatic speech recogniti on", J. Acoust. Pavel M. and H. Hermansky: "Temporal masking in automatic speech recogniti on", J. Acoust. Soc. Soc. Amer., Bd. 95(1994), Nr. 5, 2876ff. Amer., Vol. 95 (1994), no. 5, 2876ff.
Porter JE und SF Boll: "Optimal estimators for spectral restoration of noisy speech", Proc. Porter JE and SF Boll: "Optimal estimators for spectral restoration of noisy speech", Proc. IEEE Internat. IEEE Internat. Conf. Conf. Acoust. Acoust. Speech Signal Process. Speech Signal Process. 1984, San Diego, CA, 18.A.2.1.-18.A.2.4. 1984, San Diego, CA, 18.A.2.1.-18.A.2.4.
Ruske, G. und M. Beham: "Gehörbezogene automatische Spracherkennung", in Sprachliche Mensch-Maschine-Kommunikation, H. Mangold (Hrsg.), Olden bourg, München usw., 1992, 33-47. Ruske, G. and M. Beham 'hearing-related automatic speech recognition ", in language man-machine communication, H. Mangold (ed.), Olden bourg, Munich, etc., 1992, 33-47.
Schotola, T.: "On the use of demisyllables in automatic word recognition", Speech Comm., Bd. 3 (1984), 63-87. Schotola, T .: "On the use of demisyllables in automatic word recognition," Speech Comm., Vol. 3 (1984), 63-87.
Terhardt, E.: "Fourier transformation of time tignals: conceptual revision", Acustica, Bd. 57 (1985), 242-256. Terhardt, E .: "Fourier transformation of time tignals: conceptual revision", Acustica, Vol 57 (1985) 242-256..
Traunmüller, H. und F. Lacerda: "Perceptual relativity in identification of two-for mant vowels", Speech Comm., Bd. 6 (1987), 143-157. Traunmüller, H. and F. Lacerda: "Perceptual relativity in identification of two-for mant vowels" Speech Comm, Vol 6 (1987), 143-157...

US Patent, Nr. 4.905.286 US patent no. 4,905,286
US Patent, Nr. 4.914.692 US patent no. 4,914,692
US Patent, Nr. 4.956.865 US patent no. 4,956,865
US Patent, Nr. 5.220.610 US patent no. 5,220,610
US Patent, Nr. 5.590.242 US patent no. 5,590,242

Claims (26)

  1. 1. Ein Verfahren zur Erkennung von Schallsignalen, das einen Verarbeitungs schritt zur Gewinnung von Bark-Skalen-angepaßten Kurzzeitleistungsspek tren und eine Spektrogrammerkennungsstufe aufweist, gekennzeichnet durch : 1. A method for detection of acoustic signals, the step of obtaining a processing Bark scale-adapted short-term performance spotting tren and having a Spektrogrammerkennungsstufe, characterized by:
    • i) die Gewichtung ( 11 ) der Komponenten der Bark-Leistungsspektren des zu erkennenden Schallsignals entsprechend der menschlichen Hörkurve. i) the weighting (11) the components of the Bark power spectrum of the sound signal to be recognized according to human hearing curve.
    • ii) die Berechnung zu verdeckender Spektren aus den in Verfahrensschritt i) gewonnenen Spektren durch Transformation ( 12 ) auf die statische Laut heit, Tiefpaßfilterung ( 13 ) und anschließende Transformation ( 14 ) auf eine Lautheitsunterscheidungsskala. ii) the calculation to occluding spectra from the obtained in process step i) by transformation of spectra (12) (on the static loudness, low-pass filtering 13), and subsequent transformation (14) to a loudness scale discrimination.
    • iii) die Berechnung verdeckender Spektren aus den in Verfahrensschritt i) gewonnenen Spektren durch Tiefpaßfilterung ( 15 ), Verzögerung ( 16 ), An wendung einer mit der statischen Lautheitstransformation ( 12 ) aus Schritt ii) identischen Lautheitstransformation ( 17 ), verschmierende linea re Transformation ( 18 ) und Transformation ( 19 ) auf die Lautheitsunter scheidungsskala aus Schritt ii) ( 14 ). iii) the calculation occluding spectra from the obtained in process step i) spectra by low-pass filtering (15), delay (16), identical to application of a (with the static loudness transformation 12) from step ii) loudness transformation (17), smear linea re transformation ( 18) and transformation (19) on the loudness scale discrimination of step ii) (14).
    • iv) komponentenweise Subtraktion ( 20 ) der verdeckenden Spektren aus Schritt iii) von den zu verdeckenden Spektren aus Schritt ii) und Weiter leitung der resultierenden Spektren an die Spektrogrammerkennungsstu fe. iv) component-wise subtraction (20) of the masking spectrum from step iii) of the to be concealed spectra from step ii) and further the resulting spectra to the line Spektrogrammerkennungsstu fe.
  2. 2. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit leistungsspektren durch schnelle Fouriertransformation berechnet werden, wobei benachbarte Komponenten der Fourier-Leistungsspektren zu Bark breiten Komponenten zusammengefaßt werden. 2. A method according to claim 1, characterized in that the short time power spectra are computed by fast Fourier transform, with adjacent components of the Fourier power spectra to Bark wide components are combined.
  3. 3. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit leistungsspektren durch Fourier-t-Transformation berechnet werden, wobei die Analyseparameter entsprechend der Bark-Skala gewählt werden. 3. A method according to claim 1, characterized in that the short time power spectra are calculated by Fourier-t-transformation, wherein the analysis parameters corresponding to the Bark scale can be selected.
  4. 4. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Kurzzeit leistungsspektren durch eine Filterbank berechnet werden, wobei die Filter entsprechend der Bark-Skala gewählt werden. 4. A method according to claim 1, characterized in that the short time power spectra are calculated by a filter bank, the filter according to the Bark scale can be selected.
  5. 5. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die statischen Lautheitstransformationen ( 12 ) und ( 17 ) der Verfahrensschritte ii) und iii) des Anspruchs 1 gegeben sind durch 5. A method according to claim 1, characterized in that the static loudness transformations (12) and (17) the method steps ii) and iii) of claim 1 are given by
  6. 6. Ein Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Konstante W₀ der Lautheitstransformation aus Anspruch 5 auf den Eingangswert W ge setzt wird, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zugehörigen gewichteten Spektrums erzeugt. 6. A method according to claim 5, characterized in that the constant W₀ loudness Transformation of claim 5 to the input value W is ge is that a 1 kHz tone with a sound level of 36 dB at the most sensitive for 1 kHz instead of the associated Weighted spectrum generated.
  7. 7. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Tiefpaßfil ter ( 13 ) und ( 15 ) der Verfahrensschritte ii) und iii) des Anspruchs 1 identische Leaky-Integratoren sind. 7. A method according to claim 1, characterized in that the Tiefpaßfil ter (13) and (15) the method steps ii) and iii) of claim 1 are identical leaky integrators.
  8. 8. Ein Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die Leaky-In tegratoren aus Anspruch 7 durch W′ n,µ = β·W′ n,µ1 + (1-β)·W n,µ 8. A method according to claim 7, characterized in that the leaky In integrators of claim 7 by W 'n, μ = β · F' n, μ1 + (1-β) · W n, μ
    β = 0, 6 β = 0, 6
    W n,µ = n-te Komponente des µ-ten Eingangsspektrums W n, μ = n-th component of the μ-th input spectrum
    W′ n,µ = n-te Komponente des µ-ten Ausgangsspektrumsgegeben sind. W 'n, are μ = n-th component of the μ-th output spectrum Given.
  9. 9. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die ver schmierende lineare Transformation ( 18 ) aus Schritt iii) des Anspruchs 1 ge geben ist durch: f Nyq = 1(2T s ) 9. A method according to claim 1, characterized in that the lubricating ver linear transformation (18) of step iii) of claim 1 ge give by: f = 1 Nyq (2T s)
    N = Anzahl der Spektrumskomponenten N = number of spectrum components
    T s = Abtastperiode T s = sampling period
    W m,µ = m-te Komponente des µ-ten Eingangsspektrums W m, μ = m-th component of the μ-th input spectrum
    W′ n,µ = n-te Komponente des µ-ten Ausgangsspektrums W 'n, μ = n-th component of the μ-th output spectrum
  10. 10. Ein Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß der Parameter δ zur Berechnung der Verschmierungsmatrix M n,m aus Anspruch 9 den Wert 0,05 hat. 10. A method according to claim 9, characterized in that the parameter δ for calculating the Verschmierungsmatrix M n, m of claim 9 has the value 0.05.
  11. 11. Ein Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß die Lautheits unterscheidungstransformationen ( 14 ) und ( 19 ) aus Schritt ii) und iii) des An spruchs 1 gegeben sind durch: 11. A method according to claim 5, characterized in that the loudness distinctive transformations (14) and (19) from step ii) and iii) of the entitlement to 1 are given by:
  12. 12. Ein Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Parameter der in Anspruch 1 beschriebenen Verarbeitungsschritte für verschiedene Stö rungen des zu erkennenden Schallsignals verschieden und evtl. zeitlich lang sam veränderlich gewählt werden und sowohl das zu erkennende Spektrogramm als auch die Vergleichsspektrogramme mit diesen Parame tern bearbeitet werden. 12. A method according to claim 1, characterized in that the parameters of the processing steps described in claim 1 for different Stö BY recognizable sound signal different and possibly time-length are selected sam variable and both to be recognized spectrogram and the comparative spectrograms using this Parame tern be edited.
  13. 13. Ein Verfahren nach Anspruch 12, dadurch gekennzeichnet, daß aus den un gefilterten Leistungsspektrogrammen der zu erkennenden Schallsignale Art und Stärke vorhandener Störungen geschätzt werden und aus dieser Schät zung die für das Verfahren nach Anspruch 12 benötigten Parameter abgelei tet werden. 13. A method according to claim 12, characterized in that the type and strength of existing faults are estimated from the filtered power un spectrograms to be recognized sound signals, and from this contemptuous wetting required for the method of claim 12 Parameter abgelei tet be.
  14. 14. Eine Vorrichtung zur Erkennung von Schallsignalen, die eine Einrichtung zur Gewinnung von Bark-Skalen-angepaßten Kurzzeitleistungsspektren und eine Einrichtung zur Erkennung von Spektrogrammen aufweist, gekenn zeichnet durch: 14. An apparatus for detection of acoustic signals, comprising means for obtaining Bark scale-adapted short term power spectra and means for detecting spectrograms, characterized by:
    • i) eine Einrichtung zur Gewichtung ( 11 ) der Komponenten der durch die Kurzzeitfrequenzanalyseeinrichtung gelieferten Bark-Leistungsspektren des zu erkennenden Schallsignals entsprechend der menschlichen Hör kurve. i) means for weighting (11) of the components supplied by the short-time frequency analysis means Bark power spectrum of the sound signal to be recognized according to human hearing curve.
    • ii) eine Einrichtung zur Berechnung zu verdeckender Spektren aus den durch Einrichtung i) gewonnenen Spektren durch Transformation ( 12 ) auf die statische Lautheit, Tiefpaßfilterung ( 13 ) und anschließende Transfor mation ( 14 ) auf eine Lautheitsunterscheidungsskala. ii) means for calculating for occluding spectra from the acquired through means i) spectra by transformation (12) on the static loudness, low-pass filtering (13) and subsequent transfor mation (14) to a loudness scale discrimination.
    • iii) eine Einrichtung zur Berechnung verdeckender Spektren aus den durch Einrichtung i) gewonnenen Spektren durch Tiefpaßfilterung ( 15 ), Verzö gerung ( 16 ), Anwendung einer mit der statischen Lautheitstransformation ( 12 ) der Einrichtung ii) identischen Lautheitstransformation ( 17 ), ver schmierende lineare Transformation ( 18 ) und Transformation ( 19 ) auf die Lautheitsunterscheidungsskala der Einrichtung ii) ( 14 ). iii) means for calculating occluding spectra from the acquired through means i) spectra by low-pass filtering (15), deferrers delay (16), application of a (with the static loudness transformation 12) of the means ii) identical loudness transformation (17), ver lubricating linear transformation (18) and transformation (19) (on the loudness discrimination scale of the device ii) 14).
    • iv) eine Einrichtung zur komponentenweisen Subtraktion ( 20 ) der durch Ein richtung iii) gelieferten verdeckenden Spektren von den durch Einrichtung ii) gelieferten zu verdeckenden Spektren und Weiterleitung der resultierenden Spektren an die Spektrogrammerkennungseinrich tung. iv) means for component-wise subtraction (20) supplied by a directional iii) masking of the spectra by means ii) provided to be concealed spectra and transmission of the resulting spectra to the Spektrogrammerkennungseinrich processing.
  15. 15. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz zeitleistungsspektren durch schnelle Fouriertransformation berechnet wer den, wobei benachbarte Komponenten der Fourier-Leistungsspektren zu Bark-breiten Komponenten zusammengefaßt werden. 15. An apparatus according to claim 14, characterized in that the time power spectrums calculated by short fast Fourier transform who to, and adjacent components of the Fourier power spectra for Bark-wide components are combined.
  16. 16. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz zeitleistungsspektren durch Fourier-t-Transformation berechnet werden, wo bei die Analyseparameter entsprechend der Bark-Skala gewählt werden. 16. A device according to claim 14, characterized in that the time be short power spectra calculated by Fourier transform-t, where selected for the analysis parameters corresponding to the Bark scale.
  17. 17. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Kurz zeitleistungsspektren durch eine Filterbank berechnet werden, wobei die Fil ter entsprechend der Bark-Skala gewählt werden. 17. A device according to claim 14, characterized in that the time be short power spectra calculated by a filter bank, wherein the Fil ter be selected according to the Bark scale.
  18. 18. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die stati schen Lautheitstransformationen ( 12 ) und ( 17 ) der Einrichtungen ii) und iii) des Anspruchs 14 gegeben sind durch 18. A device according to claim 14, characterized in that the rule stati loudness transformations (12) and (17) are given to the means ii) and iii) of claim 14 by
  19. 19. Eine Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß die Kon stante W₀ der Lautheitstransformation aus Anspruch 18 auf den Eingangs wert W gesetzt wird, den ein 1 kHz-Ton mit einem Schallpegel von 36 dB an der für 1 kHz empfindlichsten Stelle des zugehörigen gewichteten Spektrums erzeugt. 19. A device according to claim 18, characterized in that the con stant W₀ loudness Transformation of claim 18 to the input is set to value W, the a 1 kHz tone with a sound level of 36 dB at the most sensitive for 1 kHz instead of the associated Weighted spectrum generated.
  20. 20. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Tief paßfilter ( 13 ) und ( 15 ) der Einrichtungen ii) und iii) des Anspruchs 14 identi sche Leaky-Integratoren sind. 20. A device according to claim 14, characterized in that the low-pass filters (13) and (15) of the means ii) and iii) of claim 14 identi cal leaky integrators.
  21. 21. Eine Vorrichtung nach Anspruch 20, dadurch gekennzeichnet, daß die Lea ky-Integratoren aus Anspruch 20 durch W′ n,µ = β·W′ n,µ-1 + (1-β)·W n,µ 21. A device according to claim 20, characterized in that the Lea ky integrators of claim 20 by W 'n, μ = β · F' n, μ-1 + (1-β) · W n, μ
    β = 0, 6 β = 0, 6
    W n,µ = n-te Komponente des µ-ten Eingangsspektrums W n, μ = n-th component of the μ-th input spectrum
    W′ n,µ = n-te Komponente des µ-ten Ausgangsspektrumsgegeben sind. W 'n, are μ = n-th component of the μ-th output spectrum Given.
  22. 22. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die ver schmierende lineare Transformation ( 18 ) der Einrichtung iii) des Anspruchs 14 gegeben ist durch: f Nyq = 1/(2T s ) 22. A device according to claim 14, characterized in that given the ver lubricating linear transformation (18) of the device iii) of claim 14 by: f Nyq = 1 / (2T s)
    N = Anzahl der Spektrumskomponenten N = number of spectrum components
    T s = Abtastperiode T s = sampling period
    W m,µ = m-te Komponente des µ-ten Eingangsspektrums W m, μ = m-th component of the μ-th input spectrum
    W′ n,µ = n-te Komponente des µ-ten Ausgangsspektrums W 'n, μ = n-th component of the μ-th output spectrum
  23. 23. Eine Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, daß der Para meter δ zur Berechnung der Verschmierungsmatrix M n,m aus Anspruch 22 den Wert 0,05 hat. 23. A device according to claim 22, characterized in that the para meters δ has to calculate the Verschmierungsmatrix M n, m of claim 22 the value 0.05.
  24. 24. Eine Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, daß die Lautheitsunterscheidungstransformationen ( 14 ) und ( 19 ) der Einrichtungen ii) und iii) des Anspruchs 14 gegeben sind durch: 24. A device according to claim 18, characterized in that given the loudness discrimination transformations (14) and (19) of the means ii) and iii) of claim 14 by:
  25. 25. Eine Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Para meter der in Anspruch 14 beschriebenen Einrichtungen für verschiedene Stö rungen des zu erkennenden Schallsignals verschieden und evtl. zeitlich langsam veränderlich gewählt werden und sowohl das zu erkennende Spek trogramm als auch die Vergleichsspektrogramme mit diesen Parametern be arbeitet werden. 25. A device according to claim 14, characterized in that the para meters of the devices described in claim 14 for various Stö BY recognizable sound signal different and may be selected slowly with time variable and both to be recognized Spek trogramm and the comparative spectrograms with these parameters are works be.
  26. 26. Eine Vorrichtung nach Anspruch 25, dadurch gekennzeichnet, daß aus den ungefilterten Leistungsspektrogrammen der zu erkennenden Schallsignale Art und Stärke vorhandener Störungen geschätzt werden und aus dieser Schätzung die für die Vorrichtung nach Anspruch 25 benötigten Parameter abgeleitet werden. 26. A device according to claim 25, characterized in that the type and strength of existing faults are estimated from the unfiltered output of the spectrograms to be detected sound signals and the required for the apparatus according to claim 25 parameters are derived from this estimate.
DE1997110953 1997-03-17 1997-03-17 Sound signal recognition method Withdrawn DE19710953A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1997110953 DE19710953A1 (en) 1997-03-17 1997-03-17 Sound signal recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1997110953 DE19710953A1 (en) 1997-03-17 1997-03-17 Sound signal recognition method

Publications (1)

Publication Number Publication Date
DE19710953A1 true true DE19710953A1 (en) 1997-07-24

Family

ID=7823600

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1997110953 Withdrawn DE19710953A1 (en) 1997-03-17 1997-03-17 Sound signal recognition method

Country Status (1)

Country Link
DE (1) DE19710953A1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19925046A1 (en) * 1999-06-01 2001-05-03 Alcatel Sa Method and apparatus for suppressing noise and echoes
WO2002082033A1 (en) * 2000-10-31 2002-10-17 Qualcomm Incorporated System and method for improving voice recognition in noisy environments and frequency mismatch conditions
DE102004049457B3 (en) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for extracting an audio signal underlying melody

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
EP0673013A1 (en) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha Signal encoding and decoding system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US5535300A (en) * 1988-12-30 1996-07-09 At&T Corp. Perceptual coding of audio signals using entropy coding and/or multiple power spectra
EP0673013A1 (en) * 1994-03-18 1995-09-20 Mitsubishi Denki Kabushiki Kaisha Signal encoding and decoding system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19925046A1 (en) * 1999-06-01 2001-05-03 Alcatel Sa Method and apparatus for suppressing noise and echoes
WO2002082033A1 (en) * 2000-10-31 2002-10-17 Qualcomm Incorporated System and method for improving voice recognition in noisy environments and frequency mismatch conditions
US6694294B1 (en) 2000-10-31 2004-02-17 Qualcomm Incorporated System and method of mu-law or A-law compression of bark amplitudes for speech recognition
DE102004049457B3 (en) * 2004-10-11 2006-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for extracting an audio signal underlying melody

Similar Documents

Publication Publication Date Title
Mammone et al. Robust speaker recognition: A feature-based approach
Hermansky et al. Compensation for the effect of the communication channel in auditory-like analysis of speech (RASTA-PLP)
Hermansky et al. RASTA processing of speech
US5381512A (en) Method and apparatus for speech feature recognition based on models of auditory signal processing
Reynolds Experimental evaluation of features for robust speaker identification
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
Strope et al. A model of dynamic auditory perception and its application to robust word recognition
Hu et al. Monaural speech segregation based on pitch tracking and amplitude modulation
Van Immerseel et al. Pitch and voiced/unvoiced determination with an auditory model
Kingsbury et al. Robust speech recognition using the modulation spectrogram
Varga et al. Hidden Markov model decomposition of speech and noise
US6098040A (en) Method and apparatus for providing an improved feature set in speech recognition by performing noise cancellation and background masking
US5933801A (en) Method for transforming a speech signal using a pitch manipulator
Junqua et al. Robustness in automatic speech recognition: fundamentals and applications
Zhao et al. CASA-based robust speaker identification
Haggard et al. Pitch as a voicing cue
Wang et al. Self-normalization and noise-robustness in early auditory representations
US4829574A (en) Signal processing
Yegnanarayana et al. Speech enhancement using linear prediction residual
Bou-Ghazale et al. A comparative study of traditional and newly proposed features for recognition of speech under stress
Shao et al. Robust speaker identification using auditory features and computational auditory scene analysis
Xiao et al. Normalization of the speech modulation spectra for robust speech recognition
Pitton et al. Time-frequency analysis and auditory modeling for automatic recognition of speech
US5483617A (en) Elimination of feature distortions caused by analysis of waveforms
US4509186A (en) Method and apparatus for speech message recognition

Legal Events

Date Code Title Description
OR8 Request for search as to paragraph 43 lit. 1 sentence 1 patent law
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
8122 Nonbinding interest in granting licenses declared
8105 Search report available
8141 Disposal/no request for examination