DE19854420C2 - Method and device for processing sound signals - Google Patents

Method and device for processing sound signals

Info

Publication number
DE19854420C2
DE19854420C2 DE1998154420 DE19854420A DE19854420C2 DE 19854420 C2 DE19854420 C2 DE 19854420C2 DE 1998154420 DE1998154420 DE 1998154420 DE 19854420 A DE19854420 A DE 19854420A DE 19854420 C2 DE19854420 C2 DE 19854420C2
Authority
DE
Germany
Prior art keywords
sound signal
value
sound
determined
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1998154420
Other languages
German (de)
Other versions
DE19854420A1 (en
Inventor
Gonzalo Lucioni
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE1998154420 priority Critical patent/DE19854420C2/en
Publication of DE19854420A1 publication Critical patent/DE19854420A1/en
Application granted granted Critical
Publication of DE19854420C2 publication Critical patent/DE19854420C2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die Erfindung betrifft ein Verfahren und eine Einrichtung zum Verarbeiten von Schallsignalen, insbesondere in einer Tele­ kommunikationsanlage.The invention relates to a method and a device for Processing sound signals, especially in a tele communication system.

Derartige Verfahren werden eingesetzt, um fehlerhafte Zuord­ nungen eines zu verarbeitenden Schallsignals zu einem Wort eines vorgegebenen Wortschatzes zu vermeiden. Üblicherweise wird in solchen Verfahren ein Zuverlässigkeitswert ermittelt, der innerhalb eines vorgegebenen Bereiches liegend anzeigt, daß das Schallsignal mit hoher Wahrscheinlichkeit auf einem in dem Wortschatz enthaltenen Wort beruht. Liegt der Zuver­ lässigkeitswert außerhalb des vorgegebenen Bereichs, so ge­ hört das Schallsignal wahrscheinlich zu einem in dem Wort­ schatz nicht enthaltenen Fremdwort oder zu einem Störge­ räusch. In diesem Fall wird beispielsweise die Wiederholung des Wortes angefordert, welches zur Entstehung des verarbei­ teten Schallsignals gehört hat. Ist eine Wiederholung des Wortes ausgeschlossen, oder wurde das Schallsignal z. B. durch ein Störgeräusch wie z. B. ein Hust- oder ein Klopfgeräusch erzeugt, so wird das Schallsignal ignoriert.Such methods are used to assign incorrect assignments a sound signal to be processed into a word to avoid a given vocabulary. Usually a reliability value is determined in such procedures, that shows lying within a given range, that the sound signal with a high probability on a word contained in the vocabulary. The confidence lies non-compliance value outside the specified range, so ge probably hears the sound signal to one in the word treasure foreign word not included or to a Störge noise reduction. In this case, for example, the repetition of the word requested, which is the origin of the processing heard sound signal. Is a repetition of the Word excluded, or was the sound signal z. B. by a noise such as B. a coughing or pounding sound generated, the sound signal is ignored.

Beispielsweise ist aus der Patentschrift DD 301 420 A7 ein Verfahren zur Erkennung von Sprache an einem Niederfrequenz­ ausgang eines Funkempfängers bekannt, bei dem zwei für Spra­ che typische und energiereiche Frequenzen (450 Hz und 720 Hz) aus einem empfangenen Signal herausgefiltert werden. An­ schließend wird ermittelt, wie oft die Signalamplitude der herausgefilterten Signale einen ermittelten Schwellwert über­ schreiten. Bei 10 Überschreitungen innerhalb einer bestimmten Zeitspanne wird eine Erkennungsmeldung für Sprache generiert und ein Magnetband zur Aufzeichnung des am Funkempfänger emp­ fangenen Signals eingeschaltet. Bei dem beschriebenen Verfah­ ren erfolgt eine Unterscheidung zwischen Sprache und Störgeräuschen somit durch eine Detektierung einer bestimmten An­ zahl von Signalamplituden eines zu untersuchenden Signals bei Signalfrequenzen von 450 Hz und 720 Hz.For example, from the patent specification DD 301 420 A7, a method for recognizing speech at a low-frequency output of a radio receiver is known, in which two frequencies which are typical for language and are high-energy (450 Hz and 720 Hz) are filtered out from a received signal. It is then determined how often the signal amplitude of the filtered signals exceed a determined threshold value. If 10 violations are exceeded within a certain period of time, a recognition message for speech is generated and a magnetic tape is switched on for recording the signal received at the radio receiver. In the process described, a distinction is made between speech and background noise by detecting a certain number of signal amplitudes of a signal to be examined at signal frequencies of 450 Hz and 720 Hz.

Des weiteren ist aus der US-Patentschrift US 4,441,203 eine Anordnung zur automatischen Unterscheidung zwischen Sprache und Musik bekannt, bei der aus einem zu untersuchenden Audio­ signal die Frequenzen kleiner 800 Hz herausgefiltert werden. Anschließend wird aus dem verbleibenden Audiosignal mit Fre­ quenzen größer 800 Hz der im Audiosignal enthaltene Energie­ gehalt jeweils innerhalb mehrsekündiger Intervalle ermittelt. Übersteigt der ermittelte Energiegehalt einen Referenzwert, so wird das Audiosignal als Musik identifiziert, übersteigt der Energiegehalt den Referenzwert nicht, wird das Audiosi­ gnal als Sprache identifiziert.Furthermore, there is one from US Pat. No. 4,441,203 Arrangement for automatic distinction between speech and music known in the case of an audio to be examined signal the frequencies below 800 Hz are filtered out. Then the remaining audio signal with Fre frequencies greater than 800 Hz of the energy contained in the audio signal content determined within intervals of several seconds. If the determined energy content exceeds a reference value, so the audio signal is identified as music, exceeds the energy content is not the reference value, the audiosi gnal identified as language.

Bei bekannten Verfahren werden somit zum Zwecke der Abweisung von Fremdworten oder Störgeräuschen bestimmte Parameter aus dem Schallsignal ermittelt, auf deren Grundlage die Berech­ nung des Zuverlässigkeitswertes erfolgt. Diese Verfahren funktionieren insbesondere bei solchen Spracherkennungssyste­ men hinreichend zuverlässig, die mit einem festen, sprecheru­ nabhängigen Basiswortschatz arbeiten. Der Begriff "sprecheru­ nabhängig" bedeutet in diesem Zusammenhang, daß die Parame­ ter, die zur Spracherkennung der in dem Basiswortschatz ent­ haltenen Worte erforderlich sind, aus Daten gewonnen werden, die unabhängig von der Stimme des jeweiligen Benutzers sind. Die vorstehend genannten Parameter werden üblicherweise vor dem eigentlichen Spracherkennungsvorgang als Spracheinga­ ben einer Vielzahl unterschiedlicher Sprecher ermittelt.In known methods are therefore used for the purpose of rejection certain parameters from foreign words or noise determined the sound signal, on the basis of which the calc The reliability value is determined. This procedure work especially with such speech recognition systems men sufficiently reliable, that with a firm, spokenu dependent basic vocabulary. The term "sprecheru In this context, "dependent" means that the parameter ter that is used for speech recognition in the basic vocabulary words are required, are obtained from data, that are independent of the user's voice. The above parameters are common  before the actual speech recognition process as speech input ben a variety of different speakers determined.

Probleme treten bei den bekannten Verfahren jedoch dann auf, wenn der Wortschatz des Spracherkennungssystems neben dem sprecherunabhängigen Basiswortschatz einen sprecherabhängigen individuellen Ergänzungswortschatz enthält.However, problems occur with the known methods if the vocabulary of the speech recognition system next to the speaker-independent basic vocabulary a speaker-dependent contains individual supplementary vocabulary.

"Sprecherabhängig" bedeutet hier, daß die Parameter, die zur Spracherkennung der in dem Ergänzungswortschatz enthalte­ nen Worte benötigt werden, aus Daten ermittelt werden, die aus Spracheingaben des jeweiligen Benutzers selbst resultie­ ren. Diese Spracheingaben nimmt der Benutzer vor dem eigent­ lichen Spracherkennungsvorgang in einem oder mehreren soge­ nannten Trainingsdurchläufen vor. Die zur Spracherkennung eingesetzten Parameter sind deshalb von der Stimme des jewei­ ligen Benutzers abhängig. Mit einem solchen Ergänzungswort­ schatz kann der Benutzer den zur Spracherkennung verwendeten Wortschaft entsprechend seinen individuellen Anforderungen beliebig erweitern."Speaker-dependent" here means that the parameters that for speech recognition contained in the supplementary vocabulary words are needed from data that are determined resultie from voice input of the respective user ren. These voice inputs the user takes before the actual Liche speech recognition process in one or more so-called named training runs. The voice recognition parameters used are therefore from the voice of each dependent user. With such a supplementary word treasure the user can use the speech recognition Word order according to his individual requirements expand as desired.

Die Probleme, die in den bisher verwendeten Verfahren bei Verwendung eines um einen Ergänzungswortschatz erweiterten Wortschatzes auftreten, sind darin begründet, daß die für diese Verfahren entwickelten Rückweisungsstrategien auf den bekannten Basiswortschatz, nicht jedoch auf den von vornher­ ein unbekannten Ergänzungswortschatz abgestimmt sind. Die Rückweisungsstrategien der bekannten Verfahren sind deshalb nur bedingt einsetzbar, wenn der Wortschatz um einen Ergän­ zungswortschatz erweitert ist. Dies gilt insbesondere für die Rückweisung von Störgeräuschen.The problems in the methods used so far Use of an extended vocabulary Vocabulary occur, are due to the fact that for these procedures developed rejection strategies on the well-known basic vocabulary, but not from the outset an unknown supplementary vocabulary are matched. The Rejection strategies of the known methods are therefore can only be used to a limited extent if the vocabulary is supplemented vocabulary is expanded. This applies in particular to the Rejection of noise.

Aufgabe der Erfindung ist es, ein Verfahren und eine Einrich­ tung anzugeben, die auch bei Verwendung eines sprecherabhän­ gigen Ergänzungswortschatzes eine zuverlässige Abweisung von Störgeräuschen ermöglichen. The object of the invention is a method and a device to specify which also when using a speaker suspension supplementary vocabulary a reliable rejection of Allow noise.  

Die Erfindung löst diese Aufgabe verfahrensmäßig durch die im Anspruch 1 angegebenen Merkmale und einrichtungsmäßig durch die im Anspruch 11 angegebenen Merkmale.The invention solves this problem procedurally by the features specified in claim 1 and furnishing by the features specified in claim 11.

Der Erfindung liegt die Erkenntnis zugrunde, daß in Schallsi­ gnalen, die auf stimmhaften Sprachlauten beruhen, die Energie bei einer vorgegebenen Grundfrequenz und bei Frequenzen, die ein Vielfaches dieser Grundfrequenz betragen, besonders groß ist. Diese Grundfrequenz ist in Fachkreisen auch unter der Bezeichnung Pitch-Frequenz und die auf sie entfallende Ener­ gie des Schallsignals unter der Bezeichnung Pitch-Energie bekannt. Das Auftreten einer besonders großen Pitch-Energie ist also typisch für stimmhafte Sprachlaute der menschlichen Sprache. Die Pitch-Frequenz beträgt üblicherweise etwa 125 Hz bei Männern und etwa 250 Hz bei Frauen.The invention is based on the finding that in Schallsi gnalen, which are based on voices, the energy at a given fundamental frequency and at frequencies that a multiple of this fundamental frequency, particularly large is. This basic frequency is also below that in specialist circles Name of pitch frequency and the energy it accounts for gie of the sound signal under the name of pitch energy known. The occurrence of a particularly large pitch energy is therefore typical for voiced speech sounds of the human Language. The pitch frequency is usually around 125 Hz in men and about 250 Hz in women.

Das erfindungsgemäße Verfahren sieht nun vor, ein im folgen­ den auch als Stimmhaftigkeitsmaß bezeichnetes Maß für die Anregung der Pitch-Frequenz, also ein Maß für die Pitch-Ener­ gie, als unterscheidungskräftiges Merkmal einzusetzen, um ein vorgegebenes Schallsignal entweder als menschlichen Sprach­ laut oder als Störgeräusch zu klassifizieren. Das Ausnutzen der Pitch-Energie zur Spracherkennung ist insbesondere in Spracherkennungssystemen von Vorteil, deren Wortschatz sich aus einem sprecherunabhängigen Basiswortschatz und einem sprecherabhängigen Erweiterungswortschatz zusammensetzt. Die Pitch-Energie eines menschlichen Sprachlauts ist nämlich un­ abhängig davon, ob dieser Sprachlaut einem Wort des Basis­ wortschatzes oder einem Wort des Ergänzungswortschatzes zuzu­ ordnen ist, deutlich größer als die entsprechende Energie eines auf einem Störgeräusch beruhenden Schallsignals. Die Ausnutzung der Pitch-Energie ermöglicht es so, unabhängig vom verwendeten Wortschatz des Spracherkennungssystems Störge­ räusche zuverlässig abzuweisen.The method according to the invention now provides one in the following the measure also called the voicing measure for the Excitation of the pitch frequency, i.e. a measure of the pitch ener gie, as a distinctive feature to a given sound signal either as human speech classified loudly or as noise. Exploiting the pitch energy for speech recognition is particularly in Speech recognition systems of advantage, whose vocabulary is different from a speaker-independent basic vocabulary and one speaker dependent extension vocabulary. The The pitch energy of a human speech is namely un depending on whether this wording is a word of the base vocabulary or a word of the supplementary vocabulary order is significantly larger than the corresponding energy  a sound signal based on noise. The Utilization of the pitch energy makes it possible, regardless of vocabulary used by the speech recognition system Störge Rejecting noises reliably.

Das erfindungsgemäße Verfahren kann gewinnbringend in einer Telekommunikationsanlage für Telefonanwendungen eingesetzt werden, die mit einem Spracherkennungssystem ausgestattet ist.The method according to the invention can be profitable in one Telecommunications system used for telephone applications be equipped with a speech recognition system is.

In einer Weiterbildung des erfindungsgemäßen Verfahrens kann als Schalldatum der Energiegehalt des Schallsignals in einem vorbestimmten Frequenzbereich ermittelt, werden, der mit hoher Wahrscheinlichkeit die bestimmte Schallsignalfrequenz ent­ hält. Da der Wert der Pitch-Frequenz in stimmhaften Sprach­ lauten näherungsweise bekannt ist, läßt sich stets ein geeig­ neter Frequenzbereich angeben, in dem die Pitch-Frequenz ent­ halten ist. Auf diese Weise kann mit einer einmaligen Ein­ stellung dieses Frequenzbereichs die Pitch-Energie von stimm­ haften Sprachlauten eines jeden beliebigen Benutzers zuver­ lässig ermittelt werden.In a development of the method according to the invention as the sound date, the energy content of the sound signal in one predetermined frequency range are determined, the high Probability ent the determined sound signal frequency holds. Because the value of the pitch frequency in voiced speech is approximately known, it can always be used Specify the frequency range in which the pitch frequency hold is. This way, with a one time one position of this frequency range the pitch energy of voice are responsible for the speech sounds of any user can be determined casually.

Im Rahmen einer Vorverarbeitung des Schallsignals können aus dessen Abtastwerten für Schallsignalausschnitte vorgegebener Dauer jeweils mehrere Energiewerte ermittelt werden, die je­ weils den Energiegehalt eines Frequenzbandes des Schallsi­ gnals angeben. Für jeden Schallsignalausschnitt werden dann diejenigen Energiewerte zu einem Zwischenwert summiert, die den in dem vorbestimmten Frequenzbereich liegenden Frequenz­ bändern zugeordnet sind. Als Schalldatum wird die auf die Dauer des Schallsignals bezogene Anzahl derjenigen Signalaus­ schnitte ermittelt, deren Zwischenwerte mindestens gleich einem vorgegebenen Schwellenwert sind. Da die Energiewerte zur Weiterverarbeitung des Schallsignals im Rahmen der Spracherkennung ohnehin ermittelt werden müssen, bedeutet die Berechnung der Pitch-Energie praktisch keinen zusätzlichen Aufwand. Die Energiewerte können nach dem bekannten Verfahren der schnellen Fourier-Transformation, kurz FFT-Verfahren, ermittelt werden. Die Pitch-Energie kann so sehr schnell be­ rechnet werden.As part of a preprocessing of the sound signal can whose samples for sound signal excerpts more predetermined Duration of several energy values are determined, each because the energy content of a frequency band of the sound Specify gnals. Then for each sound signal section those energy values summed up to an intermediate value that the frequency in the predetermined frequency range bands are assigned. The sound date is that on the Duration of the sound signal related number of those signal cuts determined, their intermediate values at least equal are a predetermined threshold. Because the energy values for further processing of the sound signal within the Speech recognition must be determined anyway, that means Calculation of the pitch energy practically no additional Expenditure. The energy values can be according to the known method  the fast Fourier transform, or FFT for short, be determined. The pitch energy can be very quickly be counted.

In einer weiteren Ausgestaltung der Erfindung gibt eine erste Zugehörigkeitsfunktion den Zusammenhang zwischen der tatsäch­ lichen Ausprägung des Merkmals und der Zugehörigkeit zu einer vorgegebenen ersten Ausprägung des Merkmals an. Mindestens eine weitere Zugehörigkeitsfunktion gibt den Zusammenhang zwischen der tatsächlichen Ausprägung des Merkmals und der Zugehörigkeit zu einer von der ersten Ausprägung verschiede­ nen zweiten Ausprägung des Merkmals an. Zu dem Schalldatum werden aus der ersten Zugehörigkeitsfunktion ein erster Funk­ tionswert und aus der zweiten Zugehörigkeitsfunktion ein zweiter Funktionswert ermittelt. Aus den beiden Funktionswer­ ten werden nach vorgegebenen Verknüpfungsregeln ein Zuverläs­ sigkeitswert ermittelt, der angibt, mit welcher Wahrschein­ lichkeit dem Schallsignal ein Wort aus dem vorgegebenen Wort­ schatz zugeordnet werden kann. Dem Schallsignal wird nur dann ein Wort des Wortschatzes zugeordnet, wenn der Zuverlässig­ keitswert in einem vorgegebenen Bereich liegt. Das Schall­ signal wird als nicht zu einem Wort des Wortschatzes gehörend zurückgewiesen, wenn der Zuverlässigkeitswert außerhalb des vorgegebenen Bereiches liegt. Durch das Vorsehen nur weniger Zugehörigkeitsfunktionen entstehen einfache und überschaubare Verknüpfungsregeln. Durch Veränderung der Verknüpfungsregeln lassen sich wiederum Parameter bei der Festlegung des Zuver­ lässigkeitswertes auf überschaubare Weise ändern. Sind die Verknüpfungsregeln einmal festgelegt, so erfolgt die Ermitt­ lung des Zuverlässigkeitswertes mit den aus der Fuzzy-Technik bekannten Verfahren.In a further embodiment of the invention there is a first Membership function the relationship between the actual characteristic of the characteristic and the affiliation to one predetermined first version of the feature. At least another membership function provides the connection between the actual expression of the characteristic and the Belonging to a different form from the first second characteristic of the feature. To the sound date the first membership function becomes a first radio tion value and from the second membership function second function value determined. From the two functions according to the given linking rules liquidity value determined, which indicates with what probability the sound signal a word from the given word treasure can be assigned. The sound signal is only then a word of the vocabulary assigned if the reliable value lies in a predetermined range. The sound signal does not belong to a word of the vocabulary rejected if the reliability value is outside the predetermined range. By providing only less Membership functions are simple and manageable Linking rules. By changing the linking rules can in turn be parameters when determining the ver Change the casualness value in a manageable way. Are the Once linking rules have been defined, the determination is made reliability value with those from fuzzy technology known methods.

Da die Zugehörigkeitsfunktionen unabhängig von den Verknüp­ fungsregeln festgelegt werden können, lassen sich innerhalb eines gewissen Bereiches Fehler beim Festlegen der Verknüp­ fungsregeln durch eine geeignete Wahl der Zugehörigkeitsfunk­ tionen ausgleichen. Andererseits werden durch optimal gewählte Regeln auch Fehler beim Festlegen der Zugehörigkeitsfunk­ tionen ausgeglichen.Since the membership functions regardless of the link rules can be defined within a certain range error when setting the link rules through a suitable choice of membership radio equalize. On the other hand, are chosen by optimal  Also regulate errors when setting the membership radio balanced.

In einer weiteren vorteilhaften Weiterbildung der Erfindung werden neben dem Stimmhaftigkeitsmaß drei weitere Maße einge­ setzt, nämlich ein Wortdauermaß, ein Ähnlichkeitsmaß und ein Differenzmaß. Diese Maße werden später bei der Erläuterung eines konkreten Ausführungsbeispiels detailliert beschrieben. Durch die Berücksichtigung drei weiterer Merkmale wird die Zuverlässigkeit bei der Klassifikation des Schallsignals wei­ ter erhöht. In einem ersten Teilverfahren werden das Stimm­ haftigkeitsmaß und das Wortdauermaß miteinander verknüpft, da diese beiden Merkmale geeignet sind, Schallsignale, die auf Störgeräuschen beruhen, von solchen zu unterscheiden, die auf Worten des Wortschatzes beruhen. In einem zweiten Teilverfah­ ren werden das Ähnlichkeitsmaß und das Differenzmaß miteinan­ der verknüpft, da diese beiden Merkmale geeignet sind, Schallsignale, die auf nicht im Wortschatz enthaltenen Worten beruhen, von solchen zu unterscheiden, die auf Worten des Wortschatzes beruhen. Anschließend wird aus den Ergebnissen der Einzelverknüpfungen des Zuverlässigkeitswertes durch die Verknüpfung der Zwischenergebnisse nach vorgegebenen Verknüp­ fungsregeln erzeugt.In a further advantageous development of the invention In addition to the voicing measure, three further measures are inserted sets, namely a word duration measure, a similarity measure and a Differential dimension. These dimensions will be explained later of a concrete embodiment described in detail. By considering three other features, the White reliability in the classification of the sound signal ter increased. In a first sub-procedure, the vote liability measure and the word duration measure linked together, because these two characteristics are suitable, sound signals that are on Disturbing noises are to be distinguished from those based on Vocabulary words are based. In a second part The degree of similarity and the difference are compared which links because these two characteristics are suitable Sound signals on words not contained in the vocabulary are to be distinguished from those based on the words of the Vocabulary based. Then the results the individual links of the reliability value through the Linking the intermediate results according to the given link rules created.

Sämtliche Verknüpfungsregeln für dieses Vorgehen lassen sich auch deshalb vergleichsweise einfach ermitteln, weil die mit den Verknüpfungsregeln durchgeführten Schlußfolgerungen in zwei Stufen durchgeführt werden. In der ersten Stufe werden einerseits das Stimmhaftigkeitsmaß und das Wortdauermaß und andererseits das Ähnlichkeitsmaß und das Differenzmaß mitein­ ander verknüpft. In der zweiten Stufe werden dann die Ergeb­ nisse der Verknüpfungen der ersten Stufe noch einmal mitein­ ander verknüpft. Die Verknüpfungsregeln lassen sich für das zweistufige Verfahren leichter finden als für ein einstufiges Verfahren. Außerdem sind die Verknüpfungsregeln selbst bei einem zweistufigen Verfahren einfacher als bei einem einstu­ figen Verfahren. All linking rules for this procedure can be also comparatively easy to determine because with the conclusions in two stages can be carried out. In the first stage on the one hand the voicing measure and the word duration measure and on the other hand, the similarity measure and the difference measure other linked. In the second stage, the results of the links in the first stage other linked. The linking rules can be used for the Finding two-step procedures easier than for a one-step Method. In addition, the link rules themselves are at a two-step process is easier than with a one-step process process.  

Es ist weiterhin von Vorteil, für Störgeräusche mindestens ein Wortmodell zu erzeugen, das bei der Verarbeitung des Schallsignals berücksichtigt wird. So können Störgeräusche, die mit einer ungewöhnlich großen Pitch-Energie versehen sind und so ohne die eben genannte Weiterbildung der Erfindung fälschlicherweise als auf einem Wort des Wortschatzes beru­ hend klassifiziert werden würden, zuverlässig abgewiesen wer­ den. Das Wortmodell kann beispielsweise zur Nachbildung von Atmungsgeräuschen bestimmt sein. Auf diese Weise können At­ mungsgeräusche, die z. B. durch Luftverwirbelungen an der Ab­ deckung eines Mikrofons eine hohe Pitch-Energie erlangen, als Störgeräusche klassifiziert werden.It is also advantageous, at least for background noise to generate a word model that is used in processing the Sound signal is taken into account. So noise, with an unusually large pitch energy and so without the aforementioned development of the invention erroneously based on a word of vocabulary who would be classified, reliably rejected the. The word model can be used, for example, to emulate Breathing noises. In this way At murmurs that z. B. by air turbulence at the Ab coverage of a microphone achieve a high pitch energy than Noise can be classified.

Gemäß einem weiteren Aspekt der Erfindung ist eine Einrich­ tung zum Verarbeiten von Schallsignalen und insbesondere zum Durchführen des vorstehend erläuterten Verfahrens vorgesehen.According to a further aspect of the invention is a device processing for processing sound signals and in particular for Carried out the method explained above.

Weitere vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen sowie der folgenden Beschrei­ bung.Further advantageous developments of the invention result itself from the subclaims and the following description environment.

Die Erfindung wird im folgenden an Hand der Figuren näher erläutert. Darin zeigen:The invention is explained in more detail below with the aid of the figures explained. In it show:

Fig. 1 den zeitlichen Verlauf eines zu verarbeitenden Sprachsignals, Fig. 1 shows the time profile of a processed speech signal,

Fig. 2 eine Fensterfunktion zum Ausblenden eines Signal­ ausschnittes des in Fig. 1 gezeigten Sprachsi­ gnals, Fig. 2 is a window function for a signal Blend detail of the Sprachsi shown in Fig. 1 gnals,

Fig. 3 den zeitlichen Verlauf des mit der Fensterfunktion nach Fig. 2 ausgeblendeten Signalausschnittes, Fig. 3 shows the time course of the hidden by the window function of FIG. 2 signal cutout,

Fig. 4 ein Ablaufdiagramm zur Illustration, wie ein Stimm­ haftigkeitsmaß bestimmt wird, Fig. 4 is a flow diagram illustrating how a tuner is determined haftigkeitsmaß,

Fig. 5 das je am Beispiel des Wortes "REGENSCHIRM" ermit­ telte Stimmhaftigkeitsmaß und Fig. 5, the determined based on the example of the word "UMBRELLA" voiced and

Fig. 6 das Blockschaltbild einer Einrichtung, in der Schallsignale unter Verwendung des Stimmhaftig­ keitsmaßes weiterverarbeitet werden, Figure is a block diagram of a device, are processed in the sound signals using the Stimmhaftig keitsmaßes. 6,

Fig. 7 zwei "Hidden-Markov"-Modelle für die Worte "Hallo" und "bunt" und Fig. 7 two "Hidden Markov" models for the words "hello" and "colorful" and

Fig. 8 ein gemeinsames "Hidden-Markov-Modell" für die Worte "Hallo" und "bunt". Fig. 8 a common "hidden Markov model" for the words "hello" and "colorful".

Die folgende Beschreibung ist inhaltlich in zwei Schwerpunkte gegliedert. Zunächst wird an Hand der Fig. 1 bis 5 erläu­ tert, wie aus einem Schallsignal ein Maß für die Pitch-Ener­ gie ermittelt wird, dessen Verwendung zur Klassifizierung des Schallsignals als einem vorgegebenen Wortschatz zugehörig oder als auf einem Störgeräusch beruhend nachfolgend an Hand der Fig. 6 bis 8 beschrieben wird. Das darzustellende Aus­ führungsbeispiel bezieht sich dabei auf ein Spracherkennungs­ system, das in einer für Telefonanwendungen ausgelegten Tele­ kommunikationsanlage eingesetzt wird.The following description is divided into two main areas. First, FIG. 1 to 5 as determined from a sound signal a measure of the pitch Ener energy is at hand erläu tert, the use of which belongs to the classification of the sound signal as a predefined vocabulary or on a noise based below with reference to Figure . 6 to 8 is described. The example to be presented relates to a speech recognition system that is used in a telecommunications system designed for telephone applications.

In Fig. 1 ist ein digitalisiertes Schallsignal x gezeigt, das den Ausgangspunkt einer nachstehend erläuterten Spektral­ analyse bildet. Das in Fig. 1 gezeigte Schallsignal x geht aus einem nicht dargestellten Analogsignal hervor, welches in bekannter Weise zu diskreten Zeitpunkten abgetastet, quanti­ siert und codiert worden ist. Die Abtastrate beträgt bei dem erläuterten Beispiel 8 kHz, wodurch nach dem Abtasttheorem die Bandbreite der in dem digitalisierten Sprachsignal x ent­ haltenen Frequenzen mit 4 kHz festgelegt ist.In Fig. 1, a digitized sound signal x is shown, which forms the starting point of a spectral analysis explained below. The sound signal x shown in Fig. 1 emerges from an analog signal, not shown, which has been sampled, quantized and encoded in a known manner at discrete times. In the example explained, the sampling rate is 8 kHz, which means that, according to the sampling theorem, the bandwidth of the frequencies contained in the digitized speech signal x is fixed at 4 kHz.

Um das Schallsignal x einer Spektralanalyse unterziehen zu können, müssen aus diesem zunächst hinreichend kurze Signalausschnitte ausgeblendet werden, in denen das Schallsignal x als näherungsweise stationär angesehen werden kann. Dies kann beispielsweise über eine im Stand der Technik bekannte Ham­ ming-Fensterfunktion HF erfolgen, die für das vorgestellte Beispiel in Fig. 2 dargestellt ist. Die technische Realisie­ rung der Hamming-Fensterfunktion HF ist an sich bekannt und wird deshalb an dieser Stelle nicht näher erläutert.In order to be able to subject the sound signal x to a spectral analysis, sufficiently short signal sections in which the sound signal x can be regarded as approximately stationary must first be masked out. This can be done, for example, via a Ham-ming window function HF known in the prior art, which is shown in FIG. 2 for the example presented. The technical implementation of the Hamming window function HF is known per se and is therefore not explained in more detail here.

In den Fig. 1 bis 3, die sich alle auf denselben Zeitbe­ reich t beziehen, ist ein zur Spektralanalyse herangezogener Signalausschnitt durch die punktierten Linien 1 und 1' ge­ kennzeichnet. In dem vorgestellten Beispiel hat der betrach­ tete Signalausschnitt eine Länge von 25 ms, so daß er bei der vorgegebenen Abtastrate von 8 kHz 200 Abtastwerte enthält. Um den ausgeblendeten Signalausschnitt nach Fig. 3 zu erhalten, an dem die Spektralanalyse nachfolgend durchgeführt wird, wird der in Fig. 1 gezeigte Signalausschnitt einer Fal­ tungsoperation mit der entsprechenden, in Fig. 2 fett ge­ zeichneten Hamming-Fensterfunktion HF unterworfen.In Figs. 1 to 3, all rich t refer to the same Zeitbe, a zoom solid for spectral signal segment is terized by the dotted lines 1 and 1 '. In the example presented, the signal section under consideration has a length of 25 ms, so that it contains 200 samples at the specified sampling rate of 8 kHz. In order to obtain the hidden signal section according to FIG. 3, on which the spectral analysis is subsequently carried out, the signal section shown in FIG. 1 is subjected to a folding operation with the corresponding Hamming window function HF shown in bold in FIG. 2.

Das vorstehend erläuterte Ausblenden hinreichend kurzer Si­ gnalausschnitte des Sprachsignals x mittels der Hamming-Fen­ sterfunktion HF, erfolgt bei dem erläuterten Beispiel alle 10 ms. Auf diese Weise wird eine zeitliche Folge aus sich über­ lappenden Signalausschnitten, im folgenden auch als "Fenster" bezeichnet, ermittelt, an denen jeweils eine Fourier-Trans­ formation durchgeführt wird und so eine zeitliche Folge von spektralen Energieverteilungen erzeugt wird, die jeweils für den betrachteten Signalausschnitt angeben, wie sich die in dem Sprachsignal enthaltene Energie auf einzelne Frequenzen bzw. Frequenzbänder innerhalb der Bandbreite des Schallsi­ gnals x verteilt. Jedem Signalausschnitt des Schallsignals x wird so eine spektrale Energieverteilung zugeordnet, die im Stand der Technik auch unter der Bezeichnung Kurzzeitspektrum bekannt ist. Um die Kurzzeitspektren möglichst schnell zu ermitteln, ist vorzugsweise das FFT-Verfahren anzuwenden, welches gegenüber anderen Verfahren zur Fourier-Transformati­ on den Vorteil höherer Verarbeitungsgeschwindigkeit hat.The above-described masking out of sufficiently short Si Signal sections of the speech signal x using the Hamming fen In the example explained, the HF function takes place every 10 ms. In this way, a chronological sequence is over itself overlapping signal sections, hereinafter also called "windows" designated, determined, on each of which a Fourier Trans formation is carried out and thus a chronological sequence of spectral energy distributions are generated, each for indicate the considered signal section, how the in the energy contained in the speech signal on individual frequencies or frequency bands within the bandwidth of the sound distributed x. Each signal section of the sound signal x a spectral energy distribution is assigned that in State of the art also called short-term spectrum is known. To get the short-term spectra as fast as possible the FFT method should preferably be used,  which is different from other Fourier transform methods on has the advantage of higher processing speed.

In dem Kurzzeitspektrum des betrachteten Signalausschnittes sind den in dem Schallsignal x auftretenden Frequenzen bzw. Frequenzbändern jeweils ein Energiewert Ei zugeordnet, der die Anregung der betreffenden Frequenz bzw. des entsprechen­ den Frequenzbandes in dem betrachteten Signalausschnitt wi­ derspiegelt. i steht hierbei für einen Laufindex, mit dem die einzelnen Energiewerte des betrachteten Kurzzeitspektrums durchnumeriert sind. In dem erläuterten Beispiel werden je Kurzzeitspektrum 129 Energiewerte Ei bestimmt, so daß i von 0 bis 128 läuft. Wie vorstehend erläutert, geben die Energie­ werte Ei die spektrale, d. h. frequenzabhängige Energievertei­ lung innerhalb des betrachteten Signalausschnittes an. Zur besseren Modellierung des Zusammenhangs zwischen der Energie des Schallsignals x und der Empfindlichkeit des menschlichen Gehörs werden die Energiewerte Ei jeweils durch Logarithmus­ bildung des eigentlichen Energiewertes gewonnen.In the short-term spectrum of the signal section under consideration, the frequencies or frequency bands occurring in the sound signal x are each assigned an energy value E i which reflects the excitation of the relevant frequency or the corresponding frequency band in the signal section under consideration. i stands for a running index with which the individual energy values of the considered short-term spectrum are numbered. In the example explained, 129 energy values E i are determined for each short-term spectrum , so that i runs from 0 to 128. As explained above, the energy values E i indicate the spectral, ie frequency-dependent, energy distribution within the signal section under consideration. For better modeling of the relationship between the energy of the sound signal x and the sensitivity of the human ear, the energy values E i are obtained by logarithm formation of the actual energy value.

Fig. 4 zeigt die Vorverarbeitung des Schallsignals x, in der auf Grundlage der ermittelten Kurzzeitspektren die Pitch- Energie ermittelt wird, welche bei stimmhaften Sprachlauten besonders groß ist, und so die Abgrenzung von Worten eines vorgegebenen Wortschatzes gegenüber Störgeräuschen ermög­ licht. Zunächst wird das Schallsignal x, wie vorstehend unter Bezugnahme auf die Fig. 1 bis 3 beschrieben, verarbeitet. Im Ergebnis stehen die Kurzzeitspektren zur Verfügung, d. h. die den jeweiligen Signalausschnitten zugeordneten Energie­ werte Ei. In einem weiteren Schritt wird als Pitch-Energie PM die Summe einer vorgegebenen Anzahl von Energiewerten Ei ge­ bildet, die den Energiegehalt innerhalb eines bestimmten Be­ reichs der Bandbreite des Schallsignals x wiedergibt. In dem hier erläuterten Beispiel ist für die Energiewerte Ei ein äquidistantes Frequenzraster mit einer Auflösung von etwa 31 Hz festgelegt. Nimmt man an, daß die Frequenz für i = 0 den Wert Null hat, so wird durch die in Fig. 4 gezeigte Summenbildung der Energiewerte Ei für i = 3 bis i = 9 der Energie­ gehalt in dem Frequenzbereich von etwa 90 bis etwa 280 Hz ermittelt. Durch die Festlegung dieses Energiebereichs ist sichergestellt, daß die Pitch-Energie, die wie eingangs er­ wähnt bei Männern etwa 125 Hz und bei Frauen etwa 250 Hz be­ trägt, bei der vorstehend erläuterten Summenbildung tatsäch­ lich berücksichtigt wird. Fig. 4 shows the preprocessing of the sound signal x, in which on the basis of the short-term spectra determined, the pitch energy is determined, which is particularly large in voiced speech sounds, and thus the delimitation of words of a given vocabulary from background noise enables light. First, the sound signal x is processed as described above with reference to FIGS. 1 to 3. As a result, the short-term spectra are available, ie the energy values E i assigned to the respective signal sections. In a further step, the sum of a predetermined number of energy values E i ge, which represents the energy content within a certain range of the bandwidth of the sound signal x, is formed as the pitch energy PM. In the example explained here, an equidistant frequency grid with a resolution of approximately 31 Hz is defined for the energy values E i . Assuming that the frequency for i = 0 has the value zero, the sum of the energy values Ei for i = 3 to i = 9 shown in FIG. 4 brings the energy in the frequency range from approximately 90 to approximately 280 Hz determined. By defining this energy range, it is ensured that the pitch energy, which he mentions as about 125 Hz for men and about 250 Hz for women, is actually taken into account in the above-mentioned summation.

Die Pitch-Energie PM wird also für jeden Signalausschnitt des Sprachsignals x, d. h. für jedes Fenster berechnet. Als Stimm­ haftigkeitsmaß SM, welches angibt, wie stark die Stimmhaftig­ keit bei einem vorgegebenen Schallsignal ausgeprägt ist, wird im weiteren die auf die Wortdauer normierte Anzahl derjenigen Fenster herangezogen, deren Pitch-Energie einen vorgegebenen Schwellwert Q übersteigt. In Fig. 4 ist die Ermittlung des Stimmhaftigkeitsmaßes SM in dem der Ermittlung der Pitch- Energie folgenden Schritt dargestellt. In dem hier vorge­ stellten Beispiel wird der Zählerstand k eines nicht darge­ stellten Zählers ausgehend von dem Wert Null sukzessive um Eins erhöht, wenn nach Wortbeginn die Pitch-Energie den Schwellwert Q von 4000 überschreitet. Der am Wortende er­ reichte Zählerstand k gibt direkt das Stimmhaftigkeitsmaß SM an.The pitch energy PM is therefore calculated for each signal section of the speech signal x, ie for each window. As a voicing measure SM, which indicates how strong the voicing speed is for a given sound signal, the number of windows normalized to the word duration is used whose pitch energy exceeds a predetermined threshold value Q. In FIG. 4, the determination of the Stimmhaftigkeitsmaßes SM is shown in the determining the pitch energy following step. In the example presented here, the counter reading k of a counter, not shown, is successively increased by one starting from the value zero if the pitch energy exceeds the threshold value Q of 4000 after the beginning of the word. The meter reading k reached at the end of the word directly indicates the voicing measure SM.

In Fig. 5 ist am Beispiel des Wortes "REGENSCHIRM" nochmals illustriert, wie das Stimmhaftigkeitsmaß SM ermittelt wird. Auf der Abszisse des Zeitdiagramms nach Fig. 5 ist die An­ zahl der Fenster und auf der Ordinate die Pitch-Energie auf­ getragen. Weiterhin ist in Fig. 5 der Schwellwert Q von 4000 durch die gestrichelte Linie dargestellt. Der mit P1 bezeich­ nete Pfeil kennzeichnet den Wortbeginn des Wortes "REGENSCHIRM", während der Pfeil P2 dessen Wortende bezeich­ net. Zu Wortbeginn ist der Zählerstand k gleich Null. Im zeitlichen Verlauf des Wortes "REGENSCHIRM" wird nun der Zäh­ lerstand immer dann um Eins erhöht, wenn die Pitch-Energie PM des gerade betrachteten Fensters größer als der Schwellwert Q von 4000 ist. Bei dem in Fig. 5 gezeigten Beispiel wird auf diese Weise der Zählerstand bis zum Wortende auf einen Wert von etwa 80 erhöht. Der am Wortende erreichte Zählerstand k wird schließlich auf die Wortdauer normiert und gibt dann direkt das Stimmhaftigkeitsmaß SM an.In FIG. 5 the example of the word “UMBRELLA” illustrates once again how the voicing measure SM is determined. On the abscissa of the timing diagram of FIG. 5 is the number of desired window and supported on the ordinate the pitch energy. Furthermore, the threshold value Q of 4000 is shown in FIG. 5 by the dashed line. The arrow labeled P1 indicates the beginning of the word "UMBRELLA", while the arrow P2 indicates the end of the word. At the beginning of the word, the count k is zero. In the course of time of the word "UMBRELLA", the count is now increased by one whenever the pitch energy PM of the window under consideration is greater than the threshold value Q of 4000. In the example shown in FIG. 5, the counter reading is increased to a value of approximately 80 until the end of the word. The counter reading k reached at the end of the word is finally normalized to the word duration and then directly indicates the degree of voicing SM.

Im weiteren wird an Hand der Fig. 6 bis 8 an einem Bei­ spiel erläutert, wie das Stimmhaftigkeitsmaß SM zum Zurück­ weisen von Schallsignalen eingesetzt werden kann, die auf einem Störgeräusch beruhen. Neben dem Stimmhaftigkeitsmaß SM werden bei dem im folgenden zu erläuternden Beispiel weitere Maße verwendet, die weiter unten detailliert beschrieben wer­ den.In another of FIG on hand. Explained 6 to 8 in a case of game, such as the SM Stimmhaftigkeitsmaß have to return can be used by the sound signals based on a noise. In addition to the voicing measure SM, further dimensions are used in the example to be explained below, which are described in detail below.

Fig. 6 zeigt das Blockschaltbild einer Einrichtung, die Teil eines Spracherkennungssystems ist. Das Spracherkennungssystem hat die Funktion, ein Schallsignal wie das in Fig. 1 gezeig­ te mit einem Wort eines vorgegebenen Wortschatzes zu identi­ fizieren. Dieser Wortschatz kann bei dem erläuterten Beispiel neben einem sprecherunabhängigen Basiswortschatz einen spre­ cherabhängigen Ergänzungswortschatz enthalten. Fig. 6 shows the block diagram of a device which is part of a speech recognition system. The voice recognition system has the function of identifying a sound signal such as that shown in FIG. 1 with a word of a predetermined vocabulary. In the example explained, this vocabulary can contain, in addition to a speaker-independent basic vocabulary, a speaker-dependent supplementary vocabulary.

Der Einrichtung nach Fig. 6 ist eine nicht dargestellte Vor­ verarbeitungseinheit vorgeschaltet, welche die eingangs er­ läuterte Vorverarbeitung des Schallsignals vornimmt. In der Vorverarbeitungseinheit werden das Stimmhaftigkeitsmaß SM sowie weitere in der Einrichtung nach Fig. 6 weiterzuverar­ beitende Maße ermittelt. Auf Leitungen 10 bis 16 werden der Einrichtung Spannungswerte zugeführt, deren Größe jeweils einem der eben genannten Maße entspricht.The device according to FIG. 6 is preceded by a processing unit, not shown, which performs the preprocessing of the sound signal as explained at the beginning. The voicing measure SM as well as further measures to be processed further in the device according to FIG. 6 are determined in the preprocessing unit. The device is supplied with voltage values on lines 10 to 16 , the size of which corresponds to one of the dimensions just mentioned.

Die Leitungen 10 und 12 sind mit den Eingängen einer Ge­ räuschfiltereinheit 18 verbunden, mit der Schallsignalver­ läufe erkannt werden, die durch Störgeräusche wie Klopfen oder Husten hervorgerufen werden. Die Leitungen 14 und 16 sind mit den Eingängen einer Fremdwortfiltereinheit 20 ver­ bunden, in der überprüft wird, ob ein vorgegebener Schallsignalverlauf einem Wort des Wortschatzes oder einem Fremdwort zuzuordnen ist, das nicht zum Wortschatz gehört.The lines 10 and 12 are connected to the inputs of a Ge noise filter unit 18 , with the sound signal courses are recognized, which are caused by noise such as knocking or coughing. The lines 14 and 16 are connected to the inputs of a foreign word filter unit 20 , in which it is checked whether a given sound waveform is to be assigned to a word of the vocabulary or a foreign word that does not belong to the vocabulary.

Drei Ausgangsleitungen 22 bis 26 der Geräuschfiltereinheit 18 sind mit Eingängen einer Verknüpfungseinheit 28 elektrisch verbunden. Drei Ausgangsleitungen 30 bis 34 der Fremdwortfil­ tereinheit 20 sind jeweils mit weiteren Eingängen der Ver­ knüpfungseinheit 28 verbunden. In der Verknüpfungseinheit 28 werden die Signale auf den Leitungen 22 bis 26 sowie auf den Leitungen 30 bis 34 nach vorgegebenen Regeln verknüpft. In einer Fuzzy-Ausgabeeinheit 36 wird aus den Verknüpfungser­ gebnissen dann ein Zuverlässigkeitswert gebildet, der auf einer Leitung 38 zu einer Ausgabeeinheit 40 übertragen wird.Three output lines 22 to 26 of the noise filter unit 18 are electrically connected to inputs of a combination unit 28 . Three output lines 30 to 34 of the foreign word filter unit 20 are each connected to further inputs of the linkage unit 28 . In the linking unit 28 , the signals on the lines 22 to 26 and on the lines 30 to 34 are linked according to predetermined rules. A reliability value is then formed in a fuzzy output unit 36 from the linking results and is transmitted on a line 38 to an output unit 40 .

Die Ausgabeeinheit 40 hat drei Ausgangsleitungen 42, 44 und 46, auf denen Ausgangssignale übertragen werden. Die Ausgabe­ einheit arbeitet so, daß jeweils nur eines der Signale auf den Leitungen 42 bis 46 den Zustand EIN hat. Die beiden ande­ ren Signale befinden sich jeweils im Zustand AUS. Hat das Ausgangssignal auf der Leitung 42 den Zustand EIN, so bedeu­ tet dies, daß der Schallsignalverlauf einem Wort des Wort­ schatzes zugeordnet werden kann. Die genaue Zuordnung wird in einer nicht dargestellten Zuordnungseinheit durchgeführt. Wenn das Ausgangssignal auf der Leitung 42 den Zustand EIN hat, wird die Weiterbearbeitung des durch die Zuordnungsein­ heit bestimmten Wortes zugelassen. Hat dagegen das Signal auf der Leitung 44 den Stand EIN, so bedeutet dies, daß eine Ent­ scheidung darüber noch nicht getroffen werden kann, ob der Schallsignalverlauf zu einem Wort des Wortschatzes oder aber zu einem Störgeräusch bzw. einem Fremdwort gehört. In diesem Fall wird durch den Zustand EIN auf der Leitung 44 eine Wie­ derholung des gegebenenfalls von einem Teilnehmer gesproche­ nen Wortes angefordert. Der Zustand EIN auf der Leitung 46 signalisiert, daß der untersuchte Schallsignalverlauf nicht zu einem Wort des Wortschatzes gehört. Dies ist darauf zu­ rückzuführen, daß es sich entweder um ein Geräusch oder um ein Fremdwort handelt. Hat das Signal auf der Leitung 46 den Zustand EIN, so wird die Weiterverarbeitung eines durch die Zuordnungseinheit festgelegten Wortes nicht durchgeführt. Somit kommt es zu einer Abweisung des zu untersuchenden Si­ gnalverlaufs.The output unit 40 has three output lines 42 , 44 and 46 , on which output signals are transmitted. The output unit works so that only one of the signals on lines 42 to 46 has the ON state. The two other signals are each in the OFF state. If the output signal on line 42 is ON, this means that the sound waveform can be assigned to a word of the word treasure. The exact assignment is carried out in an assignment unit, not shown. If the output signal on line 42 is ON, the processing of the word determined by the assignment unit is permitted. If, on the other hand, the signal on line 44 is ON, this means that a decision cannot yet be made as to whether the sound signal curve belongs to a word of the vocabulary or to a noise or a foreign word. In this case, the state ON on line 44 requests a repetition of the word possibly spoken by a subscriber. The ON state on line 46 signals that the sound waveform under examination does not belong to a word of the vocabulary. This is due to the fact that it is either a noise or a foreign word. If the signal on line 46 is ON, the further processing of a word specified by the assignment unit is not carried out. This leads to a rejection of the signal curve to be examined.

Die Geräuschfiltereinheit 18 enthält eine erste Fuzzy-Einga­ beeinheit 50 zum Transformieren des Signalwerts auf der Lei­ tung 10 mit unten erläuterten Zugehörigkeitsfunktionen in drei Zugehörigkeitswerte. Die Transformation wird auch als Fuzzifizierung bezeichnet. Der auf der Leitung 10 übertragene Wert ist von dem Stimmhaftigkeitsmaß SM abhängig, das in der nicht gezeigten Vorverarbeitungseinheit in eingangs erläu­ terter Weise berechnet wird. Das Stimmhaftigskeitsmaß SM wird dabei aus Größen berechnet, die bei der Zuordnung des Schall­ signalverlaufs zu einem Wort des Wortschatzes in der Zuord­ nungseinheit ohnehin erzeugt werden.The noise filter unit 18 contains a first fuzzy input unit 50 for transforming the signal value on the line 10 with membership functions explained below into three membership values. The transformation is also known as fuzzification. The value transmitted on line 10 depends on the voicing measure SM, which is calculated in the preprocessing unit (not shown) in the manner explained at the outset. The voicing measure SM is calculated from quantities that are generated anyway when the sound signal curve is assigned to a word of the vocabulary in the assignment unit.

Zur Erläuterung der von der Fuzzy-Eingabeeinheit 50 durch­ geführten Transformation wird auf ein Zugehörigkeitsfunktio­ nen-Koordinatensystem 52 Bezug genommen, auf dessen Ordina­ tenachse im Bereich von Null bis Eins Funktionswerte soge­ nannter Zugehörigkeitsfunktionen abgetragen sind und auf des­ sen Abszissenachse die Größe des Stimmhaftigkeitsmaßes SM abgetragen ist. Das Stimmhaftigskeitsmaß SM wird in der Fuzzy-Technik auch als linguistische Variable bezeichnet. In dem erläuterten Ausführungsbeispiel hat die linguistische Variable "Stimmhaftigskeitsmaß SM" drei linguistische Werte, nämlich die Werte "klein" für ein kleines Stimmhaftigkeitsmaß SM, "mittel" für eine mittlere Größe des Stimmhaftigkeitsma­ ßes SM und "hoch" für einen großen Wert des Stimmhaftigkeits­ maßes SM. Zum linguistischen Wert "klein" des Stimmhaftig­ keitsmaßes SM gehört eine Zugehörigkeitsfunktion ZF1a, deren Funktionswerte mit zunehmender Größe des Stimmhaftigkeitsma­ ßes SM nach einem Bereich mit dem konstanten Funktionswert Eins linear auf den Wert Null fällt. Eine Zugehörigkeitsfunk­ tion ZF1b für den linguistischen Wert "mittel" steigt von Null bis zum Wert Eins in dem Bereich an, in dem die Zugehörigkeitsfunktion ZF1a fällt, bleibt dann für größer werdende Werte des Stimmhaftigkeitsmaßes SM auf dem Wert Eins und fällt schließlich wieder linear auf den Wert Null ab. Die Funktionswerte einer Zugehörigkeitsfunktion ZF1c für den Wert "hoch" des Stimmhaftigkeitsmaßes SM steigen mit größer wer­ dendem Stimmhaftigkeitsmaß SM vom Wert Null bis zum Wert Eins linear in dem Bereich an, in dem die Zugehörigkeitsfunktion ZF1b für den Wert "mittel" sinkt. Mit noch größeren Werten für das Stimmhaftigkeitsmaß SM bleibt der Funktionswert der Zugehörigkeitsfunktion ZF1c konstant auf dem Wert Eins.To explain the transformation performed by the fuzzy input unit 50 , reference is made to a membership function coordinate system 52 , on the ordinate axis of which function values, so-called membership functions, are plotted in the range from zero to one, and the size of the voicing measure SM is plotted on the abscissa axis is. The voicing measure SM is also referred to in the fuzzy technique as a linguistic variable. In the exemplary embodiment explained, the linguistic variable “Voigtigkeitsmaßs SM” has three linguistic values, namely the values “small” for a small voicedness measure SM, “medium” for a medium size of the voicedness measure SM and “high” for a large value of the voiced measure SM. The linguistic value "small" of the voicing measure SM includes a membership function ZF1a, whose function values linearly fall to the value zero with increasing size of the voicing measure SM after a range with the constant function value one. A membership function ZF1b for the linguistic value "medium" increases from zero to the value one in the range in which the membership function ZF1a falls, then remains at value one for increasing values of the voicing measure SM and finally falls again linearly onto the Zero value. The function values of a membership function ZF1c for the value "high" of the voicing measure SM increase linearly with increasing voicing measure SM from the value zero to the value one in the range in which the membership function ZF1b decreases for the value "medium". With even larger values for the voicing measure SM, the function value of the membership function ZF1c remains constant at the value one.

Die Fuzzy-Eingabeeinheit 50 berechnet für jede Zugehörig­ keitsfunktion ZF1a bis ZF1c den Funktionswert abhängig von der Größe des auf der Leitung 10 übertragenen Stimmhaftig­ keitsmaßes SM. Der Funktionswert der Zugehörigkeitsfunktion ZF1a für den Wert "klein" wird auf einer Leitung 60 an die Verknüpfungseinheit 54 ausgegeben. Dieser Funktionswert liegt in der Nähe von Eins, wenn die Stimmhaftigkeit SM des Schall­ signals gering ist, und in der Nähe von Null, wenn die Stimm­ haftigkeit des Schallsignals hoch ist. Auf einer Leitung 62 wird der Funktionswert der Zugehörigkeitsfunktion ZF1b an die Verknüpfungseinheit 54 übermittelt. Der Funktionswert der Zugehörigkeitsfunktion ZF1b hat einen Wert von ungefähr Null, wenn die Stimmhaftigkeit entweder sehr gering ist oder sehr hoch ist. Für den dazwischenliegenden Bereich liegt der Funk­ tionswert zwischen Null und Eins. Der Funktionswert der Zuge­ hörigkeitsfunktion ZF1c wird schließlich auf einer Leitung 64 ausgegeben und an die Verknüpfungseinheit 54 übermittelt. Der Funktionswert der Zugehörigkeitsfunktion ZF1c hat für große Werte des Stimmhaftigkeitsmaßes SM den Wert Eins, d. h. in diesem Fall ist die Stimmhaftigkeit des Schallsignals beson­ ders hoch. Die Funktionsweise der Verknüpfungseinheit 54 wird unten erläutert, nachdem die Funktionsweise einer weiteren Fuzzy-Eingabeeinheit 70 erläutert wurde.The fuzzy input unit 50 calculates the function value for each membership function ZF1a to ZF1c depending on the size of the voicing measure SM transmitted on the line 10 . The function value of the membership function ZF1a for the value "small" is output on a line 60 to the linking unit 54 . This function value is close to one if the voicing SM of the sound signal is low and close to zero if the voicing of the sound signal is high. The function value of the membership function ZF1b is transmitted to the linking unit 54 on a line 62 . The function value of the membership function ZF1b has a value of approximately zero if the voicing is either very low or very high. For the intermediate range, the function value is between zero and one. The function value of the membership function ZF1c is finally output on a line 64 and transmitted to the linking unit 54 . The function value of the membership function ZF1c has the value one for large values of the voicing measure SM, ie in this case the voicing of the sound signal is particularly high. The operation of the link unit 54 is explained below after the operation of a further fuzzy input unit 70 has been explained.

Die Fuzzy-Eingabeeinheit 70 ist eingangsseitig mit der Lei­ tung 12 verbunden. Auf der Leitung 12 wird ein Wortdauermaß WM in die Fuzzy-Eingabeeinheit 70 eingegeben und anschließend transformiert. Das Wortdauermaß wird in der Vorverarbeitungs­ einheit aus dem Spannungsverlauf auf der Telefonleitung er­ mittelt, indem die Zeit zwischen dem Beginn und dem Ende des Spannungssignals ermittelt wird. Als Beginn ist dabei die Überschreitung eines vorgegebenen Schwellwertes SW1 defi­ niert. Das Ende des Spannungssignals wird festgelegt, nachdem bekannt ist, daß sich das Spannungssignal nicht mehr ändert und gleichzeitig den Schwellwert SW1 betragsmäßig unter­ schreitet.The fuzzy input unit 70 is connected on the input side to the line 12 . A word duration measure WM is entered into the fuzzy input unit 70 on the line 12 and then transformed. The word duration is determined in the preprocessing unit from the voltage curve on the telephone line by determining the time between the beginning and the end of the voltage signal. At the beginning, the exceeding of a predetermined threshold value SW1 is defined. The end of the voltage signal is determined after it is known that the voltage signal no longer changes and at the same time falls below the threshold value SW1.

Die Fuzzy-Eingabeeinheit 70 ist eingangsseitig außerdem mit einem Bussystem 72 verbunden, das mehrere Datenleitungen ent­ hält. Über das Bussystem 72 wird der Fuzzy-Eingabeeinheit 70 übermittelt, welches Wort des Wortschatzes von der Zuord­ nungseinheit dem Spannungsverlauf auf der Telefonleitung zu­ geordnet wurde. Abhängig von den Zuständen auf den Datenlei­ tungen des Bussystems 72 wählt die Fuzzy-Eingabeeinheit 70 zur Transformation Zugehörigkeitsfunktionen aus, die für das von der Zuordnungseinheit erkannte Wort gespeichert wurden. In einem anderen Ausführungsbeispiel werden nur Zugehörig­ keitsfunktionen zu drei Wortgruppen des Wortschatzes gespei­ chert und die Fuzzy-Eingabeeinheit 70 verwendet zur Transfor­ mation die Zugehörigkeitsfunktionen der Wortgruppe, zu der das auf dem Bussystem 72 übermittelte Wort gehört. Diese Vor­ gehensweise ist sinnvoll, da zwar zwischen den Wortlängen einzelner Worte des Wortschatzes erhebliche Unterschiede be­ stehen können, jedoch zwischen den Worten einer Gruppe meist nur geringe Unterschiede in der Wortlänge bestehen.The fuzzy input unit 70 is also connected on the input side to a bus system 72 which contains several data lines. The fuzzy input unit 70 transmits via the bus system 72 which word of the vocabulary has been assigned to the voltage curve on the telephone line by the assignment unit. Depending on the states on the data lines of the bus system 72 , the fuzzy input unit 70 selects membership functions for the transformation which have been stored for the word recognized by the assignment unit. In another exemplary embodiment, only membership functions for three word groups of the vocabulary are stored and the fuzzy input unit 70 uses the membership functions of the word group to which the word transmitted on the bus system 72 belongs for the transformation. This approach makes sense because there may be significant differences between the word lengths of individual words in the vocabulary, but there are usually only slight differences in word length between the words of a group.

Beim Erläutern der Transformation in der Fuzzy-Eingabeeinheit 70 wird auf ein Koordinatensystem 74 Bezug genommen, das Zu­ gehörigkeitsfunktionen ZF2a bis ZF2c zeigt, die zu der Wort­ länge des von der Zuordnungseinheit erkannten Wortes gehören. Auf der Ordinatenachse des Koordinatensystems 74 sind die Funktionswerte der Zugehörigkeitsfunktion ZF2a bis ZF2c abge­ tragen, die im Bereich zwischen Null und Eins liegen. Die Abszissenachse des Koordinatensystems 74 zeigt die Größe des auf der Leitung 12 übermittelten Wortdauermaßes WM. Der lin­ guistischen Variablen "Wortdauermaß WM" sind drei Werte "kurz", "normal" und "lang" zugeordnet. Die Zugehörigkeits­ funktion ZF2a für den Wert "kurz" hat im wesentlichen einen ähnlichen Verlauf wie die oben erläuterte Zugehörigkeitsfunk­ tion ZF1a. Ebenso stimmt der Verlauf der Zugehörigkeitsfunk­ tion ZF2b für den Wert "normal" bzw. der Zugehörigkeitsfunk­ tion ZF2c für den Wert "lang" mit dem Verlauf der Zugehörig­ keitsfunktion ZF1b bzw. ZF1a überein. Auf drei Leitungen 80, 82, 84 werden die Ergebnisse der Transformation von der Fu­ zzy-Eingabeeinheit 70 zu einer Verknüpfungseinheit 54 über­ mittelt.When explaining the transformation in the fuzzy input unit 70 , reference is made to a coordinate system 74 which shows membership functions ZF2a to ZF2c which belong to the word length of the word recognized by the assignment unit. The function values of the membership function ZF2a to ZF2c are plotted on the ordinate axis of the coordinate system 74 and lie in the range between zero and one. The abscissa axis of the coordinate system 74 shows the size of the word duration dimension WM transmitted on line 12 . The linistic variables "word duration WM" are assigned three values "short", "normal" and "long". The membership function ZF2a for the value "short" essentially has a similar course to the membership function ZF1a explained above. Likewise, the course of the membership function ZF2b for the value "normal" or the membership function ZF2c for the value "long" matches the course of the membership function ZF1b or ZF1a. The results of the transformation from the fu zzy input unit 70 to a linking unit 54 are transmitted on three lines 80 , 82 , 84 .

Die Fuzzy-Eingabeeinheit 70 gibt auf der Leitung 80 abhängig vom momentanen Wortdauermaß den Funktionswert der Zugehörig­ keitsfunktion ZF2a für den Wert "kurz" aus. Dieser Wert liegt bei Eins, wenn die Wortdauer des zu verarbeitenden Schallsi­ gnals erheblich kürzer als die mittlere Dauer eines zum aus­ gewählten Wort gehörenden Schallsignals ist. Andernfalls liegt der Funktionswert der Zugehörigkeitsfunktion ZF2a zwi­ schen Eins und Null oder genau bei Null. Auf der Leitung 82 wird der momentane Funktionswert der Zugehörigkeitsfunktion ZF2b für den Wert "mittel" von der Fuzzy-Eingabeeinheit 70 an die Verknüpfungseinheit 54 übermittelt. Dieser Funktionswert ist Eins oder liegt nahe Eins, wenn die Dauer des zu verar­ beitenden Schallsignals etwa mit der mittleren Dauer von Schallsignalen übereinstimmt, die zu dem ausgewählten Wort gehören. Ist die gemessene Dauer des Schallsignals kürzer oder länger, so liegt der Funktionswert der Zugehörigkeits­ funktion ZF2b in der Nähe des Wertes Null bzw. ist gleich Null. Auf der Leitung 84 wird schließlich der Funktionswert der Zugehörigkeitsfunktion ZF2c für den Wert "lang" der lin­ guistischen Variablen Wortdauermaß WM übermittelt. Dieser Funktionswert hat einen Wert nahe oder gleich Eins, falls die Dauer des zu verarbeitenden Schallsignals die durchschnittli­ che Dauer der Schallsignale zu dem wahrscheinlichsten Wort des Wortschatzes erheblich überschreitet. In den anderen Fäl­ len liegt der Funktionswert nahe oder bei Null.The fuzzy input unit 70 outputs on line 80 the function value of the membership function ZF2a for the value "short" depending on the current word duration. This value is one if the word duration of the sound signal to be processed is considerably shorter than the mean duration of a sound signal belonging to the selected word. Otherwise, the function value of the membership function ZF2a is between one and zero or exactly zero. The current function value of the membership function ZF2b for the value "medium" is transmitted on line 82 from the fuzzy input unit 70 to the linking unit 54 . This function value is one or is close to one if the duration of the sound signal to be processed roughly corresponds to the mean duration of sound signals that belong to the selected word. If the measured duration of the sound signal is shorter or longer, the function value of the membership function ZF2b is close to the value zero or is equal to zero. The function value of the membership function ZF2c for the value "long" of the linistic variables word length dimension WM is finally transmitted on line 84 . This function value has a value close to or equal to one if the duration of the sound signal to be processed considerably exceeds the average duration of the sound signals for the most likely word of the vocabulary. In the other cases, the function value is close to or zero.

In der Verknüpfungseinheit 54 werden die auf den Leitungen 60 bis 64 übermittelten Funktionswerte der Zugehörigkeitsfunk­ tionen ZF1a, ZF1b und ZF1c des Stimmhaftigkeitsmaßes SM mit den auf den Leitungen 80, 82 und 84 übertragenen Funktions­ werten der Zugehörigkeitsfunktionen ZF2a, ZF2b und ZF2c des Wortdauermaßes WM nach vorgegebenen Verknüpfungsregeln ver­ knüpft. Bei der Erläuterung dieser Verknüpfungsregeln wird auf ein Koordinatensystem 90 Bezug genommen, das Zugehörig­ keitsfunktionen ZF3a, ZF3b und ZF3c eines Gültigkeitsmaßes GM zeigt. Auf der Ordinatenachse sind die Funktionswerte der Zugehörigkeitsfunktionen ZF3a, ZF3b und ZF3c dargestellt, deren Verlauf im wesentlichen mit den Zugehörigkeitsfunktionen ZF1a, ZF1b bzw. ZF1c übereinstimmt. Die Ordinatenachse zeigt die Werte des Gültigkeitsmaßes GM. Sämtliche Funktionswerte der Zugehörigkeitsfunktionen ZF3a, bis ZF3c liegen im Bereich von Null bis Eins. Die Zugehörigkeitsfunktion ZF3a gibt die Zugehörigkeit eines momentanen Gültigkeitsmaßes GM zum Wert "klein" der Gültigkeit wieder. Der Verlauf der Zugehörig­ keitsfunktion ZF3b gibt den Zusammenhang des momentanen Gül­ tigkeitsmaßes GM und der Zugehörigkeit zum Wert "mittel" des Gültigkeitsmaßes GM an. Die Zugehörigkeitsfunktion ZF3c gibt den Zusammenhang des momentanen Gültigkeitsmaßes GM und einem Wert "hoch" des Gültigkeitsmaßes GM an.In the linking unit 54 , the function values of the membership functions ZF1a, ZF1b and ZF1c of the voicing measure SM transmitted on the lines 60 to 64 are given with the function values of the membership functions ZF2a, ZF2b and ZF2c of the word duration dimension WM transmitted on the lines 80 , 82 and 84 Linking rules linked. In the explanation of these linking rules, reference is made to a coordinate system 90 which shows membership functions ZF3a, ZF3b and ZF3c of a validity measure GM. The function values of the membership functions ZF3a, ZF3b and ZF3c are shown on the ordinate axis, the course of which essentially corresponds to the membership functions ZF1a, ZF1b and ZF1c. The ordinate axis shows the values of the validity measure GM. All function values of the membership functions ZF3a to ZF3c are in the range from zero to one. The membership function ZF3a shows the membership of a current validity measure GM to the value "small" of the validity. The course of the membership function ZF3b indicates the relationship between the current validity measure GM and the belonging to the value "medium" of the validity measure GM. The membership function ZF3c specifies the relationship between the current validity measure GM and a value "high" of the validity measure GM.

Eine der vorgegebenen Verknüpfungsregeln in der Verknüpfungs­ einheit 54 lautet z. B.:
WENN Stimmhaftigkeitsmaß = "mittel" UND Wortdauermaß = "normal", DANN Gültigkeitsmaß = "hoch".
One of the predetermined linking rules in the linking unit 54 is z. B .:
IF voicing measure = "medium" AND word duration measure = "normal", THEN validity measure = "high".

Die Verknüpfungsregel hat eine Voraussetzung in einem "WENN"- Teil und eine Folgerung in einem "Dann"-Teil. Somit wird beim Verknüpfen der Größen "Stimmhaftigkeitsmaß" und "Wortdauermaß" im "WENN"-Teil gemäß Verknüpfungsregel eine Schlußfolgerung durchgeführt.The linking rule has a prerequisite in an "IF" - Part and a conclusion in a "then" part. Thus at Linking the sizes "Voicing measure" and  "Word duration" in the "IF" part according to the linking rule one Conclusion done.

Zum Durchführen der UND-Verknüpfung wird z. B. das Minimum aus dem Funktionswert der Zugehörigkeitsfunktion ZF1b, d. h. für den Wert "mittel", und dem Funktionswert der Zugehörigkeits­ funktion ZF2b, d. h. für den Wert "normal", gebildet. Der so erhaltene Wert für das Gültigkeitsmaß GM gibt den momentanen Funktionswert der Zugehörigkeitsfunktion ZF3c an, wobei je­ doch keine Aussage über die genaue Größe des Gültigkeitsmaßes GM getroffen werden muß. Diese Aussage ist entbehrlich, da in einer zweiten Stufe der Verknüpfung, die in der Verknüpfungs­ einheit 28 durchgeführt wird, weitere Verknüpfungen stattfin­ den. Eine sogenannte Defuzzifizierung, bei der durch eine Rücktransformation das momentane Gültigkeitsmaß GM ermittelt wird, kann somit entfallen. Der Funktionswert der Zugehörig­ keitsfunktion ZF3c wird auf der Leitung 26 ausgegeben. Auf ähnliche Weise werden nach weiteren vorgegebenen Verknüp­ fungsregeln die Funktionswerte der Zugehörigkeitsfunktionen ZF3a für den Wert "klein" und ZF3b für den Wert "mittel" des Gültigkeitsmaßes GM ermittelt und auf der Leitung 22 bzw. auf der Leitung 24 ausgegeben. Die Weiterverarbeitung der Funkti­ onswerte auf den Leitungen 22, 24 und 26 in der Verknüpfungs­ einheit 28 wird weiter unten erläutert.To perform the AND operation z. B. the minimum of the function value of the membership function ZF1b, ie for the value "medium", and the function value of the membership function ZF2b, ie for the value "normal", formed. The value for the validity measure GM thus obtained indicates the current functional value of the membership function ZF3c, although no statement about the exact size of the validity measure GM has to be made. This statement is unnecessary, since in a second stage of the linkage, which is carried out in the linkage unit 28 , further links take place. A so-called defuzzification, in which the instantaneous measure of validity GM is determined by a reverse transformation, can thus be omitted. The function value of the membership function ZF3c is output on line 26 . In a similar manner, the function values of the membership functions ZF3a for the value "small" and ZF3b for the value "medium" of the validity measure GM are determined and output on the line 22 or on the line 24 according to further predetermined linking rules. The further processing of the func ons values on the lines 22 , 24 and 26 in the linking unit 28 is explained further below.

Die Fremdwortfiltereinheit 20 arbeitet ähnlich wie die Ge­ räuschfiltereinheit 18, jedoch werden anstelle des Stimmhaf­ tigkeitsmaßes SM und des Wortdauermaßes WM ein Ähnlichkeits­ maß AM und ein Differenzmaß DM verarbeitet.The foreign word filter unit 20 works similarly to the Ge noise filter unit 18 , but instead of the vocal strength measure SM and the word duration measure WM, a similarity measure AM and a difference measure DM are processed.

Das Ähnlichkeitsmaß AM wird von der Vorverarbeitungseinheit ermittelt und auf der Leitung 14 an eine Fuzzy-Eingabeeinheit 100 übermittelt, deren Funktionsweise ebenfalls weiter unten erläutert wird. Die Vorverarbeitungseinheit erzeugt aus dem Schallsignalverlauf eine Folge von Merkmalsvektoren. Ein Merkmalsvektor wird erzeugt, indem aus den Abtastwerten eines Signalausschnittes des Schallsignals von 25 ms nach dem FFT- Verfahren das Kurzzeitspektrum berechnet wird. Anschließend werden in der Zuordnungseinheit Ähnlichkeitswerte berechnet, die die Übereinstimmung der Merkmalsvektorfolge mit Folgen von Referenzmerkmalsvektoren angeben, die mit Modellen der Worte des Wortschatzes erzeugt wurden. Ein Beispiel für ein solches Modell ist das "Hidden-Markov"-Modell. Beispiele für dieses Modell werden unten an Hand der Fig. 7 und 8 erläu­ tert. Wenn die Zuordnungseinheit das Wort des Wortschatzes ermittelt hat, zu dem der größte Ähnlichkeitswert berechnet wurde, so wird dieser Ähnlichkeitswert auf die Zeit zwischen dem Beginn und dem Ende des zu verarbeitenden Schallsignals normiert. Das Ergebnis ist das momentane Ähnlichkeitsmaß AM, das der Fuzzy-Eingabeeinheit 100 zugeführt wird.The degree of similarity AM is determined by the preprocessing unit and transmitted on line 14 to a fuzzy input unit 100 , the mode of operation of which is also explained below. The preprocessing unit generates a sequence of feature vectors from the sound signal curve. A feature vector is generated by calculating the short-term spectrum from the samples of a signal section of the sound signal of 25 ms using the FFT method. Subsequently, similarity values are calculated in the assignment unit, which indicate the correspondence of the feature vector sequence with sequences of reference feature vectors that were generated with models of the words of the vocabulary. An example of such a model is the "hidden Markov" model. Examples of this model are explained below with reference to FIGS . 7 and 8. When the assignment unit has determined the word of the vocabulary for which the greatest similarity value was calculated, this similarity value is normalized to the time between the beginning and the end of the sound signal to be processed. The result is the current similarity measure AM that is fed to the fuzzy input unit 100 .

Zur Erläuterung der Funktionsweise der Fuzzy-Eingabeeinheit 100 wird auf ein Koordinatensystem 102 Bezug genommen, auf dessen Abszissenachse die Größe des Ähnlichkeitsmaßes AM ab­ getragen ist und auf dessen Ordinatenachse die Funktionswerte von Zugehörigkeitsfunktionen ZF4a, ZF4b und ZF4c im Bereich von Null bis Eins abgetragen sind. Die Zugehörigkeitsfunktion ZF4a gibt die Zugehörigkeit des momentanen Ähnlichkeitsmaßes AM zum Wert "klein" an. Die Zugehörigkeitsfunktion ZF4b gibt die Zugehörigkeit des momentanen Ähnlichkeitsmaßes AM zum Ähnlichkeitswert "mittel" an. Die Zugehörigkeitsfunktion ZF4c gibt schließlich die Zugehörigkeit des momentanen Ähnlich­ keitswertes zum Ähnlichkeitswert "hoch" an. Der zum momenta­ nen Ähnlichkeitswert AM gehörende Funktionswert der Zugehö­ rigkeitsfunktion ZF4a wird auf einer Leitung 110 ausgegeben. Der Funktionswert zum momentanen Ähnlichkeitswert AM der Zu­ gehörigkeitsfunktion ZF4b bzw. der Zugehörigkeitsfunktion ZF4c wird auf einer Leitung 112 bzw. einer Leitung 114 ausge­ geben. Die Leitungen 110 bis 114 verlaufen von der Fuzzy-Ein­ gabeeinheit 100 zu einer Verknüpfungseinheit 116, deren Funk­ tionsweise unten erläutert wird, nachdem die Funktionsweise einer weiteren Fuzzy-Eingabeeinheit 120 in der Fremdwortfil­ tereinheit 20 erläutert wurde. To explain the functioning of the fuzzy input unit 100 , reference is made to a coordinate system 102 , on the abscissa axis of which the size of the similarity measure AM is plotted and on the ordinate axis the function values of membership functions ZF4a, ZF4b and ZF4c are plotted in the range from zero to one. The membership function ZF4a indicates the affiliation of the current similarity measure AM to the value "small". The membership function ZF4b indicates the membership of the current similarity measure AM to the similarity value "medium". The membership function ZF4c finally indicates the membership of the current similarity value to the similarity value "high". The function value of the membership function ZF4a belonging to the current similarity value AM is output on a line 110 . The function value for the current similarity value AM of the membership function ZF4b or the membership function ZF4c is output on a line 112 or a line 114 . The lines 110 to 114 run from the fuzzy input unit 100 to a link unit 116 , the mode of operation of which is explained below, after the operation of a further fuzzy input unit 120 in the foreign word filter unit 20 has been explained.

Die Fuzzy-Eingabeeinheit 120 verarbeitet das von der Vorver­ arbeitungseinheit erzeugte Differenzmaß DM. Die Berechnung des Differenzmaßes DM wird unten an Hand der Fig. 7 und 8 erläutert. Das Differenzmaß DM wird auf der Leitung 16 in die Fuzzy-Eingabeeinheit 120 eingegeben und dort transformiert. Dabei werden Zugehörigkeitsfunktionen ZF5a, ZF5b und ZF5c verwendet, die in einem Koordinatensystem 122 dargestellt sind. Die Achsenbezeichnung des Koordinatensystems 122 stimmt mit der Achsenbezeichnung des Koordinatensystems 52 überein, jedoch wird anstelle des Stimmhaftigkeitsmaßes SM auf der Abszissenachse das Differenzmaß DM abgetragen. Auch der Ver­ lauf der Zugehörigkeitsfunktionen ZF5a, ZF5b und ZF5c stimmt mit dem Verlauf der Zugehörigkeitsfunktionen ZF1a, ZF1b bzw. ZF1c überein. Die Zugehörigkeitsfunktion ZF5a gibt die Zuge­ hörigkeit des momentanen Differenzmaßes DM zum Wert "klein" des Differenzmaßes DM an, und die Zugehörigkeitsfunktion ZF5b gibt die Zugehörigkeit des momentanen Differenzmaßes DM zum Wert "mittel" des Differenzmaßes DM an. Die Zugehörigkeit des momentanen Differenzmaßes DM zu einem Differenzwert "hoch" wird durch die Zugehörigkeitsfunktion ZF5c angegeben. Der Funktionswert der Zugehörigkeitsfunktion ZF5a zum momentanen Differenzmaß DM wird auf einer Leitung 130 ausgegeben. Auf einer Leitung 132 wird der Funktionswert der Zugehörigkeits­ funktion ZF5b zum momentanen Differenzmaß DM ausgegeben. Auf einer Leitung 134 wird schließlich der Funktionswert der Zu­ gehörigkeitsfunktion ZF5c ausgegeben, der ebenfalls mit Hilfe des momentanen Differenzmaßes DM berechnet wurde. Die Leitun­ gen 130 bis 134 verbinden die Fuzzy-Eingabeeinheit 120 mit der Verknüpfungseinheit 116.The fuzzy input unit 120 processes the differential dimension DM generated by the preprocessing unit. The calculation of the differential dimension DM is explained below with reference to FIGS . 7 and 8. The difference measure DM is entered on line 16 into the fuzzy input unit 120 and transformed there. Membership functions ZF5a, ZF5b and ZF5c are used, which are shown in a coordinate system 122 . The axis designation of the coordinate system 122 corresponds to the axis designation of the coordinate system 52 , but instead of the voicing measure SM, the difference measure DM is plotted on the abscissa axis. The course of the membership functions ZF5a, ZF5b and ZF5c also corresponds to the course of the membership functions ZF1a, ZF1b and ZF1c. The membership function ZF5a indicates the membership of the instantaneous difference measure DM to the value "small" of the difference measure DM, and the membership function ZF5b indicates the membership of the current difference measure DM to the value "medium" of the difference measure DM. The membership of the instantaneous difference measure DM to a difference value "high" is indicated by the membership function ZF5c. The function value of the membership function ZF5a to the instantaneous differential dimension DM is output on a line 130 . The function value of the membership function ZF5b to the instantaneous difference measure DM is output on a line 132 . The function value of the membership function ZF5c is finally output on a line 134 and was likewise calculated with the aid of the instantaneous difference measure DM. The lines 130 to 134 connect the fuzzy input unit 120 to the link unit 116 .

In der Verknüpfungseinheit 116 werden die auf den Leitungen 110 bis 114 und 130 bis 134 übertragenen Funktionswerte nach vorgegebenen Verknüpfungsregeln verknüpft. Mit den Verknüp­ fungsregeln werden Werte eines Bekanntheitsmaßes BM ermit­ telt, das ein Maß für die Bekanntheit des zu verarbeitenden Spannungssignals auf der Telefonleitung ist. In einem Koordi­ natensystem 140 sind Zugehörigkeitsfunktionen ZF6a, ZF7a und ZF8a angegeben, die in dieser Reihenfolge zu Werten des Be­ kanntheitsmaßes BM "klein", "mittel" bzw. "hoch" gehören. Die Achsenbezeichnung des Koordinatensystems 140 stimmt mit der Achsenbezeichnung des Koordinatensystems 52 überein, jedoch wird anstelle des Stimmhaftigkeitsmaßes SM das Bekanntheits­ maß BM auf der Abszissenachse abgetragen. Der Verlauf der Zugehörigkeitsfunktion ZF6a stimmt mit dem Verlauf der Zuge­ hörigkeitsfunktion ZF1a im wesentlichen überein. Ebenso stimmt der Verlauf der Zugehörigkeitsfunktion ZF6b im wesent­ lichen mit dem Verlauf der Zugehörigkeitsfunktion ZF1b sowie der Verlauf der Zugehörigkeitsfunktion ZF7b mit dem Verlauf der Zugehörigkeitsfunktion ZF1c überein. Wie auch beim Gül­ tigkeitsmaß GM in der Verknüpfungseinheit 54 wird das Be­ kanntheitsmaß BM in der Verknüpfungseinheit 116 nicht direkt bestimmt, da sich die zweite Stufe der Verknüpfung in der Verknüpfungseinheit 28 noch anschließt.In the linking unit 116 , the function values transmitted on the lines 110 to 114 and 130 to 134 are linked according to predetermined linking rules. The linking rules are used to determine values of a measure of awareness BM, which is a measure of the awareness of the voltage signal to be processed on the telephone line. In a coordinate system 140 , membership functions ZF6a, ZF7a and ZF8a are specified, which in this order belong to values of the familiarity measure BM "small", "medium" or "high". The axis designation of the coordinate system 140 coincides with the axis designation of the coordinate system 52 , but instead of the voiced measure SM, the familiarity measure BM is plotted on the abscissa axis. The course of the membership function ZF6a essentially coincides with the course of the membership function ZF1a. Likewise, the course of the membership function ZF6b essentially coincides with the course of the membership function ZF1b and the course of the membership function ZF7b with the course of the membership function ZF1c. As with the validity measure GM in the linking unit 54 , the awareness measure BM is not determined directly in the linking unit 116 , since the second stage of linking in the linking unit 28 still follows.

Eine Regel in der Verknüpfungseinheit 116 lautet z. B.:
WENN Ähnlichkeitsmaß = "hoch" UND Differenzmaß = "klein" DANN Bekanntheitsmaß = "hoch".
A rule in the link unit 116 is e.g. B .:
IF similarity measure = "high" AND difference measure = "small" THEN awareness measure = "high".

Die UND-Verknüpfung wird wiederum durch die Wahl des kleine­ ren Funktionswertes der Zugehörigkeitsfunktion ZF4c für den Wert "hoch" oder des Funktionswertes der Zugehörigkeitsfunk­ tion ZF5c für den Wert "klein" durchgeführt. Der kleinere der beiden Funktionswerte wird dann auf der Leitung 34 ausgege­ ben. Auf der Leitung 30 wird der für die Zugehörigkeitsfunk­ tion ZF6a ermittelte Funktionswert und auf der Leitung 32 wird der für die Zugehörigkeitsfunktion ZF6b ermittelte Funk­ tionswert ausgegeben. Somit entfällt die Bestimmung eines genauen Wertes für das Bekanntheitsmaß BM. Die Funktionswerte auf den Leitungen 30, 32 und 34 ermöglichen jedoch Aussagen über die Bekanntheit, die in der Verknüpfungseinheit 28 be­ rücksichtigt werden. The AND operation is in turn carried out by choosing the smaller function value of the membership function ZF4c for the value "high" or the function value of the membership function ZF5c for the value "small". The smaller of the two function values is then output on line 34 . The function value determined for the membership function ZF6a is output on line 30 and the function value determined for the membership function ZF6b is output on line 32 . This means that there is no need to determine an exact value for the awareness measure BM. The function values on the lines 30 , 32 and 34 , however, allow statements about the familiarity, which are taken into account in the linking unit 28 .

In der Verknüpfungseinheit 28 werden die Funktionswerte auf den Leitungen 22, 24 und 26 sowie auf den Leitungen 30, 32 und 34 nach weiteren vorgegebenen Verknüpfungsregeln ver­ knüpft. Die Regeln führen dabei zu Aussagen über die Funkti­ onswerte von Zugehörigkeitsfunktionen ZF7a, ZF7b und ZF7c, die in einem Koordinatensystem 150 dargestellt sind, auf des­ sen Ordinatenachse wiederum die Funktionswerte der Zugehörig­ keitsfunktionen ZF7a bis ZF7c und auf dessen Abszissenachse des Zuverlässigkeitsmaß ZM abgetragen ist. Der Verlauf der Zugehörigkeitsfunktion ZF7a, ZF7b bzw. ZF7c stimmt in dieser Reihenfolge im wesentlichen mit dem Verlauf der Zugehörig­ keitsfunktion ZF1a, ZF1b bzw. ZF1c überein. Durch das Ausfüh­ ren von Verknüpfungen nach Verknüpfungsregeln wie:
WENN Gültigkeitsmaß = "hoch" UND Bekanntheitsmaß = "hoch", DANN Zuverlässigkeitsmaß = "hoch",
werden z. B. Funktionswerte für die Zugehörigkeitsfunktionen ZF7c bestimmt. Mit ähnlichen Verknüpfungsregeln werden Funk­ tionswerte für die Zuverlässigkeitsfunktion ZF7a und ZF7b ermittelt. Diese Funktionswerte liegen an den Eingängen der Fuzzy-Ausgabeeinheit 36 an, die z. B. durch Bildung des Flä­ chenschwerpunkts von Flächen unterhalb der Funktionswerte der jeweiligen Zugehörigkeitsfunktionen ZF7a bis ZF7c das momen­ tane Zuverlässigkeitsmaß ZM ermittelt und auf der Leitung 38 ausgibt.
In the linking unit 28 , the function values on the lines 22 , 24 and 26 as well as on the lines 30 , 32 and 34 are linked according to further predetermined linking rules. The rules lead to statements about the function values of membership functions ZF7a, ZF7b and ZF7c, which are shown in a coordinate system 150 , on the ordinate axis the function values of the membership functions ZF7a to ZF7c and on the abscissa axis of the reliability measure ZM. The course of the membership function ZF7a, ZF7b or ZF7c in this order essentially coincides with the course of the membership function ZF1a, ZF1b or ZF1c. By executing links according to link rules such as:
IF validity measure = "high" AND awareness measure = "high", THEN reliability measure = "high",
z. B. Function values for the membership functions ZF7c determined. Functional values for the reliability functions ZF7a and ZF7b are determined using similar logic rules. These function values are applied to the inputs of the fuzzy output unit 36 , which, for. B. by forming the center of gravity of areas below the function values of the respective membership functions ZF7a to ZF7c, the current reliability measure ZM is determined and output on line 38 .

Die Ausgabeeinheit 40 erzeugt dann wie oben bereits erläutert abhängig vom momentanen Zuverlässigkeitsmaß ZM Schaltzustände auf den Leitungen 42 bis 46.As already explained above, the output unit 40 then generates switching states on the lines 42 to 46 depending on the instantaneous reliability measure ZM.

Die Zugehörigkeitsfunktionen ZF1a bis ZF7c, insbesondere die Zugehörigkeitsfunktionen ZF1a bis ZF1c für das Stimmhaftig­ keitsmaß SM, welche den Zusammenhang zwischen dem ermittelten Wert des Stimmhaftigkeitsmaßes SM und den drei linguistischen Werten "klein", "mittel" und "hoch" angeben, können individu­ ell für jedes Wort des Wortschatzes festgelegt werden. Für Worte des sprecherunabhängigen Basiswortschatzes geschieht dies im Vorfeld der eigentlichen Spracherkennung an Hand der Daten, die aus den Spracheingaben unterschiedlicher Sprecher gewonnen wurden. Für Worte des sprecherabhängigen Ergänzungs­ wortschatzes werden die Zugehörigkeitsfunktionen ZF1a bis ZF1c beispielsweise während des letzten Trainingsdurchlaufes ermittelt, den der jeweilige Benutzer des Spracherkennungssy­ stems ausführt. Zur Ermittlung der Zugehörigkeitsfunktionen ZF1a bis ZF7c werden insbesondere die Flankensteilheit und der Beginn des Fallens bzw. des Steigens der jeweiligen Zuge­ hörigkeitsfunktion ZF1a bis ZF7c festgelegt.The membership functions ZF1a to ZF7c, in particular the Membership functions ZF1a to ZF1c for the voiced dimension SM, which shows the relationship between the determined Value of the voicing measure SM and the three linguistic Specifying values "small", "medium" and "high" can be individually ell for each word in the vocabulary. For  Words of the speaker-independent basic vocabulary happens this in advance of the actual speech recognition using the Data from the voice input of different speakers won. For words of the speaker-dependent supplement vocabulary, the membership functions ZF1a to ZF1c, for example, during the last training run determined by the respective user of the speech recognition system stems executes. To determine the membership functions ZF1a to ZF7c are in particular the slope and the beginning of the falling or rising of the respective trains Audience function ZF1a to ZF7c defined.

Fig. 7 zeigt zwei "Hidden-Markov"-Modelle 200 und 210. Dabei modelliert das Modell 200 das Wort "Hallo" und das Modell 210 das Wort "bunt". Das Modell 200 für das Wort "Hallo" hat vier Zustände 212, 214, 216 und 218. Dem Zustand 212 sind zwei Merkmalsvektoren H1 und H2 zugeordnet, die bei der Aussprache des Buchstabens "H" auftreten können. So könnte der Merkmals­ vektor H1 aus dem Spannungsverlauf erzeugt worden sein, der beim Aussprechen des Buchstabens "H" am Beginn des Wortes "Hallo" erzeugt wird. Der Merkmalsvektor H2 gehört zu einem Spannungsverlauf, der am Ende des Aussprechens des Buchsta­ bens "H" vor dem Aussprechen des Buchstabens "a" auftritt. Sind die Merkmalsvektoren H1 und H2 jeweils nur auf ein Zeit­ intervall von 10 ms bezogen, so werden sich diese Merkmals­ vektoren wiederholen, da die Aussprache des Buchstabens "H" im allgemeinen länger als 10 ms ist. Somit wird der Zustand 212 mehrmals hintereinander auftreten. Dies ist durch einen Pfeil 220 angedeutet. Ein Pfeil 222 zeigt den Übergang vom Zustand 212 bis zum Zustand 214, wenn nach der Aussprache des Buchstabens "H" die Aussprache des Buchstabens "a" folgt. Wann dies der Fall ist, hängt zum einen vom Sprecher und zum anderen auch von der momentanen Aussprache des Sprechers ab. Somit können nur Wahrscheinlichkeiten für den Übergang vom Zustand 212 wieder zum Zustand 212 bzw. für den Übergang vom Zustand 212 zum Zustand 214 angegeben werden. Diese Wahr­ scheinlichkeiten werden experimentell ermittelt. Fig. 7 shows two "hidden Markov" models 200 and 210. The model 200 models the word "hello" and the model 210 the word "colorful". Model 200 for the word "hello" has four states 212 , 214 , 216 and 218 . State 212 is assigned two feature vectors H1 and H2 which can occur when the letter "H" is pronounced. The feature vector H1 could thus have been generated from the voltage curve which is generated when the letter "H" is pronounced at the beginning of the word "Hello". The feature vector H2 belongs to a voltage curve which occurs at the end of the pronouncement of the letter "H" before the pronouncement of the letter "a". If the feature vectors H1 and H2 each relate only to a time interval of 10 ms, these feature vectors will repeat themselves since the pronunciation of the letter "H" is generally longer than 10 ms. Thus state 212 will occur several times in succession. This is indicated by an arrow 220 . An arrow 222 shows the transition from state 212 to state 214 if the pronunciation of the letter "H" is followed by the pronunciation of the letter "a". When this is the case depends on the speaker on the one hand and on the current pronunciation of the speaker on the other. Thus, only probabilities for the transition from state 212 to state 212 or for the transition from state 212 to state 214 can be specified. These probabilities are determined experimentally.

Dem Zustand 214 sind zwei Merkmalsvektoren a1, a2 zugeordnet, die Merkmale bei der Aussprache des Buchstabens "a" im Wort "Hallo" enthalten. Vom Zustand 214 kann wiederum zum Zustand 214 übergegangen werden, vgl. Pfeil 224, oder es wird zum nächsten Zustand 216 übergegangen, vgl. Pfeil 226. Der Zu­ stand 216 enthält zwei Merkmalsvektoren l1 und l2, die dem Buchstaben "l" im Wort "Hallo" zugeordnet sind. Nach dem Zu­ stand 216 kann wieder der Zustand 216, vgl. Pfeil 228, bzw. der Zustand 218 folgen, vgl. Pfeil 230. Der Zustand 218 ent­ hält zwei Merkmalsvektoren o1 und o2, die Merkmale von Schallsignalen enthalten, die bei der Aussprache des Buchsta­ bens "o" im Wort "Hallo" auftreten. Wie durch einen Pfeil 232 angedeutet, kann auch der Zustand 218 mehrmals hintereinander auftreten, bevor das Wort "Hallo" beendet ist.State 214 is assigned two feature vectors a1, a2 which contain features when the letter "a" is pronounced in the word "hello". From state 214 can be passed again to the state 214, see. Arrow 224 , or the next state 216 is passed, cf. Arrow 226 . To state 216 contains two feature vectors l1 and l2, which are assigned to the letter "l" in the word "hello". After standing to 216 of the state 216 can again see. Follow arrow 228 or state 218 , cf. Arrow 230 . State 218 contains two feature vectors o1 and o2, which contain features of sound signals that occur in the pronunciation of the letter "o" in the word "hello". As indicated by an arrow 232 , state 218 can also occur several times in succession before the word "hello" has ended.

Das Modell 210 für das Wort "bunt" hat vier Zustände 242, 244, 246 und 248, denen in dieser Reihenfolge Merkmalsvekto­ ren zugeordnet sind, die bei der Aussprache des Buchstabens "b", "u", "n" bzw. "t" auftreten. Dabei sind jedem Zustand 242 bis 248 in dieser Reihenfolge jeweils Merkmalsvektoren B1, B2; u1, u; n1, n2 sowie t1 und t2 zugeordnet. Die Über­ gänge zwischen den Zuständen 242 bis 248 sind durch Pfeile 250 bis 262 dargestellt.The model 210 for the word "colorful" has four states 242 , 244 , 246 and 248 , to which feature vectors are assigned in this order, which are used when pronouncing the letter "b", "u", "n" and "t "occur. Each state 242 to 248 is in this order in each case feature vectors B1, B2; u1, u; n1, n2 and t1 and t2 assigned. The transitions between states 242 to 248 are represented by arrows 250 to 262 .

Die oben erwähnten Ähnlichkeitswerte zur Berechnung des Ähn­ lichkeitsmaßes AM werden ermittelt, indem aus dem zu verar­ beitenden Spannungsverlauf auf der Telefonleitung eine Folge von Merkmalsvektoren erzeugt wird, die mit den Merkmalsvekto­ ren jedes Modells 200 und 210 verglichen werden. Dabei wird im Modell 200 und im Modell 210 jeweils die Merkmalsvektor­ folge ermittelt, die der Merkmalsvektorfolge des Spannungs­ verlaufs auf der Telefonleitung am ähnlichsten ist. Mit einem bekannten Distanzmaß, z. B. der Abstand zwischen zwei Vekto­ ren, kann dann der Ähnlichkeitswert für jedes Modell 200, 210 ermittelt werden. Zur Berechnung des Ähnlichkeitsmaßes AM wird dann der größte Ähnlichkeitswert verwendet. Bei zwei Modellen 200 und 210 also der Ähnlichkeitswert des Modells 200 oder des Modells 210.The above-mentioned similarity values for calculating the similarity measure AM are determined by generating a sequence of feature vectors from the voltage curve to be processed on the telephone line, which vectors are compared with the feature vectors of each model 200 and 210 . In this case, the feature vector sequence that is most similar to the feature vector sequence of the voltage curve on the telephone line is determined in the model 200 and in the model 210 . With a known distance measure, e.g. B. the distance between two vectors Ren, the similarity value can then be determined for each model 200 , 210 . The greatest similarity value is then used to calculate the similarity measure AM. In the case of two models 200 and 210 , the similarity value of model 200 or model 210 .

Fig. 8 zeigt ein gemeinsames "Hidden-Markov"-Modell 300 für die Worte "Hallo" und "bunt", die die Worte eines bekannten Wortschatzes bilden. Das Modell 300 hat nur einen einzigen Zustand 302, dem sämtliche Merkmalsvektoren der Modelle 200 und 210 (vgl. Fig. 7) zugeordnet sind. Nach dem Zustand 302 folgt wie durch einen Pfeil 304 angedeutet immer wieder der Zustand 302, bis die Modellierung beendet ist. Bei der Er­ mittlung des Differenzmaßes DM wird auch für das gemeinsame Modell 300 ein Ähnlichkeitswert bestimmt. Bei der Äußerung "Hallo" würde das "Hallo"-Modell 200 (vgl. Fig. 7) die Folge "H1, H1, H2, a2, a2, l1, l1, l1, l2, l2, o1, o2" generieren. Diese Folge bietet eine gute Näherung der Äußerung. Das ge­ meinsame Modell 300 könnte z. B. folgendes generieren: "H1, H1, H2, a2, a2, t1, l1, l1, l2, l2, o1, o2". Der Merkmalsvek­ tor t1 wurde hinzugefügt, weil er z. B. zu einem Geräusch in der Äußerung paßt. Der Unterschied der Ähnlichkeitswerte zwi­ schen dem "Hallo"-Modell 200 und dem gemeinsamen Modell 300 ist gering. Das Differenzmaß DM hat somit einen geringen Wert, der anzeigt, daß das Wort "Hallo" zum Wortschatz ge­ hört. Fig. 8 shows a common "hidden Markov" model 300 for the words "hello" and "colorful" which form the words of a known vocabulary. The model 300 has only a single state 302 , to which all feature vectors of the models 200 and 210 (cf. FIG. 7) are assigned. After state 302 follows as shown by arrow 304 indicated again the state 302 until the modeling terminated. When determining the difference measure DM, a similarity value is also determined for the common model 300 . When uttering "hello", the "hello" model 200 (cf. FIG. 7) would generate the sequence "H1, H1, H2, a2, a2, l1, l1, l1, l2, l2, o1, o2". This sequence offers a good approximation of the utterance. The common model 300 could, for. B. generate the following: "H1, H1, H2, a2, a2, t1, l1, l1, l2, l2, o1, o2". The feature vector t1 was added because it e.g. B. matches a noise in the utterance. The difference in the similarity values between the "hello" model 200 and the common model 300 is small. The difference measure DM thus has a low value, which indicates that the word "hello" belongs to the vocabulary.

Bei der Äußerung "Laub", die zu einem Fremdwort gehört, würde das "Hallo"-Modell 200 (vgl. Fig. 7) die Folge "H1, a1, a2, a2, a2, a1, a1, a1, a2, l2, o1" generieren. Dies ist eine schlechte Nachbildung der Äußerung. Das "bunt"-Modell 210 (vgl. Fig. 2) würde auch eine schlechte Näherung erzeugen. Das gemeinsame Modell 300 hingegen würde folgendes generie­ ren: "l1, l1, l2, a2, a2, u1, u1, u1, b2, b2, b1". Dies bil­ det eine gute Nachbildung der Äußerung. Da die Ähnlichkeits­ werte zwischen dem besten Wortmodell 200 bzw. 210 und dem Ähnlichkeitswert des gemeinsamen Modells 300 groß ist, hat auch das Differenzmaß DM einen großen Wert, der anzeigt, daß die Äußerung "Laub" zu einem Fremdwort gehört. In the case of the expression “foliage”, which belongs to a foreign word, the “hello” model 200 (cf. FIG. 7) would have the sequence “H1, a1, a2, a2, a2, a1, a1, a1, a2, l2 "o1". This is a bad replica of the utterance. The "colorful" model 210 (see FIG. 2) would also produce a poor approximation. The common model 300, on the other hand, would generate the following: "l1, l1, l2, a2, a2, u1, u1, u1, b2, b2, b1". This is a good replica of the utterance. Since the similarity values between the best word model 200 or 210 and the similarity value of the common model 300 are large, the difference measure DM also has a large value, which indicates that the expression “foliage” belongs to a foreign word.

Das bisher erläuterte Verfahren kann hinsichtlich der Zuver­ lässigkeit, mit der es die Abweisung von Störgeräuschen ge­ stattet, weiterhin dadurch verbessert werden, daß dem vorge­ gebenen Wortschatz des Spracherkennungssystems ein spezielles Wortmodell für Störgeräusche wie z. B. Atmungsgeräusche hinzu­ gefügt wird. So hat sich in der Praxis herausgestellt, daß insbesondere Atmungsgeräusche durch Luftverwirbelungen an der Mikrofonabdeckung eines Telefonhörers so verfälscht werden können, daß sie mit einer für Störgeräusche untypisch großen Pitch-Energie versehen und deshalb fälschlicherweise nicht als Störgeräusch erkannt werden. Durch die Hinzunahme eines speziellen Wortmodelles für solche Atmungsgeräusche können auch diese, obgleich sie über eine üblicherweise nur bei menschlichen Sprachlauten anzutreffend hohe Pitch-Energie verfügen, von dem Spracherkennungssystem als Störgeräusche erkannt und abgewiesen werden.The method explained so far can with regard to the ver nonchalance with which the rejection of background noises will continue to be improved in that the pre given vocabulary of the speech recognition system a special one Word model for noise such as B. Add breath sounds is added. It has been found in practice that especially breathing noises due to air turbulence on the Microphone cover of a telephone receiver can be falsified can with a large atypical size for noise Pitch energy and therefore incorrectly not be recognized as noise. By adding one special word models for such breathing noises these too, although they are usually only available at high pitch energy found in human speech sounds have, from the speech recognition system as noise recognized and rejected.

Claims (13)

1. Verfahren zum Verarbeiten von Schallsignalen (x), insbe­ sondere in einer Telekommunikationsanlage,
bei dem aus einem Schallsignal (x) mindestens ein Schalldatum erzeugt wird, das die Ausprägung eines vorgegebenen Merkmals des Schallsignals (x) angibt,
bei dem aus dem Schalldatum ein Zuverlässigkeitswert ermit­ telt wird, welcher angibt, mit welcher Wahrscheinlichkeit dem Schallsignal (x) ein Wort aus einem vorgegebenen Wortschatz zugeordnet werden kann,
wobei als vorgegebenes Merkmal ein Maß (SM) für die Anregung einer bestimmten Schallsignalfrequenz verwendet wird, dessen Ausprägung bei stimmhaften Sprachlauten stärker als bei Stör­ geräuschen ist.
1. Process for processing sound signals (x), in particular in a telecommunications system,
in which at least one sound datum is generated from a sound signal (x), which specifies the expression of a predetermined characteristic of the sound signal (x),
in which a reliability value is determined from the sound data, which indicates the probability with which the sound signal (x) can be assigned a word from a given vocabulary,
a measure (SM) for the excitation of a specific sound signal frequency being used as the predefined feature, the expression of which is stronger for voiced speech sounds than for disturbing noises.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als Schalldatum der Energiegehalt des Schallsignals (x) in einem vorbestimmten Frequenzbereich ermittelt wird, der mit hoher Wahrscheinlichkeit die bestimmte Schallsignalfrequenz ent­ hält.2. The method according to claim 1, characterized in that as Sound date is the energy content of the sound signal (x) in one predetermined frequency range is determined with high Probability ent the determined sound signal frequency holds. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß bei einer Vorverarbeitung des Schallsignals aus dessen Abtastwer­ ten für Schallsignalausschnitte vorgegebener Dauer jeweils mehrere Energiewerte Ei ermittelt werden, die jeweils den Energiegehalt eines Frequenzbandes des Schallsignals angeben,
für jeden Schallsignalausschnitt diejenigen Energiewerte zu einem Zwischenwert summiert werden, die den in dem vorbe­ stimmten Frequenzbereich liegenden Frequenzbändern zugeordnet sind,
und daß als Schalldatum die auf die Dauer des Schallsignals (x) bezogene Anzahl der Signalausschnitte ermittelt wird,
deren Zwischenwerte mindestens gleich einem vorgegebenen Schwellenwert Q sind.
3. The method according to claim 2, characterized in that during preprocessing of the sound signal from its samples for sound signal sections of a predetermined duration, a plurality of energy values E i are determined, each of which indicates the energy content of a frequency band of the sound signal,
for each sound signal section those energy values are summed to an intermediate value which are assigned to the frequency bands lying in the predetermined frequency range,
and that the number of signal sections related to the duration of the sound signal (x) is determined as the sound data,
whose intermediate values are at least equal to a predetermined threshold value Q.
4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß die Energiewerte Ei nach dem FFT-Verfahren ermittelt werden.4. The method according to claim 3, characterized in that the energy values E i are determined by the FFT method. 5. Verfahren nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß die Energiewerte Ei logarithmierte Werte sind.5. The method according to claim 3 or 4, characterized in that the energy values E i are logarithmic values. 6. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß eine erste Zugehörigkeitsfunktion (ZF1a) den Zusammenhang zwischen der tatsächlichen Ausprägung des Merkmals (SM) und der Zugehörigkeit zu einer vorgegebenen ersten Ausprägung des Merkmals (SM) angibt,
mindestens eine weitere Zugehörigkeitsfunktion (ZF1b) den Zusammenhang zwischen der tatsächlichen Ausprägung des Merk­ mals (SM) und der Zugehörigkeit zu einer von der ersten Ausprägung verschiedenen zweiten Ausprägung des Merkmals (SM) angibt,
zu dem Schalldatum aus der ersten Zugehörigkeitsfunktion (ZF1a) ein erster Funktionswert und aus der zweiten Zugehö­ rigkeitsfunktion ein zweiter Funktionswert ermittelt werden,
aus den beiden Funktionswerten nach vorgegebenen Verknüp­ fungsregeln ein Zuverlässigkeitswert (ZM) ermittelt wird, der angibt, mit welcher Wahrscheinlichkeit dem Schallsignal (x) ein Wort aus dem vorgegebenen Wortschatz zugeordnet werden kann,
dem Schallsignal (x) nur dann ein Wort des Wortschatzes zuge­ ordnet wird, wenn der Zuverlässigkeitswert (ZM) in einem vor­ gegebenen Bereich liegt,
und daß das Schallsignal als nicht zu einem Wort des Wort­ schatzes gehörend zurückgewiesen wird, wenn der Zuverlässig­ keitswert (ZM) außerhalb des vorgegebenen Bereiches liegt.
6. The method according to any one of the preceding claims, characterized in that a first membership function (ZF1a) indicates the relationship between the actual characteristic of the feature (SM) and the affiliation to a predetermined first characteristic of the feature (SM),
at least one further membership function (ZF1b) indicates the relationship between the actual form of the characteristic (SM) and the belonging to a second form of the characteristic (SM) that differs from the first form,
a first function value is determined for the sound data from the first membership function (ZF1a) and a second function value is determined from the second membership function,
a reliability value (ZM) is determined from the two function values according to predetermined linking rules, which indicates the probability with which a sound from the predetermined vocabulary can be assigned to the sound signal (x),
the sound signal (x) is only assigned a word of the vocabulary if the reliability value (ZM) is in a given range,
and that the sound signal is rejected as not belonging to a word of the word treasure if the reliability value (ZM) is outside the predetermined range.
7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß der Zuverlässigkeitswert (ZW) in minde­ stens zwei Verfahrensstufen berechnet wird,
in einem ersten Teilverfahren der ersten Verfahrensstufe aus den Funktionswerten zu mindestens zwei Merkmalen (SM, WM) des Schallsignals, von denen eines das vorgegebene Merkmal ist, gemäß vorgegebenen ersten Verknüpfungsregeln mindestens ein erster Zwischenwert ermittelt wird,
in mindestens einem weiteren Teilverfahren der ersten Verfah­ rensstufe aus den Funktionswerten zu mindestens zwei weiteren Merkmalen (AM, DM) des Schallsignals gemäß vorgegebener wei­ terer Verknüpfungsregeln mindestens ein weiterer Zwischenwert ermittelt wird,
und daß in der zweiten Verfahrensstufe aus dem ersten Zwi­ schenwert und dem zweiten Zwischenwert nach vorgegebenen Ver­ knüpfungsregeln der Zuverlässigkeitswert (ZW) erzeugt wird.
7. The method according to any one of the preceding claims, characterized in that the reliability value (ZW) is calculated in at least two process stages,
in a first sub-method of the first method stage, at least one first intermediate value is determined from the function values for at least two characteristics (SM, WM) of the sound signal, one of which is the specified characteristic, in accordance with specified first linking rules,
at least one additional intermediate value is determined in at least one further sub-method of the first method stage from the function values for at least two further features (AM, DM) of the sound signal in accordance with predetermined further linking rules,
and that the reliability value (ZW) is generated in the second process stage from the first intermediate value and the second intermediate value according to predetermined linking rules.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß die ersten beiden Merkmale (SM, WM) geeignet sind, Schallsignale (x), die auf Störgeräuschen beruhen, von solchen zu unter­ scheiden, die auf Worten des Wortschatzes beruhen, und daß die weiteren beiden Merkmale (AM, DM) geeignet sind, Schallsignale (x), die auf nicht im Wortschatz enthaltenen Worten beruhen, von solchen zu unterscheiden, die auf Worten des Wortschatzes beruhen.8. The method according to claim 7, characterized in that the first two characteristics (SM, WM) are suitable, sound signals (x), which are based on noise, from such to under divorce based on vocabulary words and that the other two characteristics (AM, DM) are suitable, Sound signals (x) that are not contained in the vocabulary Words are to be distinguished from those based on words of vocabulary. 9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, daß mindestens ein Wortmodell für Störgeräusche erzeugt wird, das bei der Verarbeitung des Schallsignals berücksichtigt wird.9. The method according to any one of the preceding claims, characterized characterized in that at least one word model for noise  is generated during the processing of the sound signal is taken into account. 10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß das Wortmodell zur Nachbildung von Atmungsgeräuschen ausge­ bildet ist.10. The method according to claim 9, characterized in that the word model for emulating breathing sounds forms is. 11. Einrichtung zum Verarbeiten von Schallsignalen (x), ins­ besondere zum Durchführen des Verfahrens nach einem der vor­ hergehenden Ansprüche,
mit einer Vorverarbeitungseinheit, die ausgebildet ist, aus einem Schallsignal (x) mindestens ein Schalldatum zu erzeu­ gen, welches die tatsächliche Ausprägung eines vorgegebenen Merkmals (SM) des Schallsignals angibt,
und mit einer Berechnungseinheit (18, 28) zum Ermitteln eines Zuverlässigkeitswertes aus dem Schalldatum, welcher angibt, mit welcher Wahrscheinlichkeit dem Schallsignal (x) ein Wort aus einem vorgegebenen Wortschatz zugeordnet werden kann,
wobei die Vorverarbeitungseinheit als vorgegebenes Merkmal ein Maß für die Anregung einer bestimmten Schallsignalfre­ quenz ermittelt, dessen Ausprägung bei stimmhaften Sprachlau­ ten stärker als bei Störgeräuschen ist.
11. A device for processing sound signals (x), in particular for performing the method according to one of the preceding claims,
with a preprocessing unit, which is designed to generate at least one sound datum from a sound signal (x) which indicates the actual expression of a predetermined characteristic (SM) of the sound signal,
and with a calculation unit ( 18 , 28 ) for determining a reliability value from the sound data, which indicates the probability with which a sound from a predetermined vocabulary can be assigned to the sound signal (x),
wherein the preprocessing unit as a predetermined feature determines a measure for the excitation of a certain sound signal frequency, the expression of which is stronger in voiced speech sounds than in noise.
12. Einrichtung nach Anspruch 11, dadurch gekennzeichnet,
daß in der Berechnungseinheit (18, 28) eine erste Zugehörig­ keitsfunktion (ZF1a) verwendet wird, die den Zusammenhang zwischen der tatsächlichen Ausprägung des Merkmals (SM) und der Zugehörigkeit zu einer ersten Ausprägung des Merkmals (SM) angibt,
mindestens eine weitere Zugehörigkeitsfunktion (ZF1b) den Zusammenhang zwischen der tatsächlichen Ausprägung des Merk­ mals (SM) und der Zugehörigkeit zu einer von der ersten Ausprägung verschiedenen zweiten Ausprägung des Merkmals (SM) angibt,
zu dem Schalldatum aus der ersten Zugehörigkeitsfunktion (ZF1a) ein erster Funktionswert und aus der zweiten Zugehö­ rigkeitsfunktion (ZF1b) ein zweiter Funktionswert ermittelt wird,
und daß der Zuverlässigkeitswert (ZW) aus den beiden Funkti­ onswerten nach vorgegebenen Verknüpfungsregeln ermittelt wird.
12. The device according to claim 11, characterized in
that a first membership function (ZF1a) is used in the calculation unit ( 18 , 28 ), which indicates the relationship between the actual expression of the characteristic (SM) and the association with a first expression of the characteristic (SM),
at least one further membership function (ZF1b) indicates the relationship between the actual form of the characteristic (SM) and the belonging to a second form of the characteristic (SM) that differs from the first form,
a first function value is determined for the sound data from the first membership function (ZF1a) and a second function value is determined from the second membership function (ZF1b),
and that the reliability value (ZW) is determined from the two function values according to predetermined linking rules.
13. Einrichtung nach einem der Ansprüche 11 bis 12, dadurch gekennzeichnet, daß sie in einer Telekommunikationsanlage eingesetzt wird.13. Device according to one of claims 11 to 12, characterized in that it is used in a telecommunications system.
DE1998154420 1998-11-25 1998-11-25 Method and device for processing sound signals Expired - Fee Related DE19854420C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998154420 DE19854420C2 (en) 1998-11-25 1998-11-25 Method and device for processing sound signals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998154420 DE19854420C2 (en) 1998-11-25 1998-11-25 Method and device for processing sound signals

Publications (2)

Publication Number Publication Date
DE19854420A1 DE19854420A1 (en) 2000-06-15
DE19854420C2 true DE19854420C2 (en) 2002-03-28

Family

ID=7889007

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998154420 Expired - Fee Related DE19854420C2 (en) 1998-11-25 1998-11-25 Method and device for processing sound signals

Country Status (1)

Country Link
DE (1) DE19854420C2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10118668B4 (en) * 2001-04-14 2004-02-05 Schott Glas Coordinate measuring

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441203A (en) * 1982-03-04 1984-04-03 Fleming Mark C Music speech filter
DD301420A7 (en) * 1984-02-14 1992-12-24 Mfnv Circuit arrangement for the digital evaluation of frequency spectra for triggering switching functions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4441203A (en) * 1982-03-04 1984-04-03 Fleming Mark C Music speech filter
DD301420A7 (en) * 1984-02-14 1992-12-24 Mfnv Circuit arrangement for the digital evaluation of frequency spectra for triggering switching functions

Also Published As

Publication number Publication date
DE19854420A1 (en) 2000-06-15

Similar Documents

Publication Publication Date Title
DE69433254T2 (en) Method and device for speech detection
DE60023517T2 (en) CLASSIFICATION OF SOUND SOURCES
DE10041512A1 (en) Artificial broadening of voice signal bandwidth involves analysis filtering of narrowband voice signal, residual signal expansion and synthesis filtering with estimated filter coefficients
DE10030105A1 (en) Speech recognition device
EP0076233B1 (en) Method and apparatus for redundancy-reducing digital speech processing
DE2659096A1 (en) METHOD AND DEVICE FOR VOICE RECOGNITION
DE2524804A1 (en) METHOD AND DEVICE FOR AUTOMATIC SPEECH RECOGNITION
DE2020753A1 (en) Device for recognizing given speech sounds
EP0285222B1 (en) Method for detecting associatively pronounced words
DE19581667C2 (en) Speech recognition system and method for speech recognition
EP1058235A2 (en) Reproduction method for voice controlled systems with text based speech synthesis
DE102010040553A1 (en) Speech recognition method
DE2021126A1 (en) Speech recognition device
WO1993002448A1 (en) Method and device for recognizing individual words of spoken speech
EP1279164A1 (en) Method for detecting a voice activity decision (voice activity detector)
DE19854420C2 (en) Method and device for processing sound signals
EP0803861B1 (en) Method for extracting characteristic features from a speech signal
WO2005069278A1 (en) Method and device for processing a voice signal for robust speech recognition
EP0817167B1 (en) Speech recognition method and device for carrying out the method
EP1076896A1 (en) Method and device enabling a computer to recognise at least one keyword in speech
DE19705471C2 (en) Method and circuit arrangement for speech recognition and for voice control of devices
DE10305369B4 (en) User-adaptive method for noise modeling
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction
EP0902419B1 (en) Method of rejecting unknown words during isolated word speech recognition
DE10026872A1 (en) Procedure for calculating a voice activity decision (Voice Activity Detector)

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee