DE10245107B4

DE10245107B4 - Voice Activity Detection based on unsupervised trained clustering methods

Info

Publication number: DE10245107B4
Application number: DE2002145107
Authority: DE
Inventors: Stephan Dr. Grashey
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-09-27
Filing date: 2002-09-27
Publication date: 2006-01-26
Anticipated expiration: 2022-09-28
Also published as: ES2269917T3; EP1406244A3; DE50305333D1; DE10245107A1; EP1406244B1; EP1406244A2

Abstract

Vorrichtung zur Detektion, ob ein Sprachsignal vorliegt oder nicht, mit
– Mitteln zum Einteilen eines Signals in eine von mehr als zwei Klassen, die in selbstorganisierten Clustern geclustert sind,
– Mitteln zum Entscheiden, ob das Signal ein Sprachsignal ist oder nicht, in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist.Device for detecting whether a voice signal is present or not, with
Means for splitting a signal into one of more than two classes clustered in self-organized clusters,
- means for deciding whether the signal is a speech signal or not, depending on the class in which the signal is divided.

Description

Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.One Voice Activity Detector (VAD) is a device that allows between speech including background noise ("speech") and background noise alone ("Non-language") to distinguish. For example, the input of a VAD can be switched on by a microphone recorded voice signal of a communication terminal. While the user speaks, sets the signal out of his voice and the background noise (for example Street noise) together. In contrast, during the pauses between speaking, the signal alone consists of the background noise. Of the Output of a Voice Activity Detector now adds the input signal add the information whether it contains language or not.

Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The Applications of a VAD are many. So For example, a VAD can be used to reduce data to only the voice signal to store or transfer. In speech recognition, a VAD allows for faster and better Detection, since the recognition is based on the pure speech passages of the Focus on audio.

VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are either set based on heuristics or else trained during a training phase. As input signal is used in each case the suitably preprocessed audio signal. In a Property extraction receives depending on the number of properties used size Features vectors.

Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still widespread heuristic is one Signal based on a specific, fixed energy threshold judge. exceeds the signal energy is the threshold, then "language" is assumed, otherwise "non-language".

Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.One Another example is the determination of the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold for discrimination, whether a voice signal is present or not.

Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.Besides There are more complex procedures to use one more or less huge Number of thresholds based on various properties the desired To make a distinction.

Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28–36, angegeben.To For example, VADs trained during a training phase include statistical VADs or neural networks. These are with it Trains data that is known when and when a language noise occurs. So this is data in advance, for example labeled by hand are. examples for Procedures that can be used in this way to decide whether a voice signal is present or not, are for example in Stadermann J .: "Speech / Pause Detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36, specified.

Weitere VADs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470–473, offenbart.Further VADs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication Systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, pages 470-473, disclosed.

Aus DE 37 81 393 T2 und DE 696 03 743 T2 sind Vorrichtungen bekannt, die Signale in mehr als zwei Klassen einteilen, um zu beurteilen, ob ein Signal ein Sprachsignal ist oder nicht.Out DE 37 81 393 T2 and DE 696 03 743 T2 For example, devices are known that divide signals into more than two classes to judge whether or not a signal is a speech signal.

Aus DE 44 42 613 C2 ist die Verwendung neuronaler Netze zur Klassenbildung bei der Spracherkennung bekannt.Out DE 44 42 613 C2 the use of neural networks for class formation in speech recognition is known.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.From that Based on the object of the invention, a more accurate Differentiation between language and non-language. It should also on an automatic adaptability to different noise situations, speaker or languages value.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.These The object is achieved by those specified in the independent claims Inventions solved. Advantageous embodiments emerge from the subclaims.

Die Erfindung geht von dem Gedanken aus, dass ein VAD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Sprache- oder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The Invention is based on the idea that a VAD in principle as Classifier with N = 2 classes (language / non-language) can be considered. It But it turned out that a much better classification can be made if a signal is not immediately the language or the non-language class is assigned, but when the signal dependent of his properties first divided into a class of a variety of more than three classes becomes. This allows the many different properties of Speech and sounds be better taken into account.

Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to this many different properties, the plurality is preferably bigger or equal to 10, in particular larger or equal to 64. Dependent of the class into which the signal is divided is then decided whether the signal is a voice signal or not.

Hierfür sind die Klassen in Clustern geclustert, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.For this, the classes are clusters tert, so that similar classes are grouped adjacent or in groups. For this purpose, the classes are automatically formed in a self-organizing cluster process to be trained in a training phase, in particular by means of test signals.

Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.in this connection a neural network is preferably used, in particular a Kohonen network with the network architecture of a self-organizing Map.

Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This so trained and structured network is preferred then also equal used in the detection phase, in which it is decided if a Signal is a voice signal or not.

Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.Especially Advantageously, the device described in the biometric Speech recognition during the enrollment used to be the voice of the enrolling Person to record as a reference and no more or less large parts of the Background noise. Otherwise, a person may experience a similar noise environment during verification has, authenticated by the system.

Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.One Method for detecting whether a speech signal is present or not let yourself build up analogously to the device described. This also applies to his preferred embodiments.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.One Program product for a data processing system containing code sections, with one of the described methods on the data processing system accomplished can be, can be by suitable implementation of the method in a programming language and translation in execute executable code from the data processing system. The Code sections are stored for this purpose. It is under a program product understood the program as a tradable product. It can be in any Form, for example, on paper, a computer-readable medium or via a Network distributed.

Weitere wesentliche Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Further Major advantages of the invention will become apparent from the description an embodiment based on the figures. Showing:

1 die Trainingsphase einer Vorrichtung mit Mitteln zur Detektion, ob ein Sprachsignal vorliegt oder nicht; 1 the training phase of a device with means for detecting whether a speech signal is present or not;

2 die Assoziationsphase der Vorrichtung nach 1; 2 the association phase of the device 1 ;

3 ein Beispiel für eine Detektion, ob ein Sprachsignal vorliegt oder nicht. 3 an example of detection of whether a voice signal is present or not.

Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.in the Prior art known VADs have the problem that from the Signal extracted properties divided into only two classes although their expression within the same class. For example with a speech signal usually properties, which unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").

Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to distinguish whether a speech signal or not, to use a two-phase learning method.

In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In The first phase of the procedure will be an unsupervised training, self-organizing cluster method with N> 2 classes used. N is given arbitrarily, but meaningfully. To be training So only extracted from an audio signal property vectors used at the same time without a class affiliation is given. In general, therefore, there is a larger number m to classes of the classifier that represent "language" and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently is it possible, for example, to assign voiced and unvoiced sounds to different classes.

Diese erste Phase soll anhand von 1 verdeutlicht werden. Dort erkennt man eine Audiodatenbank 1 mit Audiosignalen. Diese werden einer Vorverarbeitung 2 zugeführt. Diese Vorverarbeitung ist vorzugsweise dieselbe, wie sie für eine spätere Spracherkennung verwendet wird. Dadurch lässt sich eine zweite Vorverarbeitung einsparen.This first phase should be based on 1 be clarified. There you can recognize an audio database 1 with audio signals. These become preprocessing 2 fed. This preprocessing is preferably the same as that used for later speech recognition. This can save a second preprocessing.

Die Vorverarbeitung 2 extrahiert aus den Audiosignalen der Audiodatenbank 1 Eigenschaftsvektoren 3, in denen Eigenschaften der Audiosignale angegeben werden. Diese Eigenschaftsvektoren 3 werden den Eingangsneuronen eines neuronalen Netzes 4 zugeführt.The preprocessing 2 extracted from the audio signals of the audio database 1 feature vectors 3 in which properties of the audio signals are specified. These feature vectors 3 become the input neurons of a neural network 4 fed.

Das neuronale Netz 4 ist ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte (SOM: Self-Organizing Map). Es hat die Eigenschaft, dass eine lokale Nachbarschaftsbeziehung zwischen den einzelnen Neuronen existiert, so dass die die einzelnen Klassen repräsentierenden Referenzvektoren nach erfolgtem Training räumlich geordnet vorliegen.The neural network 4 is a Kohonen network with the network architecture of a self-organizing map (SOM: Self-Organizing Map). It has the property that a local neighborhood relationship exists between the individual neurons, so that the reference vectors representing the individual classes are spatially ordered after completion of the training.

Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is trained on the basis of a database, which for example, speech and noise in the same frequency having.

Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network provides a self-organizing clustering method waking learning.

Als Ergebnis des Klassifikatortrainings ergibt sich eine Klassenrepräsentation 5.The result of classifier training is a class representation 5 ,

Nach erfolgreichem Klassifikatortraining erfolgt in einer zweiten Phase, der Assoziationsphase, die Zuordnung jeder einzelnen Klasse des Klassifikators 4 in Form des neuronalen Netzes zu einer der beiden Klassen Sprache bzw. Nicht-Sprache. Dazu wird jetzt der Klassifikator 4 selbst im Klassifikationsmodus betrieben, das heißt, er gibt zu jedem Eigenschaftsvektor 3 die zugehörige Klasse 6 aus. Dies ist in 2 dargestellt. Die Assoziationseinheit 7 wird dagegen im Trainingsmodus betrieben, das heißt, sie erlernt auf Basis der gelabelten Audiosignale 8 die Zuordnung jeder der Klassifikatorklassen zu "Sprache" oder zu "Nicht-Sprache". Dabei wird festgestellt, welchen Klassen jeweils wie viele Testsignale zugeordnet worden sind, die "Sprache" oder die "Nicht-Sprache" sind. In Abhängigkeit von diesem Ergebnis wird jede Klasse in einem Assoziationsschritt jeweils als Sprache- oder als Nicht-Sprache-Klasse deklariert. Als Ergebnis erhält man die Klassenzuordnung 9 des VADs.After successful classifier training, in a second phase, the association phase, the assignment of each class of the classifier takes place 4 in the form of the neural network to one of the two classes language or non-language. This is now the classifier 4 even in the classification mode, that is, it gives to each property vector 3 the associated class 6 out. This is in 2 shown. The association unit 7 however, is operated in training mode, that is, it learns based on the labeled audio signals 8th the assignment of each of the classifier classes to "language" or to "non-language". It is ascertained to which classes in each case how many test signals have been assigned which are "language" or the "non-language". Depending on this result, each class in an association step is declared as a language or non-language class. The result is class assignment 9 of the VAD.

Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.To After the association step, the results obtained are forwarded improved by using a mean value filter, individual Runaway to eliminate.

In 4 ist die Amplitude A des deutschen Wortes "Zwanzig" (20) über der Zeit t aufgetragen. Für dieses Signal ist unterhalb des Graphs das Ergebnis der Detektion dargestellt, ob ein Sprachsignal vorliegt oder nicht.In 4 the amplitude A of the German word "twenty" (20) is plotted over time t. For this signal, the result of the detection is shown below the graph, whether a voice signal is present or not.

Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".there is in the first line labeled "Real" the actual Classification indicated. Where "noise" stands for "non-language" and "speech" for "language".

In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("label") is the one by one usual VAD for a labeling made.

In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.In the third line, labeled "N-VAD" is finally the detection indicated as they pass through the device according to the invention and the method according to the invention is achieved with a predetermined class number N = 625. How one sees, this detection and classification is much better coincide with reality as with the conventional VAD made. This is particularly noticeable that pauses between single syllables are also detected as "non-speech".

Durch die Erfindung ergeben sich insbesondere folgende Vorteile:
Unähnliche Eigenschaftsvektoren werden nicht mehr in die gleiche Klasse gezwungen, sondern werden einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums zugeordnet. Dadurch steigt die Genauigkeit der Klassifikation an.The invention provides the following advantages in particular:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class on the basis of a similarity criterion alone. This increases the accuracy of the classification.

Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.inaccuracies when labeling the audio signals do not affect the actual Training process, since unmonitored Learning takes place. Thus, typically short speech pauses between single syllables not included in labeling, but assigned to the class "language", though in this break, the background noise outweighs. In the proposed Procedure based on unsupervised This short break will be learned by the corresponding property vectors assigned.

Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The Procedure is independent language and / or content of the spoken text.

Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.All in all The accuracy of the VAD is improved, resulting in better results in applications based on it.

Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.Corresponding the increased accuracy, the invention preferably in the Enrollment framework for biometric speech recognition Recognition of word boundaries are used after previous procedures repeatedly based on the signal energy to errors and thus to one Security risk in biometric authentication.

Claims

Device for detecting whether a speech signal is present or not, with - funds for splitting a signal into one of more than two classes, the clustered in self-organized clusters, - funds for deciding whether the signal is a voice signal or not, dependent on of the class into which the signal is divided.

Device according to claim 1, characterized in that that the number of more than two classes is greater than or equal to 10, in particular bigger or equal to 64.

Device according to one of the preceding claims, characterized characterized in that the classes are automatically formed classes.

Device according to claim 5, characterized in that that the automatically formed classes are classes with a neural network are formed.

Device according to one of the preceding Claims, characterized in that the device for splitting the signal into one of more than two classes comprises a neural network.

Device according to one of claims 4 or 5, characterized that the neural network is a Kohonen network.

Device according to one of the preceding claims, characterized characterized in that the device is a mobile terminal, in particular a mobile phone.

Biometric method in which a device according to one of the claims 1 to 7 is used.

Method for creating a class representation, by means of which it is detectable whether a speech signal is present or not, with the class representation created with more than two classes, characterized in that that the process is a self-organizing clustering process is, so the classes are clustered in self-organized clusters become.

Method according to claim 9, characterized in that that the procedure is unsupervised is to be trained method.

Method for detecting whether a speech signal is present or not, at which - one Signal is divided into one of more than two classes, which in clustered self-organized clusters, - dependent on is decided by the class to which the signal is divided whether the signal is a voice signal or not.

Program product for a data processing system, contains the code sections, with which a method according to any one of claims 8 to 11 on a data processing system executable is.