DE10245107B4 - Voice Activity Detection based on unsupervised trained clustering methods - Google Patents

Voice Activity Detection based on unsupervised trained clustering methods Download PDF

Info

Publication number
DE10245107B4
DE10245107B4 DE2002145107 DE10245107A DE10245107B4 DE 10245107 B4 DE10245107 B4 DE 10245107B4 DE 2002145107 DE2002145107 DE 2002145107 DE 10245107 A DE10245107 A DE 10245107A DE 10245107 B4 DE10245107 B4 DE 10245107B4
Authority
DE
Germany
Prior art keywords
signal
classes
class
language
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE2002145107
Other languages
German (de)
Other versions
DE10245107A1 (en
Inventor
Stephan Dr. Grashey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2002145107 priority Critical patent/DE10245107B4/en
Priority to DE50305333T priority patent/DE50305333D1/en
Priority to ES03102639T priority patent/ES2269917T3/en
Priority to EP20030102639 priority patent/EP1406244B1/en
Publication of DE10245107A1 publication Critical patent/DE10245107A1/en
Application granted granted Critical
Publication of DE10245107B4 publication Critical patent/DE10245107B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Vorrichtung zur Detektion, ob ein Sprachsignal vorliegt oder nicht, mit
– Mitteln zum Einteilen eines Signals in eine von mehr als zwei Klassen, die in selbstorganisierten Clustern geclustert sind,
– Mitteln zum Entscheiden, ob das Signal ein Sprachsignal ist oder nicht, in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist.
Device for detecting whether a voice signal is present or not, with
Means for splitting a signal into one of more than two classes clustered in self-organized clusters,
- means for deciding whether the signal is a speech signal or not, depending on the class in which the signal is divided.

Figure 00000001
Figure 00000001

Description

Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.One Voice Activity Detector (VAD) is a device that allows between speech including background noise ("speech") and background noise alone ("Non-language") to distinguish. For example, the input of a VAD can be switched on by a microphone recorded voice signal of a communication terminal. While the user speaks, sets the signal out of his voice and the background noise (for example Street noise) together. In contrast, during the pauses between speaking, the signal alone consists of the background noise. Of the Output of a Voice Activity Detector now adds the input signal add the information whether it contains language or not.

Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The Applications of a VAD are many. So For example, a VAD can be used to reduce data to only the voice signal to store or transfer. In speech recognition, a VAD allows for faster and better Detection, since the recognition is based on the pure speech passages of the Focus on audio.

VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are either set based on heuristics or else trained during a training phase. As input signal is used in each case the suitably preprocessed audio signal. In a Property extraction receives depending on the number of properties used size Features vectors.

Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still widespread heuristic is one Signal based on a specific, fixed energy threshold judge. exceeds the signal energy is the threshold, then "language" is assumed, otherwise "non-language".

Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.One Another example is the determination of the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold for discrimination, whether a voice signal is present or not.

Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.Besides There are more complex procedures to use one more or less huge Number of thresholds based on various properties the desired To make a distinction.

Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28–36, angegeben.To For example, VADs trained during a training phase include statistical VADs or neural networks. These are with it Trains data that is known when and when a language noise occurs. So this is data in advance, for example labeled by hand are. examples for Procedures that can be used in this way to decide whether a voice signal is present or not, are for example in Stadermann J .: "Speech / Pause Detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36, specified.

Weitere VADs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470–473, offenbart.Further VADs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication Systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, pages 470-473, disclosed.

Aus DE 37 81 393 T2 und DE 696 03 743 T2 sind Vorrichtungen bekannt, die Signale in mehr als zwei Klassen einteilen, um zu beurteilen, ob ein Signal ein Sprachsignal ist oder nicht.Out DE 37 81 393 T2 and DE 696 03 743 T2 For example, devices are known that divide signals into more than two classes to judge whether or not a signal is a speech signal.

Aus DE 44 42 613 C2 ist die Verwendung neuronaler Netze zur Klassenbildung bei der Spracherkennung bekannt.Out DE 44 42 613 C2 the use of neural networks for class formation in speech recognition is known.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.From that Based on the object of the invention, a more accurate Differentiation between language and non-language. It should also on an automatic adaptability to different noise situations, speaker or languages value.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.These The object is achieved by those specified in the independent claims Inventions solved. Advantageous embodiments emerge from the subclaims.

Die Erfindung geht von dem Gedanken aus, dass ein VAD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Sprache- oder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The Invention is based on the idea that a VAD in principle as Classifier with N = 2 classes (language / non-language) can be considered. It But it turned out that a much better classification can be made if a signal is not immediately the language or the non-language class is assigned, but when the signal dependent of his properties first divided into a class of a variety of more than three classes becomes. This allows the many different properties of Speech and sounds be better taken into account.

Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to this many different properties, the plurality is preferably bigger or equal to 10, in particular larger or equal to 64. Dependent of the class into which the signal is divided is then decided whether the signal is a voice signal or not.

Hierfür sind die Klassen in Clustern geclustert, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.For this, the classes are clusters tert, so that similar classes are grouped adjacent or in groups. For this purpose, the classes are automatically formed in a self-organizing cluster process to be trained in a training phase, in particular by means of test signals.

Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.in this connection a neural network is preferably used, in particular a Kohonen network with the network architecture of a self-organizing Map.

Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This so trained and structured network is preferred then also equal used in the detection phase, in which it is decided if a Signal is a voice signal or not.

Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.Especially Advantageously, the device described in the biometric Speech recognition during the enrollment used to be the voice of the enrolling Person to record as a reference and no more or less large parts of the Background noise. Otherwise, a person may experience a similar noise environment during verification has, authenticated by the system.

Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.One Method for detecting whether a speech signal is present or not let yourself build up analogously to the device described. This also applies to his preferred embodiments.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.One Program product for a data processing system containing code sections, with one of the described methods on the data processing system accomplished can be, can be by suitable implementation of the method in a programming language and translation in execute executable code from the data processing system. The Code sections are stored for this purpose. It is under a program product understood the program as a tradable product. It can be in any Form, for example, on paper, a computer-readable medium or via a Network distributed.

Weitere wesentliche Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Further Major advantages of the invention will become apparent from the description an embodiment based on the figures. Showing:

1 die Trainingsphase einer Vorrichtung mit Mitteln zur Detektion, ob ein Sprachsignal vorliegt oder nicht; 1 the training phase of a device with means for detecting whether a speech signal is present or not;

2 die Assoziationsphase der Vorrichtung nach 1; 2 the association phase of the device 1 ;

3 ein Beispiel für eine Detektion, ob ein Sprachsignal vorliegt oder nicht. 3 an example of detection of whether a voice signal is present or not.

Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.in the Prior art known VADs have the problem that from the Signal extracted properties divided into only two classes although their expression within the same class. For example with a speech signal usually properties, which unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").

Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to distinguish whether a speech signal or not, to use a two-phase learning method.

In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In The first phase of the procedure will be an unsupervised training, self-organizing cluster method with N> 2 classes used. N is given arbitrarily, but meaningfully. To be training So only extracted from an audio signal property vectors used at the same time without a class affiliation is given. In general, therefore, there is a larger number m to classes of the classifier that represent "language" and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently is it possible, for example, to assign voiced and unvoiced sounds to different classes.

Diese erste Phase soll anhand von 1 verdeutlicht werden. Dort erkennt man eine Audiodatenbank 1 mit Audiosignalen. Diese werden einer Vorverarbeitung 2 zugeführt. Diese Vorverarbeitung ist vorzugsweise dieselbe, wie sie für eine spätere Spracherkennung verwendet wird. Dadurch lässt sich eine zweite Vorverarbeitung einsparen.This first phase should be based on 1 be clarified. There you can recognize an audio database 1 with audio signals. These become preprocessing 2 fed. This preprocessing is preferably the same as that used for later speech recognition. This can save a second preprocessing.

Die Vorverarbeitung 2 extrahiert aus den Audiosignalen der Audiodatenbank 1 Eigenschaftsvektoren 3, in denen Eigenschaften der Audiosignale angegeben werden. Diese Eigenschaftsvektoren 3 werden den Eingangsneuronen eines neuronalen Netzes 4 zugeführt.The preprocessing 2 extracted from the audio signals of the audio database 1 feature vectors 3 in which properties of the audio signals are specified. These feature vectors 3 become the input neurons of a neural network 4 fed.

Das neuronale Netz 4 ist ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte (SOM: Self-Organizing Map). Es hat die Eigenschaft, dass eine lokale Nachbarschaftsbeziehung zwischen den einzelnen Neuronen existiert, so dass die die einzelnen Klassen repräsentierenden Referenzvektoren nach erfolgtem Training räumlich geordnet vorliegen.The neural network 4 is a Kohonen network with the network architecture of a self-organizing map (SOM: Self-Organizing Map). It has the property that a local neighborhood relationship exists between the individual neurons, so that the reference vectors representing the individual classes are spatially ordered after completion of the training.

Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is trained on the basis of a database, which for example, speech and noise in the same frequency having.

Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network provides a self-organizing clustering method waking learning.

Als Ergebnis des Klassifikatortrainings ergibt sich eine Klassenrepräsentation 5.The result of classifier training is a class representation 5 ,

Nach erfolgreichem Klassifikatortraining erfolgt in einer zweiten Phase, der Assoziationsphase, die Zuordnung jeder einzelnen Klasse des Klassifikators 4 in Form des neuronalen Netzes zu einer der beiden Klassen Sprache bzw. Nicht-Sprache. Dazu wird jetzt der Klassifikator 4 selbst im Klassifikationsmodus betrieben, das heißt, er gibt zu jedem Eigenschaftsvektor 3 die zugehörige Klasse 6 aus. Dies ist in 2 dargestellt. Die Assoziationseinheit 7 wird dagegen im Trainingsmodus betrieben, das heißt, sie erlernt auf Basis der gelabelten Audiosignale 8 die Zuordnung jeder der Klassifikatorklassen zu "Sprache" oder zu "Nicht-Sprache". Dabei wird festgestellt, welchen Klassen jeweils wie viele Testsignale zugeordnet worden sind, die "Sprache" oder die "Nicht-Sprache" sind. In Abhängigkeit von diesem Ergebnis wird jede Klasse in einem Assoziationsschritt jeweils als Sprache- oder als Nicht-Sprache-Klasse deklariert. Als Ergebnis erhält man die Klassenzuordnung 9 des VADs.After successful classifier training, in a second phase, the association phase, the assignment of each class of the classifier takes place 4 in the form of the neural network to one of the two classes language or non-language. This is now the classifier 4 even in the classification mode, that is, it gives to each property vector 3 the associated class 6 out. This is in 2 shown. The association unit 7 however, is operated in training mode, that is, it learns based on the labeled audio signals 8th the assignment of each of the classifier classes to "language" or to "non-language". It is ascertained to which classes in each case how many test signals have been assigned which are "language" or the "non-language". Depending on this result, each class in an association step is declared as a language or non-language class. The result is class assignment 9 of the VAD.

Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.To After the association step, the results obtained are forwarded improved by using a mean value filter, individual Runaway to eliminate.

In 4 ist die Amplitude A des deutschen Wortes "Zwanzig" (20) über der Zeit t aufgetragen. Für dieses Signal ist unterhalb des Graphs das Ergebnis der Detektion dargestellt, ob ein Sprachsignal vorliegt oder nicht.In 4 the amplitude A of the German word "twenty" (20) is plotted over time t. For this signal, the result of the detection is shown below the graph, whether a voice signal is present or not.

Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".there is in the first line labeled "Real" the actual Classification indicated. Where "noise" stands for "non-language" and "speech" for "language".

In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("label") is the one by one usual VAD for a labeling made.

In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.In the third line, labeled "N-VAD" is finally the detection indicated as they pass through the device according to the invention and the method according to the invention is achieved with a predetermined class number N = 625. How one sees, this detection and classification is much better coincide with reality as with the conventional VAD made. This is particularly noticeable that pauses between single syllables are also detected as "non-speech".

Durch die Erfindung ergeben sich insbesondere folgende Vorteile:
Unähnliche Eigenschaftsvektoren werden nicht mehr in die gleiche Klasse gezwungen, sondern werden einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums zugeordnet. Dadurch steigt die Genauigkeit der Klassifikation an.
The invention provides the following advantages in particular:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class on the basis of a similarity criterion alone. This increases the accuracy of the classification.

Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.inaccuracies when labeling the audio signals do not affect the actual Training process, since unmonitored Learning takes place. Thus, typically short speech pauses between single syllables not included in labeling, but assigned to the class "language", though in this break, the background noise outweighs. In the proposed Procedure based on unsupervised This short break will be learned by the corresponding property vectors assigned.

Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The Procedure is independent language and / or content of the spoken text.

Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.All in all The accuracy of the VAD is improved, resulting in better results in applications based on it.

Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.Corresponding the increased accuracy, the invention preferably in the Enrollment framework for biometric speech recognition Recognition of word boundaries are used after previous procedures repeatedly based on the signal energy to errors and thus to one Security risk in biometric authentication.

Claims (12)

Vorrichtung zur Detektion, ob ein Sprachsignal vorliegt oder nicht, mit – Mitteln zum Einteilen eines Signals in eine von mehr als zwei Klassen, die in selbstorganisierten Clustern geclustert sind, – Mitteln zum Entscheiden, ob das Signal ein Sprachsignal ist oder nicht, in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist.Device for detecting whether a speech signal is present or not, with - funds for splitting a signal into one of more than two classes, the clustered in self-organized clusters, - funds for deciding whether the signal is a voice signal or not, dependent on of the class into which the signal is divided. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Anzahl der mehr als zwei Klassen größer oder gleich 10 ist, insbesondere größer oder gleich 64.Device according to claim 1, characterized in that that the number of more than two classes is greater than or equal to 10, in particular bigger or equal to 64. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassen automatisch gebildete Klassen sind.Device according to one of the preceding claims, characterized characterized in that the classes are automatically formed classes. Vorrichtung nach Anspruch 5, dadurch gekennzeichnet, dass die automatisch gebildeten Klassen Klassen sind, die mit einem neuronalen Netz gebildet sind.Device according to claim 5, characterized in that that the automatically formed classes are classes with a neural network are formed. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung für das Einteilen des Signals in eine von mehr als zwei Klassen ein neuronales Netz aufweist.Device according to one of the preceding Claims, characterized in that the device for splitting the signal into one of more than two classes comprises a neural network. Vorrichtung nach einem der Ansprüche 4 oder 5, dadurch gekennzeichnet, dass das neuronale Netz ein Kohonen-Netz ist.Device according to one of claims 4 or 5, characterized that the neural network is a Kohonen network. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung ein mobiles Endgerät ist, insbesondere ein Mobiltelefon.Device according to one of the preceding claims, characterized characterized in that the device is a mobile terminal, in particular a mobile phone. Biometrisches Verfahren, bei dem eine Vorrichtung nach einem der Ansprüche 1 bis 7 verwendet wird.Biometric method in which a device according to one of the claims 1 to 7 is used. Verfahren zum Erstellen einer Klassenrepräsentation, anhand derer detektierbar ist, ob ein Sprachsignal vorliegt oder nicht, wobei die Klassenrepräsentation mit mehr als zwei Klassen erstellt wird, dadurch gekennzeichnet, dass das Verfahren ein sich selbst organisierendes Clusterverfahren ist, so dass die Klassen in selbstorganisierten Clustern geclustert werden.Method for creating a class representation, by means of which it is detectable whether a speech signal is present or not, with the class representation created with more than two classes, characterized in that that the process is a self-organizing clustering process is, so the classes are clustered in self-organized clusters become. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass das Verfahren ein unüberwacht zu trainierendes Verfahren ist.Method according to claim 9, characterized in that that the procedure is unsupervised is to be trained method. Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, bei dem – ein Signal in eine von mehr als zwei Klassen eingeteilt wird, die in selbstorganisierten Clustern geclustert sind, – in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, entschieden wird, ob das Signal ein Sprachsignal ist oder nicht.Method for detecting whether a speech signal is present or not, at which - one Signal is divided into one of more than two classes, which in clustered self-organized clusters, - dependent on is decided by the class to which the signal is divided whether the signal is a voice signal or not. Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 8 bis 11 auf einer Datenverarbeitungsanlage ausführbar ist.Program product for a data processing system, contains the code sections, with which a method according to any one of claims 8 to 11 on a data processing system executable is.
DE2002145107 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods Expired - Fee Related DE10245107B4 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE2002145107 DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods
DE50305333T DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods
ES03102639T ES2269917T3 (en) 2002-09-27 2003-08-25 VOICE ATIVITY DETECTION (BASED ON VOICE ACTIVITY DETECTION) BASED ON PROCEDURES OF CLUSTERS (GROUPS) TRAINED WITHOUT SURVEILLANCE.
EP20030102639 EP1406244B1 (en) 2002-09-27 2003-08-25 Voice activity detection based on unsupervised trained clustering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002145107 DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods

Publications (2)

Publication Number Publication Date
DE10245107A1 DE10245107A1 (en) 2004-04-08
DE10245107B4 true DE10245107B4 (en) 2006-01-26

Family

ID=31984148

Family Applications (2)

Application Number Title Priority Date Filing Date
DE2002145107 Expired - Fee Related DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods
DE50305333T Expired - Lifetime DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50305333T Expired - Lifetime DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods

Country Status (3)

Country Link
EP (1) EP1406244B1 (en)
DE (2) DE10245107B4 (en)
ES (1) ES2269917T3 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006021427B4 (en) * 2006-05-05 2008-01-17 Giesecke & Devrient Gmbh Method and device for personalizing cards
US11502863B2 (en) * 2020-05-18 2022-11-15 Avaya Management L.P. Automatic correction of erroneous audio setting

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3781393T2 (en) * 1986-07-21 1993-04-01 Ncr Int Inc METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA.
US5315704A (en) * 1989-11-28 1994-05-24 Nec Corporation Speech/voiceband data discriminator
DE4442613C2 (en) * 1994-11-30 1998-12-10 Deutsche Telekom Mobil System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks
DE69603743T2 (en) * 1995-10-27 2000-06-08 Cselt Centro Studi Lab Telecom METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS
WO2001061647A2 (en) * 2000-02-16 2001-08-23 Hrl Laboratories, Llc Fuzzy expert system for interpretable rule extraction from neural networks

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3088171B2 (en) * 1991-02-12 2000-09-18 三菱電機株式会社 Self-organizing pattern classification system and classification method
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3781393T2 (en) * 1986-07-21 1993-04-01 Ncr Int Inc METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA.
US5315704A (en) * 1989-11-28 1994-05-24 Nec Corporation Speech/voiceband data discriminator
DE4442613C2 (en) * 1994-11-30 1998-12-10 Deutsche Telekom Mobil System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks
DE69603743T2 (en) * 1995-10-27 2000-06-08 Cselt Centro Studi Lab Telecom METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS
WO2001061647A2 (en) * 2000-02-16 2001-08-23 Hrl Laboratories, Llc Fuzzy expert system for interpretable rule extraction from neural networks

Also Published As

Publication number Publication date
ES2269917T3 (en) 2007-04-01
EP1406244A3 (en) 2005-01-12
DE50305333D1 (en) 2006-11-23
DE10245107A1 (en) 2004-04-08
EP1406244B1 (en) 2006-10-11
EP1406244A2 (en) 2004-04-07

Similar Documents

Publication Publication Date Title
DE69031284T2 (en) Method and device for speech recognition
DE69432570T2 (en) voice recognition
DE69030561T2 (en) Speech recognition device
DE60213595T2 (en) UNDERSTANDING SPEAKER VOTES
EP0604476B1 (en) Process for recognizing patterns in time-varying measurement signals
DE69722980T2 (en) Recording of voice data with segments of acoustically different environments
DE60023517T2 (en) CLASSIFICATION OF SOUND SOURCES
DE60108373T2 (en) Method for detecting emotions in speech signals using speaker identification
DE60128270T2 (en) Method and system for generating speaker recognition data, and method and system for speaker recognition
DE69924596T2 (en) Selection of acoustic models by speaker verification
EP0964390A2 (en) Device for the verification of signals
DE112018007847B4 (en) INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN111081223B (en) Voice recognition method, device, equipment and storage medium
DE60034772T2 (en) REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION
EP3291234B1 (en) Method for evaluation of a quality of the voice usage of a speaker
DE69813597T2 (en) PATTERN RECOGNITION USING MULTIPLE REFERENCE MODELS
DE3750365T2 (en) Speaker identification.
DE10245107B4 (en) Voice Activity Detection based on unsupervised trained clustering methods
WO1993002448A1 (en) Method and device for recognizing individual words of spoken speech
DE10209324C1 (en) Method for automatic detection of different speakers in speech recognition system correlates speech signal with speaker-independent and speaker-dependent code books
DE3129353A1 (en) Method for speaker-independent recognition of spoken words in telecommunications systems
EP0965088B1 (en) Reliable identification with preselection and rejection class
DE19705471C2 (en) Method and circuit arrangement for speech recognition and for voice control of devices
Abajaddi et al. Efficiency of the energy contained in modulators in the Arabic vowels recognition
WO2005069278A1 (en) Method and device for processing a voice signal for robust speech recognition

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee