DE10245107A1

DE10245107A1 - Voice activity detection based on unsupervised trained cluster processes

Info

Publication number: DE10245107A1
Application number: DE2002145107
Authority: DE
Inventors: Stephan Dr. Grashey
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2002-09-27
Filing date: 2002-09-27
Publication date: 2004-04-08
Anticipated expiration: 2022-09-28
Also published as: DE50305333D1; ES2269917T3; EP1406244A3; EP1406244A2; EP1406244B1; DE10245107B4

Abstract

Bei der Detektion, ob ein Sprachsignal vorliegt oder nicht, wird ein Audiosignal zunächst in eine von mehr als zwei Klassen eingeteilt. Anhand dieser Klasseneinteilung wird dann entschieden, ob das Signal "Sprache" oder "Nicht-Sprache" ist.When detecting whether a speech signal is present or not, an audio signal is initially divided into one of more than two classes. This class division is then used to decide whether the signal is "speech" or "non-speech".

Description

Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.A Voice Activity Detector (VAD) is a device that allows to include between language Background noise ("Language") and the background noise alone To distinguish ("non-language"). For example, the input of a VAD can be through a microphone recorded voice signal of a communication terminal. While the user speaks, the signal is made up of his voice and the background noise (e.g. Street noise) together. In contrast, during the pauses in the speech, the signal consists solely of the background noise. The Output of a Voice Activity Detector now adds to the input signal the information whether it contains language or not.

Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The applications of a VAD are diverse. So a VAD can be used for data reduction to only the speech signal to save or transfer. In speech recognition, a VAD allows faster and better Recognition because the recognition is based on the pure voice passages of the Can concentrate audio signal.

VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are based either on Heuristics set or trained during a training phase. The pre-processed in a suitable manner serves as the input signal Audio signal. In a property extraction you get Depending on the number of properties used, property vectors of different sizes.

Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still far widespread heuristic is a signal based on a certain, fixed Assess the energy threshold. exceeds the signal energy the threshold, so "language" is assumed, otherwise "non-language".

Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.Another example is determination the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold value to distinguish whether a speech signal is present or not.

Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.There are also more complex procedures order based on a more or less large number of thresholds To make the desired distinction based on various properties.

Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28-36, angegeben.To VADs that train during a training phase will belong for example statistical VADs or neural networks. This are trained with data for which it is known when language and when a noise occurs. So it is data that, for example, in advance labeled by hand are. examples for Procedures that can be used to decide whether A speech signal is present or not, for example, in Stadermann J .: "Speech / pause detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36.

Weitere VRDs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470-473, offenbart.Other VRDs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, Pages 470-473.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.The invention is based on this based on the task of making a more precise distinction between language and enable non-speech. It also aims at automatic adaptability to different Noise situations, speaker or languages are important.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.This task is carried out in the independent claims specified inventions solved. Advantageous refinements result from the subclaims.

Die Erfindung geht von dem Gedanken aus, dass ein VRD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Spracheoder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The invention is based on the idea from that a VRD in principle as a classifier with N = 2 classes (Voice / non-voice) can be viewed. However, it has been found that a much better classification can be made if a signal is not immediately speech or non-speech class is assigned, but if the signal depends on its properties first divided into a class of a multitude of more than three classes becomes. This allows the numerous different properties of Speech and noise are better taken into account.

Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to these numerous different properties the plurality is preferably larger or equal to 10, in particular greater than or equal to 64. Depending the class into which the signal is divided is then decided whether the signal is a voice signal or not.

Hierfür können die Klassen in Clustern geclustert sein, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.The classes can do this in clusters be clustered so that similar Classes are adjacent or grouped together. To do this the classes in an unsupervised to train, self-organizing cluster processes in one Training phase, especially based on test signals, automatically educated.

Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.A neuronal is preferred here Network used, especially a Kohonen network with the network architecture a self-organizing card.

Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This trained and structured Network is then preferably also used in the detection phase, in which it is decided whether a signal is a speech signal or Not.

Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.The device described can be particularly advantageous used in biometric speech recognition during enrollment to capture the voice of the person rolling as a reference and not more or less big Parts of the background noise. Otherwise, a person may experience a similar noise environment during verification authenticated by the system.

Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.A method of detecting whether a Voice signal is present or not, can be analogous to that described Build the device. This also applies to his preferred configurations.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.A program product for a data processing system, that contains sections of code with which one of the described methods on the data processing system accomplished can be through suitable implementation of the method in a programming language and translation into Execute code executable by the data processing system. The Sections of code are saved for this. It is under a program product understood the program as a tradable product. It can be in any Form, for example on paper, a computer-readable data carrier or via a Network distributed.

Weitere wesentliche Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Other essential advantages and Features of the invention result from the description of an exemplary embodiment based on the figures. It shows:

1 die Trainingsphase einer Vorrichtung mit Mitteln zur Detektion, ob ein Sprachsignal vorliegt oder nicht 1 the training phase of a device with means for detecting whether a speech signal is present or not

2 die Assoziationsphase der Vorrichtung nach 1; 2 the association phase of the device 1 ;

3 ein Beispiel für eine Detektion, ob ein Sprachsignal vorliegt oder nicht. 3 an example of a detection of whether a speech signal is present or not.

Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute Wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.VADs known in the art have the problem that properties extracted from the signal can be divided into just two classes, although their expression is within one and the same class. For example in the case of a speech signal usually properties which are unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").

Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to Distinguishing whether there is a speech signal or not, a learning process to use with two phases.

In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In the first phase of the process becomes an unsupervised self-organizing cluster process to be trained N> 2 classes used. N is given arbitrarily, but sensibly. Become a training thus only property vectors extracted from an audio signal used without simultaneously belonging to a class is specified. In general, there are therefore a larger number m of classes of the classifier, which represent "language", and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently for example, will it be possible assign voiced and unvoiced sounds to different classes.

Diese erste Phase soll anhand von 1 verdeutlicht werden. Dort erkennt man eine Audiodatenbank 1 mit Audiosignalen. Diese werden einer Vorverarbeitung 2 zugeführt. Diese Vorverarbeitung ist vorzugsweise dieselbe, wie sie für eine spätere Spracherkennung verwendet wird. Dadurch lässt sich eine zweite Vorverarbeitung einsparen.This first phase should be based on 1 be made clear. You can see an audio database there 1 with audio signals. These are preprocessing 2 fed. This preprocessing is preferably the same as that used for later speech recognition. This saves a second preprocessing.

Die Vorverarbeitung 2 extrahiert aus den Audiosignalen der Audiodatenbank 1 Eigenschaftsvektoren 3, in denen Eigenschaften der Audiosignale angegeben werden. Diese Eigenschaftsvek toren 3 werden den Eingangsneuronen eines neuronalen Netzes 4 zugeführt.The preprocessing 2 extracted from the audio signals of the audio database 1 feature vectors 3 in which properties of the audio signals are specified. These property vectors 3 become the input neurons of a neural network 4 fed.

Das neuronale Netz 4 ist ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte (SOM: Self-Organizing Map). Es hat die Eigenschaft, dass eine lokale Nachbarschaftsbeziehung zwischen den einzelnen Neuronen existiert, so dass die die einzelnen Klassen repräsentierenden Referenzvektoren nach erfolgtem Training räumlich geordnet vorliegen.The neural network 4 is a Kohonen network with the network architecture of a self-organizing map (SOM: Self-Organizing Map). It has the property that there is a local neighborhood relationship between the individual neurons, so that the reference vectors representing the individual classes are spatially ordered after the training has taken place.

Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is based a database that trains speech and noise, for example same frequency having.

Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network represents a self-organizing cluster process with unsupervised Learning.

Als Ergebnis des Klassifikatortrainings ergibt sich eine Klassenrepräsentation 5.The result of the classifier training is a class representation 5 ,

Nach erfolgreichem Klassifikatortraining erfolgt in einer zweiten Phase, der Assoziationsphase, die Zuordnung jeder einzelnen Klasse des Klassifikators 4 in Form des neuronalen Netzes zu einer der beiden Klassen Sprache bzw. Nicht-Sprache. Dazu wird jetzt der Klassifikator 4 selbst im Klassifikationsmodus betrieben, das heißt, er gibt zu jedem Eigenschaftsvektor 3 die zugehörige Klasse 6 aus. Dies ist in 2 dargestellt. Die Assoziationseinheit 7 wird dagegen im Trainingsmodus betrieben, das heißt, sie erlernt auf Basis der gelabelten Audiosignale 8 die Zuordnung jeder der Klassifikatorklassen zu "Sprache" oder zu "Nicht-Sprache". Dabei wird festgestellt, welchen Klassen jeweils wie viele Testsignale zugeordnet worden sind, die "Sprache" oder die "Nicht-Sprache" sind. In Abhängigkeit von diesem Ergebnis wird jede Klasse in einem Assoziationsschritt jeweils als Sprache- oder als Nicht-Sprache-Klasse deklariert. Als Ergebnis erhält man die Klassenzuordnung 9 des VADs.After successful classifier training, in a second phase, the association phase, each individual class of the classifier is assigned 4 in the form of the neural network to one of the two classes of language and non-language. This is now the classifier 4 operated even in the classification mode, that is, it gives to every property vector 3 the associated class 6 out. This is in 2 shown. The association unit 7 on the other hand, is operated in training mode, which means that it learns on the basis of the labeled audio signals 8th the assignment of each of the classifier classes to "language" or to "non-language". It is determined which classes have been assigned to how many test signals which are "language" or "non-language". Depending on this result, each class is declared in an association step as either a language or a non-language class. The result is the class assignment 9 of the VAD.

Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.After the association step the results obtained are further improved by using an average filter is used to eliminate individual outliers.

In 4 ist die Amplitude A des deutschen Wortes "Zwanzig" (20) über der Zeit t aufgetragen. Für dieses Signal ist unterhalb des Graphs das Ergebnis der Detektion dargestellt, ob ein Sprachsignal vorliegt oder nicht.In 4 the amplitude A of the German word "twenty" (20) is plotted against the time t. For this signal, the result of the detection of whether a speech signal is present or not is shown below the graph.

Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".Here is in the first line labeled "Real" the actual Classification specified. Here "Noise" stands for "non-language" and "Speech" for "language".

In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("Label") is the one usual VAD for a labeling classification given.

In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.Finally, in the third line, designated "N-VAD", the detection is given as it is given by the device according to the invention and the method according to the invention Class number N = 625 is achieved. As you can see, this detection and classification corresponds to reality much better than that with the conventional VAD. This is particularly noticeable in that pauses between individual syllables are also detected as "non-speech".

Durch die Erfindung ergeben sich insbesondere folgende Vorteile:
Unähnliche Eigenschaftsvektoren werden nicht mehr in die gleiche Klasse gezwungen, sondern werden einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums zugeordnet. Dadurch steigt die Genauigkeit der Klassifikation an.The following advantages result in particular from the invention:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class based solely on a similarity criterion. This increases the accuracy of the classification.

Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.Inaccuracies when labeling the audio signals do not affect the actual training process since unsupervised Learning takes place. So there are typically short pauses between speeches individual syllables were not recorded when labeling, but assigned to the "language" class, although the background noise predominates during this pause. With the proposed Process based on unsupervised This short break will learn the corresponding property vectors assigned.

Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The process is independent of Language and / or content of the spoken text.

Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.Overall, the accuracy of the VAD improves what results in better results when building on it Applications reflected.

Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.According to the increased accuracy the invention also preferably in the context of enrollment in a biometric speech recognition can be used to recognize word boundaries, after previous procedures based on the signal energy again and again errors and thus a security risk in the biometric Perform authentication.

Claims

Device for detecting whether a speech signal is present or not, with - means to divide a signal into one of more than two classes, - means to decide whether the signal is a voice signal or not, dependent on of the class into which the signal is divided.

Device according to claim 1, characterized in that the number of more than two classes is greater than or equal to 10, in particular bigger or equal to 64.

Device according to one of the preceding claims, characterized characterized that the classes in, especially self-organized, Clusters are clustered.

Device according to one of the preceding claims, characterized characterized that the classes are automatically formed classes.

Device according to claim 4, characterized in that the automatically formed classes are classes with one neural network are formed.

Device according to one of the preceding claims, characterized characterized that the device for dividing the signal has a neural network in one of more than two classes.

Device according to one of claims 5 or 6, characterized in that that the neural network is a Kohonen network.

Device according to one of the preceding claims, characterized characterized in that the device is a mobile terminal, in particular a mobile phone.

Biometric method in which a device according to one of the claims 1 to 7 is used.

Procedure for creating a class representation, on the basis of which it can be detected whether a speech signal is present or not, characterized in that the class representation is created with more than two classes.

A method according to claim 10, characterized in that the process is an unsupervised too is a training procedure.

A method according to claim 10 or 11, characterized in that the process is a self-organizing cluster process is.

Method for detecting whether a speech signal is present or not, where - on Signal is divided into one of more than two classes, - dependent on is decided by the class into which the signal is divided, whether the signal is a voice signal or not.

Program product for a data processing system, that contains sections of code with which a method according to one of claims 9 to 13 on a data processing system executable is.