DE10245107A1 - Voice activity detection based on unsupervised trained cluster processes - Google Patents

Voice activity detection based on unsupervised trained cluster processes Download PDF

Info

Publication number
DE10245107A1
DE10245107A1 DE2002145107 DE10245107A DE10245107A1 DE 10245107 A1 DE10245107 A1 DE 10245107A1 DE 2002145107 DE2002145107 DE 2002145107 DE 10245107 A DE10245107 A DE 10245107A DE 10245107 A1 DE10245107 A1 DE 10245107A1
Authority
DE
Germany
Prior art keywords
signal
classes
class
speech
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE2002145107
Other languages
German (de)
Other versions
DE10245107B4 (en
Inventor
Stephan Dr. Grashey
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE2002145107 priority Critical patent/DE10245107B4/en
Priority to ES03102639T priority patent/ES2269917T3/en
Priority to DE50305333T priority patent/DE50305333D1/en
Priority to EP20030102639 priority patent/EP1406244B1/en
Publication of DE10245107A1 publication Critical patent/DE10245107A1/en
Application granted granted Critical
Publication of DE10245107B4 publication Critical patent/DE10245107B4/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)
  • Character Discrimination (AREA)

Abstract

Bei der Detektion, ob ein Sprachsignal vorliegt oder nicht, wird ein Audiosignal zunächst in eine von mehr als zwei Klassen eingeteilt. Anhand dieser Klasseneinteilung wird dann entschieden, ob das Signal "Sprache" oder "Nicht-Sprache" ist.When detecting whether a speech signal is present or not, an audio signal is initially divided into one of more than two classes. This class division is then used to decide whether the signal is "speech" or "non-speech".

Description

Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.A Voice Activity Detector (VAD) is a device that allows to include between language Background noise ("Language") and the background noise alone To distinguish ("non-language"). For example, the input of a VAD can be through a microphone recorded voice signal of a communication terminal. While the user speaks, the signal is made up of his voice and the background noise (e.g. Street noise) together. In contrast, during the pauses in the speech, the signal consists solely of the background noise. The Output of a Voice Activity Detector now adds to the input signal the information whether it contains language or not.

Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The applications of a VAD are diverse. So a VAD can be used for data reduction to only the speech signal to save or transfer. In speech recognition, a VAD allows faster and better Recognition because the recognition is based on the pure voice passages of the Can concentrate audio signal.

VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are based either on Heuristics set or trained during a training phase. The pre-processed in a suitable manner serves as the input signal Audio signal. In a property extraction you get Depending on the number of properties used, property vectors of different sizes.

Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still far widespread heuristic is a signal based on a certain, fixed Assess the energy threshold. exceeds the signal energy the threshold, so "language" is assumed, otherwise "non-language".

Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.Another example is determination the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold value to distinguish whether a speech signal is present or not.

Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.There are also more complex procedures order based on a more or less large number of thresholds To make the desired distinction based on various properties.

Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28-36, angegeben.To VADs that train during a training phase will belong for example statistical VADs or neural networks. This are trained with data for which it is known when language and when a noise occurs. So it is data that, for example, in advance labeled by hand are. examples for Procedures that can be used to decide whether A speech signal is present or not, for example, in Stadermann J .: "Speech / pause detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36.

Weitere VRDs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470-473, offenbart.Other VRDs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, Pages 470-473.

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.The invention is based on this based on the task of making a more precise distinction between language and enable non-speech. It also aims at automatic adaptability to different Noise situations, speaker or languages are important.

Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.This task is carried out in the independent claims specified inventions solved. Advantageous refinements result from the subclaims.

Die Erfindung geht von dem Gedanken aus, dass ein VRD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Spracheoder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The invention is based on the idea from that a VRD in principle as a classifier with N = 2 classes (Voice / non-voice) can be viewed. However, it has been found that a much better classification can be made if a signal is not immediately speech or non-speech class is assigned, but if the signal depends on its properties first divided into a class of a multitude of more than three classes becomes. This allows the numerous different properties of Speech and noise are better taken into account.

Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to these numerous different properties the plurality is preferably larger or equal to 10, in particular greater than or equal to 64. Depending the class into which the signal is divided is then decided whether the signal is a voice signal or not.

Hierfür können die Klassen in Clustern geclustert sein, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.The classes can do this in clusters be clustered so that similar Classes are adjacent or grouped together. To do this the classes in an unsupervised to train, self-organizing cluster processes in one Training phase, especially based on test signals, automatically educated.

Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.A neuronal is preferred here Network used, especially a Kohonen network with the network architecture a self-organizing card.

Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This trained and structured Network is then preferably also used in the detection phase, in which it is decided whether a signal is a speech signal or Not.

Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.The device described can be particularly advantageous used in biometric speech recognition during enrollment to capture the voice of the person rolling as a reference and not more or less big Parts of the background noise. Otherwise, a person may experience a similar noise environment during verification authenticated by the system.

Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.A method of detecting whether a Voice signal is present or not, can be analogous to that described Build the device. This also applies to his preferred configurations.

Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.A program product for a data processing system, that contains sections of code with which one of the described methods on the data processing system accomplished can be through suitable implementation of the method in a programming language and translation into Execute code executable by the data processing system. The Sections of code are saved for this. It is under a program product understood the program as a tradable product. It can be in any Form, for example on paper, a computer-readable data carrier or via a Network distributed.

Weitere wesentliche Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Other essential advantages and Features of the invention result from the description of an exemplary embodiment based on the figures. It shows:

1 die Trainingsphase einer Vorrichtung mit Mitteln zur Detektion, ob ein Sprachsignal vorliegt oder nicht 1 the training phase of a device with means for detecting whether a speech signal is present or not

2 die Assoziationsphase der Vorrichtung nach 1; 2 the association phase of the device 1 ;

3 ein Beispiel für eine Detektion, ob ein Sprachsignal vorliegt oder nicht. 3 an example of a detection of whether a speech signal is present or not.

Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute Wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.VADs known in the art have the problem that properties extracted from the signal can be divided into just two classes, although their expression is within one and the same class. For example in the case of a speech signal usually properties which are unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").

Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to Distinguishing whether there is a speech signal or not, a learning process to use with two phases.

In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In the first phase of the process becomes an unsupervised self-organizing cluster process to be trained N> 2 classes used. N is given arbitrarily, but sensibly. Become a training thus only property vectors extracted from an audio signal used without simultaneously belonging to a class is specified. In general, there are therefore a larger number m of classes of the classifier, which represent "language", and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently for example, will it be possible assign voiced and unvoiced sounds to different classes.

Diese erste Phase soll anhand von 1 verdeutlicht werden. Dort erkennt man eine Audiodatenbank 1 mit Audiosignalen. Diese werden einer Vorverarbeitung 2 zugeführt. Diese Vorverarbeitung ist vorzugsweise dieselbe, wie sie für eine spätere Spracherkennung verwendet wird. Dadurch lässt sich eine zweite Vorverarbeitung einsparen.This first phase should be based on 1 be made clear. You can see an audio database there 1 with audio signals. These are preprocessing 2 fed. This preprocessing is preferably the same as that used for later speech recognition. This saves a second preprocessing.

Die Vorverarbeitung 2 extrahiert aus den Audiosignalen der Audiodatenbank 1 Eigenschaftsvektoren 3, in denen Eigenschaften der Audiosignale angegeben werden. Diese Eigenschaftsvek toren 3 werden den Eingangsneuronen eines neuronalen Netzes 4 zugeführt.The preprocessing 2 extracted from the audio signals of the audio database 1 feature vectors 3 in which properties of the audio signals are specified. These property vectors 3 become the input neurons of a neural network 4 fed.

Das neuronale Netz 4 ist ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte (SOM: Self-Organizing Map). Es hat die Eigenschaft, dass eine lokale Nachbarschaftsbeziehung zwischen den einzelnen Neuronen existiert, so dass die die einzelnen Klassen repräsentierenden Referenzvektoren nach erfolgtem Training räumlich geordnet vorliegen.The neural network 4 is a Kohonen network with the network architecture of a self-organizing map (SOM: Self-Organizing Map). It has the property that there is a local neighborhood relationship between the individual neurons, so that the reference vectors representing the individual classes are spatially ordered after the training has taken place.

Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is based a database that trains speech and noise, for example same frequency having.

Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network represents a self-organizing cluster process with unsupervised Learning.

Als Ergebnis des Klassifikatortrainings ergibt sich eine Klassenrepräsentation 5.The result of the classifier training is a class representation 5 ,

Nach erfolgreichem Klassifikatortraining erfolgt in einer zweiten Phase, der Assoziationsphase, die Zuordnung jeder einzelnen Klasse des Klassifikators 4 in Form des neuronalen Netzes zu einer der beiden Klassen Sprache bzw. Nicht-Sprache. Dazu wird jetzt der Klassifikator 4 selbst im Klassifikationsmodus betrieben, das heißt, er gibt zu jedem Eigenschaftsvektor 3 die zugehörige Klasse 6 aus. Dies ist in 2 dargestellt. Die Assoziationseinheit 7 wird dagegen im Trainingsmodus betrieben, das heißt, sie erlernt auf Basis der gelabelten Audiosignale 8 die Zuordnung jeder der Klassifikatorklassen zu "Sprache" oder zu "Nicht-Sprache". Dabei wird festgestellt, welchen Klassen jeweils wie viele Testsignale zugeordnet worden sind, die "Sprache" oder die "Nicht-Sprache" sind. In Abhängigkeit von diesem Ergebnis wird jede Klasse in einem Assoziationsschritt jeweils als Sprache- oder als Nicht-Sprache-Klasse deklariert. Als Ergebnis erhält man die Klassenzuordnung 9 des VADs.After successful classifier training, in a second phase, the association phase, each individual class of the classifier is assigned 4 in the form of the neural network to one of the two classes of language and non-language. This is now the classifier 4 operated even in the classification mode, that is, it gives to every property vector 3 the associated class 6 out. This is in 2 shown. The association unit 7 on the other hand, is operated in training mode, which means that it learns on the basis of the labeled audio signals 8th the assignment of each of the classifier classes to "language" or to "non-language". It is determined which classes have been assigned to how many test signals which are "language" or "non-language". Depending on this result, each class is declared in an association step as either a language or a non-language class. The result is the class assignment 9 of the VAD.

Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.After the association step the results obtained are further improved by using an average filter is used to eliminate individual outliers.

In 4 ist die Amplitude A des deutschen Wortes "Zwanzig" (20) über der Zeit t aufgetragen. Für dieses Signal ist unterhalb des Graphs das Ergebnis der Detektion dargestellt, ob ein Sprachsignal vorliegt oder nicht.In 4 the amplitude A of the German word "twenty" (20) is plotted against the time t. For this signal, the result of the detection of whether a speech signal is present or not is shown below the graph.

Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".Here is in the first line labeled "Real" the actual Classification specified. Here "Noise" stands for "non-language" and "Speech" for "language".

In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("Label") is the one usual VAD for a labeling classification given.

In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.Finally, in the third line, designated "N-VAD", the detection is given as it is given by the device according to the invention and the method according to the invention Class number N = 625 is achieved. As you can see, this detection and classification corresponds to reality much better than that with the conventional VAD. This is particularly noticeable in that pauses between individual syllables are also detected as "non-speech".

Durch die Erfindung ergeben sich insbesondere folgende Vorteile:
Unähnliche Eigenschaftsvektoren werden nicht mehr in die gleiche Klasse gezwungen, sondern werden einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums zugeordnet. Dadurch steigt die Genauigkeit der Klassifikation an.
The following advantages result in particular from the invention:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class based solely on a similarity criterion. This increases the accuracy of the classification.

Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.Inaccuracies when labeling the audio signals do not affect the actual training process since unsupervised Learning takes place. So there are typically short pauses between speeches individual syllables were not recorded when labeling, but assigned to the "language" class, although the background noise predominates during this pause. With the proposed Process based on unsupervised This short break will learn the corresponding property vectors assigned.

Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The process is independent of Language and / or content of the spoken text.

Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.Overall, the accuracy of the VAD improves what results in better results when building on it Applications reflected.

Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.According to the increased accuracy the invention also preferably in the context of enrollment in a biometric speech recognition can be used to recognize word boundaries, after previous procedures based on the signal energy again and again errors and thus a security risk in the biometric Perform authentication.

Claims (14)

Vorrichtung zur Detektion, ob ein Sprachsignal vorliegt oder nicht, mit – Mitteln zum Einteilen eines Signals in eine von mehr als zwei Klassen, – Mitteln zum Entscheiden, ob das Signal ein Sprachsignal ist oder nicht, in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist.Device for detecting whether a speech signal is present or not, with - means to divide a signal into one of more than two classes, - means to decide whether the signal is a voice signal or not, dependent on of the class into which the signal is divided. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Anzahl der mehr als zwei Klassen größer oder gleich 10 ist, insbesondere größer oder gleich 64.Device according to claim 1, characterized in that the number of more than two classes is greater than or equal to 10, in particular bigger or equal to 64. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassen in, insbesondere selbstorganisierten, Clustern geclustert sind.Device according to one of the preceding claims, characterized characterized that the classes in, especially self-organized, Clusters are clustered. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassen automatisch gebildete Klassen sind.Device according to one of the preceding claims, characterized characterized that the classes are automatically formed classes. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass die automatisch gebildeten Klassen Klassen sind, die mit einem neuronalen Netz gebildet sind.Device according to claim 4, characterized in that the automatically formed classes are classes with one neural network are formed. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung für das Einteilen des Signals in eine von mehr als zwei Klassen ein neuronales Netz aufweist.Device according to one of the preceding claims, characterized characterized that the device for dividing the signal has a neural network in one of more than two classes. Vorrichtung nach einem der Ansprüche 5 oder 6, dadurch gekennzeichnet, dass das neuronale Netz ein Kohonen-Netz ist.Device according to one of claims 5 or 6, characterized in that that the neural network is a Kohonen network. Vorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung ein mobiles Endgerät ist, insbesondere ein Mobiltelefon.Device according to one of the preceding claims, characterized characterized in that the device is a mobile terminal, in particular a mobile phone. Biometrisches Verfahren, bei dem eine Vorrichtung nach einem der Ansprüche 1 bis 7 verwendet wird.Biometric method in which a device according to one of the claims 1 to 7 is used. Verfahren zum Erstellen einer Klassenrepräsentation, anhand derer detektierbar ist, ob ein Sprachsignal vorliegt oder nicht, dadurch gekennzeichnet, dass die Klassenrepräsentation mit mehr als zwei Klassen erstellt wird.Procedure for creating a class representation, on the basis of which it can be detected whether a speech signal is present or not, characterized in that the class representation is created with more than two classes. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass das Verfahren ein unüberwacht zu trainierendes Verfahren ist.A method according to claim 10, characterized in that the process is an unsupervised too is a training procedure. Verfahren nach Anspruch 10 oder 11, dadurch gekennzeichnet, dass das Verfahren ein sich selbst organisierendes Clusterverfahren ist.A method according to claim 10 or 11, characterized in that the process is a self-organizing cluster process is. Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, bei dem – ein Signal in eine von mehr als zwei Klassen eingeteilt wird, – in Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, entschieden wird, ob das Signal ein Sprachsignal ist oder nicht.Method for detecting whether a speech signal is present or not, where - on Signal is divided into one of more than two classes, - dependent on is decided by the class into which the signal is divided, whether the signal is a voice signal or not. Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen ein Verfahren nach einem der Ansprüche 9 bis 13 auf einer Datenverarbeitungsanlage ausführbar ist.Program product for a data processing system, that contains sections of code with which a method according to one of claims 9 to 13 on a data processing system executable is.
DE2002145107 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods Expired - Fee Related DE10245107B4 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE2002145107 DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods
ES03102639T ES2269917T3 (en) 2002-09-27 2003-08-25 VOICE ATIVITY DETECTION (BASED ON VOICE ACTIVITY DETECTION) BASED ON PROCEDURES OF CLUSTERS (GROUPS) TRAINED WITHOUT SURVEILLANCE.
DE50305333T DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods
EP20030102639 EP1406244B1 (en) 2002-09-27 2003-08-25 Voice activity detection based on unsupervised trained clustering

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE2002145107 DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods

Publications (2)

Publication Number Publication Date
DE10245107A1 true DE10245107A1 (en) 2004-04-08
DE10245107B4 DE10245107B4 (en) 2006-01-26

Family

ID=31984148

Family Applications (2)

Application Number Title Priority Date Filing Date
DE2002145107 Expired - Fee Related DE10245107B4 (en) 2002-09-27 2002-09-27 Voice Activity Detection based on unsupervised trained clustering methods
DE50305333T Expired - Lifetime DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods

Family Applications After (1)

Application Number Title Priority Date Filing Date
DE50305333T Expired - Lifetime DE50305333D1 (en) 2002-09-27 2003-08-25 Voice Activity Detection based on unsupervised trained clustering methods

Country Status (3)

Country Link
EP (1) EP1406244B1 (en)
DE (2) DE10245107B4 (en)
ES (1) ES2269917T3 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102006021427B4 (en) * 2006-05-05 2008-01-17 Giesecke & Devrient Gmbh Method and device for personalizing cards
US11502863B2 (en) * 2020-05-18 2022-11-15 Avaya Management L.P. Automatic correction of erroneous audio setting

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3781393T2 (en) * 1986-07-21 1993-04-01 Ncr Int Inc METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA.
DE4442613C2 (en) * 1994-11-30 1998-12-10 Deutsche Telekom Mobil System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks
DE69603743T2 (en) * 1995-10-27 2000-06-08 Cselt Centro Studi Lab Telecom METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0435458B1 (en) * 1989-11-28 1995-02-01 Nec Corporation Speech/voiceband data discriminator
JP3088171B2 (en) * 1991-02-12 2000-09-18 三菱電機株式会社 Self-organizing pattern classification system and classification method
US5737716A (en) * 1995-12-26 1998-04-07 Motorola Method and apparatus for encoding speech using neural network technology for speech classification
US6564198B1 (en) * 2000-02-16 2003-05-13 Hrl Laboratories, Llc Fuzzy expert system for interpretable rule extraction from neural networks

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3781393T2 (en) * 1986-07-21 1993-04-01 Ncr Int Inc METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA.
DE4442613C2 (en) * 1994-11-30 1998-12-10 Deutsche Telekom Mobil System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks
DE69603743T2 (en) * 1995-10-27 2000-06-08 Cselt Centro Studi Lab Telecom METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS

Also Published As

Publication number Publication date
DE50305333D1 (en) 2006-11-23
ES2269917T3 (en) 2007-04-01
EP1406244A3 (en) 2005-01-12
EP1406244A2 (en) 2004-04-07
EP1406244B1 (en) 2006-10-11
DE10245107B4 (en) 2006-01-26

Similar Documents

Publication Publication Date Title
DE69432570T2 (en) voice recognition
DE60023517T2 (en) CLASSIFICATION OF SOUND SOURCES
DE69924596T2 (en) Selection of acoustic models by speaker verification
DE60108373T2 (en) Method for detecting emotions in speech signals using speaker identification
DE60128270T2 (en) Method and system for generating speaker recognition data, and method and system for speaker recognition
DE112013007617B4 (en) Speech recognition device and speech recognition method
DE69724405T2 (en) METHOD AND APPARATUS FOR ONLINE HANDWRITING RECOGNITION BASED ON CHARACTER VECTORS USING AGGLOMERED OBSERVATIONS FROM TIME-SEQUENT SEQUENCES
WO2008000353A1 (en) Method and device for the natural-language recognition of a vocal expression
DE112018007847B4 (en) INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
DE19824354A1 (en) Device for verifying signals
DE60034772T2 (en) REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION
CN111081223B (en) Voice recognition method, device, equipment and storage medium
DE69813597T2 (en) PATTERN RECOGNITION USING MULTIPLE REFERENCE MODELS
EP3430615A1 (en) Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input
EP1249016B1 (en) Method for the voice-operated identification of the user of a telecommunication line in a telecommunications network during an interactive communication using a voice-operated conversational system
WO1993002448A1 (en) Method and device for recognizing individual words of spoken speech
DE10245107B4 (en) Voice Activity Detection based on unsupervised trained clustering methods
CN112420056A (en) Speaker identity authentication method and system based on variational self-encoder and unmanned aerial vehicle
DE10209324C1 (en) Method for automatic detection of different speakers in speech recognition system correlates speech signal with speaker-independent and speaker-dependent code books
EP0817167B1 (en) Speech recognition method and device for carrying out the method
DE19705471C2 (en) Method and circuit arrangement for speech recognition and for voice control of devices
DE102008040002A1 (en) Speaker identification method, involves determining statistical distribution of extracted portions of speech signal, and determining threshold value for classification of speaker by using determined statistical distribution
EP0965088A1 (en) Reliable identification with preselection and rejection class
DE10308611A1 (en) Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition
DE3935308C1 (en) Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8364 No opposition during term of opposition
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee