DE10245107B4 - Voice Activity Detection based on unsupervised trained clustering methods - Google Patents
Voice Activity Detection based on unsupervised trained clustering methods Download PDFInfo
- Publication number
- DE10245107B4 DE10245107B4 DE2002145107 DE10245107A DE10245107B4 DE 10245107 B4 DE10245107 B4 DE 10245107B4 DE 2002145107 DE2002145107 DE 2002145107 DE 10245107 A DE10245107 A DE 10245107A DE 10245107 B4 DE10245107 B4 DE 10245107B4
- Authority
- DE
- Germany
- Prior art keywords
- signal
- classes
- class
- language
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 25
- 238000001514 detection method Methods 0.000 title description 9
- 230000000694 effects Effects 0.000 title description 4
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 12
- 239000013598 vector Substances 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Telephonic Communication Services (AREA)
Abstract
Vorrichtung
zur Detektion, ob ein Sprachsignal vorliegt oder nicht, mit
– Mitteln
zum Einteilen eines Signals in eine von mehr als zwei Klassen, die
in selbstorganisierten Clustern geclustert sind,
– Mitteln
zum Entscheiden, ob das Signal ein Sprachsignal ist oder nicht,
in Abhängigkeit
von der Klasse, in die das Signal eingeteilt ist.Device for detecting whether a voice signal is present or not, with
Means for splitting a signal into one of more than two classes clustered in self-organized clusters,
- means for deciding whether the signal is a speech signal or not, depending on the class in which the signal is divided.
Description
Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.One Voice Activity Detector (VAD) is a device that allows between speech including background noise ("speech") and background noise alone ("Non-language") to distinguish. For example, the input of a VAD can be switched on by a microphone recorded voice signal of a communication terminal. While the user speaks, sets the signal out of his voice and the background noise (for example Street noise) together. In contrast, during the pauses between speaking, the signal alone consists of the background noise. Of the Output of a Voice Activity Detector now adds the input signal add the information whether it contains language or not.
Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The Applications of a VAD are many. So For example, a VAD can be used to reduce data to only the voice signal to store or transfer. In speech recognition, a VAD allows for faster and better Detection, since the recognition is based on the pure speech passages of the Focus on audio.
VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are either set based on heuristics or else trained during a training phase. As input signal is used in each case the suitably preprocessed audio signal. In a Property extraction receives depending on the number of properties used size Features vectors.
Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still widespread heuristic is one Signal based on a specific, fixed energy threshold judge. exceeds the signal energy is the threshold, then "language" is assumed, otherwise "non-language".
Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.One Another example is the determination of the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold for discrimination, whether a voice signal is present or not.
Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.Besides There are more complex procedures to use one more or less huge Number of thresholds based on various properties the desired To make a distinction.
Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28–36, angegeben.To For example, VADs trained during a training phase include statistical VADs or neural networks. These are with it Trains data that is known when and when a language noise occurs. So this is data in advance, for example labeled by hand are. examples for Procedures that can be used in this way to decide whether a voice signal is present or not, are for example in Stadermann J .: "Speech / Pause Detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36, specified.
Weitere VADs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470–473, offenbart.Further VADs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication Systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, pages 470-473, disclosed.
Aus
Aus
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.From that Based on the object of the invention, a more accurate Differentiation between language and non-language. It should also on an automatic adaptability to different noise situations, speaker or languages value.
Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.These The object is achieved by those specified in the independent claims Inventions solved. Advantageous embodiments emerge from the subclaims.
Die Erfindung geht von dem Gedanken aus, dass ein VAD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Sprache- oder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The Invention is based on the idea that a VAD in principle as Classifier with N = 2 classes (language / non-language) can be considered. It But it turned out that a much better classification can be made if a signal is not immediately the language or the non-language class is assigned, but when the signal dependent of his properties first divided into a class of a variety of more than three classes becomes. This allows the many different properties of Speech and sounds be better taken into account.
Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to this many different properties, the plurality is preferably bigger or equal to 10, in particular larger or equal to 64. Dependent of the class into which the signal is divided is then decided whether the signal is a voice signal or not.
Hierfür sind die Klassen in Clustern geclustert, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.For this, the classes are clusters tert, so that similar classes are grouped adjacent or in groups. For this purpose, the classes are automatically formed in a self-organizing cluster process to be trained in a training phase, in particular by means of test signals.
Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.in this connection a neural network is preferably used, in particular a Kohonen network with the network architecture of a self-organizing Map.
Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This so trained and structured network is preferred then also equal used in the detection phase, in which it is decided if a Signal is a voice signal or not.
Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.Especially Advantageously, the device described in the biometric Speech recognition during the enrollment used to be the voice of the enrolling Person to record as a reference and no more or less large parts of the Background noise. Otherwise, a person may experience a similar noise environment during verification has, authenticated by the system.
Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.One Method for detecting whether a speech signal is present or not let yourself build up analogously to the device described. This also applies to his preferred embodiments.
Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.One Program product for a data processing system containing code sections, with one of the described methods on the data processing system accomplished can be, can be by suitable implementation of the method in a programming language and translation in execute executable code from the data processing system. The Code sections are stored for this purpose. It is under a program product understood the program as a tradable product. It can be in any Form, for example, on paper, a computer-readable medium or via a Network distributed.
Weitere wesentliche Vorteile der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Further Major advantages of the invention will become apparent from the description an embodiment based on the figures. Showing:
Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.in the Prior art known VADs have the problem that from the Signal extracted properties divided into only two classes although their expression within the same class. For example with a speech signal usually properties, which unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").
Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to distinguish whether a speech signal or not, to use a two-phase learning method.
In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In The first phase of the procedure will be an unsupervised training, self-organizing cluster method with N> 2 classes used. N is given arbitrarily, but meaningfully. To be training So only extracted from an audio signal property vectors used at the same time without a class affiliation is given. In general, therefore, there is a larger number m to classes of the classifier that represent "language" and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently is it possible, for example, to assign voiced and unvoiced sounds to different classes.
Diese
erste Phase soll anhand von
Die
Vorverarbeitung
Das
neuronale Netz
Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is trained on the basis of a database, which for example, speech and noise in the same frequency having.
Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network provides a self-organizing clustering method waking learning.
Als
Ergebnis des Klassifikatortrainings ergibt sich eine Klassenrepräsentation
Nach
erfolgreichem Klassifikatortraining erfolgt in einer zweiten Phase,
der Assoziationsphase, die Zuordnung jeder einzelnen Klasse des
Klassifikators
Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.To After the association step, the results obtained are forwarded improved by using a mean value filter, individual Runaway to eliminate.
In
Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".there is in the first line labeled "Real" the actual Classification indicated. Where "noise" stands for "non-language" and "speech" for "language".
In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("label") is the one by one usual VAD for a labeling made.
In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.In the third line, labeled "N-VAD" is finally the detection indicated as they pass through the device according to the invention and the method according to the invention is achieved with a predetermined class number N = 625. How one sees, this detection and classification is much better coincide with reality as with the conventional VAD made. This is particularly noticeable that pauses between single syllables are also detected as "non-speech".
Durch
die Erfindung ergeben sich insbesondere folgende Vorteile:
Unähnliche
Eigenschaftsvektoren werden nicht mehr in die gleiche Klasse gezwungen,
sondern werden einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums
zugeordnet. Dadurch steigt die Genauigkeit der Klassifikation an.The invention provides the following advantages in particular:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class on the basis of a similarity criterion alone. This increases the accuracy of the classification.
Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.inaccuracies when labeling the audio signals do not affect the actual Training process, since unmonitored Learning takes place. Thus, typically short speech pauses between single syllables not included in labeling, but assigned to the class "language", though in this break, the background noise outweighs. In the proposed Procedure based on unsupervised This short break will be learned by the corresponding property vectors assigned.
Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The Procedure is independent language and / or content of the spoken text.
Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.All in all The accuracy of the VAD is improved, resulting in better results in applications based on it.
Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.Corresponding the increased accuracy, the invention preferably in the Enrollment framework for biometric speech recognition Recognition of word boundaries are used after previous procedures repeatedly based on the signal energy to errors and thus to one Security risk in biometric authentication.
Claims (12)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002145107 DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
DE50305333T DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
ES03102639T ES2269917T3 (en) | 2002-09-27 | 2003-08-25 | VOICE ATIVITY DETECTION (BASED ON VOICE ACTIVITY DETECTION) BASED ON PROCEDURES OF CLUSTERS (GROUPS) TRAINED WITHOUT SURVEILLANCE. |
EP20030102639 EP1406244B1 (en) | 2002-09-27 | 2003-08-25 | Voice activity detection based on unsupervised trained clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002145107 DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10245107A1 DE10245107A1 (en) | 2004-04-08 |
DE10245107B4 true DE10245107B4 (en) | 2006-01-26 |
Family
ID=31984148
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002145107 Expired - Fee Related DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
DE50305333T Expired - Lifetime DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50305333T Expired - Lifetime DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1406244B1 (en) |
DE (2) | DE10245107B4 (en) |
ES (1) | ES2269917T3 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006021427B4 (en) * | 2006-05-05 | 2008-01-17 | Giesecke & Devrient Gmbh | Method and device for personalizing cards |
US11502863B2 (en) * | 2020-05-18 | 2022-11-15 | Avaya Management L.P. | Automatic correction of erroneous audio setting |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3781393T2 (en) * | 1986-07-21 | 1993-04-01 | Ncr Int Inc | METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA. |
US5315704A (en) * | 1989-11-28 | 1994-05-24 | Nec Corporation | Speech/voiceband data discriminator |
DE4442613C2 (en) * | 1994-11-30 | 1998-12-10 | Deutsche Telekom Mobil | System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks |
DE69603743T2 (en) * | 1995-10-27 | 2000-06-08 | Cselt Centro Studi Lab Telecom | METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS |
WO2001061647A2 (en) * | 2000-02-16 | 2001-08-23 | Hrl Laboratories, Llc | Fuzzy expert system for interpretable rule extraction from neural networks |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088171B2 (en) * | 1991-02-12 | 2000-09-18 | 三菱電機株式会社 | Self-organizing pattern classification system and classification method |
US5737716A (en) * | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
-
2002
- 2002-09-27 DE DE2002145107 patent/DE10245107B4/en not_active Expired - Fee Related
-
2003
- 2003-08-25 DE DE50305333T patent/DE50305333D1/en not_active Expired - Lifetime
- 2003-08-25 ES ES03102639T patent/ES2269917T3/en not_active Expired - Lifetime
- 2003-08-25 EP EP20030102639 patent/EP1406244B1/en not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3781393T2 (en) * | 1986-07-21 | 1993-04-01 | Ncr Int Inc | METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA. |
US5315704A (en) * | 1989-11-28 | 1994-05-24 | Nec Corporation | Speech/voiceband data discriminator |
DE4442613C2 (en) * | 1994-11-30 | 1998-12-10 | Deutsche Telekom Mobil | System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks |
DE69603743T2 (en) * | 1995-10-27 | 2000-06-08 | Cselt Centro Studi Lab Telecom | METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS |
WO2001061647A2 (en) * | 2000-02-16 | 2001-08-23 | Hrl Laboratories, Llc | Fuzzy expert system for interpretable rule extraction from neural networks |
Also Published As
Publication number | Publication date |
---|---|
ES2269917T3 (en) | 2007-04-01 |
EP1406244A3 (en) | 2005-01-12 |
DE50305333D1 (en) | 2006-11-23 |
DE10245107A1 (en) | 2004-04-08 |
EP1406244B1 (en) | 2006-10-11 |
EP1406244A2 (en) | 2004-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69031284T2 (en) | Method and device for speech recognition | |
DE69432570T2 (en) | voice recognition | |
DE69030561T2 (en) | Speech recognition device | |
DE60213595T2 (en) | UNDERSTANDING SPEAKER VOTES | |
EP0604476B1 (en) | Process for recognizing patterns in time-varying measurement signals | |
DE69722980T2 (en) | Recording of voice data with segments of acoustically different environments | |
DE60023517T2 (en) | CLASSIFICATION OF SOUND SOURCES | |
DE60108373T2 (en) | Method for detecting emotions in speech signals using speaker identification | |
DE60128270T2 (en) | Method and system for generating speaker recognition data, and method and system for speaker recognition | |
DE69924596T2 (en) | Selection of acoustic models by speaker verification | |
EP0964390A2 (en) | Device for the verification of signals | |
DE112018007847B4 (en) | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM | |
CN111081223B (en) | Voice recognition method, device, equipment and storage medium | |
DE60034772T2 (en) | REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION | |
EP3291234B1 (en) | Method for evaluation of a quality of the voice usage of a speaker | |
DE69813597T2 (en) | PATTERN RECOGNITION USING MULTIPLE REFERENCE MODELS | |
DE3750365T2 (en) | Speaker identification. | |
DE10245107B4 (en) | Voice Activity Detection based on unsupervised trained clustering methods | |
WO1993002448A1 (en) | Method and device for recognizing individual words of spoken speech | |
DE10209324C1 (en) | Method for automatic detection of different speakers in speech recognition system correlates speech signal with speaker-independent and speaker-dependent code books | |
DE3129353A1 (en) | Method for speaker-independent recognition of spoken words in telecommunications systems | |
EP0965088B1 (en) | Reliable identification with preselection and rejection class | |
DE19705471C2 (en) | Method and circuit arrangement for speech recognition and for voice control of devices | |
Abajaddi et al. | Efficiency of the energy contained in modulators in the Arabic vowels recognition | |
WO2005069278A1 (en) | Method and device for processing a voice signal for robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |