DE10245107A1 - Voice activity detection based on unsupervised trained cluster processes - Google Patents
Voice activity detection based on unsupervised trained cluster processes Download PDFInfo
- Publication number
- DE10245107A1 DE10245107A1 DE2002145107 DE10245107A DE10245107A1 DE 10245107 A1 DE10245107 A1 DE 10245107A1 DE 2002145107 DE2002145107 DE 2002145107 DE 10245107 A DE10245107 A DE 10245107A DE 10245107 A1 DE10245107 A1 DE 10245107A1
- Authority
- DE
- Germany
- Prior art keywords
- signal
- classes
- class
- speech
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 26
- 238000001514 detection method Methods 0.000 title description 8
- 230000000694 effects Effects 0.000 title description 4
- 238000012549 training Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims 2
- 230000005236 sound signal Effects 0.000 abstract description 9
- 239000013598 vector Substances 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Telephonic Communication Services (AREA)
- Character Discrimination (AREA)
Abstract
Bei der Detektion, ob ein Sprachsignal vorliegt oder nicht, wird ein Audiosignal zunächst in eine von mehr als zwei Klassen eingeteilt. Anhand dieser Klasseneinteilung wird dann entschieden, ob das Signal "Sprache" oder "Nicht-Sprache" ist.When detecting whether a speech signal is present or not, an audio signal is initially divided into one of more than two classes. This class division is then used to decide whether the signal is "speech" or "non-speech".
Description
Ein Voice Activity Detector (VAD) ist eine Vorrichtung, die es erlaubt, zwischen Sprache inklusive Hintergrundgeräuschen ("Sprache") und dem Hintergrundgeräusch alleine ("Nicht-Sprache") zu unterscheiden. Der Eingang eines VAD kann beispielsweise ein durch ein Mikrofon aufgenommenes Sprachsignal eines Kommunikationsendgerätes sein. Während der Nutzer spricht, setzt sich das Signal aus seiner Stimme und dem Hintergrundlärm (beispielsweise Straßenlärm) zusammen. In den Sprechpausen dagegen besteht das Signal alleine aus dem Hintergrundlärm. Der Ausgang eines Voice Activity Detectors fügt dem Eingangssignal nun jeweils die Information hinzu, ob es Sprache enthält, oder nicht.A Voice Activity Detector (VAD) is a device that allows to include between language Background noise ("Language") and the background noise alone To distinguish ("non-language"). For example, the input of a VAD can be through a microphone recorded voice signal of a communication terminal. While the user speaks, the signal is made up of his voice and the background noise (e.g. Street noise) together. In contrast, during the pauses in the speech, the signal consists solely of the background noise. The Output of a Voice Activity Detector now adds to the input signal the information whether it contains language or not.
Die Anwendungen eines VAD sind vielfältig. So kann ein VAD zur Datenreduktion verwendet werden, um nur das Sprachsignal zu speichern bzw. zu übertragen. In der Spracherkennung erlaubt ein VAD eine schnellere und bessere Erkennung, da die Erkennung sich auf die reinen Sprachpassagen des Audiosignals konzentrieren kann.The applications of a VAD are diverse. So a VAD can be used for data reduction to only the speech signal to save or transfer. In speech recognition, a VAD allows faster and better Recognition because the recognition is based on the pure voice passages of the Can concentrate audio signal.
VADs werden entweder auf Basis von Heuristiken eingestellt oder aber im Lauf einer Trainingsphase trainiert. Als Eingangssignal dient jeweils das in geeigneter Weise vorverarbeitete Audiosignal. In einer Eigenschaftenextraktion erhält man dabei je nach Anzahl der verwendeten Eigenschaften unterschiedlich große Eigenschaftenvektoren.VADs are based either on Heuristics set or trained during a training phase. The pre-processed in a suitable manner serves as the input signal Audio signal. In a property extraction you get Depending on the number of properties used, property vectors of different sizes.
Die einfachste, aber immer noch weit verbreitete Heuristik ist, ein Signal anhand einer bestimmten, festgelegten Energieschwelle zu beurteilen. Überschreitet die Signalenergie die Schwelle, so wird "Sprache" angenommen, ansonsten "Nicht-Sprache".The easiest, but still far widespread heuristic is a signal based on a certain, fixed Assess the energy threshold. exceeds the signal energy the threshold, so "language" is assumed, otherwise "non-language".
Ein anderes Beispiel ist die Bestimmung der Nulldurchgangsrate der Autokorrelationsfunktion des Sprachsignals und ein entsprechender Schwellwert zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht.Another example is determination the zero crossing rate of the autocorrelation function of the speech signal and a corresponding threshold value to distinguish whether a speech signal is present or not.
Daneben gibt es komplexere Verfahren, um anhand einer mehr oder weniger großen Anzahl von Schwellen auf Basis verschiedenster Eigenschaften die gewünschte Unterscheidung zu treffen.There are also more complex procedures order based on a more or less large number of thresholds To make the desired distinction based on various properties.
Zu VADs, die im Laufe einer Trainingsphase trainiert werden, gehören beispielsweise statistische VADs oder auch neuronale Netze. Diese werden dazu mit Daten trainiert, bei denen bekannt ist, wann Sprache und wann ein Geräusch auftritt. Es handelt sich also um Daten, die vorab zum Beispiel händisch gelabelt sind. Beispiele für Verfahren, mit denen auf diese Weise entscheiden werden kann, ob ein Sprachsignal vorliegt oder nicht, sind beispielsweise in Stadermann J.: "Sprach/Pause-Detektion in der automatischen Spracherkennung", Universität Duisburg, Diplomarbeit, 1999, Seiten 28-36, angegeben.To VADs that train during a training phase will belong for example statistical VADs or neural networks. This are trained with data for which it is known when language and when a noise occurs. So it is data that, for example, in advance labeled by hand are. examples for Procedures that can be used to decide whether A speech signal is present or not, for example, in Stadermann J .: "Speech / pause detection in automatic speech recognition ", University of Duisburg, diploma thesis, 1999, Pages 28-36.
Weitere VRDs, insbesondere für drahtlose Kommunikation, werden in El-Maleh, K. und Kabal, P.: "Comparison of voice activity detection algorithms for wireless personal communication systems", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Neufundland, Mai 1997, Seiten 470-473, offenbart.Other VRDs, especially for wireless communication, are described in El-Maleh, K. and Kabal, P .: "Comparison of voice activity detection algorithms for wireless personal communication systems ", Proc. IEEE Canadian Conference on Electrical and Computer Engineering, St. John's, Newfoundland, May 1997, Pages 470-473.
Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, eine genauere Unterscheidung zwischen Sprache und Nicht-Sprache zu ermöglichen. Dabei soll auch auf eine automatische Anpassbarkeit an unterschiedliche Geräuschsituationen, Sprecher oder Sprachen Wert gelegt werden.The invention is based on this based on the task of making a more precise distinction between language and enable non-speech. It also aims at automatic adaptability to different Noise situations, speaker or languages are important.
Diese Aufgabe wird durch die in den unabhängigen Ansprüchen angegebenen Erfindungen gelöst. Vorteilhafte Ausgestaltungen ergeben sich aus den Unteransprüchen.This task is carried out in the independent claims specified inventions solved. Advantageous refinements result from the subclaims.
Die Erfindung geht von dem Gedanken aus, dass ein VRD im Prinzip als Klassifikator mit N = 2 Klassen (Sprache/Nicht-Sprache) betrachtet werden kann. Es hat sich aber herausgestellt, dass eine wesentlich bessere Klassifikation vorgenommen werden kann, wenn ein Signal nicht sofort der Spracheoder der Nicht-Sprache-Klasse zugeordnet wird, sondern wenn das Signal abhängig von seinen Eigenschaften zunächst in eine Klasse einer Vielzahl von mehr als drei Klassen eingeteilt wird. Hierdurch kann den zahlreichen unterschiedlichen Eigenschaften von Sprache und Geräuschen besser Rechnung getragen werden.The invention is based on the idea from that a VRD in principle as a classifier with N = 2 classes (Voice / non-voice) can be viewed. However, it has been found that a much better classification can be made if a signal is not immediately speech or non-speech class is assigned, but if the signal depends on its properties first divided into a class of a multitude of more than three classes becomes. This allows the numerous different properties of Speech and noise are better taken into account.
Gemäß dieser zahlreichen unterschiedlichen Eigenschaften ist die Vielzahl vorzugsweise größer oder gleich 10, insbesondere größer oder gleich 64. In Abhängigkeit von der Klasse, in die das Signal eingeteilt ist, wird dann entschieden, ob das Signal ein Sprachsignal ist oder nicht.According to these numerous different properties the plurality is preferably larger or equal to 10, in particular greater than or equal to 64. Depending the class into which the signal is divided is then decided whether the signal is a voice signal or not.
Hierfür können die Klassen in Clustern geclustert sein, so dass ähnliche Klassen benachbart oder in Gruppen zusammengefasst sind. Dazu werden die Klassen in einem unüberwacht zu trainierenden, sich selbst organisierenden Clusterverfahren in einer Trainingsphase, insbesondere anhand von Testsignalen, automatisch gebildet.The classes can do this in clusters be clustered so that similar Classes are adjacent or grouped together. To do this the classes in an unsupervised to train, self-organizing cluster processes in one Training phase, especially based on test signals, automatically educated.
Hierbei wird bevorzugt ein neuronales Netz eingesetzt, insbesondere ein Kohonen-Netz mit der Netzarchitektur einer selbstorganisierenden Karte.A neuronal is preferred here Network used, especially a Kohonen network with the network architecture a self-organizing card.
Dieses so trainierte und strukturierte Netz wird dann bevorzugt auch gleich in der Detektionsphase eingesetzt, in der entschieden wird, ob ein Signal ein Sprachsignal ist oder nicht.This trained and structured Network is then preferably also used in the detection phase, in which it is decided whether a signal is a speech signal or Not.
Besonders vorteilhaft kann die beschriebene Vorrichtung in der biometrischen Spracherkennung während des Enrollments eingesetzt werden, um die Stimme der sich enrollenden Person als Referenz zu erfassen und nicht mehr oder weniger große Teile des Hintergrundlärms. Ansonsten wird eventuell eine Person, die während der Verifikation eine ähnliche Geräuschumgebung hat, vom System authentifiziert.The device described can be particularly advantageous used in biometric speech recognition during enrollment to capture the voice of the person rolling as a reference and not more or less big Parts of the background noise. Otherwise, a person may experience a similar noise environment during verification authenticated by the system.
Ein Verfahren zur Detektion, ob ein Sprachsignal vorliegt oder nicht, lässt sich analog zur beschriebenen Vorrichtung aufbauen. Dies gilt auch für seine bevorzugten Ausgestaltungen.A method of detecting whether a Voice signal is present or not, can be analogous to that described Build the device. This also applies to his preferred configurations.
Ein Programmprodukt für eine Datenverarbeitungsanlage, das Codeabschnitte enthält, mit denen eines der geschilderten Verfahren auf der Datenverarbeitungsanlage ausgeführt werden kann, lässt sich durch geeignete Implementierung des Verfahrens in einer Programmiersprache und Übersetzung in von der Datenverarbeitungsanlage ausführbaren Code ausführen. Die Codeabschnitte werden dazu gespeichert. Dabei wird unter einem Programmprodukt das Programm als handelbares Produkt verstanden. Es kann in beliebiger Form vorliegen, so zum Beispiel auf Papier, einem computerlesbaren Datenträger oder über ein Netz verteilt.A program product for a data processing system, that contains sections of code with which one of the described methods on the data processing system accomplished can be through suitable implementation of the method in a programming language and translation into Execute code executable by the data processing system. The Sections of code are saved for this. It is under a program product understood the program as a tradable product. It can be in any Form, for example on paper, a computer-readable data carrier or via a Network distributed.
Weitere wesentliche Vorteile und Merkmale der Erfindung ergeben sich aus der Beschreibung eines Ausführungsbeispiels anhand der Figuren. Dabei zeigt:Other essential advantages and Features of the invention result from the description of an exemplary embodiment based on the figures. It shows:
Im Stand der Technik bekannte VADs haben das Problem, dass aus dem Signal extrahierte Eigenschaften in lediglich zwei Klassen unterteilt werden, obwohl sich ihre Ausprägung innerhalb ein und derselben Klasse stark unterscheidet. Beispielsweise sind bei einem Sprachsignal in der Regel Eigenschaften, welche stimmlose Laute repräsentieren, stark verschieden von jenen, die stimmhafte Laute Wiederspiegeln. Trotzdem werden beide ein und derselben Klasse ("Sprache") zugeordnet.VADs known in the art have the problem that properties extracted from the signal can be divided into just two classes, although their expression is within one and the same class. For example in the case of a speech signal usually properties which are unvoiced Represent sounds, very different from those that reflect voiced sounds. Nevertheless, both are assigned to the same class ("language").
Es wird daher vorgeschlagen, zur Unterscheidung, ob ein Sprachsignal vorliegt oder nicht, ein Lernverfahren mit zwei Phasen zu verwenden.It is therefore proposed to Distinguishing whether there is a speech signal or not, a learning process to use with two phases.
In der ersten Phase des Verfahrens wird ein unüberwacht zu trainierendes, sich selbst organisierendes Clusterverfahren mit N > 2 Klassen eingesetzt. N wird dabei beliebig, aber sinnvoll vorgegeben. Zum Training werden also lediglich aus einem Audiosignal extrahierte Eigenschaftsvektoren verwendet, ohne dass gleichzeitig eine Klassenzugehörigkeit vorgegeben wird. Ganz allgemein gibt es demnach also eine größere Anzahl m an Klassen des Klassifikators, die "Sprache" repräsentieren, und eine größere Anzahl n von Klassen, die "Nicht-Sprache" repräsentieren (m + n = N > 2). Somit wird es beispielsweise möglich, stimmhafte und stimmlose Laute verschiedenen Klassen zuzuordnen.In the first phase of the process becomes an unsupervised self-organizing cluster process to be trained N> 2 classes used. N is given arbitrarily, but sensibly. Become a training thus only property vectors extracted from an audio signal used without simultaneously belonging to a class is specified. In general, there are therefore a larger number m of classes of the classifier, which represent "language", and a larger number n of classes that represent "non-language" (m + n = N> 2). Consequently for example, will it be possible assign voiced and unvoiced sounds to different classes.
Diese erste Phase soll anhand von
Die Vorverarbeitung
Das neuronale Netz
Das neuronale Netz wird auf Basis einer Datenbank trainiert, welche beispielsweise Sprache und Geräusch in gleicher Häufigkeit aufweist.The neural network is based a database that trains speech and noise, for example same frequency having.
Das Training eines solchen Netzes stellt ein selbstorganisierendes Clusterverfahren mit unüberwachtem Lernen dar.The training of such a network represents a self-organizing cluster process with unsupervised Learning.
Als Ergebnis des Klassifikatortrainings
ergibt sich eine Klassenrepräsentation
Nach erfolgreichem Klassifikatortraining
erfolgt in einer zweiten Phase, der Assoziationsphase, die Zuordnung
jeder einzelnen Klasse des Klassifikators
Nach erfolgtem Assoziationsschritt werden die erhaltenen Ergebnisse weiter verbessert, indem ein Mittelwertfilter dazu genutzt wird, einzelne Ausreißer zu eliminieren.After the association step the results obtained are further improved by using an average filter is used to eliminate individual outliers.
In
Dabei ist in der ersten, mit "Real" bezeichneten Zeile die tatsächliche Klassifikation angegeben. Hierbei steht "Noise" für "Nicht-Sprache" und "Speech" für "Sprache".Here is in the first line labeled "Real" the actual Classification specified. Here "Noise" stands for "non-language" and "Speech" for "language".
In der zweiten Zeile ("Label") ist die durch einen herkömmlichen VAD für ein Labeln vorgenommene Klassifikation angegeben.In the second line ("Label") is the one usual VAD for a labeling classification given.
In der dritten, mit "N-VAD" bezeichneten Zeile ist schließlich die Detektion angegeben, wie sie durch die erfindungsgemäße Vorrichtung und das erfindungsgemäße Verfahren mit einer vorgegebenen Klassenzahl N = 625 erzielt wird. Wie man sieht, stimmt diese Detektion und Klasseneinteilung wesentlich besser mit der Realität überein als die mit dem herkömmlichen VAD vorgenommene. Dies macht sich insbesondere dadurch bemerkbar, dass auch Pausen zwischen einzelnen Silben als "Nicht-Sprache" detektiert werden.Finally, in the third line, designated "N-VAD", the detection is given as it is given by the device according to the invention and the method according to the invention Class number N = 625 is achieved. As you can see, this detection and classification corresponds to reality much better than that with the conventional VAD. This is particularly noticeable in that pauses between individual syllables are also detected as "non-speech".
Durch die Erfindung ergeben sich
insbesondere folgende Vorteile:
Unähnliche Eigenschaftsvektoren
werden nicht mehr in die gleiche Klasse gezwungen, sondern werden
einer Klasse alleine auf Basis eines Ähnlichkeitskriteriums zugeordnet.
Dadurch steigt die Genauigkeit der Klassifikation an.The following advantages result in particular from the invention:
Dissimilar property vectors are no longer forced into the same class, but are assigned to a class based solely on a similarity criterion. This increases the accuracy of the classification.
Ungenauigkeiten beim Labeln der Audiosignale wirken sich nicht auf den eigentlichen Trainingsprozess aus, da unüberwachtes Lernen erfolgt. So werden typischerweise kurze Sprechpausen zwischen einzelnen Silben beim Labeln nicht erfasst, sondern der Klasse "Sprache" zugeordnet, obwohl in dieser Pause das Hintergrundgeräusch überwiegt. Bei dem vorgeschlagenen Verfahren auf Basis von unüberwachtem Lernen wird diese kurze Pause den ihr entsprechenden Eigenschaftsvektoren zugeordnet.Inaccuracies when labeling the audio signals do not affect the actual training process since unsupervised Learning takes place. So there are typically short pauses between speeches individual syllables were not recorded when labeling, but assigned to the "language" class, although the background noise predominates during this pause. With the proposed Process based on unsupervised This short break will learn the corresponding property vectors assigned.
Das Verfahren ist unabhängig von Sprache und/oder Inhalt des gesprochenen Textes.The process is independent of Language and / or content of the spoken text.
Insgesamt wird die Genauigkeit des VAD verbessert, was sich in besseren Ergebnissen bei darauf aufbauenden Applikationen wiederspiegelt.Overall, the accuracy of the VAD improves what results in better results when building on it Applications reflected.
Entsprechend der gesteigerten Genauigkeit kann die Erfindung bevorzugt auch im Rahmen des Enrollments bei einer biometrischen Spracherkennung zur Erkennung der Wortgrenzen eingesetzt werden, nachdem bisherige Verfahren auf Basis der Signalenergie immer wieder zu Fehlern und damit zu einem Sicherheitsrisiko bei der biometrischen Authentifizierung führen.According to the increased accuracy the invention also preferably in the context of enrollment in a biometric speech recognition can be used to recognize word boundaries, after previous procedures based on the signal energy again and again errors and thus a security risk in the biometric Perform authentication.
Claims (14)
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002145107 DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
ES03102639T ES2269917T3 (en) | 2002-09-27 | 2003-08-25 | VOICE ATIVITY DETECTION (BASED ON VOICE ACTIVITY DETECTION) BASED ON PROCEDURES OF CLUSTERS (GROUPS) TRAINED WITHOUT SURVEILLANCE. |
DE50305333T DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
EP20030102639 EP1406244B1 (en) | 2002-09-27 | 2003-08-25 | Voice activity detection based on unsupervised trained clustering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE2002145107 DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10245107A1 true DE10245107A1 (en) | 2004-04-08 |
DE10245107B4 DE10245107B4 (en) | 2006-01-26 |
Family
ID=31984148
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2002145107 Expired - Fee Related DE10245107B4 (en) | 2002-09-27 | 2002-09-27 | Voice Activity Detection based on unsupervised trained clustering methods |
DE50305333T Expired - Lifetime DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE50305333T Expired - Lifetime DE50305333D1 (en) | 2002-09-27 | 2003-08-25 | Voice Activity Detection based on unsupervised trained clustering methods |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1406244B1 (en) |
DE (2) | DE10245107B4 (en) |
ES (1) | ES2269917T3 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006021427B4 (en) * | 2006-05-05 | 2008-01-17 | Giesecke & Devrient Gmbh | Method and device for personalizing cards |
US11502863B2 (en) * | 2020-05-18 | 2022-11-15 | Avaya Management L.P. | Automatic correction of erroneous audio setting |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3781393T2 (en) * | 1986-07-21 | 1993-04-01 | Ncr Int Inc | METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA. |
DE4442613C2 (en) * | 1994-11-30 | 1998-12-10 | Deutsche Telekom Mobil | System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks |
DE69603743T2 (en) * | 1995-10-27 | 2000-06-08 | Cselt Centro Studi Lab Telecom | METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0435458B1 (en) * | 1989-11-28 | 1995-02-01 | Nec Corporation | Speech/voiceband data discriminator |
JP3088171B2 (en) * | 1991-02-12 | 2000-09-18 | 三菱電機株式会社 | Self-organizing pattern classification system and classification method |
US5737716A (en) * | 1995-12-26 | 1998-04-07 | Motorola | Method and apparatus for encoding speech using neural network technology for speech classification |
US6564198B1 (en) * | 2000-02-16 | 2003-05-13 | Hrl Laboratories, Llc | Fuzzy expert system for interpretable rule extraction from neural networks |
-
2002
- 2002-09-27 DE DE2002145107 patent/DE10245107B4/en not_active Expired - Fee Related
-
2003
- 2003-08-25 DE DE50305333T patent/DE50305333D1/en not_active Expired - Lifetime
- 2003-08-25 EP EP20030102639 patent/EP1406244B1/en not_active Expired - Fee Related
- 2003-08-25 ES ES03102639T patent/ES2269917T3/en not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3781393T2 (en) * | 1986-07-21 | 1993-04-01 | Ncr Int Inc | METHOD AND DEVICE FOR COMPRESSING VOICE SIGNAL DATA. |
DE4442613C2 (en) * | 1994-11-30 | 1998-12-10 | Deutsche Telekom Mobil | System for determining the network quality in communication networks from the end-user and operator's point of view, in particular cellular networks |
DE69603743T2 (en) * | 1995-10-27 | 2000-06-08 | Cselt Centro Studi Lab Telecom | METHOD AND DEVICE FOR CODING, TREATING AND DECODING AUDIO SIGNALS |
Also Published As
Publication number | Publication date |
---|---|
DE50305333D1 (en) | 2006-11-23 |
ES2269917T3 (en) | 2007-04-01 |
EP1406244A3 (en) | 2005-01-12 |
EP1406244A2 (en) | 2004-04-07 |
EP1406244B1 (en) | 2006-10-11 |
DE10245107B4 (en) | 2006-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69432570T2 (en) | voice recognition | |
DE60023517T2 (en) | CLASSIFICATION OF SOUND SOURCES | |
DE69924596T2 (en) | Selection of acoustic models by speaker verification | |
DE60108373T2 (en) | Method for detecting emotions in speech signals using speaker identification | |
DE60128270T2 (en) | Method and system for generating speaker recognition data, and method and system for speaker recognition | |
DE112013007617B4 (en) | Speech recognition device and speech recognition method | |
DE69724405T2 (en) | METHOD AND APPARATUS FOR ONLINE HANDWRITING RECOGNITION BASED ON CHARACTER VECTORS USING AGGLOMERED OBSERVATIONS FROM TIME-SEQUENT SEQUENCES | |
WO2008000353A1 (en) | Method and device for the natural-language recognition of a vocal expression | |
DE112018007847B4 (en) | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM | |
DE19824354A1 (en) | Device for verifying signals | |
DE60034772T2 (en) | REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION | |
CN111081223B (en) | Voice recognition method, device, equipment and storage medium | |
DE69813597T2 (en) | PATTERN RECOGNITION USING MULTIPLE REFERENCE MODELS | |
EP3430615A1 (en) | Transportation means, and system and method for adapting the length of a permissible speech pause in the context of a speech input | |
EP1249016B1 (en) | Method for the voice-operated identification of the user of a telecommunication line in a telecommunications network during an interactive communication using a voice-operated conversational system | |
WO1993002448A1 (en) | Method and device for recognizing individual words of spoken speech | |
DE10245107B4 (en) | Voice Activity Detection based on unsupervised trained clustering methods | |
CN112420056A (en) | Speaker identity authentication method and system based on variational self-encoder and unmanned aerial vehicle | |
DE10209324C1 (en) | Method for automatic detection of different speakers in speech recognition system correlates speech signal with speaker-independent and speaker-dependent code books | |
EP0817167B1 (en) | Speech recognition method and device for carrying out the method | |
DE19705471C2 (en) | Method and circuit arrangement for speech recognition and for voice control of devices | |
DE102008040002A1 (en) | Speaker identification method, involves determining statistical distribution of extracted portions of speech signal, and determining threshold value for classification of speaker by using determined statistical distribution | |
EP0965088A1 (en) | Reliable identification with preselection and rejection class | |
DE10308611A1 (en) | Determination of the likelihood of confusion between vocabulary entries in phoneme-based speech recognition | |
DE3935308C1 (en) | Speech recognition method by digitising microphone signal - using delta modulator to produce continuous of equal value bits for data reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R119 | Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee |