EP1125281A1 - Method for training a speaker recognition system - Google Patents

Method for training a speaker recognition system

Info

Publication number
EP1125281A1
EP1125281A1 EP00969207A EP00969207A EP1125281A1 EP 1125281 A1 EP1125281 A1 EP 1125281A1 EP 00969207 A EP00969207 A EP 00969207A EP 00969207 A EP00969207 A EP 00969207A EP 1125281 A1 EP1125281 A1 EP 1125281A1
Authority
EP
European Patent Office
Prior art keywords
speaker
term predictor
encoder
parameters
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP00969207A
Other languages
German (de)
French (fr)
Inventor
Marcin Kuropatwinski
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of EP1125281A1 publication Critical patent/EP1125281A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Definitions

  • the invention relates to a method for recognizing speakers based on their voices.
  • the object on which the invention is based is to specify a method for recognizing speakers on the basis of their voices which is robust, safe and reliable.
  • the invention enables the speaker to be recognized on the basis of his voice.
  • the problem with speaker recognition is to distinguish between different speakers or to check the given speaker identity, the only input information being the recording of the speaker's voice.
  • a method is also proposed that prevents the access system from being tricked if the voice and keyword are picked up by third parties.
  • the invention solves the problem of speaker recognition based on the parameters of an analysis by synthesis encoder with linear prediction (LPAS) [1] (e.g. a harmonized vector excited codec [5] or waveform interpolation codec [4]).
  • LPAS linear prediction
  • the parameters of the speech signal used so far e.g. Cepstrale AR parameters do not bring a satisfactory solution to the problem. Therefore, other parameters have to be accessed, e.g. Parameters of the excitation of the vocal tract, which carry speaker-dependent and at the same time largely phoneme-independent information.
  • the method of estimating the probability distribution of the encoder parameters for the respective speaker is given, and a method that prevents the access system from being tricked.
  • the statistical principles [2] are used to check whether the spoken sentence was spoken by one of the speakers detected by the speaker recognition system.
  • speaker recognition systems There are basically two types of speaker recognition systems, the text-dependent and the text-independent systems.
  • the text independence of the system is achieved through an extended training phase in which the speaker has to record a variety of material and the probability distributions of the speech signal parameters mentioned are determined from the entire speech material. Training a text dependent system is an easier task because that
  • Speech material spoken by the speaker during the usage phase on some key words or certain ones Sentences is limited.
  • the preparatory phase continues until the system reliably recognizes the speaker's voice.
  • Speaker identification is treated as a problem of multiple detection [2].
  • the speaker recognition is based on the recorded voice signals of the respective speakers.
  • the segmentation provides the speech signal frames x (l) .. x (/ V), where N depends on the total length of the sentence or keyword spoken by the speaker.
  • the process of speaker verification is similar to that of speaker identification, i.e. segmentation of the spoken sentence is also carried out. After that, however, no classification of the voice is made, but a probability score is calculated for the given speaker identity and compared with a threshold. The identity of the speaker is confirmed on the basis of his voice if:
  • the threshold must be set accordingly high in order to avoid the situation in which a speaker with an identity other than the specified one is admitted / authorized.
  • the speech coding methods used today are mainly based on the analysis-by-synthesis method with an LPC synthesis filter [2]. In these methods, speech coding is optimized by repeating the coding and decoding operations until the optimal parameter set for the given speech section is found.
  • FIG. 4 Scheme of an LPAS encoder
  • One of the most used types of the LPAS encoder is the CELP encoder.
  • a relatively new development is the Harmony Vector Excited Codec with a form of excitation signals that is particularly suitable for the described task.
  • Synthesis model of a CELP encoder is shown in Figure 4. The synthesis model defines the method of calculating the synthesized speech signal from the quantized parameters of the speech signal.
  • each LPAS encoder has parameter groups:
  • Short term predictor parameters are usually calculated using classic LPC analysis, using the correlation method or the covariance method of linear prediction [3]. 8-10 LPC coefficients are used for signal frames with a length of 20 to 30 ms and a sampling rate of 8 kHz.
  • the short-term predictor parameters can appear in various forms (e.g. the reflection coefficients or as line spectrum frequencies LSF), depending on which representation can be better quantized. It has been shown that the LSF coefficients are best suited for quantization and this form of the prediction coefficients is usually used.
  • the short-term predictor parameters are calculated in an open-loop procedure, i.e. without the overall optimization shown in Figure 1 with the other parameters regarding the synthesis error.
  • Long-term predictor parameters are used in a filter that synthesizes the fundamental frequency of the speech signal. It most often becomes a long-term predictor with a filter coefficient and a parameter for the basic period of the speech signal.
  • the long-term predictor parameters are also calculated in an open-loop procedure without overall optimization with the other parameters. In some co- Sometimes a refined search for the long-term predictor parameters is carried out in a closed-loop procedure.
  • the parameters of the excitation are vector-quantized in a closed-loop procedure in a CELP encoder.
  • the sent parameters enable the waveforms to be restored from the stored code book on the decoder side.
  • the output from the LPC analysis filter is transformed into the frequency domain and the spectral envelope, which is normalized for the period, is vector-quantized.
  • Speaker recognition with the parameters of an LPAS encoder The parameters of a speech encoder describe in detail the possible speech signals with a significantly reduced number of parameters compared to the representation of the speech signal as a sequence of the samples.
  • the decomposition of the speech signal into the parameter groups mentioned can be used for speaker recognition in various ways.
  • the methods of calculating the parameters and synthesizing the speech signal imply the methods of estimating the probability densities (or the probabilities for the parameters, which are considered to be discrete probability variables). Those determined in a closed-loop procedure are actually supposed to be as discrete probability variables are considered because it is not possible to connect the volumes of the parameter space regions of the vector quantizer for such parameters. This applies in particular to the excitation parameters.
  • the estimation of the probability distributions for such parameters is determined by calculating the relative frequencies of the parameters / code vectors in the training set.
  • the probability densities can be estimated from the training set. This approach is used primarily for short-term predictor parameters. The estimation of the probability densities is based on the histogram method [6]. This method requires knowledge of the volume of the regions of the parameter space connected to the quantized points. A method of storing probability distributions arises if the possible code vectors for the
  • Speech signal parameters are stored once for the entire population, which corresponds to the case that the quantization levels / code vectors are determined from the database, which contains the recordings of many speakers, once.
  • the probability distributions of the parameters for the speakers are then stored in the system together with the indications of the code vectors for the parameters. It is suitable for large systems with a large number of users (ATM, access systems in companies). Speaker's voice
  • FIG. 7 Speaker identification with the parameters of an LPAS encoder. Probability densities are stored together with the code vectors for the parameters Identity of the speaker
  • the probability density distributions for the speaker classes are estimated from the training material.
  • For the text-dependent speaker recognition speech identification / speaker verification, a certain sentence or keyword is repeated during the training phase until the speaker recognition works reliably.
  • For the text-independent speaker verification a phonetically balanced language material must be included. In this case too, the training phase must be repeated until the speaker identification / verification functions reliably.
  • the material recorded during the training phase is used several times out of phase in order to make the speaker recognition system independent of the initial phase of the recorded voices.
  • the data used for training is stored as training set TS sp . referred to, where sj symbolizes the speaker.
  • the volume from this region is called V (Sp).
  • the frequency of the occurrence of a parameter in the training set is included
  • the estimated probability density distribution then becomes:
  • the probability functions are estimated. These are given as the frequencies of the given pattern rametercode determined in the training set for the respective speaker.
  • the speech parameters in a speech coder are not all calculated at the same time but one after the other. E.g. first calculates the short-term predictor parameters and then optimizes the remaining parameters with respect to synthesis or prediction error for already known short-term predictor parameters. This enables effective storage of the probability distributions as conditional probabilities of the code vectors in a tree structure. This is possible thanks to the following dependency:
  • sP,) P (P ⁇
  • P (PK .P L .P. I s,) P (P K I SPMPL I S PMPA I S P)
  • the probability densities must be stored in the system at very many points in the parameter space.
  • a noise which is known to the system and from which the digitized speech signal is subtracted is emitted simultaneously with the recording of the speaker's voice.
  • the invention can be used for access control applications such as e.g. the voice-controlled door, or as verification, for example for bank access systems.
  • the procedure can be implemented as a program module on a processor that realizes the task of speaker recognition in the system.
  • the non-quantized speech parameters It becomes the short-term predictor parameters .
  • the long-term predictor parameter and the long-term residual signal calculate predefined speech identity

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

The invention relates to a method of recognizing speakers using the parameters of an LPAS encoder or a parametric encoder for modeling the probability distribution for the speaker classes.

Description

Beschreibungdescription
VERFAHREN ZUM TRAINIEREN EINES SPRECHERERKENNUNGSSYSTEMSMETHOD FOR TRAINING A SPEAKER RECOGNITION SYSTEM
Die Erfindung betrifft ein Verfahren zum Erkennen von Sprechern anhand deren Stimmen.The invention relates to a method for recognizing speakers based on their voices.
Die der Erfindung zugrundeliegende Aufgabe besteht darin, ein Verfahren zum Erkennen von Sprechern anhand deren Stimmen an- zugeben, das robust, sicher und zuverlässig ist.The object on which the invention is based is to specify a method for recognizing speakers on the basis of their voices which is robust, safe and reliable.
Diese Aufgabe wird erfindungsgemäß durch die im Patentanspruch 1 angegebenen Merkmale gelöst.This object is achieved by the features specified in claim 1.
Im folgenden wird die Erfindung unter Verwendung eines Flußdiagramms näher beschrieben.The invention is described in more detail below using a flow chart.
1.1.
Die Erfindung ermöglicht die Erkennung des Sprechers anhand seiner Stimme. Das Problem der Sprechererkennung besteht darin, zwischen verschiedenen Sprechern zu unterscheiden oder die vorgegebene Sprecheridentität zu überprüfen, wobei die einzige Eingangsinformation die Aufzeichnung der Stimme des Sprechers ist.The invention enables the speaker to be recognized on the basis of his voice. The problem with speaker recognition is to distinguish between different speakers or to check the given speaker identity, the only input information being the recording of the speaker's voice.
Außerdem wird eine Methode vorgeschlagen, die das Überlisten des Zugangssystems verhindert, wenn die Stimme und das Schlüsselwort von Dritten aufgenommen wird.A method is also proposed that prevents the access system from being tricked if the voice and keyword are picked up by third parties.
Bei der Speicherung von komplexen Wahrscheinlichkeitsverteilungen für die Sprachparameter eines Sprechers muß zwischen Genauigkeit und Speicherbedarf ein Kompromiss geschlossen werden. Deswegen werden Methoden der Speicherung der Wahrscheinlichkeitsverteilungen vorgeschlagen, die abhängig von der Anzahl der Sprecher einsetzbar sind. Die Sprechererkennung wurde bisher z.B. mit Hilfe von Hidden- Markov Modellen oder durch Vektorquantisierung gelöst, siehe Literatur [1] .When storing complex probability distributions for a speaker's speech parameters, a compromise must be made between accuracy and memory requirements. For this reason, methods of storing the probability distributions are proposed, which can be used depending on the number of speakers. So far, speaker recognition has been solved using hidden Markov models or vector quantization, for example, see literature [1].
3.Third
Die Erfindung löst das Problem der Sprechererkennung basierend auf den Parametern einer Analyse durch Synthese Kodierers mit der Linearen Prädiktion (LPAS) [1] (z.B. eines Har- monic Vector Excited Codecs [5] oder Waveform Interpolation Codec [4]). Die bisher verwendeten Parameter des Sprachsignals wie z.B. Cepstrale AR Parameter bringen keine zufriedenstellende Lösung des Problems. Deswegen muß auf andere Parameter zugegriffen werden wie z.B. Parameter der Anregung des Vokaltraktes, die sprecherabhängige und zugleich weitgehend phonemenunabhängige Information tragen.The invention solves the problem of speaker recognition based on the parameters of an analysis by synthesis encoder with linear prediction (LPAS) [1] (e.g. a harmonized vector excited codec [5] or waveform interpolation codec [4]). The parameters of the speech signal used so far, e.g. Cepstrale AR parameters do not bring a satisfactory solution to the problem. Therefore, other parameters have to be accessed, e.g. Parameters of the excitation of the vocal tract, which carry speaker-dependent and at the same time largely phoneme-independent information.
Darüber hinaus wird die Methode der Schätzung der Wahrscheinlichkeitsverteilung der Kodiererparameter für den jeweiligen Sprecher gegeben, und eine Methode, die das Überlisten des Zugangssystems verhindert.In addition, the method of estimating the probability distribution of the encoder parameters for the respective speaker is given, and a method that prevents the access system from being tricked.
SprecherIdentifikationspeaker identification
Bei Systemen zur Sprechererkennung wird nach den statisti- sehen Prinzipen [2] geprüft, ob der gesprochene Satz von einem der vom Sprechererkennungssystem erfassten Sprecher gesprochen wurde. Dabei gibt es grundsätzlich zwei Arten von Sprechererkennungssystemen, die textabhängigen und die textunabhängigen Systeme. Für die in der Erfindung beschriebene Prozedur wird die Textunabhängigkeit des System durch eine erweiterte Trainingsphase erreicht, in der der Sprecher ein vielfältiges Material aufzeichnen muß und die Wahrscheinlichkeitsverteilungen der erwähnten Sprachsignalparameter aus dem gesamten Sprachmaterial bestimmt. Das Trainieren eines text- abhängigen Systems ist eine einfachere Aufgabe, weil dasIn speaker recognition systems, the statistical principles [2] are used to check whether the spoken sentence was spoken by one of the speakers detected by the speaker recognition system. There are basically two types of speaker recognition systems, the text-dependent and the text-independent systems. For the procedure described in the invention, the text independence of the system is achieved through an extended training phase in which the speaker has to record a variety of material and the probability distributions of the speech signal parameters mentioned are determined from the entire speech material. Training a text dependent system is an easier task because that
Sprachmaterial, das vom Sprecher während der Nutzungsphase gesprochen wird, auf einige Schlüsselworte oder bestimmte Sätze begrenzt ist. Die Vorbereitungsphase wird so lange durchgeführt, bis das System sicher die Stimme des Sprechers erkennt .Speech material spoken by the speaker during the usage phase, on some key words or certain ones Sentences is limited. The preparatory phase continues until the system reliably recognizes the speaker's voice.
Die Aufgabe der Sprecheridentifikation ist in Bild 2 dargestellt.The task of speaker identification is shown in Figure 2.
Stimme des SprechersSpeaker's voice
Bild 2. Problem der Sprecheridentifikation Figure 2. Problem of speaker identification
Die Sprecheridentifikation wird als ein Problem der Multiplen Detektion behandelt [2] . Die zu unterscheidenden Klassen, eine für jeden Sprecher, das vom System erkannt werden soll, werden als sp, i = 1..M bezeichnet, mit M - Anzahl der von dem Sprechererkennungssystem erfassten Sprecher. Die Sprechererkennung basiert auf den aufgezeichneten Sprachsignalen der jeweiligen Sprecher. Das Sprachsignal wird segmentiert in die Signalrahmen x = [x(l)..x(K)] (z.B. für einen Signalrahmen vonSpeaker identification is treated as a problem of multiple detection [2]. The classes to be distinguished, one for each speaker that is to be recognized by the system, are designated as sp, i = 1..M, with M - number of speakers recorded by the speaker recognition system. The speaker recognition is based on the recorded voice signals of the respective speakers. The speech signal is segmented into the signal frames x = [x (l) .. x (K)] (e.g. for a signal frame from
20 ms Länge und eine Abtastfrequenz von 8 kHz beträgt K = 160) . Die Segmentierung liefert die Sprachsignalrahmen x(l)..x(/V) , wobei N von der Gesamtlänge des von dem Sprecher gesprochenen Satzes oder Schlüsselwortes abhängt. Die Entscheidung über den Sprecher wird aus den Wahrscheinlichkeiten oder Wahrscheinlichkeitsdichten (zusammen als Wahrscheinlichkeits- scores bezeichneten) getroffen, daß die Vektoren der Abtastwerte x(/) l = l..N der Klasse sp, zugehören. Das statistisch optimale Entscheidungsschema wählt die Klasse spt mit dem höchsten Wahrscheinlichkeitswert bei gegebenen x(/) , / = 1../ . D.h. der Vektor x(/) wird der Klasse spj zugeordnet, für die:20 ms in length and a sampling frequency of 8 kHz is K = 160). The segmentation provides the speech signal frames x (l) .. x (/ V), where N depends on the total length of the sentence or keyword spoken by the speaker. The decision about the speaker is made from the probabilities or probability densities (collectively referred to as probability scores) that the vectors of the samples x (/) l = l..N belong to class sp. The statistically optimal decision scheme is chosen by the class sp t with the highest probability value given x (/), / = 1 ../. Ie the vector x (/) is assigned to the class sp j , for which:
p(x(l)...x(Λ/) | spj) > p(x(l)...x(/V) | spi) füralle j ≠ /p (x (l) ... x (Λ /) | sp j )> p (x (l) ... x (/ V) | spi) for all j ≠ /
Sprecherverifikationspeaker verification
Stimme des SprechersSpeaker's voice
Stimmt die Sprechers stimme mit der vorgegebenen Identität zusammen?Does the speaker agree with the given identity?
Identität des SprechersIdentity of the speaker
Bild 3 . Problem der Sprecherverifikation Problem der Sprecherverifikation besteht darin, die vorgegebene Identität des Sprechers anhand seiner Stimme zu überprü- fen. Dies entspricht der auf dem Bild 3. abgebildeten Situation.Picture 3 . Speaker verification problem The problem with speaker verification is to check the given identity of the speaker using his voice. This corresponds to the situation shown in Figure 3.
Der Prozeß der Sprecherverifikation verläuft auf ähnliche Weise wie der bei der Sprecheridentifikation, d.h. es wird ebenfalls die Segmentierung des gesprochenen Satzes durchge- führt. Danach wird jedoch keine Klassifizierung der Stimme gemacht, sondern für die vorgegebene Sprecheridentität ein Wahrscheinlichkeitsscore berechnet und mit einer Schwelle verglichen. Die Identität des Sprechers wird also anhand seiner Stimme bestätigt, wenn:The process of speaker verification is similar to that of speaker identification, i.e. segmentation of the spoken sentence is also carried out. After that, however, no classification of the voice is made, but a probability score is calculated for the given speaker identity and compared with a threshold. The identity of the speaker is confirmed on the basis of his voice if:
p(x(l)..x(/V) | s j) > schwellep (x (l) .. x (/ V) | s j )> threshold
wobei spj der vorgegebenen Sprecheridentität entspricht. Diewhere sp j corresponds to the given speaker identity. The
Schwelle muß entsprechend hoch gesetzt werden, um die Situa- tion zu vermeiden, in der ein Sprecher mit einer anderer I- dentität als die vorgegebene zugelassen/autorisiert wird.The threshold must be set accordingly high in order to avoid the situation in which a speaker with an identity other than the specified one is admitted / authorized.
LPAS KodiererLPAS encoder
Die heute eingesetzten Sprachkodierverfahren basieren vorwie- gend auf dem Analyse-durch-Synthese Verfahren mit einem LPC- Synthesefilter [2] . Die Sprachkodierung wird in diesen Verfahren durch Wiederholung der Kodierungs- und Dekodierungs- Operationen solange optimiert, bis der optimale Parametersatz für den gegebenen Sprachabschnitt gefunden wird.The speech coding methods used today are mainly based on the analysis-by-synthesis method with an LPC synthesis filter [2]. In these methods, speech coding is optimized by repeating the coding and decoding operations until the optimal parameter set for the given speech section is found.
Bild 4: Schema eines LPAS Kodierers Einer der am meisten verwendeten Typen des LPAS Kodierers ist der CELP Kodierer. Eine relativ neue Entwicklung ist der Harmonie Vector Excited Codec mit einer besonders für die beschriebene Aufgabe geeigneter Form der Anregungssignale. Synthesemodell eines CELP Kodierers ist in Bild 4 dargestellt. Das Synthesemodell definiert die Methode der Berechnung des synthetisierten Sprachsignals aus den quantisierten Parametern des Sprachsignals. Im allgemeinen besitzt jeder LPAS Kodierer Parametergruppen:Figure 4: Scheme of an LPAS encoder One of the most used types of the LPAS encoder is the CELP encoder. A relatively new development is the Harmony Vector Excited Codec with a form of excitation signals that is particularly suitable for the described task. Synthesis model of a CELP encoder is shown in Figure 4. The synthesis model defines the method of calculating the synthesized speech signal from the quantized parameters of the speech signal. In general, each LPAS encoder has parameter groups:
• Kurzzeitprädiktorparameter . Die Kurzzeitprädiktorparameter werden in der Regel mit Hilfe klassischer LPC Analyse berechnet, wobei die Korrelations-Methode oder die Kovari- anz-Methode der Linearen Prädiktion angewendet wird [3] . Für Signalrahmen der Länge von 20 bis 30 ms und eine Abtastrate von 8kHz werden 8-10 LPC Koeffizienten verwendet. Die Kurzzeitprädiktorparameter können in verschiedenen Formen (z.B. die Reflexionskoeffizienten oder als Line Spectrum Frequencies LSF) auftreten, abhängig davon, wel- ehe Darstellung sich besser quantisieren läßt. Es hat sich gezeigt, daß die LSF Koeffizienten am besten zur Quantisierung geeignet sind und diese Form der Prädiktionskoeffizienten wird in der Regel verwendet. Die Kuzrzeitprädik- torparameter werden in einer open-loop Prozedur berechnet, d.h. ohne der auf dem Bild 1 dargestellten gesamten Optimierung mit den anderen Parametern bezüglich des Synthesefehlers .• Short term predictor parameters. The short-term predictor parameters are usually calculated using classic LPC analysis, using the correlation method or the covariance method of linear prediction [3]. 8-10 LPC coefficients are used for signal frames with a length of 20 to 30 ms and a sampling rate of 8 kHz. The short-term predictor parameters can appear in various forms (e.g. the reflection coefficients or as line spectrum frequencies LSF), depending on which representation can be better quantized. It has been shown that the LSF coefficients are best suited for quantization and this form of the prediction coefficients is usually used. The short-term predictor parameters are calculated in an open-loop procedure, i.e. without the overall optimization shown in Figure 1 with the other parameters regarding the synthesis error.
• Langzeitprädiktorparameter . Langzeitprädiktorparameter werden in einem Filter verwendet, der die Grundfrequenz des Sprachsignals synthetisiert. Es wird am meisten ein Langzeitprädiktor mit einem Filterkoeffizient und einem Parameter für die Grundperiode des Sprachsignals. Ein Langzeitprädiktor mit den Parametern b = [b,N] ist ein Teil der Abb. 2. Die Langzeitprädiktorparameter werden ebenfalls in einer open-loop Prozedur berechnet ohne eine Gesamtoptimierung mit den anderen Parametern. In manchen Ko- dierern wird manchmal eine verfeinerte Suche nach den Langzeitprädiktorparametern in einer closed-loop Prozedur durchgeführt .• Long-term predictor parameters. Long term predictor parameters are used in a filter that synthesizes the fundamental frequency of the speech signal. It most often becomes a long-term predictor with a filter coefficient and a parameter for the basic period of the speech signal. A long-term predictor with the parameters b = [b, N] is part of Fig. 2. The long-term predictor parameters are also calculated in an open-loop procedure without overall optimization with the other parameters. In some co- Sometimes a refined search for the long-term predictor parameters is carried out in a closed-loop procedure.
• Die Parameter der Anregung. In einem CELP Kodierer werden die 5-10ms Subrahmen des Restsignals in einer closed-loop Prozedur vektorquantisiert . Die gesendeten Parameter ermöglichen auf der Dekoderseite die Wiederherstellung der Signalformen aus dem gespeicherten Codebuch.• The parameters of the excitation. The 5-10ms subframes of the residual signal are vector-quantized in a closed-loop procedure in a CELP encoder. The sent parameters enable the waveforms to be restored from the stored code book on the decoder side.
codebook of thecodebook of the
Long-Term-Predictor Short-Term-PredictorLong-Term Predictor Short-Term Predictor
Bild 5.: Synthese-Modell eines CELP KodierersFigure 5 .: Synthesis model of a CELP encoder
In einem HVXC Codecs wird der Ausgang aus dem LPC Analyse Filter in die Frequenzdomäne transformiert und die grund- periodennor alisierte Spektraleinhüllende vektorquantisiert.In an HVXC codec, the output from the LPC analysis filter is transformed into the frequency domain and the spectral envelope, which is normalized for the period, is vector-quantized.
Sprechererkennung mit den Parametern eines LPAS Kodierers Die Parameter eines Sprachkodierers beschreiben ausführlich die möglichen Sprachsignale mit einer wesentlich reduzierten Anzahl der Parameter im Vergleich zur Darstellung des Sprachsignals als eine Sequenz der Abtastwerte.Speaker recognition with the parameters of an LPAS encoder The parameters of a speech encoder describe in detail the possible speech signals with a significantly reduced number of parameters compared to the representation of the speech signal as a sequence of the samples.
Die Dekomposition des Sprachsignals in die erwähnten Parametergruppen kann auf verschiedene Weise zur Sprechererkennung verwendet werden. Die Methoden zur Berechnung der Parameter und Synthese des Sprachsignals implizieren die Methoden der Schätzung der Wahrscheinlichkeitsdichten (bzw. der Wahrscheinlichkeiten für die Parameter, die als diskrete Wahrscheinlichkeitsvariablen betrachtet werden) . Die in einer closed-loop Prozedur bestimmt werden, sollen eigentlich als diskrete Wahrscheinlichkeitsvariablen betrachtet werden, weil es nicht möglich ist, für solche Parameter die Volumen der Parameterraumesregionen des Vektorquantizierers zu verbinden. Dies betrifft insbesondere die Anregungsparameter. Die Schät- zung der Wahrscheinlichkeitsverteilungen für solche Parameter wird durch die Berechnung von relativen Häufigkeiten der Parameter/Codevektoren im Trainingsatz bestimmt. Die in einer open-loop Prozedur im Kodierer berechnet werden, sind zuerst in einer nichtquantisierten Form verfügbar und dann erst quantisiert, wobei in der Regel die Vektorquantisierung verwendet wird. Für solche Parameter können die Wahrscheinlichkeitsdichten aus dem Trainingssatz geschätzt werden. Dieser Ansatz wird vor allem für die Kurzzeitprädiktorparameter angewendet . Die Schätzung der Wahrscheinlichkeitsdichten basiert auf der Histogramm Methode [6]. Diese Methode benötigt die Kenntnisse der Volumen der mit den quantisierten Punkten verbundenen Regionen des Parameterraumes . Eine Methode der Speicherung von Wahrscheinlichkeitverteilun- gen ergibt sich, wenn die möglichen Codevektoren für dieThe decomposition of the speech signal into the parameter groups mentioned can be used for speaker recognition in various ways. The methods of calculating the parameters and synthesizing the speech signal imply the methods of estimating the probability densities (or the probabilities for the parameters, which are considered to be discrete probability variables). Those determined in a closed-loop procedure are actually supposed to be as discrete probability variables are considered because it is not possible to connect the volumes of the parameter space regions of the vector quantizer for such parameters. This applies in particular to the excitation parameters. The estimation of the probability distributions for such parameters is determined by calculating the relative frequencies of the parameters / code vectors in the training set. Those calculated in an open-loop procedure in the encoder are first available in an unquantized form and only then quantized, whereby vector quantization is generally used. For such parameters, the probability densities can be estimated from the training set. This approach is used primarily for short-term predictor parameters. The estimation of the probability densities is based on the histogram method [6]. This method requires knowledge of the volume of the regions of the parameter space connected to the quantized points. A method of storing probability distributions arises if the possible code vectors for the
Sprachsignalparameter einmal für die ganze Population gespeichert werden, was dem Fall entspricht, daß die Quantisierungsstufen/Codevektoren aus der Datenbank bestimmt, die die Aufzeichnungen von vielen Sprechern beinhaltet, einmal be- stimmt werden. Die Wahrscheinlichkeitsverteilungen der Parameter für die Sprecher werden dann zusammen mit den Indizien der Codevektoren für die Parameter im System gespeichert. Sie eignet sich für große Systeme mit sehr vielen Anwendern (ATM, Zugangssysteme in Betrieben) . Stimme des SprechersSpeech signal parameters are stored once for the entire population, which corresponds to the case that the quantization levels / code vectors are determined from the database, which contains the recordings of many speakers, once. The probability distributions of the parameters for the speakers are then stored in the system together with the indications of the code vectors for the parameters. It is suitable for large systems with a large number of users (ATM, access systems in companies). Speaker's voice
Codevektoren für Kodierungsoperation die Parameter des open-loop, closed-loopCode vectors for coding operation the parameters of the open-loop, closed-loop
Parameterberechnung LPAS KodierersLPAS encoder parameter calculation
kodierte 0 Wahrscheinlich- Parameter keitsverteilungen der kodierten Pa- rameter für denencoded 0 probability parameter distributions the coded parameters for the
Spreeher 1 Entscheidung 5 über den SprecherSpreeher 1 decision 5 over the speaker
Identität des SprechersIdentity of the speaker
Bild 6. Sprecheridentifikation mit den Parameter eines LPAS KodierersFigure 6. Speaker identification with the parameters of an LPAS encoder
5 Eine andere Methode ergibt sich, wenn die Codevektoren für die Parameter für jeden Sprecher einzeln trainiert werden. Die Codevektoren werden dann zusammen mit den Werten der Wahrscheinlichkeitsdichten an den durch die Codevektoren bestimmten Punkten des Parameterraumes gespeichert. Ein Schema dieser Methode ist auf dem Bild. 7 gezeigt. Diese Methode ist für eine kleine Anzahl von Sprechern bestimmt (z.B. für eine mit der Stimme gesteuerte Tür in der Wohnung)5 Another method arises when the code vectors for the parameters are trained individually for each speaker. The code vectors are then stored together with the values of the probability densities at the points of the parameter space determined by the code vectors. A diagram of this method is in the picture. 7 shown. This method is intended for a small number of speakers (e.g. for a voice-controlled door in the apartment)
10 Stimme des Sprechers 10 Voice of the speaker
Berechnung der nicht quanti- sierten Parameter in einer open - loop ProzedurCalculation of the unquantified parameters in an open-loop procedure
Entscheidungdecision
Bild 7. Sprecheridentifikation mit den Parametern eines LPAS Kodierers Wahrscheinlichkeitsdichten werden zusammen mit den Codevektoren für die Parameter gespeichert Identität des SprechersFigure 7. Speaker identification with the parameters of an LPAS encoder. Probability densities are stored together with the code vectors for the parameters Identity of the speaker
Trainingsphase eines SprechererkennungssystemsTraining phase of a speaker recognition system
Die Wahrscheinlichkeitsdichteverteilungen für die Sprecherklassen werden aus dem Trainingsmaterial geschätzt. Für die textabhängige Sprechererkennung (Sprecheridentifikation/Sprecherverifikation) wird ein bestimmter Satz oder Schlüsselwort während der Trainingphase so lange wiederholt bis die Sprechererkennung sicher funktioniert. Für die textunabhängige Sprecherverifikation muß ein phonetisch ausgewogenes Sprachmaterial aufgenommen werden. Auch in diesem Fall muß die Trainingphase solange wiederholt werden bis die Sprecheridentifikation/verifikation sicher funktioniert.The probability density distributions for the speaker classes are estimated from the training material. For the text-dependent speaker recognition (speaker identification / speaker verification), a certain sentence or keyword is repeated during the training phase until the speaker recognition works reliably. For the text-independent speaker verification, a phonetically balanced language material must be included. In this case too, the training phase must be repeated until the speaker identification / verification functions reliably.
Das während der Trainingphase aufgenommene Material wird zum Training mehrmals jeweils phasenverschoben verwendet, um das Sprechererkennungssystem unabhängig von der Anfangsphase der aufgezeichneten Stimmen zu machen. Die zum Training verwendeten Daten wird als Trainingsatz TSsp. bezeichnet, wobei s j den Sprecher symbolisiert.The material recorded during the training phase is used several times out of phase in order to make the speaker recognition system independent of the initial phase of the recorded voices. The data used for training is stored as training set TS sp . referred to, where sj symbolizes the speaker.
Schätzung der Wahrscheinlichkei tsdichten Um die erfindungsgemäße Methode zur Schätzung der Wahrscheinlichkeitsdichten der Parameter für die Sprecherklassen zu be¬ schreiben, werden zuerst notwendige Definitionen eingeführt. Die eingeführte Abstraktion des Kodierungsprozesses hat den Vorteil, daß die Schätzung der Wahrscheinlichkeitsdichten auf einfache Weise beschrieben werden kann, ohne auf die sehr komplizierten Operationen im Sprachkodierer in Details einzugehen. Eine detaillierte Beschreibung der Parameterberechung kann in [4] und [5] gefunden werden. Ein Sprachkodierer arbeitet in Auswerteintervallen. Für jeden Signalrahmen werden in dem Sprachkodierer die im Abschnitt über LPAS Kodierer beschriebene Operationen durchgeführt, die die Parameter des Sprachsignals für den jeweiligen Rahmen liefern. Berechnung eines nicht quantisierten Parametervektors p aus dem Signalrahmen x in einer open-loop Oprimierungprozedur wird als p = p(x) geschrieben. Die Quantisierung des Parameters wird als: p = Qp(p) bezeichnet. Die Region im Parameterraum der Parameter p, der im Kodierungsprozess auf den Codevektor p abgebildet wird, wird als Sp = {p: Qp(p) = p} bezeichnet. Das Volumen von dieser Region wird als V(Sp) bezeichnet. Der Satz möglicher Codevektoren für den Parameter p wird als Cp ={p,; = l.JVp} geschrieben mit Np Anzahl von Codevektoren. DerEstimation of the probability densities In order to describe the method according to the invention for estimating the probability densities of the parameters for the speaker classes , necessary definitions are first introduced. The introduced abstraction of the coding process has the advantage that the estimation of the probability densities can be described in a simple manner, without going into details of the very complicated operations in the speech encoder. A detailed description of the parameter calculation can be found in [4] and [5]. A speech encoder works in evaluation intervals. For each signal frame, the operations described in the LPAS Encoder section are performed in the speech encoder provide the parameters of the speech signal for the respective frame. Calculation of a non-quantized parameter vector p from the signal frame x in an open-loop compression procedure is written as p = p (x). The quantization of the parameter is called: p = Q p (p). The region in the parameter space of the parameters p, which is mapped to the code vector p in the coding process, is referred to as S p = {p: Q p (p) = p}. The volume from this region is called V (Sp). The set of possible code vectors for the parameter p is called C p = {p ,; = l.JV p } written with N p number of code vectors. The
Satz von Regionen, die mit den Codevektoren verbunden sind, wird als Rp = {S,;i = l..Λ/p} bezeichnet. Die Zugehörigkeitsfunktion einer Region S, wird als: lfürpeS, 1S s'(P)- j.OfürpeS, bezeichnet .Set of regions associated with the code vectors is called R p = {S,; i = l..Λ / p }. The membership function of a region S is called: lfürpeS, 1 S s ' (P) - j.OfürpeS.
Die Häufigkeit des Vorkommens eines Parameters im Trainingssatz wird mitThe frequency of the occurrence of a parameter in the training set is included
Anzahl von Parameterwerten aus dem Training Satz TS__ die in die Region S, fallen f =Number of parameter values from the training set TS__ that fall into the region S, f =
Anzahl von Parameterwerten aus dem Training Satz TSsp,Number of parameter values from the training set TSsp,
berechnet .calculated.
Die geschätzte Wahrscheinlichkeitsdichteverteilung wird dann zu:The estimated probability density distribution then becomes:
Schätzung der Wahrscheinlichkei tenEstimation of the probabilities
Für die Parameter, die als eine diskrete Wahrscheinlichkeitsvariable betrachtet werden, d.h vor allem die Anregung aus dem Codebuch, die in einer closed-loop Prozedur optimiert wird und die Grundperiode des Sprachsignals, werden die Wahr- scheinlichkeitsfunktionen (probability mass functions) geschätzt. Diese werden als die Häufigkeiten der gegebenen Pa- rametercode im Trainingssatz für den jeweiligen Sprecher bestimmt .For the parameters that are considered a discrete probability variable, ie above all the excitation from the code book, which is optimized in a closed-loop procedure and the basic period of the speech signal, the probability functions (probability mass functions) are estimated. These are given as the frequencies of the given pattern rametercode determined in the training set for the respective speaker.
Speichern der Wahrscheinlichkei tsverteil ungenSave the probability distributions
Die Sprachparameter m einem Sprachkodierer werden nicht alle gleichzeitig sondern nacheinander berechnet. Es werden z.B. zuerst die Kurzzeitprädiktorparameter berechnet und dann für bereits bekannte Kurzzeitprädiktorparameter die restlichen Parameter bezuglich der Synthese oder des Pradiktionsfehlers optimiert. Dies ermöglicht effektives Speichern der Wahrscheinlichkeitsverteilungen als bedingte Wahrscheinlichkeiten der Codevektoren m einer Baumstruktur. Dies ist möglich dank folgender Abhängigkeit:The speech parameters in a speech coder are not all calculated at the same time but one after the other. E.g. first calculates the short-term predictor parameters and then optimizes the remaining parameters with respect to synthesis or prediction error for already known short-term predictor parameters. This enables effective storage of the probability distributions as conditional probabilities of the code vectors in a tree structure. This is possible thanks to the following dependency:
P(P .PL.PΛ |sP,) = P(Pκ |sp,)p(pL \ sρ,,pκ)p(pA \ sp,,pκ,pL)P (P .P L .P Λ | sP,) = P (Pκ | sp,) p (p L \ sρ ,, p κ ) p (p A \ sp ,, p κ , p L )
pκ - Vektor von Kurzzeitparameter pL - Vektor von Langzeitparameter pΛ - Vektor von Anregungsparameterp κ - vector of short-term parameter p L - vector of long-term parameter p Λ - vector of excitation parameter
Eine wesentliche Vereinfachung ergibt sich, wenn die Sprachparameter innerhalb eines Signalrahmens als statistisch unabhängig angenommen werden können. Die obige Formel wird dann zu:A significant simplification results if the speech parameters within a signal frame can be assumed to be statistically independent. The above formula then becomes:
P(PK .PL.P . I s , ) = P(PK I SPMPL I SPMPA I SP)P (PK .P L .P. I s,) = P (P K I SPMPL I S PMPA I S P)
Die Wahrscheinlichkeitsdichten müssen im System an sehr vie- len Punkten im Parameterraum gespeichert werden. Die zumThe probability densities must be stored in the system at very many points in the parameter space. The for
Speichern von Wahrscheinlichkeitsdichten verwendete Bitanzahl ist für die Komplexität des Gesamtsystems kritisch. Für die Wahrschemlichkeitswerte wird deswegen ein Vektorquantisierer verwendet. Dies ermöglicht die Reduzierung der zum Speichern der Wahrscheinlichkeitsverteilungen verwendeten Bitanzahl. Systemsicherhei tStoring the number of bits used in probability densities is critical to the complexity of the overall system. A vector quantizer is therefore used for the probability values. This enables the number of bits used to store the probability distributions to be reduced. System security
Um die Überlistung des Systems zu verhindern, wird gleichzeitig mit der Aufzeichnung der Stimme des Sprechers ein Rauschen ausgestrahlt, das dem System bekannt ist und aus dem das digitalisierte Sprachsignal subtrahiert wird.In order to prevent the system from being outwitted, a noise which is known to the system and from which the digitized speech signal is subtracted is emitted simultaneously with the recording of the speaker's voice.
5.5th
Die Erfindung kann für Anwendungen der Zutrittskontrolle, wie z.B. die mit der Stimme gesteuerte Tür, oder als Verifikati- on, beispielsweise für Bankzugangssysteme genutzt werden. Die Prozedur kann als ein Programmodul auf einem Prozessor implementiert werden, der die Aufgabe der Sprechererkennung im System realisiert.The invention can be used for access control applications such as e.g. the voice-controlled door, or as verification, for example for bank access systems. The procedure can be implemented as a program module on a processor that realizes the task of speaker recognition in the system.
[1] S.Furui, „Recent advances in Speaker recognition* , Pattern Recognition Letters, Tokyo Inst, of Technol., 1997 [2] P.Vary, U. Heute, W.Hess, Digi tale Sprachsignal verarbei tung, B.G.Teubner Stuttgart, 1998 [3] K.Kroschel, Statistische Nachrichtentheorie, 3rd ed., Springer-Verlag, 1997[1] S.Furui, "Recent advances in Speaker recognition *, Pattern Recognition Letters, Tokyo Inst, of Technol., 1997 [2] P.Vary, U. Today, W.Hess, Digital Speechsignalverarverarbeitung, BGTeubner Stuttgart 1998 [3] K.Kroschel, Statistical News theory, 3rd ed., Springer-Verlag, 1997
[4] W.B.Kleijn, K.K.Paliwal, Speech Coding and Synthesis, Elsevier, 1995[4] W.B.Kleijn, K.K.Paliwal, Speech Coding and Synthesis, Elsevier, 1995
[5] ISO/IEC 14496-3, MPGA-3 HVXC Speech Coder description [6] Prakasa Rao, Functional Estimation, Academic Press, 1982 [5] ISO / IEC 14496-3, MPGA-3 HVXC Speech Coder description [6] Prakasa Rao, Functional Estimation, Academic Press, 1982
aufgezeichnete Stimme des Sprechers - em bestimmtes Schlüsselwort oder Satz für die Textabhangige Sprecherveryfikation ein beliebiges Text für die Textunabhangige SprecherveryfikationRecorded voice of the speaker - a specific keyword or phrase for text-independent speaker verification, any text for text-independent speaker verification
Segmentierung des Sprachsignals in die Signalrahmen von der Lange 20-30msSegmentation of the speech signal into the signal frames of the length 20-30ms
berechne die nicht quantisierte Sprachparameter Es werden die Kurzzeitprädiktorparameter. die Langzeitpradiktorparametr und das Langzeitrestsignal berechnet vorgegebene Sprecheπdentitatcalculate the non-quantized speech parameters . It becomes the short-term predictor parameters . the long-term predictor parameter and the long-term residual signal calculate predefined speech identity
Für ιeden Rahmen berechne dieFor each frame calculate the
Sprecherdaten W ahrs cheinhchke lts ss coresNarrator data W ahrs cheinhchke lts ss cores
Wahrscheinlichkeitsverteilung von (Wahrscheinlichkeiten oderProbability distribution of (probabilities or
Sprachp arameter Wahrschin chkeitsdichten)Speech parameters probability densities)
Zusammenfassung vonSummary of
W ahrs iemhchke lts scores aus allen SignalrahmenW ahrs iemhchke lts scores from all signal frames
Es wird angenommen daß dieIt is believed that the
Signalrahmen des Sprachsignals statistisch unabhängig smdSignal frame of the speech signal statistically independent smd
Entscheidung ob die vorgegebeneDecision whether the given
Identität des Sprechers und dieIdentity of the speaker and the
Stimme des Sprechers übereinstimmenThe speaker's voice match
recherveryfikation mit Verwendung von den Parameter eine LPAS Kodierer Research verification using the parameters of an LPAS encoder

Claims

Patentansprüche claims
1. Verfahren zum Erkennen von Sprechern anhand deren Stimmen mit folgenden Merkmalen: (a) in einer Vorbereitungsphase,1. A method for recognizing speakers based on their voices with the following features: (a) in a preparatory phase,
(al) werden von M Sprechern jeweils k textabhängige oder textunabhängige Referenzsprachäußerungen, die einen sprecherbezogenen Trainingssatz bilden, in erste Sprachsignalrahmen der Länge L segmentiert, (a2) werden die ersten Sprachsignalrahmen einem auf linearer Prädiktion basierenden Analyse-durch-Synthese-Kodierer zugeführt,(a) M speakers segment k text-dependent or text-independent reference speech utterances, which form a speaker-related training sentence, into first speech signal frames of length L, (a2) the first speech signal frames are fed to an analysis-by-synthesis encoder based on linear prediction,
(a3) wird in dem Analyse-durch-Synthese-Kodierer für jeden der M Sprecher und jeweils jeden ersten Sprachsignalrahmen ein erster Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter des Kodierers berechnet, wobei die Parameter dann ein sprecherbezogenes Trainingsmaterial bilden, (a4) wird in dem Analyse-durch-Synthese-Kodierer für jeden der M Sprecher und jeweils jeden ersten Sprachsignalrahmen die Häufigkeit des jeweiligen Vorkommens des ersten Kurz- zeitprädiktorparameters, Langzeitprädiktorparameters und/oder Anregungsparameters des Kodierers in dem sprecherbezogenen Trainingssatz bzw. die Wahrscheinlichkeitsdichten, mit der der erste Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter in dem sprecherbezogenen Trainingssatz enthalten ist, berechnet,(a3) a first short-term predictor parameter, long-term predictor parameter and / or excitation parameter of the encoder is calculated in the analysis-by-synthesis encoder for each of the M speakers and each first speech signal frame, the parameters then forming a speaker-related training material, (a4) in the analysis-by-synthesis encoder for each of the M speakers and each first speech signal frame, the frequency of the respective occurrence of the first short-term predictor parameter, long-term predictor parameter and / or excitation parameter of the encoder in the speaker-related training set or the probability densities with which the first short-term predictor parameter Long-term predictor parameters and / or excitation parameters are contained in the speaker-related training set,
(a5) werden die berechneten Häufigkeiten bzw. Wahrscheinlichkeitsdichten sprecherbezogen als Sprecherdaten gespeichert, (b) in einer simulierten Nutzungsphase der Trainingsphase, (bl) wird eine textabhängige oder textunabhängige Simulationssprachäußerung eines m-ten Sprechers mit m=l..M in zweite Sprachsignalrahmen der Länge L segmentiert, (b2) werden die zweiten Sprachsignalrahmen dem Analyse-durch- Synthese-Kodierer zugeführt,(a5) the calculated frequencies or probability densities are stored speaker-related as speaker data, (b) in a simulated usage phase of the training phase, (bl) a text-dependent or text-independent simulation speech expression of an m-th speaker with m = l..M is placed in second speech signal frames Segmented length L, (b2) the second speech signal frames are fed to the analysis-by-synthesis encoder,
(b3) wird in dem Analyse-durch-Synthese-Kodierer für den inten Sprecher und jeweils jeden zweiten Sprachsignalrahmen ein zweiter Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter des Kodierers berechnet, (b4) werden für jeden zweiten Sprachsignalrahmen aus dem berechneten zweiten Kurzzeitprädiktorparameter, Langzeitprädik- torparameter und/oder Anregungsparameter und den für den inten Sprecher in der Vorbereitungsphase gespeicherten Sprecherdaten erste Wahrscheinlichkeitstreffer berechnet, die angeben, mit welcher Wahrscheinlichkeit der zweite Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anre- gungsparameter mit dem ersten Kurzzeitprädiktorparameter,(b3) is inserted in the analysis-by-synthesis encoder for the internal speaker and every other speech signal frame second short-term predictor parameters, long-term predictor parameters and / or excitation parameters of the encoder are calculated, (b4) first probability hits are calculated for every second speech signal frame from the calculated second short-term predictor parameters, long-term predictor parameters and / or excitation parameters and the speaker data stored for the int speaker in the preparation phase, which indicate the probability with which the second short-term predictor parameter, long-term predictor parameter and / or excitation parameter with the first short-term predictor parameter,
Langzeitprädiktorparameter und/oder Anregungsparameter übereinstimmt,Long-term predictor parameters and / or excitation parameters match,
(b5) werden die ersten Wahrscheinlichkeitsscores aus allen zweiten Sprachsignalrahmen zusammengefaßt, (b6) wird überprüft, ob die zusammengefaßten ersten Wahrscheinlichkeitsscores größer einer vorgegebenen ersten Schwelle sind, die Stimme des m-ten Sprechers bestätigt, wenn die zusammengefaßten ersten Wahrscheinlichkeitsscores größer als die vorgegebene erste Schwelle sind oder die Vorberei- tungsphase solange für weitere i Referenzsprachäußerungen des m-ten Sprechers durchgeführt, bis die Stimme des m-ten Sprechers bestätigt wird, wenn die zusammengefaßten ersten Wahrscheinlichkeitsscores kleiner gleich oder kleiner der vorgegebenen ersten Schwelle sind, (c) in einer Nutzungsphase(b5) the first probability scores from all the second speech signal frames are combined, (b6) it is checked whether the combined first probability scores are greater than a predetermined first threshold, the voice of the m-th speaker is confirmed if the combined first probability scores are greater than the predetermined first Threshold or the preparation phase is carried out for further reference speech utterances by the mth speaker until the voice of the mth speaker is confirmed when the combined first probability scores are less than or less than the predetermined first threshold, (c) in one use phase
(cl) wird eine textabhängige oder textunabhängige Nutzsprachäußerung des m-ten Sprechers mit m=l .. M in dritte Sprachsig- nalrahmen der Länge L segmentiert, (c2) werden die dritten Sprachsignalrahmen dem Analyse-durch- Synthese-Kodierer zugeführt,(cl) a text-dependent or text-independent useful language utterance of the m th speaker with m = l .. M is segmented into third speech signal frames of length L, (c2) the third speech signal frames are fed to the analysis-by-synthesis encoder,
(c3) wird in dem Analyse-durch-Synthese-Kodierer für den inten Sprecher und jeweils jeden dritten Sprachsignalrahmen ein dritter Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter des Kodierers berechnet, (c4) werden für jeden dritten Sprachsignalrahmen aus dem berechneten dritten Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter und den für den m- ten Sprecher in der Vorbereitungsphase gespeicherten Sprecherdaten zweite Wahrscheinlichkeitstreffer berechnet, die angeben, mit welcher Wahrscheinlichkeit der dritte Kurzzeitprädiktorparameter, Langzeitprädiktorparameter und/oder Anregungsparameter von dem m-ten Sprecher ausgesprochen wurde,(c3) a third short-term predictor parameter, long-term predictor parameter and / or excitation parameter of the encoder is calculated in the analysis-by-synthesis encoder for the internal speaker and every third speech signal frame, (c4) are calculated for every third speech signal frame from the calculated third short-term predictor parameter, long-term predictor parameter and / or excitation parameters and for the m- second speaker hits stored in the preparation phase of the speaker data are calculated, which indicate the probability with which the third short-term predictor parameter, long-term predictor parameter and / or excitation parameter was pronounced by the m-th speaker,
(c5) werden die zweiten Wahrscheinlichkeitstreffer aus allen dritten Sprachsignalrahmen zusammengefaßt, (c6) wird überprüft, ob die zusammengefaßten zweiten Wahr- scheinlichkeitsscores größer einer vorgegebenen zweiten(c5) the second probability hits from all the third speech signal frames are combined, (c6) it is checked whether the combined second probability scores are greater than a predetermined second
Schwelle sind, die Stimme des m-ten Sprechers wird erkannt, wenn die zusammengefaßten zweiten Wahrscheinlichkeitstreffer größer der vorgegebenen zweiten Schwelle sind oder die Stimme des m-ten Sprechers wird nicht erkannt, wenn die zusammenge- faßten zweiten Wahrscheinlichkeitsscores kleiner gleich oder kleiner der vorgegebenen zweiten Schwelle sind.Threshold are, the voice of the m-th speaker is recognized if the combined second probability hits are greater than the predetermined second threshold, or the voice of the m-th speaker is not recognized if the combined second probability scores are less than or equal to the predetermined second Are threshold.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß als ein parametrischer Kodierer, insbesondere ein 'Harmonie2. The method according to claim 1, characterized in that as a parametric encoder, in particular a 'harmony
Vector Excited Predictive" -Kodierer oder ein *Waveform Inter- polating" -Kodierer verwendet wird.Vector Excited Predictive "encoder or a * Waveform Interpolating" encoder is used.
3. Verfahren nach Anspruch 1, dadurch gekennzeich- n e t , daß als Analyse-durch-Synthese-Kodierer ein auf linearer Prädiktion basierender Kodierer, insbesondere ein LPAS-Kodierer benutzt wird.3. The method according to claim 1, characterized in that an encoder based on linear prediction, in particular an LPAS encoder, is used as the analysis-by-synthesis encoder.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Häufigkeiten bzw. Wahrscheinlichkeitsdichten mit einem Vektorquantisierer mit einer bestimmten, wesentlich reduzierten Bitanzahl quantisiert werden.4. The method according to any one of claims 1 to 3, characterized in that the frequencies or probability densities are quantized with a vector quantizer with a certain, substantially reduced number of bits.
5 . Verfahren nach einem der Ansprüche 1 bis 4 , d a d u r c h g e k e n n z e i c h n e t , daß mit der Eingabe der Sprachäußerung des Sprechers in das Sprechererkennungssystem ein dem Sprechererkennungssystem bekanntes Rauschen mit eingegeben wird.5. Method according to one of claims 1 to 4, characterized in that with the input of the speaker's utterance into the speaker recognition system, a noise known to the speaker recognition system is also entered.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß das miteingegebene Rauschen intern vor der Segmentierung von der Aufnahme der Sprecherstimme subtrahiert wird. 6. The method according to any one of claims 1 to 5, characterized in that the noise entered is subtracted internally before the segmentation of the recording of the speaker's voice.
EP00969207A 1999-08-26 2000-08-25 Method for training a speaker recognition system Withdrawn EP1125281A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19940567 1999-08-26
DE19940567 1999-08-26
PCT/DE2000/002917 WO2001015141A1 (en) 1999-08-26 2000-08-25 Method for training a speaker recognition system

Publications (1)

Publication Number Publication Date
EP1125281A1 true EP1125281A1 (en) 2001-08-22

Family

ID=7919727

Family Applications (1)

Application Number Title Priority Date Filing Date
EP00969207A Withdrawn EP1125281A1 (en) 1999-08-26 2000-08-25 Method for training a speaker recognition system

Country Status (3)

Country Link
EP (1) EP1125281A1 (en)
AU (1) AU7901200A (en)
WO (1) WO2001015141A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1665748B1 (en) 2003-09-17 2013-05-15 Gigaset Communications GmbH Method and telecommunication system involving wireless telecommunication between a mobile part and a base station for registering a mobile part

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5535305A (en) * 1992-12-31 1996-07-09 Apple Computer, Inc. Sub-partitioned vector quantization of probability density functions
SE9602622L (en) * 1996-07-01 1997-09-08 Telia Ab Procedure and arrangement for adapting models to, for example, speaker verification systems

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO0115141A1 *

Also Published As

Publication number Publication date
AU7901200A (en) 2001-03-19
WO2001015141A1 (en) 2001-03-01

Similar Documents

Publication Publication Date Title
DE69818231T2 (en) METHOD FOR THE DISCRIMINATIVE TRAINING OF VOICE RECOGNITION MODELS
DE69914839T2 (en) Speaker verification and recognition using own voices
DE69831114T2 (en) Integration of multiple models for speech recognition in different environments
DE69831076T2 (en) METHOD AND DEVICE FOR LANGUAGE ANALYSIS AND SYNTHESIS BY ALLPASS-SIEB CHAIN FILTERS
DE602004012909T2 (en) A method and apparatus for modeling a speech recognition system and estimating a word error rate based on a text
DE60124842T2 (en) Noise-robbed pattern recognition
Kim et al. A bitstream-based front-end for wireless speech recognition on IS-136 communications system
DE69816177T2 (en) Speech / pause differentiation using unguided adaptation of hidden Markov models
EP2242045B1 (en) Speech synthesis and coding methods
EP0925579B1 (en) Process for adaptation of a hidden markov sound model in a speech recognition system
DE69832393T2 (en) LANGUAGE RECOGNITION SYSTEM FOR THE DETECTION OF CONTINUOUS AND ISOLATED LANGUAGE
DE10111056B4 (en) Method and apparatus for identifying a non-target language in a speech recognition system
Digalakis Segment-based stochastic models of spectral dynamics for continuous speech recognition
DE102017124264A1 (en) Determine phonetic relationships
Almaadeed et al. Text-independent speaker identification using vowel formants
DE60018696T2 (en) ROBUST LANGUAGE PROCESSING OF CHARACTERED LANGUAGE MODELS
DE10119284A1 (en) Method and system for training parameters of a pattern recognition system assigned to exactly one implementation variant of an inventory pattern
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
DE60034772T2 (en) REJECTION PROCEDURE IN LANGUAGE IDENTIFICATION
DE602004002312T2 (en) Method and apparatus for determining formants using a residual signal model
EP1199704A2 (en) Selection of an alternate stream of words for discriminant adaptation
Algazi et al. Transform representation of the spectra of acoustic speech segments with applications. I. General approach and application to speech recognition
DE19654549C2 (en) Method and device for speech recognition
EP0813734A1 (en) Method of recognising at least one defined pattern modelled using hidden markov models in a time-variable test signal on which at least one interference signal is superimposed
Junqua et al. Robustness in language and speech technology

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20010504

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE

AX Request for extension of the european patent

Free format text: AL;LT;LV;MK;RO;SI

RIN1 Information on inventor provided before grant (corrected)

Inventor name: KUROPATWINSKI, MARCIN

RBV Designated contracting states (corrected)

Designated state(s): DE ES FR GB IT

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20040302