EP2543035A1 - Method for determining fundamental-frequency courses of a plurality of signal sources - Google Patents

Method for determining fundamental-frequency courses of a plurality of signal sources

Info

Publication number
EP2543035A1
EP2543035A1 EP11708975A EP11708975A EP2543035A1 EP 2543035 A1 EP2543035 A1 EP 2543035A1 EP 11708975 A EP11708975 A EP 11708975A EP 11708975 A EP11708975 A EP 11708975A EP 2543035 A1 EP2543035 A1 EP 2543035A1
Authority
EP
European Patent Office
Prior art keywords
model
signal sources
fundamental frequency
speakers
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP11708975A
Other languages
German (de)
French (fr)
Other versions
EP2543035B1 (en
Inventor
Michael Wohlmayr
Michael Stark
Franz Pernkopf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Graz
Original Assignee
Technische Universitaet Graz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Graz filed Critical Technische Universitaet Graz
Publication of EP2543035A1 publication Critical patent/EP2543035A1/en
Application granted granted Critical
Publication of EP2543035B1 publication Critical patent/EP2543035B1/en
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the invention relates to a method for determining fundamental frequency profiles of a plurality of signal sources from a single-channel audio recording of a mixed signal.
  • the fundamental frequency is a fundamental quantity in the analysis, recognition, coding, compression and representation of speech.
  • Speech signals can be described by the superimposition of sinusoidal vibrations.
  • voiced sounds such as Vowels is the frequency of these oscillations either the fundamental frequency or a multiple of the fundamental frequency, the so-called harmonics or harmonics.
  • voice signals can be assigned to specific signal sources by identifying the fundamental frequency of the signal.
  • a high accuracy of the track of the multiple fundamental frequencies can be achieved, or fundamental frequency characteristics can be better associated with the respective signal sources or speakers.
  • a training phase a) using speaker-specific information and the choice of a suitable interaction model in b) the computational effort is significantly minimized, so that the method can be performed quickly and with low resources. It is not mixed spectra with the respective individual speaker parts (in the simplest case, two speakers and a corresponding fundamental frequency pair) trained, but the respective individual speaker parts, which rninimiert the computational effort and the number of training phases to be carried out.
  • the number of pitch states to be trained results from the observed frequency range and its subdivision (see below). For voice recordings, such a frequency range is 80 to 500 Hz, for example.
  • a probability model of all pitch combinations possible in the abovementioned frequency range, or for a desired speaker pair can be obtained with the aid of the interaction model used in b). Assuming two speakers with A states, this means that an A x A matrix with the probabilities for all possible combinations is determined.
  • language models can be used, which describe a multiplicity of speakers, for example, by the model on gender-specific characteristics sets off (speaker-independent, or gender-dependent).
  • the temporal sequence of the estimated pitch values can be modeled by a Hidden Markov Model (HMM) or by a Factorial Hidden Markov Model (FHMM), and these graphical models can be modeled by the Max-Sum Algorithm, the Junction Tree Algorithm or the Sum Product algorithm are used.
  • HMM Hidden Markov Model
  • FHMM Factorial Hidden Markov Model
  • the spectrogram properties are determined by means of a Gaussian Mixture Model (GMM).
  • GMM Gaussian Mixture Model
  • the number of components of a GMM is determined by applying the Minimum Description Length (MDL) Criterion.
  • MDL Criterion is used to select a model from a variety of possible models. For example, they differ Models, as in the present case, only by the number of Gauss components used.
  • AIC Akaike Information Criterion
  • the interaction model is a linear model or the mixture-maximization (MixMax) interaction model or the ALGONQUIN interaction model.
  • the tracking in c) takes place by means of the Factorial Hidden Markov Model (FHMM).
  • FHMM Factorial Hidden Markov Model
  • a number of algorithms can be used, for example, in variants of the invention, the sum-product algorithm or the max-sum algorithm are used.
  • Fig. 2 is an illustration of the FHMM
  • FIG. 3 is a block diagram of the method according to the invention.
  • the invention relates to a simple and efficient basic frequency tracking modeling method of a plurality of simultaneously emitting signal sources, for example speakers in a conference or meeting situation.
  • the method according to the invention will be presented on the basis of two speakers for reasons of traceability, however, the method can be applied to any number of subjects.
  • the speech signals are single-channel, ie with only one recording means - e.g. Microphone - recorded.
  • the short-term spectrum of a speech signal given a basic speech frequency can be described using probability distributions such as the Gaussian normal distribution.
  • a single normal distribution, given by the parameters mean ⁇ and variance ⁇ 2 is usually not sufficient.
  • complex probability distributions one usually uses mixed distributions such as the Gaussian Mixture Model (or Gauß's mixed distribution model - GMM).
  • the GMM is composed of several individual Gauß'schen normal distributions additively.
  • Each hidden variable has in the described embodiment
  • 170 states with fundamental frequencies from the interval of 80 to 500 Hz. Of course, more or fewer states from other fundamental frequency intervals can also be used.
  • the state "1" means "no pitch” (unvoiced or no voice activity) while
  • Formula f 0 - determined.
  • the pitch interval is
  • Training phase training a speaker-dependent GMM to model the short-term spectrum for each of the 170 states (169 fundamental frequency states and the no-pitch state) of each individual speaker; - interaction model: determination of a probabilistic representation for the mixture of the two individual speakers using an interaction model, eg the MixMax interaction model; Depending on the choice of the interaction model, either the short-term magnitude spectrum or the logarithmic short-time magnitude spectrum is modeled in the training phase.
  • an interaction model eg the MixMax interaction model
  • Tracking determining the fundamental frequency trajectories of the two individual speakers using a suitable tracking algorithm, e.g. Junction Tree or Sum Product (in the present embodiment, the application of the Factorial Hidden Markov Model (FHMM) is described).
  • a suitable tracking algorithm e.g. Junction Tree or Sum Product (in the present embodiment, the application of the Factorial Hidden Markov Model (FHMM) is described).
  • FHMM Factorial Hidden Markov Model
  • a supervised scenario is assumed in which the voice signals of the individual speakers are modeled using training data.
  • all monitored training methods can be used, ie generative and discriminative.
  • the spectrogram properties can be described by a general, parametric or non-parametric statistical model p (si
  • 170 GMMs are trained for each speaker (one GMM per pitch feed).
  • These data can be automatically generated with a pitch tracker of single speaker subscriptions.
  • the EM algorithm is an iterative optimization method for estimating unknown parameters while preserving known data such as training data. It is iteratively by alternating classification (expectation step) and then adjusting the model parameters (maximization step) maximizes the probability of the occurrence of a stochastic process in a given model.
  • the model parameters must be adapted to maximize.
  • the prerequisite for finding this maximum is that after each induction step and the calculation of a new model, the likelihood of the model increases.
  • a number of superimposed Gaussian distributions and a GMM with arbitrary parameters eg mean, variance and weighting factors.
  • ML iterative maximum-likelihood
  • NV denotes the normal distribution.
  • the associated GMM is completely determined by the parameters
  • the recorded and sampled with a sampling frequency of, for example, f s 16kHz single-channel speech signals are considered in sections.
  • the observed (log) spectrum yW of the mixed signal, ie the mixture of the two individual speaker signals is modeled with the observation probability p (y (t) I xiW, X2W).
  • the most probable pitch states of both speakers can be determined at any given time, or the observation probability serves directly as input for the tracking algorithm used in step c).
  • the (log) spectra of the individual speakers or p (si
  • the individual spectra are added according to the form given above in the magnetron spectrogram, and the mixed signal is thus approximately the sum of the magnitude spectra of the individual speakers.
  • ⁇ + ⁇ 2 , ⁇ 1 + ⁇ 2) where normal distributions are mentioned here only for reasons of better comprehension - according to the method according to the invention, the probability distributions are GMMs.
  • a further interaction model is used: According to the MixMax interaction model, the log spectrogram of two speakers can be approximated by the element-wise maximum of the log spectra of the individual speakers. This makes it possible to quickly obtain a good probability model of the observed mixed signal. As a result, the duration and computational effort of the learning phase are drastically reduced.
  • yW max (siW, s 2 W), where SjW is the log magnitude spectrum of the speaker i.
  • the log magnitude spectrum yW is thus generated by means of a stochastic model, as shown in FIG.
  • the two speakers each produce a log magnitude spectrum SjW as a function of the fundamental frequency state ⁇ , ⁇ .
  • the observed log magnitude spectrum yW of the mixed signal is approximated by the element-wise maxima of both individual speaker log magnitude spectra.
  • FFT fast Fourier transformation
  • the GMMs for each state of each speaker must be determined, that is, twice the cardinality of the state variables.
  • a total of 28,900 different fundamental frequency pairs result for each speaker, which results in a significantly increased computational effort.
  • the Algonquin model models the log magnitude spectrum of the mixture of two speakers. While in the MixMax interaction model applies, the Algonquin model has the following form: From this, in turn, the probability distribution of the mixed signal can be derived from the probability distribution of the individual speaker signals.
  • an FHMM is used in the described embodiment of the method according to the invention.
  • the FHMM allows to track the states of multiple parallel Markov chains, with the available observations as a common effect of all Markov chains become.
  • the results described under the point "interaction model" are used.
  • the hidden state variables of the individual speakers are denoted by XkW, where k denotes the Markov chains (and thus the speakers) and the time index t runs from 1 to T.
  • the Markov chains 1, 2 are shown in Fig. 2 extending horizontally.
  • the assumption is that all hidden state variables have the cardinality IXI, ie 170 states in the exemplary embodiment described.
  • the observed random variable is denoted by y ( ' ) .
  • the dependence of the hidden variables between two successive time periods is defined by the transition probability p (xkW
  • the dependence of the observed random variable yW on the hidden variables of the same time segment is defined by the observation probability p (yW
  • the output probability of the hidden variables in each chain is given as p (xkW).
  • ) is generally obtained by marginalization over the unknown (log) spectra of the individual speakers:
  • d gives the dth element of the log spectrum y
  • ⁇ TM gives the dth element of the associated mean and variance
  • ⁇ ( ⁇ ⁇ ⁇ ) ⁇ NV (x ⁇ ⁇ ) ⁇ represents the univariate cumulative normal distribution represents.
  • Fig. 3 shows a schematic representation of the sequence of the erfindüngsdorfen method based on a block diagram.
  • a speech signal, or a composite signal of a plurality of individual signals, is recorded with one channel, for example with a microphone. This process step is designated by 100 in the block diagram.
  • the speech signals of the individual speakers are modeled using training data in a training phase 101.
  • EM Engineering Maximization
  • one speaker dependent GMM is trained for each of the 170 pitch states.
  • the training phase is done for all possible states - in the described embodiment, for each of the two speakers, 170 states are between 80 and 500 Hz.
  • a pitch-dependent spectrogram is trained by each speaker by means of GMM, the MDL Criterion being applied to the find optimal number of Gauss components.
  • the GMMs or the associated parameters are stored, for example in a database.
  • an interaction model preferably the MixMax interaction model
  • the FHMM is applied. Using FHMM it is possible to access the states of several hidden Markov processes which run concurrently, considering the available observations as effects of the individual Markov processes.

Abstract

The invention relates to a method for determining fundamental-frequency courses of a plurality of signal sources from a one-channel audio recording of a mixed signal, comprising the following steps: a) determining the spectrogram properties of the pitch states of individual signal sources using training data; b) determining the probabilities of the fundamental-frequency combinations of the signal sources contained in the mixed signal by combining the properties determined in a) by means of an interaction model; and c) tracking the fundamental-frequency courses of the individual signal sources.

Description

VERFAHREN ZUR ERMITTLUNG VON GRUNDFREQUENZ-VERLÄUFEN MEHRERER  METHOD FOR DETECTING BASIC FREQUENCY FLOWS OF MULTIPLE
SIGNALQUELLEN  SOURCES
Die Erfindung betrifft ein Verfahren zur Ermittlung von Grundfrequenz- Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals. The invention relates to a method for determining fundamental frequency profiles of a plurality of signal sources from a single-channel audio recording of a mixed signal.
Verfahren zur Verfolgung bzw. Trennung von einkanaligen Sprachsignalen über die wahrgenommene Grundfrequenz (der englische Fachbegriff„Pitch" wird im Rahmen der folgenden Ausführungen gleichbedeutend mit der wahrgenommenen Grundfrequenz verwendet) werden in einer Reihe von Algorithmen und Applikationen in der Sprach- und Audio- sigrialverarbeitung verwendet, wie z.B. bei der einkanaligen Quellentrennung (Single- Channel Blind Source Separation; SCSS) (D. Morgan et al.,„Cochannel Speaker Separation by harmonic enhahcement and suppression", IEEE Transactions on Speech and Audio Processing, Vol. 5, pp. 407-424, 1997), der Computational Auditory Scene Analysis (CASA) (DeLiang Wang,„On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis", P. Divenyi [Ed], Speech Separation by Humans and Machines, Kluwer Academic, 2004)und der Sprachkompression (R. Salami et al.,„A toll quality 8 kb/s speech codec for the personal Communications System (PCS)", IEEE Transactions on Vehicular Technology, Vol. 43, pp. 808-816, 1994). Typische Anwendungen solcher Verfahren sind beispielsweise Konferenzsituationen, wo während eines Vortrags manchmal mehrere Stimmen hörbar sind und dadurch die Erkennungsrate einer automatischen Spracherkennung stark sinkt. Auch eine Anwendung in Hörgeräten ist möglich. Methods for tracking or separating single-channel speech signals over the perceived fundamental frequency (the English term "pitch" is used in the following statements to mean the perceived fundamental frequency) are used in a number of algorithms and applications in speech and audio processing for example, single-channel blind-source separation (SCSS) (D.Morgan et al., "Cochannel Speaker Separation by harmonic enhancement and suppression", IEEE Transactions on Speech and Audio Processing, Vol. 407-424, 1997), Computational Auditory Scene Analysis (CASA) (DeLiang Wang, "On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis", P. Divenyi [Ed], Speech Separation by Humans and Machines, Kluwer Academic , 2004) and speech compression (R. Salami et al., "A great quality 8 kbps speech codec for the personal communications system (PCS)", IEEE Transactions o n Vehicular Technology, Vol. 43, pp. 808-816, 1994). Typical applications of such methods are, for example, conference situations, where during a lecture sometimes several voices are audible and thereby the recognition rate of an automatic speech recognition drops sharply. An application in hearing aids is possible.
Die Grundfrequenz ist eine fundamentale Größe in der Analyse, Erkennung, Codierung, Kompression und Darstellung von Sprache. Sprachsignale lassen sich durch die Überlagerung von sinusförmigen Schwingungen beschreiben. Für stimmhafte Laute wie z.B. Vokale ist dabei die Frequenz dieser Schwingungen entweder die Grundfrequenz oder ein Vielfaches der Grundfrequenz, die sog. Oberschwingungen bzw. Obertöne. Damit lassen sich Sprachsignale durch Identifizierung der Grundfrequenz des Signals bestimmten Signalquellen zuordnen. The fundamental frequency is a fundamental quantity in the analysis, recognition, coding, compression and representation of speech. Speech signals can be described by the superimposition of sinusoidal vibrations. For voiced sounds such as Vowels is the frequency of these oscillations either the fundamental frequency or a multiple of the fundamental frequency, the so-called harmonics or harmonics. Thus, voice signals can be assigned to specific signal sources by identifying the fundamental frequency of the signal.
Während für den Fall eines einzelnen Sprechers bei rauscharmer Aufnahme bereits eine Reihe von erprobten Methoden für die Abschätzung bzw. die Verfolgung (Tracking) der Grundfrequenz in Verwendung ist, gibt es nach wie vor Probleme bei der Bearbeitung von minderwertigen (also mit Störgeräuschen wie Rauschen versehenen) Aufnahmen mehrerer gleichzeitig sprechender Personen. Mingyang Wu et al. schlagen in„A Multipitch Tracking Algorithm for Noisy Speech" (IEEE Transactions on Speech and Audio Processing, Volume 11, Issue 3, pp. 229-241, May 2003) eine Lösung für robustes mehrfaches Grundfrequenztracking bei Aufnahmen mit mehreren Sprechern vor. Die Lösung basiert auf dem unitären Modell für Grundfrequenzwahrnehmung, für das verschiedene Verbesserungen vorgeschlagen werden, um eine wahrscheinlichkeitstheoretische Darstellung der Periodizitäten des Signals zu erhalten. Die Nachverfolgung der Wahrscheinlichkeiten der Periodizitäten unter Verwendung des Hidden Markov Model (HMM) ermöglicht die Darstellung semikontinuierlicher Grundfrequenzverläufe. Nachteilig an dieser Lösung ist zum einen der hohe Rechenaufwand und die dadurch benötigten Rechnerressourcen, andererseits die Tatsache, dass eine ordnungsgemäße Zuordnung der Grundfrequenzen zu den passenden Signalquellen, bzw. Sprechern nicht möglich ist. Der Grund dafür ist die Tatsache, dass in diesem System keine sprecherspezifischen Informationen eingebunden werden bzw. zur Verfügung stehen, die eine derartige Verknüpfung von gemessenen Pitchwerten und Sprechern ermöglichen würde. While a number of proven methods for estimating and tracking (tracking) the fundamental frequency are already in use in the case of a single speaker in low-noise recording, there are still problems in processing inferior (ie noise-like) noise ) Recordings of several people talking at the same time. Mingyang Wu et al. suggest a solution for robust multiple fundamental frequency tracking in multi-speaker recordings in "A Multipitch Tracking Algorithm for Noisy Speech" (Volume 11 Issue 3, pp. 229-241, May 2003) is based on the unitary model for fundamental frequency perception, for which various improvements are proposed in order to obtain a probabilistic representation of the periodicities of the signal.Tracing the probabilities of the periodicities using the Hidden Markov Model (HMM) enables the presentation of semicontinuous fundamental frequency characteristics The solution is firstly the high computational effort and the computer resources required as a result, on the other hand the fact that a proper assignment of the fundamental frequencies to the appropriate signal sources or speakers is not possible, the reason being that in this system no ne speaker-specific information or be available, which would allow such a combination of measured pitch values and speakers.
Es ist daher eine Aufgabe der Erfindung, ein Verfahren für mehrfaches Grundfrequenztracking bereitzustellen, das eine sichere Zuordnung der ermittelten Grundfrequenzen zu Signalquellen bzw. Sprechern erlaubt und gleichzeitig eine geringe Speicher- und Rechenin- tensivität aufweist. It is therefore an object of the invention to provide a method for multiple fundamental frequency tracking, which allows a reliable assignment of the determined fundamental frequencies to signal sources or speakers and at the same time has a low storage and computational intensity.
Diese Aufgabe wird mit einem Verfahren der eingangs genannten Art erfindungsgemäß durch die folgenden Schritte gelöst: This object is achieved by a method of the type mentioned according to the invention by the following steps:
a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten; a) determining the spectrogram properties of the pitch states of individual signal sources using training data;
b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfrequenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells; b) determining the probabilities of the possible fundamental frequency combinations of the signal sources contained in the mixed signal by combining the properties determined in a) by means of an interaction model;
c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen. c) Tracing the fundamental frequency characteristics of the individual signal sources.
Dank der Erfindung lässt sich eine hohe Genauigkeit des Trackens der mehrfachen Grundfrequenzen erreichen, bzw. können Grundfrequenzverläufe besser den jeweiligen Signalquellen bzw. Sprechern zugeordnet werden. Durch eine Trainingsphase a) unter Verwendung sprecherspezifischer Informationen und die Wahl eines geeigneten Interaktionsmodells in b) wird der rechnerische Aufwand deutlich minimiert, sodass die Methode rasch und ressourcenarm durchgeführt werden kann. Dabei werden nicht Mischspektren mit den jeweiligen Einzelsprecheranteilen (im einfachsten Fall zwei Sprecher und ein entsprechendes Grundfrequenz-Paar) trainiert, sondern die jeweiligen Einzelsprecheranteile, was den Rechenaufwand und die Zahl der durchzuführenden Trainingsphasen weiter rninimiert. Da je Signalquelle Pitchzustände aus einem abgegrenzten Frequenzbereich (z.B. 80 bis 500 Hz) betrachtet werden, ergibt sich bei Kombination der Zustände in Schritt b) eine begrenzte Anzahl von Grundfrequenzkombinationen, die als„mögliche" Grundfrequenzkombinätionen bezeichnet werden. Der Begriff Spektrum steht in weiterer Folge für das Magnituden-Spek- trüm; je nach Wahl des Interaktionsmodells in b) werden das Kurzzeit-Magnitudehspektrum oder das logärimmische Kurzzeit-Magnitudenspektrum (log-Spektrum) verwendet. Thanks to the invention, a high accuracy of the track of the multiple fundamental frequencies can be achieved, or fundamental frequency characteristics can be better associated with the respective signal sources or speakers. Through a training phase a) using speaker-specific information and the choice of a suitable interaction model in b) the computational effort is significantly minimized, so that the method can be performed quickly and with low resources. It is not mixed spectra with the respective individual speaker parts (in the simplest case, two speakers and a corresponding fundamental frequency pair) trained, but the respective individual speaker parts, which rninimiert the computational effort and the number of training phases to be carried out. As ever Signal source Pitch conditions are considered from a demarcated frequency range (eg 80 to 500 Hz), results in combination of the states in step b) a limited number of fundamental frequency combinations, which are referred to as "possible" basic frequency combinations The term spectrum is further for the Magnitude Spectrum and, depending on the choice of the interaction model in b), the short-term magnitude spectrum or the short-term logarithmic magnitude spectrum (log spectrum) are used.
Die Anzahl der zu trainierenden Pitchzustände ergibt sich aus dem beobachteten Frequenzbereich und dessen Unterteilung (siehe weiter unten). Bei Sprachaufnahmen beträgt ein solcher Frequenzbereich beispielsweise 80 bis 500 Hz. The number of pitch states to be trained results from the observed frequency range and its subdivision (see below). For voice recordings, such a frequency range is 80 to 500 Hz, for example.
Aus Sprachmodellen einzelner Sprecher kann mit Hilfe des in b) angewandten Interaktionsmodells ein Wahrscheinlichkeitsmodell aller im oben genannten Frequenzbereich möglichen Pitchkombinationen, bzw. für ein gewünschtes Sprecherpaar (also z.B. für eine Aufnahme, auf der zwei Sprecher zu hören sind), erhalten werden. Bei der Annahme von zwei Sprechern mit jeweils A Zuständen bedeutet das also, dass eine A x A-Matrix mit den Wahrscheinlichkeiten für alle möglichen Kombinationen ermittelt wird. Für die einzelnen Sprecher können auch Sprachmodelle verwendet werden, die eine Vielzahl von Sprechern beschreiben, beispielsweise, indem das Modell auf geschlechtsspezifische Merkmale abstellt (speaker-independent, bzw. gender-dependent). From speech models of individual speakers, a probability model of all pitch combinations possible in the abovementioned frequency range, or for a desired speaker pair (that is, for example, for a recording on which two speakers can be heard) can be obtained with the aid of the interaction model used in b). Assuming two speakers with A states, this means that an A x A matrix with the probabilities for all possible combinations is determined. For the individual speakers also language models can be used, which describe a multiplicity of speakers, for example, by the model on gender-specific characteristics sets off (speaker-independent, or gender-dependent).
Für das Tracking in c) kann eine Reihe von Algorithmen verwendet werden. Beispielsweise kann die zeitliche Abfolge der geschätzen Pitchwerte durch ein Hidden Markov Model (HMM) oder auch durch ein Factorial Hidden Markov Model (FHMM) modelliert werden, und auf diese graphischen Modelle können der Max-Sum Algorithmus, der Junction-Tree Algorithmus oder der Sum-Product-Algorithmus zum Einsatz kommen. In einer Variante der Erfindung ist es auch möglich, die auf isolierten Zeitfenstern geschätzten Pitchwerte unabhängig voneinander zu betrachten und auszuwerten, ohne einen der oben genannten Tracking- Algorithmen anzusetzen. For the tracking in c) a number of algorithms can be used. For example, the temporal sequence of the estimated pitch values can be modeled by a Hidden Markov Model (HMM) or by a Factorial Hidden Markov Model (FHMM), and these graphical models can be modeled by the Max-Sum Algorithm, the Junction Tree Algorithm or the Sum Product algorithm are used. In a variant of the invention, it is also possible to independently view and evaluate the pitch values estimated on isolated time windows without applying one of the above-mentioned tracking algorithms.
Für die Beschreibung der Spektrogramm-Eigenschaften kann ein allgemeines, parametrisches oder auch nichtparametrisches statistisches Modell verwendet werden. Günstigerweise werden in a) die Spektrogramm-Eigenschaften mittels eines Gaussian Mixture Modells (GMM) ermittelt. For the description of the spectrogram properties a general, parametric or nonparametric statistical model can be used. Favorably, in a) the spectrogram properties are determined by means of a Gaussian Mixture Model (GMM).
Vorteilhafterweise wird die Anzahl der Komponenten eines GMM durch Anwendung des Minimum-Description-Length (MDL) Criterion ermittelt. Das MDL-Criterion dient zur Wahl eines Modells aus einer Vielzahl möglicher Modelle. Beispielsweise unterscheiden sich die Modelle, wie im vorliegenden Fall, nur durch die Anzahl der verwendeten Gausskomponefi- ten. Neben dem MDL-Criterion ist beispielsweise auch die Verwendung des Akaike Information Criterion (AIC) möglich. Advantageously, the number of components of a GMM is determined by applying the Minimum Description Length (MDL) Criterion. The MDL Criterion is used to select a model from a variety of possible models. For example, they differ Models, as in the present case, only by the number of Gauss components used. In addition to the MDL Criterion, for example, the use of the Akaike Information Criterion (AIC) is possible.
In b) werden als Interaktionsmodell ein lineares Modell oder das Mixture-Maximization (MixMax)-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet. In b) the interaction model is a linear model or the mixture-maximization (MixMax) interaction model or the ALGONQUIN interaction model.
Günstigerweise erfolgt das Tracken in c) mittels des Factorial Hidden Markov Modells (FHMM). Favorably, the tracking in c) takes place by means of the Factorial Hidden Markov Model (FHMM).
Zur Durchführung des Trackings auf einem FHMM können eine Reihe von Algorithmen verwendet werden, beispielsweise werden in Varianten der Erfindung der Sum-Product Algorithmus oder der Max-Sum- Algorithmus verwendet. To carry out the tracking on a FHMM, a number of algorithms can be used, for example, in variants of the invention, the sum-product algorithm or the max-sum algorithm are used.
Im Folgenden wird die Erfindung anhand eines nicht einschränkenden Ausführungsbeispiels, das in der Zeichnung dargestellt ist, näher erläutert. In dieser zeigt schematisch: In the following the invention will be explained in more detail with reference to a non-limiting embodiment, which is illustrated in the drawing. In this shows schematically:
Fig. 1 einen Faktorgraphen der grundfrequenzabhängigen Erzeugung eines aus zwei Einzelsprecher(log)spektren resultierenden (log-)Spektrums y eines Mischsignals,  1 shows a factor graph of the fundamental-frequency-dependent generation of a two individual speaker (log) spectra resulting spectrum (log) y a mixed signal,
Fig. 2 eine Darstellung des FHMM, und Fig. 2 is an illustration of the FHMM, and
Fig. 3 ein Blockdiagramm des erfindungsgemäßen Verfahrens.  3 is a block diagram of the method according to the invention.
Die Erfindung betrifft ein einfaches und effizientes Modellierungsverfahren für das Grundfreq enztracking von mehreren gleichzeitig emittierenden Signalquellen, beispielsweise Sprechern in einer Konferenz- oder Besprechungssituation. Nachfolgend wird die erfindungsgemäße Methode aus Gründen der Nachvollziehbarkeit anhand von zwei Sprechern dargestellt, allerdings lässt sich das Verfahren auf eine beliebige Anzahl von Subjekten anwenden. Dabei sind die Sprachsignale einkanalig, werden also mit nur einem Aufnahmemittel - z.B. Mikrophon - aufgenommen. The invention relates to a simple and efficient basic frequency tracking modeling method of a plurality of simultaneously emitting signal sources, for example speakers in a conference or meeting situation. In the following, the method according to the invention will be presented on the basis of two speakers for reasons of traceability, however, the method can be applied to any number of subjects. In this case, the speech signals are single-channel, ie with only one recording means - e.g. Microphone - recorded.
Das Kurzzeitspektrum eines Sprachsignals bei gegebener Sprachgrundfrequenz lässt sich mit Hilfe von Wahrscheinlichkeitsverteilungen wie der Gauß' sehen Normalverteilung beschreiben. Eine einzelne Normalverteilung, gegeben durch die Parameter Mittelwert μ und Varianz σ2, reicht dabei zumeist nicht aus. Zur Modellierung allgemeiner, komplexer Wahrscheinlichkeitsverteilungen verwendet man üblicherweise Mischverteilungen wie beispielsweise das Gaussian Mixture Model (bzw. Gaüß'sches Mischverteilungsmodell - GMM). Das GMM setzt sich additiv aus mehreren einzelnen Gaüß'schen Normalverteilungen zusammen. Dabei kann eine M-fache Gaußverteilung mit 3M-1 Parametern beschrieben werden - Mittelwert, Varianz und Gewichtungsfaktor für jede der M Gaußverteilungen (der Gewichtungsfaktor der M-ten Gausskomponente ist redundant, daher das„-1"). Für die Modellierung beobachteter Datenpunkte durch ein GMM wird häufig ein Spezialfall des„Expectation Maxirrdzation"-Algorithrnus verwendet, wie weiter unten beschreiben ist. The short-term spectrum of a speech signal given a basic speech frequency can be described using probability distributions such as the Gaussian normal distribution. A single normal distribution, given by the parameters mean μ and variance σ 2 , is usually not sufficient. For the modeling of general, complex probability distributions one usually uses mixed distributions such as the Gaussian Mixture Model (or Gaüß's mixed distribution model - GMM). The GMM is composed of several individual Gaüß'schen normal distributions additively. An M-fold Gaussian distribution with 3M-1 parameters can be described, Mean, variance, and weighting factor for each of the M Gaussian distributions (the weighting factor of the Mth Gauss component is redundant, hence the "-1".) For the modeling of observed data points by a GMM, a special case of the "Expectation Maxirrdzation" algorithm is often used. as described below.
Der Verlauf der Pitchzustände eines Sprechers kann näherungsweise durch eine Markovket- te beschrieben werden. Die Markov-Eigenschaft dieser Zustandsketten besagt, dass der Folgezustand nur vom gegenwärtigen Zustand abhängt und nicht von vorangegangenen Zuständen. The course of the pitch states of a speaker can be approximately described by a Markovket- te. The Markov property of these state strings implies that the subsequent state depends only on the current state and not on previous states.
Bei der Analyse eines Sprachsignals zweier gleichzeitig sprechender Subjekte ist nur das resultierende Spektrum yW der Mischung der beiden einzelnen Sprachsignale verfügbar, nicht aber die Pitchzustände xiW und X2W der Einzelsprecher. Der tiefgestellte Index bei den Pitchzuständen bezeichnet dabei Sprecher 1 und 2, während der hochgestellte Zeitindex von t=l, T verläuft. Diese einzelnen Pitchzustände sind verborgene Variablen. Zur Auswertung wird beispielsweise ein Hidden Markov Modell (HMM) verwendet, bei dem aus den beobachtbaren Zuständen (hier also aus dem resultierenden Spektrum y(') der Mischung) auf die verborgenen Variablen bzw. Zustände geschlossen wird. In the analysis of a speech signal of two simultaneously speaking subjects, only the resulting spectrum yW of the mixture of the two individual speech signals is available, but not the pitch states xiW and X2W of the individual speakers. The subscript for the pitch states denotes speakers 1 and 2, while the superscript index of t = 1, T runs. These individual pitch states are hidden variables. For example, a Hidden Markov Model (HMM) is used for the evaluation, in which the hidden variables or states are deduced from the observable states (in this case from the resulting spectrum y ( ' ) of the mixture).
Jede verborgene Variable hat im beschriebenen Ausführungsbeispiel | X | =170 Zustände mit Grundfreqüenzen aus dem Intervall von 80 bis 500 Hz. Natürlich können auch mehr oder weniger Zustände aus anderen Grundfrequenzintervallen verwendet werden. Each hidden variable has in the described embodiment | X | = 170 states with fundamental frequencies from the interval of 80 to 500 Hz. Of course, more or fewer states from other fundamental frequency intervals can also be used.
Der Zustand„1" bedeutet„kein Pitch" (stimmlos bzw. keine Sprachaktivität), währendThe state "1" means "no pitch" (unvoiced or no voice activity) while
Züstands werte„2" bis„170" verschiedene Grundfrequenzen zwischen den oben genanntenZüstands values "2" to "170" different fundamental frequencies between the above
Werten bezeichnen. Im Speziellen wird der Pitch-Wert fo für die Zustände x>l nach der Denote values. In particular, the pitch value fo for the states x> 1 after the
f  f
Formel f0 = — ermittelt. Die Samplingrate beträgt fs=16 kHz. Das Pitch-Intervall wird Formula f 0 = - determined. The sampling rate is fs = 16 kHz. The pitch interval is
30 + JC  30 + JC
also uneinheitlich aufgelöst; niedrige Pitch-Werte haben eine feinere Auflösung als hohe Pitch-Werte: Die Zustände 168, 169 und 170 haben Grundfrequenzen von 80,80 Hz (x=168), 80,40 Hz (x=169) und 80,00 Hz (x=170), während die Zustände 2, 3 und 4 die Grundfrequenzen 500,00 Hz (x=2), 484,84 Hz (x=3) und 470,58 Hz (x=4) haben. thus unevenly resolved; low pitch values have a finer resolution than high pitch values: States 168, 169, and 170 have fundamental frequencies of 80.80 Hz (x = 168), 80.40 Hz (x = 169), and 80.00 Hz (x = 170), while states 2, 3 and 4 have the fundamental frequencies 500.00 Hz (x = 2), 484.84 Hz (x = 3) and 470.58 Hz (x = 4).
Das erfindurigsgemäße Verfahren umfasst im beschriebenen Ausführungsbeispiel die folgenden Schritte:  The inventive method comprises in the described embodiment the following steps:
- Trainingsphase: Trainieren eines sprecherabhängigen GMM zur Modellierung des Kurzzeitspektrums für jeden der 170 Zustände (169 Grundfrequenzzustände sowie der Zustand„kein Pitch") jedes Einzelsprechers; - Interaktions-Modell: Ermitteln einer wahrscheinlichkeitstheoretischen Darstellung für die Mischung der beiden Einzelsprecher unter Anwendung eines Interaktionsmodells, z.B. des MixMax-Interaktionsmodells; abhängig von der Wahl des Interaktionsmodells wird in der Trainingsphase entweder das Kurzzeit-Magnitudenspektrum oder das logarithmische Kurzzeit-Magnituden-Spektrum modelliert. Training phase: training a speaker-dependent GMM to model the short-term spectrum for each of the 170 states (169 fundamental frequency states and the no-pitch state) of each individual speaker; - interaction model: determination of a probabilistic representation for the mixture of the two individual speakers using an interaction model, eg the MixMax interaction model; Depending on the choice of the interaction model, either the short-term magnitude spectrum or the logarithmic short-time magnitude spectrum is modeled in the training phase.
- Tracking: Ermitteln der Grundfreqüenztrajektorien der beiden Einzelsprecher unter Verwendung eines geeigneten Tracking Algorithmus, z.B. Junction-Tree oder Sum- Product (im vorliegenden Ausführungsbeispiel wird die Anwendung des Factorial Hidden Markov Modells (FHMM) beschrieben).  Tracking: determining the fundamental frequency trajectories of the two individual speakers using a suitable tracking algorithm, e.g. Junction Tree or Sum Product (in the present embodiment, the application of the Factorial Hidden Markov Model (FHMM) is described).
Träiningsphase  Träiningsphase
In der erfindungsgemäßen Methode wird ein überwachtes Szenario angenommen, in dem die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert werden. Dabei können im Prinzip alle überwachten Trainingsmethoden eingesetzt werden, also generative und diskriminative. Die Spektrogramm-Eigenschaften lassen sich durch ein allgemeines, parametrisches oder auch nicht-parametrisches statistisches Modell p(si | Xi) beschreiben. Die Verwendung von GMMs stellt also einen Spezialfall dar.  In the method according to the invention, a supervised scenario is assumed in which the voice signals of the individual speakers are modeled using training data. In principle, all monitored training methods can be used, ie generative and discriminative. The spectrogram properties can be described by a general, parametric or non-parametric statistical model p (si | Xi). The use of GMMs is therefore a special case.
Im vorliegenden Ausführungsbeispiel werden unter Verwendung des EM (Expectation- Mäximization)-Algorithmus für jeden Sprecher 170 GMMs trainiert (ein GMM pro Pitch- Zustärid). Bei den Trainingsdaten handelt es sich beispielsweise um Tonaufnahmen von Einzelsprechern, also einen Satz von Ni log-Spektren von i Einzelsprechern, St = [s^ , .. . , Sj Ni ) ], zusammen mit den zugehörigen Pitch-Werten { ^ ,..., .*^ }. Diese Daten können automatisch mit einem Pitchtracker aus Einzelsprecheräufnahmen erzeugt werden. In the present embodiment, using the EM (Expectation Meaximization) algorithm, 170 GMMs are trained for each speaker (one GMM per pitch feed). The training data is, for example, sound recordings of individual speakers, so a set of Ni log spectra of i single speakers, St = [s ^, ... , Sj Ni) ], together with the associated pitch values {^, ...,. * ^}. These data can be automatically generated with a pitch tracker of single speaker subscriptions.
Der EM- Algorithmus ist eine iterative Optimierungsmethode zum Abschätzen unbekannter Parameter beim Vorhegen von bekannten Daten wie Trainingsdaten. Dabei wird iterativ durch abwechselnde Klassifikation (Expectation-Schritt) und eine anschließende Anpassung der Modellparameter (Maximization-Schritt) die Wahrscheinlichkeit für das Auftreten eines stochastischen Prozesses bei einem vorgegebenen Modell maximiert. The EM algorithm is an iterative optimization method for estimating unknown parameters while preserving known data such as training data. It is iteratively by alternating classification (expectation step) and then adjusting the model parameters (maximization step) maximizes the probability of the occurrence of a stochastic process in a given model.
Da der stochastische Prozess - im vorliegenden Fall das Spektrum des Sprachsignals - durch die Trainingsdaten gegeben ist, müssen zur Maximierung die Modellparameter angepasst werden. Die Voraussetzung für das Auffinden dieses Maximums ist, dass nach jedem Induktionsschritt und der Berechnung eines neuen Modells der Likelihood des Modells ansteigt. Zur Initialisierung des Lernalgorithmus wird eine Anzahl überlagerter Gaussverteilungen und ein GMM mit beliebigen Parametern (z.B. Mittelwert, Varianz und Gewichtungsfaktoren) gewählt. Durch die iterative Maximum-Likelihood (ML)-Schätzung des EM erhält i an also ein repräsentatives Modell für das Einzelsprecher-Sprachsignal, im vorliegenden Fall ein sprecherabhängiges GMM p{st Θ^'*' j. Damit müssen für jeden Sprecher 170 GMMs trainiert werden, also ein GMM für jeden Pitch-Zustand Xi entsprechend der oben definierten Anzahl Von Zuständen. Since the stochastic process - in the present case the spectrum of the speech signal - is given by the training data, the model parameters must be adapted to maximize. The prerequisite for finding this maximum is that after each induction step and the calculation of a new model, the likelihood of the model increases. To initialize the learning algorithm, a number of superimposed Gaussian distributions and a GMM with arbitrary parameters (eg mean, variance and weighting factors) are chosen. By the iterative maximum-likelihood (ML) estimation of the EM, i thus obtains a representative model for the single-speaker speech signal, in the present case a speaker-dependent GMM p {s t Θ ^ ' * ' j. Thus, for each speaker, 170 GMMs must be trained, that is, one GMM for each pitch state Xi corresponding to the above-defined number of states.
Die Modellierung der zustandsabhängigen log-Einzelspektren der Sprecher mittels GMM im vorliegenden Ausführungsbeispiel erfolgt also gemäß p(Sl \ x,) = /Ks, I ®£ ) = I , ) , mit i eThe modeling of the state-dependent log single spectra of the speakers by means of GMM in the present exemplary embodiment thus takes place in accordance with p ( Sl \ x,) = / Ks, I (£) = I,), ie
Mi x > 1 bezeichnet dabei die Anzahl der Mischungskomponenten (also der Normalverteilungen, die zur Darstellung des Spektrums notwendig sind), a™x ist der Gewichtungsfaktor jeder Komponente m = l,...,Mi x .„NV" bezeichnet die Normalverteilung. Mi x > 1 denotes the number of mixing components (ie the normal distributions necessary to represent the spectrum), a ™ x is the weighting factor of each component m = 1, ..., M ix . "NV" denotes the normal distribution.
Der Gewichtungsfaktor a™. muss positiv sein - a™x > 0 - und die Normierungsbedingung ^ ™x = 1 erfüllen. Das zugehörige GMM ist vollständig bestimmt durch die ParameterThe weighting factor a ™. must be positive - a ™ x > 0 - and satisfy the normalization condition ^ ™ x = 1. The associated GMM is completely determined by the parameters
®ΐ:Χ' = { , ^ , )- ^ θ^ = Κ , 'Σ , }; ^ steht dabei für den Mittelwert, Σ bezeichnet die Kovarianz. ®ΐ: Χ '= {, ^,) - ^ θ ^ = Κ,' Σ ,} ; ^ stands for the mean value, Σ denotes the covariance.
Nach der Träiningsphase liegen also GMMs für alle Grundfrequenzwerte aller Sprecher vor. Im vorliegenden Ausführungsbeispiel bedeutet das: Zwei Sprecher mit je 170 Zuständen aus dem Frequenzintervall 80 bis 500 Hz. Es sei noch einmal darauf hingewiesen, dass es sich hier um ein Ausführungsbeispiel handelt und das Verfahren auch auf mehrere Signalquellen Und andere Frequenzintervalle anwendbar ist. After the dreaming phase GMMs are available for all fundamental frequency values of all speakers. In the present exemplary embodiment, this means two speakers each with 170 states from the frequency interval 80 to 500 Hz. It should be pointed out once again that this is an exemplary embodiment and that the method can also be applied to a plurality of signal sources and other frequency intervals.
Interaktions-Modell Interaction Model
Zur Analyse werden die aufgenommenen und mit einer Samplingfrequenz von beispielsweise fs=16kHz gesampelten einkanaligen Sprachsignale zeitabschnittsweise betrachtet. In jedem Zeitabschnitt t wird das beobachtete (log-)Spektrum yW des Mischsignals, also der Mischung der beiden Einzelsprechersignale, mit der Beobachtungswahrscheinlichkeit p(y(t) I xiW, X2W) modelliert. Anhand dieser Beobachtungswahrscheinlichkeit können beispielsweise die zu jedem Zeitpunkt wahrscheinlichsten Pitch-Zustände beider Sprecher ermittelt werden, oder die Beobachtungswahrscheinlichkeit dient direkt als Input für den in Schritt c) verwendeten Tracking- Algorithmus. Im Prinzip lassen sich die (log-)Spektren der einzelnen Sprecher, bzw. p(si | xi) und p(s2 1 X2), zum Mischsignal y addieren; die Magnituden-Spektren addieren sich näherungsweise, daher gilt für die log-Magnitudenspektren: Die Wahrscheinlichkeitsverteilung des Mischsignals ist also eine Funktion der beiden Einzelsignale, p(y)=f(p(si), p(s2)). Die Funktion hängt nun davon ab, welches Interaktionsmodell gewählt wird. For analysis, the recorded and sampled with a sampling frequency of, for example, f s = 16kHz single-channel speech signals are considered in sections. In each time interval t, the observed (log) spectrum yW of the mixed signal, ie the mixture of the two individual speaker signals, is modeled with the observation probability p (y (t) I xiW, X2W). On the basis of this observation probability, for example, the most probable pitch states of both speakers can be determined at any given time, or the observation probability serves directly as input for the tracking algorithm used in step c). In principle, the (log) spectra of the individual speakers, or p (si | xi) and p (s2 1 X2), can be added to the mixed signal y; the magnitude spectra add up approximately, therefore, for the log magnitude spectra: The probability distribution of the mixed signal is thus a function of the two individual signals, p (y) = f (p (si), p (s 2 )). The function now depends on which interaction model is chosen.
Dafür sind mehrere Herangehensweisen möglich. Beim linearen Modell werden im Magni- rudenspektrogramrn die Einzelspektren gemäß der oben angegebenen Form addiert, das Mischsignal ist also näherungsweise die Summe der Magnitudenspektren der Einzelsprecher. Vereinfacht ausgedrückt bildet also die Summe der Wahrscheinlichkeitsverteilungen der beiden Einzelsprecher, V(si | μι, Σι) und NV(s2 1 μ2, Σ2), die Wahrscheinlichkeitsverteilung des Mischsignals NV(y | μι+μ2, Σ1+Σ2), wobei hier nur aus Gründen der besseren Verständlichkeit Normalverteilungen angeführt sind - gemäß der erfindungsgemäßen Methode handelt es sich bei den Wahrscheinlichkeitsverteilungen um GMMs. For this, several approaches are possible. In the linear model, the individual spectra are added according to the form given above in the magnetron spectrogram, and the mixed signal is thus approximately the sum of the magnitude spectra of the individual speakers. In simple terms, therefore, the sum of the probability distributions of the two individual speakers, V (si | μι, Σι) and NV (s 2 1 μ 2 , Σ 2 ), the probability distribution of the mixed signal NV (y | μι + μ 2 , Σ1 + Σ2) , where normal distributions are mentioned here only for reasons of better comprehension - according to the method according to the invention, the probability distributions are GMMs.
Im dargestellten Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird ein weiteres Interaktionsmodell verwendet: Nach dem MixMax-Interaktionsmodell kann das log- Spektrogramm zweier Sprecher durch das elementweise Maximum der log-Spektra der Einzelsprecher approximiert werden. Damit ist es möglich, rasch ein gutes Wahrscheinlichkeitsmodell des beobachteten Mischsignals zu erhalten. Dadurch werden auch Dauer und Rechenaufwand der Lernphase drastisch reduziert. In the illustrated embodiment of the method according to the invention, a further interaction model is used: According to the MixMax interaction model, the log spectrogram of two speakers can be approximated by the element-wise maximum of the log spectra of the individual speakers. This makes it possible to quickly obtain a good probability model of the observed mixed signal. As a result, the duration and computational effort of the learning phase are drastically reduced.
Für jeden Zeitabschnitt t gilt yW = max(siW, s2W), wobei SjW das log-Magnitudenspektrum des Sprechers i ist. Das log-Magnitudenspektrum yW wird also erzeugt mittels eines stochasti- schen Modells, wie es in Fig. 1 dargestellt ist. For each time interval t, yW = max (siW, s 2 W), where SjW is the log magnitude spectrum of the speaker i. The log magnitude spectrum yW is thus generated by means of a stochastic model, as shown in FIG.
Darin produzieren die beiden Sprecher (i=l, 2) je ein log-Magnitudenspektrum SjW in Abhängigkeit des Grundfrequenzzustandes χ,Ο. Das beobachtete log-Magnitudenspektrum yW des Mischsignals wird approximiert durch die elementweisen Maxima beider Einzelspre- cher-log-Magnitudenspektren. Mit anderen Worten: Für jeden Frame des Zeitsignals (Sam- ples des Zeitsignals werden in Frames zusammengefasst, und aus Samples eines Frames wird dann mittels FFT (Fast Fourier Transformation) und unter Ausschluss der Phaseninformation das Kurzzeitmagnitudenspektrum berechnet) wird das logarithmische Magnitu- denspektrogramm des Mischsignals angenähert durch das elementweise Maximum beider logarithmischer Einzelsprecher-Spektren. Anstatt die nicht zugänglichen Sprachsignale der Einzelsprecher zu betrachten, werden die Wahrscheinlichkeiten der Spektren betrachtet, die zuvor einzeln gelernt werden konnten. Für einen fixen Grundfrequenz- Wert in Bezug auf einen Zustand XjW erzeugt Sprecher i ein log-Spektrum, SjW, das eine Realisierung der durch das Einzelsprechermodell p(siW | XjW) beschriebenen Verteilung darstellt. In it, the two speakers (i = l, 2) each produce a log magnitude spectrum SjW as a function of the fundamental frequency state χ, Ο. The observed log magnitude spectrum yW of the mixed signal is approximated by the element-wise maxima of both individual speaker log magnitude spectra. In other words, for each frame of the time signal (samples of the time signal are combined in frames, and samples of a frame are then calculated using FFT (fast Fourier transformation) and excluding the phase information, the short-term magnitude spectrum) is the logarithmic Magnitudenspektrogramm of Mixed signal approximated by the element-wise maximum of both logarithmic single-speaker spectra. Instead of looking at the inaccessible speech signals of the individual speakers, the probabilities of the spectra that could previously be learned individually are considered. For a fixed fundamental frequency value with respect to a state XjW, speaker i generates a log spectrum, SjW, representing a realization of the distribution described by the single-speaker model p (siW | XjW).
Die beiden log-Spektren werden dann durch den elementweisen Maximtim-Operator kombiniert um das beobachtbare log-Spektrum y(') zü formen. Damit ist also p(y® I sf , s ) = ^(y(t)- max(s,(t), s )), wobei δ(.) die Dirac'sche Deltafunktion bezeichnet. The two log spectra are then combined by the elementwise maximtim operator to form the observable log spectrum y ( ' ) . So p (y® I sf, s) = ^ (y (t) - max (s, (t) , s)), where δ (.) Denotes the Dirac delta function.
Bei Verwendung des MixMax-Interaktionsmodells müssen also die GMMs für jeden Zustand jedes Sprechers ermittelt werden, also zwei Mal die Kardinalität der Zustandsvariablen. Bei herkömmlichen Modellen resultieren bei den angenommenen 170 verschiedenen Grundfre- quenzzuständen für jeden Sprecher insgesamt 28900 verschiedene Grundfreqüenzpaarün- gen, was einen deutlich erhöhten Rechenaufwand bewirkt. When using the MixMax interaction model, the GMMs for each state of each speaker must be determined, that is, twice the cardinality of the state variables. In conventional models, assuming 170 different fundamental frequency states, a total of 28,900 different fundamental frequency pairs result for each speaker, which results in a significantly increased computational effort.
Neben dem linearen Modell und dem MixMax-Interaktionsmodell können auch noch andere Modelle verwendet werden. Ein Beispiel dafür ist das Algonquin-Modell, wie es beispielsweise Brendan J. Frey et al. in„ALGONQUIN - Learning dynamic noise models from noisy Speech for robüst Speech recognition" (Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, pp. 1165-1172, January 2002) beschreiben. In addition to the linear model and the MixMax interaction model, other models can also be used. An example of this is the Algonquin model, as described, for example, by Brendan J. Frey et al. in "ALGONQUIN - Learning Dynamic Noise Models from Noisy Speech for Robust Speech Recognition" (Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, pp. 1165-1172, January 2002).
Wie auch beim MixMax-Interaktionsmodell wird mit dem Algonquin-Modell das log- Magnitudenspektrum der Mischung zweier Sprecher modelliert. Während beim MixMax- Interaktionsmodell gilt, hat das Algonquin-Modell folgende Form: Daraus kann wiederum die Wahrscheinlichkeitsverteilung des Mischsignals aus der Wahrscheinlichkeitsverteilung der Einzelsprechersignale abgeleitet werden. As with the MixMax interaction model, the Algonquin model models the log magnitude spectrum of the mixture of two speakers. While in the MixMax interaction model applies, the Algonquin model has the following form: From this, in turn, the probability distribution of the mixed signal can be derived from the probability distribution of the individual speaker signals.
Wie schon erwähnt wird im dargestellten Ausführungsbeispiel des erfindungsgemäßen Verfahrens nur das MixMax-Interaktionsmodell behandelt. As already mentioned, only the MixMax interaction model is treated in the illustrated embodiment of the method according to the invention.
Tracking tracking
Die Aufgabe des Tracking beinhaltet im Prinzip das Suchen einer Sequenz von verborgenen Zuständen x*, die die bedingte Wahrscheinlichkeitsverteilung x*=arg maxxp(x | y) maximiert. Für das Tracking der Pitchverläufe über die Zeit wird im beschriebenen Ausführungsbeispiel des erfindungsgemäßen Verfahrens ein FHMM verwendet. Das FHMM erlaubt die Zustände mehrerer zeitlich parallel verlaufender Markovketten zu verfolgen, wobei die verfügbaren Beobachtungen als gemeinsamer Effekt aller einzelnen Markovketten betrachtet werden. Dabei werden die unter dem Punkt„Interaktionsmodell" beschriebenen Ergebnisse verwendet. The task of tracking basically involves finding a sequence of hidden states x * that maximizes the conditional probability distribution x * = arg max x p (x | y). For the tracking of the pitch profiles over time, an FHMM is used in the described embodiment of the method according to the invention. The FHMM allows to track the states of multiple parallel Markov chains, with the available observations as a common effect of all Markov chains become. The results described under the point "interaction model" are used.
Bei einem FHMM werden also mehrere Markov-Ketten parallel betrachtet, wie es beispielsweise in dem beschriebenen Ausführungsbeispiel der Fall ist, wo zwei Sprecher gleichzeitig sprechen. Die Situation, die sich damit ergibt, ist in Fig. 2 dargestellt. In a FHMM, therefore, several Markov chains are considered in parallel, as is the case for example in the described embodiment, where two speakers speak simultaneously. The situation that results is shown in FIG.
Wie oben erwähnt, werden die verborgenen Zuständsvariablen der Einzelsprecher mit XkW bezeichnet, wobei k die Markovketten (und damit die Sprecher) bezeichnet und der Zeitindex t von 1 bis T verläuft. Die Markovketten 1, 2 sind in Fig. 2 die horizontal verlaufend dargestellt. Die Annahme lautet, dass alle verborgenen Zuständsvariablen die Kardinalität I X I haben, im beschriebenen Ausführungsbeispiel also 170 Zustände. Die beobachtete Zufallsvariable wird mit y(') bezeichnet. As mentioned above, the hidden state variables of the individual speakers are denoted by XkW, where k denotes the Markov chains (and thus the speakers) and the time index t runs from 1 to T. The Markov chains 1, 2 are shown in Fig. 2 extending horizontally. The assumption is that all hidden state variables have the cardinality IXI, ie 170 states in the exemplary embodiment described. The observed random variable is denoted by y ( ' ) .
Die Abhängigkeit der verborgenen Variablen zwischen zwei aufeinander folgenden Zeitabschnitten ist definiert mit der Übergangswahrscheinlichkeit p(xkW | x^'"1')- Die Abhängigkeit der beobachteten Zufallsvariablen yW von den verborgenen Variablen desselben Zeitabschnitts ist definiert mit der Beobachtungs Wahrscheinlichkeit p(yW | xiW, X2( )) die, wie weiter oben bereits erwähnt, mittels eines Interaktionsmodelles erstellt werden kann. Die Ausgangswahrscheinlichkeit der verborgenen Variablen in jeder Kette ist gegeben als p(xkW). The dependence of the hidden variables between two successive time periods is defined by the transition probability p (xkW | x ^ '' 1 ') - The dependence of the observed random variable yW on the hidden variables of the same time segment is defined by the observation probability p (yW | xiW , X2 () ) which, as already mentioned above, can be created by means of an interaction model The output probability of the hidden variables in each chain is given as p (xkW).
Die gesamte Sequenz der Variablen lautet x= {χ '^ , x[!) und y= [yl) }, ergibt sich für die gemeinsame Verteilung aller Variablen der folgende Ausdruck: p(x,y) = p(y I x)p(x) = f[ The whole sequence of the variables is x = {χ '^, x [ !) And y = [y l) }, the following expression results for the common distribution of all variables: p (x, y) = p (y I x ) p (x) = f [
Beim FHMM ergeben sich je Markov-Kette eine J X | x | X | Übergangsmatrix zwischen zwei verborgenen Zuständen - beim HMM wäre eine | X21 x | X21 Übergangsmatrix erlaubt, also ungleich grösser. The FHMM results in a JX | for each Markov chain x | X | Transition matrix between two hidden states - in HMM we would have a | X 2 1 x | X 2 1 transition matrix allowed, so much larger.
Die Beobachtungswahrscheinlichkeit p(y i> | ) ergibt sich im Allgemeinen mittels Marginalisierung über die unbekannten (log-)Spektren der Einzelsprecher: The observation probability p (y i> | ) is generally obtained by marginalization over the unknown (log) spectra of the individual speakers:
p(y*> I I s >, s )p(s > | x?)p(s? | x )d s» d s» (1), wobei Interaktionsmodell darstellt. p (y *> II s>, s) p (s> | x?) p (s? | x) ds »ds» (1), where Represents interaction model.
Damit ergibt sich für (1) bei Verwendung sprecherspezifischer GMMs, Marginalisierung über Si und unter Verwendung des MixMax-Modells die folgende Darstellung: This yields the following representation for (1) when using speaker-specific GMMs, marginalization over Si, and using the MixMax model:
wobei d das d-te Element des log-Spektrums y ergibt, θ™ gibt das d-te Element des zügehörigen Mittelwerts und der Varianz, und φ(γ \ Θ) = \ NV(x \ θ)άχ stellt die univariate kumulative Normalverteilung dar. where d gives the dth element of the log spectrum y, θ ™ gives the dth element of the associated mean and variance, and φ (γ \ Θ) = \ NV (x \ θ) άχ represents the univariate cumulative normal distribution represents.
Gleichermassen ergibt sich für (1) bei Verwendung des linearen Interaktionsmodells die folgende Darstellung: wobei y das Spektrum des Mischsignals ist. Likewise, for (1) using the linear interaction model, the following representation is obtained: where y is the spectrum of the composite signal.
Fig. 3 zeigt in einer schematischen Darstellung den Ablauf des erfindüngsgemäßen Verfahrens anhand eines Blockdiagramms. Fig. 3 shows a schematic representation of the sequence of the erfindüngsgemäßen method based on a block diagram.
Ein Sprachsignal, bzw. ein Signalgemisch aus mehreren Einzelsignalen, wird einkanalig aufgenommen, beispielsweise mit einem Mikrophon. Dieser Verfahrensschritt ist im Blockdiagramm mit 100 bezeichnet. A speech signal, or a composite signal of a plurality of individual signals, is recorded with one channel, for example with a microphone. This process step is designated by 100 in the block diagram.
In einem unabhängigen Verfahrensschritt, der beispielsweise im Vorfeld der Anwendung des Verfahrens durchgeführt wird, werden in einer Trainingsphase 101 die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert. Unter Verwendung des EM (Expectation-Maximization)-Algorithmus wird für jeden der 170 Pitch-Zustände jeweils ein Sprecher abhängiges GMM trainiert. Die Trainingsphase erfolgt für alle möglichen Zustände - im beschriebenen Ausführungsbeispiel sind das für zwei Sprecher je 170 Zustände zwischen 80 und 500 Hz. Mit anderen Worten wird also ein grundfrequenzabhängiges Spektrogramm von jedem Sprecher mittels GMM trainiert, wobei das MDL-Criterion angewendet wird, um die optimale Anzahl von Gauss-Komponenten aufzufinden. In einem weiteren Schritt 102 werden die GMMs, bzw. die zugehörigen Parameter, abgelegt, beispielsweise in einer Datenbank. In an independent method step, which is carried out, for example, in advance of the application of the method, the speech signals of the individual speakers are modeled using training data in a training phase 101. Using the EM (Expectation Maximization) algorithm, one speaker dependent GMM is trained for each of the 170 pitch states. The training phase is done for all possible states - in the described embodiment, for each of the two speakers, 170 states are between 80 and 500 Hz. In other words, a pitch-dependent spectrogram is trained by each speaker by means of GMM, the MDL Criterion being applied to the find optimal number of Gauss components. In a further step 102, the GMMs or the associated parameters are stored, for example in a database.
103: Um eine wahrscheinlichkeitstheoretische Wiedergabe des Mischsignals von zwei oder mehr Sprechenden bzw. der Einzelsignalanteile des Mischsignals zu erhalten, wird ein Interaktionsmodell, vorzugsweise das MixMax-Interaktionsmodell, angewandt. Anschließend wird im Rahmen des Trackens 104 der Grundfrequenzverläufe das FHMM angewandt. Mittels FHMM ist es möglich, die Zustände mehrerer verborgener Markov-Prozesse zu tracken, die gleichzeitig ablaufen, wobei die verfügbaren Beobachtungen als Auswirkungen der einzelnen Markov-Prozesse betrachtet werden. 103: In order to obtain a probabilistic representation of the mixed signal of two or more speakers or of the individual signal components of the mixed signal, an interaction model, preferably the MixMax interaction model, is used. Subsequently, within the framework of the track 104 of the fundamental frequency courses, the FHMM is applied. Using FHMM it is possible to access the states of several hidden Markov processes which run concurrently, considering the available observations as effects of the individual Markov processes.

Claims

ANSPRÜCHE
1. Verfahren zur Ermittlung von Grundfrequeriz-Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals, umfassend die folgenden Schritte: a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten;  A method for determining fundamental frequency slopes of a plurality of signal sources from a single-channel audio recording of a composite signal, comprising the steps of: a) determining the spectrogram characteristics of the pitch conditions of individual signal sources using training data;
b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfreqüenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells; b) determining the probabilities of the possible fundamental frequency combinations of the signal sources contained in the mixed signal by combining the properties determined in a) by means of an interaction model;
c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen. c) Tracing the fundamental frequency characteristics of the individual signal sources.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in a) die Spektrogramm- Eigenschaften mittels einem Gaussian Mixture Modell (GMM) ermittelt werden. 2. The method according to claim 1, characterized in that in a) the spectrogram properties are determined by means of a Gaussian Mixture Model (GMM).
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass weiters das Minimurrv- Decscription-Length Criterion angewandt wird, um die Anzahl der Komponenten des GMM zu ermitteln. 3. The method according to claim 2, characterized in that further the Minimurrv- Decscription-Length Criterion is applied to determine the number of components of the GMM.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass in b) als Interaktiönsmodell ein lineares Modell oder das MixMax-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet werden. 4. The method according to any one of claims 1 to 3, characterized in that in b) as the interaction model, a linear model or the MixMax interaction model or the ALGONQUIN interaction model are used.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Tracken in c) mittels des Factorial Hidden Markov Modells (FHMM) erfolgt. 5. The method according to any one of claims 1 to 4, characterized in that the tracking in c) by means of the Factorial Hidden Markov model (FHMM) takes place.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Lösung des FHMM der Sum-Product Algorithmus oder der Max-Sum Algorithmus verwendet werden. 6. The method according to claim 5, characterized in that are used to solve the FHMM the sum-product algorithm or the max-sum algorithm.
EP11708975.5A 2010-03-01 2011-02-22 Method for multipitch tracking Not-in-force EP2543035B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AT3152010A AT509512B1 (en) 2010-03-01 2010-03-01 METHOD FOR DETERMINING BASIC FREQUENCY FLOWS OF MULTIPLE SIGNAL SOURCES
PCT/AT2011/000088 WO2011106809A1 (en) 2010-03-01 2011-02-22 Method for determining fundamental-frequency courses of a plurality of signal sources

Publications (2)

Publication Number Publication Date
EP2543035A1 true EP2543035A1 (en) 2013-01-09
EP2543035B1 EP2543035B1 (en) 2013-12-11

Family

ID=44247016

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11708975.5A Not-in-force EP2543035B1 (en) 2010-03-01 2011-02-22 Method for multipitch tracking

Country Status (4)

Country Link
US (1) US20130151245A1 (en)
EP (1) EP2543035B1 (en)
AT (1) AT509512B1 (en)
WO (1) WO2011106809A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition
CN113851114B (en) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 Method and device for determining fundamental frequency of voice signal

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2011106809A1 *

Also Published As

Publication number Publication date
EP2543035B1 (en) 2013-12-11
US20130151245A1 (en) 2013-06-13
WO2011106809A1 (en) 2011-09-09
AT509512B1 (en) 2012-12-15
AT509512A1 (en) 2011-09-15

Similar Documents

Publication Publication Date Title
DE112015004785B4 (en) Method for converting a noisy signal into an enhanced audio signal
DE112017001830B4 (en) VOICE ENHANCEMENT AND AUDIO EVENT DETECTION FOR A NON-STATIONARY NOISE ENVIRONMENT
DE60104091T2 (en) Method and device for improving speech in a noisy environment
DE112009000805B4 (en) noise reduction
DE60023517T2 (en) CLASSIFICATION OF SOUND SOURCES
DE60311548T2 (en) Method for iterative noise estimation in a recursive context
DE3306730C2 (en)
DE69830017T2 (en) Method and device for speech recognition
DE102005030327A1 (en) Apparatus, method and computer program for analyzing an audio signal
EP2405673B1 (en) Method for localising an audio source and multi-channel audio system
DE112016006218T5 (en) Acoustic signal enhancement
DE112013005085T5 (en) Method for converting an input signal
DE60312374T2 (en) METHOD AND SYSTEM FOR SEPARATING MULTIPLE ACOUSTIC SIGNALS GENERATES THROUGH A MULTIPLE ACOUSTIC SOURCES
DE102014002899A1 (en) A method, apparatus, and manufacture for two-microphone array speech enhancement for a motor vehicle environment
EP3291234B1 (en) Method for evaluation of a quality of the voice usage of a speaker
DE602004004572T2 (en) Tracking vocal tract resonances using an objective constraint
Mohammadiha et al. Prediction based filtering and smoothing to exploit temporal dependencies in NMF
DE102005030326B4 (en) Apparatus, method and computer program for analyzing an audio signal
EP2543035B1 (en) Method for multipitch tracking
EP3940692B1 (en) Method for automatic lip reading using a functional component and providing the functional component
DE102019102414B4 (en) Method and system for detecting fricatives in speech signals
EP1704561A1 (en) Method and device for processing a voice signal for robust speech recognition
DE102011084035A1 (en) Device for evaluating perceived audio quality, has model output variable calculator that calculates values of multiple model output variables, which depict differences with respect to multiple criteria between reference- and test signals
EP1345208A2 (en) Automatic detection of changes of speaker in speaker-adaptive speechrecognition systems
EP4027333B1 (en) Virtual speech assistant with improved recognition accuracy

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120814

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502011001800

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011040000

Ipc: G10L0025900000

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/90 20130101AFI20130528BHEP

INTG Intention to grant announced

Effective date: 20130627

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 644939

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140115

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502011001800

Country of ref document: DE

Effective date: 20140206

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140311

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140411

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140411

BERE Be: lapsed

Owner name: TECHNISCHE UNIVERSITAT GRAZ

Effective date: 20140228

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502011001800

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140222

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

26N No opposition filed

Effective date: 20140912

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20141031

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502011001800

Country of ref document: DE

Effective date: 20140912

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140222

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20150219

Year of fee payment: 5

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20150222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140312

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20110222

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502011001800

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160901

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 644939

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211