EP2543035A1 - Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen - Google Patents

Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Info

Publication number
EP2543035A1
EP2543035A1 EP11708975A EP11708975A EP2543035A1 EP 2543035 A1 EP2543035 A1 EP 2543035A1 EP 11708975 A EP11708975 A EP 11708975A EP 11708975 A EP11708975 A EP 11708975A EP 2543035 A1 EP2543035 A1 EP 2543035A1
Authority
EP
European Patent Office
Prior art keywords
model
signal sources
fundamental frequency
speakers
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP11708975A
Other languages
English (en)
French (fr)
Other versions
EP2543035B1 (de
Inventor
Michael Wohlmayr
Michael Stark
Franz Pernkopf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Graz
Original Assignee
Technische Universitaet Graz
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Graz filed Critical Technische Universitaet Graz
Publication of EP2543035A1 publication Critical patent/EP2543035A1/de
Application granted granted Critical
Publication of EP2543035B1 publication Critical patent/EP2543035B1/de
Not-in-force legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • the invention relates to a method for determining fundamental frequency profiles of a plurality of signal sources from a single-channel audio recording of a mixed signal.
  • the fundamental frequency is a fundamental quantity in the analysis, recognition, coding, compression and representation of speech.
  • Speech signals can be described by the superimposition of sinusoidal vibrations.
  • voiced sounds such as Vowels is the frequency of these oscillations either the fundamental frequency or a multiple of the fundamental frequency, the so-called harmonics or harmonics.
  • voice signals can be assigned to specific signal sources by identifying the fundamental frequency of the signal.
  • a high accuracy of the track of the multiple fundamental frequencies can be achieved, or fundamental frequency characteristics can be better associated with the respective signal sources or speakers.
  • a training phase a) using speaker-specific information and the choice of a suitable interaction model in b) the computational effort is significantly minimized, so that the method can be performed quickly and with low resources. It is not mixed spectra with the respective individual speaker parts (in the simplest case, two speakers and a corresponding fundamental frequency pair) trained, but the respective individual speaker parts, which rninimiert the computational effort and the number of training phases to be carried out.
  • the number of pitch states to be trained results from the observed frequency range and its subdivision (see below). For voice recordings, such a frequency range is 80 to 500 Hz, for example.
  • a probability model of all pitch combinations possible in the abovementioned frequency range, or for a desired speaker pair can be obtained with the aid of the interaction model used in b). Assuming two speakers with A states, this means that an A x A matrix with the probabilities for all possible combinations is determined.
  • language models can be used, which describe a multiplicity of speakers, for example, by the model on gender-specific characteristics sets off (speaker-independent, or gender-dependent).
  • the temporal sequence of the estimated pitch values can be modeled by a Hidden Markov Model (HMM) or by a Factorial Hidden Markov Model (FHMM), and these graphical models can be modeled by the Max-Sum Algorithm, the Junction Tree Algorithm or the Sum Product algorithm are used.
  • HMM Hidden Markov Model
  • FHMM Factorial Hidden Markov Model
  • the spectrogram properties are determined by means of a Gaussian Mixture Model (GMM).
  • GMM Gaussian Mixture Model
  • the number of components of a GMM is determined by applying the Minimum Description Length (MDL) Criterion.
  • MDL Criterion is used to select a model from a variety of possible models. For example, they differ Models, as in the present case, only by the number of Gauss components used.
  • AIC Akaike Information Criterion
  • the interaction model is a linear model or the mixture-maximization (MixMax) interaction model or the ALGONQUIN interaction model.
  • the tracking in c) takes place by means of the Factorial Hidden Markov Model (FHMM).
  • FHMM Factorial Hidden Markov Model
  • a number of algorithms can be used, for example, in variants of the invention, the sum-product algorithm or the max-sum algorithm are used.
  • Fig. 2 is an illustration of the FHMM
  • FIG. 3 is a block diagram of the method according to the invention.
  • the invention relates to a simple and efficient basic frequency tracking modeling method of a plurality of simultaneously emitting signal sources, for example speakers in a conference or meeting situation.
  • the method according to the invention will be presented on the basis of two speakers for reasons of traceability, however, the method can be applied to any number of subjects.
  • the speech signals are single-channel, ie with only one recording means - e.g. Microphone - recorded.
  • the short-term spectrum of a speech signal given a basic speech frequency can be described using probability distributions such as the Gaussian normal distribution.
  • a single normal distribution, given by the parameters mean ⁇ and variance ⁇ 2 is usually not sufficient.
  • complex probability distributions one usually uses mixed distributions such as the Gaussian Mixture Model (or Gauß's mixed distribution model - GMM).
  • the GMM is composed of several individual Gauß'schen normal distributions additively.
  • Each hidden variable has in the described embodiment
  • 170 states with fundamental frequencies from the interval of 80 to 500 Hz. Of course, more or fewer states from other fundamental frequency intervals can also be used.
  • the state "1" means "no pitch” (unvoiced or no voice activity) while
  • Formula f 0 - determined.
  • the pitch interval is
  • Training phase training a speaker-dependent GMM to model the short-term spectrum for each of the 170 states (169 fundamental frequency states and the no-pitch state) of each individual speaker; - interaction model: determination of a probabilistic representation for the mixture of the two individual speakers using an interaction model, eg the MixMax interaction model; Depending on the choice of the interaction model, either the short-term magnitude spectrum or the logarithmic short-time magnitude spectrum is modeled in the training phase.
  • an interaction model eg the MixMax interaction model
  • Tracking determining the fundamental frequency trajectories of the two individual speakers using a suitable tracking algorithm, e.g. Junction Tree or Sum Product (in the present embodiment, the application of the Factorial Hidden Markov Model (FHMM) is described).
  • a suitable tracking algorithm e.g. Junction Tree or Sum Product (in the present embodiment, the application of the Factorial Hidden Markov Model (FHMM) is described).
  • FHMM Factorial Hidden Markov Model
  • a supervised scenario is assumed in which the voice signals of the individual speakers are modeled using training data.
  • all monitored training methods can be used, ie generative and discriminative.
  • the spectrogram properties can be described by a general, parametric or non-parametric statistical model p (si
  • 170 GMMs are trained for each speaker (one GMM per pitch feed).
  • These data can be automatically generated with a pitch tracker of single speaker subscriptions.
  • the EM algorithm is an iterative optimization method for estimating unknown parameters while preserving known data such as training data. It is iteratively by alternating classification (expectation step) and then adjusting the model parameters (maximization step) maximizes the probability of the occurrence of a stochastic process in a given model.
  • the model parameters must be adapted to maximize.
  • the prerequisite for finding this maximum is that after each induction step and the calculation of a new model, the likelihood of the model increases.
  • a number of superimposed Gaussian distributions and a GMM with arbitrary parameters eg mean, variance and weighting factors.
  • ML iterative maximum-likelihood
  • NV denotes the normal distribution.
  • the associated GMM is completely determined by the parameters
  • the recorded and sampled with a sampling frequency of, for example, f s 16kHz single-channel speech signals are considered in sections.
  • the observed (log) spectrum yW of the mixed signal, ie the mixture of the two individual speaker signals is modeled with the observation probability p (y (t) I xiW, X2W).
  • the most probable pitch states of both speakers can be determined at any given time, or the observation probability serves directly as input for the tracking algorithm used in step c).
  • the (log) spectra of the individual speakers or p (si
  • the individual spectra are added according to the form given above in the magnetron spectrogram, and the mixed signal is thus approximately the sum of the magnitude spectra of the individual speakers.
  • ⁇ + ⁇ 2 , ⁇ 1 + ⁇ 2) where normal distributions are mentioned here only for reasons of better comprehension - according to the method according to the invention, the probability distributions are GMMs.
  • a further interaction model is used: According to the MixMax interaction model, the log spectrogram of two speakers can be approximated by the element-wise maximum of the log spectra of the individual speakers. This makes it possible to quickly obtain a good probability model of the observed mixed signal. As a result, the duration and computational effort of the learning phase are drastically reduced.
  • yW max (siW, s 2 W), where SjW is the log magnitude spectrum of the speaker i.
  • the log magnitude spectrum yW is thus generated by means of a stochastic model, as shown in FIG.
  • the two speakers each produce a log magnitude spectrum SjW as a function of the fundamental frequency state ⁇ , ⁇ .
  • the observed log magnitude spectrum yW of the mixed signal is approximated by the element-wise maxima of both individual speaker log magnitude spectra.
  • FFT fast Fourier transformation
  • the GMMs for each state of each speaker must be determined, that is, twice the cardinality of the state variables.
  • a total of 28,900 different fundamental frequency pairs result for each speaker, which results in a significantly increased computational effort.
  • the Algonquin model models the log magnitude spectrum of the mixture of two speakers. While in the MixMax interaction model applies, the Algonquin model has the following form: From this, in turn, the probability distribution of the mixed signal can be derived from the probability distribution of the individual speaker signals.
  • an FHMM is used in the described embodiment of the method according to the invention.
  • the FHMM allows to track the states of multiple parallel Markov chains, with the available observations as a common effect of all Markov chains become.
  • the results described under the point "interaction model" are used.
  • the hidden state variables of the individual speakers are denoted by XkW, where k denotes the Markov chains (and thus the speakers) and the time index t runs from 1 to T.
  • the Markov chains 1, 2 are shown in Fig. 2 extending horizontally.
  • the assumption is that all hidden state variables have the cardinality IXI, ie 170 states in the exemplary embodiment described.
  • the observed random variable is denoted by y ( ' ) .
  • the dependence of the hidden variables between two successive time periods is defined by the transition probability p (xkW
  • the dependence of the observed random variable yW on the hidden variables of the same time segment is defined by the observation probability p (yW
  • the output probability of the hidden variables in each chain is given as p (xkW).
  • ) is generally obtained by marginalization over the unknown (log) spectra of the individual speakers:
  • d gives the dth element of the log spectrum y
  • ⁇ TM gives the dth element of the associated mean and variance
  • ⁇ ( ⁇ ⁇ ⁇ ) ⁇ NV (x ⁇ ⁇ ) ⁇ represents the univariate cumulative normal distribution represents.
  • Fig. 3 shows a schematic representation of the sequence of the erfindüngsdorfen method based on a block diagram.
  • a speech signal, or a composite signal of a plurality of individual signals, is recorded with one channel, for example with a microphone. This process step is designated by 100 in the block diagram.
  • the speech signals of the individual speakers are modeled using training data in a training phase 101.
  • EM Engineering Maximization
  • one speaker dependent GMM is trained for each of the 170 pitch states.
  • the training phase is done for all possible states - in the described embodiment, for each of the two speakers, 170 states are between 80 and 500 Hz.
  • a pitch-dependent spectrogram is trained by each speaker by means of GMM, the MDL Criterion being applied to the find optimal number of Gauss components.
  • the GMMs or the associated parameters are stored, for example in a database.
  • an interaction model preferably the MixMax interaction model
  • the FHMM is applied. Using FHMM it is possible to access the states of several hidden Markov processes which run concurrently, considering the available observations as effects of the individual Markov processes.

Abstract

Die Erfindung betrifft ein Verfahren zur Ermittlung von Grundfrequenz-Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals, umfassend die folgenden Schritte: a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten; b) Ermitteln der Wahrscheinlichkeiten der Grundfrequenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells; c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen.

Description

VERFAHREN ZUR ERMITTLUNG VON GRUNDFREQUENZ-VERLÄUFEN MEHRERER
SIGNALQUELLEN
Die Erfindung betrifft ein Verfahren zur Ermittlung von Grundfrequenz- Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals.
Verfahren zur Verfolgung bzw. Trennung von einkanaligen Sprachsignalen über die wahrgenommene Grundfrequenz (der englische Fachbegriff„Pitch" wird im Rahmen der folgenden Ausführungen gleichbedeutend mit der wahrgenommenen Grundfrequenz verwendet) werden in einer Reihe von Algorithmen und Applikationen in der Sprach- und Audio- sigrialverarbeitung verwendet, wie z.B. bei der einkanaligen Quellentrennung (Single- Channel Blind Source Separation; SCSS) (D. Morgan et al.,„Cochannel Speaker Separation by harmonic enhahcement and suppression", IEEE Transactions on Speech and Audio Processing, Vol. 5, pp. 407-424, 1997), der Computational Auditory Scene Analysis (CASA) (DeLiang Wang,„On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis", P. Divenyi [Ed], Speech Separation by Humans and Machines, Kluwer Academic, 2004)und der Sprachkompression (R. Salami et al.,„A toll quality 8 kb/s speech codec for the personal Communications System (PCS)", IEEE Transactions on Vehicular Technology, Vol. 43, pp. 808-816, 1994). Typische Anwendungen solcher Verfahren sind beispielsweise Konferenzsituationen, wo während eines Vortrags manchmal mehrere Stimmen hörbar sind und dadurch die Erkennungsrate einer automatischen Spracherkennung stark sinkt. Auch eine Anwendung in Hörgeräten ist möglich.
Die Grundfrequenz ist eine fundamentale Größe in der Analyse, Erkennung, Codierung, Kompression und Darstellung von Sprache. Sprachsignale lassen sich durch die Überlagerung von sinusförmigen Schwingungen beschreiben. Für stimmhafte Laute wie z.B. Vokale ist dabei die Frequenz dieser Schwingungen entweder die Grundfrequenz oder ein Vielfaches der Grundfrequenz, die sog. Oberschwingungen bzw. Obertöne. Damit lassen sich Sprachsignale durch Identifizierung der Grundfrequenz des Signals bestimmten Signalquellen zuordnen.
Während für den Fall eines einzelnen Sprechers bei rauscharmer Aufnahme bereits eine Reihe von erprobten Methoden für die Abschätzung bzw. die Verfolgung (Tracking) der Grundfrequenz in Verwendung ist, gibt es nach wie vor Probleme bei der Bearbeitung von minderwertigen (also mit Störgeräuschen wie Rauschen versehenen) Aufnahmen mehrerer gleichzeitig sprechender Personen. Mingyang Wu et al. schlagen in„A Multipitch Tracking Algorithm for Noisy Speech" (IEEE Transactions on Speech and Audio Processing, Volume 11, Issue 3, pp. 229-241, May 2003) eine Lösung für robustes mehrfaches Grundfrequenztracking bei Aufnahmen mit mehreren Sprechern vor. Die Lösung basiert auf dem unitären Modell für Grundfrequenzwahrnehmung, für das verschiedene Verbesserungen vorgeschlagen werden, um eine wahrscheinlichkeitstheoretische Darstellung der Periodizitäten des Signals zu erhalten. Die Nachverfolgung der Wahrscheinlichkeiten der Periodizitäten unter Verwendung des Hidden Markov Model (HMM) ermöglicht die Darstellung semikontinuierlicher Grundfrequenzverläufe. Nachteilig an dieser Lösung ist zum einen der hohe Rechenaufwand und die dadurch benötigten Rechnerressourcen, andererseits die Tatsache, dass eine ordnungsgemäße Zuordnung der Grundfrequenzen zu den passenden Signalquellen, bzw. Sprechern nicht möglich ist. Der Grund dafür ist die Tatsache, dass in diesem System keine sprecherspezifischen Informationen eingebunden werden bzw. zur Verfügung stehen, die eine derartige Verknüpfung von gemessenen Pitchwerten und Sprechern ermöglichen würde.
Es ist daher eine Aufgabe der Erfindung, ein Verfahren für mehrfaches Grundfrequenztracking bereitzustellen, das eine sichere Zuordnung der ermittelten Grundfrequenzen zu Signalquellen bzw. Sprechern erlaubt und gleichzeitig eine geringe Speicher- und Rechenin- tensivität aufweist.
Diese Aufgabe wird mit einem Verfahren der eingangs genannten Art erfindungsgemäß durch die folgenden Schritte gelöst:
a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten;
b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfrequenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells;
c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen.
Dank der Erfindung lässt sich eine hohe Genauigkeit des Trackens der mehrfachen Grundfrequenzen erreichen, bzw. können Grundfrequenzverläufe besser den jeweiligen Signalquellen bzw. Sprechern zugeordnet werden. Durch eine Trainingsphase a) unter Verwendung sprecherspezifischer Informationen und die Wahl eines geeigneten Interaktionsmodells in b) wird der rechnerische Aufwand deutlich minimiert, sodass die Methode rasch und ressourcenarm durchgeführt werden kann. Dabei werden nicht Mischspektren mit den jeweiligen Einzelsprecheranteilen (im einfachsten Fall zwei Sprecher und ein entsprechendes Grundfrequenz-Paar) trainiert, sondern die jeweiligen Einzelsprecheranteile, was den Rechenaufwand und die Zahl der durchzuführenden Trainingsphasen weiter rninimiert. Da je Signalquelle Pitchzustände aus einem abgegrenzten Frequenzbereich (z.B. 80 bis 500 Hz) betrachtet werden, ergibt sich bei Kombination der Zustände in Schritt b) eine begrenzte Anzahl von Grundfrequenzkombinationen, die als„mögliche" Grundfrequenzkombinätionen bezeichnet werden. Der Begriff Spektrum steht in weiterer Folge für das Magnituden-Spek- trüm; je nach Wahl des Interaktionsmodells in b) werden das Kurzzeit-Magnitudehspektrum oder das logärimmische Kurzzeit-Magnitudenspektrum (log-Spektrum) verwendet.
Die Anzahl der zu trainierenden Pitchzustände ergibt sich aus dem beobachteten Frequenzbereich und dessen Unterteilung (siehe weiter unten). Bei Sprachaufnahmen beträgt ein solcher Frequenzbereich beispielsweise 80 bis 500 Hz.
Aus Sprachmodellen einzelner Sprecher kann mit Hilfe des in b) angewandten Interaktionsmodells ein Wahrscheinlichkeitsmodell aller im oben genannten Frequenzbereich möglichen Pitchkombinationen, bzw. für ein gewünschtes Sprecherpaar (also z.B. für eine Aufnahme, auf der zwei Sprecher zu hören sind), erhalten werden. Bei der Annahme von zwei Sprechern mit jeweils A Zuständen bedeutet das also, dass eine A x A-Matrix mit den Wahrscheinlichkeiten für alle möglichen Kombinationen ermittelt wird. Für die einzelnen Sprecher können auch Sprachmodelle verwendet werden, die eine Vielzahl von Sprechern beschreiben, beispielsweise, indem das Modell auf geschlechtsspezifische Merkmale abstellt (speaker-independent, bzw. gender-dependent).
Für das Tracking in c) kann eine Reihe von Algorithmen verwendet werden. Beispielsweise kann die zeitliche Abfolge der geschätzen Pitchwerte durch ein Hidden Markov Model (HMM) oder auch durch ein Factorial Hidden Markov Model (FHMM) modelliert werden, und auf diese graphischen Modelle können der Max-Sum Algorithmus, der Junction-Tree Algorithmus oder der Sum-Product-Algorithmus zum Einsatz kommen. In einer Variante der Erfindung ist es auch möglich, die auf isolierten Zeitfenstern geschätzten Pitchwerte unabhängig voneinander zu betrachten und auszuwerten, ohne einen der oben genannten Tracking- Algorithmen anzusetzen.
Für die Beschreibung der Spektrogramm-Eigenschaften kann ein allgemeines, parametrisches oder auch nichtparametrisches statistisches Modell verwendet werden. Günstigerweise werden in a) die Spektrogramm-Eigenschaften mittels eines Gaussian Mixture Modells (GMM) ermittelt.
Vorteilhafterweise wird die Anzahl der Komponenten eines GMM durch Anwendung des Minimum-Description-Length (MDL) Criterion ermittelt. Das MDL-Criterion dient zur Wahl eines Modells aus einer Vielzahl möglicher Modelle. Beispielsweise unterscheiden sich die Modelle, wie im vorliegenden Fall, nur durch die Anzahl der verwendeten Gausskomponefi- ten. Neben dem MDL-Criterion ist beispielsweise auch die Verwendung des Akaike Information Criterion (AIC) möglich.
In b) werden als Interaktionsmodell ein lineares Modell oder das Mixture-Maximization (MixMax)-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet.
Günstigerweise erfolgt das Tracken in c) mittels des Factorial Hidden Markov Modells (FHMM).
Zur Durchführung des Trackings auf einem FHMM können eine Reihe von Algorithmen verwendet werden, beispielsweise werden in Varianten der Erfindung der Sum-Product Algorithmus oder der Max-Sum- Algorithmus verwendet.
Im Folgenden wird die Erfindung anhand eines nicht einschränkenden Ausführungsbeispiels, das in der Zeichnung dargestellt ist, näher erläutert. In dieser zeigt schematisch:
Fig. 1 einen Faktorgraphen der grundfrequenzabhängigen Erzeugung eines aus zwei Einzelsprecher(log)spektren resultierenden (log-)Spektrums y eines Mischsignals,
Fig. 2 eine Darstellung des FHMM, und
Fig. 3 ein Blockdiagramm des erfindungsgemäßen Verfahrens.
Die Erfindung betrifft ein einfaches und effizientes Modellierungsverfahren für das Grundfreq enztracking von mehreren gleichzeitig emittierenden Signalquellen, beispielsweise Sprechern in einer Konferenz- oder Besprechungssituation. Nachfolgend wird die erfindungsgemäße Methode aus Gründen der Nachvollziehbarkeit anhand von zwei Sprechern dargestellt, allerdings lässt sich das Verfahren auf eine beliebige Anzahl von Subjekten anwenden. Dabei sind die Sprachsignale einkanalig, werden also mit nur einem Aufnahmemittel - z.B. Mikrophon - aufgenommen.
Das Kurzzeitspektrum eines Sprachsignals bei gegebener Sprachgrundfrequenz lässt sich mit Hilfe von Wahrscheinlichkeitsverteilungen wie der Gauß' sehen Normalverteilung beschreiben. Eine einzelne Normalverteilung, gegeben durch die Parameter Mittelwert μ und Varianz σ2, reicht dabei zumeist nicht aus. Zur Modellierung allgemeiner, komplexer Wahrscheinlichkeitsverteilungen verwendet man üblicherweise Mischverteilungen wie beispielsweise das Gaussian Mixture Model (bzw. Gaüß'sches Mischverteilungsmodell - GMM). Das GMM setzt sich additiv aus mehreren einzelnen Gaüß'schen Normalverteilungen zusammen. Dabei kann eine M-fache Gaußverteilung mit 3M-1 Parametern beschrieben werden - Mittelwert, Varianz und Gewichtungsfaktor für jede der M Gaußverteilungen (der Gewichtungsfaktor der M-ten Gausskomponente ist redundant, daher das„-1"). Für die Modellierung beobachteter Datenpunkte durch ein GMM wird häufig ein Spezialfall des„Expectation Maxirrdzation"-Algorithrnus verwendet, wie weiter unten beschreiben ist.
Der Verlauf der Pitchzustände eines Sprechers kann näherungsweise durch eine Markovket- te beschrieben werden. Die Markov-Eigenschaft dieser Zustandsketten besagt, dass der Folgezustand nur vom gegenwärtigen Zustand abhängt und nicht von vorangegangenen Zuständen.
Bei der Analyse eines Sprachsignals zweier gleichzeitig sprechender Subjekte ist nur das resultierende Spektrum yW der Mischung der beiden einzelnen Sprachsignale verfügbar, nicht aber die Pitchzustände xiW und X2W der Einzelsprecher. Der tiefgestellte Index bei den Pitchzuständen bezeichnet dabei Sprecher 1 und 2, während der hochgestellte Zeitindex von t=l, T verläuft. Diese einzelnen Pitchzustände sind verborgene Variablen. Zur Auswertung wird beispielsweise ein Hidden Markov Modell (HMM) verwendet, bei dem aus den beobachtbaren Zuständen (hier also aus dem resultierenden Spektrum y(') der Mischung) auf die verborgenen Variablen bzw. Zustände geschlossen wird.
Jede verborgene Variable hat im beschriebenen Ausführungsbeispiel | X | =170 Zustände mit Grundfreqüenzen aus dem Intervall von 80 bis 500 Hz. Natürlich können auch mehr oder weniger Zustände aus anderen Grundfrequenzintervallen verwendet werden.
Der Zustand„1" bedeutet„kein Pitch" (stimmlos bzw. keine Sprachaktivität), während
Züstands werte„2" bis„170" verschiedene Grundfrequenzen zwischen den oben genannten
Werten bezeichnen. Im Speziellen wird der Pitch-Wert fo für die Zustände x>l nach der
f
Formel f0 = — ermittelt. Die Samplingrate beträgt fs=16 kHz. Das Pitch-Intervall wird
30 + JC
also uneinheitlich aufgelöst; niedrige Pitch-Werte haben eine feinere Auflösung als hohe Pitch-Werte: Die Zustände 168, 169 und 170 haben Grundfrequenzen von 80,80 Hz (x=168), 80,40 Hz (x=169) und 80,00 Hz (x=170), während die Zustände 2, 3 und 4 die Grundfrequenzen 500,00 Hz (x=2), 484,84 Hz (x=3) und 470,58 Hz (x=4) haben.
Das erfindurigsgemäße Verfahren umfasst im beschriebenen Ausführungsbeispiel die folgenden Schritte:
- Trainingsphase: Trainieren eines sprecherabhängigen GMM zur Modellierung des Kurzzeitspektrums für jeden der 170 Zustände (169 Grundfrequenzzustände sowie der Zustand„kein Pitch") jedes Einzelsprechers; - Interaktions-Modell: Ermitteln einer wahrscheinlichkeitstheoretischen Darstellung für die Mischung der beiden Einzelsprecher unter Anwendung eines Interaktionsmodells, z.B. des MixMax-Interaktionsmodells; abhängig von der Wahl des Interaktionsmodells wird in der Trainingsphase entweder das Kurzzeit-Magnitudenspektrum oder das logarithmische Kurzzeit-Magnituden-Spektrum modelliert.
- Tracking: Ermitteln der Grundfreqüenztrajektorien der beiden Einzelsprecher unter Verwendung eines geeigneten Tracking Algorithmus, z.B. Junction-Tree oder Sum- Product (im vorliegenden Ausführungsbeispiel wird die Anwendung des Factorial Hidden Markov Modells (FHMM) beschrieben).
Träiningsphase
In der erfindungsgemäßen Methode wird ein überwachtes Szenario angenommen, in dem die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert werden. Dabei können im Prinzip alle überwachten Trainingsmethoden eingesetzt werden, also generative und diskriminative. Die Spektrogramm-Eigenschaften lassen sich durch ein allgemeines, parametrisches oder auch nicht-parametrisches statistisches Modell p(si | Xi) beschreiben. Die Verwendung von GMMs stellt also einen Spezialfall dar.
Im vorliegenden Ausführungsbeispiel werden unter Verwendung des EM (Expectation- Mäximization)-Algorithmus für jeden Sprecher 170 GMMs trainiert (ein GMM pro Pitch- Zustärid). Bei den Trainingsdaten handelt es sich beispielsweise um Tonaufnahmen von Einzelsprechern, also einen Satz von Ni log-Spektren von i Einzelsprechern, St = [s^ , .. . , Sj Ni ) ], zusammen mit den zugehörigen Pitch-Werten { ^ ,..., .*^ }. Diese Daten können automatisch mit einem Pitchtracker aus Einzelsprecheräufnahmen erzeugt werden.
Der EM- Algorithmus ist eine iterative Optimierungsmethode zum Abschätzen unbekannter Parameter beim Vorhegen von bekannten Daten wie Trainingsdaten. Dabei wird iterativ durch abwechselnde Klassifikation (Expectation-Schritt) und eine anschließende Anpassung der Modellparameter (Maximization-Schritt) die Wahrscheinlichkeit für das Auftreten eines stochastischen Prozesses bei einem vorgegebenen Modell maximiert.
Da der stochastische Prozess - im vorliegenden Fall das Spektrum des Sprachsignals - durch die Trainingsdaten gegeben ist, müssen zur Maximierung die Modellparameter angepasst werden. Die Voraussetzung für das Auffinden dieses Maximums ist, dass nach jedem Induktionsschritt und der Berechnung eines neuen Modells der Likelihood des Modells ansteigt. Zur Initialisierung des Lernalgorithmus wird eine Anzahl überlagerter Gaussverteilungen und ein GMM mit beliebigen Parametern (z.B. Mittelwert, Varianz und Gewichtungsfaktoren) gewählt. Durch die iterative Maximum-Likelihood (ML)-Schätzung des EM erhält i an also ein repräsentatives Modell für das Einzelsprecher-Sprachsignal, im vorliegenden Fall ein sprecherabhängiges GMM p{st Θ^'*' j. Damit müssen für jeden Sprecher 170 GMMs trainiert werden, also ein GMM für jeden Pitch-Zustand Xi entsprechend der oben definierten Anzahl Von Zuständen.
Die Modellierung der zustandsabhängigen log-Einzelspektren der Sprecher mittels GMM im vorliegenden Ausführungsbeispiel erfolgt also gemäß p(Sl \ x,) = /Ks, I ®£ ) = I , ) , mit i e
Mi x > 1 bezeichnet dabei die Anzahl der Mischungskomponenten (also der Normalverteilungen, die zur Darstellung des Spektrums notwendig sind), a™x ist der Gewichtungsfaktor jeder Komponente m = l,...,Mi x .„NV" bezeichnet die Normalverteilung.
Der Gewichtungsfaktor a™. muss positiv sein - a™x > 0 - und die Normierungsbedingung ^ ™x = 1 erfüllen. Das zugehörige GMM ist vollständig bestimmt durch die Parameter
®ΐ:Χ' = { , ^ , )- ^ θ^ = Κ , 'Σ , }; ^ steht dabei für den Mittelwert, Σ bezeichnet die Kovarianz.
Nach der Träiningsphase liegen also GMMs für alle Grundfrequenzwerte aller Sprecher vor. Im vorliegenden Ausführungsbeispiel bedeutet das: Zwei Sprecher mit je 170 Zuständen aus dem Frequenzintervall 80 bis 500 Hz. Es sei noch einmal darauf hingewiesen, dass es sich hier um ein Ausführungsbeispiel handelt und das Verfahren auch auf mehrere Signalquellen Und andere Frequenzintervalle anwendbar ist.
Interaktions-Modell
Zur Analyse werden die aufgenommenen und mit einer Samplingfrequenz von beispielsweise fs=16kHz gesampelten einkanaligen Sprachsignale zeitabschnittsweise betrachtet. In jedem Zeitabschnitt t wird das beobachtete (log-)Spektrum yW des Mischsignals, also der Mischung der beiden Einzelsprechersignale, mit der Beobachtungswahrscheinlichkeit p(y(t) I xiW, X2W) modelliert. Anhand dieser Beobachtungswahrscheinlichkeit können beispielsweise die zu jedem Zeitpunkt wahrscheinlichsten Pitch-Zustände beider Sprecher ermittelt werden, oder die Beobachtungswahrscheinlichkeit dient direkt als Input für den in Schritt c) verwendeten Tracking- Algorithmus. Im Prinzip lassen sich die (log-)Spektren der einzelnen Sprecher, bzw. p(si | xi) und p(s2 1 X2), zum Mischsignal y addieren; die Magnituden-Spektren addieren sich näherungsweise, daher gilt für die log-Magnitudenspektren: Die Wahrscheinlichkeitsverteilung des Mischsignals ist also eine Funktion der beiden Einzelsignale, p(y)=f(p(si), p(s2)). Die Funktion hängt nun davon ab, welches Interaktionsmodell gewählt wird.
Dafür sind mehrere Herangehensweisen möglich. Beim linearen Modell werden im Magni- rudenspektrogramrn die Einzelspektren gemäß der oben angegebenen Form addiert, das Mischsignal ist also näherungsweise die Summe der Magnitudenspektren der Einzelsprecher. Vereinfacht ausgedrückt bildet also die Summe der Wahrscheinlichkeitsverteilungen der beiden Einzelsprecher, V(si | μι, Σι) und NV(s2 1 μ2, Σ2), die Wahrscheinlichkeitsverteilung des Mischsignals NV(y | μι+μ2, Σ1+Σ2), wobei hier nur aus Gründen der besseren Verständlichkeit Normalverteilungen angeführt sind - gemäß der erfindungsgemäßen Methode handelt es sich bei den Wahrscheinlichkeitsverteilungen um GMMs.
Im dargestellten Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird ein weiteres Interaktionsmodell verwendet: Nach dem MixMax-Interaktionsmodell kann das log- Spektrogramm zweier Sprecher durch das elementweise Maximum der log-Spektra der Einzelsprecher approximiert werden. Damit ist es möglich, rasch ein gutes Wahrscheinlichkeitsmodell des beobachteten Mischsignals zu erhalten. Dadurch werden auch Dauer und Rechenaufwand der Lernphase drastisch reduziert.
Für jeden Zeitabschnitt t gilt yW = max(siW, s2W), wobei SjW das log-Magnitudenspektrum des Sprechers i ist. Das log-Magnitudenspektrum yW wird also erzeugt mittels eines stochasti- schen Modells, wie es in Fig. 1 dargestellt ist.
Darin produzieren die beiden Sprecher (i=l, 2) je ein log-Magnitudenspektrum SjW in Abhängigkeit des Grundfrequenzzustandes χ,Ο. Das beobachtete log-Magnitudenspektrum yW des Mischsignals wird approximiert durch die elementweisen Maxima beider Einzelspre- cher-log-Magnitudenspektren. Mit anderen Worten: Für jeden Frame des Zeitsignals (Sam- ples des Zeitsignals werden in Frames zusammengefasst, und aus Samples eines Frames wird dann mittels FFT (Fast Fourier Transformation) und unter Ausschluss der Phaseninformation das Kurzzeitmagnitudenspektrum berechnet) wird das logarithmische Magnitu- denspektrogramm des Mischsignals angenähert durch das elementweise Maximum beider logarithmischer Einzelsprecher-Spektren. Anstatt die nicht zugänglichen Sprachsignale der Einzelsprecher zu betrachten, werden die Wahrscheinlichkeiten der Spektren betrachtet, die zuvor einzeln gelernt werden konnten. Für einen fixen Grundfrequenz- Wert in Bezug auf einen Zustand XjW erzeugt Sprecher i ein log-Spektrum, SjW, das eine Realisierung der durch das Einzelsprechermodell p(siW | XjW) beschriebenen Verteilung darstellt.
Die beiden log-Spektren werden dann durch den elementweisen Maximtim-Operator kombiniert um das beobachtbare log-Spektrum y(') zü formen. Damit ist also p(y® I sf , s ) = ^(y(t)- max(s,(t), s )), wobei δ(.) die Dirac'sche Deltafunktion bezeichnet.
Bei Verwendung des MixMax-Interaktionsmodells müssen also die GMMs für jeden Zustand jedes Sprechers ermittelt werden, also zwei Mal die Kardinalität der Zustandsvariablen. Bei herkömmlichen Modellen resultieren bei den angenommenen 170 verschiedenen Grundfre- quenzzuständen für jeden Sprecher insgesamt 28900 verschiedene Grundfreqüenzpaarün- gen, was einen deutlich erhöhten Rechenaufwand bewirkt.
Neben dem linearen Modell und dem MixMax-Interaktionsmodell können auch noch andere Modelle verwendet werden. Ein Beispiel dafür ist das Algonquin-Modell, wie es beispielsweise Brendan J. Frey et al. in„ALGONQUIN - Learning dynamic noise models from noisy Speech for robüst Speech recognition" (Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, pp. 1165-1172, January 2002) beschreiben.
Wie auch beim MixMax-Interaktionsmodell wird mit dem Algonquin-Modell das log- Magnitudenspektrum der Mischung zweier Sprecher modelliert. Während beim MixMax- Interaktionsmodell gilt, hat das Algonquin-Modell folgende Form: Daraus kann wiederum die Wahrscheinlichkeitsverteilung des Mischsignals aus der Wahrscheinlichkeitsverteilung der Einzelsprechersignale abgeleitet werden.
Wie schon erwähnt wird im dargestellten Ausführungsbeispiel des erfindungsgemäßen Verfahrens nur das MixMax-Interaktionsmodell behandelt.
Tracking
Die Aufgabe des Tracking beinhaltet im Prinzip das Suchen einer Sequenz von verborgenen Zuständen x*, die die bedingte Wahrscheinlichkeitsverteilung x*=arg maxxp(x | y) maximiert. Für das Tracking der Pitchverläufe über die Zeit wird im beschriebenen Ausführungsbeispiel des erfindungsgemäßen Verfahrens ein FHMM verwendet. Das FHMM erlaubt die Zustände mehrerer zeitlich parallel verlaufender Markovketten zu verfolgen, wobei die verfügbaren Beobachtungen als gemeinsamer Effekt aller einzelnen Markovketten betrachtet werden. Dabei werden die unter dem Punkt„Interaktionsmodell" beschriebenen Ergebnisse verwendet.
Bei einem FHMM werden also mehrere Markov-Ketten parallel betrachtet, wie es beispielsweise in dem beschriebenen Ausführungsbeispiel der Fall ist, wo zwei Sprecher gleichzeitig sprechen. Die Situation, die sich damit ergibt, ist in Fig. 2 dargestellt.
Wie oben erwähnt, werden die verborgenen Zuständsvariablen der Einzelsprecher mit XkW bezeichnet, wobei k die Markovketten (und damit die Sprecher) bezeichnet und der Zeitindex t von 1 bis T verläuft. Die Markovketten 1, 2 sind in Fig. 2 die horizontal verlaufend dargestellt. Die Annahme lautet, dass alle verborgenen Zuständsvariablen die Kardinalität I X I haben, im beschriebenen Ausführungsbeispiel also 170 Zustände. Die beobachtete Zufallsvariable wird mit y(') bezeichnet.
Die Abhängigkeit der verborgenen Variablen zwischen zwei aufeinander folgenden Zeitabschnitten ist definiert mit der Übergangswahrscheinlichkeit p(xkW | x^'"1')- Die Abhängigkeit der beobachteten Zufallsvariablen yW von den verborgenen Variablen desselben Zeitabschnitts ist definiert mit der Beobachtungs Wahrscheinlichkeit p(yW | xiW, X2( )) die, wie weiter oben bereits erwähnt, mittels eines Interaktionsmodelles erstellt werden kann. Die Ausgangswahrscheinlichkeit der verborgenen Variablen in jeder Kette ist gegeben als p(xkW).
Die gesamte Sequenz der Variablen lautet x= {χ '^ , x[!) und y= [yl) }, ergibt sich für die gemeinsame Verteilung aller Variablen der folgende Ausdruck: p(x,y) = p(y I x)p(x) = f[
Beim FHMM ergeben sich je Markov-Kette eine J X | x | X | Übergangsmatrix zwischen zwei verborgenen Zuständen - beim HMM wäre eine | X21 x | X21 Übergangsmatrix erlaubt, also ungleich grösser.
Die Beobachtungswahrscheinlichkeit p(y i> | ) ergibt sich im Allgemeinen mittels Marginalisierung über die unbekannten (log-)Spektren der Einzelsprecher:
p(y*> I I s >, s )p(s > | x?)p(s? | x )d s» d s» (1), wobei Interaktionsmodell darstellt.
Damit ergibt sich für (1) bei Verwendung sprecherspezifischer GMMs, Marginalisierung über Si und unter Verwendung des MixMax-Modells die folgende Darstellung:
wobei d das d-te Element des log-Spektrums y ergibt, θ™ gibt das d-te Element des zügehörigen Mittelwerts und der Varianz, und φ(γ \ Θ) = \ NV(x \ θ)άχ stellt die univariate kumulative Normalverteilung dar.
Gleichermassen ergibt sich für (1) bei Verwendung des linearen Interaktionsmodells die folgende Darstellung: wobei y das Spektrum des Mischsignals ist.
Fig. 3 zeigt in einer schematischen Darstellung den Ablauf des erfindüngsgemäßen Verfahrens anhand eines Blockdiagramms.
Ein Sprachsignal, bzw. ein Signalgemisch aus mehreren Einzelsignalen, wird einkanalig aufgenommen, beispielsweise mit einem Mikrophon. Dieser Verfahrensschritt ist im Blockdiagramm mit 100 bezeichnet.
In einem unabhängigen Verfahrensschritt, der beispielsweise im Vorfeld der Anwendung des Verfahrens durchgeführt wird, werden in einer Trainingsphase 101 die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert. Unter Verwendung des EM (Expectation-Maximization)-Algorithmus wird für jeden der 170 Pitch-Zustände jeweils ein Sprecher abhängiges GMM trainiert. Die Trainingsphase erfolgt für alle möglichen Zustände - im beschriebenen Ausführungsbeispiel sind das für zwei Sprecher je 170 Zustände zwischen 80 und 500 Hz. Mit anderen Worten wird also ein grundfrequenzabhängiges Spektrogramm von jedem Sprecher mittels GMM trainiert, wobei das MDL-Criterion angewendet wird, um die optimale Anzahl von Gauss-Komponenten aufzufinden. In einem weiteren Schritt 102 werden die GMMs, bzw. die zugehörigen Parameter, abgelegt, beispielsweise in einer Datenbank.
103: Um eine wahrscheinlichkeitstheoretische Wiedergabe des Mischsignals von zwei oder mehr Sprechenden bzw. der Einzelsignalanteile des Mischsignals zu erhalten, wird ein Interaktionsmodell, vorzugsweise das MixMax-Interaktionsmodell, angewandt. Anschließend wird im Rahmen des Trackens 104 der Grundfrequenzverläufe das FHMM angewandt. Mittels FHMM ist es möglich, die Zustände mehrerer verborgener Markov-Prozesse zu tracken, die gleichzeitig ablaufen, wobei die verfügbaren Beobachtungen als Auswirkungen der einzelnen Markov-Prozesse betrachtet werden.

Claims

ANSPRÜCHE
1. Verfahren zur Ermittlung von Grundfrequeriz-Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals, umfassend die folgenden Schritte: a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten;
b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfreqüenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells;
c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in a) die Spektrogramm- Eigenschaften mittels einem Gaussian Mixture Modell (GMM) ermittelt werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass weiters das Minimurrv- Decscription-Length Criterion angewandt wird, um die Anzahl der Komponenten des GMM zu ermitteln.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass in b) als Interaktiönsmodell ein lineares Modell oder das MixMax-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet werden.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Tracken in c) mittels des Factorial Hidden Markov Modells (FHMM) erfolgt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Lösung des FHMM der Sum-Product Algorithmus oder der Max-Sum Algorithmus verwendet werden.
EP11708975.5A 2010-03-01 2011-02-22 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen Not-in-force EP2543035B1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AT3152010A AT509512B1 (de) 2010-03-01 2010-03-01 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
PCT/AT2011/000088 WO2011106809A1 (de) 2010-03-01 2011-02-22 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Publications (2)

Publication Number Publication Date
EP2543035A1 true EP2543035A1 (de) 2013-01-09
EP2543035B1 EP2543035B1 (de) 2013-12-11

Family

ID=44247016

Family Applications (1)

Application Number Title Priority Date Filing Date
EP11708975.5A Not-in-force EP2543035B1 (de) 2010-03-01 2011-02-22 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Country Status (4)

Country Link
US (1) US20130151245A1 (de)
EP (1) EP2543035B1 (de)
AT (1) AT509512B1 (de)
WO (1) WO2011106809A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition
CN113851114B (zh) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 语音信号的基频确定方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2011106809A1 *

Also Published As

Publication number Publication date
AT509512A1 (de) 2011-09-15
EP2543035B1 (de) 2013-12-11
US20130151245A1 (en) 2013-06-13
AT509512B1 (de) 2012-12-15
WO2011106809A1 (de) 2011-09-09

Similar Documents

Publication Publication Date Title
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112017001830B4 (de) Sprachverbesserung und audioereignisdetektion für eine umgebung mit nichtstationären geräuschen
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
EP1896124B1 (de) Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals
DE112009000805B4 (de) Rauschreduktion
DE60023517T2 (de) Klassifizierung von schallquellen
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP2405673B1 (de) Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem
DE112016006218T5 (de) Schallsignalverbesserung
DE112013005085T5 (de) Verfahren zum Umwandeln eines Eingangssignals
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
Mohammadiha et al. Prediction based filtering and smoothing to exploit temporal dependencies in NMF
DE102005030326B4 (de) Vorrichtung, Verfahren und Computerprogramm zur Analyse eines Audiosignals
EP3089481A1 (de) Verfahren zur frequenzabhängigen rauschunterdrückung eines eingangssignals
EP2543035B1 (de) Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
WO2022013045A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
EP1981582B1 (de) Vorrichtung und computerprogramm zum erzeugen eines ansteuersignals für ein cochlea-implantat basierend auf einem audiosignal
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung
EP1345208A2 (de) Automatische Detektion von Sprecherwechseln in sprecheradaptiven Spracherkennungssystemen
EP4027333B1 (de) Virtueller sprachassistent mit verbesserter erkennungsgenauigkeit
DE102022209004B3 (de) Vorrichtung und Verfahren zum Verarbeiten eines Audiosignals

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20120814

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: DE

Ref legal event code: R079

Ref document number: 502011001800

Country of ref document: DE

Free format text: PREVIOUS MAIN CLASS: G10L0011040000

Ipc: G10L0025900000

DAX Request for extension of the european patent (deleted)
GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

RIC1 Information provided on ipc code assigned before grant

Ipc: G10L 25/90 20130101AFI20130528BHEP

INTG Intention to grant announced

Effective date: 20130627

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 644939

Country of ref document: AT

Kind code of ref document: T

Effective date: 20140115

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: GERMAN

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 502011001800

Country of ref document: DE

Effective date: 20140206

REG Reference to a national code

Ref country code: NL

Ref legal event code: VDEP

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140311

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: NL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140411

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: RO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140411

BERE Be: lapsed

Owner name: TECHNISCHE UNIVERSITAT GRAZ

Effective date: 20140228

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502011001800

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: LU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140222

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

26N No opposition filed

Effective date: 20140912

REG Reference to a national code

Ref country code: FR

Ref legal event code: ST

Effective date: 20141031

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 502011001800

Country of ref document: DE

Effective date: 20140912

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: FR

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140222

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20140228

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20150219

Year of fee payment: 5

GBPC Gb: european patent ceased through non-payment of renewal fee

Effective date: 20150222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: GB

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20140312

Ref country code: IT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20110222

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

REG Reference to a national code

Ref country code: DE

Ref legal event code: R119

Ref document number: 502011001800

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160901

REG Reference to a national code

Ref country code: AT

Ref legal event code: MM01

Ref document number: 644939

Country of ref document: AT

Kind code of ref document: T

Effective date: 20160222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AT

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160222

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20131211