AT509512A1 - Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen - Google Patents

Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen Download PDF

Info

Publication number
AT509512A1
AT509512A1 AT3152010A AT3152010A AT509512A1 AT 509512 A1 AT509512 A1 AT 509512A1 AT 3152010 A AT3152010 A AT 3152010A AT 3152010 A AT3152010 A AT 3152010A AT 509512 A1 AT509512 A1 AT 509512A1
Authority
AT
Austria
Prior art keywords
model
fundamental frequency
signal sources
speakers
interaction model
Prior art date
Application number
AT3152010A
Other languages
English (en)
Other versions
AT509512B1 (de
Inventor
Michael Wohlmayr
Michael Stark
Franz Pernkopf
Original Assignee
Univ Graz Tech
Forschungsholding Tu Graz Gmbh
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Graz Tech, Forschungsholding Tu Graz Gmbh filed Critical Univ Graz Tech
Priority to AT3152010A priority Critical patent/AT509512B1/de
Priority to US13/582,057 priority patent/US20130151245A1/en
Priority to PCT/AT2011/000088 priority patent/WO2011106809A1/de
Priority to EP11708975.5A priority patent/EP2543035B1/de
Publication of AT509512A1 publication Critical patent/AT509512A1/de
Application granted granted Critical
Publication of AT509512B1 publication Critical patent/AT509512B1/de

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Description

«· #♦ · · P11514 • 9 ·
Verfahren zur Ermittlung von Grundfrequenz-Verläufen mehrerer
Signalquellen
Die Erfindung betrifft ein Verfahren zur Ermittlung von Grundfrequenz-Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals.
Verfahren zur Verfolgung bzw. Trennung von einkanaligen Sprachsignalen über die wahrgenommene Grundfrequenz (der englische Fachbegriff „Pitch" wird im Rahmen der folgere den Ausführungen gleichbedeutend mit der wahrgenommenen Grundfrequenz verwendet) werden in einer Reihe von Algorithmen und Applikationen in der Sprach- und Audio-signalverarbeitung verwendet, wie z.B. bei der einkanaligen Quellentrennung (Single-Channel Blind Source Separation; SCSS) (D. Morgan et aL, „Cochannel Speaker Separation by harmonic enhancement and Suppression", IEEE Transactions on Speech and Audio Processing, Vol. 5, pp. 407-424, 1997), der Computational Auditory Scene Analysis (CASA) (DeLiang Wang, „On Ideal Binary Mask As the Computational Goal of Auditory Scene Analysis", P. Divenyi [Ed], Speech Separation by Humans and Machines, Kluwer Academic, 2004)und der Sprachkompression (R. Salami et al., „ A toll quality 8 kb/s Speech codec for the personal Communications System (PCS)", IEEE Transactions on Vehicular Technology, Vol. 43, pp. 808-816,1994). Typische Anwendungen solcher Verfahren sind beispielsweise Konfe-renzsituationen, wo während eines Vortrags manchmal mehrere Stimmen hörbar sind und dadurch die Erkennungsrate einer automatischen Spracherkennung stark sinkt. Auch eine Anwendung in Hörgeräten ist möglich.
Die Grundfrequenz ist eine fundamentale Größe in der Analyse, Erkennung, Codierung, Kompression und Darstellung von Sprache. Sprachsignale lassen sich durch die Überlagerung von sinusförmigen Schwingungen beschreiben. Für stimmhafte Laute wie z.B. Vokale ist dabei die Frequenz dieser Schwingungen entweder die Grundfrequenz oder ein Vielfaches der Grundfrequenz, die sog. Oberschwingungen bzw. Obertöne. Damit lassen sich Sprachsignale durch Identifizierung der Grundfrequenz des Signals bestimmten Signalquellen zuordnen. Während für den Fall eines einzelnen Sprechers bei rauscharmer Aufnahme bereits eine Reihe von erprobten Methoden für die Abschätzung bzw. die Verfolgung (Tracking) der Grundfrequenz in Verwendung ist, gibt es nach wie vor Probleme bei der Bearbeitung von minderwertigen (also mit Störgeräuschen wie Rauschen versehenen) Aufnahmen mehrerer gleichzeitig sprechender Personen. -2- P11514 • · • ·
Mingyang Wu et al. schlagen in „A Multipitch Tracking Algorithm for Noisy Speech" (IEEE Transactions on Speech and Audio Processing, Volume 11, Issue 3, pp. 229-241, May 2003) eine Lösung für robustes mehrfaches Grundfrequenztracking bei Aufnahmen mit mehreren Sprechern vor. Die Lösung basiert auf dem unitären Modell für Grundfrequenzwahrneh-mung, für das verschiedene Verbesserungen vorgeschlagen werden, um eine wahrschein-lichkeitstheoretische Darstellung der Periodizitäten des Signals zu erhalten. Die Nachverfolgung der Wahrscheinlichkeiten der Periodizitäten unter Verwendung des Hidden Markov Model (HMM) ermöglicht die Darstellung semikontinuierlicher Grundfrequenzverläufe. Nachteilig an dieser Lösung ist zum einen der hohe Rechenaufwand und die dadurch benötigten Rechnerressourcen, andererseits die Tatsache, dass eine ordnungsgemäße Zuordnung der Grundfrequenzen zu den passenden Signalquellen, bzw. Sprechern nicht möglich ist. Der Grund dafür ist die Tatsache, dass in diesem System keine sprecherspezifischen Informationen eingebunden werden bzw. zur Verfügung stehen, die eine derartige Verknüpfung von gemessenen Pitchwerten und Sprechern ermöglichen würde.
Es ist daher eine Aufgabe der Erfindung, ein Verfahren für mehrfaches Grundfrequenztracking bereitzustellen, das eine sichere Zuordnung der ermittelten Grundfrequenzen zu Signalquellen bzw. Sprechern erlaubt und gleichzeitig eine geringe Speicher- und Rechenin-tensivität aufweist.
Diese Aufgabe wird mit einem Verfahren der eingangs genannten Art erfindungsgemäß durch die folgenden Schritte gelöst a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten; b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfrequenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells; c) Tracken der Grundfrequenzverläufe der einzelnen Signalquellen.
Dank der Erfindung lässt sich eine hohe Genauigkeit des Trackens der mehrfachen Grundfrequenzen erreichen, bzw. können Grundfrequenzverläufe besser den jeweiligen Signalquellen bzw. Sprechern zugeordnet werden. Durch eine Trainingsphase a) unter Verwendung sprecherspezifischer Informationen und die Wahl eines geeigneten Interaktionsmodells in b) wird der rechnerische Aufwand deutlich minimiert, sodass die Methode rasch und ressourcenarm durchgeführt werden kann. Dabei werden nicht Mischspektren mit den jeweiligen Einzelsprecheranteilen (im einfachsten Fall zwei Sprecher und ein entsprechendes Grundfrequenz-Paar) trainiert, sondern die jeweiligen Einzelsprecheranteile, was den Rechenaufwand und die Zahl der durchzuführenden Trainingsphasen weiter minimiert. Da je
Signalquelle Pitchzustände aus einem abgegrenzten Frequenzbereich (z.B. 80 bis 500 Hz) betrachtet werden, ergibt sich bei Kombination der Zustände in Schritt b) eine begrenzte Anzahl von Grundfrequenzkombinationen, die als „mögliche" Grundfrequenzkombinationen bezeichnet werden. Der Begriff Spektrum steht in weiterer Folge für das Magnituden-Spek-trum; je nach Wahl des Interaktionsmodells in b) werden das Kurzzeit-Magnitudenspektrum oder das logarithmische Kurzzeit-Magmtudenspektrum (log-Spektrum) verwendet.
Die Anzahl der zu trainierenden Pitchzustände ergibt sich aus dem beobachteten Frequenzbereich und dessen Unterteilung (siehe weiter unten). Bei Sprachaufnahmen beträgt ein solcher Frequenzbereich beispielsweise 80 bis 500 Hz.
Aus Sprachmodellen einzelner Sprecher kann mit Hilfe des in b) angewandten Interaktionsmodells ein Wahrscheinlichkeitsmodell aller im oben genannten Frequenzbereich möglichen Pitchkombinationen, bzw. für ein gewünschtes Sprecherpaar (also z.B. für eine Aufnahme, auf der zwei Sprecher zu hören sind), erhalten werden. Bei der Annahme von zwei Sprechern mit jeweils A Zuständen bedeutet das also, dass eine A x A-Matrix mit den Wahrscheinlichkeiten für alle möglichen Kombinationen ermittelt wird. Für die einzelnen Sprecher können auch Sprachmodelle verwendet werden, die eine Vielzahl von Sprechern beschreiben, beispielsweise, indem das Modell auf geschlechtsspezifische Merkmale abstellt (speaker-independent, bzw. gender-dependent). Für das Tracking in c) kann eine Reihe von Algorithmen verwendet werden. Beispielsweise kann die zeitliche Abfolge der geschätzen Pitchwerte durch ein Hidden Markov Model (HMM) oder auch durch ein Factorial Hidden Markov Model (FHMM) modelliert werden, und auf diese graphischen Modelle können der Max-Sum Algorithmus, der Junction-Tree Algorithmus oder der Sum-Product-Algorithmus zum Einsatz kommen. In einer Variante der Erfindung ist es auch möglich, die auf isolierten Zeitfenstem geschätzten Pitchwerte unabhängig voneinander zu betrachten und auszuwerten, ohne einen der oben genannten Tracking-Algorithmen anzusetzen. Für die Beschreibung der Spektrogramm-Eigenschaften kann ein allgemeines, parametrisches oder auch nichtparametrisches statistisches Modell verwendet werden. Günstigerweise werden in a) die Spektrogramm-Eigenschaften mittels eines Gaussian Mixture Modells (GMM) ermittelt.
Vorteilhafterweise wird die Anzahl der Komponenten eines GMM durch Anwendung des Minimum-Description-Length (MDL) Criterion ermittelt. Das MDL-Criterion dient zur Wahl eines Modells aus einer Vielzahl möglicher Modelle. Beispielsweise unterscheiden sich die
Modelle, wie im vorliegenden Fall, nur durch die Anzahl der verwendeten Gausskomponen-ten. Neben dem MDL-Criterion ist beispielsweise auch die Verwendung des Akaike Information Criterion (AIQ möglich.
In b) werden als Interaktionsmodell ein lineares Modell oder das Mixture-Maximization (MixMax)-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet. Günstigerweise erfolgt das Tracken in c) mittels des Factorial Hidden Markov Modells (FHMM).
Zur Durchführung des Trackings auf einem FHMM können eine Reihe von Algorithmen verwendet werden, beispielsweise werden in Varianten der Erfindung der Sum-Product Algorithmus oder der Max-Sum-Algorithmus verwendet
Im Folgenden wird die Erfindung anhand eines nicht einschränkenden Ausftihrungsbei-spiels, das in der Zeichnung dargestellt ist, näher erläutert. In dieser zeigt schematisch:
Fig. 1 einen Faktorgraphen der grundfrequenzabhängigen Erzeugung eines aus zwei Einzelsprecher(log)spektren resultierenden (log-)Spektrums y eines Mischsignals,
Fig, 2 eine Darstellung des FHMM, und
Fig. 3 ein Blockdiagramm des erfindungsgemäßen Verfahrens.
Die Erfindung betrifft ein einfaches und effizientes Modellierungsverfahren für das Grundfrequenztracking von mehreren gleichzeitig emittierenden Signalquellen, beispielsweise Sprechern in einer Konferenz- oder Besprechungssituation. Nachfolgend wird die erfindungsgemäße Methode aus Gründen der Nachvollziehbarkeit anhand von zwei Sprechern dargestellt, allerdings lässt sich das Verfahren auf eine beliebige Anzahl von Subjekten anwenden. Dabei sind die Sprachsignale einkanalig, werden also mit nur einem Aufnahme-mittel - z.B. Mikrophon - aufgenommen.
Das Kurzzeitspektrum eines Sprachsignals bei gegebener Sprachgrundfrequenz lässt sich mit Hilfe von Wahrscheinlichkeitsverteilungen wie der Gauß/ sehen Normalverteilung beschreiben. Eine einzelne Nonnaiverteilung, gegeben durch die Parameter Mittelwert μ und Varianz σ2, reicht dabei zumeist nicht aus. Zur Modellierung allgemeiner, komplexer Wahrscheinlichkeitsverteilungen verwendet man üblicherweise Mischverteilungen wie beispielsweise das Gaussian Mixture Model (bzw. Gauß'sch es Mischverteilungsmodell - GMM). Das GMM setzt sich additiv aus mehreren einzelnen Gauß'schen Normalverteilungen zusammen. Dabei kann eine M-fache Gaußverteilung mit 3M-1 Parametern beschrieben werden - P11514 ** Μ | · · • · · · · ♦ · • · * · · -5 - ·* ·· ··
Mittelwert, Varianz und Gewichtungsfaktor für jede der M Gaußverteilungen (der Gewichtungsfaktor der M-ten Gausskomponente ist redundant, daher das „-1"). Für die Modellierung beobachteter Datenpunkte durch ein GMM wird häufig ein Spezialfall des „Expectation Maximization"-Algorithmus verwendet, wie weiter unten beschreiben ist.
Der Verlauf der Pitchzustände eines Sprechers kann näherungsweise durch eine Markovket-te beschrieben werden. Die Markov-Eigenschaft dieser Zustandsketten besagt, dass der Folgezustand nur vom gegenwärtigen Zustand abhängt und nicht von vorangegangenen Zuständen.
Bei der Analyse eines Sprachsignals zweier gleichzeitig sprechender Subjekte ist nur das resultierende Spektrum yW der Mischung der beiden einzelnen Sprachsignale verfügbar, nicht aber die Pitchzustände xi(‘) und Χ2<·> der Einzelsprecher. Der tiefgestellte Index bei den Pitchzuständen bezeichnet dabei Sprecher 1 und 2, während der hochgestellte Zeitindex von t=l, ...., T verläuft. Diese einzelnen Pitchzustände sind verborgene Variablen. Zur Auswertung wird beispielsweise ein Hidden Markov Modell (HMM) verwendet, bei dem aus den beobachtbaren Zuständen (hier also aus dem resultierenden Spektrum y(‘) der Mischung) auf die verborgenen Variablen bzw. Zustände geschlossen wird.
Jede verborgene Variable hat im beschriebenen Ausführungsbeispiel | X | =170 Zustände mit Grundfrequenzen aus dem Intervall von 80 bis 500 Hz. Natürlich können auch mehr oder weniger Zustände aus anderen Grundfrequenzintervallen verwendet werden. ermittelt. Die Samplingrate beträgt fs=16 kHz. Das Pitch-Intervall wird
Formel f0 =
Der Zustand „1" bedeutet „kein Pitch" (stimmlos bzw. keine Sprachaktivität), während Zustandswerte „2" bis „170" verschiedene Grundfrequenzen zwischen den oben genannten Werten bezeichnen. Im Speziellen wird der Pitch-Wert fo für die Zustände x>l nach der fs 30 +jc also uneinheitlich aufgelöst; niedrige Pitch-Werte haben eine feinere Auflösung als hohe Pitch-Werte: Die Zustände 168,169 und 170 haben Grundfrequenzen von 80,80 Hz (x=168), 80,40 Hz (x=169) und 80,00 Hz (x=170), während die Zustände 2,3 und 4 die Grundfrequenzen 500,00 Hz (x=2), 484,84 Hz (x=3) und 470,58 Hz (x=4) haben.
Das erfindungsgemäße Verfahren umfasst im beschriebenen Ausführungsbeispiel die folgenden Schritte: - Trainingsphase: Trainieren eines sprecherabhängigen GMM zur Modellierung des Kurzzeitspektrums für jeden der 170 Zustände (169 Grundfrequenzzustände sowie der Zustand „kein Pitch") jedes Einzelsprechers; # ·· P11514 ·# ·· ·· 4 t I «·«· 4 • · · · · * · ♦ · * « · · · s *· ·· ♦♦♦· - 6- - Interaktions-Modell: Ermitteln einer wahrscheinlichkeitstheoretischen Darstellung für die Mischung der beiden Einzelsprecher unter Anwendung eines Interaktionsmodells, z.B. des MixMax-Interakbonsmodells; abhängig von der Wahl des Interaktionsmodells wird in der Trainingsphase entweder das Kurzzeit-Magnitudenspektrum oder das loga-rithmische Kurzzeit-Magnituden-Spektrum modelliert - Tracking: Ermitteln der Grundfrequenztrajektorien der beiden Einzelsprecher unter Verwendung eines geeigneten Tracking Algorithmus, z.B. Junction-Tree oder Sum-Product (im vorliegenden Ausfühnmgsbeispiel wird die Anwendung des Factorial Hidden Markov Modells (FHMM) beschrieben).
Trainingsphase
In der erfindungsgemäßen Methode wird ein überwachtes Szenario angenommen, in dem die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert werden. Dabei können im Prinzip alle überwachten Trainingsmethoden eingesetzt werden, also generative und diskriminative. Die Spektrogramm-Eigenschaften lassen sich durch ein allgemeines, parametrisches oder auch nicht-parametrisches statistisches Modell p(si | xi) beschreiben. Die Verwendung von GMMs stellt also einen Spezialfall dar.
Im vorliegenden Ausführungsbeispiel werden unter Verwendung des EM (Expectation-Maximization)-Algorithmus für jeden Sprecher 170 GMMs trainiert (ein GMM pro Pitch-Zustand). Bei den Trainingsdaten handelt es sich beispielsweise um Tonaufnahmen von Einzelsprechem, also einen Satz von Ni log-Spektren von i Einzelsprechem, S( = {5^,...,5.^), zusammen mit den zugehörigen Pitch-Werten Diese Daten können automatisch mit einem Pitchtracker aus Einzelsprecheraufnahmen erzeugt werden.
Der EM-Algorithmus ist eine iterative Optirnierungsmethode zum Abschätzen unbekannter Parameter beim Vorliegen von bekannten Daten wie Trainingsdaten. Dabei wird iterativ durch abwechselnde Klassifikation (Expectation-Schritt) und eine anschließende Anpassung der Modellparameter (Maximization-Schritt) die Wahrscheinlichkeit für das Auftreten eines stochastischen Prozesses bei einem vorgegebenen Modell maximiert.
Da der stochastische Prozess - im vorliegenden Fall das Spektrum des Sprachsignals - durch die Trainingsdaten gegeben ist, müssen zur Maximierung die Modellparameter angepasst werden. Die Voraussetzung für das Auf finden dieses Maximums ist, dass nach jedem Induktionsschritt und der Berechnung eines neuen Modells der Likelihood des Modells ansteigt. Zur Initialisierung des Lemalgorithmus wird eine Anzahl überlagerter Gaussverteilungen und ein GMM mit beliebigen Parametern (z.B. Mittelwert, Varianz und Gewichtungsfaktoren) gewählt. P11514 P11514
-7-
Durch die iterative Maximum-Likelihood (ML)-Schätzung des EM erhält man also ein repräsentatives Modell für das Einzelsprecher-Sprachsignal, im vorliegenden Fall ein sprecherabhängiges GMM j. Damit müssen für jeden Sprecher 170 GMMs trainiert werden, also ein GMM für jeden Pitch-Zustand xi entsprechend der oben definierten Anzahl von Zuständen.
Ehe Modellierung der zustandsabhängigen log-Einzelspektren der Sprecher mittels GMM im vorliegenden Ausführungsbeispiel erfolgt also gemäß
> 1 bezeichnet dabei die Anzahl der Mischungskomponenten (also der Normalvertei-lungen, die zur Darstellung des Spektrums notwendig sind), a*A ist der Gewichtungsfaktor jeder Komponente m = 1,..., Mljc . „NV" bezeichnet die Normalverteilung.
Der Gewichtungsfaktor or™. muss positiv sein - a” > 0 - und die Normierungsbedingung = 1 erfüllen. Das zugehörige GMM ist vollständig bestimmt durch die Parameter
= {er mit j; μ steht dabei für den Mittelwert, Σ bezeichnet die Kovarianz.
Nach der Trainingsphase liegen also GMMs für alle Grundfrequenzwerte aller Sprecher vor. Im vorliegenden Ausführungsbeispiel bedeutet das: Zwei Sprecher mit je 170 Zuständen aus dem Frequenzintervall 80 bis 500 Hz. Es sei noch einmal darauf hingewiesen, dass es sich hier um ein Ausführungsbeispiel handelt und das Verfahren auch auf mehrere Signalquellen und andere Frequenzintervalle anwendbar ist
Interaktions-Modell
Zur Analyse werden die aufgenommenen und mit einer Samplingfrequenz von beispielsweise fs=16kHz gesampelten einkanaligen Sprachsignale zeitabschnittsweise betrachtet. In jedem Zeitabschnitt t wird das beobachtete (log-)Spektrum yW des Mischsignals, also der Mischung der beiden Einzelsprechersignale, mit der Beobachtungswahrscheinlichkeit p(yW | xiW, χ2<ι>) modelliert. Anhand dieser Beobachtungswahrscheinlichkeit können beispielsweise die zu jedem Zeitpunkt wahrscheinlichsten Pitch-Zustände beider Sprecher ermittelt werden, oder die Beobachtungswahrscheinlichkeit dient direkt als Input für den in Schritt c) verwendeten Tracking-Algorithmus. ΡΠ514
ΡΠ514 »· ·· «» • « t « I # t · * * · • · « · · • · · i I ·· II «IM -8- * · ·· Μ I · · • · · · · • MM · * • · · ·
Ml · ··
Im Prinzip lassen sich die (log-)Spektren der einzelnen Sprecher, bzw. p(si j xi) und p(s21 xi), zum Mischsignal y addieren; die Magnituden-Spektren addieren sich näherungsweise, daher gilt für die log-Magnitudenspektren: y=log(exp(si)+exp(s2))- Die Wahrscheinlichkeitsverteilung des Mischsignals ist also eine Funktion der beiden Einzelsignale, p(y)=f(p(si), p(s2)). Die Funktion hängt nun davon ab, welches Interaktionsmodell gewählt wird.
Dafür sind mehrere Herangehensweisen möglich. Beim linearen Modell werden im Magni-tudenspektrogramm die Einzelspektren gemäß der oben angegebenen Form addiert, das Mischsignal dst also näherungsweise die Summe der Magnitudenspektren der Einzelsprecher. Vereinfacht ausgedrückt bildet also die Summe der Wahrscheinlichkeitsverteilungen der beiden Einzelsprecher, NV(si | μι, Σι) und NV(s21 μ2, Σ2), die Wahrscheinlichkeitsverteilung des Mischsignals NV(y | μι+μ2, Σ1+Σ2), wobei hier nur aus Gründen der besseren Verständlichkeit Normalverteilungen angeführt sind - gemäß der erfindungsgemäßen Methode handelt es sich bei den Wahrscheinlichkeitsverteilungen um GMMs.
Im darges teilten Ausführungsbeispiel des erfindungsgemäßen Verfahrens wird ein weiteres Interaktionsmodell verwendet Nach dem MixMax-Interaktionsmodell kann das log-Spektrogramm zweier Sprecher durch das elementweise Maximum der log-Spektra der Einzelsprecher approximiert werden. Damit ist es möglich, rasch ein gutes Wahrscheinlichkeitsmodell des beobachteten Mischsignals zu erhalten. Dadurch werden auch Dauer und Rechenaufwand der Lemphase drastisch reduziert. Für jeden Zeitabschnitt t gilt yM = max(si(‘>, S2W), wobei SiW das log-Magnitudenspektrum des Sprechers i ist. Das log-Magnitudenspektrum y(‘> wird also erzeugt mittels eines stochastischen Modells, wie es in Fig. 1 dargestellt ist.
Darin produzieren die beiden Sprecher (i=l, 2) je ein log-Magnitudenspektrum si<*) in Abhängigkeit des Grundfrequenzzustandes Xi<‘). Das beobachtete log-Magnitudenspektrum y(') des Mischsignals wird approximiert durch die elementweisen Maxima beider Einzelspre-cher-log-Magnitudenspektren. Mit anderen Worten: Für jeden Frame des Zeitsignals (Sam-ples des Zeitsignals werden in Frames zusammengefasst, und aus Samples eines Frames wird dann mittels FFT (Fast Fourier Transformation) und unter Ausschluss der Fhasenin-formation das Kurzzeitmagnitudenspektrum berechnet) wird das logarithmische Magnitu-denspektrogramm des Mischsignals angenähert durch das elementweise Maximum beider logarithmischer Einzelsprecher-Spektren. Anstatt die nicht zugänglichen Sprachsignale der Einzelsprecher zu betrachten, werden die Wahrscheinlichkeiten der Spektren betrachtet, die zuvor einzeln gelernt werden konnten. P11514 -9- φφ ·♦ *· • φ φ φ φ · φ φ * φ φ φ φ · φ · • φ φ φ φ φ» »« φφφφ φ · Φ 4 Für einen fixen Grundfrequenz-Wert in Bezug auf einen Zustand Xj<‘> erzeugt Sprecher i ein log-Spektrum, SiW, das eine Realisienmg der durch das EinzelsprechermodeU p(siW j XjW) beschriebenen Verteilung darstellt.
Die beiden log-Spektren werden dann durch den elementweisen Maximum-Operator kombiniert, um das beobachtbare log-Spektrum y(‘) zu formen. Damit ist also p(y(t) | sf, sf ) = max(s1(t,,S2)))/ wobei δ(.) die Dirac'sche Deltafunktion bezeichnet
Bei Verwendung des MixMax-Interaktionsmodells müssen also die GMMs für jeden Zustand jedes Sprechers ermittelt werden, also zwei Mal die Kardinalität der Zustandsvariablen. Bei herkömmlichen Modellen resultieren bei den angenommenen 170 verschiedenen Grundfrequenzzuständen für jeden Sprecher insgesamt 28900 verschiedene Grundfrequenzpaarungen, was einen deutlich erhöhten Rechenaufwand bewirkt.
Neben dem linearen Modell und dem MixMax-Interaktionsmodell können auch noch andere Modelle verwendet werden. Ein Beispiel dafür ist das Algonquin-Modell, wie es beispielsweise Brendan J. Frey et al. in „ALGONQUIN - Leaming dynamic noise models from noisy speech for robust speech recognition" (Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, pp. 1165-1172, January 2002) beschreiben.
Wie auch beim MixMax-Interaktionsmodell wird mit dem Algonquin-Modell das log-Magnitudenspektrum der Mischung zweier Sprecher modelliert. Während beim MixMax-Interaktionsmodell y=max(si,S2) gilt, hat das Algonquin-Modell folgende Form: y=si+log(l+exp(s2-si). Daraus kann wiederum die Wahrscheinlichkeitsverteilung des Mischsignals aus der Wahrscheinlichkeitsverteilimg der Einzelsprechersignale abgeleitet werden.
Wie schon erwähnt wird im dargestellten Ausführungsbeispiel des erfindungsgemäßen Verfahrens nur das MixMax-Interaktionsmodell behandelt.
Tracking
Die Aufgabe des Tracking beinhaltet im Prinzip das Suchen einer Sequenz von verborgenen Zuständen x*, die die bedingte Wahrscheinlichkeitsverteilimg x*=arg maxxp(x | y) maximiert Für das Tracking der Pitchverläufe über die Zeit wird im beschriebenen Ausführungsbeispiel des erfindungsgemäßen Verfahrens ein FHMM verwendet. Das FHMM erlaubt die Zustände mehrerer zeitlich parallel verlaufender Markovketten zu verfolgen, wobei die verfügbaren Beobachtungen als gemeinsamer Effekt aller einzelnen Markovketten betrachtet P11514 -10- • · ··
werden. Dabei werden die unter dem Punkt „Interaktionsmodell" beschriebenen Ergebnisse verwendet.
Bei einem FHMM werden also mehrere Markov-Ketten parallel betrachtet, wie es beispielsweise in dem beschriebenen Ausführungsbeispiel der Fall ist, wo zwei Sprecher gleichzeitig sprechen. Die Situation, die sich damit ergibt, ist in Fig. 2 dargestellt.
Wie oben erwähnt, werden die verborgenen Zustandsvariablen der Einzelsprecher mit XkW bezeichnet, wobei k die Markovketten (und damit die Sprecher) bezeichnet und der Zeitindex t von 1 bis T verläuft. Die Markovketten 1, 2 sind in Fig. 2 die horizontal verlaufend dargestellt. Die Annahme lautet, dass alle verborgenen Zustandsvariablen die Kardinalität | X j haben, im beschriebenen Ausführungsbeispiel also 170 Zustände. Die beobachtete Zufallsvariable wird mit yO bezeichnet
Die Abhängigkeit der verborgenen Variablen zwischen zwei aufeinander folgenden Zeitabschnitten ist definiert mit der Übergangswahrscheinlichkeit ρ(χκ<4) | Die Abhängigkeit der beobachteten Zufallsvariablen yW von den verborgenen Variablen desselben Zeitabschnitts ist definiert mit der Beobachtungswahrscheinlichkeit p(y<t) | xiW, x#), die, wie weiter oben bereits erwähnt, mittels eines Interaktionsmodelles erstellt werden kann. Die Ausgangswahrscheinlichkeit der verborgenen Variablen in jeder Kette ist gegeben als p(xkW)·
Die gesamte Sequenz der Variablen lautet ^iXifc0»·^0} ^ Υ=ί£ιΜ' er8art sich f01 die gemeinsame Verteilung aller Variablen der folgende Ausdruck:
P(x,y) = P(y I x)p(x) = fl pWfbfe'’ I *Γ>)Πί>(>'1” I 1-2
Beim FHMM ergeben sich je Markov-Kette eine | X | x | X | Übergangsmatrix zwischen zwei verborgenen Zuständen - beim HMM wäre eine | X21 x | X21 Übergangsmatrix erlaubt, also ungleich grösser.
Die Beobachtungswahrscheinlichkeit p{y(t> | x,(i), odp ) ergibt sich im Allgemeinen mittels Marginalisierung über die unbekannten (log-)Spektren der Einzelsprecher:
wobei p(y® Isf^sjf) das Interaktionsmodell darstellt. ·· P11514 m · t · · · · · • « · · · ♦ t t · · * * « « · * « ♦ -11- • t *« ·*·· ···
Damit ergibt sich für (1) bei Verwendung sprecherspezifischer GMMs, Marginalisierung über Sj und unter Verwendung des MixMax-ModeUs die folgende Darstellung: M, M2 p(ylxi^2) = tt m«i,nK κ»'- i <)+«>·,, ιο^ο-,«) 1 nj=1 n=l rf=l wobei yd das d-te Element des log-Spektnuns y ergibt, 0£f gibt das d-te Element des zugehörigen Mittelwerts und der Varianz, und <f>(y | Θ) — NV(x \ 0)dx stellt die univariate kumulative Normalverteilung dar.
Gleichennassen ergibt sich für (1) bei Verwendung des linearen Interaktionsmodells die folgende Darstellung: +/¾%.¾ +ς%). =1 n=1 wobei y das Spektrum des Mischsignals ist.
Fig. 3 zeigt in einer schematischen Darstellung den Ablauf des erfindungsgemäßen Verfahrens anhand eines Blockdiagramms.
Ein Sprachsignal, bzw. ein Signalgemisch aus mehreren Einzelsignalen, wird einkanalig aufgenommen, beispielsweise mit einem Mikrophon. Dieser Verfahrensschritt ist im Blockdiagramm mit 100 bezeichnet
In einem unabhängigen Verfahrensschritt, der beispielsweise im Vorfeld der Anwendung des Verfahrens durchgeführt wird, werden in einer Trainingsphase 101 die Sprachsignale der Einzelsprecher unter Ausnutzung von Trainingsdaten modelliert Unter Verwendung des EM (Expectation-Maximization)-Algorithmus wird für jeden der 170 Pitch-Zustände jeweils ein sprecherabhängiges GMM trainiert Die Trainingsphase erfolgt für alle möglichen Zustände - im beschriebenen Ausführungsbeispiel sind das für zwei Sprecher je 170 Zustände zwischen 80 und 500 Hz. Mit anderen Worten wird also ein grundfrequenzabhängiges Spektrogramm von jedem Sprecher mittels GMM trainiert wobei das MDL-Criterion angewendet wird, um die optimale Anzahl von Gauss-Komponenten aufzufinden. In einem weiteren Schritt 102 werden die GMMs, bzw. die zugehörigen Parameter, abgelegt, beispielsweise in einer Datenbank. 103: Um eine wahrscheinlichkeitstheoretische Wiedergabe des Mischsignals von zwei oder mehr Sprechenden bzw. der Einzelsignalanteile des Mischsignals zu erhalten, wird ein P11514 P11514
12
Interaktionsmodell, vorzugsweise das MixMax-Interaktionsmodell, angewandt. Anschließend wird im Rahmen des Trackens 104 der Grundfrequenzverläufe das FHMM angewandt Mittels FHMM ist es möglich, die Zustände mehrerer verborgener Markov-Prozesse zu tracken, die gleichzeitig ablaufen, wobei die verfügbaren Beobachtungen als Auswirkungen der einzelnen Markov-Prozesse betrachtet werden. i 2010
Wien, den g ^

Claims (6)

  1. P11514 P11514
    -13 Ansprüche 1. Verfahren zur Ermittlung von Grundfrequenz-Verläufen mehrerer Signalquellen aus einer einkanaligen Audioaufnahme eines Mischsignals, umfassend die folgenden Schritte: a) Ermitteln der Spektrogramm-Eigenschaften der Pitchzustände einzelner Signalquellen unter Benutzung von Trainingsdaten; b) Ermitteln der Wahrscheinlichkeiten der möglichen Grundfrequenzkombinationen der in dem Mischsignal enthaltenen Signalquellen durch Kombination der in a) ermittelten Eigenschaften mittels eines Interaktionsmodells; c) Tracken der Grundfrequenz verläufe der einzelnen Signalquellen.
  2. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass in a) die Spektrogramm-Eigenschaften mittels einem Gaussian Mixture Modell (GMM) ermittelt werden.
  3. 3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass weiters das Minimum-Decscription-Length Criterion angewandt wird, um die Anzahl der Komponenten des GMM zu ermitteln,
  4. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass in b) als Interaktionsmodell ein lineares Modell oder das MixMax-Interaktionsmodell oder das ALGONQUIN-Interaktionsmodell verwendet werden.
  5. 5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass das Tra-cken in c) mittels des Factorial Hidden Markov Modells (FHMM) erfolgt.
  6. 6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass zur Lösung des FHMM der Sum-Product Algorithmus oder der Max-Sum Algorithmus verwendet werden. Wien, den ß J
AT3152010A 2010-03-01 2010-03-01 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen AT509512B1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
AT3152010A AT509512B1 (de) 2010-03-01 2010-03-01 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
US13/582,057 US20130151245A1 (en) 2010-03-01 2011-02-22 Method for Determining Fundamental-Frequency Courses of a Plurality of Signal Sources
PCT/AT2011/000088 WO2011106809A1 (de) 2010-03-01 2011-02-22 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
EP11708975.5A EP2543035B1 (de) 2010-03-01 2011-02-22 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
AT3152010A AT509512B1 (de) 2010-03-01 2010-03-01 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Publications (2)

Publication Number Publication Date
AT509512A1 true AT509512A1 (de) 2011-09-15
AT509512B1 AT509512B1 (de) 2012-12-15

Family

ID=44247016

Family Applications (1)

Application Number Title Priority Date Filing Date
AT3152010A AT509512B1 (de) 2010-03-01 2010-03-01 Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen

Country Status (4)

Country Link
US (1) US20130151245A1 (de)
EP (1) EP2543035B1 (de)
AT (1) AT509512B1 (de)
WO (1) WO2011106809A1 (de)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270721B2 (en) * 2018-05-21 2022-03-08 Plantronics, Inc. Systems and methods of pre-processing of speech signals for improved speech recognition
CN113851114B (zh) * 2021-11-26 2022-02-15 深圳市倍轻松科技股份有限公司 语音信号的基频确定方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking

Also Published As

Publication number Publication date
EP2543035A1 (de) 2013-01-09
AT509512B1 (de) 2012-12-15
US20130151245A1 (en) 2013-06-13
WO2011106809A1 (de) 2011-09-09
EP2543035B1 (de) 2013-12-11

Similar Documents

Publication Publication Date Title
US20220392482A1 (en) Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
DE60104091T2 (de) Verfahren und Vorrichtung zur Sprachverbesserung in verrauschte Umgebung
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE60311548T2 (de) Verfahren zur iterativen Geräuschschätzung in einem rekursiven Zusammenhang
DE112009000805B4 (de) Rauschreduktion
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE60023517T2 (de) Klassifizierung von schallquellen
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE3306730C2 (de)
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
EP2405673B1 (de) Verfahren zum Lokalisieren einer Audioquelle und mehrkanaliges Hörsystem
WO2007000231A1 (de) Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals
DE112013005085T5 (de) Verfahren zum Umwandeln eines Eingangssignals
DE60312374T2 (de) Verfahren und system zur trennung von mehreren akustischen signalen erzeugt durch eine mehrzahl akustischer quellen
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE602004004572T2 (de) Verfolgen von Vokaltraktresonanzen unter Verwendung einer zielgeführten Einschränkung
Mohammadiha et al. Prediction based filtering and smoothing to exploit temporal dependencies in NMF
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell
DE102005030326B4 (de) Vorrichtung, Verfahren und Computerprogramm zur Analyse eines Audiosignals
AT509512B1 (de) Verfahren zur ermittlung von grundfrequenz-verläufen mehrerer signalquellen
EP3940692B1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
Martínez et al. Denoising sound signals in a bioinspired non-negative spectro-temporal domain
DE102019102414B4 (de) Verfahren und System zur Detektion von Reibelauten in Sprachsignalen

Legal Events

Date Code Title Description
MM01 Lapse because of not paying annual fees

Effective date: 20150301