EP1944754B1

EP1944754B1 - Sprachgrundfrequenzkalkulator und Verfahren zur Kalkulation einer Sprachgrundfrequenz

Info

Publication number: EP1944754B1
Application number: EP07000568.1A
Authority: EP
Inventors: Mohamed Krini; Gerhard Schmidt
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 2007-01-12
Filing date: 2007-01-12
Publication date: 2016-08-31
Anticipated expiration: 2027-01-12
Also published as: EP1944754A1

Claims

Sprachgrundfrequenzschätzer (1100), welcher zum Empfangen eines ersten Satzes von Werten (Ỹ ₁) und eines zweiten Satzes von Werten (Ỹ ₂) ausgestaltet ist, wobei der erste Satz von Werten (Ỹ ₁) eine Frequenzbereichsdarstellung eines ersten Satzes von Zeitbereichsignalwerten (y₁) innerhalb eines ersten Zeitintervalls (t₁) ist und der zweite Satz von Werten (Ỹ ₂) eine Frequenzbereichsdarstellung eines zweiten Satzes von Zeitbereichsignalwerten (y₂) innerhalb eines zweiten Zeitintervalls (t₂) ist, wobei das zweite Zeitintervall (t₂) später als und versetzt zu dem ersten Zeitintervall (t₁) ist, wobei der Sprachgrundfrequenzschätzer (1100) umfasst:
- einen ersten Leistungsdichtespektrumkalkulator (1102), welcher zum Speichern einer Version des ersten Satzes von Werten (Ỹ ₁) ausgestaltet ist und zum Bereitstellen von Werten eines ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)) durch Multiplizieren der gespeicherten Version des ersten Satzes von Werten (Ỹ ₁) mit einer komplex konjugierten Version des zweiten Satzes von Werten (Ỹ ₂) ausgestaltet ist;

- einen zweiten Leistungsdichtespektrumkalkulator (1104), welcher zum Bereitstellen von Werten eines zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)) durch Multiplizieren einer Version des zweiten Satzes von Werten (Ỹ ₂) mit einer komplex konjugierten Version des zweiten Satzes von Werten (Ỹ ₂) ausgestaltet ist;

- einen Analysator (1106), welcher zum Bestimmen einer Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis der Werte des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)) und der Werte des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)) ausgestaltet ist,
wobei der Analysator ferner ausgestaltet ist
zum Ausführen einer ersten Frequenz-Zeit-Transformation des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)), um einen ersten Satz von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) zu erhalten,
zum Ausführen einer zweiten Frequenz-Zeit-Transformation des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)), um eine zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) zu erhalten, und
zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des ersten und zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)),(r̂_ỹỹ,g (m,n)).
Sprachgrundfrequenzschätzer (1100) nach Anspruch 1, dadurch gekennzeichnet, dass der erste Leistungsdichtespektrumkalkulator (1102) zum Multiplizieren von Versionen der Sätze von Werten (Ỹ ₁,Ỹ ₂) ausgestaltet ist, welche Sätze von Zeitbereichsignalwerten (y₁, y₂) darstellen, welche überlappende Zeitintervalle (t₁, t₂) aufweisen.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 2, dadurch gekennzeichnet, dass der erste Leistungsdichtespektrumkalkulator (1102) zum Multiplizieren von Versionen der Sätze von Werten (Ỹ ₁,Ỹ ₂) ausgestaltet ist, welche Zeitbereichsignalwerte (y₁, y₂) mit überlappenden Zeitintervallen (t₁, t₂) von mindestens 25 % darstellen.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 1-3, dadurch gekennzeichnet, dass der zweite Leistungsdichtespektrumkalkulator (1104) zum Bereitstellen einer konjugiert komplexen Version des zweiten Satzes von Werten (Ỹ ₂) für den ersten Leistungsdichtespektrumkalkulator (1102) ausgestaltet ist, und wobei der erste Leistungsdichtespektrumkalkulator (1102) zum Verwenden der bereitgestellten konjugiert komplexen Version des zweiten Satzes von Werten (Ỹ ₂) als die Version, mit welcher das Gespeicherte einer Version des ersten Satzes von Werten (Ỹ ₁) zu multiplizieren ist, ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Analysator (1106) zum Ausführen einer ersten Frequenz-Zeit-Transformation des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)) ausgestaltet ist, um einen ersten Satz von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) zu erhalten, und zum Ausführen einer zweiten Frequenz-Zeit-Transformation des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)), um einen zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) zu erhalten, wobei der Analysator (1106) ferner zum Bestimmen eines Satzes von Normalisierungswerten (Ŝ_ỹỹ (Ω _µ ,n)) und eines Satzes von Gewichtungswerten (V(e ^jΩµ ,n)) aus dem zweiten Leistungsdichtespektrum (Ŝ_ỹỹ (Ω _µ ,n)) und zum Verwenden des Satzes von Normalisierungswerten (Ŝ_ỹỹ (Ω _µ ,n)) und des Satzes von Gewichtungswerten (V(e ^jΩµ ,n)) bei der ersten und zweiten Frequenz-Zeit-Transformation ausgestaltet ist, und wobei der Analysator (1106) ferner zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des ersten und zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n),(r̂_ỹỹ,g (m,n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 5, dadurch gekennzeichnet, dass der Analysator (1106) ferner einen Kompensator umfasst, welcher für ein adaptives Kompensieren der Werte des ersten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) mit einem Korrekturfaktor (Δ(m, n)), welcher auf einem Wert des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) basiert, ausgestaltet ist, und wobei der Analysator (1106) ferner zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 6, dadurch gekennzeichnet, dass der Kompensator für ein Multiplizieren des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) mit einem niedrig begrenzten Quotienten zwischen einem Wert von dem ersten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) und einem Wert des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) ausgestaltet ist, um den kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d,g,mod}(m,n)) zu erhalten.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 7, dadurch gekennzeichnet, dass der Analysator (1106) zum Kombinieren des ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) ausgestaltet ist, um einen erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) zu erhalten, wobei die Werte des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) entsprechende Werte von dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)), dem zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) oder Werten zwischen dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und dem zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) annehmen, und wobei der Analysator (1106) ferner zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 5-8, dadurch gekennzeichnet, dass der Analysator (1106) zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) durch Suchen des Indexes eines Maximalwertes (τ_p (n)) aus dem erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) innerhalb einer vorbestimmten Anzahl von Indizes (k) der Werte des erweiterten Satzes von Korrelationswerten (r̂_ỹỹ,erw (k,n)), aus dem ersten oder zweiten Satz von Korrelationsfunktionswerten ((r̂_ỹỹd,g (m,n),(r̂_ỹỹ,g (m,n)) innerhalb einer vorbestimmten Anzahl von Indizes (m) von Werten des ersten bzw. zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)),(r̂_ỹỹg (m,n)) oder aus dem kompensierten ersten Satz von Korrelationsfunktionswerten ((r̂ _{ỹỹ_d ,g,mod}(m,n)) innerhalb der vorbestimmten Anzahl von Indizes (m) von Werten des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) ausgestaltet ist, und wobei der Analysator (1106) ferner zum Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) als das Produkt einer Abtastfrequenz (f_s) und eines Reziprokwertes des gesuchten Index (τ_p (n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 9, dadurch gekennzeichnet, dass der Analysator (1106) ferner zum Bestimmen eines Zuverlässigkeitsfaktors (p_fp (n)) für die bestimmte Sprachgrundfrequenzschätzung und zum Blockieren einer Ausgabe der bestimmten Sprachgrundfrequenzschätzung (f_p(n)), falls der bestimmte Zuverlässigkeitsfaktor (p_fp (n)) für die bestimmte Sprachgrundfrequenzschätzung unterhalb eines vorbestimmten Zuverlässigkeitsfaktors (po) ist, ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 10, dadurch gekennzeichnet, dass der Analysator (1106) ferner zum Bestimmen des Zuverlässigkeitsfaktors (p_fp (n)) durch Teilen des Maximalwertes (τ̃_p (n)) bei dem gesuchten Index durch den ersten Wert des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) oder bzw. des ersten, des kompensierten ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),r̂ _{ỹỹ_d ,g,mod}(m,n),r̂_ỹỹg (m,n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 5-11, dadurch gekennzeichnet, dass der zweite Leistungsdichtespektrumkalkulator (1104) zum Bestimmen einer Schätzung des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ ,n)) und zum Bestimmen eines Rauschunterdrückungsfaktors (V(e ^jΩµ ,n)) auf der Basis des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ ,n)) ausgestaltet ist, und wobei der Analysator (1106) zum Multiplizieren des ersten und zweiten Leistungsdichtespektrums mit dem Rauschunterdrückungsfaktor (V(e ^jΩµ ,n)) vor der Frequenz-Zeit-Transformation des ersten bzw. zweiten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)),(Ŝ_ỹỹ (Ω _µ ,n)) ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 12, dadurch gekennzeichnet, dass der zweite Leistungsdichtespektrumkalkulator (1104) zum Bestimmen des Rauschunterdrückungsfaktors als das Maximum eines vorbestimmten maximalen Unterdrückungskoeffizienten (Vo) und eines Terms, welcher von einem Quotienten aus der Schätzung des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ ,n)) und des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)) abhängt, ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 12 oder 13, dadurch gekennzeichnet, dass der zweite Leistungsdichtespektrumkalkulator (1104) zum Bestimmen der Schätzung des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ ,n)) in Sprachpausen oder zum Bestimmen der Schätzung des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ ,n)) aus einer segmentweisen Schätzung des Minimums der Leistung eines Mikrofonsignals ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach den Ansprüchen 13 und 14, dadurch gekennzeichnet, dass der Rauschunterdrückungsfaktor definiert wird durch $V (e^{{j Ω}_{μ}}, n) = \max \{V_{0}, 1 - β \frac{{\hat{S}}_{nn} (Ω_{μ}, n)}{{\hat{S}}_{yy} (Ω_{μ}, n)}\}$
wobei Ŝ_nn (Ω _µ ,n) die Schätzung des Leistungsdichtespektrums des Hintergrundrauschens bezeichnet, Ŝ_yy (Ω _µ ,n) das zweite Leistungsdichtespektrum bezeichnet, Vo einen vorbestimmten maximalen Dämpfungsfaktor bezeichnet und β einen Wert für ein Überschätzen des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ ,n)) bezeichnet.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 5-15, dadurch gekennzeichnet, dass der Analysator (1106) ferner in dem Fall, dass die bestimmte Sprachgrundfrequenzschätzung unterhalb des vordefinierten Frequenzwerts (f_k) ist, zum erneuten Schätzen der Sprachgrundfrequenzschätzung ausgestaltet ist, wobei der Analysator (106) zum Ausführen des erneuten Schätzens durch Suchen eines weiteren Index (k, m) eines weiteren Maximalwertes (τ̃_p (n)) des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)), des ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)),(r̂_ỹỹ,g (m,n)) oder des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) innerhalb einer weiteren Anzahl von Werten der Sätze von Korrelationsfunktionswerten und zum Ausgeben eines Produkts einer Abtastfrequenz (f_s) und eines Reziprokwertes des weiteren Index (τ̃_p (n)) als die bestimmte Sprachgrundfrequenzschätzung ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 16, dadurch gekennzeichnet, dass der Analysator (106) zum Suchen des Index (k, m) des weiteren Maximalwertes (τ̃_p (n)) unter Verwendung einer Anzahl von Werten k des Satzes von Korrelationsfunktionswerten ausgestaltet ist, welche definiert ist durch $\frac{f_{s}}{f_{p, \max}} \leq k < \frac{f_{s}}{2 f_{p} (n)} + k_{0}$
wobei k die Anzahl von Werten des Satzes von Korrelationsfunktionswerten bezeichnet, f_p(n) die zuvor bestimmte Sprachgrundfrequenzschätzung bezeichnet, f_p,max einen vordefinierten Wert einer maximal möglichen Sprachgrundfrequenz bezeichnet, f_s eine Abtastfrequenz bezeichnet und ko eine Konstante bezeichnet.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 16 oder 17, dadurch gekennzeichnet, dass der Analysator (1106) zum Ausgeben des Produktes als die vorbestimmte Sprachgrundfrequenzschätzung nur in dem Fall ausgestaltet ist, dass der weitere Index (τ̃_p (n)) größer als 60 % des zuvor gesuchten maximalen Index (τ_p (n)) ist sowie ein Wert (r̂_ỹỹ,erw (τ̃_p (n),n)) des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) an dem weiteren Index (τ̃_p (n)) größer als ein zuvor definierter Amplitudenwert (p̃₀ ) ist.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 5-18, dadurch gekennzeichnet, dass der Analysator (1106) zum Modifizieren einer Sprachgrunddauer (τ̃_p (n)), welche der bestimmten Sprachgrundfrequenzschätzung entspricht, mit einem Interpolationskorrekturterm (Δ _p (n)) vor einem Ausgeben einer modifizierten Sprachgrundfrequenzschätzung (f_p(n)) ausgestaltet ist, wobei der Interpolationskorrekturterm (Δ _p ) von Werten des ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),(r̂_ỹỹ,g (m,n)), von dem erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) bzw. dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) abhängig ist.
Sprachgrundfrequenzschätzer (1100) nach einem der Ansprüche 1-19, gekennzeichnet durch eine Frequenzbereichfiltereinheit, welche für ein Empfangen der Frequenzbereichversionen (Y₁, Y₂) des ersten und zweiten Satzes von Zeitbereichsignalwerten (y₁, y₂) ausgestaltet ist, zum Filtern der Frequenzbereichversionen in dem Frequenzbereich, um den ersten bzw. zweiten Satz von Werten (Ỹ ₁ ,Ỹ ₂) zu erhalten, und zum Bereitstellen des ersten und zweiten Satzes von Werten (Ỹ ₁ ,Ỹ ₂) für den ersten bzw. zweiten Leistungsdichtespektrumkalkulator.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 20, dadurch gekennzeichnet, dass die Frequenzbereichfiltereinheit nur zum Filtern von Frequenzen unterhalb einer vordefinierten Grenzfrequenz ausgestaltet ist.
Sprachgrundfrequenzschätzer (1100) nach Anspruch 21, dadurch gekennzeichnet, dass die Frequenzbereichfiltereinheit zum Verzögern von Werten der Frequenzbereichversionen, welche über der vordefinierten Grenzfrequenz sind, ausgestaltet ist.
Verfahren (1140) zum Schätzen einer Sprachgrundfrequenz (f_p(n)), wobei das Verfahren einen ersten Satz von Werten (Ỹ ₁) und einen zweiten Satz von Werten (Ỹ ₂) verwendet, wobei der erste Satz von Werten (Ỹ ₁) eine empfangene Frequenzbereichsdarstellung eines ersten Satzes von Zeitbereichsignalwerten (y₁) innerhalb eines ersten Zeitintervalls (t₁) ist und der zweite Satz von Werten (Ỹ ₂) eine empfangene Frequenzbereichsdarstellung eines zweiten Satzes von Zeitbereichsignalwerten (y₂) innerhalb eines zweiten Zeitintervalls (t₂) ist, wobei das zweite Zeitintervall (t₂) später als und versetzt zu dem ersten Zeitintervall (t₁) ist, wobei das Verfahren zum Schätzen der Sprachgrundfrequenz (f_p(n)) die Schritte umfasst:
- Speichern (1150) einer ersten Version des ersten Satzes von Werten (Ỹ ₁) und Bereitstellen von Werten eines ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)) durch Multiplizieren (1152) der gespeicherten Version des ersten Satzes von Werten (Ỹ ₁) mit einer komplex konjugierten Version des zweiten Satzes von Werten (Ỹ ₂);

- Bereitstellen von Werten eines zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)) durch Multiplizieren (1153) einer Version des zweiten Satzes von Werten (Ỹ ₂) mit einer komplex konjugierten Version des zweiten Satzes von Werten (Ỹ ₂);

- Bestimmen (1156) der Sprachgrundfrequenzschätzung (f_p) auf der Basis der Werte des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)) und der Werte des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)),
wobei der Schritt des Bestimmens der Sprachgrundfrequenzschätzung (f_p(n)) umfasst
Ausführen einer ersten Frequenz-Zeit-Transformation des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)), um einen ersten Satz von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) zu erhalten,
Ausführen einer zweiten Frequenz-Zeit-Transformation des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)), um einen zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) zu erhalten, und
Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des ersten und zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),(r̂_ỹỹ,g, (m,n)).
Verfahren (1140) nach Anspruch 23, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) umfasst:
• Ausführen einer ersten Frequenz-Zeit-Transformation des ersten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n)), um einen ersten Satz von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) (m,n)) zu erhalten;

• Ausführen einer zweiten Frequenz-Zeit-Transformation des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ ,n)), um einen zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) zu erhalten, wobei der Schritt des Bestimmens (1156) ferner ein Bestimmen eines Satzes von Normalisierungswerten (Ŝ_ỹỹ ((Ω _µ ,n)) und eines Satzes von Gewichtungswerten (V(e ^jΩµ ,n)) aus dem zweiten Leistungsdichtespektrum (Ŝ_ỹỹ (Ω _µ ,n)) und ein Verwenden des Satzes von Normalisierungswerten (Ŝ_ỹỹ (Ω _µ ,n)) und des Satzes von Gewichtungswerten (V(e ^{jΩ _µ},n)) in der ersten und zweiten Frequenz-Zeit-Transformation umfasst, und wobei die Bestimmung der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des ersten und zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),r̂_ỹỹ,g (m,n)) ausgeführt wird.
Verfahren (1140) nach Anspruch 24, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein adaptives Kompensieren der Werte des ersten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n) mit einem ersten Korrekturfaktor (Δ(m,n)), welcher auf einem Wert des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) basiert, um einen kompensierten ersten Satz von Werten zu erhalten, und ein Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) umfasst.
Verfahren (1040) nach Anspruch 25, dadurch gekennzeichnet, dass der Schritt des Kompensierens ein Multiplizieren des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) mit einem niedrig begrenzten Quotienten zwischen einem Wert des ersten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n)) und einem Wert des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) umfasst, um den kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) zu erhalten.
Verfahren (1140) nach Anspruch 26, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Kombinieren des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und des zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) umfasst, um einen erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) zu erhalten, wobei die Werte des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) entsprechende Werte von dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)), dem zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) oder Werten zwischen dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) und dem zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,g (m,n)) annehmen, und wobei der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ferner ein Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) auf der Basis des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) umfasst.
Verfahren (1140) nach einem der Ansprüche 23-27, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) durch Suchen des Index eines Maximalwertes (τ_p (n)) aus dem erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) innerhalb einer vorbestimmten Anzahl von Indizes (k) der Werte von dem erweiterten Satz von Korrelationswerten (r̂_ỹỹ,erw (k,n)), aus dem ersten oder zweiten Satz von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n), (r̂_ỹỹ,g (m,n)) innerhalb einer vorbestimmten Anzahl von Indizes (m) von Werten des ersten bzw. zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),(r̂_ỹỹ,g (m,n)) oder aus dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) innerhalb der vorbestimmten Anzahl von Indizes (m) von Werten des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) umfasst, und wobei der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ferner ein Bestimmen der Sprachgrundfrequenzschätzung (f_p(n)) als das Produkt einer Abtastfrequenz (f_s) und eines Reziprokwertes des gesuchten Index (τ_p (n)) umfasst.
Verfahren (1140) nach Anspruch 28, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Bestimmen eines Zuverlässigkeitsfaktors (p_fp (n)) für die bestimmte Sprachgrundfrequenzschätzung (f_p(n)) und zum Blockieren einer Ausgabe der bestimmten Sprachgrundfrequenzschätzung (f_p(n)) in dem Fall, dass der bestimmte Zuverlässigkeitsfaktor (p_fp (n)) für die bestimmte Sprachgrundfrequenzschätzung (f_p(n)) unterhalb eines vorbestimmten Zuverlässigkeitsfaktors (po) ist, umfasst.
Verfahren (1140) nach Anspruch 29, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Bestimmen des Zuverlässigkeitsfaktors (p_fp (n)) durch Dividieren des Maximalwertes (τ̃_p (n)) an dem gesuchten durch den ersten Wert des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) oder bzw. des ersten, des kompensierten ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),r̂ _{ỹỹ_d ,g,mod}(m,n),r̂_ỹỹ,g (m,n)) umfasst.
Verfahren (1140) nach einem der Ansprüche 23-30 und Anspruch 24, dadurch gekennzeichnet, dass der Schritt des Bereitstellens von Werten eines zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ,n)) ein Bestimmen einer Schätzung des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ,n)) und ein Bestimmen eines Rauschunterdrückungsfaktors (V(e ^jΩµ ,n)) auf der Basis des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ,n)) umfasst, und dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Multiplizieren des ersten und zweiten Leistungsdichtespektrums mit dem Rauschunterdrückungsfaktor (V(e ^jΩµ ,n)) vor der Frequenz-Zeit-Transformation des ersten bzw. zweiten Leistungsdichtespektrums (Ŝ_ỹỹd (Ω _µ ,n),(Ŝ_ỹỹ (Ω _µ,n)) umfasst.
Verfahren (1140) nach Anspruch 31, dadurch gekennzeichnet, dass der Schritt des Bereitstellens von Werten eines zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ,n)) ein Bestimmen des Rauschunterdrückungsfaktors als das Maximum eines vorbestimmten maximalen Unterdrückungskoeffizienten (Vo) und eines Terms, welcher von einem Quotienten der Schätzung des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ,n)) und des zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ,n)) abhängt, umfasst.
Verfahren (1140) nach Anspruch 32, dadurch gekennzeichnet, dass der Schritt des Bereitstellens von Werten eines zweiten Leistungsdichtespektrums (Ŝ_ỹỹ (Ω _µ,n)) ein Bestimmen der Schätzung des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ,n)) in Sprachpausen oder ein Bestimmen der Schätzung des Leistungsdichtespektrums von Hintergrundrauschen (Ŝ_nn (Ω _µ,n)) aus einer segmentweisen Schätzung des Minimums der Leistung eines Mikrofonsignals umfasst.
Verfahren (1140) nach einem der Ansprüche 31-33, dadurch gekennzeichnet, dass der Rauschunterdrückungsfaktor definiert wird durch $V (e^{{j Ω}_{μ}}, n) = \max \{V_{0}, 1 - β \frac{{\hat{S}}_{nn} (Ω_{μ}, n)}{{\hat{S}}_{yy} (Ω_{μ}, n)}\}$
wobei Ŝ_nn (Ω _µ,n) die Schätzung des Leistungsdichtespektrums des Hintergrundrauschens bezeichnet, Ŝ_yy (Ω _µ,n) das zweite Leistungsdichtespektrum bezeichnet, V₀ einen vordefinierten maximalen Dämpfungsfaktor bezeichnet und β einen Wert für ein Überschätzen des Leistungsdichtespektrums des Hintergrundrauschens (Ŝ_nn (Ω _µ,n)) bezeichnet.
Verfahren (1140) nach einem der Ansprüche 24-34, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Neuschätzen der Sprachgrundfrequenzschätzung (f_p(n)) in dem Fall, dass die bestimmte Sprachgrundfrequenzschätzung unterhalb des vordefinierten Frequenzwertes (f_k) ist, umfasst, wobei der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Ausführen der Neuschätzung durch Suchen eines weiteren Index (k, m) eines weiteren Maximalwertes (τ̃_p (n)) des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)), des ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),r̂_ỹỹ,g (m,n)) oder des kompensierten ersten Satzes von Korrelationsfunktionswerten (r̂ _{ỹỹ_d ,g,mod}(m,n)) innerhalb einer weiteren Anzahl von Werten des Satzes von Korrelationsfunktionswerten und ein Ausgeben eines Produkts einer Abtastfrequenz (f_s) und eines Reziprokwertes des weiteren Index (τ̃_p (n)) als die bestimmte Sprachgrundfrequenzschätzung umfasst.
Verfahren (1140) nach Anspruch 35, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Suchen des Index (k, m) des weiteren Maximalwertes (τ̃_p (n)) unter Verwendung einer Anzahl von Werten k der Sätze von Korrelationsfunktionswerten umfasst, welche definiert ist durch $\frac{f_{s}}{f_{p, \max}} \leq k < \frac{f_{s}}{2 f_{p} (n)} + k_{0}$
wobei k die Anzahl von Werten der Sätze von Korrelationsfunktionswerten bezeichnet, (f_p(n)) die zuvor bestimmte Sprachgrundfrequenzschätzung bezeichnet, f_p,max einen vorbestimmten Wert einer maximal möglichen Sprachgrundfrequenz bezeichnet, f_s eine Abtastfrequenz bezeichnet und k₀ eine Konstante bezeichnet.
Verfahren (1140) nach einem der Ansprüche 35 oder 36, dadurch gekennzeichnet, dass der Schritt des Bestimmens (1156) der Sprachgrundfrequenzschätzung (f_p(n)) ein Ausgeben des Produktes als die vorbestimmte Sprachgrundfrequenzschätzung (f_p(n)) nur in dem Fall umfasst, dass der weitere Index (τ̃_p (n)) größer als 60 % des zuvor gesuchten maximalen Index (τ_p (n)) sowie dass der Wert (r̂_ỹỹ,erw (τ̃_p (n),n)) des erweiterten Satzes von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) an dem weiteren Index (τ̃_p (n)) größer als ein zuvor definierter Amplitudenwert (p̃₀ ) ist.
Verfahren (1140) nach einem der Ansprüche 24-37, dadurch gekennzeichnet, dass der Schritt des Bestimmens der Sprachgrundfrequenzschätzung (f_p(n)) ein Modifizieren einer Sprachgrunddauer (τ̃_p (n)), welche der bestimmten Sprachgrundfrequenzschätzung (f_p(n)) entspricht, mit einem Interpolationskorrekturterm (Δ _p (n)) vor einem Ausgeben der Sprachgrundfrequenzschätzung (f_p(n)) umfasst, wobei der Interpolationskorrekturterm (Δ _p (n)) von Werten des ersten oder zweiten Satzes von Korrelationsfunktionswerten (r̂_ỹỹd,g (m,n),r̂_ỹỹ,g (m,n)), von dem erweiterten Satz von Korrelationsfunktionswerten (r̂_ỹỹ,erw (k,n)) bzw. dem kompensierten ersten Satz von Korrelationsfunktionswerten (r̂ _{ỹỹ_d,g,mod}(m,n)) abhängig ist.
Verfahren (1140) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren ferner umfasst einen Schritt eines Empfangens der Frequenzbereichsversionen (Y₁, Y₂) des ersten und zweiten Satzes von Zeitbereichsignalwerten (y₁, y₂), ein Frequenzbereichfiltern der Frequenzbereichversionen, um den ersten bzw. zweiten Satz von Werten (Ỹ ₁,Ỹ ₂) zu erhalten, und Bereitstellen des ersten und zweiten Satzes von Werten (Ỹ ₁,Ỹ ₂) für den ersten bzw. zweiten Leistungsdichtespektrumkalkulator.
Verfahren (1140) nach Anspruch 39, dadurch gekennzeichnet, dass der Schritt des Frequenzbereichfilterns nur für Frequenzen unterhalb einer vorbestimmten Grenzfrequenz durchgeführt wird.
Verfahren (1140) nach Anspruch 40, dadurch gekennzeichnet, dass der Schritt des Frequenzbereichfilterns ein Verzögern von Werten der Frequenzbereichversionen umfasst, welche über der vordefinierten Grenzfrequenz sind.
Computerprogrammprodukt mit einem Programmcode zum Ausführen des Verfahrens nach einem der Ansprüche 23-41, wenn das Computerprogramm auf einem Computer läuft.