DE69832195T2 - Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese - Google Patents

Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese Download PDF

Info

Publication number
DE69832195T2
DE69832195T2 DE69832195T DE69832195T DE69832195T2 DE 69832195 T2 DE69832195 T2 DE 69832195T2 DE 69832195 T DE69832195 T DE 69832195T DE 69832195 T DE69832195 T DE 69832195T DE 69832195 T2 DE69832195 T2 DE 69832195T2
Authority
DE
Germany
Prior art keywords
fundamental frequency
signal
speech signal
residual
synthetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69832195T
Other languages
English (en)
Other versions
DE69832195D1 (de
Inventor
Suat Yeldener
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Publication of DE69832195D1 publication Critical patent/DE69832195D1/de
Application granted granted Critical
Publication of DE69832195T2 publication Critical patent/DE69832195T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft ein Verfahren zum Abschätzen der Grundfrequenz zur Sprachcodierung. Insbesondere betrifft die vorliegende Erfindung ein Verfahren zum Abschätzen der Grundfrequenz, das von einer auf der Wahrnehmung basierenden Analyse mittels Synthese Gebrauch macht, um eine verbesserte Abschätzung der Grundfrequenz über eine Vielfalt von Eingangssprachzuständen zu erhalten.
  • HINTERGRUND DER ERFINDUNG
  • Eine genaue Darstellung von Sprachsignalen vom stimmhaften oder gemischten Typ ist für die Synthese von Sprache sehr hoher Güte bei niedrigen Bitraten (4,8 kbit/s und darunter) wesentlich. Für Bitraten von 4,8 kbit/s und darunter sieht die herkömmliche CELP (Code Excited Linear Prediction) keinen angemessenen Periodizitätsgrad vor. Die kleine Codelexikongröße und die Grobquantisierung von Verstärkungsfaktoren bei diesen Raten führen zu großen Spektralschwankungen zwischen den Grundfrequenz-Oberschwingungen.
  • Zu CELP alternative Sprachcodierungsalgorithmen sind die Techniken vom Oberschwingungstyp. Diese Techniken erfordern jedoch einen robusten Grundfrequenzalgorithmus, um Sprache mit hoher Güte zu erzeugen. Deshalb ist eines der besonders vorherrschenden Merkmale bei Sprachsignalen die Periodizität von stimmhafter Sprache, als Grundfrequenz bekannt. Der Beitrag der Grundfrequenz ist im Hinblick auf die natürliche Güte von Sprache sehr bedeutsam.
  • Es sind zwar viele verschiedene Verfahren zum Abschätzen der Grundfrequenz entwickelt worden, das Abschätzen der Grundfrequenz bleibt aber immer noch eines der schwierigsten Probleme bei der Sprachverarbeitung. Das heißt, herkömmliche Grundfrequenz-Abschätzungsalgorithmen ergeben kein robustes Leistungsverhalten über eine Vielfalt von Eingangszuständen.
  • Der Grund dafür ist, daß Sprachsignale keine vollkommen periodischen Signale sind, wie angenommen wird. Vielmehr sind Sprachsignale quasiperiodische oder nichtstationäre Signale. Infolgedessen hat jedes Verfahren zum Abschätzen der Grundfrequenz einige Nachteile gegenüber den anderen.
  • Einige Verfahren zum Abschätzen der Grundfrequenz ergeben zwar ein gutes Leistungsverhalten bei einigen Eingangszuständen, keines überwindet jedoch das Problem des Abschätzens der Grundfrequenz für eine Vielfalt von Eingangssprachzuständen.
  • Das Dokument US 5 666 464 beschreibt ein Sprachgrundfrequenz-Codiersystem, bei dem eine Wellenformverzerrung durch Vergleich eines unverarbeiteten Eingangssprachsignals mit einem synthetisierten Sprachsignal erhalten wird.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Gemäß der Erfindung und gemäß der Definition in den beigefügten unabhängigen Ansprüchen wird ein Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals angegeben, das von einer auf der Wahrnehmung basierenden Analyse mittels Synthese Gebrauch macht und das ein sehr robustes Leistungsvermögen ergibt und von den Eingangssprachsignalen unabhängig ist.
  • Zunächst wird ein Grundfrequenz-Suchbereich in Unterbereiche unterteilt, und Grundfrequenz-Kandidaten werden für jeden von den Unterbereichen bestimmt. Nachdem Grundfrequenz-Kandidaten gewählt sind, wird ein Analyse-durch-Synthese-Fehlerminimierungsverfahren angewandt, um aus den Grundfrequenz-Kandidaten eine optimale Grundfrequenz-Abschätzung auszuwählen.
  • Zunächst wird ein Sprachsegment unter Anwendung von linearer prädiktiver Codierung (LPC) analysiert, um LPC-Filterkoeffizienten für den Sprachblock zu erhalten. Das Sprachsegment wird dann unter Verwendung der LPC-Filterkoeffizienten einer inversen LPC-Filterung unterzogen, um ein spektral flaches Restsignal zu schaffen.
  • Das Restsignal wird dann mit einer Fensterfunktion multipliziert und unter Anwendung entweder von DFT (diskreter Fourier-Transformation) oder von FFT (schneller Fourier-Transformation) in den Frequenzbereich transformiert, um ein Restspektrum zu erhalten.
  • Dann wird durch Peakerfassung oder Spitzenerfassung das Restspektrum analysiert, um die Spitzenamplituden, -frequenzen und -phasen des Restspektrums zu erhalten. Diese Komponenten werden dazu verwendet, durch eine Sinus-Synthese ein Referenz-Restsignal zu erzeugen. Mit der LPC-Synthese wird aus dem Referenz-Restsignal ein Referenz-Sprachsignal erzeugt.
  • Für jeden Grundfrequenz-Kandidaten wird die Spektralform des Restspektrums bei den Oberschwingungen des Grundfrequenz-Kandidaten abgetastet, um die Oberschwingungsamplituden, -frequenzen und -phasen zu erhalten. Unter Anwendung einer Sinus-Synthese werden die Oberschwingungs-Komponenten für jeden Grundfrequenz-Kandidaten dazu genutzt, ein synthetisches Restsignal für jeden Grundfrequenz-Kandidaten auf der Basis der Annahme zu erzeugen, daß die Sprache rein stimmhaft ist.
  • Die synthetischen Restsignale für jeden Grundfrequenz-Kandidaten werden dann einer LPC-Synthese-Filterung unterzogen, um synthetische Sprachsignale zu erzeugen, die jedem Grundfrequenz-Kandidaten entsprechen. Die erzeugten synthetischen Sprachsignale für jeden Grundfrequenz-Kandidaten werden dann mit dem Referenz-Restsignal verglichen, um auf der Basis des synthetischen Sprachsignals für den Grundfrequenz-Kandidaten, der den maximalen Rauschabstand oder den kleinsten Fehler liefert, die optimale Grundfrequenz-Abschätzung vorzunehmen.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Nachstehend wird die vorliegende Erfindung im einzelnen unter Bezugnahme auf die beigefügten Zeichnungen beschrieben; diese zeigen in:
  • 1 ein Blockschaltbild der auf Wahrnehmung basierenden Analyse-durch-Synthese-Algorithmus;
  • 2A und 2B Blockschaltbilder eines Sprachcodierers bzw. -decodierers, die das Verfahren der vorliegenden Erfindung verkörpern; und
  • 3 ein typisches LPC-Erregungsspektrum mit seiner Grenzfrequenz.
  • GENAUE BESCHREIBUNG DER ERFINDUNG
  • 1 zeigt ein Blockschaltbild des auf der Wahrnehmung basierenden Analyse-durch-Synthese-Verfahrens. Ein Eingangssprachsignal S(n) wird einer Grundfrequenz-Zielfunktionseinheit 1 zugeführt, in der eine Grundfrequenz-Zielfunktion für einen Grundfrequenz-Suchbereich berechnet und der Grundfrequenz-Suchbereich in M Unterbereiche unterteilt wird.
  • Bei der bevorzugten Ausführungsform wird das Unterteilen unter Verwendung von einheitlichen Unterbereichen im Log-Bereich ausgeführt, so daß kürzere Unterbereiche für kürzere Grundfrequenzwerte und längere Unterbereiche für längere Grundfrequenzperioden erhalten werden. Der Fachmann erkennt jedoch, daß viele Regeln zum Unterteilen des Grundfrequenz-Suchbereichs in M Unterbereiche anwendbar sind. Gleichermaßen sind viele Grundfrequenz-Zielfunktionen entwickelt worden, und jede Zielfunktion kann dazu verwendet werden, die anfänglichen Grundfrequenz-Kandidaten für jeden Unterbereich zu erhalten.
  • Bei der bevorzugten Ausführungsform ist die Grundfrequenz-Zielfunktion eine Frequenzbereichs-Vorgehensweise, die von McAulay und Quatieri (R. J. McAulay, T. F. Quatieri "Pitch Estimation and Voicing Detection Based on Sinusoidal Speech Model" Proc. ICASSP, 1990, Seiten 249-252) entwickelt worden ist und wie folgt geschrieben wird:
    Figure 00050001
    wobei ωo die möglichen Grundfrequenz-Kandidaten sind, |S(jωo)| die Oberschwingungsgrößen sind, M1 und ω1 die Spitzengrößen bzw. -frequenzen sind und D(x) = sin(x) und H die Anzahl von Oberschwingungen ist, die dem Grundfrequenz-Kandidaten ωo entsprechen. Die Grundfrequenz-Zielfunktion wird dann für jeden von den M Unterbereichen in einer Grundfrequenz-Kandidaten-Recheneinheit 2 bewertet, um für jeden von den M Unterbereichen einen Grundfrequenz-Kandidaten zu erhalten.
  • Nachdem die Grundfrequenz-Kandidaten bestimmt worden sind, wird ein Analyse-durch-Synthese-Fehlerminimierungsverfahren angewandt, um die ganz optimale Grundfrequenz-Abschätzung auszuwählen. Zunächst wird ein Segment des Sprachsignals S(n) in einer LPC-Analyseeinheit 3 analysiert, wobei eine lineare prädiktive Codierung (LPC) angewandt wird, um LPC-Filterkoeffizienten für das Sprachsegment zu erhalten.
  • Das Sprachsegment wird dann unter Verwendung der geschätzten LPC-Filterkoeffizienten durch ein inverses LPC-Filter 4 geleitet, um ein Restsignal zu erhalten, das spektral flach ist. Das Restsignal wird dann in einem Multiplizierer 5 mit einer Fensterfunktion W(n) multipliziert und in den Frequenzbereich transformiert, um ein Restspektrum zu erhalten, wobei entweder DFT (oder FFT) in einer DFT-Einheit 6 angewandt wird.
  • Dann wird in einer Spitzenerfassungseinheit 7 das Restspektrum analysiert, um die Spitzenamplituden und entsprechenden Frequenzen und Phasen zu bestimmen. In einer Sinus-Syntheseeinheit werden die Spitzenkomponenten dazu genutzt, ein Referenz- Restsignal (Erregungssignal) zu erzeugen, das definiert ist durch die folgende Relation:
    Figure 00060001
    wobei L die Anzahl von Spitzen in dem Restspektrum ist, und Ap, ωp und θp die pter Spitzengrößen, -frequenzen bzw. -phasen sind.
  • Das Referenz-Restsignal wird dann durch ein LPC-Synthesefilter 9 geleitet, um ein Referenz-Sprachsignal zu erhalten.
  • Um die Oberschwingungsamplituden für jeden Grundfrequenz-Kandidaten zu erhalten, wird die Hülle oder Spektralform des Restspektrums in einer Spektralhülleneinheit 10 berechnet. Für jeden Grundfrequenz-Kandidaten wird die Hülle des Restspektrums bei den Oberschwingungen des entsprechenden Grundfrequenz-Kandidaten abgetastet, um die Oberschwingungsamplituden und -phasen für jeden Grundfrequenz-Kandidaten in einer Oberschwingungsabtasteinheit 11 zu bestimmen.
  • Diese Oberschwingungs-Komponenten werden einer Sinus-Syntheseeinheit 12 zugeführt, wo sie dazu genutzt werden, ein synthetisches Oberschwingungs-Restsignal (Erregungssignal) für jeden Grundfrequenz-Kandidaten auf der Basis der Annahme zu erzeugen, daß das Sprachsignal rein stimmhaft ist. Das synthetische Restsignal kann wie folgt formuliert werden:
    Figure 00060002
    wobei H die Anzahl von Oberschwingungen in dem Restspektrum ist, und Mh, ωo und θh die pten Oberschwingungsgrößen bzw. die Kandidaten-Grundfrequenz bzw. die Oberschwingungsphasen sind. Das synthetische Restsignal für jeden Grundfrequenz- Kandidaten wird dann durch ein LPC-Synthesefilter 13 geleitet, um ein synthetisches Sprachsignal für jeden Grundfrequenz-Kandidaten zu erhalten.
  • Dieser Vorgang wird für jeden Grundfrequenz-Kandidaten wiederholt, und es wird ein synthetisches Sprachsignal erzeugt, das jedem Grundfrequenz-Kandidaten entspricht. Jedes von den synthetischen Sprachsignalen wird dann in einem Addierer 14 mit dem Referenzsignal verglichen, um für jedes von den synthetischen Sprachsignalen einen Rauschabstand zu erhalten.
  • Schließlich wird der Grundfrequenz-Kandidat, der ein synthetisches Sprachsignal hat, das den kleinsten Fehler oder den größten Rauschabstand ergibt, in einer perzeptiven Fehlerminimierungseinheit 15 als optimale Grundfrequenz-Abschätzung ausgewählt.
  • Während des Fehlerminimierungsvorgangs, der von der Fehlerminimierungseinheit 15 ausgeführt wird, wird eine Formantgewichtung wie bei Codierern vom CELP-Typ angewandt, um die Formantfrequenzen anstelle der Formantnullen hervorzuheben, da Formantbereiche wichtiger sind als die anderen Frequenzen. Ferner wird während der Sinus-Synthese eine andere Amplitudengewichtungsfunktion angewandt, die den Niederfrequenzkomponenten größere Aufmerksamkeit als den Hochfrequenzkomponenten gewährt, da die Niederfrequenzkomponenten perzeptiv wichtiger sind als die Hochfrequenzkomponenten.
  • Bei einer Ausführungsform wird das oben beschriebene Verfahren zum Abschätzen der Grundfrequenz in einem HE-LPC (Harmonic Excited Linear Predictive Coder = durch Oberschwingungen erregter linearer prädiktiver Codierer) angewandt, der in den Blockschaltbildern der 2A und 2B gezeigt ist.
  • Bei dem HE-LPC-Codierer (2A) besteht die Vorgehensweise, um ein Sprachsignal s(n) darzustellen, darin, ein Spracherzeugungsmodell zu verwenden, in dem Sprache als das Ergebnis der Hindurchführung eines Erregungssignals e(n) durch ein lineares zeitvariables inverses LPC-Filter gebildet wird, das die Resonanzcharakteristiken der Spektralhülle der Sprache modelliert. Das inverse LPC-Filter ist durch zehn LPC- Koeffizienten repräsentiert, die in Form einer spektralen Zeilenfrequenz (Line Spectral Frequency = LSF) quantisiert sind.
  • Bei der HE-LPC ist das Erregungssignal e(n) bestimmt durch die Grundfrequenz, seine Energie σo und eine Stimmhaftigkeitswahrscheinlichkeit Pv, die eine Grenzfrequenz (ωc) definiert, und zwar unter der Annahme, daß das LPC-Erregungsspektrum flach ist. Man nimmt zwar an, daß das Erregungsspektrum flach ist, wobei die LPC ein perfektes Modell ist und über das gesamte Sprachspektrum einen Energiepegel liefert, die LPC ist jedoch nicht zwangsläufig ein perfektes Modell, da sie die Spektralform der Sprache nicht vollständig entfernt, um ein relativ flaches Spektrum zurückzulassen.
  • Um die Güte des MHE-LPC-Sprachmodells zu verbessern, wird deshalb das LPC-Erregungsspektrum in verschiedene ungleichmäßige Bänder (12 bis 16 Bänder) unterteilt, und ein jedem Band entsprechender Energiepegel wird für die Darstellung der Spektralform der LPC-Erregung berechnet. Dadurch wird die Sprachgüte des MHE-LPC-Sprachmodells erheblich verbessert.
  • 3 zeigt ein typisches Rest-/Erregungsspektrum und seine Grenzfrequenz. Die Grenzfrequenz (ωc) verdeutlicht die stimmhaften Teile (wenn die Frequenz ω < ωc) und die stimmlosen Teile (wenn ω ≥ ωc) des Sprachspektrums. Um die Stimmhaftigkeitswahrscheinlichkeit jedes Sprachrahmens abzuschätzen, wird unter Verwendung von geschätzten Grundfrequenz- und Oberschwingungsgrößen der Grundfrequenz ein synthetisches Erregungsspektrum gebildet, und zwar auf der Basis der Annahme, daß das Sprachsignal rein stimmhaft ist.
  • Die ursprünglichen und synthetischen Erregungsspektren, die jeder Oberschwingung der Grundfrequenz entsprechen, werden dann verglichen, um für jede Oberschwingung die binäre Stimmhaft-/Stimmlos-Entscheidung zu finden. Wenn dabei der normierte Fehler über jeder Oberschwingung kleiner als ein bestimmter Schwellenwert ist, wird die Oberschwingung für stimmhaft erklärt, anderenfalls wird sie für stimmlos erklärt.
  • Die Stimmhaftigkeitswahrscheinlichkeit Pv, wird dann durch das Verhältnis zwischen stimmhaften Oberschwingungen und der Gesamtzahl von Oberschwingungen innerhalb einer Sprachbandbreite von 4 kHz bestimmt. Die Stimmhaftigkeitsgrenzfrequenz ωc ist zu der Stimmhaftigkeit proportional und wird durch die folgende Formel ausgedrückt: ωc = 4 Pv (kHz).
  • Durch die Darstellung der Stimmhaftigkeitsinformation unter Nutzung des Konzepts der Stimmhaftigkeitswahrscheinlichkeit wurde eine effiziente Möglichkeit eingeführt, die Sprachsignale vom gemischten Typ mit einer bemerkenswerten Verbesserung der Sprachgüte darzustellen.
  • Obwohl eine Mehrbanderregung viele Bits erfordert, um die Stimmhaftigkeitsinformation darzustellen, können bei niedrigen Frequenzbandbereichen Stimmhaftigkeitsfehler auftreten, so daß Rauschen und Artefakte in die synthetisierte Sprache eingeführt werden, weil die Stimmhaftigkeitsbestimmung kein perfektes Modell ist. Die Anwendung des oben definierten Konzepts der Stimmhaftigkeitswahrscheinlichkeit eliminiert jedoch dieses Problem bei gleichzeitig besserer Effizienz vollständig.
  • An dem Decodierer (2B) wird der stimmhafte Teil des Erregungsspektrums als die Summe von Oberschwingungs-Sinuswellen bestimmt, welche die Grenzfrequenz (ω < ωc) unterschreiten. Die Oberschwingungsphasen von Sinuswellen werden aus der vorhergehenden Information des Rahmens vorhergesagt.
  • Für den stimmlosen Teil des Erregungsspektrums wird ein auf Erregungsbandenergien normiertes weißes Zufallsrauschspektrum für die Frequenzkomponenten verwendet, welche die Grenzfrequenz (ω > ωc) überschreiten. Die stimmhaften und stimmlosen Erregungssignale werden dann addiert, um das synthetisierte Gesamterregungssignal zu bilden.
  • Die resultierende Erregung wird dann mit einem linearen zeitvariablen LPC-Filter geformt, um die endgültige synthetisierte Sprache zu bilden. Um die Ausgangssprachgüte zu verbessern und sie reiner zu machen, wird ein Frequenzbereich-Nachfilter verwendet. Dieses Nachfilter bewirkt, daß die Formanten schmaler werden, und reduziert die Tiefe der Formantnullen, so daß das Rauschen in den Formantnullen abgeschwächt und die Ausgangssprache verbessert wird.
  • Das Nachfilter sorgt für ein gutes Leistungsverhalten über das gesamte Sprachspektrum, im Gegensatz zu früher beschriebenen Zeitbereich-Nachfiltern, die dazu neigen, das Sprachsignal in den Hochfrequenzbereichen abzuschwächen, so daß eine Spektralneigung und somit ein Dämpfen der Ausgangssprache eingeführt werden.
  • Die vorliegende Erfindung ist zwar in bezug auf bevorzugten Ausführungsform gezeigt und beschrieben worden; für den Fachmann sind jedoch verschiedene Änderungen und Modifikationen im Umfang der Erfindung ohne weiteres ersichtlich.

Claims (8)

  1. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals, wobei das Verfahren folgende Schritte aufweist: – Eingeben eines Sprachsignals (S(n)); – Erzeugen einer Vielzahl von Grundfrequenz-Kandidaten (2), die einer Vielzahl von Unterbereichen innerhalb eines Grundfrequenz-Suchbereichs entsprechen; – Erzeugen eines ersten Signals (3, 4, 5, 6, 7, 8) auf der Basis eines Segments des Sprachsignals; – Erzeugen eines Referenz-Sprachsignals (9) auf der Basis des ersten Signals; – Erzeugen eines synthetischen Sprachsignals (11, 12, 13) für jeden der Vielzahl von Grundfrequenz-Kandidaten; und – Vergleichen (14) des synthetischen Sprachsignals für jeden der Vielzahl von Grundfrequenz-Kandidaten mit dem Referenz-Sprachsignal, um eine optimale Grundfrequenz-Abschätzung vorzunehmen.
  2. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 1, wobei die optimale Grundfrequenz-Abschätzung auf der Basis eines synthetischen Sprachsignals für einen Grundfrequenz-Kandidaten vorgenommen wird, der einen maximalen Rauschabstand liefert.
  3. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 1, wobei der Schritt der Erzeugung eines Referenz-Sprachsignals folgende Unterschritte aufweist: – Erzeugen eines Restsignals durch inverses Filtern eines Segments des Sprachsignals mittels linearer prädiktiver Codierung (LPC) unter Verwendung von LPC-Filterkoeffizienten, die durch LPC-Analyse des Sprachsegments erzeugt werden; – Erzeugen eines Restspektrums durch Fourier-Transformation des Restsignals in den Frequenzbereich; – Analysieren des Restspektrums zum Bestimmen der Amplituden, Frequenzen und Phasen von Spitzen des Restspektrums; – Erzeugen eines Referenz-Restsignals aus den Spitzenamplituden, Spitzenfrequenzen und Spitzenphasen des Restspektrums unter Verwendung der Sinus-Synthese; und – Erzeugen eines Referenz-Sprachsignals durch LPC-Synthesen-Filterung des Referenz-Restsignals.
  4. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 1, wobei der Schritt der Erzeugung eines synthetischen Sprachsignals für jeden der Vielzahl von Grundfrequenz-Kandidaten folgende Unterschritte aufweist: – Bestimmen der Spektralform des Restspektrums; – Abtasten der Spektralform des Restspektrums bei der Oberschwingung von jedem aus der Vielzahl von Grundfrequenz-Kandidaten, um die Oberschwingungs-Komponenten für jeden Grundfrequenz-Kandidaten zu bestimmen; – Erzeugen eines synthetischen Restsignals für jeden Grundfrequenz-Kandidaten aus den Oberschwingungs-Komponenten für jeden aus der Vielzahl von Grundfrequenz-Kandidaten unter Verwendung der Sinus-Synthese; und – Erzeugen eines synthetischen Sprachsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten durch LPC-Synthese-Filterung des synthetischen Restsignals für jeden der Vielzahl von Grundfrequenz-Kandidaten.
  5. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 3, wobei der Schritt der Erzeugung eines synthetischen Sprachsignals für jeden der Vielzahl von Grundfrequenz-Kandidaten folgende Unterschritte aufweist: – Bestimmen der Spektralform des Restspektrums; – Abtasten der Spektralform des Restspektrums bei der Oberschwingung von jedem aus der Vielzahl von Grundfrequenz-Kandidaten, um die Oberschwingungs-Komponenten für jeden Grundfrequenz-Kandidaten zu bestimmen; – Erzeugen eines synthetischen Restsignals für jeden Grundfrequenz-Kandidaten aus den Oberschwingungs-Komponenten für jeden aus der Vielzahl von Grundfrequenz-Kandidaten unter Verwendung der Sinus-Synthese; und – Erzeugen eines synthetischen Sprachsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten durch LPC-Synthese-Filterung des synthetischen Restsignals für jeden der Vielzahl von Grundfrequenz-Kandidaten.
  6. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 4, wobei der Unterschritt der Erzeugung eines synthetischen Restsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten auf der Basis der Annahme ausgeführt wird, daß das Sprachsignal rein stimmhaft ist.
  7. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals nach Anspruch 4, wobei die optimale Grundfrequenz-Abschätzung auf der Basis eines synthetischen Sprachsignals für einen Grundfrequenz-Kandidaten vorgenommen wird, der einen maximalen Rauschabstand liefert.
  8. Verfahren zum Abschätzen der Grundfrequenz eines Sprachsignals, wobei das Verfahren folgende Schritte aufweist: – Eingeben eines Sprachsignals; – Bestimmen einer Vielzahl von Grundfrequenz-Kandidaten, von denen jeder einem Unterbereich innerhalb eines Grundfrequenz-Suchbereichs entspricht; – Analysieren eines Segments eines Sprachsignals durch lineare prädiktive Codierung (LPC), um LPC-Filterkoeffizienten für das akustische Signalsegment zu erzeugen; inverse LPC-Filterung des Sprachsignalsegments unter Verwendung der LPC-Filterkoeffizienten, um ein Restsignal zu schaffen, das spektral flach ist; – Transformieren des Restsignals in den Frequenzbereich, um ein Restspektrum zu erzeugen; – Analysieren des Restspektrums, um Spitzenamplituden sowie entsprechende Frequenzen und Phasen des Restspektrums zu bestimmen; – Erzeugen eines Referenz-Restsignals aus den Spitzenamplituden, Spitzenfrequenzen und Spitzenphasen des Restspektrums durch Sinus-Synthese; – Erzeugen eines Referenz-Sprachsignals durch LPC-Synthesen-Filterung des Referenz-Restsignals; – Ausführen einer Oberschwingungs-Abtastung für jeden aus der Vielzahl von Grundfrequenz-Kandidaten, um die Oberschwingungskomponenten für jeden aus der Vielzahl von Grundfrequenz-Kandidaten zu bestimmen; – Erzeugen eines synthetischen Restsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten aus den Oberschwingungskomponenten für jeden aus der Vielzahl von Grundfrequenz-Kandidaten durch Sinus-Synthese; – LPC-Synthesen-Filterung des synthetischen Restsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten, um ein synthetisches Sprachsignal für jeden aus der Vielzahl von Grundfrequenz-Kandidaten zu erzeugen; und – Vergleichen jedes synthetischen Sprachsignals für jeden aus der Vielzahl von Grundfrequenz-Kandidaten mit dem Referenz-Restsignal, um eine optimale Grundfrequenz-Abschätzung auf der Basis eines synthetischen Sprachsignals für eine Grundfrequenz vorzunehmen, die einen maximalen Rauschabstand liefert.
DE69832195T 1997-11-14 1998-11-16 Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese Expired - Lifetime DE69832195T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/970,396 US5999897A (en) 1997-11-14 1997-11-14 Method and apparatus for pitch estimation using perception based analysis by synthesis
US970396 1997-11-14
PCT/US1998/023251 WO1999026234A1 (en) 1997-11-14 1998-11-16 Method and apparatus for pitch estimation using perception based analysis by synthesis

Publications (2)

Publication Number Publication Date
DE69832195D1 DE69832195D1 (de) 2005-12-08
DE69832195T2 true DE69832195T2 (de) 2006-08-03

Family

ID=25516886

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69832195T Expired - Lifetime DE69832195T2 (de) 1997-11-14 1998-11-16 Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese

Country Status (8)

Country Link
US (1) US5999897A (de)
EP (1) EP1031141B1 (de)
KR (1) KR100383377B1 (de)
AU (1) AU746342B2 (de)
CA (1) CA2309921C (de)
DE (1) DE69832195T2 (de)
IL (1) IL136117A (de)
WO (1) WO1999026234A1 (de)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2252170A1 (en) * 1998-10-27 2000-04-27 Bruno Bessette A method and device for high quality coding of wideband speech and audio signals
US6766288B1 (en) 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US7194752B1 (en) * 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
WO2001030049A1 (fr) * 1999-10-19 2001-04-26 Fujitsu Limited Unite de traitement et de reproduction de son vocaux reçus
US6480821B2 (en) * 2001-01-31 2002-11-12 Motorola, Inc. Methods and apparatus for reducing noise associated with an electrical speech signal
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
WO2002101717A2 (en) * 2001-06-11 2002-12-19 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
KR100446242B1 (ko) * 2002-04-30 2004-08-30 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
US8447592B2 (en) 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
EP1783604A3 (de) * 2005-11-07 2007-10-03 Slawomir Adam Janczewski Objektorientiertes, parallelsprachiges Verfahren zum Programmieren eines Multiprozessor-Computers
KR100647336B1 (ko) * 2005-11-08 2006-11-23 삼성전자주식회사 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8935158B2 (en) 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
KR100860830B1 (ko) * 2006-12-13 2008-09-30 삼성전자주식회사 음성 신호의 스펙트럼 정보 추정 장치 및 방법
CN101030374B (zh) * 2007-03-26 2011-02-16 北京中星微电子有限公司 基音周期提取方法及装置
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
US8924222B2 (en) 2010-07-30 2014-12-30 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coding of harmonic signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US8862465B2 (en) * 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
DE102012000788B4 (de) * 2012-01-17 2013-10-10 Atlas Elektronik Gmbh Verfahren und Vorrichtung zum Verarbeiten von Wasserschallsignalen
EP2685448B1 (de) * 2012-07-12 2018-09-05 Harman Becker Automotive Systems GmbH Motorenklangsynthese
GB201713946D0 (en) * 2017-06-16 2017-10-18 Cirrus Logic Int Semiconductor Ltd Earbud speech estimation
US10861484B2 (en) * 2018-12-10 2020-12-08 Cirrus Logic, Inc. Methods and systems for speech detection

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0754440B2 (ja) * 1986-06-09 1995-06-07 日本電気株式会社 音声分析合成装置
NL8701798A (nl) * 1987-07-30 1989-02-16 Philips Nv Werkwijze en inrichting voor het bepalen van het verloop van een spraakparameter, bijvoorbeeld de toonhoogte, in een spraaksignaal.
US4980916A (en) * 1989-10-26 1990-12-25 General Electric Company Method for improving speech quality in code excited linear predictive speech coding
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5327518A (en) * 1991-08-22 1994-07-05 Georgia Tech Research Corporation Audio analysis/synthesis system
FI95085C (fi) * 1992-05-11 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin digitaaliseksi koodaamiseksi sekä puhekooderi menetelmän suorittamiseksi
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
FI95086C (fi) * 1992-11-26 1995-12-11 Nokia Mobile Phones Ltd Menetelmä puhesignaalin tehokkaaksi koodaamiseksi
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
JP3475446B2 (ja) * 1993-07-27 2003-12-08 ソニー株式会社 符号化方法
JP2658816B2 (ja) * 1993-08-26 1997-09-30 日本電気株式会社 音声のピッチ符号化装置

Also Published As

Publication number Publication date
WO1999026234B1 (en) 1999-07-01
EP1031141B1 (de) 2005-11-02
US5999897A (en) 1999-12-07
CA2309921C (en) 2004-06-15
AU1373899A (en) 1999-06-07
EP1031141A1 (de) 2000-08-30
KR20010024639A (ko) 2001-03-26
IL136117A0 (en) 2001-05-20
KR100383377B1 (ko) 2003-05-12
WO1999026234A1 (en) 1999-05-27
DE69832195D1 (de) 2005-12-08
EP1031141A4 (de) 2002-01-02
IL136117A (en) 2004-07-25
CA2309921A1 (en) 1999-05-27
AU746342B2 (en) 2002-04-18

Similar Documents

Publication Publication Date Title
DE69832195T2 (de) Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE69810754T2 (de) Hochauflösendes nachbearbeitungsverfahren für einen sprachdekoder
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69628103T2 (de) Verfahren und Filter zur Hervorbebung von Formanten
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69623360T2 (de) Schätzung von Anregungsparametern
Makhoul et al. A mixed‐source model for speech compression and synthesis
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE68907629T2 (de) Vektorquantisierung für eine Anordnung zur harmonischen Sprachcodierung.
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE69609099T2 (de) Verfahren zur Modifikation von LPC-Koeffizienten von akustischen Signalen
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE3782025T2 (de) Verfahren zur verbesserung der qualitaet kodierter sprache.
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE69808936T2 (de) Erhöhung der dichte von kodierten sprachsignalen
DE69708191T2 (de) Vorrichtung zur Signalkodierung
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE60025596T2 (de) Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist
DE60109111T2 (de) Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen
DE69703233T2 (de) Verfahren und Systeme zur Sprachkodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition