DE60025596T2 - Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist - Google Patents

Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist Download PDF

Info

Publication number
DE60025596T2
DE60025596T2 DE60025596T DE60025596T DE60025596T2 DE 60025596 T2 DE60025596 T2 DE 60025596T2 DE 60025596 T DE60025596 T DE 60025596T DE 60025596 T DE60025596 T DE 60025596T DE 60025596 T2 DE60025596 T2 DE 60025596T2
Authority
DE
Germany
Prior art keywords
harmonic
band
speech
speech spectrum
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60025596T
Other languages
English (en)
Other versions
DE60025596D1 (de
Inventor
Suat Germantown YELDENER
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comsat Corp
Original Assignee
Comsat Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comsat Corp filed Critical Comsat Corp
Publication of DE60025596D1 publication Critical patent/DE60025596D1/de
Application granted granted Critical
Publication of DE60025596T2 publication Critical patent/DE60025596T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electric Clocks (AREA)
  • Devices For Executing Special Programs (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Machine Translation (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

  • Bereich der Erfindung
  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit (voicing probability), welches einen Prozentsatz an nicht stimmhafter und stimmhafter Energie in einem Sprachsignal anzeigt. Speziell bezieht sich die vorliegende Erfindung auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für eine Anzahl von Bändern eines Sprachspektrums eines Sprachsignals für die Verwendung bei der Sprachcodierung, um die Sprachqualität bei einer Vielzahl von Eingangszuständen zu verbessern.
  • Hintergrund der Erfindung
  • Die Entwicklung von Sprachcodierverfahren mit geringer Bitrate (4,8 kb/s und darunter) mit sehr hoher Sprachqualität ist gegenwärtig eine populäre Forschungsaufgabe. Um eine Sprachkompression mit hoher Qualität zu erreichen, ist eine robuste Stimmhaftigkeitsklassifizierung der Sprachsignale erforderlich.
  • Eine genaue Wiedergabe von Sprachsignalen der stimmhaften oder gemischten Art ist für das Synthetisieren sehr hoch qualitativer Sprache bei niedrigen Bitraten (4,8 kb/s und darunter) unentbehrlich. Für Bitraten von 4,8 kb/s und darunter liefert die herkömmliche Code Excited Linear Prediction bzw. Codeangeregte lineare Vorhersage (CELP) nicht den passenden Grad an Periodizität. Eine kleine Code-Buchgröße und Grobquantisierung der Verstärkungsfaktoren bei diesen Raten führen zu großen spektralen Fluktuationen zwischen den Tonhöhenoberwellen. Alternative Sprachcodieralgorithmen für CELP sind Techniken für Oberwellen. Jedoch erfordern diese Techniken robuste Ton höhen- und Stimmhaftigkeitsalgorithmen, um eine Sprache hoher Qualität zu erzeugen.
  • Zuvor wurde die Information der Stimmhaftigkeit mit einer Vielzahl von Wegen geboten. Bei einer Vorgehensweise kann ein gesamter Rahmen der Sprache entweder als stimmhaft oder als nicht stimmhaft klassifiziert werden. Obwohl diese Art zur Festlegung bzw. Bestimmung der Stimmhaftigkeit sehr effizient ist, führt sie zu einer synthetischen, unnatürlichen Sprachqualität.
  • Eine andere Vorgehensweise zur Bestimmung der Stimmhaftigkeit basiert auf der Vielband-Technik. Bei dieser Technik wird das Sprachspektrum in verschiedene Zahlen von Bändern aufgeteilt, und es wird eine binäre Entscheidung über die Stimmhaftigkeit (stimmhaft oder nicht stimmhaft) für jedes Band getroffen. Obwohl diese Art der Bestimmung der Stimmhaftigkeit viele Bits erfordert, um die Information über die Stimmhaftigkeit wiederzugeben, können Fehler während der Klassifizierung der Stimmhaftigkeit auftreten, da das Bestimmungsverfahren zur Stimmhaftigkeit ein nicht perfektes Modell ist, welches ein gewisses "Brummen" und Artefakte in die synthetisierte Sprache einführt. Diese Fehler sind sehr wahrnehmbar, speziell bei niedrigen Frequenzbändern.
  • Ein weiteres Verfahren zur Bestimmung der Stimmhaftigkeit basiert auf einer Grenzfrequenz der Stimmhaftigkeit. In diesem Fall werden die Frequenzanteile unterhalb der Grenzfrequenz als stimmhaft und diejenigen oberhalb der Grenzfrequenz als nicht stimmhaft betrachtet. Obwohl die Technik effizienter als das herkömmliche Konzept der Vielband-Stimmhaftigkeit ist, ist es nicht in der Lage, eine stimmhafte Sprache für hohe Frequenzkomponenten zu erzeugen.
  • Entsprechend ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Stimmhaftigkeit zu liefern, welches es gestattet, dass jedes Frequenzband sowohl aus stimmhafter als auch aus nicht stimmhafter Energie aufgebaut ist, um die Ausgangssprachqualität zu verbessern.
  • In der US 5774837A wird ein Verfahren zum Bestimmen der Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals veröffentlicht, welches die Schritte aufweist: Erzeugen eines Originalspektrums Sω(ω) des Sprachsignals, wobei ω eine Frequenz ist, Erzeugen eines synthetischen Sprachspektrums aus dem Originalsprachspektrum, basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist, Aufteilen des Originalsprachspektrums und des synthetischen Sprachspektrums in eine Vielzahl von Bändern, wobei jedes eine Vielzahl von Frequenzen enthält, Vergleichen des Original-synthetischen Sprachspektrums innerhalb jedes Bandes und Bestimmen der Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Basis dieses Vergleichs.
  • Zusammenfassung der Erfindung
  • Entsprechend der vorliegenden Erfindung, wie in den angehängten Ansprüchen beansprucht, wird ein Verfahren zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit geliefert, um einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jede Oberwelle innerhalb jedes Bandes aus einer Vielzahl von Bändern eines Sprachsignalspektrums abzuschätzen.
  • Anfangs wird ein synthetisches Sprachspektrum basierend auf der Annahme erzeugt, dass die Sprache rein stimmhaft ist. Das originale Sprachspektrum und das synthetische Sprachspektrum werden dann in eine Vielzahl von Bändern aufgeteilt. Das synthetische und das originale Sprachspektrum werden dann vergli chen, Oberwelle um Oberwelle, und jeder Oberwelle der Bänder des Originalsprachspektrums wird eine Entscheidung über die Stimmhaftigkeit zugeordnet, entweder als vollständig stimmhaft oder nicht stimmhaft durch Vergleichen des Fehlers mit einem adaptiven Schwellwert. Wenn der Fehler für jede Oberwelle kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft erklärt; anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird dann als das Verhältnis zwischen der Anzahl von stimmhaften Oberwellen zu der Gesamtanzahl der Oberwellen innerhalb des entsprechenden Entscheidungsbandes berechnet.
  • Außerdem wird das Signal/Rausch-Verhältnis für jedes der Bänder basierend auf dem originalen und dem synthetischen Sprachspektrum bestimmt, und die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird basierend auf dem Signal/Rausch-Verhältnis für das einzelne Band bestimmt.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung wird im Detail nachfolgend mit Bezug auf die beigefügten Figuren beschrieben, in welchen:
  • 1 ein Blockdiagramm des Verfahrens der Stimmhaftigkeitswahrscheinlichkeit entsprechend einer ersten Ausführungsform der vorliegenden Erfindung ist;
  • 2 ein Blockdiagramm des Verfahrens zur Stimmhaftigkeitswahrscheinlichkeit entsprechend einer zweiten Ausführungsform der vorliegenden Erfindung ist; und
  • 3A und 3B Blockdiagramme jeweils eines Sprachcodierers und -decodierers sind, welche das Verfahren der vorliegenden Erfindung beinhalten.
  • Detaillierte Beschreibung der Erfindung
  • Um die Stimmhaftigkeit eines Segmentes der Sprache abzuschätzen, nimmt das Verfahren der vorliegenden Erfindung an, dass eine Tonhöhenperiode (Fundamental- bzw. Grundfrequenz) eines Eingangssprachsignals bekannt ist. Anfangs wird ein Sprachspektrum Sω(ω) aus einem Segment eines Eingangssprachsignals erhalten, indem eine Verarbeitung mit einer Fast Fourier Transformation bzw. Schnellen Fourier-Transformation (FFT) benutzt wird. Außerdem wird ein synthetisches Sprachspektrum basierend auf der Annahme geschaffen, dass das Segment des Eingangssprachsignals voll stimmhaft ist.
  • 1 stellt eine erste Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung dar. Das Sprachspektrum Sω(ω) wird an einen Oberwellen-Sample- bzw. Abtastabschnitt 1 geliefert, in welchem das Sprachspektrum Sω(ω) bei Oberwellen der Grundfrequenz abgetastet wird, um eine Größe jeder Oberwelle zu erhalten. Die Oberwellengrößen werden an einen Abschnitt 2 zur Rekonstruktion des Spektrums geliefert, in welchem eine Keule (Bandbreite der Oberwelle) für jede Oberwelle erzeugt wird, und jede Oberwellenkeule wird normiert, um eine Spitzenamplitude zu besitzen, welche gleiche der entsprechenden Oberwellengröße der Oberwelle ist, um ein synthetisches Sprachspektrum Ŝω(ω) zu erzeugen. Das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden dann in verschiedene Zahlen von Entscheidungsbändern B (z.B. typischerweise 8 nicht gleichförmige Frequenzbänder) über einen Bandaufteilungsabschnitt 3 aufgeteilt.
  • Als Nächstes werden die Entscheidungsbänder B des Originalsprachspektrums von Sω(ω) und des synthetischen Sprachspektrums Ŝω(ω) an einen Berechnungsabschnitt 4 für ein Signal/Rausch-Verhältnis (SNR) geliefert, in welchem ein Signal/Rausch-Verhältnis, SNRb, für jedes Band b aus der gesamten Anzahl von Entscheidungsbändern B wie folgt berechnet wird:
    Figure 00060001
    wobei Wb der Frequenzbereich eines b-ten Entscheidungsbandes ist.
  • Das Signal/Rausch-Verhältnis SNRb für jedes Entscheidungsband b wird an einen Berechnungsabschnitt 5 für die Stimmhaftigkeitswahrscheinlichkeit geliefert, in welchem eine Stimmhaftigkeitswahrscheinlichkeit, Pν(b), für das b-te Band dann berechnet wird als:
    Figure 00060002
    wobei 0 ≤ β ≤ 1 ein konstanter Faktor ist, welcher experimentell festgelegt werden kann. Das Experimentieren hat gezeigt, dass der typische optimale Wert von β 0,5 ist.
  • 2 ist ein Blockdiagramm, welches eine zweite Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung zeigt. Wie in
  • 1, wird das synthetische Sprachspektrum Ŝω(ω) durch den Oberwellen-Sampling-Abschnitt 1 und den Abschnitt 2 zur Rekonstruktion des Spektrums erzeugt, und das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden in eine Vielzahl von Entscheidungsbändern B durch einen Abschnitt 3 des Bandaufteilens aufgeteilt. Das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden dann verglichen, Oberwelle für Oberwelle, für jedes Entscheidungsband b durch einen Abschnitt 6 zur Klassifikation einer Oberwelle. Falls der Unterschied zwischen dem Originalsprachspektrum Sω(ω) und dem synthetischen Sprachspektrum Ŝω(ω) für das Entscheidungsband b kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft durch den Abschnitt 6 zur Klassifikation der Oberwelle erklärt, anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Im Einzelnen wird jede Oberwelle des Sprachspektrums bestimmt, dass sie entweder stimmhaft, V (k) = 1, oder nicht stimmhaft, V(k) = 0, ist (wobei k die Anzahl der Oberwellen bzw. Harmonischen und 1 ≤ k ≤ L ist), abhängig von der Größe der Differenz (dem Fehler) zwischen dem originalen Sprachspektrum Sω(ω) und dem synthetischen Sprachspektrum Ŝω(ω) für die entsprechende Oberwelle k. Hier ist L die Gesamtanzahl der Oberwellen bzw. Harmonischen innerhalb eines 4-kHz-Sprachbandes.
  • Die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b wird dann durch einen Abschnitt 7 zur Stimmhaftigkeitswahrscheinlichkeit berechnet, als das Energieverhältnis zwischen dem stimmhaften und allen Oberwellen innerhalb des entsprechenden Entscheidungsbandes:
    Figure 00080001
    wobei V(k) die binäre Entscheidung über die Stimmhaftigkeit und A(k) die spektrale Amplitude für die k-te Oberwelle innerhalb des b-ten Entscheidungsbandes ist.
  • Das oben beschriebene Verfahren der Bestimmung der Stimmhaftigkeitswahrscheinlichkeit kann in einem Harmonic Excited Linear Predictive Coder bzw. Oberwellen angeregter linearer Vorhersage-Codierer (HE-LPC) angewendet werden, wie dies in den Blockdiagrammen der 3A und 3B gezeigt wird. In dem HE-LPC-Codierer (3A) besteht die Vorgehensweise, um ein Eingangssprachsignal darzustellen, darin, ein Sprachherstellungsmodell zu benutzen, wobei die Sprache als Ergebnis des Durchlaufenlassens eines Anregungssignals durch ein lineares, die Zeit variierendes LPC-inverses Filter gebildet wird, welches die Resonanzcharakteristika der spektralen Spracheinhüllenden nachbildet. Das LPC-inverse Filter wird durch die LPC-Koeffizienten repräsentiert, welche in der Form von Linienspektralfrequenzen (LSF) quantisiert sind. In dem HE-LPC wird das Anregungssignal durch die Grundfrequenz, durch die spektralen Oberwellenamplituden und die Stimmhaftigkeitswahrscheinlichkeiten für verschiedene Frequenzbänder spezifiziert.
  • Am Decoder (3B) wird der stimmhafte Teil des Anregungsspektrums als die Summe der Sinusoberwellen bestimmt, welche richtige stimmhafte/nicht stimmhafte Energieverhältnisse ergeben, basierend auf den Stimmhaftigkeitswahrscheinlichkeiten für jedes Frequenzband. Die Oberwellen-Phasen der Sinuswellen werden aus der vorherigen Information des Rahmens vorhergesagt. Für den nicht stimmhaften Teil des Anregungsspektrums wird ein weißes Rauschspektrum bezüglich nicht stimmhafter O-berwellenamplituden normiert, um geeignete stimmhafte/nicht stimmhafte Energieverhältnisse für jedes Frequenzband zu liefern. Die stimmhaften und nicht stimmhaften Anregungssignale werden dann zusammenaddiert, um das gesamte synthetisierte Anregungssignal zu bilden. Die resultierende Anregung wird dann durch ein lineares zeitvariierendes LPC-Filter so geformt, um die endgültige synthetisierte Sprache zu bilden. Um die Ausgangssprachqualität zu erhöhen und diese reiner zu machen, wird ein Frequenzdomäne-Nachfilter benutzt.
  • Informelle Hörtests haben aufgezeigt, dass der HE-LPC-Algorithmus eine sehr hohe Sprachqualität für eine Vielzahl von sauberen Eingangs- und Hintergrundrauschzuständen erzeugt. Das Experimentieren hat gezeigt, dass größere Verbesserungen durch das Benutzen des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung in dem HE-LPC eingebracht wurden.
  • Obwohl die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen gezeigt und beschrieben wurde, werden verschiedene Änderungen und Modifikationen innerhalb des Umfangs der Erfindung für Fachleute schließlich offenbar werden. Der Umfang der Erfindung wird durch die angehängten Ansprüche definiert.

Claims (5)

  1. Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals, welches die Schritte aufweist: Erzeugen eines Original-Sprachspektrums Sω(ω) des Sprachsignals, wobei ω eine Frequenz ist; Erzeugen eines synthetischen Sprachspektrums Ŝω(ω) aus dem Originalsprachspektrum Sω(ω) basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist; Aufteilen des Originalsprachspektrums Ŝω(ω) und des synthetischen Sprachspektrums Ŝω(ω) in eine Vielzahl von Bändern B, wobei jedes eine Vielzahl von Frequenzen ω enthält, Vergleichen des originalen und des synthetischen Sprachspektrums innerhalb jedes Bandes; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Grundlage des Vergleichs, wobei die Stimmhaftigkeitswahrscheinlichkeit ein Wert ist, welcher einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jedes Band anzeigt, wobei angezeigt wird, ob jedes Band eine Mischung aus nicht stimmhafter und stimmhafter Energie enthält, wobei ferner der Schritt des Berechnens eines Signalrauschverhältnisses SNRb für jedes Band b aus der Vielzahl von Bändern B basierend auf diesem Vergleich berechnet wird, wobei
    Figure 00100001
    wobei 1 ≤ b ≤ B und Wb der Frequenzbereich eines b-ten Entscheidungsbandes ist und wobei die Stimmhaftigkeitswahrscheinlichkeit gegeben ist durch: Pν(b) = 1,0, wenn SNRb ≥ 40,
    Figure 00110001
    für 0 ≤ β ≤ 1, wenn 2,5 < SNRb < 40, und Pν(b) = 0,0, wenn SNRb ≤ 2,5, wobei Pν(b) die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für das b-te Band ist und β ein vorher festgelegter Zahlenwert ist.
  2. Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 1, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums Sω(ω) die Schritte aufweist: Abtasten des Originalsprachspektrums Sω(ω) bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude bzw. -wert für jede Oberwelle zu erhalten; Erzeugen einer Oberwelllenkeule für jede Oberwelle basierend auf der Oberwellenamplitude jeder Oberwelle; Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu erhalten, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum Sω(ω) zu erzeugen.
  3. Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für ein Sprachsignal nach Anspruch 1, wobei β gleich 0,5 ist.
  4. Verfahren nach Anspruch 1, wobei ω eine Oberwelle einer Grundfrequenz des Sprachsignals wiedergibt und der Schritt des Vergleichens das Vergleichen des Original-Sprachspektrums und des synthetischen Sprachspektrums für jede Oberwelle jedes Bandes b aus der Vielzahl von Bändern B aufweist, um eine Differenz bzw. einen Unterschied zwischen dem Originalsprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle jedes Bandes b aus der Vielzahl von Entscheidungsbändern B zu bestimmen; und der Schritt des Bestimmens aufweist: Bestimmen, ob jede Oberwelle des Original-Sprachspektrums stimmhaft ist, V(k) = 1, oder nicht stimmhaft ist, V(k) = 0, basierend auf dem Unterschied zwischen dem Original-Sprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle k, wobei V(k) eine binäre Stimmhaftigkeitsfestlegung ist, 1 < k ≤ L, und L die Gesamtzahl der Oberwellen innerhalb eines 4-kHz-Sprachbandes ist; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b, wobei
    Figure 00120001
    wobei A(k) eine spektrale Amplitude für die k-te Oberwelle im b-ten Band ist.
  5. Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 4, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums die Schritte aufweist: Abtasten des Originalsprachspektrums bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude für jede Oberwelle zu erhalten; Erzeugen einer Oberwellenkeule für jede Oberwelle, basierend auf der Oberwellenamplitude jeder Oberwelle; und Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu besitzen, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum zu erzeugen.
DE60025596T 1999-02-23 2000-02-23 Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist Expired - Lifetime DE60025596T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/255,263 US6253171B1 (en) 1999-02-23 1999-02-23 Method of determining the voicing probability of speech signals
US255263 1999-02-23
PCT/US2000/002520 WO2000051104A1 (en) 1999-02-23 2000-02-23 Method of determining the voicing probability of speech signals

Publications (2)

Publication Number Publication Date
DE60025596D1 DE60025596D1 (de) 2006-04-06
DE60025596T2 true DE60025596T2 (de) 2006-09-14

Family

ID=22967555

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60025596T Expired - Lifetime DE60025596T2 (de) 1999-02-23 2000-02-23 Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist

Country Status (7)

Country Link
US (2) US6253171B1 (de)
EP (1) EP1163662B1 (de)
AT (1) ATE316282T1 (de)
AU (1) AU3694800A (de)
DE (1) DE60025596T2 (de)
ES (1) ES2257289T3 (de)
WO (1) WO2000051104A1 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030195745A1 (en) * 2001-04-02 2003-10-16 Zinser, Richard L. LPC-to-MELP transcoder
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
KR100446242B1 (ko) * 2002-04-30 2004-08-30 엘지전자 주식회사 음성 부호화기에서 하모닉 추정 방법 및 장치
JP4490818B2 (ja) * 2002-09-17 2010-06-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 定常音響信号のための合成方法
KR100546758B1 (ko) * 2003-06-30 2006-01-26 한국전자통신연구원 음성의 상호부호화시 전송률 결정 장치 및 방법
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
JPWO2011118207A1 (ja) * 2010-03-25 2013-07-04 日本電気株式会社 音声合成装置、音声合成方法および音声合成プログラム
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
CN112908345B (zh) * 2019-01-29 2022-05-31 桂林理工大学南宁分校 一种物联网语音压缩与解压方法
CN112885380A (zh) * 2021-01-26 2021-06-01 腾讯音乐娱乐科技(深圳)有限公司 一种清浊音检测方法、装置、设备及介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
TW358925B (en) * 1997-12-31 1999-05-21 Ind Tech Res Inst Improvement of oscillation encoding of a low bit rate sine conversion language encoder

Also Published As

Publication number Publication date
AU3694800A (en) 2000-09-14
US6253171B1 (en) 2001-06-26
ES2257289T3 (es) 2006-08-01
ATE316282T1 (de) 2006-02-15
EP1163662B1 (de) 2006-01-18
DE60025596D1 (de) 2006-04-06
US6377920B2 (en) 2002-04-23
WO2000051104A1 (en) 2000-08-31
EP1163662A1 (de) 2001-12-19
EP1163662A4 (de) 2004-06-16
US20010018655A1 (en) 2001-08-30

Similar Documents

Publication Publication Date Title
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69832195T2 (de) Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69934608T3 (de) Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60316396T2 (de) Interoperable Sprachkodierung
DE60012760T2 (de) Multimodaler sprachkodierer
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
DE69925515T2 (de) Sprachkodierung unter Verwendung einer sanften Adaptation
DE60025596T2 (de) Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist
DE60028500T2 (de) Sprachdekodierung
DE69828709T2 (de) Erhöhung der Dichte von kodierten Sprachsignalen
DE60309651T2 (de) Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE3019823A1 (de) Datenumsetzer und damit ausgestattete sprachsyntheseanordnung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition