DE60025596T2 - Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist - Google Patents
Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist Download PDFInfo
- Publication number
- DE60025596T2 DE60025596T2 DE60025596T DE60025596T DE60025596T2 DE 60025596 T2 DE60025596 T2 DE 60025596T2 DE 60025596 T DE60025596 T DE 60025596T DE 60025596 T DE60025596 T DE 60025596T DE 60025596 T2 DE60025596 T2 DE 60025596T2
- Authority
- DE
- Germany
- Prior art keywords
- harmonic
- band
- speech
- speech spectrum
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 62
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims 1
- 230000003044 adaptive effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000005284 excitation Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 2
- 238000000695 excitation spectrum Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/935—Mixed voiced class; Transitions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electric Clocks (AREA)
- Devices For Executing Special Programs (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
- Machine Translation (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
- Bereich der Erfindung
- Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit (voicing probability), welches einen Prozentsatz an nicht stimmhafter und stimmhafter Energie in einem Sprachsignal anzeigt. Speziell bezieht sich die vorliegende Erfindung auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für eine Anzahl von Bändern eines Sprachspektrums eines Sprachsignals für die Verwendung bei der Sprachcodierung, um die Sprachqualität bei einer Vielzahl von Eingangszuständen zu verbessern.
- Hintergrund der Erfindung
- Die Entwicklung von Sprachcodierverfahren mit geringer Bitrate (4,8 kb/s und darunter) mit sehr hoher Sprachqualität ist gegenwärtig eine populäre Forschungsaufgabe. Um eine Sprachkompression mit hoher Qualität zu erreichen, ist eine robuste Stimmhaftigkeitsklassifizierung der Sprachsignale erforderlich.
- Eine genaue Wiedergabe von Sprachsignalen der stimmhaften oder gemischten Art ist für das Synthetisieren sehr hoch qualitativer Sprache bei niedrigen Bitraten (4,8 kb/s und darunter) unentbehrlich. Für Bitraten von 4,8 kb/s und darunter liefert die herkömmliche Code Excited Linear Prediction bzw. Codeangeregte lineare Vorhersage (CELP) nicht den passenden Grad an Periodizität. Eine kleine Code-Buchgröße und Grobquantisierung der Verstärkungsfaktoren bei diesen Raten führen zu großen spektralen Fluktuationen zwischen den Tonhöhenoberwellen. Alternative Sprachcodieralgorithmen für CELP sind Techniken für Oberwellen. Jedoch erfordern diese Techniken robuste Ton höhen- und Stimmhaftigkeitsalgorithmen, um eine Sprache hoher Qualität zu erzeugen.
- Zuvor wurde die Information der Stimmhaftigkeit mit einer Vielzahl von Wegen geboten. Bei einer Vorgehensweise kann ein gesamter Rahmen der Sprache entweder als stimmhaft oder als nicht stimmhaft klassifiziert werden. Obwohl diese Art zur Festlegung bzw. Bestimmung der Stimmhaftigkeit sehr effizient ist, führt sie zu einer synthetischen, unnatürlichen Sprachqualität.
- Eine andere Vorgehensweise zur Bestimmung der Stimmhaftigkeit basiert auf der Vielband-Technik. Bei dieser Technik wird das Sprachspektrum in verschiedene Zahlen von Bändern aufgeteilt, und es wird eine binäre Entscheidung über die Stimmhaftigkeit (stimmhaft oder nicht stimmhaft) für jedes Band getroffen. Obwohl diese Art der Bestimmung der Stimmhaftigkeit viele Bits erfordert, um die Information über die Stimmhaftigkeit wiederzugeben, können Fehler während der Klassifizierung der Stimmhaftigkeit auftreten, da das Bestimmungsverfahren zur Stimmhaftigkeit ein nicht perfektes Modell ist, welches ein gewisses "Brummen" und Artefakte in die synthetisierte Sprache einführt. Diese Fehler sind sehr wahrnehmbar, speziell bei niedrigen Frequenzbändern.
- Ein weiteres Verfahren zur Bestimmung der Stimmhaftigkeit basiert auf einer Grenzfrequenz der Stimmhaftigkeit. In diesem Fall werden die Frequenzanteile unterhalb der Grenzfrequenz als stimmhaft und diejenigen oberhalb der Grenzfrequenz als nicht stimmhaft betrachtet. Obwohl die Technik effizienter als das herkömmliche Konzept der Vielband-Stimmhaftigkeit ist, ist es nicht in der Lage, eine stimmhafte Sprache für hohe Frequenzkomponenten zu erzeugen.
- Entsprechend ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Stimmhaftigkeit zu liefern, welches es gestattet, dass jedes Frequenzband sowohl aus stimmhafter als auch aus nicht stimmhafter Energie aufgebaut ist, um die Ausgangssprachqualität zu verbessern.
- In der
US 5774837A wird ein Verfahren zum Bestimmen der Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals veröffentlicht, welches die Schritte aufweist: Erzeugen eines Originalspektrums Sω(ω) des Sprachsignals, wobei ω eine Frequenz ist, Erzeugen eines synthetischen Sprachspektrums aus dem Originalsprachspektrum, basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist, Aufteilen des Originalsprachspektrums und des synthetischen Sprachspektrums in eine Vielzahl von Bändern, wobei jedes eine Vielzahl von Frequenzen enthält, Vergleichen des Original-synthetischen Sprachspektrums innerhalb jedes Bandes und Bestimmen der Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Basis dieses Vergleichs. - Zusammenfassung der Erfindung
- Entsprechend der vorliegenden Erfindung, wie in den angehängten Ansprüchen beansprucht, wird ein Verfahren zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit geliefert, um einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jede Oberwelle innerhalb jedes Bandes aus einer Vielzahl von Bändern eines Sprachsignalspektrums abzuschätzen.
- Anfangs wird ein synthetisches Sprachspektrum basierend auf der Annahme erzeugt, dass die Sprache rein stimmhaft ist. Das originale Sprachspektrum und das synthetische Sprachspektrum werden dann in eine Vielzahl von Bändern aufgeteilt. Das synthetische und das originale Sprachspektrum werden dann vergli chen, Oberwelle um Oberwelle, und jeder Oberwelle der Bänder des Originalsprachspektrums wird eine Entscheidung über die Stimmhaftigkeit zugeordnet, entweder als vollständig stimmhaft oder nicht stimmhaft durch Vergleichen des Fehlers mit einem adaptiven Schwellwert. Wenn der Fehler für jede Oberwelle kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft erklärt; anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird dann als das Verhältnis zwischen der Anzahl von stimmhaften Oberwellen zu der Gesamtanzahl der Oberwellen innerhalb des entsprechenden Entscheidungsbandes berechnet.
- Außerdem wird das Signal/Rausch-Verhältnis für jedes der Bänder basierend auf dem originalen und dem synthetischen Sprachspektrum bestimmt, und die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird basierend auf dem Signal/Rausch-Verhältnis für das einzelne Band bestimmt.
- Kurze Beschreibung der Zeichnungen
- Die vorliegende Erfindung wird im Detail nachfolgend mit Bezug auf die beigefügten Figuren beschrieben, in welchen:
-
1 ein Blockdiagramm des Verfahrens der Stimmhaftigkeitswahrscheinlichkeit entsprechend einer ersten Ausführungsform der vorliegenden Erfindung ist; -
2 ein Blockdiagramm des Verfahrens zur Stimmhaftigkeitswahrscheinlichkeit entsprechend einer zweiten Ausführungsform der vorliegenden Erfindung ist; und -
3A und3B Blockdiagramme jeweils eines Sprachcodierers und -decodierers sind, welche das Verfahren der vorliegenden Erfindung beinhalten. - Detaillierte Beschreibung der Erfindung
- Um die Stimmhaftigkeit eines Segmentes der Sprache abzuschätzen, nimmt das Verfahren der vorliegenden Erfindung an, dass eine Tonhöhenperiode (Fundamental- bzw. Grundfrequenz) eines Eingangssprachsignals bekannt ist. Anfangs wird ein Sprachspektrum Sω(ω) aus einem Segment eines Eingangssprachsignals erhalten, indem eine Verarbeitung mit einer Fast Fourier Transformation bzw. Schnellen Fourier-Transformation (FFT) benutzt wird. Außerdem wird ein synthetisches Sprachspektrum basierend auf der Annahme geschaffen, dass das Segment des Eingangssprachsignals voll stimmhaft ist.
-
1 stellt eine erste Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung dar. Das Sprachspektrum Sω(ω) wird an einen Oberwellen-Sample- bzw. Abtastabschnitt 1 geliefert, in welchem das Sprachspektrum Sω(ω) bei Oberwellen der Grundfrequenz abgetastet wird, um eine Größe jeder Oberwelle zu erhalten. Die Oberwellengrößen werden an einen Abschnitt 2 zur Rekonstruktion des Spektrums geliefert, in welchem eine Keule (Bandbreite der Oberwelle) für jede Oberwelle erzeugt wird, und jede Oberwellenkeule wird normiert, um eine Spitzenamplitude zu besitzen, welche gleiche der entsprechenden Oberwellengröße der Oberwelle ist, um ein synthetisches Sprachspektrum Ŝω(ω) zu erzeugen. Das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden dann in verschiedene Zahlen von Entscheidungsbändern B (z.B. typischerweise 8 nicht gleichförmige Frequenzbänder) über einen Bandaufteilungsabschnitt 3 aufgeteilt. - Als Nächstes werden die Entscheidungsbänder B des Originalsprachspektrums von Sω(ω) und des synthetischen Sprachspektrums Ŝω(ω) an einen Berechnungsabschnitt 4 für ein Signal/Rausch-Verhältnis (SNR) geliefert, in welchem ein Signal/Rausch-Verhältnis, SNRb, für jedes Band b aus der gesamten Anzahl von Entscheidungsbändern B wie folgt berechnet wird: wobei Wb der Frequenzbereich eines b-ten Entscheidungsbandes ist.
- Das Signal/Rausch-Verhältnis SNRb für jedes Entscheidungsband b wird an einen Berechnungsabschnitt 5 für die Stimmhaftigkeitswahrscheinlichkeit geliefert, in welchem eine Stimmhaftigkeitswahrscheinlichkeit, Pν(b), für das b-te Band dann berechnet wird als: wobei 0 ≤ β ≤ 1 ein konstanter Faktor ist, welcher experimentell festgelegt werden kann. Das Experimentieren hat gezeigt, dass der typische optimale Wert von β 0,5 ist.
-
2 ist ein Blockdiagramm, welches eine zweite Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung zeigt. Wie in -
1 , wird das synthetische Sprachspektrum Ŝω(ω) durch den Oberwellen-Sampling-Abschnitt 1 und den Abschnitt 2 zur Rekonstruktion des Spektrums erzeugt, und das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden in eine Vielzahl von Entscheidungsbändern B durch einen Abschnitt 3 des Bandaufteilens aufgeteilt. Das Originalsprachspektrum Sω(ω) und das synthetische Sprachspektrum Ŝω(ω) werden dann verglichen, Oberwelle für Oberwelle, für jedes Entscheidungsband b durch einen Abschnitt 6 zur Klassifikation einer Oberwelle. Falls der Unterschied zwischen dem Originalsprachspektrum Sω(ω) und dem synthetischen Sprachspektrum Ŝω(ω) für das Entscheidungsband b kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft durch den Abschnitt 6 zur Klassifikation der Oberwelle erklärt, anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Im Einzelnen wird jede Oberwelle des Sprachspektrums bestimmt, dass sie entweder stimmhaft, V (k) = 1, oder nicht stimmhaft, V(k) = 0, ist (wobei k die Anzahl der Oberwellen bzw. Harmonischen und 1 ≤ k ≤ L ist), abhängig von der Größe der Differenz (dem Fehler) zwischen dem originalen Sprachspektrum Sω(ω) und dem synthetischen Sprachspektrum Ŝω(ω) für die entsprechende Oberwelle k. Hier ist L die Gesamtanzahl der Oberwellen bzw. Harmonischen innerhalb eines 4-kHz-Sprachbandes. - Die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b wird dann durch einen Abschnitt 7 zur Stimmhaftigkeitswahrscheinlichkeit berechnet, als das Energieverhältnis zwischen dem stimmhaften und allen Oberwellen innerhalb des entsprechenden Entscheidungsbandes: wobei V(k) die binäre Entscheidung über die Stimmhaftigkeit und A(k) die spektrale Amplitude für die k-te Oberwelle innerhalb des b-ten Entscheidungsbandes ist.
- Das oben beschriebene Verfahren der Bestimmung der Stimmhaftigkeitswahrscheinlichkeit kann in einem Harmonic Excited Linear Predictive Coder bzw. Oberwellen angeregter linearer Vorhersage-Codierer (HE-LPC) angewendet werden, wie dies in den Blockdiagrammen der
3A und3B gezeigt wird. In dem HE-LPC-Codierer (3A ) besteht die Vorgehensweise, um ein Eingangssprachsignal darzustellen, darin, ein Sprachherstellungsmodell zu benutzen, wobei die Sprache als Ergebnis des Durchlaufenlassens eines Anregungssignals durch ein lineares, die Zeit variierendes LPC-inverses Filter gebildet wird, welches die Resonanzcharakteristika der spektralen Spracheinhüllenden nachbildet. Das LPC-inverse Filter wird durch die LPC-Koeffizienten repräsentiert, welche in der Form von Linienspektralfrequenzen (LSF) quantisiert sind. In dem HE-LPC wird das Anregungssignal durch die Grundfrequenz, durch die spektralen Oberwellenamplituden und die Stimmhaftigkeitswahrscheinlichkeiten für verschiedene Frequenzbänder spezifiziert. - Am Decoder (
3B ) wird der stimmhafte Teil des Anregungsspektrums als die Summe der Sinusoberwellen bestimmt, welche richtige stimmhafte/nicht stimmhafte Energieverhältnisse ergeben, basierend auf den Stimmhaftigkeitswahrscheinlichkeiten für jedes Frequenzband. Die Oberwellen-Phasen der Sinuswellen werden aus der vorherigen Information des Rahmens vorhergesagt. Für den nicht stimmhaften Teil des Anregungsspektrums wird ein weißes Rauschspektrum bezüglich nicht stimmhafter O-berwellenamplituden normiert, um geeignete stimmhafte/nicht stimmhafte Energieverhältnisse für jedes Frequenzband zu liefern. Die stimmhaften und nicht stimmhaften Anregungssignale werden dann zusammenaddiert, um das gesamte synthetisierte Anregungssignal zu bilden. Die resultierende Anregung wird dann durch ein lineares zeitvariierendes LPC-Filter so geformt, um die endgültige synthetisierte Sprache zu bilden. Um die Ausgangssprachqualität zu erhöhen und diese reiner zu machen, wird ein Frequenzdomäne-Nachfilter benutzt. - Informelle Hörtests haben aufgezeigt, dass der HE-LPC-Algorithmus eine sehr hohe Sprachqualität für eine Vielzahl von sauberen Eingangs- und Hintergrundrauschzuständen erzeugt. Das Experimentieren hat gezeigt, dass größere Verbesserungen durch das Benutzen des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung in dem HE-LPC eingebracht wurden.
- Obwohl die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen gezeigt und beschrieben wurde, werden verschiedene Änderungen und Modifikationen innerhalb des Umfangs der Erfindung für Fachleute schließlich offenbar werden. Der Umfang der Erfindung wird durch die angehängten Ansprüche definiert.
Claims (5)
- Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals, welches die Schritte aufweist: Erzeugen eines Original-Sprachspektrums Sω(ω) des Sprachsignals, wobei ω eine Frequenz ist; Erzeugen eines synthetischen Sprachspektrums Ŝω(ω) aus dem Originalsprachspektrum Sω(ω) basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist; Aufteilen des Originalsprachspektrums Ŝω(ω) und des synthetischen Sprachspektrums Ŝω(ω) in eine Vielzahl von Bändern B, wobei jedes eine Vielzahl von Frequenzen ω enthält, Vergleichen des originalen und des synthetischen Sprachspektrums innerhalb jedes Bandes; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Grundlage des Vergleichs, wobei die Stimmhaftigkeitswahrscheinlichkeit ein Wert ist, welcher einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jedes Band anzeigt, wobei angezeigt wird, ob jedes Band eine Mischung aus nicht stimmhafter und stimmhafter Energie enthält, wobei ferner der Schritt des Berechnens eines Signalrauschverhältnisses SNRb für jedes Band b aus der Vielzahl von Bändern B basierend auf diesem Vergleich berechnet wird, wobei wobei 1 ≤ b ≤ B und Wb der Frequenzbereich eines b-ten Entscheidungsbandes ist und wobei die Stimmhaftigkeitswahrscheinlichkeit gegeben ist durch: Pν(b) = 1,0, wenn SNRb ≥ 40, für 0 ≤ β ≤ 1, wenn 2,5 < SNRb < 40, und Pν(b) = 0,0, wenn SNRb ≤ 2,5, wobei Pν(b) die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für das b-te Band ist und β ein vorher festgelegter Zahlenwert ist.
- Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 1, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums Sω(ω) die Schritte aufweist: Abtasten des Originalsprachspektrums Sω(ω) bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude bzw. -wert für jede Oberwelle zu erhalten; Erzeugen einer Oberwelllenkeule für jede Oberwelle basierend auf der Oberwellenamplitude jeder Oberwelle; Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu erhalten, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum Sω(ω) zu erzeugen.
- Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für ein Sprachsignal nach Anspruch 1, wobei β gleich 0,5 ist.
- Verfahren nach Anspruch 1, wobei ω eine Oberwelle einer Grundfrequenz des Sprachsignals wiedergibt und der Schritt des Vergleichens das Vergleichen des Original-Sprachspektrums und des synthetischen Sprachspektrums für jede Oberwelle jedes Bandes b aus der Vielzahl von Bändern B aufweist, um eine Differenz bzw. einen Unterschied zwischen dem Originalsprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle jedes Bandes b aus der Vielzahl von Entscheidungsbändern B zu bestimmen; und der Schritt des Bestimmens aufweist: Bestimmen, ob jede Oberwelle des Original-Sprachspektrums stimmhaft ist, V(k) = 1, oder nicht stimmhaft ist, V(k) = 0, basierend auf dem Unterschied zwischen dem Original-Sprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle k, wobei V(k) eine binäre Stimmhaftigkeitsfestlegung ist, 1 < k ≤ L, und L die Gesamtzahl der Oberwellen innerhalb eines 4-kHz-Sprachbandes ist; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b, wobei wobei A(k) eine spektrale Amplitude für die k-te Oberwelle im b-ten Band ist.
- Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 4, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums die Schritte aufweist: Abtasten des Originalsprachspektrums bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude für jede Oberwelle zu erhalten; Erzeugen einer Oberwellenkeule für jede Oberwelle, basierend auf der Oberwellenamplitude jeder Oberwelle; und Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu besitzen, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum zu erzeugen.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/255,263 US6253171B1 (en) | 1999-02-23 | 1999-02-23 | Method of determining the voicing probability of speech signals |
US255263 | 1999-02-23 | ||
PCT/US2000/002520 WO2000051104A1 (en) | 1999-02-23 | 2000-02-23 | Method of determining the voicing probability of speech signals |
Publications (2)
Publication Number | Publication Date |
---|---|
DE60025596D1 DE60025596D1 (de) | 2006-04-06 |
DE60025596T2 true DE60025596T2 (de) | 2006-09-14 |
Family
ID=22967555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE60025596T Expired - Lifetime DE60025596T2 (de) | 1999-02-23 | 2000-02-23 | Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist |
Country Status (7)
Country | Link |
---|---|
US (2) | US6253171B1 (de) |
EP (1) | EP1163662B1 (de) |
AT (1) | ATE316282T1 (de) |
AU (1) | AU3694800A (de) |
DE (1) | DE60025596T2 (de) |
ES (1) | ES2257289T3 (de) |
WO (1) | WO2000051104A1 (de) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030195745A1 (en) * | 2001-04-02 | 2003-10-16 | Zinser, Richard L. | LPC-to-MELP transcoder |
US20030028386A1 (en) * | 2001-04-02 | 2003-02-06 | Zinser Richard L. | Compressed domain universal transcoder |
KR100446242B1 (ko) * | 2002-04-30 | 2004-08-30 | 엘지전자 주식회사 | 음성 부호화기에서 하모닉 추정 방법 및 장치 |
JP4490818B2 (ja) * | 2002-09-17 | 2010-06-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 定常音響信号のための合成方法 |
KR100546758B1 (ko) * | 2003-06-30 | 2006-01-26 | 한국전자통신연구원 | 음성의 상호부호화시 전송률 결정 장치 및 방법 |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
JPWO2011118207A1 (ja) * | 2010-03-25 | 2013-07-04 | 日本電気株式会社 | 音声合成装置、音声合成方法および音声合成プログラム |
US20130282373A1 (en) * | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
CN112908345B (zh) * | 2019-01-29 | 2022-05-31 | 桂林理工大学南宁分校 | 一种物联网语音压缩与解压方法 |
CN112885380A (zh) * | 2021-01-26 | 2021-06-01 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种清浊音检测方法、装置、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
TW358925B (en) * | 1997-12-31 | 1999-05-21 | Ind Tech Res Inst | Improvement of oscillation encoding of a low bit rate sine conversion language encoder |
-
1999
- 1999-02-23 US US09/255,263 patent/US6253171B1/en not_active Expired - Fee Related
-
2000
- 2000-02-23 AU AU36948/00A patent/AU3694800A/en not_active Abandoned
- 2000-02-23 AT AT00915722T patent/ATE316282T1/de not_active IP Right Cessation
- 2000-02-23 DE DE60025596T patent/DE60025596T2/de not_active Expired - Lifetime
- 2000-02-23 ES ES00915722T patent/ES2257289T3/es not_active Expired - Lifetime
- 2000-02-23 WO PCT/US2000/002520 patent/WO2000051104A1/en active IP Right Grant
- 2000-02-23 EP EP00915722A patent/EP1163662B1/de not_active Expired - Lifetime
-
2001
- 2001-02-28 US US09/794,150 patent/US6377920B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
AU3694800A (en) | 2000-09-14 |
US6253171B1 (en) | 2001-06-26 |
ES2257289T3 (es) | 2006-08-01 |
ATE316282T1 (de) | 2006-02-15 |
EP1163662B1 (de) | 2006-01-18 |
DE60025596D1 (de) | 2006-04-06 |
US6377920B2 (en) | 2002-04-23 |
WO2000051104A1 (en) | 2000-08-31 |
EP1163662A1 (de) | 2001-12-19 |
EP1163662A4 (de) | 2004-06-16 |
US20010018655A1 (en) | 2001-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE69832195T2 (de) | Verfahren zur Grundfrequenzbestimmung unter Verwendung von Warnehmungsbasierter Analyse durch Synthese | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE69133458T2 (de) | Verfahren zur Sprachquantisierung und Fehlerkorrektur | |
DE60012198T2 (de) | Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung | |
DE60124274T2 (de) | Codebuchstruktur und suchverfahren für die sprachkodierung | |
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
DE69910058T2 (de) | Verbesserung der periodizität eines breitbandsignals | |
DE69934608T3 (de) | Adaptive kompensation der spektralen verzerrung eines synthetisierten sprachresiduums | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60316396T2 (de) | Interoperable Sprachkodierung | |
DE60012760T2 (de) | Multimodaler sprachkodierer | |
EP0076234B1 (de) | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE69729527T2 (de) | Verfahren und Vorrichtung zur Kodierung von Sprachsignalen | |
DE69925515T2 (de) | Sprachkodierung unter Verwendung einer sanften Adaptation | |
DE60025596T2 (de) | Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist | |
DE60028500T2 (de) | Sprachdekodierung | |
DE69828709T2 (de) | Erhöhung der Dichte von kodierten Sprachsignalen | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne | |
DE3019823A1 (de) | Datenumsetzer und damit ausgestattete sprachsyntheseanordnung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |