DE69721349T2 - Sprachkodierung - Google Patents

Sprachkodierung Download PDF

Info

Publication number
DE69721349T2
DE69721349T2 DE69721349T DE69721349T DE69721349T2 DE 69721349 T2 DE69721349 T2 DE 69721349T2 DE 69721349 T DE69721349 T DE 69721349T DE 69721349 T DE69721349 T DE 69721349T DE 69721349 T2 DE69721349 T2 DE 69721349T2
Authority
DE
Germany
Prior art keywords
noise
speech
component
language
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69721349T
Other languages
English (en)
Other versions
DE69721349D1 (de
Inventor
Ajit V. Rao
Wilfrid P. Leblanc
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Texas Instruments Inc
Original Assignee
Texas Instruments Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Texas Instruments Inc filed Critical Texas Instruments Inc
Application granted granted Critical
Publication of DE69721349D1 publication Critical patent/DE69721349D1/de
Publication of DE69721349T2 publication Critical patent/DE69721349T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Noise Elimination (AREA)

Description

  • TECHNISCHES GEBIET DER ERFINDUNG
  • Diese Erfindung bezieht sich allgemein auf die Sprachverarbeitung und insbesondere auf ein Verfahren und auf ein System zum Liefern einer verbesserten diskontinuierlichen Sprachübertragung.
  • HINTERGRUND DER ERFINDUNG
  • Die digitale Übertragung von Sprache tritt in vielen Anwendungen einschließlich zahleichen Telephonanwendungen auf. In Telephonanwendungen wie etwa in Mobilkommunikationssystemen ist ein niedriger Leistungsverbrauch für eine längere Batterielebensdauer und folglich für eine bessere Leistung wesentlich. Beispielsweise kann in Funktelephonen durch Ausschalten des Senders zwischen Sprachimpulsen Leistung gespart werden. In einer durchgehenden Telephonkonversation spricht jeder Nutzer typischerweise etwa 40–60% der Zeit. Zwischen diesen Sprachimpulsen wird der Sender einfach dazu verwendet, ein Hintergrundgeräusch an den Empfänger zu senden.
  • Durch effizientes Erfassen der Stimmaktivität, Ausschalten des Senders, wenn keine Stimme vorhanden ist, und Verwenden eines hinsichtlich der Wahrnehmung akzeptablen Verfahrens zum Füllen der Zwischenräume zwischen den Sprachimpulsen kann die Lebensdauer der Batterie mit wenig zusätzlichem Aufwand etwa verdoppelt werden. Diese als diskontinuierliches Senden bekannte Technik entlastet auch den Paketverkehr in typischen Kommunikationssystemen mit Code-Division Multiple Access (CDMA) und Time Division Multiple Access (TDMA), was ermöglicht, daß mehr Teilnehmer das Netz mit weniger Störung nutzen. 1 zeigt einen beispielhaften Vocoder 10, der in solchen Kommunikationssystemen verwendet wird. Der Vocoder 10 enthält einen Codieren 12, der Daten für die Übertragung über den Ausgangskanal 16 verarbeitet, und einen Decoder 14, der ankommende Kommunikationen vom Eingangskanal 18 verarbeitet.
  • Der Codierer 12 ist in 2 ausführlicher gezeigt. Der in 2 gezeigte beispielhafte Codierer 12 enthält ein Steuermodul 20, eine Sprachaktivitäts-Auswerteschaltung (VAD) 22, einen Sprachparametergenerator 24 und einen Geräuschparametergenerator 26. Der Decoder 14 ist in 3 ausführlicher gezeigt und enthalt ein Steuermodul 30, eine Sprachparameter-Auswerteschaltung 32, einen Sprachgenerator 34 und einen Komfortgeräuschgenerator 36.
  • Eine wichtige Komponente in dem Codierer 12 eines Systems für die diskontinuierliche Übertragung ist die VAD 22, die Pausen in der Sprache erfaßt, so daß während Zeitdauern ohne Sprachaktivität keine Übertragung von Daten stattfindet. Die VAD 22 muß die Abwesenheit von Sprache in einem Signal soviel wie möglich erfassen können, ohne selbst unter schlechten Signal-Rausch-Bedingungen (SNR-Bedingungen) Sprache falsch als Geräusch zu klassifizieren. Ein primäres Problem bei Systemen, die die VAD 22 verwenden, ist aber das Abschneiden der Anfangsteile der erfaßten Sprache. Dies geschieht teilweise, da die Sprachübertragung nicht fortgesetzt wird, bis die Sprachaktivität erfaßt worden ist. Ein weiteres Problem ist das Fehlen von Hintergrundgeräusch während der Inaktivität, das in einem System mit diskontinuierlicher Übertragung normalerweise stattfindet.
  • In einem Versuch, die Qualität der durch den Sprachgenerator 34 erzeugten synthetischen Sprache in Systemen, die die VAD 22 zum Verringern der Datenübertragungen verwenden, zu verbessern, wird während des durch den Decoder 18 ausgeführten Decodierungsprozesses durch den Komfortgeräuschgenerator 36 erzeugtes synthetisches Komfortgeräusch hinzugefügt, um die Lücken zwischen den Sprachimpulsen auszufüllen. Allerdings modelliert das synthetische Komfortgeräusch nicht das tatsächliche Hintergrundgeräusch, das in dem Codierer 12 erfahren wird, so daß irgendwelche Qualitätsverbesserungen minimal sind.
  • Im Stand der Technik wurden einige Techniken vorgeschlagen, um das tatsächliche Wesen des Hintergrundgeräuschs zu erfassen und den Sprachdecoder 18 darüber zu informieren.
  • In typischen Sprachkompressionsschemata wie Code-Excited Linear Prediction (CELP) [siehe M. R. Schroeder und B. S. Atal, "Code-excited linear prediction (CELP): High quality speech at very low bit rates", Proc. Inter. Conf. Acoust., Speech, Signal Processing, 1985, S. 937–940, Bd. 1] wird die über den Eingangskanal 16 empfangene digital abgetastete Eingangssprache für die Analysezwecke in nicht überschneidende Rahmen unterteilt. Daraufhin klassifiziert die VAD 22 jeden Rahmen als Sprache oder als Geräusch.
  • Ein üblicher Lösungsansatz, um synthetisch ein Geräusch zu erzeugen, das ähnlich dem Hintergrundgeräusch ist, besteht in solchen Systemen darin, daraufhin die Statistik dieses Geräuschs zu erfassen und in dem Decoder 30 ein statistisch ähnliches Pseudozufallsgeräusch zu erzeugen. Ein übliches Modell für das Hintergrundgeräusch ist ein autoregressiver Prozeß niedriger Ordnung. Ein Vorteil dieses Modells ist seine Ähnlichkeit mit dem Modell, das häufig für reguläre Sprache verwendet wird. Diese Ähnlichkeit ermöglicht die Verwendung ähnlicher Quantisierungsschemata zum Komprimieren der Kurzzeitparameter sowohl von Geräusch als auch von Sprache in dem Geräuschparametergenerator 26 bzw. in dem Sprachparametergenerator 24. Darauflhin kann aus den Kurzzeit-Autokorrelationswerten des Geräuschprozesses das autoregressive Modell abgeleitet werden.
  • In vielen Schemata mit diskontinuierlicher Übertragung werden die ersten wenigen als Geräusch klassifizierten Rahmen als "Geräuschanalyse-Rahmen" neu klassifiziert. Während dieser Rahmen wird das Geräusch als reguläre Sprache codiert, wobei aber die während der Analyse dieser Rahmen berechneten Autokorrelationswerte gemittelt werden, um die Autokorrelation des Geräuschs zu berechnen. Falls auf die Geräuschanalyse-Rahmen weitere Geräuschrahmen folgen, werden diese Autokorrelationswerte dazu verwendet, den Decoder 18 zu folgern, bevor der Sender ausgeschaltet wird.
  • Dieser Zugang wird von der Groupe Speciale Mobile (GSM) des European Telecommunications Standards Institute (ESTI) sowohl bei der Vollratennorm [siehe European Telecommunications Standards Institute (ESTI), European Digital Cellular Telecommunication System (Phase 2)" Voice Activity Detection (VAD) (GSM 06.32)] als auch bei der Halbratennorm [siehe European Telecommunications Standards Institute (ESTI), European Digital Cellular Telecommunication System; Half-rate Speech, Teil 6: Voice Activity Detection (VAD) for half rate speech traffic channels (GSM 06.42)] verwendet.
  • Allerdings ist die VAD 22, die Geräusch von Sprache unterscheidet, üblicherweise ungenau, wobei es außerdem sinnvoll ist zu erwarten, daß die ersten wenigen Geräuschanalyse-Rahmen wenige Millisekunden Sprache enthalten. Somit repräsentieren die erhaltenen Autokorrelationsparameter durch die gleichmäßige Mittelung nicht genau die Statistik des tatsächlichen Hintergrundgeräuschs. Das Ergebnis ist häufig ein störendes Geräusch zwischen den Sprachimpulsen.
  • Ferner füllt der Decoder 14 in typischen Schemata mit diskontinuierlicher Übertragung die Zwischenräume zwischen den Sprachimpulsen durch einfaches Erzeugen eines autoregressiven Geräuschs aus, dessen Statistik an die des Hintergrundgeräuschs angepaßt ist. Dieser Zugang wird sowohl in der GSM Vollratennorm [siehe European Telecommunications Standards Institute (ESTI), European Digital Cellular Telecommunication System; (Phase 2) Teil 4: Comfort Noise aspects for the full rate speech traffic channel (GSM 06.12)] als auch in der Halbratennorm [siehe European Telecommunications Standards Institute (ESTI), European Digital Cellular Telecommunication System; Comfort Noise aspects for the half rate speech traffic channels (GSM 06.22)] verwendet. Dies führt zu Geräuschimpulsen, die nicht glatt in das Hintergrundgeräusch übergehen, welches vorhanden ist, wenn die Sprecher aktiv sind.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Typische Sprachkompressionsschemata werden dadurch effizienter gemacht, daß weniger Bits verwendet werden, wenn der Sprecher leise ist und lediglich ein Hintergrundgeräusch vorhanden ist. Anstelle eines Decoders, der lediglich ein Pseudozufalls-"Komfortgeräusch" mit der gleichen Statistik wie das Hintergrundgeräusch erzeugt, schafft die vorliegende Erfindung einen Decoder, der während dieser Intervalle ein neues Verfahren mit gewichtetem Mittelwert verwendet, um die Statistik des Hintergrundgeräuschs abzuschätzen. Dieses Verfahren repräsentiert das tatsächliche Hintergrundgeräusch besser als ein ungewichteter Zugang. Ferner wird eine neue Technik des "glatten Übergangs" dargestellt, die das Komfortgeräusch zwischen den Sprachimpulsen allmählich einführt. Der glattere Übergang zwischen Sprache und Komfortgeräusch führt zu Sprache, die hinsichtlich der Wahrnehmung angenehmer ist als die von den bestehenden Verfahren erzeugte.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Für ein besseres Verständnis der vorliegenden Erfindung kann auf die beigefiigte Zeichnung Bezug genommen werden, in der:
  • 1 ein beispielhafter Vocoder ist, der in Übertragungssystemen des Standes der Technik verwendet wird;
  • 2 ein beispielhafter Codierer ist, der in Kommunikationssystemen des Standes der Technik verwendet wird;
  • 3 einen beispielhaften Decoder zeigt, der in Kommunikationssystemen des Standes der Technik verwendet wird;
  • 4 einen Rauschparametergenerator in Übereinstimmung mit der vorliegenden Erfindung zeigt; und
  • 5 einen Komfortgeräuschgenerator in Ubereinstimmung mit der vorliegenden Erfindung zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • Um das Problem der schlechten Darstellung des Hintergrundgeräuschs zu überwinden, zeigt 4 einen Geräuschparametergenerator 40 in Übereinstimmung mit der vorliegenden Erfindung, der einen gewichteten Mittelwert der Autokorrelationswerte des Eingangssignals verwendet, welcher während der Geräuschanalysephase erzeugt wurde. Eine gute Wichtungsfunktion gibt den Auto korrelationen während der ersten wenigen Rahmen (da sie Sprache enthalten können) wenig Gewicht, während sie den Rahmen zum Ende dieser Phase mehr Gewicht gibt.
  • Außerdem zeigt 5 zur Überwindung des diskontinuierlichen Wesens des Komfortgeräuschs einen Komfortgeräuschgenerator 50 in Übereinstimmung mit der vorliegenden Erfindung, der das Wesen des Signals nach dem Spracheimpuls allmählich von Sprache in ein Pseudozufallsgeräusch ändert. Der in dem Komfortgeräuschgenerator 50 der vorliegenden Erfindung verwendete Zugang regt das autoregressive Filter entsprechend dem Geräuschmodell mit einer gewichteten Kombination der vorausgegangenen Anregung und des Pseudozufallsgeräuschs an. Dieser Zugang ändert allmählich die Energie und das Wesen des Komfortgeräuschs und macht es dadurch hinsichtlich der Wahrnehmung angenehm.
  • Obgleich beabsichtigt ist, daß auch andere Codierer verwendet werden können, wird in der vorliegenden Erfindung ein Sprachcodierer verwendet, der den verbesserten GSM-Vollratenstandard realisiert. In dem in der vorliegenden Erfindung verwendeten Sprachcodierer wird die Sprache in nicht überschneidende Rahmen von jeweils 10 ms (80 Abtastwerte) segmentiert. Zum Klassifizieren von Sprache und Geräusch wird ein Sprachaktivitäts-Erfassungsschema (VAD-Schema) angewendet, das ähnlich dem in der GSM-Halbratennorm verwendeten ist.
  • In Übereinstimmung mit dem Geräuschparametergenerator 40 der vorliegenden Erfindung werden die ersten sechzehn (16) Geräuschrahmen in einem Geräuschimpuls in der Geräuschanalyserahmen-Auswahleinrichtung 42 als "Geräuschanalyse"-Rahmen neu klassifiziert. Das Autokorrelationsmodul 44 verwendet in jedem solchen Rahmen i die Sprachproben si(0), si(1),... si(79) wie folgt zum Berechnen der Autokorrelationswerte ri[j]:
    Figure 00060001
    wobei j = 0,..., 8 und i = 1,..., 16 ist.
  • Daraufhin berechnet das Modul 46 für den gewichteten Mittelwert in Übereinstimmung mit der Gleichung
    Figure 00070001
    wobei j = 0,..., 8 ist, die Autokorrelation des Hintergrundgeräuschs R[j] als gewichtete Mittelwerte der Autokorrelationswerte der Rauschanalyserahmen, welche durch das Autokorrelationsmodu144 berechnet wurden. In der Praxis wird die exponentielle Wichtungsfunktion ωj mit ωj = 0,8j verwendet. Daraufhin werden die in dem Modul 46 für den gewichteten Mittelwert berechneten gewichteten Mittelwerte als Rauschparameter über den Ausgangskommunikationskanal 18 übertragen, woraufhin der Sender ausgeschaltet wird.
  • Die Sprachparameter und die Geräuschparameter werden von dem Decoder empfangen, der ebenfalls an den Ausgangskommunikationskanal 16 angeschlossen ist. Die Sprachparameter werden in einem Sprachmodell in dem empfangenden Decoder zum Synthetisieren der dargestellten Sprache verwendet. Ein Geräuschmodell in dem empfangenden Decoder verwendet die durch den sendenden Codierer erzeugten Geräuschparameter, um ein Komfortgeräusch zu erzeugen, das das Hintergrundgeräusch, das zu dem Zeitpunkt vorhanden ist, zu dem die Sprache aufgetreten ist, näher darstellt.
  • In dem Decoder fügt der Komfortgeräuschgenerator 40 gemäß der vorliegenden Erfindung das Pseudozufallsgeräusch sorgfältiger zwischen die Sprachimpulse ein. In der GSM-Voll- und -Halbratennorm des Standes der Technik wird das Komfortgeräusch dadurch erzeugt, daß ein lineares autoregressives Filter B. Ordnung mit weißem Rauschen mit einer besonderen Energie angeregt wird. Wie oben erwähnt wurde, neigt diese Technik allerdings dazu, Geräuschimpulse zu erzeugen, die nicht gut in das Hintergrundgeräusch übergehen, das vorhanden ist, wenn der Sprecher aktiv ist. Dies liegt an zwei Gründen. Zunächst ändert sich das Wesen des Erregungssignals plötzlich zu weißem Gauß'schem Rauschen. Zweitens ändert sich die Energie der Erregungssignale plötzlich zu der Rauschanregungsenergie.
  • Statt dessen ändert der Komfortgeräuschgenerator 40 gemäß der vorliegenden Erfindung die Energie und das Wesen des Erregungssignals allmählich zu denen des Pseudozufallsrauschens. Dies erfolgt dadurch, daß ein Erregungssignal verwendet wird, das sowohl eine weiße Gauß'sche Pseudozufalls-Rauschkomponente enthält, die durch den Generator 52 für die Komponente des Gauß'schen Rauschens erzeugt wird, als auch eine Komponente enthält, die von der Filteranregung während der Rahmensegmente abhängt, die dem durch den Codebuchkomponentengenerator 54 erzeugen Geräusch vorausgehen. Da vorausgegangene Anregungen üblicherweise als ein adaptives Codebuch gespeichert werden, umfaßt diese Lösung in CELP-gestützten Sprachcodierungssystemen keinen zusätzlichen Speicher.
  • Die durch den Codebuchkomponentengenerator 54 erzeugte Komponente der Rauschanregung, die von den vorausgegangenen Anregungen abhängt, ist einfach ein zufällig verzögertes adaptives Codebuchsegment oder allgemeiner ein zufällig verzögertes Segment vorausgegangener Anregungen. Das zufällige Verzögern des Beitrags des adaptiven Codebuchs in jedem Unterrahmen der Rauschanregung ist wichtig, um eine Klangtönung für das Komfortgeräusch zu vermeiden. Ferner wird die Wichtung, die dem Beitrag des adaptiven Codebuchs der Rauschanregung gegeben wird, wie im folgenden diskutiert wird, allmählich über die Zeit reduziert. Dies stellt noch weniger Klangtönung sicher, wobei die Rauschanregung im Ergebnis innerhalb weniger Unterrahmen fast vollständig weiß ist.
  • Als Beispiel wird angenommen, daß am Ende eines typischen Sprachimpulses das Rauschanalyse-Rahmenende im Rahmen k und in den Rahmen k + 1, k + 2, k + N als geräuschbehaftete Rahmen klassifiziert wurde. Ferner wird angenommen, daß jeder geräuschbehaftete Rahmen i in zwei Unterrahmen unterteilt wird, die durch die Paare (i, 1) und (i, 2) repräsentiert werden.
  • Die synthetische Sprache ŝ(i,j)[n] in jedem geräuschbehafteten Unterrahmen (i, j) wird dadurch erzeugt, daß in ein autoregressives Filter B. Ordnung mit den Koeffizienten a[0] = 1,0, a[1],..., a[8] ein Erregungssignal eij(n) eingespeist wird. Das Filter führt die folgende Operation aus:
    Figure 00090001
    wobei n = 1, 2,..., 40; i = ( k + 1),..., N; und wobei j = 1, 2 ist.
  • In der GSM-Norm ist die Anregung e(n) das weiße Gauß'sche Rauschen
    Figure 00090002
    In der vorliegenden Erfindung ist das durch den Generator 52 für die Komponente des weißen Rauschens und durch den Codebuchkomponentengenerator 54 erzeugte e(n) die gewichtete Summe eij(n) = (1 - fi )N(0,σ2) + f, d(n-l(ij)).
  • Hier ist l(ij) einfach eine gleichmäßig verteilte Zufallszahl, deren Bereich vom Speicher des verwendeten adaptiven Codebuchs abhängt. Ferner wird der Wichtungsfaktor f allmählich reduziert, während i steigt. In Simulationen unter Verwendung der vorliegenden Erfindung hat f = 0,951 gut funktioniert.
  • Die Kombination sowohl des Aspekts der Rauschabschätzung durch gewichtete Mittelung als auch des Aspekts der Rauschrekonstruktion der vorliegenden Erfindung hat die Qualität des getesteten Sprachcodierers stark verbessert.
  • Obgleich die vorliegende Erfindung ausführlich beschrieben wurde, können daran selbstverständlich verschiedene Änderungen, Ersetzungen und Abänderungen vorgenommen werden, ohne von dem Umfang der vorliegenden Erfindung abzuweichen.

Claims (19)

  1. Verfahren zur Übertragung von Sprachsignalen, mit folgenden Schritten: Segmentierung der Sprachsignale in Rahmen; Erfassung von Sprachaktivität in jedem dieser Rahmen; Klassifizierung jedes dieser Rahmen entweder als Sprache oder als Geräusch in Abhängigkeit von dem Erfassungsschritt; wenn die Sprachaktivität als Sprache klassifiziert ist, werden Parameter, welche die klassifizierten Rahmen repräsentieren, berechnet und übertragen; und wenn die Sprachaktivität als Geräusch klassifiziert ist, wird ein Teil der Rahmen, die als Geräusch klassifiziert sind, als Geräuschanalyse-Rahmen neu klassifiziert; Berechnung von Autokorrelationswerten für die Geräuschanalyse-Rahmen; Berechnen eines gewichteten Mittelwertes der Autokorrelationswerte, um die Geräuschanalyse-Rahmen zu repräsentieren; und Übertragen der gewichteten Mittelwerte als Geräuschparameter für die Verwendung zur Erzeugung von Komfortgeräusch.
  2. Verfahren nach Anspruch 1, bei welchem der Klassifizierungsschritt die Klassifizierung von wenigstens 16 aneinander anschließenden Rahmen dieser Rahmen als Geräusch einschließt, der Neuklassifizierungsschritt den Schritt der Neuklassifizierung der ersten sechszehn von diesen wenigstens sechszehn aneinander anschließenden Rahmen als Geräuschanalyse-Rahmen einschließt.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, ferner umfassend die Berechnung jedes dieser Geräuschanalyse-Rahmen, i, einschließlich von Sprachpro ben si(0), si(1), si(79), die zur Berechnung der Autokorrelationswerte ri[j] verwendet werden, als
    Figure 00110001
    worin j = 0,..., 8 und worin i = 1,..., 16.
  4. Verfahren nach Anspruch 3, bei welchem der Berechnungsschritt die Berechnung der gewichteten Mittelwerte R[j] der Autokorrelationswerte ri[j] gemäß
    Figure 00110002
    umfaßt, worin ωj eine exponentielle Wichtungsfunktion ist.
  5. Verfahren nach Anspruch 4, bei welchem der Berechnungsschritt die Berechnung der exponentiellen Wichtungsfunktion ωj gemäß ωj = 0,8j umfaßt.
  6. Verfahren zur Erzeugung von Komfortgeräusch zur Einfügung zwischen Sprachimpulsen in einer Sprachsyntheseeinrichtung, mit dem Schritt der Verwendung eines Erregungssignals, das eine gewichtete Summe einer Pseudozufalls-Geräuschkomponente und eine Komponente umfaßt, die von vergangenen Filteranregungen während Rahmen segmenten abhängt, die dem Geräusch vorausgegangen sind.
  7. Verfahren nach Anspruch 6, ferner umfassend den Empfang einer Pseudozufalls-Geräuschkomponente, die weißes Gauss'sches Rauschen enthält.
  8. Verfahren nach Anspruch 6 oder Anspruch 7, ferner umfassend den Empfang einer Komponente, die von vergangenen Anregungen abhängt, einschließlich einer synthetischen Sprachkomponente.
  9. Verfahren nach Anspruch 8, ferner umfassend den Empfang der synthetischen Sprachkomponente in Form eines zufällig verzögerten Segments eines adaptiven Codebuches.
  10. Verfahren nach Anspruch 8 oder Anspruch 9, ferner umfassend die Zuordnung eines Wichtungswertes zu der synthetischen Sprachkomponente, wobei die Wichtung über die Zeit reduziert wird.
  11. Verfahren nach einem der Ansprüche 8 bis 10, ferner umfassend die Erzeugung der synthetischen Sprachkomponentes ŝ(i, j)[n] in jedem geräuschbehafteten Unterrahmen (i, j) durch Zuführung eines Anregungssignals eij(n) zu einem autoregressiven Filter B. Ordnung mit den Koeffizienten a[0] = 1,0, a[1],..., a[8].
  12. Verfahren nach Anspruch 11, ferner umfassend die Bereitstellung des autoregressiven Filters in der Form:
    Figure 00120001
    worin n = 1, 2,..., 40; i = (k + 1),..., N; und worin j = 1, 2,..., 40.
  13. Verfahren nach Anspruch 12, bei welchem der Schritt der Bereitstellung des autoregressiven Filters die Einspeisung des Anregungssignals e(n) in der Form einer gewichteten Sunune umfaßt, enthaltend: eij(n) = (1 – fi)N(0,σ2) + fid(n -l(ij)) worin l(ij) eine gleichmäßig verteilte Zufallszahl ist, deren Bereich von dem Speicher des adaptiven Codebuches abhängt, worin f ein Wichtungsfaktor ist.
  14. Verfahren nach Anspruch 13, ferner umfassend die Bereitstellung eines Wichtungsfaktors f mit f; = 0,951.
  15. Diskontinuierliches Übertragungssystem umfassend: einen Codierer zur Erzeugung und Übertragung von Sprachparametern, die übertragene Sprache darstellen, und zur Erzeugung und Übertragung von Geräuschparametern, die dieses Geräusch an dem Codierer darstellen, unter Verwendung eines gewichteten Mittelwertes der Autokorrelationswerte der übertragenen Sprache, der während einer Geräuschanalysephase erzeugt wurde; und einen Decoder zum Empfangen der Sprachparameter und der Geräuschparameter und zur Erzeugung von synthetischer Sprache unter Verwendung der Sprachparameter.
  16. System nach Anspruch 15, bei welchem die Technik der gewichteten Mittelung weniger Gewicht auf die Autokorrelationswerte während eines ersten Teils der übertragenen Sprache und mehr Gewicht auf einen zweiten Teil der übertragenen Sprache legt, wobei der erste Teil der übertragenen Sprache vor dem zweiten Teil der übertragenen Sprache auftritt.
  17. Sprachsyntheseeinrichtung, die zur Erzeugung von Komfortgeräusch betrieben werden kann, unter Verwendung eines Anregungssignals, das eine gewichtete Summe einer Geräuschkomponente sowie eine Komponente enthält, die mit vorausgegangenen Filteranregungen während Rahmensegmenten erhalten wurde, die dem Geräusch vorausgegangen sind.
  18. System nach Anspruch 17, bei welchem die Geräuschkomponente weißes Gauss'sches Rauschen ist.
  19. System nach Anspruch 17 oder Anspruch 18, bei welchem die mit vorausgegangenen Anregungen erzeugte Komponente ein zufällig verzögertes adaptives Codebuchsegment ist.
DE69721349T 1996-01-29 1997-01-29 Sprachkodierung Expired - Lifetime DE69721349T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/593,206 US5794199A (en) 1996-01-29 1996-01-29 Method and system for improved discontinuous speech transmission
US593206 1996-01-29

Publications (2)

Publication Number Publication Date
DE69721349D1 DE69721349D1 (de) 2003-06-05
DE69721349T2 true DE69721349T2 (de) 2004-04-01

Family

ID=24373831

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69721349T Expired - Lifetime DE69721349T2 (de) 1996-01-29 1997-01-29 Sprachkodierung

Country Status (4)

Country Link
US (3) US5794199A (de)
EP (1) EP0786760B1 (de)
JP (1) JPH1097292A (de)
DE (1) DE69721349T2 (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
FI99066C (fi) * 1995-01-31 1997-09-25 Nokia Mobile Phones Ltd Tiedonsiirtomenetelmä
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission
SE507370C2 (sv) * 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US6122611A (en) * 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
TW376611B (en) * 1998-05-26 1999-12-11 Koninkl Philips Electronics Nv Transmission system with improved speech encoder
US6141639A (en) * 1998-06-05 2000-10-31 Conexant Systems, Inc. Method and apparatus for coding of signals containing speech and background noise
US6275798B1 (en) * 1998-09-16 2001-08-14 Telefonaktiebolaget L M Ericsson Speech coding with improved background noise reproduction
SE9803698L (sv) * 1998-10-26 2000-04-27 Ericsson Telefon Ab L M Metoder och anordningar i ett telekommunikationssystem
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
FI118359B (fi) * 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6226607B1 (en) * 1999-02-08 2001-05-01 Qualcomm Incorporated Method and apparatus for eighth-rate random number generation for speech coders
US6519260B1 (en) 1999-03-17 2003-02-11 Telefonaktiebolaget Lm Ericsson (Publ) Reduced delay priority for comfort noise
GB9912577D0 (en) * 1999-05-28 1999-07-28 Mitel Corp Method of detecting silence in a packetized voice stream
JP3451998B2 (ja) * 1999-05-31 2003-09-29 日本電気株式会社 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
CN1145928C (zh) * 1999-06-07 2004-04-14 艾利森公司 用参数噪声模型统计量产生舒适噪声的方法及装置
US6782361B1 (en) * 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
GB2356538A (en) * 1999-11-22 2001-05-23 Mitel Corp Comfort noise generation for open discontinuous transmission systems
US6965865B2 (en) 1999-12-30 2005-11-15 Bank One Delaware N.A. System and method for integrated customer management
US6873604B1 (en) * 2000-07-31 2005-03-29 Cisco Technology, Inc. Method and apparatus for transitioning comfort noise in an IP-based telephony system
JP2002073072A (ja) * 2000-08-31 2002-03-12 Sony Corp モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置
US6647053B1 (en) * 2000-08-31 2003-11-11 Ricochet Networks, Inc. Method and system for channel masking in a communication network
JP3670217B2 (ja) 2000-09-06 2005-07-13 国立大学法人名古屋大学 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法
US7012901B2 (en) * 2001-02-28 2006-03-14 Cisco Systems, Inc. Devices, software and methods for generating aggregate comfort noise in teleconferencing over VoIP networks
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
US20030093270A1 (en) * 2001-11-13 2003-05-15 Domer Steven M. Comfort noise including recorded noise
KR100434723B1 (ko) * 2001-12-24 2004-06-07 주식회사 케이티 음성 신호특성을 이용한 돌발잡음 제거장치 및 그 방법
US8751384B2 (en) 2002-05-08 2014-06-10 Metavante Corporation Integrated bill presentment and payment system and method of operating the same
FR2851352B1 (fr) * 2003-02-18 2005-04-01 France Telecom Systeme de conversion d'un signal audio continu en un signal audiot traduit et synthetise
US7243065B2 (en) * 2003-04-08 2007-07-10 Freescale Semiconductor, Inc Low-complexity comfort noise generator
US7313233B2 (en) * 2003-06-10 2007-12-25 Intel Corporation Tone clamping and replacement
US7536298B2 (en) * 2004-03-15 2009-05-19 Intel Corporation Method of comfort noise generation for speech communication
US8194722B2 (en) 2004-10-11 2012-06-05 Broadcom Corporation Various methods and apparatuses for impulse noise mitigation
US9374257B2 (en) * 2005-03-18 2016-06-21 Broadcom Corporation Methods and apparatuses of measuring impulse noise parameters in multi-carrier communication systems
GB0703795D0 (en) * 2007-02-27 2007-04-04 Sepura Ltd Speech encoding and decoding in communications systems
EP2137722A4 (de) * 2007-03-30 2014-06-25 Savox Comm Oy Ab Ltd Funkkommunikationsgerät
CN101335003B (zh) * 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
US8605837B2 (en) 2008-10-10 2013-12-10 Broadcom Corporation Adaptive frequency-domain reference noise canceller for multicarrier communications systems
US8589153B2 (en) * 2011-06-28 2013-11-19 Microsoft Corporation Adaptive conference comfort noise
CN103137133B (zh) 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
JP5793636B2 (ja) 2012-09-11 2015-10-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) コンフォート・ノイズの生成
US9775110B2 (en) 2014-05-30 2017-09-26 Apple Inc. Power save for volte during silence periods
EP2980790A1 (de) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Komfortgeräuscherzeugungs-Modusauswahl

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
US4899385A (en) * 1987-06-26 1990-02-06 American Telephone And Telegraph Company Code excited linear predictive vocoder
US4910781A (en) * 1987-06-26 1990-03-20 At&T Bell Laboratories Code excited linear predictive vocoder using virtual searching
EP0548054B1 (de) * 1988-03-11 2002-12-11 BRITISH TELECOMMUNICATIONS public limited company Anordnung zur Feststellung der Anwesenheit von Sprachlauten
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
US5091945A (en) * 1989-09-28 1992-02-25 At&T Bell Laboratories Source dependent channel coding with error protection
US5537509A (en) * 1990-12-06 1996-07-16 Hughes Electronics Comfort noise generation for digital communication systems
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
JP2518765B2 (ja) * 1991-05-31 1996-07-31 国際電気株式会社 音声符号化通信方式及びその装置
US5267317A (en) * 1991-10-18 1993-11-30 At&T Bell Laboratories Method and apparatus for smoothing pitch-cycle waveforms
US5630016A (en) * 1992-05-28 1997-05-13 Hughes Electronics Comfort noise generation for digital communication systems
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
JP2897551B2 (ja) * 1992-10-12 1999-05-31 日本電気株式会社 音声復号化装置
WO1995015550A1 (en) * 1993-11-30 1995-06-08 At & T Corp. Transmitted noise reduction in communications systems
JP3182032B2 (ja) * 1993-12-10 2001-07-03 株式会社日立国際電気 音声符号化通信方式及びその装置
KR970005131B1 (ko) * 1994-01-18 1997-04-12 대우전자 주식회사 인간의 청각특성에 적응적인 디지탈 오디오 부호화장치
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission

Also Published As

Publication number Publication date
EP0786760A3 (de) 1998-09-16
JPH1097292A (ja) 1998-04-14
US6101466A (en) 2000-08-08
EP0786760B1 (de) 2003-05-02
EP0786760A2 (de) 1997-07-30
US5794199A (en) 1998-08-11
US5978760A (en) 1999-11-02
DE69721349D1 (de) 2003-06-05

Similar Documents

Publication Publication Date Title
DE69721349T2 (de) Sprachkodierung
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE3710664C2 (de)
DE69631318T2 (de) Verfahren und Vorrichtung zur Erzeugung von Hintergrundrauschen in einem digitalen Übertragungssystem
DE69331079T2 (de) CELP-Vocoder
DE69900786T2 (de) Sprachkodierung
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE19681070C2 (de) Verfahren und Vorrichtung zum Betreiben eines Kommunikationssystems mit Rauschunterdrückung
DE69518174T2 (de) Rauschkorrektur durch Feststellung der Anwesenheit von Sprachsignalen
DE69621613T2 (de) Anordnung und verfahren zur sprachübertragung und eine derartige anordnung enthaltende fernsprechanlage
DE69113866T2 (de) Sprachdecoder.
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE69526007T2 (de) Postfilter und Verfahren zur Postfilterung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE60012760T2 (de) Multimodaler sprachkodierer
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
EP2245621B1 (de) Verfahren und mittel zur enkodierung von hintergrundrauschinformationen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition