DE69925168T2 - Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal - Google Patents

Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal Download PDF

Info

Publication number
DE69925168T2
DE69925168T2 DE69925168T DE69925168T DE69925168T2 DE 69925168 T2 DE69925168 T2 DE 69925168T2 DE 69925168 T DE69925168 T DE 69925168T DE 69925168 T DE69925168 T DE 69925168T DE 69925168 T2 DE69925168 T2 DE 69925168T2
Authority
DE
Germany
Prior art keywords
audio signal
determination
noise
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69925168T
Other languages
English (en)
Other versions
DE69925168D1 (de
Inventor
Jonas Svedberg
Erik Ekudden
Anders Uvliden
Ingemar Johansson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=26807081&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69925168(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of DE69925168D1 publication Critical patent/DE69925168D1/de
Publication of DE69925168T2 publication Critical patent/DE69925168T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

  • Die Anmeldung beansprucht die Priorität unter 35 USC 119(e)(1) der mitanhängige Vorläufigen U.S. Anmeldung Nr. 60/109,556, eingereicht am 23. November 1998.
  • GEBIET DER ERFINDUNG
  • Die Erfindung betrifft allgemein eine Audiosignal-Komprimierung und im Besonderen eine Sprach-Rauschklassifizierung während einer Audiokomprimierung.
  • HINTERGRUND DER ERFINDUNG
  • Sprachcodierer und -decodierer sind konventionellerweise bereitgestellt in Funksendern bzw. Funkempfängern und sind zusammen betriebsfähig zum Ermöglichen von Sprache(Stimme)-Kommunikationen zwischen einem gegebenen Sender und einem Empfänger über eine Funkverbindung. Die Kombination eines Sprachcodierers und eines Sprachdecodierers wird oft als ein Sprachcodec bezeichnet. Ein Mobilfunktelefon (z.B. ein Funktelefon) ist ein Beispiel eines konventionellen Kommunikationsgerätes, das typischerweise einen Funksender enthält mit einem Sprachcodierer, und einen Funkempfänger mit einem Sprachdecodierer.
  • In konventionellen blockbasierten Sprachcodierern wird das ankommende Sprachsignal in Blöcke aufgeteilt, Rahmen genannt. Für übliche 4 kHz-Telefonbandbreiten-Anwendungen ist eine typische Rahmenlänge 20 ms oder 160 Abtastwerte bzw. Samples. Die Rahmen werden weiter in Unterrahmen aufgeteilt, typischerweise von einer Länge von 5 ms oder 40 Abtastwerten.
  • Beim Komprimieren des ankommenden Audiosignals verwenden Sprachcodierer konventionellerweise fortgeschrittene verlustbehaftete Komprimierungstechniken. Die komprimierte (oder codierte) Signalinformation wird zu dem Decodierer übertragen über einen Kommunikationskanal, so wie eine Funkverbindung. Der Decodierer versucht dann, das Eingangsaudiosignal aus der komprimierten Signalinformation zu reproduzieren. Wenn gewisse Eigenschaften des ankommenden Audiosignals bekannt sind, kann die Bitrate in dem Kommunikationskanal so niedrig wie möglich aufrecht erhalten werden. Wenn das Sprachsignal relevante Information für den Zuhörer enthält, dann sollte diese Information bewahrt bzw. erhalten werden. Wenn das Audiosignal nur unrelevante Information (z.B. Hintergrundrauschen) enthält, kann jedoch Bandbreite gespart werden durch Übertragen nur einer begrenzten Menge von Information über das Signal. Für viele Signale, die nur unrelevante Information enthalten, kann eine sehr niedrige Bitrate häufig eine Komprimierung einer hohen Qualität bereitstellen. In Extremfällen kann das ankommende Signal in dem Decodierer synthetisiert werden ohne irgendwelche Informationsaktualisierungen über den Kommunikationskanal, bis bestimmt wird, dass das Eingangsaudiosignal wieder relevante Information enthält.
  • Typische Signale, die konventionellerweise ziemlich genau mit sehr niedrigen Bitraten reproduziert werden können, beinhalten stationäres Rauschen, Auto-Rauschen und auch, zu einem gewissen Ausmaß, ein Rauschen eines unverständlichen Gemurmels. Komplexere Nicht-Sprachsignale wie Musik, oder kombinierte Sprache und Musik, erfordern höhere Bitraten zum genauen Reproduzieren durch den Decoder.
  • Für viele übliche Typen von Hintergrundrauschen stellt eine viel niedrigere Bitrate als eine für Sprache benötigte ein ausreichend gutes Modell des Signals dar. Existierende Mobilsysteme machen Gebrauch von dieser Tatsache durch Abwärtsregeln der übertragenen Bitrate während eines Hintergrundrauschens. Zum Beispiel kann in kontinuierliche Übertragungstechniken verwendenden konventionellen Systemen ein Sprachcodierer einer variablen Rate (variable rate)(VR) seine niedrigste Bitrate verwenden.
  • Bei konventionellen Methoden einer diskontinuierlichen Übertragung (Discontinuous Transmission)(DTX) stoppt der Sender ein Senden codierter Sprachrahmen, wenn der Sprecher inaktiv ist. Zu regulären oder irregulären Intervallen (z.B. jede 100 bis 500 ms) sendet der Sender Sprachparameter, die geeignet sind für eine konventionelle Erzeugung von Komfortrauschen in dem Decoder. Diese Parameter für eine Erzeugung eines Komfortrauschens (comfort noise generation)(CNG) werden konventioneller Weise in etwas codiert, das manchmal Ruhedeskriptor-(Silence Descriptor)(SID)-Rahmen genannt wird. Bei dem Empfänger verwendet der Decodierer die in den SID-Rahmen empfangenen Parameter eines Komfortrauschens zum Synthetisieren eines künstlichen Rauschens mittels eines konventionellen Algorithmus einer Komfortrauschen-Injektion (comfort noise injeciton)(CNI).
  • Wenn ein Komfortrauschen in dem Decodierer in einem konventionellen DTX-System erzeugt wird, wird das Rauschen oft als sehr statisch und sehr unterschiedlich von dem in einem aktiven (Nicht-DTX) Modus erzeugtem Hintergrundrauschen wahrgenommen. Der Grund für diese Wahrnehmung ist, dass DTX SID-Rahmen nicht so oft wie normale Sprachrahmen zu dem Empfänger gesendet werden. In konventionellen Linearprädiktionsanalyse-durch-Synthese-(linear prediction analysis-by-synthesis)(LPAS) Codecs mit einem DTX Modus werden das Spektrum und die Energie des Hintergrundrauschens typischerweise über einige Rahmen geschätzt (z.B. gemittelt), und die geschätzten Parameter werden dann quantisiert und übertragen in SID-Rahmen über den Kanal zu dem Decodierer.
  • Der Vorteil eines Sendens der SID-Rahmens mit deren relativ niedriger Aktualisierungsrate anstelle eines Sendens von regulären Sprachrahmen ist ein zweifacher. Die Batterielebensdauer in z.B. einem Mobilfunk-Transceiver wird aufgrund der niedrigeren Leistungsaufnahme verlängert, und die durch den Sender geschaffene Störung wird verringert, wodurch eine höhere Systemkapazität bereitgestellt wird.
  • Wenn ein komplexes Signal wie Musik komprimiert wird mit Verwenden eines Komprimierungsmodells, das zu einfach ist, und einer entsprechenden Bitrate, die zu niedrig ist, wird das reproduzierte Signal bei dem Decodierer dramatisch von dem Ergebnis abweichen, das erhalten werden würde unter Verwenden einer besseren (höhere Qualität) Komprimierungstechnik. Die Verwendung einer zu einfachen Komprimierungsmethode kann verursacht sein durch Fehlklassifizieren des komplexen Signals als Rauschen. Wenn solche ein Fehlklassifizierung auftritt, gibt der Decodierer nicht nur ein dürftig reproduziertes Signal aus, sondern die Fehlklassifizierung selbst resultiert nachteilhafterweise in einem Schalten von einer Komprimierungsmethode einer höheren Qualität zu einer Komprimierungsmethode einer niedrigeren Qualität. Zum Korrigieren dieser Fehlklassifizierung wird ein weiteres Zurückschalten zu der Methode einer höheren Qualität benötigt. Wenn solch ein Schalten zwischen Komprimierungsmethoden häufig auftritt, ist es typischerweise sehr hörbar und kann den Zuhörer irritieren.
  • Aus dem Vorhergehenden ist ersichtlich, dass es wünschenswert ist, die Fehlklassifizierung von subjektiv relevanten Signalen zu reduzieren, während eine niedrige Bitrate (hohe Kompression) noch aufrecht erhalten wird, wo angemessen, z.B. beim Komprimieren von Hintergrundrauschen, während der Sprecher still ist. Sehr starke Komprimierungstechniken können verwendet werden, vorausgesetzt, sie werden nicht als irritierend wahrgenommen. Die Verwendung von Parametern eines Komfortrauschens, wie oben bezüglich der DTX-Systeme beschrieben, ist ein Beispiel einer Technik einer starken Kompression, wie es auch ein konventionelles niedrigratiges Linearprädiktionscodieren (linear predictive coding)(LPC) mit Verwenden von Verfahren einer zufälligen Anregung ist. Solche Codierungstechniken, die eine starke Komprimierung nutzen, können typischerweise nur wahrnehmungsgemäß einfache Rauschtypen genau reproduzieren, so wie stationäres Auto-Rauschen, Straßen-Rauschen, Restaurant-Rauschen (unverständliches Gemurmel) und andere ähnliche Signale.
  • Konventionelle Klassifizierungstechniken zum Bestimmen, ob ein Eingangsaudiosignal relevante Information enthält oder nicht, sind primär basiert auf einer relativ einfachen Stationäritätsanalyse des Eingangsaudiosignals. Diese konventionelle Stationaritätsanalyse allein kann bewirken, dass komplexe Signale, die ziemlich stationär sind, aber tatsächlich wahrnehmungsrelevante Information enthalten, als Rauschen fehlklassifiziert werden. Solch eine Fehlklassifizierung resultiert nachteilhafterweise in den oben beschriebenen Problemen.
  • Es ist deshalb wünschenswert, eine Klassifizierungstechnik bereitzustellen, die zuverlässig die Anwesenheit von wahrnehmungsrelevanter Information in komplexen Signalen des oben beschriebenen Typs detektiert.
  • Gemäß der vorliegenden Erfindung, wie durch die angehängten unabhängigen Ansprüche definiert, ist eine Aktivitätsdetektion eines komplexen Signals bereitgestellt zum zuverlässigen Detektieren von komplexen Nicht-Sprachsignalen, die relevante Information enthalten, die wahrnehmungsgemäß wichtig ist für den Zuhörer. Beispielen von komplexen Nicht-Sprachsignalen, die zuverlässig detektiert werden können, enthalten Musik, Musik im Wartezustand, kombinierte Sprache und Musik, Musik in dem Hintergrund, und andere Ton- oder Obertongeräusche.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 veranschaulicht diagrammartig zur Sache gehörende Abschnitte einer beispielhaften Sprachcodiervorrichtung gemäß der Erfindung.
  • 2 veranschaulicht beispielhafte Ausführungsformen des Aktivitätsdetektors eines komplexen Signals von 1.
  • 3 veranschaulicht beispielhafte Ausführungsformen des Stimmenaktivitätsdetektors von 1.
  • 4 veranschaulicht beispielhafte Ausführungsformen der Nachwirk-Logik von 1.
  • 5 veranschaulicht beispielhafte Ausführungsformen des Parametergenerators von 2.
  • 6 veranschaulicht beispielhafte Ausführungsformen der Zählersteuereinrichtung von 2.
  • 7 veranschaulicht beispielhafte Operationen eines Abschnitts von 2.
  • 8 veranschaulicht beispielhafte Operationen eines anderen Abschnitts von 2.
  • 9 veranschaulicht beispielhafte Operationen eines Abschnitts von 3.
  • 10 veranschaulicht beispielhafte Operationen der Zählersteuereinrichtung von 3.
  • 11 veranschaulicht beispielhafte Operationen eines weiteren Abschnitts von 3.
  • 12 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Ausführungsformen von 1-11.
  • 13 veranschaulicht alternative Ausführungsformen des Aktivitätsdetektors eines komplexen Signals von 2.
  • DETAILLIERTE BESCHREIBUNG
  • 1 veranschaulicht diagrammartig zur Sache gehörende Abschnitte von beispielhaften Ausführungsformen einer Sprachcodiervorrichtung gemäß der Erfindung. Die Sprachcodiervorrichtung kann bereitgestellt sein, z.B., in einem Funktransceiver, der Audioinformation über einen Funkkommunikationskanal kommuniziert. Ein Beispiel eines solchen Funktransceivers ist ein Mobilfunktelefon, so wie ein Funktelefon.
  • In 1 wird das Eingangsaudiosignal eingegeben zu einem Aktivitätsdetektor eines komplexen Signals (complex signal activity detector) (CAD) und ebenso zu einem Stimmaktivitätsdetektor (voice activity detector)(VAD). Der Aktivitätsdetektor eines komplexen Signals CAD reagiert auf das Audioeingangssignal zum Durchführen einer Relevanzanalyse, die bestimmt, ob das Eingangssignal Information enthält, die wahrnehmungsrelevant für den Zuhörer ist, und Bereitstellen eines Satzes von Signalrelevanzparametern für den VAD. Der VAD verwendet diese Signalrelevanzparameter in Verbindung mit dem empfangenen Audioeingangssignal zum Bestimmen, ob das Eingangsaudiosignal Sprache oder Rauschen ist. Der VAD arbeitet als Sprache/Rauschen-Klassifizierer; und stellt als eine Ausgabe eine Sprache/Rauschen-Angabe bereit. Der CAD empfängt die Sprache/Rauschen-Angabe als einen Eingang. Der CAD reagiert auf die Sprache/Rauschen-Angabe und das Eingangsaudiosignal zum Produzieren eines Satzes von Kennungen eines komplexen Signals, die an einen Nachwirk-Logik-Teil ausgegeben werden, der ebenso als eine Eingabe, die durch den VAD bereitgestellte Sprache/Rauschen-Angabe empfängt.
  • Die Nachwirk-Logik reagiert auf die Kennungen eines komplexen Signals und die Sprache/Rauschen-Angabe zum Bereitstellen einer Ausgabe, die anzeigt, ob das Eingangsaudiosignal Information enthält oder nicht, die wahrnehmungsrelevant für einen Zuhörer ist, der ein reproduziertes Audiosignal hören wird, das durch eine Decodiervorrichtung in einem Empfänger bei dem anderen Ende des Kommunikationskanals ausgegeben ist. Die Ausgabe der Nachwirk-Logik kann angemessen verwendet werden zum Steuern, z.B., eines DTX-Betriebs (in einem DTX-System) oder der Bitrate (in einem VR-Codierer einer variablen Rate). Wenn der Nachwirk-Logik-Ausgang angibt, dass Eingangsaudiosignal keine relevante Information enthält, dann kann Komfortrauschen erzeugt werden (in einem DTX-System), oder die Bitrate kann verringert werden (in einem VR-Codierer).
  • Das Eingangssignal (welches vorverarbeitet sein kann) wird in dem CAD analysiert durch Informationsextrahieren jedes Rahmens über die Korrelation des Signals in einem spezifischen Frequenzband. Dies kann erreicht werden durch zuerst Filtern des Signals mit einem geeigneten Filter, z.B. einem Bandpassfilter oder einem Hochpassfilter. Dieses Filter gewichtet die Frequenzbänder, die die meiste Energie von Interesse in der Analyse enthalten. Typischerweise sollte die niedrige Frequenzregion ausgefiltert werden, um die starken niedrigen Frequenzinhalte von, zum Beispiel, Auto-Rauschen zu deakzentuieren. Das gefilterte Signal kann dann zu einer Open-Loop Langzeitprädiktions-(long term prediction)(LTP)-Korrelationsanalyse gereicht werden. Die LTP-Analyse stellt als Ergebnis einen Vektor von Korrelationswerten oder normalisierten Verstärkungsfaktorwerten bereit; einen Wert pro Korrelationsverschiebung. Der Verschiebungsbereich kann, zum Beispiel, [20, 147] sein, wie bei einer konventionellen LTP-Analyse. Ein alternatives Verfahren mit einer niedrigen Komplexität zum Erreichen der erwünschten Relevanzdetektion ist ein Verwenden des ungefilterten Signals in der Korrelationsberechnung und ein Modifizieren der Korrelationswerte durch einen algorithmisch ähnlichen Prozess eines "Filterns", wie detailliert unten beschrieben.
  • Für jeden Analyserahmen wird der normalisierte Korrelationswert (Verstärkungsfaktorwert) mit dem größten Ausmaß ausgewählt und gepuffert. Die Verschiebung (entsprechend der LTP-Verzögerung des ausgewählten Korrelationswertes) wird nicht verwendet. Die Werte werden weiter analysiert zum Bereitstellen eines Vektors von Signalrelevantparametern, der zu dem VAD gesendet wird zum Verwenden durch den Schätzungsprozess eines Hintergrundrauschens. Die gepufferten Korrelationswerte werden ebenso verarbeitet und verwendet zum Treffen einer definitiven Entscheidung, ob das Signal relevant (d.h., wahrnehmungsgemäß Wichtigkeit hat) ist und ob die VAD-Entscheidung zuverlässig ist. Ein Satz von Kennungen, VAD_fail_long und VAD_fail_short, werden produziert zum Anzeigen, wann es wahrscheinlich ist, dass der VAD eine ernsthafte Fehlqualifizierung machen wird, d.h., eine Rauschen-Klassifizierung, wenn tatsächlich wahrnehmungsrelevante Information vorliegt.
  • Die in der CAD-Relevanzanalyse berechneten Signalrelevanzparameter werden verwendet zum Steigern der Leistung der VAD-Methode. Die VAD-Methode versucht zu bestimmen, ob das Signal ein Sprachsignal (möglicherweise verschlechtert durch Umgebungsrauschen) oder ein Rauschsignal ist. Um fähig zu sein, das (Sprache + Rauschen)-Signal von Rauschen zu unterscheiden, behält der VAD konventioneller Weise einen Schätzwert des Rauschens. Der VAD muss seine eigenen Schätzwerte des Hintergrundrauschens aktualisieren zum Treffen einer besseren Entscheidung bei der Klassifizierung eines (Sprache + Rauschen)-Signals. Die Relevanzparameter von dem CAD werden verwendet zum Bestimmen, zu welchem Ausmaß die VAD-Hintergrundrauschen- und Aktivitätssignal-Schätzwerte aktualisiert werden.
  • Die Nachwirk-Logik passt die endgültige Entscheidung des Signals an unter Verwenden vorheriger Information über die Relevanz des Signals und der vorherigen VAD-Entscheidungen, wenn der VAD als zuverlässig betrachtet wird. Die Ausgabe der Nachwirk-Logik ist eine endgültige Entscheidung darüber, ob das Signal relevant ist oder nicht-relevant. In dem nicht-relevanten Fall kann eine niedrige Bitrate verwendet werden zum Codieren. In einem DTX-System wird diese relevante/nicht-relevante Information verwendet zum Entscheiden, ob der vorliegende Rahmen auf normale Weise (relevant) codiert werden sollte, oder ob stattdessen der Rahmen mit Parametern eines Komfortrauschens (nicht-relevant) codiert werden sollte.
  • In einer beispielhaften Ausführungsform wird eine effiziente Implementierung mit niedriger Komplexität des CAD bereitgestellt in einem Sprachcodierer, der eine Linearprädiktionsanalyse-durch-Synthese-(linear prediction analysis-by-synthesis)(LPAS)-Struktur verwendet. Das Eingangssignal zum dem Sprachcodierer wird durch konventionelle Mittel konditioniert (hochpass-gefiltert, skaliert, etc.). Das konditionierte Signal, s(n), wird dann gefiltert durch das durch LPAS-Codierer verwendete konventionelle adaptive Rauschgewichtungsfilter. Das gewichtete Sprachsignal, sw(n), wird dann zu der Open-Loop-LTP-Analyse gereicht. Die LTP-Analyse berechnet und speichert die Korrelationswerte für jede Verschiebung in dem Bereich [Lmin, Lmax] wobei, zum Beispiel, Lmin = 18 und Lmax = 147. Für jeden Verzögerungswert (Verschiebung), L, in dem Bereich, wird die Korrelation Rxx(k, l) für Verzögerungswert 1 berechnet als:
    Figure 00100001
    wobei K die Länge des Analyserahmens ist. Wenn k zu Null gesetzt ist, kann dieses als eine nur von der Verzögerung 1 abhängige Funktion geschrieben werden:
  • Figure 00100002
  • Ebenso kann definiert werden Exx(L) = Rxx(L, L) (Gleichung 3)
  • Diese Prozeduren werden konventionell durchgeführt als eine Vorsuche für die adaptive Codebuch-Suche (adaptive codebook search) in dem LPAS-Codierer, und sind somit ohne zusätzliche Berechnungskosten verfügbar.
  • Der optimale Verstärkungsgradfaktor, g_opt, für einen Prediktor eines einzelnen Abgriffs bzw. Taps wird erhalten durch Minimieren der Verzerrung, D, in der Gleichung:
  • Figure 00100003
  • Der optimale Verstärkungsgradfaktor g_opt (wirklich die normalisierte Korrelation) ist der Wert von g in Gleichung 4, der D minimiert, und ist gegeben durch:
    Figure 00110001
    wobei L die Verzögerung ist, für die die Verzerrung D (Gleichung 4) minimiert ist, und Exx(L) die Energie ist. Der Detektor eines komplexen Signals berechnet den optimalen Verstärkungsgrad (g_opt) einer hochpass-gefilterten Version des gewichteten Signals sw. Das Hochpassfilter kann z.B. ein einfaches Filter einer ersten Ordnung mit Filterkoeffizienten [h0, h1] sein. In einer Ausführungsform minimiert eine vereinfachte Formel D (siehe Gleichung 4) unter Verwenden des gefilterten Signals sw_f(n), anstelle eines Hochpass-Filterns des gewichteten Signals vor der Korrelationsberechnung.
  • Das hochpass-gefilterte Signal sw_f(n) ist gegeben durch: sw_f(n) = h0·sw(n) + h1·sw(n – 1) (Gleichung 7)
  • In diesem Fall wird g_max (das g_opt des gefilterten Signals) erhalten als:
  • Figure 00110002
  • Der Parameter g_max kann somit berechnet werden gemäß Gleichung 8 unter Verwenden der zuvor erwähnten bereits verfügbaren Rxx und Exx Werte, die aus dem ungefilterten Signal sw erhalten sind, anstelle eines Berechnens eines neuen Rxx für das gefilterte Signal sw_f.
  • Wenn die Filterkoeffizienten [h0, h1] ausgewählt sind als [1, –1] und die Nenner-Normalisierungsverzögerung Lden zu Lden = 0 gesetzt ist, reduziert sich die Berechnung von g_max zu:
  • Figure 00120001
  • Eine weitere Vereinfachung wird erhalten durch Verwenden der Werte für Lden = (Lmin + 1) (anstelle des optimalen L_opt, d.h., der optimalen Verzögerung in Gleichung 4) in dem Nenner von Gleichung (8), und Begrenzen des Maximums L zu Lmax – 1 und dem minimalen Lmin Wert in der Maximumsuche zu (Lmin + 1). In diesem Fall sind keine anderen zusätzlichen Korrelationsberechnungen erforderlich als die bereits verfügbaren Rxx(l) Werte von der Open-Loop LTP-Analyse.
  • Für jeden Rahmen wird der Verstärkungsgradwert g_max mit dem größten Ausmaß gespeichert. Eine geglättete Version g_f(i) kann erhalten werden durch Filtern des g_max Wertes, der jeden Rahmen erhalten wird, gemäß zu g_f(i) = b0·g_max(i) – a1·g_f(i – 1). In einigen Ausführungsformen können die Filterkoeffizienten b0 und a1 zeitvariant sein, und können ebenso zustands- und eingangsabhängig sein zum Vermeiden von Zustandssättigungsproblemen. Zum Beispiel können b0 und a1 als jeweilige Funktionen einer Zeit ausgedrückt werden, g_max(i) und g_f(i – 1). Das heißt, b0 = fb(t, g_max(i), g_f(i – 1)) und a1 = fa(t, g_max(i), g_f(i – 1)).
  • Das Signal g_f(i) ist ein Primärprodukt der CAD-Relevanzanalyse. Durch Analysieren des Zustands und einer Vorgeschichte von g_f(i) kann die VAD-Adaption mit Unterstützung bereitgestellt werden, und der Nachwirk-Logik-Block wird mit Operationsangaben bereitgestellt.
  • 2 veranschaulicht beispielhafte Ausführungsformen des oben beschriebenen Aktivitätsdetektors eines komplexen Signals CAD von 1. Ein Vorverarbeitungsteil 21 verarbeitet das Eingangssignal vor zum Produzieren des zuvor erwähnten gewichteten Signals sw(n). Das Signal sw(n) wird an einen konventionellen Korrelationsanalysator 23 angelegt, z.B. einen Open-Loop-Lanzeitprädiktions-(long term prediction)(LTP) Korrelationsanalysator. Der Ausgang 22 des Korrelationsanalysators 23 ist konventionellerweise bereitgestellt als ein Eingang zu einer adaptiven Codebuch-Suche bei 24. Wie oben erwähnt, sind die in dem konventionellen Korrelationsanalysator 23 verwendeten Rxx und Exx Werte verfügbar, um beim Berechnen von g_f(i) gemäß der Erfindung verwendet zu werden.
  • Die Rxx und Exx Werte werden bereitgestellt bei 25 zu einem Rechner eines maximalen normalisierten Verstärkungsgrads 20, der g_max Werte wie oben beschrieben berechnet. Der g_max Wert vom größten Ausmaß (maximales Ausmaß) für jeden Rahmen wird ausgewählt durch Rechner 20 und in einem Puffer 26 gespeichert. Die gepufferten Werten werden dann an ein Glättungsfilter 27 wie oben beschrieben angelegt. Die Ausgabe bzw. der Ausgang des Glättungsfilters 27 ist g_f(i).
  • Das Signal g_f(i) wird zu einem Parametergenerator 28 eingegeben. Der Parametergenerator 28 produziert als Antwort auf das Eingangssignal g_f(i) ein Paar von Ausgaben complex_high und complex_low, die als Signalrelevanzparameter bereitgestellt werden zu dem VAD (siehe 1). Der Parametergenerator 28 produziert auch eine Ausgabe eines complex_timer, die zu einer Zählersteuereinheit 29 eingegeben wird, die einen Zähler 201 steuert. Die Ausgabe von Zähler 201, complex_hang_count, wird bereitgestellt zu dem VAD als ein Signalrelevanzparameter, und wird ebenso eingegeben zu einem Komparator 203, dessen Ausgabe, VAD_fail_long, eine Kennung eines komplexen Signals ist, die bereitgestellt wird zu der Nachwirk-Logik (1). Das Signal g_f(i) wird auch bereitgestellt zu einem weiteren Komparator 205, dessen Ausgang 208 an einen Eingang von einem AND-Gatter bzw. UND-Gatter 207 gekoppelt ist.
  • Der Aktivitätsdetektor eines komplexen Signals von 2 empfängt ebenso die Sprache/Rauschen-Angabe von dem VAD (siehe 1), nämlich das Signal sp_vad_prim (z.B., = 0 für Rauschen, = 1 für Sprache). Dieses Signal wird eingegeben zu einem Puffer 202, dessen Ausgang an einem Komparator 204 gekoppelt ist. Ein Ausgang 206 des Komparators 204 ist an einen weiteren Eingang des AND-Gatters 207 gekoppelt. Die Ausgabe vom AND-Gatter 207 ist VAD_fail_short, eine Kennung eines komplexen Signals, die eingegeben wird zu der Nachwirk-Logik von 1.
  • 13 veranschaulicht eine beispielhafte Alternative zu der Anordnung von 2, worin g_opt Werte von obiger Gleichung 5 durch Korrelationsanalysator 23 aus einer hochpass-gefilterten Version von sw(n) berechnet werden, nämlich sw_f(n) ausgegeben vom Hochpassfilter 131. Der g_opt Wert vom größten Ausmaß für jeden Rahmen wird dann gepuffert bei 26 in 2 anstelle von g_max. Der Korrelationsanalysator 23 produziert auch die konventionelle Ausgabe 22 von dem Signal sw_(n) wie in 2.
  • 3 veranschaulicht zur Sache gehörende Abschnitte von beispielhaften Ausführungsformen des VAD von 1. Wie oben mit Bezug zu 2 beschrieben, empfängt der VAD von dem CAD Signalrelevanzparameter complex_high, complex_low und complex_hang_count. Complex_high und complex_low werden eingegeben an jeweilige Puffer 30 und 31, deren Ausgänge jeweils gekoppelt sind an Komparatoren 32 und 33. Die Ausgänge der Komparatoren 32 und 33 sind an jeweilige Eingänge von einem ODER-Gatter 34 gekoppelt, das ein complex_warning Signal an eine Zählersteuereinheit 35 ausgibt. Die Zählersteuereinheit 35 steuert einen Zähler 36 als Antwort auf das complex_warning Signal.
  • Das Audioeingangssignal wird zu einem Eingang eines Rauschenschätzers 38 gekoppelt und wird auch zu einem Eingang eines Sprache/Rauschen-Bestimmers 39 gekoppelt. Der Sprache/Rauschen-Bestimmer 39 empfängt auch vom Rauschenschätzer 38 einen Schätzwert 303 des Hintergrundrauschens, wie es konventionell ist. Der Sprache/Rauschen-Bestimmer reagiert konventionellerweise auf das Eingangsaudiosignal und die Rauschschätzwertinformation bei 303 zum Produzieren der Sprache/Rauschen-Angabe sp_vad_prim, die zu dem CAD und der Nachwirk-Logik von 1 bereitgestellt ist.
  • Das Signal complex_hang_count wird eingegeben zu einem Komparator 37, dessen Ausgang zu einem RUNTER-Eingang des Rauschenschätzers 38 gekoppelt ist. Wenn der RUNTER-Eingang aktiviert ist, darf der Rauschenschätzer seinen Rauschschätzwert nur abwärts aktualisieren oder ihn unverändert lassen, das heißt irgendein neuer Schätzwert des Rauschens muss weniger Rauschen als, oder dasselbe Rauschen wie, der vorherige Schätzwert angeben. In anderen Ausführungsformen erlaubt eine Aktivierung des RUNTER-Eingangs dem Rauschenschätzer ein Aktualisieren eines Schätzwertes aufwärts zum Anzeigen von mehr Rauschen, aber es erfordert, dass die Geschwindigkeit (Stärke) der Aktualisierung signifikant reduziert ist.
  • Der Rauschenschätzer 38 hat auch einen VERZÖGERUNG-Eingang, der an ein durch den Zähler 36 produziertes Ausgangssignal, nämlich stat_count, gekoppelt ist. Rauschenschätzer in konventionellen VADs implementieren typischerweise eine Verzögerungsperiode nach einem Empfangen einer Angabe, dass das Eingangssignal zum Beispiel nicht stationär ist oder ein hochgezogenes bzw. steiles (pitched) oder ein Tonsignal ist. Während dieser Verzögerungsperiode können die Rauschen-Schätzwerte nicht durch einen höheren Wert aktualisiert werden. Dies hilft, fehlerhafte Antworten auf Nicht-Rauschen-Signale zu verhindern, die in dem Rauschen oder stimmhaften stationären Signalen versteckt sind. Wenn die Verzögerungsperiode abläuft, kann der Rauschenschätzer seine Rauschschätzwerte aufwärts aktualisieren, selbst wenn Sprache für eine Weile angegeben worden ist. Dies hält den gesamten VAD-Algorithmus von einem Festsetzen auf eine Aktivitätsangabe ab, wenn der Rauschpegel sich plötzlich erhöht.
  • Der VERZÖGERUNG-Eingang wird getrieben durch stat_count gemäß der Erfindung zum Setzen einer unteren Grenze für die zuvor erwähnte Verzögerungsperiode des Rauschenschätzers (d.h. Erfordern einer größeren Verzögerung als andernfalls konventionell erfordert wird), wenn das Signal zu relevant zu sein scheint zum Erlauben eines "schnellen" Anstiegs des Rauschschätzwertes. Das stat_count Signal kann den Anstieg des Rauschschätzwertes für eine ziemlich lange Zeit verzögern (z.B. 5 Sekunden), wenn eine sehr hohe Relevanz durch den CAD detektiert worden ist für eine eher lange Zeit (z.B. 2 Sekunden). In einer Ausführungsform wird stat_count verwendet zum Reduzieren der Geschwindigkeit (Stärke) der Rauschschätzwert-Aktualisierungen, wo eine höhere Relevanz durch den CAD angegeben wird.
  • Der Sprache/Rauschen-Bestimmer 39 hat einen Ausgang 301, der an einen Eingang der Zählersteuereinheit 35 gekoppelt ist, und der auch an den Rauschenschätzer 38 gekoppelt ist, wobei die letztere Kopplung konventionell ist. Wenn der Sprache/Rauschen-Bestimmer bestimmt, dass ein gegebener Rahmen des Audioeingangssignals zum Beispiel ein hochgezogenes bzw. steiles (pitched) Signal oder ein Tonsignal oder ein nicht-stationäres Signal ist, gibt der Ausgang 301 dieses zu der Zählersteuereinheit 35 an, die dann den Ausgang stat_count vom Zähler 36 auf einen gewünschten Wert setzt. Wenn Ausgang 301 ein stationäres Signal angibt, kann Steuereinheit 35 Zähler 36 dekrementieren.
  • 4 veranschaulicht eine beispielhafte Ausführungsform der Nachwirk-Logik von 1. In 4 werden die Kennungen eines komplexen Signals VAD_fail_short und VAD_fail_long eingegeben an ODER-Gatter 41, dessen Ausgang einen Eingang von einem anderen ODER-Gatter 43 treibt. Die Sprache/Rauschen-Angabe sp_vad_prim von dem VAD wird eingegeben zu einer konventionellen VAD-Nachwirk-Logik 45. Der Ausgang sp_vad von der VAD-Nachwirk-Logik ist an einen zweiten Eingang vom ODER-Gatter 43 gekoppelt. Wenn eines der Kennungen eines komplexen Signals VAD_fail_short oder VAD_fail_long aktiv ist, dann wird der Ausgang vom ODER-Gatter 41 bewirken, dass das ODER-Gatter 43 angibt, dass das Eingangssignal relevant ist.
  • Wenn keine der Kennungen eines komplexen Signals aktiv ist, dann wird die Sprache/Rauschen-Entscheidung der VAD-Nachwirk-Logik 45, nämlich das Signal sp_vad, die Relevant/Nicht- relevant-Angabe bilden. Wenn sp_vad aktiv ist, wodurch Sprache angegeben ist, dann gibt der Ausgang vom ODER-Gatter 43 an, dass das Signal relevant ist. Andernfalls, wenn sp_vad inaktiv ist, Rauschen angebend, dann gibt der Ausgang vom ODER-Gatter 43 an, dass das Signal nicht relevant ist. Die Relevant/Nicht-relevant-Angabe vom ODER-Gatter 43 kann zum Beispiel zu dem DTX-Steuerteil eines DTX-Systems bereitgestellt sein, oder zu dem Bitratensteuerteil eines VR-Systems.
  • 5 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch Parametergenerator 28 von 2 zum Produzieren der Signale complex_high, complex_low und complex_timer. Der Index i in 54 (und in 611) kennzeichnet den aktuellen Rahmen des Audioeingangssignals. Wie in 5 gezeigt, hat jedes der zuvor erwähnten Signale einen Wert von 0, wenn das Signal g_f(i) nicht einen jeweiligen Schwellenwert überschreitet, nämlich THh für complex_high bei 5152, THl für complex_low bei 5455, oder THt für complex_timer bei 5758. Wenn g_f(i) Schwelle THh bei 51 überschreitet, dann wird complex_high zu 1 gesetzt bei 53, und wenn g_f(i) Schwelle THl bei 54 überschreitet, dann wird complex_low zu 1 gesetzt bei 56. Wenn g_f(i) Schwelle THt überschreitet bei 57, dann wird complex_timer um 1 bei 59 inkrementiert. Beispielhafte Schwellenwerte in 5 beinhalten THh = 0,6, THl = 0,5, und THt = 0,7. Aus 5 ist ersichtlich, dass complex_timer die Anzahl von aufeinanderfolgenden Rahmen darstellt, in denen g_f(i) größer als THt ist.
  • 6 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Zählersteuereinheit 29 und den Zähler 201 von 2. Wenn complex_timer einen Schwellenwert THct bei 61 überschreitet, dann setzt die Zählersteuereinheit 29 den Ausgang complex_hang_count vom Zähler 201 auf einen Wert H bei 62. Wenn complex_timer nicht die Schwelle THct bei 61 überschreitet, sondern größer als 0 ist bei 63, dann dekrementiert die Zählersteuereinheit 29 den Ausgang complex_hang_count vom Zähler 201 bei 64. Beispielhafte Werte in 6 beinhalten THct = 100 (entsprechend 2 Sekunden in einer Ausführungsform), und H = 250 (entsprechend 5 Sekunden in einer Ausführungsform).
  • 7 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Komparator 203 von 2. Wenn complex_hang_count größer als THhc ist bei 71, dann wird VAD_fail_long zu 1 gesetzt bei 72. Andernfalls, wird VAD_fail_long zu 0 gesetzt bei 73. In einer Ausführungsform ist THhc = 0.
  • 8 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Puffer 202, Komparatoren 204 und 205, und das UND-Gatter 207 von 2. Wie in 8 gezeigt, wenn die letzten p Werte von sp_vad_prim, die unmittelbar dem gegenwärtigen (i-ten) Wert von sp_vad_prim vorhergehen, alle gleich 0 sind bei 81, und wenn g_f(i) einen Schwellenwert THfs bei 82 überschreitet, dann wird VAD_fail-short zu 1 gesetzt bei 83. Andernfalls wird VAD_fail-short zu 0 gesetzt bei 84. Beispielhafte Werte in 8 beinhalten THfs = 0,55 und p = 10.
  • 9 veranschaulicht beispielhafte Operationen, die ausgeführt werden können durch die Puffer 30 und 31, die Komparatoren 32 und 33, und das ODER-Gatter 34 von 3. Wenn die letzten m Werte von complex_high, die unmittelbar dem aktuellen (i-ten) Wert von complex_high vorhergehen, alle gleich 1 sind bei 91, oder wenn die letzten n Werte von complex_low, die dem aktuellen (i-ten) Wert von complex_low unmittelbar vorhergehen, alle gleich 1 sind bei 92, dann wird complex_warning zu 1 bei 93 gesetzt. Andernfalls, wird complex_warning zu 0 bei 94 gesetzt. Beispielswerte in 9 beinhalten m = 8 und n = 15.
  • 10 veranschaulicht beispielhaften Operationen, die ausgeführt werden können durch die Zählersteuereinheit 35 und den Zähler 36 von 3. Wenn das Audiosignal als stationär angegeben wird bei 100 (siehe 301 von 3), dann wird stat_count dekrementiert bei 104. Dann, wenn complex_warning = 1 bei 101, und wenn stat_count geringer ist als ein Wert MIN bei 102, dann wird stat_count zu MIN bei 103 gesetzt. Wenn das Audiosignal nicht stationär ist bei 100, dann wird stat_count zu A gesetzt bei 105. Beispielhafte Werte von MIN und A sind 5 bzw. 20, was in einer Ausführungsform in einem Niedrig-Begrenzen des Verzögerungswertes vom Rauschenschätzer 38 (3) auf 100 ms bzw. 400 ms resultieren würde.
  • 11 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Komparator 37 und den Rauschenschätzer 38 von 3. Wenn complex_hang_count einen Schwellenwert THhc überschreitet bei 111, dann treibt der Komparator 37 bei 112 den RUNTER-Eingang vom Rauschenschätzer 38 aktiv, so dass der Rauschenschätzer 38 seine Schätzwerte nur in einer Abwärts-Richtung aktualisieren darf (oder sie unverändert lassen darf). Wenn complex_hang_count nicht die Schwelle THhhc1 überschreitet bei 111, dann ist der RUNTER-Eingang von Rauschenschätzer 38 inaktiv, so dass der Rauschenschätzer 38 bei 113 Aufwärts- oder Abwärts-Aktualisierungen seines Rauschschätzwertes machen darf. In einem Beispiel ist THhc1 = 0.
  • Wie oben demonstriert, erlauben die durch den CAD generierten Kennungen eines komplexen Signals, dass eine "Rauschen"-Klassifizierung durch den VAD selektiv überschrieben wird, wenn der CAD bestimmt, dass das Eingangsaudiosignal ein komplexes Signal ist, das Information enthält, die wahrnehmungsrelevant für den Zuhörer ist. Die VAD_fail-short Kennung löst eine "Relevant"-Angabe bei dem Ausgang der Nachwirk-Logik aus, wenn bestimmt wird, dass g_f(i) einen vorbestimmten Wert überschreitet, nachdem eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen als Rauschen durch den VAD klassifiziert worden ist.
  • Ebenso kann die VAD_fail-long Kennung eine "Relevant"-Angabe bei dem Ausgang der Nachwirk-Logik auslösen, und diese Angabe für eine relativ lange Aufrechterhaltungsperiode einer Zeit aufrechterhalten, nachdem g_f(i) einen vorbestimmten Wert für eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen überschritten hat. Diese Aufrechterhaltungsperiode einer Zeit kann einige separate Sequenzen von aufeinanderfolgenden Rahmen einschließen, wobei g_f(i) den zuvor erwähnten vorbestimmten Wert überschreitet, aber wobei jede der separaten Sequenzen von aufeinanderfolgenden Rahmen weniger als die zuvor erwähnte vorbestimmte Anzahl von Rahmen umfasst.
  • In einer Ausführungsform kann der Signalrelevanzparameter complex_hang_count bewirken, dass der RUNTER-Eingang vom Rauschenschätzer 38 aktiv ist unter denselben Bedingungen wie die Kennung eines komplexen Signals VAD_fail-long. Die Signalrelevanzparameter complex_high und complex_low können so arbeiten, dass, wenn g_f(i) eine erste vorbestimmte Schwelle für eine erste Anzahl von aufeinanderfolgenden Rahmen überschreitet oder eine zweite vorbestimmte Schwelle für eine zweite Anzahl von vorbestimmten Rahmen überschreitet, dann der VERZÖGERUNG-Eingang von dem Rauschenschätzer 38 auf einen niedrigeren Grenzwert gehoben werden kann (wie benötigt), selbst wenn einige aufeinanderfolgende Rahmen als stationär bestimmt worden sind (durch den Sprache/Rauschen-Bestimmer 39).
  • 12 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Ausführungsformen eines Sprachcodierers von 111. Bei 121 wird der normalisierte Verstärkungsgrad mit dem größten (maximalen) Ausmaß für den aktuellen Rahmen berechnet. Bei 122 wird der Verstärkungsgrad analysiert zum Produzieren der Relevanzparameter und Kennungen eines komplexen Signals. Bei 123 werden die Relevanzparameter verwendet zur Hintergrundrauschen-Schätzung in dem VAD. Bei 124 werden die Kennungen eines komplexen Signals in der Relevanzentscheidung der Nachwirk-Logik verwendet. Wenn bestimmt wird bei 125, dass das Audiosignal nicht wahrnehmungsrelevante Information enthält, dann kann bei 126 die Bitrate verringert werden, zum Beispiel, in einem VR-System, oder Parameter eines Komfortrauschens können codiert werden, z.B. in einem DTX-System.
  • Aus der vorhergehenden Beschreibung wird für Fachleute ersichtlich werden, dass die Ausführungsformen von 113 ohne weiteres durch geeignete Modifizierungen in Software, Hardware oder beidem, in einer konventionellen Sprachcodiervorrichtung implementiert werden können.
  • Obwohl beispielhafte Ausführungsformen der vorliegenden Erfindung oben im Detail beschrieben worden sind, begrenzt dieses den Bereich der Erfindung nicht, die in einer Vielfalt von Ausführungsformen angewendet werden kann.

Claims (20)

  1. Ein Verfahren zum Erhalten von wahrnehmungsrelevanter Nicht-Sprachinformation in einem Audiosignal während des Codierens des Audiosignals, umfassend Durchführen einer ersten Bestimmung, ob das Audiosignal als Sprach- oder Rauschinformation enthaltend betrachtet wird, und charakterisiert durch: Durchführen einer zweiten Bestimmung, ob das Audiosignal Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; und selektives Aufheben der ersten Bestimmung als Antwort auf die zweite Bestimmung.
  2. Das Verfahren nach Anspruch 1, wobei der Schritt des Durchführens der zweiten Bestimmung das Vergleichen eines vorbestimmten Wertes mit Korrelationswerten beinhaltet, die mit jeweiligen Rahmen verknüpft sind, in die das Audiosignal aufgeteilt ist.
  3. Das Verfahren nach Anspruch 2, wobei der Schritt des selektiven Aufhebens das Aufheben der ersten Bestimmung als Antwort auf einen den vorbestimmten Wert überschreitenden Korrelationswert beinhaltet.
  4. Das Verfahren nach Anspruch 2, wobei der Schritt des selektiven Aufhebens das Überschreiben der ersten Bestimmung in Antwort auf eine vorbestimmte Anzahl von Korrelationswerten in einer gegebenen Zeitdauer, die den vorbestimmten Wert überschreiten, beinhaltet.
  5. Das Verfahren nach Anspruch 4, wobei der Schritt des selektiven Aufhebens das Aufheben der ersten Bestimmung als Antwort auf eine vorbestimmte Anzahl von fortlaufenden Korrelationswerten beinhaltet, die den vorbestimmten Wert überschreiten.
  6. Das Verfahren nach Anspruch 2, das für jeden Rahmen das Finden eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals beinhaltet, wobei die höchsten normalisierten Korrelationswerte jeweils den erst erwähnten Korrelationswerten entsprechen.
  7. Das Verfahren nach Anspruch 6, wobei der Schritt des Findens, für jeden der Rahmen, das Finden eines normalisierten Korrelationswertes mit größtem Ausmaß beinhaltet.
  8. Das Verfahren nach Anspruch 1, wobei der Schritt des selektiven Aufhebens das Aufheben einer ersten Bestimmung von Rauschen beinhaltet als Antwort auf eine zweite Bestimmung von wahrnehmungsrelevanter Nicht-Sprachinformation.
  9. Ein Verfahren zum Erhalten von wahrnehmungsrelevanter Nicht-Sprachinformation in einem Audiosignal während des Codierens des Audiosignals, mit Bestimmen normalisierter Korrelationswerte für jeden von einer Vielzahl von Rahmen, in die das Audiosignal aufgeteilt ist, und Durchführen einer ersten Bestimmung, ob das Audiosignal als Sprach- oder Rauschinformation umfassend berücksichtigt wird, und gekennzeichnet durch: Durchführung einer zweiten Bestimmung, ob das Audiosignal Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; selektives Aufheben der ersten Bestimmung in Antwort auf die zweite Bestimmung; für jeden von der Vielzahl von Rahmen, in die das Audiosignal aufgeteilt ist, Finden eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals: Erzeugen einer ersten Sequenz der normalisierten Korrelationswerten; Bestimmen einer zweiten Sequenz von darstellenden Werten zum Darstellen in dieser Reihenfolge der normalisierten Korrelationswerte der ersten Sequenz; und Vergleichen der darstellenden Werte mit einem Schwellenwert zum Erhalten einer Angabe, ob das Audiosignal wahrnehmungsrelevante Information enthält.
  10. Das Verfahren nach Anspruch 9, wobei der Schritt des Findens das Anwenden einer Korrelationsanalyse auf das Audiosignal ohne Erzeugen der Hochpass-gefilterten Version des Audiosignals beinhaltet.
  11. Das Verfahren nach Anspruch 9, wobei der Schritt des Findens Hochpass-Filtern des Audiosignals und danach Anwenden einer Korrelationsanalyse auf das Hochpass-gefilterte Audiosignal beinhaltet.
  12. Das Verfahren nach Anspruch 9, wobei der Schritt des Findens, für jeden der Rahmen, das Finden eines normalisierten Korrelationswertes mit größtem Ausmaß beinhaltet.
  13. Eine Vorrichtung (10) zum Gebrauch in einem Audiosignal-Kodierer zum Erhalten von in einem Audiosignal enthaltener wahrnehmungsrelevanter Nicht-Sprachinformation, umfassend einen Klassifizierer (16) zum Empfangen des Audiosignals (12) und Durchführen einer ersten Bestimmung, ob das Audiosignal (12) als Sprach- oder Rauschinformation umfassend berücksichtigt wird, und gekennzeichnet dadurch, dass sie folgendes umfasst: einen Detektor (14) zum Empfangen des Audiosignals (12) und Durchführen einer zweiten Bestimmung, ob das Audiosignal (12) Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; und an den Klassifizierer (16) und den Detektor (14) gekoppelte Logik (18), wobei die Logik (18) einen Ausgang hat zum Angeben, ob das Audiosignal (12) wahrnehmungsrelevante Information enthält, und wobei die Logik (18) betriebsfähig ist zum selektiven Bereitstellen einer die erste Bestimmung anzeigenden Information bei dem Ausgang und auch reagierend ist auf die zweite Bestimmung zum selektiven Aufheben bei dem Ausgang der die erste Bestimmung anzeigenden Information.
  14. Die Vorrichtung (10) von Anspruch 13, wobei der Detektor (16) betriebsfähig ist zum Vergleichen eines vorbestimmten Wertes mit Korrelationswerten, die mit jeweiligen Rahmen verknüpft sind, in die das Audiosignal (12) aufgeteilt ist.
  15. Die Vorrichtung (10) von Anspruch 14, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf einen den vorbestimmten Wert überschreitenden Korrelationswert.
  16. Die Vorrichtung (10) von Anspruch 14, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf eine vorbestimmte Anzahl von Korrelationswerten in einer gegebenen Zeitdauer, die den vorbestimmten Wert überschreiten.
  17. Die Vorrichtung (10) von Anspruch 16, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf eine vorbestimmte Anzahl von fortlaufenden Korrelationswerten, die mit zeitmäßig fortlaufenden Rahmen verknüpft sind, die den vorbestimmten Wert überschreiten.
  18. Die Vorrichtung von Anspruch 14, wobei der Detektor (16) betriebsfähig ist zum Finden innerhalb jedes der Rahmen eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals (12), wobei die höchsten normalisierten Korrelationswerte jeweils den erst erwähnten Korrelationswerten entsprechen.
  19. Die Vorrichtung von Anspruch 18, wobei jeder der höchsten normalisierten Korrelationswerte einen normalisierten Korrelationswert mit größtem Ausmaß innerhalb des verknüpften Rahmens darstellt.
  20. Die Vorrichtungen (10) von Anspruch 13, wobei die Logik (18) betriebsfähig ist zum Aufheben einer eine Rauschbestimmung anzeigenden Information als Antwort auf die zweite Bestimmung, die wahrnehmungsrelevante Nicht-Sprachinformation anzeigt.
DE69925168T 1998-11-23 1999-11-12 Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal Expired - Lifetime DE69925168T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10955698P 1998-11-23 1998-11-23
US109556P 1998-11-23
US434787 1999-11-05
US09/434,787 US6424938B1 (en) 1998-11-23 1999-11-05 Complex signal activity detection for improved speech/noise classification of an audio signal
PCT/SE1999/002073 WO2000031720A2 (en) 1998-11-23 1999-11-12 Complex signal activity detection for improved speech/noise classification of an audio signal

Publications (2)

Publication Number Publication Date
DE69925168D1 DE69925168D1 (de) 2005-06-09
DE69925168T2 true DE69925168T2 (de) 2006-02-16

Family

ID=26807081

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69925168T Expired - Lifetime DE69925168T2 (de) 1998-11-23 1999-11-12 Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal

Country Status (15)

Country Link
US (1) US6424938B1 (de)
EP (1) EP1224659B1 (de)
JP (1) JP4025018B2 (de)
KR (1) KR100667008B1 (de)
CN (2) CN1257486C (de)
AR (1) AR030386A1 (de)
AU (1) AU763409B2 (de)
BR (1) BR9915576B1 (de)
CA (1) CA2348913C (de)
DE (1) DE69925168T2 (de)
HK (1) HK1097080A1 (de)
MY (1) MY124630A (de)
RU (1) RU2251750C2 (de)
WO (1) WO2000031720A2 (de)
ZA (1) ZA200103150B (de)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6694012B1 (en) * 1999-08-30 2004-02-17 Lucent Technologies Inc. System and method to provide control of music on hold to the hold party
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
EP1569200A1 (de) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Sprachdetektion in digitalen Audiodaten
WO2006104576A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
US8874437B2 (en) * 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
DE602005010127D1 (de) * 2005-06-20 2008-11-13 Telecom Italia Spa Verfahren und vorrichtung zum senden von sprachdaten zu einer fernen einrichtung in einem verteilten spracherkennungssystem
KR100785471B1 (ko) * 2006-01-06 2007-12-13 와이더댄 주식회사 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
CA2690433C (en) 2007-06-22 2016-01-19 Voiceage Corporation Method and device for sound activity detection and sound signal classification
WO2009073035A1 (en) * 2007-12-07 2009-06-11 Agere Systems Inc. End user control of music on hold
US20090154718A1 (en) * 2007-12-14 2009-06-18 Page Steven R Method and apparatus for suppressor backfill
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101965612B (zh) * 2008-03-03 2012-08-29 Lg电子株式会社 用于处理音频信号的方法和装置
AU2009220341B2 (en) * 2008-03-04 2011-09-22 Lg Electronics Inc. Method and apparatus for processing an audio signal
PL2311033T3 (pl) 2008-07-11 2012-05-31 Fraunhofer Ges Forschung Dostarczanie sygnału aktywującego dopasowanie czasowe i kodowanie sygnału audio z jego użyciem
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2816560A1 (de) * 2009-10-19 2014-12-24 Telefonaktiebolaget L M Ericsson (PUBL) Verfahren und Hintergrundbestimmungsgerät zur Erkennung von Sprachaktivitäten
KR20120091068A (ko) 2009-10-19 2012-08-17 텔레폰악티에볼라겟엘엠에릭슨(펍) 음성 활성 검출을 위한 검출기 및 방법
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
JP5609737B2 (ja) * 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
WO2012083555A1 (en) 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting voice activity in input audio signal
EP2477188A1 (de) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codierung und Decodierung von Slot-Positionen von Ereignissen in einem Audosignal-Frame
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
US9472208B2 (en) 2012-08-31 2016-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for voice activity detection
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6180544B2 (ja) 2012-12-21 2017-08-16 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号の不連続伝送における高スペクトル−時間分解能を持つコンフォートノイズの生成
BR112015014217B1 (pt) * 2012-12-21 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Adição de ruído de conforto para modelagem do ruído de fundo em baixas taxas de bits
PT3011561T (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods
CN113345446B (zh) * 2021-06-01 2024-02-27 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
CA2568984C (en) * 1991-06-11 2007-07-10 Qualcomm Incorporated Variable rate vocoder
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5930749A (en) * 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6097772A (en) * 1997-11-24 2000-08-01 Ericsson Inc. System and method for detecting speech transmissions in the presence of control signaling
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal

Also Published As

Publication number Publication date
WO2000031720A3 (en) 2002-03-21
HK1097080A1 (en) 2007-06-15
CA2348913A1 (en) 2000-06-02
WO2000031720A2 (en) 2000-06-02
CA2348913C (en) 2009-09-15
BR9915576B1 (pt) 2013-04-16
AR030386A1 (es) 2003-08-20
JP2002540441A (ja) 2002-11-26
KR100667008B1 (ko) 2007-01-10
CN1257486C (zh) 2006-05-24
CN1828722B (zh) 2010-05-26
EP1224659A2 (de) 2002-07-24
MY124630A (en) 2006-06-30
CN1419687A (zh) 2003-05-21
RU2251750C2 (ru) 2005-05-10
US6424938B1 (en) 2002-07-23
CN1828722A (zh) 2006-09-06
BR9915576A (pt) 2001-08-14
ZA200103150B (en) 2002-06-26
KR20010078401A (ko) 2001-08-20
EP1224659B1 (de) 2005-05-04
AU763409B2 (en) 2003-07-24
AU1593800A (en) 2000-06-13
DE69925168D1 (de) 2005-06-09
JP4025018B2 (ja) 2007-12-19

Similar Documents

Publication Publication Date Title
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE69917677T2 (de) SPRACHKODIERUNG MIT VERäNDERBAREM KOMFORT-RAUSCHEN FüR VERBESSERTER WIEDERGABEQUALITäT
DE69830721T2 (de) Verfahren und vorrichtung zur bestimmung der übertragungsrate in einem kommunikationssystem
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE60032797T2 (de) Geräuschunterdrückung
DE69724739T2 (de) Verfahren zur Erzeugung von Hintergrundrauschen während einer diskontinuierlichen Übertragung
DE19681070C2 (de) Verfahren und Vorrichtung zum Betreiben eines Kommunikationssystems mit Rauschunterdrückung
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
EP2346027B1 (de) Verfahren und Vorrichtung zur Sprachaktivitätserkennung
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
DE69533734T2 (de) Durch Sprachaktivitätsdetektion gesteuerte Rauschunterdrückung
DE19948308C2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE112017007005B4 (de) Akustiksignal-verarbeitungsvorrichtung, akustiksignalverarbeitungsverfahren und freisprech-kommunikationsvorrichtung
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE10251113A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
US6424942B1 (en) Methods and arrangements in a telecommunications system
DE60032068T2 (de) Sprachdekodierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition