DE69925168T2

DE69925168T2 - Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal

Info

Publication number: DE69925168T2
Application number: DE69925168T
Authority: DE
Inventors: Jonas Svedberg; Erik Ekudden; Anders Uvliden; Ingemar Johansson
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1998-11-23
Filing date: 1999-11-12
Publication date: 2006-02-16
Anticipated expiration: 2019-11-13
Also published as: WO2000031720A3; HK1097080A1; CA2348913A1; WO2000031720A2; CA2348913C; BR9915576B1; AR030386A1; JP2002540441A; KR100667008B1; CN1257486C; CN1828722B; EP1224659A2; MY124630A; CN1419687A; RU2251750C2; US6424938B1; CN1828722A; BR9915576A; ZA200103150B; KR20010078401A

Description

Die Anmeldung beansprucht die Priorität unter 35 USC 119(e)(1) der mitanhängige Vorläufigen U.S. Anmeldung Nr. 60/109,556, eingereicht am 23. November 1998.
GEBIET DER ERFINDUNG
Die Erfindung betrifft allgemein eine Audiosignal-Komprimierung und im Besonderen eine Sprach-Rauschklassifizierung während einer Audiokomprimierung.
HINTERGRUND DER ERFINDUNG
Sprachcodierer und -decodierer sind konventionellerweise bereitgestellt in Funksendern bzw. Funkempfängern und sind zusammen betriebsfähig zum Ermöglichen von Sprache(Stimme)-Kommunikationen zwischen einem gegebenen Sender und einem Empfänger über eine Funkverbindung. Die Kombination eines Sprachcodierers und eines Sprachdecodierers wird oft als ein Sprachcodec bezeichnet. Ein Mobilfunktelefon (z.B. ein Funktelefon) ist ein Beispiel eines konventionellen Kommunikationsgerätes, das typischerweise einen Funksender enthält mit einem Sprachcodierer, und einen Funkempfänger mit einem Sprachdecodierer.
In konventionellen blockbasierten Sprachcodierern wird das ankommende Sprachsignal in Blöcke aufgeteilt, Rahmen genannt. Für übliche 4 kHz-Telefonbandbreiten-Anwendungen ist eine typische Rahmenlänge 20 ms oder 160 Abtastwerte bzw. Samples. Die Rahmen werden weiter in Unterrahmen aufgeteilt, typischerweise von einer Länge von 5 ms oder 40 Abtastwerten.
Beim Komprimieren des ankommenden Audiosignals verwenden Sprachcodierer konventionellerweise fortgeschrittene verlustbehaftete Komprimierungstechniken. Die komprimierte (oder codierte) Signalinformation wird zu dem Decodierer übertragen über einen Kommunikationskanal, so wie eine Funkverbindung. Der Decodierer versucht dann, das Eingangsaudiosignal aus der komprimierten Signalinformation zu reproduzieren. Wenn gewisse Eigenschaften des ankommenden Audiosignals bekannt sind, kann die Bitrate in dem Kommunikationskanal so niedrig wie möglich aufrecht erhalten werden. Wenn das Sprachsignal relevante Information für den Zuhörer enthält, dann sollte diese Information bewahrt bzw. erhalten werden. Wenn das Audiosignal nur unrelevante Information (z.B. Hintergrundrauschen) enthält, kann jedoch Bandbreite gespart werden durch Übertragen nur einer begrenzten Menge von Information über das Signal. Für viele Signale, die nur unrelevante Information enthalten, kann eine sehr niedrige Bitrate häufig eine Komprimierung einer hohen Qualität bereitstellen. In Extremfällen kann das ankommende Signal in dem Decodierer synthetisiert werden ohne irgendwelche Informationsaktualisierungen über den Kommunikationskanal, bis bestimmt wird, dass das Eingangsaudiosignal wieder relevante Information enthält.
Typische Signale, die konventionellerweise ziemlich genau mit sehr niedrigen Bitraten reproduziert werden können, beinhalten stationäres Rauschen, Auto-Rauschen und auch, zu einem gewissen Ausmaß, ein Rauschen eines unverständlichen Gemurmels. Komplexere Nicht-Sprachsignale wie Musik, oder kombinierte Sprache und Musik, erfordern höhere Bitraten zum genauen Reproduzieren durch den Decoder.
Für viele übliche Typen von Hintergrundrauschen stellt eine viel niedrigere Bitrate als eine für Sprache benötigte ein ausreichend gutes Modell des Signals dar. Existierende Mobilsysteme machen Gebrauch von dieser Tatsache durch Abwärtsregeln der übertragenen Bitrate während eines Hintergrundrauschens. Zum Beispiel kann in kontinuierliche Übertragungstechniken verwendenden konventionellen Systemen ein Sprachcodierer einer variablen Rate (variable rate)(VR) seine niedrigste Bitrate verwenden.
Bei konventionellen Methoden einer diskontinuierlichen Übertragung (Discontinuous Transmission)(DTX) stoppt der Sender ein Senden codierter Sprachrahmen, wenn der Sprecher inaktiv ist. Zu regulären oder irregulären Intervallen (z.B. jede 100 bis 500 ms) sendet der Sender Sprachparameter, die geeignet sind für eine konventionelle Erzeugung von Komfortrauschen in dem Decoder. Diese Parameter für eine Erzeugung eines Komfortrauschens (comfort noise generation)(CNG) werden konventioneller Weise in etwas codiert, das manchmal Ruhedeskriptor-(Silence Descriptor)(SID)-Rahmen genannt wird. Bei dem Empfänger verwendet der Decodierer die in den SID-Rahmen empfangenen Parameter eines Komfortrauschens zum Synthetisieren eines künstlichen Rauschens mittels eines konventionellen Algorithmus einer Komfortrauschen-Injektion (comfort noise injeciton)(CNI).
Wenn ein Komfortrauschen in dem Decodierer in einem konventionellen DTX-System erzeugt wird, wird das Rauschen oft als sehr statisch und sehr unterschiedlich von dem in einem aktiven (Nicht-DTX) Modus erzeugtem Hintergrundrauschen wahrgenommen. Der Grund für diese Wahrnehmung ist, dass DTX SID-Rahmen nicht so oft wie normale Sprachrahmen zu dem Empfänger gesendet werden. In konventionellen Linearprädiktionsanalyse-durch-Synthese-(linear prediction analysis-by-synthesis)(LPAS) Codecs mit einem DTX Modus werden das Spektrum und die Energie des Hintergrundrauschens typischerweise über einige Rahmen geschätzt (z.B. gemittelt), und die geschätzten Parameter werden dann quantisiert und übertragen in SID-Rahmen über den Kanal zu dem Decodierer.
Der Vorteil eines Sendens der SID-Rahmens mit deren relativ niedriger Aktualisierungsrate anstelle eines Sendens von regulären Sprachrahmen ist ein zweifacher. Die Batterielebensdauer in z.B. einem Mobilfunk-Transceiver wird aufgrund der niedrigeren Leistungsaufnahme verlängert, und die durch den Sender geschaffene Störung wird verringert, wodurch eine höhere Systemkapazität bereitgestellt wird.
Wenn ein komplexes Signal wie Musik komprimiert wird mit Verwenden eines Komprimierungsmodells, das zu einfach ist, und einer entsprechenden Bitrate, die zu niedrig ist, wird das reproduzierte Signal bei dem Decodierer dramatisch von dem Ergebnis abweichen, das erhalten werden würde unter Verwenden einer besseren (höhere Qualität) Komprimierungstechnik. Die Verwendung einer zu einfachen Komprimierungsmethode kann verursacht sein durch Fehlklassifizieren des komplexen Signals als Rauschen. Wenn solche ein Fehlklassifizierung auftritt, gibt der Decodierer nicht nur ein dürftig reproduziertes Signal aus, sondern die Fehlklassifizierung selbst resultiert nachteilhafterweise in einem Schalten von einer Komprimierungsmethode einer höheren Qualität zu einer Komprimierungsmethode einer niedrigeren Qualität. Zum Korrigieren dieser Fehlklassifizierung wird ein weiteres Zurückschalten zu der Methode einer höheren Qualität benötigt. Wenn solch ein Schalten zwischen Komprimierungsmethoden häufig auftritt, ist es typischerweise sehr hörbar und kann den Zuhörer irritieren.
Aus dem Vorhergehenden ist ersichtlich, dass es wünschenswert ist, die Fehlklassifizierung von subjektiv relevanten Signalen zu reduzieren, während eine niedrige Bitrate (hohe Kompression) noch aufrecht erhalten wird, wo angemessen, z.B. beim Komprimieren von Hintergrundrauschen, während der Sprecher still ist. Sehr starke Komprimierungstechniken können verwendet werden, vorausgesetzt, sie werden nicht als irritierend wahrgenommen. Die Verwendung von Parametern eines Komfortrauschens, wie oben bezüglich der DTX-Systeme beschrieben, ist ein Beispiel einer Technik einer starken Kompression, wie es auch ein konventionelles niedrigratiges Linearprädiktionscodieren (linear predictive coding)(LPC) mit Verwenden von Verfahren einer zufälligen Anregung ist. Solche Codierungstechniken, die eine starke Komprimierung nutzen, können typischerweise nur wahrnehmungsgemäß einfache Rauschtypen genau reproduzieren, so wie stationäres Auto-Rauschen, Straßen-Rauschen, Restaurant-Rauschen (unverständliches Gemurmel) und andere ähnliche Signale.
Konventionelle Klassifizierungstechniken zum Bestimmen, ob ein Eingangsaudiosignal relevante Information enthält oder nicht, sind primär basiert auf einer relativ einfachen Stationäritätsanalyse des Eingangsaudiosignals. Diese konventionelle Stationaritätsanalyse allein kann bewirken, dass komplexe Signale, die ziemlich stationär sind, aber tatsächlich wahrnehmungsrelevante Information enthalten, als Rauschen fehlklassifiziert werden. Solch eine Fehlklassifizierung resultiert nachteilhafterweise in den oben beschriebenen Problemen.
Es ist deshalb wünschenswert, eine Klassifizierungstechnik bereitzustellen, die zuverlässig die Anwesenheit von wahrnehmungsrelevanter Information in komplexen Signalen des oben beschriebenen Typs detektiert.
Gemäß der vorliegenden Erfindung, wie durch die angehängten unabhängigen Ansprüche definiert, ist eine Aktivitätsdetektion eines komplexen Signals bereitgestellt zum zuverlässigen Detektieren von komplexen Nicht-Sprachsignalen, die relevante Information enthalten, die wahrnehmungsgemäß wichtig ist für den Zuhörer. Beispielen von komplexen Nicht-Sprachsignalen, die zuverlässig detektiert werden können, enthalten Musik, Musik im Wartezustand, kombinierte Sprache und Musik, Musik in dem Hintergrund, und andere Ton- oder Obertongeräusche.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
1 veranschaulicht diagrammartig zur Sache gehörende Abschnitte einer beispielhaften Sprachcodiervorrichtung gemäß der Erfindung.
2 veranschaulicht beispielhafte Ausführungsformen des Aktivitätsdetektors eines komplexen Signals von 1.
3 veranschaulicht beispielhafte Ausführungsformen des Stimmenaktivitätsdetektors von 1.
4 veranschaulicht beispielhafte Ausführungsformen der Nachwirk-Logik von 1.
5 veranschaulicht beispielhafte Ausführungsformen des Parametergenerators von 2.
6 veranschaulicht beispielhafte Ausführungsformen der Zählersteuereinrichtung von 2.
7 veranschaulicht beispielhafte Operationen eines Abschnitts von 2.
8 veranschaulicht beispielhafte Operationen eines anderen Abschnitts von 2.
9 veranschaulicht beispielhafte Operationen eines Abschnitts von 3.
10 veranschaulicht beispielhafte Operationen der Zählersteuereinrichtung von 3.
11 veranschaulicht beispielhafte Operationen eines weiteren Abschnitts von 3.
12 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Ausführungsformen von 1-11.
13 veranschaulicht alternative Ausführungsformen des Aktivitätsdetektors eines komplexen Signals von 2.
DETAILLIERTE BESCHREIBUNG
1 veranschaulicht diagrammartig zur Sache gehörende Abschnitte von beispielhaften Ausführungsformen einer Sprachcodiervorrichtung gemäß der Erfindung. Die Sprachcodiervorrichtung kann bereitgestellt sein, z.B., in einem Funktransceiver, der Audioinformation über einen Funkkommunikationskanal kommuniziert. Ein Beispiel eines solchen Funktransceivers ist ein Mobilfunktelefon, so wie ein Funktelefon.
In 1 wird das Eingangsaudiosignal eingegeben zu einem Aktivitätsdetektor eines komplexen Signals (complex signal activity detector) (CAD) und ebenso zu einem Stimmaktivitätsdetektor (voice activity detector)(VAD). Der Aktivitätsdetektor eines komplexen Signals CAD reagiert auf das Audioeingangssignal zum Durchführen einer Relevanzanalyse, die bestimmt, ob das Eingangssignal Information enthält, die wahrnehmungsrelevant für den Zuhörer ist, und Bereitstellen eines Satzes von Signalrelevanzparametern für den VAD. Der VAD verwendet diese Signalrelevanzparameter in Verbindung mit dem empfangenen Audioeingangssignal zum Bestimmen, ob das Eingangsaudiosignal Sprache oder Rauschen ist. Der VAD arbeitet als Sprache/Rauschen-Klassifizierer; und stellt als eine Ausgabe eine Sprache/Rauschen-Angabe bereit. Der CAD empfängt die Sprache/Rauschen-Angabe als einen Eingang. Der CAD reagiert auf die Sprache/Rauschen-Angabe und das Eingangsaudiosignal zum Produzieren eines Satzes von Kennungen eines komplexen Signals, die an einen Nachwirk-Logik-Teil ausgegeben werden, der ebenso als eine Eingabe, die durch den VAD bereitgestellte Sprache/Rauschen-Angabe empfängt.
Die Nachwirk-Logik reagiert auf die Kennungen eines komplexen Signals und die Sprache/Rauschen-Angabe zum Bereitstellen einer Ausgabe, die anzeigt, ob das Eingangsaudiosignal Information enthält oder nicht, die wahrnehmungsrelevant für einen Zuhörer ist, der ein reproduziertes Audiosignal hören wird, das durch eine Decodiervorrichtung in einem Empfänger bei dem anderen Ende des Kommunikationskanals ausgegeben ist. Die Ausgabe der Nachwirk-Logik kann angemessen verwendet werden zum Steuern, z.B., eines DTX-Betriebs (in einem DTX-System) oder der Bitrate (in einem VR-Codierer einer variablen Rate). Wenn der Nachwirk-Logik-Ausgang angibt, dass Eingangsaudiosignal keine relevante Information enthält, dann kann Komfortrauschen erzeugt werden (in einem DTX-System), oder die Bitrate kann verringert werden (in einem VR-Codierer).
Das Eingangssignal (welches vorverarbeitet sein kann) wird in dem CAD analysiert durch Informationsextrahieren jedes Rahmens über die Korrelation des Signals in einem spezifischen Frequenzband. Dies kann erreicht werden durch zuerst Filtern des Signals mit einem geeigneten Filter, z.B. einem Bandpassfilter oder einem Hochpassfilter. Dieses Filter gewichtet die Frequenzbänder, die die meiste Energie von Interesse in der Analyse enthalten. Typischerweise sollte die niedrige Frequenzregion ausgefiltert werden, um die starken niedrigen Frequenzinhalte von, zum Beispiel, Auto-Rauschen zu deakzentuieren. Das gefilterte Signal kann dann zu einer Open-Loop Langzeitprädiktions-(long term prediction)(LTP)-Korrelationsanalyse gereicht werden. Die LTP-Analyse stellt als Ergebnis einen Vektor von Korrelationswerten oder normalisierten Verstärkungsfaktorwerten bereit; einen Wert pro Korrelationsverschiebung. Der Verschiebungsbereich kann, zum Beispiel, [20, 147] sein, wie bei einer konventionellen LTP-Analyse. Ein alternatives Verfahren mit einer niedrigen Komplexität zum Erreichen der erwünschten Relevanzdetektion ist ein Verwenden des ungefilterten Signals in der Korrelationsberechnung und ein Modifizieren der Korrelationswerte durch einen algorithmisch ähnlichen Prozess eines "Filterns", wie detailliert unten beschrieben.
Für jeden Analyserahmen wird der normalisierte Korrelationswert (Verstärkungsfaktorwert) mit dem größten Ausmaß ausgewählt und gepuffert. Die Verschiebung (entsprechend der LTP-Verzögerung des ausgewählten Korrelationswertes) wird nicht verwendet. Die Werte werden weiter analysiert zum Bereitstellen eines Vektors von Signalrelevantparametern, der zu dem VAD gesendet wird zum Verwenden durch den Schätzungsprozess eines Hintergrundrauschens. Die gepufferten Korrelationswerte werden ebenso verarbeitet und verwendet zum Treffen einer definitiven Entscheidung, ob das Signal relevant (d.h., wahrnehmungsgemäß Wichtigkeit hat) ist und ob die VAD-Entscheidung zuverlässig ist. Ein Satz von Kennungen, VAD_fail_long und VAD_fail_short, werden produziert zum Anzeigen, wann es wahrscheinlich ist, dass der VAD eine ernsthafte Fehlqualifizierung machen wird, d.h., eine Rauschen-Klassifizierung, wenn tatsächlich wahrnehmungsrelevante Information vorliegt.
Die in der CAD-Relevanzanalyse berechneten Signalrelevanzparameter werden verwendet zum Steigern der Leistung der VAD-Methode. Die VAD-Methode versucht zu bestimmen, ob das Signal ein Sprachsignal (möglicherweise verschlechtert durch Umgebungsrauschen) oder ein Rauschsignal ist. Um fähig zu sein, das (Sprache + Rauschen)-Signal von Rauschen zu unterscheiden, behält der VAD konventioneller Weise einen Schätzwert des Rauschens. Der VAD muss seine eigenen Schätzwerte des Hintergrundrauschens aktualisieren zum Treffen einer besseren Entscheidung bei der Klassifizierung eines (Sprache + Rauschen)-Signals. Die Relevanzparameter von dem CAD werden verwendet zum Bestimmen, zu welchem Ausmaß die VAD-Hintergrundrauschen- und Aktivitätssignal-Schätzwerte aktualisiert werden.
Die Nachwirk-Logik passt die endgültige Entscheidung des Signals an unter Verwenden vorheriger Information über die Relevanz des Signals und der vorherigen VAD-Entscheidungen, wenn der VAD als zuverlässig betrachtet wird. Die Ausgabe der Nachwirk-Logik ist eine endgültige Entscheidung darüber, ob das Signal relevant ist oder nicht-relevant. In dem nicht-relevanten Fall kann eine niedrige Bitrate verwendet werden zum Codieren. In einem DTX-System wird diese relevante/nicht-relevante Information verwendet zum Entscheiden, ob der vorliegende Rahmen auf normale Weise (relevant) codiert werden sollte, oder ob stattdessen der Rahmen mit Parametern eines Komfortrauschens (nicht-relevant) codiert werden sollte.
In einer beispielhaften Ausführungsform wird eine effiziente Implementierung mit niedriger Komplexität des CAD bereitgestellt in einem Sprachcodierer, der eine Linearprädiktionsanalyse-durch-Synthese-(linear prediction analysis-by-synthesis)(LPAS)-Struktur verwendet. Das Eingangssignal zum dem Sprachcodierer wird durch konventionelle Mittel konditioniert (hochpass-gefiltert, skaliert, etc.). Das konditionierte Signal, s(n), wird dann gefiltert durch das durch LPAS-Codierer verwendete konventionelle adaptive Rauschgewichtungsfilter. Das gewichtete Sprachsignal, sw(n), wird dann zu der Open-Loop-LTP-Analyse gereicht. Die LTP-Analyse berechnet und speichert die Korrelationswerte für jede Verschiebung in dem Bereich [Lmin, Lmax] wobei, zum Beispiel, Lmin = 18 und Lmax = 147. Für jeden Verzögerungswert (Verschiebung), L, in dem Bereich, wird die Korrelation Rxx(k, l) für Verzögerungswert 1 berechnet als:
wobei K die Länge des Analyserahmens ist. Wenn k zu Null gesetzt ist, kann dieses als eine nur von der Verzögerung 1 abhängige Funktion geschrieben werden:
Ebenso kann definiert werden Exx(L) = Rxx(L, L) (Gleichung 3)
Diese Prozeduren werden konventionell durchgeführt als eine Vorsuche für die adaptive Codebuch-Suche (adaptive codebook search) in dem LPAS-Codierer, und sind somit ohne zusätzliche Berechnungskosten verfügbar.
Der optimale Verstärkungsgradfaktor, g_opt, für einen Prediktor eines einzelnen Abgriffs bzw. Taps wird erhalten durch Minimieren der Verzerrung, D, in der Gleichung:
Der optimale Verstärkungsgradfaktor g_opt (wirklich die normalisierte Korrelation) ist der Wert von g in Gleichung 4, der D minimiert, und ist gegeben durch:
wobei L die Verzögerung ist, für die die Verzerrung D (Gleichung 4) minimiert ist, und Exx(L) die Energie ist. Der Detektor eines komplexen Signals berechnet den optimalen Verstärkungsgrad (g_opt) einer hochpass-gefilterten Version des gewichteten Signals sw. Das Hochpassfilter kann z.B. ein einfaches Filter einer ersten Ordnung mit Filterkoeffizienten [h0, h1] sein. In einer Ausführungsform minimiert eine vereinfachte Formel D (siehe Gleichung 4) unter Verwenden des gefilterten Signals sw_f(n), anstelle eines Hochpass-Filterns des gewichteten Signals vor der Korrelationsberechnung.
Das hochpass-gefilterte Signal sw_f(n) ist gegeben durch: sw_f(n) = h0·sw(n) + h1·sw(n – 1) (Gleichung 7)
In diesem Fall wird g_max (das g_opt des gefilterten Signals) erhalten als:
Der Parameter g_max kann somit berechnet werden gemäß Gleichung 8 unter Verwenden der zuvor erwähnten bereits verfügbaren Rxx und Exx Werte, die aus dem ungefilterten Signal sw erhalten sind, anstelle eines Berechnens eines neuen Rxx für das gefilterte Signal sw_f.
Wenn die Filterkoeffizienten [h0, h1] ausgewählt sind als [1, –1] und die Nenner-Normalisierungsverzögerung Lden zu Lden = 0 gesetzt ist, reduziert sich die Berechnung von g_max zu:
Eine weitere Vereinfachung wird erhalten durch Verwenden der Werte für Lden = (Lmin + 1) (anstelle des optimalen L_opt, d.h., der optimalen Verzögerung in Gleichung 4) in dem Nenner von Gleichung (8), und Begrenzen des Maximums L zu Lmax – 1 und dem minimalen Lmin Wert in der Maximumsuche zu (Lmin + 1). In diesem Fall sind keine anderen zusätzlichen Korrelationsberechnungen erforderlich als die bereits verfügbaren Rxx(l) Werte von der Open-Loop LTP-Analyse.
Für jeden Rahmen wird der Verstärkungsgradwert g_max mit dem größten Ausmaß gespeichert. Eine geglättete Version g_f(i) kann erhalten werden durch Filtern des g_max Wertes, der jeden Rahmen erhalten wird, gemäß zu g_f(i) = b0·g_max(i) – a1·g_f(i – 1). In einigen Ausführungsformen können die Filterkoeffizienten b0 und a1 zeitvariant sein, und können ebenso zustands- und eingangsabhängig sein zum Vermeiden von Zustandssättigungsproblemen. Zum Beispiel können b0 und a1 als jeweilige Funktionen einer Zeit ausgedrückt werden, g_max(i) und g_f(i – 1). Das heißt, b0 = f_b(t, g_max(i), g_f(i – 1)) und a1 = f_a(t, g_max(i), g_f(i – 1)).
Das Signal g_f(i) ist ein Primärprodukt der CAD-Relevanzanalyse. Durch Analysieren des Zustands und einer Vorgeschichte von g_f(i) kann die VAD-Adaption mit Unterstützung bereitgestellt werden, und der Nachwirk-Logik-Block wird mit Operationsangaben bereitgestellt.
2 veranschaulicht beispielhafte Ausführungsformen des oben beschriebenen Aktivitätsdetektors eines komplexen Signals CAD von 1. Ein Vorverarbeitungsteil 21 verarbeitet das Eingangssignal vor zum Produzieren des zuvor erwähnten gewichteten Signals sw(n). Das Signal sw(n) wird an einen konventionellen Korrelationsanalysator 23 angelegt, z.B. einen Open-Loop-Lanzeitprädiktions-(long term prediction)(LTP) Korrelationsanalysator. Der Ausgang 22 des Korrelationsanalysators 23 ist konventionellerweise bereitgestellt als ein Eingang zu einer adaptiven Codebuch-Suche bei 24. Wie oben erwähnt, sind die in dem konventionellen Korrelationsanalysator 23 verwendeten Rxx und Exx Werte verfügbar, um beim Berechnen von g_f(i) gemäß der Erfindung verwendet zu werden.
Die Rxx und Exx Werte werden bereitgestellt bei 25 zu einem Rechner eines maximalen normalisierten Verstärkungsgrads 20, der g_max Werte wie oben beschrieben berechnet. Der g_max Wert vom größten Ausmaß (maximales Ausmaß) für jeden Rahmen wird ausgewählt durch Rechner 20 und in einem Puffer 26 gespeichert. Die gepufferten Werten werden dann an ein Glättungsfilter 27 wie oben beschrieben angelegt. Die Ausgabe bzw. der Ausgang des Glättungsfilters 27 ist g_f(i).
Das Signal g_f(i) wird zu einem Parametergenerator 28 eingegeben. Der Parametergenerator 28 produziert als Antwort auf das Eingangssignal g_f(i) ein Paar von Ausgaben complex_high und complex_low, die als Signalrelevanzparameter bereitgestellt werden zu dem VAD (siehe 1). Der Parametergenerator 28 produziert auch eine Ausgabe eines complex_timer, die zu einer Zählersteuereinheit 29 eingegeben wird, die einen Zähler 201 steuert. Die Ausgabe von Zähler 201, complex_hang_count, wird bereitgestellt zu dem VAD als ein Signalrelevanzparameter, und wird ebenso eingegeben zu einem Komparator 203, dessen Ausgabe, VAD_fail_long, eine Kennung eines komplexen Signals ist, die bereitgestellt wird zu der Nachwirk-Logik (1). Das Signal g_f(i) wird auch bereitgestellt zu einem weiteren Komparator 205, dessen Ausgang 208 an einen Eingang von einem AND-Gatter bzw. UND-Gatter 207 gekoppelt ist.
Der Aktivitätsdetektor eines komplexen Signals von 2 empfängt ebenso die Sprache/Rauschen-Angabe von dem VAD (siehe 1), nämlich das Signal sp_vad_prim (z.B., = 0 für Rauschen, = 1 für Sprache). Dieses Signal wird eingegeben zu einem Puffer 202, dessen Ausgang an einem Komparator 204 gekoppelt ist. Ein Ausgang 206 des Komparators 204 ist an einen weiteren Eingang des AND-Gatters 207 gekoppelt. Die Ausgabe vom AND-Gatter 207 ist VAD_fail_short, eine Kennung eines komplexen Signals, die eingegeben wird zu der Nachwirk-Logik von 1.
13 veranschaulicht eine beispielhafte Alternative zu der Anordnung von 2, worin g_opt Werte von obiger Gleichung 5 durch Korrelationsanalysator 23 aus einer hochpass-gefilterten Version von sw(n) berechnet werden, nämlich sw_f(n) ausgegeben vom Hochpassfilter 131. Der g_opt Wert vom größten Ausmaß für jeden Rahmen wird dann gepuffert bei 26 in 2 anstelle von g_max. Der Korrelationsanalysator 23 produziert auch die konventionelle Ausgabe 22 von dem Signal sw_(n) wie in 2.
3 veranschaulicht zur Sache gehörende Abschnitte von beispielhaften Ausführungsformen des VAD von 1. Wie oben mit Bezug zu 2 beschrieben, empfängt der VAD von dem CAD Signalrelevanzparameter complex_high, complex_low und complex_hang_count. Complex_high und complex_low werden eingegeben an jeweilige Puffer 30 und 31, deren Ausgänge jeweils gekoppelt sind an Komparatoren 32 und 33. Die Ausgänge der Komparatoren 32 und 33 sind an jeweilige Eingänge von einem ODER-Gatter 34 gekoppelt, das ein complex_warning Signal an eine Zählersteuereinheit 35 ausgibt. Die Zählersteuereinheit 35 steuert einen Zähler 36 als Antwort auf das complex_warning Signal.
Das Audioeingangssignal wird zu einem Eingang eines Rauschenschätzers 38 gekoppelt und wird auch zu einem Eingang eines Sprache/Rauschen-Bestimmers 39 gekoppelt. Der Sprache/Rauschen-Bestimmer 39 empfängt auch vom Rauschenschätzer 38 einen Schätzwert 303 des Hintergrundrauschens, wie es konventionell ist. Der Sprache/Rauschen-Bestimmer reagiert konventionellerweise auf das Eingangsaudiosignal und die Rauschschätzwertinformation bei 303 zum Produzieren der Sprache/Rauschen-Angabe sp_vad_prim, die zu dem CAD und der Nachwirk-Logik von 1 bereitgestellt ist.
Das Signal complex_hang_count wird eingegeben zu einem Komparator 37, dessen Ausgang zu einem RUNTER-Eingang des Rauschenschätzers 38 gekoppelt ist. Wenn der RUNTER-Eingang aktiviert ist, darf der Rauschenschätzer seinen Rauschschätzwert nur abwärts aktualisieren oder ihn unverändert lassen, das heißt irgendein neuer Schätzwert des Rauschens muss weniger Rauschen als, oder dasselbe Rauschen wie, der vorherige Schätzwert angeben. In anderen Ausführungsformen erlaubt eine Aktivierung des RUNTER-Eingangs dem Rauschenschätzer ein Aktualisieren eines Schätzwertes aufwärts zum Anzeigen von mehr Rauschen, aber es erfordert, dass die Geschwindigkeit (Stärke) der Aktualisierung signifikant reduziert ist.
Der Rauschenschätzer 38 hat auch einen VERZÖGERUNG-Eingang, der an ein durch den Zähler 36 produziertes Ausgangssignal, nämlich stat_count, gekoppelt ist. Rauschenschätzer in konventionellen VADs implementieren typischerweise eine Verzögerungsperiode nach einem Empfangen einer Angabe, dass das Eingangssignal zum Beispiel nicht stationär ist oder ein hochgezogenes bzw. steiles (pitched) oder ein Tonsignal ist. Während dieser Verzögerungsperiode können die Rauschen-Schätzwerte nicht durch einen höheren Wert aktualisiert werden. Dies hilft, fehlerhafte Antworten auf Nicht-Rauschen-Signale zu verhindern, die in dem Rauschen oder stimmhaften stationären Signalen versteckt sind. Wenn die Verzögerungsperiode abläuft, kann der Rauschenschätzer seine Rauschschätzwerte aufwärts aktualisieren, selbst wenn Sprache für eine Weile angegeben worden ist. Dies hält den gesamten VAD-Algorithmus von einem Festsetzen auf eine Aktivitätsangabe ab, wenn der Rauschpegel sich plötzlich erhöht.
Der VERZÖGERUNG-Eingang wird getrieben durch stat_count gemäß der Erfindung zum Setzen einer unteren Grenze für die zuvor erwähnte Verzögerungsperiode des Rauschenschätzers (d.h. Erfordern einer größeren Verzögerung als andernfalls konventionell erfordert wird), wenn das Signal zu relevant zu sein scheint zum Erlauben eines "schnellen" Anstiegs des Rauschschätzwertes. Das stat_count Signal kann den Anstieg des Rauschschätzwertes für eine ziemlich lange Zeit verzögern (z.B. 5 Sekunden), wenn eine sehr hohe Relevanz durch den CAD detektiert worden ist für eine eher lange Zeit (z.B. 2 Sekunden). In einer Ausführungsform wird stat_count verwendet zum Reduzieren der Geschwindigkeit (Stärke) der Rauschschätzwert-Aktualisierungen, wo eine höhere Relevanz durch den CAD angegeben wird.
Der Sprache/Rauschen-Bestimmer 39 hat einen Ausgang 301, der an einen Eingang der Zählersteuereinheit 35 gekoppelt ist, und der auch an den Rauschenschätzer 38 gekoppelt ist, wobei die letztere Kopplung konventionell ist. Wenn der Sprache/Rauschen-Bestimmer bestimmt, dass ein gegebener Rahmen des Audioeingangssignals zum Beispiel ein hochgezogenes bzw. steiles (pitched) Signal oder ein Tonsignal oder ein nicht-stationäres Signal ist, gibt der Ausgang 301 dieses zu der Zählersteuereinheit 35 an, die dann den Ausgang stat_count vom Zähler 36 auf einen gewünschten Wert setzt. Wenn Ausgang 301 ein stationäres Signal angibt, kann Steuereinheit 35 Zähler 36 dekrementieren.
4 veranschaulicht eine beispielhafte Ausführungsform der Nachwirk-Logik von 1. In 4 werden die Kennungen eines komplexen Signals VAD_fail_short und VAD_fail_long eingegeben an ODER-Gatter 41, dessen Ausgang einen Eingang von einem anderen ODER-Gatter 43 treibt. Die Sprache/Rauschen-Angabe sp_vad_prim von dem VAD wird eingegeben zu einer konventionellen VAD-Nachwirk-Logik 45. Der Ausgang sp_vad von der VAD-Nachwirk-Logik ist an einen zweiten Eingang vom ODER-Gatter 43 gekoppelt. Wenn eines der Kennungen eines komplexen Signals VAD_fail_short oder VAD_fail_long aktiv ist, dann wird der Ausgang vom ODER-Gatter 41 bewirken, dass das ODER-Gatter 43 angibt, dass das Eingangssignal relevant ist.
Wenn keine der Kennungen eines komplexen Signals aktiv ist, dann wird die Sprache/Rauschen-Entscheidung der VAD-Nachwirk-Logik 45, nämlich das Signal sp_vad, die Relevant/Nicht- relevant-Angabe bilden. Wenn sp_vad aktiv ist, wodurch Sprache angegeben ist, dann gibt der Ausgang vom ODER-Gatter 43 an, dass das Signal relevant ist. Andernfalls, wenn sp_vad inaktiv ist, Rauschen angebend, dann gibt der Ausgang vom ODER-Gatter 43 an, dass das Signal nicht relevant ist. Die Relevant/Nicht-relevant-Angabe vom ODER-Gatter 43 kann zum Beispiel zu dem DTX-Steuerteil eines DTX-Systems bereitgestellt sein, oder zu dem Bitratensteuerteil eines VR-Systems.
5 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch Parametergenerator 28 von 2 zum Produzieren der Signale complex_high, complex_low und complex_timer. Der Index i in 54 (und in 6–11) kennzeichnet den aktuellen Rahmen des Audioeingangssignals. Wie in 5 gezeigt, hat jedes der zuvor erwähnten Signale einen Wert von 0, wenn das Signal g_f(i) nicht einen jeweiligen Schwellenwert überschreitet, nämlich TH_h für complex_high bei 51–52, TH_l für complex_low bei 54–55, oder TH_t für complex_timer bei 57–58. Wenn g_f(i) Schwelle TH_h bei 51 überschreitet, dann wird complex_high zu 1 gesetzt bei 53, und wenn g_f(i) Schwelle TH_l bei 54 überschreitet, dann wird complex_low zu 1 gesetzt bei 56. Wenn g_f(i) Schwelle TH_t überschreitet bei 57, dann wird complex_timer um 1 bei 59 inkrementiert. Beispielhafte Schwellenwerte in 5 beinhalten TH_h = 0,6, TH_l = 0,5, und TH_t = 0,7. Aus 5 ist ersichtlich, dass complex_timer die Anzahl von aufeinanderfolgenden Rahmen darstellt, in denen g_f(i) größer als TH_t ist.
6 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Zählersteuereinheit 29 und den Zähler 201 von 2. Wenn complex_timer einen Schwellenwert TH_ct bei 61 überschreitet, dann setzt die Zählersteuereinheit 29 den Ausgang complex_hang_count vom Zähler 201 auf einen Wert H bei 62. Wenn complex_timer nicht die Schwelle TH_ct bei 61 überschreitet, sondern größer als 0 ist bei 63, dann dekrementiert die Zählersteuereinheit 29 den Ausgang complex_hang_count vom Zähler 201 bei 64. Beispielhafte Werte in 6 beinhalten TH_ct = 100 (entsprechend 2 Sekunden in einer Ausführungsform), und H = 250 (entsprechend 5 Sekunden in einer Ausführungsform).
7 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Komparator 203 von 2. Wenn complex_hang_count größer als TH_hc ist bei 71, dann wird VAD_fail_long zu 1 gesetzt bei 72. Andernfalls, wird VAD_fail_long zu 0 gesetzt bei 73. In einer Ausführungsform ist TH_hc = 0.
8 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Puffer 202, Komparatoren 204 und 205, und das UND-Gatter 207 von 2. Wie in 8 gezeigt, wenn die letzten p Werte von sp_vad_prim, die unmittelbar dem gegenwärtigen (i-ten) Wert von sp_vad_prim vorhergehen, alle gleich 0 sind bei 81, und wenn g_f(i) einen Schwellenwert TH_fs bei 82 überschreitet, dann wird VAD_fail-short zu 1 gesetzt bei 83. Andernfalls wird VAD_fail-short zu 0 gesetzt bei 84. Beispielhafte Werte in 8 beinhalten TH_fs = 0,55 und p = 10.
9 veranschaulicht beispielhafte Operationen, die ausgeführt werden können durch die Puffer 30 und 31, die Komparatoren 32 und 33, und das ODER-Gatter 34 von 3. Wenn die letzten m Werte von complex_high, die unmittelbar dem aktuellen (i-ten) Wert von complex_high vorhergehen, alle gleich 1 sind bei 91, oder wenn die letzten n Werte von complex_low, die dem aktuellen (i-ten) Wert von complex_low unmittelbar vorhergehen, alle gleich 1 sind bei 92, dann wird complex_warning zu 1 bei 93 gesetzt. Andernfalls, wird complex_warning zu 0 bei 94 gesetzt. Beispielswerte in 9 beinhalten m = 8 und n = 15.
10 veranschaulicht beispielhaften Operationen, die ausgeführt werden können durch die Zählersteuereinheit 35 und den Zähler 36 von 3. Wenn das Audiosignal als stationär angegeben wird bei 100 (siehe 301 von 3), dann wird stat_count dekrementiert bei 104. Dann, wenn complex_warning = 1 bei 101, und wenn stat_count geringer ist als ein Wert MIN bei 102, dann wird stat_count zu MIN bei 103 gesetzt. Wenn das Audiosignal nicht stationär ist bei 100, dann wird stat_count zu A gesetzt bei 105. Beispielhafte Werte von MIN und A sind 5 bzw. 20, was in einer Ausführungsform in einem Niedrig-Begrenzen des Verzögerungswertes vom Rauschenschätzer 38 (3) auf 100 ms bzw. 400 ms resultieren würde.
11 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch den Komparator 37 und den Rauschenschätzer 38 von 3. Wenn complex_hang_count einen Schwellenwert TH_hc überschreitet bei 111, dann treibt der Komparator 37 bei 112 den RUNTER-Eingang vom Rauschenschätzer 38 aktiv, so dass der Rauschenschätzer 38 seine Schätzwerte nur in einer Abwärts-Richtung aktualisieren darf (oder sie unverändert lassen darf). Wenn complex_hang_count nicht die Schwelle THh_hc1 überschreitet bei 111, dann ist der RUNTER-Eingang von Rauschenschätzer 38 inaktiv, so dass der Rauschenschätzer 38 bei 113 Aufwärts- oder Abwärts-Aktualisierungen seines Rauschschätzwertes machen darf. In einem Beispiel ist TH_hc1 = 0.
Wie oben demonstriert, erlauben die durch den CAD generierten Kennungen eines komplexen Signals, dass eine "Rauschen"-Klassifizierung durch den VAD selektiv überschrieben wird, wenn der CAD bestimmt, dass das Eingangsaudiosignal ein komplexes Signal ist, das Information enthält, die wahrnehmungsrelevant für den Zuhörer ist. Die VAD_fail-short Kennung löst eine "Relevant"-Angabe bei dem Ausgang der Nachwirk-Logik aus, wenn bestimmt wird, dass g_f(i) einen vorbestimmten Wert überschreitet, nachdem eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen als Rauschen durch den VAD klassifiziert worden ist.
Ebenso kann die VAD_fail-long Kennung eine "Relevant"-Angabe bei dem Ausgang der Nachwirk-Logik auslösen, und diese Angabe für eine relativ lange Aufrechterhaltungsperiode einer Zeit aufrechterhalten, nachdem g_f(i) einen vorbestimmten Wert für eine vorbestimmte Anzahl von aufeinanderfolgenden Rahmen überschritten hat. Diese Aufrechterhaltungsperiode einer Zeit kann einige separate Sequenzen von aufeinanderfolgenden Rahmen einschließen, wobei g_f(i) den zuvor erwähnten vorbestimmten Wert überschreitet, aber wobei jede der separaten Sequenzen von aufeinanderfolgenden Rahmen weniger als die zuvor erwähnte vorbestimmte Anzahl von Rahmen umfasst.
In einer Ausführungsform kann der Signalrelevanzparameter complex_hang_count bewirken, dass der RUNTER-Eingang vom Rauschenschätzer 38 aktiv ist unter denselben Bedingungen wie die Kennung eines komplexen Signals VAD_fail-long. Die Signalrelevanzparameter complex_high und complex_low können so arbeiten, dass, wenn g_f(i) eine erste vorbestimmte Schwelle für eine erste Anzahl von aufeinanderfolgenden Rahmen überschreitet oder eine zweite vorbestimmte Schwelle für eine zweite Anzahl von vorbestimmten Rahmen überschreitet, dann der VERZÖGERUNG-Eingang von dem Rauschenschätzer 38 auf einen niedrigeren Grenzwert gehoben werden kann (wie benötigt), selbst wenn einige aufeinanderfolgende Rahmen als stationär bestimmt worden sind (durch den Sprache/Rauschen-Bestimmer 39).
12 veranschaulicht beispielhafte Operationen, die durchgeführt werden können durch die Ausführungsformen eines Sprachcodierers von 1–11. Bei 121 wird der normalisierte Verstärkungsgrad mit dem größten (maximalen) Ausmaß für den aktuellen Rahmen berechnet. Bei 122 wird der Verstärkungsgrad analysiert zum Produzieren der Relevanzparameter und Kennungen eines komplexen Signals. Bei 123 werden die Relevanzparameter verwendet zur Hintergrundrauschen-Schätzung in dem VAD. Bei 124 werden die Kennungen eines komplexen Signals in der Relevanzentscheidung der Nachwirk-Logik verwendet. Wenn bestimmt wird bei 125, dass das Audiosignal nicht wahrnehmungsrelevante Information enthält, dann kann bei 126 die Bitrate verringert werden, zum Beispiel, in einem VR-System, oder Parameter eines Komfortrauschens können codiert werden, z.B. in einem DTX-System.
Aus der vorhergehenden Beschreibung wird für Fachleute ersichtlich werden, dass die Ausführungsformen von 1–13 ohne weiteres durch geeignete Modifizierungen in Software, Hardware oder beidem, in einer konventionellen Sprachcodiervorrichtung implementiert werden können.
Obwohl beispielhafte Ausführungsformen der vorliegenden Erfindung oben im Detail beschrieben worden sind, begrenzt dieses den Bereich der Erfindung nicht, die in einer Vielfalt von Ausführungsformen angewendet werden kann.

Claims

Ein Verfahren zum Erhalten von wahrnehmungsrelevanter Nicht-Sprachinformation in einem Audiosignal während des Codierens des Audiosignals, umfassend Durchführen einer ersten Bestimmung, ob das Audiosignal als Sprach- oder Rauschinformation enthaltend betrachtet wird, und charakterisiert durch: Durchführen einer zweiten Bestimmung, ob das Audiosignal Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; und selektives Aufheben der ersten Bestimmung als Antwort auf die zweite Bestimmung.
Das Verfahren nach Anspruch 1, wobei der Schritt des Durchführens der zweiten Bestimmung das Vergleichen eines vorbestimmten Wertes mit Korrelationswerten beinhaltet, die mit jeweiligen Rahmen verknüpft sind, in die das Audiosignal aufgeteilt ist.
Das Verfahren nach Anspruch 2, wobei der Schritt des selektiven Aufhebens das Aufheben der ersten Bestimmung als Antwort auf einen den vorbestimmten Wert überschreitenden Korrelationswert beinhaltet.
Das Verfahren nach Anspruch 2, wobei der Schritt des selektiven Aufhebens das Überschreiben der ersten Bestimmung in Antwort auf eine vorbestimmte Anzahl von Korrelationswerten in einer gegebenen Zeitdauer, die den vorbestimmten Wert überschreiten, beinhaltet.
Das Verfahren nach Anspruch 4, wobei der Schritt des selektiven Aufhebens das Aufheben der ersten Bestimmung als Antwort auf eine vorbestimmte Anzahl von fortlaufenden Korrelationswerten beinhaltet, die den vorbestimmten Wert überschreiten.
Das Verfahren nach Anspruch 2, das für jeden Rahmen das Finden eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals beinhaltet, wobei die höchsten normalisierten Korrelationswerte jeweils den erst erwähnten Korrelationswerten entsprechen.
Das Verfahren nach Anspruch 6, wobei der Schritt des Findens, für jeden der Rahmen, das Finden eines normalisierten Korrelationswertes mit größtem Ausmaß beinhaltet.
Das Verfahren nach Anspruch 1, wobei der Schritt des selektiven Aufhebens das Aufheben einer ersten Bestimmung von Rauschen beinhaltet als Antwort auf eine zweite Bestimmung von wahrnehmungsrelevanter Nicht-Sprachinformation.
Ein Verfahren zum Erhalten von wahrnehmungsrelevanter Nicht-Sprachinformation in einem Audiosignal während des Codierens des Audiosignals, mit Bestimmen normalisierter Korrelationswerte für jeden von einer Vielzahl von Rahmen, in die das Audiosignal aufgeteilt ist, und Durchführen einer ersten Bestimmung, ob das Audiosignal als Sprach- oder Rauschinformation umfassend berücksichtigt wird, und gekennzeichnet durch: Durchführung einer zweiten Bestimmung, ob das Audiosignal Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; selektives Aufheben der ersten Bestimmung in Antwort auf die zweite Bestimmung; für jeden von der Vielzahl von Rahmen, in die das Audiosignal aufgeteilt ist, Finden eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals: Erzeugen einer ersten Sequenz der normalisierten Korrelationswerten; Bestimmen einer zweiten Sequenz von darstellenden Werten zum Darstellen in dieser Reihenfolge der normalisierten Korrelationswerte der ersten Sequenz; und Vergleichen der darstellenden Werte mit einem Schwellenwert zum Erhalten einer Angabe, ob das Audiosignal wahrnehmungsrelevante Information enthält.
Das Verfahren nach Anspruch 9, wobei der Schritt des Findens das Anwenden einer Korrelationsanalyse auf das Audiosignal ohne Erzeugen der Hochpass-gefilterten Version des Audiosignals beinhaltet.
Das Verfahren nach Anspruch 9, wobei der Schritt des Findens Hochpass-Filtern des Audiosignals und danach Anwenden einer Korrelationsanalyse auf das Hochpass-gefilterte Audiosignal beinhaltet.
Das Verfahren nach Anspruch 9, wobei der Schritt des Findens, für jeden der Rahmen, das Finden eines normalisierten Korrelationswertes mit größtem Ausmaß beinhaltet.
Eine Vorrichtung (10) zum Gebrauch in einem Audiosignal-Kodierer zum Erhalten von in einem Audiosignal enthaltener wahrnehmungsrelevanter Nicht-Sprachinformation, umfassend einen Klassifizierer (16) zum Empfangen des Audiosignals (12) und Durchführen einer ersten Bestimmung, ob das Audiosignal (12) als Sprach- oder Rauschinformation umfassend berücksichtigt wird, und gekennzeichnet dadurch, dass sie folgendes umfasst: einen Detektor (14) zum Empfangen des Audiosignals (12) und Durchführen einer zweiten Bestimmung, ob das Audiosignal (12) Nicht-Sprachinformation enthält, die wahrnehmungsrelevant für einen Zuhörer ist; und an den Klassifizierer (16) und den Detektor (14) gekoppelte Logik (18), wobei die Logik (18) einen Ausgang hat zum Angeben, ob das Audiosignal (12) wahrnehmungsrelevante Information enthält, und wobei die Logik (18) betriebsfähig ist zum selektiven Bereitstellen einer die erste Bestimmung anzeigenden Information bei dem Ausgang und auch reagierend ist auf die zweite Bestimmung zum selektiven Aufheben bei dem Ausgang der die erste Bestimmung anzeigenden Information.
Die Vorrichtung (10) von Anspruch 13, wobei der Detektor (16) betriebsfähig ist zum Vergleichen eines vorbestimmten Wertes mit Korrelationswerten, die mit jeweiligen Rahmen verknüpft sind, in die das Audiosignal (12) aufgeteilt ist.
Die Vorrichtung (10) von Anspruch 14, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf einen den vorbestimmten Wert überschreitenden Korrelationswert.
Die Vorrichtung (10) von Anspruch 14, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf eine vorbestimmte Anzahl von Korrelationswerten in einer gegebenen Zeitdauer, die den vorbestimmten Wert überschreiten.
Die Vorrichtung (10) von Anspruch 16, wobei die Logik (18) betriebsfähig ist zum Aufheben der die erste Bestimmung anzeigenden Information als Antwort auf eine vorbestimmte Anzahl von fortlaufenden Korrelationswerten, die mit zeitmäßig fortlaufenden Rahmen verknüpft sind, die den vorbestimmten Wert überschreiten.
Die Vorrichtung von Anspruch 14, wobei der Detektor (16) betriebsfähig ist zum Finden innerhalb jedes der Rahmen eines höchsten normalisierten Korrelationswertes einer Hochpass-gefilterten Version des Audiosignals (12), wobei die höchsten normalisierten Korrelationswerte jeweils den erst erwähnten Korrelationswerten entsprechen.
Die Vorrichtung von Anspruch 18, wobei jeder der höchsten normalisierten Korrelationswerte einen normalisierten Korrelationswert mit größtem Ausmaß innerhalb des verknüpften Rahmens darstellt.
Die Vorrichtungen (10) von Anspruch 13, wobei die Logik (18) betriebsfähig ist zum Aufheben einer eine Rauschbestimmung anzeigenden Information als Antwort auf die zweite Bestimmung, die wahrnehmungsrelevante Nicht-Sprachinformation anzeigt.