-
Die vorliegende Erfindung betrifft
ein Verfahren zur Kompression eines elektrischen Audiosignals, welches
bei der Aufnahme von Umgebungsgeräuschen mittels eines elektroakustischen
Wandlers, insbesondere eines Mikrophons erzeugt wird. Weiterhin
betrifft die Erfindung auch eine Vorrichtung zur Durchführung des Verfahrens,
ein Computerprogramm zur Durchführung
des Verfahrens und einen Datenträger,
der ein solches Computerprogramm enthält.
-
Auf dem Gebiet der Zuhörerforschung,
welches ebenfalls die akustische Wahrnehmung anderen Medien wie
beispielsweise Fernsehen beinhaltet, werden Aufnahmen aus der akustischen
Umgebung eines Teilnehmers an einer Untersuchung verwendet, d. h.
die sogenannten Hörproben.
Das Speichern dieser Hörproben
auf tragbaren Bandaufnahmegeräten
ist in
US 5 023 929 offenbart.
Der Nachteil dieses Verfahrens liegt darin, dass das Aufnahmegerät relativ
gross ist, obwohl es vom Teilnehmer ständig getragen werden soll.
-
Es wäre daher vorteilhafter, das
Aufnahmegerät
für die
Hörproben
bzw. den Monitor in ein Gerät
zu integrieren, welches ohnehin getragen wird oder zumindest weniger
sichtbar ist. Eine solche Möglichkeit,
nämlich
die Integration in eine Armbanduhr, ist in EP-A-0 598 682 des Anmelders
beschrieben.
-
In der erwähnten Anmeldung ist jedoch
nicht angegeben, wie die Hörproben
im äusserst
engen Raum und mit der sehr beschränkten Energie, welche in einer
Armbanduhr oder einem ähnlich
unauffälligen
Gerät zur
Verfügung
steht, während
einer beträchtlichen
Zeitdauer von mindestens einer Woche gespeichert werden können. Obwohl
die Notwendigkeit von Kompressionsverfahren in der Beschreibung
erwähnt
wird, sind nur bekannte Verfahren angegeben.
-
US-4 450 531 offenbart ein Verfahren
zum Vergleich eines gesendeten Signals mit Vergleichsproben zur
Bestimmung des empfangenen Programms. Aus den Proben des gesendeten
Signals, welche beispielsweise von einem Tuner empfangen werden,
wird ein Frequenzband herausgefiltert und einer Fouriertransformation
unterzogen. Die Vergleichsproben werden in nahezu derselben Weise
behandelt, jedoch zusätzlich
auf die Leistung der jeweiligen Probe normalisiert und erst danach
der Fouriertransformation unterzogen. Die beiden Signale werden
einer Korrelationsfunktion und einer inversen Fouriertransformation
unterzogen, und die Abstände
der Korrelationsspitzen werden bestimmt. Falls diese gleich sind
wie die Länge
der Vergleichsproben, enthalten die Proben und die Vergleichsproben
dasselbe Programm. Weiter ist ein zusätzlicher Test erforderlich,
und zwar ein Vergleich der Leistungsverteilung durch Messung der
RMS-Leistungswerte der beiden Proben im Zeitpunkt der Korrelation.
Dadurch soll nur die Zuverlässigkeit
der Korrelation verbessert werden; es erfolgt jedoch keine Reduktion
der Datenmenge, und es ist nicht einmal eine Speicherung der Proben
vorgesehen. Schliesslich wird ein korrekt empfangenes Signal benötigt. Die
Erfassung eines gesendeten Programms in geräuschvoller Umgebung wird nicht
erwähnt.
-
DE-A-4 400 683 beschreibt ein Verfahren,
worin amplitudenbezogene Werte und Frequenzgewichtungsfaktoren von
Hörproben
berechnet und für
eine spätere
Auswertung gespeichert werden. Die Verwendung zweier verschiedener
Arten von Werten, welche in Abhängigkeit
von eher dynamischen oder statischen momentanen Eigenschaften des
Programms mehr oder weniger kennzeichnend für die Bestimmung des empfangenen
Programms sind, bedingt zumindest zusätzlichen Aufwand im Korrelationsverfahren
und bewirkt einen erhöhten
Energieverbrauch für
die Berechnung zweier verschiedener Wertereihen.
-
Ein Ziel vorliegender Erfindung besteht
deshalb darin, ein Verfahren zur Kompression von Hörproben anzugeben,
welches insbesondere eine hohe Kompression mit minimalem Aufwand
gestattet, wobei eine sichere Erkennung von Programmteilen im wesentlichen
gewährleistet
bleibt.
-
Dieses Ziel wird mit einem Verfahren
nach Anspruch 1 erreicht. In den weiteren Ansprüchen sind bevorzugte Ausführungen,
Vorrichtungen zur Durchführung
des Verfahrens (wie in Anspruch 24), ein Computerprogramm zur Durchführung des
Verfahrens sowie ein Datenträger,
der ein solches Computerprogramm enthält, wie in Anspruch 36 beansprucht
angegeben.
-
Nachfolgend wird dieselbe Terminologie
wie in EP-A-0 598 682 verwendet. Eine Hörprobe ist grundsätzlich eine
Aufnahme der Umgebungsgeräusche
beispielsweise über
ein Mikrofon. Zur Vereinfachung der Speicherung sowie der Übertragung
zum Auswertungszentrum werden jedoch mehrere aufeinanderfolgende, kurze
Aufnahmen der Umgebungsgeräusche
bzw. Hörproben
bevorzugt, die zu bestimmten Zeiten aufgenommen werden. Die Aufnahmen
werden vorzugsweise in regelmässigen
Abständen
von beispielsweise einer Minute durchgeführt und weisen eine gleichbleibende
Zeitdauer in der Grössenordnung
von beispielweise 4 Sekunden auf, wobei die Informationen über den
Zeitpunkt der Aufnahmen zusammen mit der Hörprobe gespeichert werden.
-
Erfindungsgemäss werden die Hörproben
schliesslich in digitaler Form in einem elektronischen Speicher
gespeichert. Um die zu speichernde Datenmenge zu verringern, wird
erfindungsgemäss
eine Normalisierung der Hörproben
in deren ursprünglicher
Form oder in einer davon abgeleiteten Form (gefiltert, auf ausgewählte Frequenzbänder beschränkt, digital
oder analog, usw.) auf einen vorbestimmten Bereich D von Werten (z.
B. Amplituden) sowie eine nachfolgende nichtlineare Transformation
auf einen zweiten Bereich W vorgenommen, deren Resultat, welches
auf den Bereich W beschränkt
ist, sodann in einem elektronischen Speicher gespeichert wird. Der
Bereich W kann kleiner oder gleich D sein, vorzugsweise ist er jedoch
wesentlich kleiner.
-
Im wesentlichen dient die nichtlineare
Transformation dazu, empfindliche Teile des Bereichs D derart zu
verstärken,
dass die signifikantere Information eines Signals, dessen Wert in
einem solchen Teilbereich von D liegt, im Resultat hervorgehoben
wird, d. h. dass dessen Auflösung
erhöht
wird.
-
Bevorzugte Weiterentwicklungen der
Erfindung sind:
-
- A: Die nichtlineare Abbildung ist gekennzeichnet durch eine
abnehmende Steigung dW/dD für
zunehmende Werte D, beispielsweise ähnlich der logarithmischen
Funktion. Im wesentlichen wird dadurch der Bereich kleiner Werte in
D auf einen vergleichsweise grösseren
Bereich in W abgebildet und damit hervorgehoben, während relativ
grosse Werte D nur auf einen relativ kleinen Bereich in W abgebildet
werden, d. h. deren Signifikanz wird abgeschwächt.
- B: Die Hörproben
werden unmittelbar nach der Aufnahme (z. B. durch ein Mikrofon)
und der analogen Verarbeitung (Verstärkung; grobe Filterung zur
Vorbereitung der Analog-Digitalwandlung, usw.) digitalisiert, wobei sich
eine Folge von numerischen Werten ergibt. Jeder numerische Wert
stellt beispielsweise die momentane Lautstärke des Umgebungsgeräuschs zu
einem bestimmten Zeitpunkt dar.
Weitere Bearbeitungen erfolgen
auf der digitalen Ebene durch digitale Schaltungen, programmgesteuerte
Prozessoren oder Kombinationen davon.
- C: die Amplituden- oder Lautstärkewerte werden beispielsweise
durch Quadrieren in Energiewerte umgewandelt. Die Energiewerte werden
einem Tiefpassfilter zugeführt
und anschliessend differenziert, wobei die Differenzierung vorzugsweise
durch eine Differenzbildung simuliert wird. Die erhaltenen Energieänderungswerte zeigen
die Änderung
des Niederfrequenzanteils im Energiegehalt in der Zeit.
- D: Die Gruppe der Energieänderungswerte
einer Hörprobe,
oder nur ein Teil davon, wird in Bezug auf den Maximalwert der Werte
innerhalb der (Teil-) Gruppe normalisiert. Zu diesem Zweck wird
der Maximalwert ermittelt, und alle Werte der Gruppe werden durch
diesen Maximalwert geteilt. Gleichzeitig werden die normalisierten Werte
auf einen bestimmten Zahlenbereich abgebildet, der dem Bereich D
entspricht, beispielsweise die Zahlen zwischen –128 und +127, so dass in den
nachfolgenden arithmetischen Operationen nur ganze Zahlen vorkommen.
Die Anzahl Werte in den numerischen Bereichen D entspricht deshalb
vorzugsweise Zweierpotenzen (im Beispiel: 256 = 28 Werte),
welche bei der binären
digitalen Verarbeitung besonders vorteilhaft sind. Zur Durchführung dieser
Kombination aus Normalisierung und Abbildung werden die Werte einer
Gruppe mit einem Faktor multipliziert, der sich aus der Teilung
der Grenze des numerischen Bereichs (d. h. im Beispiel 128) durch
den Maximalwert innerhalb der Gruppe ergibt.
- E: Die Resultate aus diesem Schritt werden wiederum auf einen
weiteren, kleineren Wertebereich W abgebildet, beispielsweise den
numerischen Bereich von 0 bis 15 mit 24 Zahlen.
Auf Grund der festen und relativ kleinen Anzahl von Eingabewerten
in diesem Schritt kann für
diese zweite Abbildung eine so genannte Lookup-Tabelle verwendet
werden.
Insgesamt folgt aus dem Vorangehenden, dass jeder numerische
Wert der Hörproben
auf eine relativ kurze binäre
Zahl (im Beispiel von 4 Bit) reduziert wird.
- F: Es kommen weitere Optimierungen zur Anwendung, beispielsweise
die Bildung des Mittelwerts einer Anzahl von Werten, wobei nur der
Mittelwert weiterverwendet wird. Damit ergibt sich auch eine bedeutende
Verringerung der Anzahl zu verarbeitender Werte. Auf der digitalen
Ebene wird eine solche Filterung durch eine Faltung simuliert.
- G: Vor oder nach der Digitalisierung am Eingang wird die Hörprobe in
Frequenzbänder
oder Bandsignale aufgetrennt. Bekannterweise können digitale Filterungen durch
Faltungen erfolgen, und da die bevorzugten Faltungen Tiefpassfilter
darstellen, werden vorzugsweise weniger Werte an die nachfolgenden
Verarbeitungsschritte weitergegeben als für die Faltung notwendig, vorzugeweise
jeweils nur ein Wert.
-
Die Erfindung wird nachfolgend anhand
eines Ausführungsbeispiels
und von Figuren näher
erläutert.
-
1 zeigt
ein Blockschema eines erfindungsgemässen Monitors,
-
2 zeigt
die Auftrennung in Frequenzbänder,
-
3 zeigt
die Umwandlung in Energiewerte und die Differenzierung,
-
4 zeigt
die "normalisierende
Quantisierung".
-
1 zeigt
ein Blockschema eines Monitors 1. Dieser kann beispielsweise
für die
Integration in eine Armbanduhr vorgesehen sein, weshalb der Monitor 1 einen
Zeitgeber 2 aufweist, der auch als Zeitbasis für die Signalverarbeitung
dient, sowie eine (Flüssigkristall-)
Anzeige 3. Ein präzises
Taktsignal wird von einem Quarz 4 zusammen mit einer im
Zeitgeber 2 integrierten Oszillatorschaltung erzeugt. Da
für die
Synchronisation der Hörproben
zu den Vergleichsproben eine sehr präzise Zeitgebung erforderlich
ist, ist zusätzlich
eine Temperaturkompensation vorgesehen. Diese umfasst einen Temperatursensor 5,
der über
eine Interfaceschaltung 6 mit dem Zeitgeber verbunden ist.
Die Interfaceschaltung 6 beinhaltet im wesentlichen einen
A/D-Wandler.
-
Ein weiteres wichtiges Element für den Betrieb
des Monitors ist der Tragedetektor. Dieser kann im wesentlichen
aus einer Sensorfläche
auf der Armbanduhr bestehen, welche den Kontakt mit der Haut des
Trägers feststellt.
Im Beispiel ist der Tragesensor 7 über eine Interfaceschaltung 8 mit
dem Zeitgeber 2 verbunden, was voraussetzt, dass der Zeitgeber
in der Lage ist, die Zeitangaben mit einer zusätzlichen Markierung des Tragesensors
zu versehen. Es ist auch möglich,
den Tragesensor direkt mit der eigentlichen Monitarschaltung zu verbinden,
beispielsweise mit dem digitalen Signalprozessor 9.
-
Die für die Signalverarbeitung benötigten Taktsignale,
insbesondere für
den Signalprozessor 9, werden über eine PLL-Schaltung (phase
locked loop) vom Takt der Zeitbasis abgeleitet, der an einem Anschluss 10 von
Quarz 4 abgegriffen wird. Zeit und Datum sowie gegebenenfalls
die Markierung des Tragesensors werden vom Zeitgeber 2 über eine
serielle Datenverbindung 12 zum digitalen Signalprozessor 9 übertragen.
-
Die Hörproben werden in einem Flash-Speicher
gespeichert. Für
die vorliegende Anwendung ist es ein grosser Vorteil, dass Flash-Speicher
in der Lage sind, Daten nichtflüchtig
zu speichern und sie ohne besondere Massnahmen wieder zu löschen. Ein
Bus 14, der sowohl Daten als auch Adressen überträgt, dient
als Verbindung zwischen dem Flash-Speicher 13 und dem Signalprozessor 9.
-
Ein Multiplexer 16 ist über eine
zweite serielle Verbindung angeschlossen. Je nach Betriebszustand verbindet
der Multiplexer den Signalprozessor 9 mit der Aufnahmeeinheit
für die
Hörproben
oder mit der Interfaceschaltung 17 zum Datenaustausch mit
dem Auswertungszentrum.
-
Die Aufnahmeeinheit besteht aus einem
Mikrofon 18 und einer nachfolgenden A/D-Wandlereinheit
19, welche zusätzlich
zum eigentlichen A/D-Wandler Verstärker, Filter (Antialiasing-Filter) sowie weitere übliche Vorkehrungen
aufweisen kann, um zu gewährleisten,
dass das digitale Signal die Mikrofonaufnahme so korrekt wie möglich wiedergibt.
-
Bei der Stromversorgung 20 kann
es sich um eine Batterie (Lithiumzelle) oder dergleichen handeln. Ein
Akkumulator in Verbindung mit einem kontaktlosen Ladesystem mittels
elektromagnetischer Induktion oder eine Photozelle sind ebenfalls
möglich.
-
Zur Verbindung nach aussen, insbesondere
zur Übertragung
von Daten zum Auswertungszentrum, verfügt der Monitor 1 über einen
bidirektionalen Datenanschluss 21, einen Reset-Eingang 22,
einen Synchronisationseingang 23 und einen Stromversorgungsanschluss 24.
Die Anwesenheit einer Stromversorgung am Anschluss 24 bewirkt
gleichzeitig den Wechsel des Monitors in den Datenübertragungsmodus.
Der Monitor kann beispielsweise an eine Basisstation angeschlossen
werden, welche eine Verbindung mit einem Auswertungszentrum herstellt,
beispielsweise per Telefon.
-
Eine andere Möglichkeit besteht im Einschicken
des Monitors an das Zentrum, wo er mit einer Lesestation verbunden
wird. Bei dieser Gelegenheit kann neben der Datenübertragung
auch eine Synchronisation des Zeitgebers 2 mit der Zeitbasis
des Zentrums durchgeführt
werden, wie bereits in EP-A-0 598 682 beschrieben.
-
Wie in der Zeichnung dargestellt,
kann die Verarbeitungseinheit für
die Hörproben
mit dem Signalprozessor 9 und den notwendigen zusätzlichen
Komponenten (Multiplexer 16, Speicher 13, Taktgenerator
bestehend aus PLL-Schaltung 11 und Quarz 10, usw.)
aus diskreten Komponenten aufgebaut sein. Für den Einbau in eine Armbanduhr
müssen
die Funktionen jedoch in so wenige Komponenten wie möglich integriert
sein, was im Extremfall zu einer einzelnen applikationsspezifischen
Schaltung 30 führt.
Beispielsweise können
Signalprozessoren der TMS 320C5x-Serie (Hersteller: Texas Instruments)
verwendet werden, in welchen u. a, der Multiplexer 16 bereits
enthalten ist, sowie Flash-RAMs des Typs AM29LV800 (Hersteller:
Amdahl) mit einer Kapazität
von 8 MBit. Bei dieser Speicherkapazität und beim Einsatz des nachfolgend
beschriebenen erfindungsgemässen
Kompressionsverfahrens für
Hörprobendaten
kann ein ununterbrochener Betrieb des Monitors während ungefähr 7 Tagen erreicht werden.
-
Im Hinblick auf den Stromverbrauch
wird die Verarbeitungseinheit für
die Hörproben,
insbesondere der Signalprozessor 9, nur periodisch eingeschaltet.
Beispielsweise braucht die Stromversorgung des Signalprozessors
beim erfindungsgemässen
Verarbeitungsverfahren für
die Aufnahme einer Hörprobe
pro Minute nur während
einigen Sekunden eingeschaltet zu sein (weniger als 5, beispielsweise
4 Sekunden). Zu diesem Zweck empfängt die Stromversorgung vom
Zeitgeber 2 ein Einschaltsignal 25, während dessen
Anwesenheit die Verarbeitungseinheit für die Hörproben mit Strom versorgt
wird. Eine weitere Verringerung des Energieverbrauchs wird dadurch
erreicht, das der Flash-Speicher 13 nur für kurze
Zeit mit dem für
den Speichervorgang notwendigen Strom versorgt wird, wobei im Fall
des oben erwähnten
Typs 3 ms am Ende jeder verarbeiteten Hörprobe genügen. Das dafür notwendige
Signal 26 wird vom Signalprozessor 9 erzeugt.
Das Programm, welches den Signalprozessor steuert, ist in einem
separaten Programmspeicher enthalten, der im Signalprozessor selbst
integriert sein kann, so dass die Verarbeitung der Hörproben
auch dann möglich
ist, wenn der Flash-Speicher 13 ausgeschaltet ist.
-
Nachfolgend wird ein Verfahren zur
Verarbeitung der Hörproben
beschrieben. Nach der Aufnahme der Umgebungsgeräusche (Mikrofon 18)
und deren Analog-Digitalwandlung
mittels bekannter Verfahren (A/D-Wandlereinheit 19)
wird eine Auftrennung in beispielsweise 6 Frequenzbänder vorgenommen
(2), welche in einer
hierarchischen Anordnung von Tiefpassfiltern 30–35 erfolgt.
Der notwendige Hochpass zu jedem Tiefpass wird durch eine Subtraktion 36–41 der
Ausgangssignale 42–47 von
den jeweiligen Eingangssignalen 48–53 der Tiefpässe realisiert,
wobei die Subtraktion durch eine Addition der invertierten Ausgangssignale 42–47 der
Tiefpässe 30–35 erfolgt.
-
Die Tiefpassfilter
30 bis
35 werden
durch eine 19-stellige Faltung realisiert:
worin
j: Zeitindex
y
j: Ausgangswert der Tiefpassfilterung zum
Zeitpunkt j;
x
j: Eingangswert der Tiefpassfilterung
zum Zeitpunkt j;
a
i: Koeffizient der
Faltungssequenz;
a
0 ... a
18:
[0,03, 0,0, –0,05,
0,0, 0,06, 0,0, –0,
1, 0,0, 0,32, 0,50, 0,32, 0,0, –0,11,
0,0, 0,06, 0,0, –0,05,
0,0, 0,03]
-
Während
der Auftrennung in Frequenzbänder
bzw. Bandsignale (54) erfolgt bereits eine erste Datenreduktion,
indem aus den Folgen von Ausgangswerten der Hoch- und Tiefpassfilterungen
von den Schaltern 55 jeweils nur jeder zweite Wert an die
nachfolgende Hoch- bzw. Tiefpassstufe bzw. an die Ausgänge 54 übertragen
wird. Insgesamt gestattet dies bereits eine Reduktion der Datenmenge
auf 1/8. Bei der Auftrennung in sechs Bänder gemäss dem Beispiel ergibt sich
damit eine leichte Überkompensation
der Erhöhung
der Datenmenge auf das Sechsfache.
-
Als Kriterium bei der Auslegung der
Filter gilt, dass ein Band den Inhalt jedes anderen Bands höchstens
in deutlich abgeschwächter
Form enthalten darf. Eine Reduktion mindestens auf die Hälfte kann
als deutlich abgeschwächt
betrachtet werden. Im Idealfall enthalten die Bänder nur Restanteile der direkt
benachbarten Bänder;
Anteile, welche in der Nähe
oder sogar unterhalb der Auflösung
der digitalen numerischen Darstellung liegen. In der bevorzugten
digitalen Ausführung
wird dieses Ziel durch Tiefpassfilterung (Faltung) und nachfolgende
Subtraktion des gefilterten Anteils vom Eingangssignal des Tiefpassfilters
erreicht.
-
Die Behandlung der aus der Auftrennung
in Bänder
hervorgehenden Bandsignale 54 ist für jedes Band identisch, wobei
die 3 und 4 stellvertretend die Verarbeitung
eines einzelnen Bands 56 zeigen.
-
Das Eingangssignal
56, welches
mit dem Ausgangssignal
54 identisch ist, wird zunächst quadriert,
indem es parallel den zwei Eingängen
eines Multiplikators
57 zugeführt wird. Bis auf einen Proportionalitätsfaktor entspricht
diese Quadrierung einer Berechnung des Energiegehalts des vom Signal
56 dargestellten
Teils des Umgebungsgeräuschs.
Die Energiewerte
58 werden einer Tiefpassfilterung unterzogen.
Diese Filterung wird durch eine Faltung über 48 Werte realisiert:
worin
j: Zeitindex
der y
e- und x
e-Werte;
x e / j:
Energiewert
58 zum Zeitpunkt j;
y e / j: Ausgangssignal
des Tiefpassfilters
59 zum Zeitpunkt j;
b
1:
die Koeffizienten der Faltungssequenz, wobei b
0 =
b
1 = ... = b
47 =
1.00.
-
Von den Ausgangswerten des Tiefpassfilters 59 wird
nur jeder 48. Wert vom Schalter 60 an die nachfolgende
Differenzierung 61 weitergegeben. Insgesamt ergibt sich
hier eine Datenreduktion auf 1/48 des Datenvolumens am Eingang durch
die Bildung eines Mittelwerts.
-
Im Differenzierer 61 wird
jeder eingehende Wert durch die Verzögerungseinheit 62 um
eine Zeiteinheit verzögert.
Die Verzögerungseinheit 62 kann
beispielsweise eine FIFO-Warteschlange
der Länge
1 sein.
-
Im Addierer 63 werden die
unverzögerten
Werte zu den invertierten, verzögerten
Werten addiert, so dass am Ausgang 64 die Werte der Differenzen
zwischen je zwei aufeinanderfolgenden Eingangswerten des Differenzierers 61 erscheinen.
Die Differenzen beziehen sich auf eine bestimmte, konstante und
bekannte Zeitverschiebung, welche durch die Zeiteinheiten gegeben
ist, und stellen daher eine Annäherung
an die Ableitung nach der Zeit dar.
-
Die Energiedifferenzwerte 64 werden
der normalisierten Quantisierung unterzogen. Einerseits wird gemäss 4 in der Absolutwerteinheit 65 der
absolute Wert der Energiedifferenzwerte gebildet. Diese Absolutwerte
werden einem Spitzenwertdetektor 66 zugeführt, an
dessen Ausgang 67 der grössere der an den Eingängen 68 anliegenden
Werte erscheint. Da das Ausgangssignal vom Ausgang 67 über eine
einstufige Verzögerungsschaltung 69 auf
einen der zwei Eingänge 68 zurückgeführt wird,
wird am Ausgang 67 der Maximalwert aller der Absolutwerteinheit 65 zugeführten Werte
gebildet. Die Maximalwerte gelangen zu einem weiteren Schalter 70,
der nur jeden 32. Wert durchlässt,
d. h. einen Wert, bei dem es sich um den grössten Wert innerhalb einer
Hörprobe
handelt (die in dieser Ausführung
verwendete Hörprobendauer
ergibt 32 Energiedifferenzwerte 64 pro Hörprobe in
jedem Frequenzband).
-
In einer Reziprokwert- und Multiplikationseinheit 71 wird
die Zahl 128 (= 27) durch den Maximalwert der
Hörprobe
dividiert, und das Resultat wird einem Eingang 72 eines
Multiplikators 73 zugeführt.
Dem anderen Eingang des Multiplikators 73 werden daraufhin
nacheinander die Energiedifferenzwerte 64 zugeführt, unter
welchen der Maximalwert bestimmt wurde. Zu diesem Zweck werden die
Differenzwerte 64 in einem FIFO-Puffer 75 zwischengespeichert.
Das Resultat der Multiplikation im Multiplikator 73, welches
zwischen –128
und +127 liegt, wird vom Konverter 76 in ganze Zahlen im
Bereich D zwischen 0 und 255 entsprechend einem Byte mit acht Bits
umgewandelt. Diese Zahlen werden als Adressen in einer Look-up-Tabelle
(LUT) 77 verwendet, in welcher jedem Eingangswert eine
Zahl im Bereich W = 0 bis 15 zugeordnet wird, d. h. eine vierstellige
Binärzahl.
Die in der LUT 77 durchgeführte diskrete Abbildung von
8-bit-Zahlen auf 4-bit-Zahlen ist nichtlinear und so ausgelegt,
dass die Auflösung
kleiner Zahlen am Eingang feiner ist als diejenige von grösseren Eingangswerten,
d. h. kleinere Eingangswerte werden stärker hervorgehoben. Dies kann
als nichtäquidistante
Quantisierung bezeichnet werden.
-
Die 4-Bit-Werte am Ausgang 78 werden
im Flash-Speicher 13 gespeichert (1).
-
Die beschriebene Einheit zur normalisierten,
nichtäquidistanten
Quantisierung und Kompression ist gemäss
-
3 für jedes
Band vorgesehen, womit sich pro Verarbeitungszyklus 4-Bit-Werte
für insgesamt
32 × 48 × 8 = 12'288 Werte ergeben,
welche von A/D-Konverter am Eingang 48 (2) aufgezeichnet werden. Bei einer Abtastrate
der A/D-Wandlung
von 3000 bis 5000 s–1, welche die zur Zeit
erhältlichen
A/D-Wandler mit dem niedrigsten Stromverbrauch liefern, ergibt sich
eine Hörprobendauer
von ungefähr
2,5 bis 4 Sekunden. Bei einer angenommenen Rate von einer Hörprobe pro
Minute beträgt
die notwendige Speicherkapazität
für die
Daten 32 × 4
= 768 Bit/min oder 1'105'920 Bit/d. Der erwähnte 8 Mbit-Speicher
gestattet somit einen ununterbrochenen Betrieb des Monitors während ungefähr sieben
Tagen.
-
Zur Reduktion der notwendigen Rechenleistung
werden alle erwähnten
Berechnungen mittels ganzzahliger oder Festpunktarithmetik durchgeführt, wenn
nichts anderes angegeben ist; insbesondere wird eine exponentielle
Darstellung von Fliesskommazahlen vermieden. Die für die Darstellung
einer Zahl verwendete Anzahl Bits hängt im wesentlichen vom verwendeten
Prozessor und von der in demselben zur Verfügung stehenden Datenlänge ab.
Die oben erwähnte
Prozessorfamilie TMS320C5x verwendet 16-Bit-Arithmetik. Der Binärpunkt für die Festpunktarithmetik wird
so gesetzt, dass die begrenzte Rechengenauigkeit in jedem Bearbeitungsschritt
optimal ausgenützt
wird, obwohl die Wahrscheinlichkeit eines Datenüberlaufs äusserst gering ist. Daher wird
der Binärpunkt
in den verschiedenen Verarbeitungsschritten unterschiedlich gesetzt.
Bei der bevorzugten Ausführung
der Auftrennung in Bänder
hat das geringstwertige Bit den Wert 2–16 für die Filterkoeffizienten
und den Wert 20 für die Datenwerte. Die Energieumwandlung
und -Filterung wird mit ganzzahliger 32-Bit-Arithmetik berechnet,
die als Funktion der Standardbibliothek abrufbar ist.
-
Vor der Speicherung im Flash-Speicher,
oder aber im Auswertungszentrum, können zudem übliche Kompressionsverfahren
zur Anwendung kommen, welche bei der Dekompression die Wiederherstellung
der ursprünglichen
Daten in identischer Form gestatten.
-
In Vorbereitung der Erkennung von
Programmteilen, welche möglicherweise
in den Hörproben
enthalten sind, werden möglichst
gleichzeitig Programmproben aufgenommen, beispielsweise direkt beim
Sender, und gespeichert. Vor dem Vergleich werden die Programmproben
vorzugsweise dem gleichen Verarbeitungs- und Kompressionsverfahren
wie die Hörproben
unterzogen. Dies kann vor der Speicherung geschehen oder erst beim
Lesen bzw. Abspielen der gespeicherten Programmproben.
-
Für
die Erkennung kann eines der üblichen
Korrelationsverfahren verwendet werden. Es ist ebenfalls möglich, zunächst eine
grobe Korrelation unter Verwendung einer schnellen Rechenmethode
anzuwenden und erst dann eine genauere und kompliziertere Korrelation
durchzuführen,
wenn eine hinreichende Wahrscheinlichkeit festgestellt wurde, dass
eine bestimmte Hörprobe
vorhanden ist. Insbesondere gestattet eine solche vorgängige grobe
Korrelation eine erste grobe Schätzung
einer vorhandenen minimalen Zeitverschiebung zwischen der Hörprobe und
der beim Sender aufgezeichneten Vergleichsprobe. Im komplexeren
Verfahren werden feinere Zeitverschiebungen analysiert, und es kommt
ein robusteres Vergleichsverfahren zur Anwendung, bei welchem die
statistische Verteilung des Programmsignals und von Störsignalen
berücksichtigt wird.
-
Im wesentlichen werden während der
Auswertung die gleichzeitig erfassten Proben jedes von jeweils einer
stationären
Einheit aufgezeichneten Programms mit den Hörproben jedes Monitors verglichen.
Ein beispielhaftes Vergleichsverfahren ist im folgenden Pseudocode
illustriert, der die Korrelation einer Hörprobe eines Monitors beschreibt:
-
In diesem Verfahren wird nur eines
der in AnzahlStationäreEinheiten' eingetragenen Radioprogramme in
der Hörprobe
eines Monitors bestimmt, und zwar dasjenige, welches die höchste Wahrscheinlichkeit
ergibt (Wert der Variable 'OptimumÜbereinstimmung').
-
Insbesondere wird die wahlweise,
eindeutig umkehrbare Kompression der erfindungsgemäss bearbeiteten
Proben rückgängig gemacht.
Darauf folgt die Initialisierung von 'OptimumÜbereinstimmung' auf dem niedrigsten
Wert, der gleichzeitig "keine Übereinstimmung" anzeigt, d. h. der
Träger
des Monitors hat keines der überwachten
Programme gehört.
-
Die gleichzeitig mit der gegenwärtigen Hörprobe aufgenommenen
Programmproben jeder stationären Einheit
(Schleife "For StationäreEinheit
:= 1 to AnzahlSationäreEinheiten
... EndDo) werden geladen und in derselben Weise wie die Hörprobe verarbeitet.
Auf Grund verbleibender kleiner Zeitverschiebungen zwischen den
Hörproben
und den Programmproben wird der nachfolgende Vergleich für eine bestimmte
Anzahl 'MaxZeitverschiebung' angenommener Zeitverschiebungen
durchgeführt
(Schleife "For Zeitverschiebung
:= 1 bis MaxZeitverschiebung ... Endfor"). Der Vergleich erfolgt mittels einer
Standardkorrelation der Programm- und Hörprobendaten, welche gemäss der Variable 'Zeitschritt' vorwärts oder
rückwärts gegeneinander
verschoben werden. Um stets eine volle Korrelation über alle
Werte der Hörprobe
zu ermöglichen,
werden die Programmproben deshalb jeweils während einer längeren Zeitdauer
aufgezeichnet, wobei der Beginn zusätzlich um die entsprechende
maximale Zeitverschiebung zeitlich vorgezogen wird. Dementsprechend
wird die Länge
der Programmprobe so gewählt,
dass die Hörprobe
auch dann noch ganz in der Programmprobe enthalten ist, wenn der
Beginn der Programmprobe und derjenige der Hörprobe maximal gegeneinander
verschoben sind.
-
Die normalisierte Korrelation erfolgt
gemäss
der folgenden Formel:
worin
t: Zeitverschiebungsindex
(= 'Zeitverschiebung' im Pseudocode);
N:
Anzahl korrelierter Werte, im allgemeinen gleich der Anzahl Werte
in einer Hörprobe;
i Zeitindex;
s
i: Wert der Hörprobe zum
Zeitpunkt i;
m
i_
t:
Wert der Programmprobe zum Zeitpunkt i, verschoben um t Zeitschritte;
c
t: Korrelationswert für die Zeitverschiebung t: –1 ≤ c
t ≤ 1.
-
Die ct-Werte
für unterschiedliche
t-Werte und Programmproben werden verglichen, und der insgesamt grösste ct-Wert wird zusammen mit den Angaben über die
Bedingungen, unter welchen er erhalten wurde, gespeichert. Diese
Angaben enthalten die Zeitverschiebung, die stationäre Einheit,
d. h. das Programm, sowie den Korrelationswert ct selbst.
-
Wenn der auf diese Weise bestimmte
grösste
ct-Wert grösser
ist als ein vorgegebener Schwellenwert, so wird angenommen, dass
das entsprechende Programm in der Hörprobe enthalten ist. Wenn
der Schwellenwert nicht erreicht wird, wird angenommen, dass keines
der Programme gehört
wurde.
-
Da die Korrelation durch den beträchtlichen
Umfang der Zeitverschiebungen (t bzw. 'Zeitverschiebung') entsprechend oft durchgeführt werden
muss, kann eine vereinfachte Alternative in Betracht gezogen werden,
bei welcher die Zeitabstände
mit einer gröberen
Abstufung behandelt werden. Für
die diejenigen ct-Werte, welche einen vorgegebenen Schwellenwert übersteigen,
wird die Korrelation mit einem genaueren Verfahren wiederholt, bei
welchem alle erfassten Zeitverschiebungen berücksichtigt werden,
-
Eine geeignete robuste Korrelation
ist
worin
r
t: "robuster" Korrelationswert;
a:
Skalierungsfaktor, der die Abschwächung des Programmsignals gegenüber der
Hörprobe
berücksichtigt;
die
weiteren Symbole entsprechen der Formel (3).
-
Somit werden in dem Verfahren im
wesentlichen Absolutwerte sowohl der Abweichungen zwischen der Hörprobe und
dem skalierten Programmsignal als auch des Hörprobensignals verwendet. Der
Skalierungsfaktor a wird iterativ derart bestimmt, dass der robuste
Korrelationswert rt minimal wird. Verglichen mit der normalen Korrelation
werden grosse Abweichungen in der robusten Korrelation weniger gewichtet,
wodurch die statistische Verteilung der Hörprobenwerte und der Programmsignalwerte
berücksichtigt
wird und eine bessere Erkennungsgenauigkeit für reale Signale erzielt wird
als beim normalen Korrelationswert ct. Insbesondere werden einzelne
Hörproben
mit grossen Abweichungen weniger gewichtet.
-
Versuche zeigen, dass das beschriebene
Verfahren nicht nur bekannte Störeffekte
wie Nebengeräusche
und Zeitverschiebungen beseitigt oder mindestens stark abschwächt, sondern
dass auch die Dämpfung (Lautsprecher, Übertragungsleitungen,
allgemeine akustische Bedingungen) und Hall wenig Einfluss auf die Erkennung
eines Programms haben. Besonders überraschend war die Feststellung,
dass das Programm in der Hörprobe
oft sogar dann bestimmt werden konnte, wenn das Programmelement
unhörbar
war. Die Unterdrückung
von Halleffekten wird insbesondere der Bildung eines zeitlichen
Mittelwerts (Falter 59) zugeschrieben, besonders wenn die
Zeitkonstante grösser
gewählt
wird als die in normalen Umgebungen anzutreffenden Hallzeiten. Eine
typisch frequenzabhängige
(akustische) Dämpfung
wird kompensiert durch die beschriebene geeignete Kombination einer
Auftrennung in Frequenzbänder,
einer Normalisierung auf den Maximalwert und der Berücksichtigung
der Dämpfung
durch den Skalierungsfaktor a bei der Berechnung von rt oder
durch die Berechnungsart von ct.
-
Abwandlungen des Ausführungsbeispiels
im Umfang der Erfindung sind für
den Fachmann ohne weiteres möglich.
-
Je nach der technologischen Entwicklung
können
andere Komponenten (Signalprozessoren, Speicher usw.) verwendet
werden. Alternativen sind insbesondere beim Flash-Speicher möglich, z.
B. batteriegestützte: CMOS-Speicher.
Die Kriterien, besonders für
tragbare Monitoren wie Armbanduhren, sind eine lange ununterbrochene Überwachungsdauer
und ein minimaler Energieverbrauch. Unter bestimmten Umständen ist
eine schnelle Verarbeitungseinheit mit höherer Leistungsaufnahme zu
bevorzugen, falls der gegenüber
einer langsameren Einheit höhere
Energieverbrauch mehr als kompensiert wird durch nur zeitweisen
Betrieb mit dazwischenliegenden inaktiven Pausen. Viele Komponenten
wie beispielsweise der TMS320C5xx bieten neben der vollständigen Abschaltung
auch spezielle Stromspar-Betriebsarten. Auch die Verringerung der
Taktfrequenz einer schnellen Einheit gestattet oft eine beträchtliche
Verringerung des Energieverbrauchs.
-
Je nach der verwendeten Technologie
kann eine unterschiedliche Genauigkeit bzw. Anzahl Stellen der binären Zahlen
zur Anwendung kommen. In Versuchen wurde mit 4-Bit-Endresultaten eine
genügend
sichere Programmerkennung erzielt. Es ist jedoch auch vorstellbar,
eine Reduktion auf 3 Bits vorzunehmen oder eine grössere Anzahl,
z. B. 6 Bits oder 8 Bits vorzusehen. Eine grössere Anzahl binärer Stellen
ist insbesondere dann möglich,
wenn kürzere
Tragezeiten in Kauf genommen werden oder wenn Speicher grösserer Kapazität verfügbar werden.
-
Dabei kann eine höhere Anzahl Stellen des Endresultats
auch eine Erhöhung
der Anzahl Stellen in den vorangehenden Schritten mindestens auf
die Anzahl Stellen des Endresultats erforderlich machen.
-
Meist können die genauen Werte für die nichtlineare
Abbildung durch die Tabelle 77 und die Schwellenwerte für die Gewichtung
der Korrelationswerte nur empirisch ermittelt werden. Obwohl eine
Funktion ähnlich
einer Logarithmisierung bevorzugt wird, sind auch andere Funktionen
möglich.
Umgekehrt ist es auch möglich,
die grösseren
Werte in D hervorzuheben und die kleinen Werte der Energiedifferenzen
zu unterdrücken.
-
Die Faktoren und die Anzahl Stellen
der Faltungen können
ebenfalls anders gewählt
werden, und bei der Auftrennung der Hörproben ist auch eine andere
Anzahl von Frequenzbändern
möglich.
Insbesondere kann für
veränderte
Abtastraten bei der A/D-Wandlung, andere Einstellungen bei der Hall- und/oder Dämpfungskompensation
oder eine veränderte
Hörprobendauer
der Tiefpass 59 angepasst werden, beispielsweise durch
eine andere Anzahl Stützstellen
bei der Faltung.
-
Es ist ebenfalls möglich, die
Analog-Digitalwandlung in einem späteren Stadium der Kompression durchzuführen, insbesondere
wenn die entsprechenden analogen Schaltungen hinsichtlich der Verarbeitungsgeschwindigkeit
oder des Platzbedarfs im Monitor vorteilhaft sind. Im Extremfall
könnte
die Digitalisierung erst unmittelbar vor der Speicherung im Speicher
erfolgen. Wenn es sich um ein analoges Signal handelt, ist der Begriff "digitaler Wert" in der Beschreibung
beispielsweise durch die Grösse
oder Amplitude des Signals zu ersetzen.
-
Bei der Korrelation ist es ebenfalls
möglich,
nur denjenigen Teil der Hörproben
zu verwenden, der mit der aktuellen Zeitverschiebung t immer noch
innerhalb der entsprechenden Hörprobe
liegt, beispielsweise wenn Programm- und Hörproben derselben Länge aufgezeichnet
werden.
-
Eine Alternative zum Tragesensor
wäre ein
handelsüblicher
Bewegungssensor. In einer bekannten Ausführungsform weist dieser einen
Kontakt auf, der bei Bewegung zwischen dem offenen und dem geschlossenen
Zustand wechselt, jedoch im Stillstand in einem der beiden Zustände verbleibt.
-
Glossar
-
Flash-RAM RAM (siehe dort), welches
Daten auch bei Stromausfall speichert, jedoch ein schnelleres Speichern
und einfacheres Löschen
als klassische nichtflüchtige
Speicher (PROM/EPROM) gestattet.
RAM Lesen-Schreiben-Speicher
Zeitindex
Nummer eines digitalen Werts in der Folge von Werten, die vom Digitalisierer
(A/D-Wandler) ausgegeben werden, meistens in bezug auf den Anfang
einer Hörprobe,
deren Bezugswert den Zeitindex 0 hat.