DE60208706T2

DE60208706T2 - Einbetten von zusatzdaten in einem informationssignal

Info

Publication number: DE60208706T2
Application number: DE60208706T
Authority: DE
Inventors: Minne Van Der Veen; A. Alphons BRUEKERS
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-11-16
Filing date: 2002-10-24
Publication date: 2006-10-05
Anticipated expiration: 2022-10-25
Also published as: ATE315822T1; BR0206444A; EP1449204A1; US7561688B2; KR20040058289A; EP1449204B1; CN1308912C; JP2005509907A; CN1585971A; WO2003042978A1; JP4474161B2; ES2255626T3; DE60208706D1; US20050025314A1

Description

Diese Erfindung betrifft ein Verfahren zum Abstimmen eines Zusatzdatensignals (wm(n)), das in ein Informationssignal (x(n)) eingebettet werden soll, wobei das Verfahren die folgenden Schritte umfasst:

– Bestimmen einer relativen Größe (g(n)) einer ersten Eigenschaftsfunktion (M_x(n)) des Informationssignals, die über einen Bereich mit einer vorbestimmten Größe (N) gemittelt ist, und einer zweiten Eigenschaft (M_wm(n)) des Zusatzdatensignals, die über diesen Bereich gemittelt ist;
– Abstimmen des Zusatzdatensignals gemäß der bestimmten relativen Größe.

Die Erfindung betrifft auch eine Anordnung zur Anwendung eines derartigen Verfahrens.
Ein derartiges Verfahren und eine derartige Vorrichtung sind in US-A-5,940,429 offenbart.
In den letzten Jahren hat ein steigender Trend zur Verwendung und Verteilung von digitalen Multimediadaten zu einem vermehrten Bedarf an einem angemessenen Kopierschutz, Urheberrechtsschutz und Eigentumsnachweis derartiger Daten geführt.
Die digitale Wasserzeichenmarkierung ist eine aufstrebende Technologie, die für eine Vielfalt von Zwecken wie etwa den Beweis des Urheberrechtseigentums, das Aufspüren illegaler Kopien, das Steuern von Kopierkontrolleinrichtungen, die Ausstrahlungsüberwachung, den Authentizitätsnachweis, das Hinzufügen von Hilfsdaten in Multimediasignale usw. verwendet werden kann.
Ein Wasserzeichen umfasst Zusatzdaten, die durch geringfügiges Abwandeln von Abtastwerten des Signals in ein Informationssignal eingebettet sind. Vorzugsweise sollte ein Wasserzeichenmarkierungsschema so gestaltet sein, dass das Wasserzeichen nicht wahrnehmbar ist, d.h., dass es die Qualität des Informationssignals nicht deutlich beeinflusst.
Auf dem Gebiet der Wasserzeichenmarkierung von Audiosignalen ist eine Anzahl von Einbettungsalgorithmen bekannt. Zum Beispiel werden Koeffizienten eines digitalen Audiosignals in Algorithmen, die auf Transformationen beruhen, von einer Zeit domäne in eine Frequenzdomäne umgeformt, werden die Koeffizienten des umgeformten Signals entsprechend einem Zusatzdatensignal abgewandelt, und werden die abgewandelten Koeffizienten in die Zeitdomäne zurück umgewandelt. Ein allgemeines Problem der bekannten Ansätze ist ihr Mangel an Auflösung in der zeitlichen Domäne. Folglich kann sich das Zusatzdatensignal in der Zeit ausbreiten und kann es wahrnehmbare Verzerrungen einbringen.
In "Robust audio watermarking using perceptual masking" von M. D. Swanson et al. (Signal Processing 66 (1998) 337–355) ist ein Verfahren offenbart, bei dem durch Modellieren der Hüllkurve des Wirtsaudiosignals eine zeitliche Verstärkungsfunktion berechnet wird. Die geschätzte Hüllkurve des Audiosignals steigt mit dem Audiosignal und nimmt exponentiell ab. Die geschätzte Hüllkurve wird vor dessen Einbettung auf das Zusatzdatensignal vervielfältigt, wodurch das Zusatzdatensignal eines Audiosegments geformt wird.
Dieses Verfahren des Standes der Technik umfasst jedoch das Problem, dass es zu einer unnotwendigen Verringerung der Energie der eingebetteten Daten führen kann.
Das in US-A-5,940,429 beschriebene Verfahren überwindet dieses Problem durch Abstimmen des Pegels des Zusatzdatensignals gemäß den Veränderungen im Pegel des Informationssignals, so dass ein vorbestimmtes Verhältnis zwischen diesen Pegeln aufrechterhalten wird.
Die wie in Anspruch 1 beanspruchte Erfindung zielt darauf ab, die bekannten Verfahren durch Unterdrücken des Auftretens sogenannter Vor- und Nach-Echos des Zusatzdatensignals, das die wie durch das menschliche Ohr wahrgenommene Qualität des Informationssignals deutlich verringern kann, zu verbessern.
Das obige Problem wird durch ein Verfahren zum Abstimmen von Zusatzdaten des oben erwähnten Typs gelöst, das dadurch gekennzeichnet ist, dass der Schritt des Abstimmens des Zusatzdatensignals gemäß der bestimmten relativen Größe die folgenden Schritte umfasst:

– Verzögern des Zusatzdatensignals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem verzögerten Signal führt;
– Abstimmen des verzögerten Signals gemäß dem bestimmten Verhältnis, was zu einem ersten verzögerten abgestimmten Signal führt;
– Abstimmen des Zusatzdatensignals gemäß dem bestimmen Verhältnis, was zu einem abgestimmten Signal führt;
– Verzögern des abgestimmten Signals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem zweiten verzögerten abgestimmten Signal führt; und
– Kombinieren des ersten und des zweiten verzögerten abgestimmten Signals.

Nach einer bevorzugten Ausführungsform der Erfindung ist die erste Eigenschaft eine lokale Energiefunktion des Informationssignals und die zweite Eigenschaft eine lokale Energiefunktion des Zusatzdatensignals. Folglich werden die lokalen Energien des Audiosignals und des Zusatzdatensignals direkt berechnet und verglichen. Das Zusatzdatensignal wird abgeschwächt, wo seine Energie die Energie des Informationssignals überschreitet, und überall sonst verstärkt. Daher kann ein hoher Grad an Wasserzeichenmarkierungsenergie eingebettet werden, was zu einer verbesserten Leistung hinsichtlich der Feststellergebnisse gegenüber der Wahrnehmungsqualität führt.
Wenn die erste Eigenschaft eine lokale Größe des Informationssignals ist, und die zweite Eigenschaftsfunktion eine lokale Größe des Zusatzdatensignals ist, wird ein rechnerisch billiges Verfahren zum Abstimmen des Zusatzdatensignals erreicht, das rechnerisch teure Vorgänge wie etwa Quadrieren und Berechnen einer Quadratwurzel vermeidet.
In manchen Fällen kann die bestimmte relative Größe ein unerwünschtes Verhalten aufweisen. Sie kann zum Beispiel sehr groß werden, sich rasch in der Amplitude verändern, usw.
Wenn der Schritt des Abstimmens des Zusatzdatensignals gemäß der bestimmten relativen Größe ferner den Schritt des Begrenzens der Amplitude der relativen Größe auf einen vorbestimmten Höchstwert umfasst, wird eine unerwünschte starke Verstärkung des Zusatzdatensignals vermieden.
Wenn der Schritt des Abstimmens des Zusatzdatensignals den Schritt des Anwendens eines Tiefpassfilters auf die bestimmte relative Größe aufweist, werden rasche Veränderungen in der Amplitude verringert.
In noch einer weiteren bevorzugten Ausführungsform der Erfindung umfasst der Schritt des Bestimmens einer relativen Größe ferner die folgenden Schritte:

– Berechnen einer dritten Eigenschaftsfunktion;
– Verzögern der dritten Eigenschaftsfunktion, um eine verzögerte Eigenschaftsfunktion zu erhalten; und
– Kombinieren der dritten Eigenschaftsfunktion mit der verzögerten Eigenschaftsfunktion, um die zweite Eigenschaftsfunktion zu erhalten.

Folglich wird eine weiter verbesserte Unterdrückung jener Wirkungen erzielt, die durch die Verzögerung von Veränderungen in der relativen Größe der gemittelten Eigenschaftsfunktionen im Vergleich zu den Signalen, insbesondere in Übergangsbereichen, in denen sich das Informationssignal rasch verändert, verursacht werden.
Die Erfindung betrifft ferner eine Anordnung des oben erwähnten Typs, die gekennzeichnet ist durch

– ein Mittel zum Verzögern des Zusatzdatensignals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem verzögerten Signal führt;
– ein Mittel zum Abstimmen des verzögerten Signals gemäß dem bestimmten Verhältnis, was zu einem ersten verzögerten abgestimmten Signal führt;
– ein Mittel zum Abstimmen des Zusatzdatensignals gemäß dem bestimmten Verhältnis, was zu einem abgestimmten Signal führt;
– ein Mittel zum Verzögern des abgestimmten Signals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem zweiten verzögerten abgestimmten Signal führt; und
– ein Mittel zum Kombinieren des ersten und des zweiten verzögerten abgestimmten Signals.

Die Erfindung betrifft ferner eine Vorrichtung zum Einbetten eines Zusatzdatensignals in ein Informationssignal, wobei die Vorrichtung eine Anordnung des vorerwähnten Typs umfasst.
Die Erfindung betrifft ferner ein Informationssignal, in das ein Zusatzdatensignal eingebettet ist, wobei das Zusatzdatensignal durch das Verfahren der Erfindung abgestimmt wurde.
Das Informationssignal kann als ein Kommunikationssignal in einem Kommunikationsnetz wie etwa einem Intranet, Extranet, Internet, einem lokalen Netz, einem drahtlosen oder verdrahteten Netz usw. verkörpert sein.
Das Informationssignal kann ferner auf einem Speichermedium gespeichert sein. Der Ausdruck "Speichermedium" kann ein Magnetband, eine optische Scheibe, eine digitale Videoscheibe (DVD), eine Compact Disc (CD oder CD-ROM), eine Minidisc, eine Festplatte, eine Floppy-Disk, einen ferroelektrischen Speicher, einen elektrisch löschbaren programmierbaren Nurlesespeicher (EEPROM), einen Flash-Speicher, einen EPROM, einen Nurlesespeicher (ROM), einen statischen Direktzugriffsspeicher (DRAM), einen synchronen statischen Direktzugriffsspeicher (SDRAM), einen ferromagnetischen Speicher, einen optischen Speicher, ladungsgekoppelte Vorrichtungen, Smartcards, eine PCMCIA-Karte, usw. beinhalten.
Diese und andere Aspekte der Erfindung werden aus den Ausführungsformen offensichtlich werden und unter Bezugnahme auf die Ausführungsformen und unter Bezugnahme auf die Zeichnungen erklärt werden, wobei
1 eine schematische Ansicht einer Anordnung zum Einbetten eines Wasserzeichens in ein Informationssignal nach einer Ausführungsform der Erfindung zeigt;
2 die Wirkung von Vor- und Nach-Echo-Verzerrungen in Verbindung mit einem Zusatzdatensignal veranschaulicht, das in ein Wirtsaudiosignal mit starken und plötzlichen Amplitudenveränderungen eingebettet ist;
3 ein Ablaufdiagramm eines Verfahrens nach einer Ausführungsform der Erfindung zeigt;
4 ein schematisches Diagramm einer Anordnung zum Abstimmen eines Zusatzdatensignals nach einer Ausführungsform der Erfindung zeigt;
5a bis 5d den Einfluss des Verzögerns des Zusatzdatensignals nach einer Ausführungsform der Erfindung veranschaulichen;
6 ein schematisches Diagramm einer Anordnung zum Abstimmen eines Zusatzdatensignals nach einer anderen Ausführungsform der Erfindung zeigt; und
7a bis b zwei Ausführungsformen von Anordnungen zum Ausführen der Filterfunktion E(n) nach der Erfindung veranschaulichen.
1 zeigt eine schematische Ansicht einer Anordnung zum Einbetten eines Wasserzeichens in ein Informationssignal nach einer Ausführungsform der Erfindung. Die Anordnung umfasst ein Schaltsystem 101, das dazu geeignet ist, das Wirtsaudiosignal x(n) in Rahmen x_i(n) zu unterteilen, und ein Schaltsystem 102, das dazu geeignet ist, die Rahmen z.B. durch Anwenden einer schnellen Fourier-Transformation (FFT) in die Fourier-Domäne umzuwandeln, was zu Fourier-Koeffizienten X_i(k) führt. Die Anordnung umfasst ferner eine Multiplikatorschaltung 103, die dazu geeignet ist, die Fourier-Koeffizienten F_i(k) jedes Rahmens gemäß einer Wasserzeichenreihe W(k) geringfügig abzuwandeln, was die Wasserzeichenabtastwerte X_i(k)·W(k) ergibt. Die Wasserzeichenreihe W(k) kann eine pseudozufällige Folge, z.B. eine normal verteilte pseudozufällige Folge mit "Null" mittlerer und "Eins" Standardabweichung, sein. Die Anordnung umfasst ferner ein Schaltsystem 104, das dazu geeignet ist, die wasserzeichenmarkierten Abtastwerte X_i(k)·W(k) z.B. durch Anwenden einer inversen schnellen Fourier-Transformation (IFFT) in die zeitliche Domäne umzuwandeln. Anschließend werden die Wasserzeichensegmente durch ein Schaltsystem 105 verkettet, um ein zurückgebildetes Wasserzeichensignal wm(n) zu erhalten, das durch die Multiplikatorschaltung 106 mit einer Gesamteinbettungsstärke s multipliziert wird. Die Anordnung umfasst ferner ein Schaltsystem 107, das dazu geeignet ist, eine zeitliche Verstärkungsfunktion g(n) zu berechnen, die durch die Multiplikatorschaltung 108 mit dem skalierten Wasserzeichensignal s·wm(n) multipliziert wird. Schließlich wird das skalierte Wasserzeichensignal s·g(n)·wm(n) durch die Addierschaltung 109 zum Wirtsaudiosignal x(n) hinzugefügt, was zum Wasserzeichenaudiosignal y(n) = x(n) + s·g(n)·wm(n) führt.
Es wird bemerkt, dass die Multiplikation in der Frequenzdomäne, W(k)·X_i(k), einer zyklischen Faltung in der Zeitdomäne entspricht. Daher kann das Wasserzeichensignal in jedem beliebigen gegebenen Rahmen i als wm_i(n) = w(n) – x_i(n) ausgedrückt werden, wobei w(n) ein entsprechendes Wasserzeichensignal in der zeitlichen Domäne ist.
Doch während des Schritts des Zurückwandelns eines Wasserzeichenrahmens durch das Schaltsystem 104 in die zeitliche Domäne kann sich Waserzeichenenergie über den gesamten Rahmen ausbreiten. Diese Wirkung kann wahrnehmbare Verzerrungen verursachen, insbesondere unter Vorhandensein von starken und plötzlichen Amplitudenveränderungen, wie in Verbindung mit 2a bis b veranschaulicht werden wird. Durch ein Multiplizieren des wasserzeichenmarkierten Signals mit einer geeignet gewählten Verstärkungsfunktion g(n) können die zeitlichen Eigenschaften des Audiowasserzeichens verbessert werden. Ein Verfahren zum Berechnen einer derartigen Verstärkungsfunktion nach der Erfindung wird nachstehend beschrieben werden.
Es versteht sich, dass anstatt einer schnellen Fourier-Transformation andere Arten von mathematischen Transformationen eingesetzt werden können. Beispiele für derartige Transformationen beinhalten diskrete Fourier-Transformationen (DFT), diskrete Kosinus-Transformationen (DCT), Wavelet-Transformationen, usw.
Es versteht sich ferner, dass andere Einbettungsschemata eingesetzt werden können. Zum Beispiel kann ein FIR-Wasserzeichenfilter, das eine lineare Faltung berechnet, zum Berechnen wasserzeichenmarkierter Audiosignale verwendet werden. Im Gegensatz zu Algorithmen, die auf Transformationen beruhen, umfasst die Berechnung einer linearen Faltung keine Unterteilung des Wirtssignals x(n). Nach dieser Ausführungsform wird das wasserzeichenmarkierte Audiosignal nach der Gleichung y(n) = x(n) + s·g(n)·x(n) ⊙ w(n) berechnet, wobei das Symbol ⊙ eine lineare Faltung bezeichnet, d.h., x(n) ⊙ w(n) = Σ_mx(m)w(n – m).
Ähnlich den auf Transformationen beruhenden Algorithmen wie dem oben beschriebenen kann ein Einbettungsansatz, der auf einer linearen Faltung beruht, an einer begrenzten zeitlichen Auflösung und wahrnehmbaren Verzerrungen leiden.
2a bis b veranschaulichen die Wirkung von Vor- und Nach-Echo-Verzerrungen in Verbindung mit einem Zusatzdatensignal, das in ein Wirtsaudiosignal mit starken und plötzlichen Amplitudenveränderungen eingebettet ist. 2a veranschaulicht ein Beispiel eines Wirtsaudiosignals, wobei die normalisierte Amplitude A als eine Funktion der Zeit t dargestellt ist. Das Audiosignal im Beispiel von 2a stellt ein kurzes Segment eines Audioauszugs mit Kastagnetten dar, das starke und plötzliche Amplitudenveränderungen 201 und 202 umfasst. Derartige Amplitudenveränderungen werden auch als "Angriffe" oder "Übergänge" bezeichnet.
2b veranschaulicht ein Wasserzeichensignal, das nach dem in Verbindung mit 1 beschriebenen Verfahren, aber ohne die Verwendung einer zeitlichen Verstärkungsfunktion, aus dem Wirtssignal in 2a berechnet wurde. Wie aus 2b ersichtlich ist, ist das Wasserzeichensignal um die Stellen 207 und 208 der Angriffe 201 bzw. 202 über eine Breite verwischt, die einem Analyserahmen entspricht. Die Breite eines Analysefensters ist durch die waagerechten Linien 209 bis 210 für die Angriffsstelle 207 bzw. 211 bis 212 für die Angriffsstelle 208 angegeben. 2b veranschaulicht ferner, dass die Verzerrungen sowohl vor den Angriffsstellen, d.h., in den Bereichen 203 bzw. 205, als auch nach den Angriffsstellen, d.h., in den Bereichen 210 bzw. 212 eingebracht sind. Diese Verzerrungen können wahrnehmbare Vor-Echo- bzw. Nach-Echo-Verzerrungen verursachen. Aus 2a bis b kann somit erkannt werden, dass die durch das Wasserzeichensignal eingebrachten Wahrnehmungsverzerrungen unter Anwesenheit von Angriffen besonders ausgeprägt sind.
Es ist ein Vorteil der Erfindung, das sie ein schnelles und rechnerisch billiges Verfahren zum Beseitigen von Wahrnehmungsverzerrungen in Verbindung mit starken und plötzlichen Amplitudenveränderungen bereitstellt, ohne dass es nötig ist, die Stellen derartiger Veränderungen zu bestimmen. Folglich werden mögliche Verzerrungen, die durch ein Versagen des Feststellens eines Angriffs verursacht werden, verringert.
3 zeigt ein Ablaufdiagramm eines Verfahrens, das eine zeitliche Verstärkungsfunktion zum Abstimmen eines Wasserzeichensignals nach einer Ausführungs form der Erfindung berechnet. Nach dieser Ausführungsform wird angenommen, dass auf der Basis des Wirtsaudiosignals x(n) ein Zeitdomänen-Wasserzeichensignal wm(n) z.B. nach einem der Verfahren, die in Verbindung mit 1 beschrieben sind, erzeugt wurde. In Schritt 301 wird eine bewegliche Energie des Zusatzdatensignals gemäß
berechnet.
Hier ist E(n) eine rechteckige Fensterfunktion mit der Amplitude 1 und der Länge N, d.h., E(n) = 1 für 0 ≤ n < N, und E(n) = 0 überall sonst. Vorzugsweise wird N so gewählt, dass es beträchtlich kleiner als die Länge der Rahmen im auf Rahmen beruhenden Einbettungsschema oder die Größe des Filters in einem auf einer finiten Impulsantwort beruhenden Schema, wie in Verbindung mit 1 beschrieben, ist. Wenn N sehr klein gewählt wird, wird die Verstärkungsfunktion beträchtlich schwanken, wodurch Rauschen in das Signal eingebracht wird. Wenn N groß gewählt wird, d.h. in der Größenordnung der Rahmenlänge, wird sich die zeitliche Verstärkungsfunktion nur langsam verändern, wodurch die Leistungsfähigkeit des Unterdrückens von Verzerrungen in Verbindung mit starken und plötzlichen Amplitudenveränderungen verringert wird. In einer Ausführungsform der Erfindung kann N so gewählt werden, dass es ungefähr 7 msek entspricht. In einem Beispiel eines 44,1-kHz-Audios mit einem Wasserzeichenfilter von einer Länge von 2048 Abtastwerten entspricht dies ungefähr 301 Abtastwerten. Es sollte jedoch bemerkt werden, dass dies nur ein Beispiel ist, und dass andere Werte, die von 1 bis 20 msek oder sogar mehr reichen, ebenfalls verwendet werden können.
In der gleichen Weise wird in Schritt 302 eine bewegliche Energie des Zusatzdatensignals gemäß
berechnet.
In Schritt 303 wird die Verstärkungsfunktion als das Verhältnis der berechneten Energiesignale berechnet:
Hier wird ein kleiner Parameter ε zum Nenner hinzugefügt, um eine mögliche Division durch Null zu verhindern. Vorzugsweise wird ε so gewählt, dass es eine kleine positive Zahl ist, d.h., 0 < ε << 1. Zum Beispiel kann ε zwischen 0,001 und 0,1 gewählt werden. Doch andere Werte sind ebenfalls möglich.
Der Wert für q(n) gibt an, wie stark das eingebettete Wasserzeichensignal im Vergleich zum Wirtssignal ist. Werte für q(n) von kleiner als 1 geben an, dass die lokale Energie des Wasserzeichens die lokale Energie des Wirtssignals überschreitet. Folglich wird das Wasserzeichensignal an diesen Stellen durch Multiplizieren des Wasserzeichensignals mit q(n) abgeschwächt. Werte für q(n) von größer als 1 geben an, dass die Wasserzeichenenergie kleiner als das Wirtssignal ist. Folglich wird das Wasserzeichensignal an diesen Stellen durch Multiplizieren mit q(n) verstärkt, während die Wahrnehmungsqualität aufrechterhalten wird.
Es sollte ferner bemerkt werden, dass der Faktor 1/N in den obigen Gleichungen in der Berechnung von M_x(n) und M_wm(n) weggelassen werden kann. Wenn ein Verhältnis von M_x(n) und M_wm(n) berechnet wird, löschen sich diese Faktoren beinahe aus und weisen sie keinen bedeutenden Einfluss auf das Ergebnis auf.
Es sollte bemerkt werden, dass die Schritte 301 und 302 nicht in der angegebenen Reihenfolge durchgeführt werden müssen. Alternativ kann der Schritt 302 vor dem Schritt 301 durchgeführt werden, oder vorzugsweise können die Schritte 301 und 302 parallel durchgeführt werden.
Es sollte ferner bemerkt werden, dass anstelle der Signalenergie andere Eigenschaftsfunktionen, die lokale Eigenschaften eines Signals messen, verwendet werden können. Zum Beispiel kann eine monotone Funktion der Energie verwendet werden, z.B. eine Leistung der Energie wie etwa die Quadratwurzel der Energie, was dem Verwenden der Größen [M_x(n)]^p und [M_wm(n)]^p, p > 0, z.B. p = 1/2, entspricht. Nach einer anderen Ausführungsform der Erfindung können die absoluten Werte der Signale x(n) bzw. wm(n) verwendet werden. Daher werden anstelle von M_x(n) bzw. M_wm(n) die Funktionen
berechnet. Es ist ein Vorteil dieser Ausführungsform, dass sie nur wenig rechnerische Betriebsmittel benötigt, da sie keine Quadrierungstätigkeit umfasst.
Wie oben kann alternativ z.B. durch Weglassen des Faktors 1/N, Quadrieren der Größen, Ziehen einer Quadratwurzel, oder dergleichen eine monotone Funktion der obigen Größen M'_x(n) und M'_wm(n) verwendet werden.
Es sollte ferner bemerkt werden, dass alternativ zum Wählen eines rechteckigen Fensters in den Berechnungen der obigen Durchschnitte andere Fensterfunktionen verwendet werden können, die einem gewichteten Durchschnitt entsprechen, wobei zum Beispiel jüngere Signalwerte stufenweise stärker als ferne Werte gewichtet werden.
Es sollte schließlich bemerkt werden, dass anstelle des obigen Verhältnisses andere Funktionen verwendet werden können, die die relative Größe der obigen lokalen Energien angeben, zum Beispiel jede beliebige monotone Funktion des obigen Verhältnisses, oder ein geregeltes Verhältnis, wie in Verbindung mit 4 beschrieben werden wird.
4 zeigt ein schematisches Diagramm einer Anordnung zum Abstimmen eines Wasserzeichensignals nach einer Ausführungsform der Erfindung. In 4 wird angenommen, dass auf der Basis des Wirtsaudiosignals x(n) ein Zeitdomänen-Wasserzeichensignal wm(n) z.B. nach einem der Verfahren, die in Verbindung mit 1 beschrieben sind, erzeugt wurde. Die Anordnung umfasst eine Schaltung 107, die dazu geeignet ist, die zeitliche Verstärkungsfunktion zu berechnen. Nach dieser Ausführungsform der Erfindung umfasst die Schaltung 107 Schaltungen 401 bis 402, die dazu geeignet sind, die beweglichen Energien M_wm(N) des Wasserzeichensignals bzw. M_x(n) des Wirtssignals zu berechnen, wie in Verbindung mit 3 beschrieben wurde. In einer Schaltung 403 wird eine anfängliche Verstärkungsfunktion q(n) als ein Verhältnis des Wirtssignals und des Wasserzeichensignals berechnet, wie in Verbindung mit 3 beschrieben wurde. Die Anordnung kann ferner eine Regelungsschaltung 404 umfassen, die sicherstellt, dass die zeitliche Verstärkungsfunktion einen vorbestimmten Schwellenwert g_max nicht überschreitet. Das heißt, die Regelungsschaltung 404 führt den folgenden Vorgang aus:
was zur geregelten Verstärkungsfunktion g(n) führt. Der Schwellenwert kann, zum Beispiel, als 1 gewählt werden, wenn keine Verstärkung des Wasserzeichensignals gewünscht ist. Die Werte g_max > 1 entsprechen einer höchsten erlaubten Verstärkung des Signals.
Alternativ oder zusätzlich kann die Schaltung 404 dazu geeignet sein, andere Regelungsvorgänge durchzuführen, um sicherzustellen, dass die zeitliche Verstärkungsfunktion bestimmte Bedingungen erfüllt. Als ein Beispiel stellt das Anwenden eines Tiefpassfilters sicher, dass die zeitliche Verstärkungsfunktion nicht rasch in der Amplitude schwankt.
Es wird bemerkt, dass der in Verbindung mit 3 besprochene Parameter ε der höchsten Amplitude der Funktion q(n) auch eine bestimmte Beschränkung auferlegt.
Die Anordnung kann ferner eine Verzögerungsschaltung 405 umfassen, die dazu geeignet ist, das Wasserzeichensignal wm(n) um einen vorbestimmten Verzögerungswert zu verzögern, um die Verzögerung auszugleichen, die durch die Berechnung der beweglichen Energien in den Schaltungen 401 bis 402 eingebracht wurde. Bevorzugte Auswahlen des Verzögerungswerts werden in Verbindung mit 5a bis d besprochen werden. Das Gesamtgewicht des Wasserzeichens wird durch Multiplizieren des Wasserzeichensignals wm(n) mit einer gesamten Einbettungsstärke s durch die Schaltung 406 bestimmt, wie in Verbindung mit 1 beschrieben wurde. Die geregelte Verstärkungsfunktion g(n) wird durch eine Multiplikatorschaltung 407 mit dem verzögerten und skalierten Wasserzeichensignal multipliziert. Schließlich wird das Wasserzeichen durch die Addierschaltung 409 zum Wirtssignal x(n) hinzugefügt, was zum wasserzeichenmarkierten Signal y(n) führt. Die Anordnung umfasst ferner eine Verzögerungsschaltung 408, die dazu geeignet ist, das Wirtssignal vor der Addierschaltung 409 zu verzögern, was den durch die Verzögerungsschaltung 405 und die Berechnung von g(n) eingebrachten Verzögerungen entspricht.
5a bis d veranschaulichen den Einfluss des Verzögerungselements 405 auf die Eigenschaften der zeitlichen Verstärkungsfunktion. Im Allgemeinen bringt ein Linearphasen-FIR-Filter mit N Koeffizienten eine Verzögerung ein, die (N – 1)/2 entspricht, wobei N als ungerade angenommen wird. Folglich bringt die Berechnung der beweglichen Energie eine entsprechende Verzögerung ein. Dies ist in 5a bis d veranschaulicht, wo ein vereinfachtes Beispiel eines Wasserzeichensignals gezeigt ist. Die gestrichelte Linie 502 veranschaulicht die Hüllkurve der Energie eines vereinfachten Wasserzeichensignals, das in 5a bis d als von einem Audiowirtssignal mit einem starken Angriff an der Position c stammend angenommen wird. Im Beispiel von 5a bis d wird angenommen, dass ein synthetisches Audiowirtssignal eine Deltaspitze 501 an der Position c aufweist, was zu einem rechteckigen Wasserzeichensignal 502 führt. In 5a ist das entsprechen de berechnete Wasserzeichenenergiesignal M_wm(n) als eine durchgehende Linie 503 veranschaulicht. Wie aus 5a ersichtlich ist, steigt das gemittelte Energiesignal über den Abstand zwischen den Positionen a und b, der dem Abstand von N Signalabtastwerten entspricht, über den die Energie gemittelt wird, allmählich an. Folglich nimmt die gemittelte Signalenergie über den Abstand zwischen den Positionen d und e allmählich ab. In 5a wird angenommen, dass durch das Verzögerungselement 505 keine Verzögerung eingebracht wird. Daher entsprechen die Eigenschaften der durchgehenden Linie 503 den Eigenschaften der lokalen Durchschnittsfunktion M_wm(n), die in Bezug auf das Eingangssignal wm(n) verzögert ist. Diese Verzögerung kann zu unerwünschten Eigenschaften in der Übergangszone zwischen den Punkten a und b führen, wo die Hüllkurve des Wasserzeichensignals während M_wm(n) abrupt ansteigt. Folglich nimmt die sich ergebende anfängliche Verstärkungsfunktion q(n) im Abstand zwischen a und b nur allmählich ab, was zu einer unangemessenen Unterdrückung des Vor-Echo-Signals führt. Das Nach-Echo-Signal andererseits wird ausreichend unterdrückt, auch im Übergangsbereich zwischen d und e.
5b veranschaulicht die Wirkung der Verstärkungsfunktion q(n), wenn das Wasserzeichensignal wm(n) 502 durch eine Verzögerung (N – 1)/2, d.h. der halben Länge des Mittelungsabstands entsprechend, verzögert ist. Wie aus 5b ersichtlich ist, führt diese Verzögerung zu einer verbesserten Unterdrückung der Vor-Echo-Verzerrungen, während nun die Nach-Echo-Verzerrungen im Bereich zwischen d und e nur teilweise unterdrückt sind.
In 5c ist das Wasserzeichensignal durch (N – 1) Abtastwerte verzögert, was der Länge des Mittelungsfensters entspricht. Diese Verzögerung stellt sicher, daß Vor-Echo-Verzerrungen über den gesamten Bereich zwischen b und c ausgelöscht werden. Nach dieser Ausführungsform werden die Nach-Echo-Verzerrungen im Bereich zwischen d und e nicht leistungsfähig unterdrückt. Doch dies mag die Wahrnehmungsqualität des Signals nicht deutlich verringern, da das menschliche Hörsystem Vor-Echos gegenüber beträchtlich empfindlicher ist, als Nach-Echos gegenüber (siehe E. Zwicker und H. Fastl "Psychoacoustics, Facts and Models", Springer, Berlin, Heidelberg, 1990). Folglich führt die Wahl einer Verzögerung, die der Länge des Mittelungsfensters entspricht, ohne zusätzliche rechnerische Komplexität zu einer verbesserten Leistung hinsichtlich der Feststellergebnisse in Bezug auf die Wahrnehmungsqualität.
Der Mangel an einer völligen Nach-Echo-Unerdrückung der Ausführungsform nach 5c kann durch eine Kombination der in 5a und 5b veranschaulichten Ansätze gelöst werden. Diese Ausführungsform ist in 5d veranschaulicht, wo sowohl die Vor-Echo- als auch die Nach-Echo-Verzerrungen unterdrückt sind. In einer Ausführungsform der Erfindung kann diese Kombination durch eine wie in 6 veranschaulichte Anordnung erreicht werden.
Es sollte bemerkt werden, dass andere Werte der Verzögerung als die oben besprochenen Beispiele verwendet werden können, zum Beispiel Verzögerungswerte zwischen (N – 1)/2 und (N – 1). Zum Beispiel kann anstelle von N – 1 eine andere Verzögerung verwendet werden, die der Länge N des Abstands, der zur Mittelung verwendet wird, gleich ist oder geringfügig davon abweicht. Als ein Beispiel kann anstelle von N – 1 ein Verzögerungswert von N + 1, N – 3, N + 3, N – 5, N + 5, oder dergleichen verwendet werden. Doch wenn die Verzögerung als beträchtlich größer als N gewählt wird, werden die Nach-Echo-Wirkungen zunehmend hörbar, ohne dass die Vor-Echo-Unterdrückung weiter verbessert wird. Eine ähnliche Überlegung gilt für die Verzögerung (N – 1)/2. Einem Fachmann wird überdies offensichtlich sein, dass die obigen Verzögerungen (N – 1)/2 und (N – 1) durch N/2 bzw. N ersetzt werden können, wenn N gerade ist.
6 zeigt eine schematische Ansicht einer Anordnung nach einer Ausführungsform der Erfindung, die die in Verbindung mit 5d beschriebenen kombinierten Verzögerungen ausführt. Die Anordnung umfasst ein Element 107, das dazu geeignet ist, die zeitliche Verstärkungsfunktion wie in Verbindung mit 3 und 4 zu berechnen. Die Anordnung umfasst ferner eine Schaltung 405 zum Multiplizieren des Zusatzdatensignals mit einem gesamten Skalierungsfaktor s, ein Verzögerungselement 408 und eine Addierschaltung 409 zum Kombinieren des Informationssignals mit dem skalierten Wasserzeichensignal, wie in Verbindung mit 4 beschrieben ist. Nach dieser Ausführungsform der Erfindung wird die durch die Schaltung 107 berechnete zeitliche Verstärkungsfunktion g(n) durch die Multiplikatorschaltung 603 mit dem skalierten, nichtverzögerten Zusatzdatensignal multipliziert. Die Anordnung umfasst ferner ein Verzögerungselement 605, das das skalierte Zusatzdatensignal verzögert, wie in Verbindung mit 5c beschrieben vorzugsweise um eine Verzögerung, die der Größe des Mittelungsfensters entspricht. Das verzögerte Signal wird durch die Multiplikatorschaltung 604 mit der Verstärkungsfunktion g(n) multipliziert. Überdies wird der Ausgang der Multiplikatorschaltung 603 durch ein Verzögerungselement 606 entsprechend der durch das Verzögerungselement 605 eingebrachten Verzögerung verzögert. Die Anordnung umfasst ferner eine Schaltung 607, die dazu geeignet ist, einen Ausgang zu erzeugen, der dem Mindestwert des Ausgangs der Multiplikatorschaltung 604 und des Ausgangs des Verzögerungselements 606 entspricht. Schließlich wird der Ausgang des Elements 607 durch die Schaltung 409 mit dem verzögerten Informationssignal kombiniert. Folglich entspricht der Ausgang des Elements 607 einem Zusatzdatensignal, das gemäß dem in Verbindung mit 5d beschriebenen Ansatz abgestimmt ist, wodurch eine Unterdrückung sowohl der Vor-Echo- als auch der Nach-Echo-Verzerrungen hervorgebracht wird.
Alternativ können andere Wege des Ausführens der kombinierten Verzögerungen verwendet werden. Zum Beispiel kann von einem Ausführungsgesichtspunkt her die Leistungsfähigkeit gesteigert werden, indem der Vergleich nach Schaltung 607 in der Schaltung 107 durchgeführt wird. Daher kann das Signal M_wm(n), das in der Schaltung 401 berechnet wird, nach einer anderen Ausführungsform geteilt werden, und können die geteilten Signale in Bezug zueinander verzögert werden. Die verzögerten Versionen können dann auf einer Basis von Abtastwert zu Abtastwert miteinander verglichen werden und der Höchstwert als eine endgültige Version für M_wm verwendet werden.
7a bis b veranschaulichen zwei Ausführungsformen von Anordnungen zum Ausführen der Filterfunktion E(n) nach der Erfindung. 7a veranschaulicht eine Ausführungsform, die eine Vorwärts-Struktur ausführt. Zuerst wird bemerkt, dass die besondere Form der Filterfunktion E(n) in den Ausführungsformen von 3 und 4 einer Übertragungsfunktion entspricht.
Daher kann dieser Filter durch eine wie in 7a veranschaulichte Vorwärts-Struktur ausgeführt werden. In 7a ist die Struktur für ein Beispiel veranschaulicht, in dem N = 5 ist. Die Anordnung in 7a beinhaltet vier Verzögerungselemente 701 und vier Addierschaltungen 702. Daher benötigt eine Ausführung nach der in 7a veranschaulichten Struktur im Allgemeinen N – 1 Addierschaltungen und N – 1 Verzögerungselemente.
Die Komplexität der obigen Anordnung kann durch Ausführen der Übertragungsfunktion gemäß
als eine rekursive Funktion deutlich verringert werden.
Diese Struktur kann gemäß einer sogenannten "Direktform 2" (siehe z.B. Alan V. Oppenheim und Ronald W. Schafer, "Discrete-Time Signal Processing", Prentice Hall, 1999) ausgeführt werden, wie in 7b erneut für das Beispiel N = 5 veranschaulicht ist. Wie ersichtlich ist, benötigt diese Ausführung fünf Verzögerungselemente 701, während die Anzahl der Addierschaltungen 702 auf zwei verringert ist. Die Elemente 703 beinhalten eine Multiplikation um einen Faktor (–1), d.h., eine Änderung des Vorzeichens. Folglich verringert diese Ausführung die Anzahl der Addierschaltungen für jede Auswahl von N auf zwei, während die Anzahl der Verzögerungselemente verglichen mit der Vorwärts-Struktur von 7a um "Eins" erhöht ist. Somit wird besonders für größere Werte von N eine beträchtliche Verringerung in der Komplexität erreicht.
Es wird bemerkt, dass andere alternative Ausführungen ebenfalls verwendet werden können. Zum Beispiel benötigt eine sogenannte "Direktform 1" (siehe z.B. Alan V. Oppenheim und Ronald W. Schafer, "Discrete-Time Signal Processing", Prentice Hall, 1999) N + 1 Verzögerungselemente und zwei Addierschaltungen.
Es versteht sich, dass die in diesem Dokument beschriebenen Anordnungen durch jede beliebige Verarbeitungseinheit ausgeführt werden kann, z.B. einen programmierbaren Mikroprozessor, eine anwendungsspezifische integrierte Schaltung, oder eine andere integriere Schaltung, eine Smartcard, oder dergleichen.
Es sollte ferner bemerkt werden, dass die Erfindung in Verbindung mit einer Ausführungsform der Erfindung auf dem Gebiet der Wasserzeichenmarkierung von Audiosignalen beschrieben wurde. Es versteht sich jedoch, dass das Verfahren auch angewendet werden kann, um andere Zusatzdaten in andere Arten von Wirtssignalen einzubetten, wie etwa Multimediasignale, Videosignale, Animationen, Grafiken, Standbilder, oder dergleichen. In einigen Ausführungsformen kann das Wirtssignal in anderen Domänen als der zeitlichen Domäne vertreten sein, wie etwa einer räumlichen Domäne in Verbindung mit Bildern, und kann der Begriff der Amplitude durch andere Größen wie etwa die Helligkeit, die Stärke, oder dergleichen ersetzt sein.
Es sollte ferner bemerkt werden, dass die Erfindung in Verbindung mit einer Vielfalt von Anwendungen angewendet werden kann, bei denen Zusatzdatensignale in ein Informationssignal eingebettet sind. Zum Beispiel können auf dem Gebiet der Wasserzeichenmarkierung Zusatzdatensignale als Beweis des Urheberrechtseigentums, Aufspürung illegaler Kopien, Steuerung von Kopierkontrolleinrichtungen, Ausstrahlungsüberwachung, Authentizitätsnachweis, Hinzufügung von Hilfsdaten in Multimediasignale usw. eingebettet werden. Als ein Beispiel können Audiowasserzeichen durch eine Aufzeichnungsvorrichtung oder eine andere Vorrichtung in ein Audiosignal eingebettet werden, bevor das Audiosignal z.B. als ein Kommunikationssignal, das auf einem Speichermedium gespeichert ist, oder dergleichen, verteilt wird.
Es sollte bemerkt werden, dass die oben erwähnten Ausführungsformen die Erfindung vielmehr veranschaulichen, anstatt sie zu beschränken, und dass Fachleute fähig sein werden, viele alternative Ausführungsformen zu gestalten, ohne vom Umfang der beiliegenden Ansprüche abzuweichen. In den Ansprüchen sollen jegliche Bezugszeichen, die in Klammern gesetzt sind, nicht als Beschränkung des Anspruches aufgefasst werden. Das Wort "umfassend" schließt das Vorhandensein anderer Elemente oder Schritte als der in einem Anspruch aufgezählten nicht aus. Die Erfindung kann durch Hardware, die mehrere einzelne Elemente umfasst, und durch einen geeignet programmierten Computer ausgeführt werden. In einem Vorrichtungsanspruch, der mehrere Mittel aufzählt, können einige dieser Mittel durch ein und dasselbe Hardwareelement verkörpert sein. Die bloße Tatsache, dass in untereinander unterschiedlichen abhängigen Ansprüchen bestimmte Maßnahmen angeführt sind, zeigt nicht an, dass eine Kombination dieser Maßnahmen nicht zum Vorteil verwendet werden kann.
Legende der Zeichnungen
3

STRT:

Start

RTN:

Zurück

4

DEL:

Verzögerungsschaltung

REG:

Regelungsschaltung

6

DEL:

Verzögerungselement

MIN:

Mindestwerterzeugungsschaltung

Claims

Verfahren zum Abstimmen eines Zusatzdatensignals (wm(n)), das in ein Informationssignal (x(n)) eingebettet werden soll, wobei das Verfahren die folgenden Schritte umfasst: – Bestimmen einer relativen Größe (g(n)) einer ersten Eigenschaft (M_x(n)) des Informationssignals, die über einen Bereich mit einer vorbestimmten Größe (N) gemittelt ist, und einer zweiten Eigenschaft (M_wm(n)) des Zusatzdatensignals, die über diesen Bereich gemittelt ist; – Abstimmen des Zusatzdatensignals gemäß der bestimmten relativen Größe, dadurch gekennzeichnet, dass der Schritt des Abstimmens des Zusatzdatensignals gemäß der bestimmten relativen Größe die folgenden Schritte umfasst: – Verzögern (605) des Zusatzdatensignals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem verzögerten Signal führt; – Abstimmen (604) des verzögerten Signals gemäß dem bestimmten Verhältnis, was zu einem ersten verzögerten abgestimmten Signal führt; – Abstimmen (603) des Zusatzdatensignals gemäß dem bestimmen Verhältnis, was zu einem abgestimmten Signal führt; – Verzögern (606) des abgestimmten Signals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem zweiten verzögerten abgestimmten Signal führt; und – Kombinieren (607) des ersten und des zweiten verzögerten abgestimmten Signals.
Verfahren nach Anspruch 1, wobei die erste Eigenschaft eine lokale Energiefunktion des Informationssignals ist, und die zweite Eigenschaft eine lokale Energiefunktion des Zusatzdatensignals ist.
Verfahren nach Anspruch 1, wobei die erste Eigenschaft eine lokale Größe des Informationssignals ist, und die zweite Eigenschaft eine lokale Größe des Zusatzdatensignals ist.
Verfahren nach Anspruch 1, wobei der Schritt des Abstimmens des Zusatzdatensignals gemäß der bestimmten relativen Größe ferner den Schritt des Begrenzens (404) der bestimmten relativen Größe auf einen vorbestimmten Höchstwert umfasst.
Verfahren nach Anspruch 1, wobei der Schritt des Abstimmens des Zusatzdatensignals gemäß der bestimmten relativen Größe ferner den Schritt des Anwendens eines Tiefpassfilters auf die bestimmte relative Größe umfasst.
Verfahren nach Anspruch 1, wobei der Schritt des Bestimmens einer relativen Größe (g(n)) ferner folgende Schritte umfasst: – Berechnen einer dritten Eigenschaftsfunktion; – Verzögern der dritten Eigenschaftsfunktion, um eine verzögerte Eigenschaftsfunktion zu erhalten; und – Kombinieren der dritten Eigenschaftsfunktion mit der verzögerten Eigenschaftsfunktion, um die zweite Eigenschaftsfunktion zu erhalten.
Verfahren nach Anspruch 1, wobei das Informationssignal ein digitales Audiosignal umfasst.
Anordnung zum Abstimmen eines Zusatzdatensignals (wm(n)), das in ein Informationssignal (x(n)) eingebettet werden soll, wobei die Anordnung Folgendes umfasst: – ein Mittel (107) zum Bestimmen einer relativen Größe (g(n)) einer ersten Eigenschaft (M_x(n)) des Informationssignals, die über einen Bereich mit einer vorbestimmten Größe (N) gemittelt ist, und einer zweiten Eigenschaft (M_wm(n)) des Zusatzdatensignals, die über diesen Bereich gemittelt ist; – ein Mittel (407) zum Abstimmen des Zusatzdatensignals gemäß der bestimmten relativen Größe, gekennzeichnet durch – ein Mittel (605) zum Verzögern des Zusatzdatensignals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem verzögerten Signal führt; – ein Mittel (604) zum Abstimmen des verzögerten Signals gemäß dem bestimmten Verhältnis, was zu einem ersten verzögerten abgestimmten Signal führt; – ein Mittel (603) zum Abstimmen des Zusatzdatensignals gemäß dem bestimmten Verhältnis, was zu einem abgestimmten Signal führt; – ein Mittel (606) zum Verzögern des abgestimmten Signals um eine Verzögerung, die der Größe des Bereichs entspricht, was zu einem zweiten verzögerten abgestimmten Signal führt; und – ein Mittel (607) zum Kombinieren des ersten und des zweiten verzögerten abgestimmten Signals.
Vorrichtung zum Einbetten eines Zusatzdatensignals (wm(n)) in ein Informationssignal (x(n)), wobei die Vorrichtung eine Anordnung nach Anspruch 8 umfasst.