DE10115733A1

DE10115733A1 - Verfahren und Vorrichtung zum Ermitteln von in ein Audiosignal eingebrachten Informationen und Verfahren und Vorrichtung zum Einbringen von Informationen in ein Audiosignal

Info

Publication number: DE10115733A1
Application number: DE2001115733
Authority: DE
Inventors: Juergen Herre; Ralph Kulessa; Christian Neubauer; Thomas Sporer; Eric Allamanche; Karlheinz Brandenburg; Ralf Geiger
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2001-03-30
Filing date: 2001-03-30
Publication date: 2002-11-21
Also published as: WO2002080415A2; WO2002080415A3

Abstract

Bei einem Verfahren zum Ermitteln von in einem Audiosignal eingebrachten Informationen wird eine audiosignalspezifische Charakteristik, wie z. B. die psychoakustische Maskierungsschwelle, des Audiosignals abgeschätzt, die auf den Energieverlauf der eingebrachten Informationen hinweist. Daraufhin wird die spektrale Darstellung des Audiosignals auf der Basis der Charakteristik vorverarbeitet. Das nun vorverarbeitete Audiosignal wird dann einer Korrelation unterzogen, um die Informationen wieder zu extrahieren. Das Glätten der stark variierenden Energie des Audiosignals führt zu einer einfacheren und besseren Korrelation und damit zu besseren Extraktionsergebnissen. Das Glätten kann durch Unterdrücken tonaler Frequenzbänder oder durch inverses Manipulieren mittels der psychoakustischen Maskierungsschwelle oder durch beide Maßnahmen erreicht werden. Dies ermöglicht auch eine entsprechende Modifikation in einer Vorrichtung zum Einbringen der Informationen in das Audiosignal, derart, daß in tonale Frequenzbänder des Audiosignals überhaupt keine Störenergie mehr eingefügt wird, um keine Qualitätseinbußen des Audiosignals zu riskieren.

Description

Die vorliegende Erfindung bezieht sich auf das Einbringen bzw. Ermitteln von Informationen, die einem Audiosignal der art hinzugefügt werden bzw. worden sind, daß sie beim Ab spielen des Audiosignals unhörbar sind, und insbesondere auf ein sicheres Ermitteln der eingebrachten Informationen sowie an ein daran angepaßtes Einbringen von Informationen.

Mit zunehmender Verbreitung des Internets hat auch die Mu sikpiraterie drastisch zugenommen. An vielen Stellen im In ternet können Musikstücke bzw. allgemein Audiosignale herun tergeladen werden. In den allerwenigsten Fällen werden hier bei Urheberrechte beachtet. Insbesondere wird sehr selten die Erlaubnis des Urhebers eingeholt, sein Werk zur Verfü gung zu stellen. Noch seltener werden Gebühren an den Urhe ber bezahlt, die der Preis für ein rechtmäßiges Kopieren sind. Darüberhinaus findet ein unkontrolliertes Kopieren von Werken statt, was in den allermeisten Fällen ebenfalls ohne Berücksichtigung von Urheberrechten geschieht.

Wenn Musikstücke über das Internet von einem Provider für Musikstücke rechtmäßig erworben werden, erzeugt der Provider üblicherweise einen Header, in dem Copyright-Informationen sowie beispielsweise eine Kundennummer eingebracht sind, wo bei die Kundennummer eindeutig auf den aktuell vorliegenden Käufer hinweist. Es ist ferner bekannt, Kopiererlaubnisin formationen in diesen Header einzufügen, welche die ver schiedensten Arten von Kopierrechten signalisieren, wie z. B. daß das Kopieren des aktuellen Stücks vollständig unter sagt ist, daß das Kopieren des aktuellen Stücks nur ein einziges Mal erlaubt ist, daß das Kopieren des aktuellen Stücks völlig frei ist, etc.

Der Kunde verfügt über einen Decodierer, der den Header ein liest und unter Beachtung der erlaubten Handlungen bei spielsweise nur eine einzige Kopie zuläßt und weitere Kopien verweigert.

Dieses Konzept zur Beachtung der Urheberrechte funktioniert jedoch nur für Kunden, die sich legal verhalten.

Illegale Kunden haben üblicherweise ein wesentliches Poten tial an Kreativität, um mit einem Header versehene Musik stücke zu "knacken". Hier zeigt sich bereits der Nachteil der beschriebenen Vorgehensweise zum Schutz von Urheberrech ten. Ein solcher Header kann einfach entfernt werden. Alter nativ könnte ein illegaler Benutzer auch einzelne Einträge in dem Header modifizieren, um beispielsweise aus dem Ein trag "Kopieren untersagt" einen Eintrag "Kopieren völlig frei" zu machen. Denkbar ist auch der Fall, daß ein illega ler Kunde seine eigene Kundennummer aus dem Header entfernt und dann das Musikstück auf seiner oder einer anderen Home page im Internet anbietet. Ab diesem Moment ist es nicht mehr möglich, den illegalen Kunden zu ermitteln, da er seine Kundennummer entfernt hat. Versuche, solche Verletzungen des Urheberrechts zu unterbinden, werden daher zwangsläufig ins Leere laufen, da die Kopierinformationen aus dem Musikstück entfernt worden sind bzw. modifiziert worden sind, und da der illegale Kunde, der dies tat, nicht mehr ermittelt wer den kann, um ihn zur Verantwortung zu ziehen. Wäre stattdes sen eine sichere Einbringung von Informationen in das Audio signal vorhanden, so könnten staatliche Behörden, die Urhe berrechtsverletzungen verfolgen, verdächtige Musikstücke im Internet ermitteln und beispielsweise die Benutzeridentifi kation solcher illegalen Stücke feststellen, um den illega len Benutzern das Handwerk zu legen.

Aus der WO 97/33391 ist ein Codierverfahren zur Einbringung eines nicht hörbaren Datensignals in ein Audiosignal be kannt. Dabei wird das Audiosignal, in das das nicht hörbare Datensignal eingebracht werden soll, in den Frequenzbereich umgewandelt, um mittels eines psychoakustischen Modells die Maskierungsschwelle des Audiosignals zu bestimmen. Das Da tensignal, das in das Audiosignal eingebracht werden soll, wird mit einem Pseudorauschsignal multipliziert, um ein fre quenzmäßig gespreiztes Datensignal zu schaffen. Das fre quenzmäßig gespreizte Datensignal wird dann mit der psycho akustischen Maskierungsschwelle gewichtet, derart, daß die Energie des frequenzmäßig gespreizten Datensignals immer un terhalb der Maskierungsschwelle liegt. Schließlich wird das gewichtete Datensignal dem Audiosignal überlagert, wodurch ein Audiosignal erzeugt wird, in das das Datensignal unhör bar eingebracht ist. Das Datensignal kann zum einen dazu verwendet werden, die Reichweite eines Senders zu ermitteln. Alternativ kann das Datensignal zur Kennzeichnung von Audio signalen verwendet werden, um eventuelle Raubkopien ohne weiteres zu identifizieren, da jeder Tonträger beispielswei se in Form einer CompactDisc ab Werk mit einer individuellen Kennung versehen wird. Weitere beschriebene Anwendungsmög lichkeiten des Datensignals bestehen im Fernsteuern von Audiogeräten in Analogie zum "VPS"-Verfahren beim Fernsehen.

Dieses Verfahren liefert bereits eine hohe Sicherheit gegen über Musikpiraten, da sie zum einen unter Umständen gar nicht wissen, daß das Musikstück, das sie gerade vervielfäl tigen, gekennzeichnet ist. Darüberhinaus ist es nahezu un möglich, ohne einen autorisierten Decodierer das Datensi gnal, das unhörbar in dem Audiosignal vorhanden ist, zu ex trahieren.

Audiosignale liegen, wenn sie von einer CompactDisc stammen, als 16-Bit-PCM-Abtastwerte vor. Ein Musikpirat könnte bei spielsweise die Abtastrate bzw. Amplituden der Abtastwerte manipulieren, um das Datensignal unlesbar, d. h. undecodier bar zu machen, wodurch die Urheberrechtsinformationen eben falls aus dem Audiosignal entfernt wären. Dies wird jedoch nicht ohne signifikante Qualitätseinbußen möglich sein. Sol chermaßen in Audiosignale eingebrachte Daten können daher auch in Analogie zu Banknoten als "wasserzeichen" bezeichnet werden.

Die allgemeine Funktionsweise des in der WO 97/33391 offen barten Konzepts sei im nachfolgenden anhand der Fig. 5 und 7 noch einmal detaillierter dargestellt. Informationen, die in das Audiosignal eingebracht werden, werden allgemein von einer Quelle 100 für Informationen bereitgestellt und einer Einrichtung zum Spreizen zugeführt, die mit einer Spreizse quenz gespeist wird. Die Einrichtung 102 zum Spreizen der von der Quelle 100 gelieferten Informationseinheiten umfaßt im einfachsten Fall einen einfachen Multiplizierer, wenn die Informationseinheiten durch antipodische binäre Signale, d. h. Signale, die durch einen positiven oder einen negativen Pegel die beiden binären Zustände darstellen, repräsentiert werden. Das Spreizen mit der Spreizsequenz führt dazu, daß aus einem Informationsbit eine Mehrzahl von Bits erzeugt wird, wobei die Mehrzahl von Bits gleich der Länge der Spreizsequenz ist. Anders ausgedrückt wird am Ausgang der Einrichtung 102 ein gespreiztes Informationssignal erzeugt, das je nach logischem Zustand des entsprechenden Informa tionsbits eine Folge von Datensequenzen aufweist, wobei jede Datensequenz der Spreizsequenz selbst entspricht, wenn die Informationseinheit durch einen positiven Pegel dargestellt wird, oder die invertierte Spreizsequenz ist, wenn das In formationssignal durch einen negativen Pegel dargestellt ist. Wird ein Informationssignal verwendet, bei dem ein logischer Zustand durch einen positiven Pegel dargestellt wird, und der andere logische Zustand durch einen Nullpegel dargestellt wird, so muß statt des Multiplizierers in der Einrichtung 102 zum Spreizen eine XOR-Verknüpfung verwendet werden. Das gespreizte Informationssignal am Ausgang der Einrichtung 102 wird anschließend in eine Einrichtung 104 zum Transformieren eingespeist. Die Einrichtung 104 kann entweder als Transformationseinrichtung oder als Filterbank implementiert sein. Wenn sie als Transformationseinrichtung implementiert ist, so bietet sich insbesondere eine schnelle Fouriertransformation (FFT) an. Der Ausdruck "Transformie ren" bezieht sich somit allgemein auf den Vorgang, durch den aus einer zeitlichen Signaldarstellung eine spektrale Si gnaldarstellung erzeugt wird. Analog bezieht sich der Aus druck "Rücktransformieren" auf den Vorgang, durch den aus einer spektralen Signaldarstellung eine zeitliche Signaldar stellung erzeugt wird.

Die Einrichtung 104 erzeugt somit eine spektrale Darstellung des gespreizten Informationssignals, die einer Einrichtung 106 zum Manipulieren des Informationssignals zugeführt wird. Die Einrichtung 106 wird zugleich mit einer Maskierungs schwelle des Audiosignals gespeist, das aus einer Quelle 108 für das Audiosignal stammt. Wie es in Fig. 5 gezeigt ist, wird die Maskierungsschwelle des Audiosignals durch ein psy choakustisches Modell 110 berechnet. In der Technik sind psychoakustische Modelle bekannt, weshalb im nachfolgenden nicht weiter auf solche Modelle und ihre Funktionsweise ein gegangen wird. Allgemein sei jedoch festgehalten, daß übli che psychoakustische Modelle eine spektrale Maskierungs schwelle ausgeben, die anzeigt, wieviel Energie in einem Frequenzband des Audiosignals sein darf, ohne daß ein Si gnal, das diese Energie hat, hörbar wird. Anders ausgedrückt wird das Signal, das eine Energieverteilung hat, die der spektralen Maskierungsschwelle folgt, für einen menschlichen Hörer laut Theorie unhörbar sein wird.

Wenn das in die Einrichtung 106 zum Manipulieren eingegebene spektrale und gespreizte Informationssignal eine konstante Energieverteilung hat, d. h. alle Spektrallinien die gleiche Energie haben, so kann das Manipulieren in der Einrichtung 106 einfach dadurch durchgeführt werden, daß die Spektralli nien derart skaliert werden, daß sie in ihrer Energie iden tisch zu der psychoakustischen Maskierungsschwelle sind. Wird als Spreizsequenz eine Pseudo-Noise-Codesequenz ver wendet, so kann im Mittel davon ausgegangen werden, daß das transformierte gespreizte Informationssignal einen frequenzmäßig konstanten Energieverlauf haben wird.

Sollen dagegen auch Amplitudeninformationen des spektralen gespreizten Informationssignals berücksichtigt werden, so kann die Einrichtung 106 zum Manipulieren ausgeführt sein, um in einem Kurzzeitspektrum des gespreizten transformierten Informationssignals die maximale Amplitude in jedem Fre quenzband zu suchen. Hierauf ist dann für jedes Frequenzband einen Skalierungsfaktor zu bestimmen, durch den das manipu lierte Informationssignal am Ausgang der Einrichtung 106 einen spektralen Energieverlauf hat, der gleich oder unter halb der psychoakustischen Maskierungsschwelle ist. Die Fre quenzbänder sind dabei an das Gehör angepaßt.

Das gewichtete Informationssignal muß schließlich noch mit dem Audiosignal mittels einer Einrichtung 112 zum Kombinie ren der beiden Signale kombiniert werden. Die Einrichtung 112 zum Kombinieren kann derart ausgestaltet sein, daß sie zunächst eine Rücktransformation des gewichteten Informa tionssignals vom Frequenzbereich in den Zeitbereich durch führt, und dann eine abtastwertweise Addition mit dem Au diosignal aus der Quelle 108 für das Audiosignal realisiert. Alternativ könnte genauso das Audiosignal in den Frequenzbe reich transformiert werden, um dann eine spektrallinienweise Addition mit dem gewichteten Informationssignal auszuführen, und um dann das kombinierte Signal wieder in den Zeitbereich zu transformieren, um das Audiosignal mit den unhörbar ein gebrachten Informationen zu erhalten.

In Fig. 6 wird allgemein eine bekannte Vorrichtung zum Er mitteln der in das Audiosignal eingebrachten Informationen beschrieben. Allgemein gesagt muß eine solche Vorrichtung das Audiosignal empfangen und dann die eingebrachten Infor mationon extrahieren. Das Extrahieren kann grundsätzlich in zwei Abschnitte eingeteilt werden. Der erste Abschnitt be steht darin, daß das Audiosignal mit den eingebrachten In formationen einem Korrelator 114 zugeführt wird, der mit der Spreizsequenz "gespeist" wird, die auch beim Spreizen 102 (Fig. 5) während des Einbringens der Informationen in das Audiosignal eingesetzt worden ist. Der Korrelator 114 könnte beispielsweise als sogenanntes Matched-Filter implementiert sein, wobei dieses Filter auf die Spreizsequenz angepaßt ist. Die Korrelationsergebnisse sind dann besonders gut, wenn die Spreizsequenz eine Pseudo-Noise-Sequenz ist. In diesem Fall ist der Abstand zwischen einer Ausgangsspitze des Korrelators, die eine Korrelation anzeigt, und einer Ausgangsspitze, die keine Korrelation anzeigt, maximal.

Am Ausgang des Korrelators 114 liegt dann ein Signal vor, das hohe positive bzw. negative Spitzen hat und zwischen zwei hohen Spitzen eine Vielzahl von kleinen positiven oder negativen Spitzen hat, wobei der Abstand zwischen zwei hohen Spitzen durch die Länge der Spreizsequenz gegeben ist. In einer Einrichtung 116 zum Nachbearbeiten wird das Ausgangs signal des Korrelators typischerweise derart nachbearbeitet, daß die kleinen, nicht signifikanten Spitzen zwischen den hohen Spitzen eliminiert werden, und daß lediglich das Vor zeichen der hohen Spitzen, jedoch nicht deren Betrag ermit telt werden, um daraus typischerweise wieder ein "sauberes" digitales Signal zu erzeugen. Die Einrichtung 116 zum Nach bearbeiten kann auch einen Schwellenentscheider haben, der angibt, daß eine Spitze, deren Höhe oberhalb eines Schwel lenwerts liegt, als signifikant erachtet wird, während eine Spitze, deren Höhe unterhalb des Schwellenwerts liegt, als nicht-signifikant betrachtet wird. Am Ausgang der Einrich tung 116 zum Nachbearbeiten können dann die eingebrachten Informationen abgenommen und weiterverwendet werden, um ih ren Informationsgehalt zu interpretieren.

Nachteilig an dem bekannten Verfahren ist die Tatsache, daß die in das Audiosignal eingebrachten Informationen in dem Audiosignal eine stark schwankende Energie haben. Anders ausgedrückt dürfte in bestimmten Bereichen des Audiosignals, in denen die psychoakustische Maskierungsschwelle hoch ist, d. h. in denen ein Signal mit relativ hoher Energie noch maskiert wird, ein relativ hohes Signal/Störung-Verhältnis vorhanden sein. Andererseits dürfte in Bereichen, in denen die psychoakustische Maskierungsschwelle gering ist, d. h. in denen nur eine geringe Energie in das Audiosignal einge bracht werden kann, um nicht die Qualität des Audiosignals zu verschlechtern, das Signal/Störung-Verhältnis relativ ge ring sein. Durch das Frequenzspreizungsverfahren, das durch die Einrichtung 102 (Fig. 5) durchgeführt wird, wird zwar ein inhärenter sogenannter Prozeßgewinn oder "Process Gain" erreicht, der darin besteht, daß ein Informationsbit mit einer wesentlich höheren Bandbreite als theoretisch notwen dig übertragen wird. Andererseits wird durch das Spreizen die Datenrate der Informationen in dem Audiosignal entspre chend reduziert. Um bei dem bekannten Konzept, das in den Fig. 5 und 7 dargestellt ist, ein sicheres Decodieren, d. h. Ermitteln der Informationen, zu erreichen, könnte die Spreizsequenz sehr lang gemacht werden. Mit zunehmender Länge der Spreizsequenz können jedoch immer weniger Informa tionen pro Zeiteinheit in das Audiosignal eingebracht wer den.

Außerdem wird eine Vorrichtung zum Ermitteln der in das Audiosignal eingebrachten Informationen aufgrund der Tatsa che, daß sie bisher nicht weiß, in welchen Bereichen ein ho hes bzw. niedriges Signal/Störung-Verhältnis für die einge brachten Informationen ist, durch Bereiche mit niedrigem Signal/Störung-Verhältnis sogar fehlgeleitet, derart, daß Korrelatorspitzen aufgrund der hohen Störsignale nicht mehr sicher erkannt werden können. Allgemein ausgedrückt führt die stark schwankende Energie des in das Audiosignal einge brachten Informationssignals somit zu erheblichen Problemen beim Decodieren, d. h. beim Ermitteln der Informationen im Empfänger.

Insbesondere in dem Anwendungsbereich, in dem das Konzept des unhörbaren Einbringens von Informationen in ein Audiosi gnal zum Urheberrechtsschutz eingesetzt werden soll, ist schon allein aufgrund der juristischen Dimension ein siche res nicht anzweifelbares Ermitteln der Informationen von Bedeutung. Ein Musikpirat kann nur dann verurteilt werden, wenn seine Identität sicher und zweifelsfrei festgestellt werden kann, bzw. wenn sicher und zweifelsfrei festgestellt werden kann, daß er in illegaler Weise gegen Kopierbestim mungen verstoßen hat. Stör- und Angriffssicherheit beim De codieren bzw. Ermitteln der Informationen sind somit wesent lich für eine Durchsetzung eines solchen Konzepts zum Urhe berrechtsschutz in der Praxis.

Die Fachveröffentlichung "On the design of a watermarking system: considerations and rationales" von Jean-Paul Lin nartz, Geert Depovere und Ton Kalker, Proceedings of the Third International Information Hiding Workshop in Dresden, Oktober 1999, S. 303-314, bezieht sich auf die Wasserzei chen-Detektion im Hinblick auf MPEG-codierte Videobilder. Es wird eine Wasserzeichenerfassung beschrieben, bei der das Bild vor der Wasserzeichendetektion gefiltert wird. Hierbei ist zunächst das lineare Filtern im allgemeinen angespro chen. Weiterhin ist ein Kantenverbesserungsfilter oder ein Median-Filter erwähnt, um eine Prädiktion durchzuführen, die von der aktuellen Luminanz abhängt. Darüberhinaus wird ein Whitening-Prefilter diskutiert, bei dem das Videobild zu nächst derart gefiltert wird, daß sein gesamtes Frequenz spektrum ausreichend weiß ist. Ferner wird ein weiteres Whitening-Filter beschrieben, das die Amplitude aller Orts frequenzen auf den Wert 1 einstellt. Bezüglich der Frage, ob das Wasserzeichen in wahrnehmungsmäßig relevanten oder wahr nehmungsmäßig irrelevanten Spektralfrequenzbereichen pla ziert werden sollte, wird vorgeschlagen, das Wasserzeichen in günstiger Weise in den oberen Ortsfrequenzbereichen zu plazieren, welche gerade noch nicht so hoch sind, daß sie durch MPEG-Artefakte stark beeinflußt werden.

Die WO 97/09797 bezieht sich auf ein Verfahren und eine Vorrichtung zum Transportieren von Hilfsdaten in Audiosi gnalen. Ein Whitening-Block, der das Spektrum des in dem Wasserzeichen-Decodierer einlaufenden Signals weiß macht, wird vor dem Detektieren der Hilfsdaten verwendet. Ein alternativer Hilfsdaten-Decodierer verwendet statt des Whitening-Filters ein LPC-Prädiktionsfilter (LPC = Linear Prediction Coding). Dieses LPC-Filter wird dazu verwendet, eine im Codierer vorgenommene LPC-Filterung rückgängig zu machen.

Nachteilig an allen diesen Verfahren ist jedoch die Tatsa che, daß die Besonderheiten der Psychoakustik nicht mehr erfaßt werden, wie z. B. die Tonalität, die Asymmetrie zwi schen TMN (TMN = Tone Masking Noise) und NMT (NMT = Noise Masking Tone) bzw. die Verdeckung zu benachbarten Frequen zen, die in der Technik auch als "Inter Band Masking" bezeichnet wird.

Die Aufgabe der vorliegenden Erfindung besteht darin, ein Konzept zu schaffen, durch das ein sicheres Ermitteln der in ein Audiosignal eingebrachten Informationen möglich wird, ohne daß die Datenrate der in das Audiosignal eingebrachten Informationen stark verringert wird.

Diese Aufgabe wird durch ein Verfahren zum Ermitteln von in ein Audiosignal eingebrachten Informationen nach Patentan spruch 1, durch eine Vorrichtung zum Ermitteln von in ein Audiosignal eingebrachten Informationen nach Patentanspruch 16, durch ein Verfahren zum Einbringen von Informationen in ein Audiosignal nach Patentanspruch 12, oder durch eine Vor richtung zum Einbringen von Informationen in ein Audiosignal nach Patentanspruch 17 gelöst.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, daß das Audiosignal mit den eingebrachten Informationen vor dem Korrelieren mit der beim Einbringen der Informationen verwendeten Spreizsequenz vorverarbeitet bzw. entzerrt wer den muß. Diese Entzerrung findet im Frequenzbereich oder Zeitbereich statt, derart, daß der spektral stark schwan kende Energieverlauf der in das Audiosignal eingebrachten Informationen beeinflußt wird, um eine Extraktion der in das Audiosignal eingebrachten Informationen besser durchführen zu können. Dieses Vorverarbeiten wird unter Berücksichtigung einer audiosignalspezifischen Charakteristik des Audiosi gnals, die auf ein Maß der für die Energie der in das Audio signal eingebrachten Informationen hinweist, durchgeführt, da die Energie des Audiosignals für die Manipulation des Informationssignals beim Einbringen der zusätzlichen Infor mationen maßgeblich war und insbesondere dafür verantwort lich ist, daß die Energie der in das Audiosignal eingebrach ten Informationen über der Frequenz ohne Vorverarbeitung sehr stark schwankt, was bei der Korrelation zur Extraktion der Informationen nachteilig ist.

In anderen Worten ausgedrückt wird erfindungsgemäß nicht mehr einfach eine Vorverarbeitung in Form eines Whitening- Filters etc. durchgeführt, die völlig unabhängig von dem Signal ist, in das die Informationen eingebracht sind, son dern es wird eine intelligente Vorverarbeitung durchgeführt, die audiosignalspezifisch und insbesondere spezifisch hin sichtlich der Energie der eingebrachten Informationen ist. Dies bringt eine gute Entzerrung des stark schwankenden Energieverlaufs der eingebrachten Informationen mit sich, da die Schwankung des Energieverlauf sehr stark mit der audio signalspezifischen Charakteristik korreliert ist. Die psy choakustische Maskierungsschwelle oder das Tonalitätsmaß sind beispielsweise interessierende audiosignalspezifische Charakteristika. Generell können sämtliche audiosignalspezi fische Charakteristika verwendet werden, die darauf Einfluß haben, wie der schwankende Energieverlauf der in das Audio signal eingebrachten Informationen zustande gekommen ist. Jedes derartige Charakteristika kann dazu nützlich sein, um diesen Energieverlauf signalspezifisch und damit effizient und wirkungsvoll vor der Korrelation zu entzerren.

Das vorverarbeitete Audiosignal wird einem Korrelator und vorzugsweise einer Nachbearbeitungsstufe zugeführt, um die Informationen aus dem Audiosignal zu extrahieren.

Vorzugweise wird die Vorverarbeitung im Frequenzbereich durchgeführt, so daß vor dem Vorverarbeiten eine Hintrans formation und nach dem Vorverarbeiten eine Rücktransforma tion erforderlich sind.

Das Vorverarbeiten im Frequenzbereich führt dazu, daß nun die Energie der in das Audiosignal eingebrachten Informatio nen über der Frequenz gleichmäßiger verläuft als wenn das Audiosignal nicht vorverarbeitet worden wäre, was für ein Korrelieren und allgemein gesagt für das Decodieren über haupt und das anschließende Nachbearbeiten günstig ist. Alternativ oder kombiniert dazu können durch die Vorverar beitung auch Audiosignalanteile entweder frequenzmäßig oder zeitmäßig eliminiert werden, in denen das Signal/Störung- Verhältnis hinsichtlich der eingebrachten Informationen schlecht ist. Solche Anteile sind beispielsweise tonale Anteile mit hohem Abstand zwischen Audiosignalpegel und psychoakustischer Maskierungsschwelle. Durch Elimination solcher Anteile vor der Korrelation werden unerwünschte Störsignale bereits vor dem Korrelator entfernt, so daß sie die Korrelatoroperation nicht mehr negativ beeinflussen können.

Das Vorverarbeiten des Audiosignals unter Berücksichtigung der psychoakustischen Maskierungsschwelle kann auf mehrere Arten und Weisen durchgeführt werden.

Es kann beispielsweise eine inverse psychoakustische Manipu lation durchgeführt werden, indem von dem Audiosignal mit den eingebrachten Informationen wieder wie in der Vorrich tung zum Einbringen der Informationen die Maskierungsschwel le berechnet wird und die Manipulation beim Einbringen der Informationen invers durchgeführt wird, d. h. rückgängig gemacht wird. Diese Vorverarbeitung führt zwar zu einer starken Verzerrung des Audiosignals, was jedoch keine Rolle spielt, da beim Wasserzeichen-Decodieren das Audiosignal ohnehin als "Störung" betrachtet wird.

Diese Maßnahme hat den Vorteil, daß die Energie der in das Audiosignale eingebrachten Informationen in einem Block von Abtastwerten des Audiosignals nahezu konstant ist. Nachtei lig ist jedoch, daß relativ viel Störsignale durch das hohe Verstärken von Frequenzbändern mit einer relativ geringen psychoakustischen Maskierungsschwelle bzw. einem relativ hohen Abstand zwischen dem Signalpegel und der Maskierungs schwelle eingeführt werden, was unter Umständen beim Deco dieren mittels Korrelation Probleme bereiten kann.

Durch Berechnen der Maskierungsschwelle unter Verwendung eines psychoakustischen Modells können ferner auch Informa tionen über tonale Bänder im Audiosignal, d. h. die Tonali tätseigenschaften des Audiosignals über der Frequenz, erhal ten werden. Da das Signal/Störung-Verhältnis der in das Audiosignal eingebrachten Informationen in tonalen Bändern eher gering ist, kann dann gemäß einem alternativen bevor zugten Ausführungsbeispiel der vorliegenden Erfindung eine Dämpfung der tonalen Bänder durchgeführt werden, um diese Bänder beim Korrelieren überhaupt nicht mehr zu berücksich tigen. Durch diese Maßnahme werden bereits vor dem Korrela tionsdetektor Störsignale unterdrückt. Gleichzeitig nimmt jedoch die Gesamtenergie der in das Audiosignal eingebrach ten Informationen etwas ab. Im Vergleich zur Störsignalun terdrückung ist dieser Nachteil jedoch lediglich marginal.

Die Unterdrückung tonaler Bänder kann dadurch erreicht wer den, daß die Spektrallinien des Audiosignals in den tonalen Bändern einfach zu Null gesetzt werden. Damit werden die to nalen Bänder aus dem Audiosignal gewissermaßen herausge schnitten.

Da besonders die tonalen Bänder zur starken Schwankung des Energieverlaufs der in das Audiosignal eingebrachten Infor mationen beigetragen haben, führt ihre Entfernung aus dem Audiosignal ebenfalls dazu, daß die spektrale Verteilung der in das Audiosignal eingebrachten Informationen an einen kon stanten Wert zumindest angenähert wird. Die starke Schwan kung des Energieverlaufs des Wasserzeichens kommt daher, daß tonale Bänder eine sehr niedrige Maskierungsschwelle und damit sehr wenig Wasserzeichenenergie haben.

Im Grenzfall, wenn lediglich die Bänder mit einer hohen Atonalität nicht unterdrückt werden, könnte sogar - ebenso wie beim inversen Manipulieren - ein nahezu vollständig konstanter Energieverlauf erzeugt werden. Die Unterdrückung von Bändern mit einer Maskierungsschwelle unter einem Grenzwert muß jedoch behutsam durchgeführt werden, um nicht zu viel wasserzeichenenergie zu verlieren. Mit anderen Worten kann der Grenzwert so eingestellt werden, daß ein optimaler Kompromiß zwischen Energieverlust einerseits und Störsignalunterdrückung andererseits erreicht werden kann. Damit ist erkennbar, daß das erfindungsgemäße Konzept optimal an verschiedene Audiostücke, wie z. B. sehr tonal oder sehr wenig tonal angepaßt werden kann.

Dies führt dazu, daß auch in der Vorrichtung zum Einbringen der Informationen erfindungsgemäße Verbesserungen vorgenom men werden können. Ist es nämlich bekannt, daß eine Vorrich tung zum Ermitteln der Informationen tonale Bänder auf jeden Fall zu Null setzt, so kann beim Einbringen der Informatio nen auch ganz darauf verzichtet werden, in tonale Bänder Energie einzubringen. Auch beim Wasserzeichencodieren kann somit abhängig von der zu codierenden Musik ein optimaler Tonalitäts-Grenzwert eingesetzt werden, der festlegt, welche Bänder gedämpft bzw. ganz unterdrückt werden sollten.

Da anders gesagt erkannt wurde, daß tonale Bänder auf jeden Fall kein besonders gutes Signal/Störung-Verhältnis haben und somit ein sicheres Ermitteln der eingebrachten Informa tionen in diesen Bändern generell zweifelhaft ist, kann auch gleich auf das Einbringen von Energie in die tonalen Bänder verzichtet werden.

Dies hat den angenehmen Nebeneffekt, daß Qualitätsverluste durch das Einbringen der Informationen noch besser vermieden werden, da tonale Bänder für die Qualität besonders kritisch sind. Dieser Ansatz ist um so mehr gerechtfertigt, wenn die tonalen Bänder beim Ermitteln der Informationen, d. h. beim Decodieren, so und so nicht berücksichtigt werden, da hier im wesentlichen Störsignale erzeugt werden, jedoch kein signifikanter Signalgehalt. Damit kann die Qualität des Audiosignals bewahrt werden, ohne daß wirklich wichtige In formationsverluste auftreten.

Es sei an dieser Stelle in Erinnerung gerufen, daß das in der Praxis verwendete psychoakustische Modell die psychoaku stische Maskierungsschwelle lediglich schätzt und nicht exakt berechnet, so daß, selbst wenn Energie unterhalb der geschätzten psychoakustischen Maskierungsschwelle in tonale Bänder eingebracht wird, dennoch Qualitätsverluste auftreten können. Aufgrund der nicht exakten Schätzung können daher Qualitätsverluste auftreten, auch wenn die geschätzte psychoakustische Maskierungsschwelle beim Einbringen von Informationen in das Audiosignal genau eingehalten wird.

In dem Audiosignal, aus dem die Wasserzeicheninformationen extrahiert werden sollen, variiert das Signal/Rausch-Ver hältnis der Wasserzeicheninformationen als Signal zu dem Audiosignal als "Rauschen" stark. Diese Variation des S/N- Verhältnisses hängt stark von dem sogenannten Verdeckungsmaß ab. Das Verdeckungsmaß ist durch das Verhältnis der Audio signalenergie zu der psychoakustischen Maskierungsschwelle definiert. Das Verdeckungsmaß kann pro spektralem Bereich als spektrales Verdeckungsmaß angegeben werden.

Ist das Verdeckungsmaß groß, so existiert ein hoher Abstand zwischen Audiosignalenergie und Maskierungsschwelle, was wiederum bedeutet, daß das Verhältnis der Wasserzeichenener gie zur Audiosignalenergie gering ist und damit das S/N-Ver hältnis schlecht ist. Ist dagegen das Verdeckungsmaß klein, so existiert ein kleiner Abstand zwischen Audiosignalenergie und Maskierungsschwelle, so daß das Verhältnis der Wasser zeichenenergie zu der Audiosignalenergie eher hoch ist und ein gutes S/N-Verhältnis für das Wasserzeichen existiert.

Eine Vorverarbeitung des Audiosignals unter Verwendung des Verdeckungsmaßes als audiosignalspezifische Charakteristik vor dem Extrahieren der Informationen aus dem Audiosignal führt daher in Analogie zu den Prinzipien der Wiener-Fil terung ebenfalls dazu, daß das S/N-Verhältnis des Wasserzei chens nach dem Vorverarbeiten einen eher konstanten Verlauf als vor der Vorverarbeitung hat.

Im Gegensatz zu einem Funkkanal, der ein zeitlich und spek tral sich änderndes S/N-Verhältnis hat, das im allgemeinen schlecht oder nicht vorhersagbar ist, wird die audiosignal spezifische Charakteristik des Audiosignals, und bei einem bevorzugten Ausführungsbeispiel das Verdeckungsmaß, dazu verwendet, das S/N-Verhältnis des Wasserzeichens im Audiosi gnal zu bestimmen. Auf der Basis dieser Informationen wird das Audiosignal dann vorverzerrt, um eine bessere Extraktion der in das Audiosignal eingebrachten Informationen, also des Wasserzeichens, zu erreichen.

Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung werden nachfolgend bezugnehmend auf die beiliegenden Zeich nungen detailliert erläutert. Es zeigen:

Fig. 1 eine Blockdiagrammdarstellung des erfindungsgemäßen Konzepts zum Ermitteln von in ein Audiosignal ein gebrachten Informationen;

Fig. 2 eine detaillierte Darstellung des Konzepts zum Er mitteln von in ein Audiosignal eingebrachten Infor mationen gemäß einem alternativen Ausführungsbei spiel der vorliegenden Erfindung;

Fig. 3 ein Konzept zum Einbringen von Informationen gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;

Fig. 4 ein alternatives Konzept zum Einbringen von Infor mationen gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung;

Fig. 5 ein Blockdiagramm einer bekannten Vorrichtung zum Einbringen von Informationen in ein Audiosignal; und

Fig. 6 ein Blockdiagramm einer bekannten Vorrichtung zum Ermitteln von in einem Audiosignal eingebrachten Informationen.

Im nachfolgenden wird der systemtheoretische Hintergrund des erfindungsgemäßen Verfahrens beleuchtet, bevor dann eine de taillierte Beschreibung der Figuren folgt. Wie es bereits bezugnehmend auf die Fig. 5 und 6 dargelegt worden ist, führt die Manipulation des gespreizten Informationssignals unter Berücksichtigung der psychoakustischen Maskierungs schwelle dazu, daß die Energie des gespreizten Informations signals einerseits spektral stark variiert und andererseits auch zeitlich stark variiert, je nach dem, wie die psycho akustische Maskierungsschwelle des Audiosignals zeitlich und frequenzmäßig verläuft.

Das Einbringen der Informationen in das Audiosignal unter Berücksichtigung der psychoakustischen Maskierungsschwelle kann daher auch als eine Übertragung des gespreizten Infor mationssignals über einen sehr stark sowohl zeitlich als auch spektral variierenden Kanal betrachtet werden. Nachdem die psychoakustische Maskierungsschwelle abhängig von der Frequenz stark variieren kann, kann der Übertragungskanal im systemtheoretischen Sinne als stark frequenzabhängiger Kanal betrachtet werden.

Nachdem andererseits die psychoakustische Maskierungsschwel le auch sehr stark mit der Zeit variieren kann, d. h. ein normales Musikstück kann und wird auch ein zeitlich dynami sches Verhalten haben, ist der Übertragungskanal im sy stemtheoretischen Sinne auch stark zeitabhängig. Die Ab hängigkeit des Kanals von der Frequenz und von der Zeit wird allein durch das Audiosignal bestimmt, das ja die psychoaku stische Maskierungsschwelle festlegt.

Das Einbringen von Informationen in das Audiosignal kann so mit auch als ein Übertragen von Informationen über einen stark zeitlich und frequenzmäßig variierenden Kanal betrach tet werden, wobei das Audiosignal eine im allgemeinen farbi ge Störung darstellt, und die unterhalb der geschätzten Mas kierungsschwelle eingebrachten Informationen das Nutzsignal sind.

Optimal arbeitende Decoder, d. h. Vorrichtungen zum Ermit teln der Informationen aus dem Audiosignal benötigen dagegen möglichst glatte Eingangssignale bzw. Informationen über die Güte von Eingangssignalen, damit sie "unergiebige" Abschnit te entsprechend geringer gewichten, d. h. bei ihrer Ent scheidung weniger berücksichtigen, als "ergiebigere" Abschnitte.

Erfindungsgemäß wird daher eine Entzerrung des Audiosignals mit den eingebrachten Informationen aufgrund von psychoaku stischen Vorgaben vor dem Extrahieren der Informationen aus dem Audiosignal durchgeführt, um ein hinsichtlich der Ener gie des Wasserzeichens im Spektrum konstanteres Eingangssi gnal in den Korrelator zu erzeugen.

Gemäß der vorliegenden Erfindung soll der Einfluß der psy choakustischen Maskierungsschwelle, die stark von der Fre quenz abhängt, rückgängig gemacht werden bzw. zumindest ge lindert werden.

Dazu wird das Audiosignal mit den eingebrachten Informatio nen, wie es in Fig. 1 gezeigt ist, in eine Einrichtung 10 zum Transformieren des Audiosignals in den Frequenzbereich eingespeist. Die Einrichtung 10 zum Transformieren kann als Filterbank, als FFT-Block oder als etwas ähnliches ausge führt sein.

Darüberhinaus wird das Audiosignal in eine Einrichtung 13 zum Abschätzen einer audiosignalspezifischen Charakteristik, wie z. B. der pschoakustischen Maskierungsschwelle oder eines Tonalitätsmaßes, eingespeist. Je nach dem verwendeten psychoakustischen Modell wird die zeitliche Darstellung des Audiosignals oder die spektrale Darstellung des Audiosignals benötigt.

Anschließend wird das in den Frequenzbereich transformierte Audiosignal, d. h. die spektrale Darstellung desselben, in eine von der Einrichtung 13 angesteuerte Vorverarbeitungs einrichtung 12 geführt, um eine vorverarbeitete spektrale Darstellung am Ausgang des Einrichtung 12 zu erhalten, in der die spektrale Verteilung der Energie der in das Audio signal eingebrachten Informationen geglättet bzw. für den Korrelator konditioniert wird.

Die vorverarbeitete spektrale Darstellung wird schließlich mittels einer Einrichtung 14 zum Rücktransformieren von dem Frequenzbereich in den Zeitbereich eingespeist, um ein nun vorverarbeitetes Audiosignal zu erhalten, in das die Infor mationen eingebracht sind, wobei jedoch nun die spektrale Energieverteilung in dem vorverarbeiteten Audiosignal an den konstanten Wert zumindest angenähert ist.

Wenn das zeitliche Audiosignal vorverarbeitet wird, können die Einrichtungen 10 und 14 entfallen, wie es durch die gestrichtelten Linien 11 in Fig. 1 symbolisiert ist.

Dieses Annähern an einen konstanten Wert oder Konditionieren wird durch ein psychoakustisch gesteuertes Vorverarbeiten (12), z. B. durch ein inverses Manipulieren, durch ein Un terdrücken von Bändern mit sehr niedriger Energie, also durch ein Aussortieren von "Ausreißern", durch eine Kombi nation beider Verfahren oder durch ein anderes Vorverar beiten erreicht, das abhängig von einer audiosignalspezi fischen Charakteristik, die auf die Energie der eingebrach ten Informationen hinweist oder dieselbe maßgeblich bestimmt, wie z. B. die psychoakustische Maskierungsschwelle, auf die spektrale Verteilung der eingebrachten Informationen wirkt, um dieselbe für einen Korrelator günstig zu konditio nieren.

An dieser Stelle sei darauf hingewiesen, daß es für die vor liegende Erfindung nicht wesentlich ist, daß die spektrale Darstellung des Audiosignals unter Berücksichtigung der Maskierungsschwelle vorverarbeitet wird. Alternativ könnte auch das im Zeitbereich vorliegende Audiosignal z. B. durch ein Warp-Filter gefiltert, also vorverarbeitet werden, um das von der Maskierungsschwelle gesteuerte Manipulieren des Informationssignals beim Einbringen der Informationen zumin dest teilweise wenn nicht sogar vollständig rückgängig zu machen.

Analog zur Einrichtung 10 zum Transformieren kann die Ein richtung 14 zum Rücktransformieren ebenfalls als FFT-Block, als inverse Filterbank oder durch eine ähnliche Einrichtung ausgeführt sein.

Das vorverarbeitete Audiosignal am Ausgang der Einrichtung 14 zum Rücktransformieren wird schließlich in eine Einrich tung 16 zum Korrelieren bzw. Nachbearbeiten unter Verwendung der beim Einbringen der Informationen verwendeten Spreizse quenz korreliert und nachbearbeitet, um die eingebrachten Informationen zu erhalten.

Die Vorverarbeitungseinrichtung 12 kann beliebig ausgestal tet sein, so lange sie bewirkt, daß das vorverarbeitete Signal abhängig von der psychoakustischen Maskierungsschwel le, der Tonalität, etc. eine glattere spektrale Energiever teilung hinsichtlich der in das Audiosignal eingebrachten Informationen hat als das Signal am Eingang der Vorverarbei tungseinrichtung, um dem Korrelator im Block 16 die Arbeit zu erleichtern und/oder gegebenenfalls Störsignale vorzu enthalten.

Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung wird beim Vorverarbeiten eine komplette inverse psychoaku stische Manipulation durchgeführt, wie es in Fig. 3 darge stellt ist. Hierzu wird, wie es bereits ausgeführt worden ist, das Audiosignal mit den eingebrachten Informationen zunächst in eine Einrichtung zum Transformieren 10 einge speist, um eine spektrale Darstellung des Audiosignals mit den eingebrachten Informationen zu erzeugen. Daraufhin wird mit der spektralen Darstellung des Audiosignals, das die eingebrachten Informationen enthält, ein inverses Manipulie ren 12c abhängig von der psychoakustischen Maskierungs schwelle durchgeführt, die durch ein auch in der Vorrichtung zum Ermitteln bzw. Abschätzen der Informationen vorhandenes psychoakustisches Modell 13 ständig, also pro Block von Abtastwerden des Audiosignals abhängig von der Frequenz, berechnet wird.

Dazu wird das Audiosignal mit den eingebrachten Informatio nen vor der Einrichtung 10 zum Transformieren abgezweigt und in den Block 13 eingespeist. Das inverse Manipulieren 12c unter Verwendung der psychoakustischen Maskierungsschwelle führt dazu, daß am Ausgang ein vorverarbeitetes Audiosignal erzeugt wird, bei dem nun nicht zwingend die spektrale Ver teilung des Audiosignals einen identischen Wert hat, bei dem jedoch die spektrale Verteilung der in das Audiosignal ein gebrachten Informationen konstant ist, d. h. vollständig an den konstanten Wert angenähert ist.

Zum inversen Manipulieren kann der konstante Wert, auf den die spektrale Verteilung der Energie der in das Audiosignal eingebrachten Informationen angenähert werden soll, vorge geben werden. Durch die psychoakustische Maskierungsschwel le, die von dem psychoakustischen Modell 13 ständig als Energiewert für jedes gehörangepaßte Frequenzband, also für ein Frequenzband mit einer Bandbreite von 1 BARK, ausgegeben wird, weiß der Block 12c, wie hoch die Energie des Informa tionssignals in jedem Frequenzband ist, und wie stark dieses Frequenzband verstärkt werden muß, um die Energie der in das Audiosignal eingebrachten Informationen auf den konstanten Wert zu bringen.

Das Ausgangssignal des Blocks 12c kann unter Umgehung eines Blocks 18 zum Dämpfen tonaler Frequenzbänder, auf den später noch eingegangen wird, der Einrichtung 14 zum Rücktransfor mieren zugeführt werden, um dann eine Extraktion im Block 16 zu erreichen. Dadurch werden die eingebrachten Informationen erhalten. Der Block 16 wird dann problemlos arbeiten können, da zwar die Energie des Audiosignals nicht mehr vollständig konstant ist, aber nun die Energie der in das Audiosignal eingebrachten Informationen über der Frequenz, also in allen gehörangepaßten Frequenzbändern bzw. allgemein in Frequenz bändern des Audiosignals einen konstanten Wert hat.

Gemäß der vorliegenden Erfindung wird es jedoch bevorzugt, den Ausgang des Blocks 12c nicht direkt mit dem Eingang des Blocks 14 zu verbinden, sondern zusätzlich die tonalen Bän der des invers gewichteten Audiosignals mit den eingebrach ten Informationen zu dämpfen. Dazu muß bestimmt werden, wel che Frequenzbänder in dem Audiosignal tonal sind. Diese To nalitätsinformationen werden ebenfalls vorzugsweise durch das psychoakustische Modell 13 unter Verwendung der psycho akustischen Maskierungsschwelle berechnet.

Das Dämpfen tonaler Bänder durch den Block 18 hat den Vor teil, daß von dem Korrelator im Block 16 Störsignale abge halten werden, da tonale Signalanteile in der Regel nur sehr wenig eingebrachte Energie haben. Werden sie beim Korrelie ren überhaupt nicht berücksichtigt, so wird der Korrelator vor unnötigen Störsignalen geschützt. Eine bevorzugte Form des Dämpfens tonaler Frequenzbänder wird somit darin bestehen, tonale Frequenzbänder ab einem bestimmten Tonalitätsmaß vollständig zu Null zu setzen. Alternativ kann jedoch eine Skalierung durchgeführt werden, derart, daß eher atonale Frequenzbänder noch verstärkt werden, während eher tonale Frequenzbänder bereits gedämpft werden. Es muß also nicht eine Ja/Nein-Entscheidung durchgeführt werden, sondern es könnte auch eine kontinuierliche Skalierung abhängig von dem Tonalitätsmaß durchgeführt werden. Zwecks der Einfach heit der Implementation wird es jedoch bevorzugt, Frequenz bänder mit einem Tonalitätsmaß ab einer bestimmten Schwelle zu Null zu setzen.

In der Technik sind mehrere Arten und Weisen zum Berechnen der Tonalität, wie beispielsweise mittels Prädiktionsmetho den und Auswertung des Prädiktionsfehlers, etc., bekannt.

Bevorzugterweise wird das Audiosignal mit den eingebrachten Informationen einer Vorverarbeitung unterzogen, die entweder nur das inverse Manipulieren oder nur das Dämpfen der tona len Bänder oder aber auch beide Maßnahmen umfassen kann. Al ternativ können jedoch auch sämtliche anderen Vorverarbei tungsoperationen durchgeführt werden, mit denen unter Be rücksichtigung der psychoakustischen Eigenschaften des Audiosignals eine Energieverteilung der in das Audiosignal eingebrachten Informationen frequenzmäßig und bevorzugter weise auch zeitmäßig, also von Block zu Block, an einen kon stanten Wert zumindest angenähert wird.

Das in die Einrichtung 16 zum Extrahieren eingespeiste rück transformierte vorverarbeitete Audiosignal, in dem die tona len Frequenzbänder gedämpft bzw. unterdrückt sind, hat nun den Vorteil, daß in den Korrelator in der Einrichtung 16 zum Extrahieren lediglich Signale eingespeist werden, die einen signifikanten Informationsgehalt, d. h. ein gutes Signal/Störung-Verhältnis haben, während keine Signale mehr eingespeist werden, die nicht-signifikant sind, d. h. die ein schlechtes Signal/Störung-Verhältnis haben.

Das in Fig. 2 dargestellte Konzept des Dämpfens der tonalen Frequenzbänder im Decodierer bzw. in der Vorrichtung zum Ermitteln der Informationen läßt auch günstige Rückschlüsse auf einen verbesserten Codierer, d. h. auf eine verbesserte Vorrichtung zum Einbringen der Informationen zu. Wenn näm lich ohnehin bekannt ist, daß eine Vorrichtung zum Ermitteln der Informationen Energie in tonalen Frequenzbändern über haupt nicht berücksichtigt, so muß in die tonalen Frequenz bänder auch keine Energie eingebracht werden.

Dies hat den Vorteil, daß an besonders empfindlichen Stellen des Audiosignals, die tonale Frequenzbänder sind, keine Störenergie zugeführt wird, wodurch das Risiko vermieden wird, an diesen besonders empfindlichen Stellen die Audio qualität des Audiosignals hörbar zu beeinträchtigen.

Anhand von Fig. 3 wird im nachfolgenden auf eine solcher maßen verbesserte Wasserzeicheneinbringungsvorrichtung ein gegangen. Im einzelnen umfaßt der Block des Manipulierens 20 der in Fig. 3 gezeigten erfindungsgemäßen Vorrichtung zum Einbringen von Informationen einen ersten Block 20a zum Skalieren der Spektrallinien unter Berücksichtigung der psychoakustischen Maskierungsschwelle sowie einen zweiten Block 20b zum Zu-Null-Setzen der Energie des Informations signals in tonalen Bändern des Audiosignals. Das manipu lierte Informationssignal am Ausgang des Blocks 20 ent spricht dann dem Ausgangssignal des Blocks 106 der bekannten Vorrichtung, die in Fig. 5 gezeigt sind, jedoch mit dem wesentlichen Unterschied, daß in Frequenzbändern des manipulierten Informationssignals, die tonale Frequenzbänder des Audiosignals sind, keine Energie steckt. Dies wurde durch das nach dem Skalieren der Spektrallinien im Block 20a durchgeführte nachträgliche Zu-Null-Setzen tonaler Frequenzbänder im Block 20b erreicht. Allgemein kann somit gesagt werden, daß das spektrale gespreizte Informations signal nach dem Block 104 zum Transformieren (Fig. 5) mit der psychoakustischen Maskierungsschwelle gewichtet wird, wobei ferner das spektrale Tonalitätsmaß berücksichtigt wird, um das gewichtete Informationssignal zu erzeugen, bei dem die Energie der eingebrachten Informationen gleich oder unterhalb der Maskierungsschwelle liegt, und bei dem ein Spektralbereich, der ein Tonalitätsmaß hat, das auf eine geringe Tonalität hinweist, gegenüber einem spektralen Bereich des Audiosignals, der eine vergleichsweise hohe Tonalität hat, bei der Manipulation bevorzugt wird. Ein atonales Frequenzband wird dadurch bevorzugt, daß es mehr Energie enthält als ein tonales Frequenzband. Das tonale Frequenzband wird bei der Energieverteilung daher benachtei ligt und vorzugsweise so stark benachteiligt, daß es bei der Energieverteilung überhaupt nicht berücksichtigt wird, d. h. nach dem Gewichten keine Störenergie hat.

Im Gegensatz zu dem in Fig. 3 gezeigten Ausführungsbeispiel, bei dem die Energie des zusätzlichen Informationssignals zu nächst in das Spektrum eingebracht wird, um anschließend zu Null gesetzt zu werden, kann alternativ das in Fig. 4 ge zeigte Konzept verwendet werden, bei dem zunächst die spek tralen Bereiche, die im Audiosignal tonal sind, ermittelt werden (Block 22a), woraufhin nur die Spektrallinien ska liert werden, die in nicht-tonalen spektralen Bereichen lie gen, während die tonalen Spektrallinien des spektralen ge spreizten Informationssignals ohne vorherige Skalierung gleich zu Null gesetzt werden.

Das in Fig. 3 gezeigte Konzept verringert zwar die Energie pro Bit eingebrachter Informationen und verschlechtert da durch das Signal/Störung-Verhältnis insgesamt geringfügig. Da das Signal/Störung-Verhältnis in den tonalen Bereichen sowieso sehr gering ist, ist diese Verschlechterung aber nicht wesentlich.

Das zweite Verfahren vermeidet diese (kleine) Verschlechte rung dadurch, daß die gesamte Energie des spektralen ge spreizten Informationssignals in spektrale Bereiche des ge spreizten Informationssignals verteilt wird, die im Audiosi gnal nicht tonal sind.

Obwohl es im vorhergehenden nicht näher ausgeführt worden ist, ist es für die vorliegende Erfindung nicht wesentlich, auf welche Arten die von der Quelle für Informationen (100, Fig. 5) ausgegebenen Informationen verarbeitet werden. Sie können vor dem Transformieren und Manipulieren einer Kanalcodierung unterworfen werden, um mehrere Informa tionskanäle unabhängig voneinander decodieren zu können. In diesem Fall müssen für unterschiedliche Informationskanäle verwendete Spreizsequenzen möglichst orthogonal sein, um ei ne zuverlässige Trennung der Informationskanäle in einer Vorrichtung zum Ermitteln der Informationen erreichen zu können.

Für die dann verwendeten mehreren Spreizsequenzen bzw. für die bezugnehmend auf die Fig. 5 und 7 bzw. Fig. 1 darge stellte Spreizsequenz gilt, daß sogenannten Pseudo-Noise- Spreizsequenzen, die ein weißes Spektrum haben, im Hinblick auf die Qualität der im Empfänger erhaltenen Korrelatorer gebnisse optimal sein werden. Pseudo-Noise-Sequenzen werden daher als Spreizsequenzen bevorzugt, da sie im Falle einer Korrelation sehr deutliche Spitzen ergeben und im Falle ei ner nicht vorhandenen Korrelation sehr niedrige Ausgangssi gnale liefern, d. h. zu einem guten Signal/Störung-Verhält nis hinter dem Korrelator führen.

Claims

1. Verfahren zum Ermitteln von in ein Audiosignal einge brachten Informationen, die eine Energie aufweisen, mit folgenden Schritten:
Abschätzen (13) einer audiosignalspezifischen Charak teristik des Audiosignals, die auf ein Maß für die Energie der in das Audiosignal eingebrachten Informa tionen hinweist;
Vorverarbeiten (12) des Audiosignals auf der Basis der abgeschätzten audiosignalspezifischen Charakteristik, um die Energie der in das Audiosignal eingebrachten In formationen audiosignalspezifisch zu beeinflussen, so daß ein vorverarbeitetes Audiosignal erhalten wird; und
Extrahieren (16) der Informationen aus dem vorverarbei teten Audiosignal.

2. Verfahren nach Anspruch 1, bei dem die audiosignalspe zifische Charakteristik die psychoakustische Maskie rungsschwelle, das Verdeckungsmaß oder die Tonalität des Audiosignals ist.

3. Verfahren nach Anspruch 2, bei dem der Schritt des Vorverarbeitens des Audiosi gnals auf der Basis einer abgeschätzten psychoakusti schen Maskierungsschwelle als audiosignalspezifische Charakteristik so durchgeführt wird, daß die Energie der eingebrachten Informationen in dem vorverarbeiteten Audiosignal im Frequenzbereich weniger stark als in dem Audiosignal vor dem Schritt des Vorverarbeitens schwankt.

4. Verfahren nach Anspruch 2 oder 3, bei dem der Schritt des Vorverarbeitens des Audiosignals auf der Basis eines Tonalitätsmaßes des Audiosignals so durchgeführt wird, daß ein Anteil des Audiosignals, der ein Verhält nis der Energie der Informationen zu einer Energie des Audiosignals kleiner als einen vorbestimmten Schwellen wert hat, unterdrückt wird.

5. Verfahren nach einem der vorhergehenden Ansprüche, bei dem vor dem Schritt des Vorverarbeitens, ein Schritt des Überführens (10) einer zeitlichen Darstel lung des Audiosignals, in das die Informationen einge bracht sind, in eine spektrale Darstellung des Audio signals ausgeführt wird;
bei dem im Schritt des Vorverarbeitens eine vorverar beitete spektrale Darstellung des Audiosignals erzeugt wird,
bei nach dem Schritt des Vorverarbeitens, ein Schritt des Überführens (14) der vorverarbeiteten spektralen Darstellung in eine zeitliche Darstellung durchgeführt wird, und
bei dem die Informationen aus der zeitlichen Darstel lung des vorverarbeiteten Audiosignals extrahiert wird.

6. Verfahren nach Anspruch 5, bei dem im Schritt des Ab schätzens (13) einer audiosignalspezifischen Charak teristik des Audiosignals die psychoakustische Maskie rungsschwelle oder das Verdeckungsmaß als Funktion der Frequenz ermittelt wird, wobei jeweils ein Wert für die psychoakustische Maskierungsschwelle oder das Ver deckungsmaß pro einem Frequenzband erzeugt wird, wobei die spektrale Darstellung eine Mehrzahl von Frequenz bändern aufweist, bei dem im Schritt des Vorverarbeitens immer die Spek tralwerte der spektralen Darstellung gleich vorverarbeitet werden, die in einem Frequenzband liegen.

7. Verfahren nach Anspruch 1, bei dem der Schritt des Vor verarbeitens folgenden Schritt aufweist: inverses Manipulieren (12c) der spektralen Darstellung unter Verwendung der psychoakustischen Maskierungs schwelle oder des Verdeckungsmaßes, so daß die Mani pulation unter Verwendung der psychoakustischen Mas kierungsschwelle beim Einbringen der Informationen in das Audiosignal im wesentlichen rückgängig gemacht wird.

8. Verfahren nach Anspruch 5, das ferner folgenden Schritt aufweist:
Berechnen (13) eines spektralen Tonalitätsmaßes für das Audiosignal als audiosignalspezifische Charakteristik des Audiosignals, das die Tonalität des Audiosignals als Funktion der Frequenz angibt; und
bei dem der Schritt des Vorverarbeitens (12) folgenden Schritt aufweist:
Dämpfen (18) eines Abschnitts der spektralen Darstel lung, der ein Tonalitätsmaß hat, das einen hohen Grad an Tonalität anzeigt, gegenüber einem Abschnitt der spektralen Darstellung mit einem Tonalitätsmaß, das einen vergleichsweise niedrigen Grad an Tonalität an zeigt.

9. Verfahren nach Anspruch 8, bei dem der Schritt des Dämpfens (18) derart durchgeführt wird, daß Abschnitte des Audiosignals, die ein Tonalitätsmaß haben, das unter einem vorbestimmten Schwellenwert liegt, zu Null gesetzt werden.

10. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die in das Audiosignal eingebrachten Informationen durch Informationseinheiten dargestellt sind, die einer Spreizsequenz beaufschlagt worden sind, um ein ge spreiztes Informationssignal zu erzeugen, das nach ei ner Transformation in den Frequenzbereich mit dem Au diosignal gewichtet worden ist, wonach das gewichtete gespreizte Informationssignal mit dem Audiosignal kom biniert worden ist, um das Audiosignal zu erzeugen, in das die Informationen eingebracht sind, wobei der Schritt des Extrahierens der Informationen aus dem vor verarbeiteten Audiosignal folgenden Schritt aufweist: Korrelieren (16) des vorverarbeiteten Audiosignals mit der Spreizsequenz, um Korrelationsspitzen zu erzeugen, die die Informationseinheiten darstellen.

11. Verfahren zum Einbringen von Informationen, die Infor mationseinheiten aufweisen, in ein Audiosignal, mit folgenden Schritten:
Beaufschlagen (102) der Informationseinheiten mit einer Spreizsequenz, um ein gespreiztes Informationssignal zu erzeugen;
Berechnen (13) eines Tonalitätsmaßes oder eines Ver deckungsmaßes für das Audiosignal, das die Tonalität des Audiosignals angibt;
Manipulieren (20; 22) des gespreizten Informationssi gnals basierend auf dem Tonalitätsmaß oder dem Ver deckungsmaß, um ein manipuliertes Informationssignal zu erzeugen, wobei ein spektraler Bereich des manipulier ten Informationssignals, der ein Tonalitätsmaß hat, das das eine geringe Tonalität anzeigt, bzw. der ein kleines Verdeckungsmaß hat, gegenüber einem spektralen Bereich des Audiosignals, der ein Tonalitätsmaß hat, das eine vergleichsweise hohe Tonalität anzeigt, bzw. der ein hohes Verdeckungsmaß hat, bei der Manipulation bevorzugt wird; und
Kombinieren (112) des gewichteten Informationssignals mit dem Audiosignal.

12. Verfahren nach Anspruch 11, bei dem im Schritt des Ma nipulierens der spektrale Bereich des gespreizten In formationssignals, der einem spektralen Bereich des Audiosignals mit geringer Tonalität bzw. mit kleinem Verdeckungsmaß entspricht, überproportional bevorzugt wird.

13. Verfahren nach Anspruch 11 oder 12, bei dem das Tonalitätsmaß oder das Verdeckungsmaß ein spektrales Tonalitätsmaß bzw. spektrales Verdeckungsmaß ist, und bei dem das gespreizte Informationssignal vor der Mani pulation in eine spektrale Darstellung überführt wird, so daß die Manipulation mit der spektralen Darstellung des gespreizten Informationssignals durchgeführt wird.

14. Verfahren nach Anspruch 11, 12 oder 13, bei dem der Schritt des Manipulierens (20) folgende Schritte aufweist:
Manipulieren des gespreizten Informationssignals unter Verwendung der psychoakustischen Maskierungsschwelle oder des Verdeckungsmaßes, so daß der Energieverlauf des gespreizten Informationssignals der psychoaku stischen Maskierungsschwelle im wesentlichen folgt; und
Zu-Null-Setzen (20b) des manipulierten gespreizten In formationssignals in einem Bereich, in dem das Tonali tätsmaß des Audiosignals oder das Verdeckungsmaß über einem vorbestimmten Schwellenwert liegt.

15. Verfahren nach Anspruch 11, 12 oder 13, bei dem der Schritt des Manipulierens folgende Schritte aufweist:
Ermitteln (22a) eines Bereichs, der ein Tonalitätsmaß oder ein Verdeckungsmaß hat, das über einem vorbe stimmten Schwellenwert liegt; und
Skalieren nur der Spektrallinien in Bereichen des spektralen gespreizten Informationssignals, die ein Tonalitätsmaß oder Verdeckungsmaß unter der vorbe stimmten Schwelle haben, unter Verwendung der psycho akustischen Maskierungsschwelle oder des Verdeckungs maßes und Zu-Null-Setzen des ermittelten Bereichs im gespreizten Informationssignal, so daß die gesamte Energie des gespreizten Informationssignals in Bereiche des gewichteten Informationssignals eingebracht wird, in denen das Audiosignal ein Tonalitätsmaß oder ein Verdeckungsmaß unterhalb des vorbestimmten Schwellen werts hat.

16. Vorrichtung zum Ermitteln von in ein Audiosignal einge brachten Informationen, die eine Energie aufweisen, mit folgenden Merkmalen:
einer Einrichtung zum Abschätzen (13) einer audiosi gnalspezifischen Charakteristik des Audiosignals, die auf ein Maß für die Energie der in das Audiosignal ein gebrachten Informationen hinweist;
einer Einrichtung zum Vorverarbeiten (12) des Audiosi gnals auf der Basis der abgeschätzten audiosignalspezi fischen Charakteristik, um die Energie der in das Audiosignal eingebrachten Informationen audiosignalspe zifisch zu beeinflussen, so daß ein vorverarbeitetes Audiosignal erhalten wird; und
einer Einrichtung zum Extrahieren (16) der Informatio nen aus dem vorverarbeiteten Audiosignal.

17. Vorrichtung zum Einbringen von Informationen, die In formationseinheiten aufweisen, in ein Audiosignal, mit folgenden Merkmalen:
einer Einrichtung zum Beaufschlagen (102) der Informa tionseinheiten mit einer Spreizsequenz, um ein ge spreiztes Informationssignal zu erzeugen;
einer Einrichtung (13) zum Berechnen eines Tonalitäts maßes für das Audiosignal, das die Tonalität des Audio signals angibt;
einer Einrichtung zum Manipulieren (20; 22) des ge spreizten Informationssignals basierend auf dem Tonali tätsmaß oder dem Verdeckungsmaß, um ein manipuliertes Informationssignal zu erzeugen, wobei ein spektraler Bereich des manipulierten Informationssignals, der ein Tonalitätsmaß hat, das das eine geringe Tonalität an zeigt, bzw. der ein kleines Verdeckungsmaß hat, gegen über einem spektralen Bereich des Audiosignals, der ein Tonalitätsmaß hat, das eine vergleichsweise hohe Tona lität anzeigt, bzw. der ein hohes Verdeckungsmaß hat, bei der Manipulation bevorzugt wird; und
einer Einrichtung zum Kombinieren (112) des gewichteten Informationssignals mit dem Audiosignal.