JP2006517035A - 信号処理 - Google Patents

信号処理 Download PDF

Info

Publication number
JP2006517035A
JP2006517035A JP2006502529A JP2006502529A JP2006517035A JP 2006517035 A JP2006517035 A JP 2006517035A JP 2006502529 A JP2006502529 A JP 2006502529A JP 2006502529 A JP2006502529 A JP 2006502529A JP 2006517035 A JP2006517035 A JP 2006517035A
Authority
JP
Japan
Prior art keywords
signal
information signal
information
processed
watermark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006502529A
Other languages
English (en)
Inventor
デル フェーン,ミネ ファン
エン レマ,アウェーケ
エフェ アプレア,ジャヴィエル
アー エム エル ブリューケルス,アルフォンス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of JP2006517035A publication Critical patent/JP2006517035A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00884Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm
    • G11B20/00891Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm embedded in audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

情報信号の処理方法は、信号変更処理を情報信号に適用することにより、処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御され、処理信号の知覚特性の程度を決めるように処理信号を情報信号と比較し、知覚特性の決められた程度に応じて該少なくとも一つの制御変数を調整する、ことを特徴とする。当該方法は、透かし埋め込み及び圧縮システムにおいて有利に使用される。それらシステムは、透かし埋め込み深さ又は圧縮率を制御するように人間の聴覚又は視覚システムのモデルを使用し、マスク対雑音比以外の他の人為的な影響を無視するので、しばしば一定の信号特性を保持し損ねる。

Description

本発明は、音声信号の符号化又は情報信号での透かしの埋め込みのような、情報信号の処理に関する。
音声信号、映像信号等のような情報信号の信号処理分野では、その処理の所望の効果と、認知可能な歪みを信号に持ち込まない一般の目的との間の適切な両立を達成することが、しばしば問題である。信号処理の実施例は、情報信号の符号化及び情報信号での透かしの埋め込みを有する。
音声符号化の分野で、音声信号の能率的な符号化は、符号化された信号から再構成される際に、音声信号の知覚特性を過度に劣化することを伴わずに要求される。
透かしの分野で、埋め込み透かしのローバスト性とその透明性との間の両立の制御が一般的な問題である。一方では、望ましいのは、符号化、補償等のような信号処理に対して頑丈である埋め込み透かしを得ることである。他方では、埋め込み透かしは、認知可能な歪み、例えば、可聴又は可視的な歪みを引き起こすようなやり方で、主たる信号を変更するべきではない。従って、情報信号の知覚特性は、影響を及ぼされるべきではない。
特に、音声信号に関する多くの透かし埋め込みの考えは、人間の聴覚システムのマスキングモデルを使用する。マスキング閾値は、不可聴式の埋め込みを依然として確実にする最大許容埋め込み強さに対応して決められる。従って、主たる音声信号に加えられるべき透かしエネルギーの量は、信号によって隠されうる雑音の量によって決められる。この無歪限界は、一般的にマスク対雑音比と呼ばれる。
ほとんどの透かし埋め込みシステムは、マスク対雑音比を決め、透かし埋め込みの発生又は主たる信号への透かしの混合を制御するように、特定の埋め込みモデルを使用する。一つは、これを二段処理として記述しても良い。即ち、a)透かしの埋め込みを可能にする無歪限界を決め、b)透かし発生及び混合段に特定の費用関数を導き、適用することである。これら段階の両方ともが、所謂透かし埋め込みモデルの部分である。
米国特許番号6,345,100は、音声信号での透かしの埋め込み方法を開示する。当該方法は、人間の聞き手によって感知できないような音声信号から基本信号を決めることを特徴とする。透かしは、基本信号に埋め込まれ、結果として生じる透かし信号は、音声信号に混ぜ合わされる。
このような従来技術のアプローチの欠点は、近似値及び不完全部をモデル化することによって、それらが所定の埋め込みモデルに対して情報信号の一定の知覚特性を維持しないことである。
本発明の目的は、処理された情報信号の知覚特性を改善することである。
上述及び他の問題は、情報信号を処理する方法によって解決される。当該方法は、
信号変更処理を情報信号に適用することにより、処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御され、
該処理信号の知覚特性の程度を決めるように、該処理信号を該情報信号と比較し、
知覚特性の該決められた程度に応じて該少なくとも一つの制御変数を調整することを特徴とする。
処理信号の知覚特性の程度を決め、信号変更処理を制御する変数を調整することによって、処理信号の知覚特性が改善される。
本発明の利点は、信号処理を制御する変数の自動制御が設けられ、それによって処理信号の一様な知覚特性が供給されることである。
情報信号という用語は、信号処理によって感知できるほどに歪められうる知覚特性を表わす如何なる信号も有する。このような信号の例は、音声信号、映像信号、多重媒体信号、画像を表わす信号等のようなものを有する。
信号変更処理という用語は、情報信号を変更し、情報信号によって表わされる情報コンテンツの感知可能な歪みを引き起こしうる如何なる処理をも有する。このような信号変更処理は、信号の符号化、情報、例えば透かしの埋め込みのような他の信号を有する情報信号の組み合わせ、等を有する。変更処理は、区分化、フーリエ変換又は他の信号変換、フィルタリング、混和、等の一つ又はそれ以上の補助処理を有する。
知覚特性の程度は、如何なる適切な量、変数、又は、信号変更処理によって引き起こされる情報信号の情報内容における感知可能な変化を表わすようなものを有しても良い。このような程度の例は、当該信号処理の人為的な影響を量子化する適切な費用関数を有する。音声信号の知覚特性の測定方法の例は、Thilio Thiede等著、ジェイ・オーディオ・エンジニアリング・ソサイアティ、2000年発行、“PEAQ−The ITU Standard for Objective Measurement of Perceived Quality(認知特性の対象測定に関するITU標準)”、Vol.48、No.1/2 で記述される。
本発明の更なる利点は、自動制御が知覚の程度に基づき、それによって知覚特性に影響を及ぼす信号処理の人為的な影響を考慮に入れることである。このような人為的影響の例は、値幅での変化、雑音ラウドネス非対称、時間的なマスキング作用、等のようなものを有する。
従って、人為的な影響が、実際の信号処理によって考えられるそれら以外で考えられうることが利点である。
処理信号を情報信号と比較するステップは、フィルタリング・ステップ、信号変換、例えばフーリエ変換、復号化ステップ、等のような一つ又は両方の信号に対する、一つ又はそれ以上の処理ステップを有しても良い。更に、比較のステップは、知覚特性の程度を決める如何なる適切な処理ステップを有しても良い。
制御変数の調整は、如何なる適切な制御機構、例えば、知覚特性の程度を対応する目標値と比較し、制御変数を相応に調整するか、あるいはそのような他のことを成されても良い。当該調整は、変数の増加、変数の減少を有しても良い。あるいは、当該調整は、普遍のままの変数を有しても良い。
制御変数の例は、透かし信号の埋め込み強さ、透かし信号のフレームに基づく埋め込み処理での埋め込みフレームサイズ、周波数/時間の割り当て、音声符号器での量子化装置のビット割り当てを制御する変数、等を有する。
好ましい実施例において、当該方法は、該情報信号を該情報信号の区分の系列に分け、
該信号変更処理を適用するステップで、該信号変更処理を該情報信号の該区分の第一の部分に適用することにより、該処理信号の第一の区分を得、
該処理信号を該情報信号と比較するステップで、該処理信号の該第一の区分を該情報信号の該第一の区分と比較し、
該信号変更処理の少なくとも一部分を該情報信号の該区分の第二の部分に適用することにより、該処理信号の第二の区分を得、該信号変更処理の該少なくとも一部分は、前記調整された少なくとも一つの制御変数によって制御されることを特徴とする。
従って、信号処理は、情報信号の区分で実行される。例えば、情報信号が、音声信号、映像信号、等のような時間の関数として信号を表わす時、信号処理はフレーム基準で実行されても良い。従って、信号は、区分の系列、所謂フレームに分けられ、個々のフレームは処理され、処理されたフレームは、結果として得られる処理信号に結合される。他の実施例、例えば情報信号が空間的な変数の関数である場合、同様の分割が、例えば、画像画素を表わす信号を画素の行系列に分ける、等のことによって実行されても良い。
その結果、処理信号を情報信号の対応する区分と比較することによって、信号処理を制御する制御変数は、夫々の区分に対して個々に調整されても良い。
情報信号の第一及び第二の区分は同じ、あるいは異なる長さを有しても良いことが理解される。
調整された変数は、後の区分、望ましくは区分の系列での次の区分の処理で用いられても良い。従って、この場合、情報信号の第二の区分は、情報信号の区分の系列での情報信号の第一の区分に続く区分であり、それによって自己校正制御機構の特に単純な実行をもたらす。
他の好ましい実施例において、情報信号の第二の区分は、情報信号の第一の区分であり、情報信号の第一の区分は、処理信号の情報信号との比較及び少なくとも一つの制御変数の調整のためのステップの持続期間を補償するように遅らせられる。従って、この二段フィードフォワードの実施例によれば、制御変数の調整の基準であった区分は遅らされ、調整された制御変数に基づく信号処理は、第一の信号区分に適用される。従って、調整は、次の区分に対する調整の影響を遅らせることよりむしろ、すでに現在の信号区分に影響を与える。
結果として、制御変数の調整と、結果として得られる処理信号の特性での変化との間の夫々の遅延は取り除かれ、それによって、処理信号の知覚特性を更に改善する。この実施例の更なる利点は、例えば、音声のような非定常信号の場合において、制御フィードバックの見込まれる不安定性を回避し、それによって信号の処理の特性を更に改善することである。
他の好ましい実施例によれば、更に当該方法は、
前記処理信号の前記情報信号との比較及び前記少なくとも一つの制御変数の調整のためのステップの持続期間を補償するように、前記情報信号を遅らせ、
前記信号変更処理の少なくとも一部分を該遅れた情報信号に適用することにより、変更された処理信号を得、該信号変更処理の該少なくとも一部分は、該調整された少なくとも一つの制御変数によって制御されることを特徴とする。
従って、調整された制御変数を用いる信号変更処理の少なくとも一部分を、遅れた情報信号に適用することによって、制御変数の調整と、結果として得られる処理信号の特性での変化との間の夫々の遅延は取り除かれ、それによって処理信号の知覚特性を更に改善する。
信号変更処理の少なくとも一部分は、調整された変数に基づいて実行される全体の信号変更処理を構成する。あるいは、それは、制御変数によって影響を及ぼされない透かし発生段階のような一つ又はそれ以上の他の補助処理の結果を再利用する一方で、例えば、混和又は埋め込み段階のような、信号変更処理の一つまたはそれ以上の補助処理を構成する。この状態で、更に能率的な処理が、更に少ない構成要素を用いて実行されても良い。
上述のように、本発明の一つの実施例によれば、情報信号の処理は情報信号での透かしの埋め込みを有し、該透かしは透かし埋め込みモデルによって発生する。
その結果、本発明の好ましい実施例において、信号変更処理は、
透かし埋め込みモデルによって透かし信号を決め、
該決められた透かし信号を該情報信号に埋め込む。
透かし埋め込みモデル及び/又は埋め込みは、本発明によって調整されうる一つ又はそれ以上の制御変数によって制御されても良く、それによって埋め込み処理の特性を更に改善する。
本発明の利点は、主たる信号、即ち透かしが埋め込まれている信号の特有の特性とは無関係に、一様な知覚特性で透かす埋め込みを提供することである。
更に好ましい実施例によれば、信号変更処理は、
透かし埋め込みモデルによって透かし信号を決め、
該決められた透かし信号を前記情報信号に埋め込み、
該決められた透かし信号の埋め込みステップで、前記少なくとも一つの制御変数によって制御され、該情報信号に該信号変更処理の少なくとも一部を適用するステップは、
該情報信号を遅らせることにより、遅延信号を得、
該決められた透かし信号を該遅延信号に埋め込み、該埋め込みは、前記調整された少なくとも一つの制御変数によって制御される。
従って、この実施例によって、二段フィードフォワード処理は、上述されているように用いられ、埋め込みの補助処理は制御変数によって制御され、それによって能率的で安定した埋め込み処理を提供し、結果として、高く、一様な知覚特性を有する情報信号を得る。
本発明の他の好ましい実施例によれば、情報信号は音声信号であり、信号変更処理は音声符号化処理を有する。
従って、音声符号化方法は、高く、一様な特性を有する符号化された音声信号を結果として得ることを提供する。
更に好ましい実施例によれば、情報信号は音声信号であり、信号変更処理は、
音声信号を符号化するビット割り当て形式を決め、
該決められたビット割り当てによって該音声信号の量子化を実行することにより、量子化信号を得る、音声符号化処理を有し、
前記処理信号を該情報信号と比較するステップで、
該量子化信号から該音声信号を再構成し、
該再構成された信号を該音声信号と比較し、
前記少なくとも一つの制御変数を調整するステップで、該ビット割り当てを調整し、
該情報信号に該信号変更処理の少なくとも一部分を適用するステップで、
該音声信号を遅らせることにより、遅延信号を得、
該調整されたビット割り当てによって該遅延信号の量子化を実行することにより、処理量子化信号を得る。
従って、能率的で安定した二段フィードフォワード符号化処理が提供される。
以上及び以下で記述されている方法の特徴は、ソフトウェアで実施され、データ処理システム、又はコンピュータの実行可能な命令の実行によって生じる他の処理手段で実施される。該命令は、記憶媒体から、又はコンピュータ・ネットワークを介する他のコンピュータから、RAMのようなメモリーに取り込まれたプログラム符号手段であっても良い。あるいは、記述されている特徴は、ソフトウェアに代わってハードウェアによって、あるいはソフトウェアと組み合わせて実行されても良い。
本発明は、以上及び以下で記述されている方法、配置、及び更なる製品手段を有する様々なやり方で実行され得、夫々は、最初に記述された方法に関連して記述された一つ又はそれ以上の利益及び利点をもたらし、夫々は、最初に記述された方法に関連して記述され、従属の請求項で開示されている好ましい実施例に対応する一つ又はそれ以上の好ましい実施例を有する。
本発明は、情報信号の処理用配置に更に関連しており、当該配置は、
信号変更処理を情報信号に適用することにより、処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御される信号処理手段と、
該処理信号の知覚特性の程度を決めるように、該処理信号を該情報信号と比較する手段と、
知覚特性の該決められた程度に応じて、該少なくとも一つの制御変数を調整する手段とを有する。
ここで、信号処理という用語は、処理信号を情報信号と比較する手段、及び上述の機能を実行するように適切に整合された適切な回路及び/又は装置に対応する制御変数を調整する手段を意味する。特に、上述の用語は、一般的な、又は特別な目的のプログラム可能マイクロプロセッサ、デジタル信号処理装置(DSP)、特定用途向け集積回路(ASIC)、プログラム可能論理配列(PLA)、領域プログラム可能ゲート配列(FPGA)、特別な目的の電子回路等、又はそれらの組み合わせを有する。
更に、本発明は、以上及び以下で記述されているような配置を有する装置に関する。
更に、本発明は、以上及び以下で記述されているような方法のステップを実行することによって発生する処理された情報信号に関する。
該処理された情報信号は、搬送波、例えば電磁波での信号として具現化されても良い。更に、情報信号は、記憶媒体で具現化されても良い。
記憶媒体の例は、磁気テープ、光ディスク、デジタル・ビデオ・ディスク(DVD)、コンパクト・ディスク(CD又はCD-ROM)、ミニ・ディスク、ハードディスク、強誘電メモリー、EPROM、読み出し専用メモリー(ROM)、スタティック・ランダム・アクセス・メモリー(SRAM)、ダイナミック・ランダム・アクセス・メモリー(DRAM)、シンクロナス・ダイナミック・ランダム・アクセス・メモリー(SDRAM)、強磁性メモリー、光記憶装置、電荷結合素子、スマートカード、PCMCIAカード、等を有する。
本発明のこれら及び他の様態を、図を参照して以下で記述されている実施例から明らかにする。
注意すべきは、図中で、ブロック間の点線は一般に制御ラインを示し、一方ボックス間の実線は一般にデータラインを示すことである。
図1は、本発明の実施例による信号処理用配置の概略ブロック図を示す。該配置は、情報信号xを受け取る信号処理ユニット(SPU)を有し、情報信号xに信号変更処理を適用することにより出力信号yを生じ、信号yを出力する。信号処理ユニットの信号変更は、特性評価ユニット(QAU)102によって発生する一つ又はそれ以上の制御変数によって制御され、信号処理ユニットに入力される。情報信号x及び出力信号yは、特性評価ユニット102に入力される。特性評価ユニット102は、処理信号yを情報信号xと比較し、情報信号に対して比較された処理信号の知覚特性、即ち、情報信号の受取手が加工信号yの歪み又は他の特性劣化を認知する範囲の程度を決める。情報信号の知覚特性は、一つ又はそれ以上の変数、例えば、非線形歪み、高調波歪み、変調偏差、マスク対雑音比、音声信号のラウドネス非対称、等によって量子化される。
処理信号yの決められた知覚特性に基づいて、特性評価ユニットは、信号処理ユニットを制御する制御変数を表わす制御信号103を発生する。従って、オンライン式の自己校正用信号処理が供給される。
図2a及びbは、本発明の他の実施例による信号処理用配置の概略ブロック図を示す。
図2aによる配置は、第一の信号処理ユニット(SPU1)201、特性評価ユニット(QAU)202、及び第二の信号処理ユニット(SPU1)203を有する二段フィードフォワード回路として実行される。第一の信号処理ユニット201は、情報信号xを受け取り、対応する処理信号204を発生する。信号処理ユニット201は、制御変数pの初期設定値によって制御される。処理信号は、特性評価ユニット202に入力される。更に、特性評価ユニットは、上述と同じように、情報信号xを受け取り、処理信号204の知覚特性の決定に基づく制御信号206を発生する。
この実施例によれば、特性評価ユニット202によって発生する制御信号は、第二の信号処理ユニット203に入力される。第二の信号処理ユニット203はまた、情報信号xを受け取り、第一の信号処理ユニット201と同じ信号変更処理をそれに適用する。しかし、第二の信号処理ユニット203は、初期設定変数pの代わりに、制御信号206によって制御される。第二の信号処理ユニットはこのようにして、結果として得られる処理信号の知覚特性に関して、最適化された変更処理を適用する。第二の信号処理ユニットによって発生する処理信号yは、このようにして配置の出力を構成する。
一つの実施例において、初期設定値pは、例えば、特性評価ユニット202の出力に基づいて、あるいは他の制御機構によって、静的にというよりむしろ動的に選ばれても良い、ということが知られる。
図2bによる配置は、二つの異なる信号処理ユニット(SPU1、2)201、207を有する二段フィードフォワード回路として表わされている。第一の信号処理ユニット201は、上述と同じように、情報信号xに信号処理を実行する。結果として得られる信号は、処理信号204の知覚特性の決定に基づいて制御信号206を発生する特性評価ユニット202に送られる。
この実施例によれば、第二の信号処理ユニット207は、信号処理ユニット201によって実行される信号処理の一部を実行するのみである。従って、この実施例によれば、第一の信号処理ユニット201は、第二の信号処理ユニット207に信号205を転送する。信号205は、制御変数p及び206の夫々によって影響されない第一の処理段の結果を表わす。第二の信号処理ユニット207は、最適化された206によって制御される信号処理の第二の部分を実行するのみであり、結果として最終的な処理信号yを得る。この実施例の利点は、信号処理ステップの不必要な繰り返しが無効にされ、それによって処理時間および構成要素の必須の複雑さを減らすことである。
上述の実施例は、様々な構成要素によって持ち込まれる遅延を補償する遅延回路のような、付加的な構成要素を有しても良い。
図3は、本発明の実施例による情報信号での透かしの埋め込み用配置のブロック図である。配置は、音声信号xを受け取り、音声信号に透かしを埋め込み、結果として得られる透かし入り音声信号yを発生する、透かし埋め込み器301を有する。透かし埋め込み器301は、音声信号xを受け、埋め込まれるべき情報を表わす透かしwに基づいて埋め込み信号304を発生する透かし発生モジュール(WG)302を有する。透かし発生モジュール302は、音声信号xを受け取り、音声信号xから導かれる所定の費用関数を決定し、透かし発生モジュール302を制御する制御信号306を発生する埋め込みモデルブロック(EM)305によって制御される。例えば、制御信号は、異なる周波数、信号の分割のウィンドウサイズ、等のような、透かし発生処理の一つ又はそれ以上の特性を制御する変数を有する。更に、透かし埋め込み器は、音声信号xを受け取る混合用モジュール(MX)303を有し、透かし信号304は、透かし発生モジュール302によって発生する。混合用モジュールは、音声信号x及び透かし信号304を混合し、結果として透かし入り信号yを得る。更に、埋め込みモデル305は、混合用モジュール303に入力され、透かし信号及び音声信号の混合を制御する、制御信号313を発生する。例えば、埋め込みモデルは、音声信号の特性に基づいて、音声信号に加えられるべき透かしエネルギーの量、例えば、信号によって隠されうる雑音の量を決定しても良い。この無歪限界は、一般的にマスク対雑音比と呼ばれる。
本発明によれば、音声信号xは、埋め込み器301によって持ち込まれる遅延を補償するために、遅延(D)314によって遅らせられる。遅延音声信号315及び透かし入り信号yは、特性評価ユニット(QAU)307に入力される。特性評価ユニット307は、透かし入り信号y及び遅延音声信号315を比較し、制御ユニット(CTR)308に、対応する一連の特性変数を渡す。例えば、特性評価ユニット307は、例えば、Thilio Thiede等著、J・オーディオ・エンジニアリング・ソサイアティ、2000年発行、“PEAQ−The ITU Standard for Objective Measurement of Perceived Quality(認知特性の対象測定に関するITU標準)”、Vol.48、No.1/2
で記述されているように、透かしシステムの人為的な影響、又は更に複雑なシステムを量子化する費用関数を実行しても良い。特性変数309は、透かし入り音声信号yの知覚特性を量子化する。このような特性変数の例は、非線形歪み、高調波歪み、変調偏差、マスク対雑音比、ラウドネス非対称、等を有する。
制御ユニット308は、埋め込み器301の設定を制御する適切な制御変数に特性変数309を変換する。制御ユニットは、制御信号310、311、及び312を、混合用モジュール303、透かし発生モジュール302、及び埋め込みモデル305に夫々入力する。夫々の制御信号は、制御ユニットによって発生する、一つ又はそれ以上の制御変数を有する。例えば、制御変数は、透かし埋め込み強さ、フレームサイズ、時間/周波数割り当て、等の埋め込み変数、又は上述の変数の組み合わせを制御しても良い。例えば、測定される特性が低い場合、埋め込みモデル及び/又は透かし発生モジュール及び/又は混合用モジュールは、透かし入り信号の特性を改善する方向で調整される。他方では、特性が更に強い埋め込みを可能にするほど十分に高い場合、設定は、音声信号に埋め込まれるべき更なる透かしエネルギーを可能にするように調整され、それによって埋め込まれた透かしのローバスト性を改善する。
特性変数の制御変数への上述の変換は、単純な拡大縮小、混合行列のような他の単純な変換関数、及び/又は、神経回路網、統計的方法等のような更に複雑な変換を有しても良い。
従って、この実施例において、調整された制御変数は、音声信号の後の部分に対する埋め込み設定を決めるために使用される。例えば、音声信号がフレームに分割され、透かしが夫々のフレームに埋め込まれる、フレームに基づかれる埋め込みシステムでは、透かし入り信号の所定のフレームの特性に基づいて調整される制御変数は、後のフレームの透かしの埋め込みに適用される。
代わりの実施例において、埋め込みモデルは、透かし発生モジュール及び混合用モジュールのうち、一つのみを制御することが知られる。同様に、代わりの実施例において、制御ユニットは、透かし埋め込み器のモジュールのうち一つ又は二つのみに、制御変数を送っても良い。
図4は、本発明の他の実施例による情報信号での透かしの埋め込み用配置のブロック図を示す。この実施例による配置は、二段フィードフォワード機構を実行する。
配置は、埋め込みモデル(EM)405、透かし発生モジュール(WG)402、及び混合用モジュール(MX)403を有する透かし埋め込み器401を有する。埋め込み器401は、音声信号xに透かしwを埋め込み、上述の図3での埋め込み器301と関連して記述されているように、結果として透かし入り信号y’を得る。透かし入り信号y’は、音声信号xから適切な遅延(D1)414によって発生する遅延音声信号415と、透かし入り信号y’を比較する特性評価ユニット(QAU)407に入力される。上述の図3の特性評価ユニット307及び制御ユニット308に関連して記述されているように、特性評価ユニット407は、一連の特性変数409を発生し、それらを制御ユニット(CTR)408に入力し、制御ユニットは、一連の制御変数410を発生する。
この実施例によれば、制御ユニットは、埋め込み器401を制御するのではなく、離れた混合用モジュール(MX)421を制御する。混合用モジュール421は、埋め込み器401及び特性評価ユニット407及び制御ユニット408によって持ち込まれる遅延を補償するために、遅延(D1、D2)414及び425によって適切に遅らせられる、遅延音声信号420を受け取る。更に、混合用モジュール421は、透かし発生モジュール402によって発生し、遅延(D2)424によって遅らせられる、透かし信号404に対応する遅延透かし信号423を受け取る。遅延424は、特性評価ユニット407及び制御ユニット408によって持ち込まれる遅延を補償し、遅延透かし信号423は、混合用モジュール421に入力される。更に、混合用モジュール421は、混合処理を制御する埋め込みモデル405によって発生する制御信号413を受け取る。再度、制御信号は遅延424によって遅らせられ、結果として遅延制御信号422を得る。混合用モジュールは、制御変数410及び埋め込みモデルからの遅延制御信号422によって、遅延透かし信号423と遅延音声信号420を混合し、結果として、配置の出力を構成する透かし入り信号yを得る。
従って、この実施例によれば、埋め込み処理の混合段は繰り返され、繰り返し段の混合変数は、最初の混合後に決められる知覚変数による制御回路によって設定される。
この実施例の利点は、制御変数と制御されたシステムとの間での夫々の遅延を取り去ることにより、埋め込みシステムの改善された制御が供給されることである。その結果、透かし入り信号の知覚特性は更に改善され、非安定フィードバックシステムの危険は取り除かれる。
このようなフィードフォワードシステムは、一反復フィードバックシステムと等価であることが知られる。制御変数と信号自体との間の遅延は補償される。
従って、上述の実施例において、自己校正埋め込みシステムは、透かし入り信号の一様な特性を供給することを明らかにする。透かしの強さ及び/又は埋め込み演算手順の設定は、一様な音声特性を保つように、特性評価を用いて断続的に調整される。
図5は、本発明の実施例による音声符号化用配置のブロック図を示す。配置は、音声信号xを符号化する音声符号器501を有する。音声符号器は、例えば人間の聴覚システムの音響心理学モデルに基づく、符号器モデル(CM)505を有する。符号器モデル505は、量子化モジュール(Q1)502に入力される、ビット割り当てパターン506を発生する。更に、音声符号器は、量子化モジュール502の出力から音声信号を再構成する、再構成モジュール((Q1)-1)503を有する。再構成モジュールはまた、符号器モデル505からビット割り当てパターンを受け取ることが分かる。再構成された音声信号x’は、遅延回路(D1)514によって適切に遅らせられた元の音声信号を、再構成された音声信号x’と比較し、制御ユニット(CTR)508に入力される対応する特性変数509を発生する、特性比較ユニット(QAU)507に入力される。量子化制御変数は、第二の量子化モジュール(Q2)521に入力される。第二の量子化モジュールは、遅延(D1、D2)514及び515による適切な遅延後、音声信号xを受け取る。更に、第二の量子化モジュールは、遅延(D2)524による適切な遅延後、符号器モデル505から出力506を受け取る。第二の量子化モジュール521は、制御ユニット508から受け取られた制御変数に基づいて、改善されたビット割り当てで、改善された量子化を実行する。最後に、第二の量子化モジュールの出力529は、符号器(ENC)530で符号化され、結果としてビットストリーム信号yを得る。
従って、上述において、自己校正音声符号器が明らかにされている。上述の配置は、一般的な、又は特別な目的のプログラム可能マイクロプロセッサ、デジタル信号処理装置(DSP)、特定用途向け集積回路(ASIC)、プログラム可能論理配列(PLA)、領域プログラム可能ゲート配列(FPGA)、特別な目的の電子回路等、又はそれらの組み合わせとして、実行されても良いことが知られる。
注目すべきは、本発明は上述の実施例に限定されず、当業者が請求項の範囲から外れずに他の多数の実施例を設計可能であることである。
例えば、上述において、本発明は、主に音声信号に関して記述されている。しかし、本発明は、映像信号、多重媒体信号、画像等のような、他の情報信号に適用されても良いことが分かる。
本発明は、下記の通りに要約されうる。信号変更処理を情報信号に適用し、結果として処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御され、処理信号の知覚特性の程度を決めるために処理信号を情報信号と比較し、知覚特性の決められた程度に応じて前記少なくとも一つの制御変数を調整することを特徴とする、情報信号の処理方法が開示されている。当該方法は、透かしの挿入及び圧縮システムにおいて有利に使用される。これらシステムは、透かし埋め込み深さ又は圧縮率を制御するために人間の聴覚又は視覚システムのモデルを使用し、それらはマスク対雑音比以外の人為的な影響を無視するので、しばしば一定の信号特性を保ち損ねる。
請求項において、カッコ内の如何なる参照符も、請求範囲を限定するように解釈されない。語“有する”は、請求項に挙げられた以外の要素、又はステップの存在を除外するわけではない。序数のない用語は、複数の要素の存在を除外するわけではない。
本発明は、幾つかの明確な要素を有するハードウェアによって、且つ、適切にプログラムされたコンピュータによって実行されうる。幾つかの手段を列挙する請求範囲において、それら手段の幾つかは、一つ及びハードウェアの同じ項目によって具現化される。特定の方法が互いに異なる従属請求項でのみ列挙されている事実が、これら方法の組み合わせが有利になるように使用されえないということを示すわけではない。
本発明の実施例による信号処理用配置の概略ブロック図を示す。 本発明の他の実施例による信号処理用配置の一例の概略ブロック図を示す。 本発明の他の実施例による信号処理用配置の一例の概略ブロック図を示す。 本発明の実施例による情報信号での透かしの埋め込み用配置のブロック図を示す。 本発明の他の実施例による情報信号での透かしの埋め込み用配置のブロック図を示す。 本発明の十知れによる音声符号化用配置のブロック図を示す。

Claims (13)

  1. 信号変更処理を情報信号に適用することにより、処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御され、
    該処理信号の知覚特性の程度を決めるように、該処理信号を該情報信号と比較し、
    知覚特性の該決められた程度に応じて該少なくとも一つの制御変数を調整する、
    ことを特徴とする情報信号の処理方法。
  2. 該情報信号を該情報信号の区分の系列に分け、
    該信号変更処理を適用するステップで、該信号変更処理を該情報信号の該区分の第一の部分に適用することにより、該処理信号の第一の区分を得、
    該処理信号を該情報信号と比較するステップで、該処理信号の該第一の区分を該情報信号の該第一の区分と比較し、
    該信号変更処理の少なくとも一部分を該情報信号の該区分の第二の部分に適用することにより、該処理信号の第二の区分を得、該信号変更処理の該少なくとも一部分は、前記調整された少なくとも一つの制御変数によって制御される、
    ことを特徴とする請求項1記載の方法。
  3. 該情報信号の該第二の区分は、該情報信号の区分の前記系列での該情報信号の該第一の区分に続く区分である、ことを特徴とする請求項2記載の方法。
  4. 該情報信号の該第二の区分は、該情報信号の該第一の区分であり、該情報信号の該第一の区分は、前記処理信号の該情報信号との比較及び前記少なくとも一つの制御変数の調整のための前記ステップの持続期間を補償するように遅れる、
    ことを特徴とする請求項2記載の方法。
  5. 前記処理信号の前記情報信号との比較及び前記少なくとも一つの制御変数の調整のためのステップの持続期間を補償するように、前記情報信号を遅らせ、
    前記信号変更処理の少なくとも一部分を該遅れた情報信号に適用することにより、変更された処理信号を得、該信号変更処理の該少なくとも一部分は、該調整された少なくとも一つの制御変数によって制御される、
    ことを特徴とする請求項1記載の方法。
  6. 該信号変更処理は、
    透かし埋め込みモデルによって透かし信号を決め、
    該決められた透かし信号を該情報信号に埋め込む、
    ことを特徴とする請求項1乃至5のうちいずれか一項記載の方法。
  7. 該信号変更処理は、
    透かし埋め込みモデルによって透かし信号を決め、
    該決められた透かし信号を前記情報信号に埋め込み、
    該決められた透かし信号の埋め込みステップで、前記少なくとも一つの制御変数によって制御され、該情報信号に該信号変更処理の少なくとも一部を適用するステップで、
    該情報信号を遅らせることにより、遅延信号を得、
    該決められた透かし信号を該遅延信号に埋め込み、該埋め込みは、前記調整された少なくとも一つの制御変数によって制御される、
    ことを特徴とする請求項4又は5記載の方法。
  8. 該情報信号は音声信号であり、該透かし埋め込みモデルは人間の聴覚システムの音響心理学モデルを有する、ことを特徴とする請求項6又は7記載の方法。
  9. 該情報信号は音声信号であり、前記信号変更処理は音声符号化処理を有する、ことを特徴とする請求項1乃至5記載のうちいずれか一項記載の方法。
  10. 該情報信号は音声信号であり、該信号変更処理は、
    音声信号を符号化するビット割り当て形式を決め、
    該決められたビット割り当てによって該音声信号の量子化を実行することにより、量子化信号を得る、音声符号化処理を有し、
    前記処理信号を該情報信号と比較するステップで、
    該量子化信号から該音声信号を再構成し、
    該再構成された信号を該音声信号と比較し、
    前記少なくとも一つの制御変数を調整するステップで、該ビット割り当てを調整し、
    該情報信号に該信号変更処理の少なくとも一部分を適用するステップで、
    該音声信号を遅らせることにより、遅延信号を得、
    該調整されたビット割り当てによって該遅延信号の量子化を実行することにより、処理量子化信号を得る、
    ことを特徴とする請求項4又は5記載の方法。
  11. 信号変更処理を情報信号に適用することにより、処理信号を得、該信号変更処理は少なくとも一つの制御変数によって制御される信号処理手段と、
    該処理信号の知覚特性の程度を決めるように、該処理信号を該情報信号と比較する手段と、
    知覚特性の該決められた程度に応じて、該少なくとも一つの制御変数を調整する手段とを有する情報信号処理用配置。
  12. 請求項11による配置を有する装置。
  13. 請求項1乃至10のうちいずれか一項記載の方法によって発生する、処理された情報信号。
JP2006502529A 2003-02-07 2004-01-20 信号処理 Withdrawn JP2006517035A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03100259 2003-02-07
PCT/IB2004/050036 WO2004070704A1 (en) 2003-02-07 2004-01-20 Signal processing

Publications (1)

Publication Number Publication Date
JP2006517035A true JP2006517035A (ja) 2006-07-13

Family

ID=32842821

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006502529A Withdrawn JP2006517035A (ja) 2003-02-07 2004-01-20 信号処理

Country Status (8)

Country Link
US (1) US20060140406A1 (ja)
EP (1) EP1595246B1 (ja)
JP (1) JP2006517035A (ja)
KR (1) KR20050098893A (ja)
CN (1) CN1748246A (ja)
AT (1) ATE391987T1 (ja)
DE (1) DE602004012971T2 (ja)
WO (1) WO2004070704A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114432A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2499967A1 (en) * 2002-10-15 2004-04-29 Verance Corporation Media monitoring, management and information system
TWI332367B (en) * 2007-07-02 2010-10-21 Inventec Corp Method and equipment for monitoring tone quality of audio player and broadcast system
US8718145B1 (en) * 2009-08-24 2014-05-06 Google Inc. Relative quality score for video transcoding
KR101223163B1 (ko) 2011-05-17 2013-01-17 래드손(주) 재처리를 방지하는 오디오 신호 처리 장치, 오디오 인코딩 및 디코딩 시스템
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing
CN113724686B (zh) 2021-11-03 2022-04-01 中国科学院自动化研究所 编辑音频的方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5559900A (en) * 1991-03-12 1996-09-24 Lucent Technologies Inc. Compression of signals for perceptual quality by selecting frequency bands having relatively high energy
FR2749723B1 (fr) * 1996-06-06 1998-09-04 France Telecom Procede et dispositif de codage en compression d'un signal numerique
US6061793A (en) * 1996-08-30 2000-05-09 Regents Of The University Of Minnesota Method and apparatus for embedding data, including watermarks, in human perceptible sounds
US5848155A (en) * 1996-09-04 1998-12-08 Nec Research Institute, Inc. Spread spectrum watermark for embedded signalling
US7373513B2 (en) * 1998-09-25 2008-05-13 Digimarc Corporation Transmarking of multimedia signals
US6345100B1 (en) * 1998-10-14 2002-02-05 Liquid Audio, Inc. Robust watermark method and apparatus for digital signals
US6219634B1 (en) * 1998-10-14 2001-04-17 Liquid Audio, Inc. Efficient watermark method and apparatus for digital signals
US7142691B2 (en) * 2000-03-18 2006-11-28 Digimarc Corporation Watermark embedding functions in rendering description files
AU8491001A (en) * 2000-08-16 2002-02-25 Dolby Lab Licensing Corp Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US6763067B2 (en) * 2000-10-10 2004-07-13 Sarnoff Corporation Rate control for bitstream re-encoding
AU2002232817A1 (en) * 2000-12-21 2002-07-01 Digimarc Corporation Methods, apparatus and programs for generating and utilizing content signatures

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008114432A1 (ja) * 2007-03-20 2008-09-25 Fujitsu Limited データ埋め込み装置、データ抽出装置、及び音声通信システム

Also Published As

Publication number Publication date
WO2004070704A1 (en) 2004-08-19
DE602004012971T2 (de) 2009-05-20
ATE391987T1 (de) 2008-04-15
DE602004012971D1 (de) 2008-05-21
CN1748246A (zh) 2006-03-15
KR20050098893A (ko) 2005-10-12
EP1595246B1 (en) 2008-04-09
US20060140406A1 (en) 2006-06-29
EP1595246A1 (en) 2005-11-16

Similar Documents

Publication Publication Date Title
USRE48045E1 (en) Encoding device and decoding device
KR102115358B1 (ko) 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP6588899B2 (ja) オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
TWI417872B (zh) 修改型離散餘弦轉換領域之音訊信號響度測量及修改技術
DE60114638T2 (de) Modulation eines oder mehrerer parameter in einem wahrnehmungsgebundenen audio- oder video-kodiersystem in antwort auf zusätzliche information
JP6517723B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
US5299238A (en) Signal decoding apparatus
JPH03132228A (ja) 直交変換信号符号化復号化方式
IL201469A (en) Formulation of a temporary envelope for spatial drilling using WIENER DOMAIN filter for frequency
AU2015238519A1 (en) Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
RU2612584C2 (ru) Управление фазовой когерентностью для гармонических сигналов в перцепционных аудиокодеках
MX2007010636A (es) Dispositivo y metodo para generar una senal estereofonica codificada de una pieza de audio o corriente de datos de audio.
US11545166B2 (en) Using metadata to aggregate signal processing operations
PL207861B1 (pl) Sposób wytwarzania kodowanych sygnałów akustycznych w telekomunikacji
JP2006517035A (ja) 信号処理
JP2006293400A (ja) 符号化装置および復号化装置
CN111292756A (zh) 一种抗压缩音频无声水印嵌入和提取方法及系统
CN111968654A (zh) 一种自适应混合域音频水印嵌入方法
TW202223881A (zh) 固定頻寬音訊資料的有損或無損壓縮的動態切換方法
JP2002135715A (ja) 電子透かし埋め込み装置
Kalantari et al. Intelligent decoding for mean quantization based audio watermarking in the wavelet transform domain

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070117

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090723