JP4028676B2 - Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal - Google Patents

Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal Download PDF

Info

Publication number
JP4028676B2
JP4028676B2 JP2000245387A JP2000245387A JP4028676B2 JP 4028676 B2 JP4028676 B2 JP 4028676B2 JP 2000245387 A JP2000245387 A JP 2000245387A JP 2000245387 A JP2000245387 A JP 2000245387A JP 4028676 B2 JP4028676 B2 JP 4028676B2
Authority
JP
Japan
Prior art keywords
channel
specific information
information data
acoustic signal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000245387A
Other languages
Japanese (ja)
Other versions
JP2002062885A (en
Inventor
隆司 西
靖茂 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2000245387A priority Critical patent/JP4028676B2/en
Publication of JP2002062885A publication Critical patent/JP2002062885A/en
Application granted granted Critical
Publication of JP4028676B2 publication Critical patent/JP4028676B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

PROBLEM TO BE SOLVED: To easily and safely embed a large amount of information without entailing any sense of imcompatibility. SOLUTION: Digital sound signals of L and R channels are divided into frames of constant time length and the sound signal of the L channel is outputted as it is. According to the embedded data, an impulse response function is generated (8). Convolutional operation (10) between the L-channel sound signal and the impulse response function generated from the embedded data is carried out and the result is added to the R-channel sound signal (12) to generate an R-channel sound signal having the embedded data. The frames of the L and R channels are each put together and sent.

Description

【0001】
【発明の属する技術分野】
本発明は、音響信号伝送装置および音響信号伝送方法、ならびに、音響信号の埋め込みデータを抽出するデータ抽出装置およびデータ抽出方法に関するものである。
【0002】
さらに詳述すると本発明は、2チャンネルステレオデジタル音響信号に特定情報データを埋め込んで送出する音響信号伝送装置および音響信号伝送方法に関するものである。さらに、その他の本発明は、第1チャンネルデジタル音響信号と、特定情報データが埋め込まれた第2チャンネルデジタル音響信号とを入力して該特定情報データを抽出するデータ抽出装置およびデータ抽出方法に関するものである。
【0003】
【従来の技術】
デジタル音響信号に対して所定の情報を埋め込んで送信する従来技術としては、以下に列挙する技術が知られている。
【0004】
▲1▼デジタル音響データの下位ビットに所定の情報を埋め込む方法(特開平9−214636号公報参照)。
【0005】
▲2▼音響信号を周波数変換した後に、位相成分に所定の情報を埋め込む方法(日経エレクトロニクス1997年No.684,“電子透かしを支えるデータハイディング技術”参照)。
【0006】
▲3▼所定の情報をスペクトラム拡散させて周波数変換した音響信号に埋め込む方法(日経エレクトロニクス1997年No.684,“電子透かしを支えるデータハイディング技術”参照)。
【0007】
▲4▼インパルス応答の時間遅れパラメータを変えてエコーとして所定の情報を埋め込む方法(日経エレクトロニクス1997年No.684,“電子透かしを支えるデータハイディング技術”参照)。
【0008】
【発明が解決しようとする課題】
しかしながら、上述した▲1▼項〜▲4▼項に記載の従来技術は、以下の問題点を有していた。
【0009】
▲1▼項の従来技術は、情報が埋め込まれている位置を特定し易いため、改ざん等の操作に対する耐性が弱く、さらに伝送路の雑音の影響を受けやすいという欠点を持っている。
【0010】
▲2▼項の従来技術は、位相を変化させることによって生ずる歪み量がもとの音響信号の位相に依存していることから、所定の情報を聴感上分からないように埋め込むことが難しいという問題を含んでいる。
【0011】
▲3▼項の従来技術は、受信側で埋め込み情報を抽出するに際して、所定の情報に対応したデータが埋め込まれている位置を特定し、その基準となるタイミングを合わせることが難しく、これが可能な場合でも装置が大規模のものになってしまうという欠点を有している。
【0012】
▲4▼項の従来技術は、1フレーム(一連のデータ埋め込み処理を行うために分割された原信号の一部分であって、通常数秒〜数十秒程度の長さ)の中に1ビットしか埋め込むことができないため、埋め込むデータ量を多くできないという欠点を持っている。
【0013】
よって本発明の目的は、上述の点に鑑み、聴感上の違和感を招来することなく、多量の情報を容易かつ安全に埋め込むことができるようにした音響信号伝送装置および音響信号伝送方法、ならびに、音響信号の埋め込みデータを抽出するデータ抽出装置およびデータ抽出方法を提供することにある。
【0014】
より具体的には、本発明の目的は、以下に列挙する課題を全て同時に解決することにある。
(1)伝送による雑音の混入、操作に対する耐性に優れていること。
(2)データを埋め込んだ音響信号と原音響信号との間に聴感上の差が生じにくいこと。
(3)比較的簡単な処理により、特定情報の埋め込み、および、その情報の抽出ができること。
(4)埋め込めるデータ量が多いこと。
(5)埋め込んだデータの抽出時に、原音声を必要としないこと。
【0015】
【課題を解決するための手段】
上記の目的を達成するために、請求項1に係る本発明は、2チャンネルステレオデジタル音響信号に特定情報データを埋め込んで送出する音響信号伝送装置であって、入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む埋め込み手段と、入力された第2チャンネルのデジタル音響信号と前記埋め込み手段から出力されたデジタル音響信号とを合成して新たな第2チャンネルのデジタル音響信号を形成する合成手段と、前記入力された第1チャンネルのデジタル音響信号と、前記新たな第2チャンネルのデジタル音響信号とを2チャンネルステレオデジタル音響信号として送出する出力手段とを具備したものである。
【0016】
請求項2に係る本発明は、請求項1に係る音響信号伝送装置において、前記埋め込み手段は、前記特定情報データと所定の鍵データに基づいてインパルス応答関数を作成するインパルス応答作成手段と、前記入力された第1チャンネルのデジタル音響信号と前記インパルス応答関数とを畳み込み演算することにより前記特定情報データを埋め込んだデジタル音響信号を作成する畳み込み演算手段とを有する。
【0017】
請求項3に係る本発明は、2チャンネルステレオデジタル音響信号に特定情報データを埋め込んで送出するに際して、入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む第1ステップと、入力された第2チャンネルのデジタル音響信号と前記第1ステップにより得られたデジタル音響信号とを合成して新たな第2チャンネルのデジタル音響信号を形成する第2ステップと、前記入力された第1チャンネルのデジタル音響信号と前記新たな第2チャンネルのデジタル音響信号とを2チャンネルステレオデジタル音響信号として送出する第3ステップとを有する音響信号伝送方法である。
【0018】
請求項4に係る本発明は、請求項3に係る音響信号伝送方法において、前記入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む第1ステップは、前記特定情報データと所定の鍵データに基づいてインパルス応答関数を作成するインパルス応答作成ステップと、前記入力された第1チャンネルのデジタル音響信号と前記インパルス応答関数とを畳み込み演算することにより前記特定情報データを埋め込んだデジタル音響信号を作成する畳み込み演算ステップとを有する。
【0019】
請求項5に係る本発明は、第1チャンネルデジタル音響信号と特定情報データが埋め込まれた第2チャンネルデジタル音響信号とを入力して該特定情報データを抽出するデータ抽出装置であって、前記第1チャンネルデジタル音響信号と前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号との同期をとりながら該第1チャンネルデジタル音響信号と該第2チャンネルデジタル音響信号とを各別に予め定められた一定時間長からなるデータ列に順次分割する分離手段と、前記第1チャンネルデジタル音響信号および該第1チャンネルデジタル音響信号に対応する前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号を対象に、クロススペクトル法を用いて前記特定情報データに対応するインパルス応答関数を抽出して、特定情報データ埋め込み時の前記特定情報データと該インパルス応答関数の対応情報に基づき前記抽出したインパルス応答関数を前記特定情報データに逆変換する抽出手段とを具備したものである。
【0020】
請求項6に係る本発明は、第1チャンネルデジタル音響信号と特定情報データが埋め込まれた第2チャンネルデジタル音響信号とを入力して該特定情報データを抽出するに際して、前記第1チャンネルデジタル音響信号と前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号との同期をとりながら、該第1チャンネルデジタル音響信号と該第2チャンネルデジタル音響信号とを各別に予め定められた一定時間長からなるデータ列に順次分割する第1ステップと、前記第1チャンネルデジタル音響信号および該第1チャンネルディジタル音響信号に対応する前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号を対象に、クロススペクトル法を用いて前記特定情報データに対応するインパルス応答関数を抽出して、特定情報データ埋め込み時の前記特定情報データと該インパルス応答関数の対応情報に基づき前記抽出したインパルス応答関数を前記特定情報データに逆変換する第2ステップとを有するデータ抽出方法である。
【0021】
【発明の実施の形態】
実施の形態の概要
本実施の形態は、音響信号の識別・コピー保護に必要な情報(以下、「埋め込みデータ」という)を、「埋め込みデータ」に応じて生成したインパルス応答関数と音響信号との畳み込み処理により音響信号の中に埋め込み、聴感上の変化を生じにくいようにしたものである。「埋め込みデータ」は、そのデータを埋め込んだ音響信号から後述するクロススペクトル法を用いることによって抽出でき、電子透かしやデータベースのインデクス情報として使用できる。
【0022】
換言すると本実施の形態は、デジタル音響信号に対して、音響信号の識別・コピー保護に必要な情報を埋め込む技術および埋め込み済みの音響信号から「埋め込みデータ」を高い精度で抽出する具体的技術を開示している。
【0023】
実施の形態の詳細な説明
以下、図面を参照しながら、本実施の形態を詳細に説明する。
【0024】
図1は、本発明を適用した「埋め込みデータ」送信系のブロック構成を示す。本図において、4は「埋め込みデータ」入力部、6は鍵情報入力部、8はインパルス応答作成部、10は畳み込み演算部、12は合成部、16は「埋め込みデータ」の埋め込み処理を記憶プログラムに従って制御する制御部である。
【0025】
図2は、図1に示した各ブロックによって実行される「埋め込みデータ」埋め込み処理手順を示したフローチャートである。
【0026】
これら図1および図2を参照して、埋め込み側の処理を説明する。
【0027】
(ステップS1における処理)
(a)L,Rチャンネルデジタル音響信号を埋め込み側フレーム分割部(図示せず)で一定時間長(例えば、後述するように抽出時に十分なパルス列の推定が可能となるよう設定しておく)のフレームに順次に分割する。
(b)「埋め込みデータ」および鍵情報をインパルス応答作成部8に入力し、インパルス応答関数を作成する。このインパルス応答関数は、先頭フレームを基準とする遅れ時間がそれぞれ予め定められたシード番号の一様乱数系列であって、予め定められた振幅を持つ「埋め込みデータ」に対応したパルスから構成される。このシード番号は鍵情報として、抽出時に使用するために保管しておく。
(c)「埋め込みデータ」を符号化して作成したインパルス応答関数と、上記(a)で分割したフレーム毎のLチャンネル音響信号とを対象に、畳み込み演算部10で畳み込み演算を行い、データを埋め込んだ音響信号を作成する。
(d)フレーム毎に(a)〜(c)の処理を行う。
【0028】
(ステップS2における処理)
フレームごとに作成した埋め込み音響信号を、合成部12で時間軸方向に順次に合成し、データを埋め込んだ音響信号を作成する。
【0029】
なお、「埋め込みデータ」を埋め込む処理は、「埋め込みデータ」を抽出する確率を向上するため、および、音響信号の一部のみの不正使用に対する電子透かしの耐性を向上するためにも繰り返し行うことが望ましい。
【0030】
(ステップS3における処理)
Lチャンネル音響信号はそのままLチャンネル音響信号として、「埋め込みデータ」を埋め込んだ音響信号はRチャンネル音響信号として送信する。
【0031】
図3は、「埋め込みデータ」抽出系のブロック構成を示す。本図において、20は同期部、22および24はフレーム分割部、26は抽出部、28は「埋め込みデータ」の抽出処理を記憶プログラムに従って制御する制御部である。
【0032】
図4は、図3に示した各ブロックによって実行される「埋め込みデータ」抽出処理手順を示したフローチャートである。
【0033】
これら図3および図4を参照して、抽出側の処理を説明する。
【0034】
(ステップS11における処理)
Lチャンネル音響信号、および、「埋め込みデータ」を埋め込んだRチャンネル音響信号を入力する。
【0035】
(ステップS12における処理)
同期部20でRチャンネルの埋め込み音響信号とLチャンネル音響信号の相互相関を求め、波形を比較して大まかなタイミングをとり、さらに相互相関の時間差を詳細に変化させた結果を検討し、両信号の相互相関が最大となるタイミングを見つける。
【0036】
(ステップS13における処理)
ステップS12で見つけたタイミングを基準に両信号の同期をとりながら、埋め込み側で分割したフレームと同一となるように、データ埋め込み時のフレーム分割情報に基づき、フレーム分割部22,24でRチャンネルの埋め込み音響信号,Lチャンネル音響信号をフレームに分割する。
【0037】
(ステップS14における処理)
公知のクロススペクトル法を用いて、抽出部26でフレーム内の合成パルス列(「埋め込みデータ」)を抽出する。クロススペクトル法の処理を以下に詳述する。
【0038】
クロススペクトル法:フレーム内のLチャンネル音響信号x(n)と、この信号に合成パルス列(「埋め込みデータ」)d(n)を畳み込んだRチャンネル埋め込み音響信号y(n)の2つの信号を用いることにより、合成パルス列を統計的に推定する。
【0039】
【数1】
y(n)=d(n)*x(n) (1)
xi(n)=x((i-1)L+n),n=1,2,...,M (2)
yi(n)=y((i-1)L+n),n=1,2,...,M (3)
Xi(k)=FFT[w(n)xi(n)] (4)
Yi(k)=FFT[w(n)yi(n)] (5)
Sxx(k)=ΣXi(k) Xi(k) (6)
Sxy(k)=ΣXi(k) Yi(k) (7)
h(n)=IFFT[Sxy(k)/Sxx(k)] (8)
上式で*は畳み込み積分を表し、_は複素共役を表す。
【0040】
フレーム内に1ブロックM点(ブロック長M)から構成されるブロック信号x(n)とy(n)を定義し、そのブロック信号をフレーム先頭からL点ずつシフトした第i番目のブロックの2つの信号を式(2),式(3)のようにxi(n),yi(n)とする。第i番目のブロック信号はブロック両端の回り込み現象を低減するために、式(4),式(5)式のようにハミング窓等の重み付けw(n)を行う。
【0041】
Sxx、SxyはそれぞれLチャンネル音響信号の平均パワースペクトル、Lチャンネル音響信号とRチャンネル埋め込み音響信号の平均クロスパワースペクトルを表す。(8)式のh(n)は原合成パルス列d(n)を近似する推定パルス列である。平均回数をPとすると、(8)式の推定のために必要なデータ数は、((P−1)L+M)点である。
【0042】
「埋め込みデータ」の検出は、抽出したインパルス応答の音響信号の先頭フレームの時刻を基準として、遅れ時間が既知のシード番号の一様乱数に対応して設定した「埋め込みデータ」に対応する遅れ時間のパルスが存在するか否かを検討して行う。
【0043】
以上説明した埋め込み側,抽出側での処理をまとめると、次の通りである。
【0044】
埋め込み側での処理:
・L,Rチャンネルのデジタル音響信号を一定時間長のフレームに分割する。
【0045】
・Lチャンネルの音響信号はそのまま出力する。
【0046】
・「埋め込みデータ」に基づいてインパルス応答関数を作成する。
【0047】
・Lチャンネル音響信号と「埋め込みデータ」から作成したインパルス応答関数とを畳み込み演算し、これとRチャンネルの音響信号を加算合成することにより、「埋め込みデータ」が埋め込まれたRチャンネル音響信号を作成する。
【0048】
・L,Rチャンネルの各フレームを合成する。
【0049】
抽出側での処理:
・Lチャンネル音響信号とRチャンネル音響信号を同期させ、埋め込み時のフレーム分割情報を用いて埋め込み時と同一のフレームに分割する。
【0050】
・Lチャンネル音響信号と、それに対応するRチャンネル音響信号のフレームに対し、公知のクロススペクトル法を用いてそれぞれのインパルス応答関数を推定し、「埋め込みデータ」を抽出する。
【0051】
実施の形態による効果
本実施の形態によれば、以下に列挙する格別な効果を奏することができる。
【0052】
(i)遅れ時間が一様乱数をもとにした合成パルス列を構成することにより、「埋め込みデータ」を秘匿することができると同時に、特定の周波数で生じる振幅のピーク,ディップを軽減することができる。
【0053】
(ii)Lチャンネル音響信号と作成したインパルス応答を畳み込んで埋め込み音響信号を生成し、これをRチャンネル音響信号に加算合成して作成したRチャンネル音響信号と、Lチャンネル音響信号とを同時に聞いた場合、原音響信号と聴感上差が生じにくくすることが可能となる。また、人間の聴覚は時間軸方向に積分特性をもつため、作成したインパルス応答とLチャンネル音響信号とを畳み込んで作成した埋め込み音響信号と、Rチャンネル音響信号を加算合成して作成したRチャンネル音響信号において、聴感上エコーが聞こえにくく、埋め込み前のRチャンネル音響信号との差が検知されにくい。
【0054】
(iii)L,Rチャンネルの音響信号は同一の伝送系を通ることが多いと考えられるため、L,Rチャンネルの相関を利用した本実施の形態は伝送中のランダムに発生する雑音の混入等に対して大きな耐性を持つ。
【0055】
【発明の効果】
以上説明した通り、本発明によれば、聴感上の違和感を招来することなく、多量の情報を容易かつ安全に埋め込むことができるようにした音響信号伝送装置および音響信号伝送方法、ならびに、音響信号の埋め込みデータを抽出するデータ抽出装置およびデータ抽出方法を実現することができる。
【図面の簡単な説明】
【図1】本発明を適用した「埋め込みデータ」送信系のブロック構成図である。
【図2】図1に示した各ブロックによって実行される「埋め込みデータ」埋め込み処理手順を示したフローチャートである。
【図3】「埋め込みデータ」抽出系のブロック構成図である。
【図4】図3に示した各ブロックによって実行される「埋め込みデータ」抽出処理手順を示したフローチャートである。
【符号の説明】
4 「埋め込みデータ」入力部
6 鍵情報入力部
8 インパルス応答作成部
10 畳み込み演算部
12 合成部
16 制御部
20 同期部
22,24 フレーム分割部
26 抽出部
28 制御部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an acoustic signal transmission device and an acoustic signal transmission method, and a data extraction device and a data extraction method for extracting embedded data of an acoustic signal.
[0002]
More specifically, the present invention relates to an acoustic signal transmission apparatus and an acoustic signal transmission method for transmitting specific information data embedded in a two-channel stereo digital acoustic signal. Furthermore, the present invention relates to a data extraction apparatus and a data extraction method for inputting a first channel digital acoustic signal and a second channel digital acoustic signal in which specific information data is embedded and extracting the specific information data. It is.
[0003]
[Prior art]
The following techniques are known as conventional techniques for transmitting predetermined information embedded in a digital acoustic signal.
[0004]
(1) A method of embedding predetermined information in lower bits of digital audio data (see Japanese Patent Laid-Open No. 9-214636).
[0005]
(2) A method of embedding predetermined information in a phase component after frequency conversion of an acoustic signal (see Nikkei Electronics 1997 No. 684, “Data Hiding Technology that Supports Digital Watermarking”).
[0006]
(3) A method of embedding predetermined information in an acoustic signal that has been spectrum-spread and frequency-converted (see Nikkei Electronics 1997 No. 684, “Data Hiding Technology that Supports Digital Watermarking”).
[0007]
(4) A method of embedding predetermined information as an echo by changing the time delay parameter of the impulse response (see Nikkei Electronics 1997 No. 684, “Data Hiding Technology that Supports Digital Watermarking”).
[0008]
[Problems to be solved by the invention]
However, the conventional techniques described in the above items (1) to (4) have the following problems.
[0009]
The prior art of item (1) has the disadvantage that it is easy to specify the position where the information is embedded, so that the resistance to manipulation such as tampering is weak and it is easily affected by noise in the transmission path.
[0010]
In the prior art of item (2), the amount of distortion caused by changing the phase depends on the phase of the original acoustic signal, so that it is difficult to embed predetermined information in an audible manner. Is included.
[0011]
In the prior art of item (3), when embedding information is extracted on the receiving side, it is difficult to specify the position where the data corresponding to the predetermined information is embedded and to match the reference timing, and this is possible. Even in this case, there is a disadvantage that the apparatus becomes large-scale.
[0012]
In the prior art of item (4), only one bit is embedded in one frame (a part of the original signal divided for performing a series of data embedding processes, which usually has a length of several seconds to several tens of seconds). Since it cannot be performed, it has a drawback that the amount of data to be embedded cannot be increased.
[0013]
Therefore, in view of the above-described points, an object of the present invention is to provide an acoustic signal transmission device and an acoustic signal transmission method capable of easily and safely embedding a large amount of information without causing a sense of incongruity in hearing, and An object of the present invention is to provide a data extraction apparatus and a data extraction method for extracting embedded data of an acoustic signal.
[0014]
More specifically, an object of the present invention is to solve all the problems listed below at the same time.
(1) Excellent resistance to noise contamination and operation due to transmission.
(2) A difference in audibility is unlikely to occur between the acoustic signal in which the data is embedded and the original acoustic signal.
(3) The specific information can be embedded and the information can be extracted by a relatively simple process.
(4) The amount of data that can be embedded is large.
(5) The original voice is not required when extracting the embedded data.
[0015]
[Means for Solving the Problems]
In order to achieve the above object, the present invention according to claim 1 is an acoustic signal transmission apparatus that embeds specific information data in a two-channel stereo digital acoustic signal and sends it out, and the first channel digital acoustic signal is inputted. An embedding unit that embeds specific information data in a signal, and a synthesis that forms a new second channel digital acoustic signal by synthesizing the input second channel digital acoustic signal and the digital acoustic signal output from the embedding unit. Means, and an output means for sending out the input first channel digital sound signal and the new second channel digital sound signal as a two-channel stereo digital sound signal.
[0016]
According to a second aspect of the present invention, in the acoustic signal transmission device according to the first aspect, the embedding means creates an impulse response function based on the specific information data and predetermined key data, and Convolution operation means for creating a digital sound signal in which the specific information data is embedded by performing a convolution operation on the input digital acoustic signal of the first channel and the impulse response function.
[0017]
The present invention according to claim 3 includes a first step of embedding the specific information data in the input digital audio signal of the first channel when the specific information data is embedded in the 2-channel stereo digital audio signal and transmitted. A second step of synthesizing the digital audio signal of the second channel and the digital audio signal obtained in the first step to form a new digital audio signal of the second channel; and the input digital of the first channel An acoustic signal transmission method comprising: a third step of transmitting an acoustic signal and the new second channel digital acoustic signal as a two-channel stereo digital acoustic signal.
[0018]
According to a fourth aspect of the present invention, in the acoustic signal transmission method according to the third aspect, the first step of embedding specific information data in the input digital audio signal of the first channel includes the specific information data and a predetermined key. An impulse response creating step for creating an impulse response function based on the data, and a digital acoustic signal in which the specific information data is embedded by performing a convolution operation on the input digital acoustic signal of the first channel and the impulse response function A convolution calculation step to be created.
[0019]
According to a fifth aspect of the present invention, there is provided a data extracting apparatus for inputting the first channel digital acoustic signal and the second channel digital acoustic signal in which the specific information data is embedded, and extracting the specific information data, The first channel digital audio signal and the second channel digital audio signal are separately determined in advance while synchronizing the 1 channel digital audio signal and the second channel digital audio signal in which the specific information data is embedded. Separating means for sequentially dividing the data sequence into time lengths, and the second channel digital acoustic signal in which the first channel digital acoustic signal and the specific information data corresponding to the first channel digital acoustic signal are embedded, An impulse response function corresponding to the specific information data is extracted using a cross spectrum method. To, those provided with the extraction means for inverse transforming the impulse response function with the extraction based on the correspondence information of the specific information data and said impulse response function at the time of embedding specific information data to said specific information data.
[0020]
According to a sixth aspect of the present invention, when the first channel digital sound signal and the second channel digital sound signal embedded with the specific information data are input and the specific information data is extracted, the first channel digital sound signal is extracted. The first channel digital audio signal and the second channel digital audio signal have a predetermined length of time separately in synchronization with the second channel digital audio signal in which the specific information data is embedded. A first step of sequentially dividing the data sequence; and a cross-spectral method for the second channel digital acoustic signal in which the first channel digital acoustic signal and the specific information data corresponding to the first channel digital acoustic signal are embedded The impulse response function corresponding to the specific information data is extracted using A data extraction method and a second step of inversely transforming the impulse response function with the extraction based on the correspondence information of the specific information data and said impulse response function at the time of embedding specific information data to said specific information data.
[0021]
DETAILED DESCRIPTION OF THE INVENTION
Outline of the embodiment In this embodiment, an impulse response function generated in accordance with "embedded data" is generated from information (hereinafter referred to as "embedded data") necessary for acoustic signal identification and copy protection. It is embedded in the acoustic signal by convolution processing with the acoustic signal so as not to cause a change in audibility. The “embedded data” can be extracted from an acoustic signal in which the data is embedded by using a cross spectrum method, which will be described later, and can be used as digital watermark or database index information.
[0022]
In other words, the present embodiment provides a technique for embedding information necessary for identification and copy protection of a sound signal in a digital sound signal and a specific technique for extracting “embedded data” from an embedded sound signal with high accuracy. Disclosure.
[0023]
Detailed description of the embodiments <br/> below with reference to the accompanying drawings, this embodiment will be described in detail.
[0024]
FIG. 1 shows a block configuration of an “embedded data” transmission system to which the present invention is applied. In this figure, 4 is an “embedded data” input unit, 6 is a key information input unit, 8 is an impulse response creation unit, 10 is a convolution operation unit, 12 is a synthesis unit, and 16 is a storage program for embedding processing of “embedded data” It is a control part controlled according to.
[0025]
FIG. 2 is a flowchart showing the “embedded data” embedding processing procedure executed by each block shown in FIG.
[0026]
The process on the embedding side will be described with reference to FIG. 1 and FIG.
[0027]
(Processing in step S1)
(A) The L and R channel digital audio signals are set at a fixed time length (for example, set so that a sufficient pulse train can be estimated at the time of extraction) by an embedding frame dividing unit (not shown). Divide sequentially into frames.
(B) “Embedded data” and key information are input to the impulse response creating unit 8 to create an impulse response function. This impulse response function is composed of pulses corresponding to “embedded data” having a predetermined amplitude and a predetermined random number sequence with a predetermined seed number with respect to the first frame as a reference. . This seed number is stored as key information for use during extraction.
(C) The convolution calculation unit 10 performs a convolution operation on the impulse response function created by encoding “embedded data” and the L-channel acoustic signal for each frame divided in (a) above, and embeds the data. Create an acoustic signal.
(D) The processes (a) to (c) are performed for each frame.
[0028]
(Process in step S2)
The embedded acoustic signal created for each frame is sequentially synthesized in the time axis direction by the synthesis unit 12 to create an acoustic signal in which data is embedded.
[0029]
The process of embedding “embedded data” may be repeated to improve the probability of extracting “embedded data” and to improve the digital watermark resistance against unauthorized use of only a part of the acoustic signal. desirable.
[0030]
(Processing in step S3)
The L channel sound signal is transmitted as it is as the L channel sound signal, and the sound signal in which the “embedded data” is embedded is transmitted as the R channel sound signal.
[0031]
FIG. 3 shows a block configuration of an “embedded data” extraction system. In this figure, 20 is a synchronization unit, 22 and 24 are frame division units, 26 is an extraction unit, and 28 is a control unit that controls extraction processing of “embedded data” according to a storage program.
[0032]
FIG. 4 is a flowchart showing the “embedded data” extraction processing procedure executed by each block shown in FIG.
[0033]
With reference to FIG. 3 and FIG. 4, processing on the extraction side will be described.
[0034]
(Processing in step S11)
An L channel acoustic signal and an R channel acoustic signal in which “embedded data” is embedded are input.
[0035]
(Processing in Step S12)
The synchronization unit 20 obtains the cross-correlation between the R-channel embedded sound signal and the L-channel sound signal, compares the waveforms, takes a rough timing, and further examines the result of changing the time difference of the cross-correlation in detail. Find the timing that maximizes the cross-correlation.
[0036]
(Processing in step S13)
Based on the frame division information at the time of data embedding, the frame dividing units 22 and 24 set the R channel so as to be the same as the frame divided on the embedding side while synchronizing both signals based on the timing found in step S12. The embedded acoustic signal and the L channel acoustic signal are divided into frames.
[0037]
(Processing in step S14)
Using a known cross spectrum method, the extraction unit 26 extracts a composite pulse train (“embedded data”) in the frame. The processing of the cross spectrum method will be described in detail below.
[0038]
Cross-spectrum method: An L channel acoustic signal x (n) in a frame and an R channel embedded acoustic signal y (n) obtained by convolving a synthetic pulse train (“embedded data”) d (n) with this signal. By using it, the synthetic pulse train is estimated statistically.
[0039]
[Expression 1]
y (n) = d (n) * x (n) (1)
x i (n) = x ((i-1) L + n), n = 1,2, ..., M (2)
y i (n) = y ((i-1) L + n), n = 1,2, ..., M (3)
Xi (k) = FFT [w (n) x i (n)] (4)
Yi (k) = FFT [w (n) y i (n)] (5)
Sxx (k) = Σ Xi (k) Xi (k) (6)
Sxy (k) = Σ Xi (k) Yi (k) (7)
h (n) = IFFT [Sxy (k) / Sxx (k)] (8)
In the above equation, * represents a convolution integral, and _ represents a complex conjugate.
[0040]
Define block signals x (n) and y (n) consisting of 1 block M points (block length M) in the frame, and 2 of the i-th block obtained by shifting the block signals L points from the beginning of the frame. Assume that two signals are x i (n) and y i (n) as shown in equations (2) and (3). The i-th block signal is subjected to weighting w (n) such as a Hamming window as shown in equations (4) and (5) in order to reduce the wraparound phenomenon at both ends of the block.
[0041]
Sxx and Sxy represent the average power spectrum of the L channel acoustic signal and the average cross power spectrum of the L channel acoustic signal and the R channel embedded acoustic signal, respectively. In equation (8), h (n) is an estimated pulse train that approximates the original synthesized pulse train d (n). When the average number of times is P, the number of data necessary for the estimation of the equation (8) is ((P-1) L + M) points.
[0042]
The detection of “embedded data” is based on the time of the first frame of the extracted impulse response acoustic signal, and the delay time corresponding to the “embedded data” set corresponding to the uniform random number with a known seed number This is done by examining whether there are any other pulses.
[0043]
The processing on the embedding side and the extracting side described above is summarized as follows.
[0044]
Processing on the embedding side:
Divide the L and R channel digital audio signals into frames of a certain length of time.
[0045]
・ The sound signal of L channel is output as it is.
[0046]
Create an impulse response function based on “embedded data”.
[0047]
-Convolution of the L channel acoustic signal and the impulse response function created from "embedded data", and by adding and synthesizing this with the R channel acoustic signal, the R channel acoustic signal in which "embedded data" is embedded is created. To do.
[0048]
・ Synthesize the L and R channel frames.
[0049]
Processing on the extraction side:
The L channel sound signal and the R channel sound signal are synchronized and divided into the same frame as that at the time of embedding using the frame division information at the time of embedding.
[0050]
The respective impulse response functions are estimated using a known cross spectrum method for the L channel acoustic signal and the corresponding R channel acoustic signal frame, and “embedded data” is extracted.
[0051]
Effects according to the embodiment According to the present embodiment, the following special effects can be obtained.
[0052]
(I) By constructing a composite pulse train based on uniform random numbers, the “embedded data” can be concealed, and at the same time, amplitude peaks and dips occurring at specific frequencies can be reduced. it can.
[0053]
(Ii) The L channel acoustic signal and the created impulse response are convoluted to generate an embedded acoustic signal, which is added to the R channel acoustic signal and synthesized, and the R channel acoustic signal and the L channel acoustic signal are heard simultaneously. In this case, it is possible to make it difficult to produce a difference in audibility with the original sound signal. In addition, since human auditory sense has integral characteristics in the time axis direction, an R channel created by adding and synthesizing an embedded acoustic signal created by convolution of the created impulse response and an L channel acoustic signal and an R channel acoustic signal. In an acoustic signal, it is difficult to hear an echo for the sake of hearing, and a difference from an R channel acoustic signal before embedding is difficult to detect.
[0054]
(Iii) Since it is considered that acoustic signals of the L and R channels often pass through the same transmission system, the present embodiment using the correlation of the L and R channels is mixed with noise generated randomly during transmission, etc. Has great resistance to.
[0055]
【The invention's effect】
As described above, according to the present invention, an acoustic signal transmission device, an acoustic signal transmission method, and an acoustic signal that can embed a large amount of information easily and safely without causing a sense of incongruity in hearing. A data extraction apparatus and a data extraction method for extracting embedded data can be realized.
[Brief description of the drawings]
FIG. 1 is a block diagram of an “embedded data” transmission system to which the present invention is applied.
FIG. 2 is a flowchart showing an “embedded data” embedding process procedure executed by each block shown in FIG. 1;
FIG. 3 is a block configuration diagram of an “embedded data” extraction system;
4 is a flowchart showing an “embedded data” extraction processing procedure executed by each block shown in FIG. 3;
[Explanation of symbols]
4 “embedded data” input unit 6 key information input unit 8 impulse response creation unit 10 convolution operation unit 12 synthesis unit 16 control unit 20 synchronization unit 22, 24 frame division unit 26 extraction unit 28 control unit

Claims (6)

2チャンネルステレオデジタル音響信号に特定情報データを埋め込んで送出する音響信号伝送装置であって、
入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む埋め込み手段と、
入力された第2チャンネルのデジタル音響信号と、前記埋め込み手段から出力されたデジタル音響信号とを合成して、新たな第2チャンネルのデジタル音響信号を形成する合成手段と、
前記入力された第1チャンネルのデジタル音響信号と、前記新たな第2チャンネルのデジタル音響信号とを2チャンネルステレオデジタル音響信号として送出する出力手段と
を具備したことを特徴とする音響信号伝送装置。
An acoustic signal transmission apparatus that embeds specific information data in a two-channel stereo digital acoustic signal and sends it out.
An embedding means for embedding specific information data in the input digital audio signal of the first channel;
A synthesizing unit for synthesizing the input second channel digital audio signal and the digital audio signal output from the embedding unit to form a new second channel digital audio signal;
An acoustic signal transmission apparatus comprising: output means for transmitting the input first channel digital acoustic signal and the new second channel digital acoustic signal as a two-channel stereo digital acoustic signal.
請求項1に記載の音響信号伝送装置において、
前記埋め込み手段は、
前記特定情報データと所定の鍵データに基づいてインパルス応答関数を作成するインパルス応答作成手段と、
前記入力された第1チャンネルのデジタル音響信号と、前記インパルス応答関数とを畳み込み演算することにより、前記特定情報データを埋め込んだデジタル音響信号を作成する畳み込み演算手段とを有する
ことを特徴とする音響信号伝送装置。
The acoustic signal transmission device according to claim 1,
The embedding means is
Impulse response creating means for creating an impulse response function based on the specific information data and predetermined key data;
And a convolution operation means for generating a digital sound signal in which the specific information data is embedded by performing a convolution operation on the input digital audio signal of the first channel and the impulse response function. Signal transmission device.
2チャンネルステレオデジタル音響信号に特定情報データを埋め込んで送出するに際して、
入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む第1ステップと、
入力された第2チャンネルのデジタル音響信号と、前記第1ステップにより得られたデジタル音響信号とを合成して、新たな第2チャンネルのデジタル音響信号を形成する第2ステップと、
前記入力された第1チャンネルのデジタル音響信号と、前記新たな第2チャンネルのデジタル音響信号とを2チャンネルステレオデジタル音響信号として送出する第3ステップと
を有することを特徴とする音響信号伝送方法。
When embedding specific information data in a 2-channel stereo digital sound signal,
A first step of embedding specific information data in the input digital audio signal of the first channel;
A second step of synthesizing the input second channel digital audio signal and the digital audio signal obtained in the first step to form a new second channel digital audio signal;
An acoustic signal transmission method comprising: a third step of transmitting the input first channel digital acoustic signal and the new second channel digital acoustic signal as a two-channel stereo digital acoustic signal.
請求項3に記載の音響信号伝送方法において、
前記入力された第1チャンネルのデジタル音響信号に特定情報データを埋め込む第1ステップは、
前記特定情報データと所定の鍵データに基づいてインパルス応答関数を作成するインパルス応答作成ステップと、
前記入力された第1チャンネルのデジタル音響信号と、前記インパルス応答関数とを畳み込み演算することにより、前記特定情報データを埋め込んだデジタル音響信号を作成する畳み込み演算ステップとを有する
ことを特徴とする音響信号伝送方法。
The acoustic signal transmission method according to claim 3,
The first step of embedding specific information data in the input digital audio signal of the first channel includes:
An impulse response creating step for creating an impulse response function based on the specific information data and predetermined key data;
A convolution operation step of generating a digital audio signal in which the specific information data is embedded by performing a convolution operation on the input digital audio signal of the first channel and the impulse response function. Signal transmission method.
第1チャンネルデジタル音響信号と、特定情報データが埋め込まれた第2チャンネルデジタル音響信号とを入力して該特定情報データを抽出するデータ抽出装置であって、
前記第1チャンネルデジタル音響信号と前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号との同期をとりながら、該第1チャンネルデジタル音響信号と該第2チャンネルデジタル音響信号とを各別に予め定められた一定時間長からなるデータ列に順次分割する分離手段と、
前記第1チャンネルデジタル音響信号および該第1チャンネルデジタル音響信号に対応する前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号を対象に、クロススペクトル法を用いて前記特定情報データに対応するインパルス応答関数を抽出して、特定情報データ埋め込み時の前記特定情報データと該インパルス応答関数の対応情報に基づき前記抽出したインパルス応答関数を前記特定情報データに逆変換する抽出手段と
を具備したことを特徴とするデータ抽出装置。
A data extraction device that inputs a first channel digital sound signal and a second channel digital sound signal in which specific information data is embedded, and extracts the specific information data,
The first channel digital sound signal and the second channel digital sound signal are predetermined separately while synchronizing the first channel digital sound signal and the second channel digital sound signal in which the specific information data is embedded. Separating means for sequentially dividing the data string into a predetermined length of time,
An impulse corresponding to the specific information data using a cross spectrum method for the first channel digital audio signal and a second channel digital audio signal in which the specific information data corresponding to the first channel digital audio signal is embedded. Extraction means for extracting a response function and reversely converting the extracted impulse response function into the specific information data based on correspondence information between the specific information data and the impulse response function when the specific information data is embedded. Feature data extraction device.
第1チャンネルデジタル音響信号と、特定情報データが埋め込まれた第2チャンネルデジタル音響信号とを入力して該特定情報データを抽出するに際して、
前記第1チャンネルデジタル音響信号と前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号との同期をとりながら、該第1チャンネルデジタル音響信号と該第2チャンネルデジタル音響信号とを各別に予め定められた一定時間長からなるデータ列に順次分割する第1ステップと、
前記第1チャンネルデジタル音響信号および該第1チャンネルディジタル音響信号に対応する前記特定情報データが埋め込まれた第2チャンネルデジタル音響信号を対象に、クロススペクトル法を用いて前記特定情報データに対応するインパルス応答関数を抽出して、特定情報データ埋め込み時の前記特定情報データと該インパルス応答関数の対応情報に基づき前記抽出したインパルス応答関数を前記特定情報データに逆変換する第2ステップと
を有することを特徴とするデータ抽出方法。
When the first channel digital sound signal and the second channel digital sound signal embedded with the specific information data are input and the specific information data is extracted,
The first channel digital sound signal and the second channel digital sound signal are predetermined separately while synchronizing the first channel digital sound signal and the second channel digital sound signal in which the specific information data is embedded. A first step of sequentially dividing the data sequence into a predetermined length of time,
Impulse corresponding to the specific information data using a cross spectrum method for the first channel digital audio signal and the second channel digital audio signal in which the specific information data corresponding to the first channel digital audio signal is embedded A second step of extracting a response function and inversely converting the extracted impulse response function into the specific information data based on correspondence information between the specific information data and the impulse response function when the specific information data is embedded. A featured data extraction method.
JP2000245387A 2000-08-11 2000-08-11 Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal Expired - Fee Related JP4028676B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000245387A JP4028676B2 (en) 2000-08-11 2000-08-11 Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000245387A JP4028676B2 (en) 2000-08-11 2000-08-11 Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal

Publications (2)

Publication Number Publication Date
JP2002062885A JP2002062885A (en) 2002-02-28
JP4028676B2 true JP4028676B2 (en) 2007-12-26

Family

ID=18735924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000245387A Expired - Fee Related JP4028676B2 (en) 2000-08-11 2000-08-11 Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal

Country Status (1)

Country Link
JP (1) JP4028676B2 (en)

Also Published As

Publication number Publication date
JP2002062885A (en) 2002-02-28

Similar Documents

Publication Publication Date Title
KR100341197B1 (en) System for embedding additional information in audio data
CN1975859B (en) Audio processing method and device
KR101184568B1 (en) Late reverberation-base synthesis of auditory scenes
JP5406956B2 (en) System for extracting and modifying the echo content of an audio input signal
CN101160620B (en) Data embedding device, data embedding method, data extraction device, and data extraction method
US20030035553A1 (en) Backwards-compatible perceptual coding of spatial cues
JP2001527660A (en) Apparatus and method for embedding and extracting information in an analog signal using distributed signal features
JPS6216639A (en) Privacy telephone system
CN101297354A (en) Audio processing
JP2012509632A (en) Converter and method for converting audio signals.
CN102237093B (en) Echo hiding method based on forward and backward echo kernels
Lee et al. A new frequency domain speech scrambling system which does not require frame synchronization
Malik et al. Robust data hiding in audio using allpass filters
EP1493154A1 (en) Time domain watermarking of multimedia signals
Gupta Banik et al. Blind key based attack resistant audio steganography using cocktail party effect
Tai et al. Audio watermarking over the air with modulated self-correlation
JP4028676B2 (en) Acoustic signal transmission apparatus and acoustic signal transmission method, and data extraction apparatus and data extraction method for extracting embedded data of an acoustic signal
US20050147248A1 (en) Window shaping functions for watermarking of multimedia signals
Jinzai et al. Microphone position realignment by extrapolation of virtual microphone
TW201635275A (en) Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field
JP2000089796A (en) Device for embedding data in acoustic signal and data extracting device
Wu et al. Comparison of two speech content authentication approaches
Nishimura Data hiding in speech sounds using subband amplitude modulation robust against reverberations and background noise
JP2513404B2 (en) Confidential device
Lixin A new approach of data hiding within speech based on hash and Hilbert transform

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050401

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070919

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101019

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111019

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121019

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees