JP3355521B2 - 音声符号化時の透かしビットの埋込方法 - Google Patents
音声符号化時の透かしビットの埋込方法Info
- Publication number
- JP3355521B2 JP3355521B2 JP11585498A JP11585498A JP3355521B2 JP 3355521 B2 JP3355521 B2 JP 3355521B2 JP 11585498 A JP11585498 A JP 11585498A JP 11585498 A JP11585498 A JP 11585498A JP 3355521 B2 JP3355521 B2 JP 3355521B2
- Authority
- JP
- Japan
- Prior art keywords
- key
- embedding
- watermark
- equation
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
声符号の一部を利用して電子透かしを密かに埋込む方法
に関する。
的な技術として、波形の振幅をサンプリング定理に基づ
いて量子化する線形パルス符号化(Pulse Cod
eModulation:以下、PCMと記載する)方
式が知られている。又、このPCM方式により得られた
複数のデジタル波形値をフレームとしてまとめ、そのフ
レームごとに音声符号を生成する手法の一つに符号励振
線形予測(CodeExcited Lincar P
rediction Audio Codes:以下、
CELPと記載する)が知られている。更に、このCE
LPについては、国際的な標準化組織であるITUによ
り、ITU−勧告G.729 8kbit/s CS−
ACELP(Conjugate Structure
Algebraic CELP)が発表されており、
この勧告はCELPを原理とする符号化法の一つで、大
幅に符号量を削減しているにも関わらず高音質な音声を
再生できる技術に関するものである。
よる音声の伝送では、伝送先で完全な音声を容易に複製
できるため、著作者や制作者或いは演奏者等の著作権保
護については逆に難しくなるという問題が指摘されてい
る。この著作権保護の対策として、デジタル符号による
デジタルメディアの不正コピーを特定するための著作権
情報(電子透かし)を、人間の知覚のあいまいさを利用
して埋込む試みが行われている。(例:松井甲子雄:デ
ィジタル透かし、画像電子学会誌,Vol.26,N
o.3,pp.266−274,1997)
信号を埋込むことについては、Boney等により、聴
感的マスキング現象を利用した電子透かしの埋込み法が
提案されている。(Boney他:Digital w
atermarks foraudio signal
s,Proc.of the Internation
al Conference on Multimed
ia Computing and Systems,
pp.473−480,1996)また、松井等によ
り、電子化雑音に見せかけて文書データを埋込み伝送す
る方法が提案されている。(松井甲子雄 他:適応差分
PCM符号化における音声符号へのテキスト情報の埋込
み、情報処理学会誌、Vol.38,No.10,p
p.2053−2061,1997)
(勧告)G.726に対して電子透かしを埋込む巧みな
方法も提案されている。(岩切宗利 他:適応差分PC
M符号化における音声符号へのテキスト情報の埋込み、
情報処理学会論文誌、Vol.38,No.10.p
p.2053−2061,1997)
たBoney等や松井等の提案する方法では、第3者に
埋込み位置が特定される可能性が有り、さらには音声デ
ータの配布や保存の際に施される大幅な符号圧縮で透か
し情報が消失することもあると考えられる。又、勧告
G.726については、上記したように岩切等により巧
みな電子透かしの埋込方法が提案されているが、勧告
G.729についてはそのような巧みな電子透かしの埋
込方法提案されていない。そこで、本発明の目的は、勧
告G.726について岩切等により示された方法とは異
なる方法により、勧告G.729について、圧縮された
状態の音声符号に、電子透かしを埋込む方法と、その電
子透かしの存在を隠すための簡単な方法を提供すること
にある。
の本発明の基本的なアイデアは、デジタル音声データを
符号化する際に用いられるマルチパルス音源の構造に着
目し、その合成過程においてビット系列化されたデータ
を埋込むものである。その際、埋込を施す音声符号を不
特定に選択し、埋込の規則を変化させることによって、
埋込の存在を隠すことができる。
帳を用いて音声をデジタル符号化して送信する際に透か
しビットを埋め込む方法であって、前記固定符号帳にお
ける隣接した複数のパルス位置の候補に「1」か「0」
かの割り当てを行い、該パルス位置の候補を「1」か
「0」かにより選択する第1の鍵を定め、送信音声符号
中の透かしを埋込むビット位置には、前記第1の鍵によ
って選択されたパルス位置を用いることを特徴とし、デ
ジタル音声データを符号化する際に用いられる固定符号
帳(マルチパルス音源)の構造に着目し、その合成過程
においてビット系列化されたデータを埋込むものであ
る。
発明において、前記固定符号帳において、前記パルス位
置の候補の所定数の合計値の取り得る値の各々に対して
「1」か「0」かの割り当てを行い、前記透かしの埋込
の実施と非実施を前記合計値が「1」か「0」かにより
選択する第2の鍵を定め、出力音声符号からフィードバ
ックにより得られた前記合計値を前記第2の鍵に対応さ
せて、前記透かしの埋め込みを実施することを特徴と
し、透かしの埋込みを施す音声符号を不特定に選択する
ようにしたことで、第3者が透かし情報を含む音声符号
を特定することが難しくなり、第3者による鍵の解析さ
れる可能性を減らすことができる。
発明において、前記第1の鍵における「1」と「0」の
割り当てと逆の割り当てをした第3の鍵を定め、前記パ
ルス位置の候補の所定数の合計値が偶数値であるか奇数
値であるかを検出し、前記合計値の偶数値と奇数値の各
々に同一の鍵となることがないように前記第1の鍵と前
記第3の鍵の一方を対応させ、送信音声符号中の透かし
を埋込むビット位置には、前記第1の鍵または前記第3
の鍵によって選択されたパルス位置を用いることを特徴
とし、透かしの埋込みの規則を変化させることで、長期
間にわたって同じ鍵を使用しても鍵を解析される可能性
を減らすことができる。
実施形態を説明する。本実施形態では、まず、「I.勧
告G.729の概要」を説明し、次に、「II.埋込み
方法」(請求項1に対応したマルチパルス音源を利用し
てテキストビット系列を音声符号に埋込む方法)、その
次に、「III.秘匿性の向上方法」(請求項2と3の
埋込みの存在を隠して鍵の解析を難しくする方法)、更
に、「IV.探索アルゴリズム」(埋込のためのパルス
位置を探索する実際の動作のアルゴリズム)、「V.実
験結果」という順に説明する。
−T勧告G.729の概要を簡単に説明する。尚、本願
発明の目的は上記したように、勧告G.729のように
固定符号帳を用いて圧縮された状態の音声符号に電子透
かしを埋込む方法と、その電子透かしの存在を隠すため
の簡単な方法を提供することであり、勧告G.729を
詳しく説明することが目的ではないので、本明細書にお
ける以下のITU−T勧告G.729の説明では、IT
U−T勧告G.729の本質的な構成や動作として必要
な部分であっても、本発明に関係の薄い部分は削除して
説明している。従って、本明細書における勧告G.72
9の説明で不十分な部分については、勧告G.729の
本文を参照いただきたい。
−代数的符号励振線形予測符号化方式(以下、CS−A
CELP方式と記す)で音声のコーデックを行ってい
る。1フレームの長さは、10ミリ秒でその中に80点
の標本点を有する。サブフレームの長さは、5ミリ秒で
その中に40点の標本点を有する。ビットレートは、8
kビット/秒である。即ち、音声はサンプリングされ
て、各フレームごとに80ビットの音声符号が生成さ
れ、8kビット/秒のビットレートで送出される。
29では、32kビット/秒の勧告G.726と同等の
音声品質を実現し、第3世代のパーソナル通信である
「将来の公衆陸上移動通信システム(以下、FPLMT
Sと記す)」に適用するために誤り耐性を確保する等の
厳しい条件が掲げられて標準化されたため、少ない遅延
で高品質なコーデックとなった。そのため、勧告G.7
29は、FPLMTSだけでなく、非同期転送モード
(ATM)やフレーム・リレー用の音声対応多重装置に
も適用でき、既に一部の製品への実装が始まっている。
音声を分析して量子化した線形予測合成フィルタの係数
(人の口の形状に相当)、(2)駆動音源である適応符
号帳と雑音符号帳から選択される信号パターン(声帯振
動に相当)、(3)音量を調整する利得・パラメータ
(声の大きさに相当)を符号化する。そして、復号器で
は、それらのパラメータから音声を合成する。線形予測
合成フィルタと利得の係数には、量子化効率を上げるた
めにフレーム間予測を適用する。前のフレームで得られ
たパラメータから今のパラメータを予測し、その差分を
符号化する方法である。
(1)雑音符号帳で「代数的」(Algebraic)
と呼ぶ信号表現を取り入れたこと、(2)演算を高速化
するとともに、従来のCELP方式のように雑音符号帳
パターンを全て蓄積しておく必要を無くしたこと、
(3)メモリーを節約でき、パターン選択の演算量も減
少すること、(4)雑音符号帳の選択にはA−b−S方
式(analysis−by−synthesis:合
成による分析)という演算量は大きいもののビットレー
トさえ十分に割り当てれば、限りなく入力音声に近い音
を合成できる方式を用いること、(5)適応符号帳から
得られるピッチ周期には、伝送中のビット誤りを検出す
るパリティを付加するので勧告G.726と比べて伝送
誤り耐性に優れること、ということになる。
の構成を示すブロック図である。図1における符号器
は、入力信号1を高域通過フィルタリングとスケーリン
グする前処理部2と、前処理された信号を10ミリ秒の
1フレームに1度の割合で線形予測フィルタの係数を算
出して、その係数を線スペクトル対(LSP)に変換
し、量子化して線形予測係数7を出力するする線形予測
分析部3と、前記線形予測係数等が入力される線形予測
合成フィルタ4、前処理部2と線形予測フィルタ4から
の信号が入力され誤差信号を入力する加算器5,加算器
5の出力を線形予測係数7を用いてフィルタリングする
聴覚的重み付けフィルタ6、聴覚的重み付けフィルタ6
の出力を入力する固定符号帳探索部8とピッチ分析部
9、固定符号帳探索部8とピッチ分析部9の出力等が入
力されて線形予測係数7により送信ビットストリーム1
1を出力するパラメータ符号化部10、固定符号帳探索
部8とピッチ分析部9の出力が入力されて利得を出力す
る利得量子化部12、駆動音源である適応符号帳13、
駆動音源であり雑音符号帳でもある固定符号帳14、適
応符号帳13の利得Gp15、固定符号帳14の利得G
c16から構成され、その動作は、勧告G.729に詳
しく示されているためここでは特に説明しない。
号化に用いる固定符号帳(雑音符号帳)に特徴があり、
本願発明においても、その固定符号帳の特徴を利用して
いる。その勧告G.729の固定符号帳を示す図表を図
2に示す。図2は、マルチパルス音源型の固定符号帳で
あり、5ミリ秒のサブフレームにおける40サンプルの
図表に示す候補の中から、4つのパルス位置「m0」〜
「m3」と、極性情報「s0」〜「s3」を決定する。
からのパルス位置と極性情報の探索処理は、次のように
なる。例えば、図1における線形予測合成フィルタ4に
相当する10次の線形予測フ 1)(=G.729:式2)のように定義する。
タ6に相当する聴感的重み付けフィ 2)(=G.729:式27)のように定義する。ただ
し、γ1、γ2は、聴感的重み付けフィルタW(z)の
特性を決定するための入力信号のスペクトル形状の関数
である重み付け係数である。
み付けフィルタの合成フィルタW 図2の図表から導かれる40次のコードベクトルc
(n)を次の数式(数3)(=G.729:式45)の
ように表現する。
4)であるとする。
729:式46)のフィルタP(z)を用いて、40次
のコードベクトルc(n)を処理する。
た、βは前フレームにおける適応符号帳(図1における
適応符号帳13に相当)の利得gp (m−1)の量 47)のようになる。
(=G.729:式49)のように修正する。
数式(数8)(=G.729:式50)により求める。
sw(n)からW(z) (n)とインパルス応答h(n)の畳み込み積分値であ
る。
を用いて、次の数式(数9)(=G.729:式52)
によりd(n)を求める。
9:式54)による値を、代数的構造を有する符号帳C
とする。ここで、miは各パルス位置である。
5)による値をエネルギEとする。
(=G.729:式56)(数13)(=G.729:
式57)により求まる。
G.729:式51)により求まる。
29の式53に示したようなC2/Eの値を最大にする
ように、A−b−s(合成分析:Analysis b
ySynthesis)の手法を用いて行う。よって、
その処理量は、一般に膨大となるので、次のように閾値
を導入して探索処理量を削減する。
5)(=G.729:式60)により閾値thr3を求
める。
hr3を超えるパルス位置m0、m1、m2との組み合
わせについてのみ実施する。また、各フレームごとの最
大探索処理量TImaxを用いて、処理遅延が増大する
ことを抑制している。一方、送信側では、送られてきた
符号から各パラメータを抽出して出力音声を合成するた
め、その処理量は符号化に比べ少なく高速である。
化方式に適用し、音声符号中に透かし情報を埋込む方法
の原理を示す。
3のパルス位置m3は、他のi0〜i2のパルス位置m
0〜m2の候補と異なり隣接した候補を持つことがわか
る。ここで、4番目のパルス情報のパルス位置m3の置
換を示す図である図3に示すように、選択された最適パ
ルス位置m3をそれに隣接する候補m′3に置き換えて
音声符号としても再生音声に与える影響は少ないと考え
られる。これを利用して、音声符号のマルチパルス音源
情報部分に透かし情報等の特殊信号系列を埋込む。
を行う鍵kpを導入する。例えば、鍵kpによる4番目
のパルス情報のパルス位置m3の分類を示す図である図
4に示すように、鍵kp=“00001111”とした
ならば、鍵kpの最上位ビットが“0”であるので、パ
ルス位置m3の候補{3}に“0”を割り当て、それに
隣接する候補{4}に“1”を割り当てる。一方、鍵k
pの最下位ビットは“1”であるのでパルス位置m3の
候補{38}に“1”を割り当て、それに隣接する候補
{39}に“0”を割り当てる。この要領で、パルス位
置m3の全候補に“0”と“1”のラベルを付ける。
埋込む場合は、鍵kpにより、図4中の“0”のラベル
を付けられた候補の中からパルス位置m3を選定する。
一方、透かしビット“1”を埋込む場合は、図4中の
“1”のラベルを付けられた候補の中からパルス位置m
3を選定する。これを繰り返すことで2値化した透かし
情報を埋込むことができる。
に含まれるパルス位置m3のラベルが“1”か“0”か
を調べることで、透かし情報を容易に抽出できる。
フレームに埋込みを施すと、1秒あたり800ビットの
各4番目のパルス情報のパルス位置m3の位置を選定す
ることで透かし情報を埋め込むので200ビットの透か
し情報を埋込み可能である。しかし、同じ鍵kpを用い
て全符号に透かしを埋込むと、不正な第3者が鍵kpを
解析する可能性が高くなる。そこで、次の方法により秘
匿性の向上させた。
ルス位置m0〜m3の候補の合計値をcpとする。
である図5に示した58通りのいずれかになる。
〜m3の候補の各値がランダムならば、図2の図表か
ら、合計値cpの出現頻度は、ほぼ連続する自然数から
ランダムに抽出した数値の和と考えられ、従って、正規
分布に近い特性を示すと考えられる。
がランダムなら正規分布であることの一例を得るため
に、発明者は、英語の女声Ews(後述する図9の図表
を参照)から得られた音声符号に含まれるパルス位置m
0〜m3の候補を用いて合計値cpの出現頻度を調査
し、図6に示す調査結果を得た。
計値cpの出現頻度を示す図であり、図6において、合
計値cpの出現頻度は、概略で正規分布を示していると
いえるので、各パルス位置m0〜m3の候補は、ほぼラ
ンダムに選択されていることになる。そこで、図7に示
すフィードバック処理構造により、透かしビットの分散
配置を行った。
バック制御を示す図であり、図7(b)は、受信装置に
おける前記送信装置のフィードバック処理結果を利用し
たフィードフォワード制御を示す図である。図7(a)
において、入力音声21は、G729符号化装置22に
入力され、8kビット/秒の出力符号23(m0、
m1、m2、m3)として出力される。出力符号23の
一部は、制御装置24にフィードバックされ、制御装置
24からは、G729符号化装置22に対して埋込符号
選択信号25が出力される。G729符号化装置22で
は、そのフィードバックされてきた埋込符号選択信号2
5により入力音声21の符号化を行い出力符号23とし
て出力する。
729復号装置26に入力されると共に、制御装置27
にも入力され、制御装置27からG729復号装置26
に対して埋込符号検索信号28が出力される。G729
復号装置26では、埋込符号を検索し、埋込符号を抽出
して出力音声29を出力する。
58通りの全値に対し“0”と“1”を割り当てた鍵k
conを導入する。この鍵kconは、58ビットの2
進数である。
ックした出力音声符号の合計値cpに対応する鍵k
conのビット値Cpbの抽出処理を示す図である。図
8では、まず、フィードバックした出力音声符号から合
計値cpを求める。次に、その合計値cpに対応する鍵
kconのビット値cpbを抽出する。この抽出された
ビット値cpbが“1”のときは、音声符号への透かし
ビット埋込みを実施する。一方、そのビット値cpbが
“0”のときは音声符号への透かしビット埋込みを実施
しない。これを繰り返すことで、透かしビットを音声符
号全体に分散配置できる。この方法により、鍵kcon
を知らない第3者が透かし情報を含む音声符号を特定す
るのは難しくなる。
conを導入しても図4の鍵kpに特殊な鍵kp(“0
0000000”や”1111111”)を用いて長期
間にわたって埋込みを施すと、埋込んだ透かしデータの
統計的特性が音声符号に反映されると考えられる。よっ
て、同じ鍵kpの長期使用は、透かしの存在を隠す上で
望 込みを施せば、合計値cpの出現頻度の偏りを拡散する
ことを考える。
する2数の組で構成されていることから、合計値cpは
1/2の確率で偶数になる。従って、合計値cpが偶数
にな
ついて、符号化手順の動作フローチャートである図9
と、復号手順の動作フローチャートである図10を用い
て、詳細に説明する。
次のように表記を行う。 thr3:探索処理閾値、Smax:C/Eの最大値、
TImax:最大探索処理量、time:探索処理量、
L0,…,L4:ループ処理、i0,…,i4:パルス
位置候補、m0,…,m3:最適パルス位置、CE(x
0,x1,x2,x3):パルス位置x0,x1,
x2,x3を用いてC/Eを求める関数、tbit:埋
込むビット値、mode:埋込み実施フラグ(埋込む場
合:1,埋込まない場合:0,初期値:0)、tap
(x,y):xの上位からyビット目のビット値を抽出
する関数、check(kcon,cp):鍵kcon
の合計値cpに対応するビット値cpbを抽出する関
数、get(T):埋込むデータファイルTから1ビッ
トずつ抽出する関数、put(tbit,T):抽出ビ
ット値tbitをデータファイルTに出力する関数。
示す処理は、以下のようになる。ステップS1では、探
索処理閾値thr3を計算する。ステップS2では、C
/Eの最大値Smaxを「0」とする。ステップS3で
は、探索処理量timeを「0」とする。ステップS4
では、パルス位置候補としてi0=0,5,…,35を
用いてループ処理L0を開始する。ステップS5では、
パルス位置候補としてi1=1,6,…,36を用いて
ループ処理L1を開始する。ステップS6では、パルス
位置候補としてi2=2,7,…,37を用いてループ
処理L2を開始する。
ップS8に進み、 進む。ステップS8では、パルス位置候補としてi3=
3,8,…,38を用いてループ処理L3を開始する。
ステップS9では、埋め込みの無い場合、又は、初期値
である場合を示す埋込み実施フラグの状態であるmod
eが「0」であるか、または、フラグの埋込が有る場合
を示す埋込み実施フラグの状態であるmodeが「1」
であり、且つ、鍵kpの上位から(i3−3)/5ビッ
ト目のビット値を抽出する関数であるtap(kp,
(i3−3)/5)=tbit(埋め込むビット値)で
あるか否かを判断する。modeが「0」であるか、ま
たは、modeが「1」で、且つ、tap(kp,(i
3−3)/5)=tbitである場合(ステップS9:
YES)には、ステップS10に進み、modeが
「0」であるか、または、modeが「1」で、且つ、
tap(kp,(i3−3)/5)=tbitでない場
合(ステップS9:NO)には、ステップS14に進
む。
を、パルス位置候補i0,i1,i2,i3を用いてC
/Eを求める関数であるCE(i0,i1,i2,
i3)とする。ステップS11では、C/Eの値である
SがC/Eの最大値であるSmaxより大きいか否かの
判断を行う。SがSmaxより大きい場合(ステップS
11:YES)には、ステップS12に進み、SがS
maxより大きくない場合(ステップS11:NO)に
は、ステップS14に進む。ステップS12では、C/
Eの最大値であるSmaxを、Sとする。ステップS1
3では、最適パルス位置m0をi0とし、最適パルス位
置m1をi1とし、最適パルス位置m2をi2とし、最
適パルス位置m3をi3とする。ステップS14では、
ループ処理L3を終了する。ステップS15では、パル
ス位置候補としてi4=4,9,…,39を用いてルー
プ処理L4を開始する。
合、又は、初期値である場合を示す埋込み実施フラグの
状態であるmodeが「0」であるか、または、フラグ
の埋込が有る場合を示す埋込み実施フラグの状態である
modeが「1」であり、且つ、鍵kpの上位から(i
4−4)/5ビット目のビット値を抽出する関数である
tap(kp,(i4−4)/5)≠tbit(埋め込
むビット値)であるか否かを判断する。modeが
「0」であるか、または、modeが「1」で、且つ、
tap(kp,(i4−4)/5)≠tbitである場
合(ステップS16:YES)には、ステップS17に
進み、modeが「0」であるか、または、modeが
「1」で、且つ、tap(kp,(i4−4)/5)≠
tbitでない場合(ステップS16:NO)には、ス
テップS21に進む。ステップS17では、C/Eの値
であるSを、パルス位置候補i0,i1,i2,i3を
用いてC/Eを求める関数であるCE(i0,i1,i
2,i3)とする。ステップS18では、C/Eの値で
あるSがC/Eの最大値であるSmaxより大きいか否
かの判断を行う。SがSmaxより大きい場合(ステッ
プS18:YES)には、ステップS19に進み、Sが
Smaxより大きくない場合(ステップS18:NO)
には、ステップS21に進む。
るSmaxを、Sとする。ステップS20では、最適パ
ルス位置m0をi0とし、最適パルス位置m1をi1と
し、最適パルス位置m2をi2とし、最適パルス位置m
3をi3とする。ステップS21では、ループ処理L4
を終了する。ステップS22では、探索処理量time
を、time+1とする。ステップS23では、探索処
理量timeが最大探索処理量TImaxより大きいか
否かを判断する。timeがTImaxより大きい場合
(ステップS23:YES)には、ステップS27に進
み、timeがTImaxより大きくない場合(ステッ
プS23:NO)には、ステップS24に進む。ステッ
プS24では、ループ処理L2を終了する。ステップS
25では、ループ処理L1を終了する。ステップS26
では、ループ処理L0を終了する。
パルス位置の合計値m0+m1+m2+m3とする。ス
テップS28では、埋込実施フラグmodeを、鍵k
conの合計値cpに対応するビット値cpbを抽出す
る関数であるcheck(kcon,cp)とする。ス
テップS29では、埋込実施フラグmodeが「1」で
あるか否かの判断を行う。modeが「1」である場合
(ステップS29:YES)には、ステップS30に進
み、modeが「1」でない場合(ステップS29:N
O)には、ステップS33に進む。
bitを、埋め込むデータファイルTから1ビットずつ
抽出する関数であるget(T)とする。ステップS3
1では、合計値cpが偶数であるか否かの判断を行う、
cpが偶数である場合(ステップS31:YES)に
は、ステップS32に進み、cpが偶数でない場合(ス
テップS31:NO)には、ステップS33に進む。 ステップS33では、最適パルス位置m0,m1,
m2,m3を出力する。
示す処理は、以下のようになる。ステップS51では、
埋込実施フラグmodeを、「0」とする。ステップS
52では、受信した音声符号から最適パルス位置m0,
m1,m2,m3を取り出す。ステップS53では、合
計値cpを、最適パルス位置の和であるm0+m1+m
2+m3とする。ステップS54では、埋込実施フラグ
modeが「0」であるか否かの判断を行う。mode
が「0」である場合(ステップS54:YES)には、
ステップS60に進み、modeが「0」でない場合
(ステップS54:NO)には、ステップS55に進
む。
値が0か5の倍数であるか否かを判断する。m3から3
を減じた値が0か5の倍数である場合(ステップS5
5:YES)には、ステップS56に進み、m3から3
を減じた値が0か5の倍数でない場合(ステップS5
5:NO)には、ステップS57に進む。ステップS5
6では、埋め込むビット値tbitを、鍵kpの上位か
ら(m3−3)/5ビット目のビット値を抽出する関数
であるtap(kp,(m3−3)/5)とする。ステ
ップS57では、m3から4を減じた値が0か5の倍数
であるか否かを判断する。m3から4を減じた値が0か
5の倍数である場合(ステップS57:YES)には、
ステップS58に進み、m3から4を減じた値が0か5
の倍数でない場合(ステップS55:NO)には、ステ
ップS59に進む。
bitを、鍵kpの上位から(m3−4)/5ビット目
のビット値を抽出する関数であるtap(kp,(m3
−4)/5)とする。ステップS59では、抽出ビット
値tbitをデータファイルTに出力する。ステップS
60では、埋込実施フラグmodeを、鍵kconの合
計値cpに対応するビット値cpbを抽出する関数であ
るcheck(kcon,cp)とする。ステップS6
1では、合計値cpが偶数であるか否かの判断を行う、
cpが偶数である場合(ステップS61:YES)に
は、ステップS62に進み、cpが偶数でない場合(ス
テップS61:NO)には、ステップS52に戻る。ス
テップS62では、鍵kpを鍵kpとして、ステップS
52に戻り、ステップS52〜ステップS61またはS
62までをを繰り返す。
形態において、第3者に再生音質の異常から埋込みの存
在を知られないためには、埋込みによって音質が大きく
劣化しないことが重要である。そこで、発明者は、勧告
G.729のアルゴリズムに従ったシミュレータを作成
し実験を行った。
語と英語の実験音声の図表である。尚、図11の図表に
示した実験音声は、FMラジオ並びに英会話テープから
抽出した日本語と英語の男性と女性の発声音を、8kH
z、16bitで量子化したものである。
を用いた。これらの鍵の値は、次の数式(数18)、
(数19)に示すように0〜Fの16進数で表現してい
る。
した理由は、数式(数18)のように特殊な値とする
と、前記したように、音声符号から得られる合計値cp
の統計値に、最も大きくその統計的特性が現れると考え
られるためである。
した理由は、数式(数19)のようにすると全符号に対
して透かしの埋込みが行われるが、再生音質の劣化の点
では最大になるためである。即ち、数式(数18)で
は、鍵kpの最悪のケースを扱い、数式(数19)で
は、鍵kconの最悪のケースを扱っている。通常この
ような事態は避けなければならないが、最悪の場合にお
いても本発明の有効性を確認するために、あえて最悪の
状態として実験を行った。
ーネット規格のRFC(Request For Co
mments)に含まれる英文テキストデータを用い
た。これは、各文字を8ビットのアスキーコードで表現
しており、統計的にはビット“0”を多く含む特徴があ
る。
として、評価者の絶対判断によるオピニオン評価を用い
た。これは、複数の評価者に音質を5段階に絶対評価さ
せ、得られた評価値から平均オピニオン値(MOS:M
ean Opinion Score)を求めるもので
ある。
常に良い:5、良い:4、普通:3、悪い:2、非常に
悪い:1とした。また、被験者の先入観による影響を避
けるため、各音声ごとに、埋込みのないものと、埋込み
のあるものの2種類を外見上区別できない状態で準備し
た。
を準備し、自由に聞き比べることで評価させた。これに
より、埋込みによる聴感的な音質の違いがあるならば、
埋込みのある音声と、埋込の無い音声の平均オピニオン
値MOSに大差が生じると考えられる。
いたため、音声符号への透かしの埋込み量は1秒あたり
最大の200ビットになる。この透かしを埋込んだ再生
音声と透かしの埋込みのない再生音声の音質を、20代
の健聴者8名により評価を行った場合の平均オピニオン
値MOSを示した図表が図13である。この図13の図
表によると、透かしの埋込みのある場合と、透かしの埋
込の無い場合の平均オピニオン値MOSは、それぞれ約
3.7程度で、透かしの有る無しに関わらず両方の場合
がほぼ同等の結果になっている。
ータの埋込みによる聴感的な音質の違いがほとんどなか
ったということ、即ち、被験者が埋込みのある音声を特
定できなかったことを示していると考えられる。よっ
て、上記したように数式(数18)や数式(数19)を
用いて最悪の条件を想定した実験においても、被験者が
埋込のある音声を特定できなかったことから、本発明の
通常の実施形態においては、第3者によって、再生音質
の聴感的な違いから、再生音中から透かしの存在する音
声符号が特定されることは非常に少ないと考えられる。
み処理が波形の形状に与えた影響を観察した。図12で
は、透かし埋込みのない再生音声波形の図12(a)
と、透かし埋込みを施した再生音声波形の図12
(b)、および、それらの差分波形の図12(c)を示
している。これら図12の波形は、図11における英語
の男声データEmにおける、発音“think”に相当
する部分で、0.2sの音声区間である。従って、波形
(b)には、40ビットの透かし情報が埋込まれている
ことになる。
はないことから、図12(a)と図12(b)の再生音
声波形には、違いが生じていることがわかる。この違い
は、本発明において実施される、符号帳のパルス位置の
変更により生じた位相の変化が原因であると考えられ
る。しかしながら、人間の聴覚は、位相のずれを感じる
ことが一般に苦手である。そのため、図12(a)と図
12(b)の波形の形状に不自然な歪みを生じなけれ
ば、その両者の位相が若干変化しても、音声として不自
然には感じられないことになる。よって、これらの再生
音声を聞き比べても、聴感的に大きな違いをほとんど感
じないと考えられる。これは、先に示した図13の図表
において、透かし埋込の有る無しで違いが無かったこと
からも推察できる。
声への埋込を用いて公開される音声符号は、埋込みのあ
るもののみとなるはずであり、本実験で示したような比
較用の埋込のない音声は公開されない。よって、不正な
手段で音声符号を傍受された場合には、図12の差分波
形(c)のような埋込みのない波形と比較することはで
きないことになる。従って、第3者が、図12(c)に
示すような差分波形を得ることは、通常はあり得ないこ
とである。よって、第3者が再生波形の形状から、本発
明の埋込みのある音声符号を特定することは、非常に難
しいと考えられる。
用して、大量に透かしの埋込みを施すと、埋込むデータ
の統計的なビット特性が音声符号に反映されると考えら
れる。そこで、図6と同様な手法により、図11の女声
Ewsの全音声符号に埋込みを施した場合の合計値cp
の出現頻度を調べた。その結果、鍵kpが数式(数1
8)を用いて固定の場合の4つのパルス位置の合計値c
pの出現頻度を示す図である図14が得られた。
の一個置きに凹凸が発生していることから、明らかに埋
込みの影響が有ることが観察される。従って、この数式
(数18)のような特殊な鍵kpを長期にわたって使用
すると、埋込むビット系列の統計的な特徴が再生音声に
反映される。即ち、第3者に埋め込まれた透かしの存在
が気付かれる可能性が増えることになる。一般的には、
透かしの存在は気付かれにくい方が望ましいので、上記
の「III.秘匿性の向上方法」において説明した本発
明の手法を用いて、鍵kpのみを変動させ、統計的な偏
りを拡散させるようにした。
のパルス位置の合計値cpの出現頻度を示す図であるこ
の図15から、鍵kpの変動処理により、図14に示し
たような統計的な偏りが拡散されて改善されていること
がわかる。よって、上記の「III.秘匿性の向上方
法」において説明した本発明の手法による鍵kpの変動
処理は、埋込みにより生じる統計的な偏りを解消する方
法として有効であると考えられる。
は、勧告G.729の8kビット/秒、CS−ACEL
Pによる音声符号に、透かし情報を密かに埋込む手法を
示した。また、本発明の方法を用いた実験により、音声
符号に本発明による透かし情報等が埋込まれても、その
音声符号の聴取者に聴感的な違和感を与えないで、音声
を再生できることを確かめた。
誤りに弱く、誤りを含む状態の音声符号をそのまま再生
すると音質が大きく劣化する。従って、本発明の方法を
用いた音声符号においても、符号誤りが生じた場合に
は、それにより受ける影響は大きくなると考えられる。
しかしながら、例えば、その対策として本発明の方法を
用いた音声符号に誤り訂正技術を適用することにより、
ランダム符号誤りには対処できると考えられる。
みに知らせたい非公開情報を、密かに音声符号に埋込ん
で伝送する場合にも利用が可能である。例えば、Ste
el他のSimultaneous transmis
sion of speech and data u
sing code−breaking techni
ques,The Bell System Tech
nical Journal,Vol.60,No.
9,pp.2081−2105(1981)や、Won
g他のTransmitting data on t
he phaseof speech signal
s,The Bell SystemTechnica
l Journal,Vol.61,No.10,p
p.2947−2970(1982)に利用が可能であ
る。この例のような場合には、不正な手段で情報を得よ
うとする第3者に秘密メッセージの存在すら知られるこ
となく伝送できる利点がある。
ように第3者にその存在を知られる可能性は非常に少な
いことから、音声ソフト等の著作権保護のための電子透
かしの埋込みや、文書データの秘密伝送にも応用が可能
である。
ジタル音声データを符号化する際に用いられるマルチパ
ルス音源の構造に着目し、その合成過程においてビット
系列化されたデータを埋込むことで、、勧告G.726
について岩切等により示された方法とは異なる方法によ
り、勧告G.729について、圧縮された状態の音声符
号に、電子透かしを埋込む方法を提供できる。
することで、第3者が透かし情報を含む音声符号を特定
することが難しくなり、第3者による鍵の解析される可
能性を減らすことができ、更に、埋込みの規則を変化さ
せることで、長期間にわたって同じ鍵を使用しても鍵を
解析される可能性を減らすことができるので、埋め込ん
だ電子透かしの存在を簡単な方法で隠す方法を提供でき
る。
ブロック図である。
る。
示す図である。
m3の分類を示す図である。
示す図表である。
す図である。
(b)は受信装置の制御を示す図である。
ス位置の合計値に対応する鍵のビット値cpbの抽出処
理を示す図である。
験音声の図表である。
図であり、(b)は透かしの埋込の有る音声波形を示す
図であり、(c)は(a)と(b)の差の波形を示す図
である。
る。
計値cpの出現頻度を示す図である。
計値cpの出現頻度を示す図である。
線形予測分析部、4・・・線形予測合成フィルタ、5、
17・・・加算器、6・・・聴覚重み付けフィルタ、7
・・・線形予測係数、8・・・固定符号帳探索、9・・
・ピッチ分析、10・・・パラメータ符号化、11・・
・送信ビットストリーム、12・・・利得量子化、13
・・・適応符号帳、14・・・固定符号帳、15・・・
適応符号帳利得(ピッチ利得)、16・・・固定符号帳
利得、22・・・G.729符号化装置、23・・・出
力符号、24、27・・・制御装置、25・・・埋込符
号選択信号、26・・・復号装置、28・・・埋込符号
探索信号、29・・・出力音声、m0 c p・・・4つのパルス位置の合計値、cpb・・・フ
ィードバックした出力音声符号の4つのパルス位置の合
計値に対応する鍵のビット値、s0〜s3・・・極性情
報、
Claims (3)
- 【請求項1】 少なくとも固定符号帳を用いて音声をデ
ジタル符号化して送信する際に透かしビットを埋め込む
方法であって、前記固定符号帳における隣接した複数の
パルス位置の候補に「1」か「0」かの割り当てを行
い、該パルス位置の候補を「1」か「0」かにより選択
する第1の鍵を定め、送信音声符号中の透かしを埋込む
ビット位置には、前記第1の鍵によって選択されたパル
ス位置を用いることを特徴とする音声符号化時の透かし
ビット埋込方法。 - 【請求項2】 前記固定符号帳において、前記パルス位
置の候補の所定数の合計値の取り得る値の各々に対して
「1」か「0」かの割り当てを行い、前記透かしの埋込
の実施と非実施を前記合計値が「1」か「0」かにより
選択する第2の鍵を定め、出力音声符号からフィードバ
ックにより得られた前記合計値を前記第2の鍵に対応さ
せて、前記透かしの埋め込みを実施することを特徴とす
る請求項1に記載の音声符号化時の透かしビット埋込方
法。 - 【請求項3】 前記第1の鍵における「1」と「0」の
割り当てと逆の割り当てを行った第3の鍵を定め、前記
パルス位置の候補の所定数の合計値が偶数値であるか奇
数値であるかを検出し、前記合計値の偶数値と奇数値の
各々に同一の鍵となることがないように前記第1の鍵と
前記第3の鍵の一方を対応させ、送信音声符号中の透か
しを埋込むビット位置には、前記第1の鍵または前記第
3の鍵によって選択されたパルス位置を用いることを特
徴とする請求項2に記載の音声符号化時の透かしビット
埋込方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11585498A JP3355521B2 (ja) | 1998-03-23 | 1998-03-23 | 音声符号化時の透かしビットの埋込方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11585498A JP3355521B2 (ja) | 1998-03-23 | 1998-03-23 | 音声符号化時の透かしビットの埋込方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11272299A JPH11272299A (ja) | 1999-10-08 |
JP3355521B2 true JP3355521B2 (ja) | 2002-12-09 |
Family
ID=14672791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11585498A Expired - Fee Related JP3355521B2 (ja) | 1998-03-23 | 1998-03-23 | 音声符号化時の透かしビットの埋込方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3355521B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100341197B1 (ko) | 1998-09-29 | 2002-06-20 | 포만 제프리 엘 | 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템 |
DE102007007627A1 (de) | 2006-09-15 | 2008-03-27 | Rwth Aachen | Steganographie in digitalen Signal-Codierern |
US8054969B2 (en) * | 2007-02-15 | 2011-11-08 | Avaya Inc. | Transmission of a digital message interspersed throughout a compressed information signal |
US8055903B2 (en) * | 2007-02-15 | 2011-11-08 | Avaya Inc. | Signal watermarking in the presence of encryption |
CN102203853B (zh) * | 2010-01-04 | 2013-02-27 | 株式会社东芝 | 合成语音的方法和装置 |
CN105263024B (zh) * | 2015-10-15 | 2018-06-29 | 宁波大学 | 一种抗量化转码的hevc视频流零水印的注册和检测方法 |
CN110400248A (zh) * | 2019-07-19 | 2019-11-01 | 中南大学 | 基于圆环灰度差值的医学体数据影像安全保护零水印方法 |
-
1998
- 1998-03-23 JP JP11585498A patent/JP3355521B2/ja not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
岩切宗利、松井甲子雄,音声符号への電子透かしに関する一検討,電子情報通信学会基礎・境界ソサイエティ大会講演論文集,日本,1997年,VOL.1997、ソサイエティA,250−251 |
松井甲子雄、岩切宗利,低遅延符号励振線形予測符号化による音声符号への電子透かし,画像電子学会誌,日本,1998年,VOL27、NO.5、,475−482 |
Also Published As
Publication number | Publication date |
---|---|
JPH11272299A (ja) | 1999-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cvejic et al. | Increasing the capacity of LSB-based audio steganography | |
EP1684265B1 (en) | Method of embedding a digital watermark in a useful signal | |
Rekik et al. | Speech steganography using wavelet and Fourier transforms | |
US6539356B1 (en) | Signal encoding and decoding method with electronic watermarking | |
Shirali-Shahreza et al. | Real-time and MPEG-1 layer III compression resistant steganography in speech | |
JP3355521B2 (ja) | 音声符号化時の透かしビットの埋込方法 | |
Kreuk et al. | Hide and speak: Deep neural networks for speech steganography | |
San Roman et al. | Proactive detection of voice cloning with localized watermarking | |
Wu | Information hiding in speech signals for secure communication | |
Singh et al. | Enhancement of LSB based steganography for hiding image in audio | |
Servetti et al. | Perception-based selective encryption of G. 729 speech | |
JP2004069963A (ja) | 音声符号変換装置及び音声符号化装置 | |
Matsunaga et al. | A digital watermarking technique for music data using distortion effect | |
Tegendal | Watermarking in audio using deep learning | |
Yargıçoğlu et al. | Hidden data transmission in mixed excitation linear prediction coded speech using quantisation index modulation | |
JP3365331B2 (ja) | ベクトル量子化装置およびベクトル量子化方法 | |
Xu et al. | Robust and efficient content-based digital audio watermarking | |
US20030158730A1 (en) | Method and apparatus for embedding data in and extracting data from voice code | |
Shiu et al. | A stereo audio steganography by inserting low-frequency and octave equivalent pure tones | |
Matsunaga et al. | Distortion based Watermark Extraction Technique Using 1D CNN | |
Kornienko et al. | Analysis Method of the Stability of the Combined Labeling of Digital Audio Signals | |
JP2003099077A (ja) | 電子透かし埋込装置、抽出装置及び方法 | |
Li et al. | A Steganography Method for G. 729a Speech Coding | |
Nakayama et al. | Digital watermarks for audio signal based on psychoacoustic masking model | |
Cheng et al. | HiFi-GANw: Watermarked Speech Synthesis Via Fine-Tuning of HiFi-GAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081004 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091004 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101004 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101004 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111004 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111004 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111004 Year of fee payment: 9 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121004 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121004 Year of fee payment: 10 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121004 Year of fee payment: 10 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121004 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131004 Year of fee payment: 11 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |