JP4330346B2

JP4330346B2 - 音声符号に対するデータ埋め込み／抽出方法および装置並びにシステム

Info

Publication number: JP4330346B2
Application number: JP2003015538A
Authority: JP
Inventors: 恭士大田; 政直鈴木; 義照土永; 正清田中; 繁佐々木
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-02-04
Filing date: 2003-01-24
Publication date: 2009-09-16
Anticipated expiration: 2023-01-24
Also published as: EP1693832B1; EP1693832A3; CN100514394C; EP1333424B1; EP1333424A2; CN1437169A; DE60330716D1; JP2003295879A; EP1693832A2; EP1333424A3; DE60330413D1

Description

【０００１】
【発明の属する技術分野】
本発明は、パケット音声通信やデジタル音声蓄積などを適用領域とするデジタル音声信号処理技術に係わり、特に、データフォーマットの規格準拠を保ちつつ、しかも音声品質を損なうことなく、音声符号化技術で圧縮された音声符号（デジタルコード)の一部を任意のデータと置き換えることにより該データを音声符号に埋め込むデータ埋込み技術に関する。
かかるデータ埋込み技術は、ディジタル移動無線システムやVoIPに代表されるパケット音声伝送システム、デジタル音声蓄積などに適用されている音声符号化技術と関連し、伝送ビット系列に影響を与えずに著作権やID情報を埋め込むことで通話の秘匿性を向上させる電子透かし技術や機能拡張技術として、その需要、および重要性が高まっている。
【０００２】
【従来の技術】
インターネットの爆発的な普及を背景にIPパケットで音声データを伝送するインターネット電話への需要が高まっている。音声データをパケット伝送することで、コマンドや画像データなど異なるメディアを一元的に伝送できるメリットが生まれる。しかし、これまでは異なるチャネルで独立に伝送するマルチメディア通信が主であった。また、広告などを挿入することで、ユーザの通話料金を安くするサービスも行われているが、通話を開始した冒頭においてのみであった。また、音声データをパケット伝送することで、コマンドや画像データなど異なるメディアを一元的に伝送できるが、伝送フォーマットが周知であるため、秘匿性に問題が出てくる。これらを背景に、音声圧縮データ(コード)に著作権情報などを埋め込む“電子透かし”技術が提案されている。
【０００３】
一方、伝送にあたっては伝送効率を高める目的で、音声を高能率に圧縮する音声符号化技術が採用されている。特にVoIPの領域では、国際標準化機関であるITU-T(国際電信連合電信電話標準化部門)の定めるG.729などの音声符号化技術が主流となっている。また、移動体通信の分野でもG.729や3GPP(第三世代パートナーズプロジェクト)が定めるAMR(Adaptive Multi Rate)などの音声符号化技術が採用されている。これらにはCELP(Code Excited Linear Prediction)と呼ばれるアルゴリズムをベースとするといった共通点がある。G.729の符号化方式及び復号方式は次の通りである。
・符号器の構成及び動作
図４１はITU-T勧告G.729方式の符号器の構成図である。図４１において、１フレーム当り所定サンプル数（＝Ｎ）の入力信号（音声信号）Ｘがフレーム単位でLPC分析部１に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。LPC分析部１は、人間の声道を次式
H(z)=１／［１＋Σαi・ｚ^-i］（ｉ＝１〜M） (1)
で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,M)を求める。ここで、Mはフィルタ次数である。一般に、電話帯域音声の場合はMとして10〜12の値が用いられる。LPC(線形予測)分析部１では、入力信号の80サンプルと先読み分の40サンプル及び過去の信号120サンプルの合計240サンプルを用いてLPC分析を行いLPC係数を求める。
【０００４】
パラメータ変換部２はLPC係数をLSP(線スペクトル対)パラメータに変換する。ここで、LSPパラメータは、LPC係数と相互に変換が可能な周波数領域のパラメータであり、量子化特性がLPC係数よりも優れていることから量子化はLSPの領域で行われる。LSP量子化部３は変換されたLSPパラメータを量子化してLSP符号とLSP逆量子化値を求める。LSP補間部４は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値によりLSP補間値を求める。すなわち、１フレームは5msecの第１、第２の２つのサブフレームに分割され、LPC分析部１は第２サブフレームのLPC係数を決定するが、第１サブフレームのLPC係数は決定しない。そこで、LSP補間部４は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値を用いて補間演算により第１サブフレームのLSP逆量子化値を予測する。
【０００５】
パラメータ逆変換部５はLSP逆量子化値とLSP補間値をそれぞれLPC係数に変換してLPC合成フィルタ６に設定する。この場合、LPC合成フィルタ６のフィルタ係数として、フレームの第１サブフレームではLSP補間値から変換されたLPC係数が用いられ、第２サブフレームではLSP逆量子化値から変換したLPC係数が用られる。尚、以降において1に添字があるもの、例えばlspi, li（ｎ）,・・・における1はアルファベットのエルである。
LSPパラメータlspi(i=1,・・・,M)はLSP量子化部３でベクトル量子化により量子化された後、量子化インデックス（LSP符号)が復号器側へ伝送される。
【０００６】
次に音源とゲインの探索処理を行なう。音源とゲインはサブフレーム単位で処理を行う。まず、音源信号をピッチ周期成分と雑音成分の２つに分け、ピッチ周期成分の量子化には過去の音源信号系列を格納した適応符号帳７を用い、雑音成分の量子化には代数符号帳や雑音符号帳などを用いる。以下では、音源符号帳として適応符号帳７と雑音符号帳８の２つを使用する音声符号化方式について説明する。
【０００７】
適応符号帳７は、インデックス１〜Ｌに対応して順次１サンプル遅延したＮサンプル分の音源信号（周期性信号という）を出力するようになっている。Ｎは1サブフレームのサンプル数であり（N=40)、最新の(L+39)サンプルのピッチ周期成分を記憶するバッファを有している。インデックス１により第1〜第40サンプルよりなる周期性信号が特定され、インデックス２により第2〜第41サンプルよりなる周期性信号が特定され、・・・インデックスＬにより第Ｌ〜第L+39サンプルよりなる周期性信号が特定される。初期状態では適応符号帳７の中身は全ての振幅が0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、現サブフレームで求めた音源信号を適応符号帳７に格納するように動作する。
【０００８】
適応符号帳探索は、過去の音源信号を格納している適応符号帳７を用いて音源信号の周期性成分を同定する。すなわち、適応符号帳７から読み出す開始点を1サンプルづつ変えながら適応符号帳７内の過去の音源信号をサブフレーム長(=40サンプル)だけ取り出し、LPC合成フィルタ６に入力してピッチ合成信号
βＡＰＬを作成する。ただし、ＰＬは適応符号帳７から取り出された遅れＬに相当する過去のピッチ周期性信号(適応符号ベクトル)、ＡはLPC合成フィルタ６のインパルス応答、βは適応符号帳ゲインである。
【０００９】
演算部９は入力音声ＸとβＡＰＬの誤差電力ＥＬを次式
ＥＬ＝｜Ｘ−βＡＰＬ｜^２ (2)
により求める。
適応符号帳出力の重み付き合成出力をＡＰＬとし、ＡＰＬの自己相関をＲpp、ＡＰＬと入力信号Ｘの相互相関をＲxpとすると、式(2)の誤差電力が最小となるピッチラグＬoptにおける適応符号ベクトルＰＬは、次式
P_L=argmax（Rxp²／Rpp） (3)
により表わされる。すなわち、ピッチ合成信号ＡＰＬと入力信号Ｘとの相互相関Ｒxpをピッチ合成信号の自己相関Ｒppで正規化した値が最も大きくなる読み出し開始点を最適な開始点とする。以上より、誤差電力評価部１０は(3)式を満足するピッチラグＬoptを求める。このとき、最適ピッチゲインβoptは次式
βopt＝Ｒxp／Ｒpp (4)
で与えられる。
【００１０】
次に雑音符号帳８を用いて音源信号に含まれる雑音成分を量子化する。雑音符号帳８は、振幅が1又は−1の複数のパルスから構成される。例として、サブフレーム長が40サンプルの場合のパルス位置を表1に示す。
【表１】

雑音符号帳８は、１サブフレームを構成するＮ(=40)サンプル点を複数のパルス系統グループ１〜４に分割し、各パルス系統グループから１つのサンプル点m₀〜m₃を取り出してなる全組み合わせについて、各サンプル点で＋１あるいは−１のパルスを有するパルス性信号を雑音成分として順次出力する。この例では、基本的に1サブフレームあたり4本のパルスが配置される。
【００１１】
図４２は各パルス系統グループ１〜４に割り当てたサンプル点の説明図であり、
(1) パルス系統グループ１には8個のサンプル点 0,5,10,15,20,25,30,35が割り当てられ、
(2) パルス系統グループ２には8個のサンプル点 1,6,11,16,21,26,31,36が割り当てられ、
(3) パルス系統グループ３には8個のサンプル点 2,7,12,17,22,27,32,37が割り当てられ、
(4) パルス系統グループ４には16個のサンプル点 3,4,8,9,13,14,18,19,23,24,28,29,33,34,38,39が割り当てられている。
【００１２】
パルス系統グループ１〜３のサンプル点を表現するために３ビット、パルスの正負を表現するのに１ bit、トータル4 bit が必要であり、又、パルス系統グループ４のサンプル点を表現するために4 bit、パルスの正負を表現するのに1 bit、トータル5 bit 必要である。従って、表１のパルス配置を有する雑音符号帳８から出力するパルス性の音源信号を特定するために17bitが必要になり、パルス性音源信号の種類は２１７（＝２４×２４×２４×２５）存在する。
表1に示すように各パルス系統のパルス位置は限定されており、雑音符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力ＰＬに該ゲインβoptを乗算して加算器１１に入力する。これと同時に雑音符号帳８より順次パルス性音源信号を加算器に１１に入力し、加算器出力をLPC合成フィルタ６に入力して得られる再生信号と入力信号Ｘとの差が最小となるパルス性音源信号を特定する。具体的には、まず入力信号Ｘから適応符号帳探索で求めた最適な適応符号帳出力ＰＬ、最適ピッチゲインβ_optから次式により雑音符号帳探索のためのターゲットベクトルＸ′を生成する。
【００１３】
Ｘ′＝Ｘ−β_optAPＬ (5)
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の雑音符号出力ベクトルをCｋとすると、雑音符号帳探索では次式
Ｄ＝|Ｘ′−ＧＣACｋ|^２ (6)
の評価関数誤差電力Ｄを最小とする符号ベクトルCｋを求める。ＧＣは雑音符号帳ゲインである。誤差電力評価部１０は雑音符号帳の探索において、雑音合成信号ＡＣｋと入力信号Ｘ′の相互相関値Rcxの２乗を雑音合成信号の自己相関値Rccで正規化して得られる正規化相互相関値(Rcx*Rcx/Rcc)が最も大きくなるパルス位置と極性の組み合わせを探索する。
【００１４】
次にゲイン量子化について説明する。G.729方式において雑音符号帳ゲインは直接量子化されず、適応符号帳ゲインＧa（＝βopt）と雑音符号帳ゲインＧcの補正係数γをベクトル量子化する。ここで、雑音符号帳ゲインＧＣと補正係数γとの間にはＧＣ＝ｇ′×γなる関係がある。ｇ′は過去の4サブフレームの対数利得から予測される現フレームの利得である。
ゲイン量子化器１２の図示しないゲイン量子化テーブルには、適応符号帳ゲインＧaと雑音符号帳ゲインに対する補正係数γの組み合わせが128通り(＝２７)用意されている。ゲイン符号帳の探索方法は、▲１▼適応符号帳出力ベクトルと雑音符号帳出力ベクトルに対して、ゲイン量子化テーブルの中から1組のテーブル値を取り出してゲイン可変部１３、１４に設定し、▲２▼ゲイン可変部１３、１４でそれぞれのベクトルにゲインＧa、Ｇcを乗じてLPC合成フィルタ６に入力し、▲３▼誤差電力評価部１０において入力信号Ｘとの誤差電力が最も小さくなる組み合わせを選択する、ことにより行なう。
【００１５】
以上より、回線多重化部１５は、▲１▼LSPの量子化インデックスであるLSP符号、▲２▼適応符号帳の量子化インデックスであるピッチラグ符号Ｌopt、(3) 雑音符号帳インデックスである雑音符号、(4) ゲインの量子化インデックスであるゲイン符号を多重して回線データを作成する。実際には伝送路に送出する前に回線符号化やパケット化処理が必要となる。
【００１６】
・復号器の構成及び動作
図４３はG.729方式の復号器のブロック図である。回線から受信した回線データが回線分離部２１へ入力されてLSP符号、ピッチラグ符号、雑音符号、ゲイン符号が分離出力される。復号器ではこれらの符号に基づいて音声データを復号する。復号器の動作については、復号器の機能が符号器に含まれているため一部重複するが、以下で簡単に説明する。
LSP逆量子化部２２はLSP符号が入力すると逆量子化し、LSP逆量子化値を出力する。LSP補間部２３は現フレームの第２サブフレームにおけるLSP逆量子化値と前フレームの第２サブフレームのLSP逆量子化値から現フレームの第１サブフレームのLSP逆量子化値を補間演算する。次に、パラメータ逆変換部２４はLSP補間値とLSP逆量子化値をそれぞれLPC合成フィルタ係数へ変換する。G.729方式のLPC合成フィルタ２５は、最初の第１サブフレームではLSP補間値から変換されたLPC係数を用い、次の第２サブフレームではLSP逆量子化値から変換されたLPC係数を用いる。
【００１７】
適応符号帳２６はピッチラグ符号が指示する読み出し開始位置からサブフレーム長(=40サンプル)のピッチ信号を出力し、雑音符号帳２７は雑音符号に対応するの読出し位置からパルス位置とパルスの極性を出力する。また、ゲイン逆量子化部２８は入力されたゲイン符号より適応符号帳ゲイン逆量子化値と雑音符号帳ゲイン逆量子化値を算出してゲイン可変部２９，３０に設定する。加算部３１は適応符号帳出力に適応符号帳ゲイン逆量子化値を乗じて得られる信号と、雑音符号帳出力に雑音符号帳ゲイン逆量子化値を乗じて得られる信号とを加え合わせて音源信号を作成し、この音源信号をLPC合成フィルタ２５に入力する。これにより、LPC合成フィルタ２５から再生音声を得ることができる。
尚、初期状態では復号器側の適応符号帳２６の内容は全て振幅0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、一方、現サブフレームで求めた音源信号を適応符号帳２６に格納するように動作する。つまり、符号器と復号器の適応符号帳２６は常に最新の同じ状態になるように維持される。
【００１８】
・電子透かし技術
上記のCELPを対象とした電子透かし技術として、特開平11-272299に開示されている「音声符号化時の透かしビットの埋込方法」がある。図４４はかかる電子透かし技術説明図である。表1において、第4パス系統ｉ₃に着目する。第4パス系統ｉ₃のパルス位置ｍ₃は、他の第1〜第3パルス系統ｉ₀〜ｉ₂のパルス位置ｍ₀〜ｍ₂と異なり、隣接した候補を持っている。G.729の規格によれば、第4パルス系統ｉ₃におけるパルス位置は隣接したパルス位置を選択しても差し支えないことになっている。例えば、第4パルス系統ｉ₃におけるパルス位置ｍ₃＝４はパルス位置ｍ₃′＝3に置き換えても良く、置き換えて音声符号を再生しても人間の聴覚に与える影響は殆どない。そこで、ｍ₃の候補にラベル付けを行なうために8ビットのキーKpを導入する。例えば、図４４に示すように
Kp=００００１１１１とし、Kpの各ビットにｍ₃の各候補3,8,13,18,23,28,33,38をそれぞれ対応させ、かつ、＊Kp=１１１１００００とし、＊Kpの各ビットに
ｍ₃の各候補4,9,14,19,24,29,34,39を対応付けする。このように対応付けすれば、ｍ₃の全候補にキーKpに従って"0"と"1"のラベル付けを行なうことができる。かかる状況において、音声符号に透かしビット"0"を埋め込む場合は、キーKpに従って"0"のラベルを付けられた候補の中からｍ₃を選択する。一方、透かしビット"1" を埋め込む場合は、キーKpに従って"1"のラベルを付けられた候補の中からｍ₃を選択する。この方法により2値化された透かし情報を音声符号の中に埋め込むことが可能となる。従って、送受信機で相互に前記キーKpを持ち合うことにより透かし情報の埋め込み及び抽出が可能となる。5msecのサブフレーム毎に1ビットの透かし情報を埋め込むことができるため1秒当たり200ビットを埋め込むことができる。
【００１９】
ところで、同じキーKpを用いて全符号に透かし情報を埋め込むと、不正な第3者により解読される可能性が高くなる。そこで、秘匿性の向上を図る必要がある。ｍ₀〜ｍ₃の合計値をCpとすれば、合計値は図４５の(a)に示す58通りのいずれかになる。そこで、58ビットの第2のキーKconを導入し、該キーの各ビットに図４５の(b)に示すように58通りの合計値Cpを対応させる。そして、音声符号化した時の雑音符号におけるｍ₀〜ｍ₃の合計値(図では72)を算出し、該合計値に応じたキーKconのビット値Cpbが"0"であるか"1"であるか調べ、Cpb＝"1"のときは、音声符号に図４４に従って透かしビットを埋め込み、"0"であれば透かしビットを埋め込まない。このようにすれば、キーKconを知らない第3者は透かし情報を解読することが困難になる。
【特許文献１】
特開平11-272299
【００２０】
【発明が解決しようとする課題】
音声チャネルと独立なチャネルで他のメディアを伝送する場合には、基本的に両端の端末機がマルチチャネル対応である必要がある。この場合、例えば現在最も普及している第二世代の携帯電話機など、従来の通信網に繋がる端末では制約が加わる問題がある。また、たとえ両端の端末機がマルチチャネル対応で、複数のメディアが伝送可能であってもパケット交換の場合は経路がバラバラで、途中の中継機での同期・連携は難しい。特に特定のユーザが発声した音声自体に付随するデータを使った連携には経路設定や同期処理など複雑な制御が必要となる問題がある。
又、従来の電子透かし技術では、キーの使用が必須である。このため送受双方で特定のキーを共有する必要がある。加えて、データ埋込み対象が雑音符号帳の第4パルス系統のパルス位置に限定されている。そのため、鍵の存在がユーザの知り得る可能性が高く、知り得た場合には埋込み位置が特定できるために、データの漏洩、改ざんが可能となる問題がある。
また、従来の電子透かし技術では、データの埋込みの実施、非実施がパルス位置候補の合計値によっておこなわれる“確率的”な制御であるため、データ埋込みによる音質劣化の影響が大きくなる可能性が高い問題がある。通信規格としてはデータ埋込みを意識しない、すなわち、端末で復号(音声再生)した場合にも音質の劣化が生じないデータ埋込み技術が望ましいが、従来技術では音質劣化が発生するためかかる要求に答えられない問題がある。
【００２１】
以上から本発明の目的は、符号器側、復号器側双方でキーを持ち合はなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出できるようにすることである。
本発明の別の目的は、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることである。
本発明の別の目的は、埋め込みデータの漏洩、改ざんを困難にすることである。
本発明の別の目的は、データと制御コードの両方を埋め込むことができるようにし、これにより復号器側に制御コードに従った処理を実行させるようにすることである。
本発明の別の目的は、埋め込みデータの伝送容量を大きくできるようにすることである。
本発明の別の目的は、音声チャネルのみで音声、画像、個人情報などのマルチメディア伝送を可能にすることである。
本発明の別の目的は、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供できるようにすることである。
本発明の別の目的は、受信した音声データに発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで蓄積できるようにすることである。
【００２２】
【課題を解決するための手段】
本発明の第1は、音声符号に任意のデータを埋込む際、音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされていれば、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。具体的に、第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックスである雑音符号であり、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記雑音符号を所定のデータで置き換えることによりデータを音声符号に埋め込む。別の具体例として、第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックスであるピッチラグ符号であり、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。
【００２３】
音源信号の2種類の符号語、すなわち、ピッチ音源に対応する適応符号語(ピッチラグ符号)と雑音音源に対応する固定符号語(雑音符号)に着目すると、利得が各符号語の寄与度を示すファクタとみることができる。つまり、利得が小さい場合は対応する符号語の寄与度が小さくなる。そこで、利得を判定パラメータとして定義し、ある閾値以下になる場合は対応する音源符号語の寄与度が小さいと判断して、該音源符号語のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。また、閾値を制御することで、再生音質への影響を考慮しながら埋込みデータ量を調整できる。
【００２４】
本発明の第２は、所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出する際、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する。具体的に、第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックスである雑音符号であり、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、データ埋め込み条件が満たされていると判断し、前記雑音符号より埋め込みデータを抽出する。別の具体例として、第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックスであるピッチラグ符号であり、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号より埋め込みデータを抽出する。
【００２５】
以上のようにすれば、符号器側、復号器側双方でキーを持ち合わなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出することができる。また、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることができる。又、閾値を変更することにより埋め込みデータの漏洩、改ざんを困難にすることができる。
【００２６】
本発明の第3は、音声符号化装置と音声再生装置を備えたシステムにおいて、音声符号化装置が音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置が該音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する。かかるシステムにおいて、データが埋め込まれているか否かを判定するために使用する第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる第２要素符号をそれぞれ定義しておく。かかる状態において、音声符号化装置がデータを埋め込む際、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされていれば、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。一方、音声再生装置はデータ抽出に際して、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断し、該埋め込みデータを抽出し、しかる後、音声符号に復号化処理を施す。
【００２７】
以上のようにすれば、閾値の初期値のみを送受双方で予め定義しておけば、キーを使用することなくデータの埋め込み、抽出が可能になる。また、埋込みデータに制御コードを定義しておけば、該制御コードを用いて閾値の変更を行なうことができ、該閾値の変更により埋込みデータの伝送量を調整することができる。また、ゲイン値に応じて、データ系列のみを埋め込むか、あるいは、データと制御コードの種別を識別できる形式でデータ／制御コード列を埋め込むか、を決定するため、データ系列のみを埋め込む場合にはデータ種別情報を含ませる必要がないため伝送容量を改善することができる。
本発明の第４は、音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムであり、入力音声を符号化した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、前記埋め込まれたデータを音声データとして送信する手段を備え、通常の音声通話と同時に付加情報を送信する。また、デジタル音声通信システムは、更に、受信した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段を備え、通常の音声通話と同時に付加情報を受信して出力する。
上記付加情報としては、画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、声紋、指紋)等とすることにより、マルチメディア通信が可能になる。また、付加情報として端末のシリアル番号、声紋等とすることにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
また、デジタル音声通信システムに音声データを中継するサーバ装置を設け、該サーバにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供できるように構成することができる。
また、受信した音声データに、発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積することで、音声データのファイル化が可能になり、後の利用を容易にすることができる。
【００２８】
【発明の実施の形態】
(Ａ)本発明の原理
CELPアルゴリズムの復号器では、音源系列を指定するインデックスと利得情報にて音源信号を生成し、線形予測係数で構成される合成フィルタにて、音声が生成(再生)され、再生音声は次式
Srp＝H・R=H(Gp・P+ Gc・C)＝H・Gp・P＋H・Gc・C
により表現される。ここでSrpは再生音声、HはLPC合成フィルタ、Gpは適応符号語ゲイン(ピッチゲイン)、Pは適応符号語(ピッチラグ符号)、Gcは雑音符号語ゲイン(雑音符号帳ゲイン)、Cは雑音符号語である。又、右辺第1項はピッチ周期合成信号、第2項は雑音合成信号である。
【００２９】
以上のように、CELPにて符号化されたデジタルコード(伝送パラメータ)は音声生成系の特徴パラメータと対応している。この特徴に着目すると、各伝送パラメータの状態を把握することができる。例えば、音源信号の2種類の符号語、すなわち、ピッチ音源に対応する適応符号語と雑音音源に対応する雑音符号語に着目すると、利得Gp，Gcが各符号語Ｐ，Ｃの寄与度を示すファクタとみることができる。つまり、利得Gp，Gcが小さい場合は対応する符号語Ｐ，Ｃの寄与度が小さくなる。そこで、利得Gp，Gcを判定パラメータとして定義し、ある閾値以下になる場合は対応する音源符号語Ｐ，Ｃの寄与度が小さいと判断して、音源符号語のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。また、閾値を制御することで、再生音質への影響を考慮しながら埋込みデータ量を調整できる。
【００３０】
本技術は閾値の初期値のみを送受双方で予め定義しておけば、判定パラメータ(ピッチゲイン、雑音符号帳ゲイン)および埋込み対象パラメータ(ピッチラグ、雑音符号)のみで、埋込みデータの有無と埋込み場所、および埋込みデータの書込み／読出しが可能となる。すなわち、特定のキーの伝送が不要となる。また、埋込みデータに制御コードを定義しておけば、制御コードで閾値の変更を指示するだけで埋込みデータの伝送量を調整できる。
このように、本技術の適用により、符号化フォーマットの変更なく、任意データの埋込みが可能となる。つまり、通信／蓄積の用途で必須の互換性を損なうことなく、かつユーザに知られることなく、IDや他メディアの情報を音声情報に埋め込んで伝送／蓄積することができる。加えて、本発明ではCELPに共通したパラメータにて制御仕様を規定するため、特定の方式に限定されることなく、幅広い方式に適用できる。例えば、VoIP向けのG.729や移動体通信向けのAMRなどにも対応できる。
【００３１】
(B)符号器側の実施例
（ａ）一般的構成
図1は本発明の符号器側における一般的構成図である。音声・音響CODEC（符号器）51は入力音声を所定の符号化方式に従って符号化し、得られた音声符号(符号データ)を出力する。音声符号は複数の要素符号で構成されている。埋め込みデータ発生部52は音声符号に埋め込むための所定のデータを発生する。データ埋め込み制御部53は埋め込み判定部54とセレクタ構成のデータ埋め込み部55を備え、適宜、データを音声符号に埋め込む。埋め込み判定部54は、音声符号を構成する要素符号のうち第1要素符号と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、第2要素符号を任意の埋め込みデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、第2要素符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【００３２】
図2は埋め込み判定部の構成図であり、逆量子化部54aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部54bは閾値THを出力する。比較部54cは逆量子化値Gと閾値THを比較し、比較結果をデータ埋め込み判定部54dに入力する。データ埋め込み判定部54dは、例えば、G≧THであればデータ埋め込み不可能と判定し、符号器51から出力する第２要素符号を選択するためのセレクト信号SLを発生し、G<THであれば、データ埋め込み可能と判定し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。この結果、データ埋め込み部55はセレクト信号SLに基いて第２要素符号と埋め込みデータの一方を選択的に出力する。
尚、図2では第1要素符号を逆量子化して閾値と比較したが、閾値を符号で設定することにより符号レベルで比較できる場合もあり、かかる場合必ずしも逆量子化する必要はない。
【００３３】
（ｂ）第1実施例
図３はG.729の符号化方式に従って符号化する符号器を使用する場合の第１実施例の構成図であり、図1と同一部分には同一符号を付している。図1と異なる点は、第1要素符号としてゲイン符号(雑音符号帳ゲイン)を使用し、第2要素符号として雑音符号帳のインデックスである雑音符号を使用する点である。
符号器51はG.729に従って入力音声を符号化し、得られた音声符号をデータ埋め込み部53に入力する。G.729の音声符号は表2に示すように、LSP符号、適応符号帳インデックス(ピッチラグ符号)、雑音符号帳インデックス(雑音符号)、ゲイン符号を要素符号として有している。ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せて符号化したものである。
【００３４】
【表２】

データ埋め込み部53の埋め込み判定部54は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、雑音符号を所定のデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、雑音符号をそのまま出力する。多重部5６は音声符号を構成する各要素符号を多重して伝送する。
【００３５】
埋め込み判定部54は図4に示す構成を備え、逆量子化部５４ａはゲイン符号を逆量子化し、比較部54cは逆量子化値(雑音符号帳ゲイン)Gcと閾値THを比較し、データ埋め込み判定部５４ｄは逆量子化値Gcが閾値THより小さいとき、データ埋め込み条件が満たされていると判断し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。又、データ埋め込み判定部５４ｄは逆量子化値Gcが閾値より大きいとき、データ埋め込み条件が満たされていないと判断し、符号器51から出力する雑音符号を選択するためのセレクト信号SLを発生する。データ埋め込み部55はセレクト信号SLに基いて雑音符号と埋め込みデータの一方を選択的に出力する。
【００３６】
図5は音声符号の標準フォーマット、図6は埋め込み制御による伝送符号の説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。雑音符号帳ゲインGcが閾値THより大きい場合には、図６の(1)に示すように音声符号にデータは埋め込まれない。しかし、雑音符号帳ゲインGcが閾値THより小さい場合には、図６の(2)に示すように音声符号の雑音符号帳インデックス部にデータが埋め込まれる。
図６の例では、雑音符号帳インデックス(雑音符号)に用いられるＭ（＝17）ビット全部に任意のデータを埋め込む場合の例であるが、図７に示すように最上位ビット（MSB）をデータ種別ビットすることにより、残りの(M-1)ビットにデータと制御コードを区別して埋め込むことができる。このように、埋込みデータの一部にデータ／制御コードを識別するビットを定義することで、制御コードを用いて閾値の変更、同期制御などを行うことが可能となる。
【００３７】
G.729音声符号化方式において、ある利得値以下の場合に雑音符号帳インデックスである雑音符号(17ビット)を任意のデータで置き換えた場合のシミュレーション結果を表３に示す。任意のデータは乱数発生したデータとし、この乱数データを雑音符号と見なして再生した場合の音質の変化をSNRにて評価した結果と、データで置き換えフレームの割合を測定した。なお、表中の閾値はゲインインデックス番号であり、数が大きくなるほど閾値としてのゲインが大きくなる。また、SNRは、音声符号における雑音符号をデータで置き換えない場合の音源信号と、置き換えない場合と置き換えた場合の音源信号の差である誤差信号との比(dB)である。SNRsegは１フレーム毎のSNR、 SNRtotは音声区間全体の平均SNRである。割合は(%)は、音声信号として標準信号を入力したとき、ゲインが対応する閾値以下になってデータが埋め込まれる割合である。
【００３８】
【表３】

表3の通り、例えば、雑音符号帳ゲインの閾値を12に設定することで、雑音符号帳インデックス(雑音符号)の総伝送容量の43%を任意のデータで置き換えることができ、かつ、復号器でそのまま復号しても、データを埋め込まない場合(閾値が0の場合)に比べてわずか0.1dB(=11.60-11.50)の音質の差に抑えることができる。これは、G.729において音質劣化が非常に少ないことを意味し、実に1462bits/s(=0.43×17×(1000/5))の任意データの伝送が行えることを意味する。また、この閾値を上下させることにより、音質への影響を考慮しながら、埋込みデータの伝送容量(割合)も調整できる。例えば、0.2dBの音質変化を許容するなら、閾値を20に設定することで46%(1564bits/s)まで伝送容量を増やすことができる。
【００３９】
(ｃ)第２実施例
図８はG.729の符号化方式に従って符号化する符号器を使用する場合の第２実施例の構成図であり、図1と同一部分には同一符号を付している。図1と異なる点は、第1要素符号としてゲイン符号(ピッチゲイン符号)を使用し、第2要素符号として適応符号帳インデックスであるピッチラグ符号を使用する点である。
【００４０】
符号器51はG.729に従って入力音声を符号化し、得られた音声符号をデータ埋め込み部53に入力する。データ埋め込み部53の埋め込み判定部54は、ゲイン符号の逆量子化値(ピッチゲイン)と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、ピッチラグ符号を所定のデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、ピッチラグ符号をそのまま出力する。多重部5６は音声符号を構成する各要素符号を多重して伝送する。
【００４１】
埋め込み判定部54は図９に示す構成を備え、逆量子化部５４ａはゲイン符号を逆量子化し、比較部54cは逆量子化値(ピッチゲイン)Gpと閾値THを比較し、データ埋め込み判定部５４ｄは逆量子化値Gpが閾値THより小さいとき、データ埋め込み条件が満たされていると判断し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。又、データ埋め込み判定部５４ｄは逆量子化値Gpが閾値より大きいとき、データ埋め込み条件が満たされていないと判断し、符号器51から出力するピッチラグ符号を選択するためのセレクト信号SLを発生する。データ埋め込み部55はセレクト信号SLに基いてピッチラグ符号と埋め込みデータの一方を選択的に出力する。
【００４２】
図１０は音声符号の標準フォーマット、図１１は埋め込み制御による伝送符号の説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。ピッチゲインGpが閾値THより大きい場合には、図１１の(1)に示すように音声符号にデータは埋め込まれない。しかし、ピッチゲインGpが閾値THより小さい場合には、図１１の(2)に示すように音声符号の適応符号帳インデックス部にデータが埋め込まれる。
表４にG.729音声符号化方式において、ある利得値以下の場合に適応符号帳インデックスであるピッチラグ符号(13ビット/10msec)を任意のデータで置き換えた場合のシミュレーション結果を示す。任意のデータは乱数発生したデータとし、この乱数データをピッチラグ符号として再生した場合の音質の変化をSNRを用いて評価した結果と、置き換えフレームの割合を表4に示している。
【００４３】
【表４】

表4に示す通り、例えば、閾値をゲイン0.5に設定すると、適応符号帳インデックスであるピッチラグ符号のの総伝送容量の45%を任意のデータで置き換えることができ、かつ復号器でそのまま復号してもわずか0.24dB(=11.60-11.36)の音質の差に抑えることができることを示している。
【００４４】
(Ｃ)復号器側の実施例
（ａ）一般的構成
図１２は本発明の復号器側における一般的構成図である。分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。データ抽出部62は分離された要素符号のうち第1要素符号よりデータを抽出してデータ処理部63に入力すると共に、入力された各要素符号をそのまま音声・音響CODEC(復号器)6４に入力する。復号器64は入力された音声符号を復号して音声を再生して出力する。
【００４５】
データ抽出部62は、埋め込み判定部6５と振り分け部６6を備え、適宜、データを音声符号より抽出する。埋め込み判定部65は、音声符号を構成する要素符号のうち第1要素符号と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていれば、要素符号のうち第2要素符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に送出する。また、振り分け部66はデータ埋め込み条件が満たされているか否かに関係なく、入力された第2要素符号をそのまま符号器64に入力する。
【００４６】
図１３は埋め込み判定部の構成図であり、逆量子化部65aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部65bは閾値THを出力する。比較部65cは逆量子化値Gと閾値THを比較し、比較結果をデータ埋め込み判定部65dに入力する。データ埋め込み判定部65dは、G≧THであればデータが埋め込まれていないと判定し、G<THであれば、データが埋め込まれていると判定し、振り分け信号BLを発生する。振り分け部66は振り分け信号BLに基いて、データが埋め込まれていれば該データを第2要素符号より抽出してデータ処理部63に入力すると共に該第2要素符号をそのまま復号器64に入力する。又、振り分け部66はデータが埋め込まれていなければ、第2要素符号をそのまま復号器64に入力する。尚、図１３では第1要素符号を逆量子化して閾値と比較したが、閾値を符号で設定することにより符号レベルで比較できる場合もあり、かかる場合必ずしも逆量子化する必要はない。
【００４７】
（ｂ）第1実施例
図１４はG.729の雑音符号にデータが埋め込まれている場合の第1実施例構成図であり、図１２と同一部分には同一符号を付している。図１２と異なる点は、第1要素符号としてゲイン符号(雑音符号帳ゲイン)を使用し、第2要素符号として雑音符号帳のインデックスである雑音符号を使用する点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。G.729に従って符号化されているとすれば、分離部61は音声符号をLSP符号、ピッチラグ符号、雑音符号、ゲイン符号に分離してデータ抽出部62に入力する。尚、ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せ、量子化テーブルを用いて量子化(符号化)したものである。
【００４８】
データ抽出部62の埋め込み判定部65は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていれば雑音符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に入力すると共に、該雑音符号を入力されたままの形で復号器64に入力する。また、振り分け部66はデータ埋め込み条件が満たされていなければ、雑音符号を入力されたままの形で復号器64に入力する。
埋め込み判定部65は図１５に示す構成を備え、逆量子化部65aはゲイン符号を逆量子化し、比較部65cは逆量子化値(雑音符号帳ゲイン)Gcと閾値THを比較し、データ埋め込み判定部65dは逆量子化値Gcが閾値THより小さいとき、データが埋め込まれていると判断し、逆量子化値Gcが閾値THより大きいとき、データが埋め込まれていないと判断し、それぞれ振り分け信号BLを発生する。振り分け66は振り分け信号BLに基いて、雑音符号に埋め込まれているデータをデータ処理部63に入力し、又、雑音符号を復号器64に入力する。
【００４９】
図１６は受信音声符号の標準フォーマット、図１７はデータ埋め込み判定部による判定結果説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。受信時、音声符号の雑音符号帳インデックス部(雑音符号部)にデータが埋め込まれているか否かは不明である(図１６)。しかし、雑音符号帳ゲインGcと閾値THの大小を判別することによりデータが埋め込まれているか否かが判明する。すなわち、雑音符号帳ゲインGcが閾値THより大きければ、図１７の(1)に示すようにデータは雑音符号帳インデックス部に埋め込まれていない。しかし、雑音符号帳ゲインGcが閾値THより小さければ、図１７の(2)に示すようにデータは雑音符号帳インデックス部に埋め込まれている。
図７に示すように最上位ビット（MSB）をデータ種別ビットとすることにより、残りの(M-1)ビットにデータと制御コードが区別して埋め込まれていれば、データ処理部63該最上位ビットを参照し、制御コードであれば該コマンドに応じた処理、例えば、閾値の変更、同期制御処理などを実行する。
【００５０】
（ｃ）第２実施例
図１８はG,729のピッチラグ符号にデータが埋め込まれている場合の第２実施例構成図であり、図１２と同一部分には同一符号を付している。図１２と異なる点は、第1要素符号としてゲイン符号(ピッチゲイン符号)を使用し、第2要素符号として適応符号帳のインデックスであるピッチラグ符号を使用する点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。G.729に従って符号化されているとすれば、分離部61は音声符号をLSP符号、ピッチラグ符号、雑音符号、ゲイン符号に分離してデータ抽出部62に入力する。尚、ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せ、量子化テーブルを用いて量子化(符号化)したものである。
【００５１】
データ抽出部62の埋め込み判定部65は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていればピッチラグ符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に入力すると共に、該ピッチラグ符号を入力されたままの形で復号器64に入力する。また、振り分け部66はデータ埋め込み条件が満たされていなければ、ピッチラグ符号を入力されたままの形で復号器64に入力する。
埋め込み判定部65は図１９に示す構成を備え、逆量子化部65aはゲイン符号を逆量子化し、比較部65cは逆量子化値(ピッチゲイン)Gpと閾値THを比較し、データ埋め込み判定部65dは逆量子化値Gpが閾値THより小さいとき、データが埋め込まれていると判断し、逆量子化値Gpが閾値THより大きいとき、データが埋め込まれていないと判断し、それぞれ振り分け信号BLを発生する。振り分け66は振り分け信号BLに基いて、ピッチラグ符号に埋め込まれているデータをデータ処理部63に入力し、又、ピッチラグ符号を復号器64に入力する。
【００５２】
図２０は受信音声符号の標準フォーマット、図２１はデータ埋め込み判定部による判定結果説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。受信時、音声符号の適応符号帳インデックス部(ピッチラグ符号部)にデータが埋め込まれているか否かは不明である(図２０)。しかし、適応符号帳ゲインGpと閾値THの大小を判別することによりデータが埋め込まれているか否かが判明する。すなわち、適応符号帳ゲインGpが閾値THより大きければ、図２１の(1)に示すようにデータは適応符号帳インデックス部に埋め込まれていない。しかし、適応符号帳ゲインGpが閾値THより小さければ、図２１の(2)に示すように任意のデータが雑音符号帳インデックス部に埋め込まれている。
【００５３】
（D）閾値を多段に設定した実施例
（ａ）符号器側の実施例
図２２は閾値を多段に設定した符号器側の実施例構成図であり、図1と同一部分には同一符号を付している。異なる点は、▲１▼閾値が２つ設定されている点、▲２▼第1要素符号の逆量子化値の大きさに応じて、データ系列のみを埋め込むか、あるいはデータ種別ビットを有するデータ／制御コード系列を埋め込むかを決定する点、▲３▼該決定に基づいてデータを埋め込む点である。
音声・音響CODEC（符号器）51は入力音声を所定の符号化方式、例えばG.729に従って符号化し、得られた音声符号(符号データ)を出力する。音声符号は複数の要素符号で構成されている。埋め込みデータ発生部52は音声符号に埋め込む2種類のデータ系列を発生する。第1のデータ系列は例えばメディアデータのみからなるデータ系列であり、第2のデータ系列は図７に示すデータ種別ビットを有するデータ／制御コード系列であり、データ種別ビットの"1"、"0"によりメディアデータと制御コードを混在させることができる。
【００５４】
データ埋め込み制御部53は埋め込み判定部54とセレクタ構成のデータ埋め込み部55を備え、適宜、メディアデータあるいは制御コードを音声符号に埋め込む。埋め込み判定部54は、音声符号を構成する要素符号のうち第1要素符号と閾値TH1、TH2(TH2>TH1)を用いてデータ埋め込み条件が満たされたか判定すると共に、満たされている場合には、メディアデータのみからなるデータ系列の埋め込み条件が満たされているか、データ種別ビットを有するデータ／制御コード系列の埋め込み条件が満たされているか判定する。例えば、図２３に示すように第1要素符号の逆量子化値Gが、▲１▼TH2<Gであればデータ埋め込み条件が満たされていないと判定し、▲２▼TH1≦G<TH2であれば、データ種別ビットを有するデータ／制御コード系列の埋め込み条件が満たされていると判定し、▲３▼G<TH1であればメディアデータのみからなるデータ系列の埋め込み条件が満たされていると判定する。
【００５５】
データ埋め込み部55は、▲１▼TH1≦G<TH2であれば、埋め込みデータ発生部52から発生するデータ種別ビットを有するデータ／制御コード系列で第2要素符号を置き換えることによりデータを音声符号に埋め込み、▲２▼G<TH1であれば，埋め込みデータ発生部52から発生するメディアデータ系列で第2要素符号を置き換えることによりデータを音声符号に埋め込み、▲３▼TH2<Gであれば、第2要素符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【００５６】
図２４は埋め込み判定部54の構成図であり、逆量子化部54aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部54bは第1、第2の閾値TH1、TH2を出力する。比較部54cは逆量子化値Gと閾値TH1,TH2を比較し、比較結果をデータ埋め込み判定部54dに入力する。データ埋め込み判定部54dは、▲１▼TH2<Gであるか、▲２▼TH1≦G<TH2であるか、▲３▼G<TH1であるかに応じて所定のセレクト信号SLを出力する。この結果、データ埋め込み部55はセレクト信号SLに基いて第２要素符号、データ種別ビットを有するデータ／制御コード系列、メディアデータ系列のいずれかを選択して出力する。
符号器としてG.729符号化方式の符号器を採用する場合、前記第1の要素符号に応じた値は雑音符号帳ゲインあるいはピッチゲインであり、第2の要素符号は雑音符号あるいはピッチラグ符号である。
【００５７】
図２５は第1の要素符号の逆量子化値に応じた値を雑音符号帳ゲインGp、第2の要素符号を雑音符号とした場合のデータ埋め込み説明図であり、Gp<TH1であれば17ビットの雑音符号部分に全てメディアデータなどの任意のデータを埋め込む。又、TH1≦Gp<TH2であれば最上位ビットを"1"にして残り16ビットに制御コードを埋め込み、最上位ビットを"0"にして残り16ビットに任意のデータを埋め込む。
【００５８】
（ｂ）復号器側の実施例
図２６は閾値を多段に設定した復号器側の実施例構成図であり、図１２と同一部分には同一符号を付している。異なる点は、▲１▼閾値が２つ設定されている点、▲２▼第1要素符号の逆量子化値の大きさに応じて、データ系列のみが埋め込れているかか、あるいはデータ種別ビットを有するデータ／制御コード系列が埋め込まれているかを判定する点、▲３▼該判定に基づいてデータを振り分けている点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。データ抽出部62は分離された要素符号のうち第1要素符号よりデータ系列あるいはデータ／制御コード系列を抽出してデータ処理部63に入力すると共に、入力された各要素符号をそのまま音声・音響CODEC(復号器)6４に入力する。復号器64は入力された音声符号を復号して音声を再生して出力する。
【００５９】
データ抽出部62は、埋め込み判定部6５と振り分け部６6を備え、適宜、データ系列あるいはデータ／制御コード系列を音声符号より抽出する。埋め込み判定部65は、音声符号を構成する要素符号のうち第1要素符号に応じた値と図２３に示す閾値TH1、TH2(TH2>TH1)を用いてデータ埋め込み条件が満たされたか判定すると共に、満たされている場合には、メディアデータのみからなるデータ系列の埋め込み条件が満たされているか、データ種別ビットを有するデータ／制御コード系列の埋め込み条件が満たされているか判定する。例えば、第1要素符号の逆量子化値Gが、▲１▼TH2<Gであればデータ埋め込み条件が満たされていないと判定し、▲２▼TH1≦G<TH2であれば、データ種別ビットを有するデータ／制御コード系列の埋め込み条件が満たされていると判定し、▲３▼G<TH1であればメディアデータのみからなるデータ系列の埋め込み条件が満たされていると判定する。
【００６０】
振り分け部66は、▲１▼TH1≦G<TH2であれば、第2要素符号をデータ種別ビットを有するデータ／制御コード系列とみなしてデータ処理部63に入力すると共に、該第2要素符号を復号器64に入力し、また、▲２▼G<TH1であれば、第2要素符号をメディアデータのみからなるデータ系列とみなしてデータ処理部63に入力すると共に、該第2要素符号を復号器64に入力し、更に、▲３▼TH2<Gであれば第2要素符号にデータは埋め込まれていないと見なして該第2要素符号を復号器64に入力する。
【００６１】
図２７は埋め込み判定部65の構成図であり、逆量子化部65aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部65bは第1、第2の閾値TH1、TH2を出力する。比較部65cは逆量子化値Gと閾値TH1,TH2を比較し、比較結果をデータ埋め込み判定部65dに入力する。データ埋め込み判定部65dは、▲１▼TH2<Gであるか、▲２▼TH1≦G<TH2であるか、▲３▼G<TH1であるかに応じて所定の振り分け信号BLを出力する。この結果、振り分け部66は振り分け信号BLに基いて前述の振り分けを行なう。
G.729符号化方式により符号化した音声符号を受信する場合、前記第1の要素符号に応じた値は雑音符号帳ゲインあるいはピッチゲインであり、第2の要素符号は雑音符号あるいはピッチラグ符号である。
以上では符号器を有する送信装置から復号器を有する受信装置に音声符号を送信する音声通信システムに本発明を適用した場合について説明した。しかし、本発明はかかる音声通信システムに限らず、その他のシステム、例えば、符号器を有する記録装置で音声を符号化して記憶媒体に記録し、該記憶媒体より復号器を有する再生装置で音声を再生する記録・再生システム等にも適用できるものである。
【００６２】
(E)デジタル音声通信システム
（ａ）画像伝送サービスを実現するシステム
図２８は画像を埋め込むことで音声と同時に画像を伝送するマルチメディア伝送を実現するデジタル音声通信システムの構成図であり、端末A 100と端末Ｂ 200が公衆網300を介して接続されている状況が示されている。各端末Ａ，Ｂは同一の構成を備えている。端末Ａ 100において、音声符号化部101はマイクロホンMICから入力された音声データを例えばG.729方式に従って音声符号化して埋め込み部103に入力し、画像データ生成部102は、送信すべき画像データを生成して埋め込み部103に入力する。画像データ生成部102は、例えば、図示しないデジタルカメラで撮影した周辺写真やユーザ自身の顔写真等の画像を圧縮、コード化してメモリに保存しておき、これら画像データ、あるいは話者周辺の地図画像データをコード化して埋め込み部103に入力する。埋め込み部103は、図3あるいは図8の実施例で示したデータ埋め込み制御部53に対応する部分で、該実施例と同一の埋め込み判定基準に従って画像データを、音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は画像データが埋め込まれた音声符号データを公衆網300を介して相手端末に送信する。
【００６３】
相手端末Ｂ 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例で示したデータ抽出部62に対応する部分で、該実施例と同一の埋め込み判定基準に従って画像データを抽出して画像出力部206に入力し、また、音声符号データを音声復号部207に入力する。画像出力部206は入力された画像データを復号して画像を発生して表示部に表示する。音声復号部207は入力された音声符号データを復号してスピーカSPより出力する。
なお、端末Ｂから端末Ａに画像データを音声符号データに埋め込んで送信し、端末Ａで画像を出力する制御も同様に行われる。
【００６４】
図29は画像伝送サービスにおける送信側端末の送信処理フローである。入力音声を所望の符号化方式、例えばG.729方式に従って音声符号化して圧縮し(ステップ1001)、符号化された音声フレーム内の情報を分析し(ステップ1002)、分析の結果に基づいて埋め込み可能であるか調べ(ステップ1003)、埋め込みが可能であれば音声符号データに画像データを埋め込み(ステップ1004)、画像データが埋め込まれた音声符号データを伝送し(ステップ1005)、送信が完了するまで上記動作を繰り返す(ステップ100６)。
【００６５】
図30は画像伝送サービスにおける受信側端末の受信処理フローである。音声符号データを受信すれば(ステップ1101)、符号化された音声フレーム内の情報を分析し(ステップ1102)、分析の結果に基づいて画像データが埋め込まれているか調べ(ステップ1103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ1104)。一方、画像データが埋め込まれていれば、ステップ1104の音声再生と並行して、画像データを抽出し(ステップ1105)、該画像データを復号して画像を再生して表示部に表示する(ステップ1106)。以後、再生が完了するまで上記動作を繰り返す(ステップ1107)。
以上、図28のデジタル音声通信システムによれば、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。そして、付加情報として画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、指紋)等とすることにより、マルチメディア通信が可能になる。
【００６６】
（ｂ）認証情報伝送サービスを実現するシステム
図31は認証情報を埋め込むことで音声と同時に認証情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりに認証データ生成部111,211を設けた点、画像出力部106,206の代わりに認証確認部112,212を設けた点である。図31には認証情報として、声紋を埋め込む場合が示されている。認証データ生成部111はデータが埋め込まれる前の音声符号化データあるいは生の音声データを用いて声紋情報を作成して保存しておく。そして、この声紋情報を音声符号化データに埋め込んで送信する。受信側において認証確認部112,212は声紋情報を抽出し、予め登録されている本人の声紋であるか比較することで認証を行ない、本人であれば音声復号化を許容する。なお、認証情報としては声紋に限らず、端末のユニークコード(シリアル番号)、あるいはユーザ自信のユニークコードあるいはこれら両コードを組み合せたユニークコードなどであっても良い。
【００６７】
図32は認証伝送サービスにおける送信側端末の送信処理フローである。入力音声を所望の符号化方式、例えばG.729方式に従って音声符号化して圧縮し(ステップ2001)、符号化された音声フレーム内の情報を分析し(ステップ2002)、分析の結果に基づいて埋め込み可能であるか調べ(ステップ2003)、埋め込みが可能であれば音声符号データに個人認証データを埋め込み(ステップ2004)、認証データが埋め込まれた音声符号データを伝送し(ステップ2005)、送信が完了するまで上記動作を繰り返す(ステップ200６)。
【００６８】
図33は認証伝送サービスにおける受信側端末の受信処理フローである。音声符号データを受信すれば(ステップ2101)、符号化された音声フレーム内の情報を分析し(ステップ2102)、分析の結果に基づいて認証情報が埋め込まれているか調べ(ステップ2103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ2104)。一方、認証情報が埋め込まれていれば、ステップ2104の音声再生と並行して、認証情報を抽出し(ステップ2105)、認証処理を行う(ステップ2106)。例えば、予め登録されている本人の認証情報と比較して認証のＮＧ，ＯＫを判別し(ステップ2107)、認証結果がNGであれば、すなわち、本人でなければ音声符号化データの復号(再生、伸長)を中止する(ステップ2108)。認証結果がOKであれば、すなわち、本人であれば音声符号データの復号を許容し、音声を再生してスピーカより出力する(ステップ2104)。以後、相手からの送信が完了するまで上記動作を繰り返す(ステップ2109)。
以上、図31のデジタル音声通信システムによれば、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。そして、付加情報として認証情報を埋め込むことにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
【００６９】
（ｃ）鍵情報伝送サービスを実現するシステム
図34は鍵情報を埋め込むことで音声と同時に鍵情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりに鍵生成部121,221を設けた点、画像出力部106,206の代わりに鍵照合部122,222を設けた点である。鍵生成部121は予め設定された鍵情報を内蔵の記憶部に予め保存しておく。そして、埋め込み部103は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、鍵生成部121から入力される鍵情報を、音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は鍵情報が埋め込まれた音声符号データを公衆網300を介して相手端末に送信する。
相手端末Ｂ 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って鍵情報を抽出して鍵照合部222に入力すると共に、音声符号データを音声復号部207に入力する。鍵照合部222は入力された情報が予め登録されている鍵情報であるか比較することで認証を行ない、鍵情報が一致すれば音声復号を許容し、一致しなければ音声復号を禁止する。以上のようにすれば、特定のユーザのみからの音声データの再生を可能にできる。
【００７０】
（ｄ）マルチポイントアクセスサービスを実現するシステム
図35は関連アドレス情報（たとえばIP電話アドレス情報）を埋め込むことで音声と同時に関連アドレス情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりにアドレス入力部131,231を設けた点、画像出力部106,206の代わりにアドレス蓄積部132,232を設けた点、表示・キー部DPKを設けた点である。
アドレス入力部131には予め設定された関連アドレス情報が内蔵の記憶部に保存されている。このアドレスは端末Ａの代替IP電話番号やメールアドレスであっても、端末Ａ以外の別施設、別サイトの電話番号やメールアドレスであっても良い。埋め込み部103は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、アドレス入力部131から入力される関連アドレス情報を音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は関連アドレス情報が埋め込まれた音声符号データを、公衆網300を介して相手端末に送信する。相手端末Ｂ 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って関連アドレス情報を抽出してアドレス蓄積部232に入力し、又、音声符号データを音声復号部207に入力する。アドレス蓄積部232は入力された関連アドレス情報を蓄積する。
表示・キー部DPKはアドレス蓄積部232に蓄積された関連アドレス情報を表示するから、この情報を選択してワンクリックで電話したり、メール送信することができる。
【００７１】
（ｅ）広告情報埋め込みサービスを実現するシステム
図36は広告情報埋め込みサービスを実現するデジタル音声通信システムの構成図であり、サーバ(ゲートウェイ)を設け、該サーバにおいて、音声符号化データに広告情報を埋め込むことで、互いに通信しているエンドユーザに直接広告情報を提供するようになっている。図36において、図28と同一部分には同一符号を付している。図28と異なる点は、▲１▼端末100,200より画像データ生成部102,202及び埋め込み部103,203を除去した点、▲２▼画像出力部106,206の代わりに広告情報再生部142,242を設けた点、▲３▼表示・キー部DPKを設けた点、及び▲４▼公衆網300に端末間の音声データを中継するサーバ(ゲートウェイ)400を設けた点である。
【００７２】
サーバ400において、ビットストリーム分解・生成部401は、送信側端末100から入力するビットストリームより伝送パケットを切り出し、該パケットのIPヘッダより送信者、受信者を特定し、又、RTPヘッダよりメディア種と符号化方式を特定し、これら情報に基づいて広告情報挿入条件を満たしているか判別し、満たしていれば埋め込み部402に伝送パケットの音声符号データを入力する。埋め込み部402は図3あるいは図8の実施例と同一の埋め込み判定基準に従って、埋め込みの可否を判別し、埋め込み可能であれば、別途広告主(情報提供者)が提供してメモリ403に保存してある広告情報を音声符号データに埋め込んでビットストリーム分解・生成部401に入力する。ビットストリーム分解・生成部401は該音声符号データを用いて伝送パケットを生成して受信側端末Ｂ 200に送信する。
【００７３】
受信側端末Ｂ 200の伝送処理部204は、公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って広告情報を抽出して広告情報再生部242に入力し、又、音声符号データを音声復号部207に入力する。広告情報再生部242は入力された広告情報を再生して表示・キー部DPKの表示部に表示し、音声復号部207は音声を再生してスピーカSPより出力する。
【００７４】
図37はインタネット電話サービスにおけるIPパケットの構成例であり、ヘッダはIPヘッダと、UDP(User Datagram Protocol)ヘッダと、 RTP(Real-time Transport Protocol)ヘッダとで構成され、IPヘッダには図示しないが発信元アドレス、送信元アドレスが含まれており、RTPヘッダのペイロードタイプPTによりメディア種とCODEC種が規定されている。従って、ビットストリーム分解・生成部401は伝送パケットのヘッダを参照することにより、送信者、受信者、メディア種、符号化方式を識別することができる。
【００７５】
図38はサーバにおける広告情報挿入処理フローである。
サーバ400は、ビットストリームが入力すると伝送パケットのヘッダ及び符号化音声データの分析を行う(ステップ3001)。すなわち、ビットストリームより伝送パケットを切り出し(ステップ3001a)、IPヘッダから送信アドレス、受信アドレスを抽出し(3001b)、送信者、受信者が広告提供契約を結んでいるかチェックし(ステップ3001c)、広告提供契約を結んでいればRTPヘッダを参照してメディア種とCODEC種を識別する(ステップ3001d)。ここで、たとえばメディア種が音声でCODEC種がG．729であれば(ステップ3001e)、次に図3あるいは図8の実施例と同一の埋め込み判定基準に従って、埋め込みの可否を判別し(ステップ3001f)、判別結果に従って埋め込み可、埋め込み不可とする(ステップ3001g,3001h)。尚、ステップ3001cで広告提供契約を結んでいない場合、ステップ3001eでメディア種が音声でない場合、あるいはCODEC種が対象外の場合には埋め込み不可とする(ステップ3001h)。
しかる後、サーバ400は埋め込み可能であれば(3002)、広告主(情報提供者)が提供する広告情報を音声符号データに埋め込み(ステップ3003)、埋め込み不可能であれば広告情報を音声符号データに埋め込むことなく、受信側の端末に送信し(ステップ3004)、以後、送信が完了するまで上記動作を繰り返す(ステップ3005)。
【００７６】
図39は広告情報埋め込みサービスにおける受信側端末の広告情報受信処理フローである。音声符号データを受信すれば(ステップ3101)、符号化された音声フレーム内の情報を分析し(ステップ3102)、分析の結果に基づいて広告情報が埋め込まれているか調べ(ステップ3103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ3104)。一方、広告情報が埋め込まれていれば、ステップ3104の音声再生と並行して、広告情報を抽出し(ステップ3105)、該広告情報を表示・キー部DPKに表示する(ステップ3106)。以後、再生が完了するまで上記動作を繰り返す(ステップ3107)。
なお、実施例では広告情報を埋め込む場合について説明したが広告情報に限らず任意の情報を埋め込むことができる。また、広告情報と共にIP電話アドレスを挿入しておくことにより、ワンクリックでより該IP電話アドレス先に電話して詳細な広告情報やその他の詳細情報を入力できるように構成することができる。
以上、図36のデジタル音声通信システムによれば、音声データを中継するサーバ装置を設け、該サーバにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供することができる。
【００７７】
（ｆ）情報蓄積システム
図40はデジタル音声通信システムに連携させた情報蓄積システムの構成図であり、端末A 100とセンター500が公衆網300を介して接続されている状態が示されている。センター500は例えば企業のコールセンターで、苦情や修理相談、その他ユーザからの要望を受付けて応答する施設である。端末A 100において音声符号化部101はマイクロホンMICから入力する音声を符号化して伝送処理部104を介して網300に送出すると共に、音声復号部107は網300から伝送処理部104を介して入力する音声符号データを復号してスピーカSPから再生音声を出力する。センター500において、音声通信端末側Ｂは端末Aと同様の構成を備えている。すなわち、音声符号化部501はマイクロホンMICから入力する音声を符号化して伝送処理部504を介して網300に送出すると共に、音声復号部507は網300から伝送処理部504を介して入力する音声符号データを復号してスピーカSPから再生音声を出力する。以上の構成により、端末Ａ(ユーザ)から電話がかかってくるとオペレータが該ユーザに対して応答する。
【００７８】
センター500のデジタル音声蓄積側において、付加データ埋め込み部510は、端末Aから送られてきた音声符号化データに付加データを埋め込んで音声データ蓄積部520に蓄積し、付加データ抽出部530は音声データ蓄積部520から読み出された所定の音声符号化データより埋め込まれている情報を抽出して操作部540の表示部に表示すると共に、音声符号化データを音声復号部550に入力し、音声復号部550は入力された音声符号データを復号してスピーカ560より出力する。
付加データ埋め込み部510において、付加データ発生部511は操作部540から入力された発信者名、受信者名、受信時刻、会話カテゴリー(苦情、相談、修理依頼などの別)を付加データとしてコード化して埋め込み部512に入力する。埋め込み部512は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、伝送処理部504を介して端末Ａ 100から送信されてくる音声符号データに付加情報の埋め込みが可能であるか判別する。そして、埋め込みが可能であれば、付加データ発生部511から入力するコード情報を音声符号データに埋め込んで音声ファイルとして音声データ蓄積部520に蓄積する。
【００７９】
付加データ抽出部530において、抽出部531は図14あるいは図18の実施例と同一の埋め込み判定基準に従って音声符号データに情報が埋め込まれているか判定し、埋め込まれている場合には埋め込みコードを抽出して付加データ利用部532に入力すると共に、音声符号データを音声復号部550に入力する。付加データ利用部532は抽出されたコードを復号して操作部540の表示部に、発信者名、受信者名、受信時刻、会話カテゴリー等を表示する。又、音声復号部550は音声を再生してスピーカより出力する。
なお、音声データ蓄積部520より音声符号データを読み出す際、埋め込まれている情報を用いて所望の音声符号データを検索して出力することができる。すなわち、操作部540より検索キーワード、例えば、発信者名を入力してこの発信者名が埋め込まれている音声ファイルを出力するよう指示する。これにより抽出部531は指定された発信者名が埋め込まれた音声ファイルを検索し、埋め込み情報を出力すると共に、音声符号データを音声復号部550に入力し、復号音声をスピーカより出力する。
以上図40の実施例によれば、音声符号データに発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積し、適宜、蓄積した音声符号データを読み出して再生すると共に、埋め込み情報を抽出して表示できる。又、埋め込みデータを用いて音声データのファイル化が可能になり、しかも、埋め込みデータを検索キーワードとして所望の音声ファイルを速やかに検索して再生出力することができる。
【００８０】
・付記
(付記１）音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込むデータ埋め込み方法において、
音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、
満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む、
ことを特徴とするデータ埋め込み方法。
(付記２）所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出する埋め込みデータ抽出方法において、
前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、
満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする埋め込みデータ抽出方法。
(付記３）音声符号化装置において、音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置において、音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する、システムにおけるデータ埋め込み／抽出方法において、
予め、データが埋め込まれているか否かを判定するために使用する第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる第２要素符号をそれぞれ定義し、
データ埋め込みに際して、前記第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、
データ抽出に際して、前記第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とするデータ埋め込み／抽出方法。
(付記４）第1要素符号の逆量子化値と閾値を比較し、比較結果に基づいてデータ埋め込み条件が満たされたか判断する、
ことを特徴とする付記1乃至３記載のデータ埋め込み又はデータ抽出方法。
(付記５）前記第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックス情報である雑音符号であり、
該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記雑音符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、あるいは、前記雑音符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする付記1乃至３記載のデータ埋め込み又はデータ抽出方法。
(付記６）前記第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックス情報であるピッチラグ符号であり、
該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、あるいは、前記ピッチラグ符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする付記1乃至３記載のデータ埋め込み又はデータ抽出方法。
(付記７）前記埋め込みデータの一部分をデータ種別識別情報とし、該データ種別識別情報により埋め込みデータの種別を特定する、
ことを特徴とする付記付記1乃至３記載のデータ埋め込み又はデータ抽出方法
(付記８）前記閾値を複数個設定し、第1要素符号あるいは第1要素符号の逆量子化値に基いて、埋め込みデータが全てデータ系列であるか、データと制御コードの種別を識別できる形式であるデータ／制御コード列であるかを区別する、
ことを特徴とする付記1乃至３記載のデータ埋め込み又はデータ抽出方法。
(付記９）音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋め込むデータ埋め込み装置において、
前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備えたことを特徴とするデータ埋め込み装置。
(付記１０）所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出するデータ抽出装置において、
前記音声符号を構成する要素符号を分離する分離部、
該要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該データを抽出する埋め込みデータ抽出部、
を備えたことを特徴とするデータ抽出装置。
(付記１１）音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、該音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する音声符号化／復号化システムにおいて、
音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込む音声符号化装置と、
所定の音声符号化方式で符号化された音声符号に復号処理を施して音声を再生すると共に該音声符号に埋め込まれているデータを抽出する音声復号化装置と、
を備え、前記音声符号化装置は、
音声を所定の音声符号化方式で符号化する符号器、
音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断する埋め込み判定部、
満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備え、前記音声復号化装置は、
音声符号を要素符号に分離する分離部
受信音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該データを抽出する埋め込みデータ抽出部、
受信音声符号を復号して音声を再生する復号器、
を備え、
予め、音声符号化装置及び音声復号化装置においてデータが埋め込まれているか否かを判定するために使用する前記第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる前記第２要素符号をそれぞれ定義しておくことを特徴とする音声符号化／復号化システム。
(付記１２）前記埋め込み判定部は、
前記第1要素符号を逆量子化する逆量子化部、
逆量子化により得られる逆量子化値と前記閾値を比較する比較部、
比較結果に基づいてデータ埋め込み条件が満たされているか否かを出力する判定部、
を有することを特徴とする付記９または１０記載のデータ埋め込み装置またはデータ抽出装置。
(付記１３）前記第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックス情報である雑音符号であり、前記埋め込み判定部は、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断する、
ことを特徴とする付記１２記載のデータ埋め込み装置またはデータ抽出装置。
(付記１４）前記第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックス情報であるピッチラグ符号であり、前記埋め込み判定部は、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断する、
ことを特徴とする付記１２記載のデータ埋め込み装置またはデータ抽出装置。
(付記１５）一部分がデータの種別を特定する種別情報である埋め込みデータを発生する埋め込みデータ発生部、
を備えることを特徴とする付記９記載のデータ埋め込み装置。
(付記１６）前記データ埋め込み部は、前記第1要素符号あるいは該第１要素符号に応じた値に基いて、データと制御コードの種別を識別できる形式でデータ／制御コード列を埋め込むか、あるいは、データ系列のみを埋め込むか決定する、
ことを特徴とする付記９記載のデータ埋め込み装置。
（付記１７）音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして送信する手段、
を備え、通常の音声通話と同時に付加情報を送信する、
ことを特徴とするデジタル音声通信システム。
（付記１８）音声を所定の音声符号化方式で符号化して送信された音声データを受信するデジタル音声通信システムにおいて、
受信した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段、
を備え、通常の音声通話と同時に付加情報を受信する、
ことを特徴とするデジタル音声通信システム。
（付記１９）音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置は送信部と受信部を備え、
前記送信部は、
入力音声を符号化したデータを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして送信する手段、
を備え、前記受信部は、
受信した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段、
を備え、端末装置間で網を介して通常の音声通話と同時に付加情報を双方向伝送する、
ことを特徴とするデジタル音声通信システム。
（付記２０）前記送信部は、ユーザ端末が保有する画像あるいは個人情報を用いて前記埋め込み用のコードを生成する手段を備え、
前記受信部は、前記埋め込まれたコードを抽出して出力する手段を備え、
音声通話の形態でマルチメディア伝送を可能にする、
ことを特徴とする付記１９記載のデジタル音声通信システム。
（付記２１）前記送信部は、送信側でユーザが使用する端末のユニークコードあるいは使用者自身のユニークコードを前記埋め込み用のコードとする手段を備え、
前記受信部は、埋め込みコードを抽出して内容を判別する手段を備えた、
ことを特徴とする請求項１９記載のデジタル音声通信システム。
（付記２２）前記送信部は、鍵情報を前記埋め込み用のコードとする手段を備え、
前記受信部は、該鍵情報を抽出する手段、該抽出した鍵情報を用いて特定のユーザのみ音声データの解凍を可能とする手段、
を備えたことを特徴とする付記１９記載のデジタル音声通信システム。
（付記２３）前記送信部は、関連アドレス情報を前記埋め込み用のコードとする手段を備え、
前記受信部は、該アドレス情報を抽出する手段、該アドレス情報を用いてワンクリックで情報発信者に電話をかける、もしくはメールを送信する手段、
を備えたことを特徴とする付記１９記載のデジタル音声通信システム。
（付記２４）音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置と、網に接続されて端末装置間の音声データを中継するサーバ装置を備え、
端末装置は、入力音声を符号化する音声符号化手段と、音声符号化データを送信する手段と、受信した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段を備え、
前記サーバ装置は、端末装置間で互いにやりとりされるデータを受信し、該データが音声データであるかどうかを判定する手段と、音声データであれば該データを分析する手段と、その分析結果に応じて一部の特定部分に任意のコードを埋め込んで送出する手段と、を備え、
サーバ装置を介してデータを受信した端末装置は該サーバ装置で埋め込まれたコードを抽出して出力する、
ことを特徴とするデジタル音声通信システム。
（付記２５）音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして蓄積する手段、
を備え、通常のデジタル音声の蓄積と同時に付加情報も同時に蓄積する、
ことを特徴とするデジタル音声蓄積システム。
（付記２６）音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
符号化音声データの一部に任意のコードを埋め込んで蓄積する手段と、
該蓄積されている音声データを復号する際、該蓄積音声データを分析する手段と、
その分析結果に応じて該蓄積データの特定部分から前記埋め込まれているコードを抽出する手段、
を備えたことを特徴とするデジタル音声蓄積システム。
（付記２７）音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして蓄積する手段と、
該蓄積されている音声データを復号する際、該音声データを分析する手段と、
その分析結果に応じて該音声データの特定部分から前記埋め込まれているコードを抽出する手段、
を備えたことを特徴とするデジタル音声蓄積システム。
（付記２８）前記埋め込むコードは、話者特定情報あるいは蓄積日時情報であり、
これらの情報を用いて解凍すべき蓄積音声データを検索する手段、
を備えたことを特徴とする請求項２７記載のデジタル音声蓄積システム。
【００８１】
【発明の効果】
以上の本発明によれば、符号器側、復号器側双方でキーを持ち合はなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出することができる。
又、本発明によれば、また、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることができる。又、本発明によれば、閾値の初期値のみを送受双方で予め定義しておけば、データの埋め込み、抽出が可能となる。
【００８２】
又、本発明によれば、埋込みデータに制御コードを定義しておけば、該制御コードで閾値の変更等を行なうことができ、別経路の付加情報の伝送なくして埋込みデータの伝送量を調整できる。
又、本発明によれば、ゲイン値に応じて、データ系列のみを埋め込むか、あるいは、データと制御コードの種別を識別できる形式でデータ／制御コード列を埋め込むか、を決定するため、データ系列のみを埋め込む場合にはデータ種別情報を含ませる必要がないため伝送容量を改善することができる。
【００８３】
又、本発明によれば、符号化フォーマットの変更なく、任意データの埋込みが可能となる。つまり、通信／蓄積の用途で必須の互換性を損なうことなく、かつユーザに知られることなく、IDや他メディアの情報を音声情報に埋め込んで伝送／蓄積することができる。加えて、本発明によれば、CELPに共通したパラメータにて制御仕様を規定するため、特定の方式に限定されることなく、幅広い方式に適用できる。例えば、VoIP向けのG.729や移動体通信向けのAMRなどにも対応できる。
【００８４】
又、本発明のデジタル音声通信システムによれば、送信端あるいは経路途中で圧縮音声データの特定部分に任意のコードを埋め込み、受信端、あるいは経路途中で伝送音声データを分析することで特定部分から埋め込まれたコードを抽出するようにしたから、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。また、付加情報としては、画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、声紋、指紋)等とすることにより、マルチメディア通信が可能になる。また、付加情報として端末のシリアル番号、声紋等とすることにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
また、本発明によれば、音声データを中継するサーバ装置を設けることにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供することができる。
また、本発明によれば、受信した音声データに、発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積することで、音声データのファイル化が可能になり、後の利用を容易にすることができる。
【図面の簡単な説明】
【図１】本発明の符号器側における一般的構成図である。
【図２】埋め込み判定部の構成図である。
【図３】 G.729の符号化方式に従って符号化する符号器を使用する場合の第１実施例の構成図である。
【図４】埋め込み判定部の構成図である。
【図５】音声符号の標準フォーマットである。
【図６】埋め込み制御による伝送符号の説明図である。
【図７】データと制御コードを区別して埋め込む場合の説明図である。
【図８】 G.729の符号化方式に従って符号化する符号器を使用する場合の第２実施例の構成図である。
【図９】埋め込み判定部の構成図である。
【図１０】音声符号の標準フォーマットである。
【図１１】埋め込み制御による伝送符号説明図である。
【図１２】本発明の復号器側における一般的構成図である。
【図１３】埋め込み判定部の構成図である。
【図１４】雑音符号にデータが埋め込まれている場合の第1実施例構成図である。
【図１５】雑音符号にデータが埋め込まれている場合の埋め込み判定部の構成図である。
【図１６】受信音声符号の標準フォーマットである。
【図１７】データ埋め込み判定部による判定結果説明図である。
【図１８】ピッチラグ符号にデータが埋め込まれている場合の第２実施例構成図である。
【図１９】ピッチラグ符号にデータが埋め込まれている場合の埋め込み判定部の構成図である。
【図２０】受信音声符号の標準フォーマットである。
【図２１】データ埋め込み判定部による判定結果説明図である。
【図２２】閾値を多段に設定した符号器側の実施例構成図である。
【図２３】データ埋め込み可能範囲説明図である。
【図２４】閾値を多段に設定した場合の埋め込み判定部の構成図である。
【図２５】データ埋め込み説明図である。
【図２６】閾値を多段に設定した復号器側の実施例構成図である。
【図２７】埋め込み判定部の構成図である。
【図２８】画像を埋め込むことで音声と同時に画像を伝送するマルチメディア伝送を実現するデジタル音声通信システムの構成図である。
【図２９】画像伝送サービスにおける送信側端末の送信処理フローである。
【図３０】画像伝送サービスにおける受信側端末の受信処理フローである。
【図３１】認証情報を埋め込むことで音声と同時に認証情報を伝送するデジタル音声通信システムの構成図である。
【図３２】認証伝送サービスにおける送信側端末の送信処理フローである。
【図３３】認証伝送サービスにおける受信側端末の受信処理フローである。
【図３４】鍵情報を埋め込むことで音声と同時に鍵情報を伝送するデジタル音声通信システムの構成図である。
【図３５】関連アドレス情報を埋め込むことで音声と同時に関連アドレス情報を伝送するデジタル音声通信システムの構成図である。
【図３６】広告情報埋め込みサービスを実現するデジタル音声通信システムの構成図である。
【図３７】インタネット電話サービスにおけるIPパケットの構成例である。
【図３８】サーバにおける広告情報挿入処理フローである。
【図３９】広告情報埋め込みサービスにおける受信側端末の広告情報受信処理フローである。
【図４０】デジタル音声通信システムに連携させた情報蓄積システムの構成図である。
【図４１】 ITU-T勧告G.729方式の符号器の構成図である。
【図４２】各パルス系統グループに割り当てたサンプル点の説明図である。
【図４３】 G.729方式の復号器のブロック図である。
【図４４】従来の電子透かし技術説明図である。
【図４５】従来の電子透かし技術の別の説明図
【符号の説明】
５１音声・音響CODEC（符号器）
５２埋め込みデータ発生部
５３データ埋め込み制御部
５４埋め込み判定部
５５データ埋め込み部
５６多重部

Claims

音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込むデータ埋め込み方法において、
音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされたか判断し、
満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む、
ことを特徴とするデータ埋め込み方法。
音声符号化装置において、音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置において、音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する、システムにおけるデータ埋め込み／抽出方法において、
予め、音声符号を構成する第１要素符号である雑音符号帳ゲインと適応符号帳ゲインのうちデータが埋め込まれているか否かを判定するために使用する少なくとも一方のゲインと閾値、該音声符号を構成する第２要素符号である雑音符号と適応符号のうち該判定の結果に基いてデータが埋め込まれる少なくとも一方の符号をそれぞれ定義し、
データ埋め込みに際して、前記第１要素符号であるゲインが前記閾値より小さくなってデータ埋め込み条件が満たされたか判断し、満たされている場合には、前記第２要素符号であって条件が満たされている前記ゲインに対応する符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、
データ抽出に際して、前記第１要素符号であるゲインが前記閾値より小さくなってデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第２要素符号であって条件が満たされている前記ゲインに対応する符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とするデータ埋め込み／抽出方法。
音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋め込むデータ埋め込み装置において、
前記音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされたか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備えたことを特徴とするデータ埋め込み装置。
音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムにおいて、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記データが埋め込まれた音声符号を音声データとして送信する手段、
を備え、通常の音声通話と同時に付加情報を送信する、
ことを特徴とするデジタル音声通信システム。
音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置は送信部と受信部を備え、
前記送信部は、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記データが埋め込まれた音声符号を音声データとして送信する手段、
を備え、前記受信部は、
受信した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号に任意のデータが埋め込まれていると判断して該埋め込まれているデータを抽出する手段、
を備え、端末装置間で網を介して通常の音声通話と同時に付加情報を双方向伝送する、
ことを特徴とするデジタル音声通信システム。
音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置と、網に接続されて端末装置間の音声データを中継するサーバ装置を備え、
端末装置は、入力音声を符号化する音声符号化手段と、音声符号化データを送信する手段と、受信した音声データの音声符号を分析する手段と、その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号に任意のデータが埋め込まれていると判断して該埋め込まれているデータを抽出する手段を備え、
前記サーバ装置は、端末装置間で互いにやりとりされるデータを受信し、該データが音声データであるかどうかを判定する手段と、音声データであれば該音声データの音声符号を分析する手段と、その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込んで送出する手段と、を備え、
サーバ装置を介して音声データを受信した端末装置は該サーバ装置で埋め込まれたデータを抽出して出力する、
ことを特徴とするデジタル音声通信システム。
音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第１要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第２要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記埋め込まれたデータを音声データの一部として蓄積する手段、
を備え、通常のデジタル音声の蓄積と同時に付加情報も同時に蓄積する、
ことを特徴とするデジタル音声蓄積システム。