JP4330346B2 - 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム - Google Patents
音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム Download PDFInfo
- Publication number
- JP4330346B2 JP4330346B2 JP2003015538A JP2003015538A JP4330346B2 JP 4330346 B2 JP4330346 B2 JP 4330346B2 JP 2003015538 A JP2003015538 A JP 2003015538A JP 2003015538 A JP2003015538 A JP 2003015538A JP 4330346 B2 JP4330346 B2 JP 4330346B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- code
- embedding
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Description
【発明の属する技術分野】
本発明は、パケット音声通信やデジタル音声蓄積などを適用領域とするデジタル音声信号処理技術に係わり、特に、データフォーマットの規格準拠を保ちつつ、しかも音声品質を損なうことなく、音声符号化技術で圧縮された音声符号(デジタルコード)の一部を任意のデータと置き換えることにより該データを音声符号に埋め込むデータ埋込み技術に関する。
かかるデータ埋込み技術は、ディジタル移動無線システムやVoIPに代表されるパケット音声伝送システム、デジタル音声蓄積などに適用されている音声符号化技術と関連し、伝送ビット系列に影響を与えずに著作権やID情報を埋め込むことで通話の秘匿性を向上させる電子透かし技術や機能拡張技術として、その需要、および重要性が高まっている。
【0002】
【従来の技術】
インターネットの爆発的な普及を背景にIPパケットで音声データを伝送するインターネット電話への需要が高まっている。音声データをパケット伝送することで、コマンドや画像データなど異なるメディアを一元的に伝送できるメリットが生まれる。しかし、これまでは異なるチャネルで独立に伝送するマルチメディア通信が主であった。また、広告などを挿入することで、ユーザの通話料金を安くするサービスも行われているが、通話を開始した冒頭においてのみであった。また、音声データをパケット伝送することで、コマンドや画像データなど異なるメディアを一元的に伝送できるが、伝送フォーマットが周知であるため、秘匿性に問題が出てくる。これらを背景に、音声圧縮データ(コード)に著作権情報などを埋め込む“電子透かし”技術が提案されている。
【0003】
一方、伝送にあたっては伝送効率を高める目的で、音声を高能率に圧縮する音声符号化技術が採用されている。特にVoIPの領域では、国際標準化機関であるITU-T(国際電信連合 電信電話標準化部門)の定めるG.729などの音声符号化技術が主流となっている。また、移動体通信の分野でもG.729や3GPP(第三世代パートナーズプロジェクト)が定めるAMR(Adaptive Multi Rate)などの音声符号化技術が採用されている。これらにはCELP(Code Excited Linear Prediction)と呼ばれるアルゴリズムをベースとするといった共通点がある。G.729の符号化方式及び復号方式は次の通りである。
・符号器の構成及び動作
図41はITU-T勧告G.729方式の符号器の構成図である。図41において、1フレーム当り所定サンプル数(=N)の入力信号(音声信号)Xがフレーム単位でLPC分析部1に入力する。サンプリング速度を8kHz、1フレーム期間を10msecとすれば、1フレームは80サンプルである。LPC分析部1は、人間の声道を次式
H(z)=1/[1+Σαi・z-i] (i=1〜M) (1)
で表される全極型フィルタと見なし、このフィルタの係数αi(i=1,・・・,M)を求める。ここで、Mはフィルタ次数である。一般に、電話帯域音声の場合はMとして10〜12の値が用いられる。LPC(線形予測)分析部1では、入力信号の80サンプルと先読み分の40サンプル及び過去の信号120サンプルの合計240サンプルを用いてLPC分析を行いLPC係数を求める。
【0004】
パラメータ変換部2はLPC係数をLSP(線スペクトル対)パラメータに変換する。ここで、LSPパラメータは、LPC係数と相互に変換が可能な周波数領域のパラメータであり、量子化特性がLPC係数よりも優れていることから量子化はLSPの領域で行われる。LSP量子化部3は変換されたLSPパラメータを量子化してLSP符号とLSP逆量子化値を求める。LSP補間部4は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値によりLSP補間値を求める。すなわち、1フレームは5msecの第1、第2の2つのサブフレームに分割され、LPC分析部1は第2サブフレームのLPC係数を決定するが、第1サブフレームのLPC係数は決定しない。そこで、LSP補間部4は、現フレームで求めたLSP逆量子化値と前フレームで求めたLSP逆量子化値を用いて補間演算により第1サブフレームのLSP逆量子化値を予測する。
【0005】
パラメータ逆変換部5はLSP逆量子化値とLSP補間値をそれぞれLPC係数に変換してLPC合成フィルタ6に設定する。この場合、LPC合成フィルタ6のフィルタ係数として、フレームの第1サブフレームではLSP補間値から変換されたLPC係数が用いられ、第2サブフレームではLSP逆量子化値から変換したLPC係数が用られる。尚、以降において1に添字があるもの、例えばlspi, li(n),・・・における1はアルファベットのエルである。
LSPパラメータlspi(i=1,・・・,M)はLSP量子化部3でベクトル量子化により量子化された後、量子化インデックス(LSP符号)が復号器側へ伝送される。
【0006】
次に音源とゲインの探索処理を行なう。音源とゲインはサブフレーム単位で処理を行う。まず、音源信号をピッチ周期成分と雑音成分の2つに分け、ピッチ周期成分の量子化には過去の音源信号系列を格納した適応符号帳7を用い、雑音成分の量子化には代数符号帳や雑音符号帳などを用いる。以下では、音源符号帳として適応符号帳7と雑音符号帳8の2つを使用する音声符号化方式について説明する。
【0007】
適応符号帳7は、インデックス1〜Lに対応して順次1サンプル遅延したNサンプル分の音源信号(周期性信号という)を出力するようになっている。Nは1サブフレームのサンプル数であり(N=40)、最新の(L+39)サンプルのピッチ周期成分を記憶するバッファを有している。インデックス1により第1〜第40サンプルよりなる周期性信号が特定され、インデックス2により第2〜第41サンプルよりなる周期性信号が特定され、・・・インデックスLにより第L〜第L+39サンプルよりなる周期性信号が特定される。初期状態では適応符号帳7の中身は全ての振幅が0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、現サブフレームで求めた音源信号を適応符号帳7に格納するように動作する。
【0008】
適応符号帳探索は、過去の音源信号を格納している適応符号帳7を用いて音源信号の周期性成分を同定する。すなわち、適応符号帳7から読み出す開始点を1サンプルづつ変えながら適応符号帳7内の過去の音源信号をサブフレーム長(=40サンプル)だけ取り出し、LPC合成フィルタ6に入力してピッチ合成信号
βAPLを作成する。ただし、PLは適応符号帳7から取り出された遅れLに相当する過去のピッチ周期性信号(適応符号ベクトル)、AはLPC合成フィルタ6のインパルス応答、βは適応符号帳ゲインである。
【0009】
演算部9は入力音声XとβAPLの誤差電力ELを次式
EL=|X−βAPL|2 (2)
により求める。
適応符号帳出力の重み付き合成出力をAPLとし、APLの自己相関をRpp、APLと入力信号Xの相互相関をRxpとすると、式(2)の誤差電力が最小となるピッチラグLoptにおける適応符号ベクトルPLは、次式
PL=argmax(Rxp2/Rpp) (3)
により表わされる。すなわち、ピッチ合成信号APLと入力信号Xとの相互相関 Rxpをピッチ合成信号の自己相関Rppで正規化した値が最も大きくなる読み出し開始点を最適な開始点とする。以上より、誤差電力評価部10は(3)式を満足するピッチラグLoptを求める。このとき、最適ピッチゲインβoptは次式
βopt=Rxp/Rpp (4)
で与えられる。
【0010】
次に雑音符号帳8を用いて音源信号に含まれる雑音成分を量子化する。雑音符号帳8は、振幅が1又は−1の複数のパルスから構成される。例として、サブフレーム長が40サンプルの場合のパルス位置を表1に示す。
【表1】
雑音符号帳8は、1サブフレームを構成するN(=40)サンプル点を複数のパルス系統グループ1〜4に分割し、各パルス系統グループから1つのサンプル点m0〜m3を取り出してなる全組み合わせについて、各サンプル点で+1あるいは−1のパルスを有するパルス性信号を雑音成分として順次出力する。この例では、基本的に1サブフレームあたり4本のパルスが配置される。
【0011】
図42は各パルス系統グループ1〜4に割り当てたサンプル点の説明図であり、
(1) パルス系統グループ1には8個のサンプル点 0,5,10,15,20,25,30,35が割り当てられ、
(2) パルス系統グループ2には8個のサンプル点 1,6,11,16,21,26,31,36が割り当てられ、
(3) パルス系統グループ3には8個のサンプル点 2,7,12,17,22,27,32,37が割り当てられ、
(4) パルス系統グループ4には16個のサンプル点 3,4,8,9,13,14,18,19,23,24,28,29,33,34,38,39が割り当てられている。
【0012】
パルス系統グループ1〜3のサンプル点を表現するために3ビット、パルスの正負を表現するのに1 bit、トータル4 bit が必要であり、又、パルス系統グループ4のサンプル点を表現するために4 bit、パルスの正負を表現するのに1 bit、トータル5 bit 必要である。従って、表1のパルス配置を有する雑音符号帳8から出力するパルス性の音源信号を特定するために17bitが必要になり、パルス性音源信号の種類は217(=24×24×24×25)存在する。
表1に示すように各パルス系統のパルス位置は限定されており、雑音符号帳探索では各パルス系統のパルス位置の組み合わせの中から、再生領域で入力音声との誤差電力が最も小さくなるパルスの組み合わせを決定する。すなわち、適応符号帳探索で求めた最適ピッチゲインβoptとし、適応符号帳出力PLに該ゲインβoptを乗算して加算器11に入力する。これと同時に雑音符号帳8より順次パルス性音源信号を加算器に11に入力し、加算器出力をLPC合成フィルタ6に入力して得られる再生信号と入力信号Xとの差が最小となるパルス性音源信号を特定する。具体的には、まず入力信号Xから適応符号帳探索で求めた最適な適応符号帳出力PL、最適ピッチゲインβoptから次式により雑音符号帳探索のためのターゲットベクトルX′を生成する。
【0013】
X′=X−βoptAPL (5)
この例では、パルスの位置と振幅(正負)を前述のように17bitで表現するため、その組合わせは2の17乗通り存在する。ここで、k通り目の雑音符号出力ベクトルをCkとすると、雑音符号帳探索では次式
D=|X′−GCACk|2 (6)
の評価関数誤差電力Dを最小とする符号ベクトルCkを求める。GCは雑音符号帳ゲインである。誤差電力評価部10は雑音符号帳の探索において、雑音合成信号ACkと入力信号X′の相互相関値Rcxの2乗を雑音合成信号の自己相関値Rccで正規化して得られる正規化相互相関値(Rcx*Rcx/Rcc)が最も大きくなるパルス位置と極性の組み合わせを探索する。
【0014】
次にゲイン量子化について説明する。G.729方式において雑音符号帳ゲインは直接量子化されず、適応符号帳ゲインGa(=βopt)と雑音符号帳ゲインGcの補正係数γをベクトル量子化する。ここで、雑音符号帳ゲインGCと補正係数γとの間には GC=g′×γなる関係がある。g′は過去の4サブフレームの対数利得から予測される現フレームの利得である。
ゲイン量子化器12の図示しないゲイン量子化テーブルには、適応符号帳ゲインGaと雑音符号帳ゲインに対する補正係数γの組み合わせが128通り(=27)用意されている。ゲイン符号帳の探索方法は、▲1▼適応符号帳出力ベクトルと雑音符号帳出力ベクトルに対して、ゲイン量子化テーブルの中から1組のテーブル値を取り出してゲイン可変部13、14に設定し、▲2▼ゲイン可変部13、14でそれぞれのベクトルにゲインGa、Gcを乗じてLPC合成フィルタ6に入力し、▲3▼誤差電力評価部10において入力信号Xとの誤差電力が最も小さくなる組み合わせを選択する、ことにより行なう。
【0015】
以上より、回線多重化部15は、▲1▼LSPの量子化インデックスであるLSP符号、▲2▼適応符号帳の量子化インデックスであるピッチラグ符号Lopt、(3) 雑音符号帳インデックスである雑音符号、(4) ゲインの量子化インデックスであるゲイン符号を多重して回線データを作成する。実際には伝送路に送出する前に回線符号化やパケット化処理が必要となる。
【0016】
・復号器の構成及び動作
図43はG.729方式の復号器のブロック図である。回線から受信した回線データが回線分離部21へ入力されてLSP符号、ピッチラグ符号、雑音符号、ゲイン符号が分離出力される。復号器ではこれらの符号に基づいて音声データを復号する。復号器の動作については、復号器の機能が符号器に含まれているため一部重複するが、以下で簡単に説明する。
LSP逆量子化部22はLSP符号が入力すると逆量子化し、LSP逆量子化値を出力する。LSP補間部23は現フレームの第2サブフレームにおけるLSP逆量子化値と前フレームの第2サブフレームのLSP逆量子化値から現フレームの第1サブフレームのLSP逆量子化値を補間演算する。次に、パラメータ逆変換部24はLSP補間値とLSP逆量子化値をそれぞれLPC合成フィルタ係数へ変換する。G.729方式のLPC合成フィルタ25は、最初の第1サブフレームではLSP補間値から変換されたLPC係数を用い、次の第2サブフレームではLSP逆量子化値から変換されたLPC係数を用いる。
【0017】
適応符号帳26はピッチラグ符号が指示する読み出し開始位置からサブフレーム長(=40サンプル)のピッチ信号を出力し、雑音符号帳27は雑音符号に対応するの読出し位置からパルス位置とパルスの極性を出力する。また、ゲイン逆量子化部28は入力されたゲイン符号より適応符号帳ゲイン逆量子化値と雑音符号帳ゲイン逆量子化値を算出してゲイン可変部29,30に設定する。加算部31は適応符号帳出力に適応符号帳ゲイン逆量子化値を乗じて得られる信号と、雑音符号帳出力に雑音符号帳ゲイン逆量子化値を乗じて得られる信号とを加え合わせて音源信号を作成し、この音源信号をLPC合成フィルタ25に入力する。これにより、LPC合成フィルタ25から再生音声を得ることができる。
尚、初期状態では復号器側の適応符号帳26の内容は全て振幅0の信号が入っており、サブフレーム毎に時間的に一番古い信号をサブフレーム長だけ捨て、一方、現サブフレームで求めた音源信号を適応符号帳26に格納するように動作する。つまり、符号器と復号器の適応符号帳26は常に最新の同じ状態になるように維持される。
【0018】
・電子透かし技術
上記のCELPを対象とした電子透かし技術として、特開平11-272299に開示されている「音声符号化時の透かしビットの埋込方法」がある。図44はかかる電子透かし技術説明図である。表1において、第4パス系統i3に着目する。第4パス系統i3のパルス位置m3は、他の第1〜第3パルス系統i0〜i2のパルス位置m0〜m2と異なり、隣接した候補を持っている。G.729の規格によれば、第4パルス系統i3におけるパルス位置は隣接したパルス位置を選択しても差し支えないことになっている。例えば、第4パルス系統i3におけるパルス位置m3=4はパルス位置m3′=3に置き換えても良く、置き換えて音声符号を再生しても人間の聴覚に与える影響は殆どない。そこで、m3の候補にラベル付けを行なうために8ビットのキーKpを導入する。例えば、図44に示すように
Kp=00001111とし、Kpの各ビットにm3の各候補3,8,13,18,23,28,33,38をそれぞれ対応させ、かつ、*Kp=11110000とし、*Kpの各ビットに
m3の各候補4,9,14,19,24,29,34,39を対応付けする。このように対応付けすれば、m3の全候補にキーKpに従って"0"と"1"のラベル付けを行なうことができる。かかる状況において、音声符号に透かしビット"0"を埋め込む場合は、キーKpに従って"0"のラベルを付けられた候補の中からm3を選択する。一方、透かしビット"1" を埋め込む場合は、キーKpに従って"1"のラベルを付けられた候補の中からm3を選択する。この方法により2値化された透かし情報を音声符号の中に埋め込むことが可能となる。従って、送受信機で相互に前記キーKpを持ち合うことにより透かし情報の埋め込み及び抽出が可能となる。5msecのサブフレーム毎に1ビットの透かし情報を埋め込むことができるため1秒当たり200ビットを埋め込むことができる。
【0019】
ところで、同じキーKpを用いて全符号に透かし情報を埋め込むと、不正な第3者により解読される可能性が高くなる。そこで、秘匿性の向上を図る必要がある。m0〜m3の合計値をCpとすれば、合計値は図45の(a)に示す58通りのいずれかになる。そこで、58ビットの第2のキーKconを導入し、該キーの各ビットに図45の(b)に示すように58通りの合計値Cpを対応させる。そして、音声符号化した時の雑音符号におけるm0〜m3の合計値(図では72)を算出し、該合計値に応じたキーKconのビット値Cpbが"0"であるか"1"であるか調べ、Cpb="1"のときは、音声符号に図44に従って透かしビットを埋め込み、"0"であれば透かしビットを埋め込まない。このようにすれば、キーKconを知らない第3者は透かし情報を解読することが困難になる。
【特許文献1】
特開平11-272299
【0020】
【発明が解決しようとする課題】
音声チャネルと独立なチャネルで他のメディアを伝送する場合には、基本的に両端の端末機がマルチチャネル対応である必要がある。この場合、例えば現在最も普及している第二世代の携帯電話機など、従来の通信網に繋がる端末では制約が加わる問題がある。また、たとえ両端の端末機がマルチチャネル対応で、複数のメディアが伝送可能であってもパケット交換の場合は経路がバラバラで、途中の中継機での同期・連携は難しい。特に特定のユーザが発声した音声自体に付随するデータを使った連携には経路設定や同期処理など複雑な制御が必要となる問題がある。
又、従来の電子透かし技術では、キーの使用が必須である。このため送受双方で特定のキーを共有する必要がある。加えて、データ埋込み対象が雑音符号帳の第4パルス系統のパルス位置に限定されている。そのため、鍵の存在がユーザの知り得る可能性が高く、知り得た場合には埋込み位置が特定できるために、データの漏洩、改ざんが可能となる問題がある。
また、従来の電子透かし技術では、データの埋込みの実施、非実施がパルス位置候補の合計値によっておこなわれる“確率的”な制御であるため、データ埋込みによる音質劣化の影響が大きくなる可能性が高い問題がある。通信規格としてはデータ埋込みを意識しない、すなわち、端末で復号(音声再生)した場合にも音質の劣化が生じないデータ埋込み技術が望ましいが、従来技術では音質劣化が発生するためかかる要求に答えられない問題がある。
【0021】
以上から本発明の目的は、符号器側、復号器側双方でキーを持ち合はなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出できるようにすることである。
本発明の別の目的は、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることである。
本発明の別の目的は、埋め込みデータの漏洩、改ざんを困難にすることである。
本発明の別の目的は、データと制御コードの両方を埋め込むことができるようにし、これにより復号器側に制御コードに従った処理を実行させるようにすることである。
本発明の別の目的は、埋め込みデータの伝送容量を大きくできるようにすることである。
本発明の別の目的は、音声チャネルのみで音声、画像、個人情報などのマルチメディア伝送を可能にすることである。
本発明の別の目的は、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供できるようにすることである。
本発明の別の目的は、受信した音声データに発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで蓄積できるようにすることである。
【0022】
【課題を解決するための手段】
本発明の第1は、音声符号に任意のデータを埋込む際、音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされていれば、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。具体的に、第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックスである雑音符号であり、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記雑音符号を所定のデータで置き換えることによりデータを音声符号に埋め込む。別の具体例として、第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックスであるピッチラグ符号であり、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。
【0023】
音源信号の2種類の符号語、すなわち、ピッチ音源に対応する適応符号語(ピッチラグ符号)と雑音音源に対応する固定符号語(雑音符号)に着目すると、利得が各符号語の寄与度を示すファクタとみることができる。つまり、利得が小さい場合は対応する符号語の寄与度が小さくなる。そこで、利得を判定パラメータとして定義し、ある閾値以下になる場合は対応する音源符号語の寄与度が小さいと判断して、該音源符号語のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。また、閾値を制御することで、再生音質への影響を考慮しながら埋込みデータ量を調整できる。
【0024】
本発明の第2は、所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出する際、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する。具体的に、第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックスである雑音符号であり、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、データ埋め込み条件が満たされていると判断し、前記雑音符号より埋め込みデータを抽出する。別の具体例として、第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックスであるピッチラグ符号であり、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号より埋め込みデータを抽出する。
【0025】
以上のようにすれば、符号器側、復号器側双方でキーを持ち合わなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出することができる。また、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることができる。又、閾値を変更することにより埋め込みデータの漏洩、改ざんを困難にすることができる。
【0026】
本発明の第3は、音声符号化装置と音声再生装置を備えたシステムにおいて、音声符号化装置が音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置が該音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する。かかるシステムにおいて、データが埋め込まれているか否かを判定するために使用する第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる第2要素符号をそれぞれ定義しておく。かかる状態において、音声符号化装置がデータを埋め込む際、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされていれば、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む。一方、音声再生装置はデータ抽出に際して、前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断し、該埋め込みデータを抽出し、しかる後、音声符号に復号化処理を施す。
【0027】
以上のようにすれば、閾値の初期値のみを送受双方で予め定義しておけば、キーを使用することなくデータの埋め込み、抽出が可能になる。また、埋込みデータに制御コードを定義しておけば、該制御コードを用いて閾値の変更を行なうことができ、該閾値の変更により埋込みデータの伝送量を調整することができる。また、ゲイン値に応じて、データ系列のみを埋め込むか、あるいは、データと制御コードの種別を識別できる形式でデータ/制御コード列を埋め込むか、を決定するため、データ系列のみを埋め込む場合にはデータ種別情報を含ませる必要がないため伝送容量を改善することができる。
本発明の第4は、音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムであり、入力音声を符号化した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、前記埋め込まれたデータを音声データとして送信する手段を備え、通常の音声通話と同時に付加情報を送信する。また、デジタル音声通信システムは、更に、受信した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段を備え、通常の音声通話と同時に付加情報を受信して出力する。
上記付加情報としては、画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、声紋、指紋)等とすることにより、マルチメディア通信が可能になる。また、付加情報として端末のシリアル番号、声紋等とすることにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
また、デジタル音声通信システムに音声データを中継するサーバ装置を設け、該サーバにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供できるように構成することができる。
また、受信した音声データに、発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積することで、音声データのファイル化が可能になり、後の利用を容易にすることができる。
【0028】
【発明の実施の形態】
(A)本発明の原理
CELPアルゴリズムの復号器では、音源系列を指定するインデックスと利得情報にて音源信号を生成し、線形予測係数で構成される合成フィルタにて、音声が生成(再生)され、再生音声は次式
Srp=H・R=H(Gp・P+ Gc・C)=H・Gp・P+H・Gc・C
により表現される。ここでSrpは再生音声、HはLPC合成フィルタ、Gpは適応符号語ゲイン(ピッチゲイン)、Pは適応符号語(ピッチラグ符号)、Gcは雑音符号語ゲイン(雑音符号帳ゲイン)、Cは雑音符号語である。又、右辺第1項はピッチ周期合成信号、第2項は雑音合成信号である。
【0029】
以上のように、CELPにて符号化されたデジタルコード(伝送パラメータ)は音声生成系の特徴パラメータと対応している。この特徴に着目すると、各伝送パラメータの状態を把握することができる。例えば、音源信号の2種類の符号語、すなわち、ピッチ音源に対応する適応符号語と雑音音源に対応する雑音符号語に着目すると、利得Gp,Gcが各符号語P,Cの寄与度を示すファクタとみることができる。つまり、利得Gp,Gcが小さい場合は対応する符号語P,Cの寄与度が小さくなる。そこで、利得Gp,Gcを判定パラメータとして定義し、ある閾値以下になる場合は対応する音源符号語P,Cの寄与度が小さいと判断して、音源符号語のインデックスを任意のデータ系列で置き換える。これにより、置き換えの影響を小さく抑えながら、任意のデータを埋め込むことが可能となる。また、閾値を制御することで、再生音質への影響を考慮しながら埋込みデータ量を調整できる。
【0030】
本技術は閾値の初期値のみを送受双方で予め定義しておけば、判定パラメータ(ピッチゲイン、雑音符号帳ゲイン)および埋込み対象パラメータ(ピッチラグ、雑音符号)のみで、埋込みデータの有無と埋込み場所、および埋込みデータの書込み/読出しが可能となる。すなわち、特定のキーの伝送が不要となる。また、埋込みデータに制御コードを定義しておけば、制御コードで閾値の変更を指示するだけで埋込みデータの伝送量を調整できる。
このように、本技術の適用により、符号化フォーマットの変更なく、任意データの埋込みが可能となる。つまり、通信/蓄積の用途で必須の互換性を損なうことなく、かつユーザに知られることなく、IDや他メディアの情報を音声情報に埋め込んで伝送/蓄積することができる。加えて、本発明ではCELPに共通したパラメータにて制御仕様を規定するため、特定の方式に限定されることなく、幅広い方式に適用できる。例えば、VoIP向けのG.729や移動体通信向けのAMRなどにも対応できる。
【0031】
(B)符号器側の実施例
(a)一般的構成
図1は本発明の符号器側における一般的構成図である。音声・音響CODEC(符号器)51は入力音声を所定の符号化方式に従って符号化し、得られた音声符号(符号データ)を出力する。音声符号は複数の要素符号で構成されている。埋め込みデータ発生部52は音声符号に埋め込むための所定のデータを発生する。データ埋め込み制御部53は埋め込み判定部54とセレクタ構成のデータ埋め込み部55を備え、適宜、データを音声符号に埋め込む。埋め込み判定部54は、音声符号を構成する要素符号のうち第1要素符号と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、第2要素符号を任意の埋め込みデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、第2要素符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【0032】
図2は埋め込み判定部の構成図であり、逆量子化部54aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部54bは閾値THを出力する。比較部54cは逆量子化値Gと閾値THを比較し、比較結果をデータ埋め込み判定部54dに入力する。データ埋め込み判定部54dは、例えば、G≧THであればデータ埋め込み不可能と判定し、符号器51から出力する第2要素符号を選択するためのセレクト信号SLを発生し、G<THであれば、データ埋め込み可能と判定し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。この結果、データ埋め込み部55はセレクト信号SLに基いて第2要素符号と埋め込みデータの一方を選択的に出力する。
尚、図2では第1要素符号を逆量子化して閾値と比較したが、閾値を符号で設定することにより符号レベルで比較できる場合もあり、かかる場合必ずしも逆量子化する必要はない。
【0033】
(b)第1実施例
図3はG.729の符号化方式に従って符号化する符号器を使用する場合の第1実施例の構成図であり、図1と同一部分には同一符号を付している。図1と異なる点は、第1要素符号としてゲイン符号(雑音符号帳ゲイン)を使用し、第2要素符号として雑音符号帳のインデックスである雑音符号を使用する点である。
符号器51はG.729に従って入力音声を符号化し、得られた音声符号をデータ埋め込み部53に入力する。G.729の音声符号は表2に示すように、LSP符号、適応符号帳インデックス(ピッチラグ符号)、雑音符号帳インデックス(雑音符号)、ゲイン符号を要素符号として有している。ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せて符号化したものである。
【0034】
【表2】
データ埋め込み部53の埋め込み判定部54は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、雑音符号を所定のデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、雑音符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【0035】
埋め込み判定部54は図4に示す構成を備え、逆量子化部54aはゲイン符号を逆量子化し、比較部54cは逆量子化値(雑音符号帳ゲイン)Gcと閾値THを比較し、データ埋め込み判定部54dは逆量子化値Gcが閾値THより小さいとき、データ埋め込み条件が満たされていると判断し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。又、データ埋め込み判定部54dは逆量子化値Gcが閾値より大きいとき、データ埋め込み条件が満たされていないと判断し、符号器51から出力する雑音符号を選択するためのセレクト信号SLを発生する。データ埋め込み部55はセレクト信号SLに基いて雑音符号と埋め込みデータの一方を選択的に出力する。
【0036】
図5は音声符号の標準フォーマット、図6は埋め込み制御による伝送符号の説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。雑音符号帳ゲインGcが閾値THより大きい場合には、図6の(1)に示すように音声符号にデータは埋め込まれない。しかし、雑音符号帳ゲインGcが閾値THより小さい場合には、図6の(2)に示すように音声符号の雑音符号帳インデックス部にデータが埋め込まれる。
図6の例では、雑音符号帳インデックス(雑音符号)に用いられるM(=17)ビット全部に任意のデータを埋め込む場合の例であるが、図7に示すように最上位ビット(MSB)をデータ種別ビットすることにより、残りの(M-1)ビットにデータと制御コードを区別して埋め込むことができる。このように、埋込みデータの一部にデータ/制御コードを識別するビットを定義することで、制御コードを用いて閾値の変更、同期制御などを行うことが可能となる。
【0037】
G.729音声符号化方式において、ある利得値以下の場合に雑音符号帳インデックスである雑音符号(17ビット)を任意のデータで置き換えた場合のシミュレーション結果を表3に示す。任意のデータは乱数発生したデータとし、この乱数データを雑音符号と見なして再生した場合の音質の変化をSNRにて評価した結果と、データで置き換えフレームの割合を測定した。なお、表中の閾値はゲインインデックス番号であり、数が大きくなるほど閾値としてのゲインが大きくなる。また、SNRは、音声符号における雑音符号をデータで置き換えない場合の音源信号と、置き換えない場合と置き換えた場合の音源信号の差である誤差信号との比(dB)である。SNRsegは1フレーム毎のSNR、 SNRtotは音声区間全体の平均SNRである。割合は(%)は、音声信号として標準信号を入力したとき、ゲインが対応する閾値以下になってデータが埋め込まれる割合である。
【0038】
【表3】
表3の通り、例えば、雑音符号帳ゲインの閾値を12に設定することで、雑音符号帳インデックス(雑音符号)の総伝送容量の43%を任意のデータで置き換えることができ、かつ、復号器でそのまま復号しても、データを埋め込まない場合(閾値が0の場合)に比べてわずか0.1dB(=11.60-11.50)の音質の差に抑えることができる。これは、G.729において音質劣化が非常に少ないことを意味し、実に1462bits/s(=0.43×17×(1000/5))の任意データの伝送が行えることを意味する。また、この閾値を上下させることにより、音質への影響を考慮しながら、埋込みデータの伝送容量(割合)も調整できる。例えば、0.2dBの音質変化を許容するなら、閾値を20に設定することで46%(1564bits/s)まで伝送容量を増やすことができる。
【0039】
(c)第2実施例
図8はG.729の符号化方式に従って符号化する符号器を使用する場合の第2実施例の構成図であり、図1と同一部分には同一符号を付している。図1と異なる点は、第1要素符号としてゲイン符号(ピッチゲイン符号)を使用し、第2要素符号として適応符号帳インデックスであるピッチラグ符号を使用する点である。
【0040】
符号器51はG.729に従って入力音声を符号化し、得られた音声符号をデータ埋め込み部53に入力する。データ埋め込み部53の埋め込み判定部54は、ゲイン符号の逆量子化値(ピッチゲイン)と閾値THを用いてデータ埋め込み条件が満たされたか判断し、データ埋め込み部55はデータ埋め込み条件が満たされている場合には、ピッチラグ符号を所定のデータで置き換えることによりデータを音声符号に埋め込み、データ埋め込み条件が満たされていない場合には、ピッチラグ符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【0041】
埋め込み判定部54は図9に示す構成を備え、逆量子化部54aはゲイン符号を逆量子化し、比較部54cは逆量子化値(ピッチゲイン)Gpと閾値THを比較し、データ埋め込み判定部54dは逆量子化値Gpが閾値THより小さいとき、データ埋め込み条件が満たされていると判断し、埋め込みデータ発生部52から出力する埋め込みデータを選択するためのセレクト信号SLを発生する。又、データ埋め込み判定部54dは逆量子化値Gpが閾値より大きいとき、データ埋め込み条件が満たされていないと判断し、符号器51から出力するピッチラグ符号を選択するためのセレクト信号SLを発生する。データ埋め込み部55はセレクト信号SLに基いてピッチラグ符号と埋め込みデータの一方を選択的に出力する。
【0042】
図10は音声符号の標準フォーマット、図11は埋め込み制御による伝送符号の説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。ピッチゲインGpが閾値THより大きい場合には、図11の(1)に示すように音声符号にデータは埋め込まれない。しかし、ピッチゲインGpが閾値THより小さい場合には、図11の(2)に示すように音声符号の適応符号帳インデックス部にデータが埋め込まれる。
表4にG.729音声符号化方式において、ある利得値以下の場合に適応符号帳インデックスであるピッチラグ符号(13ビット/10msec)を任意のデータで置き換えた場合のシミュレーション結果を示す。任意のデータは乱数発生したデータとし、この乱数データをピッチラグ符号として再生した場合の音質の変化をSNRを用いて評価した結果と、置き換えフレームの割合を表4に示している。
【0043】
【表4】
表4に示す通り、例えば、閾値をゲイン0.5に設定すると、適応符号帳インデックスであるピッチラグ符号のの総伝送容量の45%を任意のデータで置き換えることができ、かつ復号器でそのまま復号してもわずか0.24dB(=11.60-11.36)の音質の差に抑えることができることを示している。
【0044】
(C)復号器側の実施例
(a)一般的構成
図12は本発明の復号器側における一般的構成図である。分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。データ抽出部62は分離された要素符号のうち第1要素符号よりデータを抽出してデータ処理部63に入力すると共に、入力された各要素符号をそのまま音声・音響CODEC(復号器)64に入力する。復号器64は入力された音声符号を復号して音声を再生して出力する。
【0045】
データ抽出部62は、埋め込み判定部65と振り分け部66を備え、適宜、データを音声符号より抽出する。埋め込み判定部65は、音声符号を構成する要素符号のうち第1要素符号と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていれば、要素符号のうち第2要素符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に送出する。また、振り分け部66はデータ埋め込み条件が満たされているか否かに関係なく、入力された第2要素符号をそのまま符号器64に入力する。
【0046】
図13は埋め込み判定部の構成図であり、逆量子化部65aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部65bは閾値THを出力する。比較部65cは逆量子化値Gと閾値THを比較し、比較結果をデータ埋め込み判定部65dに入力する。データ埋め込み判定部65dは、G≧THであればデータが埋め込まれていないと判定し、G<THであれば、データが埋め込まれていると判定し、振り分け信号BLを発生する。振り分け部66は振り分け信号BLに基いて、データが埋め込まれていれば該データを第2要素符号より抽出してデータ処理部63に入力すると共に該第2要素符号をそのまま復号器64に入力する。又、振り分け部66はデータが埋め込まれていなければ、第2要素符号をそのまま復号器64に入力する。尚、図13では第1要素符号を逆量子化して閾値と比較したが、閾値を符号で設定することにより符号レベルで比較できる場合もあり、かかる場合必ずしも逆量子化する必要はない。
【0047】
(b)第1実施例
図14はG.729の雑音符号にデータが埋め込まれている場合の第1実施例構成図であり、図12と同一部分には同一符号を付している。図12と異なる点は、第1要素符号としてゲイン符号(雑音符号帳ゲイン)を使用し、第2要素符号として雑音符号帳のインデックスである雑音符号を使用する点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。G.729に従って符号化されているとすれば、分離部61は音声符号をLSP符号、ピッチラグ符号、雑音符号、ゲイン符号に分離してデータ抽出部62に入力する。尚、ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せ、量子化テーブルを用いて量子化(符号化)したものである。
【0048】
データ抽出部62の埋め込み判定部65は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていれば雑音符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に入力すると共に、該雑音符号を入力されたままの形で復号器64に入力する。また、振り分け部66はデータ埋め込み条件が満たされていなければ、雑音符号を入力されたままの形で復号器64に入力する。
埋め込み判定部65は図15に示す構成を備え、逆量子化部65aはゲイン符号を逆量子化し、比較部65cは逆量子化値(雑音符号帳ゲイン)Gcと閾値THを比較し、データ埋め込み判定部65dは逆量子化値Gcが閾値THより小さいとき、データが埋め込まれていると判断し、逆量子化値Gcが閾値THより大きいとき、データが埋め込まれていないと判断し、それぞれ振り分け信号BLを発生する。振り分け66は振り分け信号BLに基いて、雑音符号に埋め込まれているデータをデータ処理部63に入力し、又、雑音符号を復号器64に入力する。
【0049】
図16は受信音声符号の標準フォーマット、図17はデータ埋め込み判定部による判定結果説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。受信時、音声符号の雑音符号帳インデックス部(雑音符号部)にデータが埋め込まれているか否かは不明である(図16)。しかし、雑音符号帳ゲインGcと閾値THの大小を判別することによりデータが埋め込まれているか否かが判明する。すなわち、雑音符号帳ゲインGcが閾値THより大きければ、図17の(1)に示すようにデータは雑音符号帳インデックス部に埋め込まれていない。しかし、雑音符号帳ゲインGcが閾値THより小さければ、図17の(2)に示すようにデータは雑音符号帳インデックス部に埋め込まれている。
図7に示すように最上位ビット(MSB)をデータ種別ビットとすることにより、残りの(M-1)ビットにデータと制御コードが区別して埋め込まれていれば、データ処理部63該最上位ビットを参照し、制御コードであれば該コマンドに応じた処理、例えば、閾値の変更、同期制御処理などを実行する。
【0050】
(c)第2実施例
図18はG,729のピッチラグ符号にデータが埋め込まれている場合の第2実施例構成図であり、図12と同一部分には同一符号を付している。図12と異なる点は、第1要素符号としてゲイン符号(ピッチゲイン符号)を使用し、第2要素符号として適応符号帳のインデックスであるピッチラグ符号を使用する点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。G.729に従って符号化されているとすれば、分離部61は音声符号をLSP符号、ピッチラグ符号、雑音符号、ゲイン符号に分離してデータ抽出部62に入力する。尚、ゲイン符号はピッチゲインと雑音符号帳ゲインを組み合せ、量子化テーブルを用いて量子化(符号化)したものである。
【0051】
データ抽出部62の埋め込み判定部65は、ゲイン符号の逆量子化値と閾値THを用いてデータ埋め込み条件が満たされたか判断し、振り分け部66はデータ埋め込み条件が満たされていればピッチラグ符号を埋め込みデータと見なして抽出し、該埋め込みデータをデータ処理部63に入力すると共に、該ピッチラグ符号を入力されたままの形で復号器64に入力する。また、振り分け部66はデータ埋め込み条件が満たされていなければ、ピッチラグ符号を入力されたままの形で復号器64に入力する。
埋め込み判定部65は図19に示す構成を備え、逆量子化部65aはゲイン符号を逆量子化し、比較部65cは逆量子化値(ピッチゲイン)Gpと閾値THを比較し、データ埋め込み判定部65dは逆量子化値Gpが閾値THより小さいとき、データが埋め込まれていると判断し、逆量子化値Gpが閾値THより大きいとき、データが埋め込まれていないと判断し、それぞれ振り分け信号BLを発生する。振り分け66は振り分け信号BLに基いて、ピッチラグ符号に埋め込まれているデータをデータ処理部63に入力し、又、ピッチラグ符号を復号器64に入力する。
【0052】
図20は受信音声符号の標準フォーマット、図21はデータ埋め込み判定部による判定結果説明図であり、音声符号が5つの符号(LSP符号、適応符号帳インデックス、適応符号帳利得、雑音符号帳インデックス、雑音符号帳利得)で構成されている場合を示している。受信時、音声符号の適応符号帳インデックス部(ピッチラグ符号部)にデータが埋め込まれているか否かは不明である(図20)。しかし、適応符号帳ゲインGpと閾値THの大小を判別することによりデータが埋め込まれているか否かが判明する。すなわち、適応符号帳ゲインGpが閾値THより大きければ、図21の(1)に示すようにデータは適応符号帳インデックス部に埋め込まれていない。しかし、適応符号帳ゲインGpが閾値THより小さければ、図21の(2)に示すように任意のデータが雑音符号帳インデックス部に埋め込まれている。
【0053】
(D)閾値を多段に設定した実施例
(a)符号器側の実施例
図22は閾値を多段に設定した符号器側の実施例構成図であり、図1と同一部分には同一符号を付している。異なる点は、▲1▼閾値が2つ設定されている点、▲2▼第1要素符号の逆量子化値の大きさに応じて、データ系列のみを埋め込むか、あるいはデータ種別ビットを有するデータ/制御コード系列を埋め込むかを決定する点、▲3▼該決定に基づいてデータを埋め込む点である。
音声・音響CODEC(符号器)51は入力音声を所定の符号化方式、例えばG.729に従って符号化し、得られた音声符号(符号データ)を出力する。音声符号は複数の要素符号で構成されている。埋め込みデータ発生部52は音声符号に埋め込む2種類のデータ系列を発生する。第1のデータ系列は例えばメディアデータのみからなるデータ系列であり、第2のデータ系列は図7に示すデータ種別ビットを有するデータ/制御コード系列であり、データ種別ビットの"1"、"0"によりメディアデータと制御コードを混在させることができる。
【0054】
データ埋め込み制御部53は埋め込み判定部54とセレクタ構成のデータ埋め込み部55を備え、適宜、メディアデータあるいは制御コードを音声符号に埋め込む。埋め込み判定部54は、音声符号を構成する要素符号のうち第1要素符号と閾値TH1、TH2(TH2>TH1)を用いてデータ埋め込み条件が満たされたか判定すると共に、満たされている場合には、メディアデータのみからなるデータ系列の埋め込み条件が満たされているか、データ種別ビットを有するデータ/制御コード系列の埋め込み条件が満たされているか判定する。例えば、図23に示すように第1要素符号の逆量子化値Gが、▲1▼TH2<Gであればデータ埋め込み条件が満たされていないと判定し、▲2▼TH1≦G<TH2であれば、データ種別ビットを有するデータ/制御コード系列の埋め込み条件が満たされていると判定し、▲3▼G<TH1であればメディアデータのみからなるデータ系列の埋め込み条件が満たされていると判定する。
【0055】
データ埋め込み部55は、▲1▼TH1≦G<TH2であれば、埋め込みデータ発生部52から発生するデータ種別ビットを有するデータ/制御コード系列で第2要素符号を置き換えることによりデータを音声符号に埋め込み、▲2▼G<TH1であれば,埋め込みデータ発生部52から発生するメディアデータ系列で第2要素符号を置き換えることによりデータを音声符号に埋め込み、▲3▼TH2<Gであれば、第2要素符号をそのまま出力する。多重部56は音声符号を構成する各要素符号を多重して伝送する。
【0056】
図24は埋め込み判定部54の構成図であり、逆量子化部54aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部54bは第1、第2の閾値TH1、TH2を出力する。比較部54cは逆量子化値Gと閾値TH1,TH2を比較し、比較結果をデータ埋め込み判定部54dに入力する。データ埋め込み判定部54dは、▲1▼TH2<Gであるか、▲2▼TH1≦G<TH2であるか、▲3▼G<TH1であるかに応じて所定のセレクト信号SLを出力する。この結果、データ埋め込み部55はセレクト信号SLに基いて第2要素符号、データ種別ビットを有するデータ/制御コード系列、メディアデータ系列のいずれかを選択して出力する。
符号器としてG.729符号化方式の符号器を採用する場合、前記第1の要素符号に応じた値は雑音符号帳ゲインあるいはピッチゲインであり、第2の要素符号は雑音符号あるいはピッチラグ符号である。
【0057】
図25は第1の要素符号の逆量子化値に応じた値を雑音符号帳ゲインGp、第2の要素符号を雑音符号とした場合のデータ埋め込み説明図であり、Gp<TH1であれば17ビットの雑音符号部分に全てメディアデータなどの任意のデータを埋め込む。又、TH1≦Gp<TH2であれば最上位ビットを"1"にして残り16ビットに制御コードを埋め込み、最上位ビットを"0"にして残り16ビットに任意のデータを埋め込む。
【0058】
(b)復号器側の実施例
図26は閾値を多段に設定した復号器側の実施例構成図であり、図12と同一部分には同一符号を付している。異なる点は、▲1▼閾値が2つ設定されている点、▲2▼第1要素符号の逆量子化値の大きさに応じて、データ系列のみが埋め込れているかか、あるいはデータ種別ビットを有するデータ/制御コード系列が埋め込まれているかを判定する点、▲3▼該判定に基づいてデータを振り分けている点である。
分離部61は音声符号を受信すれば、該音声符号を要素符号に分離してデータ抽出部62に入力する。データ抽出部62は分離された要素符号のうち第1要素符号よりデータ系列あるいはデータ/制御コード系列を抽出してデータ処理部63に入力すると共に、入力された各要素符号をそのまま音声・音響CODEC(復号器)64に入力する。復号器64は入力された音声符号を復号して音声を再生して出力する。
【0059】
データ抽出部62は、埋め込み判定部65と振り分け部66を備え、適宜、データ系列あるいはデータ/制御コード系列を音声符号より抽出する。埋め込み判定部65は、音声符号を構成する要素符号のうち第1要素符号に応じた値と図23に示す閾値TH1、TH2(TH2>TH1)を用いてデータ埋め込み条件が満たされたか判定すると共に、満たされている場合には、メディアデータのみからなるデータ系列の埋め込み条件が満たされているか、データ種別ビットを有するデータ/制御コード系列の埋め込み条件が満たされているか判定する。例えば、第1要素符号の逆量子化値Gが、▲1▼TH2<Gであればデータ埋め込み条件が満たされていないと判定し、▲2▼TH1≦G<TH2であれば、データ種別ビットを有するデータ/制御コード系列の埋め込み条件が満たされていると判定し、▲3▼G<TH1であればメディアデータのみからなるデータ系列の埋め込み条件が満たされていると判定する。
【0060】
振り分け部66は、▲1▼TH1≦G<TH2であれば、第2要素符号をデータ種別ビットを有するデータ/制御コード系列とみなしてデータ処理部63に入力すると共に、該第2要素符号を復号器64に入力し、また、▲2▼G<TH1であれば、第2要素符号をメディアデータのみからなるデータ系列とみなしてデータ処理部63に入力すると共に、該第2要素符号を復号器64に入力し、更に、▲3▼TH2<Gであれば第2要素符号にデータは埋め込まれていないと見なして該第2要素符号を復号器64に入力する。
【0061】
図27は埋め込み判定部65の構成図であり、逆量子化部65aは第1要素符号を逆量子化して逆量子化値Gを出力し、閾値発生部65bは第1、第2の閾値TH1、TH2を出力する。比較部65cは逆量子化値Gと閾値TH1,TH2を比較し、比較結果をデータ埋め込み判定部65dに入力する。データ埋め込み判定部65dは、▲1▼TH2<Gであるか、▲2▼TH1≦G<TH2であるか、▲3▼G<TH1であるかに応じて所定の振り分け信号BLを出力する。この結果、振り分け部66は振り分け信号BLに基いて前述の振り分けを行なう。
G.729符号化方式により符号化した音声符号を受信する場合、前記第1の要素符号に応じた値は雑音符号帳ゲインあるいはピッチゲインであり、第2の要素符号は雑音符号あるいはピッチラグ符号である。
以上では符号器を有する送信装置から復号器を有する受信装置に音声符号を送信する音声通信システムに本発明を適用した場合について説明した。しかし、本発明はかかる音声通信システムに限らず、その他のシステム、例えば、符号器を有する記録装置で音声を符号化して記憶媒体に記録し、該記憶媒体より復号器を有する再生装置で音声を再生する記録・再生システム等にも適用できるものである。
【0062】
(E)デジタル音声通信システム
(a)画像伝送サービスを実現するシステム
図28は画像を埋め込むことで音声と同時に画像を伝送するマルチメディア伝送を実現するデジタル音声通信システムの構成図であり、端末A 100と端末B 200が公衆網300を介して接続されている状況が示されている。各端末A,Bは同一の構成を備えている。端末A 100において、音声符号化部101はマイクロホンMICから入力された音声データを例えばG.729方式に従って音声符号化して埋め込み部103に入力し、画像データ生成部102は、送信すべき画像データを生成して埋め込み部103に入力する。画像データ生成部102は、例えば、図示しないデジタルカメラで撮影した周辺写真やユーザ自身の顔写真等の画像を圧縮、コード化してメモリに保存しておき、これら画像データ、あるいは話者周辺の地図画像データをコード化して埋め込み部103に入力する。埋め込み部103は、図3あるいは図8の実施例で示したデータ埋め込み制御部53に対応する部分で、該実施例と同一の埋め込み判定基準に従って画像データを、音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は画像データが埋め込まれた音声符号データを公衆網300を介して相手端末に送信する。
【0063】
相手端末B 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例で示したデータ抽出部62に対応する部分で、該実施例と同一の埋め込み判定基準に従って画像データを抽出して画像出力部206に入力し、また、音声符号データを音声復号部207に入力する。画像出力部206は入力された画像データを復号して画像を発生して表示部に表示する。音声復号部207は入力された音声符号データを復号してスピーカSPより出力する。
なお、端末Bから端末Aに画像データを音声符号データに埋め込んで送信し、端末Aで画像を出力する制御も同様に行われる。
【0064】
図29は画像伝送サービスにおける送信側端末の送信処理フローである。入力音声を所望の符号化方式、例えばG.729方式に従って音声符号化して圧縮し(ステップ1001)、符号化された音声フレーム内の情報を分析し(ステップ1002)、分析の結果に基づいて埋め込み可能であるか調べ(ステップ1003)、埋め込みが可能であれば音声符号データに画像データを埋め込み(ステップ1004)、画像データが埋め込まれた音声符号データを伝送し(ステップ1005)、送信が完了するまで上記動作を繰り返す(ステップ1006)。
【0065】
図30は画像伝送サービスにおける受信側端末の受信処理フローである。音声符号データを受信すれば(ステップ1101)、符号化された音声フレーム内の情報を分析し(ステップ1102)、分析の結果に基づいて画像データが埋め込まれているか調べ(ステップ1103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ1104)。一方、画像データが埋め込まれていれば、ステップ1104の音声再生と並行して、画像データを抽出し(ステップ1105)、該画像データを復号して画像を再生して表示部に表示する(ステップ1106)。以後、再生が完了するまで上記動作を繰り返す(ステップ1107)。
以上、図28のデジタル音声通信システムによれば、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。そして、付加情報として画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、指紋)等とすることにより、マルチメディア通信が可能になる。
【0066】
(b)認証情報伝送サービスを実現するシステム
図31は認証情報を埋め込むことで音声と同時に認証情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりに認証データ生成部111,211を設けた点、画像出力部106,206の代わりに認証確認部112,212を設けた点である。図31には認証情報として、声紋を埋め込む場合が示されている。認証データ生成部111はデータが埋め込まれる前の音声符号化データあるいは生の音声データを用いて声紋情報を作成して保存しておく。そして、この声紋情報を音声符号化データに埋め込んで送信する。受信側において認証確認部112,212は声紋情報を抽出し、予め登録されている本人の声紋であるか比較することで認証を行ない、本人であれば音声復号化を許容する。なお、認証情報としては声紋に限らず、端末のユニークコード(シリアル番号)、あるいはユーザ自信のユニークコードあるいはこれら両コードを組み合せたユニークコードなどであっても良い。
【0067】
図32は認証伝送サービスにおける送信側端末の送信処理フローである。入力音声を所望の符号化方式、例えばG.729方式に従って音声符号化して圧縮し(ステップ2001)、符号化された音声フレーム内の情報を分析し(ステップ2002)、分析の結果に基づいて埋め込み可能であるか調べ(ステップ2003)、埋め込みが可能であれば音声符号データに個人認証データを埋め込み(ステップ2004)、認証データが埋め込まれた音声符号データを伝送し(ステップ2005)、送信が完了するまで上記動作を繰り返す(ステップ2006)。
【0068】
図33は認証伝送サービスにおける受信側端末の受信処理フローである。音声符号データを受信すれば(ステップ2101)、符号化された音声フレーム内の情報を分析し(ステップ2102)、分析の結果に基づいて認証情報が埋め込まれているか調べ(ステップ2103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ2104)。一方、認証情報が埋め込まれていれば、ステップ2104の音声再生と並行して、認証情報を抽出し(ステップ2105)、認証処理を行う(ステップ2106)。例えば、予め登録されている本人の認証情報と比較して認証のNG,OKを判別し(ステップ2107)、認証結果がNGであれば、すなわち、本人でなければ音声符号化データの復号(再生、伸長)を中止する(ステップ2108)。認証結果がOKであれば、すなわち、本人であれば音声符号データの復号を許容し、音声を再生してスピーカより出力する(ステップ2104)。以後、相手からの送信が完了するまで上記動作を繰り返す(ステップ2109)。
以上、図31のデジタル音声通信システムによれば、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。そして、付加情報として認証情報を埋め込むことにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
【0069】
(c)鍵情報伝送サービスを実現するシステム
図34は鍵情報を埋め込むことで音声と同時に鍵情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりに鍵生成部121,221を設けた点、画像出力部106,206の代わりに鍵照合部122,222を設けた点である。鍵生成部121は予め設定された鍵情報を内蔵の記憶部に予め保存しておく。そして、埋め込み部103は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、鍵生成部121から入力される鍵情報を、音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は鍵情報が埋め込まれた音声符号データを公衆網300を介して相手端末に送信する。
相手端末B 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って鍵情報を抽出して鍵照合部222に入力すると共に、音声符号データを音声復号部207に入力する。鍵照合部222は入力された情報が予め登録されている鍵情報であるか比較することで認証を行ない、鍵情報が一致すれば音声復号を許容し、一致しなければ音声復号を禁止する。以上のようにすれば、特定のユーザのみからの音声データの再生を可能にできる。
【0070】
(d)マルチポイントアクセスサービスを実現するシステム
図35は関連アドレス情報(たとえばIP電話アドレス情報)を埋め込むことで音声と同時に関連アドレス情報を伝送するデジタル音声通信システムの構成図であり、図28と同一部分には同一符号を付している。異なる点は、画像データ生成部102,202の代わりにアドレス入力部131,231を設けた点、画像出力部106,206の代わりにアドレス蓄積部132,232を設けた点、表示・キー部DPKを設けた点である。
アドレス入力部131には予め設定された関連アドレス情報が内蔵の記憶部に保存されている。このアドレスは端末Aの代替IP電話番号やメールアドレスであっても、端末A以外の別施設、別サイトの電話番号やメールアドレスであっても良い。埋め込み部103は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、アドレス入力部131から入力される関連アドレス情報を音声符号化部101から入力する音声符号データに埋め込んで出力する。伝送処理部104は関連アドレス情報が埋め込まれた音声符号データを、公衆網300を介して相手端末に送信する。相手端末B 200の伝送処理部204は公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って関連アドレス情報を抽出してアドレス蓄積部232に入力し、又、音声符号データを音声復号部207に入力する。アドレス蓄積部232は入力された関連アドレス情報を蓄積する。
表示・キー部DPKはアドレス蓄積部232に蓄積された関連アドレス情報を表示するから、この情報を選択してワンクリックで電話したり、メール送信することができる。
【0071】
(e)広告情報埋め込みサービスを実現するシステム
図36は広告情報埋め込みサービスを実現するデジタル音声通信システムの構成図であり、サーバ(ゲートウェイ)を設け、該サーバにおいて、音声符号化データに広告情報を埋め込むことで、互いに通信しているエンドユーザに直接広告情報を提供するようになっている。図36において、図28と同一部分には同一符号を付している。図28と異なる点は、▲1▼端末100,200より画像データ生成部102,202及び埋め込み部103,203を除去した点、▲2▼画像出力部106,206の代わりに広告情報再生部142,242を設けた点、▲3▼表示・キー部DPKを設けた点、及び▲4▼公衆網300に端末間の音声データを中継するサーバ(ゲートウェイ)400を設けた点である。
【0072】
サーバ400において、ビットストリーム分解・生成部401は、送信側端末100から入力するビットストリームより伝送パケットを切り出し、該パケットのIPヘッダより送信者、受信者を特定し、又、RTPヘッダよりメディア種と符号化方式を特定し、これら情報に基づいて広告情報挿入条件を満たしているか判別し、満たしていれば埋め込み部402に伝送パケットの音声符号データを入力する。埋め込み部402は図3あるいは図8の実施例と同一の埋め込み判定基準に従って、埋め込みの可否を判別し、埋め込み可能であれば、別途広告主(情報提供者)が提供してメモリ403に保存してある広告情報を音声符号データに埋め込んでビットストリーム分解・生成部401に入力する。ビットストリーム分解・生成部401は該音声符号データを用いて伝送パケットを生成して受信側端末B 200に送信する。
【0073】
受信側端末B 200の伝送処理部204は、公衆網300より音声符号データを受信して抽出部205に入力する。抽出部205は図14あるいは図18の実施例と同一の埋め込み判定基準に従って広告情報を抽出して広告情報再生部242に入力し、又、音声符号データを音声復号部207に入力する。広告情報再生部242は入力された広告情報を再生して表示・キー部DPKの表示部に表示し、音声復号部207は音声を再生してスピーカSPより出力する。
【0074】
図37はインタネット電話サービスにおけるIPパケットの構成例であり、ヘッダはIPヘッダと、UDP(User Datagram Protocol)ヘッダと、 RTP(Real-time Transport Protocol)ヘッダとで構成され、IPヘッダには図示しないが発信元アドレス、送信元アドレスが含まれており、RTPヘッダのペイロードタイプPTによりメディア種とCODEC種が規定されている。従って、ビットストリーム分解・生成部401は伝送パケットのヘッダを参照することにより、送信者、受信者、メディア種、符号化方式を識別することができる。
【0075】
図38はサーバにおける広告情報挿入処理フローである。
サーバ400は、ビットストリームが入力すると伝送パケットのヘッダ及び符号化音声データの分析を行う(ステップ3001)。すなわち、ビットストリームより伝送パケットを切り出し(ステップ3001a)、IPヘッダから送信アドレス、受信アドレスを抽出し(3001b)、送信者、受信者が広告提供契約を結んでいるかチェックし(ステップ3001c)、広告提供契約を結んでいればRTPヘッダを参照してメディア種とCODEC種を識別する(ステップ3001d)。ここで、たとえばメディア種が音声でCODEC種がG.729であれば(ステップ3001e)、次に図3あるいは図8の実施例と同一の埋め込み判定基準に従って、埋め込みの可否を判別し(ステップ3001f)、判別結果に従って埋め込み可、埋め込み不可とする(ステップ3001g,3001h)。尚、ステップ3001cで広告提供契約を結んでいない場合、ステップ3001eでメディア種が音声でない場合、あるいはCODEC種が対象外の場合には埋め込み不可とする(ステップ3001h)。
しかる後、サーバ400は埋め込み可能であれば(3002)、広告主(情報提供者)が提供する広告情報を音声符号データに埋め込み(ステップ3003)、埋め込み不可能であれば広告情報を音声符号データに埋め込むことなく、受信側の端末に送信し(ステップ3004)、以後、送信が完了するまで上記動作を繰り返す(ステップ3005)。
【0076】
図39は広告情報埋め込みサービスにおける受信側端末の広告情報受信処理フローである。音声符号データを受信すれば(ステップ3101)、符号化された音声フレーム内の情報を分析し(ステップ3102)、分析の結果に基づいて広告情報が埋め込まれているか調べ(ステップ3103)、埋め込まれていなければ音声符号データを復号してスピーカより再生音声を出力する(ステップ3104)。一方、広告情報が埋め込まれていれば、ステップ3104の音声再生と並行して、広告情報を抽出し(ステップ3105)、該広告情報を表示・キー部DPKに表示する(ステップ3106)。以後、再生が完了するまで上記動作を繰り返す(ステップ3107)。
なお、実施例では広告情報を埋め込む場合について説明したが広告情報に限らず任意の情報を埋め込むことができる。また、広告情報と共にIP電話アドレスを挿入しておくことにより、ワンクリックでより該IP電話アドレス先に電話して詳細な広告情報やその他の詳細情報を入力できるように構成することができる。
以上、図36のデジタル音声通信システムによれば、音声データを中継するサーバ装置を設け、該サーバにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供することができる。
【0077】
(f)情報蓄積システム
図40はデジタル音声通信システムに連携させた情報蓄積システムの構成図であり、端末A 100とセンター500が公衆網300を介して接続されている状態が示されている。センター500は例えば企業のコールセンターで、苦情や修理相談、その他ユーザからの要望を受付けて応答する施設である。端末A 100において音声符号化部101はマイクロホンMICから入力する音声を符号化して伝送処理部104を介して網300に送出すると共に、音声復号部107は網300から伝送処理部104を介して入力する音声符号データを復号してスピーカSPから再生音声を出力する。センター500において、音声通信端末側Bは端末Aと同様の構成を備えている。すなわち、音声符号化部501はマイクロホンMICから入力する音声を符号化して伝送処理部504を介して網300に送出すると共に、音声復号部507は網300から伝送処理部504を介して入力する音声符号データを復号してスピーカSPから再生音声を出力する。以上の構成により、端末A(ユーザ)から電話がかかってくるとオペレータが該ユーザに対して応答する。
【0078】
センター500のデジタル音声蓄積側において、付加データ埋め込み部510は、端末Aから送られてきた音声符号化データに付加データを埋め込んで音声データ蓄積部520に蓄積し、付加データ抽出部530は音声データ蓄積部520から読み出された所定の音声符号化データより埋め込まれている情報を抽出して操作部540の表示部に表示すると共に、音声符号化データを音声復号部550に入力し、音声復号部550は入力された音声符号データを復号してスピーカ560より出力する。
付加データ埋め込み部510において、付加データ発生部511は操作部540から入力された発信者名、受信者名、受信時刻、会話カテゴリー(苦情、相談、修理依頼などの別)を付加データとしてコード化して埋め込み部512に入力する。埋め込み部512は、図3あるいは図8の実施例と同一の埋め込み判定基準に従って、伝送処理部504を介して端末A 100から送信されてくる音声符号データに付加情報の埋め込みが可能であるか判別する。そして、埋め込みが可能であれば、付加データ発生部511から入力するコード情報を音声符号データに埋め込んで音声ファイルとして音声データ蓄積部520に蓄積する。
【0079】
付加データ抽出部530において、抽出部531は図14あるいは図18の実施例と同一の埋め込み判定基準に従って音声符号データに情報が埋め込まれているか判定し、埋め込まれている場合には埋め込みコードを抽出して付加データ利用部532に入力すると共に、音声符号データを音声復号部550に入力する。付加データ利用部532は抽出されたコードを復号して操作部540の表示部に、発信者名、受信者名、受信時刻、会話カテゴリー等を表示する。又、音声復号部550は音声を再生してスピーカより出力する。
なお、音声データ蓄積部520より音声符号データを読み出す際、埋め込まれている情報を用いて所望の音声符号データを検索して出力することができる。すなわち、操作部540より検索キーワード、例えば、発信者名を入力してこの発信者名が埋め込まれている音声ファイルを出力するよう指示する。これにより抽出部531は指定された発信者名が埋め込まれた音声ファイルを検索し、埋め込み情報を出力すると共に、音声符号データを音声復号部550に入力し、復号音声をスピーカより出力する。
以上図40の実施例によれば、音声符号データに発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積し、適宜、蓄積した音声符号データを読み出して再生すると共に、埋め込み情報を抽出して表示できる。又、埋め込みデータを用いて音声データのファイル化が可能になり、しかも、埋め込みデータを検索キーワードとして所望の音声ファイルを速やかに検索して再生出力することができる。
【0080】
・付記
(付記1) 音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込むデータ埋め込み方法において、
音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、
満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込む、
ことを特徴とするデータ埋め込み方法。
(付記2) 所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出する埋め込みデータ抽出方法において、
前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、
満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする埋め込みデータ抽出方法。
(付記3) 音声符号化装置において、音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置において、音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する、システムにおけるデータ埋め込み/抽出方法において、
予め、データが埋め込まれているか否かを判定するために使用する第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる第2要素符号をそれぞれ定義し、
データ埋め込みに際して、前記第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断し、満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、
データ抽出に際して、前記第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とするデータ埋め込み/抽出方法。
(付記4) 第1要素符号の逆量子化値と閾値を比較し、比較結果に基づいてデータ埋め込み条件が満たされたか判断する、
ことを特徴とする付記1乃至3記載のデータ埋め込み又はデータ抽出方法。
(付記5) 前記第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックス情報である雑音符号であり、
該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記雑音符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、あるいは、前記雑音符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする付記1乃至3記載のデータ埋め込み又はデータ抽出方法。
(付記6) 前記第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックス情報であるピッチラグ符号であり、
該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断し、前記ピッチラグ符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、あるいは、前記ピッチラグ符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とする付記1乃至3記載のデータ埋め込み又はデータ抽出方法。
(付記7) 前記埋め込みデータの一部分をデータ種別識別情報とし、該データ種別識別情報により埋め込みデータの種別を特定する、
ことを特徴とする付記付記1乃至3記載のデータ埋め込み又はデータ抽出方法
(付記8) 前記閾値を複数個設定し、第1要素符号あるいは第1要素符号の逆量子化値に基いて、埋め込みデータが全てデータ系列であるか、データと制御コードの種別を識別できる形式であるデータ/制御コード列であるかを区別する、
ことを特徴とする付記1乃至3記載のデータ埋め込み又はデータ抽出方法。
(付記9) 音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋め込むデータ埋め込み装置において、
前記音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備えたことを特徴とするデータ埋め込み装置。
(付記10) 所定の音声符号化方式で符号化された音声符号に埋め込まれているデータを抽出するデータ抽出装置において、
前記音声符号を構成する要素符号を分離する分離部、
該要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該データを抽出する埋め込みデータ抽出部、
を備えたことを特徴とするデータ抽出装置。
(付記11) 音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、該音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する音声符号化/復号化システムにおいて、
音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込む音声符号化装置と、
所定の音声符号化方式で符号化された音声符号に復号処理を施して音声を再生すると共に該音声符号に埋め込まれているデータを抽出する音声復号化装置と、
を備え、前記音声符号化装置は、
音声を所定の音声符号化方式で符号化する符号器、
音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされたか判断する埋め込み判定部、
満たされている場合には、第2要素符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備え、前記音声復号化装置は、
音声符号を要素符号に分離する分離部
受信音声符号を構成する要素符号のうち第1要素符号と閾値を用いてデータ埋め込み条件が満たされているか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、音声符号の第2要素符号部分に任意のデータが埋め込まれていると判断して該データを抽出する埋め込みデータ抽出部、
受信音声符号を復号して音声を再生する復号器、
を備え、
予め、音声符号化装置及び音声復号化装置においてデータが埋め込まれているか否かを判定するために使用する前記第1要素符号と閾値、該判定の結果に基いてデータが埋め込まれる前記第2要素符号をそれぞれ定義しておくことを特徴とする音声符号化/復号化システム。
(付記12) 前記埋め込み判定部は、
前記第1要素符号を逆量子化する逆量子化部、
逆量子化により得られる逆量子化値と前記閾値を比較する比較部、
比較結果に基づいてデータ埋め込み条件が満たされているか否かを出力する判定部、
を有することを特徴とする付記9または10記載のデータ埋め込み装置またはデータ抽出装置。
(付記13) 前記第1の要素符号は雑音符号帳ゲイン符号であり、第2の要素符号は雑音符号帳のインデックス情報である雑音符号であり、前記埋め込み判定部は、該雑音符号帳ゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断する、
ことを特徴とする付記12記載のデータ埋め込み装置またはデータ抽出装置。
(付記14) 前記第1の要素符号はピッチゲイン符号であり、第2の要素符号は適応符号帳のインデックス情報であるピッチラグ符号であり、前記埋め込み判定部は、該ピッチゲイン符号の逆量子化値が前記閾値より小さいとき、前記データ埋め込み条件が満たされていると判断する、
ことを特徴とする付記12記載のデータ埋め込み装置またはデータ抽出装置。
(付記15) 一部分がデータの種別を特定する種別情報である埋め込みデータを発生する埋め込みデータ発生部、
を備えることを特徴とする付記9記載のデータ埋め込み装置。
(付記16) 前記データ埋め込み部は、前記第1要素符号あるいは該第1要素符号に応じた値に基いて、データと制御コードの種別を識別できる形式でデータ/制御コード列を埋め込むか、あるいは、データ系列のみを埋め込むか決定する、
ことを特徴とする付記9記載のデータ埋め込み装置。
(付記17) 音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして送信する手段、
を備え、通常の音声通話と同時に付加情報を送信する、
ことを特徴とするデジタル音声通信システム。
(付記18) 音声を所定の音声符号化方式で符号化して送信された音声データを受信するデジタル音声通信システムにおいて、
受信した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段、
を備え、通常の音声通話と同時に付加情報を受信する、
ことを特徴とするデジタル音声通信システム。
(付記19) 音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置は送信部と受信部を備え、
前記送信部は、
入力音声を符号化したデータを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして送信する手段、
を備え、前記受信部は、
受信した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段、
を備え、端末装置間で網を介して通常の音声通話と同時に付加情報を双方向伝送する、
ことを特徴とするデジタル音声通信システム。
(付記20) 前記送信部は、ユーザ端末が保有する画像あるいは個人情報を用いて前記埋め込み用のコードを生成する手段を備え、
前記受信部は、前記埋め込まれたコードを抽出して出力する手段を備え、
音声通話の形態でマルチメディア伝送を可能にする、
ことを特徴とする付記19記載のデジタル音声通信システム。
(付記21) 前記送信部は、送信側でユーザが使用する端末のユニークコードあるいは使用者自身のユニークコードを前記埋め込み用のコードとする手段を備え、
前記受信部は、埋め込みコードを抽出して内容を判別する手段を備えた、
ことを特徴とする請求項19記載のデジタル音声通信システム。
(付記22) 前記送信部は、鍵情報を前記埋め込み用のコードとする手段を備え、
前記受信部は、該鍵情報を抽出する手段、該抽出した鍵情報を用いて特定のユーザのみ音声データの解凍を可能とする手段、
を備えたことを特徴とする付記19記載のデジタル音声通信システム。
(付記23) 前記送信部は、関連アドレス情報を前記埋め込み用のコードとする手段を備え、
前記受信部は、該アドレス情報を抽出する手段、該アドレス情報を用いてワンクリックで情報発信者に電話をかける、もしくはメールを送信する手段、
を備えたことを特徴とする付記19記載のデジタル音声通信システム。
(付記24) 音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置と、網に接続されて端末装置間の音声データを中継するサーバ装置を備え、
端末装置は、入力音声を符号化する音声符号化手段と、音声符号化データを送信する手段と、受信した音声データを分析する手段と、その分析結果に応じて音声データの一部の特定部分からコードを抽出する手段を備え、
前記サーバ装置は、端末装置間で互いにやりとりされるデータを受信し、該データが音声データであるかどうかを判定する手段と、音声データであれば該データを分析する手段と、その分析結果に応じて一部の特定部分に任意のコードを埋め込んで送出する手段と、を備え、
サーバ装置を介してデータを受信した端末装置は該サーバ装置で埋め込まれたコードを抽出して出力する、
ことを特徴とするデジタル音声通信システム。
(付記25) 音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして蓄積する手段、
を備え、通常のデジタル音声の蓄積と同時に付加情報も同時に蓄積する、
ことを特徴とするデジタル音声蓄積システム。
(付記26) 音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
符号化音声データの一部に任意のコードを埋め込んで蓄積する手段と、
該蓄積されている音声データを復号する際、該蓄積音声データを分析する手段と、
その分析結果に応じて該蓄積データの特定部分から前記埋め込まれているコードを抽出する手段、
を備えたことを特徴とするデジタル音声蓄積システム。
(付記27) 音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データを分析する手段と、
その分析結果に応じて音声データの一部の特定部分に任意のコードを埋め込む手段と、
前記埋め込まれたデータを音声データとして蓄積する手段と、
該蓄積されている音声データを復号する際、該音声データを分析する手段と、
その分析結果に応じて該音声データの特定部分から前記埋め込まれているコードを抽出する手段、
を備えたことを特徴とするデジタル音声蓄積システム。
(付記28) 前記埋め込むコードは、話者特定情報あるいは蓄積日時情報であり、
これらの情報を用いて解凍すべき蓄積音声データを検索する手段、
を備えたことを特徴とする請求項27記載のデジタル音声蓄積システム。
【0081】
【発明の効果】
以上の本発明によれば、符号器側、復号器側双方でキーを持ち合はなくても、符号器側でデータを音声符号に埋め込むことができ、しかも、復号器側で該埋め込みデータを正しく抽出することができる。
又、本発明によれば、また、データを音声符号に埋め込んでも音質劣化が殆どなく、再生音声の聴取者にデータ埋込みを意識させないようにすることができる。又、本発明によれば、閾値の初期値のみを送受双方で予め定義しておけば、データの埋め込み、抽出が可能となる。
【0082】
又、本発明によれば、埋込みデータに制御コードを定義しておけば、該制御コードで閾値の変更等を行なうことができ、別経路の付加情報の伝送なくして埋込みデータの伝送量を調整できる。
又、本発明によれば、ゲイン値に応じて、データ系列のみを埋め込むか、あるいは、データと制御コードの種別を識別できる形式でデータ/制御コード列を埋め込むか、を決定するため、データ系列のみを埋め込む場合にはデータ種別情報を含ませる必要がないため伝送容量を改善することができる。
【0083】
又、本発明によれば、符号化フォーマットの変更なく、任意データの埋込みが可能となる。つまり、通信/蓄積の用途で必須の互換性を損なうことなく、かつユーザに知られることなく、IDや他メディアの情報を音声情報に埋め込んで伝送/蓄積することができる。加えて、本発明によれば、CELPに共通したパラメータにて制御仕様を規定するため、特定の方式に限定されることなく、幅広い方式に適用できる。例えば、VoIP向けのG.729や移動体通信向けのAMRなどにも対応できる。
【0084】
又、本発明のデジタル音声通信システムによれば、送信端あるいは経路途中で圧縮音声データの特定部分に任意のコードを埋め込み、受信端、あるいは経路途中で伝送音声データを分析することで特定部分から埋め込まれたコードを抽出するようにしたから、通常の音声伝送プロトコルのまま、音声と同時に付加情報を伝送することができる。また、付加情報は音声データの裏に埋め込まれているため、聴感上の重なりはなく、邪魔な存在になったり、異音となる場合もない。また、付加情報としては、画像情報(所在地周辺の映像、地図画像など)、個人情報(顔写真、声紋、指紋)等とすることにより、マルチメディア通信が可能になる。また、付加情報として端末のシリアル番号、声紋等とすることにより、正当のユーザであるかの認証性能を高めることができ、しかも、音声データのセキュリティ性能を高めることが可能になる。
また、本発明によれば、音声データを中継するサーバ装置を設けることにより、互いに音声データの通信をしているエンドユーザに広告情報等の任意の情報を提供することができる。
また、本発明によれば、受信した音声データに、発信者、受信者、受信時刻、会話カテゴリーなどを埋め込んで記憶手段に蓄積することで、音声データのファイル化が可能になり、後の利用を容易にすることができる。
【図面の簡単な説明】
【図1】本発明の符号器側における一般的構成図である。
【図2】埋め込み判定部の構成図である。
【図3】 G.729の符号化方式に従って符号化する符号器を使用する場合の第1実施例の構成図である。
【図4】埋め込み判定部の構成図である。
【図5】音声符号の標準フォーマットである。
【図6】埋め込み制御による伝送符号の説明図である。
【図7】データと制御コードを区別して埋め込む場合の説明図である。
【図8】 G.729の符号化方式に従って符号化する符号器を使用する場合の第2実施例の構成図である。
【図9】埋め込み判定部の構成図である。
【図10】音声符号の標準フォーマットである。
【図11】埋め込み制御による伝送符号説明図である。
【図12】本発明の復号器側における一般的構成図である。
【図13】埋め込み判定部の構成図である。
【図14】雑音符号にデータが埋め込まれている場合の第1実施例構成図である。
【図15】雑音符号にデータが埋め込まれている場合の埋め込み判定部の構成図である。
【図16】受信音声符号の標準フォーマットである。
【図17】データ埋め込み判定部による判定結果説明図である。
【図18】ピッチラグ符号にデータが埋め込まれている場合の第2実施例構成図である。
【図19】ピッチラグ符号にデータが埋め込まれている場合の埋め込み判定部の構成図である。
【図20】受信音声符号の標準フォーマットである。
【図21】データ埋め込み判定部による判定結果説明図である。
【図22】閾値を多段に設定した符号器側の実施例構成図である。
【図23】データ埋め込み可能範囲説明図である。
【図24】閾値を多段に設定した場合の埋め込み判定部の構成図である。
【図25】データ埋め込み説明図である。
【図26】閾値を多段に設定した復号器側の実施例構成図である。
【図27】埋め込み判定部の構成図である。
【図28】画像を埋め込むことで音声と同時に画像を伝送するマルチメディア伝送を実現するデジタル音声通信システムの構成図である。
【図29】画像伝送サービスにおける送信側端末の送信処理フローである。
【図30】画像伝送サービスにおける受信側端末の受信処理フローである。
【図31】認証情報を埋め込むことで音声と同時に認証情報を伝送するデジタル音声通信システムの構成図である。
【図32】認証伝送サービスにおける送信側端末の送信処理フローである。
【図33】認証伝送サービスにおける受信側端末の受信処理フローである。
【図34】鍵情報を埋め込むことで音声と同時に鍵情報を伝送するデジタル音声通信システムの構成図である。
【図35】関連アドレス情報を埋め込むことで音声と同時に関連アドレス情報を伝送するデジタル音声通信システムの構成図である。
【図36】広告情報埋め込みサービスを実現するデジタル音声通信システムの構成図である。
【図37】インタネット電話サービスにおけるIPパケットの構成例である。
【図38】サーバにおける広告情報挿入処理フローである。
【図39】広告情報埋め込みサービスにおける受信側端末の広告情報受信処理フローである。
【図40】デジタル音声通信システムに連携させた情報蓄積システムの構成図である。
【図41】 ITU-T勧告G.729方式の符号器の構成図である。
【図42】各パルス系統グループに割り当てたサンプル点の説明図である。
【図43】 G.729方式の復号器のブロック図である。
【図44】従来の電子透かし技術説明図である。
【図45】従来の電子透かし技術の別の説明図
【符号の説明】
51 音声・音響CODEC(符号器)
52 埋め込みデータ発生部
53 データ埋め込み制御部
54 埋め込み判定部
55 データ埋め込み部
56 多重部
Claims (7)
- 音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋込むデータ埋め込み方法において、
音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされたか判断し、
満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む、
ことを特徴とするデータ埋め込み方法。 - 音声符号化装置において、音声を所定の音声符号化方式で符号化すると共に得られた音声符号に任意のデータを埋め込み、音声再生装置において、音声符号から埋め込みデータを抽出すると共に、該音声符号より音声を再生する、システムにおけるデータ埋め込み/抽出方法において、
予め、音声符号を構成する第1要素符号である雑音符号帳ゲインと適応符号帳ゲインのうちデータが埋め込まれているか否かを判定するために使用する少なくとも一方のゲインと閾値、該音声符号を構成する第2要素符号である雑音符号と適応符号のうち該判定の結果に基いてデータが埋め込まれる少なくとも一方の符号をそれぞれ定義し、
データ埋め込みに際して、前記第1要素符号であるゲインが前記閾値より小さくなってデータ埋め込み条件が満たされたか判断し、満たされている場合には、前記第2要素符号であって条件が満たされている前記ゲインに対応する符号を任意のデータで置き換えることによりデータを音声符号に埋め込み、
データ抽出に際して、前記第1要素符号であるゲインが前記閾値より小さくなってデータ埋め込み条件が満たされているか判断し、満たされている場合には、音声符号の第2要素符号であって条件が満たされている前記ゲインに対応する符号部分に任意のデータが埋め込まれていると判断して該埋め込みデータを抽出する、
ことを特徴とするデータ埋め込み/抽出方法。 - 音声を所定の音声符号化方式で符号化して得られる音声符号に任意のデータを埋め込むデータ埋め込み装置において、
前記音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされたか判断する埋め込み判定部、
データ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込むデータ埋め込み部、
を備えたことを特徴とするデータ埋め込み装置。 - 音声を所定の音声符号化方式で符号化して送信するデジタル音声通信システムにおいて、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記データが埋め込まれた音声符号を音声データとして送信する手段、
を備え、通常の音声通話と同時に付加情報を送信する、
ことを特徴とするデジタル音声通信システム。 - 音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置は送信部と受信部を備え、
前記送信部は、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記データが埋め込まれた音声符号を音声データとして送信する手段、
を備え、前記受信部は、
受信した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号に任意のデータが埋め込まれていると判断して該埋め込まれているデータを抽出する手段、
を備え、端末装置間で網を介して通常の音声通話と同時に付加情報を双方向伝送する、
ことを特徴とするデジタル音声通信システム。 - 音声を所定の音声符号化方式で符号化して送受信するデジタル音声通信システムにおいて、
端末装置と、網に接続されて端末装置間の音声データを中継するサーバ装置を備え、
端末装置は、入力音声を符号化する音声符号化手段と、音声符号化データを送信する手段と、受信した音声データの音声符号を分析する手段と、その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号に任意のデータが埋め込まれていると判断して該埋め込まれているデータを抽出する手段を備え、
前記サーバ装置は、端末装置間で互いにやりとりされるデータを受信し、該データが音声データであるかどうかを判定する手段と、音声データであれば該音声データの音声符号を分析する手段と、その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込んで送出する手段と、を備え、
サーバ装置を介して音声データを受信した端末装置は該サーバ装置で埋め込まれたデータを抽出して出力する、
ことを特徴とするデジタル音声通信システム。 - 音声を所定の音声符号化方式で符号化して蓄積するデジタル音声蓄積システムにおいて、
入力音声を符号化した音声データの音声符号を分析する手段と、
その分析結果により、該音声符号を構成する第1要素符号である雑音符号帳ゲインあるいは適応符号帳ゲインが閾値より小さくなってデータ埋め込み条件が満たされている場合には、該音声符号を構成する第2要素符号であって条件が満たされている前記雑音符号帳ゲインあるいは適応符号帳ゲインに対応する雑音符号あるいは適応符号を任意のデータで置き換えることによりデータを音声符号に埋め込む手段と、
前記埋め込まれたデータを音声データの一部として蓄積する手段、
を備え、通常のデジタル音声の蓄積と同時に付加情報も同時に蓄積する、
ことを特徴とするデジタル音声蓄積システム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003015538A JP4330346B2 (ja) | 2002-02-04 | 2003-01-24 | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム |
CN2008101340452A CN101320564B (zh) | 2002-02-04 | 2003-01-30 | 数字语音通信系统 |
CNB031023223A CN100514394C (zh) | 2002-02-04 | 2003-01-30 | 对于语音代码进行数据嵌入/抽取方法、装置以及系统 |
DE60330716T DE60330716D1 (de) | 2002-02-04 | 2003-02-03 | Verfahren und Vorrichtung zur Dateneinbettung in einen kodierten Sprachkode |
US10/357,323 US7310596B2 (en) | 2002-02-04 | 2003-02-03 | Method and system for embedding and extracting data from encoded voice code |
DE60330413T DE60330413D1 (de) | 2002-02-04 | 2003-02-03 | Einbettung von Daten in kodierte Sprache und Extrahierung von Daten aus kodierter Sprache |
EP06007029A EP1693832B1 (en) | 2002-02-04 | 2003-02-03 | Method and apparatus for embedding data in encoded voice code |
EP03250682A EP1333424B1 (en) | 2002-02-04 | 2003-02-03 | Embedding data in encoded voice and extracting data from encoded voice |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002-26958 | 2002-02-04 | ||
JP2002026958 | 2002-02-04 | ||
JP2003015538A JP4330346B2 (ja) | 2002-02-04 | 2003-01-24 | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003295879A JP2003295879A (ja) | 2003-10-15 |
JP4330346B2 true JP4330346B2 (ja) | 2009-09-16 |
Family
ID=26625679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003015538A Expired - Fee Related JP4330346B2 (ja) | 2002-02-04 | 2003-01-24 | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム |
Country Status (4)
Country | Link |
---|---|
EP (2) | EP1693832B1 (ja) |
JP (1) | JP4330346B2 (ja) |
CN (1) | CN100514394C (ja) |
DE (2) | DE60330413D1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004069963A (ja) * | 2002-08-06 | 2004-03-04 | Fujitsu Ltd | 音声符号変換装置及び音声符号化装置 |
KR100732659B1 (ko) | 2003-05-01 | 2007-06-27 | 노키아 코포레이션 | 가변 비트 레이트 광대역 스피치 음성 코딩시의 이득양자화를 위한 방법 및 장치 |
JP4789430B2 (ja) * | 2004-06-25 | 2011-10-12 | パナソニック株式会社 | 音声符号化装置、音声復号化装置、およびこれらの方法 |
KR100565682B1 (ko) | 2004-07-12 | 2006-03-29 | 엘지전자 주식회사 | 이동통신 단말기를 이용한 통화중 디지털 데이터 전송방법및 전송장치 |
JP4780375B2 (ja) * | 2005-05-19 | 2011-09-28 | 大日本印刷株式会社 | 音響信号への制御コード埋込装置、および音響信号を用いた時系列駆動装置の制御システム |
JP4896455B2 (ja) * | 2005-07-11 | 2012-03-14 | 株式会社エヌ・ティ・ティ・ドコモ | データ埋込装置、データ埋込方法、データ抽出装置、及び、データ抽出方法 |
US8054969B2 (en) * | 2007-02-15 | 2011-11-08 | Avaya Inc. | Transmission of a digital message interspersed throughout a compressed information signal |
US8055903B2 (en) * | 2007-02-15 | 2011-11-08 | Avaya Inc. | Signal watermarking in the presence of encryption |
EP2133871A1 (en) * | 2007-03-20 | 2009-12-16 | Fujitsu Limited | Data embedding device, data extracting device, and audio communication system |
ES2726827T3 (es) * | 2007-10-26 | 2019-10-09 | Jean Chouraqui | Métodos y sistemas para transferir el contenido multimedia utilizando un protocolo de transferencia de sonido digital existente |
JP5697395B2 (ja) * | 2010-10-05 | 2015-04-08 | ヤマハ株式会社 | 歌唱音声評価装置およびプログラム |
US8880404B2 (en) * | 2011-02-07 | 2014-11-04 | Qualcomm Incorporated | Devices for adaptively encoding and decoding a watermarked signal |
US9767823B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and detecting a watermarked signal |
US9767822B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and decoding a watermarked signal |
CN110970038B (zh) * | 2019-11-27 | 2023-04-18 | 云知声智能科技股份有限公司 | 语音解码方法及装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FI103700B (fi) * | 1994-09-20 | 1999-08-13 | Nokia Mobile Phones Ltd | Samanaikainen puheen ja datan siirto matkaviestinjärjestelmässä |
TW312770B (en) * | 1996-10-15 | 1997-08-11 | Japen Ibm Kk | The hiding and taking out method of data |
US6363339B1 (en) * | 1997-10-10 | 2002-03-26 | Nortel Networks Limited | Dynamic vocoder selection for storing and forwarding voice signals |
JP3022462B2 (ja) * | 1998-01-13 | 2000-03-21 | 興和株式会社 | 振動波の符号化方法及び復号化方法 |
JP3321767B2 (ja) * | 1998-04-08 | 2002-09-09 | 株式会社エム研 | 音声データに透かし情報を埋め込む装置とその方法及び音声データから透かし情報を検出する装置とその方法及びその記録媒体 |
ID25532A (id) * | 1998-10-29 | 2000-10-12 | Koninkline Philips Electronics | Penanaman data tambahan dalam sinyal informasi |
AU6533799A (en) * | 1999-01-11 | 2000-07-13 | Lucent Technologies Inc. | Method for transmitting data in wireless speech channels |
EP1264437A2 (en) * | 2000-03-06 | 2002-12-11 | Thomas W. Meyer | Data embedding in digital telephone signals |
-
2003
- 2003-01-24 JP JP2003015538A patent/JP4330346B2/ja not_active Expired - Fee Related
- 2003-01-30 CN CNB031023223A patent/CN100514394C/zh not_active Expired - Fee Related
- 2003-02-03 DE DE60330413T patent/DE60330413D1/de not_active Expired - Lifetime
- 2003-02-03 EP EP06007029A patent/EP1693832B1/en not_active Expired - Fee Related
- 2003-02-03 EP EP03250682A patent/EP1333424B1/en not_active Expired - Fee Related
- 2003-02-03 DE DE60330716T patent/DE60330716D1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP1693832B1 (en) | 2009-12-23 |
EP1693832A3 (en) | 2007-06-20 |
CN100514394C (zh) | 2009-07-15 |
EP1333424B1 (en) | 2009-12-09 |
EP1333424A2 (en) | 2003-08-06 |
CN1437169A (zh) | 2003-08-20 |
DE60330716D1 (de) | 2010-02-04 |
JP2003295879A (ja) | 2003-10-15 |
EP1693832A2 (en) | 2006-08-23 |
EP1333424A3 (en) | 2005-07-13 |
DE60330413D1 (de) | 2010-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7310596B2 (en) | Method and system for embedding and extracting data from encoded voice code | |
JP4330346B2 (ja) | 音声符号に対するデータ埋め込み/抽出方法および装置並びにシステム | |
JP4518714B2 (ja) | 音声符号変換方法 | |
EP2360682B1 (en) | Audio packet loss concealment by transform interpolation | |
JP4263412B2 (ja) | 音声符号変換方法 | |
Wang et al. | Information hiding in real-time VoIP streams | |
JP4445328B2 (ja) | 音声・楽音復号化装置および音声・楽音復号化方法 | |
EP2359365B1 (en) | Apparatus and method for encoding at least one parameter associated with a signal source | |
Kheddar et al. | High capacity speech steganography for the G723. 1 coder based on quantised line spectral pairs interpolation and CNN auto-encoding | |
AU6533799A (en) | Method for transmitting data in wireless speech channels | |
JP2004069963A (ja) | 音声符号変換装置及び音声符号化装置 | |
Lin | An imperceptible information hiding in encoded bits of speech signal | |
EP1665234B1 (fr) | Procede de transmission d un flux d information par insertion a l'interieur d'un flux de donnees de parole, et codec parametrique pour sa mise en oeuvre | |
CN101320564B (zh) | 数字语音通信系统 | |
US7949016B2 (en) | Interactive communication system, communication equipment and communication control method | |
Ding | Wideband audio over narrowband low-resolution media | |
JP4347323B2 (ja) | 音声符号変換方法及び装置 | |
EP1298647A1 (en) | A communication device and a method for transmitting and receiving of natural speech, comprising a speech recognition module coupled to an encoder | |
JP2006350373A (ja) | 音声符号変換方法および装置 | |
JP4330303B2 (ja) | 音声符号変換方法及び装置 | |
Licai et al. | Information hinding based on GSM full rate speech coding | |
JP4900402B2 (ja) | 音声符号変換方法及び装置 | |
JP4060317B2 (ja) | 双方向通信システム、通信機、および通信制御方法 | |
Lin | A Synchronization Scheme for Hiding Information in Encoded Bitstream of Inactive Speech Signal. | |
JP4985743B2 (ja) | 音声符号変換方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
AA91 | Notification that invitation to amend document was cancelled |
Free format text: JAPANESE INTERMEDIATE CODE: A971091 Effective date: 20070130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070227 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070417 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080902 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081030 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090520 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090616 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120626 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130626 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |