CN101320564B

CN101320564B - 数字语音通信系统

Info

Publication number: CN101320564B
Application number: CN2008101340452A
Authority: CN
Inventors: 大田恭士; 铃木政直; 土永义照; 田中正清; 佐佐木繁
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2002-02-04
Filing date: 2003-01-30
Publication date: 2012-02-29
Anticipated expiration: 2023-01-30
Also published as: CN101320564A; US20030158730A1

Abstract

本发明提供对于语音代码进行数据嵌入/抽取方法、装置以及系统。在将任意的数据嵌入到语音代码时，使用构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件；如果满足，就通过以任意的数据来替换第2元素代码将数据嵌入到语音代码。在对嵌入在语音代码中的数据进行抽取时，使用构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件；如果满足，就判断为在语音代码的第2元素代码部分中嵌入有任意的数据并对该嵌入数据进行抽取。

Description

数字语音通信系统

本申请是申请号为031023223，申请日为2003年1月30日，发明名称为“对于语音代码进行数据嵌入/抽取方法、装置以及系统”申请的分案申请。

技术领域

本发明涉及将分组语音(音频)通信或数字语音存储等作为适用领域的数字语音信号处理技术，特别是涉及通过在保持遵照数据格式标准的同时，并且不损害语音质量地将用语音编码技术所压缩的语音代码(数字代码)的一部分替换为任意的数据，将该数据嵌入到语音代码的数据嵌入技术。

背景技术

相关的数据嵌入技术，与适用于数字移动无线系统或以VoIP所代表的分组语音传送系统、数字语音存储等的语音编码技术关联起来，作为通过不对传送比特序列带来影响地嵌入著作权或ID信息使通话的保密性提高的电子水印技术或者功能扩展技术，它的需要以及重要性正日益增高。

以因特网的爆炸式的普及为背景对用IP分组来传送语音数据的因特网电话的需要正日益增高。通过分组传送语音数据，就产生能够一体地传送命令或图像数据等不同媒体的优点。但是，迄今为止以用不同的信道独立地进行传送的多媒体通信为主。另外，通过插入广告等来降低用户的通话费用的服务也在进行，但仅是在开始了通话的起始部分。另外，通过分组传送语音数据，就能够一体地传送命令或图像数据等不同的媒体，但由于传送格式为公众所知，在保密性上就会出问题。以这些为背景，将著作权信息等嵌入到语音压缩数据(代码)中的“电子水印”技术就得以提案。

另一方面，在传送时，作为提高传送效率的目的采用高效率地压缩语音的语音编码技术。特别是在VoIP领域中，作为国际标准化机构的ITU-T(国际电信联盟电信电话标准化部门)所规定的G.729等的语音编码技术正成为主流。另外，在移动通信的领域中也采用G.729或3GPP(The Third Generation Partnership Project)所规定的AMR(Adaptive Multi Rate)等的语音编码技术。它们当中的共通点是以称作GLEP(Code Excited Linear Prediction)算法为基础。G.729的编码方式以及解码方式如下面那样。

·编码器的构成以及动作

图41是ITU-T建议的G.729方式的编码器的结构图。在图41中，相当于每1帧的预定采样数(＝N)的输入信号(语音信号)X以帧为单位输入到LPC分析单元。如果将采样速度设为8kHz、1帧期间设为10msec，1帧就是80个采样。LPC分析单元1，将人的声道看作是用下面公式所表示的全极式滤波器，

H(z)＝1/[1+∑αi·z^-i] (i＝1～P) (1)

并求出此滤波器的系数αi(i＝1，...，p)。这里，P是滤波器次数。一般在电话频带语音的情况下，作为p使用10～20的值。在LPC(线性预测)分析单元1中，使用输入信号80个采样和先读部分的40个采样以及过去的信号120个采样的合计240采样来进行LPC分析并求出LPC系数。

参数变换单元2，将LPC系数变换成LSP(线性频谱对)参数。这里，LSP参数是，能够与LPC系数相互进行变换的频率区域的参数，由于量化特性比LPC系数还要出色，故量化在LSP的区域进行。LSP量化单元3对所变换的LSP参数进行量化并求出LSP代码和LSP逆量化值。LSP内插单元4，从由当前帧所求出的LSP逆量化值和由前一帧所求出的LSP逆量化值来求出LSP内插值。即，1帧被分割成5msec的第1、第2的2个子帧，LPC分析单元1决定第2子帧的LPC系数，但不决定第1子帧的LPC系数。所以，LSP内插单元4，使用由当前帧所求出的LSP逆量化值和由前一帧所求出的LSP逆量化值通过内插运算来预测第1子帧的LSP逆量化值。

参数逆变换单元5，分别将LSP逆量化值和LSP内插值变换成LPC系数并设定到LPC合成滤波器6。在此情况下，作为LPC合成滤波器6的滤波器系数，在帧的第1子帧中使用从内插值所变换的LPC系数，在第2子帧中使用从逆量化值变换了的LPC系数。此外，在此之后l中有添加字符，例如在lspi，li(n)，...中的l就是字母表的l。

当LSP参数lspi(i＝1，...，p)在LSP量化单元3中通过矢量量化进行量化以后，量化索引(LSP代码)就向解码器方进行传送。

接着，进行音源和增益的搜索处理。音源和增益以子帧为单位进行处理。首先，将音源信号2分为音调周期成分和噪声成分，对音调周期成分的量化使用保存了过去的音源信号序列的自适应码本7，对噪声成分的量化使用代数代码本或噪声代码本8。在下面，就作为音源代码本使用自适应码本7和噪声代码本8的语音编码方式进行说明。

自适应码本7，依照索引1～L依次输出延迟了1个采样的N个采样部分的音源信号(叫做周期性信号)。N是1个子帧的采样数(N＝40)，并具有保存最新的(L+39)个采样的音调周期成分的缓存。从索引1来确定第1～第40个采样的周期性信号，从索引2来确定第2～第41个采样的周期性信号，...从索引L来确定第L～第L+39个采样的周期性信号。在初始状态，自适应码本7的内部全部输入振幅为0的信号，进行动作以使对每个子帧将时间上最旧的信号抛弃子帧长部分，并将由当前子帧所求出的音源信号保存到自适应码本7。

自适应码本搜索使用保存有过去的音源信号的自适应码本7来识别音源信号的周期性成分。即，对每个采样一边改变从自适应码本7读出的原始点一边将自适应码本7内的过去的音源信号取出子帧长(＝40采样)部分，并输入到LPC合成滤波器6生成音调合成信号βAP_L。但是，P_L是相当于从自适应码本7所取出的延迟L的过去的音调周期性信号(自适应代码矢量)，A是LPC合成滤波器6的脉冲应答，B是自适应码本增益。

运算单元9由下面公式求出输入语音X和βAP_L的误差功率E_L。

E_L＝|X-βAP_L|² (2)

当将自适应码本输出的加权合成输出设为AP_L，AP_L的自相关值设为R_pp，AP_L和输入信号X的互相关值设为R_xp后，(2)式的误差功率成为最小的音调迟延L_opt中的自适应代码矢量P_L就由下面公式来表示。

P_L＝argmax(R_xp ²/R_pp) (3)

即，将用音调合成信号的自相关值R_pp对音调合成信号AP_L和输入信号X的互相关值R_xp后进行了标准化的值为成为最大的读出开始点设为最优开始点。通过上面处理，误差功率评价单元10求出满足(3)式的音调迟延L_opt。这时，最优音调增益β_opt由下面的公式给出。

β_opt＝R_xp/R_pp (4)

接着，使用噪声代码本8对包含在音源信号中的噪声成分进行量化。噪声代码本8由振幅为1或者-1的多个脉冲构成。作为例子，在表1中示出子帧长为40个采样的情况的脉冲位置。

[表1]

G.729的噪声代码本

脉冲层次	脉冲位置	极性
			i₀：1	m₀：0，5，10，15，20，25，30，35	s₀+/-
i₁：2	m₁：1，6，11，16，21，26，31，36	s₁+/-
			i₂：3	m₂：2，7，12，17，22，27，32，37	s₂+/-
i₃：4	m₃：3，8，13，18，23，28，33，384，9，14，19，24，29，34，39	s₃+/-

噪声代码本8，将构成1个子帧的N(＝40)个采样点分割为多个脉冲层次组1～4，对于从各脉冲层次组取出1个采样点m₀～m₃形成的全体组合，将在各采样点中有+1或者-1的脉冲的脉冲信号作为噪声成分依次输出。在此例中，基本上是每1个子帧配置4个脉冲。

图42是分配给各脉冲层次组1～4的采样点的说明图。

(1)在脉冲层次组1中，分配了8个采样点0，5，10，15，20，25，30，35；

(2)在脉冲层次组2中，分配了8个采样点1，6，11，16，21，26，31，36；

(3)在脉冲层次组3中，分配了8个采样点2，7，12，17，22，27，32，37；

(4)在脉冲层次组4中，分配了16个采样点3，4，8，9，13，14，18，19，23，24，28，29，33，34，38，39。

为了表现脉冲层次组1～3的采样点需要3位，表现脉冲的正负需要1位，总共是需要4位，另外，为了表现脉冲层次组4的采样点需要4位，表现脉冲的正负需要1位，总共是需要5位。因此，为了确定从具有表1的脉冲配置的噪声代码本8输出的脉冲性的音源信号就需要17位，脉冲性音源信号的种类将存在2¹⁷(＝2⁴×2⁴×2⁴×2⁵)。

如图1所示那样限定好各脉冲层次的脉冲位置，在噪声代码本搜索中，从各脉冲体系的脉冲位置的组合之中，决定在再生区域中与输入语音的误差功率为最小的脉冲的组合。即，取通过自适应码本搜索所求出的最优音调增益β_opt，将该增益β_opt乘以自适应码本输出P_L后输入到加法器11。与此同时从噪声代码本8依次将脉冲性音源信号输入到加法器11，并确定将加法器输出输入到LPC合成滤波器6所得到的再生信号与输入信号X的差为最小的脉冲性音源信号。具体就是，首先从输入信号X、通过自适应码本搜索所求出的最优自适应码本输出P_L、最优音调增益β_opt，由下面公式生成用于噪声代码本搜索的目标矢量X′。

X′＝X-β_optAP_L (5)

在此例中，由于如前面说明那样用17位来表现脉冲的位置和振幅(正负)，故该组合存在2的17方组。这里。当设第k遍的噪声代码输出矢量为C_k后，就在噪声代码本搜索中，求出使下面公式的评价函数误差功率D为最小的代码矢量C_k。

D＝|X′-G_cAC_k|² (6)

G_c是噪声代码本增益。误差功率评价单元10在噪声代码本的搜索中，搜索用噪声合成信号的自相关值R_cc对噪声合成信号AC_k的和输入信号X′的互相关值R_cx进行标准化所得到的标准化互相关值(R_cx＊R_cx/R_cc)为最大的脉冲位置和极性的组合。

接着就增益量化进行说明。在G.729中噪声代码本增益不直接进行增益，对自适应码本增益G_a(＝β_opt)和噪声代码本增益G_c的修正系数γ进行矢量量化。这里，噪声代码本增益G_c和修正系数γ之间有G_c＝g′×γ的关系。g′是从过去的4个子帧的对数增益所预测的当前帧的增益。

在增益量化器12的没有图示的增益量化表中，对于自适应码本增益和噪声代码本增益的修正系数γ的组合准备了128组(＝2⁷)。增益代码本的搜索方法是，①对于自适应码本输出矢量和噪声代码本输出矢量，从增益量化表之中取出1组的表值并设定到增益可变单元13、14，②在增益可变单元13、14中将增益G_a、G_c乘以各自的矢量并输入到LPC合成滤波器6，③在误差功率评价单元10中选择与输入信号X的误差功率为最小的组合，由此来进行的。

通过上面处理，线路多路化单元15对，①作为LSP的量化索引的LSP代码，②作为自适应码本的量化索引的音调迟延代码L_opt，③作为噪声代码本索引的噪声代码，④作为增益量化索引的增益代码进行多路化并生成线路数据。实际上在向传输线路送出之前有必要进行线路编码或者打包处理。

·解码器的构成以及动作

图43是G.729方式的解码器的框图。从线路接收到的线路数据向线路分离单元21输入后分离输出LSP代码、音调迟延代码、噪声代码、增益代码。在解码器中，基于这些代码对语音数据进行解码。关于解码器的动作，由于解码器的功能包含在编码器中一部分相重复，故在下面简单地进行说明。

LSP逆量化单元22当LSP代码输入后进行逆量化，输出LSP逆量化值。LSP内插单元23，从当前帧的第2子帧中的LSP逆量化值和前一帧的第2子帧中的LSP逆量化值对当前帧的第1子帧的LSP进行内插运算。接着，参数逆变换单元24，将LSP内插值和LSP逆量化值变换成各自的LPC合成滤波器系数。G.729方式的LPC合成滤波器25，在最初的第1子帧中使用从LSP内插值变换的LPC系数，在紧接的第2子帧中使用从LSP逆量化值变换的LPC系数。

自适应码本26，从音调迟延代码指示的读出开始位置输出子帧长(＝40个采样)的音调信号，噪声代码本27从对应噪声代码的读出位置输出脉冲位置和脉冲的极性。另外，增益逆量化单元28由所输入的增益代码计算出自适应码本增益逆量化值和噪声代码本增益逆量化值，并设定到增益可变单元29、30。加法器31将自适应码本增益逆量化值乘以自适应码本输出所得到的信号，和噪声代码本增益逆量化值乘以噪声代码本输出所得到的信号相加起来生成音源信号，并将此音源信号输入到LPC合成滤波器25。由此，就能够从LPC合成滤波器25得到再生语音。

此外，在初始状态中，解码器方的自适应码本26的内部全部输入振幅为0的信号，进行动作以使对每个子帧将时间上最旧的信号抛弃子帧长部分，另一方面，将由当前子帧所求出的音源信号保存到自适应码本26。也就是，编码器和解码器的自适应码本26始终维持为最新的相同状态。

·电子水印技术

作为以上述的CELP为对象的电子水印技术，有在日本专利公开特开平11-272299中所公开的“语音编码时的水印位的嵌入方法”。图44是相关的电子水印技术说明图。在表1中着眼于第4脉冲层次i₃。第4脉冲层次i₃的脉冲位置m₃，与其他第1～第3脉冲层次i₀～i₂的脉冲位置m₀～m₂不同，持有相邻接的候补对象。如果根据G.729的标准，第4脉冲层次i₃中的脉冲位置，即使选择相邻接的脉冲位置也不会有什么妨碍。例如，第4脉冲层次i₃中的脉冲位置m₃＝4，可以替换成脉冲位置m₃′＝3，即使替换后进行再生也根本不会对人的听觉带来影响。因此，为了对m₃的候补进行标号附加导入8位的密钥K_p。例如，如图45所示那样，设K_p＝00001111，使K_p的各个位分别对应m₃的各个候补3，8，13，18，23，28，33，38，且设＊K_p＝11110000，使＊K_p的各个位分别对应m₃的各个候补4，9，14，19，24，29，34，39。如果这样进行对应，按照密钥K_p就能够对m₃的全部候补进行“0”和“1”的标号附加。在相关的状况中，在将水印位“0”嵌入到语音代码的情况下，按照密钥K_p从附加了“0”的标号的候补之中选择m₃。另一方面，在嵌入水印位“1”的情况下，按照密钥K_p从附加了“1”的标号的候补之中选择m₃。利用此方法就能够将已2值化的水印信息嵌入到语音代码之中。所以，通过在收发信息设备中互相持有上述密钥K_p就能够进行水印信息的嵌入以及抽取。由于对每个5msec的子帧能够嵌入1位的水印信息故每秒就能够嵌入200位。

可是，当使用相同的密钥K_p对全部代码嵌入水印信息后，被非法的第3方破译的可能性就变高。因此，就有必要谋求保密性的提高。如果设m₀～m₃的合计值为C_p，合计值就是图45(a)所示的58个中某一个。于是，导入58位的第2密钥K_con，如图45(b)所示那样使58个合计值C_p对应该密钥的各个位。然后，计算出语音编码时的噪声代码中的m₀～m₃的合计值(图中是72)，并检查符合该合计值的密钥K_con的位值C_pb是“0”还是“1”，当C_pb＝“1”时，按照图44将水印位嵌入到语音代码，如果是“0”将不嵌入水印位。这样一来，不知道密钥K_con的第3方要破译水印信息就会困难。

在通过与语音信道独立的信道传送其他的媒体的情况下，最低也需要两端的终端设备是多信道对应。在此情况下，例如当前正在普及的第2代携带电话机等，在连接于现有的通信网络的终端中，就有加以限制的问题。另外，即使两端的终端设备是多信道对应，可以传送多个媒体在分组交换的情况下，通路分散，途中的中继设备中的同步/协同动作难。特别是在使用了附加于特定的用户所发声的语音本身的数据的协同动作中，会存在有必要进行路径设定或同步处理等复杂的控制的问题。

另外，在现有的电子水印技术中，密钥的使用是必须的。为此在收发双方就有必要共有特定的密钥。再加上，数据嵌入对象被限定于噪声码本的第4脉冲层次的脉冲位置。由此，用户能够知道键的存在的可能性就高，由于在能够知道的情况下，就可以确定嵌入位置，就存在可能发生数据的泄漏、篡改的问题。

另外，在现有的电子水印技术中，由于数据的嵌入的实施、不实施是由脉冲位置候补的合计值来进行的“随机的”控制，就存在利用数据嵌入的音质劣化的影响变大的可能性高的问题。作为通信标准不去意识数据嵌入，即，希望即使在终端进行解码(语音再生)的情况下也不会产生音质劣化的数据嵌入技术，但在现有技术中就存在由于会发生音质劣化而不能应答相关的要求的问题。

发明内容

本发明的目的是，即使在编码器、解码器双方不互相持有密钥，也能够在编码器方将数据嵌入到语音代码，而且在解码器能够正确地抽取该嵌入数据。

本发明的另外的目的是，即使将数据嵌入到语音代码，也不会有音质劣化，并使再生语音的听取者意识不到数据嵌入。

本发明的另外的目的是，使嵌入数据的泄漏、篡改困难。

本发明的另外的目的是，使得能够嵌入数据和控制码二者，由此使解码器方执行按照控制码的处理。

本发明的另外的目的是，能够增大嵌入数据的传送容量。

本发明的另外的目的是，使得能够仅使用语音信道进行语音、图像、个人信息等的多媒体传送。

本发明的另外的目的是，能够将广告信息等的任意信息提供给互相进行语音数据通信的最终用户。

本发明的另外的目的是，能够将发送者、接收者、接收时刻、谈话分类等嵌入在已接收的语音数据中并进行存储。

本发明的第1实施形式是，在语音代码中嵌入任意数据时，使用构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件；在满足的情况下，通过以任意的数据来替换第2元素代码将数据嵌入到语音代码。具体就是，第1元素代码是噪声码本增益代码，第2元素代码是作为噪声码本的索引信息的噪声代码；当该噪声码本增益代码的逆量化值比上述临界值小时，判断为满足上述数据嵌入条件，并通过以任意的数据来替换上述噪声代码将数据嵌入到语音代码。作为另外的具体例子就是，第1元素代码是音调增益代码，第2元素代码是作为自适应码本的索引信息的音调迟延代码；当该音调增益代码的逆量化值比上述临界值小时，判断为满足上述数据嵌入条件，并通过以任意的数据来替换上述音调迟延代码将数据嵌入到语音代码。

当着眼于音源信号的2个种类的代码字后，即，对应音调音源的自适应代码字和对应噪声音源的固定代码字(噪声代码)后，就能够认为增益是表示各个代码字P、C的贡献度的因数。也就是，在增益小的情况下相对应的代码字的贡献度就小。因此，作为判定参数来定义增益，在成为某临界值以下的情况下，判断为相对应的音源代码字的贡献度小，用任意的数据序列来替换该音源代码字的索引。由此，就能够一边微小地抑制替换的影响，一边嵌入任意的数据。另外，通过控制临界值，就能够一边考虑对再生音质的影响一边调整嵌入数据量。

本发明的第2实施形式是，对嵌入在以预定的语音编码方式所编码的语音代码中的数据进行抽取时，使用上述构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件；在满足的情况下，判断为在语音代码的第2元素代码部分中嵌入有任意的数据并对该嵌入数据进行抽取。具体就是，第1元素代码是噪声码本增益代码，第2元素代码是作为噪声码本的索引信息的噪声代码；当该噪声码本增益代码的逆量化值比上述临界值小时，判断为满足上述数据嵌入条件，并从上述噪声代码抽取嵌入数据。作为另外的具体例子就是，第1元素代码是音调增益代码，第2元素代码是作为自适应码本的索引信息的音调迟延代码；当该音调增益代码的逆量化值比上述临界值小时，判断为满足上述数据嵌入条件，并从上述音调迟延代码抽取嵌入数据。

如上述那样进行处理，即使在编码器、解码器双方不互相持有密钥也能够在编码器方将数据嵌入到语音代码，而且在解码器能够正确地抽取该嵌入数据。另外，即使将数据嵌入到语音代码，也不会有音质劣化，并能够使再生语音的听取者意识不到数据嵌入。另外，通过变更临界值，就能够使嵌入数据的泄漏、篡改困难。

本发明的第3实施形式是，在置备语音编码装置和语音解码装置的系统中，语音编码装置以预定的语音编码方式对语音进行编码并在所得到的语音代码中嵌入任意的数据，语音解码装置从该语音代码抽取嵌入数据并从该语音代码再生语音。在相关的系统中，分别定义好为了判定在语音编码装置以及语音解码装置中是否嵌入有数据而使用的上述第1元素代码和临界值、以及基于该判定结果来嵌入数据的上述第2元素代码。在相关的状态中，在语音编码装置嵌入数据时，用上述构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件，如果满足，就通过以任意的数据来替换第2元素代码将数据嵌入到语音代码。另一方面，在语音再生装置进行数据抽取时，使用上述构成语音代码的元素代码中的第1元素代码和临界值来判断是否满足数据嵌入条件，在满足的情况下，判断为在语音代码的第2元素代码部分中嵌入有任意的数据并对该嵌入数据进行抽取，然后对语音代码施行解码处理。

如上述那样进行处理，如果预先在收发双方仅定义好临界值的初始值，就能够不使用密钥来进行数据的嵌入、抽取。另外，如果对嵌入数据定义好控制码，就能够使用该控制码进行临界值的变更，通过该临界值的变更就能够调整嵌入数据的传送量。另外，由于依照增益值来决定是仅嵌入数据序列或者以能够识别数据和控制码的类别的形式嵌入数据/控制码序列，在仅嵌入数据序列的情况下就没有必要包含数据类别信息，故能够改善传送容量。

本发明的第4实施形式是，一种以预定的语音编码方式对语音进行编码并进行发送的数字语音通信系统，包括：分析对输入语音进行了编码的语音数据的装置，依照该分析结果将任意的代码嵌入到语音数据的一部分的特定部分的装置，以及将上述所嵌入的数据作为语音数据进行发送的装置；同时发送通常的语音通话和附加信息。另外，数字语音通信系统，进而包括：分析已接收到的语音数据的装置，以及依照该分析结果从语音数据的一部分的特定部分抽取代码的装置；同时接收通常的语音通话和附加信息并进行输出。

通过作为附加信息选用图像信息(所在地周围的图象、地图图像等)、个人信息(容貌照片、声波纹、指纹)等，多媒体通信就成为可能。另外，通过作为附加信息选用终端的序列编号、声波纹，就能够提高是否是正当用户的认证性能，并且提高语音数据的保密性能就成为可能。

另外，通过设置中转语音数据的服务器装置，就能够将广告信息等的任意信息提供给互相进行语音数据通信的最终用户。

另外，通过将发送者、接收者、接收时刻、谈话分类等嵌入在已接收的语音数据中并存储到存储装置，语音数据的文件化就成为可能，就能够容易地在今后利用。

本发明的其他的特征和优点，通过以下的附图以及基于附图的详细说明将会更加明了。

附图说明

图1是在本发明的编码器一方中的一般的构成图。

图2是嵌入判定单元的构成图。

图3是使用按照G.729的编码方式进行编码的编码器的情形的第1实施例的构成图。

图4是嵌入判定单元的构成图。

图5是语音代码的标准格式。

图6是利用嵌入控制的传送代码的说明图。

图7是区别数据和控制码进行嵌入情形的说明图。

图8是使用按照G.729的编码方式进行编码的编码器的情形的第

2实施例的构成图。

图9是嵌入判定单元的构成图。

图10是语音代码的标准格式。

图11是利用嵌入控制的传送代码的说明图。

图12是在本发明的解码器一方中的一般的构成图。

图13是嵌入判定单元的构成图。

图14是在噪声代码中嵌入数据的情形的第1实施例的构成图。

图15是在噪声代码中嵌入数据的情形的嵌入判定单元的构成图。

图16是接收语音代码的标志格式。

图17是利用数据嵌入判定单元的判定结果说明图。

图18是在音调迟延代码中嵌入数据的情形的第2实施例的构成图。

图19是在音调迟延代码中嵌入数据的情形的嵌入判定单元的构成图。

图20是接收语音代码的标志格式。

图21是利用数据嵌入判定单元的判定结果说明图。

图22是多级地设定了临界值的编码器一方的实施例的构成图。

图23是可进行数据嵌入的范围说明图。

图24是多级地设定了临界值情形的嵌入判定单元的构成图。

图25是数据嵌入的说明图。

图26是多级地设定了临界值的解码器一方的实施例的构成图。

图27是嵌入判定单元的构成图。

图28是通过嵌入图像来实现同时传送语音和图像的多媒体传送的数字语音通信系统的构成图。

图29是图像传送服务中的发送方终端的发送处理流程。

图30是图像传送服务中的接收方终端的接收处理流程。

图31是通过嵌入认证信息同时传送语音和认证信息的数字语音通信系统的构成图。

图32是认证传送服务中的发送方终端的发送处理流程。

图33是认证传送服务中的接收方终端的接收处理流程。

图34是通过嵌入键信息同时传送语音和键信息的数字语音通信系统的构成图。

图35是通过嵌入IP电话地址信息同时传送语音和IP电话地址信息的数字语音通信系统的构成图。

图36是实现广告信息嵌入服务的数字语音通信系统的构成图。

图37是在因特网电话服务中的IP分组的构成例子。

图38是在服务中广告信息插入处理流程。

图39是在广告信息嵌入服务中接收方终端的广告信息接收处理流程图。

图40是在数字语音通信系统中协同动作的信息存储系统的构成图。

图41是ITU-T建议G.729方式的编码器的构成图。

图42是分配给各脉冲层次组的采样点的说明图。

图43是G.729方式的解码器的框图。

图44是现有的电子水印技术说明图。

图45是现有的电子水印技术的另一说明图。

具体实施方式

[发明的实施形式]

(A)本发明的原理

在CELP算法的解码器中，通过指定音源序列的索引和增益信息来生成音源信号，用由线性预测系数所构成的合成滤波器来生成(再生)语音，再生语音由下面公式来表现。

S_rp＝H·R＝H(G_p·P+G_c·C)＝H·G_p·P+H·G_c·C

这里，S_rp是再生语音，H是LPC合成滤波器，G_p是自适应代码字增益(音调增益)，P是自适应代码字(音调迟延代码)，G_c是噪声代码字增益(噪声码本增益)，C是噪声代码字。另外，右边第1项是音调周期合成信号，第2项是噪声合成信号。

如上所述，通过CELP所编码的数字代码(传送参数)与语音生成系的特征参数相对应。当着眼于此特征后，就能够把握各个传送参数的状态。例如，当着眼于音源信号的2个种类的代码字后，即，对应音调音源的自适应代码字和对应噪声音源的噪声代码字，就能够认为增益G_p、G_c是表示各个代码字P、C的贡献度的因数。也就是，在增益G_p、G_c小的情况下相对应的代码字P、C的贡献度就小。因此，作为判定参数来定义增益G_p、G_c，在成为某临界值以下的情况下，判断为相对应的音源代码字P、C的贡献度小，用任意的数据序列来替换音源代码字的索引。由此，就能够一边微小地抑制替换的影响，一边嵌入任意的数据。另外，通过控制临界值，就能够一边考虑对再生音质的影响一边调整嵌入数据量。

本技术，如果预先在收发双方仅定义好临界值的初始值，仅通过判定参数(音调增益、噪声码本增益)以及嵌入对象参数(音调迟延、噪声代码)，嵌入数据的有无和嵌入位置，以及嵌入数据的写入/读出就成为可能。即，特定的密钥的传送就不需要。另外，如果对嵌入数据定义好控制码，仅通过用控制码指示临界值的变更就能够调整嵌入数据的传送量。

这样，通过本技术的适用，就能够编码格式不作变更地进行任意数据的嵌入。也就是，能够不损害通信/存储的用途中必须的互换性地，且不对用户进行通知地将ID或其他媒体的信息嵌入到语音信息来进行传送/存储。再加上，在本发明中由于通过对CELP共通的参数来规定控制方法，就能够不限定于特定的方式地适用于广泛的方式。例如，也能够对应针对VoIP的G.729或针对移动通信的AMR等。

(B)编码器一方的实施例

(a)一般的构成

图1是在本发明的编码器一方中的一般的构成图。语音/声音CODEC(编码器)51，按照预定的编码方式对输入语音进行编码，并输出所得到的语音代码(代码数据)。语音代码由多个元素代码构成。嵌入数据发生单元52，产生用于嵌入到语音代码的预定的数据。数据嵌入控制单元53，置备有嵌入判定单元54和选择器结构的数据嵌入单元55，适宜地将数据嵌入到语音代码。嵌入判定单元54使用构成语音代码的元素代码中的第1元素代码和临界值TH来判定是否满足数据嵌入条件，数据嵌入单元55，在满足数据嵌入条件的情况下，通过用任意的嵌入数据替换第2元素代码将数据嵌入到语音代码，在不满足数据嵌入条件的情况下，原封不动地输出第2元素代码。多路单元56，多路传送构成语音代码的各元素代码。

图2是嵌入判定单元的构成图，逆量化单元54a对第1元素代码进行逆量化并输出逆量化值G，临界值发生单元54b输出临界值TH。比较单元54c对逆量化值G和临界值TH进行比较，并将比较结果输入到数据嵌入判定单元54d。数据嵌入判定单元54d，例如如果G≥TH就判定为不能进行数据嵌入，并产生用于选择从编码器51输出的第2元素代码的选择信号SL，如果G＜TH就判定为能够进行数据嵌入，并产生用于选择从嵌入数据发生单元52输出的嵌入数据的选择信号SL。此结果是数据嵌入单元55基于选择信号SL有选择地输出第2元素代码和嵌入数据中的一个。

此外，在图2中对第1元素代码进行逆量化并与临界值进行比较，但也有通过用代码来设定临界值能够以代码等级进行比较的情形，在相关的情况下就未必需要进行逆量化。

(b)第1实施例

图3是使用按照G.729的编码方式进行编码的编码器的情形的第1实施例的构成图，对与图1相同的部分附加相同的标记。与图1的不同点是，作为第1元素代码使用增益代码(噪声码本增益)，作为第2元素代码使用作为噪声码本的索引的噪声代码这一点。

编码器51按照G.729对输入语音进行编码，并将所得到的语音代码输入到数据嵌入单元53。G.729的语音代码如表2所示，作为元素代码具有LSP代码、自适应码本索引(音调迟延代码)、噪声码本索引(噪声代码)、增益代码。增益代码是对音调增益和噪声代码增益进行组合并编码的代码。

[表2]

表1ITU-T G.729的各部分

位速率	8kbit/s
		帧长	10ms
子帧长	5ms

数据嵌入单元53的嵌入判定单元54，使用增益代码的逆量化值和临界值TH来判断是否满足数据嵌入条件，数据嵌入单元55，在满足数据嵌入条件的情况下，通过用预定的数据替换噪声代码将数据嵌入到语音代码，在不满足数据嵌入条件的情况下，原封不动地输出噪声代码。多路单元56，多路传送构成语音代码的各元素代码。

嵌入判定单元54置备图4所示的结构，逆量化单元54a对增益代码进行逆量化，比较单元54c对逆量化值(噪声码本增益)G_c和临界值TH进行比较，数据嵌入判定单元54d，在逆量化值G_c比临界值TH小时，就判定为满足数据嵌入条件，并产生用于选择从嵌入数据发生单元52输出的嵌入数据的选择信号SL。此外，数据嵌入判定单元54d，在逆量化值G_c比临界值TH大时，就判定为不满足数据嵌入条件，并产生用于选择从编码器51输出的噪声代码的选择信号SL。数据嵌入单元55基于选择信号SL有选择地输出噪声代码和嵌入数据中的一个。

图5是语音代码的标准格式，图6是利用嵌入控制的传送代码的说明图，示出语音代码由5个代码(LSP代码、自适应码本索引、自适应码本增益、噪声码本索引、噪声码本增益)构成的情形。在噪声码本增益G_c比临界值TH大的情况下，如图6(1)所示那样在语音代码中不嵌入数据。但是，在噪声码本增益G_c比临界值TH小的情况下，如图6(2)所示那样在语音代码的噪声码本索引部分中嵌入数据。

图6的例子是，将任意的数据嵌入到用于噪声代码薄索引(噪声代码)M(＝17)位全部的情形的例子，但如图7所示那样通过将最高有效位(MSB)设为数据类别位，就能够将数据和控制码区别嵌入到剩下的(M-1)位。这样，通过在嵌入数据的一部分中定义识别数据/控制码的位，使用控制码进行临界值的变更、同步控制等就成为可能。

在表3中示出，在G.729语音编码方式中，在某增益值以下的情况下用任意的数据替换作为噪声码本索引的噪声代码(17位)的情形的模拟结果。设任意的数据为随机产生的数据，用SNR对将此随机数据看作是噪声代码再生了的情况下的音质的变化进行了评价的结果，并用数据来测定替换帧的比率。此外，表中的临界值是增益索引编号，数字越大作为临界值得增益就越大。另外，SNR是不用数据替换语音代码中的噪声代码情况下的音源信号，和作为不替换的情形与替换了的情形的音源信号的差的误差信号的比(dB)。SNR_seg是每一帧的SNR，SNR_tot是语音区间全体的平均SNR。比率(％)是，作为语音信号输入标准信号时，增益成为相对应的临界值以下数据被嵌入的比率。

[表3]

临界值(增益索引)、对音质的影响和变更帧的比率

临界值	SNR_seg[dB]	SNR_tot[dB]	比率[％]	临界值	SNR_seg[dB]	SNR_tot[dB]	比率[％]
								0	11.60	13.27	0	18	11.44	13.21	45.09
2	11.59	13.27	11.22	20	11.40	13.20	45.59
								4	11.58	13.24	31.90	30	11.32	13.21	47.63
6	11.56	13.24	37.68	40	11.16	13.22	49.34
								8	11.53	13.25	40.37	50	11.03	13.18	50.66
10	11.52	13.26	41.88	60	10.86	13.13	52.04
								12	11.50	13.24	42.96	80	10.56	13.10	54.24
14	11.47	13.22	43.87	100	10.16	12.96	56.35
								16	11.44	13.20	44.51

如表3那样，例如通过将噪声码本增益的临界值设定为12，就能够以任意的数据替换噪声码本索引(噪声代码)的总传送容量的43％，且，即使用解码器原封不动地进行解码，也能够抑制为与不嵌入数据的情形(临界值为0的情形)相比仅0.1dB(＝11.60-11.50)的音质的差。这就意味着在G.729中没有音质劣化，实际上意味着能够进行1462bits/s(＝0.43×17×(1000/5))的任意数据的传送。另外，通过使此临界值增多减小，也能够一边考虑对音质的影响一边调整嵌入数据的传送容量(比率)。例如，如果允许0.2dB的音质变换，就能够通过将临界值设定为20增加传送容量直到46％(1546bits/s)。

(c)第2实施例

图8是使用按照G.729的编码方式进行编码的编码器的情形的第2实施例的构成图，对与图1相同的部分附加相同的标记。与图1的不同点是，作为第1元素代码使用增益代码(音调增益代码)，作为第2元素代码使用作为自适应码本索引的音调迟延代码这一点。

编码器51按照G.729对输入语音进行编码，并将所得到的语音代码输入到数据嵌入单元53。数据嵌入单元53的嵌入判定单元54，使用增益代码的逆量化值(音调增益)和临界值TH来判断是否满足数据嵌入条件，数据嵌入单元55，在满足数据嵌入条件的情况下，通过用预定的数据替换音调迟延代码将数据嵌入到语音代码，在不满足数据嵌入条件的情况下，原封不动地输出音调迟延代码。多路单元56，多路传送构成语音代码的各元素代码。

嵌入判定单元54置备图9所示的结构，逆量化单元54a对增益代码进行逆量化，比较单元54c对逆量化值(音调增益)G_p和临界值TH进行比较，数据嵌入判定单元54d，在逆量化值G_p比临界值TH小时，就判定为满足数据嵌入条件，并产生用于选择从嵌入数据发生单元52输出的嵌入数据的选择信号SL。此外，数据嵌入判定单元54d，在逆量化值G_p比临界值TH大时，就判定为不满足数据嵌入条件，并产生用于选择从编码器51输出的音调迟延代码的选择信号SL。数据嵌入单元55基于选择信号SL有选择地输出音调迟延代码和嵌入数据中的一个。

图10是语音代码的标准格式，图11是利用嵌入控制的传送代码的说明图，示出语音代码由5个代码(LSP代码、自适应码本索引、自适应码本增益、噪声码本索引、噪声码本增益)构成的情形。在音调增益G_p比临界值TH大的情况下，如图11(1)所示那样在语音代码中不嵌入数据。但是，在音调增益G_p比临界值TH小的情况下，如图11(2)所示那样在语音代码的自适应码本索引部分中嵌入数据。

在表4中示出，在G.729语音编码方式中，在某增益值以下的情况下用任意的数据替换作为自适应码本索引的音调迟延代码(13位/10msec)的情形的模拟结果。设任意的数据为随机产生的数据，在表4中示出用SNR对将此随机数据作为音调迟延代码再生了的情况下的音质的变化进行了评价的结果和替换帧的比率。

[表4]

以自适应码本为对象的增益临界值、对音质的影响和变更帧的比率

临界值	SNR_seg[dB]	SNR_tot[dB]	比率[％]	临界值	SNR_seg[dB]	SNR_tot[dB]	比率[％]
								0.0	11.60	13.27	0	0.7	10.92	12.69	59.55
0.1	11.58	13.22	4.79	0.8	10.46	12.01	65.70
								0.2	11.54	13.23	12.66	0.9	9.51	10.30	73.26
0.3	11.51	13.22	23.31	1.0	8.35	8.70	81.21
								0.4	11.42	13.15	34.86	1.1	7.75	7.92	87.16
0.5	11.36	13.15	45.00	1.2	7.43	7.56	90.50
								0.6	11.22	13.04	52.35

如表4那样，示出例如当将临界值设定为增益0.5，就能够以任意的数据替换作为自适应码本索引的音调迟延的总传送容量的45％，且，即使用解码器原封不动地进行解码，也能够抑制为仅0.24dB(＝11.60-11.36)的音质的差的情况。

(C)解码器一方的实施例

(a)一般的构成

图12是在本发明的解码器一方中的一般的构成图。分离单元61如果接收到语音代码，就将该语音代码分离为元素代码并输入到数据抽取单元62。数据抽取单元62在从所分离的元素代码中的第1元素代码抽取数据并输入到数据处理单元63的同时，将所输入的各元素代码原封不动地输入到语音/声音CODEC(解码器)64。解码器64解码所输入的语音代码并再生输出语音。

数据抽取单元62，置备有嵌入判定单元65和分配单元66，适宜地从语音代码抽取数据。嵌入判定单元65，使用构成语音代码的元素代码中的第1元素代码和临界值TH判断是否满足数据嵌入条件，如果满足数据嵌入条件，分配单元66将元素代码中的第2元素代码看作是嵌入代码进行抽取，并将该嵌入数据发送到数据处理单元63。另外，分配单元66与是否满足数据嵌入条件没有关系地将所输入的第2元素代码原封不动地输入到编码器64。

图13是嵌入判定单元的构成图，逆量化单元65a对第1元素代码进行逆量化并输出逆量化值G，临界值发生单元65b输出临界值TH。比较单元65c比较逆量化值G和临界值TH，并将比较结果输入到数据嵌入判定单元65d。数据嵌入判定单元65d，如果G≥TH就判定为没有嵌入数据，如果G＜TH就判定为嵌入数据，并产生分配信号BL。分配单元66基于分配信号BL，如果嵌入数据就在从第2元素代码抽取该数据并输入到数据处理单元63的同时，将该第2元素代码原封不动地输入到解码器64。另外，如果没有嵌入数据，分配单元66就原封不动地将第2元素代码输入到解码器64。此外，在图13中对第1元素代码进行逆量化并与临界值进行比较，但也有通过用代码来设定临界值能够以代码等级进行比较的情形，在相关的情况下就未必需要进行逆量化。

(b)第1实施例

图14是在G.729的噪声代码中嵌入数据的情形的第1实施例的构成图，对与图12相同的部分附加相同的标记。与图12的不同点是，作为第1元素代码使用增益代码(噪声码本增益)，作为第2元素代码使用作为噪声码本的索引的噪声代码这一点。

分离单元61如果接收到语音代码，就将该语音代码分离为元素代码并输入到数据抽取单元62。如果是按照G.729进行编码，分离单元61就将语音代码分离为LSP代码、音调迟延代码、噪声代码和增益代码并输入到数据抽取单元62。此外，增益代码是组合音调增益和噪声码本增益，并使用量化表进行了量化(编码)的代码。

数据抽取单元62的嵌入判定单元65，使用增益代码的逆量化值和临界值TH来判断是否满足数据嵌入条件，如果满足数据嵌入条件，分配单元66就将噪声代码看作是嵌入代码进行抽取，并在将该嵌入数据输入到数据处理单元63的同时，将该噪声代码照所输入的原样输入到解码器64。另外，如果不满足数据嵌入条件，分配单元66就将该噪声代码照所输入的原样输入到解码器64。

嵌入判定单元65置备图15所示的构成，逆量化单元65a对增益代码进行逆量化，比较单元65c比较逆量化值(噪声码本增益)G_c和临界值TH，数据嵌入判定单元65d在逆量化值G_c比临界值TH小时，就判断为嵌入有数据，在逆量化值G_c比临界值TH大时，就判断为没有嵌入数据，并分别产生分配信号BL。分配单元66基于分配信号BL，将嵌入在噪声代码中的数据输入到数据处理单元63。另外，将噪声代码输入到解码器64。

图16是接收语音代码的标准格式，图17是利用数据嵌入判定单元的判定结果说明图，示出语音代码由5个代码(LSP代码、自适应码本索引、自适应码本增益、噪声码本索引、噪声码本增益)构成的情形。在接收时，不清楚在语音代码的噪声码本索引部分(噪声代码部分)中是否嵌入有数据(图16)。但是，通过判断噪声码本增益G_c和临界值TH的大小来判断是否嵌入有数据。即，如果噪声码本增益G_c比临界值TH大，如图17(1)所示那样在噪声码本索引部分中没有嵌入数据。但是，如果噪声码本增益G_c比临界值TH小，如图17(2)所示那样在噪声码本索引部分中嵌入有数据。

如图7所示那样通过将最高有效位(MSB)设为数据类别位，如果将数据和控制码区别嵌入到剩下的(M-1)位，数据处理单元63参照该最高有效位，如果是控制码，就执行符合该命令的处理，例如执行临界值的变更、同步控制处理等。

(b)第2实施例

图18是在G.729的音调迟延代码中嵌入数据的情形的第2实施例的构成图，对与图12相同的部分附加相同的标记。与图12的不同点是，作为第1元素代码使用增益代码(音调增益代码)，作为第2元素代码使用作为自适应码本的索引的音调迟延代码这一点。

数据抽取单元62的嵌入判定单元65，使用增益代码的逆量化值和临界值TH来判断是否满足数据嵌入条件，如果满足数据嵌入条件，分配单元66就将音调迟延代码看作是嵌入代码进行抽取，并在将该嵌入数据输入到数据处理单元63的同时，将该音调迟延代码照所输入的原样输入到解码器64。另外，如果不满足数据嵌入条件，分配单元66就将该音调迟延代码照所输入的原样输入到解码器64。

嵌入判定单元65置备图19所示的构成，逆量化单元65a对增益代码进行逆量化，比较单元65c比较逆量化值(音调增益)G_p和临界值TH，数据嵌入判定单元65d在逆量化值G_p比临界值TH小时，就判断为嵌入有数据，在逆量化值G_p比临界值TH大时，就判断为没有嵌入数据，并分别产生分配信号BL。分配单元66基于分配信号BL，将嵌入在音调迟延代码中的数据输入到数据处理单元63。另外，将音调迟延代码输入到解码器64。

图20是接收语音代码的标准格式，图21是利用数据嵌入判定单元的判定结果说明图，示出语音代码由5个代码(LSP代码、自适应码本索引、自适应码本增益、噪声码本索引、噪声码本增益)构成的情形。在接收时，不清楚在语音代码的自适应码本索引部分(音调迟延代码部分)中是否嵌入有数据(图20)。但是，通过判断自适应码本增益G_p和临界值TH的大小来判断是否嵌入有数据。即，如果自适应码本增益G_p比临界值TH大，如图21(1)所示那样在自适应码本索引部分中没有嵌入数据。但是，如果自适应码本增益G_p比临界值TH小，如图21(2)所示那样在噪声码本索引部分中嵌入有任意的数据。

(D)多级地设定了临界值的实施例

(a)编码器一方的实施例

图22是多级地设定了临界值的编码器一方的实施例的构成图，对与图1相同的部分附加相同的标记。不同点是，①设定有2个临界值这一点，②依照第1元素代码的逆量化值的大小，决定是仅嵌入数据序列，或者是嵌入具有数据类别位的数据/控制码序列这一点，③基于该决定嵌入数据这一点。

语音/声音CODEC(编码器)51按照预定的编码方式，例如G.729编码输入语音，并输出所得到的语音代码(代码数据)。语音代码由多个元素代码构成。嵌入数据发生单元52，产生嵌入到语音代码的2个种类的数据序列。第1的数据序列是，例如仅由媒体数据形成的数据序列，第2数据序列是具有图7所示的数据类别位的数据/控制码序列，通过数据类别位的“1”、“0”就能够混合存在媒体代码和控制码。

数据嵌入控制单元53，置备有嵌入判定单元54和选择器结构的数据嵌入单元55，适宜地将媒体数据或者控制码嵌入到语音代码。嵌入判定单元54使用构成语音代码的元素代码中的第1元素代码和临界值TH1、TH2(TH2＞TH1)来判定是否满足数据嵌入条件，同时在满足的情况下，判定是满足仅由媒体数据形成的数据序列的嵌入条件，还是满足具有图7所示的数据类别位的数据/控制码序列的嵌入条件。例如，如图23所示那样第1元素代码的逆量化值G，①如果TH2＜G就判定为不满足数据嵌入条件，②如果TH1≤G＜TH2就判定为满足具有数据类别位的数据/控制码序列的嵌入条件，③如果G＜TH1就判定为满足仅由媒体数据形成的数据序列的嵌入条件。

数据嵌入单元55，①如果TH1≤G＜TH2，就通过以从嵌入数据发生单元52产生的具有数据类别位的数据/控制码序列替换第2元素代码将数据嵌入到语音代码，②如果G＜TH1，就通过以从嵌入数据发生单元52产生的媒体数据序列替换第2元素代码将数据嵌入到语音代码③如果TH2＜G，就原封不动地输出第2元素代码。多路单元56，多路传送构成语音代码的各元素代码。

图24是嵌入判定单元54的构成图，逆量化单元54a对第1元素代码进行逆量化并输出逆量化值G，临界值发生单元54b输出第1、第2临界值TH1、TH2。比较单元54c对逆量化值G和临界值TH1、TH2进行比较，并将比较结果输入到数据嵌入判定单元54d。数据嵌入判定单元54d，依照是①TH2＜G，还是②TH1≤G＜TH2，还是③G＜TH1输出预定的选择信号SL。此结果是数据嵌入单元55基于选择信号SL选择并输出第2元素代码、具有数据类别位的数据/控制码序列和媒体数据序列中的任何一个。

在作为编码器采用G.729编码方式的编码器的情况下，符合上述第1元素代码的值是噪声码本增益或者音调增益，第2元素代码是噪声代码或者音调迟延代码。

图25是取噪声码本增益G_p为符合第1元素代码的逆量化值的值，取噪声代码为第2元素代码据的情形的数据嵌入说明图，如果G_p＜TH1，就将媒体数据等的任意数据全部嵌入到17位的噪声代码部分。另外，如果TH1≤G_p＜TH2，就设最高有效位为“1”在剩下的16位中嵌入控制码，设最高有效位为“0”在剩下的16位中嵌入任意的数据。

(b)解码器一方的实施例

图26是多级地设定了临界值的解码器一方的实施例的构成图，对与图12相同的部分附加相同的标记。不同点是，①设定有2个临界值这一点，②依照第1元素代码的逆量化值的大小，决定是仅嵌入数据序列，或者是嵌入具有数据类别位的数据/控制码序列这一点，③基于该判定来分配数据这一点。

分离单元61如果接收到语音代码，就将该语音代码分离为元素代码并输入到数据抽取单元62。数据抽取单元62在从所分离的元素代码中的第1元素代码抽取数据序列或者数据/控制码序列并输入到数据处理单元63的同时，将所输入的各元素代码原封不动地输入到语音/声音CODEC(解码器)64。解码器64解码所输入的语音代码并再生输出语音。

数据抽取单元62，置备有嵌入判定单元65和分配单元66，适宜地从语音代码抽取数据序列或者数据/控制码序列。嵌入判定单元65，使用符合构成语音代码的元素代码中的第1元素代码的值和图23所示的临界值TH1、TH2(TH2＞TH1)判断是否满足数据嵌入条件，同时在满足的情况下，判定是满足仅由媒体数据形成的数据序列的嵌入条件，还是满足具有数据类别位的数据/控制码序列的嵌入条件。例如，第1元素代码的逆量化值G，①如果TH2＜G就判定为不满足数据嵌入条件，②如果TH1≤G＜TH2就判定为满足具有数据类别位的数据/控制码序列的嵌入条件，③如果G＜TH1就判定为满足仅由媒体数据形成的数据序列的嵌入条件。

分配单元66，①如果TH1≤G＜TH2，就将第2元素代码看作是具有数据类别位的数据/控制码序列输入到数据处理单元63，同时将该第2元素代码输入到解码器64，②如果G＜TH1，就将第2元素代码看作是仅由媒体数据形成的数据序列输入到数据处理单元63，同时将该第2元素代码输入到解码器64，进而③如果TH2＜G，就看作是数据没有嵌入在第2元素代码中将该第2元素代码输入到解码器64。

图27是嵌入判定单元65的构成图，逆量化单元65a对第1元素代码进行逆量化并输出逆量化值G，临界值发生单元65b输出第1、第2临界值TH1、TH2。比较单元65c对逆量化值G和临界值TH1、TH2进行比较，并将比较结果输入到数据嵌入判定单元65d。数据嵌入判定单元65d，依照是①TH2＜G，还是②TH1≤G＜TH2，还是③G＜TH1输出预定的分配信号BL。此结果是分配单元66基于分配信号BL进行上述的分配。

在接受由G.729编码方式所编码的声音代码的情况下，符合上述第1元素代码的值是噪声码本增益或者音调增益，第2元素代码是噪声代码或者音调迟延代码。

上面就在从具有编码器的发送装置将语音代码发送给具有解码器的接收装置的语音通信系统中适用了本发明的情形进行了说明。但是，本发明并不限于有关的语音通信系统，在其他的系统中，例如，在用具有编码器的记录装置编码语音并记录在存储介质中，用具有解码器的再生装置从该存储介质再生语音的记录/再生系统等中也可以适用。

(E)数字语音通信系统

(a)实现图像传送服务的系统

图28是通过嵌入图像来实现同时传送语音和图像的多媒体传送的数字语音通信系统的构成图，示出通过公用网络300连接着终端A100和终端B 200的状况。各终端A、B具有相同的构成。在终端A 100中，语音编码单元101，例如按照G.729方式对从麦克风MIC输入的语音代码进行语音编码并输入到嵌入单元103，图像数据生成单元102，生成应该发送的图像数据并输入到嵌入单元103。图像数据生成单元102，压缩编码例如用没有图示的数码相机所拍摄的周围的照片或用户自身的容貌照片的数据并保存在存储器中，对这些图像数据或者说话者周围的地图图像数据进行编码并输入到嵌入单元103。嵌入单元103是与图3或者图8的实施例中所示的数据嵌入控制单元53相对应的部分，按照与该实施例相同的嵌入判定基准将图像数据嵌入到从语音编码单元101输入的语音代码数据并进行输出。传送处理单元104通过公用网络300将嵌入了图像数据的语音代码数据发送到对方终端。

对方终端B 200的传送处理单元204，从公用网络300接收语音代码数据并输入到抽取单元205。抽取单元205，是与图14或者图18的实施例中所示的数据抽取单元62相对应的部分，按照与该实施例相同的嵌入判定基准抽取图像数据并输入到图像输出单元206，另外，将语音代码数据输入到语音解码单元207。图像输出单元206，解码所输入的图像数据生成图像并显示到显示单元。语音解码单元207，解码所输入的语音代码数据由扬声器SP输出。

此外，将图像数据嵌入在语音代码数据中从终端B发送到终端A，在终端A也同样地进行输出图像的控制。

图29是图像传送服务中的发送方终端的发送处理流程。按照所希望的编码方式，例如G.729对输入语音进行语音编码并进行压缩(步骤1001)，分析所编码的语音帧内的信息(步骤1002)，基于分析的结果检查是否可以嵌入(步骤1003)，如果可以嵌入就将图像数据嵌入到语音代码数据(步骤1004)，传送嵌入了图像数据的语音代码数据(步骤1005)，反复上述动作直到发送完成(步骤1006)。

图30是图像传送服务中的接收方终端的接收处理流程。如果接收到语音代码数据(步骤1101)，分析所编码的语音帧内的信息(步骤1102)，基于分析的结果检查是否嵌入有图像数据(步骤1103)，如果没有嵌入就对语音代码数据进行解码并由扬声器输出再生语音(步骤1104)，另一方面，如果嵌入有图像数据，就与步骤1104的语音再生并行抽取图像数据(步骤1105)，解码该图像数据对图像进行再生并显示到显示单元(步骤1106)。此后，反复上述动作直到再生完成(步骤1107)。

上面，利用图28的数字语音通信系统，就能够照通常的语音传送协议那样同时传送语音和附加信息。另外，由于附加信息嵌入在语音数据里面，没有听觉上的重叠，也不会有搅扰的存在或者异常噪音的情形。而且，通过作为附加信息选用图像信息(所在地周围的图象、地图图像等)、个人信息(容貌照片、指纹)等，多媒体通信就成为可能。

(b)实现认证信息传送服务的系统

图31是通过嵌入认证信息同时传送语音和认证信息的数字语音通信系统的构成图，对与图28相同的部分附加相同的标记。不同点是，取代图像数据生成单元102、202设置认证数据生成单元111、211这一点，取代图像输出单元106、206设置认证确认单元112、212这一点。在图31中示出作为认证信息，嵌入声波纹的情形。认证数据生成单元111使用数据嵌入前的语音编码数据或者原语音数据生成并保存声波纹信息。然后将此声波纹信息嵌入到语音编码数据并进行发送。在接收方中认证确认单元112、212抽取声波纹信息，通过比较是否是预先登录的本人的声波纹来进行认证，如果是本人就允许语音解码。此外，作为认证信息并不限于声波纹，也可以是终端的唯一码(序列编号)，或者用户自己相信的唯一码，或者是组合这两个码的唯一码等。

图32是认证传送服务中的发送方终端的发送处理流程。按照所希望的编码方式，例如G.729对输入语音进行语音编码并进行压缩(步骤2001)，分析所编码的语音帧内的信息(步骤2002)，基于分析的结果检查是否可以嵌入(步骤2003)，如果可以嵌入就将个人认证数据嵌入到语音代码数据(步骤2004)，传送嵌入了认证数据的语音代码数据(步骤2005)，反复上述动作直到发送完成(步骤2006)。

图33是认证传送服务中的接收方终端的接收处理流程。如果接收到语音代码数据(步骤2101)，分析所编码的语音帧内的信息(步骤2102)，基于分析的结果检查是否嵌入有认证数据(步骤2103)，如果没有嵌入就对语音代码数据进行解码并由扬声器输出再生语音(步骤2104)，另一方面，如果嵌入有认证数据，就与步骤2104的语音再生并行抽取认证数据(步骤2105)，进行认证处理(步骤2106)。例如，与预先登录的本人的认证信息相比较来判别认证的NG、OK(步骤2107)，如果认证结果是NG，即如果不是本人，就中止语音编码数据的解码(再生、扩展)(步骤2108)。如果认证结果OK，即如果是本人，就允许语音代码数据的解码，对语音进行再生并由扬声器输出(步骤2104)。此后，反复上述动作直到来自对方的发送完成(步骤2109)。

上面，利用图31的数字语音通信系统，就能够照通常的语音传送协议那样同时传送语音和附加信息。另外，由于附加信息嵌入在语音数据里面，没有听觉上的重叠，也不会有搅扰的存在或者异常噪音的情形。而且，通过作为附加信息嵌入认证信息，就能够提高是否是正当用户的认证性能，并且提高语音数据的保密性能就成为可能。

(c)实现键信息传送服务的系统

图34是通过嵌入键信息同时传送语音和键信息的数字语音通信系统的构成图，对与图28相同的部分附加相同的标记。不同点是，取代图像数据生成单元102、202设置键生成单元121、221这一点，取代图像输出单元106、206设置键认证单元122、222这一点。键生成单元121将预先设定的键信息预先保存到内置的存储单元。然后，嵌入单元103，按照与图3或者图8的实施例相同的嵌入判定基准将从键生成单元121输入的键信息嵌入到从语音编码单元101输入的语音代码数据并进行输出。传送处理单元104通过公用网络300将嵌入了键信息的语音代码数据发送到对方终端。

对方终端B 200的传送处理单元204，从公用网络300接收语音代码数据并输入到抽取单元205。抽取单元205，按照与图14或者图18的实施例相同的嵌入判定基准抽取键数据并输入到键比较单元222，同时将语音代码数据输入到语音解码单元207。键比较单元222通过比较所输入的信息是否是预先登录的键来进行认证，如果键信息相一致就允许语音解码。如果不一致就禁止语音解码。如以上那样来做，就能够做到仅来自特定用户的语音数据的再生。

(d)实现IP电话地址传送服务的系统

图35是通过嵌入IP电话地址信息同时传送语音和IP电话地址信息的数字语音通信系统的构成图，对与图28相同的部分附加相同的标记。不同点是，取代图像数据生成单元102、202设置IP电话地址输入单元131、231这一点，取代图像输出单元106、206设置IP电话存储单元132、232这一点，以及设置显示/键单元DPK这一点。

预先设定的IP电话地址保存在IP电话地址输入单元131内置的存储单元中。此IP电话地址也可以是终端A的IP电话地址，也可以是终端A以外的其他设施、其他站点的电话号码。嵌入单元103，按照与图3或者图8的实施例相同的嵌入判定基准将从IP电话地址输入单元131输入的IP电话地址嵌入到从语音编码单元101输入的语音代码数据并进行输出。传送处理单元104通过公用网络300将嵌入了IP电话地址的语音代码数据发送到对方终端。

对方终端B 200的传送处理单元204，从公用网络300接收语音代码数据并输入到抽取单元205。抽取单元205，按照与图14或者图18的实施例相同的嵌入判定基准抽取IP电话地址并输入到IP电话地址存储单元232，另外将语音代码数据输入到语音解码单元207。IP电话地址存储单元232存储所输入的IP电话地址。

由于显示/键单元DPK显示存储在IP电话地址存储单元232的IP电话地址，故能够选择此IP电话地址通过点击来打电话。

(e)实现广告数据嵌入服务的系统

图36是实现广告信息嵌入服务的数字语音通信系统的构成图，设置服务器(网关)，在该服务器中，通过将广告信息嵌入到语音编码数据，直接将广告信息提供给互相进行通信的最终用户。在图36中对与图28相同的部分附加相同的标记。与图28的不同点是，①从终端100、200除去了图像数据生成单元102、202以及嵌入单元103、203这一点，②取代图像输出单元106、206设置广告信息再生单元142、242这一点，③设置显示/键单元DPK这一点，以及④设置将终端间的语音数据转发给公用网络300的服务器(网关)400这一点。

在服务器400中，比特流分解/生成单元401，从输入自发送方终端100的比特流截出传送分组，并从该分组的IP标题确定发送人、发信人，另外从RTP标题确定媒体类别和编码方式并基于这些信息判别是否满足广告信息插入条件，如果满足就将传送分组的语音代码数据输入到嵌入单元402。嵌入单元402，按照与图3或者图8的实施例相同的嵌入判定基准，判别可否嵌入，如果可以嵌入，就将广告主另外进行提供保存在存储器403中的广告信息嵌入到语音代码数据并输入到比特流分解/生成单元401。比特流分解/生成单元401使用该语音代码数据生成传送分组并发送给接收方终端B 200。

接收方终端B 200的传送处理单元204，从公用网络300接收语音代码数据并输入到抽取单元205。抽取单元205，按照与图14或者图18的实施例相同的嵌入判定基准抽取广告信息并输入到广告信息再生单元242，另外将语音代码数据输入到语音解码单元207。广告信息再生单元242再生所输入的广告信息并显示到显示/键单元DPK，语音解码单元207对语音进行再生并由扬声器SP输出。

图37是在因特网电话服务中的IP分组的构成例子，标题由IP标题、UDP(User Datagram Protocol)标题、RTP(Real-time TransportProtocol)标题构成，在IP标题中包含没有图示的发信访地址、发送方地址，由RTP标题的有效负荷类别PT来确定媒体类别和CODEC类别。因此，比特流分解/生成单元401，通过参照传送分组的标题，就能够识别发送者、接收者、媒体类别和编码方式。

图38是在服务中广告信息插入处理流程。

服务器400，当比特流输入后就进行传送分组的标题以及编码语音数据的分析(步骤3001)。即，从比特流截取传送分组(步骤3001a)，从IP标题抽取发送地址、接收地址(步骤3001b)，检查发送者、接收者是否签定了广告提供合同(步骤3001c)，如果签定了广告提供合同就参照RTP标题来识别媒体类别和CODEC类别(步骤3001d)。这里例如媒体类别为语音、CODEC类别为G.729(步骤3001e)，接着按照与图3或者图8的实施例相同的嵌入判定基准，判别是否可以嵌入(步骤3001f)，按照判别结果设为可以嵌入、不可嵌入(步骤3001g，步骤3001h)。此外，在步骤3001c中没有签定广告提供合同的情况下，在步骤3001e媒体类别不是语音的情况下或者COEDC类别不是G.729的情况下，设为不可嵌入(步骤3001h)。

然后，服务器400如果可以嵌入(步骤3002)，就将广告主(信息提供者)提供的广告数据嵌入到语音代码(步骤3003)，如果不可嵌入就不将广告数据嵌入到语音代码数据地发送到接收方的终端(步骤3004)，此后，反复上述动作直到发送完成(步骤3005)。

图39是在广告信息嵌入服务中接收方终端的广告信息接收处理流程图。如果接收到语音代码数据(步骤3101)，分析所编码的语音帧内的信息(步骤3102)，基于分析的结果检查是否嵌入有广告信息(步骤3103)，如果没有嵌入就对语音代码数据进行解码并由扬声器输出再生语音(步骤3104)，另一方面，如果嵌入有广告信息，就与步骤3104的语音再生并行抽取广告信息(步骤3105)，将该广告信息显示/键单元DPK(步骤3106)。此后，反复上述动作直到再生完成(步骤3107)。

此外，尽管在实施例中就嵌入广告信息的情形进行了说明，但并不限于广告信息，可以嵌入任意的信息。另外，通过同时插入广告信息和IP电话地址就能够通过单击给该IP电话地址方打电话并输入详细的广告信息或者其他的详细信息这样来进行构成。

以上利用图36的数字语音通讯系统，设置中转语音数据的服务器装置，就能够通过该服务器将广告信息等的任意信息提供给互相进行语音数据通信的最终用户。

(f)信息存储系统

图40是在数字语音通信系统中协同动作的信息存储系统的构成图，示出通过公用网络300连接终端A 100和中心500的状态。中心500作为例如企业的呼叫中心，是接受投诉或商谈维修、来自其他用户的要求进行应答的设施。在终端A 100中语音编码单元101对从麦克风MIC输入的语音进行编码并通过传送处理单元104发送网络300，同时语音解码单元107对通过传送处理单元104从网络300输入的语音代码数据进行解码并从扬声器SP输出再生语音。在中心500中语音通信终端方B具备与终端A同样的结构。即，语音编码单元501对从麦克风MIC输入的语音进行编码并通过传送处理单元发送给网络单元300，同时语音解码单元507对通过传送处理单元504从网络300输入的语音代码数据进行解码并从扬声器SP输出再生语音。通过上述的结构，当从终端A(用户)打来电话后，操作者就对该用户进行应答。

在中心500的数字语音存储方，附加数据嵌入单元510将附加数据嵌入到从终端A发送来的语音编码数据并存储到语音数据单元520，附加数据抽取单元530抽取通过从语音数据存储单元520所读出的预定的语音编码数据进行嵌入的信息，并显示到操作单元540的显示单元，同时将语音编码数据输入到语音解码单元550，语音解码单元550对所输入的语音代码数据进行解码，并由扬声器560进行输出。

在附加数据嵌入单元510中，附加数据发生单元511将从操作单元540输入的发送者姓名、接收者姓名、接收时刻、谈话分类(投诉、商谈、维修委托等类别)作为附加数据进行编码，并输入到嵌入单元512。嵌入单元512，按照与图3或图8的实施例相同的嵌入判定基准，来判别在通过传送处理单元504从终端A 100发送来的语音代码数据中是否可以嵌入附加信息。然后如果可以嵌入就将从附加数据发生单元511输入的代码的信息嵌入到语音代码数据并作为语音文件存储到语音数据存储单元520。

在附加抽取单元530中抽取单元531，按照与图14或者图18的实施例相同的嵌入判定基准，来判定是否在语音代码数据中嵌入有信息，在有嵌入的情况下，抽取嵌入代码并输入到附加数据利用单元532，同时将语音代码数据输入到语音解码单元550。附加数据利用单元532对所抽取的代码进行解码并将发送者姓名、接收者姓名、接收时刻、谈话分类等显示到操作单元540的显示单元。另外，语音解码单元550对语音进行再生并由扬声器进行输出。

此外，在从语音数据存储单元520读出语音代码数据时，能够使用所嵌入的信息来检索并输出所希望的语音代码数据。即，由操作单元540输入检索关键字例如发送者姓名，指示输出嵌入此发送者姓名的语音文件。由此，抽取单元531检索嵌入有所指定发送者姓名的语音文件，输出嵌入信息，同时将语音代码数据输入到语音解码单元550，并由扬声器输出解码语音。

利用上述图40的实施例，将发送者、接收者、接收时刻、谈话分类等嵌入语音代码数据并存储到存储装置，就能够适宜地读出并再生所存储的语音代码数据，同时抽取并显示嵌入信息。另外，使用嵌入数据进行语音数据的文件化就成为可能，而且将嵌入作为检索关键字就能够迅速地检索所希望的语音文件并进行再生输出。

利用上述的本发明，即使在编码器、解码器双方不互相持有密钥也能够在编码器方将数据嵌入到语音代码，而且在解码器能够正确地抽取该嵌入数据。

另外，利用本发明，即使将数据嵌入到语音代码，也不会有音质劣化，并使再生语音的听取者意识不到数据嵌入。

另外，利用本发明，如果在收发双方仅预先定义好临界值的初始值，数据的嵌入、抽取就成为可能。

另外，利用本发明，如果在嵌入数据中定义好控制码就能够通过该控制码进行临界值的变更等，能够调整其他通路的附加信息的传送或嵌入数据的传送量。

另外，利用本发明，由于依照增益值来决定是仅嵌入数据序列或者以能够识别数据和控制码的类别的形式嵌入数据/控制码序列，在仅嵌入数据序列的情况下就没有必要包含数据类别信息，故能够改善传送容量。

另外，利用本发明，就能够编码格式不作变更地进行任意数据的嵌入。也就是，能够不损害通信/存储的用途中必须的互换性地，且不对用户进行通知地将ID或其他媒体的信息嵌入到语音信息来进行传送/存储。再加上，在本发明中由于通过对CELP共通的参数来规定控制方法，就能够不限定于特定的方式地适用于宽广的方式。例如，也能够对应针对VoIP的G.729或针对移动通信的AMR等。

另外，利用本发明的数据语音通信系统，如果在发送端或者通路途中将任意的代码嵌入到压缩语音数据的特定部分，在接收端或者通路途中通过分析传送语音数据抽取从特定部分嵌入的代码，就能够照通常的语音传送协议那样同时传送语音和附加信息。另外，由于附加信息嵌入在语音数据里面，没有听觉上的重叠，也不会有搅扰的存在或者异常噪音的情形。另外，通过作为附加信息选用图像信息(所在地周围的图象、地图图像等)、个人信息(容貌照片、声波纹、指纹)等，多媒体通信就成为可能。另外，通过作为附加信息选用终端的序列编号、声波纹，就能够提高是否是正当用户的认证性能，并且提高语音数据的保密性能就成为可能。

另外，利用本发明，通过设置中转语音数据的服务器装置，就能够将广告信息等的任意信息提供给互相进行语音数据通信的最终用户。

另外，利用本发明，通过将发送者、接收者、接收时刻、谈话分类等嵌入在已接收的语音数据中并存储到存储装置，语音数据的文件化就成为可能，就能够容易地在今后利用。

由于不违背本发明的精神和范围能实现本发明的许多明显地广泛不同的实施形式，故应理解为本发明并不限于除权利要求书以外的特定实施形式。

Claims

1.一种以预定的语音编码方式对语音进行编码并进行发送的数字语音通信系统，其特征在于，

该数字语音通信系统包括与语音同时发送附加信息的发送装置，该发送装置包括：

分析对输入语音进行编码后的语音数据的装置，

依照该分析结果将任意的代码作为附加信息嵌入到语音数据的一部分的特定部分的装置，以及

通过将上述所嵌入的数据作为语音数据进行发送而与语音同时发送附加信息的装置。

2.一种接收以预定的语音编码方式对语音进行编码并发送了的语音数据的数字语音通信系统，其特征在于，

该数字语音通信系统包括与语音同时接收附加信息的接收装置，该接收装置包括：

从已接收到的语音数据解码语音的装置，

分析该已接收到的语音数据的装置，以及

依照该分析结果从语音数据的一部分的特定部分抽取作为编码信息的代码的装置。

3.一种以预定的语音编码方式对语音进行编码并进行收发的数字语音通信系统，其特征在于：

为了在与对方侧的终端装置之间通过网络与语音同时地双向传送附加信息，终端装置分别备有发送单元和接收单元；

上述发送单元备有：

分析对输入语音进行编码后的数据的装置，

通过将上述所嵌入的数据作为语音数据进行发送而与语音同时发送附加信息的装置；

上述接收单元备有：

从已接收到的语音数据解码语音的装置，

分析该已接收到的语音数据的装置，以及

依照该分析结果从语音数据的一部分的特定部分抽取代码的装置。

4.如权利要求3所述的数字语音通信系统，其特征在于：

上述发送单元备有使用用户终端所保存的图像或者个人信息来生成上述嵌入用的代码的装置；

上述接收单元备有抽取并输出上述所嵌入的代码的装置；

能够以语音通话的形式进行多媒体传送。

5.如权利要求3所述的数字语音通信系统，其特征在于：

上述发送单元备有将在发送方用户使用的终端唯一码或者使用者自身的唯一码作为上述嵌入用的代码的装置；

上述接收单元备有抽取嵌入代码并判别内容的装置。

6.如权利要求3所述的数字语音通信系统，其特征在于：

上述发送单元备有将键信息作为上述嵌入用的代码的装置；

上述接收单元备有抽取该键信息的装置，和使用该所抽取的键信息仅使特定用户能够进行语音数据的解压的装置。

7.如权利要求3所述的数字语音通信系统，其特征在于：

上述发送单元备有将IP电话地址信息作为上述嵌入用的代码的装置；

上述接收单元备有抽取该IP电话地址信息的装置，和使用该IP电话地址信息通过点击给信息发送者打电话的装置。

8.一种以预定的语音编码方式对语音进行编码并进行收发的数字语音通信系统，其特征在于，包括：

终端装置，和连接到网络并对终端装置间的语音数据进行中转的服务器装置；

该终端装置备有对输入语音进行编码的语音编码装置、发送语音编码数据的装置、分析已通过上述服务器装置接收到的语音数据的装置、以及依照该分析结果从语音数据的一部分的特定部分抽取在该服务器装置中所嵌入的代码的装置；

上述服务器装置备有接收在终端装置间互相进行交换的数据并判定该数据是否是语音数据的装置、如果是语音数据就对该数据进行分析的装置、以及依照该分析结果将任意的代码嵌入到语音数据的一部分的特定部分并进行发送的装置。