CN101715549B - 嵌入在音频信号中的隐藏数据的恢复 - Google Patents
嵌入在音频信号中的隐藏数据的恢复 Download PDFInfo
- Publication number
- CN101715549B CN101715549B CN2008800178789A CN200880017878A CN101715549B CN 101715549 B CN101715549 B CN 101715549B CN 2008800178789 A CN2008800178789 A CN 2008800178789A CN 200880017878 A CN200880017878 A CN 200880017878A CN 101715549 B CN101715549 B CN 101715549B
- Authority
- CN
- China
- Prior art keywords
- data
- linear prediction
- audio
- echo
- sound signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Abstract
本发明提供了一种用于恢复嵌入在输入的声音信号之内的隐藏数据的蜂窝电话。该电话将声音数据传递通过电话的音频编码器,然后处理音频编码器所生成的压缩音频,以恢复隐藏的数据。本发明还提供了一种用于从音频编码器的压缩输出中识别音频信号的类似电话。本发明还描述了用于将数据隐藏在音频之内的各种编码技术。
Description
本发明涉及通信系统。本发明特别但不排它地涉及下述通信系统,在所述通信系统中,经由声音数据信道提供数据给诸如蜂窝电话之类的电话设备。
WO 02/45273描述了一种蜂窝电话系统,其中,在电视或无线电节目的音频之内向蜂窝电话传送隐藏数据。在当前的上下文中,在下述意义上对数据进行隐藏:对数据进行编码以便试图将数据隐藏在音频中,使得它不引起用户注意并在一定程度上为音频所掩盖。如本领域技术人员将会意识到的那样,可接受的数据可听度水平会取决于所涉及的应用和用户而变化。在这个较早的申请中描述了用于将数据编码在音频之内的各种技术,包括扩展频谱编码、回波调制、临界频带编码等。然而,发明人发现应用程序软件不得不执行大量处理以便能够恢复隐藏的数据。
因此,一个实施例的一个目标就是要减少软件应用程序的处理需求。
在一个实施例中,提供了一种用于从输入的音频信号中恢复隐藏的数据或者用于识别输入的音频信号的方法,该方法使用电信设备,所述电信设备具有音频编码器,所述音频编码器用于压缩输入的音频信号以便传送到电信网络,该方法特征在于,通过音频编解码器传递输入的音频信号以生成压缩的音频数据,并且处理压缩的音频数据以恢复隐藏的数据或者识别输入的音频信号。发明人发现通过音频编码器传递输入的音频,可以显著减少随后的恢复隐藏的数据或者识别输入的音频所需的处理量。特别地,这个处理可以被执行而无须重新生成音频样本然后再着手用于恢复隐藏的数据或者用于识别音频信号的传统技术。
在一个实施例中,音频编码器对输入的音频执行线性预测(LP)分析以生成表示输入的音频的LP数据,并且其中处理步骤处理LP数据以恢复隐藏的数据或者识别输入的音频信号。优选地,音频编码器压缩LP数据以生成压缩的LP数据,并且处理步骤包括从压缩的音频数据中重新生成LP数据的步骤。
编码器所生成的LP数据可以包括LP滤波数据如LPC滤波系数、滤波极点或线状谱频率,并且处理步骤使用这种LP滤波数据来恢复隐藏的数据或者识别音频信号。
处理步骤可以包括生成LP合成滤波器的脉冲响应的步骤,或者包括对LP滤波数据执行逆莱文森-德宾(Levinson-Durbin)算法的步骤。当生成脉冲响应时,优选地取它的自相关,由此可以比从脉冲响应自身更加容易地识别回波存在与否。
音频编码器所生成的LP数据可以包括LP激发数据(诸如码簿索引、激发脉冲位置、脉冲符号等),并且处理步骤可以使用这种LP激发数据来恢复隐藏的数据或者识别音频信号。
在大多数情况下,LP数据会包括LP滤波数据和LP激发数据两者,并且处理步骤可以处理对应于所述LP滤波数据和所述LP激发数据中之一的压缩音频数据中的全部或其子集以恢复隐藏的数据。
可以使用若干技术将数据隐藏在音频信号之内。然而,在优选实施例中,将数据作为音频信号的一个或多个回波而隐藏在音频中。然后可以通过检测回波来恢复隐藏的数据。要被隐藏的数据的每个符号可以通过回波的组合来(同时)表示,也可以表示为音频信号之内的回波的序列,并且处理步骤可以包括识别回波的组合以恢复隐藏的数据的步骤,或者包括跟踪音频中回波的序列以恢复隐藏的数据的步骤。
在一个实施例中,音频编码器具有预定操作频带,并且回波隐藏在音频之内的操作频带预定部分之内,优选地隐藏在频带的上部,并且其中处理步骤包括滤波步骤以过滤掉这个预定部分之外的频率。例如,在音频编码器具有300Hz至3.4kHz的操作频带的情况下,回波可以仅包括在1kHz和3.4kHz之间的频带内,更优选地在2kHz和3.4kHz之间的频带内,因为这可以减少对音频信号的影响,所述音频信号的能量通常位于操作带宽的下部之内。在另一个实施例中,遍及操作频带都包括回波,但是处理步骤仍然执行滤波以减少对音频的影响。这并不同样优选,因为回波信号的一部分会在滤波时丢失。
为了帮助识别回波在音频编码器输出中的存在,处理步骤可以确定一个或多个自相关值,其有助于突出回波。还可以执行自相关值的帧间滤波以减少对缓慢变化的音频成分的影响。
所使用的音频编码器可以是若干已知的编码器如CELP编码器、AMR编码器、宽带AMR编码器等中的任何一种。
在一个实施例中,处理步骤可以根据从编码器输出的压缩音频数据来确定频谱图,然后识别频谱图中的特定特征(类似于指纹)。这些特定特征识别输入的音频并且可以用于确定输出给用户的音频的轨道信息,或者其可以用于将电信设备同步到音频信号,例如输出与音频相关的字幕。
另一个实施例提供了一种电信设备,其包括:用于接收声音信号并且用于将接收到的所述声音信号转换成相应的音频电信号的装置;用于采样所述音频电信号以产生数字音频样本的装置;音频编码装置,用于压缩所述数字音频样本以生成压缩的音频数据以便传送到电信网络;以及数据处理装置,其耦合到所述音频编码装置,用于处理压缩的所述音频数据,以恢复接收到的所述声音信号之内传送的隐藏数据,或者识别接收到的所述声音信号。
本发明的一个实施例还提供了一种数据隐藏设备,其包括:音频编码装置,用于接收并压缩表示音频信号的数字音频样本以生成压缩的音频数据;用于接收要被隐藏在所述音频信号之内的数据并且用于取决于接收到的所述数据而改变压缩的所述音频数据以生成修改的压缩音频数据的装置;以及用于使用修改的所述压缩音频数据来生成音频样本的装置,所述音频样本表示了原始的音频信号并传送隐藏的所述数据。
另一个实施例提供了一种将数据隐藏在音频信号中的方法,该方法包括取决于要被隐藏在音频信号中的数据而向音频添加一个或多个回波的步骤,并且其特征在于,在将回波与音频信号进行组合之前对所述回波进行高通滤波。发明人发现通过仅在音频信号的较高频带中添加回波,可以更加容易地检测回波,并且减少了在遍及音频频带施加回波时浪费的能量。
从参考附图描述的示例性实施例的以下详细描述中,本发明的这些以及其它方面将会变得明显,其中:
图1示意性图示了用于经由电视信号的音频部分将数据传送到蜂窝电话的信号传输系统;
图2是图示蜂窝电话主要组成部分的示意性框图,所述蜂窝电话包括用于恢复接收到的音频信号之内隐藏的数据的软件应用程序;
图3a是图示形成图2所示蜂窝电话一部分的音频编解码器所执行的处理的示意性框图;
图3b图示了音频信号的LP编码之下的源滤波器模型;
图3c图示了其中逆LPC滤波器可以用于从输入的音频信号中生成激发或剩余信号的方式;
图4是图示对来自音频编解码器的输出执行处理以恢复音频信号中隐藏的数据的示意性框图;
图5是可以从其中确定隐藏的数据的自相关曲线图;
图6是图示可以被执行以恢复隐藏数据的代替处理的示意性框图;
图7是图示其中可以从来自音频编解码器的输出恢复隐藏的数据的进一步代替的方式的示意性框图;
图8是图示其中可以从音频编解码器所输出的激发参数恢复隐藏的数据的方式的示意性框图;
图9是从中可以识别隐藏数据的由形成图8所示电路一部分的自相关部件所输出的自相关曲线图;
图10是图示对图4所示的处理电路进行改进的示意性框图,其中LPC合成滤波器的脉冲响应被高通滤波以减少对低频音频成分的影响;
图11是图示对图4所示的处理电路进行进一步改进的示意性框图,其中LPC系数被高通滤波以去除与低频音频成分相关的低阶系数;
图12图示了对图4所示的处理电路进行的进一步改进,其中图5所示的自相关曲线图被高通滤波以去除缓慢变化的自相关;
图13是图示其中隐藏的数据可以在由蜂窝电话接收之前被编码在音频之内的一种方式的一般示意性框图;
图14是图示其中蜂窝电话恢复使用图13所示的系统编码的数据的方式的一般框图;
图15是图示其中LPC编码器所生成的参数可以被修改并与剩余信号再组合以形成修改的音频以便传送到蜂窝电话的一种方式的框图;
图16图示了代替的方式,其中从LPC编码器获得的激发参数被修改,并且从中剩余信号被生成,以供将修改的音频与从LPC编码器获得的LPC系数进行合成时使用;以及
图17是图示其中音频编解码器的输出可以被处理以恢复用于输入音频的频谱图以供识别或表征输入的音频信号时使用的方式的框图。
概述
图1图示了本发明的第一实施例,其中数据源1所生成的数据信号F(t)由编码器5编码在来自音频源3的音频轨道之内,以形成修改的用于电视节目的音频轨道。在这个实施例中,数据信号F(t)传送触发信号,以便使运行于用户的移动电话21上的软件应用程序的操作与电视节目同步。如图1所示,编码器5所输出的修改的音频轨道然后在信号发生器9中与来自视频源7的相应视频轨道结合,以形成传送电视节目的电视信号。在这个实施例中,数据源1、音频源3、视频源7和编码器5全都位于电视演播室中,并且电视信号由分发网络11分发,在这个实施例中是射频(RF)信号13。RF信号13由电视天线15接收,该电视天线15将电视信号提供给传统的电视17。电视17具有:显示器(未示出),用于示出视频轨道;以及未示出的扬声器,用于输出修改的音频轨道作为声音信号19。
如示出的那样,在这个实施例中,蜂窝电话21使用麦克风23检测电视17所发出的声音信号19,该麦克风23将检测到的声音信号转换成相应的电信号。蜂窝电话21然后解码该电信号以恢复数据信号F(t)。蜂窝电话21还具有传统的组成部分如扬声器25、用于与蜂窝状基站35通信的天线27、显示器29、用于输入数字和字母的小键盘31以及用于访问菜单选项的菜单键33。如在WO 02/45273中说明的那样,从音频信号中恢复的数据可以用于若干不同目的。一种应用是用于运行于蜂窝电话21上的软件应用程序与示出在电视17上的电视节目的同步。例如,可能会在电视17上示出测验秀(quiz show),并且蜂窝电话21可能布置成生成并显示涉及与测验秀同步地示出的测验的问题。问题例如可以预先存储在蜂窝电话21上,并且当从数据信号F(t)中恢复适当的同步代码时输出。在测验秀的结尾,由用户(经由小键盘31)输入到蜂窝电话21中的答案然后可以经由蜂窝电话基站35和电信网络39传送到远程服务器41。服务器41然后可以核对从大量用户接收到的答案,并且基于给出的正确答案的数目和输入答案所花费的时间来对它们进行分等。这种计时信息也可以由蜂窝电话21确定并连同用户的答案一起传送到服务器41。如本领域技术人员将会意识到的那样,服务器41还可以处理从不同用户接收到的信息并核对它可以存储在数据库43中的各种用户简档信息。这种用户简档信息然后例如可以用于目标广告。
在服务器41已识别一个或多个“获胜”用户之后,可以将信息或奖赏发送给那些用户。例如,可以将消息连同优惠券或其它票据一起经由电信网络39发送给他们。如图1中的虚线44所示,服务器41也可以向数据源1提供要被编码在音频之内的数据。
如上所述,发明人认识到通过利用由专用音频编解码器芯片所执行的编码,可以减少需要由运行于蜂窝电话21上的软件所执行的处理。特别地,发明人发现使用音频编解码器中固有的编码过程作为解码过程的初始步骤以恢复隐藏的数据,减少了软件用于恢复隐藏的数据所需的处理。
蜂窝电话
图2图示了在这个实施例中使用的蜂窝电话21的主要组成部分。如所示,蜂窝电话21包括麦克风23,用于接收声音信号并且用于将它们转换成等效电信号。这些电信号然后由滤波器51进行滤波以去除通常在300Hz至3.4kHz的频带之外的不想要的频率(如ETSI所公布的标准文件EN300-903中定义的那样)。滤波的音频然后由模拟数字转换器53数字化,该模拟数字转换器53以8kHz的采样频率对滤波的音频进行采样,通常用13至16位数字值表示每个样本。数字化的音频流(D(t))然后被输入到音频编解码器55,该音频编解码器55是自适应多速率(AMR)编解码器,其操作在下面进行描述。AMR编解码器55所输出的压缩音频然后被传递到RF处理单元57,该RF处理单元57将压缩的音频调制到一个或多个RF载波信号上,以便经由天线27传送到基站35。类似地,经由天线27接收的压缩音频信号被馈送到RF处理单元57,该RF处理单元57解调接收的RF信号以从(一个或多个)RF载波信号中恢复压缩的音频数据,其被传递到AMR编解码器55。AMR编解码器55然后解码压缩的音频数据以重新生成由此表示的音频样本,其经由数字模拟转换器59和放大器61被输出到扬声器25。
如图2所示,从AMR编解码器55(或RF处理单元57)输出的压缩音频数据还被传递到处理器63,该处理器63由存储在存储器65中的软件控制。所述软件包括:操作系统软件67(用于控制蜂窝电话21的一般操作);浏览器68,用于访问互联网;以及应用程序软件69,用于提供额外的功能给蜂窝电话21。在这个实施例中,应用程序软件69配置成使蜂窝电话21以上面讨论的方式与电视节目交互。为了做到这一点,应用程序软件69布置成接收并处理从AMR编解码器55输出的压缩音频数据,以恢复控制应用程序软件69的隐藏数据F(t)。如下面将会更加详细地描述的那样,处理压缩的音频数据以恢复隐藏的数据F(t)可以被执行而不必重新生成数字化的音频样本,同时减少了软件应用程序69用于直接从数字音频样本恢复隐藏的数据所需的处理。
响应于恢复隐藏的数据,应用程序软件69布置成生成并在显示器29上输出数据(例如针对用户的问题),并且接收用户经由小键盘31输入的答案。软件应用程序69然后将用户的答案连同指示用户输入每个答案所花费的时间(通过软件应用程序69使用内部计时器(未示出)来计算)的计时数据一起传送到远程服务器41(通过预先存储的URL或E.164号码等识别)。软件应用程序69还可以显示从服务器41接收回来的结果信息,该信息指示用户相对于参与测验的其它用户做得有多好。
AMR编解码器
尽管AMR编解码器55是众所周知的并且由3GPP标准实体(在标准文件TS 26.090版本3.1.0中)定义,现在仍然参考图3给出它执行的处理的一般描述,以便读者可以理解随后应用程序软件69所执行的处理的描述。
AMR编解码器55(自适应多速率编码器-解码器)以若干不同的比特率将300Hz至3.4kHz频带内的8kHz采样数据音频转换成位流。编解码器55因此非常适用于传输率可能需要变化的情形。它的输出比特率可以适合于匹配盛行的传输状况,因为这个原因,所以它是3G标准并且当前用在大多数的蜂窝电话21中。
尽管比特率是可变的,但是相同的基本编码过程由编解码器55在所有速率下使用。量化处理,其参数的选择会被传输并且传输的速率被改变以实现八个比特率或模式下的操作:12.2、10.2、7.95、7.40、6.70、5.90、5.15和4.75Kbits/s。在这个实施例中使用最高比特率模式(12.2Kbits/s)。
在AMR编解码器55中存在四个主要部件子系统,下面对它们进行描述。它们是:
·音调预测
·LPC分析
·固定码簿查找
·自适应码簿
AMR编解码器55按顺序应用它们,尽管对于当前的目的而言,更容易的是最后处理音调预测并作为自适应码簿处理的一部分。AMR编解码器55建立在码簿激发线性预测(CELP)编码系统周围。输入的音频信号被分成160个样本帧(f),并且帧经历线性预测分析以每帧提取少量系数用于编码和传输。这些系数表征了信号在帧内的短期频谱。除了这些系数之外,AMR编解码器55还计算LPC剩余(也被称为激发),其使用音调预测器所辅助的自适应和固定码簿进行编码。下面描述这些子系统。
LPC分析
LPC分析由图3a所示的LPC分析部件71执行。LPC假定了语音产生的经典源滤波器模型(图3b所示),其中,语音被认为是缓慢时变滤波器(LPC合成滤波器72)的输出,由用于诸如元音中的有声语音的规则声门脉冲和用于例如/sh/的无声语音的白噪声或者用于像/z/的混合发声声音的这两者的混合所激发(用激发块74表示)。尽管基于语音产生的模型,但是还提供了用于对所有声音进行编码的有效模型。合成滤波器72假定为全极点,亦即它仅具有谐振。这个假定是LPC分析方法的基础。在采样数据(z平面)表示法中,它表明在传递函数H(z)的分母中,传递函数纯粹是z-1的多项式。
这个滤波器对输入激发en的时间序列响应sn于是为:
这就是说系统的输出sn是输入en加上p个以前输出的加权线性之和。这是LPC的理论基础。限度p是LPC的“阶”,其通常是固定的并且在AMR编解码器55中p等于10。在AMR编解码器55(以及其它基于LPC的系统)中,使用线性预测分析为输入音频的每个帧估计滤波权重或系数ai一旦被估计,它们然后就被转换成适合于量化和传输的形式。
有效地估计系数ai需要进行逼近和假定。求解系数的所有方法都旨在7使en在上述方程(2)中的贡献最小化。AMR编解码器55使用自相关方法,这意味着求解p个联立线性方程;以矩阵的形式:
或者以更简略的形式:
Rij ai=ri (4)
R的元素rij是用于延迟|i-j|下的输入音频信号的自相关值。因为R是对称的并且每个对角线的所有元素都相等,所以它对用于求逆矩阵的快速递归方法开放。在AMR编码器55中使用莱文森-德宾算法。
线状谱频率
系数ai实际上不容易量化。它们随时间相当不可预测地变化,并且具有未确定范围之上的正负值。AMR编解码器55因此使用LSF确定部件73来将这些系数在量化之前转换成线状谱频率,这去除了这些缺点并且允许LPC系数的有效编码。系数ai是全极点合成滤波器72的权重,并且是第p阶z-1多项式的系数,其可以进行因式分解以求根。这些根是合成滤波器72中的谐振或极点。这些极点常常被量化以便在它们被合理排序时传输,具有平均值,并且从帧到帧更加可预测地变化,这给机会以节省位,其没有编码az。线状谱频率(LSF)对这甚至比极点更好。重要的是要认识到LSF不与全极点模型的极点相同,但是它们相关。它们的导数是相关的,但是定性地涉及选择合成滤波器的特殊表示中的两组边界条件,一个边界条件对应于当声门完全开放时,另一个对应于当声门完全关闭时。这导致两组具有零带宽的假设极点,亦即完全谐振器。
LSF的主要优点在于:
·LSF仅包括下述频率,它们的带宽总是零(尽管有极点两倍多的LSF)
·LSF理论上比极点更好排序
LSF因此服从非常低的比特率编码。特别地,如图3a所示,每个LSF的平均值(事先计算并存储在数据存储器75中)可以由平均值减法部件77减去。进一步,因为作为结果的增量(delta)LSF不随时间迅速变化,所以预测器79然后可以用于预测当前的增量值,其由预测减法部件81从实际增量中减去。作为结果的数据然后由矢量量化(VQ)部件83另外编码,该VQ部件83经由单个索引一次性编码两个值,导致在某些情况下小于每值1位。AMR编解码器55输出如此获得的VQ索引值用于当前帧作为编码的LPC数据,以便传输到基站35。
LP激发
如上所述,AMR编解码器55还编码图3b所示的模型的激发部分74。为了做到这一点,AMR编解码器55生成激发信号的表示,以便它然后可以进行编码。如图3c所示,通过生成“逆”LPC滤波器76来做到这一点,该“逆”LPC滤波器76可以通过对输入的音频信号进行滤波来生成激发信号。从逆滤波器76获得的激发信号有时也被称为剩余。这个逆LPC滤波器76实际上从上面确定的相同系数ai来定义,但是使用它们来定义具有下述传递函数的全零点模型:
这在时域中对应于下述滤波器:
(6)所定义的逆LPC滤波器76包括抵消(2)所定义的全极点合成滤波器72中的极点的零点。理论上,如果使用逆滤波器76对输入的音频信号进行滤波,然后通过合成滤波器72对生成的激发信号进行滤波,那么我们就得回了输入的音频信号(因此有名称“逆”LPC滤波器)。重要的是要注意,原始音频信号不需要是语音以进行完全重构。如果LPC分析在表示输入的音频信号方面尚未做出好的工作,那么在剩余中会有更多信息。
对激发信号进行编码是AMR编解码器55中的固定码簿部件87和自适应码簿部件89的工作。当与用于对LSF进行编码的位的数目相比较时,在AMR编解码器55中使用比较大量的位以对激发进行编码:在12.2Kbits/s模式下每帧244位中的206个(84%),在4.75Kbits/s模式下为95中的72个(74%)。位的这种使用允许AMR编解码器55以某种效果对非语音信号进行编码。
有声语音中的激发通过一系列声音音调(在正常语音中对于成年男性为大约100Hz至130Hz,对于女性和小孩为两倍)下的点击(脉冲)来表征。在无声语音中为白噪声(或多或少)。在混合语音中是混合物。思考激发作为剩余的一种方式是认识到LPC分析在音频的短期频谱中取出凸起,留下具有平坦得多的频谱的剩余。这适用于无论什么是输入信号。
在AMR编解码器55中,激发信号被编码为固定码簿和自适应码簿输出的组合。自适应码簿并不作为任何东西存在以供查找,而只是在音调预测器所预测的时期反馈的组合码簿输出的以前组合的副本。
固定码簿
固定码簿部件87通过以下生成用于当前帧的激发信号(ef):使用用于当前帧的从LPC分析部件71输出的LPC系数ai,以设置上面的方程(6)中所定义的逆滤波器76的权重;并且使用这个滤波器对输入音频的当前帧进行滤波。固定码簿部件然后识别固定码簿脉冲或模式(存储在固定码簿88中),其最佳迎合发生在激发信号中的新事物,这将会有效地修改来自自适应码簿部件89的以前帧的激发的滞后(延迟)副本。
每个帧再分成4个子帧,其中的每一个具有独立编码的固定码簿输出。用于一个子帧的固定码簿激发将激发编码为成对单一振幅脉冲的一系列5交错链。针对MR122(AMR的12.2kb/s模式的名称)在下面的表格中示出每对脉冲的可能位置。如上面指示的那样,这种编码使用了显著数目的位。
轨道 | 脉冲 | 位置 |
1 | 0,5 | 0,5,10,15,20,25,30,35 |
2 | 1,6 | 1,6,11,16,21,26,31,36 |
3 | 2,7 | 2,7,12,17,22,27,32,37 |
4 | 3,8 | 3,8,13,19,23,28,33,38 |
5 | 4,9 | 4,9,14,19,24,29,34,39 |
每个轨道中的第一个脉冲的符号也被编码;第二个脉冲的符号相同,除非当相反时它在轨道中更早下降。用于子帧的增益也被编码。
自适应码簿
自适应码簿是组合激发的以前部分的时间延迟副本,并且在编码有声语音中是重要的。因为有声语音是有规则的,所以可以使用固定码簿输出仅对当前音调周期和以前音调周期之间的差进行编码。当添加到以前声音周期的保存副本时,我们得到这个帧的激发的估计。不传输自适应码簿;编码器和解码器根据以前组合输出和当前音调延迟来计算自适应码簿。
音调预测器
音调预测器(其形成自适应码簿部件89的一部分)的目的是要确定用于自适应码簿的最佳延迟。它是两阶段过程。第一个阶段是单向开环音调预测,将语音与以前的样本相关联,以找到有声周期的估计(如果语音有声的话)或者使误差测量最小化的最佳重复率。这之后是重复的闭环预测,以在1/6的样本之内得到用于自适应码簿的最佳延迟。因为这个原因,语音预测是编码器中的自适应码簿过程的一部分。计算受两阶段方法的限制,因为第二个更加详细的搜索仅在少量样本之上发生。AMR编解码器55使用通过合成方法进行的分析,以便通过使针对候选延迟的输出和输入语音之间的均方差最小化来选择最佳延迟。
因此,为了表示用于当前帧的激发信号,AMR编解码器55输出为当前帧确定的固定码簿索引(每个子帧一个)、固定码簿增益、自适应码簿延迟和自适应码簿增益。这个数据和LPC编码的数据可用于在蜂窝电话21上运行的应用程序软件69,并且从中隐藏的数据必须被恢复。
数据隐藏和恢复
存在其中可以将数据F(t)隐藏在音频信号之内的各种方式,并且对于将数据隐藏在音频中的不同技术的详细讨论,读者可以参考Bender的论文:“Techniques For Data Hiding”,IBM Systems Journal,Vol 35,no 384,1996。在当前的实施例中,通过将回波添加到音频来将数据隐藏在音频中,其中回波的时间延迟被改变以对数据进行编码。例如通过使用简单的没有回波对应于二进制0并且有回波对应于二进制1的方案来执行这种改变。代替地,二进制1可以通过在第一延迟添加回波来表示,并且二进制0可以通过在不同的第二延迟添加回波来表示。回波的符号还可以随着要被隐藏的数据而变化。在更加复杂的编码方案中,二进制1可以通过回波的第一组合或序列(同时有两个或更多回波或者连续施加)来表示,并且二进制0可以通过不同的回波第二组合或序列来表示。
在这个实施例中,回波可以添加有0.75ms和1.00ms的延迟,并且二进制1通过为音频(通常对应于几个AMR帧)的第一部分添加衰减的0.75ms回波继之以在音频的第二部分中添加衰减的1.00ms回波来表示;并且二进制0通过为音频的第一部分添加衰减的1.00ms回波继之以在音频的第二部分中添加衰减的0.75ms回波来表示。因此,为了恢复隐藏的数据,软件应用程序不得不处理来自AMR编解码器55的编码输出,以识别音频中接收的回波序列并从而识别音频中隐藏的数据。
通常,通过以下在音频信号中识别回波:执行音频样本的自相关,以及识别对应于任何回波的峰值。然而,如上所述,隐藏的数据将要从AMR编解码器55的输出中恢复。
数据恢复1
图4图示了其中回波可以被检测并且隐藏的数据F(t)由应用程序软件69从AMR编解码器55的输出中恢复的一种方式。如所示,在这种技术中,应用程序软件单独地从图3所示的VQ部件83所输出的LPC编码信息中恢复隐藏的数据。如图4所示,应用程序软件69所执行的第一个处理由VQ部件91执行,该VQ部件91反转AMR编解码器55所执行的矢量量化。VQ部件91的输出然后由预测加法部件93处理,该预测加法部件93将LSF增量预测(由预测器95确定)添加到来自VQ部件91的输出。LSF平均值(从数据存储器97获得)然后被平均值加法部件99加回,以恢复用于当前帧的LSF。LSF然后被LSF转换部件101转换回到LPC系数。由于在其它AMR处理阶段中执行的逼近和量化,如此确定的系数不会确切地与图3中的LPC分析部件71所确定的系数相同。
如所示,在这个实施例中,确定的LPC系数用于根据上述方程(2)配置LPC合成滤波器103。通过向如此配置的滤波器103施加脉冲(由脉冲发生器105生成),于是获得这个合成滤波器103的脉冲响应(h(n))。发明人发现回波存在于这个脉冲响应(h(n))之内并且可以从对应于回波延迟的滞后周围的脉冲响应的自相关中找到。如所示,自相关部件107对在数据存储器108中识别的滞后执行这些自相关计算。图5图示了对于所有正滞后获得的自相关。曲线图将滞后识别为在零滞后处来自主峰值108的样本。所以使用8kHz的采样率,每个样本对应于0.125ms的滞后。如所示,在零滞后处存在初始峰值108,继之以在大约1.00ms的滞后处的峰值110(对应于离原点8个样本)——表明当前帧具有1.00ms回波。如本领域技术人员将会意识到的那样,不需要针对所有回波都计算自相关——只需针对对应于回波会被发现的那些地方的滞后周围(亦即在0.75ms和1.00ms周围)进行计算。
如图4所示,自相关部件107所确定的自相关值被传递到回波识别部件109,该回波识别部件109确定在当前帧中是否存在任何回波(例如通过用适当的阈值对自相关值进行设限来识别相关滞后处的任何峰值)。识别的峰值然后被传递到数据恢复部件111,该数据恢复部件111跟踪相邻帧之上的识别的回波序列,以检测隐藏数据F(t)的二进制1或二进制0的存在。用这种方式,隐藏的数据被恢复,并且然后可以用于以上述方式控制应用程序软件69的操作。
发明人发现以这种方式恢复隐藏数据的计算需求显著小于直接从数字化的音频样本中恢复隐藏数据的计算需求。
数据恢复2
在上述实施例中,LPC合成滤波器的脉冲响应的自相关被确定,并且从中确定回波的存在以恢复隐藏的数据。图6图示了可以根据用于恢复隐藏的数据的替代技术来执行的处理。如通过比较图4和6可以看到的那样,这个实施例和第一个实施例之间的主要差别在于,重新生成的用于当前帧的LPC系数被直接传递到自相关部件107,该自相关部件107计算LPC系数序列的自相关。这个实施例因此是第一个实施例的简化。然而,在回波滞后处输出的自相关中的峰值并不如同在第一个实施例中宣称的那样,所以因为这个原因,这个较简单的实施例在足够的处理能力可用的情况下不是优选的。
数据恢复3
图7图示了可以在第三技术中执行的处理,该第三技术用于识别回波的存在以及随后恢复隐藏的数据。如通过比较图6和7可以看到的那样,这个实施例和第二个实施例之间的主要差别在于,重新生成的用于当前帧的LPC系数被施加到逆莱文森-德宾部件114,该逆莱文森-德宾部件114使用逆莱文森-德宾算法以从LPC系数中重新计算上述方程(3)的自相关矩阵Rij。所确定的值对应于输入的音频信号自身的自相关值,并因此会包括与所述或每个回波的延迟相对应的滞后处的峰值。来自逆莱文森-德宾部件114的输出因此可以像以前一样处理,以恢复隐藏的数据。这个实施例的主要缺点在于,逆莱文森-德宾算法在计算方面比较密集,所以在只有有限处理能力的情况下,这个实施例不是优选的。
数据恢复4
在上述三个实施例中,通过处理从AMR编解码器55输出的编码LPC滤波数据来恢复隐藏的数据。AMR编解码器55会对LPC滤波数据中的回波进行编码,只要回波延迟小于LPC滤波器的长度。如上所述,LPC滤波器具有十量级(p)的样本。使用8kHz的采样频率,这对应于1.25ms的最大延迟。如果添加具有较长延迟的回波,则它不能被编码到LPC系数中。然而它会被编码在剩余或激发信号之内。为了说明这一点,将会描述其中使用2ms和10ms回波将二进制1和0编码在音频中的实施例。
图8图示了在这个实施例中由应用程序软件69执行以恢复隐藏数据的处理。如所示,在这个实施例中,应用程序软件69接收用于每个帧的当它由AMR编解码器55输出时的激发编码数据。接收到的数据中的固定码簿索引由固定码簿部件121使用,以从固定码簿123中识别用于当前帧的激发脉冲。这些激发脉冲然后由从AMR编解码器55接收的编码数据中定义的相应固定增益放大。放大的激发脉冲然后被施加到加法器127,在那里它们被添加到通过将以前帧的激发脉冲传递通过增益129和自适应码簿延迟131而获得的以前激发脉冲的适当放大和延迟的版本。在从AMR编解码器55接收的编码数据中定义所使用的自适应码簿增益和延迟。来自加法器127的输出是用于当前帧的剩余或激发信号的脉冲表示。如图8所示,激发信号的这个脉冲表示(ei)然后被传递到自相关部件107,该自相关部件107计算在滞后数据存储器108中定义的不同滞后的自相关。图9图示了当在接收到的音频中存在2ms回波时针对所有正滞后从自相关部件107输出的自相关。如所示,存在零滞后处的主峰值132和对应于2ms的滞后处的另一个峰值134。因此,自相关部件107的输出可以像以前一样由回波识别部件109和数据恢复部件111处理以恢复隐藏的数据F(t)。
改进
现在参考图10、11和12对上述实施例进行若干改进。进行这些改进以增加隐藏数据的成功恢复,并且旨在抗击可能掩盖回波存在的语音或房间声音的影响。这些改进将被施加到上述第一实施例,但是它们同样可以很好地适用于其它实施例。
如通过比较图4和10可以看到的那样,在第一个改进中,用于当前帧的LPC合成滤波器103的脉冲响应(h(n))由高通滤波器151进行滤波,以减少脉冲响应中的较低频率的影响。发明人发现回波信息通常被编码到脉冲响应的较高频带中。这种高通滤波因此改善了用于回波的自相关峰值的锐度,使得更容易识别它们的存在。高通滤波器151优选地过滤掉大约2kHz以下的频率(对应于采样频率四分之一的频率),尽管通过仅过滤掉大约1kHz以下的频率仍然可以进行某种增益。如本领域技术人员将会意识到的那样,这种滤波是过滤掉脉冲响应低频部分的帧“内”滤波(亦即仅在帧内进行滤波),尽管还可以执行帧“间”滤波(例如过滤掉发生在帧之间的脉冲响应的缓慢变化特征)。
图11图示了实现相同结果的替换方式。具体地,在这个实施例中,用于当前帧的LPC系数在用于配置LPC合成滤波器103之前被传递通过高通滤波器153。在这种情况下,高通滤波器153去除了与合成滤波器103的较低频率极点相对应的系数。这通过对LPC系数进行因式分解以识别极点频率和带宽来实现。在下限以下的频率处的极点被丢弃,并且剩下的极点用于生成只有较高频率的合成滤波器103。其余的处理跟以前一样,并且进一步的描述将不再给出。如本领域技术人员将会意识到的那样,这种滤波也是帧内滤波,尽管还可以执行帧间滤波。
图12图示了可以被应用以增加恢复隐藏数据的成功率的进一步改进。如所示,这个实施例和图4所示的实施例之间的主要差别在于提供了高通滤波器155,用于执行帧间滤波以过滤掉通常由音频自身和用户的蜂窝电话21位于其中的房间的声音造成的自相关输出中的缓慢变化的相关性(亦即从帧到帧变化缓慢的相关性)。除了过滤掉这样的帧间变化之外或者代替地,高通滤波器155可以执行帧内滤波,以从每个帧内的自相关输出去除低频相关性。已发现这使回波造成的相关性峰值尖锐,从而使得它们更容易识别。
一般编码方案
在上述实施例中,通过添加具有不同延迟的回波而将数据隐藏在音频信号之内。如本领域技术人员将会意识到的那样,存在下述各种方式,其中数据可以隐藏在音频之内并仍然被传递通过AMR编解码器55。一般地说,可以分别用图13和14所示的一般框图来表示上述数据隐藏和恢复过程。如图13所示,一般数据隐藏过程可以被认为涉及与AMR编解码器所执行的类似的编码操作161,以生成AMR参数(其可以是最终的AMR输出参数或在AMR处理中生成的中间参数)。这些参数中的一个或多个然后取决于要被隐藏在音频之内的数据而被改变163。修改的参数然后被解码165以生成修改的音频信号,其作为声音信号被传输并由蜂窝电话的麦克风23接收。在进行滤波和模拟数字转换之后,音频编码器167然后以上述方式处理数字化的音频样本以生成修改的参数。修改的参数然后由参数处理部件169处理,以检测对参数做出的(一个或多个)修改,并从而恢复隐藏的数据。
在将回波添加到音频以对隐藏的数据进行编码的情况下,这可以以上述方式容易地进行,而不必在电视演播室中(或数据要被隐藏在音频之内的任何地方)执行详细的编码过程。代替地,通过操纵AMR编码过程的输出参数或中间参数可以添加回波。例如,通过向上述方程(3)中定义的自相关矩阵的一个或多个条目添加常数,或者通过直接操纵从LPC分析确定的LPC系数中的一个或多个的值,可以将回波添加到音频。
还可以通过调制音频编码参数的其它更多直接方式来隐藏数据。例如,可以修改针对音频生成的线状谱频率(例如通过用要被隐藏的数据来改变LSF的最低有效位),或者可以根据要被隐藏的数据来修改从中确定LSF的极点的频率或带宽。代替地,可以修改激发参数来承载隐藏的数据。例如,AMR编解码器55使用具有可变脉冲位置和符号的定义脉冲链的固定和自适应码簿来对激发信号进行编码。因此,通过改变轨道或子帧中的一个或多个之内的脉冲位置的最低有效位,或者通过改变所选择的轨道或子帧的符号,可以隐藏数据。
代替施加回波以将数据隐藏在音频中,可以取决于要被隐藏的数据而改变音频信号的一个或多个频率分量的相位。在固定和自适应码簿所编码的脉冲的位置中,来自音频的相位信息被保留到某种程度。因此,通过从码簿重新生成激发脉冲并且检测相关(一个或多个)频率分量随时间的相位变化,可以从AMR编解码器55的输出中检测这种相位编码。
如本领域技术人员将会意识到的那样,非常不可能的是演播室系统会使用实际的AMR编码器和解码器模型,因为电视演播室中的音频质量比AMR编解码器55中使用的大得多。充分的演播室系统因此会将音频带分成AMR带(在300Hz和3.4kHz之间)和这个范围之外的非AMR带。然后会如上所述操纵AMR带,但是不会使用AMR解码器重构AMR带信号。相反地,会将来自从原始音频信号获得的实际LPC剩余的AMR带音频信号与修改的LPC数据进行合成以得到更高的音频质量。代替地,在用隐藏的数据修改激发参数的情况下,会从修改的参数来构造剩余,该修改的参数然后会由合成滤波器使用从LPC分析获得的LPC系数来进行滤波。修改的AMR带然后会被添加到非AMR带,以便作为电视信号的一部分进行传输。在图15和16中图示了这种处理。
具体地,图15图示了在原始音频已被分成AMR带和非AMR带之后可以在电视演播室之内执行的处理。如所示,音频AMR带被输入到LPC编码器171,该LPC编码器171执行上述LPC分析以生成用于当前帧的LPC系数ai。这些系数然后被传递到系数改变部件173,该系数改变部件173取决于要被隐藏在音频信号之内的数据而改变这些系数中的一个或多个。修改的LPC系数然后被输出以根据上面给出的方程(2)配置LPC合成滤波器175。如图15所示,LPC编码器171所生成的LPC系数ai用于根据上面的方程(6)配置逆LPC滤波器177。从中生成当前LPC系数组的音频帧然后被传递通过这个逆LPC滤波器以生成LPC剩余(激发)信号,其然后被施加到LPC合成滤波器175。这导致生成修改的音频AMR带信号,其然后在与视频轨道相结合以便进行分发之前与非AMR带信号相结合。
图16图示了其中激发参数随着要被隐藏的数据而改变的替换场景。具体地,如图16所示,音频AMR带初始由LPC编码器171处理,该LPC编码器171在这个实施例中生成并输出表示剩余或激发信号的固定和自适应码簿数据。这个码簿数据然后被传递通过改变部件181,该改变部件181改变码簿数据,以便根据要被隐藏在音频信号之内的数据而改变固定码簿数据所表示的一个或多个脉冲的位置和/或符号。修改的码簿数据然后被输出到剩余发生器183,该剩余发生器183重新生成相应的剩余信号,其在由AMR编解码器55处理时会重新生成修改的固定和自适应码簿数据。这例如可以通过以下实现:执行迭代程序以适配起动剩余,直到对它的编码导致改变部件181所输出的修改的码簿数据。代替地,修改的码簿数据可以用于生成直接用作剩余信号的脉冲链。脉冲之间的间隙可以填充以可以使用用于当前帧的LPC系数和逆LPC滤波器生成的剩余信号的一部分或噪声。不管所使用的技术,如此生成的剩余信号然后被传递到LPC合成滤波器175,该LPC合成滤波器175使用LPC编码器171所生成的LPC系数进行配置。LPC合成滤波器175然后对施加的剩余信号进行滤波以生成修改的音频AMR带,其然后与非AMR带相结合以重新生成用于与视频轨道相结合的音频。
音频识别
在上述实施例中,数据隐藏在电视节目的音频之内,并且通过蜂窝电话中的适当处理来恢复这个数据。为了恢复隐藏的数据而执行的处理利用了已经由蜂窝电话的音频编解码器执行的处理的至少一部分。如上所述,发明人发现这减少了恢复隐藏的数据所需的计算开销。类似的优点可以在下述其它应用中获得:没有实际的数据隐藏在音频之内,但是其中例如将要从音频自身的声音模式(指纹)中识别音频。现在参考音乐识别系统来描述其中可以实现这一点的方式。
目前,存在若干音乐识别服务,诸如Shazam所提供的服务。这些音乐识别服务允许蜂窝电话21的用户通过拨打号码并将音乐播放到耳机来识别当前播放的音乐轨道。服务然后将轨道的名称返回到电话。在技术上,系统通过以下操作:设立从蜂窝电话到远程服务器的电话呼叫,同时向电话播放音乐。远程服务器在预定时期之后断开呼叫,相对于存储在数据库中的模式对接收到的声音执行某种匹配以识别音乐,然后以它识别的音乐轨道的名称的方式发送文本消息至电话。
根据来自Shazam系统的发明人以及其它的公布材料,用于识别轨道的一般过程为:
1.将原始音频信号转换成频谱图,这通常通过计算一系列重叠快速傅立叶变换(FFT)来实现。
2.分析频谱图以确定特定特征——这些通常是能量峰值位置,通过它们的时间和频率来表征。
3.使用这些特征的散列函数,并使用散列函数的结果来查找数据库以确定可能匹配音频信号的一组条目。
4.针对这些潜在的匹配执行进一步的模式匹配,以确定音频信号是否真正匹配从数据库中识别的那些中的任何一个。
传统上,根据对用于音频信号的数字化音频样本的重叠块进行的一系列快速傅立叶变换来确定用于音频的频谱图。当在移动电话网络之上进行操作时,输入的音频会由蜂窝电话中的AMR编解码器压缩以便经由空中接口37传输到移动电话网络35,在那里压缩的音频被解压缩以重新生成数字音频样本。服务器然后对数字音频样本执行傅立叶变换分析以生成用于音频信号的频谱图。
发明人已认识到,移动电话系统所执行的这种编码和解码然后还有Shazam服务器所执行的随后的频率分析是浪费的,并且可以实施类似的系统而不必将压缩的音频解码回到音频样本。用这种方式,轨道识别处理可以整个地在蜂窝电话21之内执行。用户因此不必放置至远程服务器的呼叫以便能够识别正在播放的轨道。现在参考图17来描述其中可以实现这一点的方式。
具体地,图17是图示在蜂窝电话21上运行的轨道识别软件应用程序(未示出)所执行的处理的框图。如所示,在这个实施例中,软件应用程序从AMR编解码器55接收AMR编码LPC数据和AMR编码激发数据。AMR LPC编码数据然后像以前一样被传递到VQ部件91、预测加法部件93、平均值加法部件99和LSF转换部件101。这种处理的结果是重新生成的LPC系数用于当前帧的LPC系数然后被传递到计算它们的快速傅立叶变换的FFT部件201。
类似地,AMR编码激发数据由固定码簿部件121、固定增益125、加法器127、自适应码簿延迟121和自适应增益129进行解码,以重新生成表示用于输入帧的剩余的激发脉冲。这些解码的脉冲然后被输入到FFT部件203以生成激发脉冲的傅立叶变换。如图17所示,来自两个FFT部件201和203的输出由乘法器205乘在一起,以生成用于当前帧的组合频率表示。乘法器205所输出的这种组合频率表示应当近似对应于当前帧之内的数字音频样本的FFT。这是因为AMR编解码器55所执行的LPC分析之下的源滤波器模型。具体地,如上所述,LPC分析假定语音通过以下生成:通过合成滤波器对适当的激发信号进行滤波。换言之,音频通过以下生成:使激发信号与合成滤波器的脉冲响应进行卷积,或者在频域中,使激发信号的频谱与LPC合成滤波器的频谱相乘。
在当前实施例中,LPC系数的频谱与码簿激发脉冲的频谱相乘。这些是分别对LPC合成滤波器的频谱和激发信号的频谱的逼近。因此,从乘法器205输出的组合频谱会是当前帧之内的数字化音频信号的频谱的逼近。如图17所示,这个频谱然后被输入到频谱图生成部件207,该频谱图生成部件207从接收到的频谱中生成用于输入的音频信号的相邻帧的频谱图。如此生成的频谱图然后被传递到模式匹配部件209,在那里使用来自频谱图的特定特征来搜索存储在模式数据库211之内的模式,以识别蜂窝电话的麦克风23所拾取的音频轨道。如本领域技术人员将会意识到的那样,这种模式匹配可以使用与Shazam系统的服务器中使用的那些类似的处理技术,亦即首先使用散列函数来识别模式数据库211的一部分以与音频的频谱图相匹配。模式匹配部件209所输出的识别的轨道信息然后被输出用于在显示器29上向用户显示。
发明人发现与将压缩的音频数据转换回到数字化音频样本然后对音频样本采取快速傅立叶变换相比,这种处理需要显著更少的计算。事实上,发明人发现与对原始音频样本采取快速傅立叶变换相比,这种处理需要更少的处理。这是因为:对LPC系数采取快速傅立叶变换比较简单,因为每帧只有10个系数;而且对码簿激发脉冲的快速傅立叶变换也比较直接,因为简单地通过区别脉冲位置或者使它们在查找表中预先计算(因为存在有限数目的码簿所定义的脉冲位置),可以将脉冲位置系数转换到频域中。
如本领域技术人员将会意识到的那样,由于所进行的逼近,以这种方式获得的作为结果的频谱图无法与从音频样本的FFT导出的频谱图直接相比较。然而,该频谱图携带了足够的并且与传统频谱图类似的信息,所以可以使用相同或相似的模式匹配技术用于音频识别。为了最佳结果,存储在数据库211中的模式信息优选地从以类似方式获得的频谱图中生成(亦即根据AMR编解码器输出,而不是使用从音频样本中直接生成的那些频谱图)。
修改和进一步替换
上面已描述了说明下述方式的若干实施例:蜂窝电话中的音频编解码器可以用于减少电话的其它部分所执行的随后处理,以便恢复隐藏的信息或者识别输入的音频片段。如本领域技术人员将会意识到的那样,可以对上述实施例进行各种修改和改进,并且现在来描述这些修改中的一些修改。
在上述音频识别实施例中,所有的模式数据库211都存储在蜂窝电话21之内。在替换实施例中,模式匹配部件209可以布置成根据为音频生成的频谱图的特定特征生成散列函数,并且这个散列函数的结果然后可以被传输到远程服务器,该远程服务器下载将要与音频的频谱图相匹配的适当模式信息。以这种方式,必须存储在蜂窝电话21上的模式数据库211之内的数据量可以保持到最小,同时仅引入了在用于从远程数据库中检索所选择的模式的处理中的比较小的延迟。
在上述音频识别实施例中,线状谱频率被转换回到LPC系数,然后使用FFT将其转换到频域中。在替换实施例中,可以直接根据线状谱频率或者根据从它们导出的极点来确定用于LPC数据的频谱。这会进一步减少执行音频识别所需的处理。
在上述较早的实施例中,数据隐藏在音频中并且用于将电话的操作同步到用户所观看的电视节目。在刚刚描述的最后实施例中,在音频之内没有隐藏的数据,而是代替地,音频的特定特征被识别并用于对音频进行识别。如本领域技术人员将会意识到的那样,可以在同步实施例中使用类似的音频识别技术。例如,在电话上运行的软件应用程序可以通过识别音频声音轨道之内的预定部分而将自身同步到电视节目。这种类型的同步还可以用于控制电视节目字幕的输出。
在上述较早的实施例中,通过确定合成滤波器的脉冲响应或LPC系数的自相关值来恢复隐藏的数据。这种相关性处理不是必要的,因为可以通过直接监视系数或脉冲响应来发现隐藏的数据。然而,自相关处理是优选的,因为它使得更容易识别回波。
在上述改进中,各种高通滤波技术用于过滤掉与音频和房间声音相关联的低频成分。在优选实施例中,在蜂窝电话中执行这样的高通滤波的情况下,回波信号优选地仅被添加到(在隐藏过程期间)AMR带的高频部分中的音频。例如在1kHz以上,并且优选地仅在2kHz以上。这例如可以通过以下实现:对音频信号进行滤波以去除较低频率AMR带成分,然后以需要的时间延迟将滤波的输出添加到原始音频。这是优选的,因为减少了会被蜂窝电话中执行的高通滤波过滤掉(并因此丢失)的回波信号中的能量。
在上述实施例中,已假定蜂窝电话所使用的音频编解码器是AMR编解码器。然而,如本领域技术人员将会意识到的那样,上述原理和概念还适用于其它类型的音频编解码器,并且尤其适用于依靠输入音频的线性预测分析的那些音频编解码器。
在上述实施例中,通过蜂窝电话上运行的软件来执行从音频编解码器输出的压缩音频数据的各种处理。如本领域技术人员将会意识到的那样,这种处理中的一些或全部可以由专用硬件电路执行,尽管软件由于其在制造之后被添加到蜂窝电话的能力以及其一旦装载可以被更新的能力而是优选的。用于使蜂窝电话以上述方式操作的软件可以作为信号提供,或者可以提供在诸如紧致盘之类的载体或其它载体介质上。
在上述实施例中,在蜂窝电话之内执行处理。然而,如本领域技术人员将会意识到的那样,益处会适用于具有内置音频编解码器的任何通信装置。
在上述早先的实施例中,数据隐藏在音频之内并且用于使蜂窝电话的操作与用户所观看的电视秀同步。如本领域技术人员将会意识到的那样,并且如WO 02/45273所述,存在对于隐藏数据的各种其它用途。例如,隐藏的数据可以识别用于远程位置的URL,或者可以识别要被发送到用于说明的预先存储的URL的代码。这种隐藏的数据可以为用户提供例如关于电视节目的另外信息,并且/或者为用户提供特别报价或其它目标广告。
在上述实施例中,经由RF通信链路13向用户传送电视节目。如本领域技术人员将会意识到的那样,可以经由任何适当的分发技术如通过有线电视、因特网、卫星电视等向用户分发电视节目。还可以从存储介质如DVD获得并通过适当的DVD播放器读出。
在上述实施例中,蜂窝电话拾取电视节目的音频。如本领域技术人员将会意识到的那样,在从收音机或其它扬声器系统获得音频的情况下也可以使用上述技术。
在上述实施例中,假定在电视系统的电视演播室一端将数据隐藏在音频之内。在替换实施例中,例如通过机顶盒可以在电视系统的用户一端将数据隐藏在音频之内。机顶盒可以适合于在向用户输出电视节目之前将适当的数据隐藏到音频中。
在上述实施例中,软件应用程序处理从蜂窝电话21之内的AMR编解码器接收的压缩音频数据。在替换实施例中,软件应用程序可以对经由电话网络接收的并且由RF处理单元57提供给处理器63的压缩音频数据执行类似处理。
在上述实施例中,假定音频编解码器的输出不包括LPC系数自身,而是包括从它们导出的其它参数如线状谱频率或LPC合成滤波器的滤波器极点。如本领域技术人员将会意识到的那样,如果蜂窝电话21中使用的音频编解码器使得由其导出的LPC系数可用于处理器63,那么软件应用程序为了恢复LPC系数而执行的初始处理就是不必要的,并且软件应用程序可以直接对音频编解码器所输出的LPC系数进行工作。这会进一步减少需要的处理。
如本领域技术人员将会意识到的那样,在上述实施例中描述的比特率、采样率等的精确值并不是本发明的必要特征,而是可以在不脱离本发明的情况下进行改变。
Claims (33)
1.一种用于从输入的音频信号中恢复隐藏的数据的方法,隐藏的数据被编码在音频之内以使得它不引起用户注意,并且该方法使用电信设备,所述电信设备具有音频编码器,所述音频编码器用于压缩输入的音频信号以便传送到电信网络,所述方法由所述电信设备执行并且特征在于,通过音频编解码器传递输入的音频信号以生成压缩的音频数据,并且处理压缩的音频数据以恢复隐藏的数据。
2.根据权利要求1所述的方法,其中,所述音频编码器对输入的音频执行线性预测分析以生成表示输入的音频的线性预测数据,并且其中所述处理对所述线性预测数据进行处理以恢复隐藏的数据。
3.根据权利要求1所述的方法,其中,所述音频编码器对输入的音频执行线性预测分析以生成表示输入的音频的线性预测数据,并且压缩所述线性预测数据以生成压缩线性预测数据,并且其中所述处理包括从所述压缩线性预测数据中重新生成线性预测数据的步骤。
4.根据权利要求2所述的方法,其中,所述线性预测数据包括线性预测滤波数据,并且所述处理使用所述线性预测滤波数据来恢复隐藏的数据。
5.根据权利要求3所述的方法,其中,重新生成的线性预测数据包括线性预测滤波数据,并且所述处理使用所述线性预测滤波数据来恢复隐藏的数据。
6.根据权利要求4或5所述的方法,其中,所述处理包括生成合成滤波器的脉冲响应的步骤,或者包括对所述线性预测滤波数据执行逆莱文森-德宾算法的步骤。
7.根据权利要求2所述的方法,其中,所述线性预测数据包括线性预测激发数据,并且所述处理使用所述线性预测激发数据来恢复隐藏的数据。
8.根据权利要求3所述的方法,其中,重新生成的线性预测数据包括线性预测激发数据,并且所述处理使用所述线性预测激发数据来恢复隐藏的数据。
9.根据权利要求2所述的方法,其中,所述线性预测数据包括线性预测滤波数据和线性预测激发数据,并且其中所述处理针对对应于所述线性预测滤波数据和所述线性预测激发数据中之一的压缩音频数据的子集进行处理以恢复隐藏的数据。
10.根据权利要求3所述的方法,其中,重新生成的线性预测数据包括线性预测滤波数据和线性预测激发数据,并且其中所述处理对所述线性预测滤波数据和所述线性预测激发数据中之一进行处理以恢复隐藏的数据。
11.根据权利要求1、2或3所述的方法,其中所述音频信号包括由所述音频信号的一个或多个回波定义的隐藏数据,并且其中所述处理对压缩的音频进行处理以识别所述音频信号之内的回波的存在,以便恢复隐藏的数据。
12.根据权利要求1、2或3所述的方法,其中隐藏的数据的每个数据符号用所述音频信号之内的回波序列或回波组合表示,并且其中所述处理包括识别所述回波组合以恢复隐藏的数据的步骤,或者包括跟踪音频中的回波序列以恢复隐藏的数据的步骤。
13.根据权利要求11所述的方法,其中所述音频编码器具有预定操作频带,并且其中所述回波隐藏在音频之内的操作频带预定部分之内,并且其中所述处理包括滤波步骤以过滤掉所述预定部分之外的频率。
14.根据权利要求1、2或3所述的方法,其中,所述处理为所述音频信号的时间帧序列中的每一个确定一个或多个自相关值,并且使用确定的所述自相关值恢复隐藏的数据。
15.根据权利要求14所述的方法,其中,所述处理执行确定的所述自相关值的高通滤波以去除缓慢变化的相关性。
16.根据权利要求1、2或3所述的方法,其中,所述处理在不从压缩的音频数据中重新生成数字化的音频样本的情况下恢复隐藏的数据。
17.一种电信设备(21),包括:
麦克风(23),用于接收声音信号并且用于将接收到的所述声音信号转换成相应的音频电信号;
模拟数字转换器(53),用于采样所述音频电信号以产生数字音频样本;
音频编码器(55),用于压缩所述数字音频样本以生成压缩的音频数据以便传送到电信网络(39);以及
数据处理器(115),其耦合到所述音频编码器(55),用于处理压缩的所述音频数据,以恢复接收到的所述声音信号之内传送的隐藏数据,所述隐藏数据被编码在所述声音信号之内以使得它不引起用户注意。
18.根据权利要求17所述的设备,其中所述音频编码器可操作用于对输入的音频执行线性预测分析以生成表示输入的音频的线性预测数据,并且其中所述数据处理器可操作用于处理所述线性预测数据以恢复隐藏的数据。
19.根据权利要求17所述的设备,其中所述音频编码器可操作用于对输入的音频执行线性预测分析以生成表示输入的音频的线性预测数据,并且压缩所述线性预测数据以生成压缩线性预测数据,并且其中所述数据处理器可操作用于从所述压缩线性预测数据中重新生成线性预测数据。
20.根据权利要求18所述的设备,其中,所述线性预测数据包括线性预测滤波数据,并且所述数据处理器可操作用于使用所述线性预测滤波数据来恢复隐藏的数据。
21.根据权利要求20所述的设备,其中,所述数据处理器可操作用于生成合成滤波器的脉冲响应或者对所述线性预测滤波数据执行逆莱文森-德宾算法以恢复隐藏的数据。
22.根据权利要求18所述的设备,其中,所述线性预测数据包括线性预测激发数据,并且所述数据处理器可操作用于使用所述线性预测激发数据来恢复隐藏的数据。
23.根据权利要求18所述的设备,其中所述线性预测数据包括线性预测滤波数据和线性预测激发数据,并且其中所述数据处理器可操作用于处理所述线性预测滤波数据和所述线性预测激发数据中之一以恢复隐藏的数据。
24.根据权利要求17所述的设备,其中所述音频信号包括由所述音频信号的一个或多个回波定义的隐藏数据,并且其中所述数据处理器可操作用于处理压缩的音频数据以识别所述音频信号之内的回波的存在,以便恢复隐藏的数据。
25.根据权利要求17所述的设备,其中隐藏的数据的每个数据符号用所述音频信号之内的回波序列或回波组合表示,并且其中所述数据处理器可操作用于识别所述回波组合以恢复隐藏的数据或者跟踪音频中的回波序列以恢复隐藏的数据。
26.根据权利要求24或25所述的设备,其中所述音频编码器具有预定操作频带,并且其中所述回波隐藏在音频之内的操作频带预定部分之内,并且其中所述数据处理器可操作用于过滤掉所述预定部分之外的频率。
27.根据权利要求17所述的设备,其中,所述数据处理器可操作用于为时间帧序列中的每一个确定一个或多个自相关值,并且可操作用于使用确定的所述自相关值恢复隐藏的数据。
28.根据权利要求27所述的设备,其中,所述数据处理器可操作用于执行确定的所述自相关值的高通滤波以去除缓慢变化的相关性。
29.根据权利要求17所述的设备,其中,所述数据处理器可操作用于在恢复隐藏的数据时执行帧间和/或帧内高通滤波。
30.根据权利要求17所述的设备,其中,所述数据处理器可操作用于在不从压缩的音频数据中重新生成数字化的音频样本的情况下恢复隐藏的数据。
31.一种数据隐藏设备,包括:
音频编码装置,用于接收并压缩表示音频信号的数字音频样本以生成压缩的音频数据;
用于接收要被隐藏在所述音频信号之内的数据并且用于取决于接收到的所述数据而改变压缩的所述音频数据以生成修改的压缩音频数据的装置;以及
用于使用修改的所述压缩音频数据来生成音频样本的装置,所述音频样本表示了原始的音频信号并传送隐藏的所述数据。
32.一种机顶盒,包括用于接收音频信号的接收装置、用于将数据隐藏在接收的所述音频信号中的隐藏装置以及用于为用户输出具有隐藏的所述数据的所述音频信号的输出装置,其中,所述隐藏装置用所述音频信号之内的回波序列或回波组合来表示要被隐藏的所述数据的每个数据符号。
33.根据权利要求32所述的机顶盒,其中,所述隐藏装置在将那些回波添加到所述音频信号之前对所述回波中的一个或多个执行高通滤波。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB0710211.4 | 2007-05-29 | ||
GBGB0710211.4A GB0710211D0 (en) | 2007-05-29 | 2007-05-29 | AMR Spectrography |
PCT/GB2008/001820 WO2008145994A1 (en) | 2007-05-29 | 2008-05-29 | Recovery of hidden data embedded in an audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101715549A CN101715549A (zh) | 2010-05-26 |
CN101715549B true CN101715549B (zh) | 2013-03-06 |
Family
ID=38289454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008800178789A Active CN101715549B (zh) | 2007-05-29 | 2008-05-29 | 嵌入在音频信号中的隐藏数据的恢复 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20100317396A1 (zh) |
EP (1) | EP2160583B1 (zh) |
JP (1) | JP5226777B2 (zh) |
CN (1) | CN101715549B (zh) |
AT (1) | ATE523878T1 (zh) |
BR (1) | BRPI0812029B1 (zh) |
GB (1) | GB0710211D0 (zh) |
WO (1) | WO2008145994A1 (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2460306B (en) * | 2008-05-29 | 2013-02-13 | Intrasonics Sarl | Data embedding system |
WO2010138777A1 (en) * | 2009-05-27 | 2010-12-02 | Arsh Technologies, Llc | Automatic resource retrieval and use |
CN101944360A (zh) * | 2009-07-03 | 2011-01-12 | 邱剑 | 方便使用的方法和终端 |
BR122020007866B1 (pt) | 2009-10-21 | 2021-06-01 | Dolby International Ab | Sistema configurado para gerar um componente de alta frequência de um sinal de áudio, método para gerar um componente de alta frequência de um sinal de áudio e método para projetar um transpositor de harmônicos |
WO2012006171A2 (en) * | 2010-06-29 | 2012-01-12 | Georgia Tech Research Corporation | Systems and methods for detecting call provenance from call audio |
FR2966635A1 (fr) * | 2010-10-20 | 2012-04-27 | France Telecom | Procede et dispositif d'affichage de donnees vocales d'un contenu audio |
US20130053012A1 (en) * | 2011-08-23 | 2013-02-28 | Chinmay S. Dhodapkar | Methods and systems for determining a location based preference metric for a requested parameter |
WO2013144092A1 (en) * | 2012-03-27 | 2013-10-03 | mr.QR10 GMBH & CO. KG | Apparatus and method for acquiring a data record, data record distribution system, and mobile device |
CN103377165A (zh) * | 2012-04-13 | 2013-10-30 | 鸿富锦精密工业(深圳)有限公司 | 具有usb接口的电子装置 |
GB201206564D0 (en) | 2012-04-13 | 2012-05-30 | Intrasonics Sarl | Event engine synchronisation |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US10419556B2 (en) | 2012-08-11 | 2019-09-17 | Federico Fraccaroli | Method, system and apparatus for interacting with a digital work that is performed in a predetermined location |
US11184448B2 (en) | 2012-08-11 | 2021-11-23 | Federico Fraccaroli | Method, system and apparatus for interacting with a digital work |
US9473582B1 (en) | 2012-08-11 | 2016-10-18 | Federico Fraccaroli | Method, system, and apparatus for providing a mediated sensory experience to users positioned in a shared location |
WO2015068310A1 (ja) | 2013-11-11 | 2015-05-14 | 株式会社東芝 | 電子透かし検出装置、方法及びプログラム |
US20160380814A1 (en) * | 2015-06-23 | 2016-12-29 | Roost, Inc. | Systems and methods for provisioning a battery-powered device to access a wireless communications network |
GB2556023B (en) | 2016-08-15 | 2022-02-09 | Intrasonics Sarl | Audio matching |
US20230368320A1 (en) * | 2022-05-10 | 2023-11-16 | BizMerlinHR Inc. | Automated detection of employee career pathways |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893067A (en) * | 1996-05-31 | 1999-04-06 | Massachusetts Institute Of Technology | Method and apparatus for echo data hiding in audio signals |
CN1254475A (zh) * | 1997-03-21 | 2000-05-24 | 卡纳尔股份有限公司 | 向mpeg接收/译码器下载数据的方法和用来实现该方法的mpeg传输系统 |
CN1505291A (zh) * | 1998-05-12 | 2004-06-16 | ���ѷý���о��ɷ�����˾ | 数字电视的观众测定系统 |
CN1575492A (zh) * | 2001-10-25 | 2005-02-02 | 皇家飞利浦电子股份有限公司 | 利用减少的带宽在传输通道上传输宽带音频信号的方法 |
EP1503369A2 (en) * | 2003-07-31 | 2005-02-02 | Fujitsu Limited | Data embedding device and data extraction device |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5457807A (en) * | 1994-03-21 | 1995-10-10 | Weinblatt; Lee S. | Technique for surveying a radio or a television audience |
JPH08149163A (ja) * | 1994-11-18 | 1996-06-07 | Toshiba Corp | 信号伝送装置及び受信装置及び方法 |
US6125172A (en) * | 1997-04-18 | 2000-09-26 | Lucent Technologies, Inc. | Apparatus and method for initiating a transaction having acoustic data receiver that filters human voice |
US6467089B1 (en) * | 1997-12-23 | 2002-10-15 | Nielsen Media Research, Inc. | Audience measurement system incorporating a mobile handset |
US6003004A (en) * | 1998-01-08 | 1999-12-14 | Advanced Recognition Technologies, Inc. | Speech recognition method and system using compressed speech data |
US7155159B1 (en) * | 2000-03-06 | 2006-12-26 | Lee S. Weinblatt | Audience detection |
US20010055391A1 (en) * | 2000-04-27 | 2001-12-27 | Jacobs Paul E. | System and method for extracting, decoding, and utilizing hidden data embedded in audio signals |
GB2365295A (en) * | 2000-07-27 | 2002-02-13 | Cambridge Consultants | Watermarking key |
US6674876B1 (en) * | 2000-09-14 | 2004-01-06 | Digimarc Corporation | Watermarking in the time-frequency domain |
CN101282541B (zh) * | 2000-11-30 | 2011-04-06 | 因特拉松尼克斯有限公司 | 通信系统 |
AU2211102A (en) * | 2000-11-30 | 2002-06-11 | Scient Generics Ltd | Acoustic communication system |
KR100375822B1 (ko) * | 2000-12-18 | 2003-03-15 | 한국전자통신연구원 | 디지털 오디오의 워터마크 삽입/추출 장치 및 방법 |
CN101115124B (zh) * | 2006-07-26 | 2012-04-18 | 日电(中国)有限公司 | 基于音频水印识别媒体节目的方法和装置 |
-
2007
- 2007-05-29 GB GBGB0710211.4A patent/GB0710211D0/en not_active Ceased
-
2008
- 2008-05-29 JP JP2010509891A patent/JP5226777B2/ja active Active
- 2008-05-29 BR BRPI0812029A patent/BRPI0812029B1/pt active IP Right Grant
- 2008-05-29 AT AT08750719T patent/ATE523878T1/de not_active IP Right Cessation
- 2008-05-29 EP EP08750719A patent/EP2160583B1/en active Active
- 2008-05-29 WO PCT/GB2008/001820 patent/WO2008145994A1/en active Application Filing
- 2008-05-29 US US12/601,878 patent/US20100317396A1/en not_active Abandoned
- 2008-05-29 CN CN2008800178789A patent/CN101715549B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893067A (en) * | 1996-05-31 | 1999-04-06 | Massachusetts Institute Of Technology | Method and apparatus for echo data hiding in audio signals |
CN1254475A (zh) * | 1997-03-21 | 2000-05-24 | 卡纳尔股份有限公司 | 向mpeg接收/译码器下载数据的方法和用来实现该方法的mpeg传输系统 |
CN1505291A (zh) * | 1998-05-12 | 2004-06-16 | ���ѷý���о��ɷ�����˾ | 数字电视的观众测定系统 |
CN1575492A (zh) * | 2001-10-25 | 2005-02-02 | 皇家飞利浦电子股份有限公司 | 利用减少的带宽在传输通道上传输宽带音频信号的方法 |
EP1503369A2 (en) * | 2003-07-31 | 2005-02-02 | Fujitsu Limited | Data embedding device and data extraction device |
Also Published As
Publication number | Publication date |
---|---|
ATE523878T1 (de) | 2011-09-15 |
GB0710211D0 (en) | 2007-07-11 |
EP2160583A1 (en) | 2010-03-10 |
JP5226777B2 (ja) | 2013-07-03 |
BRPI0812029A2 (pt) | 2014-11-18 |
WO2008145994A1 (en) | 2008-12-04 |
EP2160583B1 (en) | 2011-09-07 |
JP2010530154A (ja) | 2010-09-02 |
CN101715549A (zh) | 2010-05-26 |
BRPI0812029B1 (pt) | 2018-11-21 |
US20100317396A1 (en) | 2010-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101715549B (zh) | 嵌入在音频信号中的隐藏数据的恢复 | |
TW519616B (en) | Method and apparatus for predictively quantizing voiced speech | |
CN101006495A (zh) | 语音编码装置、语音解码装置、通信装置以及语音编码方法 | |
CN101421780B (zh) | 用于编码和解码时变信号的方法和设备 | |
EP1145228A1 (en) | Periodic speech coding | |
JP4445328B2 (ja) | 音声・楽音復号化装置および音声・楽音復号化方法 | |
JP4464484B2 (ja) | 雑音信号符号化装置および音声信号符号化装置 | |
JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
CN105814629A (zh) | 带宽扩展模式选择 | |
EP1204968B1 (en) | Method and apparatus for subsampling phase spectrum information | |
EP1382035A1 (en) | Audio coding | |
JP2003108197A (ja) | オーディオ信号復号化装置およびオーディオ信号符号化装置 | |
CN101171626A (zh) | 通过修改残余对声码器内的帧进行时间扭曲 | |
EP1355297A1 (en) | Data processing device | |
Chen et al. | Artificial bandwidth extension of telephony speech by data hiding | |
CN1312661C (zh) | 音调周期搜索装置、语音编码装置、和语音信号发射装置 | |
CN101740030B (zh) | 语音信号的发送及接收方法、及其装置 | |
JP2004302259A (ja) | 音響信号の階層符号化方法および階層復号化方法 | |
JPH11504733A (ja) | 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器 | |
JP4578145B2 (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
Magboub et al. | Multimedia speech compression techniques | |
Sisman et al. | A new speech coding algorithm using zero cross and phoneme based SYMPES | |
Gersho | Speech coding | |
Xydeas | An overview of speech coding techniques | |
KR20080034818A (ko) | 부호화/복호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |