CN1212605C - 用于数字音频数据的编码方法和解码方法 - Google Patents
用于数字音频数据的编码方法和解码方法 Download PDFInfo
- Publication number
- CN1212605C CN1212605C CNB018230164A CN01823016A CN1212605C CN 1212605 C CN1212605 C CN 1212605C CN B018230164 A CNB018230164 A CN B018230164A CN 01823016 A CN01823016 A CN 01823016A CN 1212605 C CN1212605 C CN 1212605C
- Authority
- CN
- China
- Prior art keywords
- data
- frequency
- component
- amplitude information
- digital audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
Abstract
用于数字音频数据的编码方法和解码方法,能够根据不同的数字内容并且无需牺牲话音清晰度而改变再现速度。该编码方法包括以下步骤:对于每一个预定的离散频率产生成对的数字化正弦波分量和余弦波分量,并且,通过使用该正弦波和余弦波分量,从以预定采样周期采样的数字语音数据中,提取该正弦波分量的幅度信息和该余弦波分量的幅度信息,帧数据包括各对根据相应离散频率所提取的正弦波分量幅度信息和余弦波分量幅度信息,其随后被作为编码音频数据的一部分而依次产生。
Description
技术领域
本发明涉及编码和解码以一预定时间采样的数字音频数据的方法。
背景技术
有某些常规方法被称为信号波形的时基插值和展开法,其用于改变再现速度同时保持说话的音调周期(pitch period)和清晰度。这些方法也适用于语音编码。即在编码之前,语音数据曾经受到时标压缩,而在解码之后,该语音数据的时标被扩展,从而实现信息压缩。基本上,该信息压缩是通过在音调周期削去一个信号波形实现的,并且所压缩的信息基于在子波之间的间隔插入新的子波的信号波形插值而扩展。用于这个过程的方法包括时域调和定标(Time Domain HarmonicScaling,TDHS)和PICOLA(指针间隔控制重叠及添加),它们是以三角形窗削去和插值、同时保持在该时域中语音间距的周期性的方法,并且是通过快速傅里叶变换在频域内削去和插值的方法。这些方法具有非周期性的和瞬变的部分处理问题,并且在解码方扩展量化语音数据的过程中很可能出现失真。
在之前和之后的帧中保持语音间距的周期性的同时,插入子波的方法实际上也适用于当一个帧的子波或者信息在分组传输中完全丢失时的情况。
在上述波形插值中作为在信息压缩上的改进而提出的方法包括:基于时间频率插值(TFI)、典型波形插值(PWI)或者更常规的波形插值(WI)的编码方法。
发明内容
本发明人研究了上述的现有技术,并且发现以下问题。即,由于在解码中,带有再现速度改变功能的常规的语音数据编码方法被配置为编码数据而以较高优先级给予语音的音调信息,故它们可以被用于处理语音本身,但是不能施用于包括除语音以外声音的数字内容,例如:音乐本身、带有音乐背景的声音等等。因此,事实上是:带有再现速度变换功能的常规的语音数据编码方法仅在电话等等有限的技术领域中适用。
完成本发明就是为了解决上述问题,并且本发明的一个目的就是提供数字音频数据的编码和解码方法,以供编码和解码经由不同的数据通信和记录介质以及电话传输的数字内容(其典型地是声音、电影、新闻等等数字信息,主要包括音频数据且其以下将被称为数字音频数据),同时在音频清晰度得到保持的情况下,允许提高数据压缩率、改变再现速度等等。
根据本发明的数字音频数据的编码方法无需降低音频的清晰度而能够令人满意地进行数据压缩。根据本发明的数字音频数据的解码方法,通过利用由根据本发明的数字音频数据的编码方法所编码的该编码音频数据,能够容易和自由地改变再现速度而无需在间隔方面改变。
根据本发明的数字音频数据的编码方法包括以下步骤:预先设定以预定间隔分隔的离散频率;基于成对的正弦分量和余弦分量——其中各分量对应于每个离散频率且每个分量被数字化,而在每个第二周期上,从以第一周期采样的数字音频数据中提取正弦分量和余弦分量对的幅度信息项;并且作为编码的音频数据的一部分,依次产生帧数据,该帧数据包括在相应离散频率上提取的正弦和余弦分量的幅度信息项对。
特别是,在所述数字音频数据的编码方法中,为预先确定的间隔所分隔的离散频率被设定于受到采样的数字音频数据的频域内,并且在这些离散频率中的每一个频率上产生一对数字化的正弦分量和余弦分量。例如,公开号为2000-81897的日本专利申请公开了这样一种方法:编码方受到配置而将整个频率范围划分为多个频带,并在所划分的这些频带的每一个频带中提取幅度信息,且解码方受到配置而以所提取的幅度信息产生正弦波,并且合成在相应频带中产生的正弦波以获得原始音频数据。划分频带通常借助于数字滤波器实现。在此情况下,当分隔精确度被提高时,处理量变得非常大;因此,难于提高编码的速度。相比之下,由于根据本发明的数字音频数据的编码方法被配置成在所有频率中的相应离散频率上产生正弦和余弦分量对,并且提取相应的正弦和余弦分量的幅度信息项,故本方法可用于提高编码处理的速度。
特定地,在所述数字音频数据的编码方法中,相对于采样周期的第一周期而在每个第二周期上,使数字音频数据与每一个彼此成对的正弦分量和余弦分量相乘,从而提取作为乘法结果的直流分量的每个幅度信息。当以这种方法利用在每个离散频率上的成对的正弦和余弦分量的幅度信息的时候,所得到的编码音频数据就同时包含了相位信息。以上所述的第二周期不需要等于是数字音频数据的采样周期的第一周期,并且该第二周期是在解码方的再现周期的基准周期。
在本发明中,如上所述,编码方被配置成在一个频率上提取正弦分量的幅度信息和余弦分量的幅度信息两者,而解码方被配置成通过使用这些幅度信息项产生数字音频数据;因此,在频率上传输相位信息并获得具有较好清晰度的声音质量也是可行的。即,编码方不必按过去要求执行截断(cut out)数字音频数据波形的处理,从而使声音的连续性得以保持;并且解码方被配置成无需截断波形单元的处理,使得在再现速度不改变的情况下,当然也在再现速度被改变的情况下,保证了波形的连续性,从而获得极好的清晰度和音质。但是,由于人类听觉在高频域几乎不能区分相位,较少需要在高频域也传输相位信息,并且仅通过幅度信息就可以保证其中再现的音频有足够清晰度。
因此,根据本发明的数字音频数据的编码方法可以被安排成对于选自离散频率的一个或多个频率,特别是对于较少需要相位信息的高频,计算在所选择的每个频率上的一和分量的平方根,其中该和分量作为彼此成对的正弦分量和余弦分量的相应幅度信息项的平方和而给出,并且用由这些幅度信息对所获得的和分量的平方根替换对应于所选择频率的幅度信息对。这种安排实现了与近年来经常使用的MPEG的数据压缩率处于可比水平的数据压缩率。
根据本发明的数字音频数据的编码方法还可以被安排成考虑到人类听觉的特性削去无意义的幅度信息,从而提高数据压缩率。一个例子是有一种方法有意削去不太可能为人类感知的数据,例如频率掩蔽(frequency masking)或者时间掩蔽(time masking);例如,一种有可能的安排是:在帧数据中的整个幅度信息串是由对应于相应离散频率的正弦和余弦分量的幅度信息对组成的情况下,在和分量的平方根之间或者之中进行比较,其中该和分量(每个和分量是一个正弦分量的幅度信息项和一个余弦分量的幅度信息项的平方和)具有两个或更多个彼此靠近的幅度信息对,且在经过这样比较的幅度信息对中,除了具有和分量的最大平方根的幅度信息对之外,从帧数据中消去其它幅度信息对。在帧数据中的幅度信息串的一部分由不包含相位信息(该信息由和分量的平方根组成并在下文中称之为平方根信息)的幅度信息组成的情况下,也可能采用这样一种配置:其中在两个或更多个彼此靠近的平方根信息条之间或者之中进行比较,并且在经过比较的这些平方根信息条中,除了最大平方根信息之外,消去其中的其它平方根信息条,这与上述相邻幅度信息对(全部包括相位信息)的情况恰好相同。以上所述的任一种配置均可显著提高数据压缩率。
音频传输系统近来普遍使用因特网等等而增加了将所传输的音频数据(数字信息,主要包括人类语音,诸如新闻节目、讨论会、歌曲、广播剧、语言节目等等)先行存储的机会,上述音频数据系存储于诸如硬盘和半导体存储器的记录介质中,并且尔后由此再现所传输的音频数据。尤其是,老年性耳聋患者包括一类难于听取高讲话速度的人。在将语言作为学习目标的外语学习过程中,也存在降低讲话速度的强烈需要。
在如上所述的社交情形之下,如果实现数字内容的传输,而对该数字内容应用根据本发明的数字音频数据的编码方法和解码方法,则用户将无需在再现音频的间距(用以提高或者降低再现速度)上进行改变,而得以任意地调整再现速度。在这种情况下,用户可以在他们不希望详细听取的部分提高再现速度(用户甚至可以在接近正常再现速度二倍的速度上充分地了解内容,因为间距没有改变),而在他们希望详细听取的部分可以瞬间返回到原始的再现速度,或者返回到比原始再现速度更慢的再现速度。
特定地,根据本发明的数字音频数据的解码方法被安排成在其中如上所述编码的帧数据的整个幅度信息串(其构成编码音频数据的一部分)由对应于相应离散频率的正弦和余弦分量的幅度信息项对组成的情况下,所述方法包括以下步骤:首先在每个离散频率上依次产生彼此成对的正弦分量和余弦分量,而以第三周期使其数字化;且随后基于幅度信息对和所产生的对应于相应离散频率的正弦和余弦分量对,依次产生以再现周期的第四周期(其基于上述第二周期而设定)恢复的帧数据中的数字音频数据。
另一方面,在帧数据的幅度信息串的一部分由不包含相位信息(和分量的平方根由成对的正弦和余弦分量的幅度信息项的平方和所给出)的幅度信息组成的情况下,根据本发明的数字音频数据的解码方法包括以下步骤:基于在相应离散频率上数字化的正弦或者余弦分量,并基于与此相应的和分量的平方根,依次产生数字音频数据。
以上所述的两种解码方法可以被安排成:以短于上述第四周期的第五周期依次产生一个或多个幅度插值信息条,用于在以第四周期恢复的帧数据之间实施幅度信息的线性插值或者曲线函数插值。
考虑到以下详细说明和及其附图,可以充分理解根据本发明的各实施例。应明白,所展示的这些实施例仅仅用于说明,而非用于限定本发明。
通过下面详细说明,本发明的进一步应用的范围将变得显而易见。但应注意到,详细说明和特定的例子所展示的是本发明的优选实施例,并且它们是仅为了说明起见而被提出的,显然,鉴于详细的描述,在本发明的精神和范围内的各种各样的修改和改进对于那些本领域技术人员来说是显而易见的。
附图简要说明
图1A和图1B是示例图,用于从概念上解释根据本发明的每个实施例(编号1)。
图2是一个流程图,用于解释根据本发明的数字音频数据的编码方法。
图3是示例图,用于解释以周期Δt采样的数字音频数据。
图4是一个概念性示意图,用于解释从一对与相应离散频率对应的正弦和余弦分量中提取各幅度信息的过程。
图5是一个示例图,其示出构成编码音频数据的一部分的帧数据的第一结构实例。
图6是一个示出编码音频数据结构的示例图。
图7是一个用于解释加密处理的示意图。
图8A和图8B是用于解释对帧数据实施数据压缩的第一实施例的示意图。
图9是一个示例图,其示出构成编码音频数据的一部分的帧数据的第二结构实例。
图10A和图10B是示意图,用于解释对帧数据实施数据压缩的第二实施例,而详细地说,图10B是一个示例图,其示出构成编码的音频数据的一部分的帧数据的第三结构实例。
图11是一个流程图,用于解释根据本发明的数字音频数据的解码过程。
图12A、图12B以及图13均为示意图,用于解释要解码的数字音频数据的数据插值。
图14是一个示例图,用于从概念上解释根据本发明的每个实施例(编号2)。
本发明的最佳实施方式
在下面将参考图1A~1B、2~7、8A~8B、9、10A~10B、11、12A~12B以及13~14描述根据本发明的音频数据的数据结构等等的每一个实施例。无需赘述,贯穿各附图的描述中,相同的部分将由相同的参考符号表示。
通过根据本发明的数字音频数据的编码方法而编码的编码音频数据,在再现期间无需降低清晰度(易于听到),使用户能实现新的音频数据的解码,而以用户所自由设定的再现速度再现该音频数据。基于在数据通信环境中数字技术的最新发展和改进,可设想出上述音频数据的各种各样的应用形式。 图1A和1B是概念性示意图,用于解释将如何在产业中使用编码音频数据。
如图1A所示,数字音频数据由信息源10提供,该数字音频数据作为一个对象,将通过根据本发明的数字音频数据的编码方法进行编码。信息源10最好是一种提供数字音频数据的信息源,该数字音频数据例如记录在MO、CD(包括DVD)、H/D(硬盘)等等中,并且所述数据还可以例如是由市场上可买到的教育资料、电视台、广播电台等等提供的音频数据。 其他可应用的数据为直接经由麦克风取得的数据、或者在编码过程之前通过将从前记录在磁带等等中的模拟音频数据数字化而获得的数据。编辑器100编码数字音频数据,而通过使用在编码器200中的信息源10产生编码的音频数据,编码器200包括诸如个人计算机的信息处理设备。在此情况下,考虑到现行的数据提供方法,这样产生的编码音频数据通常是以该数据从前被记录在记录介质20中的状态被提供给用户,记录介质20诸如为CD(包括DVD)、H/D等等。或许还可以设想那些CD和H/D包括与编码音频数据相关的图像数据的记录。
尤其是,CD和DVD作为记录介质20,通常被作为杂志的附录提供给用户,或者在类似计算机软件应用、音乐CD等等(在市场上分发)的商店中销售。此外所产生的编码音频数据可能从服务器300经信息通信装置传输给用户,该信息通信装置例如是像因特网、蜂窝电话网这样的网络150和卫星160,而无论其为有线或无线装置。
为传输数据,由编码器200产生的编码音频数据连同图像数据等等一起,先在服务器300中存储于存储设备310(例如H/D)内。然后,先存储在H/D 310中的编码音频数据(其可以被加密)被通过收发信机320(图中的I/O)发送给用户终端400。在用户终端400一方,通过收发信机450接收的编码音频数据先存储在一个H/D(包含于外部存储设备30中)内。另一方面,在通过使用CD、DVD等等供应数据的情况下,由用户购买的CD被安放在终端设备400的CD驱动器或者DVD驱动器上,CD驱动器或者DVD驱动器被用作该终端设备的外部记录装置30。
通常,用户方终端设备400配备有一个输入设备460,一个诸如CRT、液晶显示器等等的显示器470,以及扬声器480,而与图像数据等等一起被记录在外部存储设备30中的编码音频数据先被终端设备400(其还可以通过软件实现)的解码器410解码,成为具有用户个人指定的再现速度的音频数据,尔后从扬声器480输出。另一方面,存储在外部存储器30中的图像数据在VRAM432中先经过解压缩,并且尔后在显示器470(位映像显示器)上逐帧显示。如果通过在外部存储器30中依次存储要由解码器410解码用于再现的数字音频数据,在外部存储器30中准备几种类型的数字音频数据,用以在不同的再现速度上进行再现,则通过利用如在日本专利No.2581700中所描述的技术,用户将得以在具有不同再现速度的多个类型的数字音频数据间实施切换再现。
用户可以听到从扬声器480输出的声音,同时在显示器470上显示相关的图像471,如图1B所示。如果在这个时候仅要在音频的再现速度上进行改变,图像的显示定时就可能偏移。因此,为了使解码器410能够控制图像数据的显示定时,指示图像显示定时的信息可以预先被加入在编码器200中产生的编码音频数据中。
图2是用于解释根据本发明的数字音频数据的编码方法的流程图,并且编码方法在编码器200中的信息处理设备中执行,从而能够快速和令人满意地进行数据压缩而无需降低音频的清晰度。
在根据本发明的数字音频数据的编码方法中,第一个步骤是指定以周期Δt采样的数字音频数据(步骤ST1),并且接下来的步骤是设定一离散频率(信道CH),在该离散频率上将提取幅度信息(步骤ST2)。
通常知道音频数据在其频谱中包含极大的频率成分范围。还知道音频频谱分量在相应频率上的相位不是恒定的,且因此对于在一个频率上的一个音频频谱分量来说,存在正弦分量和余弦分量二个分量。
图3是一个示出随时间推移以周期Δt采样的音频频谱分量的示例图。假定每个音频频谱分量以整个频率域中有限数目信道CHi(离散频率Fi,其中i=1,2,…,N)上的信号分量表示,第M个采样的音频频谱分量S(m)(其为处于从采样开始过了时间(Δt·m)的一点上的一音频频谱分量)可以表示如下:
以上公式(1)表示音频频谱分量S(m)是由第1至第N个分量的N个频率分量组成的。实际的音频信息包括一千个以上的频率分量。
根据本发明的数字音频数据的编码方法已经基于本发明人发现的以下事实而实现,即:即使编码音频数据是由有限数目的离散频率分量表示,根据人类听觉特性的性质,音频的清晰度以及声音的质量实际上保持未受影响。
在随后的步骤中,涉及在步骤ST1指定的第M个采样的数字音频数据(具有音频频谱分量S(m),处理器提取一正弦分量,即sin(2πFi(Δt·m))以及一余弦分量,即cos(2πFi(Δt·m)),将在步骤ST2设定的频率Fi(信道CHi)数字化(步骤ST3);并且处理器进一步提取相应的正弦分量和余弦分量的幅度信息项Ai、Bi(步骤ST4)。步骤ST3~ST4被实施于所有的N个信道(步骤ST5)。
图4是概念性示意图,其展示在相应频率(信道CH)上提取一对幅度信息的过程。由于如上所述音频频谱分量S(m)被表示为在频率Fi上的正弦和余弦分量的合成波,故作为对信道CHi的处理,音频频谱分量S(m)乘以正弦分量sin(2πFi(Δt·m))例如可导致获得带有系数Ai的sin(2πFi(Δt·m))和另一个波动分量(交流分量)的平方项。该平方项可以被分成直流分量和交流分量,如在下面普通公式(2)中那样。
sin2θ=1/2-cos2θ/2 (2)
因此,使用一个低通滤波器LPF,就可以从音频频谱分量S(m)乘以正弦分量sin(2πFi(Δt·m))的结果中提取直流分量,即幅度信息Ai/2。
类似地还可获得余弦分量的幅度信息,以使用一个低通滤波器LPF从音频频谱分量S(m)乘以余弦分量cos(2πFi(Δt·m))的结果中提取直流分量,即幅度信息Bi/2。
这些幅度信息项以低于上述采样周期的周期Tv (=Δt·v,其中v为一任意值)受到采样,例如,以50~100采样/秒受到采样,从而产生具有例如图5所示结构的帧数据800a。图5是示出帧数据的第一结构实例的示意图,其中对应于预先设定的相应频率Fi,帧数据由成对的正弦分量的幅度信息项Ai和余弦分量的幅度信息项Bi组成,并且诸如幅度信息的采样速率的控制信息被用作再现周期的基准频率。例如,假定音频波段是由110Hz~7000Hz的六个八度音阶限定的,并且信道CH被设定为每个八度音阶十二个频率,以便匹配音乐的乐律,则在该音频波段中总计设定七十二个(=N)频道CH。假定在每个频道CH上给每个幅度信息项分配一个字节,并且给控制信息CD分配八个字节,结果所述帧数据800a就具有152(=2N+8)个字节。
在根据本发明的数字音频数据的编码方法中,前述的步骤ST1~ST6被实施于所有采样的数字音频数据,从而产生具有如上所述结构的帧数据800a,并且最终产生如图6所示的编码音频数据900(步骤ST7)。
由于数字音频数据的编码方法被安排成在所有频率中的每个离散频率上产生一对正弦分量和余弦分量,并且如上所述地提取正弦分量和余弦分量的幅度信息项,故该编码方法能够提高编码处理的速度。由于构成编码音频数据900的一部分的帧数据800a是由在相应离散频率Fi上的相应正弦和余弦分量对的幅度信息项Ai、Bi组成的,获得的编码音频数据900包含相位信息。此外,不需要窗口处理而从原始音频数据中截去频率分量,从而使音频数据的连续性得以保持。
所获得的编码音频数据900可以经由如图1A所示的网络等等提供给用户,在这种情况下,如图7所示,也可能加密每个帧数据800a,并且传送由加密的数据850a组成的编码音频数据。虽然图7示出在帧数据单元中加密,但是,也可能采用同时加密整个编码音频数据的加密处理,或者仅加密编码音频数据的一个或多个部分的加密处理。
在本发明中,编码方被配置成在一个频率上提取正弦分量的幅度信息和余弦分量的幅度信息两者,而解码方被配置成通过使用这些信息段产生数字音频数据,因此,还可发送在该频率上的相位信息,以便获得具有较好清晰度的音质。不过,人的听觉几乎不能在高频领域中鉴别相位,因此,很少需要在高频领域也发送相位信息,并且再现的音频的令人满意的清晰度可以仅通过幅度信息得到保证。
因此,根据本发明的数字音频数据的编码方法也可以被安排成:与选自离散频率中的一个或多个频率有关,尤其是与较少需要相位信息的高频有关,计算在每个选定频率上相互成对的正弦和余弦分量的相应幅度信息项的平方和所给出的和分量的平方根,并且,以从幅度信息对获得的和分量的平方根替换对应于在帧数据中选定频率的幅度信息对。
即,如图8A所示,让我们考虑表示成对的幅度信息项Ai、Bi相互正交的矢量,然后,通过如图8B所示的一个运算电路,获得由相应幅度信息项Ai、Bi的平方和给出的和分量的平方根Ci。压缩的帧数据是通过以如上所述获得的平方根信息Ci替换一个对应于每个高频的幅度信息对而获得的。图9是一个示例图,示出由省略如上所述的相位信息而产生的帧数据的第二结构实例。
例如,在七十二个频率上的正弦和余弦分量幅度信息项对的高频率方,假定幅度信息对被二十四个频率中的每个频率上的平方根信息Ci所替代;其中,每个幅度信息和平方根信息被分配一个字节,而控制信息CD被分配八个字节,帧数据800b具有128(=2×48+24+8)个字节。因此,当与图5所示帧数据800b相比较的时候,就在可比水平上获得近年来经常使用的MPEG音频级上的数据压缩率。
在图9中,帧数据800b中的区域810是一个平方根信息Ci在其中替换幅度信息对的区域。这个帧数据800b也可以被加密,从而能够作为如图7所示的内容被传送。
此外,根据本发明的数字音频数据的编码方法还可以被配置为,削去构成一个帧数据的其中一些幅度信息对,借此数据压缩率可以被进一步提高。图10A和10B是用于解释采用削去幅度信息的数据压缩方法例子的示例图。详细地说,图10B是一个示例图,其示出构成编码的音频数据的一部分的帧数据的第三结构实例。这个数据压缩方法可以应用于图5所示的帧数据800a和图9所示的帧数据800b两者,以下是图9所示的帧数据800b的压缩的描述。
首先,涉及在帧数据800b的幅度信息串中由各对正弦和余弦分量的幅度信息项组成的部分,计算在相互邻近的每组幅度信息对中,例如在组(A1,B1)和(A2,B2)、组(A3,B3)和(A4,B4)、…、组(Ai-2,Bi-2)和(Ai-1,Bi-1)中,相应对的平方根信息项C1、C2、…、Ci-1,并在所得到的平方根信息项C1和C2、C3和C4、Ci-2和Ci-1之间进行比较,以替代在相邻的幅度信息对之间的比较。在上述各组中的每一组中,保留具有较大平方根信息的对。以上比较也可以在具有三个或三个以上相互邻近的幅度信息对的每个组之中进行。
在这种情况下,如图10B所示,在帧数据800c中准备一个鉴别位串(识别信息),其中,如果保留的幅度信息对是较低频方幅度信息对,则0被设定为鉴别位,并且,其中如果保留的幅度信息对是较高频率方幅度信息对,则1被设定为鉴别位。
另一方面,在幅度信息对已经预先被平方根信息项替代的情况下,如在810区域中(参看图9),则在Ci和Ci+1之间、…、在CN-1和CN之间进行比较,而保留其较大者。在这种情况下,如果保留较低频率方的平方根信息,0也被设定为鉴别位,同时如果保留较高频率方平方根信息,1也被设定为鉴别位。以上比较也可以在具有三个或三个以上相互邻近的平方根信息项的每个组之中进行。
例如,在图9示出的帧数据800b的情况下,如上所述,帧数据800b由四十八个幅度信息对(每个幅度信息项一个字节)和二十四个平方根信息项(每个项一个字节)组成,幅度信息串被简化为48个字节(=2×24),而平方根信息串被简化为12个字节;但另一方面,36位(4.5字节)是为识别位所必需的。因此,在七十二个频率上提取相应正弦和余弦分量的幅度信息项的情况下,帧数据800c由60(=2×24+1×12)个字节的幅度信息串组成,鉴别信息近似为5(4.5)字节,且控制信息为8字节(总计73字节)。在同样条件下,图9所示帧数据800b具有128个字节,因此,数据可以被削减大约43%。
这个帧数据800c也可以如图7所示加密。
近来使用因特网等等的音频传送系统普及,增加了在诸如硬盘之类记录介质上先存储所传输的音频数据(主要包括人类语音的数字信息,诸如新闻节目、讨论会、歌曲、广播剧、语言文学节目等等)、且尔后由此再现所传送的音频数据的机会。尤其是,老年性耳聋患者包括一类难于听取高讲话速度的人。在将语言作为学习目标的外语学习过程中,也存在降低讲话速度的强烈需要。
在如上所述的社交情形之下,如果实现数字内容的传输,而对该数字内容应用根据本发明的数字音频数据的编码方法和解码方法,则用户将无需在再现音频的间距(用以提高或者降低再现速度)上进行改变,而得以任意地调整再现速度。在这种情况下,用户可以在他们不希望详细听取的部分提高再现速度(用户甚至可以在接近正常再现速度二倍的速度上充分地了解内容,因为间距没有改变),而在他们希望详细听取的部分可以瞬间返回到原始的再现速度,或者返回到比原始再现速度更慢的再现速度。
图11是一个流程图,用于解释根据本发明的数字音频数据的解码方法,所述分方法通过使用如上所述编码的编码音频数据900,能够容易和自由地改变语音速度而无需在间距上进行改变。
在根据本发明的数字音频数据的解码方法中,第一个步骤是设定再现周期Tw,该再现周期即从存储在诸如H/D的记录介质中的编码数据依次恢复帧数据的周期(步骤ST10),而下一个步骤是指定待解码的第n个帧数据(步骤ST11)。这个再现周期Tw是由采样周期Tv(=Δt·v,其中v是一任意值)与用户所指定的再现速度比R(以1为基础,R=0.5表示一半速度而R=2表示二倍速度)的比值(Tv/R)给出的,其中采样周期Tv是上述编码处理的幅度信息的采样周期。
随后,设定信道CH的频率Fi(i=1-N)(步骤ST12),并依次在每个频率Fi上产生正弦分量sin(2πFi(Δτ·n))和余弦分量cos(2πFi(Δτ·n))(步骤ST13和ST14)。
然后,基于在步骤ST13产生的相应频率Fi的正弦和余弦分量,产生自再现开始后经过时间(Δτ·n)处的数字音频数据,以及在步骤ST11指定的第n个帧数据中的幅度信息项Ai、Bi(步骤ST15)。
对于包括在编码音频数据900(参看图6)内的所有帧数据执行以上所述的步骤ST11~ST15(步骤ST16)。
当在步骤ST11指定的帧数据如图9中的帧数据800b所示,包括平方根信息Ci的情况下,所述过程可以通过将信息Ci用作正弦分量和余弦分量中的任一分量的系数而执行。理由是,涉及以信息Ci进行替换的频域是一个其中人类不太可能能够鉴别它们的频率区域,因此较少需要使正弦和余弦分量彼此区分开。如果在步骤ST11指定的帧数据中的一部分幅度信息丢失,正如在图10B所示出的帧数据800c,则再现速度的降低将导致再现的音频显著地变得不连续,如图12A和12B所示。由于这个缘故,如图13所示,最好是将再现周期Tw的时间间隔划分为(Tw/Δτ)区段,并且实施线性插值,或者在之前和之后的音频数据条之间实施曲线函数插值。在这种情况下,产生Tw/Δτ倍的原始音频数据项。
当一个专用于如上所述的根据本发明的数字音频数据的解码方法的集成电路芯片处理器被结合进诸如蜂窝电话的便携式终端的时候,用户被允许在移动时以期望的速度再现内容或者打电话。
图14是一个示例图,示出在全球规模数据通信系统中的应用,该系统用于将数据传输到请求传输的终端设备,其被配置为从一个诸如服务器的特定传输系统,经由有线或者无线的通信线路,将终端设备所指定的内容数据传输给该终端设备,并且,该系统主要能够使诸如音乐、图像等等特定内容经由因特网传输电路网而被分别地提供给用户,该因特网传输电路网例如是有线电视网和公用电话网、诸如蜂窝电话和卫星通信线路等等的无线电路网。由于数字技术的最新发展和在数据通信环境中的改进,所述内容传输系统的这种应用可以通过多种可设想到的方式实现。
在所述内容传输系统中,如图14所示,作为输送系统的服务器300配备有:存储设备310,用以临时存储按照用户请求而传输的内容数据(例如编码音频数据);和数据传输器320(I/O),用以经由有线网150或者经由使用通信卫星160的无线电链路将内容数据传输给用户方终端设备,该用户方终端设备例如为PC500或者蜂窝电话600。
作为终端设备(客户机),PC500配备有接收机510(I/O),用以经由网络150或者通信卫星160接收从服务器300传输的内容数据。PC500还配备有作为外部存储器的硬盘520(H/D),和用以将经由I/O510接收的内容数据临时记录到H/D520的控制器530。此外,PC500配备有:输入设备540(例如键盘和鼠标),用以接收来自用户的输入操作;显示设备550(例如CRT或者液晶显示器),用以显示图像数据;以及扬声器560,用以输出音频数据或者音乐数据。移动信息处理设备近来值得注意的发展,已经导致内容输送业务将蜂窝电话用作终端设备和存储介质700,其作为专用的再现装置(例如具有大约64MB存储容量的存储卡),无需实际使用通信功能。特别是,为了在没有通信功能的再现专用设备中提供记录介质700,PC500还可以配备有I/O570作为数据记录器。
终端设备可以是一个本身带有通信功能的便携式信息处理设备600,如图14所示。
工业实用性
如上所述,与使用带通滤波器的常规的频带分隔方法相比较,本发明令处理速度得以显著地提高,这归因于下列配置:通过使用对应于每个离散频率的一对正弦分量和余弦分量,从被采样的数字音频数据中提取出该正弦和余弦分量的幅度信息项。由于产生的编码音频数据包括各对正弦和余弦分量的幅度信息项,该对正弦和余弦分量对应于预先设定的相应离散频率,故在编码方和解码方间保存了每个离散频率上的相位信息。因此,解码方也能够不降低音频的清晰度,而以一个任意选择的再现速度来再现音频。
Claims (9)
1.一种数字音频数据的编码方法,包括以下步骤:
在以第一周期采样的数字音频数据的频域中设定以预先确定的间距分隔开的离散频率;
通过使用对应于所设定的每个所述离散频率的彼此成对的正弦分量和余弦分量,将各所述分量数字化,在每个第二周期上从所述数字音频数据中提取所述正弦分量和余弦分量对的幅度信息项;和
作为编码音频数据的一部分,依次产生帧数据,该帧数据包括对应于相应的所述离散频率的正弦和余弦分量的幅度信息项对。
2.根据权利要求1的数字音频数据的编码方法,其中对应于每个所述离散频率的所述正弦分量的幅度信息项通过将所述数字音频数据乘以该正弦分量而提取,对应于每个所述离散频率的所述余弦分量的幅度信息项通过将所述数字音频数据乘以该余弦分量而提取。
3.根据权利要求1的数字音频信息的编码方法,进一步包括以下步骤:
对于选自所述离散频率中的一个或多个频率,计算在每个所选频率上的一和分量的平方根,该和分量作为彼此成对的所述正弦和余弦分量的相应幅度信息项的平方和而给出;和
用由该幅度信息对获得的和分量的平方根替换包含在所述帧数据中的对应于每个所选频率的幅度信息对。
4.根据权利要求1的数字音频数据的编码方法,进一步包括以下步骤:
从包含在所述帧数据中的所述幅度信息中削去一个或多个幅度信息。
5.根据权利要求1的数字音频数据的编码方法,进一步包括以下步骤:
在包含在所述帧数据中的对应于彼此靠近的两个或更多个离散频率的幅度信息对之间或者之中,比较一和分量的平方根,该和分量作为彼此成对的正弦和余弦分量的相应幅度信息项的平方和而给出;和
在经过上述比较的两个或更多个幅度信息对中,除了具有所述和分量的最大平方根的幅度信息对以外,从包含在所述编码音频数据中的所述帧数据中消去其它的所述幅度信息对。
6.根据权利要求3的数字音频数据的编码方法,进一步包括以下步骤:
在包含在所述帧数据中的对应于彼此靠近的两个或更多个离散频率的幅度信息对之间或者之中,比较所述和分量的平方根;和
在经过上述比较的两个或更多个幅度信息对中,除了具有所述和分量的最大平方根的幅度信息对以外,从包含在所述编码音频数据中的所述帧数据中消去其它的所述幅度信息对。
7.一种数字音频数据的解码方法,其用于解码通过根据权利要求1的数字音频数据的编码方法而编码的编码音频数据,所述解码方法包括以下步骤:
在每个所述离散频率上依次产生彼此成对的正弦分量和余弦分量,以第三周期使其数字化;和
对于从所述编码音频数据中以再现周期的第四周期依次恢复的每一个帧数据,通过使用对应于所述相应离散频率的幅度信息对以及所述正弦和余弦分量对,依次产生数字音频数据,其中所述相应离散频率的幅度信息对包含在所恢复的所述帧数据中。
8.根据权利要求7的数字音频数据的解码方法,其中对于选自所述离散频率的一个或多个频率中的每一频率设定所述帧数据,使得所述彼此成对的正弦分量和余弦分量的幅度信息项对被一和分量的平方根所替代,其中该和分量作为所述幅度信息项的平方和而给出;和
其中通过所述编码方法获得的所述数字音频数据的一部分是通过使用在所述帧数据中的所述和分量的平方根而产生的,并且所述正弦分量和余弦分量中的任一个对应于该和分量的平方根所属于的频率。
9.根据权利要求7或者8的数字音频数据的解码方法,其中以短于所述第四周期的第五周期依次产生一个或多个幅度插值信息,用于在以所述第四周期依次恢复的帧数据之间实施幅度信息的线性插值或者曲线函数插值。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2001/000383 WO2002058053A1 (en) | 2001-01-22 | 2001-01-22 | Encoding method and decoding method for digital voice data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1493072A CN1493072A (zh) | 2004-04-28 |
CN1212605C true CN1212605C (zh) | 2005-07-27 |
Family
ID=11736937
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB018230164A Expired - Fee Related CN1212605C (zh) | 2001-01-22 | 2001-01-22 | 用于数字音频数据的编码方法和解码方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20040054525A1 (zh) |
JP (1) | JPWO2002058053A1 (zh) |
KR (1) | KR100601748B1 (zh) |
CN (1) | CN1212605C (zh) |
DE (1) | DE10197182B4 (zh) |
WO (1) | WO2002058053A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003534612A (ja) * | 2000-05-20 | 2003-11-18 | ヨンヒ リーン | オンデマンド型のコンテンツ提供方法及びシステム |
US7460684B2 (en) * | 2003-06-13 | 2008-12-02 | Nielsen Media Research, Inc. | Method and apparatus for embedding watermarks |
CN102592638A (zh) | 2004-07-02 | 2012-07-18 | 尼尔逊媒介研究股份有限公司 | 用于进行压缩数字位流的混合的方法及装置 |
SE532117C2 (sv) * | 2004-12-17 | 2009-10-27 | Ericsson Telefon Ab L M | Auktorisering i cellulära kommunikationssystem |
US8078301B2 (en) | 2006-10-11 | 2011-12-13 | The Nielsen Company (Us), Llc | Methods and apparatus for embedding codes in compressed audio data streams |
CN103258552B (zh) * | 2012-02-20 | 2015-12-16 | 扬智科技股份有限公司 | 调整播放速度的方法 |
EP2830054A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods using two-channel processing within an intelligent gap filling framework |
US9672833B2 (en) * | 2014-02-28 | 2017-06-06 | Google Inc. | Sinusoidal interpolation across missing data |
DE102017100076A1 (de) | 2017-01-04 | 2018-07-05 | Sennheiser Electronic Gmbh & Co. Kg | Verfahren zur latenzarmen Audioübertragung in einem LTE-Netzwerk |
CN115881131B (zh) * | 2022-11-17 | 2023-10-13 | 广东保伦电子股份有限公司 | 一种多语音下的语音转写方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1986005617A1 (en) * | 1985-03-18 | 1986-09-25 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4856068A (en) * | 1985-03-18 | 1989-08-08 | Massachusetts Institute Of Technology | Audio pre-processing methods and apparatus |
JP3528258B2 (ja) * | 1994-08-23 | 2004-05-17 | ソニー株式会社 | 符号化音声信号の復号化方法及び装置 |
US5668923A (en) * | 1995-02-28 | 1997-09-16 | Motorola, Inc. | Voice messaging system and method making efficient use of orthogonal modulation components |
JP3747492B2 (ja) * | 1995-06-20 | 2006-02-22 | ソニー株式会社 | 音声信号の再生方法及び再生装置 |
JPH1168576A (ja) * | 1997-08-22 | 1999-03-09 | Hitachi Ltd | データ伸張装置 |
WO1999033050A2 (en) * | 1997-12-19 | 1999-07-01 | Koninklijke Philips Electronics N.V. | Removing periodicity from a lengthened audio signal |
JP3617603B2 (ja) * | 1998-09-03 | 2005-02-09 | カナース・データー株式会社 | 音声情報の符号化方法及びその生成方法 |
US6195633B1 (en) * | 1998-09-09 | 2001-02-27 | Sony Corporation | System and method for efficiently implementing a masking function in a psycho-acoustic modeler |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
US6266643B1 (en) * | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6772126B1 (en) * | 1999-09-30 | 2004-08-03 | Motorola, Inc. | Method and apparatus for transferring low bit rate digital voice messages using incremental messages |
US6754618B1 (en) * | 2000-06-07 | 2004-06-22 | Cirrus Logic, Inc. | Fast implementation of MPEG audio coding |
-
2001
- 2001-01-22 CN CNB018230164A patent/CN1212605C/zh not_active Expired - Fee Related
- 2001-01-22 DE DE10197182T patent/DE10197182B4/de not_active Expired - Fee Related
- 2001-01-22 WO PCT/JP2001/000383 patent/WO2002058053A1/ja active IP Right Grant
- 2001-01-22 US US10/466,633 patent/US20040054525A1/en not_active Abandoned
- 2001-01-22 KR KR1020037009712A patent/KR100601748B1/ko not_active IP Right Cessation
- 2001-01-22 JP JP2002558260A patent/JPWO2002058053A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
DE10197182T5 (de) | 2004-08-26 |
US20040054525A1 (en) | 2004-03-18 |
DE10197182B4 (de) | 2005-11-03 |
WO2002058053A1 (en) | 2002-07-25 |
KR20030085521A (ko) | 2003-11-05 |
JPWO2002058053A1 (ja) | 2004-05-27 |
KR100601748B1 (ko) | 2006-07-19 |
CN1493072A (zh) | 2004-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5828325A (en) | Apparatus and method for encoding and decoding information in analog signals | |
CN1290290C (zh) | 计算机实现的音频数据隐藏的方法 | |
US20050172154A1 (en) | Systems and methods for providing digital content and caller alerts to wireless network-enabled devices | |
CN101652810B (zh) | 用于处理混合信号的装置及其方法 | |
US8712728B2 (en) | Method and device for monitoring and analyzing signals | |
CN1154087C (zh) | 提高低比特率音频编码系统音质的方法、编码器和译码器 | |
CN1160702C (zh) | 使用多通道音频信号的编码方法及装置 | |
EP1604483A2 (en) | Methods and systems for digital rights management of protected content | |
CN1212605C (zh) | 用于数字音频数据的编码方法和解码方法 | |
CN1663281A (zh) | 用于从压缩多媒体内容中生成散列的方法 | |
CN1231890C (zh) | 编码设备、解码设备和广播系统 | |
JP2003526274A (ja) | ディジタル電話信号へのデータの埋め込み | |
Huang et al. | A Fast and Low-Distortion Capacity Adaptive Synchronized Acoustic-to-Acoustic Steganography Scheme | |
Neubauer et al. | Advanced watermarking and its applications | |
Zivic | Modern Communications Technology | |
Wei et al. | Controlling bitrate steganography on AAC audio | |
Knapen et al. | Lossless compression of 1-bit audio | |
Kumar | Concealing Data in WAVE Audio | |
Kostadinov et al. | On digital watermarking for audio signals | |
Tomas et al. | Multichannel audio steganography based on MPEG surround using direct sequence spread spectrum | |
CN1930609A (zh) | 1位音频文件中插入数字水印的方法 | |
Kirbiz et al. | Forensic watermarking during AAC playback | |
Abdelsatir et al. | A multilayered scheme for transparent audio data hiding | |
Cierocki et al. | Steganography Algorithm for Voice Transmission in VHF Band | |
Herre et al. | Combined compression/watermarking for audio signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |