CN1882983B - 音频编码中基音轨迹量化的方法和系统 - Google Patents
音频编码中基音轨迹量化的方法和系统 Download PDFInfo
- Publication number
- CN1882983B CN1882983B CN200480034310XA CN200480034310A CN1882983B CN 1882983 B CN1882983 B CN 1882983B CN 200480034310X A CN200480034310X A CN 200480034310XA CN 200480034310 A CN200480034310 A CN 200480034310A CN 1882983 B CN1882983 B CN 1882983B
- Authority
- CN
- China
- Prior art keywords
- section
- pitch
- candidate
- subsegment
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000013139 quantization Methods 0.000 title claims description 22
- 230000005236 sound signal Effects 0.000 claims abstract description 43
- 238000012545 processing Methods 0.000 claims description 35
- 230000014509 gene expression Effects 0.000 claims description 31
- 238000013459 approach Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 10
- 230000001172 regenerating effect Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 239000012634 fragment Substances 0.000 description 69
- 238000005457 optimization Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 18
- 238000011002 quantification Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Image Processing (AREA)
Abstract
一种用于提供音频编码中的编码效率的方法和设备。根据一个或多个预选择标准,从音频信号的基音轨迹的基音值生成多个简化的基音轨迹段,从而近似基音轨迹。轨迹段可以是线性或非线性,每个轨迹段由第一终点和第二终点表示。如果该轨迹段是线性,则仅将关于终点的信息而不是基音值提供给解码器来重新生成音频信号。轨迹段可以具有固定的最大长度或可变长度,但是轨迹段和该段中的基音值之间的偏差受到最大值的限制。
Description
技术领域
本发明一般地涉及语音编码器,更具体地,涉及一种允许足够长的编码延时的语音编码器。
背景技术
在美国,当设计移动电话时,需要考虑到视觉上有缺陷的人。移动电话的制造商必须提供具有适用于视觉上有缺陷的用户的用户接口的电话。实践中,这意味着菜单除了显示在屏幕上以外还要“说出来”。将这些可以听见的消息存储在尽可能小的存储器中显然是有利的。通常,文字-语音(TTS)算法被考虑用于这种应用。但是,为了获得比较好的质量的TTS输出,需要宠大的数据库,因此,TTS并不是可用于移动终端的方便的方案。由于低的存储器使用率,所以不能接受当前TTS算法所提供的质量。
在TTS之外,语音编码器可用于对预先记录的消息进行压缩。在移动终端中对这个压缩后的信息进行保存和解码以生成输出语音。为了使得存储器消耗最低,期望非常低比特率的编码器。为了生成输入语音信号到编码系统,可以使用人工讲话或高质量(和高复杂度)的TTS算法。
在通常的语音编码器中,输入语音信号在称为帧的固定长度的段中进行处理。在当前语音编码器中,帧长通常为10-30ms,也可获得距离后续帧大约5-15ms的先行段。帧可以被进一步分为多个子帧。对于每个帧,编码器确定输入信号的参数表示。参数被量化,并且通过通信信道传输或存储在存储介质中。在接收端,解码器根据接收到的参数构成合成信号,如图1所示。
当语音编码的一个根本目的是在给定的编码率上获得可能的最佳质量时,在为某个应用开发语音编码器中还必须考虑其它的性能方面。在语音质量和比特率之外,下面详细描述的主要属性包括编码器延时(主要由帧大小加上可能的先行来定义)、编码器的复杂性和存储器要求、信道误差灵敏度、对有关听觉的背景噪声的鲁棒性以及编码语音的带宽。还有,语音编码器应当能够有效地复制带有不同能量电平和频率特性的输入信号。
基音轨迹(pitch contour)的量化是在几乎所有实际语音编码器中需要的任务。基音参数与语音的基本频率相关:在有声语音期间,基音对应于基本频率并且能够作为语音基音接收。在纯粹的无声语音期间,从物理角度而言没有基本频率,并且语音的概念是模糊的。然而,在大部分语音编码器中,在无声语音期间还需要“基音信息”。例如,在基于已知的码激励线性预测(CELP)方法的编码器中,在语音的无声部分期间还传输长期的预测滞后(大约对应于基音)
在通常的语音编码器中,以规则的间隔从信号估计基音参数。用于语音编码器中的基音估计器能够被粗略地分为以下类别:(ii)使用语音的时域属性的基音估计器,(ii)使用语音的频域属性的基音估计器,(iii)使用语音的时域属性和频域属性的基音估计器。
现有技术中最普遍的基音轨迹量化(以规则间隔估计的基音值)方案是使用标量量化。通常地,单个量化器用于所有的基音值,并且传输速率保持固定。还提供了可供选择的方案。例如,可使用标量量化器对每秒基音值进行量化,并且这些值之间的值可以用差分量化器进行编码。在现有的一些编码器中,量化器包括两个模式,无记忆模式和预测模式。当与基本方法比较时,这些技术具有一些优势,但是仅可以部分地使用冗余。
现有技术的主要缺陷是带有固定更新速率的常规量化技术本身是效率低的,这是因为在所传输的基音值中存在大量的冗余。基音参数量化中使用的固定更新速率通常很高(约为50到100Hz),以便能够处理基音快速改变的情况。但是,基音轨迹中发生快速改变是比较少见的。因此,在大部分情况下可使用非常低的更新速率。
发明内容
本发明利用了这样的事实,即通常的基音轨迹的展开相当地平滑但是包括偶然的快速变化。因此,可以生成接近于初始轨迹的形状但是包括较少的将要编码的信息的片段基音轨迹。不用对基音轨迹的每个基音进行编码,仅对定义导数变化的片段基音轨迹的点进行量化。在无声语音期间,恒定的默认基音值可以用于编码器和解码器。片段基音轨迹上的段可以是线性或非线性。
因此,根据本发明的第一方面,提供一种提高音频编码的编码效率的方法,其中,对音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,所述基音轨迹数据包括多个表示音频时间段的基音值。该方法包括以下步骤:
根据所述基音轨迹数据生成多个简化的基音轨迹段候选,每个候选对应于所述音频信号的子段;
测量每个简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差;
根据所测量的偏差和一个或多个预选择的标准,选择一个所述候选;以及
使用所选择候选的特性对对应于所选择的候选的音频信号的子段中的基音轨迹数据进行编码。
根据本发明的一个实施例,音频时间段中的音频轨迹数据由多个对应于所述音频段中多个连续子段的所选择的候选进行近似,所述多个选择的候选中的每个候选由第一终点和第二终点定义,并且其中,所述编码包括提供指示所述终点的信息的步骤,从而允许所述解码器根据所述信息而非所述基音轨迹数据重新生成音频段中的所述音频信号。一些所述连续子段中的基音值的数量等于或大于3。
根据本发明的一个实施例,生成步骤受到预选择条件的限制,从而每个所述简化的基音轨迹段候选和相应子段中的每个所述基音值之间的偏差小于或等于预定的最大值。
根据本发明的一个实施例,所生成的段候选具有各种长度,并且所述选择基于段候选的长度,预选择的标准包括所选择的候选在段候选中具有最大长度。
根据本发明的一个实施例,选择步骤基于所述段候选的长度,所述预选择的标准包括所测量的偏差在一组具有相同长度的候选组中为最小。
根据本发明的一个实施例,每个简化的基音轨迹段候选具有始点和终点,所述生成步骤通过调节所述段候选的终点而执行。
音频信号包括语音信号。
根据本发明的第二方面,提供一种用于对包括基音轨迹数据的音频信号进行编码的编码设备,该基音轨迹数据包括多个表示音频时间段的基音值。该编码设备包括:
用于接收基音轨迹数据的输入端;
数据处理模块,响应于基音轨迹数据,生成多个简化的基音轨迹段候选,每个候选对应于音频信号的子段,其中处理模块包括:
用于测量每个所述简化的基音轨迹段候选和对应子段中的基音值之间的偏差的算法;以及
用于根据所测量的偏差和预选择的标准选择一个所述候选的算法;以及
量化模块,响应于所选择的候选,用于使用所选择候选的特性对对应于所选择候选的音频信号的子段中的基音轨迹数据进行编码。
根据本发明的一个实施例,所述量化模块提供表示所述子段中编码后的基音轨迹数据的音频数据。该编码设备还包括:
存储设备,工作地连接到量化模块以接收音频数据,用于将音频数据存储到存储介质中。
根据本发明的另一个实施例,该编码设备还包括输出端,工作地连接到存储介质,用于将编码后的基音轨迹数据提供给存储介质以便存储。
根据本发明的另一个实施例,该编码设备还包括输出端,用于将编码后的基音轨迹数据发送到解码器,从而允许解码器也根据编码后的基音轨迹数据重新生成音频信号。
根据本发明的第三方面,提供一种实施在电子可读介质中与音频编码设备一起使用的计算机软件产品,该音频编码设备提供表示音频信号的参数,该参数包括基音轨迹数据,基音轨迹数据包括多个表示音频时间段的基音值。该软件产品包括:
用于根据基音轨迹数据生成多个简化基音轨迹段候选的代码,每个候选对应于音频信号的子段;
用于测量每个简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差的代码;以及
用于根据所测量的偏差和预选择的标准选择一个所述候选的代码,从而允许量化模化用所选择候选的特性对对应于所选择候选的音频信号的子段中的基音轨迹数据进行编码。
根据本发明的第四方面,提供一种用于重新生成音频信号的解码器,其中,对音频信号进行编码以提供指示所述音频信号的参数,该参数包括基音轨迹数据,基音轨迹数据包括多个表示音频时间段的基音值,并且其中,所述音频时间段中的所述基音轨迹数据由所述音频段中的多个连续子段近似,每个子段由第一终点和第二终点定义。该解码器包括:
输入端,用于接收表示定义所述子段的终点的音频数据;以及
根据所接收的音频数据重新生成音频段。
根据本发明的一个实施例,音频数据记录在电子介质上,并且解码器的输入端工作地连接到电子介质以接收音频数据。
根据本发明的另一个实施例,音频数据通过通信信道传输,并且解码器的输入端工作地连接到通信信道以接收音频数据。
根据本发明的第五方面,提供一种电子设备,包括:
用于重新生成音频信号的解码器,其中,对所述音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,基音轨迹数据包括多个表示音频时间段的基音值,并且其中,音频时间段中的所述基音轨迹数据由音频段中的多个连续子段近似,每个所述子段由第一终点和第二终点定义,从而能够根据定义所述子段的终点生成所述音频段;以及
输入端,用于接收指示终点的音频数据并且将音频数据提供给解码器。
根据本发明的一个实施例,音频数据被记录在电子介质中,并且输入端工作地连接到电子介质以接收音频数据。
根据本发明的另一个实施例,音频数据通过通信信道传输,输入端工作地连接到通信信道以接收音频数据。
该电子设备可以为移动终端或终端模块。
根据本发明的第六方面,提供一种通信网络,包括:
多个基站;以及
多个与所述基站进行通信的移动站,其中,至少一个移动站包括:
用于重新生成音频信号的解码器,其中,对所述音频信号进行编码以提供指示音频信号的参数,该参数包括基音轨迹数据,基音轨迹数据包括多个表示音频时间段的基音值,并且其中,音频时间段中的基音轨迹数据由音频段中的多个连续子段近似,每个子段由第一终点和第二终点定义,从而能够根据定义子段的所述终点生成所述音频段;以及
输入端,用于从至少一个基站接收指示终点的音频数据来将音频数据提供给解码器。
在结合附图2到6阅读说明之后本发明将变得明显。
附图说明
图1为表示现有技术中语音编码系统的方框图;
图2为根据本发明的一个实施例的片段基音轨迹的示例;
图3为表示根据本发明的一个实施例的语音编码系统的方框图;
图4为描述用于生成片段基音轨迹的迭代处理示例的流程图;
图5为描述用于根据优选的简化模式生成片段基音轨迹的迭代处理示例的流程图;
图6为表示能够实施本发明的通信网络的示意图。
具体实施方式
使用片段线性基音轨迹,仅将存在导数改变的基音轨迹的那些点传输给解码器。因此,极大地降低了基音参数需要的更新速率。原则上,片段线性基音轨迹以这样的方式构成,即,使得导数改变的数量最小,而保持来自“真实基音轨迹”的导数低于预先规定的限制。为了获得全局的优化结果,预处理段应当非常长,并且优化将需要大量的计算。但是,用这部分所描述的非常简单的技术能够获得非常好的结果。该描述基于用于存储预先记录的音频消息的语音编码器中使用的实施。
用于构成片段线性基音轨迹的简单但有效的优化技术可以通过在某个时间对一个线性段进行处理获得。对于每个线性段,搜索最大长度的线(可以使得离真轨迹的偏差足够低),而不用知道该线性段界限之外的轨迹。在这项优化技术中,必须考虑两种情况:第一线性段和其它线性段。
第一线性段的情况出现在当开始编码处理时的开始。另外,如果对于非活动的或无声的语音没有传送基音值,则在基音传输中的这些暂停之后第一段落入这个类别。在这两种情况中,可以优化该线的两个末端。其它的情况落入第二类中,其中线的始点已经固定,所以只能优化终点的位置。
在第一线性段的情况中,通过为到当时为止发现的线将第一个两个基音值选择为最佳终点开始处理。然后,通过考虑线的末端靠近第一和第三基音值的情况开始实际的迭代处理。线始点的候选为所有足够靠近第一起始基音值的量化基音值,从而满足所期望的准确度标准。类似地,终点的候选为足够靠近第三起始基音值的量化基音值。发现这些候选之后,对所有这些可能的始点和终点的组合进行试验:在每个起始基音位置上测量线性表示的准确度,如果在所有这些位置上满足准确度标准,则将该线接受为片段线性轨迹的一部分。另外,如果在当前线和起始基音轨迹之间的偏差小于与这个迭代处理步骤期间接受的其它线的任何一条线的偏差,则将当前线选择为到当时为止的最佳线。如果接受了至少一个所试验的线,则通过在取另外一个基音值到该段之后重复处理而继续迭代处理。如果没有供选方案是可接受的,则终止优化处理,并且将优化期间发现的最佳终点选择为片段线性基音轨迹的点。
在其它段的情况中,仅可以优化终点的位置。通过将固定的始点之后的第一基音值选择为到当时为止发现的线的最佳终点而开始处理。然后,通过考虑再一个基音值开始迭代处理。线终点的候选为在该位置上足够接近起始基音值的量化基音值,从而满足所期望的准确度标准。发现候选之后,所有这些候选都被作业终点进行试验。在每个起始基音位置上测量线性表示的准确度,如果在所有这些位置上满足正确度标准,则可以将候选线接受为片段线性轨迹的一部分。另外,如果与起始基音轨迹的偏差小于与在这个迭代处理步骤期间所试验的其它线,则终点候选被选择为到当时为止发发现的最佳终点。如果接受了至少一个所试验的线,则通过在将再一个基音值给该段之后重复处理继续迭代处理。如果没有供选方案是可接受的,则终止优化处理,并且将优化期间发现的最佳终点选择为片段线性基音轨迹的点。
在前面详细描述的两种情况中,迭代处理可以由于两个原因而过早结束。第一,如果没有更多的后续的基音值可用,则终止处理。这将发生在如果已经使用了整个预处理段、如果已经结束了语音编码或者如果在非活动或无声的语音期间基音传输已经暂停的情况下。第二,可对单个线性部分的最大长度进行限制,从而更加有效地对点位置进行编码。对于这两种情况,可以通过根据可用的基音值的数量和线末端之间的最大时间距离将限制imax设置为迭代处理号i而考虑这个问题。迭代处理如图4中所示。
在发现片段线性基音轨迹的新的点之后,该点可以被编码进比特流中。对于每个点必须给出两个值:该点上的基音值以及轨迹的新点和前一个点之间的时间距离。自然对于轨迹的第一个点不是必须对时间距离进行编码。可以方便地使用标量量化器对基音值进行编码。在用于存储音频菜单的编码器中的实施中,使用「log2(imax)」比特对每个时间距离值进行编码。如果需要,也可对时间距离值使用例如霍夫曼编码的某种无损失编码。基音值使用标量量化进行编码。标量量化器包括了使用以下等式获得的32个层级(5比特):
其中,n从2到32,p(1)=19个取样。对于低基音频率允许更多的失真,以考虑人的听力的特征。还有,人的听觉系统的已知特征通过在对数域中的基音量化期间执行失真测量来进行开发。
图2中表示根据本发明的片段基音轨迹的一个例子以及初始的基音轨迹。如图2所示,每个线性片段为连接两个点的直线,这两个点即为始点和终点。例如,图2中所示的片段基音轨迹的第二个线片段为连接t=1.22s的点和t=1.29s的点的直线。从t=1.22s到t=1.29s的时间间隔中的基音值的数量为8,包括始点和终点。
为了实施本发明,语音编码系统具有用于生成片段基音轨迹的附加模块。如图3所示,语音编码系统1包括编码模块10,编码模块10具有用于对多个片段中的输入语音信号进行处理的参数语音编码器12。对于每个片段,编码器12确定输入信号的参数表示112。根据该语音编码系统,这些参数可以是初始参数的量化版本或非量化版本。响应于该参数表示,压缩模块20使用例如软件程序22将基音轨迹缩小为片段基音轨迹。然后由量化模块24将片段轨迹上的点编码为经过通信信道或存储在存储介质30中的比特流120。在接收器端,解码器40用于根据所接收到的比特流130中表示片段基音轨迹和其它语音参数的信息生成合成语音信号140。
片段基音轨迹生成模块20中的软件程序22包括根据图4中所示的流程图500对基音轨迹中的基音值进行处理的机器可读代码。流程图500表示用于对表示片段轨迹的线性片段的直线(见图2)进行选择的迭代处理过程。每个直线具有始点Q(p0)和终点Q(pi)。对于第一个线性片段,必须选择始点Q(p0)和终点Q(pi)。对于所有其它的线性片段,仅需选择终点Q(pi)。在迭代处理的开始,选择覆盖包括三个基音值的时间间隔的线性段。因此,如果始点位于第一个时间点上而终点位于第二个时间点上,则在从第一个时间点到第二个时间点的时间间隔中存在三个基音值。因此,在步骤502设置i=2。在步骤504,终点被选择为接近第二个时间点上的基音值的点或被选择为第二个时间点上的基音值的点。对于第一个线性段,始点被选择为接近第一个时间点上的基音值的点或被选择为第二个时间点上的基音值的点。在步骤506,对在从第一个时间点到第二个时间点的时间间隔中的每个基音值之间的偏差以及连接始点和终点的直线进行测量。可选择地,该偏差可以用某些间隔进行测量。在步骤508,将该偏差与预定的误差值进行比较,以便确定当前的直线是否可被接受为候选。如果该时间间隔中的一些基音值的偏差超过预定的误差值,则调整终点(如果该线性段是第一个片段,则一起调整始点),并且该迭代处理循环返回步骤506直到不能进行调整为止。如果步骤508中确定当前直线能够被接受,则在步骤510中将其与稍早的结果进行比较从而确定它是否为到当时为止最好的直线。到当时为止最好的直线是指在具有已经获得的相同的i的直线中具有最小的绝对偏差总和的直线。在步骤512对到当时为止最好的线进行存储。在步骤520再次调整终点,直到不能进行调整。
当在步骤520中确定不再可能进行调整时,判断是否停止迭代处理并且使用在步骤512中存储的最佳线作为当前线的片段,或者进一步通过在步骤526中将i加1对线的片段进行扩展(除非在步骤524判断出当前i已经等于imax)。在将i加1之后可能在步骤522确定没有扩展的线能够被接受。在这种情况下,具有先前i的最佳线被用作当前片段的直线。候选的数量可以例如通过设置终点能够与取样值不同的程度的最大限制进行限制。还可以对不同终点候选之间的间隔进行设置以限制可能候选的数量。
应当注意,在图2的片段基音轨迹中,第三个线性片段仅覆盖两个基音值,即在t=1.29s和t=1.30s处。这是因为t=1.30s为分隔两个语音信号片段的时间点。
还应当注意,终点或始点的调整只能在步骤中执行。例如,Q(pi)的调整可以通过由一个量化步骤增加或减少Q(pi)的值来执行。但是,调整还可以在更小或更大的步骤中执行。还有,最长的线或者imax的限制可以被设定为大数,例如64。在这种情况下,始点和终点之间的时间间隔(以及,i)变化很大。例如,第四个线段中的i等于5,而第五个线段中的i为23。但是,如果imax被设定为例如5,则大部分或所有的线性段中的时间间隔(以及i)都相同。因此,当i为变量并且imax为变量或固定数时,本发明可以实施。还有,片段候选和步骤510中用于选择到当时为止的最佳候选的基音值之间的测量偏差可以是绝对差之和或其它的偏差测量。片段候选的生成可以由某个标准限制,例如,每个基音值和片段候选中的相应点之间的预定的最大绝对差。例如,最大差可以为五个或十个量化步骤,但是它可以为更小或更大的数。
还有,可以对前面所述的本发明进行修改而不会偏离修改的基音轨迹量化的基本概念。首先,可以使用不同的量化技术。第二,修改的基音轨迹不是必须为片段线性,只要要传输的基音值的数量可以保持为低。第三,可以修改用于对基音值和时间距离进行编码的量化技术。第四,可以在基音估计期间构成已存在基音轨迹的替代。
还有,前面所述的实施例并非唯一的可选择的实施方式。例如,可以任意选择用于确定新的基音轨迹的优化技术。另外,新的基音轨迹不是必须为片段线性。例如,可以使用样条函数(spline)、多项式、离散余弦变换等。例如,非线性轨迹可以具有以下的一般形式:
Q(p)=Q(p0)+α1[(Q(pi)-Q(p0)/(ti-t0)](t-t0)
+α2[(Q(pi)-Q(p0)/(ti-t0)]2(t-t0)2+...t1>t≥t0
在这种情况下,虽然根据需要对终点进行了更新,但是向解码器提供一次该算法就已足够。
一般讨论
寻找基音轨迹的优选简化模式可公式化为数学优化问题。用f(t)表示描述从0到tmax的范围中的初始基音轨迹的函数。还有,用g(t)表示简化的基音轨迹,d(f(t),g(t))表示在时刻t两个轨迹之间的偏差。现在,要解决的优化问题是找到满足两个最优性条件的简化基音轨迹g(t):
(I)使得描述轨迹g(t)所需的比特数最小化。
(I)对于所有的0≤t≤tmax,d(f(t),g(t))≤h(f(t))
其中h(·)定义了与初始基音轨迹的最大允许偏差。使得总偏差最小化的轨迹函数作为最终简化轨迹从满足这两个条件的轨迹集中被选择,该轨迹函数为:
(1)
一般地,上述优化问题是不能解决的。但是,如果通过固定基音轨迹模式降低它的一般性,则能够解决该问题。例如,在片段线性模式中,函数g(t)可以使用其中g(t)的导数改变的点进行描述。qn和tn表示第n个这种点的坐标(1≤n≤N,其中N为片段线性模式中这些点的数量)。简化的轨迹可以在N-1个线性片段中被定义为:
(2)
其中1≤n≤N-1。为了使得定义完整,要求tn<tn+1,并且t1=0,tN=tmax。另外,要求所有qn的值落入qmin到qmax的范围中。使用这种模式,优化问题简化为对描述满足条件(I)和(II)的轨迹g(t)并且使方程(1)中的总偏差最小化的点(tn,qn)的集合进行搜索。现在,通过合理地假定点的坐标可以仅用受限的分辨率表示,问题变得可解决,这是因为这些点位于具有有限数量的可能点位置的栅格中。这个假定没有降低公式的一般性,因为有限的正确性直接来自最优性条件(I)。
问题的解决方案
最后部分中公式化的优化问题能够以许多种方式解决。这里描述两个解决方案。第一个解决方案的计算负担较重但是它总是能够找到全局最佳条件,第二个解决方案非常简单但是仅能产生次优化的结果。在这两种方案中,我们假定使用具有编码簿C={c1,c2,...,cM}的标量量化器将基音值qn编码为比特,并且时标tn为某个时间单T的整数倍。还有,我们假定C和T都以使得解决方案存在的方式被选择,并且进一步合理地假定,描述轨迹所需的比特数能够通过最小化N(定义简化轨迹所需的点的数量)进行最小化。
全局优化方法
全局优化方案可以使用下面的前向穷举(straightforward bruteforce algorithm)算法获得:
步骤1初始化。设定N=1。
步骤2设定N=N+1。用当前N是否能够找到合适的片段线性模式?如果是,前进到步骤3。否则,重复步骤2。
步骤3退出并对简化轨迹进行编码。如果有几个合适的轨迹候选,则选择使得方程1中的总偏差最小化的一个。
步骤2中的测试可以对照最优性条件(II检查所有合适的片段线性轨迹候选(用当前N)来执行。在第一次迭代中(N=2),候选是所有具有满足下面条件的终点(t1,q1)和(t2,q2):
d(f(tn),qn)≤h(f(tn)).
(3)
在这种情况下,时标被固定为t1=0和t2=tmax。数值q1和q2从代码簿C中选择,因此只有限制数量的候选。在第二次迭代(N=3)期间,轨迹候选具有两个(N-1)线性片段。第一个时标和第三个时标(t1和t3)被固定为0和tmax,而时标t2可以在具有间隔T的T到tmax-T的范围中进行调整。再次地,数值qn从代码簿C选择。同样,使用某个任意N,简化轨迹包括N-1个线性片段,并且N-2个时标能够被调整。
容易看出,上面的算法已经找到了最优化的轨迹候选,因为步骤2中的检查考虑了条件(II),迭代过程保证了条件(I)的满足,并且总偏差在步骤3中最小化。但是,也容易看出,这个算法的复杂性随着问题的大小变得特别的快。更准确地,我们可以知道在最坏的状态下该算法具有不同的轨迹候选。
(4)
在上面的等式中,b表示能够满足等式3的条件的代码簿条目的最大数,并且m=(tmax/T)-1。
在实际的情形中,这些变量可以为例如b=3,m=62,在最坏的情况下具有大约1.9·1038个轨迹候选。因此,可以得出这样的结论,即这个理论上的优化方法只能用于b和m的值很小的情况(例如,其中b=3,m=8,最坏情况下的候选数为589824),因此这个方法不适用于大部分实际的实施中。
简单的次优化方法
正如前面所述的,如果目标是找到全局优化的片段线性轨迹,则优化处理可能需要大量的计算。但是,用这部分所描述的非常简单并且计算上有效率的技术(其中,复杂性仅随问题大小的增加线性的增加)能够取得非常好的结果。在简单之外,这个方法的一个好处是并不立即处理整个基音轨迹,而是仅需要相对小的预处理。
该简化方法中的主要思想是每次对一个线性片段进行优化处理。对于每个线性片段,对能够保持与真轨迹的偏差足够低的最大长度线进行搜索而不用知道该线性片段边界之外的轨迹。在这个优化技术中,有两种必须单独考虑的情况:第一个线性片段和其它线性片段。
第一个线性片段的情况在当开始编码处理的开始出现。另外,如果对于非活动或无声语音没有基音值被传输,则第一个线性片段在其在基音传输中暂停之后落入这个类别。在关于第一个线性片段的两种情况中,线的两端都被优化。其它的情况落入第二类别中,其中,线的始点已经在先前线性片段的优化中被固定,因此仅对终点的位置进行优化。
在第一个线性片段的情况中,处理通过将时标0和T处的量化基音值选择为到当时为止找到的最佳终点而开始。然后,实际的迭代处理通过考虑线的末端足够接近时标0和2T处的初始基音值的情况而开始。换句话说,始点的候选都是足够接近t1=0处的初始基音值的量化基音值,从而满足所期望的准确度标准(等式3中给出)。类似地,终点的候选为足够接近t2=2T处初始基音值的量化基音值。在找到候选之后,对所有可能的始点和终点的组合进行试验:以t1和t2之间的时间间隔测量线性表示的准确度,如果满足准确度标准,则候选线可以被接受为片段线性轨迹的一部分。另外,如果与初始基音轨迹的偏差小于在这个迭代处理步骤期间与其它线的偏差,则该线被选择为到当时为止的最佳线。如果接受了至少一个候选,则迭代处理通过对t2每步增加大小T之后重复处理而继续。如果没有线被接受,则优化处理终止,并且先前迭代处理期间找到的最佳终点被选择为片段线性基音轨迹的第一个点。
在其它线性片段的情况中,只能优化终点位置,这是因为始点已经在先前的线性片段优化过程中被固定。处理通过将固定始点之后间隔T的量化基音值选择为到当时为止的线的最佳点而开始。((tn-1,qn-1)和(tn,qn)分别表示要优化的固定始点和终点。)然后,迭代处理通过考虑一个或多个时间步骤而开始,即tn=tn-1+2T。线的终点候选为新的tn处足够接近初始基音值的量化基音值,从而满足所期望的准确度的标准。找到候选之后,剩余处理类似于第一个线性片段的情况。
在前面详细描述的两种情况中,迭代处理可能会由于两个原因而过早结束。第一,如果tn由于初始基音轨迹在tn+T之前结束而不能增加,则处理终止。如果已经使用了整个预处理缓冲器,或者要编码的语音信号已经结束,或者如果基音传输已经在非活动语音或无声语音期间暂停,则这可能会发生。第二,为了更有效地对点的时标进行编码,可对单个线性部分的最大长度进行限制。对于这两种情况,通过基于可用基音轨迹的持续时间和线终端之间的最大时间距离设置限制tnmax,可以对这些问题进行考虑。这个方法在图5中的流程图600中进行了描述,图5表示一个线性片段的优化处理。
流程图600表示用于选择表示片段基音轨迹的一个线性段的直线的迭代处理。直线具有始点Q(f(tn-1))和终点Q(f(tn))。对于第一个线性段,始点Q(f(tn-1))和终点Q(f(tn))必须被选择。对于所有其它的线性段,只有终点Q(f(tn))必须被选择。在迭代处理开始,选择在tn=tn-1+T开始的线性段。始点Q(f(tn-1))和终点Q(f(tn))被认为是到当时为止的最佳终点。因此,在步骤602,设定tn=tn+T。在步骤604,终点被选择为接近f(tn)的点。对于第一个线性段,始点接近f(tn-1)。对于所有其它的段,始点是固定的。在步骤606,对tn-1到tn的时间段中的候选线和每个基音值之间的偏差进行测量。在步骤608,为了确定当前直线是否能够被接受为候选,将该偏差与预定的误差值进行比较。如果该时间段中的某些基音值的偏差超过了预定的误差值,则对终点(如果该线性段是第一个段,则和始点一起)进行调整,并且迭代处理返回步骤606直至没有可能调整。如果在步骤608中确定当前直线是可接受的,则在步骤610中将它与稍早的结果进行比较,从而确定它是否为到当时为止的最佳直线。到当时为止的最佳直线是到当时为止已经获得的具有相同i的直线中具有最小绝对偏差的直线。在步骤612中存储到当时为止的最佳线。在步骤620中再次对终点进行调整,直到不可能进行调整。
当步骤620中确定不再可能进行调整时,确定是否停止迭代处理并且使用步骤612中存储的最佳线作为当前线段,或者是否通过在步骤626中将tn增加T以进一步伸展线段(除非步骤624中确定当前tn已经等于tmax)。可能的情况是,在将tn增加T之后,在步骤622中确定没有伸展的线可被接受。在这种情况下,具有先前tn的最佳线被用作当前段的直线。候选的数量可以例如通过对终点能够与取样值不同的程度的最大限制进行设置来限制。不同终点候选之间的间隔也可以被设置以限制可能候选的数量。
实践中的实施
本说明书中引入的基音轨迹量化技术包括在为存储应用设计的实践中的语音编码器中。编码器以非常低的比特率(约为1kbps)工作,并且在可变持续时间(20ms到640ms之间)的段中对8kHz输入语音进行处理。在实践中的实施中,使用简单的次优化方法,并且在优化中只考虑位于当前段中的基音轨迹。在无声的或非活动段中,没有基音信息被编码。变量T被设置为10ms,等于基音估计间隔。另外,连续的基音轨迹使用估计的基音值pk形成的离散轨迹进行近似(间隔为10ms)。因此,最优性条件(II)变为
d(pk,g(kT))≤h(pk),对于所有的0≤k≤tmax/T.
(5)
另外,等式1中的总失真的最小化用下面等式的最小化来近似,
即
(6)
其中,函数d被定义为绝对误差,即d(x,y)=|x-y|。
定义给定基音值的最大可允许编码误差的函数h确定为
h(pk)=max(2,480pk/8000)
(7)
同样的函数也用于生成代码簿C中,该代码簿用于基音值qn的标量量化中。32个层级(5比特)的条目使用cj=cj-1+h(cj-1)计算,其中c1=19。这个代码簿覆盖了用于编码器中的基音周期范围并且与实验发现相当一致。还有,如果假定人耳的频率分辨率随频率的增加而减小,则这个代码簿和函数h近似地遵循临界频带(critical band)理论。为了进一步增强知觉性能,在对数域中进行量化。
在某个时间使用差分量化对时标进行编码,除非由于t1已经是()所以该标标对于每个段的第一个点根据没有被编码。在差分编码方案中,使用给定时标和先前时标之前的时间距离以大小为T的间隔对给定时标进行编码。更准确地,通过将((tn-tn-1)/T)-1转换为包括「log2(imax-1)」比特的二进制表达对给定值tn进行编码,其中,imax表示对于当前线性片段所允许的最大长度。在我们的实施中使用一个附加的手段以提高编码效率:如果将要编码的时标数超过段中即刻的基音估计的半数,则对“空”时标而不是时标tn进行编码(一个比特用于指示使用了哪个编码方案)。然而,应当注意到,存储编码器实施中使用的分段处理使得能够使得这个手段有效。在连续的基于帧的处理的一般情况下,一种更好的方式将是直接在时标值上使用某个无损耗编码技术,例如霍夫曼编码。
前面描述的实施能够使用约为100bps的平均比特速率对基音轨迹进行编码,从而使得与初始轨迹的偏差保持在低于等式7中定义的最大允许偏差以下。尽管比特速率很低,但是编码后的基音轨迹非常接近初始轨迹。在99bps上平均绝对编码误差和最大绝对编码误差分别为1.16和5.12个取样。当由听测专家判断时,编码后的轨迹可以容易地从初始轨迹被辨别,但是编码误差并不是特别地烦人。还没有明确地用自然听测者对基音量化技术进行检测;但是,正式的听测检测显示包括所提议的基音轨迹技术的存储编码器在很大程度上优于1.2kbps现有技术参考编码器,尽管平均比特速率降低了超过200bps(对于单独的基音,降幅约为70bps)。
总之,本发明利用了这样的事实,即通常的基音轨迹的展开相当地平滑但是包括偶然的快速变化,以便生成接近于初始轨迹的形状但是包括较少的将要编码的信息的片段线性基音轨迹。例如,仅对其导数变化的片段线性基音轨迹的点进行量化。在无声语音期间,恒定的默认基音值可以用于编码器和解码器。另外,在基音频率低的情况中,通过允许在基音频率低的情况下与真实基音轨迹之间较大的偏差来利用人听觉的属性。本发明实质上降低了足够的感性量化准确度所需的比特速率:使用合适的量化技术,可以在大约100bps的平均比特速率上达到接近在500bps(5比特量化器,每秒100基音值)上工作的常规的基音量化器的准确度水平。如果无损耗压缩被用于对本发明报告中所描述的方法进行补充,则甚至可能进一步将比特速率降低到例如大约80bps。
本发明的主要益处包括:
一可能使用比采用现有技术低得多的平均更新速率。
一能够在解码器上重新生成片段线性基音轨迹,从而使其非常接近真实基音轨迹。
一本发明考虑了这样的事实,即当基音频率低的时候人耳对基音变化更加敏感。
一本技术能够相当大地降低比特速率。
一本发明能够作为附加功能块实施,该附加功能块能够与现有的语音编码器使用。
本发明适于存储应用并且已经成功地用在用于对音频消息进行预记录的语音编码器中。在目标应用中,音频消息(音频菜单)被记录在计算机上并被离线编码。然后,作为结果的低速率比特流能够在移动终端中进行存储并在本地进行解码。低速率比特流能够由如图6所示的通信网络中的元件提供。图6为根据本发明的能够用于预记录音频菜单和类似应用的编码器实施相关存储的通信网络的代表。如图中所示,该网络包括多个连接到交换子站(NSS)的基站(BS),该交换子站还连接到其它网络。该网络还包括多个能够和基站进行通信的移动站(MS)。移动站可以是移动终端,通常称之为完整终端。移动站还可以是没有显示器、键盘、电池、盖子等的终端模块。移动站还可以是用于从压缩模块20接收比特流120的解码器40(见图3)。压缩模块20可以位于基站、交换子站或在另一个网络中。
虽然已经针对其优选实施例对本发明进行了描述,但是本领域的技术人员应当理解,可以进行前面及各种其它的改变、省略和形式和细节中的改变,这不脱离本发明的范围。
Claims (23)
1.一种提高音频编码的编码效率的方法,其中,对音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,所述基音轨迹数据包括多个表示音频时间段的基音值,所述方法的特征在于:
根据所述基音轨迹数据生成多个简化的基音轨迹段候选,每个候选对应于所述音频信号的子段,其中,每个子段具有始点基音值和终点基音值,每个候选具有始段点和终段点,并且其中,所述候选的始段点与对应子段的所述始点基音值足够接近,所述候选的终段点与对应子段的所述终点基音值足够接近,从而满足所期望的准确度标准;
测量每个简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差;
根据所测量的偏差和一个或多个预选择的标准,在所述候选中选择多个连续的段候选来表示所述音频段;以及
使用所选择段候选的特性对对应于所选择的段候选的音频信号的子段中的基音轨迹数据进行编码。
2.根据权利要求1所述的方法,其特征在于,所述音频时间段中的所述音频轨迹数据由多个对应于所述音频段中多个连续的子段的选择的候选进行近似,所述多个选择的候选中的每个候选由第一终点和第二终点限定,并且其中,所述编码包括提供指示所述终点的信息的步骤,从而允许解码器根据所述信息而非所述基音轨迹数据重新生成音频段中的所述音频信号。
3.根据权利要求2所述的方法,其特征在于,一些所述连续子段中的基音值的数量等于或大于3。
4.根据权利要求1所述的方法,其特征在于,所述生成步骤受到预选择的条件的限制,从而每个所述简化的基音轨迹段候选和对应子段中的每个所述基音值之间的偏差小于或等于预定的最大值。
5.根据权利要求4所述的方法,其特征在于,所述生成的段候选具有各种长度,并且所述选择基于段候选的所述长度,所述预选择标准包括所选择的候选在所述段候选中具有最大长度。
6.根据权利要求4所述的方法,其特征在于,所述选择步骤基于所述段候选的长度,所述预选择的标准包括所测量的偏差在一组具有相同长度的候选组中为最小。
7.根据权利要求1所述的方法,其特征在于,所述生成步骤通过调节所述段候选的终段点而执行。
8.根据权利要求1所述的方法,其特征在于所述音频信号包括语音信号。
9.根据权利要求2所述的方法,其特征在于至少一个所选择的候选为线性段。
10.根据权利要求2所述的方法,其特征在于至少一个所选择的候选为非线性段。
11.一种用于对包括基音轨迹数据的音频信号进行编码的编码设备,所述基音轨迹数据包括多个表示音频时间段的基音值,所述编码设备的特征在于:
用于接收所述基音轨迹数据的输入端;以及
数据处理模块,响应于所述基音轨迹数据,用于生成多个简化的基音轨迹段候选,每个候选对应于所述音频信号的子段,其中,每个子段具有始点基音值和终点基音值,每个候选具有始段点和终段点,并且其中,所述候选的始段点与对应子段的所述始点基音值足够接近,所述候选的终段点与对应子段的所述终点基音值足够接近,从而满足所期望的准确度标准,其中所述处理模块包括:
用于测量每个所述简化的基音轨迹段候选和对应子段中的所述基音值之间的偏差的算法;以及
用于根据所测量的偏差和预选择的标准在所述候选中选择多个连续的段候选来表示所述音频段的算法。
12.根据权利要求11所述的编码设备,其进一步的特征在于:
量化模块,响应于所选择的候选,用于使用所选择段候选的特性对对应于所选择段候选的音频信号的子段中的基音轨迹数据进行编码。
13.根据权利要求12所述的编码设备,其特征在于,所述量化模块提供表示所述子段中编码后的基音轨迹数据的音频数据,所述编码设备的进一步的特征在于:
存储设备,工作地连接到所述量化模块以接收所述音频数据,用于将所述音频数据存储到存储介质中。
14.根据权利要求12所述的编码设备,其进一步的特征在于:
输出端,工作地连接到存储介质,用于将所述编码后的基音轨迹数据提供给所述存储介质以便存储。
15.根据权利要求12所述的编码设备,其进一步的特征在于:
输出端,用于将所述编码后的基音轨迹数据发送到所述解码器,从而允许所述解码器也根据所述编码后的基音轨迹数据重新生成所述音频信号。
16.一种用于重新生成音频信号的解码器,其中,对所述音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,所述基音轨迹数据包括多个表示音频时间段的基音值,并且其中,所述音频时间段中的所述基音轨迹数据由多个连续的简化段近似,每个简化段对应于所述音频段中的子段,其中,每个子段具有始点基音值和终点基音值,每个所述简化段由第一终点和第二终点限定,并且其中,所述简化段的第一终点与对应子段的所述始点基音值足够接近,所述简化段的第二终点与对应子段的所述终点基音值足够接近,从而满足所期望的准确度标准,所述解码器的特征在于:
输入端,用于接收表示限定所述子段的终点的音频数据;以及
重新生成模块,用于根据所接收的音频数据重新生成所述音频段。
17.根据权利要求16所述的解码器,其特征在于,所述音频数据记录在电子介质上,并且其中,解码器的所述输入端工作地连接到电子介质以接收所述音频数据。
18.根据权利要求16所述的解码器,其特征在于,所述音频数据通过通信信道传输,并且解码器的所述输入端工作地连接到所述通信信道以接收所述音频数据。
19.一种电子设备,其特征在于:
用于重新生成音频信号的解码器,其中,对所述音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,所述基音轨迹数据包括多个表示音频时间段的基音值,并且其中,所述音频时间段中的所述基音轨迹数据由多个连续的简化段近似,每个简化段对应于所述音频段中的子段,其中每个子段具有始点基音值和终点基音值,每个所述简化段由第一终点和第二终点限定,并且其中,所述简化段的第一终点与对应子段的所述始点基音值足够接近,所述简化段的第二终点与对应子段的所述终点基音值足够接近,从而满足所期望的准确度标准,从而能够根据限定所述简化段的终点生成所述音频段;以及
输入端,用于接收指示所述终点的音频数据并且将所述音频数据提供给解码器。
20.根据权利要求19所述的电子设备,其特征在于,所述音频数据被记录在电子介质中,并且所述输入端工作地连接到电子介质以接收所述音频数据。
21.根据权利要求19所述的电子设备,其特征在于,所述音频数据通过通信信道传输,所述输入端工作地连接到所述通信信道以接收所述音频数据。
22.根据权利要求19到21任意之一所述的电子设备,包括移动终端。
23.一种通信网络,其特征在于:
多个基站;以及
多个与所述基站进行通信的移动站,其中,至少一个所述移动站包括:
用于重新生成音频信号的解码器,其中,对所述音频信号进行编码以提供指示所述音频信号的参数,所述参数包括基音轨迹数据,所述基音轨迹数据包括多个表示音频时间段的基音值,并且其中,所述音频时间段中的基音轨迹数据由多个连续的简化段近似,每个简化段对应于所述音频段中的子段,其中,每个子段具有始点基音值和终点基音值,每个所述简化段由第一终点和第二终点限定,并且其中,所述简化段的第一终点与对应子段的始点基音值足够接近,所述简化段的第二终点与对应子段的终点基音值足够接近,从而满足所期望的准确度标准;以及
输入端,用于从至少一个所述基站接收指示所述终点的音频数据来将所述音频数据提供给解码器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/692,291 US20050091044A1 (en) | 2003-10-23 | 2003-10-23 | Method and system for pitch contour quantization in audio coding |
US10/692,291 | 2003-10-23 | ||
PCT/IB2004/003166 WO2005041416A2 (en) | 2003-10-23 | 2004-09-29 | Method and system for pitch contour quantization in audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1882983A CN1882983A (zh) | 2006-12-20 |
CN1882983B true CN1882983B (zh) | 2013-02-13 |
Family
ID=34522085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200480034310XA Expired - Fee Related CN1882983B (zh) | 2003-10-23 | 2004-09-29 | 音频编码中基音轨迹量化的方法和系统 |
Country Status (8)
Country | Link |
---|---|
US (2) | US20050091044A1 (zh) |
EP (1) | EP1676367B1 (zh) |
KR (1) | KR100923922B1 (zh) |
CN (1) | CN1882983B (zh) |
AT (1) | ATE482448T1 (zh) |
DE (1) | DE602004029268D1 (zh) |
TW (1) | TWI257604B (zh) |
WO (1) | WO2005041416A2 (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100571831B1 (ko) * | 2004-02-10 | 2006-04-17 | 삼성전자주식회사 | 음성 식별 장치 및 방법 |
US7598447B2 (en) * | 2004-10-29 | 2009-10-06 | Zenph Studios, Inc. | Methods, systems and computer program products for detecting musical notes in an audio signal |
US8093484B2 (en) * | 2004-10-29 | 2012-01-10 | Zenph Sound Innovations, Inc. | Methods, systems and computer program products for regenerating audio performances |
US9058812B2 (en) * | 2005-07-27 | 2015-06-16 | Google Technology Holdings LLC | Method and system for coding an information signal using pitch delay contour adjustment |
US8260609B2 (en) | 2006-07-31 | 2012-09-04 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
EP2107556A1 (en) * | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
EP2676266B1 (en) | 2011-02-14 | 2015-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based coding scheme using spectral domain noise shaping |
AR085218A1 (es) | 2011-02-14 | 2013-09-18 | Fraunhofer Ges Forschung | Aparato y metodo para ocultamiento de error en voz unificada con bajo retardo y codificacion de audio |
AR085361A1 (es) | 2011-02-14 | 2013-09-25 | Fraunhofer Ges Forschung | Codificacion y decodificacion de posiciones de los pulsos de las pistas de una señal de audio |
AU2012217269B2 (en) | 2011-02-14 | 2015-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
SG192721A1 (en) | 2011-02-14 | 2013-09-30 | Fraunhofer Ges Forschung | Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion |
RU2586838C2 (ru) | 2011-02-14 | 2016-06-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Аудиокодек, использующий синтез шума в течение неактивной фазы |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
TWI476760B (zh) | 2011-02-14 | 2015-03-11 | Fraunhofer Ges Forschung | 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法 |
MY159444A (en) | 2011-02-14 | 2017-01-13 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V | Encoding and decoding of pulse positions of tracks of an audio signal |
US10019995B1 (en) | 2011-03-01 | 2018-07-10 | Alice J. Stiebel | Methods and systems for language learning based on a series of pitch patterns |
US11062615B1 (en) | 2011-03-01 | 2021-07-13 | Intelligibility Training LLC | Methods and systems for remote language learning in a pandemic-aware world |
EP2954516A1 (en) | 2013-02-05 | 2015-12-16 | Telefonaktiebolaget LM Ericsson (PUBL) | Enhanced audio frame loss concealment |
EP3333848B1 (en) | 2013-02-05 | 2019-08-21 | Telefonaktiebolaget LM Ericsson (publ) | Audio frame loss concealment |
MX2021000353A (es) | 2013-02-05 | 2023-02-24 | Ericsson Telefon Ab L M | Método y aparato para controlar ocultación de pérdida de trama de audio. |
EP3398191B1 (en) * | 2016-01-03 | 2021-04-28 | Auro Technologies Nv | A signal encoder, decoder and methods using predictor models |
CN111081265B (zh) * | 2019-12-26 | 2023-01-03 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
CN112491765B (zh) * | 2020-11-19 | 2022-08-12 | 天津大学 | 基于CPM调制的仿鲸目动物whistle伪装通信信号的识别方法 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1203906A (en) * | 1982-10-21 | 1986-04-29 | Tetsu Taguchi | Variable frame length vocoder |
US5042069A (en) * | 1989-04-18 | 1991-08-20 | Pacific Communications Sciences, Inc. | Methods and apparatus for reconstructing non-quantized adaptively transformed voice signals |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5787387A (en) * | 1994-07-11 | 1998-07-28 | Voxware, Inc. | Harmonic adaptive speech coding method and system |
TW271524B (zh) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5592585A (en) * | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
US5991725A (en) * | 1995-03-07 | 1999-11-23 | Advanced Micro Devices, Inc. | System and method for enhanced speech quality in voice storage and retrieval systems |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
US5673361A (en) * | 1995-11-13 | 1997-09-30 | Advanced Micro Devices, Inc. | System and method for performing predictive scaling in computing LPC speech coding coefficients |
US6026217A (en) * | 1996-06-21 | 2000-02-15 | Digital Equipment Corporation | Method and apparatus for eliminating the transpose buffer during a decomposed forward or inverse 2-dimensional discrete cosine transform through operand decomposition storage and retrieval |
US6014622A (en) * | 1996-09-26 | 2000-01-11 | Rockwell Semiconductor Systems, Inc. | Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US6169970B1 (en) * | 1998-01-08 | 2001-01-02 | Lucent Technologies Inc. | Generalized analysis-by-synthesis speech coding method and apparatus |
US6246672B1 (en) * | 1998-04-28 | 2001-06-12 | International Business Machines Corp. | Singlecast interactive radio system |
US6529730B1 (en) * | 1998-05-15 | 2003-03-04 | Conexant Systems, Inc | System and method for adaptive multi-rate (AMR) vocoder rate adaption |
JP3273599B2 (ja) * | 1998-06-19 | 2002-04-08 | 沖電気工業株式会社 | 音声符号化レート選択器と音声符号化装置 |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
US6094629A (en) * | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
US6119082A (en) * | 1998-07-13 | 2000-09-12 | Lockheed Martin Corporation | Speech coding system and method including harmonic generator having an adaptive phase off-setter |
US6078880A (en) * | 1998-07-13 | 2000-06-20 | Lockheed Martin Corporation | Speech coding system and method including voicing cut off frequency analyzer |
US6163766A (en) * | 1998-08-14 | 2000-12-19 | Motorola, Inc. | Adaptive rate system and method for wireless communications |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
US6714907B2 (en) * | 1998-08-24 | 2004-03-30 | Mindspeed Technologies, Inc. | Codebook structure and search for speech coding |
US6385434B1 (en) * | 1998-09-16 | 2002-05-07 | Motorola, Inc. | Wireless access unit utilizing adaptive spectrum exploitation |
US6463407B2 (en) * | 1998-11-13 | 2002-10-08 | Qualcomm Inc. | Low bit-rate coding of unvoiced segments of speech |
US6256606B1 (en) * | 1998-11-30 | 2001-07-03 | Conexant Systems, Inc. | Silence description coding for multi-rate speech codecs |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6434519B1 (en) * | 1999-07-19 | 2002-08-13 | Qualcomm Incorporated | Method and apparatus for identifying frequency bands to compute linear phase shifts between frame prototypes in a speech coder |
US6691082B1 (en) * | 1999-08-03 | 2004-02-10 | Lucent Technologies Inc | Method and system for sub-band hybrid coding |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6496798B1 (en) * | 1999-09-30 | 2002-12-17 | Motorola, Inc. | Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
US6907073B2 (en) * | 1999-12-20 | 2005-06-14 | Sarnoff Corporation | Tweening-based codec for scaleable encoders and decoders with varying motion computation capability |
AU2001286534A1 (en) * | 2000-08-18 | 2002-03-04 | Bhaskar D. Rao | Fixed, variable and adaptive bit rate data source encoding (compression) method |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
US6871176B2 (en) * | 2001-07-26 | 2005-03-22 | Freescale Semiconductor, Inc. | Phase excited linear prediction encoder |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
CA2365203A1 (en) * | 2001-12-14 | 2003-06-14 | Voiceage Corporation | A signal modification method for efficient coding of speech signals |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
-
2003
- 2003-10-23 US US10/692,291 patent/US20050091044A1/en not_active Abandoned
-
2004
- 2004-09-29 KR KR1020067007799A patent/KR100923922B1/ko not_active IP Right Cessation
- 2004-09-29 CN CN200480034310XA patent/CN1882983B/zh not_active Expired - Fee Related
- 2004-09-29 EP EP04769508A patent/EP1676367B1/en not_active Not-in-force
- 2004-09-29 AT AT04769508T patent/ATE482448T1/de not_active IP Right Cessation
- 2004-09-29 WO PCT/IB2004/003166 patent/WO2005041416A2/en active Search and Examination
- 2004-09-29 DE DE602004029268T patent/DE602004029268D1/de active Active
- 2004-10-05 TW TW093130053A patent/TWI257604B/zh not_active IP Right Cessation
-
2008
- 2008-04-25 US US12/150,307 patent/US8380496B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN1882983A (zh) | 2006-12-20 |
WO2005041416A2 (en) | 2005-05-06 |
WO2005041416A3 (en) | 2005-10-20 |
US8380496B2 (en) | 2013-02-19 |
KR20060090996A (ko) | 2006-08-17 |
US20050091044A1 (en) | 2005-04-28 |
KR100923922B1 (ko) | 2009-10-28 |
TW200525499A (en) | 2005-08-01 |
ATE482448T1 (de) | 2010-10-15 |
TWI257604B (en) | 2006-07-01 |
EP1676367A4 (en) | 2007-01-03 |
DE602004029268D1 (de) | 2010-11-04 |
US20080275695A1 (en) | 2008-11-06 |
EP1676367A2 (en) | 2006-07-05 |
EP1676367B1 (en) | 2010-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1882983B (zh) | 音频编码中基音轨迹量化的方法和系统 | |
Gibson | Adaptive prediction in speech differential encoding systems | |
US7457743B2 (en) | Method for improving the coding efficiency of an audio signal | |
US7752039B2 (en) | Method and device for low bit rate speech coding | |
CN101218630B (zh) | 处理音频信号的装置和方法 | |
CN101178899B (zh) | 可变速率语音编码 | |
CN101320563B (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
CN101488345A (zh) | 有效编码语音信号的信号修改方法 | |
CN101124626A (zh) | 用于最小化感知失真的组合音频编码 | |
CN101496098A (zh) | 用于以与音频信号相关联的帧修改窗口的系统及方法 | |
CN100380443C (zh) | 音调原型波形借助于时间同步波形内插的语音合成 | |
US5742733A (en) | Parametric speech coding | |
CN1375096A (zh) | 话音编码设备的频谱幅度量化 | |
CN103229234A (zh) | 音频编码装置、方法和程序以及音频解码装置、方法和程序 | |
US5253269A (en) | Delta-coded lag information for use in a speech coder | |
US20050192796A1 (en) | Audio codec system and audio signal encoding method using the same | |
CN101208741B (zh) | 一种适用于数字信号短时相关性模型之间的互用性的方法 | |
US20010001320A1 (en) | Method and device for speech coding | |
CN102760441B (zh) | 一种背景噪声编码/解码装置、方法和通信设备 | |
JPH0749700A (ja) | Celp型音声復号器 | |
JPH04312000A (ja) | ベクトル量子化方法 | |
Rele | Simulation of VSELP speech encoder for mobile channels | |
JPH09269798A (ja) | 音声符号化方法および音声復号化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130213 Termination date: 20150929 |
|
EXPY | Termination of patent right or utility model |