CN104347082A - 弦波帧检测方法和设备以及音频编码方法和设备 - Google Patents

弦波帧检测方法和设备以及音频编码方法和设备 Download PDF

Info

Publication number
CN104347082A
CN104347082A CN201310314218.XA CN201310314218A CN104347082A CN 104347082 A CN104347082 A CN 104347082A CN 201310314218 A CN201310314218 A CN 201310314218A CN 104347082 A CN104347082 A CN 104347082A
Authority
CN
China
Prior art keywords
frequency domain
domain data
frame
peak value
string ripple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310314218.XA
Other languages
English (en)
Other versions
CN104347082B (zh
Inventor
徐张磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201310314218.XA priority Critical patent/CN104347082B/zh
Publication of CN104347082A publication Critical patent/CN104347082A/zh
Application granted granted Critical
Publication of CN104347082B publication Critical patent/CN104347082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了弦波帧检测方法和设备以及音频编码方法和设备。根据本发明的检测音频信号中的弦波帧的方法包括:对于所述音频信号中的给定的音频帧,获得其对应的频域数据;判断所述频域数据的峰值是否集中于少数频率处,并且判断所述频域数据的峰值是否足够大;以及将判断结果均为是的音频帧确定为弦波帧,其中,所述弦波帧为其频域能量集中于少数几处的音频帧。

Description

弦波帧检测方法和设备以及音频编码方法和设备
技术领域
本发明一般地涉及音频信号处理领域。具体而言,本发明涉及一种检测音频信号中的弦波帧的方法和设备以及音频编码方法和设备。
背景技术
近年来,随着音频相关应用的迅猛发展,对音频编码技术提出了越来越高的要求,希望在尽可能少地利用系统资源的情况下,更快更好地对音频信号进行编码。
音频信号的处理通常以音频帧为单位。有一种音频帧被称为弦波帧(tone frame)。弦波帧的特点是频域能量集中于少数几处,类似于正弦或余弦函数经时域-频域转换后,频域能量只出现在少数几处一样。
如果对弦波帧和非弦波帧分别进行不同的处理,例如,对弦波帧进行较大的压缩,则可以提高编码效率。
然而,存在如何从音频信号中快速、低功耗地检测出弦波帧的问题。
这是因为对弦波帧和非弦波帧进行区别处理,本身就是为了提高编码效率。如果弦波帧检测耗时,则会降低编码效率。如果弦波帧检测结果不准确,则会导致适得其反,将非弦波帧按弦波帧处理,降低了音频信号的编码质量。如果弦波帧检测较大地增加了计算量,并相应地消耗了较多的系统资源,则编码效率的提高可能得不偿失。
因此,期望能够从音频信号中快速、低功耗地检测出弦波帧。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够从音频信号中快速、低功耗地检测出弦波帧的方法和设备,并相应地提出了一种音频编码方法和音频编码设备。
为了实现上述目的,根据本发明的一个方面,提供了一种检测音频信号中的弦波帧的方法,所述弦波帧为其频域能量集中于少数几处的音频帧,该方法包括:对于所述音频信号中的给定的音频帧,获得其对应的频域数据;判断所述频域数据的峰值是否集中于少数频率处,并且判断所述频域数据的峰值是否足够大;以及将判断结果均为是的音频帧确定为弦波帧。
根据本发明的另一个方面,提供了一种检测音频信号中的弦波帧的设备,所述弦波帧为其频域能量集中于少数几处的音频帧,该设备包括:频域数据获得装置,其被配置为:对于所述音频信号中的给定的音频帧,获得其对应的频域数据;以及判断装置,其包括:集中判断单元,其被配置为:判断所述频域数据的峰值是否集中于少数频率处;大小判断单元,其被配置为:判断所述频域数据的峰值是否足够大;以及结果确定单元,其被配置为:将所述集中判断单元和所述大小判断单元的判断结果均为是的音频帧确定为弦波帧。
根据本发明的又一个方面,提供了一种音频编码方法,该方法包括:利用如上所述的弦波帧检测方法,检测待编码音频信号中的弦波帧;以及基于检测结果,对所述音频信号进行编码。
根据本发明的再一个方面,提供了一种音频编码设备,该设备包括:如上所述的检测音频信号中的弦波帧的设备,用于检测待编码音频信号中的弦波帧;以及音频编码子单元,用于基于所述检测音频信号中的弦波帧的设备的检测结果,对所述音频信号进行编码。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了弦波帧的频域能量分布的示意图;
图2示出了根据本发明的实施例的弦波帧检测方法的流程图;
图3示出了根据本发明的实施例的弦波帧检测方法中步骤S2的判断子步骤之一的具体流程图;
图4示出了根据本发明的实施例的弦波帧检测方法的实现流程图;
图5示出了根据本发明的实施例的音频编码方法;
图6示出了根据本发明实施例的弦波帧检测设备的结构方框图;
图7示出了根据本发明实施例的音频编码设备的结构方框图;以及
图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
首先,以MPEG2-AAC标准为例,介绍本发明可以应用到其中的音频编码标准的相关知识。
应注意,本发明不仅限于应用到MPEG2-AAC标准,还可应用到其它音频编码标准。例如,DRA标准(Digital Rise Audio)。
在音频编码标准中,一般都是将音频信号从时域转换到频域,在频域对音频信号进行处理,然后将音频信号从频域转换为时域。
在当前广泛使用的音频编码标准中,经常被用于执行时域-频域转换的方法是MDCT(改进的离散余弦变换,Modified Discrete CosineTransform)。
在MPEG2-AAC标准中,一个音频帧包含1024个PCM采样数据。输入到MDCT模块的是当前音频帧的1024个采样点、以及上一音频帧的1024个采样点。MDCT模块的输出是1024个频域数据。频域数据被划分为多个分组,称为比例因子带(scalefactor band,下文中简称为sfb),所有的后续编码操作都是在以比例因子带为单元的频域数据之上进行的。以长窗、48kHz采样率的情况为例,1024个频域数据被分为如下表所示的48个比例因子带:
表1
从上面的表1中可以看出,1024个频域数据被划分为48个比例因子带。
值得注意的是上述频域数据的划分方式、比例因子带的结构均为MPEG2-AAC标准中固有的,一方面频域数据的划分方式和比例因子带的结构必然如此,因此具有统一性,另一方面,频域数据的划分方式和比例因子带的结构已经如此,因此不需要为了本发明而单独设计。
当本发明应用于MPEG2-AAC标准时,本发明可以直接利用MDCT得到的频域数据来检测弦波帧,本发明的频域数据处理单元可以是现成的比例因子带。因此不需额外计算所需的数据,从而提高了处理速度、减轻对系统资源的消耗。并且,本发明的计算复杂度较低,因而易于在嵌入式平台或者电路硬件中实现,可以有效且高速地检测音频信号中的弦波帧。
下面将看出,由于本发明所利用的部分数据是编码标准中固有需要计算的中间结果,因此,可以直接拿来用于本发明的计算,从而进一步减少计算量。
本发明的基本思想是考虑到弦波帧的频域能量集中于少数几处的特点,针对性地从频域数据的峰值是否集中于少数频率处、以及频域数据的峰值是否足够大两个方面进行判断,从而确定当前的音频帧是否为弦波帧。并且,在此过程中,通过利用音频编码标准中已有的部分中间计算结果,进一步减少运算量,相应地减少了对系统资源的消耗。
图1示出了弦波帧的频域能量分布的示意图。如图1所示,MDCT处理得到的频域数据表现了能量从低频到高频的分布,因此比例因子带也表现了能量从低频到高频的分布。对于弦波帧来说,能量会集中在频谱的一个或几个地方。在比例因子带上,此特性表现为有一个或几个比例因子带的数据非常大。
在图1中的示例中,存在两个弦波(参见两个包含峰值的部分)。弦波帧的特点是:
1.能量集中在某几处,因此某些比例因子带的数据会非常大(峰值集中)。
2.能量峰值和能量平均值的比例非常大(峰值大)。
针对于弦波帧的特点,设计了本发明的弦波帧检测方法和设备。
下面将参照图2描述根据本发明的实施例的弦波帧检测方法的流程。
图2示出了根据本发明的实施例的弦波帧检测方法的流程图。如图2所示,根据本发明的弦波帧检测方法,包括如下步骤:对于音频信号中的给定的音频帧,获得其对应的频域数据(步骤S1);判断所述频域数据的峰值是否集中于少数频率处,并且判断所述频域数据的峰值是否足够大(步骤S2);以及将判断结果均为是的音频帧确定为弦波帧(步骤S3)。
首先,在步骤S1中,获得与音频信号中的给定的音频帧对应的频域数据,从而依据给定音频帧即当前音频帧的频域数据的特征,判断该音频帧是否为弦波帧。
时域-频域转换的方法为本领域技术人员所熟知,在此不再赘述。
如上所述,可以利用标准中已有的数据单元以及相关的中间计算结果,因此,还可以在步骤S1中,将所获得的频域数据划分为多个频域数据处理单元,以利于后续处理。
在步骤S2中,判断频域数据的峰值是否集中于少数频率处,并且判断频域数据的峰值是否足够大。
图3示出了根据本发明的实施例的弦波帧检测方法中步骤S2的判断子步骤之一的具体流程图。
具体地,判断峰值是否集中的步骤可以包括:
步骤S21:确定多个频域数据处理单元中的每一个是否包括峰值。
步骤S22:判定包括峰值的频域数据处理单元的数量是否等于作为小数量的预定数值。
步骤S23:如果上述步骤S22中的判定结果为是,则判断为峰值集中。否则,判断为峰值不集中。
步骤S21可以具体实现为:判断一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比是否大于第一阈值。如果判断结果为是,则确定该频域数据处理单元包括峰值。否则,确定该频域数据处理单元不包括峰值。
其中的第一阈值可以根据经验指定,也可通过实验方式获得。
例如,对于MPEG2-AAC标准来说,第一阈值可以设定为5。
步骤S22中的预定数值可以被设定为1或2。
因为弦波帧通常具有1个或2个弦波(相应地,会存在1个或2个包括峰值的频域数据处理单元),因此,当设定预定数值为1或2时,可以有效地判断具有1个或2个弦波的弦波帧。当预定数值为1或2时,无法判断具有3个弦波的弦波帧。但是,这样的设定有利于快速和相对准确地检测弦波帧。随着预定数值的不断增大,处理速度逐渐降低,检测准确率也越来越低。因此,设定预定数值为1或2可以在适当牺牲检出率的情况下进一步提高弦波帧检测的正确率和速度。可以根据需要来在处理速度和功耗与检出率之间折中选择适当的预定数值。
在步骤S2中,判断频域数据的峰值是否足够大可以具体实现为:判断整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比是否大于第二阈值。如果判断结果为是,则判断为峰值足够大,否则,判断为峰值不够大。
其中的第二阈值与整个音频帧的频域数据的最大值相关。第二阈值的具体取值可以根据经验指定,也可通过实验方式获得。
例如,以48kHz情况为例,第二阈值TH可以由如下的分段函数给出:
first_max<5000,则TH=5;
5000<first_max<10000,则TH=10;
10000<first_max<20000,则TH=20;
20000<first_max<50000,则TH=50;
50000<first_max<20000,则TH=100;
first_max>20000,则TH=500。
其中,first_max为整个音频帧的频域数据的最大值。
经过了步骤S2的判断,就可以知晓当前音频帧是否满足频域数据的峰值集中于少数频率处和频域数据的峰值足够大这两个条件。从而,在步骤S3中,将判断结果均为是的音频帧确定为弦波帧。
此外,考虑到弦波帧一定是长窗数据,可以利用如下的判断准则,直接排除部分音频帧。即,如果给定的音频帧为短窗数据,则直接确定该音频帧不是弦波帧。对于长窗数据进行如上所述的各个步骤。
在MPEG2-AAC标准中,1024个采样点都在一个窗口内,称为长窗数据。如果分为8个子窗,则称为短窗数据。短窗的设计主要是为了处理变化剧烈的音频。
为易于实施本发明的方法,下面参照图4描述本发明的弦波帧检测方法的实现流程图。
仍以MPEG2-AAC标准为例。
在MDCT处理并得到比例因子带数据之后,MPEG2-AAC标准需要编码器计算每个比例因子带中频域数据的最大值、以及每个比例因子带中频域数据的平均值。
这两个数据可以直接为本发明的方法所用。因此,可以避免额外的数据计算开销。
为便于说明,每个比例因子带中频域数据的最大值可以存储在数组max_mdct[max_sfb]中。[]中间的数值为比例因子带的索引值,索引值的最小值为0,最大值为max_sfb-1,max_sfb表示比例因子带的个数,表明了数组的大小。每个比例因子带中频域数据的平均值可以存储在数组avg_mdct[max_sfb]中。
应注意,这两组数值的计算需在所有比例因子带上进行。
下面列出并说明了本发明的弦波帧检测方法所需要的变量:
max_sfb:比例因子带的个数;
sb:比例因子带的索引值;
avg_mdct[sb]:每个比例因子带频谱数据的平均值;
max_mdct[sb]:每个比例因子带频谱数据的最大值;
dbl_tmp:每个比例因子带频谱数据的平均值的平均值,即avg_mdct[sb]的平均值:
dbl _ tmp = &Sigma; sb = 0 sb = max _ sfb - 1 avg _ mdct [ sb ] max _ sfb ;
ratio1:每个比例因子带的频谱数据最大值和dbl_tmp的比值,即
ratio 1 = max _ mdct [ sb ] dbl _ tmp ;
first_max:数组max_mdct[sb]中的最大值,即所有比例因子带数据中的最大值;
second_max:数组max_mdct[sb]中的次大值;
tone_count:潜在弦波的个数;
avg:除去first_max和second_max之后,数组max_mdct[]的剩余值的平均值,根据tone_count有不同的计算方法:
如果tone_count为1,则
avg = &Sigma; sb = o , sb ! = first _ max sb = max _ sfb - 1 max _ mdct [ sb ] max _ sfb - 1 ;
如果tone_count为2,则
avg = &Sigma; sb = o , sb ! = first _ max , sb ! = sec ond _ max sb = max _ sfb - 1 max _ mdct [ sb ] max _ sfb - 2 ;
否则,avg=0;
ratio2:first_max和avg的比值,即
其中,如果avg为0,则ratio2为0;
TH:第二阈值,如上所述,其可根据first_max值而设定。
图4示出了根据本发明的实施例的弦波帧检测方法的实现流程图。
图4中所示的示例是以MPEG2-AAC标准为例的。
首先,在步骤S401中,判断频域数据是否为短窗数据。如上所述,在频域数据为短窗数据的情况下,可以直接判断当前音频帧不是弦波帧,处理进行到步骤S416,得到判断结果,处理结束。
相反,如果步骤S401中判断为长窗数据,则当前音频帧可能是弦波帧,处理进行到步骤S402,继续进行判断。
在步骤S402中,计算得到每个比例因子带频谱数据的平均值的平均值dbl_tmp,即整个音频帧的频域数据的平均值。
接下来,处理进行到步骤S403,初始化索引sb和潜在弦波数tone_count。
接下来,处理进行到步骤S404,对于当前比例因子带,计算ratio1,即一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比。
接下来,处理进行到步骤S405,将ratio1与第一阈值threshold作比较。第一阈值threshold例如可设定为1/0.2=5。
当ratio1大于第一阈值threshold时,表明此比例因子带中的频域数据的最大值较大。因此,处理进行到步骤S406,将tone_count递增一次。
当ratio1小于或等于第一阈值threshold时,表明此比例因子带应该不包含峰值,处理进行到步骤S407,准备判断下一个比例因子带。
另外,在执行完步骤S406的递增步骤后,处理也进行到步骤S407,准备判断下一个比例因子带。
在步骤S407之后,处理进行到步骤S408,判断下一个比例因子带是否存在。
当在步骤S408中判断为是时,处理返回到步骤S404,判断下一个比例因子带是否可能包含有峰值。
如此循环,直至对于所有的比例因子带判断一遍。
在这种情况下,处理进行到步骤S409,获得所有比例因子带的最大值中的最大值和次大值。
接下来,处理进行到步骤S410和S411。
此处示出了预定数值为1或2,即针对包括1个弦波或2个弦波的弦波帧进行检测的情况。因此,只在步骤S410和步骤S411中判断为是的情况下进行处理,认为当前帧可能是弦波帧。而对于tone_count等于0或3或3以上的情况,认为当前帧不是弦波帧。
针对步骤S410和步骤S411为是的两种情况,分别进行处理。
在步骤S412中,认为可能包括一个弦波,在步骤S413中,认为可能包括两个弦波。需进一步判断峰值是否足够大。计算不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值。
进而,在步骤S414中,计算ratio2,即整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比。
接下来,处理进行到步骤S415,判断ratio2是否大于第二阈值TH。如果判断为是,则确定为峰值足够大。由于峰值又集中又足够大,满足弦波帧的特征,因此,处理进行到步骤S417,确定当前帧为弦波帧。
反之,如果ratio2小于或等于第二阈值TH,则确定为峰值不够大,此时即使峰值集中,也认为当前帧不是弦波帧。过程进行到步骤S416,并结束。
上述处理中,峰值是否集中主要由tone_count判断,峰值是否足够大,主要由ratio2判断。
应注意,虽然在上面的描述中,以MPEG2-AAC标准为例进行了说明,但是本发明的弦波帧检测方法也可应用到其它音频编码标准。例如,DRA标准(Digital Rise Audio)。只需将相应的频域数据处理单元从比例因子带变更为临界频带(DRA标准中的频域数据分组)即可。
另外,虽然在上面的示例中示出了将频域数据划分为多个频域数据处理单元的情况,但是应明白这是为了利用标准中的现成中间计算结果。基于本发明的思想,可以不进行频域数据划分步骤。
例如,一个音频帧为1024个采样点。可以首先找到其中的多个最大点,然后从每个最大点往两边(即向低频方向和高频方向)找临近的最大点,看它们是否距离接近且大小差不多,从而判断分布是否集中。也就是说,即使不划分频域数据处理单元,只要按照本发明的思想,针对弦波帧的特点,能够判断峰值是否集中和足够大,就能够判断当前的音频帧是否为弦波帧。
此外,如果想检测到包含3个弦波的弦波帧,只需将第一和第二阈值相应地减小,并且在计算ratio2时,去掉最大值、次大值和第三大的值。这样做的结果是可以检测出包含3个弦波的弦波帧,提高检出率,但可能稍微牺牲一些检测的准确性。
图5示出了根据本发明的实施例的音频编码方法。如图5所示,根据本发明的音频编码方法包括:利用根据本发明的弦波帧检测方法,检测待编码音频信号中的弦波帧(步骤S51);以及基于检测结果,对所述音频信号进行编码(步骤S52)。
步骤S52的具体做法,可以针对弦波帧的特点进行。
例如,考虑到弦波帧相对简单,信息量较少,可以对其采用压缩比较高的处理,以尽量提高整体的编码效率,而对于非弦波帧,采用压缩比较低的处理,以尽量保持其中的信息。
下面,将参照图6描述根据本发明实施例的弦波帧检测设备。
图6示出了根据本发明实施例的弦波帧检测设备的结构方框图。如图6所示,根据本发明的弦波帧检测设备600包括:频域数据获得装置61,其被配置为:对于音频信号中的给定的音频帧,获得其对应的频域数据;以及判断装置62,其包括:集中判断单元621,其被配置为:判断所述频域数据的峰值是否集中于少数频率处;大小判断单元622,其被配置为:判断所述频域数据的峰值是否足够大;以及结果确定单元623,其被配置为:将所述集中判断单元621和所述大小判断单元622的判断结果均为是的音频帧确定为弦波帧。
在一个实施例中,频域数据获得装置61被进一步配置为:将所述频域数据划分为多个频域数据处理单元;集中判断单元621被进一步配置为:确定所述多个频域数据处理单元中的每一个是否包括峰值;判定包括峰值的频域数据处理单元的数量是否等于作为小数量的预定数值;如果上述判定结果为是,则判断为峰值集中。
在一个实施例中,集中判断单元621被进一步配置为:如果一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比大于第一阈值,则确定该频域数据处理单元包括峰值。
在一个实施例中,大小判断单元622被进一步配置为:如果整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比大于第二阈值,则判断为峰值足够大。
在一个实施例中,第二阈值与整个音频帧的频域数据的最大值相关。
在一个实施例中,预定数值为1或2。
在一个实施例中,给定的音频帧要由MPEG-2AAC编码,频域数据处理单元为比例因子带。
在一个实施例中,判断装置62还包括:窗口大小判断单元624,其被配置为判断所述给定的音频帧是否为短窗数据;并且结果确定单元623被进一步配置为:如果窗口大小判断单元624的判断结果为是,则直接确定该音频帧不是弦波帧。本领域技术人员应理解,该窗口大小判断单元624能够起到进一步提高处理速度,减少计算量的作用,是判断装置62的可选单元,在图6中以虚线示出。
图7示出了根据本发明实施例的音频编码设备的结构方框图。如图7所示,根据本发明的音频编码设备700包括:检测音频信号中的弦波帧的设备71,用于检测待编码音频信号中的弦波帧;以及音频编码子单元72,用于基于所述检测弦波帧的设备的检测结果,对所述音频信号进行编码。
由于在根据本发明的弦波帧检测设备、音频编码设备中所包括的各个装置和单元中的处理分别与上面描述的弦波帧检测方法、音频编码方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算机800)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图8示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处理。在RAM803中,还根据需要存储当CPU801执行各种处理等等时所需的数据。CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。
下述部件连接到输入/输出接口805:输入部分806(包括键盘、鼠标等等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执行通信处理。根据需要,驱动器810也可连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM802、存储部分808中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种检测音频信号中的弦波帧的方法,所述弦波帧为其频域能量集中于少数几处的音频帧,所述方法包括:
对于所述音频信号中的给定的音频帧,获得其对应的频域数据;
判断所述频域数据的峰值是否集中于少数频率处,并且判断所述频域数据的峰值是否足够大;以及
将判断结果均为是的音频帧确定为弦波帧。
2.如附记1所述的方法,其中
所述获得步骤包括:
将所述频域数据划分为多个频域数据处理单元;
所述判断峰值是否集中的步骤包括:
确定所述多个频域数据处理单元中的每一个是否包括峰值;
判定包括峰值的频域数据处理单元的数量是否等于作为小数量的预定数值;
如果上述判定结果为是,则判断为峰值集中。
3.如附记2所述的方法,其中
所述确定频域数据处理单元是否包括峰值的步骤包括:
如果一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比大于第一阈值,则确定该频域数据处理单元包括峰值。
4.如附记1所述的方法,其中
所述判断峰值是否足够大的步骤包括:
如果整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比大于第二阈值,则判断为峰值足够大。
5.如附记4所述的方法,其中所述第二阈值与所述整个音频帧的频域数据的最大值相关。
6.如附记2所述的方法,其中所述预定数值为1或2。
7.如附记1所述的方法,其中所述给定的音频帧要由MPEG-2AAC编码,所述频域数据处理单元包括比例因子带。
8.如附记7所述的方法,其中如果所述给定的音频帧为短窗数据,则直接确定该音频帧不是弦波帧。
9.一种音频编码方法,包括:
利用如附记1-8之一所述的方法,检测待编码音频信号中的弦波帧;以及
基于检测结果,对所述音频信号进行编码。
10.一种检测音频信号中的弦波帧的设备,所述弦波帧为其频域能量集中于少数几处的音频帧,所述设备包括:
频域数据获得装置,其被配置为:对于所述音频信号中的给定的音频帧,获得其对应的频域数据;以及
判断装置,其包括:
集中判断单元,其被配置为:判断所述频域数据的峰值是否集中于少数频率处;
大小判断单元,其被配置为:判断所述频域数据的峰值是否足够大;以及
结果确定单元,其被配置为:将所述集中判断单元和所述大小判断单元的判断结果均为是的音频帧确定为弦波帧。
11.如附记10所述的设备,其中
所述频域数据获得装置被进一步配置为:
将所述频域数据划分为多个频域数据处理单元;
所述集中判断单元被进一步配置为:
确定所述多个频域数据处理单元中的每一个是否包括峰值;
判定包括峰值的频域数据处理单元的数量是否等于作为小数量的预定数值;
如果上述判定结果为是,则判断为峰值集中。
12.如附记11所述的设备,其中所述集中判断单元被进一步配置为:
如果一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比大于第一阈值,则确定该频域数据处理单元包括峰值。
13.如附记10所述的设备,其中
所述大小判断单元被进一步配置为:
如果整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比大于第二阈值,则判断为峰值足够大。
14.如附记13所述的设备,其中所述第二阈值与所述整个音频帧的频域数据的最大值相关。
15.如附记11所述的设备,其中所述预定数值为1或2。
16.如附记10所述的设备,其中所述给定的音频帧要由MPEG-2AAC编码,所述频域数据处理单元包括比例因子带。
17.如附记16所述的设备,
其中所述判断装置还包括:窗口大小判断单元,其被配置为判断所述给定的音频帧是否为短窗数据;并且
所述结果确定单元被进一步配置为:如果所述窗口大小判断单元的判断结果为是,则直接确定该音频帧不是弦波帧。
18.一种音频编码设备,包括:
如附记10-17之一所述的检测音频信号中的弦波帧的设备,用于检测待编码音频信号中的弦波帧;以及
音频编码子单元,用于基于所述检测音频信号中的弦波帧的设备的检测结果,对所述音频信号进行编码。

Claims (10)

1.一种检测音频信号中的弦波帧的方法,所述弦波帧为其频域能量集中于少数几处的音频帧,所述方法包括:
对于所述音频信号中的给定的音频帧,获得其对应的频域数据;
判断所述频域数据的峰值是否集中于少数频率处,并且判断所述频域数据的峰值是否足够大;以及
将判断结果均为是的音频帧确定为弦波帧。
2.如权利要求1所述的方法,其中
所述获得步骤包括:
将所述频域数据划分为多个频域数据处理单元;
所述判断峰值是否集中的步骤包括:
确定所述多个频域数据处理单元中的每一个是否包括峰值;
判定包括峰值的频域数据处理单元的数量是否等于作为小数量的预定数值;
如果上述判定结果为是,则判断为峰值集中。
3.如权利要求2所述的方法,其中
所述确定频域数据处理单元是否包括峰值的步骤包括:
如果一个频域数据处理单元中的频域数据的最大值与整个音频帧的频域数据的平均值之比大于第一阈值,则确定该频域数据处理单元包括峰值。
4.如权利要求1所述的方法,其中
所述判断峰值是否足够大的步骤包括:
如果整个音频帧的频域数据的最大值与不包括峰值的各个频域数据处理单元中的频域数据的最大值的平均值之比大于第二阈值,则判断为峰值足够大。
5.如权利要求2所述的方法,其中所述预定数值为1或2。
6.如权利要求1所述的方法,其中所述给定的音频帧要由MPEG-2AAC编码,所述频域数据处理单元包括比例因子带。
7.如权利要求6所述的方法,其中如果所述给定的音频帧为短窗数据,则直接确定该音频帧不是弦波帧。
8.一种音频编码方法,包括:
利用如权利要求1-7之一所述的方法,检测待编码音频信号中的弦波帧;以及
基于检测结果,对所述音频信号进行编码。
9.一种检测音频信号中的弦波帧的设备,所述弦波帧为其频域能量集中于少数几处的音频帧,所述设备包括:
频域数据获得装置,其被配置为:对于所述音频信号中的给定的音频帧,获得其对应的频域数据;以及
判断装置,其包括:
集中判断单元,其被配置为:判断所述频域数据的峰值是否集中于少数频率处;
大小判断单元,其被配置为:判断所述频域数据的峰值是否足够大;以及
结果确定单元,其被配置为:将所述集中判断单元和所述大小判断单元的判断结果均为是的音频帧确定为弦波帧。
10.一种音频编码设备,包括:
如权利要求9所述的检测音频信号中的弦波帧的设备,用于检测待编码音频信号中的弦波帧;以及
音频编码子单元,用于基于所述检测音频信号中的弦波帧的设备的检测结果,对所述音频信号进行编码。
CN201310314218.XA 2013-07-24 2013-07-24 弦波帧检测方法和设备以及音频编码方法和设备 Active CN104347082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310314218.XA CN104347082B (zh) 2013-07-24 2013-07-24 弦波帧检测方法和设备以及音频编码方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310314218.XA CN104347082B (zh) 2013-07-24 2013-07-24 弦波帧检测方法和设备以及音频编码方法和设备

Publications (2)

Publication Number Publication Date
CN104347082A true CN104347082A (zh) 2015-02-11
CN104347082B CN104347082B (zh) 2017-10-24

Family

ID=52502547

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310314218.XA Active CN104347082B (zh) 2013-07-24 2013-07-24 弦波帧检测方法和设备以及音频编码方法和设备

Country Status (1)

Country Link
CN (1) CN104347082B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116022A (zh) * 1993-10-11 1996-01-31 菲利浦电子有限公司 实旋不同编码法则的发送系统
US20010018651A1 (en) * 2000-02-28 2001-08-30 Nec Corporation Coded voice signal format converting apparatus
CN1437746A (zh) * 2000-02-29 2003-08-20 高通股份有限公司 跟踪准周期性信号的相位的方法和设备
WO2006059288A1 (en) * 2004-12-03 2006-06-08 Koninklijke Philips Electronics N.V. Parametric audio coding comprising balanced quantization scheme
CN1862969A (zh) * 2005-05-11 2006-11-15 尼禄股份公司 自适应块长、常数变换音频解码方法
CN101116136A (zh) * 2005-02-10 2008-01-30 皇家飞利浦电子股份有限公司 声音合成
CN102685469A (zh) * 2012-05-04 2012-09-19 北京航空航天大学 一种基于mpeg-2 aac及h.264音视频传输码流的组帧方法
CN103038820A (zh) * 2010-07-30 2013-04-10 高通股份有限公司 用于音频信号的相依模式译码的系统、方法、设备和计算机可读媒体
CN103811011A (zh) * 2012-11-02 2014-05-21 富士通株式会社 音频弦波检测方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116022A (zh) * 1993-10-11 1996-01-31 菲利浦电子有限公司 实旋不同编码法则的发送系统
US20010018651A1 (en) * 2000-02-28 2001-08-30 Nec Corporation Coded voice signal format converting apparatus
CN1437746A (zh) * 2000-02-29 2003-08-20 高通股份有限公司 跟踪准周期性信号的相位的方法和设备
WO2006059288A1 (en) * 2004-12-03 2006-06-08 Koninklijke Philips Electronics N.V. Parametric audio coding comprising balanced quantization scheme
CN101116136A (zh) * 2005-02-10 2008-01-30 皇家飞利浦电子股份有限公司 声音合成
CN1862969A (zh) * 2005-05-11 2006-11-15 尼禄股份公司 自适应块长、常数变换音频解码方法
CN103038820A (zh) * 2010-07-30 2013-04-10 高通股份有限公司 用于音频信号的相依模式译码的系统、方法、设备和计算机可读媒体
CN102685469A (zh) * 2012-05-04 2012-09-19 北京航空航天大学 一种基于mpeg-2 aac及h.264音视频传输码流的组帧方法
CN103811011A (zh) * 2012-11-02 2014-05-21 富士通株式会社 音频弦波检测方法和装置

Also Published As

Publication number Publication date
CN104347082B (zh) 2017-10-24

Similar Documents

Publication Publication Date Title
CN108847217A (zh) 一种语音切分方法、装置、计算机设备及存储介质
Murillo et al. Deep PeNSieve: A deep learning framework based on the posit number system
Liu et al. Feature extraction of rotor fault based on EEMD and curve code
US11417353B2 (en) Method for detecting audio signal and apparatus
CN110718211B (zh) 一种基于混合压缩卷积神经网络的关键词识别系统
CN104966517A (zh) 一种音频信号增强方法和装置
CN102761312A (zh) 信号处理装置及其方法、程序以及数据记录介质
CN103247298B (zh) 一种灵敏度校准方法和音频设备
US7480603B1 (en) Finite impulse response (FIR) filter compiler
US11462225B2 (en) Method for processing speech/audio signal and apparatus
CN110618316B (zh) 一种谐波源辨识方法、装置、终端设备和存储介质
CN102799411B (zh) 浮点数累加电路及其实现方法
JP7179144B2 (ja) 適応チャネル間弁別的リスケーリングフィルタ
US8037114B2 (en) Method for creating a representation of a calculation result linearly dependent upon a square of a value
US20220284720A1 (en) Method for grouping cells according to density and electronic device employing method
CN105047202A (zh) 一种音频处理方法、装置及终端
CN114091570A (zh) 业务处理系统方法、装置和电子设备
Schwär et al. Multi-Scale Spectral Loss Revisited
CN104347082A (zh) 弦波帧检测方法和设备以及音频编码方法和设备
US7110927B1 (en) Finite impulse response (FIR) filter compiler
CN111489739A (zh) 音素识别方法、装置及计算机可读存储介质
CN113314134B (zh) 一种骨传导信号补偿方法及装置
CN104008333A (zh) 一种安装包的检测方法和设备
WO2020056764A1 (zh) 一种浮点精度检测方法与装置
Tomar et al. Digital signal processing for gene prediction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant