CN101221766A - 音频编码器切换的方法 - Google Patents

音频编码器切换的方法 Download PDF

Info

Publication number
CN101221766A
CN101221766A CNA2008100566409A CN200810056640A CN101221766A CN 101221766 A CN101221766 A CN 101221766A CN A2008100566409 A CNA2008100566409 A CN A2008100566409A CN 200810056640 A CN200810056640 A CN 200810056640A CN 101221766 A CN101221766 A CN 101221766A
Authority
CN
China
Prior art keywords
audio
frequency characteristics
modulation energy
audio frequency
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100566409A
Other languages
English (en)
Other versions
CN101221766B (zh
Inventor
窦维蓓
张斌
张树华
夏田
侯欢
贾晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2008100566409A priority Critical patent/CN101221766B/zh
Publication of CN101221766A publication Critical patent/CN101221766A/zh
Application granted granted Critical
Publication of CN101221766B publication Critical patent/CN101221766B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种音频编码器切换的方法,属于多媒体信号处理和信源编码领域。所述方法包括:选取多个音频序列作为训练数据;根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则;当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切换到相应的音频编码器中进行编码。本发明利用主观音质测试结果训练分类器,使分类器能够逼近主观听觉选择合适的编码器进行切换,既克服了AMR-WB+闭环切换方法计算量很大的缺点,而且与AMR-WB+开环切换方法相比,极大地提高了切换的准确率,使编码的质量得到了保证。

Description

音频编码器切换的方法
技术领域
本发明涉及多媒体信号处理和信源编码领域,特别涉及一种音频编码器切换的方法。
背景技术
随着多媒体通信应用的不断扩展,人们对于多媒体数据传输质量的要求也逐渐提高。音频和视频数据构成了多媒体数据的两大重要组成部分。从音频传输的角度讲,人们从早先只希望在电话中传送语音,逐渐过渡到现在希望能在手机上传输高质量的宽带音频,其中包括大量的音乐。所需音频数据的传输量的大量增加与通信带宽的限制成为了新的矛盾。由于还要分配给视频数据大量的传输带宽,因此需要用更少的数据量传输带宽更大的音频信号。一些新的音频信号压缩算法,如ACELP(Algebraic Codebook Excitation Linear Prediction,代数码本激励线性预测)和EAAC+(Enhanced Advanced Audio Coding Plus,改进的高级音频编码)等诸多低码率宽带音频编码器应运而生,并取得了很好的压缩效果。
但是,这些编码器对所有音频信号采用类似的信号处理方式,不能对所有音频信号都达到最佳的编码性能。例如,ACELP利用人发声模型对信号建模,这种处理方式比较适合于语音,对大部分音乐信号会产生较大的编码失真。再如,EAAC+是从传统高保真通用音频编码器演变过来的低比特率通用音频编码器,采用变换编码,其编码方式更适合于音乐信号,对一些语音信号的编码效果不如ACELP。从这个比较中可以看出,如果能够取长补短,将几种音频编码器的优势结合起来,有可能达到更好的音频编码效果。
2005年,3GPP(3rd Generation Partnership Project,第三代移动通信合作组织)提出的AMR-WB+(Adaptive Multi-Rate-Wide Band+,自适应多速率超宽带音频编码器)标准是一个利用上述原理构建的用于移动通信领域的低比特率音频编码器。该编码器内部有两个核心编码器,即基于码本激励的ACELP和基于时频变换的TCX(Transform Coded Excitation,变换编码激励)。编码器中还有一个编码器切换单元,以一定的标准,实时选择其中一个核心编码器处于活动状态。如此切换的结果使得AMR-WB+对于语音和音乐信号都达到了较好的编码效果。其中,AMR-WB+编码器切换单元有两种切换方法:闭环方法和开环方法。
AMR-WB+闭环切换方法是一种高复杂度方法,对各种可能的ACELP/TCX组合进行尝试编码,并将各种组合编码结果与原声进行比较,计算平均分段信噪比(average segmentalSNR)。最终,编码器以平均分段信噪比为准则选取核心编码器。这种编码器切换虽然对于AMR-WB+是最优切换,但计算量很大,在移动通信领域应用受到限制。
AMR-WB+开环切换方法是一种低复杂度方法,采用决策树,对各种音频特征设定门限,通过对输入音频信号提取特征并进行分析,判断用何种核心编码器更好来实现信号的分类,从而进行编码器的切换。其中使用了大量信号处理分析的手段,其参数的设定依据先验知识。它更像是一个与核心编码器无关的语音/音乐分类器,即不管采用何种核心编码器的组合,都采用同样的方法控制在语音编码器和通用音频编码器之间切换。这种方法的计算量比闭环方法低得多,比较适合移动通信的应用,但是由于其切换不够准确,最终编码的质量没有采用闭环方法的好,对于特定的核心编码器的组合很难做到最优。
发明内容
为了提高编码器切换时的准确性和编码质量,并降低计算量,本发明提供了一种音频编码器切换的方法。所述技术方案如下:
一种音频编码器切换的方法,所述方法包括:
选取多个音频序列作为训练数据;
根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则;
当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切换到相应的音频编码器中进行编码。
所述根据预设的规则和所述训练数据对分类器进行训练,具体包括:
从所述训练数据中提取短时音频特征;
根据所述短时音频特征提取长时音频特征;
根据预设的规则对分类器进行训练,从所述长时音频特征中选取指定个数的长时音频特征,且选出的长时音频特征比未选出的长时音频特征的分类精度高。
从所述训练数据中提取短时音频特征,具体包括:
对所述训练数据中的每个音频序列,提取13维MFCC音频特征、12维LPCC音频特征和MPEG-7中的10维音频特征。
所述根据所述短时音频特征提取长时音频特征,具体包括:
对每个短时音频特征,提取以下19种长时音频特征:均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz调制能量、40Hz调制能量和50Hz调制能量。
所述选取的指定个数的长时音频特征具体包括:
MFCC的均值、最小值、差分均值、0Hz调制能量、第4个分量2Hz调制能量、20Hz调制能量和第13个分量2Hz调制能量;LPCC的低比率、动态范围;以及MPEG-7中音频特征的动态范围。
所述根据所述短时音频特征提取长时音频特征,具体为:
每500毫秒从所述短时音频特征中提取一次长时音频特征。
所述多个音频序列包括音乐序列和语音序列中的至少一种。
本发明利用主观音质测试结果训练分类器,使分类器能够逼近主观听觉选择合适的编码器进行切换,既充分反映了主观听觉感受,又降低了设计成本,克服了现有的AMR-WB+闭环切换方法计算量大的缺点,而且与现有的AMR-WB+开环切换方法相比,极大地提高了切换的准确率,使编码的质量得到了保证。另外,本发明以最高2次/秒的速率对编码器进行切换,即500毫秒进行一次切换,与人耳主观感觉非常接近。
附图说明
图1是本发明实施例提供的音频编码器切换的方法流程图;
图2是本发明实施例提供的前向特征选择法的示意图;
图3是本发明实施例提供的音频编码器切换的示意图;
图4是本发明实施例提供的混合编码器与AMR-WB+(闭环模式)、AMR-WB+(开环模式)三种编码器切换编码比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例中的混合音频编码器包括但不限于EAAC+编码器和ACELP编码器的组合等等。对于其他编码器的组合,本发明实施例中的技术方案仍然适用。
参见图1,本发明实施例提供了一种音频编码器切换的方法,具体包括:
步骤101:从高质量的音效数据库中选取多个典型音频序列。
在本实施例中选取97个典型音乐序列,其内容涉及自然界、人类生活、机械、交通、合成声、音乐、乐器等各种声音。为了便于音质测试和比较,本实施例选取的音频序列长度大部分在2~5秒之间,并统一降采样至16kHz,下混至单声道。
步骤102:用混合编码器对选取的每个音频序列进行编码,并采用主观音质测试的方式,对混合编码器中的每个编码器编码后的音频序列经解码后与原声进行比较打分,确定选择编码器的规则。
混合编码器有多种,在本实施例中采用目前公认性能最好的两种编码器,低比特率语音编码器ACELP和音乐编码器EAAC+,组成混合编码器,在16kbps单声道的码率下对于每一段音频序列进行编码。进行主观音质测试的听音者可以有多个,在本实施例中共有12名听音者参加了音质测试。其中,主观音质测试采用的打分标准可以参见表1。
表1
  测试过程中用户的评价   记录的分数
  EAAC+比ACELP好   2
  EAAC+比ACELP略好   1
  EAAC+与ACELP差不多   0
  ACELP比EAAC+略好   -1
  ACELP比EAAC+好   -2
对于每个音频序列,对12名听音者的打分计算出平均值,则97个音频序列共可以得到97个平均分。对97个平均分进行统计,得出以下结论:76%的音频序列平均分大于零(EAAC+更好),2%的序列平均分等于零(两者相当),约22%的序列平均分小于零(ACELP更好)。
根据主观音质测试的评分结果,确定选择编码器的规则如下:平均分大于零的音频序列用EAAC+编码,平均分小于零的音频序列用ACELP编码,平均分等于零的音频序列舍弃不用。
步骤103:从上述选取的多个音频序列中提取短时音频特征和长时音频特征。
在本实施例中每10毫秒提取一次短时音频特征,每500毫秒提取一次长时音频特征。其中,短时音频特征包括以下三种:MFCC(Mel Frequency Cepstral Coefficient,梅尔频率倒谱系数)音频特征、LPCC(Linear Prediction Cepstral Coefficient,线性预测倒谱系数)音频特征和MPEG-7(Moving Picture Experts Group,运动图像专家组织)中的音频特征。长时音频特征是对500毫秒内上述短时音频特征的各分量(每个分量都有50个采样)进行各种统计后得出的,包括但不限于以下19种:均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz调制能量、40Hz调制能量和50Hz调制能量。
对于13维MFCC音频特征、12维LPCC音频特征和MPEG-7中的10维音频特征,这三种短时音频特征中的每个短时音频特征,都能够计算出19种长时音频特征,因此总计候选长时音频特征的候选分量为19*(13+12+10)=665个。
步骤104:将上述选取的多个音频序列作为分类器的训练数据,对分类器进行训练,根据主观音质测试得到的编码器选择规则,确定分类器的分类精度,从上述提取的长时音频特征中选取有效的长时音频特征,作为分类器选择编码器的依据。
进一步地,本实施例除选取97个音乐序列外,还可以选取多个语音序列作为分类器的训练数据。例如,选取29个语音序列,包括对讲机语音片断、室内环境语音片断、汉语朗读片断、英语朗读片断和法语朗读片断等等;每个语音序列长度在5秒左右,16kHz采样,单声道。这些语音序列默认优先由ACELP编码。相应地,从选取的多个语音序列中提取短时音频特征和长时音频特征,对分类器进行训练。
本发明实施例可以选用的分类器有多种,如表2所示,可以选用其中的任一种,在本实施例中以选用子空间分类器为例进行说明。
表2
  分类器简称   分类器描述
  klldc   对协方差矩阵进行KL变换的线性分类器
  pcldc   对输入数据进行主分量分析的线性分类器
  loglc   罗吉斯(logistic)线性分类器
  fisherc   最小二乘线性分类器
  nmc   最小均值分类器
  nmsc   缩放的最小均值分类器
  polyc   多项式特征分类器
  subsc   子空间分类器
  ldc   基于正态分布的线性分类器
  qdc   基于正态分布的二次分类器
  udc   基于正态分布的独立特征分类器
  naivebc   简单贝叶斯分类器
具体地,本实施例可以利用前向特征选择法(Forward Feature Selection),在上述提取的19个长时音频特征中选出10个有效的音频特征,参见图2,具体如下:
1、初始化特征集F、G,其中F=φ(空集),G={665个音频特征候选分量},
2、初始化分类器的分类精度p=0;
3、依次从G中选取一个特征f,构造临时特征集H=F∪f;
4、用H训练分类器,得到训练集上的分类精度p’;
5、如果p’>p,则存储f,p=p’;
6、重复步骤3~5,直至G中的所有音频特征都已被尝试;
7、F=F∪f,G=G\f(G中去除元素f后获得的集合);
8、重复步骤2~7,当F中特征数量超过10时,停止选择,输出F作为最终选定的音频特征集合。
上述训练过程的步骤1中的G是针对一个音频序列而言的,本实施例对97个音乐序列和29个语音序列中的每一个序列都执行上述8个步骤,来对分类器进行训练。其中,步骤4中的分类精度由主观音质测试得到的编码器选择规则来决定,即当分类器的分类结果符合主观音质测试得到的编码器选择规则时,分类精度较高,当分类器的分类结果不符合主观音质测试得到的编码器选择规则时,分类精度较低。
其中,有效的音频特征是指分类精度高的音频特征,通过选取分类精度高的音频特征,可以过滤掉分类精度低的音频特征,如可能对分类造成影响的音频特征等。分类器用得到的有效音频特征来选择合适的编码器进行编码。
步骤105:当有音频信号输入时,分类器根据上述有效音频特征对该音频信号进行分类,并将其切换到相应的音频编码器中进行编码,然后结束。
例如,参见图3,混合编码器由EAAC+和ACELP组成,分类器根据主观音质测试选出10个音频特征,当有音频信号输入时,分类器对其进行分类,并将分类的结果输出给无缝切换单元,无缝切换切换到相应的编码器,如将西班牙语音信号切换到ACELP编码器进行编码,或将小号独奏信号切换到EAAC+编码器进行编码等,编码器编码后输出给码流形成单元,然后输出;另外,码流形成单元将分类器输出的分类结果作为边信息打包至码流中,以方便解码端根据该边信息调用相应的解码器进行解码。
在本发明实施例中以最高2次/秒的速率对编码器进行切换,即500毫秒进行一次切换。由于实际信号中出现音频信号快速剧烈变化的情况非常少,该速率完全可以满足实际信号的需要。而且以较高频率进行编码器切换需要依赖于短时音频特征,以较低频率进行编码器切换则可以主要依赖于长时音频特征,短时音频特征对于编码器切换所要区分信号的区分精度没有长时音频特征高,因此与现有技术中AMR-WB+的开环切换方法相比,本发明实施例避免了频繁切换的机制,且依据长时音频特征进行切换,从而提高了编码器的切换精度,并保证了切换边缘的平滑。
本发明实施例利用主观音质测试训练分类器,使分类器能够逼近主观听觉选择合适的编码器进行切换,既充分反映了主观听觉感受,又降低了设计成本,克服了现有的AMR-WB+闭环切换方法计算量大的缺点,而且与现有的AMR-WB+开环切换方法相比,极大地提高了切换的准确率,使编码的质量得到了保证。另外,本发明实施例以最高2次/秒的速率对编码器进行切换,即500毫秒进行一次切换,与人耳主观感觉非常接近。
下面以一个具体的应用实例来说明本发明实施例的效果。采用子空间分类器对混合编码器进行切换,混合编码器由ACELP和EAAC+两个编码器组成,子空间分类器经过训练后选出的长时音频特征有10个,如表3所示。
表3
  短时音频特征   选用的长时音频特征
MFCC   C1均值、C2最小值、C4差分均值、C4 2Hz调制能量、C50Hz调制能量、C6 20Hz调制能量、C13 2Hz调制能量
  LPCC   c3低比率、c4动态范围
  MPEG-7   y1动态范围
其中,C42Hz调制能量为MFCC的第4个分量的2Hz调制能量,C13 2Hz调制能量为MFCC的第13个分量的2Hz调制能量。
选出MPEG 12个标准测试序列用来测试上述混合编码器的效果,测试训练如表4所示。
表4
  序列类型   序列名称   编号   信号类型
语音   es01.waves02.waves03.wav   123   清唱德语男声英语女声
声音/音乐 复杂混合声音   sc01.wavsc02.wavsc03.wav   456   小号独奏管弦乐流行音乐
单一乐器   si01.wavsi02.wavsi03.wav   789   大键琴响板音笛
简单混合声音   sm01.wavsm02.wavsm03.wav   101112   风笛钟琴弹拨乐
用混合编码器对表4中的测试序列以16kbps码率进行编码,并让测试者比较测试序列的原声、混合编码器编码再解码后得到的序列、AMR-WB+(闭环切换)、AMR-WB+(开环切换)以及原声经3.5kHz低通滤波处理得到的声音(锚序列),采用ITU.R BS-1534标准进行比较,即中等质量音频编码的主观评测方法。测试者打分的标准如表5所示。
表5
  分数范围   主观感受   具体含义
  80~100   Excellent   无法感觉与原声的差别
  60~80   Good   可以感觉到差别,但不感觉厌烦
  40~60   Fair   略微感到厌烦
  20~40   Poor   厌烦
  0~20   Bad   非常厌烦
测试后的结果如表6所示,其中,混合编码器的打分为75.23,介于AMR-WB+(闭环切换)和AMR-WB+(开环切换)之间。对于所有测试序列,混合编码器与AMR-WB+(闭环模式)、AMR-WB+(开环模式)三种编码器平均得分的比较如图4所示。测试结果表明,子空间分类器获得了较好的主观听觉效果。
表6
  编码器(处理方法)   平均得分
  原声   97.54
  AMR-WB+(闭环切换)   77.96
  混合编码器   75.23
  AMR-WB+(开环切换)   72.77
  3.5kHz低通滤波(锚序列)   63.75
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种音频编码器切换的方法,其特征在于,所述方法包括:
选取多个音频序列作为训练数据;
根据预设的规则和所述训练数据对分类器进行训练,所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则;
当有音频信号输入时,所述分类器根据训练的结果对所述音频信号进行分类,并将其切换到相应的音频编码器中进行编码。
2.根据权利要求1所述的音频编码器切换的方法,其特征在于,所述根据预设的规则和所述训练数据对分类器进行训练,具体包括:
从所述训练数据中提取短时音频特征;
根据所述短时音频特征提取长时音频特征;
根据预设的规则对分类器进行训练,从所述长时音频特征中选取指定个数的长时音频特征,且选出的长时音频特征比未选出的长时音频特征的分类精度高。
3.根据权利要求2所述的音频编码器切换的方法,其特征在于,从所述训练数据中提取短时音频特征,具体包括:
对所述训练数据中的每个音频序列,提取13维MFCC音频特征、12维LPCC音频特征和MPEG-7中的10维音频特征。
4.根据权利要求2所述的音频编码器切换的方法,其特征在于,所述根据所述短时音频特征提取长时音频特征,具体包括:
对每个短时音频特征,提取以下19种长时音频特征:均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz调制能量、40Hz调制能量和50Hz调制能量。
5.根据权利要求4所述的音频编码器切换的方法,其特征在于,所述选取的指定个数的长时音频特征具体包括:
MFCC的均值、最小值、差分均值、0Hz调制能量、第4个分量2Hz调制能量、20Hz调制能量和第13个分量2Hz调制能量;LPCC的低比率、动态范围;以及MPEG-7中音频特征的动态范围。
6.根据权利要求2所述的音频编码器切换的方法,其特征在于,所述根据所述短时音频特征提取长时音频特征,具体为:
每500毫秒从所述短时音频特征中提取一次长时音频特征。
7.根据权利要求1至6中任一权利要求所述的音频编码器切换的方法,其特征在于,所述多个音频序列包括音乐序列和语音序列中的至少一种。
CN2008100566409A 2008-01-23 2008-01-23 音频编码器切换的方法 Expired - Fee Related CN101221766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100566409A CN101221766B (zh) 2008-01-23 2008-01-23 音频编码器切换的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100566409A CN101221766B (zh) 2008-01-23 2008-01-23 音频编码器切换的方法

Publications (2)

Publication Number Publication Date
CN101221766A true CN101221766A (zh) 2008-07-16
CN101221766B CN101221766B (zh) 2011-01-05

Family

ID=39631549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100566409A Expired - Fee Related CN101221766B (zh) 2008-01-23 2008-01-23 音频编码器切换的方法

Country Status (1)

Country Link
CN (1) CN101221766B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102568520A (zh) * 2010-12-16 2012-07-11 富泰华工业(深圳)有限公司 测试装置及方法
CN102177544B (zh) * 2008-10-08 2014-07-09 法国电信 具有预测编码器的临界采样编码
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN104268566A (zh) * 2014-09-18 2015-01-07 重庆大学 淋巴结疾病智能诊断系统中的数据处理方法
WO2015018121A1 (zh) * 2013-08-06 2015-02-12 华为技术有限公司 一种音频信号分类方法和装置
CN106796800A (zh) * 2014-07-28 2017-05-31 弗劳恩霍夫应用研究促进协会 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器
CN108768986A (zh) * 2018-05-17 2018-11-06 中国科学院信息工程研究所 一种加密流量分类方法及服务器、计算机可读存储介质
CN109616142A (zh) * 2013-03-26 2019-04-12 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN111580772A (zh) * 2013-10-22 2020-08-25 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
CN113851117A (zh) * 2021-09-27 2021-12-28 苏州科达科技股份有限公司 语音关键词识别方法、系统、设备及存储介质
CN113948100A (zh) * 2014-07-28 2022-01-18 弗劳恩霍夫应用研究促进协会 频域处理器以及时域处理器的音频编码器和解码器

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
EP1815463A1 (en) * 2004-11-05 2007-08-08 Koninklijke Philips Electronics N.V. Efficient audio coding using signal properties

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102177544B (zh) * 2008-10-08 2014-07-09 法国电信 具有预测编码器的临界采样编码
CN102568520A (zh) * 2010-12-16 2012-07-11 富泰华工业(深圳)有限公司 测试装置及方法
CN102568520B (zh) * 2010-12-16 2016-10-12 富泰华工业(深圳)有限公司 测试装置及方法
CN104040626A (zh) * 2012-01-13 2014-09-10 高通股份有限公司 多译码模式信号分类
CN109616142A (zh) * 2013-03-26 2019-04-12 杜比实验室特许公司 用于音频分类和处理的装置和方法
CN109616142B (zh) * 2013-03-26 2023-11-07 杜比实验室特许公司 用于音频分类和处理的装置和方法
US10529361B2 (en) 2013-08-06 2020-01-07 Huawei Technologies Co., Ltd. Audio signal classification method and apparatus
US11756576B2 (en) 2013-08-06 2023-09-12 Huawei Technologies Co., Ltd. Classification of audio signal as speech or music based on energy fluctuation of frequency spectrum
US12198719B2 (en) 2013-08-06 2025-01-14 Huawei Technologies Co., Ltd. Audio signal classification based on frequency spectrum fluctuation
US10090003B2 (en) 2013-08-06 2018-10-02 Huawei Technologies Co., Ltd. Method and apparatus for classifying an audio signal based on frequency spectrum fluctuation
WO2015018121A1 (zh) * 2013-08-06 2015-02-12 华为技术有限公司 一种音频信号分类方法和装置
US11289113B2 (en) 2013-08-06 2022-03-29 Huawei Technolgies Co. Ltd. Linear prediction residual energy tilt-based audio signal classification method and apparatus
CN111580772A (zh) * 2013-10-22 2020-08-25 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
CN111580772B (zh) * 2013-10-22 2023-09-26 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
CN113948100A (zh) * 2014-07-28 2022-01-18 弗劳恩霍夫应用研究促进协会 频域处理器以及时域处理器的音频编码器和解码器
CN106796800A (zh) * 2014-07-28 2017-05-31 弗劳恩霍夫应用研究促进协会 使用频域处理器、时域处理器和用于连续初始化的交叉处理器的音频编码器和解码器
US12080310B2 (en) 2014-07-28 2024-09-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor
CN104268566A (zh) * 2014-09-18 2015-01-07 重庆大学 淋巴结疾病智能诊断系统中的数据处理方法
CN108768986B (zh) * 2018-05-17 2020-09-08 中国科学院信息工程研究所 一种加密流量分类方法及服务器、计算机可读存储介质
CN108768986A (zh) * 2018-05-17 2018-11-06 中国科学院信息工程研究所 一种加密流量分类方法及服务器、计算机可读存储介质
CN113851117A (zh) * 2021-09-27 2021-12-28 苏州科达科技股份有限公司 语音关键词识别方法、系统、设备及存储介质
CN113851117B (zh) * 2021-09-27 2025-02-25 苏州科达科技股份有限公司 语音关键词识别方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN101221766B (zh) 2011-01-05

Similar Documents

Publication Publication Date Title
CN101221766B (zh) 音频编码器切换的方法
CN102063899B (zh) 一种非平行文本条件下的语音转换方法
CN102089803B (zh) 用以将信号的不同段分类的方法与鉴别器
AU2016262638B2 (en) Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
CN1920947A (zh) 用于低比特率音频编码的语音/音乐检测器
US20190378532A1 (en) Method and apparatus for dynamic modifying of the timbre of the voice by frequency shift of the formants of a spectral envelope
CN102376306A (zh) 语音帧等级的获取方法及装置
CN104376850B (zh) 一种汉语耳语音的基频估计方法
Lee et al. Speech/audio signal classification using spectral flux pattern recognition
Shin et al. Quantization noise masking in perceptual neural audio coder
Li et al. Contrastive learning for target speaker extraction with attention-based fusion
Liu et al. Audio bandwidth extension based on ensemble echo state networks with temporal evolution
Abel et al. Enhancing the EVS Codec in Wideband Mode by Blind Artificial Bandwidth Extension to Superwideband
CN115730642A (zh) 融合注意力机制的主辅网络语音增强系统
Toman et al. Data Requirements, Selection and Augmentation for DNN-based Speech Synthesis from Crowdsourced Data.
CN119360821B (zh) 基于动态神经网络和特征调制的零样本语音克隆方法
CA3170065A1 (en) Method and device for speech/music classification and core encoder selection in a sound codec
Bae et al. A neural text-to-speech model utilizing broadcast data mixed with background music
Feng et al. Multi-modal Speech Enhancement with Limited Electromyography Channels
Solewicz et al. Considering speech quality in speaker verification fusion.
Grancharov et al. Non-intrusive speech quality assessment with low computational complexity.
Meenakshi et al. Automatic gender classification using the mel frequency cepstrum of neutral and whispered speech: A comparative study
CN119360821A (zh) 基于动态神经网络和特征调制的零样本语音克隆方法
CN120496503A (zh) 基于注意力特征融合的非平行任意到任意语音转换方法
Kulesza et al. High quality speech coding using combined parametric and perceptual modules

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110105

Termination date: 20180123

CF01 Termination of patent right due to non-payment of annual fee