CN101789253B - 一种数字音频信号处理方法 - Google Patents

一种数字音频信号处理方法 Download PDF

Info

Publication number
CN101789253B
CN101789253B CN2010101022461A CN201010102246A CN101789253B CN 101789253 B CN101789253 B CN 101789253B CN 2010101022461 A CN2010101022461 A CN 2010101022461A CN 201010102246 A CN201010102246 A CN 201010102246A CN 101789253 B CN101789253 B CN 101789253B
Authority
CN
China
Prior art keywords
digital audio
frame
point
audio signal
continuous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101022461A
Other languages
English (en)
Other versions
CN101789253A (zh
Inventor
孙晓刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAOLI MICRO-ELECTRONICS SYSTEM HOLDING Co Ltd KY
Original Assignee
BAOLI MICRO-ELECTRONICS SYSTEM HOLDING Co Ltd KY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BAOLI MICRO-ELECTRONICS SYSTEM HOLDING Co Ltd KY filed Critical BAOLI MICRO-ELECTRONICS SYSTEM HOLDING Co Ltd KY
Priority to CN2010101022461A priority Critical patent/CN101789253B/zh
Publication of CN101789253A publication Critical patent/CN101789253A/zh
Application granted granted Critical
Publication of CN101789253B publication Critical patent/CN101789253B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

为了解决改变数字音频信号长度时存在的时间延迟大的问题,本发明提供了一种数字音频信号处理方法,包括:原始帧开始位置向后取W个连续采样点作为验证段;以前一合成帧最后一个采样点作为起始点向前取W个连续采样点与验证段进行相关性计算;以前一合成帧倒数第二个采样点作为起始点向前取W个连续采样点与验证段进行相关性计算,以此类推,直到完成预定次数的相关性计算;从得到的相关性结果中选则相关性最大的结果所对应前一合成帧中所取W个连续采样点的前一个采样点作为接续点,将所述原始帧开始位置后一定数量的连续采样点接续在接续点后,形成合成帧。本发明可以用于调整音频播放时间和音频变调。

Description

一种数字音频信号处理方法
技术领域
本发明属于一种数字音频信号处理方法,特别是一种改变数字音频信号长度的方法。
背景技术
数字音频信号可以看作是时域中一串顺序排列的数据序列,顺序也就是音频播放时的时间顺序。对数字音频信号的处理方式中,改变数字音频信号的长度(即增减所述数据序列中的数据)是一种应用非常广泛的处理方式。对改变了长度的数字音频信号进行正常播放,可以达到在保持音调不变的情况下改变音频播放时间的效果,此项技术可以应用到音视频文件的变速播放、变速浏览、复读机的变速复读等技术领域。对改变了长度的数字音频信号也可以进一步进行变换采样率处理,使得数字音频信号恢复原始长度,播放的效果是保持音频信号长度不变的同时改变了音调。音频变调技术是许多设备的一项重要功能,如语音邮件、多媒体音频信号处理、音频合成器、声码器、卡拉OK、通信中的身份隐藏等。其中最为广泛的应用是卡拉OK中的数字音频变调装置。
现有的改变数字音频信号长度的方法如SOLA算法(SynchronizedOverlap-and-Add)主要处理过程是:
首先,要对原始信号进行分帧,即以固定长度为单位对未处理的数字音频信号(即数字音频信号的数据序列)进行划分,划分的帧为原始帧。原始帧经过一系列的处理形成相应的合成帧,只是合成帧的长度与原始帧的长度不同。对原始帧序列和合成帧序列分别进行序号标记。进行分帧的主要目的是形成处理数据的单位。
其次,第一个合成帧的形成是直接从原始信号开始位置顺序截取一定长度的数据充当,当然这段数据的长度与合成帧的长度应当相等,合成帧的长度与原始帧的长度在一般情况下不相同。
第三,从第二个合成帧开始,新的合成帧(简称当前合成帧)的生成过程是:先从当前合成帧的前一合成帧末尾取W个连续采样点(一个采样点在本发明中是指数字音频信号中的一个数据)的一段连续数据,即该段连续数据的最后一个采样点为前一合成帧的最后一个采样点;从与当前合成帧的序号相同的原始帧开始位置(该原始帧的第一个采样点)向后取W个连续采样点的一段连续数据,将从前一合成帧中取得的所述连续数据与所述原始帧中取得的所述连续数据进行相关性计算,得到相关性结果;从与当前合成帧的序号相同的原始帧的第二个采样点数据开始向后取W个连续采样点的一段连续数据,将该段数据与所述从前一合成帧中取得的连续数据进行相关性计算,得到相关性结果;依此类推,进行预定次数Index_Max,相当于用一个窗口在原始帧逐次向后移动一个采样点取得若干组连续数据与上述前一合成帧所取得的连续数据进行相关性计算并得到相应的相关性结果;从得到的多个相关性结果中选择所述两段信号相关性最大的结果,也就是得到与所述前一合成帧取得的连续数据最相似的所述原始帧中的连续数据,从原始帧中该连续数据的起始位置向后取合成帧长度的数据作为当前合成帧,并与前一合成帧进行连接。合成帧连接后形成改变了长度的数字音频信号。
SOLA算法存在的一个问题是必须等接收到对应原始帧至少(Index_Max+W)个数据后才可以进行最终的相关性计算,因此延长了数据处理的时间,在实时处理音频信号时容易导致时间延迟比较大。
发明内容
为了解决现有改变数字音频信号长度的方法存在的时间延迟大的问题,本发明提供了一种数字音频信号处理方法,可以在获得较少量的原始数字音频信号后即可进行最终的相关性计算,一定程度上解决了现有技术存在的实时处理音频信号时延迟大的问题。
本发明的技术方案如下:
一种数字音频信号处理方法,包括如下步骤:
A、将原始数字音频信号以Sa个连续采样点为单位分为若干原始帧;
B、处理后的数字音频信号生成以Ss个连续采样点为单位的若干合成帧,生成合成帧的步骤包括:选择与要生成的合成帧的顺序号相同的原始帧,从该原始帧开始位置向后取W(W为自然数)个连续采样点作为验证段,顺序号为从数字音频信号开始向后每个帧的顺序标识;以前一合成帧最后一个采样点作为起始点向前取W个连续采样点与所述验证段进行相关性计算,得到一个相关性结果;以前一合成帧倒数第二个采样点作为起始点向前取W个连续采样点与所述验证段进行相关性计算,得到一个相关性结果,以此类推,直到完成预定次数的相关性计算;从得到的相关性结果中选择相关性最大的结果所对应前一合成帧中所取W个连续采样点的前一个采样点作为接续点,将所述原始帧开始位置后一定数量的连续的采样点接续在接续点之后,形成合成帧。
Sa根据原始数字音频信号的采样率确定。
获得第一个合成帧的方法为:从原始数字音频信号开始位置顺序截取Ss个连续的采样点形成的数字音频信号段作为第一个合成帧。
在步骤B后还包括步骤C:在所述将原始帧开始位置后一定数量的连续的采样点接续在接续点后之前,将所述接续点后若干个连续采样点与该原始帧开始位置向后若干个连续采样点进行加窗处理。
所述数字音频信号处理方法还包括如下步骤:对处理后的音频信号转换采样率,以使处理后的音频信号的长度发生变化,与原始音频信号的长度相同。
本发明的技术效果:
本发明利用原始帧开始的一段数据(W个连续采样点)作为验证段,将验证段与已经获得的前一合成帧的尾段进行相关性计算并对比结果,根据结果对前一合成帧的尾段进行处理,并形成新的合成帧。这样的处理,仅需要获得原始帧W个数据即可进行最终的相关性计算,与现有的SOLA算法相比,无须多等待获得Index_Max个原始音频信号数据的时间,减少了延迟,实现了本发明的目的。
附图说明
图1为现有改变数字音频信号长度的方法的示意图。
图2为本发明改变数字音频信号长度的方法的示意图。
具体实施方式
本发明在对数字音频信号(即数字音频数据序列)的描述中采用“前”、“后”这两种方向性描述是指数字音频信号时间顺序上的前、后方向;一个采样点在本发明中是指数字音频信号中的一个数据。以下对本发明的技术方案进行详细说明。
本发明数字音频信号处理方法主要包括如下步骤:
分帧,即将原始数字音频信号以Sa个连续采样点为单位分为若干原始帧,同时处理后的数字音频信号生成以Ss个连续采样点为单位的若干合成帧。这一步骤将处理前与处理后的数字音频信号划分成处理单位,以便于处理时可以这些单位进行,提高处理效率。Sa和Ss均为自然数,一般来说是不相等的。这一步骤还应当对原始帧和合成帧标明顺序号,顺序号为从数字音频信号开始向后每个帧的顺序标识,在后续处理中生成的合成帧的数据主要来源于顺序号相同的原始帧。
相关性计算与合成帧连接,形成处理后连续的数字音频信号。这是本发明与现有技术区别所在,在图2中将会以一个实例进行详细说明。
图1以具体的实例进一步说明背景技术部分所述现有改变数字音频信号长度的方法,文字“原始帧”右侧7个连续的方块表示当前正在处理的原始帧前段的7个连续采样点,文字“合成帧”右侧6个连续的方块表示前一合成帧尾段的6个连续采样点。前一合成帧最后两个数据11和12为被选取的一段连续采样点,以11和12与原始帧开始的两个连续数据1和2进行相关性计算,得到相关性结果;然后,以11和12与原始帧的两个连续数据2和3进行相关性计算,得到相关性结果,以此类推,直到完成11和12与3和4的相关性运算。如果与11和12的相关性最强的原始帧的连续数据是2和3,则以数据2作为新的合成帧的开始数据,数据2(包含数据2)后合成帧长度+2个数据作为新的合成帧接续到数据10之后,即新的合成帧中的数据2接续到数据10之后。需要指出的在实际改变数字音频信号长度的方法中参与相关性计算的连续采样点的数量一般为几百个,为了说明的方便,在本部分都以少量的数据进行描述。
图2则以具体的实例说明了本发明数字音频信号的处理方法,与图1的例子相同,文字“原始帧”右侧7个连续的方块表示当前正在处理的原始帧前段的7个连续采样点,文字“合成帧”右侧6个连续的方块表示前一合成帧尾段的6个连续采样点。原始帧的开始两个连续的采样点(数据)1和2作为验证段,将验证段与前一合成帧最后两个连续数据11和12进行相关性计算,得到相关性结果;然后,将验证段与前一合成帧的两个连续数据10和11进行相关性计算,得到相关性结果,以此类推,直到完成验证段与9和10的相关性运算。如果与验证段相关性最强的前一原始帧的连续数据是10和11,则以数据1后(包含数据1)合成帧长度+3个连续采样点连接在数据9之后,数据9为接续点,形成新的合成帧。通过图1和图2的对比可以看到,本发明可以在得到当前原始帧2个(发明内容中所指W个)数据就可以进行最终的相关性计算,而图1中现有技术需要得到当前原始帧4个(Index_Max+W个)数据才能进行最终的相关性计算,因此减少了延迟。
本发明的相关性计算采用现有技术,以下举例说明。
假设xn为顺序号m原始帧的验证段数据,长度为W,yn是前一个合成帧尾段截取的连续的数据,长度为W,第k次相关性计算结果Rxy[k]为:
R xy [ k ] = r xy [ k ] r xx [ k ] r yy [ k ]
r xy [ k ] = Σ n = 0 W - 1 x [ n ] y [ n ]
r xx [ k ] = Σ n = 0 W - 1 x [ n ] x [ n ]
r yy [ k ] = Σ n = 0 W - 1 y [ n ] y [ n ]
其中0≤k≤Index_Max,进行Index_Max次相关性运算后,从Rxy[k]中选取最大值(最大相关性结果)。
为了降低计算的复杂度相关性计算也可以简化为:
R xy [ k ] = Σ n = 0 W - 1 abs ( x n - y n )
其中abs为取绝对值运算,0≤k≤Index_Max,进行Index_Max次相关性运算后,从Rxy[k]中选取最小值(最大相关性结果)。简化以后的相关性计算将原来的复杂的乘法运算简化为少量的加减法和取绝对值运算,大幅降低了运算的复杂度,提高了运算速度,特别适合对信号实时性要求比较高的场合。
本发明方法的第一个合成帧的形成是将从原始数字音频信号开始位置顺序截取合成帧长度(数量)的信号数据作为第一个合成帧。
在本发明分帧步骤中,确定原始帧长度Sa的具体数值应当遵循如下规则:根据输入信号的采样率确定Sa。也就是说针对不同采样率的原始数字音频信号,Sa的值不是固定不变的,如果不变,则在多采样率音频信号输入的情况下容易在某些采样率下引入噪声和信号失真,特别是系统所支持输入音频采样率的差别较大的时候这一问题非常突出。而采用上述规则可以解决这个问题。这一规则的具体实现方式是:根据已知的原始数字音频信号采样率进行若干次试验,确定对应的Sa的经验值,表1给出了一个具体的实例,表明了采样率与Sa的对应数值关系,在实施本发明时,可以参考表1确定合适的Sa。
表1
原始数字音频信号采样率        原始帧长度Sa
8k                            360
16k                           720
32k                           1440
44.1k                         2000
48k                           2170
合成帧的长度Ss由原始帧的长度Sa及改变音频长度的系数α共同决定,α的值可以设置为固定值,也可以由用户根据需要设置。合成帧长度Ss与原始帧长度Sa的具体关系为:
Ss=α*Sa
为了使合成帧连接后信号平滑,应当对合成帧连接处的信号进行加窗处理,加窗处理是在将原始帧数据连接到接续点前进行,举例说明:假设窗的长度为Wo,从当前原始帧取前Wo个连续采样点,设为xo,同时从前一合成帧接续点开始(不包括接续点)取Wo个连续采样点,设为yo,选取适当的窗函数b[n],则当前合成帧的生成方法如下:
y [ n ] = x o [ n ] * b [ n ] + ( 1 - b [ n ] ) * y o [ n ] x [ n ] , 0 ≤ n ≤ W o - 1 W o ≤ n ≤ S S
其中窗函数b[n]的选取使得生成的当前合成帧与前一合成帧平滑连接,可以为简单的三角窗函数,也可以根据需要选取其他类型的窗函数。当前合成帧的前Wo个连续采样点进行加窗处理,后面的采样点直接复制当前原始帧的值。
窗的长度Wo可以根据需要设置为固定值,也可以根据输入音频信号的采样率进行设置,或者根据用户的需求自行设置。
经过上述的一系列处理,输出音频信号的长度变为输入音频信号的的Ss/Sa倍,即改变了音频信号的长度(持续时间)但保持了输入音频信号原有的音调特征,在实际应用中可以产生对输入音频信号变时不变调的效果。
同时可以对改变了长度的输出数字音频信号再进行采样率变换,如果将输出音频信号进行Sa/Ss倍的采样率转换,则使输出的音频信号的长度再次发生变化,与原始输入音频信号的长度相同,实现保持时间不变改变音频信号音调的目的。采样率变换的方法可以利用现有技术实现,如以下所示方法:L=Sa,M=Ss,为了减少运算量可以将L与M的值进行约分,首先对经过前述处理实现长度改变的数字音频信号进行L倍上采样,随后对上采样后的信号进行低通滤波器,滤波器的截止频率为min(π/M,π/L),对滤波以后的信号进行M倍的抽取,最后输出最终的音频信号,经过采样率变换以后的输出音频信号保持了原始音频信号的长度(持续时间)改变了原始音频信号的音调特征,达到了对输入音频信号变调不变时的处理效果。

Claims (5)

1.一种数字音频信号处理方法,其特征在于包括如下步骤:
A、将原始数字音频信号以Sa个连续采样点为单位分为若干原始帧;
B、处理后的数字音频信号生成以Ss个连续采样点为单位的若干合成帧,生成合成帧的步骤包括:选择与要生成的合成帧的顺序号相同的原始帧,从该原始帧开始位置向后取W个连续采样点作为验证段,顺序号为从数字音频信号开始向后每个帧的顺序标识;以前一合成帧最后一个采样点作为起始点向前取W个连续采样点与所述验证段进行相关性计算,得到一个相关性结果;以前一合成帧倒数第二个采样点作为起始点向前取W个连续采样点与所述验证段进行相关性计算,得到一个相关性结果,以此类推,直到完成预定次数的相关性计算;从得到的相关性结果中选择相关性最大的结果所对应前一合成帧中所取W个连续采样点的前一个采样点作为接续点,将所述原始帧开始位置后一定数量的连续的采样点接续在接续点之后,形成合成帧;
获得第一个合成帧的方法为:从原始数字音频信号开始位置顺序截取Ss个连续的采样点形成的数字音频信号段作为第一个合成帧。
2.根据权利要求1所述一种数字音频信号处理方法,其特征在于Sa根据原始数字音频信号的采样率确定。
3.根据权利要求1或2所述一种数字音频信号处理方法,其特征在于在步骤B后还包括步骤C:在所述将原始帧开始位置后一定数量的连续的采样点接续在接续点后之前,将所述接续点后若干个连续采样点与该原始帧开始位置向后若干个连续采样点进行加窗处理。
4.根据权利要求1或2所述一种数字音频信号处理方法,其特征在于还包括如下步骤:对处理后的音频信号转换采样率,以使处理后的音频信号的长度发生变化,与原始数字音频信号的长度相同。
5.根据权利要求3所述一种数字音频信号处理方法,其特征在于还包括如下步骤:对处理后的音频信号转换采样率,以使处理后的音频信号的长度发生变化,与原始数字音频信号的长度相同。
CN2010101022461A 2010-01-28 2010-01-28 一种数字音频信号处理方法 Expired - Fee Related CN101789253B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101022461A CN101789253B (zh) 2010-01-28 2010-01-28 一种数字音频信号处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101022461A CN101789253B (zh) 2010-01-28 2010-01-28 一种数字音频信号处理方法

Publications (2)

Publication Number Publication Date
CN101789253A CN101789253A (zh) 2010-07-28
CN101789253B true CN101789253B (zh) 2012-02-08

Family

ID=42532432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101022461A Expired - Fee Related CN101789253B (zh) 2010-01-28 2010-01-28 一种数字音频信号处理方法

Country Status (1)

Country Link
CN (1) CN101789253B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109644123B (zh) * 2016-08-23 2020-09-08 华为技术有限公司 一种时钟恢复电路中鉴相信号的获取方法以及鉴相器
CN111921061B (zh) * 2020-08-04 2022-04-19 四川大学 一种分形与掩蔽结合的耳鸣康复音合成方法及系统

Also Published As

Publication number Publication date
CN101789253A (zh) 2010-07-28

Similar Documents

Publication Publication Date Title
CN106997767A (zh) 基于人工智能的语音处理方法及装置
CN1781338B (zh) 基于复指数调制的滤波器组的高级处理和自适应时间信号传送方法
Kim et al. KUIELab-MDX-Net: A two-stream neural network for music demixing
CN102523551B (zh) 用于确定空间输出多声道音频信号的装置
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN103262164A (zh) 叉积增强的基于子带块的谐波换位
CN101894560B (zh) 一种无参考源的mp3音频清晰度客观评价方法
JP2019519869A (ja) オーディオエネルギー特性に基づくオーディオフィンガープリンティング
CN103262158A (zh) 对解码的多声道音频信号或立体声信号进行后处理的装置和方法
CN103915101A (zh) 信号处理装置及其操作方法
CN101789253B (zh) 一种数字音频信号处理方法
CN104882152B (zh) 生成歌词文件的方法及装置
CN102214219B (zh) 音视频内容检索系统及其方法
CN111028857B (zh) 基于深度学习的多通道音视频会议降噪的方法及系统
CN102934164B (zh) 改变回放速度或音调时处理音频信号中瞬态声音事件的设备和方法
CN111402905A (zh) 音频数据恢复方法、装置及蓝牙设备
CN110992966B (zh) 一种人声分离方法及系统
CN103137138A (zh) 一种音频重复插入的检测方法
Fu et al. Empirical mode decomposition based blind audio watermarking
KR102345487B1 (ko) 이중 도메인을 이용한 음원 분리기의 훈련 방법, 음원 분리 방법 및 그 장치
Sturmel et al. Phase-based informed source separation for active listening of music
CN115206345B (zh) 基于时频结合的音乐人声分离方法、装置、设备及介质
KR102176375B1 (ko) 딥러닝을 이용한 방송 콘텐츠에서 음악 구간 검출 시스템
Mawalim et al. Audio information hiding based on Cochlear delay characteristics with optimized segment selection
Bae et al. A Study on Enhancement of Speech using Non-uniform Sampling

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120208

Termination date: 20140128