CN1145519A - 音频信号保真变速处理方法 - Google Patents

音频信号保真变速处理方法 Download PDF

Info

Publication number
CN1145519A
CN1145519A CN 95115914 CN95115914A CN1145519A CN 1145519 A CN1145519 A CN 1145519A CN 95115914 CN95115914 CN 95115914 CN 95115914 A CN95115914 A CN 95115914A CN 1145519 A CN1145519 A CN 1145519A
Authority
CN
China
Prior art keywords
extreme value
sound
unit
segment
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 95115914
Other languages
English (en)
Inventor
苏勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=5080693&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1145519(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Individual filed Critical Individual
Priority to CN 95115914 priority Critical patent/CN1145519A/zh
Priority to CN96192114A priority patent/CN1074849C/zh
Priority to AU68689/96A priority patent/AU6868996A/en
Priority to PCT/CN1996/000074 priority patent/WO1997009713A1/zh
Publication of CN1145519A publication Critical patent/CN1145519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/02Analogue recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0091Means for obtaining special acoustic effects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H7/00Instruments in which the tones are synthesised from a data store, e.g. computer organs
    • G10H7/02Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B15/00Driving, starting or stopping record carriers of filamentary or web form; Driving both such record carriers and heads; Guiding such record carriers or containers therefor; Control thereof; Control of operating function
    • G11B15/18Driving; Starting; Stopping; Arrangements for control or regulation thereof
    • G11B15/1808Driving of both record carrier and head
    • G11B15/1875Driving of both record carrier and head adaptations for special effects or editing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明涉及一种音频信号保真变速处理方法,包括保真慢放处理和保真快放处理方法。传统的改变放音速度的技术,通常通过改变放音机的走带速度来实现,其缺点是会导致音调音色变化。本发明提供一种保真变速处理方法,它包括:将数字音频信号进行切割分段;在部分或全部小段后插入至少一段信息单元,以延长音频信号,或者,间隔地将部分小段删除,将未删除的小段紧缩连接,以缩短音频信号。

Description

音频信号保真变速处理方法
本发明一般涉及一种对音频信号进行变速处理的方法,尤其涉及一种保真变速处理音频信号的方法,包括保真变慢处理和保真变快处理方法。
普通的录音信号放音系统(如录音机)一般用标准的速度进行放音,输出正常速度的语音。但在日常工作学习中,有时希望能改变放出的语音速度,如加快或减慢,尤其是减慢语速,这对于学习外语者有很大的帮助。在改变放音速度方面,传统通常通过改变放音机的走带速度来实现。这种方法的缺点是显然的,即走带速度改变,会导致放音磁头输出的信号频率改变,虽然能改变放音速度,但也相应地改变了声音的频率,导致音调、音色变化,语音效果变差,严重时会产生无法辨清语音内容。
本发明的目的在于提供一种音频信号保真变速处理方法,该处理方法能使处理后的音频信号在保持原来音频信号相对强弱、频率、音调、音色等特征不变的情况下,使表达该信号内容的速度放慢或加快。
众所周知,任何的发声行为,都有振动过程,即必须有作用力使物体产生振动,从而产生声波,这个作用力是间歇的,而非连续的。被振动的物体在前一作用力消除之后,后一作用力到来之前,在物体刚性的作用下产生回复到原状态的运动,这样便产生了振动。音频信号就是这种机械振动的电表现,其波形与机械振动相对应,所以在十分小的时间间歇内,它应该可被看作是由微小的阻尼振动波所组成的。这些微小的,具有实际含义的一段阻尼振动波被称为音元。根据本发明人试验观察,音元长度通常短于20毫秒。
根据上面的分析,本发明提出了一种音频信号保真变速处理方法,它包括下列步骤:
将数字音频信号进行切割分成小段;
在部分或全部小段后插入至少一段信息单元,以延长音频信号。
上面提供的音频信号保真变速处理方法为一种保真变慢处理方法,本发明的音频信号保真变速处理方法还包括保真变快处理方法,该方法包括下列步骤:
将数字音频信号进行切割分成小段;
间隔地将部分小段删除,将未删除的小段紧缩连接,以缩短音频信号。
在这里所进行的切割分段,可以以时间间隔为基本切割单位,或者以音频信号中的零点数或极值点数为基本切割单位,也可以以音元个数为基本切割单位。其中,尤以以音元个数为基本切割单位为最佳。
在以时间间隔为基本切割单位时,其时间间隔长度为0.1-70毫秒,其中尤以1-20毫秒为最佳。
在以音频信号中的零点数或极值点数为基本切割单位时,其零点或极值点数取2-82个,其中尤以4-24个为最佳。
在以音元个数为基本切割单位时,其音元个数取1-10个,其中尤以1-2个为最佳。
在这里所插入的信息单元具有被插入小段音频信号的基本特征,其时间长度一般小于100毫秒。可以是插入点前一小段信号、经衰减的插入点前一小段信号或时间长度小于50毫秒的空白信号。在对同一音频信号进行插入的过程中,可以插入上述信息单元中的一种,也可以是上述任意两种,或三种。
从上面可以看出,本发明通过插入信息单元来增加音频信号的长度,或者删除某些信号小段来缩短音频信号长度,因此,在重放经如此处理后的音频信号时并不改变信号频率,能保持原来的音调和音色,所以本发明的处理方法属于保真变速处理方法。这种处理技术,不仅可应用于语言学习,而且在语音合成,语音识别,频谱分析,乐谱记录,音乐学习以及音乐器材和音响制品中的性能鉴定等方面有着广泛的应用前景。
下面将结合附图来详细描述本发明的实施例,本发明的其它目的和优点将通过下面的描述表现出来。
图1是一段音频信号示意图;
图2是阻尼振动波的波形;
图3是音频信号切割点的示意图;
图4是本发明实施例3的音元分割方法的流程图;
图5是本发明实施例4的音元分割方法的流程图;
图6是本发明实施例5的音元分割方法的流程图;
图7是本发明实施例6的音元分割方法的流程图;
图8是一段阻尼振动波及其阻尼振动包络线示意图;
图9A和B是本发明实施例7的音元分割方法的流程图;
图10是本发明实施例8的音元分割方法的流程图;
图11是本发明实施例9的音元分割方法的流程图;
图12是阻尼振动包络线修正前、后的曲线图;
图13是本发明实施例11的删除性状相近似的小段的方法的流程图;
图14是本发明实施例12的删除性状相近似的小段的方法的流程图;
图15是实现本发明的音频信号保真变速处理方法的计算机系统的方框图。
在描述本发明的实施例之前,先叙述前面提到的音元。
如前面所述,本发明认为任何音频信号都是由音元连接构成的。图1示出了一段音频信号,在这段音频信号中包含了三个音元。从前面对音元的描述中可知音元是一作用力作用于物体时,物体因阻尼振动所产生的声音单元。根据阻尼振动理论,阻尼振动波是逐渐收敛的,即在一个阻尼振动波中,后一极值(峰值和谷值)的绝对值总小于前一极值的绝对值(如图2所示)。在同一个音元中,各极值总体上是收敛的,可以用阻尼振动包络线方程来描述。
根据上面的分析,本发明认为(发现),音元是音频信号的基本单元,它包含了声音的最基本信息,其长度一般不超过20毫秒。不同的音频信号有不同的音元组成,音元与音元之间的差异与信号内容有关。性状相同或相近似的音元重复次数愈多,则表达同一内容的声音在时间上持续得愈长。本发明就是基于这一认识而完成的。在传统的各种音频信号变速处理方法中,并不增加或减少声音信息,而是通过如改变放音速度等手段在更长或更短的时间内重放出所有原来的信息,因此,改变了单位时间内重放出的信息量,当这一改变超过了一定程度时,就造成了严重的失真。而本发明是通过在原音频信号中增加或减少声音信息来保持单位时间内重放出的信息量不变,从而能保真地进行变速处理。
实施例1
为了在音频信号中加入或删除一定量的声音信息,应考虑的问题是在什么地方插入或删除声音信息,插入或删除怎样的信息。
音频信号保真变速处理包括两个方面:音频信号保真变慢处理和变快处理。先讨论音频信号保真变慢处理方法。首先将音频信号切割成小段,每小段的长度应在2-20毫秒之间。在部分或所有小段后插入一段信息单元。在确定了插入声音信息的位置后,需进一步确定插入多少声音信息。这应根据用户所要求的变速的程度来决定,例如需要将声音延长1/2,即原来正常放1分钟的内容,现在要放1.5分钟。这就需要在原来的音频信号中插入1/2倍的声音信息,可以由如下几种插入方法:
1.在每个切割点插入一段长度等于切割点前一小段的1/2的信息单元;
2.在每隔一个切割点插入一段长度等于切割点前一小段的信息单元。
前一种插入方法属于在全部小段后插入一段信息单元,而后一种插入方法属于在部分小段后插入一段信息单元,是均匀地插入的,当然也可以非均匀地插入。
再举一例,如需要将声音(音频信号)延长1倍,即原来正常放1分钟的内容,现在要放2分钟,这需要在原来的音频信号中插入1倍的声音信息,可以用如下几种插入方法:
1.在每个切割点插入一段长度等于切割点前一小段的信息单元;
2.在每个切割点插入一段长度小于100毫秒的信息单元,插入的信息单元的总长度等于需插入的音频信号长度,在本例中为1分钟;
3.在每隔一个切割点插入两段长度小于100毫秒的信息单元,插入的信息单元的总长度等于需插入的音频信号长度,在这里为1分钟。
当需要将声音延长更多倍时,在切割点后插入的信息单元的个数将相应增多。
上面所插入的信息单元可以是如下几种:
1.空白信号;
2.插入点前一小段信号;
3.经衰减的插入点前一小段信号。
由于,如眼睛有视觉残留一样,人的耳朵也有听觉残留现象,因此在小段之后插入一段或数段小于50毫秒的空白信号是可行,但不宜插入过多。另外,上述三种信息单元可以单独使用,也可以两两组合使用或者全部一起混合使用。
现在来讨论音频信号保真变快处理方法。切割方法与音频信号保真变慢处理方法相同,将音频信号切割成小段,每小段的长度在1-70毫秒之间。现在假设需要将音频信号缩短1/4,可以用如下方法进行缩短,即每隔四个切割点删除一个小段,这是一种均匀间隔地删除小段的方法,也可以不均匀地进行删除,如隔3个切割点删除一个小段,然后再隔5个切割点删除一个小段,但总体来说,删除的小段总数应等于总的音频信号的1/4。在删除了小段之后,将未删除的小段信号紧缩连接起来。
在本实施例中,切割小段的时间间隔取1-20毫秒,这是一种较佳的情况。一般,切割成的小段的长度可以在0.1-70毫秒内任意选取。在同一次切割中,切割成的小段长度可以一致,也可以不一致,只要小段的长度在0.1-70毫秒内即可。
在本实施例中所处理的信号都是数字信号,如果处理前音频信号为模拟的,则应先进行模/数转换。
实施例2
在实施例1中,是以时间长度为标准进行切割的,其切割点可能落在信号的任意位置上。如图3所示,切割点可能落在A、B、C、或D点上,显然,当切割点位于A、B或C点上时,插入了信息单元或删除了一些小段之后并不能保证使前后两小段之间光滑地进行连接,会产生一段突变,该段突变会使声音变差。但如果能使切割点都位于零点(即图3中的D点)时,则能使前后小段之间光滑连接,从而降低失真,因此在本实施例中,以音频信号中的零点或极值点数为切割的基本单位,在音频信号的零点将音频信号分割成小段,每个小段的长度在0.1-70毫秒之间或者包含2-82个零点或极值点,较佳的取值范围是每个小段的长度在1-20毫秒之间,或者每个小段包含4-24个零点或极值点。分割之后的插入和删除方法与实施例1相同,这里不再重复。
实施例3
在本说明书的前面,我们已经说过,音元是音频信号的基本单元,在实施例1和2中,虽然将音频信号分割成了长度在0.1-70毫秒的小段,但这些小段的切割点往往将音元分割开,可能在一定程度上破坏了音元的完整性。
在本实施例中,以音元作为基本切割单位进行切割分段,分成的每个小段包含有1-10个音元,其中尤以包含1-2个为较佳。
如上所述,音元是一作用力作用于物体时,物体因阻尼振动所产生的声音单元,因此,音元的第一个峰值(极值)通常是最大的,我们把它称为:最大极值点。在以音元为单位进行分割时,如果将切割点取在最大极值点前一个零点,就能保证切割点不会将音元分割开,从而切割出完整的音元。
最大极值点可以通过把音元内的各极值点进行比较来确定。即可通过比较所有极值点的绝对值大小来确定,也可以通过单边极值点的比较来确定。所谓单边极值比较是指音元中正的极值(峰值)与正的极值之间的比较或指音元中负的极值(峰谷)的绝对值与负的极值的绝对值之间的比较。这两种比较方法可以同时使用,也可以选其一种使用。考虑到实际寻找音元时的便利等原因,本实施例采用单边极值比较中的正极值比较法来寻找最大极值。
根据阻尼振动的特性,用如下方法进行音元分割。
如图4所示,流程从100开始,并且设置小段包含的音元个数(S),通常,将一个小段中包含的音元个数设置成1-10,较佳的个数为1-2个。在步骤101,将计数器X置零,然后进入102,取两相邻零点之间的各正样值进行比较;在步骤103,将在102中比较得到的其中一个最大值定为极值。然后取下一组两相邻零点之间的各正样值进行比较(104)。在步骤105,将其中一个最大值定为极值。进入106,将最近得到的两个极值作比较,如果在107,后一极值(即在105中得到的极值)不大于前一极值,说明后一极值与前一极值属于同一音元,流程返回到步骤104,取下一组两相邻零点之间的各正样值进行比较,在步骤105,将其中一个最大值定为极值。再次进入106,把最近得到的两个极值进行比较,在107,如果后一极值仍不大于前一极值,步骤仍返回104;如果后一极值大于前一极值,则说明一个新的音元开始,且该极值为后一音元的最大极值A0(108);进入109,计数器加1(X=X+1),然后比较X和S(110),如果X<>S,则流程返回104,否则流程进入111,将该最大极值的前一个零点作为切割点,然后在112,用与在实施例1或2中所述的插入信息单元或删除小段相同的方法,根据实际需要,延长或缩短音频信号。此后,步骤再次返回101,进行下一切割点的寻找。
从上可以看出,本实施例中切割出的小段均包含一个或数个完整的音元,不会出现切割点在音元中的情况,用这种方法切割,然后进行插入或删除处理,效果将优于实施例1和2。
买施例4
实施例3考虑的是一种较理想的状态,没有把噪声等因素考虑进去。然而,在噪声等因素的影响下,有时会出现在同一个音元中,极值并非严格逐渐递减的情况。
图5示出了本实施例进行音元分割的方法,它考虑了噪声等因素。图5所示的方法基本上与图4相同,区别在于,图5的方法在图4的方法中增加了步骤107A,该步骤在图4的107之后,即在107判别出后一极值大于前一级值时,进入107A,把最近得到的两个极值进行比较,如果后一极值大于前一极值一预定量时,步骤才进入108,确定后一极值为后一音元的最大极值,否则,步骤返回104。这里的预定量可以根据音频信号中噪声等因素来确定,一般取前一极值的20%至40%,即当后一极值与前一极值之差大于前一极值的20%至40%时,才认为后一极值为最大极值。较佳的预定量为前一极值的30%。
本实施例与实施例3相比的优点在于可以消除噪声等因素对音元分割的影响。
实施例5
本实施例是在实施例3基础上的变化。如图6所示,图6所示的分割方法基本上与图4相同,其区别在于,图6的方法在图4的方法中增加了一个步骤108A,该步骤108A在图4的107之后,即当在107判别出后一极值大于前一极值时,进入108A,再把后一极值与前一极值所属于的音元中的最大极值A0比较,如果后一极值大于最大极值A0的60%,则进入108,确定后一极值为后一音元的最大极值,否则步骤返回104。如果在程序刚开始时,尚未确定了最大极值,则把程序开始时所得到的第一个极值作为最大极值进行比较。
本实施例与实施例3相比的优点在于考虑了噪声等因素对音元分割的影响,使切割更准确。
实施例6
本实施例是在实施例4和5的基础上的改进。如图7所示,图7的方法与图5的方法的区别在于,在图5的107A后,加入了步骤107B-107I。即在图5的107A中不满足判别条件时,流程进入107B,再把后一极值(为叙述方便,设为M1)与前一极值所属于的音元中的最大极值A0进行比较,如果M1大于A0的60%,则进入108,否则,进入107C。在107C,比较下一组相邻两零点之间的正样值。在107D确定出107C中的最大值为极值(M2)。然后,流程进入107E比较M1和M2的大小。如果M1<M2,则进入108,否则进入107F。在107F,比较再下一组相邻两零点之间的各正样值大小。在107G确定出107F中的最大值为极值M3。然后流程进入107H,比较M1和M3的大小。如果M1<M3,则流程进入108,否则进入107I,确定后一极值M1为最大极值,并直接进入109,以下步骤与图5相同。
本实施例可以将形状比较复杂的音元分割出来。
实施例7
在实施例3到6中,叙述的切割方法属于极值比较法,即通过比较各极值来寻找最大极值,从而确定切割点。
前面已经揭示,每个音元实际上是一段阻尼振动波,其包络线符合阻尼振动包络线方程Y(t)=A0e-βt(如图8所示),其中A0为最大极值,β为阻尼系数。阻尼振动波的所有极值点均符合该方程。本实施例即根据这一原理,用阻尼振动包络线方程法来寻找音元的最大极值。即,将音元中的极值点代入方程,根据是否满足判别条件来寻找音元。所代入的极值点可以是包含有正极值点和负极值的绝对值的所有极值点,也可以是单边极值点,即只用正的极值(峰)或只用负的极值的绝对值(峰谷)。这二者可以同时使用,也可以择其一种使用。本实施例出于便利等原因的考虑,选用单边极值点中的正极值代入阻尼振动包络线方程。
图9A和B示出了本实施例所述方法的流程图。流程从200开始,并且设置小段包含的音元个数(S),通常,将一个小段中包含的音元个数设置成1-10个,较佳的个数为1-2个。在步骤201,取音频信号起始一段时间(一般取一个音元的长度,20毫秒以内)的各正样值进行比较;将比较得到的其中一个最大值定为最大极值A0。然后进入202,将计数器X置零。然后,将该最大极值A0对应的时间t置为0(203)。流程进入204,取下一组两相邻零点之间的各正样值进行比较。在205,将其中一个最大值定为极值m。然后将极值m、最大极值A0和极值m所对应的时间tm代入方程Y(t)=A0e-βt(206),成为 m = A 0 e - β t m ,求出阻尼系数β(207)。求出β后,即可确定当前音元的阻尼振动包络线方程(208)。然后,取再下一组两相邻零点之间的各正样值进行比较(209),在210将其中一个最大值定为极值n,并在211,确定该极值所对应的时间tn。将tn代入方程Y(t)=A0e-βt,即可求出Y(tn)(212)。流程进入213,比较极值n和Y(tn),如果n<=Y(tn),则说明该极值n仍属于最大极值A0所表征的音元,流程返回209,寻找下一个极值。如果n>Y(tn),则在214确定该极值n为下一音元的最大极值A0,在215,计数器X加1(X=X+1),然后比较X和S(216),如果X<>S,则流程返回203,否则,流程进217,把该最大极值A0的前一个零点作为切割点,然后在218,用如在实施例1或2中所述的插入信息单元或删除小段相同的方法,根据实际需要,延长或缩短音频信号。此后流程返回到202,进行下一切割点的寻找。
实施例8
实施例7中所考虑的是一种较理想的状态,没有考虑噪声等因素。然而,在噪声等的影响下,在时会出现在同一音元中极值并非严格按阻尼振动包络线方程递减的情况。
图10示出了本实施例考虑了噪声等因素后进行音元分割的方法。图10所示的方法基本上与图9相同,其区别在于,对阻尼振动包络线的幅值增加了一个修正系数,即如图10所示,在步骤208’,确定当前音元的阻尼振动包络线方程为Y(t)=kA0e-βt,其中k为幅值修正系数。这一修正系数k一般取1.2-1.4,较佳值为1.3。另一种修正阻尼振动包络线幅值的方法是在方程中增加一个幅值修正量,即在步骤208’中确定当前音元的阻尼振动包络线方程为Y(t)=(A0+C)e-βt,其中C为幅值修正量。这一修正量C应根据音频信号中噪声等的情况确定。
本实施例与实施例7相比的优点在于可以消除噪声等对音元分割的影响。
实施例9
本实施例叙述另一种考虑了噪声等因素后进行音元分割的方法。图11示出了该方法的流程图,该方法与图9所示的方法基本上相同,其区别在于,对阻尼振动包络线的阻尼系数增加了一个修正量,即如图11所示,在步骤208”,确定当前音元的阻尼振动包络线方程为Y(t)=A0e-(β+D)t,其中D为阻尼系数修正值,使包络线的收敛程度减缓,其效果如图12所示,关于修正量D,应根据音频信号中噪声等因素影响程度而确定。
同样,本实施例与实施例7相比的优点也在于可以消除噪声等对音元分割的影响。
实施例10
本实施例是实施例8和9的结合。即在确定阻尼振动包络线方程时,同时增加包络线的幅度修正量(或修正系数)和阻尼系数修正量。即把包络线方程确定为Y(t)=(A0+C)e-(β+D)t或Y(t)=kA0e-(β+D)t。其中,C为幅度修正量,D为阻尼系数修正量,k为幅度修正系数。
实施例11
本实施例主要涉及音频信号保真变快处理方法。首先是对音频信号进行切割,可以采用如实施例3-10所述的以音元为基本切割单位来实现,本实施例主要讨论如何删除小段,以缩短音频信号。在实施例1中描述了一种间隔方式部分删除小段的方法。在本实施例中对删除增加了一个条件,即删除那些性状相近似的小段,具体方法如图13所示。
流程从300开始,首先在301,取出两相邻音元的最大极值,然后在302,比较该两相邻音元的最大极值,若两音元的最大极值的差值ΔA大于一预定量E(303),则说明该两音元的性状不相近似;流程进入304,取下一音元的最大极值,再返回到302;若ΔA<=E,则流程进入305,比较两相邻音元中的极值数量或音元长度,若两相邻音元中的极值数量之差ΔN大于一预定量F,或者两相邻音元的长度之差ΔT大于一预定量G(306),则说明该两音元的性状不相近似,流程进入304,去比较下两相邻音元;若,ΔN<=F,并且ΔT<=G,则,说明两相邻音元性状相近似。在307,删除后一音元,然后再返回301。
在本实施例中,预定量E一般定为两相邻音元中前一音元的最大极值的5%-20%;也可以是后一音元最大极值的5%-20%。预定量F为两相邻音元中前一音元的极值数量的5%-20%,也可以是后一音元极值数量的5%-20%。预定量G为两相邻音元中前一音元的长度5%-20%,也可以是后一音元长度的5%-20%。
显然,由于在本实施例中仅删除了那些性状相似的小段(音元),所以重放用本实施例的删除方法处理得到的经缩短的音频信号的效果更好。
实施例12
本实施例主要涉及音频信号保真变快处理方法。它是对实施例11的进一步改进。图14示出了本实施例的方法。它与实施例11(图13)的区别在于,在301’,取出两相邻音元的最大极值和极值;在304’取出下一音元的最大极值和极值;在306和307之间插入306A和306B。即在306,当ΔN<=F或ΔT<=G时,流程进入306A,比较两相邻音元对应的极值,在306B,若两相邻音元对应的极值之差均大于一预定量时,则说明两相邻音元不相近似,流程返回304,否则进入到307。该预定量一般定为两个作比较的极值之一的5%-20%。
本实施例的效果优于实施例11。
上面详细描述了本发明的音频信号保真变速处理方法。实现这种方法,可以使用计算机技术。目前计算机技术已发展到相当程度,对于计算机领域的普通技术人员来说,用计算机实现上述方法不是难事。下面仅简单地描述一种实现上述方法的计算机结构。
图15是一种实现本发明的音频信号保真变速处理方法的计算机系统的方框图。如图15所示,该计算机系统包括中央处理器CPU、程序存储器PRAM、数据存储器DRAM等。音频信号如果是模拟信号(如从磁带录音机输出的),则先输入至衰减器1,然后经A/D转换器2转换成数字信号后,由CPU通过总线BUS存储到数据存储器DRAM中,并对这些数据用如上的方法进行处理。如果音频信号为数字信号(如从CD机输出的),则可通过串/并行接口3直接送到数据总线BUS上,由CPU将其存入数据存储器DRAM中,并对其进行处理。程序存储器PRAM存储着实现本发明方法的程序,CPU从程序存储器PRAM中调取程序运行。CPU将已处理的数据经并/串行接口4记录到硬磁盘或激光唱片等以数字形式记录的介质上,或经D/A转换器5转换成模拟信号后记录在磁带等以模拟形式记录的介质上。

Claims (25)

1.一种音频信号保真变速处理方法,其特征在于,包含下列步骤:
将数字音频信号进行切割分成小段;
在部分或全部小段后插入至少一段信息单元,以延长音频信号。
2.一种音频信号保真变速处理方法,其特征在于,包含下列步骤:
将数字音频信号进行切割分成小段;
间隔地将部分小段删除,将未删除的小段紧缩连接,以缩短音频信号。
3.如权利要求1或2所述的音频信号保真变速处理方法,其特征在于,所述分成小段是以时间间隔为基本切割单位,切割成的小段长度为0.1-70毫秒。
4.如权利要求1或2所述的音频信号保真变速处理方法,其特征在于,所述分成小段是以音频信号中的零点数或极点数为基本切割单位,切割成的小段包含2-82个零点或极值点。
5.如权利要求1或2所述的音频信号保真变速处理方法,其特征在于,所述分割分成小段是以音频信号中的音元个数为基本分割单位,切割成的小段包含1-10个音元。
6.如权利要求1所述的音频信号保真变速处理方法,其特征在于,所述信息单元为插入点前一小段音频信号、经衰减的插入点前一小段音频信号和/或小于50毫秒的空白信号。
7.如权利要求5所述的音频信号保真变速处理方法,其特征在于,所述以音元个数为基本切割单位的分段方法包含:
(a1)确定所述小段包含的音元的个数;
(a2)在相邻的两个零点之间将各样值进行比较,将其中一个绝对值最大的样值定为极值;
(a3)将相邻两极值进行比较,当比较结果为前一极值大于后一极值时,取下一零点,并回到步骤(a2);否则把后一极值定为最大极值;
(a4)计算音元个数,如果该小段中包含的音元个数等于在步骤(a1)中确定的个数时,将该最大极值前的第一个零点作为切割点,重新开始计数再回到步骤(a2);否则,计数器加一取下一零点,返回步骤(a2)。
8.如权利要求7所述的音频信号保真变速处理方法,其特征在于,在比较两极值的步骤(a3)时,当比较结果为后一极值大于前一极值一预定值时,把后一极值定为最大极值。
9.如权利要求8所述的音频信号保真变速处理方法,其特征在于,所述预定量为前一极值的20%至40%。
10.如权利要求7所述的音频信号保真变速处理方法,其特征在于,在步骤(a3)中,判别出后一极值大于前一极值时,把后一极值与前一极值所属于的音元中的最大极值作比较,如果后一极值大于前所述最大极值的60%,则确定后一极值为最大极值,否则回到步骤(a2)。
11.如权利要求5所述的音频信号保真变速处理方法,其特征在于,所述以音元个数为基本切割单位的分段方法包含:
(b1)确定所述小段包含的音元的个数;取音频信号起始一段时间的各样值绝对值进行比较,将其中的一个最大样值定为最大极值A0
(b2)置时间t为零;
(b3)取下一组两相邻零点之间的各样值绝对值进行比较,将其中一个最大的样值定为极值m;
(b4)根据所述最大极值A0,极值m及该极值所对应的时间tm求出阻尼振动包络线方程中的阻尼系数;并确定以所述最大极值表征的阻尼振动包络线方程Y(t)=A0e-βt,其中A0为所述最大极值,β为阻尼系数;
(b5)取下一组两相邻零点之间的各样值绝对值进行比较,将其中一个最大的样值定为极值n,并将该极值对应的时间tn代入所述阻尼振动包络线方程,求出该时间上的包络线值Y(tn);
(b6)比较所述极值n和所述包络线值Y(tn);如果Y(tn)≥n,则返回步骤(b3);否则确定该极值n为下一音元的最大极值A0
(b7)计算音元个数,如果该小段中包含的音元个数等于在步骤(b1)中确定的个数时,将该最大极值前的第一个零点作为切割点,重新开始计数,回到步骤(b2);否则,计数器加一,流程返回到步骤(b2)。
12.如权利要求11所述的音频信号保真变速处理方法,其特征在于,在步骤(b4)中,把所述包络线方程确定为Y(t)=kA0e-βt,其中k为幅值修正系数,其值在1.2-1.4之间。
13.如权利要求11所述的音频信号保真变速处理方法,其特征在于,在步骤(b4)中,把所述包络线方程确定为Y(t)=(A0+C)e-βt,其中C为幅值修正量。
14.如权利要求11所述的音频信号保真变速处理方法,其特征在于,在步骤(b4)中,把所述包络线方程确定为Y(t)=A0e-(β+D)t,其中D为阻尼系数修正量。
15.如权利要求11所述的音频信号保真变速处理方法,其特征在于,在步骤(b4)中,把所述包络线方程确定为Y(t)=A0e-(β+D)t,其中k为幅值修正系数,1.2≤k≤1.4;D为阻尼系数修正量。
16.如权利要求11所述的音频信号保真变速处理方法,其特征在于,在步骤(b4)中,把所述包络线方程确定为Y(t)=(A0+C)e-(β+D)t,其中C为幅值修正量,D为阻尼系数修正量。
17.如权利要求1所述的音频信号保真变速处理方法,其特征在于,均匀间隔地在部分小段后插入至少一段信息单元。
18.如权利要求2所述的音频信号保真变速处理方法,其特征在于,均匀间隔地将部分小段删除。
19.如权利要求1或2所述的音频信号保真变速处理方法,其特征在于,在进行切割分成小段之前将输入的音频信号进行模/数转换。
20.如权利要求1或2所述的音频信号保真变速处理方法,其特征在于,还包括下列步骤:
将经延长或缩短的音频信号进行数/模转换;
将经数/模转换后的模拟信号记录在记录介质上。
21.如权利要求2所述的音频信号保真变速处理方法,其特征在于,在删除步骤中,删除性状相近似的小段。
22.如权利要求21所述的音频信号保真变速处理方法,其特征在于,所述删除性状相近似的小段包括下列步骤:
将两相邻音元的最大极值进行比较,若两音元最大极值的差值大于第一预定量,则判定该两相邻音元不相近似,否则,
比较两相邻音元的极值数量或两相邻音元的长度,若两相邻音元的极值数量之差大于第二预定量或两相邻音元的长度之差大于第三预定量时,则判定该两相邻音元不相近似;否则,
删除后一音元,并将被删除的音元的前后音元作紧缩连接。
23.如权利要求22所述的音频信号保真变速处理方法,其特征在于,所述删除性状相近似的小段的步骤在比较了两相邻音元的极值数量或两相邻音元的长度之后加入下列步骤:
比较两相邻音元之间相对应的极值,若两相邻音元之间相对应的极值均小于第四预定量,则判定该两相邻音元相近似,删除后一音元。
24.如权利要求22所述的音频信号保真变速处理方法,其特征在于,所述第一预定量为所述前一音元中最大极值或所述后一音元中的最大极值的5%-20%,所述第二预定量为所述前一音元中的极值数量或所述后一音元中的极值数量的5%-20%,所述第三预定量为所述前一音元的长度或所述后一音元的长度的5%-20%。
25.如权利要求23所述的音频信号保真变速处理方法,其特征在于,所述第四预定量为所述两个相比较的极值之一的5%-20%。
CN 95115914 1995-09-01 1995-09-01 音频信号保真变速处理方法 Pending CN1145519A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN 95115914 CN1145519A (zh) 1995-09-01 1995-09-01 音频信号保真变速处理方法
CN96192114A CN1074849C (zh) 1995-09-01 1996-09-02 音频信号保真变速处理方法
AU68689/96A AU6868996A (en) 1995-09-01 1996-09-02 A method of processing audio signal for fidelity varying-speed replaying
PCT/CN1996/000074 WO1997009713A1 (fr) 1995-09-01 1996-09-02 Procede de traitement de signal audio en vue d'une reproduction fidele et a vitesse variable

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 95115914 CN1145519A (zh) 1995-09-01 1995-09-01 音频信号保真变速处理方法

Publications (1)

Publication Number Publication Date
CN1145519A true CN1145519A (zh) 1997-03-19

Family

ID=5080693

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 95115914 Pending CN1145519A (zh) 1995-09-01 1995-09-01 音频信号保真变速处理方法

Country Status (3)

Country Link
CN (1) CN1145519A (zh)
AU (1) AU6868996A (zh)
WO (1) WO1997009713A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100420294C (zh) * 2002-03-01 2008-09-17 汤姆森许可公司 用于在视频特技模式期间的选通静寂消除的方法和设备
CN101901612B (zh) * 2009-05-27 2013-07-24 珠海扬智电子有限公司 变速不变调的声音播放方法及装置
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及系统

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136571B1 (en) 2000-10-11 2006-11-14 Koninklijke Philips Electronics N.V. System and method for fast playback of video with selected audio
CN102855883B (zh) * 2011-06-28 2014-09-24 清华大学 一种基于音频特征的数字音频延展方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR930005221B1 (en) * 1988-12-29 1993-06-16 Casio Computer Co Ltd Tone signal generating apparatus for electronic musical instrument
GB2232024B (en) * 1989-05-22 1994-01-12 Seikosha Kk Method and apparatus for recording and/or producing sound
CN1021091C (zh) * 1989-11-09 1993-06-02 庄明 电子钢琴音源波形增量调制方法及其电路

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100420294C (zh) * 2002-03-01 2008-09-17 汤姆森许可公司 用于在视频特技模式期间的选通静寂消除的方法和设备
CN101901612B (zh) * 2009-05-27 2013-07-24 珠海扬智电子有限公司 变速不变调的声音播放方法及装置
CN114566164A (zh) * 2022-02-23 2022-05-31 成都智元汇信息技术股份有限公司 基于公共交通的人工播报音频自适应方法、显示终端及系统

Also Published As

Publication number Publication date
WO1997009713A1 (fr) 1997-03-13
AU6868996A (en) 1997-03-27

Similar Documents

Publication Publication Date Title
CN1113345C (zh) 重现音频信号的方法和一种放音机
EP1160771A1 (en) Code-excited linear predictive coder and decoder with conversion filter for converting stochastic and impulsive excitation signals
CN1359231A (zh) 快速或慢速重放模式下不造成音调变化的音频信号重现方法及其重现装置
EP1481392B1 (en) Trick mode audio playback
CN1230275A (zh) 使用可变采样率近似的波形表合成器及其方法
CN1230274A (zh) 用于波形表合成器中对声音信号采样作预处理的周期强制滤波器
JPH10260694A (ja) 話速変換装置、話速変換方法及び記録媒体
CN1145519A (zh) 音频信号保真变速处理方法
TW200304123A (en) Audio frequency scaling during video trick modes utilizing digital signal processing
JP3881620B2 (ja) 話速可変装置及び話速変換方法
CN1139805A (zh) 数据记录方法
CN1074849C (zh) 音频信号保真变速处理方法
CN1150513C (zh) 速度可变的语音信号再生方法
EP1519382A3 (en) Information reproducing method, recording medium on which information reproducing program is computer-readably recorded, and information reproducing apparatus
JP2003243952A (ja) デジタルオーディオシステム、自動音量調整要素生成方法、自動音量調整方法、自動音量調整要素生成プログラム、自動音量調整プログラム、自動音量調整要素生成プログラムが記録された記録媒体及び自動音量調整プログラムが記録された記録媒体
CN1152377C (zh) 一种音频信号保真变速放音方法及其装置
CN1746800A (zh) 信息处理设备、信息处理方法以及程序
CN1066837C (zh) 用于卡啦ok的记录媒体、重放装置和方法
JPH09138698A (ja) 音声記録再生装置
CN1604180A (zh) 音乐再现系统
CN1106618C (zh) 改变发音速度的方法
JPH0854895A (ja) 再生装置
JP2007025039A (ja) 音声再生装置、音声録音再生装置、およびそれらの方法、記録媒体、集積回路
JPH0573089A (ja) 音声再生方法
JPH04367898A (ja) 音声再生装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C01 Deemed withdrawal of patent application (patent law 1993)
WD01 Invention patent application deemed withdrawn after publication