CN1131794A - 用来改变语音的时标修改的装置 - Google Patents

用来改变语音的时标修改的装置 Download PDF

Info

Publication number
CN1131794A
CN1131794A CN 95117716 CN95117716A CN1131794A CN 1131794 A CN1131794 A CN 1131794A CN 95117716 CN95117716 CN 95117716 CN 95117716 A CN95117716 A CN 95117716A CN 1131794 A CN1131794 A CN 1131794A
Authority
CN
China
Prior art keywords
speed
buffer storage
stored data
voice
control section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 95117716
Other languages
English (en)
Inventor
则松武志
三崎正之
渡边公治
上野宪和
佐藤和彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP22013194A external-priority patent/JP3189587B2/ja
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN1131794A publication Critical patent/CN1131794A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

在一语音判断部分,对一声学信号的语音部分和非语音部分进行判断。该声学信号的数据被存贮在一缓冲存贮器之中。一存贮器控制部分将在语音判断部分判断为语音部分的数据控制写入缓冲存贮器并自该缓冲存贮器读出该数据。一时标修改部分根据未从该缓冲存贮器读出的剩余存贮数据量确定一时标修改速率,并根据该时标修改速率改变该声学信号的时标。

Description

用来改变语音的时标修改的装置
本发明涉及一种能够改变一再现速率而不使语音的主要声学信号的音调高低产生变化的语音时标修改装置,特别涉及一种在录像机(VTR)或语言学习系统中用来对于一声学信号进行可变速率再现的语音时标修改装置。
近年来各种涉及音频及视频(AV)的产品被广为推销,这些产品被配置到广播网络及信息网络,我们的社会充满了AV信息。这些日子以来许多具有能有效地和容易地观看和收听动能的产品被开发出来。特别是,作为一个有代表性的典型的例子是已知的盒式磁带录音机或自动应答电话的有效地听见语音的主要音频信息的功能、快速听见其再现功能。也就是,例如以两倍速率正常地对语音录制,那么就能在一半时间里有效地听见。该AV信息的一类似的功能是已知的VTR的可变速再现功能。通过高速同时同步的再现所记录的图象和信息就能够在短时间里看见和听见该AV信息。
在一语音学习系统中,也提供了一种改变语音再现速率的功能。对于一初学者来说对一种当地发音者的自然速率语音很难以听清。在该系统中,通过以一低速再现该自然速率就能比较容易的顺利地听清一外国语言,从而提高了语音学习效率。
顺便地说,在改变被记录在一磁带上的语音的再现速率的情况中,通常与语音以高速或低速再现时,该被再现的语音的音调高低还被改变,以致很难听清该被现现的语音。例如,当以高速被再现时,音调变得较高,而当以低速被再现时,音调变得较低。因此,在这样的系统中在语音的再现速率可变时,对该语音的一般的处理为的是不改变其音调的高低。
作为一种用来仅改变该再现速率而不改变其音调高低的最普通的方法,例如是由G.Fairbanks,W.L.Everitt,R.P.Jaeger在1993年在由Prentice-Hall Inc出版的Jae S.Lim"语音增强器"PP302-307中提出的"用于语音的时间或频率压缩-扩展的方法"。在其中有一个例子是使用了旋转磁头和一磁带。在这个例子中,一数据读出速率是按照所期望的速率而改变的。因为旋转磁头的旋转速率和磁带运转速率是不同的,所以相应于该旋转速率和运转速率之间不同的数据量被有规律地丢失或倍增。例如,当以一双倍速率再现时,首先该数据在一双倍记录速率期间被读出。在这种状态中,该音调成倍增高,因此该数据以1/2速率被丢失。最后,剩余的数据在与记录相同的期间内被再现,这样仅仅再现速率被加倍而没有改变其音调高低。但是,在上述的方法中,在以可变速率被再现时由于数据的丢失或加倍而使语音的质量明显恶化。因此,语音时标修改装置还提出了改进语言质量,并提出了一基本概念,例如由R.J.Scott和S.E.Gerber在1983年在Prentice-Hall Inc出版的Jae S.Lim"语音增强器"PP308-310上提出了"Pitch-Synchronous toneCompression of Speech"。其中,语音信号的音调部分被抽出,并且该时间轴通过有规律省略被重复的波形部分所压缩。
但是,在上述方法中,再现速率是固定的,并且由于该记录速率和再现速率差的更多,所以难以听清该语音。特别是,在快速或慢速观看VTR等的图象的情况中,当该磁带的再现速率被改变时,该语音的再现速率也与该图象一道改变,因而在传统语音时标修改装置中很难以听清该语音。
鉴于上述原因,本发明的首要目的是提供一种语音时标修改装置,当以与一记录速率不同的放音速率播放一包括来自记录介质的语音的音频信号时,通过根据在该放音速率和记录速率的范围内的该音频信号中的非语音部分的量而顺序地改变一语音部分的再现速率而以接近记录速率的速率再现该语音,因而以一可清楚地辩认的音质来再现该语音。本发明的另一个目的是实现一语音时标修改装置,当以与记录速率相同的速率放音时,根据非语音部分量通过适当改变该语音为一低于记录速率的慢速而容易地听清快速语音。本发明还有另一个目的是实现一种语音时标修改装置,当以低于记录速率的速率放音时,以接近于该记录速率的速率来再现该语音,通过改变该非语音部分的一扩展比和该语音部分的扩散比因而得到一可清楚辨认的语音。
为了实现这些目的,本发明提供了一种语音时标修改装置,通过检测自一记录介质所读出的一声学信号的非语音部分,并压缩或扩展该非语音部分,并根据该非语音部分量顺序地改变语音部分的压缩或扩展比在可变速率再现中能够明显地改进该语音的清晰度。
因此,在本发明的一种况状中,一种语音时标修改装置包括一以高于记录速率的再现速率再现被记录在一记录介质中的声学信号的记录和再现部分,一用来判断该声学信号的非语音部分和语音部分的语音判断部分,一用来存贮被再现声学信号的数据的缓冲存贮器,一用来控制该缓冲存贮器的一写地址以便将在该语音判断部分中被判断为语音部分的声学信号的数据写进该缓冲存贮器的写控制部分,一用来控制自该缓冲存贮器和该缓冲存贮器的一读地址读出数据的该控制部分,一用来监视在该缓冲存贮器中来自该缓冲存贮器的当前写地址和该缓冲存贮器的当前读地址的剩余存贮数据量的剩余存贮数据量监视部分,一用来根据自该剩余存贮数据量监视部分所得到的剩余存贮数据量而确定该数据的修改速率的自适应速率控制部分,和一用来根据在该自适应速率控制部分所确定的修改速率来压缩该声学信号的时标的时标压缩部分。
在本发明的另一种状况中,一种语音时标修改装置包括一用来以与一记录速率相同的速率再现一被记录在记录介质中的声学信号的记录和再现部分,一判断该声学信号的非语音部分和语音部分的语音判断部分,一用来存贮该声学信号的数据的缓冲存贮器,一用来控制该缓冲存贮器的写地址以便将在该语音判断部分被判断为语音部分的声学信号的数据写入该缓冲存贮器中,一用来控制自缓冲存贮器和缓冲存贮器的一读地址读取数据的读控制部分,一用来监视在该缓冲存贮器中来自该缓冲存贮器的当前写地址和该缓冲存贮器的当前读地址的剩余存贮数据量的剩余存贮数据量监视部分,一用来根据来自该剩余存贮数据量监视部分的的剩余存贮数据量确定一个修改速率的自适应速率控制部分,一用来根据在该自适应速率控制部分所确定的修改速率扩展该声学信号的时标的时标扩展部分。
在本发明的另外一种状况中,一种语音时标修改装置包括一用来以低于记录速率的再现速率再现被记录在一记录介质上的声学信号的记录和再现部分,一用来判断该声学信号的非语音部分和语音部分的语音判断部分,一用来存贮该声学信号的数据的输入缓冲器,一根据该语音判断部分的判断结果用来通过单独向非语音部分设置一时标扩展比和向语音部分设置一时标扩展比来扩展该输入缓冲器的声学信号的数据的时标的时标扩展部分,一用来存贮该时标扩展部分的输出数据的输出缓冲器,一用来监视在该输出缓冲器中所存贮的剩余存贮数据量的剩余存贮数据量监视部分,和用来根据该剩余存贮数据量来确定该语音部分和非语音部分的时标修改的扩展比的扩展比控制部分。
图1是本发明第一实施例的一种语音时标修改装置的结构的方框图;
图2(a)和图2(b)是说明在第一实施例中剩余存贮数据量的量度方法的示意图;
图3(a)是在第一实施例中按照一自适应速率控制部分的线性规律的速率设置方法的示意图;
图3(b)是在第一实施例中按照一自适应速率控制部分的非线性规律的速率设置方法的示意图;
图3(c)是按照该自适应速率控制部分的阶梯规律的速率设置方法的示意图;
图4是在第一实施例中一时标控制部分的电路图;
图5(a)示出了在第一实施例的时标控制部分中数据处理之前的一数据行;
图5(b)示出了在第一实施例的时标控制部分中数据处理之后的一数据行;
图6是在第一实施例中一写控制部分的另外操作的流程图;
图7是在本发明的第二实施例中一语音时标修改装置的结构的方框图;
图8(a)是在第二实施例中按照一自适应速率控制部分的线性规律的速率设置方法的示意图;
图8(b)是在第二实施例中按照一自适应速率控制部分的非线性规律的速率设置方法的示意图;
图8(c)是在第二实施例中按照一自适应速率控制部分的阶梯规律的速率设置方法的示意图;
图9是在第二实施例中一时标控制部分的电路图;
图10(a)示出了在第二实施例的时标控制部分中数据处理之前的一数据行;
图10(b)示出了在第二实施例的时标控制部分中数据处理之后的一数据行;
图11是在第二实施例中一写控制部分的另外操作的流程图;
图12是在本发明的第三实施例中语音时标修改装置的结构的方框图;
图13(a)是在本发明的第三实施例中一扩展比确定部分的第一扩展比置位表的示意图;
图13(b)是该扩展比确定部分的第二扩展比置位表的示意图;
图14(a)、(b)、(c)在第三实施例中一时标扩展部分的操作原理图。
下面将对本发明的第一实施例的概述作出说明。第一实施例涉及一种语音时标修改装置,当以比一记录速率较高的速率再现在一记录介质上所记录的音频信号时该装置能够依据一非语音部分量而顺序地改变一低于再现速率的速率。首先,输出以高速读出的音频信号,检测一语音部分和非语音部分,并且仅将该语音部分写入一特定容量的缓冲存贮器。当处理速率修改的同时输出该数据。这时,因为写入该缓冲存贮器和自该缓冲存贮器读出的速率不同,一修改速率被适当地变化以便避免出现在该缓冲存贮器中的存贮剩余部分自该缓冲存贮器中溢出或下溢。结果,甚至在高速再现时,它也可能根据该非语音部分量以低于该再现速率的一速率再现该音频信号。
现在参考附图在下面对第一实施例作详细说明。图1的方框图示出了在该第一实施例中的一语音时标修改装置的构成。
首先,一声音信号以记录速率M(≥1)倍的的速率自记录和再现部分101读出。之后,该速率改变成与记录速率(M=1)有关的速率。在这当中,假定在该记录和再现部分101中一记录的取样周期为T,自该记录和再现部分101以M倍速率被再现的声音信号在A/D变换器102中顺序地按一取样周期T/M被变换成一数字信号串。该数字信号中被馈送到语音判断部分103,并对该数字信号串的语音部分和非语音部分进行判断。如果判断为语音部分,则继续下面的操作。假定在N个取样值串中该数字信号串的一取样值串为S1,则与满足式(1)时判定该取样值串为语音部分,而当不满足式(1)时判定该取样值串为非语音部分。其中,Pth是一用来在语音部分和非语音部分之间进行判断的所预置的阈值。 P = Σ 1 = 1 N | S 1 | P th - - - - ( 1 )
假定一表明在缓冲存贮器105中存贮下一数据的地址的指针(后面称之为一写指针)为Pw,当在式(1)中判断出该取样值串是语音部分时,则该取样值串被顺序地存贮在通过写控制部分104而由写指针Pw所指明的缓冲存贮器105的地址之中,并且该Pw增加。相反,与该取样值串被判断为非语音部分时,写控制部分104停止在缓冲存贮器105中存贮该取样值串。在这种方式中,只有语音部分的数据被累加在缓冲存贮器105中。
在这里与满足式(1)时该取样值串被判断为语音部分,而不满足式(1)时被判断为非语音部分,但在该取样值串满足式(1)之前或之后一被判断为非语音的短取样值串可以被包含在该语音部分中。
在读控制部分106中,在周期T该缓冲存贮器105中的数据被顺序读出,并被送到时间标度控制部分109。这里,一表明在缓冲存贮器105中下一个被读出数据的指针(后面称之为读指针)被假定为Pr。在剩余存贮数据量监视部分107中,利用写指针Pw和读指针Pr的配置,还未从缓冲存贮器105中读出的一剩余存贮数据量被顺序地量度。图2(a)和图2(b)对剩余存贮量的量度方法予以说明,并且根据写指针和读指针的配置而存在图2(a)和图2(b)两种情况。在图2(a)和图2(b)中,假定该缓冲存贮器的起始地址为ao,而终止地址为an-1,在图2(a)和图2(b)的阴影区域示出了还未读出的剩余存贮数据量Z,并按下式计算。
         Z=Pw-Pr                     当Pw>Pr
         Z=Pr-Pw                     当Pw<Pr
         Z=0                         当Pw=Pr              (2)与该缓冲存贮器作为一所谓的周期存贮器而处理时这是等效的。通常,为了从该缓冲存贮器中读出和输出数据,在该周期存贮器中,写指针Pw必须在读指针Pr之前,并且因此如果Pw和Pr重叠(Pw=Pr),则读控制部分106停止读出该数据,并且在这时读指针Pr维持该地址。在Pw和Pr被重叠的状态,两种情况均要考虑,也就是要考虑在图2(a)中Pr赶上Pw和在图2(b)中Pw赶上Pr的情况。实际上,在后一种情况中该剩余存贮数据量相应于缓冲存贮器105的容量,即i=n,但在这种情况中该剩余存贮数据量Z不被复位为0。
基于在剩余存贮数据量监视部分10)中所获得的剩余存贮数据量Z的值,在自适应速率控制部分108中,与该剩余存贮数据量较小时该时间标度修改的速度被设置为一尽可能接近记录速率的慢速,或与该剩余存贮数据量较大时被设置为一适当的快速以便写指针Pw不可能赶上指针针Pr。下面将说明在以记录和再现部分101的记录速率的双倍(M=2)速率再现的情况下该自适应速率控制部分108的工作。其中,和再现速率一样的修改速率的最大值为2,而和记录速率一样的修改速率的最小值为1。图3(a)、(b)和(c)示出了剩余存贮数据量和修改速率之间的关系,以及用于设置该修改速率的结果。图3(a)示出了在剩余存贮数据量和修改速率之间的线性对应规律。在这种情况下,该修改速率V以下式计算。 V = Z n + 1 - - - - ( 3 ) 图3(b)示出了在剩余存贮数据量和修改速率之间的非线性对应规律的一个例子。相应于由平方曲线所对应的非线性,该修改速度V由下式计算。 V = Z 2 n 2 + 1 - - - - ( 4 ) 在图3(a)的一种情况中,该修改速率可以依据该剩余存贮数据量的增量或减量而平滑地变化,同时它是图3(b)的一个特征,在图3(b)中它稳定的接近记录速率1直至在缓冲存贮器105中该数据被累加到一定的值。
图3(c)涉及一个将该非线性对应于阶梯形的例子,并且该修改速度V由下式计算。
     V=1.0                        当0≤Z≤Z1
      =V1                        当Z1≤Z≤Z2
      =V2                        当Z2≤Z≤Z3
      =V3                        当Z3≤Z≤Z4
      =V4                        当Z4≤Z≤Z5
      =2.0                        当Z5≤Z≤n          (5)图3(c)所示的规律可以在较小的计算量和电路标度中与图3(b)的规律相同的控制而近似地得到。
在这种方式中,基于在图3(a)、图3(b)、或图3(c)中的规律来确定该修改速率,甚至在一信号以双倍速率被再现中就一包含有多于一个非语音部分的所规定的参数的输入信号而言该修改速率可被设置在接近记录速率1的一易于听见的速率,或者如果这些信号没有非语言部分被再现则该修改速率被设置为一最大修改速率速率2,这样就不会出现数据丢失。其中,该修改速率的最大值为2和最小值为1,但是如果该最大值小于2(例如为1.8)和该最小值大于1(例如为1.5)则可以应用相同的规律。但是,当所设置的该最大值小于2时,如果没有非语音部分的信号被连续地再现并且这些信号以双倍的记录速率被再现,则所有数据不可能被读出并且部分数据被丢掉。当在图2中Pw赶上Pr时它相应于这种情况,并且通过如上所述将该剩余存贮数据量复位为0和丢掉在相应于到此为止的该缓冲存贮器所积累的容量的部分中的数据可以解决问题。例如,假定该缓冲存贮器的容量为256K比特并且在10KHz取样的每次取样时处理8比特数据,则32K点(大约为3.2秒)的语音数据被丢掉。利用这样的设置,虽然依据非语音部分的参数部分数据被丢掉,但通过压缩该修改速率的最大值而使大部分数据可以在慢的易于听见的速率上被稳定地再现。
在该自适应速率控制部分108中所确定的该修改速率V的值被输出到时标压缩部分109,并且根据该修改速率V而设定该时标修改。图4是该时标压缩部分109的详细构成的方框图。在图4中,标号401表明用于控制该时标压缩部分的控制电路,标号402表示用于为了根据来自控制电路的一指令而加权和相加而转换交叉衰落处理部分或非处理部分的一转换电路,标号403表示用于暂时地处理该数据的锁存电路,标号404表示用来加权附加处理的交叉衰落电路,其它部分与在图1中的相同装置是相同的,并且用相同标号标明。参见图4,下面将对该时标压缩部分109的工作进行说明。
控制电路401为了实现修改速率V而首先确定交叉衰落部分长度K和非处理部分长度S。其中,该交叉衰落部分长度K是固定的,但是根据该修改速率V该K可以变化。图5(a)和图5(b)是用来说明该时标修改处理的示意图,图5(a)示出了在该数据处理之前的一数据行,图5(b)示出了在该数据处理之后的一数据行。而且,在产5(b)中相应于该数据的交叉衰落部分长度K的部分示出了数据A和数据B的交叉衰落处理。为了实现该修改速率V,长度S将被确定以便处理之前总的数据A、B、C的长度(2K+S)的1/V可以是时标处理之后的数据长度(K+S)。非处理部分长度S由下面的表达式来确定。 S = K ( 2 - V ) V - 1 - - - ( 6 )
假定该指针Pr表明图5(a)的数据行的开始,说明交叉衰减处理。控制电路401将转换电路402转换到交叉衰减处理侧,并通知读控制部分106读出表明读指针Pr的数据。该数据被送到锁存电路403并保持在该电路中。控制电路401通知读控制部分106读出领先于K取样的Pr+K的地址所指明的数据,并将由Pr+K的地址所指明的数据直接放入交叉衰减电路404中。交叉衰减电路404通过利用由读指针Pr所指明的数据和由Pr+K的地址所指明的数据执行附加加权处理。这里,在图5(a)中的数据行A被假定为d(0),d(1),…,d(K-1),并且数据行B假定为d(K),d(K+1),…,d(2K-1)。假定单调增长加权函数为W1(t)(这里0≤W1(t)≤1,t=0,1…,K-1),并且单调减小加权函数为W2(t)=1-W1(t),加权后的值c(t)由下面等式得到。
        Ct)=d(t)W2+d(t+k)W1(t)                    (7)因而,读指针被增加,并且控制电路401连续地被类似地处理K次,并且在图5(a)中的数据行A和B的所有交叉衰减处理完成之后,在该瞬间Pr+K的值被设置在该读指针。当交叉衰减处理结束时,控制电路401将转换电路402转换到非处理侧,并且自缓冲存贮器105读出在表达式(6)中所确定的数据并将长度S的数据直接送入D/A变换器110中。其后,交替地重复在长度K的交叉衰减处理后的数据和长度S的数据的输出,则实现了用来给出修改速率V的时标修改。当设置在自适应速率控制部分108的修改速率在某个点上被改变时,在表达式(6)中的该非处理部分长度被变化,并且其后继续类似的处理,因而随意地改变该修改速率。
在D/A变换器110中在周期T这种由时标修改所处理的数据行被变换为模拟信号,因而得到一与在记录时在相同音调上的被适当地转换为低于再现速率M的速率的音频信号。
根据到此为止所描述的第一实施例,因为用于语音时标修改的装置包括语音判断部分103,用来量度来自写指针和读指针的配置的存贮器剩余部分的存贮器剩余部分监视部分107,和用来确定依据该存贮器剩余部分的时标修改速率的自适应速率控制部分108,与剩余存贮数据量较少时该该修改速率被控制得逐渐慢下来而与剩余存贮数据量较多时该修改速率被控制得逐渐快起来,这样在高速下再现的音频信号在低于取决于包括其中的非语音部分量的再现速率的慢速时也可以被听见,并且工作在具有几乎不丢失信息的高速率状态。另外,所构成的时标压缩部分109通过调整该交叉衰减部分长度和非处理部分长度而用来在所希望的修改速率上改变该时标,高质量地实现时标修改,并且特别与该交叉衰减部分长度被固定在一预定值时,仅仅通过改变非处理部分的长度而获得时标修改的任意速率,这样该语音时标修改装置就可以用一非常简单的结构来实现。特别是,例如,在记录和再现部分伴随有诸如VTR之类的图象,该图象可以在双倍速率上被再现,并且只有声音可以在小于双倍速率的低速情况下被再现,因此它的效果增强。
附带地说及,在第一实施例中,该写控制部分104可按下述进行操作。图6的流程图示出了该写控制部分的另外的操作。现在参见图6在下面说明该写控制部分的其它的操作。
写控制部分104顺序地接收由剩余存贮数据量监视部分107所量度的剩余存贮数据Z的值(S601),并且同预置的阈值Zth进行比较(S602)。其中,如果Z大于Zth,或者说存在有足够的剩余存贮数据量,则它判断是否当前所输入的数据是来自语言判断数据103的判断结果的语音或非语音(S603),并且仅在是语音部分的情况下它被写入缓冲存贮器105(S604),并且该写指针Pw被增加(S605)。如果在S602中不满足这一判断条件,或者说没有足够的剩余存贮数据量,则不用去判断是否是语音,而将该数据写入缓冲存贮器105,并且将写指针Pw增加。在这种连续处理过程中,具体地说,在信号包含有许多非语音部分的情况下,它被控制使得在图2(a)中读指针Pr可以不赶上写指针,也就是,剩余存贮数据量可不变为0。
在这种方式中,当剩余存贮数据量小于一预置值、该剩余存贮数据量不变为0并且该被再现的声音通过中断(在静噪状态)而被阻止时,由所构成的写控制部分在该缓冲存贮器中累加所有的数据,因而实现了一种能自然地再现而没有奇异感觉的语音时标修改装置。
如在第一实施例所描述的那样,模拟信号被记录在该记录和再现部分101中,但在处理数据信号时它也可以同样地实现。在这种情况中,取样周期T的数字信号被直接馈送到语音判断部分103中,并随后执行相同的处理,结果输出时标被这样适当地改变的信号。
本发明第二实施例的概要情况如下所述。在这种涉及一种语音时标修改装置的实施例中,具体地说,当以与记录速率相同的速率读出被记录在一记录介质上的声音信号时,该时标被改变以便使速率可以低于一取决于非语音部分量的正常记录速率,这样就可有效的改进一快速语音的听觉。图7的方框图示出了在第二实施例中一语音时标修改装置的结构。下面将明确地描述第二实施例的操作。
在记录和再现部分101所记录的声信号以与记录速率(=1)相同的速率(M=1)而被再现,并且在取样周期T在A/D转换器102中被转换为数字信号。这种数字信号被顺序地馈送到语音判断电路103去判断是语音部分还是非语音部分,只有与该信号被判断为语音部分才将其写入缓冲存贮器105中,同时写控制部分104控制被写入的地址的指针Pw。读控制部分106顺序地自缓冲存贮器105读出数据并将其送入时标扩展部分702,同时控制一读指针Pr。在剩余存贮数据量监视部分107中,未被读出的剩余存贮数据量Z由当前读指针Pr和当前写指针Pw所量度。到此为至,除了再现速率的值M不同之外,该操作与第一实施例是相同的。
基于在剩余存贮数据量监视部分107中所得到的剩余存贮数据量的值Z,在自适应速率控制部分701中,当该剩余存贮数据量较少时时标修改速率被设置为比记录速率1要稍慢的速率,或与剩余存贮数据量较多时被设置为一足够地接近于记录速率1的速率以便使写指针Pw不可能赶上读指针Pr。在来自记录和再现部分101的再现速率M=1的情况下,自适应速率控制部分701的操作将在下面给予解释。其中,修改速率的最大值假定与再现速率相同被假定为1,而最小值为V0(这里0<V0<1)。图8(a)、图8(b)、和图8(c)示出了剩余存贮数据量和相应修改速率的关系,以及出现的用来设置该修改速率的规律。图8(a)示出了在剩余存贮数据量和修改速率之间相应的线性规律。在这种情况中,该修改速率V由下式计算。 V = 1 - V 0 n · Z + V 0 - - - - ( 8 ) 图8(b)示出了在剩余存贮数据量和修改速率之间的相应非线性规律的一个例子。由相应的二次方曲线,该修改速率V可由下式计算。 V = 1 - V 0 n 2 × Z 2 + V 0 - - - - ( 9 )
在图8(a)的情况中,依据该剩余存贮数据量的增加或减少该修改速率可平滑地变化,同时在图8(b)的情况中,它几乎稳定在记录速率1至到该数据在缓冲存贮器105中被累加到一定的程度。
图8(c)示出了该相应的非线性限定在阶梯形的情况,该修改速率V可由下面计算。
         V=V0                    当0≤Z≤Z1
          =V1                    当Z1≤Z≤Z2
          =V2                    当Z2≤Z≤Z3
          =V3                    当Z3≤Z≤Z4
          =V4                    当Z4≤Z≤Z5
          =1.0                    当Z5≤Z≤n                 (10)在较小的工作和电路标度量中,图8(c)所示的规律可以如像图8(b)所示的规律几乎相同的控制来实现。
在信号以单一速率被再现时,基于图8(a)、图8(b)、和图8(c)中的相应规律确定修改速率,当号输入包含有不只是非语音部分的特定量时可以获得小于记录速率的慢速率V0。当信号不包含有连续非语音部分时,最大修改速率设置为1,使得不会出现数据丢失。
在自适应速率控制部分701所确定的修改速率值V被送到时标扩展部分702中,并且依据该修改速率V而改变该时标。
图9所示的方框图详细的描述了该时标扩展部分702。在图9中,标号901是一用来控制整个时标扩展部分的控制电路,标号902是为了按照来自该控制电路的指令加权和相加而转换交叉衰减处理部分或非处理部分的转换电路,标号903是用来暂时保持该数据的锁存电路,和标号904是用来加权附加处理的一交叉衰减电路,其它部分与图1中的相同名称的部分是相同的因而用相同标号来指明。下面参照图9描述该时标扩展部分702的工作。
为了获得修改速率V该控制电路901首先确定交叉衰减长度K和非处理部分长度S。其中,交叉衰减部分长度是固定值K,但K的值可依据修改速率V而变化。
图10是用来解释该时标修改处理的概略图,图10(a)示出了处理之前的数据,图10(b)示出了处理之后的数据。另外,相应于由数据行A和数据行B所围起的长度K的部分是由数据行A和数据行B的交叉衰减处理所得到的数据行。
为了获得修改速率V,长度S将被确定以便在处理A、B、C之前总的数据行的长度(2K+S)的1/V可以是时标处理之后的数据长度(3K+S)。该非处理部分长度S是以下式来确定。 S = K ( 2 - 3 V ) V - 1 - - - - ( 11 )
假定读指针Pr表明了图10(a)的数据行A的开始,则说明该交叉衰减处理开始。该交叉衰减处理包括三个过程。
首先说明第一个过程。图11所示的流程图表明了部分交叉衰减过程。首先,关系到修改速率V,控制电路901将转换电路902转换到非处理侧(S1101)。从而它命令该读控制部分106读出由读指针Pr所指出的数据(S1102)。读出的数据被送到D/A转换器110而不被处理(S1103)。最后该读指针Pr被增加(S1104)。重复相同的处理直至数据行A被完全处理为止。
再说明第二个过程。控制电路901命令读控制部分106以便该读指针Pr可以指明A行数据的开始数据。控制电路901将转换电路902转换到交叉衰减处理侧,并命令该数据部分106读出由该指针Pr指明的数据。该数据被馈送进并保持在该锁存电路903中。控制电路901命令该控制部分106读出领先K取样的地址Pr+K所示的数据,并且该数据直接地送入交叉衰减电路904中。交叉衰减电路利用这两个数据集执行加权的相加。其中,在图10(a)中数据行A假定为d(0),d(1),…,d(K-1),并且数据行B为d(K),d(K+1),…,d(2K-1)。假定单调增加加权函数为W1(t)(这里0≤W1(t)≤1,t=0,1…,K-1),和单调减少加权函数为W2(t)=1-W1(t),则加权相加之后的值C(t)由下式获得。
       C(t)=d(t)W1(t)+d(t+K)W2(t)          (12)其后,读指针Pr增加,并且控制电路901连续地重复K次相同的处理,在图10(a)中的数据行A和B的所有交叉衰减处理完成之后,在这瞬间的Pr+K值被置为读指针。
现在说明第三过程。在第二过程结束,读指针Pr指明数据行B的开始,并且在第一过程中对数据行的相同处理在数据行B中实施。更具体地说,控制电路901将转换电路902转换到非处理侧。它还命令读控制部分106读出由读指针Pr所指明的数据。所读出的数据不进行处理而直接地送给D/A变换器110。最后,读指针Pr被增加。这系列处理在数据行B上被重复。
当该交叉衰减结束时,该控制电路901将转换电路902转换到非处理侧,并且相应于在式(11)中所确定的长度S的数据数自缓冲存贮器105被读出,并直接地传送到D/A变换器110中。
之后,通过交替地重复长度3K和在长度S中非处理数据的输出的交叉衰减处理,实现用来给出修改速率V的时标的修改。与在该自适应速率控制部分701中所设置的修改速率被变化为某一点时,在式(11)中非处理部分长度被改变,并继续相同的处理,这样该修改速率无论何时都可被变化为所期望的。
在时标中这样被改变的数据行最后在周期T由D/A变换器110变换为模拟信号,因而获得了与记录时的音调相同的适当地转换为低于该记录速率1的速率的声音信号。
在第二实施例中,图7中写控制部分的操作可更换为与第一实施例相同的图6中的流程图。
根据该第二实施例,如同在其中所述包括语音判断部分103,剩余存贮数据量监视部分107,用来依据剩余存贮数据量确定时标修改的速率的自适应速率控制部分701,通过与剩余存贮数据量较多时控制一速率接近该再现速率,而与剩余存贮数据量较少时控制一逐渐地低于1的慢速,而依据包含在其内的非语音量,使以记录速率被再现的声音信号在低于记录速率上可被听见。这对于听到快速语音的声音信号是特别有效的。
在第二实施例中,模拟信号被记录在该记录和再现部分101,但在数字信号的情况中它可以同样的被实现。在这种情况中,取样周期T的数字信号被直接地馈送到语音判断部分103,并且随执行同样的处理,输出在时标中被适当地改变的信号。
下面说明本发明第三实施例的概况。在这个实施例中涉及一语音时标修改装置,当以比该记录速率要慢的速率再现声音信号时,在取决于所输出的数据的累加的程度的输入信号中的非语音部分中设置一比在语音部分中要较大的扩展比,并且该语音部分被变为一尽可能接近于记录速率的速率,这样就容易听到在低速再现中被增强的声音。
图12示出了第三实施例中该语音时标修改装置的结构的方框图。下面结合图12详细说明它的工作。
首先,从一记录和再现部分1201以被读出的记录速率的M倍(0<M<1)的速率将声音信号读出。假定在该记录和再现部分1201中在记录时的取样周期为T,则来自该记录和再现部分1201的以M倍速率再现的声音信号由A/D变换器以取样周期T/M被顺序地变为数字信号串,并被写进输入缓冲器1203。
自输入缓冲器1203的被读出的数据被送到语音判断部分1204,在那里该取样值行被判断为语音部分或非语音部分。该语音或非语音判断可以在第一实施例所说明的式(1)的条件中被完成。基于该判断,时标扩展部分1205在自输入缓冲器1204所读出的数据中进行时标扩展,并送出到输出缓冲器1208。此时,剩余存贮数据并不送到D/A变换器1211而是在一剩余存贮数据监视部分1209中在每个特定时间被监视,因而,根据该剩余部分,扩展比确定部分1210确定在非语音部分中的非语音部分扩展比Es,以及在语音部分中的语音部分扩展比Ev。图13(a)和图13(b)的图示表明了在扩展比确定部分1210中扩展比的置位方法。图13(a)的例子是相应于剩余存贮数据和扩展比呈线性函数关系的情况,当在剩余存贮数据监视部分1209中所得到的剩余存贮数据Z较少时,也就是与输出缓冲器1208几乎是空的时,它能通过增加一扩展比而防止空的情况出现。在种情况中,用于非语音部分和语音部分的扩展比Es、Ev分别由式(13)和(14)得出。 Es = 1.5 N · Z + 3.0 - - - ( 13 ) Ev = 0.5 N · Z + 1.5 - - - ( 14 ) 其中因为如果语音部分的扩展比被降低则它能阻止输出缓冲器1208变空,所以非语音部分的扩展比大于语音部分的扩展比。在图13(b)的例子中,扩展比为1.0而在语音部分中的剩余存贮数据不为0,也就是,它是以与记录速率相同的速率被再现的。在这种情况下,非语音声音的扩展比Es、Ev分别由式(15)和(16)表示。 Es = 1.5 N 2 · Z 2 + 3.0 - - - ( 15 )
             Ev=1.5            当Z=0
               =1.0            当0<Z≤N        (16)在这种情况中,如果在语音部分中该扩展比被固定为1,当语音部分继续时,在该输出缓冲器1208中剩余存贮数据突然减少,因而在非语音部分中扩展比一般设置得较大,这样在该输出缓冲器中该数据可以容易地被累加。虽然通过扩展该时标它可阻止输出缓冲器1208变空,但如果给出一过大的扩展比,它可能超过该输出缓冲器的容量,并且不可能保持输出信号的连续性。因而,当该剩余存贮数据增加时,该扩展比保持较低。
因此,该扩展比确定部分1210在每个特定周期根据图13所示的规律来确定语音和非语音部分的扩展比Ev、Es,并送到时标控制部分1206。在该时标控制部分1206中,基于所确定的扩展比,在语音部分该时标以语音部分的扩展比Ev被扩展并在非语音部分以非语音部分的扩展比Es被扩展。
图14(a)、(b)、(c)的示意图示出了在一个以2/3(M=2/3)倍的记录速率再现该记录介质的例子中的时标扩展部分1206的工作。
图14(a)示出了在记录中输入信号的时间序列,图14(b)示出了当以M=2/3的再现速率再现来自该记录介质的声音时的一信号行。在图14(c)中,单元1、2、3是非语音部分,单元4、5、6是语音部分,并示出了处理之后的信号行,由扩展比确定部分1210给出1.0的语音部分的扩展比Ev和2.0的非语音部分的扩展比Ex。其中,如像在第二实施例所示那样,在所判断的非语音部分(单元1,2,3)通过在式(12)中插入交叉衰减处理部分而实现扩展比2.0的时标修改,并且该数据被累加在该输出缓冲器1208。在该被判断的语音部分(单元4、5、6),因为扩展比为1,所以该数据被直接累加在输出缓冲器1208。当自该扩展比确定部分1210所获得的扩展比变化时,该扩展比再次在时标扩展部分1206被置位,并且如图14(c)所示的该时标扩展处理被继续进行。
在这种方式中,通过再次适当地设置扩展比同时监视在该输出缓冲器1208中所累加的数据量,并且承受在输出缓冲器中输出数据时间的超过或不足,则即使在该信号中该非语音部分的比率是不可预期的,但对于非语音部分和语音部分可独自地设置扩展比。
因此,根据该第三实施例,依据剩余存贮数据在该语音部分和非语音部分单独设置时标扩展比,当该剩余存贮数据小于预置量时以1/M设置语音部分的扩比以阻止来自中断的输出信号,并控制该扩展比以使该语音部分尽可能地接近该声音速率,即使来自该记录介质的再现速率较低也可获得易于听到而无不舒服感觉的被再现的声音。
在第三实施例中,模拟信号被记录在该记录和再现部分1201,但在数字信号的情况中也可同样地获得。在这种情况下,取样周期T的数字信号被直接地送入输入缓冲器1203,并且随后执行如在第三实施例中相同的处理,这样就可输出时标被适当改变了的信号。

Claims (14)

1.一种语音时标修改装置包括一用来判断一声学信号的语音部分和非语音部分的语音判断部分,一用来存贮该声学信号的数据的缓冲存贮器,一用来控制将在该语音判断部分被判断是语音部分的数据写入该缓冲存贮器并且自该缓冲存贮器读出数据的存贮器控制部分,和一用来根据没有自该缓冲存贮器读出的剩余存贮数据量来确定时标修改速率并且根据该时标修改速率改变该声学信号的时标的时标修改部分。
2.一种语音时标修改装置包括一用来以M(M是一大于1的实数)倍记录速率的再现速率对一记录介质上所存贮的声学信号进行再现的记录和再现部分,一用来判断该声学信号的语音部分和非语音部分的语音判断部分,一用来存贮该声学信号的数据的缓冲存贮器,一用来控制该缓冲存贮器的一写地址以便将在该语音判断部分被判断为是语音部分的声学信号的数据写入该缓冲存贮器之中的写控制部分,一用来控制自该缓冲存贮器和该缓冲存贮器的一读地址读出数据的读控制部分,一用来监视在该缓冲存贮器中来自该缓冲存贮器的一当前写地址和该缓冲存贮的当前读地址的一剩余存贮地址和该缓冲存贮的当前读地址的一剩余存贮数据量的剩余存贮数据量监视部分,一用来根据由剩余存贮数据量监视部分所得到的剩余存贮数据量而确定该数据的一修改速率的自适应速率控制部分,以及一用来根据在该自适应速率控制部分所确定的修改速率而压缩该声学信号的时标的时标压缩部分。
3.如权利要求2所述的一种语音时标修改装置,其中该自适应速率控制部分确定的该修改速率正比于在该缓冲存贮器中的剩余存贮数据量,以规定该修改速率低于再生速率和高于记录速率。
4.如权利要求2所述的一种语音时标修改装置,其中该自适应速率控制部分基于相应于该剩余存贮数据量的非线性的修改规律来确定该修改速率,以规定该修改速率低于该再现速率和高于记录速率。
5.如权利要求2所述的一种语音时标修改装置,其中该时标压缩部分根据在该自适应速率控制部分所确定的修改速率来调整该时标,将在一特定数目的相邻部分中的取样数值行的相加结果分别乘以一单调减小的加权系数和乘以一单调增加的加权系数来调整一交叉衰减部分的一个长度,非处理部分的一长度用来直接地送出该数据,并交替地送出该交叉衰减处理部分的长度和非处理部分的长度。
6.如权利要求2所述的一种语音时标修改装置,其中与该剩余存贮数据量多于在该剩余存贮数据量监视部分的一特定量时该写控制部分控制写地址使得仅在语音判断部分中被判断的语音部分的数据被存贮到该缓冲存贮器中,与该剩余存贮数据量小于在该剩余存贮数据量监视部分中的一特定量时则不进行语音判断部分的判断而将所有的数据存贮到该缓冲存贮器中。
7.一种语音时标修改装置包括一用来以与记录速率相同的再现速率再现被记录在一记录介质上的声学信号的记录和再现部分,一用来判断该声学信号的非语音部分和语音部分的语音判断部分,一用来存贮该声学信号的数据的缓冲存贮器,一用来控制该缓冲存贮器的写地址以便将在该语音判断部分判断为语音部分的声学信号的数据写入该缓冲存贮器之中的写控制部分,一用来控制自该缓冲存贮器和该缓冲存贮器的读地址读出数据的读控制部分,一用来监视在该缓冲存贮器中来自该缓冲存贮器的当前写地址和该缓冲存贮器的当前读地址的剩余存贮数据量的剩余存贮数据量监视部分,和一用来根据在该自适应速率控制部分所确定的修改速率来扩展该声学信号的时标的时标扩展部分。
8.如权利要求7所述的一种语音时标修改装置,其中的该自适应速率控制部分确定的修改速率正比于在该缓冲存贮器中的剩余存贮数据量,以规定该修改速率低于该再现速率和高于该记录速率。
9.如权利要求7所述的一种语音时标修改装置,其中的自适应速率控制部分基于相应于对该剩余存贮数据量的非线性的修改规律而确定该修改速率,以规定该修改速率低于该再现速率和高于该记录介质的记录速率。
10.如权利要求7所述的一种语音时标修改装置,其中的时标扩展部分根据在该自适应速率控制部分所确定的修改速率来调整该时标,通过调整以一特定数目的相邻部分的取样值部分A、B的顺序A-C-B连接的部分D的长度,A后面是B,由在一特定数目相邻部分中的取样数值分别乘以一单调减小加权系数和乘以一单调增加加权系数的结果而得到的一交叉衰减处理部分C,以及用来直接地送出该数据的非处理部分E的长度并交替地送出部分D和非处理部分E。
11.如权利要求7所述的一种语音时标修改装置,其中该写控制部分控制写地址以便当该剩余存贮数据量多于在该剩余存贮数据量监视部分中的一特定量时仅将在该语音判断部分判断为语音部分的数据存贮到该缓冲存贮器中,并且与该剩余存贮数据量小于在该剩余存贮数据量监视部分中的该特定量时不再进行该语音判断部分的判断而将所有数据存贮到该缓冲存贮器之中。
12.一种语音时标修改装置包括一用来以M(M是一实数,0<M<1)倍记录速率的再现速率再现被记录在一记录介质上的声学信号的记录和再现部分,一用来存贮该声学信号的数据的输入缓冲器,一用来判断该声学信号的数据的输入缓冲器,一用来判断该声学信号的非语音部分和语音部分的语音判断部分,一通过向来自该语音部分单独地设置一时标扩展比而扩展该输入缓冲器的声学信号的数据的时标的时标扩展部分,一用来监视在输出缓冲器中存贮的输出数据的剩余存贮数据量的剩余存贮数据量监视部分,一用来根据自该剩余存贮数据量监视部分所得到的剩余存贮数据量来确定语音部分和非语音部分的时标修改的扩展比的扩展比控制部分。
13.如权利要求12所述的一种语音时标修改装置,其中的扩展比控制部分当与该剩余存贮数据量低于一特定值或为一其它的固定值时确定该语音部分的时标修改的扩展比为1/M,并且根据该剩余存贮数据量该非语音部分的时标修改的扩展比在1/M或更大的一范围内。
14.如权利要求12所述的一种语音时标修改装置,其中当剩余存贮数据量低于一指定值时,扩展比控制部分在1/M或在另一固定值上确定语音部分的时标修改的扩展比,而在1/M或更大的范围,该语音部分的时标修改的扩展比,取决于剩余存储数据量。
CN 95117716 1994-09-14 1995-09-14 用来改变语音的时标修改的装置 Pending CN1131794A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP220132/94 1994-09-14
JP22013294 1994-09-14
JP22013194A JP3189587B2 (ja) 1994-09-14 1994-09-14 音声時間軸変換装置
JP220131/94 1994-09-14
JP260206/94 1994-10-25

Publications (1)

Publication Number Publication Date
CN1131794A true CN1131794A (zh) 1996-09-25

Family

ID=26523553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 95117716 Pending CN1131794A (zh) 1994-09-14 1995-09-14 用来改变语音的时标修改的装置

Country Status (1)

Country Link
CN (1) CN1131794A (zh)

Similar Documents

Publication Publication Date Title
US7664558B2 (en) Efficient techniques for modifying audio playback rates
EP1481392B1 (en) Trick mode audio playback
JPH0528790A (ja) 記録再生装置
EP0939401B1 (en) Sound processing method, sound processor, and recording/reproduction device
EP1239480A2 (en) Information reproduction apparatus and method for erasing program data
US20030105640A1 (en) Digital audio with parameters for real-time time scaling
CN1131794A (zh) 用来改变语音的时标修改的装置
EP0702354A1 (en) Apparatus for modifying the time scale modification of speech
JPH09138698A (ja) 音声記録再生装置
JP4736331B2 (ja) 音響信号の再生装置
CN1145519A (zh) 音频信号保真变速处理方法
JPH0962296A (ja) 音声記録装置および音声再生装置
JPH0573089A (ja) 音声再生方法
US6339804B1 (en) Fast-forward/fast-backward intermittent reproduction of compressed digital data frame using compression parameter value calculated from parameter-calculation-target frame not previously reproduced
JPH08292790A (ja) ビデオテープレコーダ
JP2874607B2 (ja) 音声時間軸変換装置
CN1074849C (zh) 音频信号保真变速处理方法
JPH0793892A (ja) 半導体メモリオーディオ記録再生装置
JP2860991B2 (ja) 音声蓄積再生装置
JPH04367898A (ja) 音声再生装置
JP4648183B2 (ja) 連続メディアデータ短縮再生方法、複合メディアデータ短縮再生方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2861005B2 (ja) 音声蓄積再生装置
JPS6349240B2 (zh)
JP3224906B2 (ja) 信号記録方法、信号記録装置、信号再生方法及び信号再生装置
JPH04213500A (ja) 音声の符号化方法及び装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication