CN101136204A - 信号处理方法和设备 - Google Patents

信号处理方法和设备 Download PDF

Info

Publication number
CN101136204A
CN101136204A CNA2007100015488A CN200710001548A CN101136204A CN 101136204 A CN101136204 A CN 101136204A CN A2007100015488 A CNA2007100015488 A CN A2007100015488A CN 200710001548 A CN200710001548 A CN 200710001548A CN 101136204 A CN101136204 A CN 101136204A
Authority
CN
China
Prior art keywords
frame signal
signal
frequency spectrum
frame
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100015488A
Other languages
English (en)
Other versions
CN101136204B (zh
Inventor
大谷猛
铃木政直
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN101136204A publication Critical patent/CN101136204A/zh
Application granted granted Critical
Publication of CN101136204B publication Critical patent/CN101136204B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及信号处理方法和设备。在所述信号处理方法和设备中,对与其中对具有一帧长度的被执行了预定窗口函数并被转换到时域中的第一帧信号的频谱执行了预定处理的第二帧信号具有相同帧长度的预定校正信号进行调节,使得校正信号的两端的振幅变得等于第二帧信号的两个或一个帧端部的振幅,并通过从第二帧信号减去调节后的校正信号来获得校正帧信号。

Description

信号处理方法和设备
技术领域
本发明涉及信号处理方法和设备,具体地说,涉及在频域中对信号执行诸如噪声抑制的处理然后将该信号恢复到时域以进行处理时的信号处理方法和设备。
背景技术
以下参照图14到17对如上所述的信号处理技术的现有技术示例[1]和[2]进行描述。
现有技术示例[1]:图14和15
图14所示的噪声抑制设备2包括:分帧/加窗部10,其将作为话音信号的输入信号In(t)划分成预定长度的单元并执行预定窗口函数;频谱转换器20,其将从分帧/加窗部10输出的加窗帧信号W(t)转换成由振幅分量|X(f)|和相位分量argX(f)组成的频谱X(f);噪声抑制部130,其对频谱X(f)的振幅分量|X(f)|执行噪声抑制;时域转换器40,其将噪声抑制后的振幅分量|Xs(f)|和频谱X(f)的相位分量argX(f)转换到时域中;以及帧合成部60,其对从时域转换器40输出的时域帧信号Y(t)进行合成。
图15示出了噪声抑制设备2的操作波形图。首先,分帧/加窗部10将输入信号In(t)顺序地划分成具有预定帧长度L的尾帧信号FRb(t)和当前帧信号FRp(t)(以下,有时由标符FR来表示)。帧信号FRb(t)与FRp(t)偏离一帧偏移长度ΔL,并且被从输入信号In(t)切分出,使得这些信号的一部分可以彼此交叠,以更精确地执行用于噪声抑制的处理(即,为了更细微地对频谱进行分析),这将在后面描述。
此外,分帧/加窗部10根据以下公式(1)顺序地对帧信号FRb(t)和FRp(t)执行预定窗口函数w(t),以输出加窗帧信号W(t)(在步骤T1处)。
W(t)=FR(t)*w(t)       (t=0-L)                公式(1)
将该窗口函数w(t)设定为例如如图15所示的那样,使得帧信号FR(t)两端的振幅都可以均等地变成“0”,并且帧信号FR(t)的交叠部分处的共同贡献度之和可以变成“1”。
以下采用例如与尾帧信号FRb(t)相对应地获得的加窗帧信号Wb(t)来对频谱转换器20、噪声抑制部130以及时域转换器40的操作进行描述。可以将该操作类似地施加给与当前帧信号FRp(t)相对应的加窗帧信号Wp(t)。
频谱转换器20通过使用诸如MDCT(改进离散余弦变换)和FFT(快速傅立叶变换)的正交变换方法将加窗帧信号Wb(t)转换成频谱X(f),将振幅分量|X(f)|提供给噪声抑制部130,并将相位分量argX(f)提供给时域转换器40。
噪声抑制部130对振幅分量|X(f)|中包括的噪声分量进行抑制,并将噪声抑制后的振幅分量|Xs(f)|提供给时域转换器40(在步骤T2处)。
时域转换器40在接收到频谱X(f)的相位分量argX(f)和噪声抑制后的振幅分量|Xs(f)|之后,将通过到时域的转换(逆正交变换)而获得的时域帧信号Yb(t)提供给帧合成部60(在步骤T3处)。
帧合成部60在接收到按类似方式获得的时域帧信号Yb(t)和与当前帧信号FRp(t)相对应的时域帧信号Yp(t)之后,如由下式(2)示出的那样将时域帧信号Yb(t)与Yp(t)合成或相加,以获得输出信号Out(t)(在步骤T4处)。
Out(t)=Y(t-ΔL)+Y(t)
       =Yb(t)+Yp(t)                     公式(2)
由此,可以从输入信号In(t)获得抑制了噪声分量的输出信号Out(t)。
然而,由于在上述步骤T2处进行的噪声抑制,如图15所示,时域帧信号Yb(t)或Yp(t)的帧的各端部处的振幅变得大于或小于“0”,使得在某些情况下帧端部的振幅相互有偏差。在这些情况下,在该现有技术示例[1]中存在如下问题:在时域帧信号Yb(t)和Yp(t)的边界B1和B2处,输出信号Out(t)变得不连续,从而产生了不正常噪声。
为了解决该问题,已经提出了以下现有技术示例[2]。
现有技术示例[2]:图16和17
除了上述现有技术示例[1]所示的设置以外,图16所示的噪声抑制设备2还设有后加窗部140,该后加窗部140连接在时域转换器40与帧合成部60之间,并输出对时域帧信号Y(t)执行了后窗口函数的后加窗帧信号Wa(t)。
在操作中,如图17所示,后加窗部140根据下式(3)和(4)对按与上述现有技术示例[1]相同的方式获得的时域帧信号Yb(t)和Yp(t)顺序地执行预定后窗口函数wa(t),以输出后加窗帧信号Wab(t)和Wap(t)(在步骤T5处)。
Wab(t)=Yb(t)*wa(t)            公式(3)
Wap(t)=Yp(t)*wa(t)            公式(4)
将后窗口函数wa(t)设定成,使得时域帧信号Yb(t)和Yp(t)两端的振幅如图17所示也可以变成“0”(即,使得振幅可以在时域帧信号Yb(t)和Yp(t)的边界B1和B2处变得连续)。
帧合成部60如下式(5)所示地将后加窗帧信号Wab(t)与Wap(t)合成或相加,以获得输出信号Out(t)(在步骤T6处)。
Out(t)=Wa(t-ΔL)+Wa(t)                公式(5)
       =Wab(t)+Wap(t)
由此,可以获得时域帧信号Yb(t)与Yp(t)在边界B1和B2处连续地相连接的输出信号Out(t)(例如,参见专利文献1)。
需要指出的是,作为参考示例,可以提及回波抑制设备,该回波抑制设备通过按与上述现有技术示例[2]相同的方式使用后窗口函数,对通过将被执行了回波抑制的频谱转换到时域中而获得的帧信号进行连接(例如,参见专利文献2)。
[专利文献1]日本专利第3626492号
[专利文献2]日本特开第2000-252891号
在上述现有技术示例[2]中,可以将在通过使用后窗口函数顺序地校正帧信号的校正后的帧信号顺序地连接起来。然而,由于将帧信号的振幅分量乘以后窗口函数,换句话说,由于对与帧信号中包括的所有频率分量相对应的振幅分量|Xs(f)|进行了校正,因此,如图18所示,存在如下问题:与在经受后窗口函数处理之前的帧信号Y(t)的频谱振幅分量|Xs(f)|(由虚线示出)相比,经受了后窗口函数处理之后的帧信号Wa(t)的频谱振幅分量|Xa(f)|(由实线示出)在整个频率带宽中变钝了,从而在整个帧信号中产生了失真。
通常,认为在频率“f”为20Hz到20kHz的高频带宽中的听觉灵敏度很高。因此,在高频带宽中产生的帧信号的失真会导致声音质量的劣化。
发明内容
因此,本发明的目的是提供一种信号处理方法和设备,通过该信号处理方法和设备,可以对在将被执行了诸如噪声抑制的处理的频谱转换成帧信号时出现的帧端部的振幅偏差进行校正,而在该帧信号中产生最小的失真。
[1]为了实现上述目的,根据本发明一个方面的信号处理方法(或设备)包括:第一步骤(或装置),其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;和第二步骤(或装置),其对具有与所述第二帧信号相同的帧长度的预定校正信号进行调节,使得所述校正信号的两端的振幅可以大致变成等于所述第二帧信号的全部两个或一个帧端部的振幅,并通过从所述第二帧信号减去调节后的校正信号来对所述第二帧信号进行校正。
即,按与现有技术示例相同的方式,通过在第一步骤(或装置)处对第一帧信号的频谱执行预定处理并通过将该频谱转换到时域中而获得的第二帧信号的两个帧端部的振幅可能会变得大于或小于“0”。
因此,在第二步骤(或装置)处,对预定校正信号进行调节,使得所述校正信号的两端的振幅大致变成等于所述第二帧信号的两个或一个帧端部的振幅,并从所述第二帧信号减去调节后的校正信号。
所述校正信号只需具有与所述第二帧信号相同的帧长度,并且所述振幅分量可以是任何振幅分量。
即,由于所述校正信号的振幅分量由多个频率分量组成,因此通过上述调节和减法处理,所述第二帧信号的两个或一个帧端部的振幅变成“0”或接近于“0”的值,使得只对与在所述校正信号中包括的频率分量相对应的振幅分量执行减小或增大的校正。
因此,可以在整个帧信号中不产生失真的情况下对在所述第二帧信号中出现的帧端部的振幅偏差进行校正。
[2]此外,在上述[1]中,所述校正信号的振幅分量可以只包括低频分量。
即,可以使由于进行所述校正而产生的帧信号的失真只保持在低频带宽中。
具体来说,当例如所述第一帧信号是从话音信号中获得的并且所述校正信号的振幅分量只包括其中听觉灵敏度被认为很低的频率带宽的分量时,可以在不使声音质量劣化的情况下对在所述第二帧信号中出现的帧端部的振幅偏差进行校正。
[3]此外,在上述[1]中,所述校正信号的振幅分量可以只包括直流分量。
在此情况下,可以使由于进行所述校正而产生的帧信号的失真保持最小。
[4]此外,为了实现上述目的,根据本发明一个方面的信号处理方法(或设备)包括:第一步骤(或装置),其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;第二步骤(或装置),其输入被执行了所述预定处理的所述频谱和所述第二帧信号,并对被执行了所述预定处理的所述频谱的振幅分量进行校正,使得所述第二帧信号的两个或一个帧端部的振幅可以大致变成零;以及第三步骤(或装置),其将校正后的频谱转换到时域中。
即,在所述第二步骤(或装置)处,执行频域中进行的校正,使得将在第三步骤(或装置)处的时域转换之前对其振幅分量进行了校正的频谱转换到时域中的帧信号,可以变得等于其中使第二帧信号的两个或一个帧端部大致为“0”的帧信号。
只需对与被执行了所述预定处理的频谱内的任意频率分量相对应的振幅分量执行所述校正。
即,通过将校正后的频谱转换到时域中而获得的所述帧信号的两个或一个帧端部的振幅变成“0”或接近于“0”的值,并且只对与校正后的频率分量相对应的振幅分量进行了校正。
因此,按与上述[1]相同的方式,可以在整个帧信号中不产生失真的情况下,对在所述第二帧信号中出现的帧端部的振幅的偏差或差异进行校正。
[5]此外,在上述[4]中,所述第二步骤(或装置)可以包括对与被执行了所述预定处理的所述频谱的低频带宽相对应的振幅分量进行校正的步骤。
即,所述第二步骤(或装置)对与被执行了所述预定处理的所述频谱的低频带宽相对应的任何振幅分量进行校正。
具体来说,当将所述低频带宽设定在其中听觉灵敏度被认为很低的频率带宽中时,按与上述[2]相同的方式,可以在不出现声音质量劣化的情况下对在所述第二帧信号中出现的帧端部的振幅偏差进行校正。
[6]此外,在上述[4]中,所述第二步骤(或装置)可以包括只对与被执行了所述预定处理的所述频谱的直流分量相对应的振幅进行校正。
同样,在此情况下,类似于上述[3],可以使由于进行所述校正而产生的帧信号的失真保持最小。
[7]此外,在上述[1]或[4]中,所述第一步骤(或装置)可以包括以下步骤(或装置):将所述第一帧信号转换到频域中以生成第一频谱;生成其中对所述第一频谱执行了所述预定处理的第二频谱;以及将所述第二频谱转换到时域中以生成所述第二帧信号。
[8]此外,在上述[1]或[4]中,所述第一步骤(或装置)的所述预定处理可以根据所述第一帧信号的频谱的振幅分量估计噪声频谱,并可基于所述噪声频谱对所述第一帧信号的频谱的振幅分量内的噪声进行抑制。
[9]此外,在上述[1]或[4]中,所述第一步骤(或装置)的所述预定处理可以包括以下:通过将被执行了所述预定窗口函数的基准帧信号的频谱的振幅分量与所述第一帧信号的频谱的振幅分量进行比较,来计算用于抑制回波的抑制系数;和将所述第一帧信号的频谱的振幅分量乘以所述抑制系数。
[10]此外,在上述[1]或[4]中,所述第一帧信号可以包括被执行了所述预定窗口函数的话音信号或声音信号,所述预定处理可以包括对所述第一帧信号的频谱进行编码,并且所述第一步骤(或装置)可以包括通过将编码后的频谱转换到时域中以生成所述第二帧信号而进行解码的步骤(或装置)。
[11]此外,在上述[1]或[4]中,所述第一帧信号可以包括与通过对任意字符串进行分析而生成的多个语音字符串中的一个语音字符串相对应的音素片段,该音素片段是从其中记录有所有估计的语音字符串和与其相对应的音素片段的话音词典中提取出来的,并被执行了所述预定窗口函数,与所述第一帧信号相邻且与其部分交叠的帧信号可以包括与所述多个语音字符串中的另一个语音字符串相对应的音素片段,该音素片段是从所述话音词典中提取出来的,并被执行了所述预定窗口函数,所述预定处理可以包括以下处理:按照根据所述多个语音字符串生成的长度和音调来确定所述多个音素片段的连接次序;基于所述连接次序计算用于将所述多个音素片段的频谱相互平滑连接的振幅校正系数;以及将各音素片段的频谱的振幅分量乘以各振幅校正系数。
按与上述[8]到[11]相同的方式,当输入各种帧信号并对频谱执行了各种处理时,可以在不改变信号处理方法和设备的要素的情况下对由于进行时域转换而产生的帧端部的振幅偏差进行校正。
[12]此外,在上述[1]或[4]中,所述信号处理方法(或设备)还可以包括以下步骤(或装置):将通过对当前帧信号进行校正而获得的帧信号与通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号二者的交叠部分相加,其中所述帧信号与所述相邻帧信号彼此部分交叠。
由此,当在上述[1]或[4]中针对彼此相交叠的帧信号将两个帧端部的振幅大致校正为“0”时,使得这些帧信号的两个帧端部的振幅分别相等,从而使得这些帧信号的边界是连续的。
此外,当在上述[1]或[4]中将帧信号的一个帧端部的振幅大致校正为“0”时,会存在没有连续性的帧信号。然而,如上所述地在不产生失真的情况下对在帧信号中出现的帧端部的振幅偏差本身进行校正,从而不会对声音质量产生影响。
根据本发明,可以在信号中产生最小失真的情况下,对在将被执行了诸如噪声抑制的处理的频谱转换成时域帧信号时出现的帧端部的振幅偏差进行校正,从而使得可以改进应用了本发明的设备的输出信号的质量。
此外,本发明被配置成可以对帧信号的直流分量或只与低频带宽相对应的振幅分量进行校正。因此,可以减小由于进行校正而导致的帧信号的质量劣化。
此外,本发明的配置可以在不被改变的情况下适应于各种帧信号和处理。因此,可以将本发明通用地应用于各种设备,从而可以降低开发成本。
附图说明
当结合附图考虑以下详细说明时,本发明的以上和其他目的和优点将变得显见,在所有附图中类似的标号表示类似的部分,并且在附图中:
图1是示出根据本发明的信号处理方法和设备的实施例[1]的框图;
图2是示出本发明实施例[1]的总体操作示例的波形图;
图3A到3C是示出用于本发明实施例[1]的失真去除部的帧信号校正示例(1)的操作波形图;
图4是示出在由用于本发明实施例[1]的失真去除部的帧信号校正示例(1)校正前和校正后的频谱特性的曲线图;
图5A到5C是示出用于本发明实施例[1]的失真去除部的帧信号校正示例(2)的操作波形图;
图6是示出在由用于本发明实施例[1]的失真去除部的帧信号校正示例(2)校正前和校正后的频谱特性的曲线图;
图7是示出根据本发明的信号处理方法和设备的实施例[2]的框图;
图8是示出用于本发明实施例[2]的时域转换器和振幅分量调节器的操作示例的流程图;
图9是示出根据本发明的信号处理方法和设备的应用示例[1]的框图;
图10是示出根据本发明的信号处理方法和设备的应用示例[2]的框图;
图11是示出根据本发明的信号处理方法和设备的应用示例[3]的框图;
图12是示出根据本发明的信号处理方法和设备的应用示例[4]的框图;
图13A到13D是示出用于本发明的应用示例[4]的语言处理器、节律发生器以及控制器的操作示例的图;
图14是示出噪声抑制设备的现有技术示例[1]的配置的框图;
图15是示出现有技术示例[1]的信号处理示例的操作波形图;
图16是示出噪声抑制设备的现有技术示例[2]的配置的框图;
图17是示出现有技术示例[2]的信号处理示例的操作波形图;以及
图18是示出在由现有技术示例[2]进行后窗口函数处理之前和之后的频谱特性的曲线图。
具体实施方式
现在参照图1、2、3A到3C、4、5A到5C、6到12以及13A到13D,按以下次序对根据本发明的信号处理方法的实施例[1]和[2]和利用这些实施例的设备以及应用示例[1]到[4]进行描述。
I.实施例[1]:图1、2、3A到3C、4、5A到5C以及6
I.1.配置:图1
I.2.操作示例:图2、3A到3C、4、5A到5C以及6
I.2.A.总体操作示例:图2
I.2.B.帧信号校正示例(1):图3A到3C以及4
I.2.C.帧信号校正示例(2):图5A到5C以及6
II.实施例[2]:图4和6到8
II.1.配置:图7
II.2.操作示例:图4、6以及8
III.应用示例:图9到12以及13A到13D
III.1应用示例[1](噪声抑制设备):图9
III.2应用示例[2](回波抑制设备):图10
III.3应用示例[3](话音(或声音)解码设备):图11
III.4应用示例[4](话音合成器):图12和13A到13D
I.实施例[1]:图1、2、3A到3C、4、5A到5C以及6
I.1.配置:图1
根据图1所示的本发明实施例[1]的信号处理设备1包括:分帧/加窗部10,其将输入信号In(t)划分成预定长度的单元并对该信号执行预定窗口函数;频谱转换器20,其将从分帧/加窗部10输出的加窗帧信号W(t)转换成由振幅分量|X(f)|和相位分量argX(f)组成的频谱X(f);乘法器30,其将用于执行预定处理的处理系数G(f)乘以频谱X(f)的振幅分量|X(f)|;时域转换器40,其将处理后的振幅分量|Xs(f)|和频谱X(f)的相位分量argX(f)转换到时域中;失真去除部50,其通过使用预定校正信号对从时域转换器40输出的时域帧信号Y(t)进行校正;以及帧合成部60,其对从失真去除部50输出的校正后的帧信号Yc(t)进行合成。
根据信号处理设备1的预期用途,可以恰当设定输入给乘法器30的处理系数G(f)。
I.2.操作示例:图2、3A到3C、4、5A到5C以及6
以下对图1所示的信号处理设备1的操作进行描述。首先,参照图2对其总体操作示例进行描述。然后,参照图3A到3C、4、5A到5C以及6对失真去除部50的帧信号校正示例(1)和(2)进行描述。
I.2.A.总体操作示例:图2
首先,在图2所示的波形图中,分帧/加窗部10按与图14的现有技术示例相同的方式将输入信号In(t)顺序地划分成具有预定帧长度L的尾帧信号FRb(t)和当前帧信号FRp(t),并将帧信号FRb(t)和FRp(t)顺序地乘以如上述公式(1)所示的预定窗口函数w(t),然后输出加窗帧信号W(t)(在步骤S1处)。
以下采用例如与尾帧信号FRb(t)相对应地获得的加窗帧信号Wb(t)来对频谱转换器20、乘法器30、时域转换器40以及失真去除部50的操作进行描述。可以将该操作施加给与当前帧信号FRp(t)相对应的加窗帧信号Wp(t)。
频谱转换器20通过使用与现有技术示例相同的正交变换方法将加窗帧信号Wb(t)转换成频谱X(f),将振幅分量|X(f)|提供给乘法器30,并将相位分量argX(f)提供给时域转换器40。
如下式(6)所示,乘法器30通过处理系数G(f)对振幅分量|X(f)|进行乘法或处理,以生成振幅分量|Xs(f)|,并将该振幅分量提供给时域转换器40(在步骤S2处)。
|Xs(f)|=G(f)*|X(f)|                公式(6)
时域转换器40在接收到相位分量argX(f)和处理后的振幅分量|Xs(f)|之后,按与现有技术示例相同的方式执行逆正交变换,获得时域帧信号Yb(t),并将帧信号Yp(t)提供给失真去除部50(在步骤S3处)。
失真去除部50对时域帧信号Yb(t)执行稍后要描述的帧信号校正,并将校正后的帧信号Ycb(t)提供给帧合成部60(在步骤S4处)。
帧合成部60在接收到校正后的帧信号Ycb(t)和按与校正后的帧信号Ycb(t)相同的方式获得的与当前帧信号FRp(t)相对应的校正后的帧信号Ycp(t)之后,如公式(7)所示,将校正后的帧信号Ycb(t)与Ycp(t)合成或相加,从而获得输出信号Out(t)(在步骤S5处)。需要指出的是,按与上述公式(2)相同的方式,ΔL表示当前帧FRp(t)与尾帧信号FRb(t)之间的偏移长度。
Out(t)=Yc(t-ΔL)+Yc(t)                公式(7)
       =Ycb(t)+Ycp(t)
I.2.B.帧信号校正示例(1):图3A到3C以及4
图3A示出了由失真去除部50使用的校正信号f(t)的实施例。该校正信号f(t)具有与时域帧信号Y(t)相同的帧长度L。例如,如图3A所示,假设校正信号f(t)由频率为f1的波形W1与频率为f2的波形W2的合成波形来表示。尽管在本示例中对校正信号f(t)的两端的振幅f(0)和f(L)分别设定了不同的振幅值,但是也可以设定相同的振幅值。
首先,如图3B所示,失真去除部50对校正信号f(t)进行调节,使得振幅f(0)与f(L)可以分别等于时域帧信号Y(t)的帧的两端的振幅Y(0)和Y(L)(f(0)=Y(0),f(L)=Y(L)),从而生成调节后的校正信号fa(t)。
当如上所述地将振幅f(0)与f(L)设定为互不相同的振幅值时,通过从校正信号f(t)的振幅分量减去例如时域帧信号Y(t)的一个帧端部的振幅Y(0),使校正信号f(t)的振幅分量偏移,使得振幅f(0)可以变得等于振幅Y(0)。通过使用各种已知的逼近方法等对该振幅分量进一步进行调节,以使其等于时域帧信号Y(t)的另一个帧端部的振幅Y(L)。
失真去除部50如下式(8)所示地从时域帧信号Y(t)减去调节后的校正信号fa(t),以获得校正后的帧信号Yc(t)。
Yc(t)=Y(t)-fa(t)                        公式(8)
如图3C所示,上述校正后的帧信号Yc(t)的帧的两端的振幅变为“0”。
通过进行上述校正,从时域帧信号Y(t)仅减去了与在调节后的校正信号fa(t)中包括的频率分量相对应的振幅分量(即,与在校正信号f(t)中原本包括的频率f1和f2相对应的调节后的振幅分量)。因此,通过相对于由图4中的虚线示出的未校正频谱振幅分量|Xs(f)|,将只与频率f1和f2相对应的振幅分量增大或减小分别与频率f1和f2相对应的振幅校正量α1和α1,获得了由图4中的实线示出的校正后的(校正后的帧信号Yc(t))频谱振幅分量|Xc(f)|。
I.2.C.帧信号校正示例(2):图5A到5C以及6
图5A所示的校正信号f(t)与上述帧信号校正示例(1)的不同之处在于,将振幅分量设定为只包括直流分量Co。
如图5B所示,失真去除部50对校正信号f(t)的振幅分量进行调节,使得校正信号f(t)的两端的振幅f(0)和f(L)可以分别等于时域帧信号Y(t)的两端的振幅Y(0)和Y(L)。即,如下式(9)所示地设定调节后的校正信号fa(t)。
fa(t)=Y(0)                           公式(9)
失真去除部50根据上述公式(8)对时域帧信号Y(t)进行校正,并获得校正后的帧信号Yc(t)(=Y(t)-Y(0))。
对于上述校正后的帧信号Yc(t),如图5C所示,使校正后的帧信号Yc(t)的振幅分量偏移振幅Y(0)。
此外,如图6所示,校正后的(校正后的帧信号Yc(t))频谱振幅分量|Xc(f)|(由实线表示),是其中只将直流分量(f=0)改变了振幅校正量α的未校正频谱振幅分量|Xs(f)|(由虚线表示)。
需要指出的是,尽管在上述帧信号校正示例(1)和(2)中对校正信号f(t)的两端的振幅进行调节以使其等于时域帧信号Y(t)的帧的两端的振幅,但是也可以对所述振幅进行调节以使其等于时域帧信号Y(t)的帧的一端的振幅Y(0)或Y(L)。在此情况下,可以类似地应用上述描述。
校正后的帧信号Yc(t)的一端的振幅可以不是“0”,使得校正后的帧信号Yc(t)与相邻的校正后的帧信号可能不连续。然而,由于在诸如语音的数字信号的情况下校正后的帧信号具有离散值(即,由于信号存在差错),因此将这些信号视为连续的。
II.实施例[2]:图4、6、7以及8
II.1.配置:图7
根据图7所示的本发明实施例[2]的信号处理设备1与上述实施例[1]的不同之处在于:在乘法器30与时域转换器40之间插入有振幅分量调节器120来代替失真去除部50,该振幅分量调节器120输入时域帧信号Y(t)和处理后的振幅分量|Xs(f)|,而输出其中在频域中对处理后的振幅分量|Xs(f)|进行了校正的校正后的振幅分量|Xc(f)|;并且时域转换器40输入该校正后的振幅分量|Xc(f)|。
II.2.操作示例:图4、6以及8
以下对本实施例的操作进行描述。下面参照图8仅对时域转换器40和振幅分量调节器120的操作示例进行描述,因为其他操作与上述实施例[1]的操作相同。此外,在以下描述中将再次利用在对上述实施例[1]的描述中利用的图4和6。
如图8所示,时域转换器40在接收到频谱X(f)的相位分量argX(f)和处理后的振幅分量|Xs(f)|之后,按与上述实施例[1]相同的方式对相位分量argX(f)和处理后的振幅分量|Xs(f)|执行逆正交变换,以获得时域帧信号Y(t)(在步骤S10处)。
时域转换器40将时域帧信号Y(t)提供给振幅分量调节器120,并等待从振幅分量调节器120接收校正后的振幅分量|Xc(f)|(在步骤S11处)。
振幅分量调节器120在从时域转换器40接收到时域帧信号Y(t)并从乘法器30接收到处理后的振幅分量|Xs(f)|之后,基于Parseval理论计算针对处理后的振幅分量|Xs(f)|的振幅校正量α(在步骤S20处)。Parseval理论包括如下式(10)所示的表示时域中的信号功率与频域中的频谱功率之间的相等性的方程,其中当两者不相等时使用振幅校正量α作为差值。
ΣY ( t ) 2 = 1 2 π Σ | Xs ( f ) | 2 (Parseval理论)
⇒ Σ ( Y ( t ) - Y ( 0 ) ) 2 = 1 2 π ( Σ | Xs ( f ) | 2 + α 2 )
⇒ α = 2 πΣ ( Y ( t ) - Y ( 0 ) ) 2 - Σ | Xs ( f ) | 2 公式(10)
即,上述公式(10)中的振幅校正量α的乘方α2是这样的值:该值对频域中的频谱的功率进行校正,使得其中从时域帧信号Y(t)去除了帧端部的幅值Y(0)的信号(Y(0)=“0”的帧信号)功率(右侧第一项)与处理后的振幅分量|Xs(f)|的功率(右侧第二项)可以相等。因此,可以使用通过计算平方根而获得的针对处理后的振幅分量|Xs(f)|的振幅校正量α,作为使其中从时域帧信号Y(t)去除了帧端部的振幅Y(0)的帧信号与通过将校正后的振幅分量|Xc(f)|转换到时域中而获得的校正后的帧信号Yc(t)大致相符合的校正量。
此外,当时域帧信号Y(t)的帧的两端的振幅Y(0)与Y(L)彼此相等时,振幅校正量α变成使其中从时域帧信号Y(t)去除了两个帧端部的振幅Y(0)和Y(L)的帧信号(即,Y(0)=Y(L)=“0”)与校正后的帧信号Yc(t)大致相符合的校正量。
振幅分量调节器120通过如下式(11)所示将振幅校正量α与处理后的振幅分量|Xs(f)|的直流分量(f=0)的振幅相加,来获得校正后的振幅分量|Xc(f)|的直流分量的振幅,如下式(12)所示按原样获得处理后的振幅分量|Xs(f)|的与除直流分量以外的频率(f≠0)相对应的振幅分量,作为校正后的振幅分量|Xc(f)|的与除直流分量以外的频率相对应的振幅分量(在步骤S21处),并将校正后的振幅分量|Xc(f)|提供给时域转换器40(在步骤S22处)。
|Xc(0)|=|Xs(0)|+α      (f=0)           公式(11)
|Xc(f)|=|Xs(f)|         (f≠0)           公式(12)
由此,校正后的振幅分量|Xc(f)|是其中按与图6相同的方式只将直流分量改变了振幅校正量α的未校正频谱振幅分量|Xs(f)|。
此外,当期望获得图4所示的校正后的振幅分量|Xc(f)|时,振幅分量调节器120可以将作为被分开的振幅校正量α的振幅校正量α1和α1(α1+α1=α)分别相加至处理后的振幅分量|Xs(f)|中的与频率f1和f2相对应的两个振幅,而不是如上述公式(10)和(11)所示仅将振幅校正量α相加至处理后的振幅分量|Xs(f)|的直流分量的振幅。
时域转换器40在接收到校正后的振幅分量|Xc(f)|之后,使得将通过按与上述实施例[1]相同的方式对校正后的帧信号Yc(t)执行逆正交变换(在步骤S12处)而获得的帧信号提供给帧合成部60(在步骤S13处)。
由此,可以与上述实施例[1]类似地获得校正后的帧信号Yc(t),并且可以获得其中对校正后的帧信号Yc(t)进行了合成或相加的输出信号Out(t)。
III.应用示例:图9到12以及13A到13D
以下,参照图9到12以及13A到13D对本发明的应用示例[1]到[4]进行描述。需要指出的是,尽管将以下应用示例中的各设备配置成包括上述实施例[1]的信号处理设备1(或者设备1的一部分),但是也可以将该设备替换为上述实施例[2]的信号处理设备1。
III.1应用示例[1](噪声抑制设各):图9
图9所示的噪声抑制设备2在乘法器30处执行噪声抑制作为处理示例。噪声抑制设备2被配置成除了包括上述实施例[1]的配置以外,还包括:噪声估计部70,其根据从信号处理设备1中的频谱转换器20输出的振幅分量|X(f)|估计噪声谱|N(f)|;和抑制系数计算器80,其基于噪声谱|N(f)|和待提供给乘法器30的振幅分量|X(f)|来计算抑制系数G(f)。
在操作中,首先,噪声估计部70每当接收到振幅分量|X(f)|时,就根据振幅分量|X(f)|估计出噪声谱|N(f)|,然后确定在振幅分量|X(f)|中是否包括话音。
结果,当确定在振幅分量|X(f)|中不包括话音时,噪声估计部70更新根据下式(13)估计的噪声谱|N(f)|,以将其提供给抑制系数计算器80。
|N(f)|=A*|N(f)|+(1-A)*|X(f)| (“A”是预定常数)           公式(13)
另一方面,当确定在振幅分量|X(f)|中包括话音时,噪声估计部70不对噪声谱|N(f)|进行更新。
抑制系数计算器80在接收到噪声谱|N(f)|之后,按照下式(14)根据噪声谱|N(f)|和振幅分量|X(f)|来计算SN比(SNR(f))。
SNR(f)=|X(f)|/|N(f)|                       公式(14)
抑制系数计算器80还根据该SNR(f)对待提供给乘法器30的抑制系数G(f)进行计算。
乘法器30通过将频谱X(f)的振幅分量|X(f)|乘以抑制系数G(f)来执行噪声抑制。对于由时域转换器40转换到时域中的时域帧信号Y(t),如上所述,两个帧端部的振幅在某些情况下有偏差。然而,由上述实施例[1]所示的失真去除部50来执行帧信号校正,从而使得可以对该偏差进行校正。作为另一种选择,在上述实施例[2]中,由振幅分量调节器120对频谱的振幅分量进行校正,从而使得可以对该偏差进行校正。
III.2应用示例[2](回波抑制设备):图10
图10所示的回波抑制设备3在乘法器30处执行回波抑制作为处理示例。回波抑制设备3被配置成除了包括上述实施例[1]的配置以外,还包括:分帧/加窗部10r,其将针对输入信号In(t)的基准信号Ref(f)划分成预定长度的单元并对其执行预定窗口函数;频谱转换器20r,其将从分帧/加窗部10r输出的加窗帧信号Wr(t)转换成由振幅分量|Xr(f)|和相位分量argXr(f)组成的频谱Xr(f);以及抑制系数计算器80,其输入从频谱转换器20r输出的振幅分量|Xr(f)|和从信号处理设备1的频谱转换器20输出的振幅分量|X(f)|,并对要提供给乘法器30的用于抑制回波的抑制系数G(f)进行计算。
在操作中,分帧/加窗部10r按与信号处理设备1的分帧/加窗部10相同的方式对要提供给频谱转换器20r的加窗帧信号Wr(t)进行计算。频谱转换器20r在接收到信号Wr(t)之后,按与频谱转换器20相同的方式将该信号转换成频谱Xr(f)。
抑制系数计算器80在接收到频谱X(f)和Xr(f)的振幅分量|X(f)|和|Xr(f)|之后,分别对两个振幅分量进行比较,计算相似度(未示出),并根据该相似度来计算待提供给乘法器30的抑制系数G(f)。
乘法器30将振幅分量|X(f)|乘以抑制系数G(f)并执行回波抑制。时域转换器40将回波抑制后的振幅分量|Xs(f)|转换成时域帧信号Y(t)。
对于时域帧信号Y(t),与执行了噪声抑制的情况一样,两个帧端部的振幅在某些情况下有偏差。同样,在此情况下,由上述实施例[1]所示的失真去除部50来执行帧信号校正,从而使得可以对该偏差进行校正。作为另一种选择,在上述实施例[2]中,由振幅分量调节器120对频谱的振幅分量进行校正,从而使得可以对该偏差进行校正。
III.3应用示例[3](话音(或声音)解码设备):图11
图11所示的话音(或声音)解码设备4包括上述实施例[1]的信号处理设备1内的时域转换器40、失真去除部50以及帧合成部60。它与上述实施例[1]的不同之处在于:输入给时域转换器40的编码信号X(f)是由经受了预定编码的振幅分量|Xs(f)|和相位分量argX(f)组成的频谱。
编码信号X(f)是其中发送侧的编码设备(未示出)对话音信号或声音信号执行了窗口函数(即,对话音信号或声音信号执行了与信号处理设备1中的分帧/加窗部10、频谱转换器20以及乘法器30类似的处理)的帧信号的频谱X(f)的编码振幅分量|X(f)|。
话音(或声音)解码设备4的时域转换器40在接收到编码信号X(f)之后,将对其执行了编码的振幅分量|Xs(f)|转换并编码成时域帧信号Y(t)。由此,按与上述应用示例[1]和[2]相同的方式,时域帧信号Y(t)的帧的两个端部的振幅在某些情况下有偏差。而且,在此情况下,由上述实施例[1]所示的失真去除部50来执行帧信号校正,从而使得可以对该偏差进行校正。作为另一种选择,在上述实施例[2]中,由振幅分量调节器120对频谱的振幅分量进行校正,从而使得可以对该偏差进行校正。
III.4应用示例[4](话音合成器):图12和13A到13D
图12所示的话音合成器5在乘法器30处在频域中对音素片段执行处理,作为处理示例。话音合成器5被配置成除了包括上述实施例[1]的配置以外,还包括:语言处理器90,其对任意字符串CS进行分析以生成多个语音字符串PS;节律发生器100,其根据语音字符串PS生成长度PL和音调PP;话音词典DCT,其记录估计的所有语音字符串PS以及与其相对应的音素片段Ph(t);控制器110,其从话音词典DCT中提取与由语言处理器90生成的语音字符串PS相对应的音素片段Ph(t),将这些音素片段提供给信号处理设备1作为输入信号In(t),根据由节律发生器100生成的长度PL和音调PP来确定这些音素片段Ph(t)的连接次序,并生成表示该连接次序的连接次序信息INFO;以及振幅校正系数计算器150,其基于该连接次序信息INFO,来计算要提供给乘法器30的用于对从频谱转换器20输出的音素片段Ph(t)的频谱X(f)的振幅分量|X(f)|进行平滑连接的振幅校正系数H(f)。
在操作中,语言处理器90首先根据所输入的字符串CS生成待提供给控制器110的多个语音字符串PS。如图13A所示,例如,当字符串CS是“KONNICHIWA”时,如图13B所示,语言处理器90分别生成语音字符串PS1“KON”、PS2“NICHI”以及PS3“WA”。
节律发生器100根据语音字符串PS1到PS3生成待提供给控制器110的长度PL1到PL3和音调PP1到PP3(未示出)。
如图13C所示,控制器110在接收到语音字符串PS1到PS3之后,从话音词典DCT中提取分别与这些语音字符串PS1到PS3相对应的音素片段Ph1(t)到Ph3(t)。这些音素片段Ph1(t)到Ph3(t)是通过对音素片段的与记录在话音词典DCT中的“KONDO”、“31NICHI”以及“WANAGE”相对应的部分进行切取而获得的。
由于这些音素片段Ph1(t)到Ph3(t)是分别从不同的音素片段中获得的,因此它们的振幅分量在某些情况下会不同且不连续。因此,有必要执行处理,以使得这些音素片段Ph1(t)到Ph3(t)的振幅分量在它们的边界处变成连续的。
在本应用示例中,该处理由稍后要描述的振幅校正系数计算器150和已从振幅校正系数计算器150接收到振幅校正系数H(f)的乘法器30来执行。
此外,振幅校正系数计算器150在进行处理时,必须预先对音素片段Ph1(t)到Ph3(t)的连接次序进行识别。
因此,在进行处理之前,如图13D所示,控制器110根据长度PL1到PL3和音调PP1到PP3来确定音素片段Ph1(t)到Ph3(t)的连接次序(“KON”→“NICHI”→“WA”),并将表示该次序的连接次序信息INFO提供给振幅校正系数计算器150。
每当接收到与音素片段Ph1(t)到Ph3(t)相对应的频谱的振幅分量|X(f)|时,振幅校正系数计算器150就基于连接次序信息INFO,来计算要提供给乘法器30的用于对振幅分量|X(f)|进行相互平滑连接的振幅校正系数H(f)。
乘法器30将振幅分量|X(f)|乘以振幅校正系数H(f)以对其执行处理。时域转换器40将处理后的振幅分量|Xs(f)|转换成时域帧信号Y(t)。
通过在乘法器30处进行的处理将音素片段Ph1(t)到Ph3(t)一次平滑连接起来。然而,通过在时域转换器40处转换到时域中,按与上述应用示例[1]到[3]相同的方式,在某些情况下时域帧信号Y(t)的两个帧端部的振幅同样会有偏差。而且,在此情况下,可以通过在上述实施例[1](或实施例[2])所示的失真去除部50处的帧信号校正(或者由振幅分量调节器120对频谱的振幅分量进行校正),来执行校正。
需要指出的是,本发明并不受上述实施例限制,显然的是,本领域技术人员基于权利要求书的叙述,可以进行各种修改。

Claims (36)

1.一种信号处理方法,该信号处理方法包括以下步骤:
第一步骤,其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;和
第二步骤,其对具有与所述第二帧信号相同的帧长度的预定校正信号进行调节,使得所述校正信号的两端的振幅大致变成等于所述第二帧信号的全部两个或一个帧端部的振幅,并通过从所述第二帧信号减去调节后的校正信号来对所述第二帧信号进行校正。
2.根据权利要求1所述的信号处理方法,其中,所述校正信号的振幅分量只包括低频分量。
3.根据权利要求1所述的信号处理方法,其中,所述校正信号的振幅分量只包括直流分量。
4.一种信号处理方法,该信号处理方法包括以下步骤:
第一步骤,其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;
第二步骤,其输入被执行了所述预定处理的所述频谱和所述第二帧信号,并对被执行了所述预定处理的所述频谱的振幅分量进行校正,使得所述第二帧信号的全部两个或一个帧端部的振幅大致变成零;以及
第三步骤,其将校正后的频谱转换到时域中。
5.根据权利要求4所述的信号处理方法,其中,所述第二步骤包括对与被执行了所述预定处理的所述频谱的低频带宽相对应的振幅分量进行校正的步骤。
6.根据权利要求4所述的信号处理方法,其中,所述第二步骤包括只对与被执行了所述预定处理的所述频谱的直流分量相对应的振幅进行校正的步骤。
7.根据权利要求1所述的信号处理方法,其中,所述第一步骤包括以下步骤:
将所述第一帧信号转换到频域中以生成第一频谱;
生成其中对所述第一频谱执行了所述预定处理的第二频谱;以及
将所述第二频谱转换到时域中以生成所述第二帧信号。
8.根据权利要求1所述的信号处理方法,其中,所述第一步骤中的所述预定处理根据所述第一帧信号的频谱的振幅分量估计噪声频谱,并且基于所述噪声频谱对所述第一帧信号的频谱的振幅分量内的噪声进行抑制。
9.根据权利要求1所述的信号处理方法,其中,所述第一步骤中的所述预定处理包括以下步骤:通过将被执行了所述预定窗口函数的基准帧信号的频谱的振幅分量与所述第一帧信号的频谱的振幅分量进行比较,来计算用于抑制回波的抑制系数;和将所述第一帧信号的频谱的振幅分量乘以所述抑制系数。
10.根据权利要求1所述的信号处理方法,其中,所述第一帧信号包括被执行了所述预定窗口函数的话音信号或声音信号,所述预定处理包括对所述第一帧信号的频谱进行编码,并且所述第一步骤包括通过将编码后的频谱转换到时域中以生成所述第二帧信号而进行解码的步骤。
11.根据权利要求1所述的信号处理方法,其中,所述第一帧信号包括与通过对任意字符串进行分析而生成的多个语音字符串中的一个语音字符串相对应的音素片段,该音素片段是从其中记录有所有估计的语音字符串和与其相对应的音素片段的话音词典中提取出来的,并被执行了所述预定窗口函数,
与所述第一帧信号相邻且与其存在部分交叠的帧信号包括与所述多个语音字符串中的另一个语音字符串相对应的音素片段,该音素片段是从所述话音词典中提取出来的,并被执行了所述预定窗口函数,并且
所述预定处理包括以下处理:按照根据所述多个语音字符串生成的长度和音调来确定所述多个音素片段的连接次序;基于所述连接次序计算用于将所述多个音素片段的频谱相互平滑连接的振幅校正系数;以及将各音素片段的频谱的振幅分量乘以各振幅校正系数。
12.根据权利要求1所述的信号处理方法,该信号处理方法还包括以下步骤:将通过对当前帧信号进行校正而获得的帧信号与通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号二者的交叠部分相加,其中所述通过对当前帧信号进行校正而获得的帧信号与所述通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号彼此部分交叠。
13.一种信号处理设备,该信号处理设备包括:
第一装置,其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;和
第二装置,其对具有与所述第二帧信号相同的帧长度的预定校正信号进行调节,使得所述校正信号的两端的振幅大致变成等于所述第二帧信号的全部两个或一个帧端部的振幅,并通过从所述第二帧信号减去调节后的校正信号来对所述第二帧信号进行校正。
14.根据权利要求13所述的信号处理设备,其中,所述校正信号的振幅分量只包括低频分量。
15.根据权利要求13所述的信号处理设备,其中,所述校正信号的振幅分量只包括直流分量。
16.一种信号处理设备,该信号处理设备包括:
第一装置,其对预定长度的被执行了预定窗口函数的第一帧信号的频谱执行预定处理,以将所述频谱转换到时域中以生成第二帧信号;
第二装置,其输入被执行了所述预定处理的所述频谱和所述第二帧信号,并对被执行了所述预定处理的所述频谱的振幅分量进行校正,使得所述第二帧信号的全部两个或一个帧端部的振幅大致变成零;以及
第三装置,其将校正后的频谱转换到时域中。
17.根据权利要求16所述的信号处理设备,其中,所述第二装置包括对与被执行了所述预定处理的所述频谱的低频带宽相对应的振幅分量进行校正。
18.根据权利要求16所述的信号处理设备,其中,所述第二装置包括只对与被执行了所述预定处理的所述频谱的直流分量相对应的振幅进行校正。
19.根据权利要求13所述的信号处理设备,其中,所述第一装置包括:
将所述第一帧信号转换到频域中以生成第一频谱的装置;
生成其中对所述第一频谱执行了所述预定处理的第二频谱的装置;以及
将所述第二频谱转换到时域中以生成所述第二帧信号的装置。
20.根据权利要求13所述的信号处理设备,其中,所述第一装置的所述预定处理根据所述第一帧信号的频谱的振幅分量估计噪声频谱,并且基于所述噪声频谱对所述第一帧信号的频谱的振幅分量内的噪声进行抑制。
21.根据权利要求13所述的信号处理设备,其中,所述第一装置的所述预定处理包括以下步骤:通过将被执行了所述预定窗口函数的基准帧信号的频谱的振幅分量与所述第一帧信号的频谱的振幅分量进行比较,来计算用于抑制回波的抑制系数;和将所述第一帧信号的频谱的振幅分量乘以所述抑制系数。
22.根据权利要求13所述的信号处理设备,其中,所述第一帧信号包括被执行了所述预定窗口函数的话音信号或声音信号,所述预定处理包括对所述第一帧信号的频谱进行编码,并且所述第一装置包括通过将编码后的频谱转换到时域中以生成所述第二帧信号而进行解码的装置。
23.根据权利要求13所述的信号处理设备,其中,所述第一帧信号包括与通过对任意字符串进行分析而生成的多个语音字符串中的一个语音字符串相对应的音素片段,该音素片段是从其中记录有所有估计的语音字符串和与其相对应的音素片段的话音词典中提取出来的,并被执行了所述预定窗口函数,
与所述第一帧信号相邻且与其部分交叠的帧信号包括与所述多个语音字符串中的另一个语音字符串相对应的音素片段,该音素片段是从所述话音词典中提取出来的,并被执行了所述预定窗口函数,并且
所述预定处理包括以下处理:按照根据所述多个语音字符串生成的长度和音调来确定所述多个音素片段的连接次序;基于所述连接次序计算用于将所述多个音素片段的频谱相互平滑连接的振幅校正系数;以及将各音素片段的频谱的振幅分量乘以各振幅校正系数。
24.根据权利要求13所述的信号处理设备,该信号处理设备还包括将通过对当前帧信号进行校正而获得的帧信号与通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号二者的交叠部分相加的装置,其中所述通过对当前帧信号进行校正而获得的帧信号与所述通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号彼此部分交叠。
25.根据权利要求4所述的信号处理方法,其中,所述第一步骤包括以下步骤:
将所述第一帧信号转换到频域中以生成第一频谱;
生成其中对所述第一频谱执行了所述预定处理的第二频谱;以及
将所述第二频谱转换到时域中以生成所述第二帧信号。
26.根据权利要求4所述的信号处理方法,其中,所述第一步骤中的所述预定处理根据所述第一帧信号的频谱的振幅分量估计噪声频谱,并且基于所述噪声频谱对所述第一帧信号的频谱的振幅分量内的噪声进行抑制。
27.根据权利要求4所述的信号处理方法,其中,所述第一步骤中的所述预定处理包括以下步骤:通过将被执行了所述预定窗口函数的基准帧信号的频谱的振幅分量与所述第一帧信号的频谱的振幅分量进行比较,来计算用于抑制回波的抑制系数;和将所述第一帧信号的频谱的振幅分量乘以所述抑制系数。
28.根据权利要求4所述的信号处理方法,其中,所述第一帧信号包括被执行了所述预定窗口函数的话音信号或声音信号,所述预定处理包括对所述第一帧信号的频谱进行编码,并且所述第一步骤包括通过将编码后的频谱转换到时域中以生成所述第二帧信号而进行解码的步骤。
29.根据权利要求4所述的信号处理方法,其中,所述第一帧信号包括与通过对任意字符串进行分析而生成的多个语音字符串中的一个语音字符串相对应的音素片段,该音素片段是从其中记录有所有估计的语音字符串和与其相对应的音素片段的话音词典中提取出来的,并被执行了所述预定窗口函数,
与所述第一帧信号相邻且与其部分交叠的帧信号包括与所述多个语音字符串中的另一个语音字符串相对应的音素片段,该音素片段是从所述话音词典中提取出来的,并被执行了所述预定窗口函数,并且
所述预定处理包括以下处理:按照根据所述多个语音字符串生成的长度和音调来确定所述多个音素片段的连接次序;基于所述连接次序计算用于将所述多个音素片段的频谱相互平滑连接的振幅校正系数;以及将各音素片段的频谱的振幅分量乘以各振幅校正系数。
30.根据权利要求4所述的信号处理方法,该信号处理方法还包括以下步骤:将通过对当前帧信号进行校正而获得的帧信号与通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号二者的交叠部分相加,其中所述通过对当前帧信号进行校正而获得的帧信号与所述通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号彼此部分交叠。
31.根据权利要求16所述的信号处理设备,其中,所述第一装置包括:
将所述第一帧信号转换到频域中以生成第一频谱的装置;
生成其中对所述第一频谱执行了所述预定处理的第二频谱的装置;以及
将所述第二频谱转换到时域中以生成所述第二帧信号的装置。
32.根据权利要求16所述的信号处理设备,其中,所述第一装置的所述预定处理根据所述第一帧信号的频谱的振幅分量估计噪声频谱,并且基于所述噪声频谱对所述第一帧信号的频谱的振幅分量内的噪声进行抑制。
33.根据权利要求16所述的信号处理设备,其中,所述第一装置的所述预定处理包括以下步骤:通过将被执行了所述预定窗口函数的基准帧信号的频谱的振幅分量与所述第一帧信号的频谱的振幅分量进行比较,来计算用于抑制回波的抑制系数;和将所述第一帧信号的频谱的振幅分量乘以所述抑制系数。
34.根据权利要求16所述的信号处理设备,其中,所述第一帧信号包括被执行了所述预定窗口函数的话音信号或声音信号,所述预定处理包括对所述第一帧信号的频谱进行编码,并且所述第一装置包括通过将编码后的频谱转换到时域中以生成所述第二帧信号而进行解码的装置。
35.根据权利要求16所述的信号处理设备,其中,所述第一帧信号包括与通过对任意字符串进行分析而生成的多个语音字符串中的一个语音字符串相对应的音素片段,该音素片段是从其中记录有所有估计的语音字符串和与其相对应的音素片段的话音词典中提取出来的,并被执行了所述预定窗口函数,
与所述第一帧信号相邻且与其部分交叠的帧信号包括与所述多个语音字符串中的另一个语音字符串相对应的音素片段,该音素片段是从所述话音词典中提取出来的,并被执行了所述预定窗口函数,并且
所述预定处理包括以下处理:按照根据所述多个语音字符串生成的长度和音调来确定所述多个音素片段的连接次序;基于所述连接次序计算用于将所述多个音素片段的频谱相互平滑连接的振幅校正系数;以及将各音素片段的频谱的振幅分量乘以各振幅校正系数。
36.根据权利要求16所述的信号处理设备,该信号处理设备还包括将通过对当前帧信号进行校正而获得的帧信号与通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号二者的交叠部分相加的装置,其中所述通过对当前帧信号进行校正而获得的帧信号与所述通过对紧接在所述当前帧信号之前的帧信号进行校正而获得的帧信号彼此部分交叠。
CN2007100015488A 2006-08-30 2007-01-05 信号处理方法和设备 Expired - Fee Related CN101136204B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006-233763 2006-08-30
JP2006233763 2006-08-30
JP2006233763A JP4827661B2 (ja) 2006-08-30 2006-08-30 信号処理方法及び装置

Publications (2)

Publication Number Publication Date
CN101136204A true CN101136204A (zh) 2008-03-05
CN101136204B CN101136204B (zh) 2010-05-19

Family

ID=38691798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100015488A Expired - Fee Related CN101136204B (zh) 2006-08-30 2007-01-05 信号处理方法和设备

Country Status (5)

Country Link
US (1) US8738373B2 (zh)
EP (1) EP1895514B1 (zh)
JP (1) JP4827661B2 (zh)
CN (1) CN101136204B (zh)
DE (1) DE602006012831D1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316652A (zh) * 2017-06-30 2017-11-03 北京睿语信息技术有限公司 侧音消除方法及装置
CN109817196A (zh) * 2019-01-11 2019-05-28 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN110349594A (zh) * 2019-07-18 2019-10-18 Oppo广东移动通信有限公司 音频处理方法、装置、移动终端及计算机可读存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
JP2015206874A (ja) 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
CN105791530B (zh) * 2014-12-26 2019-04-16 联芯科技有限公司 输出音量调节方法和装置
US10070342B2 (en) * 2015-06-19 2018-09-04 Apple Inc. Measurement denoising
JP6445417B2 (ja) * 2015-10-30 2018-12-26 日本電信電話株式会社 信号波形推定装置、信号波形推定方法、プログラム

Family Cites Families (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5179626A (en) * 1988-04-08 1993-01-12 At&T Bell Laboratories Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis
JPH02288520A (ja) * 1989-04-28 1990-11-28 Hitachi Ltd 背景音再生機能付き音声符号復号方式
JP2940005B2 (ja) * 1989-07-20 1999-08-25 日本電気株式会社 音声符号化装置
JPH04259962A (ja) * 1991-02-14 1992-09-16 Hitachi Ltd オーディオデータ出力回路
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
US5583961A (en) * 1993-03-25 1996-12-10 British Telecommunications Public Limited Company Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands
IT1270438B (it) * 1993-06-10 1997-05-05 Sip Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
JPH07193548A (ja) * 1993-12-25 1995-07-28 Sony Corp 雑音低減処理方法
US5506910A (en) * 1994-01-13 1996-04-09 Sabine Musical Manufacturing Company, Inc. Automatic equalizer
FR2726392B1 (fr) * 1994-10-28 1997-01-10 Alcatel Mobile Comm France Procede et dispositif de suppression de bruit dans un signal de parole, et systeme avec annulation d'echo correspondant
US5774846A (en) * 1994-12-19 1998-06-30 Matsushita Electric Industrial Co., Ltd. Speech coding apparatus, linear prediction coefficient analyzing apparatus and noise reducing apparatus
JPH08254993A (ja) * 1995-03-16 1996-10-01 Toshiba Corp 音声合成装置
US5668925A (en) * 1995-06-01 1997-09-16 Martin Marietta Corporation Low data rate speech encoder with mixed excitation
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
TW321810B (zh) * 1995-10-26 1997-12-01 Sony Co Ltd
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JP3707154B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 音声符号化方法及び装置
US6011846A (en) * 1996-12-19 2000-01-04 Nortel Networks Corporation Methods and apparatus for echo suppression
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
JP4249821B2 (ja) * 1998-08-31 2009-04-08 富士通株式会社 ディジタルオーディオ再生装置
KR100341197B1 (ko) * 1998-09-29 2002-06-20 포만 제프리 엘 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템
JP2000252891A (ja) * 1999-02-26 2000-09-14 Toshiba Corp 信号処理装置
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
KR100304666B1 (ko) * 1999-08-28 2001-11-01 윤종용 음성 향상 방법
US6405163B1 (en) * 1999-09-27 2002-06-11 Creative Technology Ltd. Process for removing voice from stereo recordings
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6931292B1 (en) * 2000-06-19 2005-08-16 Jabra Corporation Noise reduction method and apparatus
JP3566197B2 (ja) 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
JP4067762B2 (ja) * 2000-12-28 2008-03-26 ヤマハ株式会社 歌唱合成装置
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
JP3574123B2 (ja) * 2001-03-28 2004-10-06 三菱電機株式会社 雑音抑圧装置
JP4127792B2 (ja) * 2001-04-09 2008-07-30 エヌエックスピー ビー ヴィ 音声強化デバイス
AU2002314933A1 (en) * 2001-05-30 2002-12-09 Cameronsound, Inc. Language independent and voice operated information management system
JP3457293B2 (ja) * 2001-06-06 2003-10-14 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
EP1292036B1 (en) * 2001-08-23 2012-08-01 Nippon Telegraph And Telephone Corporation Digital signal decoding methods and apparatuses
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US7386217B2 (en) * 2001-12-14 2008-06-10 Hewlett-Packard Development Company, L.P. Indexing video by detecting speech and music in audio
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
CN100369111C (zh) * 2002-10-31 2008-02-13 富士通株式会社 话音增强装置
AU2003283892A1 (en) * 2002-11-27 2004-06-18 Visual Pronunciation Software Limited A method, system and software for teaching pronunciation
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
KR20050122240A (ko) * 2003-04-08 2005-12-28 닛본 덴끼 가부시끼가이샤 부호 변환 방법 및 장치
US7567900B2 (en) * 2003-06-11 2009-07-28 Panasonic Corporation Harmonic structure based acoustic speech interval detection method and device
JP4259962B2 (ja) 2003-09-03 2009-04-30 花王株式会社 ガセット袋
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
JP4520732B2 (ja) * 2003-12-03 2010-08-11 富士通株式会社 雑音低減装置、および低減方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
EP1585112A1 (en) * 2004-03-30 2005-10-12 Dialog Semiconductor GmbH Delay free noise suppression
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
WO2006070768A1 (ja) * 2004-12-27 2006-07-06 P Softhouse Co., Ltd. オーディオ波形処理装置、方式およびプログラム
DK1875463T3 (en) * 2005-04-22 2019-01-28 Qualcomm Inc SYSTEMS, PROCEDURES AND APPARATUS FOR AMPLIFIER FACTOR GLOSSARY
JP4359312B2 (ja) * 2005-07-07 2009-11-04 日本電信電話株式会社 信号の符号化装置、復号化装置、方法、プログラム、記録媒体、及び信号のコーデック方法
JP2007034184A (ja) * 2005-07-29 2007-02-08 Kobe Steel Ltd 音源分離装置,音源分離プログラム及び音源分離方法
KR101052445B1 (ko) * 2005-09-02 2011-07-28 닛본 덴끼 가부시끼가이샤 잡음 억압을 위한 방법과 장치, 및 컴퓨터 프로그램
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
JP4836720B2 (ja) * 2006-09-07 2011-12-14 株式会社東芝 ノイズサプレス装置
JP5788873B2 (ja) * 2010-05-25 2015-10-07 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316652A (zh) * 2017-06-30 2017-11-03 北京睿语信息技术有限公司 侧音消除方法及装置
CN107316652B (zh) * 2017-06-30 2020-06-09 北京睿语信息技术有限公司 侧音消除方法及装置
CN109817196A (zh) * 2019-01-11 2019-05-28 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN109817196B (zh) * 2019-01-11 2021-06-08 安克创新科技股份有限公司 一种噪音消除方法、装置、系统、设备及存储介质
CN110349594A (zh) * 2019-07-18 2019-10-18 Oppo广东移动通信有限公司 音频处理方法、装置、移动终端及计算机可读存储介质

Also Published As

Publication number Publication date
EP1895514A2 (en) 2008-03-05
DE602006012831D1 (de) 2010-04-22
EP1895514B1 (en) 2010-03-10
US20080059162A1 (en) 2008-03-06
US8738373B2 (en) 2014-05-27
JP2008058480A (ja) 2008-03-13
CN101136204B (zh) 2010-05-19
EP1895514A3 (en) 2008-09-10
JP4827661B2 (ja) 2011-11-30

Similar Documents

Publication Publication Date Title
CN101136204B (zh) 信号处理方法和设备
US5655057A (en) Speech recognition apparatus
US10811026B2 (en) Noise suppression method, device, and program
US9047874B2 (en) Noise suppression method, device, and program
CN100559472C (zh) 语音信号分离设备和方法
JP4886715B2 (ja) 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体
US7957964B2 (en) Apparatus and methods for noise suppression in sound signals
US20080056511A1 (en) Audio Signal Interpolation Method and Audio Signal Interpolation Apparatus
US7406303B2 (en) Multi-sensory speech enhancement using synthesized sensor signal
US9026435B2 (en) Method for estimating a fundamental frequency of a speech signal
JP5423684B2 (ja) 音声帯域拡張装置及び音声帯域拡張方法
US20090076813A1 (en) Method for speech recognition using uncertainty information for sub-bands in noise environment and apparatus thereof
US20130311189A1 (en) Voice processing apparatus
JP2008216721A (ja) 雑音抑圧の方法、装置、及びプログラム
CN108806721B (zh) 信号处理器
JPH08305396A (ja) 音声帯域拡大装置および音声帯域拡大方法
JP2002341889A (ja) 予測パラメータ分析装置および予測パラメータ分析方法
Magron et al. Phase recovery with Bregman divergences for audio source separation
KR100715013B1 (ko) 대역확장장치 및 방법
US7366661B2 (en) Information extracting device
US20070133819A1 (en) Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
Abdelaziz et al. General hybrid framework for uncertainty-decoding-based automatic speech recognition systems
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
WO2006097886A1 (en) Noise power estimation
JP2006262292A (ja) 符号化装置、復号装置、符号化方法及び復号方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

CF01 Termination of patent right due to non-payment of annual fee