CN102637436A - 声音信号处理装置、声音信号处理方法和程序 - Google Patents

声音信号处理装置、声音信号处理方法和程序 Download PDF

Info

Publication number
CN102637436A
CN102637436A CN2012100274430A CN201210027443A CN102637436A CN 102637436 A CN102637436 A CN 102637436A CN 2012100274430 A CN2012100274430 A CN 2012100274430A CN 201210027443 A CN201210027443 A CN 201210027443A CN 102637436 A CN102637436 A CN 102637436A
Authority
CN
China
Prior art keywords
frequency
information
envelope
signal
frequency envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100274430A
Other languages
English (en)
Inventor
光藤祐基
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN102637436A publication Critical patent/CN102637436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明涉及声音信号处理装置、声音信号处理方法和程序。该声音信号处理装置包括:频率分析单元,其实施输入声音信号的频率分析;低频包络计算单元,其基于该频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;高频包络信息估计单元,其施加基于学习用声音信号所提前生成的被学习信号,其中该学习用声音信号是用于从该低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与该输入声音信号相对应的该低频包络信息中生成与输入信号相对应的估计高频包络信息;以及频率合成单元,其对与由该高频包络信息估计单元生成的估计高频包络信息相对应的高频带信号和该输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。

Description

声音信号处理装置、声音信号处理方法和程序
技术领域
本发明涉及声音信号处理装置、声音信号处理方法及程序。更具体而言,本发明涉及其中对输入信号执行频带扩展处理的声音信号处理装置、声音信号处理方法及程序。
背景技术
在数据通信和数据记录处理过程中,为了减少数据量,在多数情况下执行压缩处理。但是,当声音信号被压缩并被传送或被记录时,包括在原始声音数据中的频带成分在某些情况下会丢失。
因此,当对被压缩的数据进行解压和再现时,在某些情况下会再现出与原始声音数据不同的声音数据。
已经提出了一些其中在上述压缩数据的解压过程中对在压缩过程中丢失的频率部分进行恢复和解压的构造。
例如,日本未审查专利公开号No.2007-17908公开了一种频带扩展处理,其中通过该频带扩展处理来对在压缩处理过程中丢失的高频信号执行生成处理。
但是,问题在于,很难利用简单的构造来执行高精度的扩展处理,然而为了实现高精度的扩展,需要增加处理负担、处理时间和装置成本,如在有关技术的带扩展处理过程中出现的问题。
发明内容
期望提供能够利用简单的构造来实现更高精度的频带扩展处理的声音信号处理装置、声音信号处理方法及程序。
根据本发明的第一实施例,提供了一种声音信号处理装置,该声音信号处理装置包括:频率分析单元,该频率分析单元实施输入声音信号的频率分析;低频包络计算单元,该低频包络计算单元基于该频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;高频包络信息估计单元,该高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中该学习用声音信号是用于从低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与该输入声音信号相对应的低频包络信息中生成与输入信号相对应的估计高频包络信息;以及频率合成单元,该频率合成单元对与由该高频包络信息估计单元生成的估计高频包络信息相对应的高频带信号和该输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
另外,该被学习数据包括:包络增益信息,其中利用该包络增益信息从低频包络增益信息中估计高频包络增益信息,以及包络形状信息,其中利用该包络形状信息从低频包络形状信息中估计高频包络形状信息,并且该高频包络信息估计单元包括:高频包络增益估计单元,该高频包络增益估计单元施加包含在该被学习数据中的包络增益信息,并且从与输入声音信号相对应的低频包络增益信息中估计与输入信号相对应的估计高频包络增益信息,以及高频包络形状估计单元,该高频包络形状估计单元施加包含在该被学习数据中的包络形状信息,并且从与输入声音信号相对应的低频包络形状信息中估计与输入信号相对应的估计高频包络形状信息。
此外,该高频包络形状估计单元可以输入通过对由该低频包络计算生成的、输入声音信号的低频包络信息执行过滤处理所生成的成形低频包络信息,并且估计与该输入信号相对应的估计高频包络形状信息。
此外,该频率分析单元可以对该输入声音信号执行时间频率分析并且生成时间频谱。
另外,该低频包络计算单元可以输入由该频率分析单元所生成的输入声音信号的时间频谱,并且生成低频倒谱。
此外,该高频包络信息估计单元可以包括:高频包络增益估计单元,该高频包络增益估计单元施加包含在该被学习数据中的包络增益信息,并且从与该输入声音信号相对应的低频包络增益信息中估计与该输入信号相对应的估计高频包络增益信息,并且该高频包络增益估计单元将包含在该被学习数据中的包络增益信息施加到基于该输入声音信号所生成的低频倒谱信息中,并且从与该输入声音信号相对应的低频包络增益信息中估计与该输入信号相对应的估计高频包络增益信息。
此外,该高频包络信息估计单元可以包括高频包络形状估计单元,该高频包络形状估计单元施加包含在该被学习数据中的包络形状信息,并且从与该输入声音信号相对应的低频包络形状信息中估计与该输入信号相对应的估计高频包络形状信息,并且该高频包络形状估计单元基于根据该输入声音信号所生成的成形低频倒谱信息,通过利用包含在该被学习数据中的包络形状信息执行处理来估计与该输入声音信号相对应的高频包络形状信息。
另外,该高频包络形状估计单元通过利用GMM(高斯混合模型)执行估计处理来估计与该输入声音信号相对应的高频包络形状信息。
此外,该声音信号处理装置还可以包括:学习处理单元,该学习处理单元基于该学习用声音信号生成该被学习数据,其中该学习用声音信号包括高频带中的频率,其中该高频带并不包含在该输入声音信号中,并且该高频包络信息估计单元施加由该学习单元所生成的该被学习数据,并且从与该输入声音信号相对应的低频包络形状信息中生成与该输入信号相对应的估计高频包络信息。
根据本发明的第二实施例,提供了一种声音信号处理装置,该声音信号处理装置包括:从第一信号中计算第一包络信息的功能;通过过滤处理去除第一包络信息在时间方向上的DC成分,以去除环境因素的功能,其中该环境因素包括收集声音的功能和传送功能的至少一者;以及将通过在过滤后对第一包络信息进行线性转换所获得的第二包络信息视作第二信号的包络信息,并且对第二信号和第一信号进行合成的功能。
根据本发明的第三实施例,提供了一种声音信号处理装置,该声音信号处理装置包括:从低频信号中计算第一包络信息的功能;计算比率的功能,其中在该比率处,该低频包络信息属于通过学习大量数据而提前被分类的多个组;基于被分别分配给该多个组的线性转换等式对该低频包络信息执行线性转换并且生成多个高频包络信息项的功能;以及为了在时间轴上生成光滑的高频包络信息,将在该高频包络信息项属于多个组的比率处通过混合该多个高频包络信息项所得到的高频包络信息视作高频信号的包络信息,并且对该高频信号和该低频信号进行合成的功能。
根据本发明的第四实施例,提供了一种声音信号处理方法,其中根据该声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,该方法包括:由频率分析单元实施输入声音信号的频率分析;由低频包络计算单元基于该频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;由高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中该学习用声音信号是用于从该低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与该输入声音信号相对应的低频包络信息中生成与输入信号相对应的估计高频包络信息;以及由频率合成单元对与由所述高频包络信息估计单元生成的所述估计高频包络信息相对应的高频带信号和该输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
根据本发明的第五实施例,提供了一种声音信号处理方法,其中根据该声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,该方法包括:从第一信号中计算第一包络信息;通过过滤处理去除所述第一包络信息在时间方向上的DC成分,以去除环境因素,其中该环境因素包括收集声音的功能和传送功能的至少一者;以及将通过在过滤后对第一包络信息进行线性转换所获得的第二包络信息视作第二信号的包络信息,并且对第二信号和第一信号进行合成。
根据本发明的第六实施例,提供了一种声音信号处理方法,其中根据该声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,该方法包括:从低频信号中计算第一包络信息;计算比率,其中在该比率处,该低频包络信息属于通过学习大量数据而提前被分类的多个组;基于被分别分配给该多个组的线性转换等式对该低频包络信息执行线性转换并且生成多个高频包络信息项;以及为了在时间轴上生成光滑的高频包络信息,将在该高频包络信息项属于多个组的比率处通过混合该多个高频包络信息项所得到的高频包络信息视作高频信号的包络信息,并且对该高频信号和该低频信号进行合成。
根据本发明的第七实施例,提供了一种使声音信号处理装置对输入声音信号执行频带扩展处理的程序,该程序包括:使频率分析单元实施输入声音信号的频率分析;使低频包络计算单元基于该频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;使高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中该学习用声音信号是用于从该低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与该输入声音信号相对应的低频包络信息中生成与输入信号相对应的估计高频包络信息;以及使频率合成单元对与由该高频包络信息估计单元生成的估计高频包络信息相对应的高频带信号和该输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
另外,根据本发明的程序是能够被设置到图像处理装置或计算机系统的程序,其中该计算机系统例如能够通过记录计算机可读形式的介质或通信介质来实施各种程序编码。通过设置上述计算机可读形式的程序,可以根据信息处理装置或计算机系统上的程序来实施处理。
将通过下述的本发明实施例和基于附图的更具体描述对本发明的其它目的、特征和优点进行分类。另外,本说明书中的系统是多个装置的逻辑复合构造,并没有将其限制为其中将各个构造安装在同一壳体中的构造。
根据本发明实施例的构造,实现了其中对声音信号高度精确地执行频带扩展的装置和方法。
根据本发明实施例的构造,基于输入声音信号的频率分析结果计算了作为低频带的包络信息的低频包络信息。此外,通过施加基于学习用声音信号的被学习信号,从与输入声音信号相对应的低频包络信息中估计并生成了与输入信号相对应的高频包络信息,例如,其中通过被学习信号从低频包络信息中计算出了作为高频带的包络信息的高频包络信息。此外,对在估计处理过程中所生成的、与对应于输入信号的高频包络信息相对应的高频带信号和输入信号进行合成,以产生其中频带被扩展的输出声音信号。通过利用被学习数据来估计高频带的包络增益和包络形状,实现了高度精确的频带扩展。
附图说明
图1是解释声音信号处理装置的构造示例的视图;
图2是解释频率分析处理和包络信息计算处理的视图;
图3A与图3B是示出其中包络形状随时间的变化(更精确而言,各个程度的倒谱)因声源而不同的状态视图;
图4A与图4B是示出当声音信号的包络形状内包括DC成分和当其中不包括DC成分的包络形状随时间变化的视图;
图5是示出包络形状中的DC成分的时间序列数据的视图;
图6A与图6B是示出包络形状DC的频域的状态视图;
图7A至图7D是解释参考基于Kmeans和GMM的建模数据通过包络形状学习单元对包络形状进行估计处理的视图;
图8A与图8B是解释参考基于Kmeans和GMM的建模数据通过高频包络形状学习单元对高频包络形状信息进行估计处理的视图;以及
图9A与图9B是解释在使用(a)Kmeans和(b)GMM的任一者的情况下,在超出簇边界的同时,当映射源发生变化时映射数据如何变化的视图。
具体实施方式
下面,将参考附图具体描述根据本发明的声音信号处理装置、声音信号处理方法和程序。将按照以下次序进行描述。
1.关于根据本发明的声音信号处理装置的整体构造
2.关于信号处理装置中的各个构件的处理
2.1关于频率分析单元
2.2关于低频包络计算单元
2.3关于高频包络计算单元
2.4关于包络信息成形单元
2.5关于包络增益学习单元和包络形状学习单元
2.6关于高频包络形状估计单元
2.7关于高频包络增益估计单元
2.8关于中频包络校正单元
2.9关于高频包络校正单元
2.10关于频率合成单元
[1.关于根据本发明的声音信号处理装置的整体构造]
首先,将参考图1对根据本发明实施例的信号处理装置的整体构造进行描述。
图1是示出根据本发明实施例的声音信号处理装置100的示例视图。图1所示的声音信号处理装置100包括处于上一阶段的学习处理单元110和处于下一阶段的分析处理单元120。
使被输入到分析处理单元120的输入声音信号81经受频带扩展处理,并且将其作为输出声音信号82输出。在由分析处理单元120实施的频带扩展处理过程中,学习处理单元110使用了基于声音信号51的数据以便进行学习。
学习处理单元110输入学习用声音信号51,对该学习用声音信号51进行分析,并且生成经学习的数据,如频率包络等等。分析处理单元120使用学习处理单元110所生成的学习结果,以对输入声音信号81执行频带扩展处理。
如图1所示,学习处理单元110包括频率分析单元111、低频包络计算单元112、高频包络计算单元113、包络信息成形单元114、包络增益学习单元115和包络形状学习单元116。
另外,分析处理单元120包括频率分析单元121、低频包络计算单元122、包络信息成形单元123、高频包络增益估计单元124、高频包络形状估计单元125、中频包络校正单元126、高频包络校正单元127和频率合成单元128。
由图1所示的学习处理单元110作为学习目标输入的学习用声音信号51的采样频率(fs2)与分析处理单元120的输出信号,即频带扩展处理后的输出声音信号82的采样频率(fs2)相同。
这两个信号的采样频率(fs2)的数值是分析处理单元120的输入信号,即作为频带扩展处理目标的输入声音信号81的采样频率(fs1)的数值的两倍。
另外,fs1和fs2分别表示采样频率,并且满足(fs2)=2×(fs1)的对应关系。
也就是说,由分析处理单元120输入的输入声音信号81的采样频率(fs1)是其中频带被压缩的信号,并且分析处理单元120实施该输入信号频带的扩展处理,并且生成并输出采样频率(fs2)为双倍的输出声音信号82。
在带扩展处理过程中,分析处理单元120从学习处理单元110得到了被学习过的数据,并且使用该被学习过的数据以高精度地实施频带扩展处理,其中该学习过的数据的采样频率(fs2)与输出声音信号82的采样频率(fs2)相同。
下面,将具体描述各个构件的处理。
[2.关于信号处理装置中各个构件的处理]
(2.1关于频率分析单元)
如图1所示,频率分析单元被设置在学习处理单元110和分析处理单元120的每一者中。
图1所示的学习处理单元110的频率分析单元111输入采样频率为(fs2)的学习用声音信号51,并且对该学习用声音信号51执行频率分析。
另外,分析处理单元120的频率分析单元121对作为频带扩展处理目标的输入声音信号81执行时间频率分析。
参考图2,将描述由频率分析单元111和频率分析单元121所实施的时间频率分析。
频率分析单元111和频率分析单元121对输入声音信号执行时间频率分析。
假设x表示经由麦克分等输入的输入信号。输入信号x如图2中的最上阶段中所示。横轴表示时间(或采样数目),而纵轴表示振幅。
相对于学习处理单元110的频率分析单元111的输入信号x是采样频率为(fs2)的学习用声音信号51。
另外,相对于分析处理单元120的频率分析单元121的输入信号x是采样频率为(fs1)的输入声音信号81,即频带扩展处理过程中的处理目标信号。
首先,频率分析单元111和频率分析单元121将帧从输入信号x分割成固定尺寸以得到输入帧信号x(n,l)。
这与图2的步骤S101中的处理相对应。
在图2所示的处理中,进行设定使得帧分割尺寸为N,各帧的偏移量(sf)为帧尺寸N的50%,并且各个帧相互重叠。
此外,输入帧信号x(n,l)乘以预定的窗口函数w得到了窗口函数适用信号wx(n,l)。例如,可适用通过计算Hanning窗口的平方根所得到的窗口函数。
窗口函数适用信号wx(n,l)用下列(等式1)来表示。
Figure BSA00000667878400092
在(等式1)中,各个符号使用如下:
x:输入信号;
n:时间指数,其中n=0、...、N-1、1=0、...、L-1(N为帧尺寸);
l:帧数目,其中l=0、...、L-1(L为帧的总数目);
w_ana:窗口函数;以及
wx:窗口函数适用信号。
尽管通过计算Hanning窗口的平方根所得到的窗口函数适用作上述示例中的窗口函数w_ana,但是另外也可适用诸如正弦函数之类的窗口函数。
帧尺寸N例如是与0.02秒相对应的采样数目(N=采样频率fs*0.02)。但是,也可适用其它尺寸,
尽管在图2的示例中进行了设定使得帧偏移量(sf)为帧尺寸(N)的50%,并且各个帧相互重叠,但是也可适用其它偏移量。
基于下列(等式2)对通过(等式1)所得到的窗口函数适用信号wx(n,l)执行时间频率分析,以得到时间频谱Xana(k,l)。
Figure BSA00000667878400101
wx ( n , l ) = wx ( n , l ) n = 0 , . . . , N - 1 0 n = N , . . . , M - 1 …(等式2)
在(等式2)中,各个符号使用如下:
wx:窗口函数适用信号;
j:纯虚数;
M:DFT(离散傅里叶变换)的点数;
k:频率指数;以及
Xana:时间频谱。
当相对于窗口函数适用信号wx(n,l)执行频率分析处理时,例如可适用基于DFT(离散傅里叶变换)的频率分析。另外,可以使用其它频率分析,如DCT(离散余弦变换)或MDCT(修正型离散余弦变换)等等。此外,如果必要的话,可以根据DFT(离散傅里叶变换)的点数来适当地执行补零。尽管DFT的点数M被设定为2的乘方(其大于等于N),但是也可适用其它点数。
(2.2关于低频包络计算单元)
低频包络计算单元以与频率分析单元相同的方式也被设置在图1所示的学习处理单元110和分析处理单元120的每一者中。
学习处理单元110的低频包络计算单元112在对与低频带(例如,小于fs1/2)的频率相对应的频谱执行处理的过程中计算低频包络信息,其中低频带是从作为频率分析单元111对采样频率为(fs2)的学习用声音信号51的分析结果而得到的时间频谱中选择的。
另一方面,分析处理单元120的低频包络计算单元122在对与低频带(例如,小于fs1/2)的频率相对应的频谱执行处理的过程中计算低频包络信息,其中低频带是从作为频率分析单元121对采样频率为(fs1)的输入声音信号81的分析结果而得到的时间频谱中选择的。
包括低频包络计算单元112和低频包络计算单元122的两个构件实施相同的处理,但其处理目标并不相同。也就是说,这两个构件在对与低频带(例如,小于fs1/2)的频率相对应的频谱执行处理的过程中计算低频包络信息,其中低频带是从作为频率分析单元的分析结果而得到的时间频谱中选择的。
下面,将描述该处理。
低频包络计算单元112和122从频率分析单元111和121所供给的、与大于等于0且小于fs1/2的频率相对应的时间频谱Xana(k,1)中移除该频谱的精细结构,并且计算包络信息。例如,基于下列(等式3)来计算与低频包络信息相对应的倒谱Clow
Figure BSA00000667878400111
…(等式3)
在(等式3)中,各个符号使用如下:
i:倒谱指数;以及
Clow:低频倒谱。
通过低频包络计算单元112和122的处理与图2所示的步骤S102和S103中的处理相对应。
图2所示的步骤S102是基于(等式3)来计算与各帧相对应的低频包络信息的处理。
步骤S103表示N行、L列矩阵中的各个元素,其中行表示频率(频率谱),并且列表示与基于(等式3)所计算的各帧相对应的低频包络信息有关的时间(帧)。
如(等式3)中所示,低频包络计算单元112和122计算LFCC(线性频率倒谱系数,简称为倒谱),并且使用低次项的系数获得低频包络信息。
通过低频包络计算单元112和122的低频包络信息的计算处理并不限于上述施加了LFCC(线性频率倒谱系数,简称为倒谱)的处理,例如,也可适用其中使用了其它倒谱,如LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)或PLPCC(感知线性预测倒谱系数)等或其它频率包络信息的其它构造。
处于图1上一阶段中的学习处理单元110的低频包络计算单元112向包络增益学习单元115和包络信息成形单元114提供基于(等式3)对学习用声音信号51进行计算所得到的低频倒谱Clow(i,l)。
另外,处于图1下一阶段中的分析处理单元120的低频包络计算单元122向高频包络增益估计单元124和包络信息成形单元123提供基于(等式3)对输入声音信号81进行计算所得到的低频倒谱Clow(i,l)。
(2.3关于高频包络计算单元)
下面,将给出高频包络计算单元所执行的处理。
高频包络计算单元被设置在图1所示的学习处理单元110中。
学习处理单元110的高频包络计算单元113在对与高频带(例如,大于等于fs1/2且小于fs2/2)的频率相对应的频谱执行处理的过程中计算高频包络信息,其中高频带是从作为频率分析单元111对采样频率为(fs2)的学习用声音信号51的分析结果而得到的时间频谱中选择的。
高频包络计算单元113从频率分析单元111所供给的、与大于等于fs1/2且小于fs2/2的频率相对应的时间频谱Xana(k,l)中移除该频谱的精细结构,并且计算包络信息。例如,基于下列(等式4)来计算与高频包络信息相对应的倒谱Chigh
Figure BSA00000667878400121
…(等式4)
在(等式4)中,各个符号使用如下:
i:倒谱指数;以及
Chigh:高频倒谱。
根据本实施例,通过计算LFCC(线性频率倒谱系数,简称为倒谱)并且仅通过使用上述低次项的系数来获得包络信息。但是,在由高频包络计算单元113所执行的高频包络信息的计算过程中,也可适用其中不仅使用了LFCC(线性频率倒谱系数,简称为倒谱),而且使用了其它倒谱,如LPCC(线性预测倒谱系数)、MFCC(梅尔频率倒谱系数)或PLPCC(感知线性预测倒谱系数)等或其它频率包络信息的其它构造。
处于图1上一阶段中的学习处理单元110的低频包络计算单元112向包络信息成形单元114、包络增益学习单元115和包络形状学习单元116提供基于(等式4)对学习用声音信号51进行计算所得到的高频倒谱Chigh(i,l)。
(2.4关于包络信息成形单元)
包络信息成形单元被设置在图1所示的学习处理单元110和分析处理单元120的每一者中。
学习处理单元110的包络信息成形单元114输入由低频包络计算单元112基于采样频率为(fs2)的学习用声音信号51所生成的低频包络信息,在过滤处理过程中对该包络信息实施成形处理,生成成形包络信息,并将该成形包络信息提供给包络形状学习单元116。
另一方面,分析处理单元120的包络信息成形单元123输入由低频包络计算单元122基于采样频率为(fs1)的输入声音信号81所生成的低频包络信息,在该包络信息致的过滤处理过程中对该包络信息实施成形处理,生成成形包络信息,并将该成形包络信息提供给高频包络形状估计单元125。
更具体而言,学习处理单元110的包络信息成形单元114输入由低频包络计算单元112基于采样频率为(fs2)的学习用声音信号51所生成的低频包络信息,即基于(等式3)所计算的低频倒谱Clow(i,l),在其中执行过滤处理以便保留预定次项高达R的包络信息Clow(i,l)并且去除其后的包络信息Clow(i,l)的过程中对该包络信息实施成形处理,生成成形包络信息C′low(i,l),并将该成形包络信息C′low(i,l)提供给包络形状学习单元116。
另一方面,分析处理单元120的包络信息成形单元123输入由低频包络计算单元122基于采样频率为(fs1)的输入声音信号81所生成的低频包络信息,即基于(等式3)所计算的低频倒谱Clow(i,l),在帧方向上为各个次项对包络信息Clow(i,l)执行过滤处理,来实施成形处理,其中去除调制频率处的DC成分和大于等于25Hz的高频成分,生成成形包络信息C′low(i,l),并将该成形包络信息C′low(i,l)提供给高频包络形状估计单元125。
图3A及图3b是示出其中包络形状的时间变化(更精确地,用于各次项的倒谱)因声源而产生异同的状态视图。
(a)非声音信号的包络形状的时间变化
(b)声音信号的包络形状的时间变化
图3A及图3B示出了来自上述两种不同声源的声音信号的包络形状的时间变化的示例。
纵轴表示振幅(频率),而横轴表示时间。
从(a)非声音信号的包络形状中的时间变化中可以看出,从低频到高频的均匀周期成分以随机的相位混合。
另一方面,从(b)声音信号的包络形状的时间变化中可以看出,声音的升降在包括预定频率(主要是小于等于25Hz)的同时发生规则的改变。
从上面的事实中可以确定,声音信号在小于25Hz的时间变化中相对占主导地位,而非声音信号则在声音信号和非声音信号发生混合情况下、在大于等于25Hz的时间变化中相对占主导地位。
因此,可以通过去除或减少大于等于25Hz的高频时间变化来估计抑制非声音信号的时间变化的效果和抑制并稳定帧之间的快速时间变化的效果。
图4A及图4B是示出当声音信号的包络形状中包括DC成分和当声音信号的包络形状中不包括DC成分的包络形状的时间变化的视图。
(c)不包括DC成分的声音信号的包络形状的时间变化
(d)包括DC成分的声音信号的包络形状的时间变化
图4A及图4B示出了这两种声音信号的包络形状的时间变化。
纵轴表示振幅(频率),而横轴表示时间。
当计算整个区间的平均值时,如(c)所示的、不包括DC成分的声音信号的包络形状的时间变化数据具有理论平均值0。
另一方面,当计算整个区间的平均值时,如(d)所示的、包括DC成分的声音信号的包络形状的时间变化数据具有等于该DC成分的理论平均值。
沿时间方向为每个倒谱次项所计算的DC成分彼此不同。
图5示出了包络形状序列DC成分的时间序列状态。第一次项至第R次项倒谱从最左部排至最靠近的部分,并且倒谱中的时间变化从最靠近的部分排至最右部。
从第一次项至第R次项的倒谱成分的每一者示出了时间变化,并且分别具有独特的DC成分。
当第一次项至第R次项的DC成分经受频率转换时,将其返回到功率谱轴,并且进行观测,可以得到随时间变化的频率包络形状。
图6A及图6B是示出包络形状DC成分的频率范围的状态视图。
图6A示出了在频率域内作为DC成分被观测的第一次项至第R次项的倒谱。
通过使在图6A所示的频率域内作为DC成分被观测的第一次项至第R次项的倒谱经受频率转换并且通过将该倒谱返回到功率谱域所得到的数据与图6B所示的数据相对应。
如图6B所示,观测到了静止的频率特征。
可以通过使第一次项至第R次项的倒谱经受频率转换并且通过将DC成分返回到功率谱轴,并且通过观测该DC成分,来得到静止的频率包络形状。
图6B所示的DC成分的频率特征是不依据时间变化的恒定频率包络,并且与收集声音时的麦克风的模拟特征或回声成分,或者许多情况下的编解码器前后的过滤特征相对应。
去除上述DC成分的优势在于减少乘法失真(麦克风特征,回声)。
鉴于上述事实,优选学习处理单元110的包络信息成形单元114和分析处理单元120的包络信息成形单元123基于可能发生在多声源声音时间包络中的时间变化,在包络信息成形处理过程中对过滤器通带执行处理。
例如,学习处理单元110的包络信息成形单元114和分析处理单元120的包络信息成形单元123基于下列(等式5)生成成形包络信息。
C ′ low ( i , l ) = Σ m = 0 M B - 1 b ( m ) * C low ( i , l - m ) + Σ m = 1 M A - 1 a ( m ) * C ′ low ( i , l - m ) …(等式5)
在(等式5)中,调制频率被设定为100Hz(=1/(0.02*0.5)),滤波传递函数的分子系数b(m)被设定为[0.25、0.25、-0.25、-0.25],其分母系数a(m)被设定为[1、-0.98],并且这些系数的总数被设定为MB=4,MA=2。
另外,可以根据调制频率来设定系数a(m)和b(m)。
学习处理单元110的包络信息成形单元114输入由低频包络计算单元112基于采样频率为(fs2)的学习用声音信号51所生成的低频包络信息,即基于(等式3)所计算的低频倒谱Clow(i,l),基于(等式5)生成用于包络信息Clow(i,l)的成形包络信息C′low(i,l),并将该成形包络信息C′low(i,l)提供给包络形状学习单元116。
另一方面,分析处理单元120的包络信息成形单元123输入由低频包络计算单元122基于采样频率为(fs1)的输入声音信号81所生成的低频包络信息,即基于(等式3)所计算的低频倒谱Clow(i,l),基于(等式5)生成成形包络信息,即用于包络信息Clow(i,l)的成形包络信息C′low(i,l),并将该信息提供给高频包络形状估计单元125。
(2.5关于包络增益学习单元和包络形状学习单元)
包络增益学习单元115和包络形状学习单元116被设置在图1所示的学习处理单元110中。
包络增益学习单元115和包络形状学习单元116基于根据学习用声音信号51所生成的下列包络信息:低频倒谱信息Clow(i,l)、高频倒谱信息Chigh(i,l)和成形倒谱信息C′low(i,l),学习用声音信号51中的低频包络信息与高频包络信息之间的关系。
具体而言,包络增益学习单元115计算[包络增益估计信息A],作为用于通过低频包络增益信息来估计高频包络增益信息的包络增益信息。
另外,包络形状学习单元116计算[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p],作为用于通过低频包络成形信息来估计高频包络成形信息的包络成形信息。
包络增益学习单元115和包络形状学习单元116单独估计包络增益和包络形状。
包络增益学习单元115在估计倒谱的第0次项成分的处理过程中实施包络增益。
包络形状学习单元116通过估计除第0次项成分以外的、较低成分的倒谱来实现增益形状。
具体而言,包络增益学习单元115通过例如回归表达式来对倒谱的第0次项成分执行估计处理,以计算包络增益。
另一方面,包络形状学习单元116通过GMM(高斯混合模型)估计除第0次项成分以外的、较低成分的倒谱来计算增益形状。
在由包络增益学习单元115所执行的包络增益估计处理过程中,低频倒谱信息Clow(i,l)的第0次项至第R次项成分及其均方值用作说明变量,高频倒谱信息的第0次项成分Chigh(0,l)用作被说明变量。通过线性耦合上述作为目标值的说明变量和被说明变量,得到了使估计值之间的平方和误差函数E(A)最小的线性耦合系数,作为[包络增益估计信息A]。平方和误差函数E(A)用下列(等式6)表示。
Figure BSA00000667878400171
Figure BSA00000667878400172
…(等式6)
在(等式6)中,例如,在将R设定为4的同时执行包括均方值的非线性回归。
另外,可以使用其它R值,或者可以使用其它回归方法,如神经网络或核回归等。
在由包络形状学习单元116执行的包络形状的估计过程中,例如,利用GMM(高斯混合模型)执行处理。
在由包络形状学习单元116执行的包络形状的估计过程中,例如,利用GMM(高斯混合模型)来估计除第0次项成分以外的、倒谱的低次项成分,以计算包络形状。具体而言,计算作为包络形状信息的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]。
作为一种在估计包络形状的处理过程中执行的、用于对除第0次项城的以外的倒谱的低次项执行估计处理的方法,可以适用Kmeans法(例如,其被经常用作在编解码器中进行矢量量化的方法),并且利用GMM(高斯混合模型)来执行处理。但是,与Kmeans相比,高斯混合模型是利用高自由度进行建模的方法。具体而言,例如,可以利用包络形状的群集法(矢量量化法)执行处理。此外,当减少所有簇中协方差的自由度以获得单位矩阵时,GMM理论上与Kmeans大致相同。
图7A至图9B是示出基于Kmeans和GMM进行建模的比较视图。
另外,在将多维特征空间简化成二维特征空间的同时,示出了图7A至图9B所示的模型。
图7A至图7D示出了下列建模数据示例:
(a)其中基于Kmeans(簇号:P=1)执行建模的示例
(b)其中基于Kmeans(簇号:P>1)执行建模的示例
(c)其中基于GMM(簇号:P=1)执行建模的示例
(d)其中基于GMM(簇号:P>1)执行建模的示例
图7A示出了其中基于Kmeans(簇号:P=1)执行建模的示例。
当具有包围附图中圆圈外侧的扭曲形状的图形示出了数据在空间中的分布时,如果基于Kmeans(簇号:P=1)执行建模,则执行超球体分布地建模,并且出现了许多未被充分表达的部分。在图7A至图7D中,灰色圆圈或椭圆为模拟空间,并且其他部分为未被模拟的空间。
如上所述,根据诸如Kmeans之类的超球体模型,在许多情况下并不利用单个簇来表示扭曲空间。因此,在许多情况(b)下,通常使用多个簇(簇号:P>1)来充满空间分布。
另一方面,由于在其中基于GMM(簇号:P=1)执行建模的示例(c)的情况下,可以因模型协方差的自由度而灵活地将超球体形状改变为超椭球体形状,所以与Kmeans情况下相比,其与数据分布相对应的体积更大。
由于即使在基于GMM(簇号:P>1)执行建模的示例中使用多个簇的情况下也可以独立地改变各个簇的尺寸、方向和形状,所以与分布相对应的体积较大。
从图7A至图7D中可以明了,当簇号同为1时,在其中基于GMM(簇号:P=1)执行建模的示例(c)中比在基于Kmeans(簇号:P=1)执行建模的示例(a)中更能精确地表达数据分布。
至于(b)与(c)之间的比较,这两者比(a)更能精确地表达分布,(b)中所需要的簇号较大,并且必须提供保持信息的存储器。另一方面,(c)中所示的GMM保持了各个簇的协方差信息,并且该信息决定该簇的尺寸、方向和形状。在根据除对角成分以外的所有成分均为0的情况对自由度进行限制的模型中,在簇号相同的条件下,必须提供比Kmeans中的存储器大两倍的存储器。这是因为对角协方差信息被保留在GMM中,而只有簇的均值信息被保留在Kmeans中。
但是,由于在实践中,GMM的表达能力非常高,并且,在Kmeans中用于对实施例中的声音包络形状进行建模所需要的簇号大约是GMM中的四倍,所以导致用于Kmeans的存储器成本较高。尽管额外费用是对数(与Kmeans的情况相比,其数目等于簇号)的计算负担所需要的,但是该额外费用远远低于FFT等中的计算负担。
由此,在由包络形状学习单元116执行包络形状的估计过程中,例如,通过使用GMM(高斯混合模型)来执行处理。
在由包络形状学习单元116执行包络形状的估计过程中,利用GMM(高斯混合模型)来估计除第0次项成分以外的、频谱的低次项成分,以计算包络形状。具体而言,计算作为包络形状信息的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]。
在实际学习处理过程中,通过将成形倒谱信息C′low(i,l)和Chigh(i,l)视作一个组合向量Call(i,l),并且通过基于E运算法则使对数后验概率最大化来获得高斯分布的参数P、混合系数πp、均值μp和协方差∑p。
具体而言,基于下列(等式7)来计算作为包络形状信息的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]。
C all ( r - 1 , l ) = C low ′ ( r , l ) * α low ( r - 1 ) r = 1 , . . . , R C high ( r - R , l ) α high ( r - R - 1 ) r = R + 1 , . . . , 2 * R
Figure BSA00000667878400202
μ p new = 1 L p Σ l = 0 L - 1 w p ( l ) * C all ( l )
Σ p new = 1 L p Σ l = 0 L - 1 w p ( l ) * ( C all ( l ) - μ p new ) * ( C all ( l ) - μ p new ) T
π p new = L p L
L p new = Σ l = 0 L - 1 w p ( l )
…(等式7)
当产生组合向量时,成形倒谱信息C′low(i,l)和Chigh(i,l)分别乘以预定的重量系数αlow(r)和αhigh(r)。例如,R被设定为4,并且[0.5,0.75,1.0,1.25]被设定为用于这两个重量系数αlow(r)和αhigh(r)。另外,可以各种方式对该重量系数进行设定。
如上所述,包络增益学习单元115使用了:说明变量及其均方值和被说明变量,其中说明变量为低频倒谱信息Clow(i,l)的第0次项和第R次项成分,被说明变量是高频倒谱信息的第0次项成分Chigh(0,l),基于(等式6),通过线性耦合说明变量和作为目标值的被说明变量来计算估计值(包括截距值)之间的平方和误差函数E(A),并且得到使平方和误差函数E(A)最小化的线性耦合系数A,作为[包络增益估计信息A]。
另外,包络成形学习单元116例如使用上述GMM(高斯混合模型),并且估计除第0次项成分以外的倒谱的低次项成分,以计算包络形状。具体而言,计算作为包络形状信息的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]。
如图1所示,将由包络增益学习单元115计算的[包络增益估计信息A]提供给分析处理单元120的高频包络增益估计单元124。
另外,将由包络成形学习单元116计算的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]作为包络形状信息提供给分析处理单元120的高频包络形状估计单元125。
(2.6关于高频包络形状估计单元)
下面,将描述被设置在图1所示的分析处理单元120中的高频包络形状估计单元125的处理。
分析处理单元120中的高频包络形状估计单元125输入由分析处理单元120的包络信息成形单元123基于输入声音信号81所生成的成形低频倒谱信息C′low(i,l)。
此外,分析处理单元120中的高频包络形状估计单元125输入从学习处理单元110的包络形状学习单元116中获得作为对学习用声音信号51的分析结果的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p],作为包络形状信息。
高频包络形状估计单元125通过利用基于学习用声音信号51的包络形状信息来对基于输入声音信号81所生成的成形低频倒谱信息C′low(i,l)实施处理,来估计与输入声音信号81相对应的高频包络形状信息C^high(i,l)。
在此,满足i=1、...、R。
参考图8A至图9D,将描述由高频包络形状估计单元125所实施的高频包络形状信息的估计处理。如上所述,图7A至图9D是示出基于Kmeans和GMM进行建模的比较视图,并且在将多维特征空间简化成二维特征空间的同时示出了图7A至图9D所示的模型。
图8A至图9B是示出当使用两种不同的Kmeans和GMM法时如何从低频包络形状(映射源)线性转换到高频包络形状(映射目标)的不同状态的视图。
在Kmeans的情况下,在通过测量到簇的质心的距离来计算映射源所属的簇之后,在将映射源所属的簇的回归直线视作映射函数的同时执行从低频包络形状到高频包络形状的线性转换。在学习单元中提前确定簇的质心和回归系数。
图8A及图8B是示出了(a)使用了Kmeans+线性回归的线性转换处理;以及(b)使用了GMM的后验概率的线性转换处理的处理示例。
在图8A所示的使用了Kmeans+线性回归的线性转换处理的示例中,两个簇(簇1,簇2)分布在二维特征空间中。因为在学习处理过程中出现了映射源数据和映射目标数据,但是可以通过群集法将这两个村用来学习。由于在带扩展处理过程中并不知道映射目标信息,并且只保留了映射源的低频包络信息,所以只能利用映射源数据来计算到簇的质心的距离,并且执行群集。
在图8A所示的示例中,当到簇的质心的距离相对簇1较小时利用回归直线1或者当到簇的质心的距离相对簇2较小时利用回归直线2来执行线性转换以得到映射目标结果。由于当在簇的边界处出现数据时,映射函数会从回归直线1切换到回归直线2,所以所得到的结果是不稳定的,并且在时间方向上会经常发生不连续。
当如图8B所示,使用GMM的后验概率执行线性转换处理的示例中,以与Kmeans中大致相同的方式测量距离,以得到映射源所属的簇。但是,GMM与Kmeans的不同之处在于它可以计算概率,即数据出现在各簇处的比率。
在图8B所示的示例中,到簇1的距离越近,映射源属于簇1的比率就越高,并且映射源属于簇2的比率就越低。当映射源越靠近簇2时,得到了可行的结果。通过利用上述特征来计算数据在各簇中出现的概率(通常被称作簇的后验概率)并且通过混合各簇的回归直线,可以得到光滑的混合曲线,并且从而实现了连续映射。在图8B中,使用了两个簇的出现概率,混合了其回归直线,并且描绘出了其混合曲线。通过上述连续的混合曲线来映射其映射源数据。
与图8A与图8B类似,图9A及图9B是示出了(a)使用了Kmeans+线性回归的线性转换处理;以及(b)使用了GMM的后验概率的线性转换处理的处理示例。
图9A及图9B是解释当映射源数据超过簇边界时映射目标数据如何变化以及在使用(a)Kmeans和(b)GMM的情况下映射目标数据如何变化的视图。
这些附图示出了当映射源数据从a稍微变化到a+δ时的情况。
如图9A所示,由于当执行(a)使用了Kmeans+线性回归的线性转换处理时,簇从1变化到2,所以线性转换中所使用的回归系数发生了很大的变化,并且映射目标值也发生了显著变化。
另一方面,如图9B所示,由于当执行(b)使用了GMM的后验概率的线性转换处理时,簇从簇1变化到簇2的同时,基于出现概率混合了给定的映射函数以得到了连续的混合曲线,所以映射目标值只发生了轻微的变化。
观测上述现象,作为估计结果在时间方向上的光滑度。
根据使用GMM的方法,可以平缓地执行上述帧之间的估计,和比较靠近自然界中出现的回声信号的时间变化的结果。当簇之间的距离较长时,可能在基于Kmeans的方法中出现声音质量的不连续性,可以在基于GMM的方法中实现连续。由于即使当未配置多个簇时,也可以期望簇之间的补偿效果,所以与Kmeans相比,可以利用较少的簇来实现GMM,并且可以说GMM在成本性能方面具有优势。
图1所示的分析处理单元120中的高频包络形状估计单元125输入由分析处理单元120中的包络信息成形单元123基于输入声音信号81所生成的成形低频倒谱信息C′low(i,l),使用基于对从学习处理单元110的包络形状学习单元116中输入的学习用声音信号51的分析结果所获得的包络形状信息,基于下列(等式8)通过施加GMM法来估计与输入声音信号81相对应的高频包络形状信息C^high(i,l)。
具体而言,基于施加了GMM法的下列(等式8),通过施加从学习处理单元110的包络形状学习单元116中输入的、作为包络形状信息的[混合数P]、[混合系数πp]、[均值μp]和[协方差∑p]来计算与输入声音信号81相对应的高频包络形状信息C^high(i,l)。
C ^ high ( l ) = Σ p = 0 P - 1 w p * y ^ p
C″low(r-1,l)=C′low(r,l)*αlow(r-1)    r=1,...,R
y ^ p = μ p high + Σ p highlow ( Σ p lowlow ) - 1 ( C low ′ ′ ( l ) - μ p low )
μ p = μ p low μ p high
Σ p = Σ p lowlow Σ p lowhigh Σ p highlow Σ p highhigh
…(等式8)
如上所述,高频包络形状估计单元125使基于输入声音信号81所生成的成形低频倒谱信息C′low(i,l)乘以与学习过程中相同的重量系数αlow(r),并且接着在使用了基于学习用声音信号51的包络形状信息的处理过程中估计与输入声音信号81相对应的高频包络形状信息C^high(i,l)。
在此,满足i=1、...、R。
高频包络形状估计单元125将基于(等式8)所计算的估计高频倒谱C^high(i,l)提供给高频包络校正单元127。
(2.7关于高频包络增益估计单元)
接着,将描述被设置在图1所示的分析处理单元120中的高频包络增益估计单元124的处理。
分析处理单元120中的高频包络增益估计单元124输入由分析处理单元120中的低频包络计算单元122基于输入声音信号81所生成的低频倒谱信息Clow(i,l)。
此外,分析处理单元120中的高频包络增益估计单元124输入[回归系数A],作为学习处理单元110的包络增益学习单元115对学习用声音信号51的分析结果而得到的包络增益信息。
高频包络增益估计单元124通过将[回归系数A]用作基于学习用声音心啊好哦51的包络增益信息,对基于输入声音信号81所生成的低频倒谱信息Clow(i,l)实施处理,以估计与输入声音信号81相对应的高频包络增益。
具体而言,通过回归模型对高频包络增益进行估计,并且基于下列(等式9)来估计第0次项成分C^high(0,l)。在此,满足i=0、...、R。
Figure BSA00000667878400251
…(等式9)
另外,高频倒谱的第0次项成分C^high(0,l)表示高频包络增益信息。例如,将R设定为4,并且执行包括均方术语的非线性回归。但是,可以在估计高频包络增益的处理过程中和基于上述等式的处理过程中使用其它回归方法,如神经网络或核回归等。
将由高频包络增益估计单元124基于(等式9)所计算的高频包络增益信息C^high(0,l)供给高频包络校正单元127。
(2.8关于中频包络校正单元)
下面,将描述被设置在图1所示的分析处理单元120中的中频包络校正单元126的处理。
分析处理单元120中的中频包络校正单元126输入由分析处理单元120中的频率分析单元121基于输入声音信号81所生成的时间频谱Xana(k,l)。
此外,分析处理单元120中的中频包络校正单元126输入由分析处理单元120中的低频包络计算单元122基于输入声音信号81所生成的低频倒谱Clow(i,l)。
中频包络校正单元126使用由频率分析单元121基于输入声音信号81所生成的时间频谱Xana(k,l)的中频带部分,例如,与大于等于fs1/4且小于等于fs1/2的谱相对应的部分,和低频包络计算单元122所供给的低频倒谱Clow(i,l),来生成在频率轴上已经变平的谱信号。
首先,在低频倒谱Clow(i,l)中将除低次项系数以外倒谱系数设定为0,并且接着将其返回到功率谱域,以基于下列(等式10)获得升降低频频谱Xlift_l(k,l)。
X lift _ l ( k , l ) = exp ( Σ i = 0 M - 1 C low ( i , l ) * exp ( - j 2 π i * k M ) )
…(等式10)
接着,中频包络校正单元126使用与基于(等式10)所获得的升降低频频谱Xlift_l(k,l)的中频部分(大于等于fs1/4且小于等于fs1/2)的谱相对应的部分(在此情况下,k=M/4、...、M/2)以分割时间频谱Xana(k,l)的相同频率部分,执行平坦化,并且接着对除fs1/4频率以外的低频执行反射以获得中频频谱Xwhite(k,l)。
基于下列(等式11)来计算中频频谱Xwhite(k,l)。
X mid ( k , l ) = X ana ( k , l ) X lift _ l ( k , l ) k = M 4 , . . . , M 2
X white ( k , l ) = conj ( X mid ( M 2 - k , l ) ) k = 0 , . . . , M 4 - 1 X mid ( k , l ) k = M 4 , . . . , M 2
…(等式11)
将由中频包络校正单元126基于(等式10)和(等式11)所计算的中频频谱Xwhite(k,l)供给高频包络校正单元127。
(2.9关于高频包络校正单元)
接着,将描述被设置在图1所示的分析处理单元120中的高频包络校正单元127的处理。
分析处理单元120中的高频包络校正单元127输入由分析处理单元120中的中频包络校正单元126基于输入声音信号81所生成的中频频谱Xwhite(k,l)。
此外,分析处理单元120中的高频包络校正单元127输入由分析处理单元120中的高频包络增益估计单元124利用作为被学习数据的包络增益信息所估计的输入声音信号81的高频包络增益信息Chigh(0,l)。
此外,分析处理单元120中的高频包络校正单元127输入由分析处理单元120中的高频包络形状估计单元125利用作为被学习数据的包络形状信息所估计的输入声音信号81的高频包络形状信息Chigh(i,h)。
高频包络校正单元127基于上述输入信息对输入声音信号81的高频包络信息进行校正。具体处理如下。
高频包络校正单元127输入由中频包络校正单元126基于输入声音信号81所生成的中频频谱Xwhite(k,l),并且将由高频包络增益估计单元124所生成的高频包络增益信息Chigh(0,l)和由高频包络形状估计单元125所生成的高频包络形状信息Chigh(i,h)(在此,满足i=1、...、R)用于中频频谱Xwhite(k,l),以校正该包络。
首先,通过功率谱将由高频包络增益估计单元124所生成的高频包络增益信息Chigh(0,l)和由高频包络形状估计单元125所生成的高频包络形状信息Chigh(i,h)返回到包络信息中,以基于下列(等式12)得到升降低频频谱Xlift_h(k,l)。
Figure BSA00000667878400271
                                       …(等式12)
高频包络校正单元127施加基于(等式12)所获得的升降低频频谱Xlift_h(k,l),基于下列(等式13)对中频频谱Xwhite(k,l)进行校正,并且得到校正后的中频频谱X′white(k,l)。
X′white(k,l)=Xwhite(k,l)*Xlift_h(k,l)
                                         …(等式13)
此外,高频包络校正单元127使基于(等式12)所校正的频谱X′white(k,l)关于fs1/2的频率(在此情况下,k=M/2)发生反转,将0插入到频谱原本所在的低频频谱中,并将得到如下列(等式14)中所示的高频频谱Xhigh(k,l)。
X high ( k , l ) = 0 k = 0 , . . . , M 2 - 1 conj ( X white ′ ( M - k , l ) ) k = M 2 , . . . , M - 1 X white ′ ( k , l ) k = M , . . . , 3 M 2 0 k = 3 M 2 + 1 , . . . , 2 M - 1
                                        …(等式14)
结果,生成了频率为fs2的高频频谱Xhigh(k,l)信号(在此情况下,FFT的点数为2M)。
将由高频包络校正单元127所生成的高频频谱Xhigh(k,l)供给频率合成单元128。
(2.10关于频率合成单元)
接着,将描述被设置在图1所示的分析处理单元120中的频率合成单元128的处理。
频率合成单元128输入来自分析处理单元120中的高频包络校正单元127的高频频谱Xhigh(k,l)。
此外,频率合成单元128输入由频率分析单元121基于输入声音信号81所生成的时间频谱Xana(k,l)。
频率合成单元128使用来自分析处理单元120中的高频包络校正单元127的高频频谱Xhigh(k,l)和频率分析单元121所提供的、与频谱Xana(k,l)(在此情况下,k=0、...、M/2)相对应的部分,即与大于等于0且小于等于fs1/2的频率相对应的部分,以基于下列(等式15)来获得合成频谱Xsyn(k,l)。
X syn ( k , l ) = X ana ( k , l ) k = 0 , . . . , M 2 - 1 X ana ( k , l ) + X high ( k , l ) 2 k = M 2 X high ( k , l ) k = M 2 + 1 , . . . , 3 M 2 - 1 X ana ( 2 M - k , l ) + X high ( k , l ) 2 k = 3 M 2 conj ( X ana ( 2 M - k , l ) ) k = 3 M 2 + 1 , . . . , 2 M - 1
                                        …(等式15)
频率合成单元128对基于(等式15)所计算的合成频谱Xsyn(k,l)执行反频率转换,以获得时间域的合成信号Xsyn(n,l)。
基于下列(等式16)来获得时间域的合成信号Xsyn(n,l)。
x syn ( n , l ) = 1 M Σ k = 0 M - 1 X syn ( k , l ) * exp ( j 2 πn k M )
                                        …(等式16)
尽管在本实施例中将IDFT(逆离散傅里叶变换)用作反频率转换,但是可以相对于频率分析单元所使用的变换使用与反变换相对应的变换。但是,由于帧尺寸N与采样数相对应(N=fs2*0.02),其中采样数与扩展频率fs2中的0.02秒相对应,并且DFT点数M是大于等于N且是2的乘方的数值,所以必须注意这个事实:其尺寸与上面描述中所使用的N和M并不相同。
频率合成单元128执行帧的合成,并且通过使基于(等式16)所计算的合成频谱Xsyn(n,l)乘以窗口函数w_syn(n)且通过执行重叠添加来生成输出信号y(n)。
用于计算输出信号y(n)和窗口函数w_syn(n)具体等式如下列(等式17)所示。
y(n+l*N)=xsyn(n,l)*wsyn(n)+y(n+l*N)
w syn ( n ) = ( 0.5 - 0.5 * cos ( 2 π n N ) ) 0.5 n = 0 , . . . , N - 1 0 n = N , . . . , M - 1
                                            …(等式17)
尽管在上面的处理过程中,50%的重叠添加是通过将Hanning窗口的平方根用作窗口函数来执行的,但是可以使用诸如正弦窗口等之类的其它窗口或除50%以外的重叠比。
将由频率合成单元128基于(等式17)所计算的信号y(n)作为图1所述的声音信号处理装置100的输出声音信号82输出。
输出声音信号82具有采样频率(fs2),并且成为其采样频率是输入声音信号的采样频率(fs1)的两倍的声音信号,其中在输出声音信号82中,频带被扩展。
尽管上面的实施例描述了其中图1所示的声音信号处理装置100设有包括学习处理单元110和分析处理单元120这两个处理装置的构造示例,但是也可适用其中将作为学习处理单元110的学习结果所得到的被学习数据提前存储在存储单元中的其它构造。也就是说,也可适用其中分析处理单元120(必要时)获得存储在存储单元中的被学习数据以对输入信号执行处理的构造。在这样的构造中,可以通过其中忽略了学习处理单元的分析处理单元和存储单元来构造声音信号处理装置,其中该存储单元存储作为学习结果的被学习数据。
参考具体的实施例对本发明进行了描述。但是,可在本发明的保护范围内对实施例作出各种修改或替换,这对本领域技术人员是显而易见的。也就是说,以示例的方式描述了本发明,并且不应理解为是对本发明的限制。为了确定本发明的范围,应该参考所附的权利要求书。
另外,可以通过硬件、软件或两者的结合来实施本说明书中的一系列处理。当通过软件实施处理时,可以将记录处理序列的程序安装在嵌入到专用硬件的计算机内的存储器上,或者可以将该程序安装在能够实施各种处理的通用计算机上。例如,可以提前将程序记录在记录介质上。除了其中将程序从记录介质安装在计算机上的构造以外,也可以经由诸如LAN(局域网络)或因特网之类的网络来接收该程序或者将该程序安装在诸如内置硬盘等之类的硬盘上。
此外,可以所描述的时间序列方式来实施本说明书中所述的各种处理,或者可以根据实施处理的装置的处理能力或根据需要,以并行的或独立的方式来实施各种处理。另外,本说明书中的系统是指包括多个装置的逻辑复合构造,并且并不限于其中将各个装置设置在同一壳体中的构造。
本申请包含于2011年2月9日向日本特许厅递交的日本在先专利申请JP2011-026241涉及的主题,在此通过引用将其全部内容包含在本说明书中。

Claims (15)

1.一种声音信号处理装置,所述声音信号处理装置包括:
频率分析单元,所述频率分析单元实施输入声音信号的频率分析;
低频包络计算单元,所述低频包络计算单元基于所述频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;
高频包络信息估计单元,所述高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中所述学习用声音信号是用于从所述低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与所述输入声音信号相对应的所述低频包络信息中生成与输入信号相对应的估计高频包络信息;以及
频率合成单元,所述频率合成单元对与由所述高频包络信息估计单元生成的所述估计高频包络信息相对应的高频带信号和所述输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
2.根据权利要求1所述的声音信号处理装置,
其中所述被学习数据包括:
包络增益信息,其中利用所述包络增益信息从低频包络增益信息中估计高频包络增益信息,以及
包络形状信息,其中利用所述包络形状信息从低频包络形状信息中估计高频包络形状信息,并且
其中所述高频包络信息估计单元包括:
高频包络增益估计单元,所述高频包络增益估计单元施加包含在所述被学习数据中的所述包络增益信息,并且从与所述输入声音信号相对应的所述低频包络增益信息中估计与所述输入信号相对应的所述估计高频包络增益信息,以及
高频包络形状估计单元,所述高频包络形状估计单元施加包含在所述被学习数据中的所述包络形状信息,并且从与所述输入声音信号相对应的所述低频包络形状信息中估计与所述输入信号相对应的所述估计高频包络形状信息。
3.根据权利要求2所述的声音信号处理装置,
其中所述高频包络形状估计单元输入通过对由所述低频包络计算生成的、所述输入声音信号的所述低频包络信息执行过滤处理所生成的成形低频包络信息,并且估计与所述输入信号相对应的所述估计高频包络形状信息。
4.根据权利要求1所述的声音信号处理装置,
其中所述频率分析单元对所述输入声音信号执行时间频率分析并且生成时间频谱。
5.根据权利要求1所述的声音信号处理装置,
其中所述低频包络计算单元输入由所述频率分析单元所生成的所述输入声音信号的时间频谱,并且生成低频倒谱。
6.根据权利要求1所述的声音信号处理装置,
其中所述高频包络信息估计单元包括:
高频包络增益估计单元,所述高频包络增益估计单元施加包含在所述被学习数据中的所述包络增益信息,并且从与所述输入声音信号相对应的所述低频包络增益信息中估计与所述输入信号相对应的所述估计高频包络增益信息,并且
其中所述高频包络增益估计单元将包含在所述被学习数据中的所述包络增益信息施加到基于所述输入声音信号生成的低频倒谱信息中,并且从与所述输入声音信号相对应的所述低频包络增益信息中估计与所述输入信号相对应的所述估计高频包络增益信息。
7.根据权利要求1所述的声音信号处理装置,
其中所述高频包络信息估计单元包括:
高频包络形状估计单元,所述高频包络形状估计单元施加包含在所述被学习数据中的所述包络形状信息,并且从与所述输入声音信号相对应的所述低频包络形状信息中估计与所述输入信号相对应的所述估计高频包络形状信息,并且
其中所述高频包络形状估计单元基于根据所述输入声音信号所生成的成形低频倒谱信息,通过利用包含在所述被学习数据中的所述包络形状信息执行处理来估计与所述输入声音信号相对应的所述高频包络形状信息。
8.根据权利要求7所述的声音信号处理装置,
其中所述高频包络形状估计单元通过利用GMM(高斯混合模型)执行估计处理来估计与所述输入声音信号相对应的所述高频包络形状信息。
9.根据权利要求1所述的声音信号处理装置,还包括:
学习处理单元,所述学习处理单元基于所述学习用声音信号生成所述被学习数据,其中所述学习用声音信号包括高频带中的频率,其中所述高频带并不包含在所述输入声音信号中,
其中所述高频包络信息估计单元施加由所述学习单元所生成的所述被学习数据,并且从与所述输入声音信号相对应的所述低频包络形状信息中生成与所述输入信号相对应的所述估计高频包络信息。
10.一种声音信号处理装置,所述声音信号处理装置包括:
从第一信号中计算第一包络信息的功能;
通过过滤处理去除所述第一包络信息在时间方向上的DC成分,以去除环境因素的功能,其中所述环境因素包括收集声音的功能和传送功能的至少一者;以及
将通过在过滤后对所述第一包络信息进行线性转换所获得的第二包络信息视作第二信号的包络信息,并且对所述第二信号和所述第一信号进行合成的功能。
11.一种声音信号处理装置,所述声音信号处理装置包括:
从低频信号中计算第一包络信息的功能;
计算比率的功能,其中在所述比率处,所述低频包络信息属于通过学习大量数据而提前被分类的多个组;
基于被分别分配给所述多个组的线性转换等式对所述低频包络信息执行线性转换并且生成多个高频包络信息项的功能;以及
为了在时间轴上生成光滑的高频包络信息,将通过将多个高频包络信息与属于多个组的比率混合所得到的高频包络信息视作高频信号的包络信息,并且对所述高频信号和所述低频信号进行合成的功能。
12.一种声音信号处理方法,其中根据所述声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,所述方法包括:
由频率分析单元实施输入声音信号的频率分析;
由低频包络计算单元基于所述频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;
由高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中所述学习用声音信号是用于从所述低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与所述输入声音信号相对应的所述低频包络信息中生成与输入信号相对应的估计高频包络信息;以及
由频率合成单元对与由所述高频包络信息估计单元生成的所述估计高频包络信息相对应的高频带信号和所述输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
13.一种声音信号处理方法,其中根据所述声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,所述方法包括:
从第一信号中计算第一包络信息;
通过过滤处理去除所述第一包络信息在时间方向上的DC成分,以去除环境因素,其中所述环境因素包括收集声音的功能和传送功能的至少一者;以及
将通过在过滤后对所述第一包络信息进行线性转换所获得的第二包络信息视作第二信号的包络信息,并且对所述第二信号和所述第一信号进行合成。
14.一种声音信号处理方法,其中根据所述声音信号处理方法对声音信号处理装置中的输入声音信号执行频带扩展处理,所述方法包括:
从低频信号中计算第一包络信息;
计算比率,其中在所述比率处,所述低频包络信息属于通过学习大量数据而提前被分类的多个组;
基于被分别分配给所述多个组的线性转换等式对所述低频包络信息执行线性转换并且生成多个高频包络信息项;以及
为了在时间轴上生成光滑的高频包络信息,将通过将多个高频包络信息与属于多个组的比率混合所得到的高频包络信息视作高频信号的包络信息,并且对所述高频信号和所述低频信号进行合成。
15.一种使声音信号处理装置对输入声音信号执行频带扩展处理的程序,所述程序包括:
使频率分析单元实施输入声音信号的频率分析;
使低频包络计算单元基于所述频率分析单元的分析结果,计算作为低频带的包络信息的低频包络信息;
使高频包络信息估计单元施加基于学习用声音信号所提前生成的被学习信号,其中所述学习用声音信号是用于从所述低频包络信息中计算作为高频带的包络信息的、高频包络信息的被学习信号,并且从与所述输入声音信号相对应的所述低频包络信息中生成与输入信号相对应的估计高频包络信息;以及
使频率合成单元对与由所述高频包络信息估计单元生成的所述估计高频包络信息相对应的高频带信号和所述输入声音信号进行合成,并且生成其中频带被扩展的输出声音信号。
CN2012100274430A 2011-02-09 2012-02-02 声音信号处理装置、声音信号处理方法和程序 Pending CN102637436A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011026241A JP2012163919A (ja) 2011-02-09 2011-02-09 音声信号処理装置、および音声信号処理方法、並びにプログラム
JP2011-026241 2011-02-09

Publications (1)

Publication Number Publication Date
CN102637436A true CN102637436A (zh) 2012-08-15

Family

ID=46600637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100274430A Pending CN102637436A (zh) 2011-02-09 2012-02-02 声音信号处理装置、声音信号处理方法和程序

Country Status (3)

Country Link
US (1) US20120201399A1 (zh)
JP (1) JP2012163919A (zh)
CN (1) CN102637436A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104715756A (zh) * 2015-02-10 2015-06-17 百度在线网络技术(北京)有限公司 音频数据的处理方法及装置
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN107408390A (zh) * 2015-04-13 2017-11-28 日本电信电话株式会社 线性预测编码装置、线性预测解码装置、它们的方法、程序以及记录介质
CN107767876A (zh) * 2014-03-24 2018-03-06 株式会社Ntt都科摩 声音编码装置以及声音编码方法
CN107993672A (zh) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2018012490A (es) * 2016-04-12 2019-02-21 Fraunhofer Ges Forschung Codificador de audio para codificar una se?al de audio, metodo para codificar una se?al de audio y programa de computadora en consideracion de una region espectral del pico detectada en una banda de frecuencia superior.
CN109791772B (zh) * 2016-09-27 2023-07-04 松下知识产权经营株式会社 声音信号处理装置、声音信号处理方法以及记录介质
WO2018084305A1 (ja) * 2016-11-07 2018-05-11 ヤマハ株式会社 音声合成方法
CN107527611A (zh) * 2017-08-23 2017-12-29 武汉斗鱼网络科技有限公司 Mfcc语音识别方法、存储介质、电子设备及系统
CN113555007B (zh) * 2021-09-23 2021-12-14 中国科学院自动化研究所 语音拼接点检测方法及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1650348A (zh) * 2002-04-26 2005-08-03 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN1954363A (zh) * 2004-05-19 2007-04-25 松下电器产业株式会社 编码装置、解码装置及它们的方法
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN101656073A (zh) * 2004-05-14 2010-02-24 松下电器产业株式会社 解码装置、解码方法以及通信终端和基站装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1650348A (zh) * 2002-04-26 2005-08-03 松下电器产业株式会社 编码设备、解码设备、编码方法和解码方法
CN101656073A (zh) * 2004-05-14 2010-02-24 松下电器产业株式会社 解码装置、解码方法以及通信终端和基站装置
CN1954363A (zh) * 2004-05-19 2007-04-25 松下电器产业株式会社 编码装置、解码装置及它们的方法
EP2151822A1 (en) * 2008-08-05 2010-02-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing and audio signal for speech enhancement using a feature extraction

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767876A (zh) * 2014-03-24 2018-03-06 株式会社Ntt都科摩 声音编码装置以及声音编码方法
CN107767876B (zh) * 2014-03-24 2022-08-09 株式会社Ntt都科摩 声音编码装置以及声音编码方法
CN104715756A (zh) * 2015-02-10 2015-06-17 百度在线网络技术(北京)有限公司 音频数据的处理方法及装置
CN107408390A (zh) * 2015-04-13 2017-11-28 日本电信电话株式会社 线性预测编码装置、线性预测解码装置、它们的方法、程序以及记录介质
CN105513590A (zh) * 2015-11-23 2016-04-20 百度在线网络技术(北京)有限公司 语音识别的方法和装置
CN107993672A (zh) * 2017-12-12 2018-05-04 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置
CN107993672B (zh) * 2017-12-12 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 频带扩展方法及装置

Also Published As

Publication number Publication date
JP2012163919A (ja) 2012-08-30
US20120201399A1 (en) 2012-08-09

Similar Documents

Publication Publication Date Title
CN102637436A (zh) 声音信号处理装置、声音信号处理方法和程序
Caillon et al. RAVE: A variational autoencoder for fast and high-quality neural audio synthesis
RU2596033C2 (ru) Устройство и способ получения улучшенной частотной характеристики и временного фазирования способом расширения полосы аудио сигналов в фазовом вокодере
JP3528258B2 (ja) 符号化音声信号の復号化方法及び装置
CN103262164B (zh) 叉积增强的基于子带块的谐波换位
JP5275612B2 (ja) 周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法
CN101882441B (zh) 利用复调制滤波器组的高效滤波
KR100921905B1 (ko) 부분 복소 변조 필터 뱅크
CN102741921B (zh) 改进的基于子带块的谐波换位
Záviška et al. A survey and an extensive evaluation of popular audio declipping methods
CA2553784A1 (en) Improved coding techniques using estimated spectral magnitude and phase derived from mdct coefficients
CN101894560B (zh) 一种无参考源的mp3音频清晰度客观评价方法
JPWO2009038056A1 (ja) 信号解析方法、信号解析装置、及び信号解析プログラム
JP2023546099A (ja) オーディオ生成器ならびにオーディオ信号生成方法およびオーディオ生成器学習方法
CN112906158A (zh) 一种基于多传感器多元数据融合的机械故障诊断方法
CN101527036B (zh) 基于邻域加窗的提升小波图像去噪方法
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN104078048B (zh) 一种声音解码装置及其方法
WO2021192433A1 (ja) コンピュータにより実現される方法、処理システム、及び記憶媒体
Jiang et al. A Complex Neural Network Adaptive Beamforming for Multi-channel Speech Enhancement in Time Domain
CN117935826A (zh) 音频升采样方法、装置、设备及存储介质
CN113775414A (zh) 车辆急踩油门工况下的冲击信号的提取方法、装置及介质
CN117437932A (zh) 一种基于双路径网络的语音频带扩展方法
JP2015210419A (ja) 変換装置、方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120815