CN102411930A

CN102411930A - 生成音频模型的方法、设备和检测场景类别的方法、设备

Info

Publication number: CN102411930A
Application number: CN2010102924843A
Authority: CN
Inventors: 刘昆
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2010-09-21
Filing date: 2010-09-21
Publication date: 2012-04-11

Abstract

生成音频模型的方法、设备和检测场景类别的方法、设备。检测音频所源于的场景的类别的设备包含幅度谱计算装置，计算音频的每个分段的每个帧的幅度谱；突变识别装置，在每个帧的幅度谱中识别满足下述条件的一对频率区间：其幅度谱之差超过预定程度，且不存在介于其间的幅度谱；噪声估计装置，通过将幅度谱小于所识别的一对频率区间的较大幅度谱的频率区间的音频信号识别为噪声，估计每个频率区间上每个分段的噪声功率；滤波装置，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；特征提取装置，从滤波的幅度谱中提取音频特征；和检测装置，利用场景音频模型，根据音频特征检测输入音频所源于的场景的类别。

Description

生成音频模型的方法、设备和检测场景类别的方法、设备

技术领域

本发明涉及音频识别技术，更具体地，涉及生成场景音频模型的方法和设备，以及检测音频所源于的场景的类别的方法和设备。

背景技术

音频识别技术允许从采集自特定场景的音频信号中识别指示场景类别的信息。例如对于采集自海滩的音频信号，从中识别出该音频信号是采集自海滩的。音频识别技术通常涉及两个阶段的处理。一个阶段是训练阶段，另一个阶段是检测阶段。在训练阶段，采集包含源于特定场景的音频信号并且标记上相应的场景信息，从而获得训练样本集。从训练样本集的每个样本中提取出特征，从而获得特征集。采用例如混合高斯模型、隐马尔科夫模型等等的建模方法对特征集进行建模，从而得到场景音频模型。在检测阶段，从作为检测对象的音频信号中提取特征，并且用通过训练得到的场景音频模型确定音频信号是否采集自相应类别的场景。

采集自场景的音频信号会包含干扰噪声。干扰噪声会对训练和检测带来不利的影响。为了弱化干扰噪声的影响，通常增加训练样本的数量。这增大了训练的成本。另一个措施是通过谱减法来进行音频增强。例如在MBerouti的“Enhancement of Speech Corrupted by Acoustic Noise”，[C].ICASSP，19791208-211中提出了一种谱减法来进行音频增强，以处理宽带噪声，其中采用调节噪声功率谱大小的系数和增强语音功率谱的最小值的限制，从而提高了谱减法的性能。但其修正系数和最小值根据经验确定，适应性较差。谱减法虽然在一定程度上能出去除部分的干扰噪声，但是也会同时去除一些有用的谱特征。因此，也会对场景音频模型的训练带来一些负面的影响。

发明内容

本发明的一个实施例是一种生成场景音频模型的设备，包括：幅度谱计算装置，针对同一类别的场景音频的多个样本中的每个样本，计算所述样本的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；突变识别装置，在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；噪声估计装置，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述样本的每个分段的噪声功率；滤波装置，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；特征提取装置，从经过所述滤波装置处理的所述幅度谱中提取音频特征；和训练装置，根据所提取的音频特征训练出场景音频模型。

本发明的一个实施例是一种生成场景音频模型的方法，包括：针对同一类别的场景音频的多个样本中的每个样本，计算所述样本的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述样本的每个分段的噪声功率；通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；从经过所述滤波装置处理的所述幅度谱中提取音频特征；和根据所提取的音频特征训练出场景音频模型。

本发明的一个实施例是一种检测音频所源于的场景的类别的设备，包括：幅度谱计算装置，计算输入音频的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；突变识别装置，在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；噪声估计装置，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述输入音频的每个分段的噪声功率；滤波装置，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；特征提取装置，从经过所述滤波装置处理的所述幅度谱中提取音频特征；和检测装置，利用场景音频模型，根据所提取的音频特征检测所述输入音频所源于的场景的类别。

本发明的一个实施例是一种检测音频所源于的场景的类别的方法，包括：计算输入音频的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述输入音频的每个分段的噪声功率；通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；从经过所述滤波装置处理的所述幅度谱中提取音频特征；和利用场景音频模型，根据所提取的音频特征检测所述输入音频所源于的场景的类别。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。在附图中，相同的或对应的技术特征或部件将采用相同或对应的附图标记来表示。在附图中不必依照比例绘制出单元的尺寸和相对位置。

图1是示出根据本发明一个实施例的生成场景音频模型的设备的示例性结构的框图。

图2是示出幅度谱计算装置计算的帧的幅度谱的示例的示意图。

图3是示出幅度谱计算装置计算的分段的各个帧的幅度谱的示例的示意图。

图4是示出在帧的幅度谱中寻找突变的方法的示例的示意图。

图5是示出根据本发明一个实施例的生成场景音频模型的方法的示例性过程的流程图。

图6是示出根据本发明一个实施例的检测音频所源于的场景的类别的设备的示例性结构的框图。

图7是示出根据本发明一个实施例的检测音频所源于的场景的类别的方法的示例性过程的流程图。

图8是示出其中实现本发明的计算机的示例性结构的框图。

具体实施方式

本文中所用的术语，仅仅是为了描述特定的实施例，而不意图限定本发明。本文中所用的单数形式的“一”和“该”，旨在也包括复数形式，除非上下文中明确地另行指出。还要知道，“包含”一词在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下参照按照本发明实施例的方法、设备的流程图和/或框图描述本发明。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令，产生实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能指令计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。

也可以把计算机程序指令加载到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程数据处理装置上执行一系列操作步骤，以产生计算机实现的过程，从而在计算机或其它可编程装置上执行的指令就提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

应当明白，附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

图1是示出根据本发明一个实施例的生成场景音频模型的设备100的示例性结构的框图，其中一个场景音频模型用于检测同一类别的特定场景。

如图1所示，设备100包括幅度谱计算装置101、突变识别装置102、噪声估计装置103、滤波装置104、特征提取装置105和训练装置106。

在开始训练之前，从同一类别的特定场景采集多个音频样本(下文中简称为样本)。幅度谱计算装置101针对同一类别的场景音频的多个样本中的每个样本，计算该样本的每个分段的每个帧的幅度谱107，其中每个帧的幅度谱107包括各个频率区间的幅度谱。

样本通常被采集为时域上的音频流。幅度谱计算装置101可以将样本的音频流划分为具有相同时间间隔的音频流片段(下文中简称为分段)。分段的时间间隔例如可以为0.5秒。进一步地，幅度谱计算装置101可以将每个分段划分为多个具有相同时间间隔的帧。帧的时间间隔例如可以为10到20毫秒。应当明白，上述分段和帧的具体时间间隔仅仅是示例。可以根据训练和检测成本的限制、检测性能的要求等因素来确定相适应的分段和帧时间间隔。

幅度谱计算装置101可以通过利用傅立叶变换将帧从时域变换到频域来获得帧的幅度谱107。进一步地，幅度谱计算装置101可以将样本的频域划分为多个宽度相同或不同的频率区间。例如，假设样本的频域为0～8kHz，可以将该频域划分为512个宽度相同的频率区间，每个频率区间的宽度为16Hz。应当明白，上述频率区间的具体划分仅仅是示例。可以根据场景音频的频域特性来确定频率区间的划分。相应地，幅度谱计算装置101可以获得表征频率区间内各频率的幅度谱的概况的幅度谱，以作为该频率区间的幅度谱。可以通过各种方式来获得表征频率区间内各频率的幅度谱的概况的幅度谱。例如，表征频率区间内各频率的幅度谱的概况的幅度谱可以是频率区间内各频率的幅度谱的均值、频率区间内最大幅度谱和最小幅度谱的中值、频率区间内最大幅度谱、最小幅度谱或频率区间内最大幅度谱和最小幅度谱之间的任意幅度谱，等等。

图2是示出幅度谱计算装置101计算的帧的幅度谱的示例的示意图。如图2所示，纵座标轴表示幅度谱，横座标轴表示频率区间。帧的幅度谱包括各个频率区间1至n的相应幅度谱。

图3是示出幅度谱计算装置101计算的分段的各个帧的幅度谱的示例的示意图。如图3所示，对于每个频率区间1至n，纵座标轴表示幅度谱，横座标轴表示分段的各个帧。不同频率区间的相同横座标位置的幅度谱构成相应帧的幅度谱，例如粗线框内的各个幅度谱构成帧5的幅度谱。

回到图1，突变识别装置102在每个帧的幅度谱中识别满足下述条件的一对频率区间：这一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于这一对频率区间的幅度谱之间的频率区间。上述条件也称为突变条件。上述一对频率区间的幅度谱从低到高的变化也称为突变。

可以通过各种方法来找到这样的一对频率区间。图4是示出在帧的幅度谱中寻找突变的方法的示例的示意图。如图4所示，可以将帧的幅度谱中各个频率区间的幅度谱从左至右按照从小到大的顺序排序，其中频率区间A的幅度谱最小，频率区间B的幅度谱最大。可以评估在通过排序获得的频率区间的序列中各个相邻频率区间的幅度谱之差是否超过预定程度。如果超过预定程度，则将该相邻频率区间识别为满足条件的一对频率区间。

可以根据各种准则来确定一对频率区间的幅度谱之差超过预定程度。例如，可以在一对频率区间的幅度谱之差超过预定阈值的情况下，确定幅度谱之差超过预定程度。例如，可以在或一对频率区间的幅度谱之差与帧的幅度谱中的最大幅度谱的比值超过预定阈值的情况下，确定幅度谱之差超过预定程度。在图4所示的示例中，频率区间x1和x2的幅度谱之差超过预定程度，因而被识别为满足条件的一对频率区间。

回到图1，噪声估计装置103通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间(例如，图4所示的频率区间x1和x2)的幅度谱中的较大幅度谱(例如，图4所示的频率区间x2的幅度谱)的频率区间(例如，图4所示的频率区间x2左边的频率区间)的音频信号识别为噪声，估计在每个频率区间上样本的每个分段的噪声功率。

如上所述，噪声估计装置103能够将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声。因此，对于同一频率区间，如果该频率区间在一个帧的幅度谱中的幅度谱小于在该帧的幅度谱中识别的一对频率区间的幅度谱中的较大幅度谱，则能够确定这个帧中在该频率区间上的噪声功率。例如，在图3所示的例子中，假设在帧5的幅度谱中，频率区间3和2是所识别的一对频率区间，频率区间2的幅度谱是较大的幅度谱，并且频率区间1的幅度谱小于频率区间2的幅度谱，则能够根据频率区间1在帧5的幅度谱确定帧5中在频率区间1上的噪声功率。每个频率区间上的噪声通常具有在时域上保持基本稳定的特性。在能够确定相同频率区间上分段的部分帧的噪声功率的情况下，根据这样的特性，能够估计出整个分段中相同频率区间上的噪声功率。这允许通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱，即该噪声功率的估计所基于的分段的频率区间的幅度谱中。

可以通过各种方法来根据上述特性估计噪声功率。例如，如果一个分段被划分为N_frame个帧，并且有N_below个帧的频率区间F的音频信号被识别为噪声，那么估计的噪声可以是A_below/N_below，其中A_below是这N_below个帧的频率区间F的幅度谱之和。

滤波装置104通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱，即该噪声功率的估计所基于的分段的频率区间的幅度谱中去除。

特征提取装置105从经过滤波装置104处理的幅度谱中提取音频特征。

训练装置106根据所提取的音频特征训练出场景音频模型。

图5是示出根据本发明一个实施例的生成场景音频模型的方法500的示例性过程的流程图，其中一个场景音频模型用于检测同一类别的特定场景。

如图5所示，方法500从步骤501开始。在步骤503，针对同一类别的场景音频的多个样本中的当前样本，计算该样本的当前分段的当前帧的幅度谱，其中帧的幅度谱包括各个频率区间的幅度谱。

样本通常被采集为时域上的音频流。可以将样本的音频流划分为具有相同时间间隔的分段。分段的时间间隔例如可以为0.5秒。进一步地，可以将每个分段划分为多个具有相同时间间隔的帧。帧的时间间隔例如可以为10到20毫秒。应当明白，上述分段和帧的具体时间间隔仅仅是示例。可以根据训练和检测成本的限制、检测性能的要求等因素来确定相适应的分段和帧时间间隔。

可以通过利用傅立叶变换将帧从时域变换到频域来获得帧的幅度谱。进一步地，可以将样本的频域划分为多个宽度相同或不同的频率区间。例如，假设样本的频域为0～8kHz，可以将该频域划分为512个宽度相同的频率区间，每个频率区间的宽度为16Hz。应当明白，上述频率区间的具体划分仅仅是示例。可以根据场景音频的频域特性来确定频率区间的划分。相应地，可以获得表征频率区间内各频率的幅度谱的概况的幅度谱，以作为该频率区间的幅度谱。可以通过各种方式来获得表征频率区间内各频率的幅度谱的概况的幅度谱。例如，表征频率区间内各频率的幅度谱的概况的幅度谱可以是频率区间内各频率的幅度谱的均值、频率区间内最大幅度谱和最小幅度谱的中值、频率区间内最大幅度谱、最小幅度谱或频率区间内最大幅度谱和最小幅度谱之间的任意幅度谱，等等。

在步骤505，在当前帧的幅度谱中识别满足下述条件的一对频率区间：这一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于这一对频率区间的幅度谱之间的频率区间。

可以根据各种准则来确定一对频率区间的幅度谱之差超过预定程度。例如，可以在一对频率区间的幅度谱之差超过预定阈值的情况下，确定幅度谱之差超过预定程度。例如，可以在或一对频率区间的幅度谱之差与帧的幅度谱中的最大幅度谱的比值超过预定阈值的情况下，确定幅度谱之差超过预定程度。

在步骤507，确定是否计算了当前分段的所有帧的幅度谱。如果是，则方法500前进到步骤509，否则返回步骤503计算下一帧的幅度谱。

在步骤509，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上样本的当前分段的噪声功率。

如上所述，能够将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声。因此，对于同一频率区间，如果该频率区间在一个帧的幅度谱中的幅度谱小于在该帧的幅度谱中识别的一对频率区间的幅度谱中的较大幅度谱，则能够确定这个帧中在该频率区间上的噪声功率。每个频率区间上的噪声通常具有在时域上保持基本稳定的特性。在能够确定相同频率区间上分段的部分帧的噪声功率的情况下，根据这样的特性，能够估计出整个分段中相同频率区间上的噪声功率。这允许通过谱减法从分段中去除所估计的噪声功率。

在步骤511，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱，即该噪声功率的估计所基于的分段的频率区间的幅度谱中去除。

在步骤513，确定是否对当前样本的所有分段的幅度谱进行了滤波处理。如果是，则方法500前进到步骤515，否则返回步骤503计算当前样本的下一分段的各个帧的幅度谱。

在步骤515，确定是否对所有样本的幅度谱进行了滤波处理。如果是，则方法500前进到步骤517，否则返回步骤503计算下一样本的分段的帧的幅度谱。

在步骤517，从经过步骤511处理的幅度谱中提取音频特征。

在步骤519，根据所提取的音频特征训练出场景音频模型。

方法在步骤521结束。

发明人通过观察发现，在噪声与信号并存的情况下，信号加噪声的幅度谱要比噪声的幅度谱大很多。在本发明的上述和下面要描述的实施例中，通过找到帧的幅度谱中的突变并且将幅度谱低于突变后的幅度谱的频率区间识别为噪声信号主导的频率区间，能够更加准确地估计噪声。相应地，经过滤波的场景音频能够保留更加能够表征场景音频的谱特征。

因而，能够去除干扰噪声的影响，同时也能够保留有用谱特征，从而保证模型训练和检测的高性能。

在一个帧的幅度谱中，也可能识别不出满足条件的一对频率区间。在这样的情况下，在结合图1描述的设备和结合图5描述的方法的进一步的实施例中，在噪声估计装置103和步骤509的处理中，可以简单地不将该帧的所有频率区间的音频信号估计为噪声，也可以根据已知的谱减法来估计该帧的所有频率区间上的噪声功率。

在一个帧的幅度谱中，也可能存在多对满足突变条件的频率区间。将幅度谱较低的突变涉及的频率区间识别为一对频率区间，会使得较少的频率区间被识别为噪声信号主导的(也就是说，较多的频率区间被识别为音频信号主导的)。将幅度谱较高的突变涉及的频率区间识别为一对频率区间，会使得较多的频率区间被识别为噪声信号主导的(也就是说，较少的频率区间被识别为音频信号主导的)。过多或过少的频率区间被识别为噪声信号主导的都不符合实际情况。在结合图1描述的设备和结合图5描述的方法的进一步的实施例中，在突变识别装置102和步骤505的处理中，可以在存在满足突变条件的多对频率区间的情况下，选择这样的一对频率区间：在相应帧的幅度谱中，幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。预定值可以根据经验来确定，也可以通过对场景音频进行分析来获得。在一个优选实施例中，预定值可以是50％至70％的范围内的值，例如50％、60％或70％。

在前面的实施例中，通过将分段的各帧的幅度谱中幅度谱小于满足突变条件的一对频率区间的幅度谱中的较大幅度谱的频率区间识别为噪声主导的。然而也可能存在即使识别出满足突变条件的一对频率区间，但幅度谱大于该对频率区间的幅度谱中的较小幅度谱的频率区间实际是噪声主导的情形。在这样的情况下，幅度谱大于该对频率区间的幅度谱中的较小幅度谱的频率区间的数目越多，则对噪声功率的估计的误差就越大。在结合图1描述的设备和结合图5描述的方法的进一步的实施例中，在噪声估计装置103和步骤509的处理中，对于每个频率区间，如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较高，则随着所述次数的增加，将该分段的噪声功率估计得相对较低；如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较低，则随着所述次数的增加，将该分段的噪声功率估计得相对较高。

在一个分段的N_frame个帧中，通常认为如果同一频率区间上音频信号是居主导地位的，那么在N_frame个帧的幅度谱中该频率区间的幅度谱大于相应的所识别的一对频率区间的幅度谱中的较大幅度谱的次数应在一个最低限之上。可以通过次数与N_frame的比值，或者次数与各个频率区间的相应次数的最大值的比值是否超过一个阈值来确定是否在最低限之上。如果比值超过阈值，则确定次数较高，否则确定次数较低。

如果确定次数较高，那么在相应频率区间上音频信号居主导地位的可能性就越高(噪声居主导地位的可能性就越低)。相应地，可以把该频率区间上的噪声功率估计得相对较低。估计得相对较低是指如果将该频率区间上的噪声功率估计为S，那么考虑到该频率区间上音频信号居主导地位的可能性更高，那么将噪声功率估计S降低一个程度。次数越高，那么该程度就越大。如果确定次数较低，那么在相应频率区间上音频信号居主导地位的可能性就越低(噪声居主导地位的可能性就越高)。相应地，可以把该频率区间上的噪声功率估计得相对较低。估计得相对较低是指如果将该频率区间上的噪声功率估计为S，那么考虑到该频率区间上噪声信号居主导地位的可能性更高，那么将噪声功率估计S增大一个程度。次数越高，那么该程度就越大。

在一个进一步的实施例中，每个频率区间n上每个样本的每个分段的噪声功率NoiseAvgSpec[n]可以被估计为

其中，Nx表示该分段的各个帧的幅度谱中幅度谱小于所识别的相应一对频率区间的幅度谱中的较大幅度谱的频率区间的幅度谱之和，

N_overAvgSpec(n)表示该分段的各个帧的幅度谱中频率区间n的幅度谱大于所识别的相应一对频率区间的幅度谱中的较大幅度谱的次数之和，

MAX_N_overAvgSpec表示各个频率区间i针对该分段的N_overAvgSpec(i)中的最大值。

图6是示出根据本发明一个实施例的检测音频所源于的场景的类别的设备600的示例性结构的框图。

如图6所示，设备600包括幅度谱计算装置601、突变识别装置602、噪声估计装置603、滤波装置604、特征提取装置605和检测装置606。

幅度谱计算装置601计算输入音频的每个分段的每个帧的幅度谱107，其中每个帧的幅度谱107包括各个频率区间的幅度谱。

幅度谱计算装置601可以将输入音频的音频流划分为具有相同时间间隔的分段。分段的时间间隔例如可以为0.5秒。进一步地，幅度谱计算装置601可以将每个分段划分为多个具有相同时间间隔的帧。帧的时间间隔例如可以为10到20毫秒。应当明白，上述分段和帧的具体时间间隔仅仅是示例。可以根据训练和检测成本的限制、检测性能的要求等因素来确定相适应的分段和帧时间间隔。

幅度谱计算装置601可以通过利用傅立叶变换将帧从时域变换到频域来获得帧的幅度谱107。进一步地，幅度谱计算装置101可以将输入音频的频域划分为多个宽度相同或不同的频率区间。例如，假设输入音频的频域为0～8kHz，可以将该频域划分为512个宽度相同的频率区间，每个频率区间的宽度为16Hz。应当明白，上述频率区间的具体划分仅仅是示例。可以根据场景音频的频域特性来确定频率区间的划分。相应地，幅度谱计算装置601可以获得表征频率区间内各频率的幅度谱的概况的幅度谱，以作为该频率区间的幅度谱。可以通过各种方式来获得表征频率区间内各频率的幅度谱的概况的幅度谱。例如，表征频率区间内各频率的幅度谱的概况的幅度谱可以是频率区间内各频率的幅度谱的均值、频率区间内最大幅度谱和最小幅度谱的中值、频率区间内最大幅度谱、最小幅度谱或频率区间内最大幅度谱和最小幅度谱之间的任意幅度谱，等等。

突变识别装置602在每个帧的幅度谱中识别满足下述条件的一对频率区间：这一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于这一对频率区间的幅度谱之间的频率区间。上述条件也称为突变条件。上述一对频率区间的幅度谱从低到高的变化也称为突变。

噪声估计装置603通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上输入音频的每个分段的噪声功率。

如上所述，噪声估计装置603能够将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声。因此，对于同一频率区间，如果该频率区间在一个帧的幅度谱中的幅度谱小于在该帧的幅度谱中识别的一对频率区间的幅度谱中的较大幅度谱，则能够确定这个帧中在该频率区间上的噪声功率。每个频率区间上的噪声通常具有在时域上保持基本稳定的特性。在能够确定相同频率区间上分段的部分帧的噪声功率的情况下，根据这样的特性，能够估计出整个分段中相同频率区间上的噪声功率。这允许通过谱减法从分段中去除所估计的噪声功率。

滤波装置604通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱，即该噪声功率的估计所基于的分段的频率区间的幅度谱中去除。

特征提取装置605从经过滤波装置604处理的幅度谱中提取音频特征。

检测装置606利用场景音频模型，根据所提取的音频特征检测输入音频所源于的场景的类别。

如图7所示，方法700从步骤701开始。在步骤703，计算输入音频的每个分段的每个帧的幅度谱，其中帧的幅度谱包括各个频率区间的幅度谱。

可以将输入音频的音频流划分为具有相同时间间隔的分段。分段的时间间隔例如可以为0.5秒。进一步地，可以将每个分段划分为多个具有相同时间间隔的帧。帧的时间间隔例如可以为10到20毫秒。应当明白，上述分段和帧的具体时间间隔仅仅是示例。可以根据训练和检测成本的限制、检测性能的要求等因素来确定相适应的分段和帧时间间隔。

可以通过利用傅立叶变换将帧从时域变换到频域来获得帧的幅度谱。进一步地，可以将输入音频的频域划分为多个宽度相同或不同的频率区间。例如，假设输入音频的频域为0～8kHz，可以将该频域划分为512个宽度相同的频率区间，每个频率区间的宽度为16Hz。应当明白，上述频率区间的具体划分仅仅是示例。可以根据场景音频的频域特性来确定频率区间的划分。相应地，可以获得表征频率区间内各频率的幅度谱的概况的幅度谱，以作为该频率区间的幅度谱。可以通过各种方式来获得表征频率区间内各频率的幅度谱的概况的幅度谱。例如，表征频率区间内各频率的幅度谱的概况的幅度谱可以是频率区间内各频率的幅度谱的均值、频率区间内最大幅度谱和最小幅度谱的中值、频率区间内最大幅度谱、最小幅度谱或频率区间内最大幅度谱和最小幅度谱之间的任意幅度谱，等等。

在步骤705，在当前帧的幅度谱中识别满足下述条件的一对频率区间：这一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于这一对频率区间的幅度谱之间的频率区间。

在步骤707，确定是否计算了当前分段的所有帧的幅度谱。如果是，则方法700前进到步骤709，否则返回步骤703计算下一帧的幅度谱。

在步骤709，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上输入音频的当前分段的噪声功率。

在步骤711，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱，即该噪声功率的估计所基于的分段的频率区间的幅度谱中去除。

在步骤713，确定是否对输入音频的所有分段的幅度谱进行了滤波处理。如果是，则方法700前进到步骤715，否则返回步骤703计算输入音频的下一分段的各个帧的幅度谱。

在步骤715，从经过步骤711处理的幅度谱中提取音频特征。

在步骤717，利用场景音频模型，根据所提取的音频特征检测输入音频所源于的场景的类别。

方法在步骤719结束。

在一个帧的幅度谱中，也可能识别不出满足条件的一对频率区间。在这样的情况下，在结合图6描述的设备和结合图7描述的方法的进一步的实施例中，在噪声估计装置603和步骤709的处理中，可以简单地不将该帧的所有频率区间的音频信号估计为噪声，也可以根据已知的谱减法来估计该帧的所有频率区间上的噪声功率。

在一个帧的幅度谱中，也可能存在多对满足突变条件的频率区间。将幅度谱较低的突变涉及的频率区间识别为一对频率区间，会使得较少的频率区间被识别为噪声信号主导的(也就是说，较多的频率区间被识别为音频信号主导的)。将幅度谱较高的突变涉及的频率区间识别为一对频率区间，会使得较多的频率区间被识别为噪声信号主导的(也就是说，较少的频率区间被识别为音频信号主导的)。过多或过少的频率区间被识别为噪声信号主导的都不符合实际情况。在结合图6描述的设备和结合图7描述的方法的进一步的实施例中，在突变识别装置602和步骤705的处理中，可以在存在满足突变条件的多对频率区间的情况下，选择这样的一对频率区间：在相应帧的幅度谱中，幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。预定值可以根据经验来确定，也可以通过对场景音频进行分析来获得。在一个优选实施例中，预定值可以是50％至70％的范围内的值，例如50％、60％或70％。

在前面的实施例中，通过将分段的各帧的幅度谱中幅度谱小于满足突变条件的一对频率区间的幅度谱中的较大幅度谱的频率区间识别为噪声主导的。然而也可能存在即使识别出满足突变条件的一对频率区间，但幅度谱大于该对频率区间的幅度谱中的较小幅度谱的频率区间实际是噪声主导的情形。在这样的情况下，幅度谱大于该对频率区间的幅度谱中的较小幅度谱的频率区间的数目越多，则对噪声功率的估计的误差就越大。在结合图6描述的设备和结合图7描述的方法的进一步的实施例中，在噪声估计装置603和步骤709的处理中，对于每个频率区间，如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较高，则随着所述次数的增加，将该分段的噪声功率估计得相对较低；如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较低，则随着所述次数的增加，将该分段的噪声功率估计得相对较高。

在一个分段的N_frame个帧中，通常认为如果同一频率区间上音频信号是居主导地位的，那么在N_frame个帧的幅度谱中该频率区间F的幅度谱大于相应的所识别的一对频率区间的幅度谱中的较低幅度谱的次数应在一个最低限之上。可以通过次数与N_frame的比值，或者次数与各个频率区间的相应次数的最大值的比值是否超过一个阈值来确定是否在最低限之上。如果比值超过阈值，则确定次数较高，否则确定次数较低。

MAX N_overAvgSpec表示各个频率区间i针对该分段的N_overAvgSpec(i)中的最大值。

所属技术领域的技术人员知道，本发明可以体现为系统、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者本文一般称为“电路”、“模块”或“系统”的软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质(medium of expression)中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，计算机可读存储介质例如可以是--但不限于--电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的带有计算机可读程序代码的数据信号。这样一种传播信号可以采取任何适当的形式，包括--但不限于--电磁的、光的或其任何适当的组合。计算机可读信号介质可以是不同于计算机可读存储介质的、可以传达、传播或传输供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的任何一种计算机可读介质。包含在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括-但不限于-无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言-诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络--包括局域网(LAN)或广域网(WAN)--连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

图8是示出其中实现本发明的设备和方法的计算机的示例性结构的框图。

在图8中，中央处理单元(CPU)801根据只读映射数据(ROM)802中存储的程序或从存储部分808加载到随机存取映射数据(RAM)803的程序执行各种处理。在RAM 803中，也根据需要存储当CPU 801执行各种处理等等时所需的数据。

CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下述部件连接到输入/输出接口805：输入部分806，包括键盘、鼠标等等；输出部分807，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分808，包括硬盘等等；和通信部分809，包括网络接口卡比如LAN卡、调制解调器等等。通信部分809经由网络比如因特网执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。可拆卸介质811比如磁盘、光盘、磁光盘、半导体映射数据等等根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808中。

在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可拆卸介质811安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图8所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可拆卸介质811。可拆卸介质811的例子包含磁盘、光盘(包含光盘只读映射数据(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)和半导体映射数据。或者，存储介质可以是ROM 802、存储部分808中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

以下的权利要求中的对应结构、材料、操作以及所有功能性限定的装置(means)或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

Claims

1.一种生成场景音频模型的设备，包括：

幅度谱计算装置，针对同一类别的场景音频的多个样本中的每个样本，计算所述样本的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；

突变识别装置，在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；

噪声估计装置，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述样本的每个分段的噪声功率；

滤波装置，通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；

特征提取装置，从经过所述滤波装置处理的幅度谱中提取音频特征；和

训练装置，根据所提取的音频特征训练出场景音频模型。

2.如权利要求1所述的设备，其中所述突变识别装置进一步被配置为在存在满足所述条件的多对频率区间的情况下，选择这样的一对频率区间：在每个帧的幅度谱中，幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。

3.如权利要求2所述的设备，其中所述预定值在50％至70％的范围内。

4.如权利要求1所述的设备，其中所述噪声估计装置进一步被配置为对于每个频率区间，

如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较高，则随着所述次数的增加，将该分段的噪声功率估计得相对较低，并且

如果在每个分段的各个帧的幅度谱中，该频率区间的幅度谱大于所识别的一对频率区间的幅度谱中的较大幅度谱的次数较低，则随着所述次数的增加，将该分段的噪声功率估计得相对较高。

5.如权利要求4所述的设备，其中每个频率区间n上每个样本的每个分段的噪声功率NoiseAvgSpec[n]为

其中，Nx表示所述分段的各个帧的幅度谱中幅度谱小于所识别的相应一对频率区间的幅度谱中的较大幅度谱的频率区间的幅度谱之和，

N_overAvgSpec(n)表示所述分段的各个帧的幅度谱中频率区间n的幅度谱大于所识别的相应一对频率区间的幅度谱中的较大幅度谱的次数之和，

MAX_N_overAvgSpec表示各个频率区间n针对所述分段的N_overAvgSpec(n)中的最大值。

6.如权利要求1所述的设备，其中所述幅度谱之差超过预定程度包括所述差超过预定阈值，或所述差与所述帧的幅度谱中的最大幅度谱的比值超过预定阈值。

7.一种生成场景音频模型的方法，包括：

针对同一类别的场景音频的多个样本中的每个样本，计算所述样本的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；

在每个帧的幅度谱中识别满足下述条件的一对频率区间：所述一对频率区间的幅度谱之差超过预定程度，并且不存在幅度谱介于所述一对频率区间的幅度谱之间的频率区间；

通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述样本的每个分段的噪声功率；

通过谱减法把所估计的噪声功率从相应分段的相应频率区间的幅度谱中去除；

从经过所述滤波装置处理的所述幅度谱中提取音频特征；和

根据所提取的音频特征训练出场景音频模型。

8.如权利要求7所述的方法，其中所述一对频率区间的识别包括：

在存在满足所述条件的多对频率区间的情况下，选择这样的一对频率区间：在每个帧的幅度谱中，幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。

9.如权利要求8所述的方法，其中所述预定值在50％至70％的范围内。

10.如权利要求7所述的方法，其中所述估计包括：

对于每个频率区间，

11.如权利要求10所述的方法，其中每个频率区间n上每个样本的每个分段的噪声功率NoiseAvgSpec[n]为

12.如权利要求7所述的方法，其中所述幅度谱之差超过预定程度包括所述差超过预定阈值，或所述差与所述帧的幅度谱中的最大幅度谱的比值超过预定阈值。

13.一种检测音频所源于的场景的类别的设备，包括：

幅度谱计算装置，计算输入音频的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；

噪声估计装置，通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述输入音频的每个分段的噪声功率；

特征提取装置，从经过所述滤波装置处理的所述幅度谱中提取音频特征；和

检测装置，利用场景音频模型，根据所提取的音频特征检测所述输入音频所源于的场景的类别。

14.如权利要求13所述的设备，其中所述突变识别装置进一步被配置为在存在满足所述条件的多对频率区间的情况下，选择这样的一对频率区间：在每个帧的幅度谱中，幅度谱小于该对频率区间的幅度谱中的较大幅度谱的频率区间的比例接近预定值。

15.如权利要求14所述的设备，其中所述预定值在50％至70％的范围内。

16.如权利要求13所述的设备，其中所述噪声估计装置进一步被配置为对于每个频率区间，

17.如权利要求16所述的设备，其中每个频率区间n上每个分段的噪声功率NoiseAvgSpec[n]为

18.如权利要求13所述的设备，其中所述幅度谱之差超过预定程度包括所述差超过预定阈值，或所述差与所述帧的幅度谱中的最大幅度谱的比值超过预定阈值。

19.一种检测音频所源于的场景的类别的方法，包括：

计算输入音频的每个分段的每个帧的幅度谱，其中所述每个帧的幅度谱包括各个频率区间的幅度谱；

通过将每个帧的幅度谱中幅度谱小于所识别的一对频率区间的幅度谱中的较大幅度谱的频率区间的音频信号识别为噪声，估计在每个频率区间上所述输入音频的每个分段的噪声功率；

从经过所述滤波装置处理的所述幅度谱中提取音频特征；和

利用场景音频模型，根据所提取的音频特征检测所述输入音频所源于的场景的类别。

20.如权利要求19所述的方法，其中所述一对频率区间的识别包括：

21.如权利要求20所述的方法，其中所述预定值在50％至70％的范围内。

22.如权利要求19所述的方法，其中所述估计包括：

对于每个频率区间，

23.如权利要求22所述的方法，其中每个频率区间n上每个分段的噪声功率NoiseAvgSpec[n]为

24.如权利要求19所述的方法，其中所述幅度谱之差超过预定程度包括所述差超过预定阈值，或所述差与所述帧的幅度谱中的最大幅度谱的比值超过预定阈值。