CN103366738B

CN103366738B - 生成声音分类器和检测异常声音的方法和设备及监视系统

Info

Publication number: CN103366738B
Application number: CN201210093171.4A
Authority: CN
Inventors: 胡伟湘; 刘贺飞; 穆向禹
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2012-04-01
Filing date: 2012-04-01
Publication date: 2016-08-03
Anticipated expiration: 2032-04-01
Also published as: CN103366738A

Abstract

本公开涉及生成声音分类器和检测异常声音的方法和设备及监视系统。声音分类器包括至少一个分类器级。对于生成每个分类器级，声音分类器生成方法包括以下步骤：基于输入的声音样本生成正常声音模型；基于输入的声音样本和正常声音模型计算第一阈值，其中输入的声音样本根据正常声音模型和第一阈值被切分成第一正常声音样本和第一异常声音样本；基于特定的异常声音样本和第一异常声音样本生成异常声音模型；和基于第一正常声音样本和异常声音模型计算第二阈值，其中第一正常声音样本根据异常声音模型和第二阈值被切分成第二正常声音样本和第二异常声音样本；其中，该分类器级包括正常声音模型、第一阈值、异常声音模型和第二阈值。

Description

生成声音分类器和检测异常声音的方法和设备及监视系统

技术领域

本发明涉及声音检测，更特别地，涉及用于生成声音分类器的方法和设备，以及用于检测异常声音的方法和检测器。

背景技术

异常声音检测对于监视系统而言是很重要的。异常声音可以是一般场合中任何种类的异常声音，诸如特定种类的异常声音(例如，尖叫声、枪击声，等等)和未知种类的异常声音。

传统的异常声音检测方法通常旨在检测特定种类的异常声音。然而，这样的传统检测方法不能识别未知种类的异常声音，即使该声音明显不正常。

最近，在文档1(AkinoriIto等，DetectionofAbnormalSoundUsingMulti-stageGMMforSurveillanceMicrophone，5thInternationalConferenceonInformationAssuranceandSecurity，2009)中，AkinoriIto等人提出了一种用于检测一般场合中任何种类的异常声音的多级GMM(高斯混合模型)方法。文档1中的异常声音检测的基本框架和多级GMM训练过程分别在图1A和1B中示出。在文档1中，用正常场合中的声音而不是特定种类的异常声音来进行训练。创建由多个“正常”声音的GMM构成的多级分类器，然后该多级分类器用于检测在正常声音中很少出现的声音事件。多级GMM的基本原理是训练第一级GMM来描述大部分的训练声音样本的特性，然后训练第二级GMM来描述大部分的剩余训练声音样本的特性，继续训练GMM，直到训练出了足够数量的GMM为止。然后，该方法利用训练出的多级GMM来逐级地检测异常声音。

发明内容

然而，上述多级GMM方法仅仅使用正常声音来训练GMM，然后使用这些GMM来逐级地检测任何种类的异常声音。该方法的缺点在于，在训练和检测过程中都完全忽略了异常声音的先验知识，因而，在异常声音检测过程中，该方法对于一些特定种类的异常声音无法获得更好的性能。

在许多监视场景中，更为重要的是对一些特定种类的异常声音(诸如枪声、玻璃破碎声，等等)的检测。所希望的是，监视系统除了检测一般场景中的任何种类的异常声音，对于检测这些特定种类的异常声音可具有更好的性能。

本发明的各方面旨在解决上述技术问题。

根据本发明的第一方面，提供一种用于生成声音分类器的方法。所述声音分类器包括至少一个分类器级。对于生成每一个分类器级，所述方法包括以下步骤：正常声音模型生成步骤，基于输入的声音样本生成正常声音模型；第一阈值计算步骤，基于所述输入的声音样本和所述正常声音模型计算第一阈值，其中所述输入的声音样本根据所述正常声音模型和所述第一阈值被切分成第一正常声音样本和第一异常声音样本；异常声音模型生成步骤，基于特定的异常声音样本和所述第一异常声音样本生成异常声音模型；和第二阈值计算步骤，基于所述第一正常声音样本和所述异常声音模型计算第二阈值，其中所述第一正常声音样本根据所述异常声音模型和所述第二阈值被切分成第二正常声音样本和第二异常声音样本；其中，该分类器级包括所述正常声音模型、所述第一阈值、所述异常声音模型和所述第二阈值。

根据本发明的第二方面，提供一种用于检测异常声音的方法。所述方法包括至少一个检测级，每一个检测级使用根据本发明的第一方面所生成的声音分类器中的一个对应的分类器级。对于每一个检测级，所述方法包括以下步骤：第一检测步骤，使用所述对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号；和第二检测步骤，响应于所述输入声音信号在第一检测步骤中未被判断为异常声音信号，使用所述对应的分类器级中的异常声音模型和第二阈值来判断所述输入声音信号是否为异常声音信号。

根据本发明的第三方面，提供一种用于生成声音分类器的设备。所述声音分类器包括至少一个分类器级。对于生成每一个分类器级，所述设备包括以下单元：正常声音模型生成单元，被配置为基于输入的声音样本生成正常声音模型；第一阈值计算单元，被配置为基于所述输入的声音样本和所述正常声音模型计算第一阈值，其中所述输入的声音样本根据所述正常声音模型和所述第一阈值被切分成第一正常声音样本和第一异常声音样本；异常声音模型生成单元，被配置为基于特定的异常声音样本和所述第一异常声音样本生成异常声音模型；和第二阈值计算单元，被配置为基于所述第一正常声音样本和所述异常声音模型计算第二阈值，其中所述第一正常声音样本根据所述异常声音模型和所述第二阈值被切分成第二正常声音样本和第二异常声音样本；其中，该分类器级包括所述正常声音模型、所述第一阈值、所述异常声音模型和所述第二阈值。

根据本发明的第四方面，提供一种用于检测异常声音的检测器。所述检测器包括至少一个检测器级，每一个检测器级使用根据本发明的第一方面或第三方面所生成的声音分类器中的一个对应的分类器级。对于每一个检测器级，所述检测器包括以下单元：第一检测单元，被配置为使用所述对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号；和第二检测单元，被配置为响应于所述输入声音信号未被第一检测单元判断为异常声音信号，使用所述对应的分类器级中的异常声音模型和第二阈值来判断所述输入声音信号是否为异常声音信号。

根据本发明的第五方面，提供一种监视系统，该监视系统包括根据本发明的第四方面的用于检测异常声音的检测器。

得益于根据本发明的方法、设备、检测器和系统，提供了用于异常声音检测的新方案，该方案不仅能够检测一般场景中的任何种类的异常声音，而且能够以更好的性能检测特定种类的异常声音。

从参考附图的以下描述中，本发明的其它特性特征和优点将变得清晰。

附图说明

并入说明书并且构成说明书的一部分的附图图示了本发明的实施例，并且与描述一起用于说明本发明的原理。

图1A和1B示出文档1中的异常声音检测的基本框架和多级GMM训练过程。

图2是示出能够实施本发明的实施例的计算机系统的示例性硬件配置的框图。

图3是示出根据本发明的一个实施例的用于生成声音分类器的方法的流程图。

图4示出根据本发明的一个实施例，图3中的第一阈值计算步骤的示例性处理。

图5示出根据本发明的一个实施例，图3中的第二阈值计算步骤的示例性处理。

图6是根据本发明的一个实施例的用于生成声音分类器的设备的示意性功能框图。

图7是示出根据本发明的一个实施例的用于检测异常声音的方法的流程图。

图8是根据本发明的一个实施例的用于检测异常声音的检测器的示意性功能框图。

图9是示出根据本发明的一个实施例的异常声音检测的一个具体示例的流程图。

图10示出使用本发明的方法与使用文档1的方法相比的实验结果的示例。

具体实施方式

以下将参照附图详细描述本发明的实施例。

请注意，类似的参考数字和字母指的是图中的类似的项目，因而一旦在一幅图中定义了一个项目，就不需要在之后的图中讨论了。

还请注意，在本公开中，术语“第一”、“第二”等仅仅是用于区分单元或步骤，而不是意图表明时间顺序、优先级、或重要性。

图2是示出能够实施本发明的实施例的计算机系统1000的示例性硬件配置的框图。

如图2中所示，计算机系统1000包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。

系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM1131中。操作系统1134、应用程序1135、其它程序模块1136和某些程序数据1137驻留在RAM1132中。

诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序模块1146和某些程序数据1147。

诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如，软盘1152可以被插入到软盘驱动器1151中，以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。

诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。

计算机1110可以通过网络接口1170连接到远程计算机1180。例如，网络接口1170可以经由局域网1171连接到远程计算机1180。或者，网络接口1170可以连接到调制解调器(调制器-解调器)1172，以及调制解调器1172经由广域网1173连接到远程计算机1180。

远程计算机1180可以包括诸如硬盘之类的存储器1181，其存储远程应用程序1185。

视频接口1190连接到监视器1191。

输出外围接口1195连接到打印机1196和扬声器1197。

图2所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。

图2所示的计算机系统可以被实施于任何实施例，可作为独立计算机，或者也可作为设备中的处理系统，可以移除一个或更多个不必要的组件，也可以向其添加一个或更多个附加的组件。

根据本发明的一个实施例生成的声音分类器可包括至少一个分类器级。图3中的处理300示出用于生成每一个分类器级的步骤。

如图3所示，在正常声音模型生成步骤S310中，基于输入的声音样本生成正常声音模型。

在声音分类器仅包括一个分类器级的实施例中，输入的声音样本可以是初始输入的声音样本，该初始输入的声音样本可以在一个或多个环境中被收集，诸如办公室、图书馆、实验室、广场等等，以用于模型的生成。优选地，可以在与所生成的声音分类器要被使用的环境类似的环境中收集该初始输入的声音样本。在声音分类器包括多个分类器级的另一个实施例中，用于生成第一个分类器级的输入的声音样本可以是如上所述的初始输入的声音样本，而对于其它分类器级，用于生成当前分类器级的输入的声音样本可以根据在生成上一个分类器级时获得的数据而被设置，这将在下面更详细地描述。

步骤S310中的正常声音模型的生成可以使用任何需要的建模技术来实现，这不会影响本发明的实施。根据一个实施例，正常声音模型可以是高斯混合模型(GMM)。根据另一个实施例，正常声音模型可以是隐马尔可夫模型(HMM)。可以从输入的声音样本中提取各种声音特征并将其用于正常声音模型的生成，这些声音特征诸如但不限于，MFCC(梅尔频率倒谱系数)、MFCC的一阶差分、C0(MFCC的第一维)的一阶差分、ZCR(过零率)的一阶差分、SC(频谱质心)的一阶差分，等等。

处理300然后进行到第一阈值计算步骤S320，基于输入的声音样本和在步骤S310中生成的正常声音模型来计算第一阈值。第一阈值将与正常声音模型结合用于声音检测。在步骤S320中，根据步骤S310中生成的正常声音模型和该第一阈值，输入的声音样本被切分成第一正常声音样本和第一异常声音样本。

处理300然后进行到异常声音模型生成步骤S330，基于特定的异常声音样本和在步骤S320中获得的第一异常声音样本生成异常声音模型。

根据一个实施例，特定的异常声音样本可以是对于要监视的环境而言很重要的特定种类的异常声音的样本。例如，对于办公室环境的特定种类的异常声音可以是枪声、玻璃破碎声、尖叫声，等等。在步骤S330中使用的特定的异常声音样本可以根据诸如监视系统之类的应用系统来预定义，并且可以根据场景的不同而有所差别。进一步地，在生成每个分类器级时，在步骤S330中使用的特定的异常声音样本可以是相同的。作为替换例，在生成各个分类器级时，该特定的异常声音样本可以不同。

步骤S330中的异常声音模型的生成可以使用任何需要的建模技术来实现，这不会影响本发明的实施。根据一个实施例，异常声音模型可以是GMM。根据另一个实施例，异常声音模型可以是HMM。可以从特定的异常声音样本和第一异常声音样本中提取各种声音特征并将其用于异常声音模型的生成，这些声音特征诸如但不限于，MFCC、MFCC的一阶差分、C0的一阶差分、ZCR的一阶差分、SC的一阶差分，等等。

处理300然后进行到第二阈值计算步骤S340，基于在步骤S320中获得的第一正常声音样本和在步骤S330中生成的异常声音模型来计算第二阈值。第二阈值将与异常声音模型结合用于声音检测。在步骤S340中，根据步骤S330中生成的异常声音模型和该第二阈值，第一正常声音样本被切分成第二正常声音样本和第二异常声音样本。

在完成步骤S340后，就生成了一个分类器级，其包括上述的正常声音模型、第一阈值、异常声音模型和第二阈值。

如果声音分类器包括多个分类器级，该方法可重复处理300以生成下一个分类器级。用于生成该下一个分类器级的输入的声音样本可以被设置为在生成当前分类器级的步骤S320中获得的第一异常声音样本和步骤S340中获得的第二异常声音样本的组合。所生成的声音分类器然后可被用于异常声音检测，将在下文对此进行详细描述。

声音分类器的级数可根据需要来确定。例如，声音分类器可包括预定数量的分类器级。作为另一个例子，分类器级的数量可被确定为使得在生成最后一个分类器级时的第一和第二异常声音样本的数量低于预定值或低于初始输入的声音样本的预定百分比。作为又一个例子，分类器级的数量可根据后验知识来确定以使得检测结果被优化。

从上面参考图3的描述可以看出，在每个分类器级中组合了正常声音模型和异常声音模型，并且特定的异常声音样本被用于生成异常声音模型。在异常声音检测中使用这种组合的模型不仅可以检测出一般场景中的任何种类的异常声音，而且可以很有效地检测出特定种类的异常声音，而后者对于监视而言是更为重要的。

进一步地，在传统的用于生成异常声音模型的技术中，仅有特定种类的异常声音样本被预先收集以用于训练，这可能导致低的检出率——即使是对这些特定种类的异常声音的检测也是如此，因为预先收集样本的场景很可能不同于模型实际应用于检测的场景。

然而，根据本发明的实施例，当生成异常声音模型时，除了使用特定的异常声音样本，还使用来自输入的声音样本中的第一异常声音样本(例如，在步骤S320中获得的)，该第一异常声音样本是在正常环境中收集的声音样本的一部分，因而代表了实际场景中的声音。因此，根据本发明的异常声音模型的区分度可以提高，从而为异常声音检测提供进一步的优点。

接下来，将参考图4和图5提供对步骤S320和S340的更详细描述。

图4示出根据本发明的一个实施例，图3中的第一阈值计算步骤S320的示例性处理。

在条件概率计算步骤S410中，计算每一个输入的声音样本相对于正常声音模型的条件概率。

在排序步骤S420中，根据步骤S410中计算得到的这些输入的声音样本各自的条件概率，对输入的声音样本进行排序。通常，输入的声音样本相对于正常声音模型具有越高的条件概率，则被认为越正常，而输入的声音样本相对于正常声音模型具有越低的条件概率，则被认为越异常。

在切分步骤S430中，排序后的输入的声音样本在第一切分点处被切分成第一正常声音样本和第一异常声音样本，其中，第一预定百分比的输入的声音样本被识别为第一正常声音样本。该第一预定百分比可以根据经验确定，以优化声音分类器的性能。例如，第一预定百分比可以为80％-90％。换言之，第一切分点可以这样选择，即，使得80％-90％的输入的声音样本在切分步骤S430中被识别为第一正常声音样本。应当理解，该第一预定百分比也可以是任何其它值，并且可以根据实际应用来确定。

在第一阈值确定步骤S440中，将第一切分点处的输入的声音样本的条件概率确定为第一阈值。换言之，条件概率高于第一阈值的输入的声音样本被识别为第一正常声音样本，而条件概率低于第一阈值的输入的声音样本被识别为第一异常声音样本。

图5示出根据本发明的一个实施例，图3中的第二阈值计算步骤S340的示例性处理。

在条件概率计算步骤S510中，计算每一个第一正常声音样本相对于异常声音模型的条件概率。

在排序步骤S520中，根据步骤S510中计算得到的第一正常声音样本各自的条件概率，对这些第一正常声音样本进行排序。通常，第一正常声音样本相对于异常声音模型具有越高的条件概率，则被认为越异常，而第一正常声音样本相对于异常声音模型具有越低的条件概率，则被认为越正常。

在切分步骤S530中，将排序后的第一正常声音样本在第二切分点处切分成第二正常声音样本和第二异常声音样本，其中，第二预定百分比的第一正常声音样本被识别为第二正常声音样本。该第二预定百分比可以根据经验确定，以优化声音分类器的性能。例如，第二预定百分比可以为80％-90％。换言之，第二切分点可以这样选择，即，使得80％-90％的第一正常声音样本在切分步骤S530中被识别为第二正常声音样本。应当理解，该第二预定百分比也可以是任何其它值，并且可以根据实际应用来确定。

在第二阈值确定步骤S540中，将第二切分点处的第一正常声音样本的条件概率确定为第二阈值。换言之，条件概率低于第二阈值的第一正常声音样本被识别为第二正常声音样本，而条件概率高于第二阈值的第一正常声音样本被识别为第二异常声音样本。

虽然参考图4和图5描述了步骤S320和S340的示例性处理，但是步骤S320和S340不限于这些示例，而是可以具有其它处理，只要第一阈值和第二阈值能够被确定为可分别适当切分输入的声音样本和第一正常声音样本即可。

图6是根据本发明的一个实施例的用于生成声音分类器的设备600的示意性功能框图。设备600可用于实施参考图3-5所描述的方法。为简要起见，这里省略了与参考图3-5所描述的细节类似的细节。然而，应当理解，这些细节也可以适用于设备600。

声音分类器可包括至少一个分类器级。相应地，对于生成每一个分类器级，设备600可包括正常声音模型生成单元610、第一阈值计算单元620、异常声音模型生成单元630和第二阈值计算单元640。应当理解，对于不同的分类器级，这些单元可以被重复使用，只是具有不同的输入和输出。可替换地，设备600可以为每个分类器级包括一组单元610-640。

下面更详细地描述图6中示出的单元。

正常声音模型生成单元610被配置为基于输入的声音样本生成正常声音模型。如参考图3所描述的，取决于当前分类器级是否为第一个分类器级，输入的声音样本可以是初始输入的声音样本，或者可以根据在生成上一个分类器级时获得的数据而被设置(例如，在生成上一个分类器级时获得的第一和第二异常声音样本的组合)。

第一阈值计算单元620被配置为基于输入的声音样本和正常声音模型来计算第一阈值，其中，该输入的声音样本根据该正常声音模型和该第一阈值被切分成第一正常声音样本和第一异常声音样本。

根据一个实施例，第一阈值计算单元620可进一步包括条件概率计算单元622、排序单元624、切分单元626和第一阈值确定单元628。条件概率计算单元622可被配置为计算每一个输入的声音样本相对于正常声音模型的条件概率。排序单元624可被配置为根据计算得到的条件概率对输入的声音样本进行排序。切分单元626可被配置为将排序后的输入的声音样本在第一切分点处切分为第一正常声音样本和第一异常声音样本，其中，第一预定百分比的输入的声音样本被识别为第一正常声音样本。第一阈值确定单元628可被配置为将第一切分点处的输入的声音样本的条件概率确定为第一阈值。

异常声音模型生成单元630被配置为基于特定的异常声音样本和第一异常声音样本生成异常声音模型。

第二阈值计算单元640被配置为基于第一正常声音样本和异常声音模型来计算第二阈值，其中，第一正常声音样本根据异常声音模型和该第二阈值被切分成第二正常声音样本和第二异常声音样本。

根据一个实施例，第二阈值计算单元640可进一步包括条件概率计算单元642、排序单元644、切分单元646和第二阈值确定单元648。条件概率计算单元642可被配置为计算每一个第一正常声音样本相对于异常声音模型的条件概率。排序单元644可被配置为根据计算得到的条件概率对第一正常声音样本进行排序。切分单元646可被配置为将排序后的第一正常声音样本在第二切分点处切分为第二正常声音样本和第二异常声音样本，其中，第二预定百分比的第一正常声音样本被识别为第二正常声音样本。第二阈值确定单元648可被配置为将第二切分点处的第一正常声音样本的条件概率确定为第二阈值。

在计算出第二阈值之后，就生成了一个分类器级，其包括上述的正常声音模型、第一阈值、异常声音模型和第二阈值。

接下来，将参考图7-8描述用于检测异常声音的示例性方法和检测器。

图7是示出根据本发明的一个实施例的用于检测异常声音的方法700的流程图。方法700包括至少一个检测级，并且每一个检测级使用参考图3或图6所描述的方法或设备中生成的声音分类器中的一个对应的分类器级来检测异常声音信号。每一个检测级可包括两个检测步骤，如图7所示。

在第一检测步骤S710中，使用对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号。

然后，在第二检测步骤S720中，响应于该输入声音信号在步骤S710中未被判断为异常声音信号，使用该对应的分类器级中的异常声音模型和第二阈值来进一步判断该输入声音信号是否为异常声音信号。

在该方法仅包括一个检测级的实施例中，响应于在第一检测步骤或第二检测步骤中被判断为异常声音信号，该输入声音信号被最终确定为异常声音信号。

在该方法包括多个检测级的实施例中，响应于在当前检测级的第一检测步骤或第二检测步骤中被判断为异常声音信号，该输入声音信号被输入到下一个检测级，并且，响应于在最后一个检测级的第一检测步骤或第二检测步骤中被判断为异常声音信号，该输入声音信号被最终确定为异常声音信号。

方法700中的检测级的数量可以根据需要而确定。例如，该方法可以包括预定数量的检测级。作为另一个例子，检测级的数量可根据后验知识来确定以使得检测结果被优化。

图8是根据本发明的一个实施例的用于检测异常声音的检测器800的示意性功能框图。检测器800可用于实施参考图7所描述的方法700。

检测器800可包括至少一个检测器级830，并且每一个检测器级830使用参考图3或图6所描述的方法或设备中生成的声音分类器中的一个对应的分类器级来检测异常声音信号。每一个检测器级830可包括第一检测单元810和第二检测单元820。应当理解，图8仅仅是示意性的功能框图，在实际中，对于不同的检测器级，第一检测单元810和第二检测单元820可以被重复使用，只是采用不同的对应分类器级中的声音模型和阈值。

下面更详细地描述图8中示出的单元。

第一检测单元810被配置为使用对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号。

第二检测单元820被配置为响应于所述输入声音信号未被第一检测单元810判断为异常声音信号，使用该对应的分类器级中的异常声音模型和第二阈值来进一步判断该输入声音信号是否为异常声音信号。

在检测器800仅包括一个检测器级830的实施例中，响应于被第一检测单元或第二检测单元判断为异常声音信号，该输入声音信号被最终确定为异常声音信号。

在检测器800包括多个检测器级830的实施例中，响应于被当前检测器级的第一检测单元或第二检测单元判断为异常声音信号，该输入声音信号被输入到下一个检测器级，并且，响应于被最后一个检测器级的第一检测单元或第二检测单元判断为异常声音信号，该输入声音信号被最终确定为异常声音信号。

检测器800中的检测器级的数量可以根据需要而确定。例如，检测器800可以包括预定数量的检测器级。作为另一个例子，检测器级的数量可根据后验知识来确定以使得检测结果被优化。

检测器800可以被结合到各种应用系统中，诸如监视系统中，以帮助检测事件。

应当理解，上面参照图6和图8描述的单元是用于实施本公开中描述的处理的示例性和/或优选的模块。这些模块可以是硬件单元(诸如处理器、专用集成电路等)和/或软件模块(诸如计算机程序)。以上并未穷尽描述用于实施各个步骤的模块。然而，只要有执行某个处理的步骤，就可以有用于实施同一处理的对应的功能模块或单元(由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中，只要它们构成的这些技术方案是完整并且可应用的。

此外，由各种单元构成的上述设备和检测器可以作为功能模块被并入到诸如计算机之类的硬件装置中。除了这些功能模块之外，计算机当然可以具有其他硬件或者软件部件。

接下来，将参考图9进行描述。图9是示出根据本发明的一个实施例的异常声音检测的一个具体示例的流程图。

在该示例中，根据图3或图6示出的方法或设备所生成的声音分类器以及如图7所示的检测方法被用于检测输入声音信号是否为异常声音。假设检测级的数量为M，其中M为大于1的整数。

在初始化框910中，当前检测级的级号k被设置为k＝1。然后处理进行到框920，计算输入声音信号相对于分类器级k(即，第k个分类器级)中的正常声音模型的条件概率CP1(k)。然后处理进行到框930，判断CP1(k)是否大于分类器级k中的第一阈值TH1(k)。如果CP1(k)＞TH1(k)，则处理进行到框940；否则，处理进行到框960。在框940，计算输入声音信号相对于分类器级k中的异常声音模型的条件概率CP2(k)。然后处理进行到框950，判断CP2(k)是否大于分类器级k中的第二阈值TH2(k)。如果CP2(k)＞TH2(k)，则处理进行到框960；否则，输入声音信号被确定为正常声音。在框960，级号k增加1，并且处理进行到框970，判断k是否大于最大的级数量M。如果k＞M，则输入声音信号被确定为异常声音；否则，处理返回到框920以进行下一个检测级的处理。

为了验证本发明的优点，进行了下述实验以比较根据本发明的方法和根据文档1的未使用任何异常声音模型的方法。

在该实验中，生成了4级的声音分类器。在生成该声音分类器的过程中，办公室背景声音被用作初始输入的声音样本，并且预先收集的7种异常声音被用作特定的异常声音样本，以用于生成声音分类器的每个分类器级。这7种异常声音是：拍手声、狗叫声、火警声、笑声、枪声、尖叫声、以及玻璃声(包括切割声(Cuttingsound)、撞击声(Hittingsound)、钻动声(Twistingsound)、掉落声(Fallingsound)和破裂声(Breakingsound))。

正常和异常声音模型都使用GMM。从用于建模的输入声音样本中以及从要检测的输入声音信号中提取出下列特征：MFCC(梅尔频率倒谱系数)、MFCC的一阶差分、C0(MFCC的第一维)的一阶差分、ZCR(过零率)的一阶差分、以及SC(频谱质心)的一阶差分。

在检测过程中，玻璃声被当作异常声音，来验证检测结果。然而，应当理解，这仅仅是一个典型示例，不会影响普遍结果。

评价量度基于F-score，其可以如下计算：

实验结果如图10所示。在图10中，“基准”列和“提案”列分别对应于文档1的方法和根据本发明的方法。从图10可以看出，与文档1的方法相比，根据本发明的方法可以将F-score所表示的性能从28.1％提高到36.8％，从而性能相对提高了31％。

可以通过许多方式来实施本发明的方法和设备。例如，可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的，本发明的方法步骤不限于以上具体描述的次序，除非以其他方式明确说明。此外，在一些实施例中，本发明还可以被实施为记录在记录介质中的程序，其包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。

虽然已通过示例详细展示了本发明的一些具体实施例，但是本领域技术人员应当理解，上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解，上述实施例可以被修改而不脱离本发明的范围和实质。本发明的范围是通过所附的权利要求限定的。

Claims

1.一种用于生成声音分类器的方法，所述声音分类器包括至少一个分类器级，对于生成每一个分类器级，所述方法包括以下步骤：

正常声音模型生成步骤，基于输入的声音样本生成正常声音模型；

第一阈值计算步骤，基于所述输入的声音样本和所述正常声音模型计算第一阈值，其中所述输入的声音样本根据所述正常声音模型和所述第一阈值被切分成第一正常声音样本和第一异常声音样本；

异常声音模型生成步骤，基于特定的异常声音样本和所述第一异常声音样本生成异常声音模型；和

第二阈值计算步骤，基于所述第一正常声音样本和所述异常声音模型计算第二阈值，其中所述第一正常声音样本根据所述异常声音模型和所述第二阈值被切分成第二正常声音样本和第二异常声音样本；

其中，该分类器级包括所述正常声音模型、所述第一阈值、所述异常声音模型和所述第二阈值，

如果所述声音分类器仅包括一个分类器级，则所述输入的声音样本为初始输入的声音样本，

如果所述声音分类器包括多个分类器级，则用于生成第一个分类器级的所述输入的声音样本为初始输入的声音样本，并且，对于其它分类器级，用于生成当前分类器级的所述输入的声音样本由生成上一个分类器级时所获得的第一异常声音样本和第二异常声音样本组成。

2.根据权利要求1所述的方法，其中所述正常声音模型和所述异常声音模型为高斯混合模型或隐马尔可夫模型。

3.根据权利要求1所述的方法，其中所述第一阈值计算步骤包括：

条件概率计算步骤，计算所述输入的声音样本中的每一个输入的声音样本相对于所述正常声音模型的条件概率；

排序步骤，根据计算得到的条件概率对所述输入的声音样本进行排序；

切分步骤，将排序后的所述输入的声音样本在第一切分点处切分为所述第一正常声音样本和所述第一异常声音样本，其中第一预定百分比的所述输入的声音样本被识别为所述第一正常声音样本；和

第一阈值确定步骤，将所述第一切分点处的输入的声音样本的条件概率确定为第一阈值。

4.根据权利要求1所述的方法，其中所述第二阈值计算步骤包括：

条件概率计算步骤，计算所述第一正常声音样本中的每一个第一正常声音样本相对于所述异常声音模型的条件概率；

排序步骤，根据计算得到的条件概率对所述第一正常声音样本进行排序；

切分步骤，将排序后的所述第一正常声音样本在第二切分点处切分为所述第二正常声音样本和所述第二异常声音样本，其中第二预定百分比的所述第一正常声音样本被识别为所述第二正常声音样本；和

第二阈值确定步骤，将所述第二切分点处的第一正常声音样本的条件概率确定为第二阈值。

5.一种用于检测异常声音的方法，所述方法包括至少一个检测级，每一个检测级使用根据权利要求1-4中任一项所述的方法所生成的声音分类器中的一个对应的分类器级，对于每一个检测级，所述用于检测异常声音的方法包括以下步骤：

第一检测步骤，使用所述对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号；和

第二检测步骤，响应于所述输入声音信号在第一检测步骤中未被判断为异常声音信号，使用所述对应的分类器级中的异常声音模型和第二阈值来判断所述输入声音信号是否为异常声音信号。

6.根据权利要求5所述的方法，其中，如果所述方法仅包括一个检测级，则响应于在第一检测步骤或第二检测步骤中被判断为异常声音信号，所述输入声音信号被最终确定为异常声音信号。

7.根据权利要求5所述的方法，其中，如果所述方法包括多个检测级：

响应于在当前检测级的第一检测步骤或第二检测步骤中被判断为异常声音信号，所述输入声音信号被输入到下一个检测级，并且

响应于在最后一个检测级的第一检测步骤或第二检测步骤中被判断为异常声音信号，所述输入声音信号被最终确定为异常声音信号。

8.一种用于生成声音分类器的设备，所述声音分类器包括至少一个分类器级，对于生成每一个分类器级，所述设备包括以下单元：

正常声音模型生成单元，被配置为基于输入的声音样本生成正常声音模型；

第一阈值计算单元，被配置为基于所述输入的声音样本和所述正常声音模型计算第一阈值，其中所述输入的声音样本根据所述正常声音模型和所述第一阈值被切分成第一正常声音样本和第一异常声音样本；

异常声音模型生成单元，被配置为基于特定的异常声音样本和所述第一异常声音样本生成异常声音模型；和

第二阈值计算单元，被配置为基于所述第一正常声音样本和所述异常声音模型计算第二阈值，其中所述第一正常声音样本根据所述异常声音模型和所述第二阈值被切分成第二正常声音样本和第二异常声音样本；

9.根据权利要求8所述的设备，其中所述正常声音模型和所述异常声音模型为高斯混合模型或隐马尔可夫模型。

10.根据权利要求8所述的设备，其中所述第一阈值计算单元包括：

条件概率计算单元，被配置为计算所述输入的声音样本中的每一个输入的声音样本相对于所述正常声音模型的条件概率；

排序单元，被配置为根据计算得到的条件概率对所述输入的声音样本进行排序；

切分单元，被配置为将排序后的所述输入的声音样本在第一切分点处切分为所述第一正常声音样本和所述第一异常声音样本，其中第一预定百分比的所述输入的声音样本被识别为所述第一正常声音样本；和

第一阈值确定单元，被配置为将所述第一切分点处的输入的声音样本的条件概率确定为第一阈值。

11.根据权利要求8所述的设备，其中所述第二阈值计算单元包括：

条件概率计算单元，被配置为计算所述第一正常声音样本中的每一个第一正常声音样本相对于所述异常声音模型的条件概率；

排序单元，被配置为根据计算得到的条件概率对所述第一正常声音样本进行排序；

切分单元，被配置为将排序后的所述第一正常声音样本在第二切分点处切分为所述第二正常声音样本和所述第二异常声音样本，其中第二预定百分比的所述第一正常声音样本被识别为所述第二正常声音样本；和

第二阈值确定单元，被配置为将所述第二切分点处的第一正常声音样本的条件概率确定为第二阈值。

12.一种用于检测异常声音的检测器，所述检测器包括至少一个检测器级，每一个检测器级使用根据权利要求1-4中任一项所述的方法或根据权利要求8-11中任一项所述的设备所生成的声音分类器中的一个对应的分类器级，对于每一个检测器级，所述检测器包括以下单元：

第一检测单元，被配置为使用所述对应的分类器级中的正常声音模型和第一阈值来判断输入声音信号是否为异常声音信号；和

第二检测单元，被配置为响应于所述输入声音信号未被第一检测单元判断为异常声音信号，使用所述对应的分类器级中的异常声音模型和第二阈值来判断所述输入声音信号是否为异常声音信号。

13.根据权利要求12所述的检测器，其中，如果所述检测器仅包括一个检测器级，则响应于被第一检测单元或第二检测单元判断为异常声音信号，所述输入声音信号被最终确定为异常声音信号。

14.根据权利要求12所述的检测器，其中，如果所述检测器包括多个检测器级：

响应于被当前检测器级的第一检测单元或第二检测单元判断为异常声音信号，所述输入声音信号被输入到下一个检测器级，并且

响应于被最后一个检测器级的第一检测单元或第二检测单元判断为异常声音信号，所述输入声音信号被最终确定为异常声音信号。

15.一种监视系统，包括根据权利要求12-14中任一项所述的用于检测异常声音的检测器。