CN106558317A

CN106558317A - 声音处理装置和声音处理方法

Info

Publication number: CN106558317A
Application number: CN201610844554.9A
Authority: CN
Inventors: 黑木智彦
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-09-24
Filing date: 2016-09-22
Publication date: 2017-04-05
Also published as: JP6682222B2; JP2017062349A; US20170092296A1; EP3147902B1; US10109299B2; EP3147902A1

Abstract

本发明提供一种声音处理装置和声音处理方法。所述声音处理装置包括：检测单元，其适于从通过摄像单元对被摄对象进行摄像而生成的图像数据，检测被摄对象的状况；提取单元，其适于从由与所述摄像单元相对应的声音获取单元生成的声音数据，提取声音的特征量；以及确定单元，其适于根据由所述检测单元检测到的被摄对象的状况，执行将由所述提取单元提取的声音的特征量与特定声音的特征量进行比较的处理，由此确定声音是否包含特定声音。

Description

声音处理装置和声音处理方法

技术领域

本发明涉及一种声音处理装置和声音处理方法，尤其是涉及一种检测声音的技术。

背景技术

在监视摄像机系统中，已知用户用来监视摄像现场声音的声音监视。特别是在近来的监视摄像机系统中，自动检测来自现场的声音的异常并进行通知而无需观察者24小时监视的异常声音检测是已知的。日本特开2004-357014号公报描述了一种基于诸如声音的频率或倒谱(cepstrum)等的特征量来检测异常声音并且进行通知的方法，以及一种为了减少误检测而通过使用特征量数据库存储周围环境声音的特征量来确定环境声音是否是异常声音的方法。

不幸的是，传统布置通过参照在特定状况下预先登记现场环境的特征量的特征量数据库来进行确定。因此，在与获得数据库中的特征量的环境不同的状况下，不能获得足够的检测精度。特别是在进行24小时监视的监视摄像机中，根据时区显著地出现现场环境的变化，并且检测精度依据状况而大幅降低。

发明内容

本发明提供一种能够精确地检测特定声音的技术，并且具有例如以下布置。

根据本发明的一方面，一种声音处理装置包括：检测单元，其适于，从通过摄像单元对被摄对象进行摄像而生成的图像数据，检测所述被摄对象的状况；提取单元，其适于，从由与所述摄像单元相对应的声音获取单元生成的声音数据，提取声音的特征量；以及确定单元，其适于，根据由所述检测单元检测到的所述被摄对象的状况，执行将由所述提取单元提取的所述声音的特征量、与特定声音的特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。

根据本发明的另一方面，一种声音处理方法包括：检测步骤，从通过摄像单元对被摄对象进行摄像而生成的图像数据，检测所述被摄对象的状况；提取步骤，从由与所述摄像单元相对应的声音获取单元生成的声音数据，提取声音的特征量；以及确定步骤，根据在所述检测步骤中检测到的所述被摄对象的状况，执行将在所述提取步骤中提取的所述声音的特征量、与特定声音的特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。

通过以下(参照附图)对示例性实施例的描述，本发明的进一步特征将变得清楚。

附图说明

图1是示出监视摄像机系统的功能构造的框图；

图2是示出监视摄像机系统的硬件构造的框图；

图3是示出特征量数据库的布置的图；

图4A和图4B是示出异常声音检测的过程的流程图；

图5是监视摄像机系统的框图；

图6是示出异常声音检测的过程的流程图；

图7是监视摄像机系统的框图；

图8是示出特征量数据库的布置的图；

图9A和图9B是示出异常声音检测的过程的流程图；

图10是监视摄像机系统的框图；以及

图11是示出异常声音检测的过程的流程图。

具体实施方式

下面，将参照附图详细说明本发明的实施例。注意，在以下实施例中公开的布置仅仅是示例，并且本发明并不限于附图中所示的那些实施例。

(监视系统)

将参照图1说明根据本发明的实施例的监视系统的构造示例。图1是示出根据该实施例的监视系统的功能构造的框图。

异常声音监视系统A1000是用于在摄像现场监视人的异常的系统。如果人在摄像现场尖叫或呼喊，则异常声音监视系统A1000将它检测为异常声音，并向监视装置A1014通知该事件。异常声音监视系统A1000包括视频输入装置A1008、声音输入装置A1001、信息处理器A1015和通信单元A1013，并且通信单元A1013连接到外部监视装置A1014。声音输入装置A1001是用于输入通过收集被摄对象周围的声音而生成的声音数据的装置，并且包括麦克风等。视频输入装置A1008是用于通过对周围环境进行摄像来生成并输入图像(视频)的装置，并且包括摄像机等。

下面，将说明由视频输入装置A1008获得的图像的视角与由声音输入装置A1001收集的声音之间的关系。当由视频输入装置A1008获得的图像的视角与声音输入装置A1001能够收集声音的声音收集范围匹配时，能够更精确地检测特定声音。然而，检测特定声音的一个目的是检测图像的视角外部的变化。例如，在如下的应用中检测特定声音，在该应用中，视频输入装置A1008的视角被改变为在检测到特定声音的方向上进行摄像。因此，能够使声音输入装置A1001能够收集声音的声音收集范围宽于图像的视角。在该情况下，也能够增加特定声音检测精度。

信息处理器A1015包括视频信息处理器A1016、声音信息处理器A1017、检测计时器单元A1018和事件通知单元A1012。视频信息处理器A1016处理输入的视频信息。声音信息处理器A1017处理输入的声音信息。检测定时器单元A1018通过使用计时器来确定视频检测的频率。事件通知单元A1012向外部输出通知事件。

视频信息处理器A1016包括用于保持输入的图像的视频输入单元A1009，和用于从输入的图像检测现在的周围信息的周围状况检测器A1010。周围状况检测器A1010从通过对被摄对象进行摄像而生成的图像数据，检测该对象的状况。在该实施例中，周围状况检测器A1010对基于从视频输入单元A1009输入的视频的图像帧中的人进行计数，并且以“单人”、“多人”和“许多人(人群)”三个阶段输出结果。作为对人进行计数的方法，使用脸部检测或模板匹配等。能够使用任何方法，作为这种脸部检测或模板匹配。用于输出结果的确定准则是，当存在0人或1人时为“单人”，当存在2至20人时为“多人”，而当存在多于20人时为“许多人”。

声音信息处理器A1017包括声音输入单元A1002、特征量提取器A1003、特征量匹配单元A1004、特征量数据库A1005、似然度计算器A1006、检测结果确定单元A1007和数据库构造确定单元A1011。声音输入单元A1002从声音输入装置A1001接收输入声音。特征量提取器A1003从声音输入单元A1002输入的声音数据(输入声音)提取声音的特征量。在此所使用的特征量的示例是，声音的基础频率、共振峰频率或频谱，由声音的倒谱获得的梅尔频率倒谱系数(MFCC)，过零点(zero crossing)，以及子带能量。将省略对MFCC、过零点以及子带能量的详细说明。

特征量数据库A1005存储并保持包括异常声音的特定声音的特征量。如稍后将要描述的，特征量数据库A1005针对多个周围状况中的各个(在该实施例中是输入图像中的人的数量)，保持代表声音特征的特征量。特征量匹配单元A1004具有将由特征量提取器A1003提取的特征量、与特征量数据库A1005中的与周围状况相对应的各个特征量进行比较的功能。

似然度计算器A1006基于特征量匹配单元A1004的结果，针对特征量数据库A1005中的各个匹配目标的特征量，计算输入声音的特征量的似然度。似然度计算器A1006通过所谓的N-最佳(N-Best)，输出用于检测结果的候选以及它们的似然度计算得分。将省略对N-最佳的详细说明。

检测结果确定单元A1007使用从似然度计算器A1006输出的头等候选，作为检测结果。如果该候选是被登记为异常声音的声音并且得分已经超过预定阈值，则检测结果确定单元A1007确定发生了异常，并且向事件通知单元A1012通知异常。

数据库构造确定单元A1011具有根据表示由周围状况检测器A1010检测到的人的数量和拥堵的信息来切换在特征量数据库A1005中登记的特征量的构造的功能。

图2是示出根据该实施例的异常声音监视系统A1000的硬件构造示例的框图。异常声音监视系统A1000由个人计算机(PC)、平板终端等来实现。

在图2中，CPU 990是中央处理单元，并且基于计算机程序与其他构成要素协作地控制整个异常声音监视系统A1000的操作。ROM 991是只读存储器，并且存储基本程序以及要在基本处理中使用的数据。RAM992是可写入存储器，并且用作例如CPU 990的工作区域。

外部存储器驱动993实现到存储介质的访问，并且能够将在诸如USB存储器等的介质(存储介质)994中存储的计算机程序和数据加载到该系统中。存储器995是用作诸如SSD(固态驱动)等的大容量存储器的设备。存储器995存储各种计算机程序和数据。

操作单元996是用于接受由用户输入的指令和命令的设备，并且包括键盘、指点设备、触摸面板等。显示器997是用于显示例如从操作单元996输入的命令以及从异常声音监视系统A1000对命令输出的响应的显示设备。接口(I/F)998是用于对系统和外部装置之间的数据交换进行中介的设备。系统总线999是数据流入异常声音监视系统A1000的数据总线。

通过CPU 990基于计算机程序控制整个系统，来实现图1中所示的异常声音监视系统A1000的各个功能要素。然而，也可以由专用硬件形成这些功能要素中的一些或所有。

(特征量数据库)

图3是示出根据该实施例的特征量数据库A1005的构造示例的图。特征量数据库A1005包含尖叫声音特征量D002、困难(difficult)声音(检测精度降低的特定声音)特征量[人群]D003、困难声音特征量[多人]D004以及困难声音特征量[单人]D005。尖叫声音特征量D002是诸如尖叫、呼喊或呻吟等的人的异常声音的特征量。

困难声音特征量是接近尖叫声音的困难声音的特征量。在该实施例中，困难声音特征量被以如下方式保持：根据人的数量将困难声音特征量分类成困难声音特征量[人群]D003、困难声音特征量[多人]D004和困难声音特征量[单人]D005。困难声音特征量[人群]D003具有如同没有许多人就无法生成的声音的、诸如“欢呼”、“鼓掌”和“骚动”等的特征量。困难声音特征量[多人]D004具有如同没有多人就无法生成的声音的、诸如“谈话(多人)”、“笑声(多人)”和“拍手(多人)”等的特征量。困难声音特征量[单人]D005具有如同甚至由单人就能够生成的声音的、诸如“笑声”、“哭声”和“呼叫”等的特征量。

如上所述，特征量数据库A1005中的特征量由根据内容分组的多个特征量数据形成。能够将这些特征量根据需要从数据库动态地取消或设置在数据库中，因此能够从特征量匹配单元A1004(D006)的匹配目标被排除或者被包括在特征量匹配单元A1004(D006)的匹配目标中。

(操作过程)

下面将参照图4A和图4B中所示的流程图，说明根据从图像输入的现在的状况来替换特征量数据库的内容的操作的过程。在CPU 990的控制下执行下面的步骤中的各个。

在该实施例中，通过将由周围状况检测器A1010检测到的与被摄对象的状况相对应的特定声音的特征量、与由特征量提取器A1003提取的特征量进行比较，来检测特定声音。更具体地，在图4A中所示的步骤S101至S112中，执行如下的特征量数据库构造更新处理，该处理根据基于输入的视频信息而检测到的被摄对象的状况，更新特征量数据库A1005的构造。然后，在图4B中所示的步骤S113至S120中，执行通过使用更新后的特征量数据库A1005来检测异常声音的异常声音检测处理。在如上所述的该实施例中，通过使用与被摄对象的状况相对应的特征量数据库A1005来检测异常声音，因此，能够精确地检测异常声音，而不考虑被摄对象的状况。

异常声音监视系统A1000在启动时，在步骤S101中接收来自视频输入装置A1008的视频信息，并将该信息存储在视频输入单元A1009中。然后，在步骤S102中，周围状况检测器A1010分析输入的视频信息，并检测图像上的人的数量和拥堵(拥堵程度)。

随后，在步骤S103中，基于由周围状况检测器A1010检测到的信息，确定拥堵是否处于许多人水平(人群)。如果结果为真(在步骤S103中为是)，则处理前进到步骤S105，而如果结果为假(在步骤S103中为否)，则前进到步骤S104。

在步骤S104中，确定困难声音特征量[人群]D003是否被设置在现在的特征量数据库A1005中。如果结果为真(在步骤S104中为是)，则处理前进到步骤S106，而如果结果为假(在步骤S104中为否)，则前进到步骤S108。

在步骤S105中，确定困难声音特征量[人群]D003是否被设置在现在的特征量数据库A1005中。如果结果为真(在步骤S105中为是)，则处理前进到步骤S109，而如果结果为假，则前进到步骤S107。

在步骤S106中，从特征量数据库A1005取消存储在现在的状况中未发出的、人群的声音的特征量的困难声音特征量[人群]D003。然后，处理前进到步骤S108。

在步骤S107中，将存储在现在的状况中能够发出的、人群的声音的特征量的困难声音特征量[人群]D003设置在特征量数据库A1005中。然后，处理前进到步骤S109。

在步骤S108中，基于由周围状况检测器A1010检测到的信息，确定拥堵是否处于多人水平。如果结果为真(在步骤S108中为是)，则处理前进到步骤S109，而如果结果为假(在步骤S108中为否)，则前进到步骤S110。

在步骤S109中，确定困难声音特征量[多人]D004是否被设置在现在的特征量数据库A1005中。如果结果为真(在步骤S109中为是)，则处理前进到步骤S113，而如果结果为假(在步骤S109中为否)，则前进到步骤S111。

在步骤S110中，确定困难声音特征量[多人]D004是否被设置在现在的特征量数据库A1005中。如果结果为真(在步骤S110中为是)，则处理前进到步骤S112，而如果结果为假(在步骤S110中为否)，则前进到步骤S113。

在步骤S111中，将存储在现在的状况中能够发出的、多人的声音的特征量的困难声音特征量[多人]D004设置在特征量数据库A1005中。然后，处理前进到步骤S113。

在步骤S112中，从特征量数据库A1005取消存储在现在的状况中未发出的、多人的声音的特征量的困难声音特征量[多人]D004。然后，处理前进到步骤S113。

在步骤S113中，将用于进行用于更新特征量数据库A1005的下一周围状况检测的5秒的超时时间，设置在检测计时器单元A1018中。在步骤S114中，特征量提取器A1003提取输入到声音输入单元A1002的声音的特征量。在步骤S115中，特征量匹配单元A1004将由特征量提取器A1003提取的特征量与特征量数据库A1005中的各个特征量进行比较。

然后，在步骤S116中，似然度计算器A1006计算数据库A1005中的各个特征量与输入声音的特征量之间的似然度。

在步骤S117中，检测结果确定单元A1007确定似然度计算结果的最接近声音是否是尖叫声音并且其似然度是否超过了预定阈值。如果具有超过阈值的似然度的尖叫声音被检测为异常声音，则向事件通知单元A1012通知该信息。经由通信单元A1013向监视装置A1014通知事件信息。

在步骤S118中，确定声音是否被输入到声音输入单元A1002。如果结果为真(在步骤S118中为是)，则处理前进到步骤S113，而如果结果为假(在步骤S118中为否)，则前进到步骤S119。

在步骤S119中，确定异常声音检测系统开/关(ON/OFF)SW(switch,开关)(未示出)是否被用户操作。如果结果为真(在步骤S119中为是)，则终止根据流程图的处理，而如果结果为假(在步骤S119中为否)，则前进到步骤S120。

在步骤S120中，确定检测计时器单元A1018是否已经超时。如果结果为真(在步骤S120中为是)，则处理前进到步骤S101，而如果结果为假(在步骤S120中为否)，则前进到步骤S118。

如上所述，在特征量数据库构造更新处理中设置与在步骤S102中检测到的人的拥堵程度相对应的特征量，并且在异常声音检测处理中基于特征量检测异常声音。因此，通过使用对现在的状况最佳的特征量数据库进行异常声音检测，能够提高检测精确度。另外，在该实施例中，基于被摄对象的状况更新特征量数据库中的特征量，并且通过将更新后的特征量数据库中的特征量与所提取的特征量进行比较来检测特定声音。更具体地，将与被摄对象的状况相对应的特征量数据设置在特征量数据库中，或者从特征量数据库取消不必要的特征量数据。这使得能够降低特征量比较处理和似然度计算处理的成本，由此减小CPU负荷并提高处理速度。

注意，图4A和图4B的流程图示出了如果发现拥堵水平是人群水平时(在步骤S103中为是)，则不仅设置困难声音特征量[人群]D003，还设置困难声音特征量[多人]D004(步骤S107和S111)的示例。然而，为了增加处理的效率，如果拥堵水平是人群水平，则还能够只设置困难声音特征量[人群]D003。

此外，该实施例已经说明了检测基于图像数据的图像中包含的人的数量作为被摄对象的状况的示例。然而，本发明不限于此。例如，作为被摄对象的状况，代替人，还能够检测诸如汽车、火车、轮船或制造装置等的特定物体的数量。作为可选方案，也可以检测基于图像数据的图像的亮度，作为被摄对象的状况。

上述实施例已经说明了如下的示例，在该示例中，根据检测到的被摄对象的状况更新特征量数据库的内容，由此将与被摄对象的状况相对应的特定声音的特征量，设置为要与从声音数据提取的特征量进行比较的目标。接下来，将说明如下的示例，在该示例中，通过根据被摄对象的状况对特征量数据库中保持的特征量的似然度进行加权，将与检测到的被摄对象的状况相对应的特定声音的特征量设置为比较目标。

(监视系统)

将参照图5说明根据本发明的另一实施例的监视系统的构造示例。图5是示出根据该实施例的监视系统的功能构造的框图。注意，监视系统的硬件构造与上述实施例(图2)中的相同。

异常声音监视系统B1000是用于在摄像现场监视人的异常的系统。如果人在摄像现场尖叫或者呼喊，则异常声音监视系统B1000检测尖叫或呼喊作为异常声音，并向监视装置A1014通知该事件。

不同于图1中所示的异常声音监视系统A1000，该实施例的异常声音监视系统B1000包括用于根据周围状况来改变似然度计算的权重的似然度权重确定单元B1011，代替数据库构造确定单元A1011。另外，该实施例的似然度计算器B1006与图1中所示的似然度计算器A1006的不同之处在于，通过考虑根据周围状况而加权的似然度计算的结果来进行似然度计算。其余的布置与在上述的第一实施例中说明的图1中所示的异常声音监视系统A1000的相同，所以将省略其详细说明。如在上述的实施例中，图3示出了特征量数据库A1005的构造示例。

权重确定单元B1011由周围状况检测器A1010的结果，确定现在发出特征量数据库A1005中的各个特征量的声音的概率，并且针对各个特征量的似然度计算得分，计算加权系数。更具体地，对于与检测到的被摄对象的状况相对应的特征量的似然度，权重确定单元B1011通过比与检测到的被摄对象的状况不对应的特征量的似然度更大的值来进行加权。例如，如果周围状况检测器A1010的结果是“许多人(人群)”，则权重确定单元B1011确定对于特征量数据库A1005中的所有声音而言发出的概率足够高，并且设置1作为图5中的所有困难声音特征量D003至D005的加权系数。

如果周围状况检测器A1010的结果不是“许多人”而是“多人”，则权重确定单元B1011确定发出困难声音特征量[人群]D003的特征量的声音的概率是低的，并且设置0.9作为困难声音特征量[人群]D003的加权系数。权重确定单元B1011通过确定发出概率是足够高的，设置1作为困难声音特征量D004和D005的加权系数。

如果周围状况检测器A1010的结果是“单人”，则权重确定单元B1011确定发出困难声音特征量[人群]D003的概率是最低的，并且设置0.8作为加权系数。权重确定单元B1011确定发出困难声音特征量[多人]D004的特征量的声音的概率是低的，并且设置0.9作为加权系数。权重确定单元B1011确定困难声音特征量[单人]D005的发出概率是足够高的，并且设置1作为加权系数。另外，权重确定单元B1011设置1作为尖叫声音特征量D002的加权系数作为异常声音，而不管周围状况检测结果。

除了A1006的功能之外，似然度计算器B1006将似然度得分乘以基于权重确定单元B1011的结果的加权系数，由此计算最终的似然度计算结果。假设周围状况检测器A1010的结果是“单人”，并且以欢呼：70，尖叫：69和鼓掌：66的顺序计算检测结果候选。在这种情况下，这些候选分别被乘以0.8、1.0和0.9的加权系数，所以最终候选和得分是尖叫：69，鼓掌：59和欢呼：56。

(操作过程)

下面将参照图6中所示的流程图，说明根据从图像输入的现在的状况对似然度计算进行加权的操作的过程。在CPU 990的控制下执行以下步骤中的各个。注意，与图4A和图4B中相同的附图标记在图6中表示相同的处理。

在图6中的步骤S101至S204中，执行根据基于输入的视频信息检测到的、被摄对象的状况来改变要应用到各个特征量的似然度权重的似然度计算权重改变处理。然后，在步骤S113至S120中，执行通过使用改变后的似然度权重来检测异常声音的异常声音检测处理。在如上所述的该实施例中，通过根据被摄对象的状况对似然度进行加权来检测异常声音。因此，能够精确地检测异常声音，而不管被摄对象的状况。

异常声音监视系统B1000在启动时，在步骤S101中将来自视频输入装置A1008的视频信息存储在视频输入单元A1009中。然后，在步骤S102中，周围状况检测器A1010分析输入的视频信息，并检测图像上的人的数量和拥堵(拥堵程度)。

随后，在步骤S203中，似然度权重确定单元B1011由步骤S102中的结果，计算困难声音特征量[人群]D003的似然度加权系数。在该步骤中，当人的数量是“单人”、“多人”和“许多人(人群)”时，分别将0.8、0.9和1.0设置为加权系数。

在步骤S204中，似然度权重确定单元B1011由步骤S102中的结果，计算困难声音特征量[多人]D004的似然度加权系数。在该步骤中，当人的数量是“单人”时，将0.9设置为加权系数，而当人的数量是“多人”和“许多人”时，将1.0设置为加权系数。

在步骤S205中，似然度权重确定单元B1011由步骤S102中的结果，计算困难声音特征量[单人]D005的似然度加权系数。在困难声音特征量[单人]D005的情况下，将1.0设置为加权系数，而不管检测到的人的数量。

在步骤S113中，将用于进行用于更新特征量数据库A1005的下一周围状况检测的5秒的超时时间，设置在检测计时器单元A1018中。在步骤S114中，特征量提取器A1003提取输入到声音输入单元A1002的声音的特征量。在步骤S115中，特征量匹配单元A1004将由特征量提取器A1003提取的特征量与特征量数据库A1005中的特征量进行比较。

在步骤S216中，似然度计算器B1006计算乘以由似然度权重确定单元B1011计算出的系数的特征量数据库A1005中的各个特征量、与输入声音的特征量之间的似然度。

在步骤S119中，确定异常声音检测系统开/关SW(开关)(未示出)是否被用户操作。如果结果为真(在步骤S119中为是)，则终止根据流程图的处理，而如果结果为假(在步骤S119中为否)，则前进到步骤S120。

在如上所述的该实施例中，由现在的状况考虑到发出的概率，并且通过对似然度计算进行加权来推导检测结果。这使得能够通过更适合于被摄对象的状况的特征量来检测诸如异常声音等的特定声音，并且能够提高异常声音检测的检测精确度。

上述实施例已经说明了如下的示例，在该示例中，检测基于图像数据的图像中包含的特定物体(人)的数量，作为被摄对象的状况。接下来，将说明如下的示例，在该示例中，通过检测汽车的通过频率或交通堵塞的程度作为被摄对象的状况，来检测交通环境的特殊声音(特定声音)。

(监视系统)

将参照图7说明根据本发明的又一实施例的监视系统的构造示例。图7是示出根据该实施例的监视系统的功能构造的框图。注意，监视系统的硬件构造与上述实施例(图2)中的相同。

该实施例的异常声音监视系统C1000是用于监视道路的交通状况的异常的系统。如果在摄像现场中产生碰撞声音、玻璃破碎声音、爆炸声音等，则异常声音监视系统C1000检测该声音作为异常声音，并向监视装置A1014通知该事件。

不同于图1中所示的异常声音监视系统A1000，该实施例的异常声音监视系统C1000包括交通状况检测器C1010，代替周围状况检测器A1010。另外，异常声音监视系统C1000包括存储交通声音的特征量的特征量数据库(交通声音特征量数据库)C1005，代替存储关于尖叫声音的特征量的特征量数据库A1005。

交通状况检测器C1010在基于从视频输入单元A1009输入的图像的帧中，检测汽车的数量、通过速度和通过频率，并且由这些信息确定交通状况。作为该实施例的示例，如果帧中的汽车当中的5辆或更多的汽车以20km/h或更低的通过速度运行的状态继续15分钟或以上，则输出“拥堵”作为交通状况。因此，即使当仅单向上的行车道拥堵时，也输出“拥堵”。另外，在并非上述“拥堵”并且每15分钟通过的汽车数量是125或更多的状态下，输出“交通繁忙”作为交通状况。在其他情况下，输出“正常”作为交通状况。

能够使用模板匹配等作为对汽车进行计数的方法。此外，能够使用运动检测和通过检测作为获得汽车的通过速度和通过频率的方法。能够使用公知的方法，作为模板匹配、运动检测和通过检测。其余的布置与在上述的实施例中描述的图1中所示的异常声音监视系统A1000的相同。

(特征量数据库)

图8是示出根据该实施例的特征量数据库C1005的构造示例的图。特征量数据库C1005包括碰撞/破碎声音特征量D102、环境声音特征量[拥堵]D103、环境声音特征量[交通繁忙]D104以及环境声音特征量[基本]D105。碰撞/破碎声音特征量D102是交通的异常声音特征量。

环境声音特征量是被摄对象周围的环境声音的特征量。在该实施例中，为了减少误检测，环境声音特征量被保持为将环境声音特征量分类成环境声音特征量[拥堵]D103、环境声音特征量[交通繁忙]D104和环境声音特征量[基本]D105。环境声音特征量[拥堵]103具有如同作为交通状况的只有汽车堵塞才会产生的声音的、诸如“空转(普通大小的汽车)”，“空转(大型汽车)”和“喇叭(多个)”等的特征量。环境声音特征量[交通繁忙]D104具有如同只有交通非常繁忙然而并不拥堵才会产生的声音的、诸如“通过声音(多个)”、“振动声音”和“发动机噪声”等的特征量。环境声音特征量[基本]D105具有如同能够在基本交通状况中产生的声音的、诸如“喇叭(单个)”、“制动尖叫”和“警笛声音”等的特征量。

特征量数据库C1005中的特征量由根据内容分组的多个特征量数据形成。能够将这些特征量根据需要从数据库动态地取消或设置在数据库中，因此能够从特征量匹配单元A1004(D106)的匹配目标被排除或被包括在特征量匹配单元A1004(D006)的匹配目标中。

(操作过程)

下面将参照图9A和图9B中所示的流程图，说明根据从图像输入的现在的状况来替换特征量数据库的内容的操作的过程。在CPU 990的控制下执行下面的步骤中的各个。注意，与图4A和图4B中相同的附图标记在图9A和图9B中表示相同的处理。

在图9A的步骤S101至S312中，执行如下的特征量数据库构造更新处理，该处理根据基于输入的视频信息而检测到的被摄对象的状况，更新特征量数据库C1005的构造。然后，在图9B中的步骤S113至S120中，执行通过使用更新后的特征量数据库C1005来检测异常声音的异常声音检测处理。在如上所述的该实施例中，通过使用与被摄对象的状况相对应的特征量数据库C1005来检测异常声音，因此，能够精确地检测异常声音，而不管被摄对象的状况。

异常声音监视系统C1000在启动时，在步骤S101接收来自视频输入装置A1008的视频信息，并将该信息存储在视频输入单元A1009中。然后，在步骤S302中，交通状况检测器C1010分析输入的视频信息，并由图像上的汽车的数量、通过速度和通过频率检测拥堵程度和交通。在步骤S303中，基于由交通状况检测器C1010检测到的信息，确定交通状况是否是拥堵。如果结果为真(在步骤S303中为是)，则处理前进到步骤S305，而如果结果为假(在步骤S303中为否)，则前进到步骤S304。

在步骤S304中，确定环境声音特征量[拥堵]D103是否被设置在现在的特征量数据库C1005中。如果结果为真(在步骤S304中为是)，则处理前进到步骤S306，而如果结果为假(在步骤S304中为否)，则前进到步骤S308。

在步骤S305中，确定环境声音特征量[拥堵]D103是否被设置在现在的特征量数据库C1005中。如果结果为真(在步骤S305中为是)，则处理前进到步骤S309，而如果结果为假(在步骤S305中为否)，则前进到步骤S307。

在步骤S306中，从特征量数据库C1005取消存储在现在的交通状况中未产生的、拥堵的声音的特征量的环境声音特征量[拥堵]D103。然后，处理前进到步骤S308。

在步骤S307中，将存储在现在的交通状况中能够产生的、拥堵的声音的特征量的环境声音特征量[拥堵]D103设置在特征量数据库C1005中。

在步骤S308中，基于由交通状况检测器C1010检测到的信息，确定交通是否是繁忙。如果结果为真(在步骤S308中为是)，则处理前进到步骤S310，而如果结果为假(在步骤S308中为否)，则前进到步骤S309。

在步骤S309中，确定环境声音特征量[交通繁忙]D104是否被设置在现在的特征量数据库C1005中。如果结果为真(在步骤S309中为是)，则处理前进到步骤S311，而如果结果为假(在步骤S309中为否)，则前进到步骤S113。

在步骤S310中，确定环境声音特征量[交通繁忙]D104是否被设置在现在的特征量数据库C1005中。如果结果为真(在步骤S310中为是)，则处理前进到步骤S113，而如果结果为假(在步骤S310中为否)，则前进到步骤S312。

在步骤S311中，从特征量数据库C1005取消存储在现在的交通状况中未产生的、当交通繁忙时的声音的特征量的环境声音特征量[交通繁忙]D104。然后，处理前进到步骤S113。

在步骤S312中，将存储在现在的交通状况中能够产生的、当交通繁忙时的声音的特征量的环境声音特征量[交通繁忙]D104设置在特征量数据库C1005中。然后，处理前进到步骤S113。

在步骤S113中，将用于进行用于更新特征量数据库C1005的下一交通状况检测的5秒的超时时间，设置在检测计时器单元A1018中。在步骤S114中，特征量提取器A1003提取输入到声音输入单元A1002的声音的特征量。在步骤S315中，特征量匹配单元A1004将由特征量提取器A1003提取的特征量与特征量数据库C1005中的各个特征量进行比较。

然后，在步骤S116中，似然度计算器A1006计算数据库C1005中的各个特征量与输入声音的特征量之间的似然度。

在步骤S117中，检测结果确定单元A1007确定似然度计算结果的最接近声音是否是碰撞/破碎声音并且其似然度是否超过了预定阈值。如果具有超过阈值的似然度的碰撞/破碎声音被检测为异常声音，则向事件通知单元A1012通知该信息。经由通信单元A1013向监视装置A1014通知事件信息。

在如上所述的该实施例中，根据现在的状况更新特征量数据库，并且通过使用最佳的特征量数据库来进行异常声音检测。因此，能够维持高的检测精确度，而不管交通状况。另外，该实施例通过从特征量数据库取消不必要的特征量数据，减少了特征量的比较处理和似然度计算处理。这使得能够降低CPU负荷并提高处理速度。

上述实施例已经说明了如下的示例，在该示例中，当对交通环境进行摄像时，根据检测到的被摄对象的状况而更新特征量数据库的内容，由此将与被摄对象的状况相对应的特定声音的特征量，设置为要与从声音数据提取的特征量进行比较的目标。接下来，将说明如下的示例，在该示例中，通过根据被摄对象的状况对特征量数据库中保持的特征量的似然度进行加权，将与检测到的被摄对象的状况相对应的特定声音的特征量设置为比较目标。

(监视系统)

将参照图10说明根据本发明的再一实施例的监视系统的构造示例。图10是示出根据该实施例的监视系统的功能构造的框图。注意，监视系统的硬件构造与上述实施例(图2)中的相同。

异常声音监视系统D1000是用于监视道路的交通状况的异常的系统。如果在摄像现场中产生碰撞声音、玻璃破碎声音、爆炸声音等，则异常声音监视系统D1000检测该声音作为异常声音，并向监视装置A1014通知该事件。

不同于图7中所示的异常声音监视系统C1000，该实施例的异常声音监视系统D1000包括用于根据周围状况来改变似然度计算的权重的似然度权重确定单元B1011，代替数据库构造确定单元A1011。另外，该实施例的似然度计算器B1006与图7中所示的似然度计算器A1006的不同之处在于，通过考虑根据周围状况而加权的似然度计算的结果来进行似然度计算。其余的布置与在上述的第一实施例中说明的图7中所示的异常声音监视系统C1000的相同，所以将省略其详细说明。

权重确定单元B1011由交通状况检测器C1010的结果，确定现在产生特征量数据库C1005中的各个特征量的声音的概率，并且针对各个特征量的似然度计算得分，计算加权系数。如果交通状况检测器C1010的结果是“拥堵”，则权重确定单元B1011确定在特征量数据库C1005中的环境声音特征量[拥堵]D103的特征量的声音的产生概率是足够高的，并且设置1作为加权系数。另一方面，当交通为拥堵时，权重确定单元B1011确定环境声音特征量[交通繁忙]D104的特征量的声音的产生概率是最低的，并且设置0.8作为加权系数。

如果交通状况检测器C1010的结果是“交通繁忙”，则权重确定单元B1011确定在特征量数据库C1005中的环境声音特征量[交通繁忙]D104的特征量的声音的产生概率是足够高的，并且设置1作为加权系数。另一方面，如果交通是繁忙的但并不拥堵，则权重确定单元B1011通过确定环境声音特征量[拥堵]D103的特征量的声音的产生概率是最低的，设置0.8作为加权系数。

如果交通状况检测器C1010的结果是“正常”，则权重确定单元B1011确定在特征量数据库C1005中的环境声音特征量[拥堵]D103和环境声音特征量[交通繁忙]D104的特征量的声音的产生概率是低的，并且设置0.9作为加权系数。由于在任何状态下环境声音特征量[基本]D105的产生概率是足够高的，所以针对图8中的所有的环境声音特征量D103至D105，设置1作为加权系数。另外，将作为异常声音的碰撞/破碎声音特征量D102的加权系数设置为1，而不管交通。

除了A1006的功能，似然度计算器B1006将似然度得分乘以基于权重确定单元B1011的结果的加权系数，由此计算最终的似然度计算结果。假设交通状况检测器C1010的结果是“交通繁忙”，并且以空转(大型汽车)：70，爆炸声音：69和振动声音：59的顺序计算检测结果候选。在这种情况下，这些候选分别被乘以0.8、1.0和1.0的加权系数。作为该乘以加权系数的结果，最终候选和得分的顺序是爆炸声音：69，振动声音：59和空转(大型汽车)：56。

(操作过程)

下面将参照图11中所示的流程图，说明根据从图像输入的现在的状况对似然度计算进行加权的操作的过程。在CPU 990的控制下执行以下步骤中的各个。注意，与图4A和图4B中相同的附图标记在图11中表示相同的处理。

在图11的步骤S101至S405中，执行根据基于输入的视频信息检测到的被摄对象的状况来改变要应用到各个特征量的似然度权重的似然度计算权重改变处理。然后，在步骤S113至S120中，执行通过使用改变后的似然度权重来检测异常声音的异常声音检测处理。在如上所述的该实施例中，通过根据被摄对象的状况对似然度进行加权来检测异常声音。因此，能够精确地检测异常声音，而不管被摄对象的状况。

异常声音监视系统D1000在启动时，在步骤S101中将来自视频输入装置A1008的视频信息存储在视频输入单元A1009中。然后，在步骤S302中，交通状况检测器C1010分析输入的视频信息，并由图像上的汽车的数量、通过速度和通过频率检测拥堵程度和交通(交通状况)。

随后，在步骤S403中，似然度权重确定单元B1011由步骤S302中的结果，计算环境声音特征量[拥堵]D103的似然度加权系数。在该步骤中，对于“拥堵”、“交通繁忙”和“正常”，分别设置1.0、0.8和0.9作为似然度加权系数。

在步骤S404中，似然度权重确定单元B1011由步骤S302中的结果，计算环境声音特征量[交通繁忙]D104的似然度加权系数。在该步骤中，对于“拥堵”、“交通繁忙”和“正常”，分别设置0.8、1.0和0.9作为似然度加权系数。

在步骤S405中，似然度权重确定单元B1011由步骤S302中的结果，计算环境声音特征量[基本]D105的似然度加权系数。对于环境声音特征量[基本]D105，将加权系数设置为1.0，而不管检测到的交通状况。

在步骤S113中，将用于进行用于更新特征量数据库C1005的下一周围状况检测的5秒的超时时间，设置在检测计时器单元A1018中。在步骤S114中，特征量提取器A1003提取输入到声音输入单元A1002的声音的特征量。在步骤S315中，特征量匹配单元A1004将由特征量提取器A1003提取的特征量与特征量数据库C1005中的各个特征量进行比较。

在步骤S216中，似然度计算器B1006计算乘以由似然度权重确定单元B1011计算出的系数的特征量数据库C1005中的各个特征量、与输入声音的特征量之间的似然度。

在如上所述的该实施例中，当对交通环境进行摄像时，由现在的状况考虑到声音产生的概率，并且通过对似然度计算进行加权来推导检测结果。这使得能够提高异常声音检测的检测精确度，而不管摄像状况的变化。

上面已经说明了本发明的优选实施例，但本发明并不限于这些实施例，并且能够在不脱离本发明的精神和范围的前提下做出各种修改和改变。

例如，在用于检测列车线路周围的异常声音的异常声音监视系统中，特征量数据库A1005可以包含报警声音和列车通过声音，作为环境声音。在这种情况下，还能够包括用于从摄像机图像确定铁路道口的开/闭和信号的闪烁的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的列车通过来改变特征量数据库或似然度权重。

另外，在用于检测港口周围的异常声音的异常声音监视系统中，特征量数据库A1005可以包含鸣笛声音和停泊声音，作为环境声音。在这种情况下，还能够包括用于从摄像机图像确定港口中的船只的到达/离开操作的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的船只的到达/离开操作来改变特征量数据库或似然度权重。

在用于在工厂等中检测制造装置的异常声音的异常声音监视系统中，特征量数据库A1005可以包含机器声音作为环境声音。在这种情况下，还能够包括用于由摄像机图像确定制造装置的操作的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的制造装置的操作来改变特征量数据库或权重。

在用于检测室外交通异常声音的异常声音监视系统中，特征量数据库A1005可以包括与天气状况(诸如晴朗天气、阴雨天气、雷阵雨、暴雨和降雪等)相对应的环境声音。在这种情况下，还能够包括用于从摄像机图像确定摄像现场的天气的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的天气状况来改变特征量数据库或似然度权重。

在用于检测仓库中的异常声音的异常声音监视系统中，特征量数据库A1005可以包含不在黑暗中进行的工作的工作声音和操作声音，作为分类的环境声音。在这种情况下，还能够包括用于从摄像机图像确定摄像现场的亮度的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的亮度来改变特征量数据库或似然度权重。

在用于检测商店中的异常声音的异常声音监视系统中，特征量数据库A1005可以包含以下声音作为环境声音，例如，怀疑夜晚在黑暗中被盗窃的收款台的打开/关闭的声音。在这种情况下，还能够包括用于从摄像机图像确定摄像环境的亮度的检测器，代替周围状况检测器A1010，并且能够根据由检测器检测到的亮度，选择性地将声音登记为特征量数据库中的环境声音或异常声音。

要检测的异常声音的示例是人尖叫声音、人呼喊声音、枪声、玻璃破碎声音、汽车碰撞/破碎声音、列车碰撞/破碎声音以及船只碰撞/破碎声音。

当通过使用声音来监视异常时，上述实施例中的各个的构造能够根据现在的状况而提高检测精确度。

上述的各个实施例能够提供一种能够精确地检测特定声音的技术。

其他实施例

还可以通过读出并执行记录在存储介质(也可更完整地称为“非暂时性计算机可读存储介质”)上的计算机可执行指令(例如，一个或更多个程序)以执行上述实施例中的一个或更多个的功能、并且/或者包括用于执行上述实施例中的一个或更多个的功能的一个或更多个电路(例如，专用集成电路(ASIC))的系统或装置的计算机，来实现本发明的实施例，并且，可以利用通过由系统或装置的计算机例如读出并执行来自存储介质的计算机可执行指令以执行上述实施例中的一个或更多个的功能、并且/或者控制一个或更多个电路以执行上述实施例中的一个或更多个的功能的方法，来实现本发明的实施例。计算机可以包括一个或更多个处理器(例如，中央处理单元(CPU)，微处理单元(MPU))，并且可以包括分开的计算机或分开的处理器的网络，以读出并执行计算机可执行指令。计算机可执行指令可以例如从网络或存储介质被提供给计算机。存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)^TM)、闪存装置以及存储卡等中的一者或更多。

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。

例如，能够由CPU 990基于加载到存储器中的程序进行处理来执行上述的流程图中的各个。

虽然参照示例性实施例对本发明进行了描述，但是应当理解，本发明不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释，以使其涵盖所有这些变型例以及等同的结构和功能。

Claims

1.一种声音处理装置，所述声音处理装置包括：

检测单元，其适于，从通过摄像单元对被摄对象进行摄像而生成的图像数据，检测所述被摄对象的状况；

提取单元，其适于，从由与所述摄像单元相对应的声音获取单元生成的声音数据，提取声音的特征量；以及

确定单元，其适于，根据由所述检测单元检测到的所述被摄对象的状况，执行将由所述提取单元提取的所述声音的特征量、与特定声音的特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。

2.根据权利要求1所述的声音处理装置，其中，所述确定单元执行将根据由所述检测单元检测到的所述被摄对象的状况而选择的特定声音的特征量、与由所述提取单元提取的所述特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。

3.根据权利要求1所述的声音处理装置，其中，所述确定单元执行通过根据由所述检测单元检测到的所述被摄对象的状况进行加权，将由所述提取单元提取的所述声音的特征量与所述特定声音的特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。

4.根据权利要求1所述的声音处理装置，其中，所述声音获取单元收集所述被摄对象周围的声音。

5.根据权利要求1所述的声音处理装置，所述声音处理装置还包括适于保持所述特定声音的特征量的数据库，

其中，所述确定单元将所述数据库中保持的所述特定声音的特征量、与由所述提取单元提取的特征量进行比较，由此确定所述声音是否包含所述特定声音。

6.根据权利要求5所述的声音处理装置，所述声音处理装置还包括更新单元，所述更新单元适于，基于由所述检测单元检测到的所述被摄对象的状况，更新所述数据库中的特征量，

其中，所述确定单元将更新后的数据库中的特征量、与由所述提取单元提取的特征量进行比较，由此确定所述声音是否包含所述特定声音。

7.根据权利要求6所述的声音处理装置，其中，

所述数据库将特征量与所述被摄对象的状况相关联地保持，并且

在与由所述检测单元检测到的所述被摄对象的状况相对应的特征量未被保持在所述数据库中的情况下，所述更新单元将该特征量设置在所述数据库中。

8.根据权利要求6所述的声音处理装置，其中，

在与由所述检测单元检测到的所述被摄对象的状况不相对应的特征量被保持在所述数据库中的情况下，所述更新单元从所述数据库删除该特征量。

9.根据权利要求5所述的声音处理装置，其中，

所述数据库将特征量与所述被摄对象的状况相关联地保持，

所述声音处理装置还包括加权单元，所述加权单元适于，根据由所述检测单元检测到的所述被摄对象的状况，对所述数据库中保持的特征量的似然度进行加权，并且

所述确定单元将具有加权后的似然度的特征量与由所述提取单元提取的特征量进行比较，由此确定所述声音是否包含所述特定声音。

10.根据权利要求9所述的声音处理装置，其中，所述加权单元通过使用比与检测到的所述被摄对象的状况不相对应的特征量的似然度的值更大的值，来对与由所述检测单元检测到的所述被摄对象的状况相对应的特征量的似然度进行加权。

11.根据权利要求1所述的声音处理装置，其中，所述检测单元检测基于所述图像数据的图像中包含的特定物体的数量，作为所述被摄对象的状况。

12.根据权利要求1所述的声音处理装置，其中，所述检测单元检测基于所述图像数据的图像的亮度，作为所述被摄对象的状况。

13.一种声音处理方法，所述声音处理方法包括：

检测步骤，从通过摄像单元对被摄对象进行摄像而生成的图像数据，检测所述被摄对象的状况；

提取步骤，从由与所述摄像单元相对应的声音获取单元生成的声音数据，提取声音的特征量；以及

确定步骤，根据在所述检测步骤中检测到的所述被摄对象的状况，执行将在所述提取步骤中提取的所述声音的特征量、与特定声音的特征量进行比较的处理，由此确定所述声音是否包含所述特定声音。