CN101364408A

CN101364408A - 一种声像联合的监控方法及系统

Info

Publication number: CN101364408A
Application number: CNA2008102316075A
Authority: CN
Inventors: 陈建峰
Original assignee: XI'AN CHENGFENG TECHNOLOGY Co Ltd
Current assignee: XI'AN CHENGFENG TECHNOLOGY Co Ltd
Priority date: 2008-10-07
Filing date: 2008-10-07
Publication date: 2009-02-11

Abstract

本发明属于一种工业环境监控技术，特别地，涉及一种声像联合的监控方法及系统。本发明为克服现有技术存在的仅使用视频监控值班人员容易疲劳，难以辨认有安全隐患的地点，同时视频监控受到功能、视角的限制难以奏效，导致不能及时发现隐患，贻误救援时机的问题，现提出的解决方案是：一种声像联合的监控方法，是采用声音信号与视频信号同时使用来进行环境监测，利用声音信号的识别结果引导值班人员有选择地观察视频窗口，声音信号的处理首先包括特征提取、模型训练、声音分类、在线学习这些步骤，最后为危险等级评估步骤：一、特征提取步骤；二、模型训练步骤；三、声音分类步骤；四、在线学习步骤；五、危险等级评估步骤。

Description

一种声像联合的监控方法及系统

技术领域

本发明属于一种工业环境监控技术，特别地，涉及一种声像联合的监控方法及系统。

背景技术

目前工业环境下使用的视频监控设备主要由视频摄像头和监控显示终端组成，通过值班员对监控场所的各个场景的持续、循环的查看，判断异常情况。近些年，随着图像处理技术的进步，具有一定智能分析功能的视频实时分析系统也得到成功的应用。例如：利用连续帧的对比，判断视频场景内是否存在运动物体，来提醒值班人员的注意力；或者通过添加红外探测装置，判断是否有人或车辆的存在等等。这些措施不同程度地帮助值班人员提高警惕，提升监控力度。

但目前使用的视频监控设备绝大多数缺乏声音监控功能，即使有极少数的监控系统提供了声音传输通道，供值班人员在必要时切换到相应的通道进行监听，但因为现有技术条件下监控人员根本来不及监听各个位置的声音，因此应用很不充分，存在着“看得见，听不着”的问题。在多个视场频繁切换的过程中，值班人员容易疲劳，也难以辨认有安全隐患的地点。而另一方面，根据调查，现实中绝大部分的事故、灾难发生前都有大量的、早期的声音信息可供预警。单纯的视频监控受到功能、视角的限制难以奏效，贻误救援时机。

发明内容

本发明要提供一种声像联合的监控方法及系统，以克服现有技术存在的仅使用视频监控值班人员容易疲劳，难以辨认有安全隐患的地点，同时视频监控受到功能、视角的限制难以奏效，导致不能及时发现隐患，贻误救援时机的问题。

为克服现有技术存在的问题，本发明的技术方案是：一种声像联合的监控方法，是采用声音信号与视频信号同时使用来进行环境监测，利用声音信号的识别结果引导值班人员有选择地观察视频窗口，帮助值班人员对重点、嫌疑区域进行重点观测；声音信号的处理首先包括特征提取、模型训练、声音分类、在线学习这些步骤，最后为危险等级评估步骤：

一、特征提取步骤：

(a)短时特征：选取MFCC的阶数为L时，特征向量可表示为，

M＝[c₁，c₂，Λ，c_L]

(b)全局特征：提取以下的特征，它们各自的数学定义如下，

设待处理的声音单元被分为N个帧，P＝(p₁，p₂，Λ，p_k)是各个帧的基频：其中k为本段数据中存在基频的帧数。

1)基频的均值：

w_{1} = \frac{1}{k} Σ_{l = 1}^{k} p_{l}

2)基频变化率：w₂＝max(p₂-p₁，p₃-p₂，Λ，p_k-p_k-1)

3)基频的标准离差：

w_{3} = \frac{1}{k} \sqrt{Σ_{l = 1}^{k} {(p_{l} - w_{1})}^{2}}

4)含基频声音所占比例：

w_{4} = \frac{k}{N}

5)最长含基音声音长度：w₅(单位是帧)

6)声音平均能量：

w_{6} = \frac{1}{N} Σ_{l = 1}^{N} E_{l},

其中E_i(i＝1，2，…，N)是第i帧的声音能量。

7)声音强度的标准离差：

w_{7} = \frac{1}{N} \sqrt{Σ_{l = 1}^{N} {(E_{l} - \overset{&OverBar;}{E})}^{2}},

其中E是平均声音能量。

8)第一共振峰w₈(频率)

9)第二共振峰w₉(频率)

10)语速

w_{10} = \frac{t_{1}}{n},

特指在声音为语音时，说话人的语速。主要用于辨别是否发生争吵事件。t₁指每句话的持续时间，其中包含音节间的停顿，n指的是发音的音节数。

这10个特征组成一个特征向量如下：

W＝[w₁，w₂，Λ，w₁。]

二、模型训练步骤：

针对以上特征，对所获取的各类声音的样本进行计算和特征参数统计，为每个类别的声音建立模型，采用高斯混合模型进行训练；

三、声音分类步骤：

分类器可以选择统计分类中的一些基本的方法，如高斯混合模型、贝叶斯分类器，K近邻分类器，或者神经网络类中的支持向量机分类器等。

四、在线学习步骤：对声音模型和声音特征在分类器中各个参数的优化和适应。

五、危险等级评估步骤：

确定了声音的种类后，再将危害性声音的程度确定出来，即根据声音的类型，与定义好的危险系数权值对应后获得待测声音的危险等级。

上述步骤五中，危险等级还可以根据识别的概率来加以修正，即

其中p是对识别出的声音种类的后验概率，G为定义的危险系数权值。

上述声音分类步骤中：采用高斯混合模型GMM进行分类。通过GMM识别，对训练好的模型，根据实时计算出的现场声音的特征，找到一个有最大后验概率的模型对应的声音模型，即为所识别出的声音类型。

上述声音分类步骤中：声音分类器采用GMM分别对短时特征和全局特征进行分类，然后在决策层再进行平均后获得最终的分类结果，具体做法是：

假设x_n表示某种分类器的输入，其中n＝1代表短时声音特征方法，n＝2代表全局声音特征方法。y_n表示分类器的输出，即对应某种类型声音的后验概率。那么总的分类器的输出y＝0.5(y₁+y₂)。后验概率最大的即为所识别出的声音类别。

上述模型训练步骤中：训练时需要确定不同的监控时段，如上下班时段、工作时段、节假日时段等，对不同时段的“正常声音”进行“时段模型”训练，分段的基本原则是：如果在某时段内环境背景声音基本平稳，则可以认为是同一个时段。

一种根据上述声像联合的监控方法实现的系统，包括监控中心主机和与主机相接的视频监控子系统，监控中心主机包括显示器，其特殊之处在于：还包括音频监控子系统，音频监控子系统包含数个音频监控处理器、音频传输线路和音频控制器，所述的音频监控处理器由依次相接的麦克风、放大器、滤波器、A/D转换器、特征提取器和声音分类器组成；音频控制器设置于监控中心主机内，输出接于显示器上。

有益效果：

由于视频监控系统已经十分成熟，应用广泛，本发明的基本思想是：充分利用现有基础和条件，尽量减少重新二次开发。因此本发明的重点体现在音频监控的建立上。

人们可以很容易得听出周围环境所发生的事件，并在未看到场景的情况下作出预先反应。但是在工业领域，对环境声音的分类和识别技术的工程应用尚不普及。一些略有相关的应用包括：利用语音进行人的情绪鉴别、说话人识别、利用机械振动声音进行计算机辅助故障诊断等等。

在利用语音进行人的情绪鉴别时，通过对语音信号中若干与情绪有关特征的分析、对比，建立起各种情绪语音的特征库，利用相应的判决准则和分类器对语音情绪分类。

在计算机辅助机械故障诊断时，通过对特定机械振动的声音或振动信号进行采集、时域频域处理后，与正常情况下的结果进行对比，通过建模、统计等方法进行判定。

以上技术虽然涉及到对不同声音的分类识别，但由于监测环境内的声音种类繁多，变化多样，动态范围很宽；多种声音会以多种情形、比例、组合叠加在一起，判定难度加大；同时，由于要用于环境监控预警，因此，对该系统的要求较高，一方面需要辨别出某种声音是什么声源；另一方面，需要辨认出该声音是否具有危险性，危险程度如何。因此，以下各项公知技术均不能直接满足要求：

(a)用于语音识别的各项技术

(b)通过语音来辨别说话人感情的技术

(c)通过语音来判断说话人身份的技术

(d)语音关键词搜索技术

(e)乐器种类识别技术

(f)针对某种机械的故障诊断技术

(g)简单地利用频谱分析、声强、基频、带宽等特征值的识别技术等。

本发明采用声音信号与视频信号同时使用来进行环境监测，主要是在现有视频监控系统的基础上增加声音处理功能，利用声音处理结果引导值班人员有选择地观察视频窗口，帮助值班人员对重点、嫌疑区域进行重点观测。

本发明在对声音信号的处理时，利用短时声音特征与全局声音特征相结合的方法，通过高斯混合模型，在决策层融合来进行声音分类，分类效果好，虚警率低。整个系统安装容易，兼容性好，利用音频监控子系统，不仅可对原来的视频监控区域进行早期预警或对视频监控区域进行预选，还可以发现视角之外的声音事件，有效辅助视频监测系统扩大监测范围，大大增强现有安放系统的使用效率，降低值班人员的劳动强度，有利于促进社会稳定和人民安全。本系统适用范围广，可为现有的各类工业现场的监控提供场景预选和早期预警。

在完全新增的音频监控子系统中，可借助有线/无线的通信方式，将各个音频监控处理器的判断结果传至中央控制中心，这样避免了大数据量高速率的传输，声音分类处理现场解决，实用性更强。

附图说明

图1：MFCC计算过程示意图；

图2：GMM模型的训练过程流程图；

图3：GMM模型的识别过程流程图；

图4：分类过程流程图；

图5：声像联合监控系统的组成框图；

图6：音频监控处理器的原理框图；

图7：声像联合系统中显示器的报警示意图。

具体实施例：

下面将结合附图对本发明作详细地说明。

一种声像联合的监控方法，是采用声音信号与视频信号同时使用来进行环境监测，利用声音信号的处理结果引导值班人员有选择地观察视频窗口，帮助值班人员对重点、嫌疑区域进行重点观测；声音信号的处理包括特征提取、模型训练、声音分类、在线学习以及危险等级评估步骤：

一、特征提取步骤：

从声音信号中提取出有利于分类的声音特征，是本发明的关键。要获得好的分类效果，必须在对大量同类声音信号数据库分析的基础上，有针对性地考虑不同类别声音的长度、叠加、动态范围等特点，提出新的特征组合和识别过程。为此，我们提取了短时MFCC特征与优选的全局声音特征：

(a)短时特征：利用MFCC特征对相当一部分具有危害性的环境声音进行识别，MFCC是一种常用的特征向量，其计算过程参见图1，

当选取MFCC的阶数为L时，特征向量可表示为：

M＝[c₁，c₂，Λ，c_L]

(b)全局特征：MFCC尽管可以对部分的环境声音可以获得较好的识别效果，但是对多种声音的叠加，如多人语音及机械、环境噪音等的叠加，以及没有基音的环境声音效果较差，因此本发明中又确定了以下特征，以对常见环境危害类声音进行更好的识别，这些特征各自的数学定义如下：

1)基频的均值：

w_{1} = \frac{1}{k} Σ_{l = 1}^{k} p_{l}

2)基频变化率：w₂＝max(p₂-p₁，p₃-p₂，Λ，p_k-p_k-1)

3)基频的标准离差：

w_{3} = \frac{1}{k} \sqrt{Σ_{l = 1}^{k} {(p_{l} - w_{1})}^{2}}

4)含基频声音所占比例：

w_{4} = \frac{k}{N}

5)最长含基音声音长度：w₅(单位是帧)

6)声音平均能量：

w_{6} = \frac{1}{N} Σ_{l = 1}^{N} E_{l},

其中E_i(i＝1，2，…，N)是第i帧的声音能量。

7)声音强度的标准离差：

w_{7} = \frac{1}{N} \sqrt{Σ_{l = 1}^{N} {(E_{l} - \overset{&OverBar;}{E})}^{2}},

其中E是平均声音能量。

8)第一共振峰w₈(频率)

9)第二共振峰w₉(频率)

10)语速

w_{10} = \frac{t_{1}}{n},

上面的10个特征组成一个特征向量如下：

W＝[w₁，w₂，Λ，w₁₀]

二、模型训练步骤：

针对步骤一提取的特征，采用高斯混合模型进行训练，其训练过程的流程图参见图6。

首先给GMM模型赋初值，如全是0的初始值。然后训练开始，用于训练的输入声音逐次输入，对模型进行训练。输入的声音首先进行特征提取，构成一组特征向量。然后在GMM模型现有参数的基础上，使用前向算法和后向算法进行GMM模型参数的修正估计。得到的参数作为新的GMM模型。这个过程在训练样本的驱动下，反复进行，直至GMM模型收敛，训练过程就结束了。

由于我们是在正常声音中去查找异常的声音，而在不同时段，正常的环境声音的特点具有较大的区别。因此，在训练时需要确定不同的监控时段，如上下班时段、工作时段、节假日时段等，也就是说，各个“正常声音”模型在不同时段是不同的。然后再对不同时段进行“正常声音”进行“时段模型”训练。

所说的分段根据应用场合的特殊性来确定，基本原则是：如果在某时段内环境背景声音基本平稳，则可以认为是同一个时段。

三、声音分类步骤：

在本发明中，我们采用高斯混合模型GMM进行分类。通过GMM识别，对训练好的模型，根据实时计算出的现场声音的特征，找到一个有最大后验概率的模型对应的声音模型，即为所识别出的声音类型。其具体的分类过程参见图3。首先对观测序列进行特征提取，然后利用前向-后向算法对该序列的特征进行计算，获得针对不同模型情况下的后验概率，最后对这些后验概率进行比较，值最大的对应的模型即为分类的结果。

由于我们采用短时声音特征与全局声音特征相结合的方式，因此声音分类器需要有机地将这两者相结合，充分利用好获得的特征信息。一种做法是将这两种特征向量合成一个长的，不过这样做会导致维数过高，训练收敛慢。在本发明中，我们采用GMM分别对短时特征和全局特征进行分类，然后在决策层再进行平均后获得最终的分类结果，具体流程参见图4。假设x_n表示某种分类器的输入，其中n＝1代表短时声音特征方法，n＝2代表全局声音特征方法。y_n表示分类器的输出，即对应某种类型声音的后验概率。那么总的分类器的输出y＝0.5(y₁+y₂)。y₁表示利用MFCC通过GMM获得的后验概率，y₂表示利用全局特征向量获得的后验概率，后验概率最大的即为所识别出的声音类别。

四、在线学习步骤：采用的是现有的技术思路。

由于各类监控环境差异很大，一个非常适合某种监控环境的识别参数是难以在该环境外模拟获得的。因此解决的方法是：使系统具有在线学习功能，以便对声音模型和声音特征在分类器中各个参数的优化和适应。

在线学习过程基本上是前期模型训练过程的重复，区别在于：这时参与训练的数据是现场的真实数据。在线学习过程中，由于现场声音信号的随机性和不平稳性，由它们获得的模型参数将通过一定时间的积累，逐渐更新原来的旧模型，这也是在线学习的通用方法。

在线学习可以一次，也可以在必要时多次进行，也可以安排时间，定期更新或调整，以便不断更新完善原来建立的模型。

五、危险等级评估步骤：

确定了声音的种类，我们还需要将危害性声音的程度确定出来。因此，不同于其他的各类分类器，我们的系统后面还有下面的危险等级评估这一步。也就是说确定了声音的种类后，再将危害性声音的程度确定出来，即根据声音的类型，与定义好的危险系数权值对应后获得待测声音的危险等级。表1是与声音的种类对应定义的危险系数权值表

表1：声音事件危险系数权值表(示例)

序号	声音种类	危险等级系数G	危险等级
序号	声音种类	危险等级系数G	危险等级	1	爆炸	1.0	一级
2	玻璃破碎	0.8	二级	1	爆炸	1.0	一级
2	玻璃破碎	0.8	二级	3	尖叫声	0.6	三级
4	争吵声	0.4	四级	3	尖叫声	0.6	三级
4	争吵声	0.4	四级	5	敲门声/说话声声	0.2	五级
6	普通背景噪声	0.0	安全	5	敲门声/说话声声	0.2	五级

通过上表的定义，根据声音的类型获得就可以对应获得待测声音的危险等级。当然，这个危险等级还可以根据识别的概率来加以修正，即

其中p是对识别出的声音种类的后验概率，G为表1中所定义的系数权值。简单来讲就是说，如果识别出来感觉没有多大把握，那么危险系数会相应降低。通过识别结果的历史纪录也可以对识别结果进行后处理，进一步提高正确识别概率，降低虚警概率。

一种采用上述方法完成的声像联合监控系统：

参见图5～图7，所提供的系统主要包括以下部分：监控中心主机、视频监控子系统和音频监控子系统，监控中心主机包括显示器。其中：

视频监控子系统包含视频监控处理器、视频传输线路((线缆、无线、光纤或以太网)和视频控制器(在监控中心主机内)。其中视频监控处理器主要是摄像头，视频传输线路一般为同轴电缆，视频控制器主要完成视频采集压缩，配合视频播放设备，将各个摄像头采集的视频图像显示在显示器上。它们的连接关系很简单，摄像头通过传输线路接到视频控制器上。目前视频监控子系统比较成熟，本发明以下除必要外，不做详细介绍。

音频监控子系统包含音频监控处理器、音频传输线路和音频控制器。所说的音频监控处理器的输出通过音频传输线路接至音频控制器，音频控制器设置在监控中心主机内，音频控制器将所获得的音频报警信号通过显示器上显示出来。

目前绝大多数监控系统没有音频信号的采集和处理功能，以此情况为例，详细介绍音频监控子系统各个模块的主要功能。

(1)音频监控处理器

音频监控处理器是整个音频监控子系统的核心模块。参见图6，它由麦克风、放大器、滤波器、A/D转换器、特征提取器和声音分类器六个模块组成。它们的连接关系为：麦克风输出的信号经过放大器，滤波器后，进入A/D转换器，之后在进行特征提取器，最后进入声音分类器。

为了尽量不对原有的视频监控系统作改动，我们不将声音信号本身传输至监控中心进行集中处理，而是分布式地将声音信号在现场的各个音频监控处理器上分别处理，仅将处理结果传至监控中心。这样做可以避免对监控中心的主机提出过高的要求，避免大数据量高速率的传输。另一方面，由于仅仅将分类处理结果传至监控中心，因此还有利于保护监控区域声音的隐私性和保密性。

麦克风用来拾取声音信号，并将其转化为电信号。放大器将微弱的声音信号放大至一定的幅度。滤波器将对声音中的噪声进行滤除，A/D转换器将滤波后的声音信号转化为数字信号，供后续的数字信号处理使用。特征提取器从声音信号中提取对声音分类器最有用的多项声音特征，例如声强、基频等。最后，声音分类器用于把特征进行分类，确定出现场声音的危险或异常等级。

(2)音频传输线路

传输线路负责将音频监控处理器获得的结果传至监控中心。根据系统的基础设施情况，传输线路可以由线缆、无线、光纤或以太网来实现。为了尽量不对原有视频监控中心作改动，如果原来的系统中没有额外的资源可以将音频监控处理器的结果传至监控中心，我们将采用适当频率的无线传输方式来实现。虽然一般的无线数传电台就可以完成此功能，我们推荐在必要时采用目前先进的自组网或MESH无线通信技术。通过多个通信节点间的多跳、自组网技术来进行无线通信。这样做的主要优点在于：布放简单、低功耗；即使肇事者有意破坏某个观测点的通信设施，利用自组网的特点，信息可以通过其他的路由通路进行传输。这样做可以大大增强系统的可靠性和抗破坏能力。

(3)音频控制器

音频控制器用于将各路音频监控处理器获得的声音分析结果显示在监控显示器上。通过音频控制器与视频控制器相结合，可以为值班人员提供包括文字、图像、声音在内的多种提示方式，引导辅助值班人员在观察各个视场时能集中精力，重点观测，提高效率，避免疲劳。同时可以发现视角之外的声音事件，有效辅助视频监测系统扩大监测范围。

视频监控处理器和音频监控处理器可以成对设置，也可以根据情况单独设置。

整个系统的工作方式和流程如下：

1)将视频监控摄像头按照实际需求安装在适当的位置。

2)将音频监控处理器安装在各个视频监控摄像头的附近，一个摄像头附近或周围可以安装一个或多个。另外，也可以在没有安装视频摄像头的地方安装。

3)各个音频监控处理器在使用前需要进行训练学习。在此阶段，它们将对各个场景不同时段的声音模型进行学习，并将模型存放在处理器内的存储器上，供实际使用时进行模型匹配。训练学习可以一次，也可以在必要时多次进行，也可以安排时间，定期更新或调整。不断更新完善原来建立的模型。

4)视频监控子系统与声音监控子系统同时启动工作。

5)各个场景的视频景象实时显示在监控显示器上，供值班人员观察。

6)各个音频监控处理器实时处理现场声音信号，并对其危险或异常等级作出判断，及时通过传输线路传至监控中心。

7)监控中心的音频控制器接收到各个音频监控处理器的结果后，以文字或图像的方式，显示在相应场景图像上的显著位置，提示值班人员注意观察。当危险等级达到某个水平后，也可以通过适当的声音来提示。对于安装在没有摄像头位置的声音监控处理器，软件会另外安排显示位置来显示(例如，可以显示在另外一台监控显示器上)，或通过声音提示来通知。

为了清楚地介绍系统，下面做进一步的详细描述：整个系统分为两部分：视频监控子系统和音频监控子系统。下面分两种情况来介绍：

如果原来的系统没有提供声音信号的接口和线路，那么整个发明的具体实施例如下：

(1)视频监控子系统采用现有技术，包含视频监控摄像头、视频传输线路、监控中心主机、视频处理卡、视频监控器和监控显示器。一种实现视频监控系统的方法是：采用北京华航天元科技发展有限公司的SDVR7004III型网络监控系统，包括了TOYA-CC160H高清晰彩色红外一体化变倍摄像机，采用SDVR7004III型监控软件，经过定制的TOYA SDVR7004SIV智能网络监控主机，监控显示器采用通用液晶显示器。

(2)音频监控子系统包含音频监控处理器、无线或有线传输线路和音频控制器。其中：

(a)音频监控处理器由麦克风、放大器、滤波器、A/D转换器、特征提取器和声音分类器六部分组成。

其中麦克风用来拾取声音信号，并将其转化为电信号。可以选用的麦克风应当是各向同性的远场麦克风，具有良好的灵敏度和较低的自噪声。可以选用Panasonic的WM-034BY型麦克风。

放大器将微弱的声音电信号放大至一定的幅度，供后续处理。

滤波器将对声音中的噪声进行滤除。一般来讲，环境声音中各类型的声音频率变化很大。因此，滤波器的实际需要根据实际情况进行选择。例如，如果10kHz以上的信号对监测环境声音关系影响不大，就可以通过设计一个截至频率为10KHz的Chybshev模拟低通滤波器对其进行滤除。

A/D转换器将滤波后的声音信号转化为数字信号，使用比较普遍的A-law和μ-law的Codec数模转化芯片进行声音数字转化。也可以选用内置在DSP芯片内部的A/D进行数模转化。

特征提取器从声音信号中提取对分类识别最有用的多项声音特征。由于各种不同环境下会出现的声音比较复杂，我们采用短时声音特征与全局声音特征相结合的方式进行特征声音鉴别。在分类方面，采用高斯混合模型的方法。

各个音频监控处理器在使用前需要进行训练学习。在此阶段，它们将对各个场景不同时段的声音模型进行学习，并将模型存放在闪存内，供实际使用时进行模型匹配。在使用过程中，也可以根据需要进行在线训练学习，不断更新完善原来建立的模型。

声音监控处理器中的运算功能，包括特征提取和分类等，可以通过DSP芯片(例如，TI公司的芯片F2812)搭建的系统或FPGA编程来实现。其输入为模拟信号，输出为声音危险等级的数据，通过各种通信方式或端口输出，如无线方式，网口、RS232、RS485等。

(b)音频传输线路

采用目前先进的自组网无线通信技术。通过多个通信节点间的多跳、自组网技术来进行无线通信。例如，采用Renex公司生产的coRe1无线数传模块，可以实现1到3公里(直线视距)的传输，速率可高达38.4kbps。该模块在监控主机一端放置1块，作为接收基站。其他模块安装在各个声音监控处理器内。实现无线多点对一点的传输。该模块可以实现Ad Hoc自组网和Mesh网络，有利于实现可靠的无线通信线路，在距离上也完全满足一般监控系统的传输要求。

(c)音频控制器

音频控制器可以通过在监控主机上安装的一个应用程序来实现。该程序使用VC++6.0或其他程序语言来开发，操作系统可以是Windows XP或其它操作系统，与视频监控软件多任务运行。当采用无线方式连接时，该软件应具有以下几方面的设置功能：

a)从接收基站接收各个音频监控处理器中无线传输模块传来的数据结果，数据结果中包含了各个音频监控处理器的地理位置、声音危险等级；

c)设定各音频监控处理器结果在监控显示器上的显示位置、颜色、字体，显示属性等；

d)及时将数据结果显示在设定的位置上。在必要时，利用声音进行提示；

e)存储功能，把各个时间的声音处理结果存储在数据库中，方便事后分析和回放。

f)一个音频监控器和视频监控器同时使用时，在显示器上的显示参见图7。

如果原有监控系统提供音频输出，所有声音信号都可以在监控中心获得。那么，在这种情况下，所有声音可以在监控中心的主机上集中处理，无须使用音频监控处理器和额外的传输线路。这时，系统的使用与上面的实施例的区别在于，所有在声音监控处理器上完成的处理功能，包括A/D转换、特征提取、声音分类，都在监控中心计算机上，由音频控制器完成。

Claims

1、一种声像联合的监控方法，是采用声音信号与视频信号同时使用来进行环境监测，利用声音信号的识别结果引导值班人员有选择地观察视频窗口，帮助值班人员对重点、嫌疑区域进行重点观测；声音信号的处理首先包括特征提取、模型训练、声音分类、在线学习这些步骤，最后为危险等级评估步骤：

一、特征提取步骤：

(a)短时特征：选取MFCC的阶数为L时，特征向量可表示为，

M＝[c₁，c₂，Λ，c_L]

(b)全局特征：提取以下的特征，它们各自的数学定义如下，

1)基频的均值：

w_{1} = \frac{1}{k} Σ_{l = 1}^{k} p_{l}

2)基频变化率：w₂＝max(p₂-p₁，p₃-p₂，Λ，p_k-p_k-1)

3)基频的标准离差：

w_{3} = \frac{1}{k} \sqrt{Σ_{l = 1}^{k} {(p_{l} - w_{1})}^{2}}

4)含基频声音所占比例：

w_{4} = \frac{k}{N}

5)最长含基音声音长度：w₅(单位是帧)

6)声音平均能量：

w_{6} = \frac{1}{N} Σ_{l = 1}^{N} E_{l},

其中E_i(i＝1，2，…，N)是第i帧的声音能量。

7)声音强度的标准离差：

w_{7} = \frac{1}{N} \sqrt{Σ_{l = 1}^{N} {(E_{l} - \overset{&OverBar;}{E})}^{2}},

其中E是平均声音能量。

8)第一共振峰w₈(频率)

9)第二共振峰w₉(频率)

10)语速

w_{10} = \frac{t_{1}}{n},

这10个特征组成一个特征向量如下：

W＝[w₁，w₂，Λ，w₁₀]

二、模型训练步骤：

三、声音分类步骤：

五、危险等级评估步骤：

2、如权利要求1所述的一种声像联合的监控方法，其特征在于：所述步骤五中，危险等级还可以根据识别的概率来加以修正，即

，其中p是对识别出的声音种类的后验概率，G为定义的危险系数权值。

3、如权利要求1或2所述的一种声像联合的监控方法，其特征在于：所述声音分类步骤中：采用高斯混合模型GMM进行分类。通过GMM识别，对训练好的模型，根据实时计算出的现场声音的特征，找到一个有最大后验概率的模型对应的声音模型，即为所识别出的声音类型。

4、如权利要求3所述的一种声像联合的监控方法，其特征在于：所述声音分类步骤中：声音分类器采用GMM分别对短时特征和全局特征进行分类，然后在决策层再进行平均后获得最终的分类结果，具体做法是：

5、如权利要求4所述的一种声像联合的监控方法，其特征在于：所述模型训练步骤中：训练时需要确定不同的监控时段，如上下班时段、工作时段、节假日时段等，对不同时段的“正常声音”进行“时段模型”训练，分段的基本原则是：如果在某时段内环境背景声音基本平稳，则可以认为是同一个时段。

6、如权利要求1所述的一种根据上述声像联合的监控方法实现的系统，包括监控中心主机和与主机相接的视频监控子系统，监控中心主机包括显示器，其特征在于：还包括音频监控子系统，音频监控子系统包含数个音频监控处理器、音频传输线路和音频控制器，所述的音频监控处理器由依次相接的麦克风、放大器、滤波器、A/D转换器、特征提取器和声音分类器组成；音频控制器设置于监控中心主机内，输出接于显示器上。