CN111401169A

CN111401169A - 基于监控视频信息的供电营业厅服务人员行为识别方法

Info

Publication number: CN111401169A
Application number: CN202010151395.0A
Authority: CN
Inventors: 熊德智; 陈向群; 胡军华; 刘小平; 柳青; 杨茂涛; 黄瑞; 温和; 欧阳黎; 陈浩; 曾文伟
Original assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Metering Center of State Grid Hunan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hunan Electric Power Co Ltd; Metering Center of State Grid Hunan Electric Power Co Ltd
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2020-07-10

Abstract

本发明公开了一种基于监控视频信息的供电营业厅服务人员行为识别方法、装置、介质及设备，属于行为识别技术领域，用于解决目前服务人员难于监管的技术问题，方法包括：对视频帧进行预处理，提取视频帧的图像特征参数，送入循环神经网络中，得到图像特征参数与高维向量的映射；对语音信号进行预处理，提取语音特征参数，送入循环神经网络中，得到语音特征参数与高维向量的映射；在得到视频帧以及语音信号的高维向量的基础上，构建最终的分类器模型，建立从高维向量到最终不规范行为类别的映射；获取监测视频信息，基于分类器模型，对供电营业厅服务人员的行为进行识别。本发明具有操作简便、识别精度高、提高工作效率和服务水平等优点。

Description

基于监控视频信息的供电营业厅服务人员行为识别方法

技术领域

本发明主要涉及行为分析技术领域，特指一种基于监测视频信息的供电营业厅服务人员行为识别方法、装置、介质及设备。

背景技术

供电营业厅是供电企业最重要的服务窗口，具有沟通、展示和传播企业形象的重要社会功能。供电营业厅是供电企业的窗口前沿，代表了供电企业的形象。客户到供电营业厅办理各项用电业务，首先接触到的就是供电营业厅的服务人员。因此，供电营业厅工作人员的服务技巧、待人接物的态度，往往决定了客户对供电企业服务水平的认知程度。一些工作人员的散漫、懈怠行为，如工作时间玩手机、睡觉、态度恶劣等都会给客户留下极其不好的印象。加之如今是个信息化的时代，微博等自媒体使用广泛，若被不满的客户发布信息至网上，容易造成企业的形象以及大量经济损失。目前供电营业厅服务具有完善的规范制度，但往往存在执行不到位，难于监管的情况，如果仅仅依赖主管部门的现场稽查，很难起到很好的监督和管控作用。开展对营业厅行为规范智能识别、分析与预警研究，探索建立示范工程显得十分必要。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种操作简便、识别精度高、提高工作效率和服务水平的基于监测视频信息的供电营业厅服务人员行为识别方法、装置、介质及设备。

为解决上述技术问题，本发明提出的技术方案为：

一种基于监控视频信息的供电营业厅服务人员行为识别方法，包括：

对视频帧进行预处理，提取预处理后的视频帧中的图像特征参数，送入循环神经网络中，得到图像特征参数与高维向量的映射；

对语音信号进行预处理，提取预处理后的语音信号中的语音特征参数，送入循环神经网络中，得到语音特征参数与高维向量的映射；

在得到视频帧以及语音信号的高维向量的基础上，建立最终的分类器模型，建立从高维向量到最终不规范行为类别的映射；

获取监测视频信息，基于分类器模型，对供电营业厅服务人员的行为进行识别。

作为上述技术方案的进一步改进：

对视频帧进行预处理包括：采用背景提取算法将工作人员的区域分割出来，并使用投票算法，计算连通域定位目标区域，对目标进行捕捉或跟踪，最终得到只含有单一目标的图像。

将视频流中相邻两帧或相隔几帧图像的两幅图像像素值相减，并对相减后的图像进行阈值化来提取图像中的运动区域；

或者将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，其中背景图像根据当前获取图像帧进行更新。

对于不规范行为的识别需标定其具体的开始帧以及结束帧：提取视频帧的特征序列，再用滑窗机制在视频中的每个位置生成多个不同尺寸的提名，之后再对每个提名训练一个动作分类器和一个排名来对提名进行分类和排序，并且采用CDC算法来对时序动作检测中的动作边界进行微调以使得动作边界更加准确。

对语音信号进行预处理包括：使用数字滤波器实现预加重，采用短时分析算法对具有时变特性的语音信号进行分帧，再进行加窗。

对语音信号进行预处理还包括：采用双门限比较法将语音信号进行端点检测处理，检测出语音的起始点以及结束点。

所述语音特征参数包括LPCC和MFCC；其中MFCC的得到过程：对于MFCC算法首先进行快速傅里叶变换(FFT)，再将实际频率尺度转换为Mel频率尺度，配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出，最后对所有滤波器输出作对数运算，再进一步做离散余弦变换DTC，即可得到MFCC。

本发明还公开了一种基于监控视频信息的供电营业厅服务人员行为识别装置，包括：

视频帧处理单元，用于对视频帧进行预处理，提取预处理后的图像特征参数，送入循环神经网络中，得到图像特征参数与高维向量的映射；

语音信号处理单元，用于对语音信号进行预处理，提取预处理后的语音信号中的语音特征参数，送入循环神经网络中，得到语音特征参数与高维向量的映射；

分类器模型建立模块，用于在得到视频帧以及语音信号的高维向量的基础上，建立最终的分类器模型，建立从高维向量到最终不规范行为类别的映射；

行为识别模块，用于获取监测视频信息，基于分类器模型，对供电营业厅服务人员的行为进行识别。

本发明进一步公开了一种计算机可读存储介质，其上储存有计算机程序，所述计算机程序在被处理器运行时执行如上所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。

本发明还公开了一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被处理器运行时执行如上所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。

与现有技术相比，本发明的优点在于：

(1)本发明的基于监控视频信息的供电营业厅服务人员行为识别方法，通过对现场视频、音频、图像上的信息特征学习，生成不规范行为特征库并进行分类；其中图像特征学习，可以采用基于深度图像模型和人体特征信息的方法，深度图像不受光照影响，能够提供三维空间信息，同时深度摄像头设备通过对深度数据的处理，提取出人体特征，为行为识别提供重要信息；同时也采用RGB图像的行为识别技术来提取特征，将之与深度图像的特征进行融合进一步提高识别精度；音频特征学习采用HMM和DAE的语音识别算法，音频识别能够记录工作人员的语音信息和复杂的情感表达，更能有效地监督和管理营业厅现场工作人员；通过上述方法使得主管部门不需要频繁地进行现场稽查，而是能够通过监测信息查看服务人员的工作情况，大幅度地提高效率；并且可以基于营业厅监测信息，针对不同营业厅人员的服务水平和缺陷，开展个性化培训。

(2)本发明采用帧差法或背景差分法提取运动区域，操作简单，不易受环境光线影响；在背景差分法中，其用于对静止场景进行运动分割，具体将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，背景图像根据当前获取图像帧进行更新，避免环境光照变化影响；或者将不同算法分别应用于监控视频帧，并使用投票算法、计算连通域定位目标区域等操作来进一步提升分割的准确率，最终得到只含有单一目标的图像；通过模型的组合，从而进一步的提升模型的效果。

(3)本发明提取视频帧的特征序列，再用滑窗机制在视频中的每个位置生成多个不同尺寸的提名，之后再对每个提名训练一个动作分类器和一个排名来对提名进行分类和排序，并且采用CDC算法来对时序动作检测中的动作边界进行微调，以使得动作边界更加准确。

(4)本发明使用数字滤波器对语音信号实现预加重，采用短时分析算法对具有时变特性的语音信号进行分帧，再进行加窗，上述预处理用于消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等因素，对语音信号质量的影响；采用旋转式结构拾音器，可根据发声点方向信息，迅速定向采集，排除大量噪音干扰。

附图说明

图1为本发明的方法在实施例的流程图。

图2a为单帧的2D卷积示意图。

图2b为多帧的2D卷积示意图。

图2c为3D卷积示意图。

图3为3D类型网络示意图。

图4为SSAD模型结构示意图。

具体实施方式

以下结合说明书附图和具体实施例对本发明作进一步描述。

如图1所示，本实施例的基于监控视频信息的供电营业厅服务人员行为识别方法，包括：

本实施例中，由于监控视频中往往存在许多人，故对视频帧进行预处理，具体包括：采用背景提取算法将工作人员的区域分割出来，并使用投票算法，计算连通域定位目标区域，对目标进行捕捉或跟踪，最终得到只含有单一目标的图像，并后续分类和行为分析理解奠定基础。

具体地，背景提取算法(或目标检测算法)包括光流法、帧差法、背景差分法、ViBe等。在帧差法(帧间差分法)中，将视频流中相邻两帧或相隔几帧图像的两幅图像像素值相减，并对相减后的图像进行阈值化来提取图像中的运动区域。若相减两帧图像的帧数分别为第k帧,第(k+1)帧，其帧图像分别为f_k(x,y),f_k+1(x,y)f_k(x,y),f_k+1(x,y)，差分图像二值化阈值为T，差分图像用D(x,y)表示，则帧间差分法的公式如下：

上述算法简单，不易受环境光线影响。

在背景差分法中，其用于对静止场景进行运动分割，具体将当前获取的图像帧与背景图像做差分运算，得到目标运动区域的灰度图，对灰度图进行阈值化提取运动区域，背景图像根据当前获取图像帧进行更新，避免环境光照变化影响。根据前景检测，背景维持和后处理方法，背景差方法也存在不同。若设It,Bt分别为当前帧与背景帧图像，T为前景灰度阈值，则其中一种方法流程如下：

取前几帧图像的平均值，将其作为初始的背景图像Bt；

当前帧图像与背景图像作灰度减运算，并取绝对值；公式即为|It(x,y)-Bt(x,y)|；

对当前帧的像素(x,y)，若有|It(x,y)-Bt(x,y)|>T|It(x,y)-Bt(x,y)|>T，则该像素点为前景点；

对前景像素图进行形态学操作(腐蚀、膨胀、开闭操作等)；

用当前帧图像对背景图像进行更新。此方法比较简单且一定程度上克服了环境光线的影响。

其中ViBe为像素级视频背景建模或前景检测的算法，对硬件内存占用也少。该算法主要不同之处是背景模型的更新策略，随机选择需要替换的像素的样本，随机选择邻域像素进行更新。在无法确定像素变化的模型时，随机的更新策略，在一定程度上可以模拟像素变化的不确定性。另外，ViBe为所有像素点存储了一个样本集，样本集里面保存的采样值是该像素点过去的像素值与其邻居点的像素值。后面每一帧的新像素值和样本集里的样本历史值进行比较，判断是否属于背景点。模型中，背景就是静止的，或者移动非常缓慢的物体。前景就是相对于背景的物体，即正在移动的物体。所以背景提取算法也可以看成是一个分类问题，遍历像素点的过程中，来确定一个像素点是属于前景点，还是属于背景点。在ViBe模型中，背景模型为每个像素点存储了样本集，样本集大小一般为20个点。对于采入的新一帧图像，该帧的某个像素点与该像素点的样本集内采样值比较接近时，就可以判断其是一个背景点。用公式表示：

v(x,y)：像素点(x,y)处的当前像素值；

M(x,y)＝{v1(x,y),v2(x,y),...vN(x,y)}：像素点(x,y)的背景样本集(样本集大小为N)；

R：上下取值范围；

将v(x,y)与M(x,y)中所有样本值作差，所有差值中，在±R范围内的个数为Nb，若Nb大于一个给定的阈值min，就说明当前像素值与该点历史样本中的多个值相似，那么就认为(x,y)点属于背景点。

初始化是建立背景模型的过程，一般的检测算法需要一定长度的视频序列学习完成，影响了检测的实时性，而且当视频画面突然变化时，重新学习背景模型需要较长时间，而上述方法建立背景模型只需要一帧，即使用单帧视频序列初始化背景模型。将视频的第一帧作为背景模型的同时，也将该帧中每一个像素点周围随机取多个像素点，填充该像素点的样本集，这样样本集中就包含了像素点的时空分布信息。

用公式表示，M₀(x,y)：初始背景模型中的像素点(x,y)；

N_G：邻居点；v₀(x,y)：初始原图像中像素点(x,y)的像素值；于是有：

M₀(x)＝{v₀(y|y∈N_G(x))},t＝0

当然，可以将上述不同算法分别应用于监控视频帧，并使用投票算法、计算连通域定位目标区域等操作来进一步提升分割的准确率，最终得到只含有单一目标的图像；通过模型的组合，从而进一步的提升模型的效果，如将最终生成的高维特征向量进行平均、权重平均、取最值、拼接等操作得到合成特征向量送入分类器，同时在实践中进一步的运用调参技巧来提高模型训练效率。

本实施例中，对于不规范行为的识别需标定其具体的开始帧以及结束帧：提取视频帧的特征序列，再用滑窗机制在视频中的每个位置生成多个不同尺寸的提名，之后再对每个提名训练一个动作分类器和一个排名来对提名进行分类和排序，并且采用CDC算法来对时序动作检测中的动作边界进行微调，以使得动作边界更加准确。

本实施例中，采用C3D模型提取特征，然后将全连接层送入后续的分类器中；其中卷积神经网络(CNN)近年被广泛应用于计算机视觉中，包括分类、检测、分割等任务。这些任务一般都是针对图像进行的，使用的是二维卷积(即卷积核的维度为二维)。而对于基于视频分析的问题，二维卷积不能很好得捕获时序上的信息，因此三维卷积就被提出来了。C3D模型是作为一个通用的网络提出的，可以将其用于行为识别，场景识别，视频相似度分析等领域。

如图2a和图2b所示，分别为2D卷积用于单通道图像和多通道图像的情况(此处多通道图像可以指同一张图片的3个颜色通道，也指多张堆叠在一起的图片，即一小段视频)，对于一个滤波器，输出为一张二维的特征图，多通道的信息被完全压缩了。而2c中的3D卷积的输出仍然为3D的特征图。第i层第j个特征映射的(x,y,z)位置的值可以按如下公式求出：

其中Ri是3D卷积核沿时序维度的尺寸，

是卷积核连接上一层第m个特征映射的(p,q,r)位置上的值。考虑一个视频段输入，其大小为c*l*h*w,其中c为图像通道(一般为3),l为视频序列的长度，h和w分别为视频的宽与高。进行一次核尺寸为3*3*3,步长为1,进行补边,滤波器个数为K的3D卷积后，输出的大小为K*l*h*w，池化同理。

其中C3D类型网络如图3所示，其中共有8次卷积操作，5次池化操作。其中卷积核的大小均为3*3*3，步长为1*1*1。名字下方的数字为卷积核数量。池化核的大小为2*2*2,步长为2*2*2，但第一层池化除外，其大小和步长均为1*2*2。这是为了不过早缩减时序上的长度，最终网络在经过两次全连接层后得到4096维的高维特征向量。

本实施例中，在对视频帧进行预处理时，同步对语音信号进行预处理，具体包括：使用数字滤波器实现预加重，采用短时分析算法对具有时变特性的语音信号进行分帧，再进行加窗，其中可选的窗函数包括矩形窗、汉明窗以及汉宁窗。上述预处理用于消除人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等因素，对语音信号质量的影响。

本实施例中，对语音信号进行预处理还包括：采用双门限比较法将语音信号进行端点检测处理，检测出语音的起始点以及结束点。

本实施例中，语音特征参数包括LPCC和MFCC。其中LPCC参数是根据声管模型建立的特征参数,主要反映声道响应。MFCC参数是基于人的听觉特性利用人听觉的临界带效应，在Mel标度频率域提取出来的倒谱特征参数。对于MFCC算法首先进行快速傅里叶变换(FFT)，再将实际频率尺度转换为Mel频率尺度，配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出，最后对所有滤波器输出作对数运算，再进一步做离散余弦变换(DTC)，即可得到MFCC。最后将得到的MFCC以及LPCC特征送入循环神经网络中，进行多轮的迭代，得到语音特征参数到高维向量的映射，并最终将训练完毕的参数输入数据库中。

本实施例中，分类器模型采用softmax以及多分类的支持向量机multi-class SVM来建立从高维向量到最终类别的映射。具体构建为：

S01、将每个用作特征提取的视频帧单元称为一个片段，而将每次输出的高维向量记作片段动作分数，最终对于一个包含T帧图像的视频，得到等长的SAS特征序列；

S02、在获得长度为T的特征序列后，将其用作SSAD模型的输入；其中SSAD模型是一个全部由时序卷积构成的网络，主要包括三种卷积层：基层、锚框层以及预测层，如图4所示；其中基层的作用为缩短特征序列的长度，并增大特征序列中每个位置的感受野；

S03、接下来SSAD模型中继续使用来缩小特征序列的长度，锚框层输出的特征序列中的每个位置都被关联了多个尺度的锚框实例(一个锚框实例代表视频中动作发生的那一段时间，可以理解为一个一维的默认框)；

S04、之后，再通过预测层，来获取每个锚框实例所对应的坐标偏移量，重叠置信度，以及类别分类结果；

S05、通过多层时间尺度不断缩小的特征序列，SSAD模型获得由小到大各个时间尺度的动作实例预测，建立最终的分类器模型。

分类器训练具体为：首先将获得的锚框用坐标偏移量进行修正，再与标签实例进行匹配，来确定锚框实例是正样本还是负样本。SSAD模型使用如下的损失函数进行模型训练，主要包括分类损失Lclass，重叠置信度回归损失Lover，边界回归损失Lloc以及正则化项L2。

L＝L_class+α·L_over+β·L_loc+λ·L₂(Θ)

其中α、β、λ为系数；

测试时，同样先将获得的锚框实例用坐标偏移量进行修正，再获得每个锚框实例的最终分类结果。

在获得了一段视频所有的预测动作实例后，采用非极大化抑制算法对重叠的预测进行去重，从而获得最终的时序动作检测的结果。

本实施例中，供电营业厅工作人员主要分为引导员与服务人员两种类别，每个职务有共同的行为规范，也有各自特有的行为规范。下表列出了两种工作类别主要的不规范行为。对两种工作人员分别训练一个分类器，分类器的种类分别为六种，包括5种不规范行为与正常行为，如下表1所示：

表1:

根据供电营业厅的服务规范手册对不规范行为的类别进行界定，并且不规范确认等级，选择具有代表性的不规范行为类别种类进行模型训练。将每个服务人员的统计信息每间隔一段时间上报于管理人员，并且设计程序根据每个服务人员的统计次数以及每个不规范行为等级经过一定公式的计算得到服务规范系数，若超过设定阈值则进行预警。另外，分析云端服务人员不规范行为，统计其发生频率及所占比例，建立培训课堂，根据不同服务人员的不规范行为统计信息，分配相应权重值的培训课程，同时建立示范工程，实现个性化培训。

本发明的基于监控视频信息的供电营业厅服务人员行为识别方法，通过对现场视频、音频、图像上的信息特征学习，生成不规范行为特征库并进行分类；其中图像特征学习，可以采用基于深度图像模型和骨骼信息的方法，深度图像不受光照影响，能够提供三维空间信息，同时深度摄像头设备通过对深度数据的处理，提取出了人体的骨骼特征，为行为识别提供重要信息；同时也采用RGB图像的行为识别技术来提取特征，将之与深度图像的特征进行融合进一步提高识别精度；音频特征学习采用HMM和DAE的语音识别算法，音频识别能够记录工作人员的语音信息和复杂的情感表达，更能有效地监督和管理营业厅现场工作人员；通过上述方法使得主管部门不需要频繁地进行现场稽查，而是能够通过监测信息查看服务人员的工作情况，大幅度地提高效率；并且可以基于营业厅监测信息，针对不同营业厅人员的服务水平和缺陷，开展个性化培训。

行为识别模块，用于获取监测视频信息，基于上述高维向量到最终不规范行为类别的映射，对供电营业厅服务人员的行为进行识别。

本发明的基于监控视频信息的供电营业厅服务人员行为识别装置，用于执行如上所述的识别方法，同样具有如上方法所述的优点，而且整体结构简单、操作简便。

具体地，通过深度相机进行监测，将深度相机安置于大厅的四个方位和柜台服务人员正前方偏45度角，对大厅服务人员和柜台服务人员实时监控，通过人脸识别技术、动作开始结束帧检测技术检测服务人员动作并学习，学习结果与云端不规范动作特征库对比，记录其不规范动作特征和预警等级等信息并保存在云端。

具体地，通过音频采集云台采集语音信号，将音频采集云台装置在大厅的4个方位和中间位置，结合人脸检测技术、动态跟踪技术可精准判断服务人员位置，旋转音频采集云台，采集音频；将拾音器放置于柜台服务人员的正前方偏45度角位置，正对服务人员采集音频；对采集到的音频预处理、识别，识别到的信息结合语义分析提取关键字，和服务器不规范行为库匹配相近值，得出音频是否不规范并获取其类别和预警等级。其中拾音器采用旋转式结构，上下60度旋转，左右320度旋转，可根据发声点方向信息，迅速定向采集，排除大量噪音干扰。

本发明还公开了一种计算机可读存储介质，其上储存有计算机程序，计算机程序在被处理器运行时执行如上所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。

本实施例的计算机设备，包括存储器和处理器，存储器上存储有计算机程序，计算机程序在被处理器运行时执行如上所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。

本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。存储器可用于存储计算机程序和/或模块，处理器通过运行或执行存储在存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现各种功能。存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart MediaCard,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其它易失性固态存储器件等。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，包括：

在得到视频帧以及语音信号的高维向量的基础上，构建最终的分类器模型，建立从高维向量到最终不规范行为类别的映射；

2.根据权利要求1所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，对视频帧进行预处理包括：采用背景提取算法将工作人员的区域分割出来，并使用投票算法，计算连通域定位目标区域，对目标进行捕捉或跟踪，最终得到只含有单一目标的图像。

3.根据权利要求2所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，将视频流中相邻两帧或相隔几帧图像的两幅图像像素值相减，并对相减后的图像进行阈值化来提取图像中的运动区域；

4.根据权利要求1或2或3所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，对于不规范行为的识别需标定其具体的开始帧以及结束帧：提取视频帧的特征序列，再用滑窗机制在视频中的每个位置生成多个不同尺寸的提名，之后再对每个提名训练一个动作分类器和一个排名来对提名进行分类和排序，并且采用CDC算法来对时序动作检测中的动作边界进行微调以使得动作边界更加准确。

5.根据权利要求1或2或3所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，对语音信号进行预处理包括：使用数字滤波器实现预加重，采用短时分析算法对具有时变特性的语音信号进行分帧，再进行加窗。

6.根据权利要求5所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，对语音信号进行预处理还包括：采用双门限比较法将语音信号进行端点检测处理，检测出语音的起始点以及结束点。

7.根据权利要求1或2或3中任意一项所述的基于监控视频信息的供电营业厅服务人员行为识别方法，其特征在于，所述语音特征参数包括LPCC和MFCC；其中MFCC的得到过程：对于MFCC算法首先进行快速傅里叶变换(FFT)，再将实际频率尺度转换为Mel频率尺度，配置三角形滤波器组并计算每一个三角形滤波器对信号幅度谱滤波后的输出，最后对所有滤波器输出作对数运算，再进一步做离散余弦变换DTC，即可得到MFCC。

8.一种基于监控视频信息的供电营业厅服务人员行为识别装置，其特征在于，包括：

分类器模型建立模块，用于在得到视频帧以及语音信号的高维向量的基础上，构建最终的分类器模型，建立从高维向量到最终不规范行为类别的映射；

9.一种计算机可读存储介质，其上储存有计算机程序，其特征在于，所述计算机程序在被处理器运行时执行如权利要求1～7中任意一项所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述计算机程序在被处理器运行时执行如权利要求1～7中任意一项所述的基于监控视频信息的供电营业厅服务人员行为识别方法的步骤。