CN111898452A

CN111898452A - 一种视频监控联网系统

Info

Publication number: CN111898452A
Application number: CN202010621977.0A
Authority: CN
Inventors: 王磊; 范德满; 沈义军; 禹双双
Original assignee: Jiangsu Baixun Technology Development Co ltd
Current assignee: Jiangsu Baixun Technology Development Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-11-06

Abstract

本发明提出了一种视频监控联网系统，包括：采集系统，用于对语音和图像进行采集，获取语音频数据集及图像数据集；语音识别系统，用于将语音频数据集转成文字，实现对话技巧的辅助提升；图像识别系统，用于将学习图像数据集中图像的特征，便于对待识别的图像进行识别，通过本发明的技术方案，实现了对人员的有效识别。

Description

一种视频监控联网系统

技术领域

本发明涉及视频监控领域，具体为一种视频监控联网系统。

背景技术

视频监控是安全防范系统的重要组成部分，传统的监控系统包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机，可作为前端视频图像信号的采集，它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控技术也有了长足的发展。

发明内容

本发明旨在提供一种能够对人员进行快速、有效识别的视频监控联网系统。

为了实现上述目的，本发明是通过如下的技术方案来实现：

本发明提出了一种视频监控联网系统，其特征在于，包括：

采集系统，用于对语音和图像进行采集，获取语音频数据集及图像数据集；

语音识别系统，用于将语音频数据集转成文字，实现对话技巧的辅助提升；

图像识别系统，用于将学习图像数据集中图像的特征，便于对待识别的图像进行识别。

优选的，所述语音识别系统包括：

输入模块，用于接收来自一个传声器的输入信号；

第一缓存模块，用于存储所述输入信号；

降噪模块，用于接收所述输入信号并且生成降噪输入信号；

语音识别引擎，用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号，进行语音识别。

优选的，所述图像识别系统包括：

预处理模块，用于确定图像中的行人位置，获取包含人员的矩形区域；

特征提取模块，用于在包含人员的矩形区域中进行外观特征提取；

训练模块，用于训练YOLO检测模型，所述YOLO检测模型中包含俩个bounding box，用于将所述检测的图像与数据库中的图像进行对比并完成相似度计算，获取训练后的YOLO检测模型；

再识别模块，通过训练好的YOLO检测模型进行识别所述待识别图像数据集中的图像；

评价模块，用于衡量所述YOLO检测模型的性能优异度；

部署模块，用于将YOLO检测模型部署至开发板上，移植到终端设备中。

优选的，所述预处理模块进行图像预处理包括图像增强，图像数据归一化，提高图像的对比度及曝光度一类或多类。

优选的，所述特征提取模块具体步骤如下：

步骤A1，利用多尺度滑窗的方式分割图像区域，滑窗在整个图像区域内等距离滑动采样；

步骤A2，对于给定窗口，计算水平和垂直方向的梯度，梯度方向角度取值0～360°；

步骤A3，对梯度方向进行方向量化，统计所有梯度点得到梯度方向直方图；

步骤A4，对图像梯度方向直方图进行特征编码得到二进制串，统计个梯度方向空间分布特征；

步骤A5，综合梯度方向直方图和梯度方向空间分布特征，得到每个窗口特征块的空间位置信息和方向信息。

优选的，所述步骤A2的计算方法为[G_h,G_v]＝gradient(F)，采用方向模板[-1,0,1]，计算当前像素点的水平梯度G_h和垂直梯度G_v，方向角度θ＝arctan(G_v/G_h)：

G_h(x,y)＝f(x+1,y)-f(x-1,y)

G_v(x,y)＝f(x,y+1)-f(x,y-1)

其中，G_h(x,y),G_v(x,y)分别代表水平方向的梯度，垂直方向的梯度，x,y分别代表图像横坐标和纵坐标，f(x,y)代表在像素点(x,y)横坐标为x纵坐标为y点上的像素值。

优选的，所述YOLO检测模型中包括了24个卷积层和2个全连接层，所述训练模块的具体步骤如下：

步骤A1，YOLO检测模型中包括了24个卷积层和2个全连接层，根据以下公式计算模型的损失值：

其中，s²代表每张图像被分成s*s个网格；B表示每个网格预测的可能包含行人的矩形框个数，B＝2；

表示第i个网格中第j个矩形框是否负责本网格中的行人；

表示行人是否存在于第i个网格中；λ_coord代表矩形框中的w，h，x，y四个参数的损失权重；λ_noobj代表不负责的矩形框所预测行人信息损失权重；x_i,y_i,

分别代表数据库中行人矩形框和模型预测的矩形框的左上角对应第i个网格中心在两个方向上的偏移量；w_i,h_i,

分别代表第i个网格中数据库中行人矩形框和模型预测的矩形框的宽与高，c_i,

分别代表第i个网格中数据库中行人信息和模型预测行人信息；p_i(c),

分别代表第i个网格中数据库中行人信息和模型预测的行人信息为c的概率，J代表求出的模型的损失值；

步骤A2，通过不断的训练迭代YOLO检测模型，直到损失值J＜0.01后，停止训练，获取训练好的YOLO检测模型。

优选的，所述再识别模块的具体步骤如下：

步骤A1，将待识别的图像数据集中的图像统一为标准尺寸448*448的标准图像；

步骤A2，将标准图像输入已经训练好的YOLO检测模型，识别所述图像信息及图像中行人位置；

步骤A3，根据以下公式更精确的找出行人位置：

其中，a代表数据库中行人位置矩形框，b_k代表模型预测的行人位置第k个矩形框，k＝1,2,3,...,98，q为预设阈值，L代表通过筛选后得到的待识别图像精确的行人位置；

步骤A4，根据以下公式计算步骤A3中的预设阈值：

其中，m(f,g)代表邻域内每一张图像像素值的均值，z(f,g)代表每一张图像像素值的标准方差，R是代表每一张图像像素值标准方差的动态范围，t代表定义的一个修正参数，t的取值为0<t<1，(f,g)是其对应的坐标点，Q代表预设阈值；

步骤A5，回到步骤A2，重复执行步骤A2到步骤A4，对,每一张待识别的图像进行识别，直到识别结束。

优选的，所述评估模块通过mAP评估指标进行评估，mAP值代表召回率和精确率的比值。

优选的，所述终端设备包括智能手机、平板电脑或笔记本电脑。

附图说明

图1为本发明所述系统的模块结构图；

图2为本发明所述系统的模块结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种视频监控联网系统，如图1所示，所述系统包括：

采集系统S1，用于对语音和图像进行采集，获取语音频数据集及图像数据集；

语音识别系统S2，用于将语音频数据集转成文字，实现对话技巧的辅助提升；

图像识别系统S3，用于将学习图像数据集中图像的特征，便于对待识别的图像进行识别。

上述技术方案的工作原理为：本实施例中，视频监控联网系统包括采集系统，用于对语音和图像进行采集，获取语音频数据集及图像数据集；语音识别系统，用于将语音频数据集转成文字，实现对话技巧的辅助提升，将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列；图像识别系统，用于将学习图像数据集中图像的特征，便于对待识别的图像进行识别。

上述技术方案的效果为：所述系统为视频监控联网系统，将其分成3个子系统进行协作工作，采集系统负责进行图像和语音频采集，获取高画质的图像及音频，语音识别系统负责进行语音识别，使人机用户界面更加自然和容易使用，图像识别系统负责进行图像识别，通过特征提取，训练模型优化模型，调整精度，使准确率能够大幅度提升，从而更精准的识别。

在本实施例中，如图2所示，所述语音识别系统S2包括：

输入模块S201，第一缓存模块S202，降噪模块S203，语音识别引擎S204，其中：

输入模块S201，用于接收来自一个传声器的输入信号；

第一缓存模块S202，用于存储所述输入信号；

降噪模块S203，用于接收所述输入信号并且生成降噪输入信号；

语音识别引擎S204，用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号，进行语音识别。

上述技术方案的工作原理为：在本实施例中，所述通过传声器将语音频转换成信号传输到输入模块，输入模块用于接收来自一个传声器的输入信号，第一缓存模块将其输入信号进行存储，降噪模块将输入信号进行降噪处理，其中降噪处理的方法有高通滤波去噪法，中值滤波去噪法及连通域降噪法，最后通过语音识别引擎用于用于接收从所述第一缓存模块输出的输入信号或来自所述降噪模块输入信号，进行语音识别。

上述技术方案的效果为：语音频通过语音识别系统的4个模块，输入模块将其获取所述语音频转换成的信号，可以将语音转换成信号处理模式，可以更简单更快速的解决，通过第一缓存模块对输入的信号进行存储，然后通过降噪模块进行降噪处理，噪声越少，说明信号的质量越好；相反，信噪比越低，信号中的噪声越多，说明信号质量越差，通过降噪处理提高信号的质量，最终导入到语音识别引擎，进行语音识别，做到更精确更有效更快速的识别。

在本实施例中，如图2所示，所述图像识别系统S3包括：

预处理模块S301，特征提取模块S302，训练模块S303，再识别模块S304，评价模块S305，部署模块S306，其中：

预处理模块S301，用于确定图像中的行人位置，获取包含人员的矩形区域；

特征提取模块S302，用于在包含人员的矩形区域中进行外观特征提取；

训练模块S303，用于训练YOLO检测模型，所述YOLO检测模型中包含俩个boundingbox，用于将所述检测的图像与数据库中的图像进行对比并完成相似度计算，获取训练后的YOLO检测模型；

再识别模块S304，通过训练好的YOLO检测模型进行识别所述待识别图像数据集中的图像；

评价模块S305，用于衡量所述YOLO检测模型的性能优异度；

部署模块S306，用于将YOLO检测模型部署至开发板上，移植到终端设备中。

上述技术方案的工作原理为：本系统中的图像识别系统分为6个模块，预处理模块，特征提取模块，训练模块，再识别模块，评价模块，部署模块，通过采集系统收集的图像，通过预处理模块进行图像预处理，所述图像预处理包括图像增强，图像数据归一化，提高图像的对比度及曝光度一类或多类，获取预处理后的图像进行其特征提取，利用多尺度滑窗的方式分割图像区域，滑窗在整个图像区域内等距离滑动采样；对于给定窗口，计算水平和垂直方向的梯度，梯度方向角度取值0～360°；所述计算水平和垂直方向的梯度的计算方法为[G_h(x,y),G_v(x,y)]＝gradient(F)，采用方向模板[-1,0,1]，计算当前像素点的水平梯度G_h和垂直梯度G_v，方向角度θ＝arctan(G_v/G_h)，对梯度方向进行方向量化，统计所有梯度点得到梯度方向直方图；对图像梯度方向直方图进行特征编码得到二进制串，统计个梯度方向空间分布特征；综合梯度方向直方图和梯度方向空间分布特征，得到每个窗口特征块的空间位置信息和方向信息，将每个窗口特征块的空间位置信息和方向信息输入YOLO模型进行训练，当模型训练好之后，进行再识别模块，对其待识别的图像进行识别，通过mAP值来评价所述模型识别的准确率，mAP值代表召回率和精确率的比值，最后将模型部署到开发板上，移植终端设备上进行图像识别，所述终端设备包括智能手机、平板电脑或笔记本电脑。

上述技术方案的效果为：通过上述技术，图像识别技术作为辅助工具存在，为人类视觉提供了强有力的辅助和增强，带给了一种全新的与外部世界进行交互的方式，可以通过搜索找到图片中的关键信息；可以随手拍下一件陌生物体而迅速找到与之相关的各类信息；也可以将人脸识别作为主要的身份认证方式，这些应用虽然看起来很普通，但当图像识别技术渗透到人类行为习惯的方方面面时，就相当于把一部分视力外包给了机器，就像已经把部分记忆外包给了搜索引擎一样，达到实时高效的识别。

在本实施例中，所述YOLO检测模型中包括了24个卷积层和2个全连接层，所述训练模块的具体步骤如下：

表示第i个网格中第j个矩形框是否负责本网格中的行人；

上述技术方案的工作原理为：在本实施例中模型训练采用的YOLO检测模型，所述YOLO检测模型中包括了24个卷积层和2个全连接层，所述卷积层用于提取特征，进行多层卷积，所述全连接层用于分类，划分人物信息，通过构建损失函数，根据损失函数来决定是否继续训练，损失函数是根据数据库中真实的标准矩形框位置和图像信息与模型预测的进行差距的减小，直至当差距训练到小于0.01后可以停止训练，进行模型的评估。

上述技术方案的效果为：所述损失函数是为了衡量模型是否训练好，当J＜0.01模型可以停止训练，进行模型评估，通过模型训练将其损失值打印出来，起到可视化的效果，可以直观的观察模型的训练过程及观察数据。

本实施例中，所述再识别模块的具体步骤如下：

步骤A3，根据以下公式更精确的找出行人位置：

步骤A4，根据以下公式计算步骤A3中的预设阈值：

有益效果：以上算法采用深度学习技术，通过对预测的矩形框与真实的矩形框的精准校对，使预测的矩形框逼近与真实的矩形框，大大提升了检测效果的精确度，通过对其阈值的确定，将预测的多个矩形框中小于阈值的直接不考虑计算，提高了检测的速度，达到了对人物的定位，为后期深度学习项目打下了基础。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。