CN105338327A

CN105338327A - 一种可通过语音识别的视频监控联网系统

Info

Publication number: CN105338327A
Application number: CN201510859822.XA
Authority: CN
Inventors: 阚涛
Original assignee: XUNMEI ELECTRONICS TECHNOLOGY Co Ltd
Current assignee: XUNMEI ELECTRONICS TECHNOLOGY Co Ltd
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2016-02-17

Abstract

本发明公开一种可通过语音识别的视频监控联网系统，该系统包括：词典场景语音模块，适于对用户词汇表中的词典、场景语音依次进行采集，并将采集的特征矢量作为模版进行保存；相似度比较模块，适于将输入语音信号的特征矢量依次与词典场景语音模块中保存的每个特征矢量模版进行相似度比较，将相似度最高者作为语音识别结果输出；语音识别引擎模块，适于根据语音识别结果寻找一个词模型序列以描述语音输入信号，从而得到词解码序列，并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本发明通过相似度比较，在模版数据库中找出与输入语音信号相似度最高的语音识别结果，并根据语音识别结果获得词解码序列，从而转换代码进行执行查找。

Description

一种可通过语音识别的视频监控联网系统

技术领域

本发明属于视频监控联网领域，具体涉及一种可通过语音识别的视频监控联网系统。

背景技术

视频监控是安全防范系统的重要组成部分，传统的监控系统包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机，可作为前端视频图像信号的采集，它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来，随着计算机、网络以及图像处理、传输技术的飞速发展，视频监控技术也有了长足的发展。

近年来，随着视频监控系统大规模的不断扩大，应用的不断深入，系统的整合需求日益强烈；如各级公安机关对远程图像资源共享的需求不断提升，诸警种并发图像资源共享冲突日益突出，横向跨区域图像共享需求日益增多，视频监控"大联网"已悄然成为必然发展趋势且部分视频监控联网已经发展成为现实。

但是，本发明的发明人经过研究发现，随着视频监控联网的实现，监控视频数量越来越多，视频数据库中的视频数量呈现剧增态式，当管理人员或其他人员需要对存储的监控视频进行查询、录像回放等具体应用时，一般通过鼠标和键盘找到组织机构或视频通道进行检索，因而传统的监控系统查询视频操作繁琐，效率低下，不能快速定位需要的监控视频，工作量巨大。

发明内容

针对现有技术存在的技术问题，本发明提供一种可通过语音识别的视频监控联网系统，该系统能快速找到视频、录像视频等进行描述、辨认、检索、快速执行如拖拉播放。

为了实现上述目的，本发明采用如下技术方案：

一种可通过语音识别的视频监控联网系统，该系统包括：

词典场景语音模块，适于对用户词汇表中的词典、场景语音依次进行采集，并将采集的特征矢量作为模版进行保存；

相似度比较模块，适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较，将相似度最高者作为语音识别结果输出；

语音识别引擎模块，适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号，从而得到词解码序列，并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。

本发明提供的可通过语音识别的视频监控联网系统，通过相似度比较，在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本，并根据语音识别结果即相应的文本获得词解码序列，即将相应的文本转换成机器执行代码进行执行查找，代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找，因而能快速找到目标视频、录像视频等，工作效率高，智能化程度高，定位速度快，所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。

进一步，所述词典场景语音模块中的模版包括监控系统术语模版和人体语音加词典模版。

进一步，所述语音识别引擎模块中搜索所依据的是对公式中的声学模型打分和语言模型打分。

附图说明

图1是本发明提供的可通过语音识别的视频监控联网系统原理示意图。

图中，1、词典场景语音模块；2、相似度比较模块；3、语音识别引擎模块。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

请参考图1所示，本发明公开一种可通过语音识别的视频监控联网系统，该系统包括：

词典场景语音模块1，适于对用户词汇表中的词典、场景语音依次进行采集，并将采集的特征矢量作为模版进行保存；

相似度比较模块2，适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较，将相似度最高者作为语音识别结果输出；

语音识别引擎模块3，适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号，从而得到词解码序列，并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。

本发明提供的可通过语音识别的视频监控联网系统，通过相似度比较，在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本，并根据语音识别结果即相应的文本获得词解码序列，即将相应的文本转换成机器执行代码或命令进行执行查找，代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找，因而能快速找到目标视频、录像视频等，工作效率高，智能化程度高，定位速度快，所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。

作为具体实施例，所述词典场景语音模块1中的模版包括监控系统术语模版和人体语音加词典模版，所述监控系统术语模版中包括例如网络摄像机(IPC)、网络硬盘录像机(NVR)、出入口控制管理系统等术语；所述人体语音加词典模版中包括例如＂XX支行XX网点加钞间视频＂等人体语音，即将语音智能识别分成两种识别库进行综合分析并转换成系统可执行语言，由此可以提高语音识别的全面性和准确性。

作为具体实施例，所述相似度比较模块2适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较，将相似度最高者作为语音识别结果输出；即所述相似度比较模块2处于识别学习阶段，对输入的语音信号进行语言综合分析和语音库比对综合分析，得到与输入语音信号相似度最高的相应文本。

作为具体实施例，所述语音识别引擎模块3中预设有词模型序列，当得到相似度最高的语音识别结果后，可根据该相似度最高的语音识别结果在所述语音识别引擎模块3中进行寻找，以找到一个能够准确描述语音输入信号的词模型序列，并将该词模型序列作为所述语音输入信号的词解码序列，并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。其中，通过语音识别引擎模块3搜索所依据的是对公式中的声学模型打分和语言模型打分，具体为：1、声韵调是适合汉语的音位系统；2、声学模型所运用的语音特征要首先区分发音方法进而区分发音部位；3、在音节层面上就要利用语言模型。其主要是利用市面上成熟的语音识别引擎模块进行检索，通过所述语音识别引擎模块，可以将得到的相应文本转换成机器执行代码或命令进行执行查找，代替了传统的通过使用鼠标和键盘找到组织机构及视频通道，进行拖拉播放等操作，因而能够快速查找和调用视频监控联网系统的视频、时间、显示窗口及音频等，工作效率高，智能化程度高。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构，直接或间接运用在其他相关的技术领域，均同理在本发明的专利保护范围之内。

Claims

1.一种可通过语音识别的视频监控联网系统，其特征在于，该系统包括：

2.根据权利要求1所述的可通过语音识别的视频监控联网系统，其特征在于，所述词典场景语音模块中的模版包括监控系统术语模版和人体语音加词典模版。

3.根据权利要求1所述的可通过语音识别的视频监控联网系统，其特征在于，所述语音识别引擎模块中搜索所依据的是对公式中的声学模型打分和语言模型打分。