CN105338327A - 一种可通过语音识别的视频监控联网系统 - Google Patents
一种可通过语音识别的视频监控联网系统 Download PDFInfo
- Publication number
- CN105338327A CN105338327A CN201510859822.XA CN201510859822A CN105338327A CN 105338327 A CN105338327 A CN 105338327A CN 201510859822 A CN201510859822 A CN 201510859822A CN 105338327 A CN105338327 A CN 105338327A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- module
- dictionary
- speech
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 22
- 230000006855 networking Effects 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000916 dilatatory effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/472—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
- H04N21/47217—End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
- H04N7/181—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种可通过语音识别的视频监控联网系统,该系统包括:词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;相似度比较模块,适于将输入语音信号的特征矢量依次与词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;语音识别引擎模块,适于根据语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。本发明通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果,并根据语音识别结果获得词解码序列,从而转换代码进行执行查找。
Description
技术领域
本发明属于视频监控联网领域,具体涉及一种可通过语音识别的视频监控联网系统。
背景技术
视频监控是安全防范系统的重要组成部分,传统的监控系统包括前端摄像机、传输线缆、视频监控平台。摄像机可分为网络数字摄像机和模拟摄像机,可作为前端视频图像信号的采集,它是一种防范能力较强的综合系统。视频监控以其直观、准确、及时和信息内容丰富而广泛应用于许多场合。近年来,随着计算机、网络以及图像处理、传输技术的飞速发展,视频监控技术也有了长足的发展。
近年来,随着视频监控系统大规模的不断扩大,应用的不断深入,系统的整合需求日益强烈;如各级公安机关对远程图像资源共享的需求不断提升,诸警种并发图像资源共享冲突日益突出,横向跨区域图像共享需求日益增多,视频监控"大联网"已悄然成为必然发展趋势且部分视频监控联网已经发展成为现实。
但是,本发明的发明人经过研究发现,随着视频监控联网的实现,监控视频数量越来越多,视频数据库中的视频数量呈现剧增态式,当管理人员或其他人员需要对存储的监控视频进行查询、录像回放等具体应用时,一般通过鼠标和键盘找到组织机构或视频通道进行检索,因而传统的监控系统查询视频操作繁琐,效率低下,不能快速定位需要的监控视频,工作量巨大。
发明内容
针对现有技术存在的技术问题,本发明提供一种可通过语音识别的视频监控联网系统,该系统能快速找到视频、录像视频等进行描述、辨认、检索、快速执行如拖拉播放。
为了实现上述目的,本发明采用如下技术方案:
一种可通过语音识别的视频监控联网系统,该系统包括:
词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;
相似度比较模块,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;
语音识别引擎模块,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。
本发明提供的可通过语音识别的视频监控联网系统,通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本,并根据语音识别结果即相应的文本获得词解码序列,即将相应的文本转换成机器执行代码进行执行查找,代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找,因而能快速找到目标视频、录像视频等,工作效率高,智能化程度高,定位速度快,所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。
进一步,所述词典场景语音模块中的模版包括监控系统术语模版和人体语音加词典模版。
进一步,所述语音识别引擎模块中搜索所依据的是对公式中的声学模型打分和语言模型打分。
附图说明
图1是本发明提供的可通过语音识别的视频监控联网系统原理示意图。
图中,1、词典场景语音模块;2、相似度比较模块;3、语音识别引擎模块。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
请参考图1所示,本发明公开一种可通过语音识别的视频监控联网系统,该系统包括:
词典场景语音模块1,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;
相似度比较模块2,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;
语音识别引擎模块3,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。
本发明提供的可通过语音识别的视频监控联网系统,通过相似度比较,在模版数据库中找出与输入语音信号相似度最高的语音识别结果即相应的文本,并根据语音识别结果即相应的文本获得词解码序列,即将相应的文本转换成机器执行代码或命令进行执行查找,代替传统的通过鼠标和键盘找到组织机构或视频通道进行检索查找,因而能快速找到目标视频、录像视频等,工作效率高,智能化程度高,定位速度快,所以能更快满足用户对目标视频进行描述、辨认、检索、快速执行如拖拉播放的需要。
作为具体实施例,所述词典场景语音模块1中的模版包括监控系统术语模版和人体语音加词典模版,所述监控系统术语模版中包括例如网络摄像机(IPC)、网络硬盘录像机(NVR)、出入口控制管理系统等术语;所述人体语音加词典模版中包括例如"XX支行XX网点加钞间视频"等人体语音,即将语音智能识别分成两种识别库进行综合分析并转换成系统可执行语言,由此可以提高语音识别的全面性和准确性。
作为具体实施例,所述相似度比较模块2适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;即所述相似度比较模块2处于识别学习阶段,对输入的语音信号进行语言综合分析和语音库比对综合分析,得到与输入语音信号相似度最高的相应文本。
作为具体实施例,所述语音识别引擎模块3中预设有词模型序列,当得到相似度最高的语音识别结果后,可根据该相似度最高的语音识别结果在所述语音识别引擎模块3中进行寻找,以找到一个能够准确描述语音输入信号的词模型序列,并将该词模型序列作为所述语音输入信号的词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。其中,通过语音识别引擎模块3搜索所依据的是对公式中的声学模型打分和语言模型打分,具体为:1、声韵调是适合汉语的音位系统;2、声学模型所运用的语音特征要首先区分发音方法进而区分发音部位;3、在音节层面上就要利用语言模型。其主要是利用市面上成熟的语音识别引擎模块进行检索,通过所述语音识别引擎模块,可以将得到的相应文本转换成机器执行代码或命令进行执行查找,代替了传统的通过使用鼠标和键盘找到组织机构及视频通道,进行拖拉播放等操作,因而能够快速查找和调用视频监控联网系统的视频、时间、显示窗口及音频等,工作效率高,智能化程度高。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明的专利保护范围之内。
Claims (3)
1.一种可通过语音识别的视频监控联网系统,其特征在于,该系统包括:
词典场景语音模块,适于对用户词汇表中的词典、场景语音依次进行采集,并将采集的特征矢量作为模版进行保存;
相似度比较模块,适于将输入语音信号的特征矢量依次与所述词典场景语音模块中保存的每个特征矢量模版进行相似度比较,将相似度最高者作为语音识别结果输出;
语音识别引擎模块,适于根据所述语音识别结果寻找一个词模型序列以描述语音输入信号,从而得到词解码序列,并根据转换后的词解码序列在监控视频数据库中搜索到目标视频。
2.根据权利要求1所述的可通过语音识别的视频监控联网系统,其特征在于,所述词典场景语音模块中的模版包括监控系统术语模版和人体语音加词典模版。
3.根据权利要求1所述的可通过语音识别的视频监控联网系统,其特征在于,所述语音识别引擎模块中搜索所依据的是对公式中的声学模型打分和语言模型打分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859822.XA CN105338327A (zh) | 2015-11-30 | 2015-11-30 | 一种可通过语音识别的视频监控联网系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859822.XA CN105338327A (zh) | 2015-11-30 | 2015-11-30 | 一种可通过语音识别的视频监控联网系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105338327A true CN105338327A (zh) | 2016-02-17 |
Family
ID=55288572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510859822.XA Pending CN105338327A (zh) | 2015-11-30 | 2015-11-30 | 一种可通过语音识别的视频监控联网系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105338327A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN108509502A (zh) * | 2017-02-28 | 2018-09-07 | 灯塔人工智能公司 | 用于基于视觉的监视系统的语音接口 |
CN110099246A (zh) * | 2019-02-18 | 2019-08-06 | 深度好奇(北京)科技有限公司 | 监控调度方法、装置、计算机设备及存储介质 |
CN110827811A (zh) * | 2018-08-13 | 2020-02-21 | 格力电器(武汉)有限公司 | 家电设备的语音控制方法及装置 |
CN110832409A (zh) * | 2017-07-13 | 2020-02-21 | 三菱电机大楼技术服务株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN113051985A (zh) * | 2019-12-26 | 2021-06-29 | 深圳云天励飞技术有限公司 | 信息提示方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411833A (zh) * | 2011-08-02 | 2012-04-11 | 杭州威威网络科技有限公司 | 基于音频识别的联网报警装置 |
EP2444934A1 (en) * | 2010-10-19 | 2012-04-25 | Koninklijke Philips Electronics N.V. | Medical imaging system, computer-implemented method, and computer program product for identifying a treated region in a medical image |
CN102833582A (zh) * | 2012-08-02 | 2012-12-19 | 四川长虹电器股份有限公司 | 采用语音搜索音视频资源的方法 |
CN104392721A (zh) * | 2014-11-28 | 2015-03-04 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于语音识别的智能应急指挥系统及其语音识别方法 |
-
2015
- 2015-11-30 CN CN201510859822.XA patent/CN105338327A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2444934A1 (en) * | 2010-10-19 | 2012-04-25 | Koninklijke Philips Electronics N.V. | Medical imaging system, computer-implemented method, and computer program product for identifying a treated region in a medical image |
CN102411833A (zh) * | 2011-08-02 | 2012-04-11 | 杭州威威网络科技有限公司 | 基于音频识别的联网报警装置 |
CN102833582A (zh) * | 2012-08-02 | 2012-12-19 | 四川长虹电器股份有限公司 | 采用语音搜索音视频资源的方法 |
CN104392721A (zh) * | 2014-11-28 | 2015-03-04 | 东莞中国科学院云计算产业技术创新与育成中心 | 基于语音识别的智能应急指挥系统及其语音识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509502A (zh) * | 2017-02-28 | 2018-09-07 | 灯塔人工智能公司 | 用于基于视觉的监视系统的语音接口 |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN110832409A (zh) * | 2017-07-13 | 2020-02-21 | 三菱电机大楼技术服务株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN110832409B (zh) * | 2017-07-13 | 2024-01-30 | 三菱电机楼宇解决方案株式会社 | 楼宇管理系统以及楼宇管理装置 |
CN110827811A (zh) * | 2018-08-13 | 2020-02-21 | 格力电器(武汉)有限公司 | 家电设备的语音控制方法及装置 |
CN110099246A (zh) * | 2019-02-18 | 2019-08-06 | 深度好奇(北京)科技有限公司 | 监控调度方法、装置、计算机设备及存储介质 |
CN113051985A (zh) * | 2019-12-26 | 2021-06-29 | 深圳云天励飞技术有限公司 | 信息提示方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105338327A (zh) | 一种可通过语音识别的视频监控联网系统 | |
US10699699B2 (en) | Constructing speech decoding network for numeric speech recognition | |
US10403282B2 (en) | Method and apparatus for providing voice service | |
Wang et al. | Multi-format contrastive learning of audio representations | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
WO2021051544A1 (zh) | 语音识别方法及其装置 | |
CN108399923B (zh) | 多人发言中发言人识别方法以及装置 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN104078044B (zh) | 移动终端及其录音搜索的方法和装置 | |
US10515292B2 (en) | Joint acoustic and visual processing | |
CN111933129A (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Garcia et al. | Keyword spotting of arbitrary words using minimal speech resources | |
US20140278372A1 (en) | Ambient sound retrieving device and ambient sound retrieving method | |
CN105512348A (zh) | 用于处理视频和相关音频的方法和装置及检索方法和装置 | |
US8032356B2 (en) | Spoken translation system using meta information strings | |
JP4699954B2 (ja) | マルチメディアデータ管理方法とその装置 | |
US8688725B2 (en) | Search apparatus, search method, and program | |
CN101923857A (zh) | 一种人机交互的可扩展语音识别方法 | |
CN104252861A (zh) | 视频语音转换方法、装置和服务器 | |
CN101950560A (zh) | 一种连续语音声调识别方法 | |
CN109754808B (zh) | 语音转换文字的方法、装置、计算机设备及存储介质 | |
Drexler et al. | Analysis of audio-visual features for unsupervised speech recognition | |
CN105303794A (zh) | 一种可通过声纹识别进行报警综合处置管理系统 | |
Chen et al. | Towards unsupervised automatic speech recognition trained by unaligned speech and text only | |
Gandhe et al. | Using web text to improve keyword spotting in speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160217 |