CN105407316B - 智能摄像系统的实现方法、智能摄像系统和网络摄像头 - Google Patents

智能摄像系统的实现方法、智能摄像系统和网络摄像头 Download PDF

Info

Publication number
CN105407316B
CN105407316B CN201410409942.5A CN201410409942A CN105407316B CN 105407316 B CN105407316 B CN 105407316B CN 201410409942 A CN201410409942 A CN 201410409942A CN 105407316 B CN105407316 B CN 105407316B
Authority
CN
China
Prior art keywords
camera
audio data
module
server
intelligent terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410409942.5A
Other languages
English (en)
Other versions
CN105407316A (zh
Inventor
沈海寅
房文新
王禾丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410409942.5A priority Critical patent/CN105407316B/zh
Priority to PCT/CN2015/087559 priority patent/WO2016026446A1/zh
Publication of CN105407316A publication Critical patent/CN105407316A/zh
Application granted granted Critical
Publication of CN105407316B publication Critical patent/CN105407316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种智能摄像系统的实现方法、智能摄像系统和网络摄像头;其中的智能摄像系统主要包括:服务器以及网络摄像头;且其中的方法包括:网络摄像头在视频监控状态下采集其所在环境的音频数据,并对其采集的音频数据进行语音识别;网络摄像头从语音识别结果中提取关键词;在所述提取的关键词属于预定关键词的情况下,网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。

Description

智能摄像系统的实现方法、智能摄像系统和网络摄像头
技术领域
本发明涉及视频监控技术,具体涉及一种智能摄像系统的实现方法、智能摄像系统以及网络摄像头。
背景技术
现有的一些摄像头可以通过网络与服务器连接,且一个服务器可以连接大量的摄像头,用户可以通过服务器调取并查看摄像头摄取的画面。这样的摄像头可以称为网络摄像头。
现有的网络摄像头与用户或服务器之间的交互通常包括如下两种:
一、网络摄像头通过其指示灯或者蜂鸣器等元器件告知用户网络摄像头的当前状态。网络摄像头的状态通常包括:在线、离线、启动、被查看、异常报警以及死机等;例如,对于Dropcam摄像头而言,蓝灯长亮表示摄像头当前在线,绿灯长亮表示摄像头当前离线,蓝灯闪烁表示有人正在通过服务器查看摄像头,红灯闪烁表示摄像头自身出现异常而报警,红灯长亮表示摄像头当前处于死机状态;再例如,蜂鸣声1表示摄像头当前在线,蜂鸣声2表示摄像头当前离线,蜂鸣声3表示摄像头当前正在启动。
二、网络摄像头通知服务器其已上线以及网络摄像头应服务器的请求向服务器传输其摄取的视频画面。
发明人在实现本发明过程中发现,网络摄像头依赖于指示灯的颜色、闪烁速度、亮度、蜂鸣器合成音种类、蜂鸣速度以及蜂鸣声音大小等所表达的信息非常有限;且网络摄像头向服务器提供的信息较单一;由此可知,现有的摄像系统的智能化程度有待于进一步提高。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的智能摄像系统的实现方法、智能摄像系统以及网络摄像头。
依据本发明的一个方面,提供了一种智能摄像系统的实现方法,该方法包括:网络摄像头在视频监控状态下采集其所在环境的音频数据,并对其采集的音频数据进行语音识别;网络摄像头从语音识别结果中提取关键词;在所述提取的关键词属于预定关键词的情况下,网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
依据本发明的再一个方面,提供了一种智能摄像系统,该系统包括:采集模块,设置于网络摄像头中,适于在网络摄像头处于视频监控状态下,采集网络摄像头所在环境的音频数据;第一语音识别模块,设置于网络摄像头中,适于对采集模块采集的音频数据进行语音识别;提取模块,设置于网络摄像头中,适于从语音识别结果中提取关键词;请求模块,设置于网络摄像头中,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;处理模块,设置于指定服务器中,适于根据指定服务器接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
依据本发明的再一个方面,提供了一种网络摄像头,该网络摄像头主要包括:采集模块,适于在网络摄像头处于视频监控状态下采集网络摄像头所在环境的音频数据;第一语音识别模块,适于对采集模块采集的音频数据进行语音识别;提取模块,适于从语音识别结果中提取关键词;请求模块,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,以使指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种。
本发明的智能摄像系统的实现方法、智能摄像系统和网络摄像头通过网络摄像头采集音频数据以及对采集的音频数据进行语音识别,并基于语音识别结果向服务器发送相应的处理请求,使服务器可以根据该处理请求中的基础数据与用户智能终端设备以及网络摄像头进行相应的信息交互,例如,服务器联通用户智能终端设备与网络摄像头,使用户智能终端设备和网络摄像头之间可以实现网络通话,再例如,服务器向网络摄像头返回用户需要查询的信息的音频数据,由网络摄像头播放该音频数据等;从而本发明实施例提高了网络摄像头的信息交互能力,进而提高了智能摄像系统的智能化程度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。本实施例的附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明实施例一的智能摄像系统的实现方法流程图;
图2示出了根据本发明实施例二的包含有网络摄像头具体结构的智能摄像系统示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一、智能摄像系统的实现方法。
本实施例中的智能摄像系统主要包括:服务器以及网络摄像头,且一个服务器与一个或者多个网络摄像头分别连接;例如,网络摄像头通过WIFI与服务器连接,当然,网络摄像头也可以通过有线连接方式与服务器连接。本实施例中的服务器还与多个用户智能终端设备分别连接,例如,用户智能终端设备通过WIFI或者GSM或者CDMA或者WCDMA等移动通讯技术与服务器连接。
本实施例中的服务器可以为设置于云端的服务器,即云端服务器。本实施例中的网络摄像头可以具体为集成有语音识别功能以及音频播放功能的网络摄像头。另外,上述用户智能终端设备可以为智能移动电话或者台式计算机或者笔记型计算机或者平板电脑等可以通过移动通讯技术与服务器进行信息交互的智能电子设备。
下面结合图1对本实施例的方法所包含的各个步骤进行说明。
在图1中,S100、网络摄像头在视频监控状态下采集其所在环境的音频数据,并对其采集的音频数据进行语音识别。
具体的,本实施例的网络摄像头可以工作在多种不同的工作状态下,并在某一操作的触发下切换其工作状态,也就是说,网络摄像头可以根据实际情况自动的从其一种工作状态切换到另一种工作状态。
本实施例中的网络摄像头的工作状态主要包括:视频监控状态、通话状态以及媒体数据播放状态;在通常情况下,视频监控状态是网络摄像头的正常工作状态,即网络摄像头采集其所在环境的视频数据,并存储其采集到的视频数据,以实现目前摄像头通常的视频监控功能;通话状态即网络摄像头与用户智能终端设备之间所进行的媒体数据(如音频数据或视频数据)的交互,也就是说,网络摄像头和用户智能终端设备之间通过服务器而联通,这样,网络摄像头位置处的用户和用户智能终端设备位置处的用户可以通过网络摄像头和用户智能终端设备实现IP通话(即网络通话);媒体数据播放状态即网络摄像头与服务器之间的媒体数据(如音频数据或者视频数据)的传输,也就是说,网络摄像头接收服务器传输来的媒体数据(如音频数据或者视频数据),并播放该媒体数据。本实施例中的网络摄像头在通常情况下会处于视频监控状态。
上述IP通话可以具体为IP语音通话,也可以具体为IP视频通话,该IP通话可以为现有的社交应用中的多媒体通话,如该IP通话可以为QQ聊天工具中的视频通话或者微信聊天工具中的视频聊天等。
本实施例中的网络摄像头无论是处于视频监控状态,还是其处于通话状态,亦或是处于媒体数据播放状态,均可以按照预先设定的参数(如采集频率等)执行音频数据的采集操作;但是,在通常情况下,网络摄像头只有在其处于视频监控状态下,才会对其采集到的音频数据执行语音识别处理;然而,在实际应用中,网络摄像头在其处于通话状态或者媒体数据播放状态时对其采集到的音频数据执行语音识别处理也是完全可行的。
本实施例中的网络摄像头具有简单的语音识别处理能力,如网络摄像头可以将其采集的音频数据转化为文本文字等。网络摄像头可以采用现有的语音识别技术对其采集的音频数据进行语音识别处理。在本实施例中不再详细描述网络摄像头进行语音识别处理的具体实现过程。
S110、网络摄像头从语音识别结果中提取关键词。
具体的,网络摄像头可以将其语音识别结果中的语气助词以及连词等不重要的字或者词去除,从而获得一个或者多个关键词。在网络摄像头将其采集的音频数据转化为文本文字的情况下,网络摄像头可以采用多种方式从语音识别出的文本文字中提取关键词,例如,网络摄像头可以采用文本关键词提取算法来获得关键词。在本实施例中不再详细描述网络摄像头进行关键词提取的具体实现过程。
S120、在网络摄像头提取的关键词属于预定关键词的情况下,网络摄像头向指定服务器(即上述服务器)发送携带有网络摄像头的标识信息以及基础数据的处理请求,这里的基础数据包括:关键词、音频数据以及视频数据中的至少一种。
具体的,预定关键词可以是网络摄像头中本地存储的关键词,也可以是存储于其他设备中的关键词。下述以预定关键词为网络摄像头中存储的关键词为例进行说明。
网络摄像头中预先设置有一个或者多个关键词,这些预先设置的关键词形成关键词集合;用户可以通过其用户智能终端设备访问与网络摄像头连接的服务器,并利用服务器设置网络摄像头中的关键词集合所包含的部分或者全部关键词;另外,上述关键词集合所包含的部分或者全部关键词也可以是网络摄像头在出厂时设置于网络摄像头中的。
网络摄像头可以将其提取出的关键词与关键词集合中的关键词进行比较以根据比较结果产生相应的处理请求,如网络摄像头将其提取出的关键词与关键词集合中的关键词进行匹配,网络摄像头可以在其提取出的任何一个关键词与其存储的关键词集合中的一个关键词匹配的情况下,生成相应的处理请求,并将该处理请求发送给服务器。
网络摄像头生成的处理请求中应携带有其网络摄像头标识信息,以表明该处理请求是哪个网络摄像头发送给服务器的。该处理请求中还可以携带有网络摄像头提取出的关键词,以表示网络摄像头希望服务器能够根据处理请求中携带的关键词而执行相应的操作;例如,网络摄像头发送的处理请求中携带的关键词为“呼叫”和“爸爸”,则表示网络摄像头希望服务器执行呼叫相应的用户智能终端设备的操作;再例如,网络摄像头发送的处理请求中携带的关键词为“百度”、“红茶”和“品种”,则表示网络摄像头希望服务器执行查询红茶品种的操作。
为了使服务器能够更准确的执行用户所期望的操作,网络摄像头可以在其提取出的任何一个关键词与其存储的关键词集合中的关键词匹配的情况下,将其采集到的对应上述关键词的相应的音频数据携带在处理请求中,以使服务器可以对该音频数据进行更智能化的语音识别及分析。
需要特别说明的是,网络摄像头发送给服务器的处理请求中可以携带有网络摄像头标识信息,也可以携带有网络摄像头标识信息和关键词,还可以携带有网络摄像头标识信息和网络摄像头采集的音频数据,当然,该处理请求也可以携带有网络摄像头标识信息、关键词以及网络摄像头采集的音频数据;网络摄像头可以在其向服务器发送的各处理请求中均携带其采集的音频数据,也可以在需要时才在处理请求中携带音频数据,如网络摄像头根据其语音识别结果对用户所要求服务器执行的操作不明确时,网络摄像头在处理请求中携带其采集的音频数据,而如果网络摄像头根据其语音识别结果对用户所要求服务器执行的操作非常明确时,网络摄像头可以不在处理请求中携带其采集的音频数据。网络摄像头发送给服务器的处理请求中可以携带有其采集的视频数据,该视频数据有利于服务器对网络摄像头处的用户的需求进行进一步的分析。本实施例的处理请求中承载的音频数据和视频数据均为包含有危险图像对应时间段的音频数据和视频数据。
另外,本实施例中的处理请求可以是基于HTTP的消息,也可以是基于其他协议的消息。还有,本实施例中的网络摄像头标识信息可以为网络摄像头物理设备编码信息,也可以为用户的智能移动电话的手机号码,还可以为社交应用的用户账号,如QQ聊天工具的用户账号或者微信聊天工具的用户账号等。
从上述描述可知,本实施例中的网络摄像头是具有简单语言分析能力的网络摄像头,且该网络摄像头能够利用该简单的语言分析能力执行相应的操作;也就是说,网络摄像头可以识别出其采集的音频数据中是否包含有预定的关键词,且网络摄像头在分析出其采集的音频数据中包含有预定的关键词的情况下,可以产生相应的处理请求,并向与其连接的服务器发送其产生的处理请求。
S130、服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或处理请求中携带的网络摄像头标识信息对应的网络摄像头的信息交互。
具体的,服务器根据其接收到的处理请求所执行的信息交互操作可以具体为:接通对话操作、通知用户操作、查询并返回查询结果的操作或者返回无效信息操作等,相应的,上述处理响应可以是针对呼叫的处理响应,可以是针对通知的处理响应,也可以是针对查询的处理响应,还可以是针对无效信息的处理响应。接通对话操作即联通用户智能终端设备与网络摄像头之间的IP对话;通知用户操作即向用户智能终端设备发送相应的提示信息;查询并返回查询结果的操作即获取网络摄像头所需查询的内容并将查询到的内容返回给网络摄像头;返回无效信息操作即服务器向网络摄像头返回表示网络摄像头采集的音频数据无意义的信息。
在服务器接收到的处理请求中携带有网络摄像头标识信息,而没有携带有网络摄像头提取出的关键词或者网络摄像头采集的音频数据的情况下,服务器会根据预先设置的缺省操作信息来执行相应的操作,例如,服务器在接收到处理请求时,从处理请求中获取网络摄像头标识信息,并利用该网络摄像头标识信息(如网络摄像头的用户账号信息)从其存储的信息中查找用户智能终端设备的用户账号信息,并根据该网络摄像头的用户账号信息和用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话,且在服务器接通两者之间的IP通话时,网络摄像头处于通话状态。在网络摄像头处于通话状态的情况下,网络摄像头可以将其当前实时采集的音频数据和/或视频数据实时地传输至服务器,并由服务器传输给用户智能终端设备,且网络摄像头在接收到用户智能终端设备发送的经由服务器传输来的音频数据时,应及时播放该音频数据;在网络摄像头具有显示屏的情况下,网络摄像头还可以播放用户智能终端设备发送的经由服务器传输来的视频数据;在用户智能终端设备与网络摄像头之间的IP通话结束之后,网络摄像头切换到视频监控状态,继续采集视频数据以及音频数据,并对其采集的音频数据进行语音识别处理。
在服务器接收到的处理请求中携带有网络摄像头标识信息以及网络摄像头提取出的关键词,而没有携带有网络摄像头采集的音频数据的情况下,服务器会根据处理请求中携带的关键词来执行相应的操作,例如,服务器在接收到处理请求时,从处理请求中获取网络摄像头标识信息以及关键词,在关键词中包含有“呼叫”和“爸爸”时,服务器利用网络摄像头标识信息(如网络摄像头的用户账号信息)从其存储的信息中查找与爸爸对应的用户智能终端设备的用户账号信息,并根据网络摄像头的用户账号信息和查找到的用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话,且在接通两者的IP通话时,网络摄像头处于通话状态;在IP通话结束之后,网络摄像头切换到视频监控状态,网络摄像头继续采集视频以及视频数据,并对采集的音频数据进行语音识别处理;再例如,服务器在接收到处理请求时,从该处理请求中获取网络摄像头标识信息以及关键词,在获取的关键词中包含有“百度”、“红茶”和“品种”的情况下,服务器利用搜索引擎查找“红茶品种”对应的查询结果,在通常情况下,服务器会获得多个查询结果,服务器可以从多个查询结果中选取一个查询结果,如服务器选取百度百科中对“红茶品种”的介绍;服务器将查找到的“红茶品种”的具体内容转化为相应格式的数据(如音频数据或者视频数据等),并通过查询响应返回给网络摄像头;在网络摄像头接收到服务器返回的查询响应时,网络摄像头切换到媒体数据播放状态。网络摄像头在播放完查询响应中携带的查询结果(如音频数据和/或视频数据)之后,自动切换到视频监控状态,继续采集视频以及音频数据,并对其采集的音频数据进行语音识别处理。
在服务器接收到的处理请求中携带有网络摄像头标识信息以及网络摄像头采集的音频数据,而没有携带有网络摄像头提取的关键词的情况下,服务器对处理请求中携带的音频数据进行语音识别处理,并根据自身的语音识别处理结果来执行相应的操作;本实施例中的服务器通常具有比网络摄像头所具有的语音识别技术更智能更复杂的语音识别技术;
一个具体的例子,服务器在接收到处理请求时,从该处理请求中获取音频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,服务器向网络摄像头标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应;服务器在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫135********),可以根据其存储的信息确定135********对应的用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,服务器在接通用户智能终端设备之后,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,且在服务器接通两者之间的IP通话时,网络摄像头处于通话状态。在用户智能终端设备与网络摄像头之间的IP通话结束之后,网络摄像头切换到视频监控状态,继续采集视频以及音频数据,并对其采集的音频数据进行语音识别处理。
另一个具体的例子,服务器在接收到处理请求时,从该处理请求中获取音频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,服务器向网络摄像头标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应;服务器在判断出该音频数据为用户查询相应内容的情况下(如查询如何从**到北京火车站),可以利用搜索引擎并根据其识别出的搜索关键词进行搜索查询操作,服务器在获得查询结果后,将查询结果转化为相应格式的数据(如音频数据或者视频数据等),并将该查询结果对应的数据承载于查询响应中,服务器向网络摄像头标识信息对应的网络摄像头返回该查询响应,网络摄像头在接收到服务器传输来的承载有查询结果的查询响应后,处于媒体数据播放状态,并向用户展示查询响应中的查询结果,如播放服务器发送来的查询响应中携带的音频数据。网络摄像头在向用户展示查询相应中的查询结果之后(如播放完音频数据之后),自动切换到视频监控状态,继续采集视频以及音频数据,并对其采集的音频数据进行语音识别处理。
再一个具体的例子,服务器在接收到处理请求时,从该处理请求中获取音频数据和视频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,服务器向网络摄像头标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应;服务器在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫爸爸),可以对其获取的视频数据进行图像识别,以判断爸爸所指代的用户,然后根据其存储的信息确定指代的用户对应的用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,服务器在接通用户智能终端设备之后,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,且在服务器接通两者之间的IP通话时,网络摄像头处于通话状态。在用户智能终端设备与网络摄像头之间的IP通话结束之后,网络摄像头切换到视频监控状态,继续采集视频以及音频数据,并对其采集的音频数据进行语音识别处理。
在服务器接收到的处理请求中携带有网络摄像头标识信息、网络摄像头提取出的关键词以及网络摄像头采集的音频数据的情况下,服务器需要对处理请求中携带的音频数据进行语音识别处理,服务器可以仅根据自身的语音识别处理结果来执行相应的操作;服务器也可以根据自身的语音识别处理结果并参考处理请求中携带的关键词执行相应的操作;在实际应用中,服务器可以根据其内部预先设置的相应的逻辑来决定是否参考网络摄像头传输来的处理请求中携带的关键词来执行相应的操作。另外,在处理请求中携带有视频数据的情况下,服务器可以对处理请求中携带的视频数据进行图像识别处理,服务器应根据相应的逻辑来决定是否参考图像识别结果来执行相应的操作。这里的逻辑可以根据实际情况来设置,在本实施例中不再详细说明。
实施例二、智能摄像系统。下面结合图2对本实施例的智能摄像系统所包含的各设备以及各设备的具体结构进行详细说明。
图2示出的智能摄像系统主要包括:网络摄像头200以及与网络摄像头200连接的服务器210;虽然图2中仅示意性的示出了一个网络摄像头200与服务器210连接,但是在实际应用中,一个服务器210通常与多个网络摄像头200均连接。
网络摄像头200可以通过WIFI与服务器210连接,当然,网络摄像头200也可以通过有线连接方式与服务器210连接。本实施例中的服务器210还与多个用户智能终端设备220分别连接(图2中仅示意性的示出了一个用户智能终端设备220),例如,用户智能终端设备220通过WIFI或者GSM或者CDMA或者WCDMA等移动通讯技术与服务器210连接。
本实施例中的服务器210可以为设置于云端的服务器,即服务器210为云端服务器。本实施例中的网络摄像头200可以具体为集成有语音识别功能以及音频播放功能的网络摄像头。另外,上述用户智能终端设备220可以为智能移动电话或者台式计算机或者笔记型计算机或者平板电脑等可以通过移动通讯技术与服务器进行信息交互的智能电子设备。
本实施例中的网络摄像头200主要包括:采集模块201、第一语音识别模块202、提取模块203、请求模块204以及交互处理模块205。
本实施例中的服务器210主要包括:处理模块211;且该处理模块211主要包括:第二语音识别模块212、呼叫模块213、查询模块214以及无效响应模块215。
下面对上述各模块所执行的操作进行说明。
采集模块201主要适于在网络摄像头200处于视频监控状态下,采集网络摄像头200所在环境的音频数据。
具体的,网络摄像头200可以工作在多种不同的工作状态下,并在某一操作的触发下切换其工作状态,也就是说,网络摄像头200可以根据实际情况自动的从其一种工作状态切换到另一种工作状态。
本实施例中的网络摄像头200的工作状态主要包括:视频监控状态、通话状态以及媒体数据播放状态;在通常情况下,视频监控状态是网络摄像头200的正常工作状态,即网络摄像头200采集其所在环境的视频数据,并存储其采集到的视频数据,以实现目前摄像头通常的视频监控功能;通话状态即网络摄像头200与用户智能终端设备220之间所进行的媒体数据(如音频数据或视频数据)的交互,也就是说,网络摄像头200和用户智能终端设备220之间通过服务器210而联通,这样,网络摄像头200位置处的用户和用户智能终端设备220位置处的用户可以通过网络摄像头200和用户智能终端设备220实现IP通话(即网络通话);媒体数据播放状态即网络摄像头200与服务器210之间的媒体数据(如音频数据或者视频数据)的传输,即网络摄像头200接收服务器210传输来的媒体数据(如音频数据或者视频数据),并播放该媒体数据。本实施例中的网络摄像头200在通常情况下会处于视频监控状态。
上述IP通话可以具体为IP语音通话,也可以具体为IP视频通话,该IP通话可以为现有的社交应用中的多媒体通话,如该IP通话可以为QQ聊天工具中的视频通话或者微信聊天工具中的视频聊天等。
第一语音识别模块202主要适于对采集模块201采集的音频数据进行语音识别。
具体的,本实施例中的网络摄像头200无论是处于视频监控状态,还是其处于通话状态,亦或是处于媒体数据播放状态,采集模块201均可以按照预先设定的采集频率执行音频数据的采集操作;但是,通常情况下,第一语音识别模块202只有在网络摄像头200处于视频监控状态下,才会对采集模块210采集到的音频数据执行语音识别处理;然而,在实际应用中,第一语音识别模块202在网络摄像头200处于通话状态或者媒体数据播放状态时对采集模块201采集到的音频数据执行语音识别处理也是完全可行的。
本实施例中的网络摄像头200具有简单的语音识别处理能力,如第一语音识别模块202可以将采集模块201采集的音频数据转化为文本文字等。第一语音识别模块202可以采用现有的语音识别技术对采集模块201采集的音频数据进行语音识别处理。在本实施例中不再详细描述第一语音识别模块202进行语音识别处理的具体实现过程。
提取模块203主要适于从第一语音识别模块202的语音识别结果中提取关键词。
具体的,提取模块203可以将第一语音识别模块202的语音识别结果中的语气助词以及连词等不重要的字或者词去除,从而获得一个或者多个关键词。在第一语音识别模块202将采集模块201其采集的音频数据转化为文本文字的情况下,提取模块203可以采用多种方式从语音识别出的文本文字中提取关键词,例如,提取模块203可以采用文本关键词提取算法来获得关键词。在本实施例中不再详细描述提取模块203进行关键词提取的具体实现过程。
请求模块204主要适于在提取模块203提取的关键词属于预定关键词的情况下,向与网络摄像头200连接的服务器210发送携带有网络摄像头标识信息以及基础数据的处理请求,这里的基础数据包括:关键词、音频数据以及视频数据中的至少一种。
具体的,预定关键词可以是网络摄像头中本地存储的关键词,也可以是存储于其他设备中的关键词。下述以预定关键词为网络摄像头中存储的关键词为例进行说明。
网络摄像头200中预先设置有一个或者多个关键词,这些预先设置的关键词形成关键词集合;用户可以通过其用户智能终端设备220来访问与网络摄像头200连接的服务器210,并利用服务器210来设置网络摄像头200中的关键词集合所包含的关键词;另外,上述关键词集合所包含的某些或者全部关键词也可以是网络摄像头200在出厂时设置于网络摄像头200中的。
请求模块204可以将其提取出的关键词与关键词集合中的关键词进行比较以根据比较结果产生相应的处理请求,如请求模块204将提取模块203提取出的关键词与关键词集合中的关键词进行匹配,请求模块204可以在提取模块203提取出的任何一个关键词与网络摄像头200存储的关键词集合中的一个关键词匹配的情况下,生成相应的处理请求,并将该处理请求发送给服务器210。
网络摄像头200生成的处理请求中应携带有其网络摄像头标识信息,以表明该处理请求是哪个网络摄像头200发送给服务器210的。该处理请求中还可以携带有网络摄像头提取出的关键词,以表示请求模块204希望服务器能够根据处理请求中携带的关键词而执行相应的操作;例如,请求模块204发送的处理请求中携带的关键词为“呼叫”和“爸爸”,则表示请求模块204希望服务器210执行呼叫相应的用户智能终端设备220的呼叫操作;再例如,请求模块204发送的处理请求中携带的关键词为“百度”、“红茶”以及“品种”,则表示请求模块204希望服务器210执行查询红茶品种的查询操作。
为了使服务器210能够更准确的执行用户所期望的操作,请求模块204可以在提取模块203提取出的任何一个关键词与其存储的关键词集合中的关键词匹配的情况下,将采集模块201采集到的对应上述关键词的相应的音频数据携带在处理请求中,以使服务器210可以对该音频数据进行更智能化的语音识别及分析。
需要特别说明的是,请求模块204发送给服务器210的处理请求中可以携带有网络摄像头标识信息,也可以携带有网络摄像头标识信息以及关键词,还可以携带有网络摄像头标识信息和网络摄像头采集的音频数据,当然,该处理请求也可以携带有网络摄像头标识信息、关键词以及网络摄像头采集的音频数据;请求模块204可以在其向服务器发送的各处理请求中均携带其采集的音频数据,也可以在需要时才在处理请求中携带音频数据,如请求模块204根据语音识别结果对用户所要求服务器210执行的操作不明确时,请求模块204在处理请求中携带其采集的音频数据,而如果请求模块204根据语音识别结果对用户所要求服务器210执行的操作非常明确时,请求模块204可以不在处理请求中携带其采集的音频数据。网络摄像头发送给服务器的处理请求中可以携带有其采集的视频数据,该视频数据有利于服务器对网络摄像头处的用户的需求进行进一步的分析。本实施例中的音频数据和视频数据均为包含有关键词对应时间段的音频数据和视频数据。
另外,本实施例中的处理请求可以是基于HTTP的消息,也可以是基于其他协议的消息。还有,本实施例中的网络摄像头标识信息可以为网络摄像头物理设备编码信息,也可以为用户的智能移动电话的手机号码,还可以为社交应用的用户账号,如QQ聊天工具的用户账号或者微信聊天工具的用户账号等。
从上述描述可知,本实施例中的网络摄像头200是具有简单语言分析能力的网络摄像头,且该网络摄像头200能够利用该简单的语言分析能力执行相应的操作;也就是说,网络摄像头200可以识别出其采集的音频数据中是否包含有预定的关键词,且网络摄像头200在分析出其采集的音频数据中包含有预定的关键词的情况下,可以产生相应的处理请求,并向与其连接的服务器210发送其产生的处理请求。
处理模块211主要适于根据服务器210接收到的处理请求中的基础数据产生相应的处理响应,并基于该处理响应执行与相应的用户智能终端设备220和/或网络摄像头标识信息对应的网络摄像头200的信息交互。
具体的,处理模块211根据服务器210接收到的处理请求所执行的信息交互操作可以具体为:接通对话操作、通知用户操作、查询并返回查询结果的操作或者返回无效信息操作等,相应的,上述处理响应可以是针对呼叫的处理响应,可以是针对通知的处理响应,也可以是针对查询的处理响应,还可以是针对无效信息的处理响应。接通对话操作即联通用户智能终端设备220与网络摄像头200之间的IP对话;通知用户操作即向用户智能终端设备220发送相应的提示信息;查询并返回查询结果的操作即获取网络摄像头200所需查询的内容并将查询到的内容返回给网络摄像头200;返回无效信息操作即服务器210向网络摄像头200返回表示网络摄像头200采集的音频数据无意义的信息。
第二语音识别模块212主要适于从服务器210接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别。
呼叫模块213主要适于在判断出第二语音识别模块212的语音识别结果为呼叫用户智能终端设备220的情况下,根据服务器210中存储的信息确定用户智能终端设备220的用户账号,并根据该用户账号呼叫用户智能终端设备220,在接通用户智能终端设备220的情况下,根据网络摄像头标识信息确定网络摄像头200的用户账号,并根据网络摄像头200的用户账号联通用户智能终端设备220与网络摄像头200之间的IP通话,使网络摄像头200处于通话状态。
查询模块214主要适于在第二语音识别模块212判断出语音识别结果为信息查询的情况下,根据查询关键词获取查询结果,并向网络摄像头标识信息对应的网络摄像头200返回携带有查询结果的音频数据的查询响应。
交互处理模块205主要适于在网络摄像头200处于媒体数据播放状态的情况下,播放服务器210发送来的查询响应中携带的音频数据。
无效响应模块215主要适于在根据第二语音识别模块212判断出语音识别结果为音频数据无意义的情况下,向网络摄像头标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应。
具体的,在服务器210接收到的处理请求中携带有网络摄像头标识信息,而没有携带有网络摄像头200提取出的关键词或者网络摄像头200采集的音视频数据的情况下,处理模块211中的相应模块会根据预先设置的缺省操作信息来执行相应的操作,例如,服务器210在接收到处理请求时,呼叫模块213从处理请求中获取网络摄像头标识信息,并利用该网络摄像头标识信息(如网络摄像头200的用户账号信息)从服务器210存储的信息中查找用户智能终端设备220的用户账号信息,并根据该网络摄像头的用户账号信息和用户智能终端设备的用户账号信息接通网络摄像头和用户智能终端设备之间的IP通话,且在呼叫模块213接通两者之间的IP通话时,网络摄像头200处于通话状态。在网络摄像头200处于通话状态的情况下,交互处理模块205可以将采集模块201当前实时采集的音频数据和/或视频数据实时地传输至服务器210,并由服务器210传输给用户智能终端设备220,且在网络摄像头200接收到用户智能终端设备发送的经由服务器传输来的音频数据时,交互处理模块205应及时播放该音频数据;在网络摄像头200具有显示屏的情况下,交互处理模块205还可以播放用户智能终端设备发送的经由服务器传输来的视频数据;在用户智能终端设备220与网络摄像头200之间的IP通话结束之后,网络摄像头200切换到视频监控状态,网络摄像头200继续采集视频数据以及音频数据,第一语音识别模块201对采集模块201采集的音频数据进行语音识别处理。
在服务器210接收到的处理请求中携带有网络摄像头标识信息以及提取模块203提取出的关键词,而没有携带有网络摄像头采集的音频数据的情况下,处理模块211中的相应模块会根据处理请求中携带的关键词来执行相应的操作,例如,在服务器210接收到处理请求时,呼叫模块213和查询模块214均从处理请求中获取网络摄像头标识信息以及关键词,在关键词中包含有“呼叫”和“爸爸”时,呼叫模块213利用网络摄像头标识信息(如网络摄像头的用户账号信息)从服务器210存储的信息中查找与爸爸对应的用户智能终端设备的用户账号信息,并根据网络摄像头的用户账号信息和查找到的用户智能终端设备220的用户账号信息接通网络摄像头200和用户智能终端设备220之间的IP通话,且在接通两者的IP通话时,网络摄像头200处于通话状态;在IP通话结束之后,网络摄像头200切换到视频监控状态,网络摄像头200继续采集视频数据以及视频数据,第一语音识别模块202并采集模块201采集的音频数据进行语音识别处理;再例如,在服务器210接收到处理请求时,呼叫模块213和查询模块214分别从该处理请求中获取网络摄像头标识信息以及关键词,在获取的关键词中包含有“百度”、“红茶”和“品种”的情况下,查询模块214利用搜索引擎查找“红茶品种”对应的查询结果,在查询模块214获得多个查询结果的情况下,查询模块214可以从多个查询结果中选取一个查询结果,如查询模块214选取百度百科中对“红茶品种”的介绍;查询模块214将查找到的“红茶品种”的具体内容转化为相应格式的数据(如音频数据或者视频数据等),并通过查询响应返回给网络摄像头200;在网络摄像头200接收到服务器210返回的查询响应时,网络摄像头200切换到媒体数据播放状态。网络摄像头在交互处理模块205播放完查询响应中携带的查询结果(如音频数据和/或视频数据)之后,自动切换到视频监控状态,继续采集视频数据以及音频数据,第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。
在服务器接收到的处理请求中携带有网络摄像头标识信息以及网络摄像头采集的音频数据,而没有携带有网络摄像头提取的关键词的情况下,第二语音识别模块212对处理请求中携带的音频数据进行语音识别处理,呼叫模块213、查询模块214或者无效响应模块215根据第二语音识别模块212的语音识别处理结果来执行相应的操作;本实施例中的第二语音识别模块212通常具有比第一语音识别模块202所具有的语音识别技术更智能更复杂的语音识别技术;
一个具体的例子,在服务器接收到处理请求时,第二语音识别模块212从该处理请求中获取音频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,无效响应模块215向网络摄像头标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应;在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫135********),呼叫模块213可以根据服务器210存储的信息确定135********对应的用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,呼叫模块213在接通用户智能终端设备之后,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,且在呼叫模块213接通两者之间的IP通话时,网络摄像头200处于通话状态。在用户智能终端设备220与网络摄像头200之间的IP通话结束之后,网络摄像头200切换到视频监控状态,继续采集视频数据以及音频数据,第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。
另一个具体的例子,在服务器接收到处理请求时,第二语音识别模块212从该处理请求中获取音频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,无效响应模块215向网络摄像头标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应;在判断出该音频数据为用户查询相应内容的情况下(如查询如何从**到北京火车站等),查询模块214可以利用搜索引擎并根据第二语音识别模块212识别出的搜索关键词进行搜索查询操作,查询模块214在获得查询结果后,将查询结果转化为相应格式的数据(如音频数据或者视频数据等),并将该查询结果对应的数据承载于查询响应中,查询模块214向网络摄像头标识信息对应的网络摄像头返回该查询响应,网络摄像头200在接收到服务器210传输来的承载有查询结果的查询响应后,处于媒体数据播放状态,交互处理模块205向用户展示查询响应中的查询结果,如交互处理模块205播放服务器210发送来的查询响应中携带的音频数据。网络摄像头在交互处理模块205向用户展示查询相应中的查询结果之后(如播放完音频数据之后),自动切换到视频监控状态,继续采集视频数据以及音频数据,第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。
再一个具体的例子,服务器在接收到处理请求时,第二语音识别模块212从该处理请求中获取音频数据,并对该音频数据进行语音识别处理,在判断该音频数据无实际意义时,无效响应模块215向网络摄像头标识信息对应的网络摄像头200返回携带有表示无效音频数据的信息的处理响应;服务器210在判断该音频数据为呼叫用户智能终端设备的情况下(如呼叫爸爸),服务器210中的图像识别模块可以对处理请求中携带的视频数据进行图像识别,以判断爸爸所指代的用户,然后呼叫模块213根据服务器210存储的信息确定指代的用户对应的用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,呼叫模块213在接通用户智能终端设备之后,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,且在呼叫模块213接通两者之间的IP通话时,网络摄像头200处于通话状态。在用户智能终端设备与网络摄像头200之间的IP通话结束之后,网络摄像头200切换到视频监控状态,继续采集视频以及音频数据,第一语音识别模块202对采集模块201采集的音频数据进行语音识别处理。
在服务器210接收到的处理请求中携带有网络摄像头标识信息、网络摄像头提取出的关键词以及网络摄像头采集的音频数据的情况下,第二语音识别模块212需要对处理请求中携带的音频数据进行语音识别处理,呼叫模块213、查询模块214和无效响应模块215可以仅根据第二语音识别模块212的语音识别处理结果来执行相应的操作;呼叫模块213、查询模块214和无效响应模块215也可以根据第二语音识别模块212的语音识别处理结果并参考处理请求中携带的关键词执行相应的操作;在实际应用中,呼叫模块213、查询模块214以及无效响应模块215可以根据预先设置的相应的逻辑来决定是否参考网络摄像头传输来的处理请求中携带的关键词来执行相应的操作。另外,在处理请求中携带有视频数据的情况下,服务器中的图像识别模块可以对处理请求中携带的视频数据进行图像识别处理,呼叫模块213、查询模块214以及无效响应模块215应根据相应的逻辑来决定是否参考图像识别结果来执行相应的操作。这里的逻辑可以根据实际情况来设置,在本实施例中不再详细说明。
A1、一种智能摄像系统的实现方法,包括:
网络摄像头在视频监控状态下采集其所在环境的音频数据,并对其采集的音频数据进行语音识别;
网络摄像头从语音识别结果中提取关键词;
在所述提取的关键词属于预定关键词的情况下,网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;
指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
A2、如A1所述的方法,其中,所述网络摄像头通过WIFI与指定服务器连接。
A3、如A1所述的方法,其中,所述指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括:
指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
指定服务器在判断出语音识别结果为呼叫用户智能终端设备的情况下,根据其存储的信息确定用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备;
指定服务器在接通用户智能终端设备的情况下,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,使所述网络摄像头处于通话状态。
A4、如A1所述的方法,其中,所述指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括:
指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
指定服务器在判断出语音识别结果为信息查询的情况下,根据查询关键词获取查询结果,并向所述网络摄像头的标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应;
网络摄像头处于媒体数据播放状态,并播放指定服务器发送来的查询响应中携带的音频数据。
A5、如A1所述的方法,其中,所述指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互包括:
指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
指定服务器在根据出语音识别结果确定出音频数据无意义的情况下,向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
B6、一种智能摄像系统,所述系统包括:
采集模块,设置于网络摄像头中,适于在网络摄像头处于视频监控状态下,采集网络摄像头所在环境的音频数据;
第一语音识别模块,设置于网络摄像头中,适于对采集模块采集的音频数据进行语音识别;
提取模块,设置于网络摄像头中,适于从语音识别结果中提取关键词;
请求模块,设置于网络摄像头中,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;
处理模块,设置于指定服务器中,适于根据指定服务器接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互。
B7、如B6所述的系统,其中,所述网络摄像头通过其WIFI模块与指定服务器连接。
B8、如B6所述的系统,其中,所述处理模块包括:
第二语音识别模块,适于从指定服务器接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
呼叫模块,适于在判断出语音识别结果为呼叫用户智能终端设备的情况下,根据指定服务器中存储的信息确定用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,在接通用户智能终端设备的情况下,根据所述网络摄像头的标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的IP通话,使所述网络摄像头处于通话状态。
B9、如B6所述的系统,其中,所述处理模块包括:
第二语音识别模块,适于从指定服务器接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
查询模块,适于在判断出语音识别结果为信息查询的情况下,根据查询关键词获取查询结果,并向所述网络摄像头标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应;
且所述网络摄像头还包括:交互处理模块,适于在网络摄像头处于媒体数据播放状态的情况下,播放指定服务器发送来的查询响应中携带的音频数据。
B10、如B6所述的系统,其中,所述处理模块包括:
第二语音识别模块,适于从指定服务器接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
无效响应模块,适于在根据语音识别结果确定出音频数据无意义的情况下,向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
C11、一种网络摄像头,包括:
采集模块,适于在网络摄像头处于视频监控状态下采集网络摄像头所在环境的音频数据;
第一语音识别模块,适于对采集模块采集的音频数据进行语音识别;
提取模块,适于从语音识别结果中提取关键词;
请求模块,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,以使指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种。
C12、如C11所述的网络摄像头,其中,所述网络摄像头通过其WIFI模块与指定服务器连接。
C13、如C11所述的网络摄像头,其中,所述网络摄像头还包括:
交互处理模块,适于在网络摄像头处于媒体数据播放状态的情况下,播放指定服务器发送来的查询响应中携带的音频数据。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的各描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的智能摄像系统以及网络摄像头中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(如计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是,上述各实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应该将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或者步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干系统的单元权利要求中,这些系统中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (11)

1.一种智能摄像系统的实现方法,包括:
网络摄像头在视频监控状态下采集其所在环境的音频数据,并对其采集的音频数据进行语音识别;
网络摄像头从语音识别结果中提取关键词;
在所述提取的关键词属于预定关键词的情况下,网络摄像头向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;
指定服务器根据接收到的处理请求中的基础数据产生处理响应,网络摄像头和用户智能终端设备之间通过服务器而联通,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互,具体包括:指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
当指定服务器在判断出语音识别结果为呼叫用户智能终端设备的情况下,根据其存储的信息确定用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备;
指定服务器在接通用户智能终端设备的情况下,根据网络摄像头标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的I P通话,使所述网络摄像头处于通话状态。
2.如权利要求1所述的方法,其中,所述网络摄像头通过WIFI与指定服务器连接。
3.如权利要求1所述的方法,其中,所述指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互还包括:
指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
当指定服务器在判断出语音识别结果为信息查询的情况下,根据查询关键词获取查询结果,并向所述网络摄像头的标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应;
网络摄像头处于媒体数据播放状态,并播放指定服务器发送来的查询响应中携带的音频数据。
4.如权利要求1所述的方法,其中,所述指定服务器根据接收到的处理请求中的基础数据产生处理响应,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互还包括:
指定服务器从其接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
当指定服务器在根据语音识别结果确定出音频数据无意义的情况下,向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
5.一种智能摄像系统,所述系统包括:
采集模块,设置于网络摄像头中,适于在网络摄像头处于视频监控状态下,采集网络摄像头所在环境的音频数据;
第一语音识别模块,设置于网络摄像头中,适于对采集模块采集的音频数据进行语音识别;
提取模块,设置于网络摄像头中,适于从语音识别结果中提取关键词;
请求模块,设置于网络摄像头中,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;
处理模块,设置于指定服务器中,适于根据指定服务器接收到的处理请求中的基础数据产生处理响应,网络摄像头和用户智能终端设备之间通过服务器而联通,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互;
第二语音识别模块,适于从指定服务器接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
呼叫模块,适于在判断出语音识别结果为呼叫用户智能终端设备的情况下,根据指定服务器中存储的信息确定用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,在接通用户智能终端设备的情况下,根据所述网络摄像头的标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的I P通话,使所述网络摄像头处于通话状态。
6.如权利要求5所述的系统,其中,所述网络摄像头通过其WIFI模块与指定服务器连接。
7.如权利要求5所述的系统,其中,所述处理模块还包括:
查询模块,适于在判断出语音识别结果为信息查询的情况下,根据查询关键词获取查询结果,并向所述网络摄像头标识信息对应的网络摄像头返回携带有查询结果的音频数据的查询响应;
且所述网络摄像头还包括:交互处理模块,适于在网络摄像头处于媒体数据播放状态的情况下,播放指定服务器发送来的查询响应中携带的音频数据。
8.如权利要求5所述的系统,其中,所述处理模块还包括:
无效响应模块,适于在根据语音识别结果确定出音频数据无意义的情况下,向所述网络摄像头的标识信息对应的网络摄像头返回携带有表示无效音频数据的信息的处理响应。
9.一种网络摄像头,包括:
采集模块,适于在网络摄像头处于视频监控状态下采集网络摄像头所在环境的音频数据;
第一语音识别模块,适于对采集模块采集的音频数据进行语音识别;
提取模块,适于从语音识别结果中提取关键词;
请求模块,适于在所述提取的关键词属于预定关键词的情况下,向指定服务器发送携带有所述网络摄像头的标识信息以及基础数据的处理请求,以使指定服务器根据接收到的处理请求中的基础数据产生处理响应,网络摄像头和用户智能终端设备之间通过服务器而联通,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互,所述基础数据包括:所述关键词、音频数据以及视频数据中的至少一种;
所述指定服务器包括:
处理模块,设置于指定服务器中,适于根据指定服务器接收到的处理请求中的基础数据产生处理响应,网络摄像头和用户智能终端设备之间通过服务器而联通,并基于该处理响应执行与相应的用户智能终端设备和/或所述网络摄像头的标识信息对应的网络摄像头的信息交互;
第二语音识别模块,设置于指定服务器中,适于从指定服务器接收到的处理请求中获取音频数据,并对其获取的音频数据进行语音识别;
呼叫模块,设置于指定服务器中,适于在判断出语音识别结果为呼叫用户智能终端设备的情况下,根据指定服务器中存储的信息确定用户智能终端设备的用户账号,并根据该用户账号呼叫用户智能终端设备,在接通用户智能终端设备的情况下,根据所述网络摄像头的标识信息确定网络摄像头的用户账号,并根据网络摄像头的用户账号联通用户智能终端设备与网络摄像头之间的I P通话,使所述网络摄像头处于通话状态。
10.如权利要求9所述的网络摄像头,其中,所述网络摄像头通过其WIFI模块与指定服务器连接。
11.如权利要求9所述的网络摄像头,其中,所述网络摄像头还包括:
交互处理模块,适于在网络摄像头处于媒体数据播放状态的情况下,播放指定服务器发送来的查询响应中携带的音频数据。
CN201410409942.5A 2014-08-19 2014-08-19 智能摄像系统的实现方法、智能摄像系统和网络摄像头 Active CN105407316B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410409942.5A CN105407316B (zh) 2014-08-19 2014-08-19 智能摄像系统的实现方法、智能摄像系统和网络摄像头
PCT/CN2015/087559 WO2016026446A1 (zh) 2014-08-19 2015-08-19 智能摄像系统的实现方法、智能摄像系统和网络摄像头

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410409942.5A CN105407316B (zh) 2014-08-19 2014-08-19 智能摄像系统的实现方法、智能摄像系统和网络摄像头

Publications (2)

Publication Number Publication Date
CN105407316A CN105407316A (zh) 2016-03-16
CN105407316B true CN105407316B (zh) 2019-05-31

Family

ID=55350207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410409942.5A Active CN105407316B (zh) 2014-08-19 2014-08-19 智能摄像系统的实现方法、智能摄像系统和网络摄像头

Country Status (2)

Country Link
CN (1) CN105407316B (zh)
WO (1) WO2016026446A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105898219B (zh) 2016-04-22 2019-05-21 北京小米移动软件有限公司 对象监控方法及装置
CN106685929A (zh) * 2016-12-06 2017-05-17 南京金雀智能科技有限公司 基于可穿戴式蓝牙视频耳机的通信处理系统及方法
CN106790490B (zh) 2016-12-14 2019-10-15 北京小米移动软件有限公司 基于智能摄像机进行通话的方法及装置
CN107205097B (zh) * 2017-07-07 2020-09-29 北京小米移动软件有限公司 移动终端查找方法、装置以及计算机可读存储介质
CN110353628A (zh) * 2018-12-27 2019-10-22 深圳市汇春科技股份有限公司 一种单兵紧急救援装备
CN111107548A (zh) * 2019-01-07 2020-05-05 姜鹏飞 一种发送信息的方法、装置、设备及存储介质
CN111901655B (zh) * 2020-08-05 2022-09-30 海信视像科技股份有限公司 一种显示设备及摄像头功能的演示方法
CN112312084A (zh) * 2020-10-16 2021-02-02 李小丽 一种智能影像监控系统
CN112256871B (zh) * 2020-10-16 2021-05-07 国网江苏省电力有限公司连云港供电分公司 一种物资履约系统及方法
CN112735413B (zh) * 2020-12-25 2024-05-31 浙江大华技术股份有限公司 一种基于摄像装置的指令分析方法、电子设备和存储介质
CN112801083B (zh) * 2021-01-29 2023-08-08 百度在线网络技术(北京)有限公司 图像识别的方法、装置、设备以及存储介质
CN113140138A (zh) * 2021-04-25 2021-07-20 新东方教育科技集团有限公司 互动教学方法、装置、存储介质及电子设备
CN115171689A (zh) * 2022-07-05 2022-10-11 赣州数源科技有限公司 一种基于人工智能语音交互系统集成终端设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262490A (zh) * 2008-02-29 2008-09-10 中兴通讯股份有限公司 监控系统
CN201307863Y (zh) * 2008-11-14 2009-09-09 成都绿芽科技发展有限公司 一种爱心智能机器
CN102708864A (zh) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 基于对话的家用电子设备和控制方法
CN103002425A (zh) * 2011-09-16 2013-03-27 三星电子(中国)研发中心 自动触发紧急呼叫的方法和系统及其移动终端
CN103136905A (zh) * 2011-11-25 2013-06-05 厦门瑞科技术有限公司 3g移动物联监控报警终端
CN103729988A (zh) * 2014-01-15 2014-04-16 陈蜀乔 一种采用旧智能手机监控公共设施无线网络传输报警系统
CN103949072A (zh) * 2014-04-16 2014-07-30 上海元趣信息技术有限公司 智能玩具交互、传输方法及智能玩具

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070249406A1 (en) * 2006-04-20 2007-10-25 Sony Ericsson Mobile Communications Ab Method and system for retrieving information
CN100596186C (zh) * 2006-05-22 2010-03-24 北京盛开交互娱乐科技有限公司 一种基于视频和音频的交互式数字多媒体制作方法
CN101656874A (zh) * 2009-09-17 2010-02-24 杭州智傲科技有限公司 一种远程视频监控方法
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN102170617A (zh) * 2011-04-07 2011-08-31 中兴通讯股份有限公司 移动终端及其远程控制方法
CN203206395U (zh) * 2013-04-19 2013-09-18 福建亿榕信息技术有限公司 一种智能犯罪监控系统
CN103280217B (zh) * 2013-05-02 2016-05-04 锤子科技(北京)有限公司 一种移动终端的语音识别方法及其装置
CN103501382B (zh) * 2013-09-17 2015-06-24 小米科技有限责任公司 语音服务提供方法、装置和终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101262490A (zh) * 2008-02-29 2008-09-10 中兴通讯股份有限公司 监控系统
CN201307863Y (zh) * 2008-11-14 2009-09-09 成都绿芽科技发展有限公司 一种爱心智能机器
CN102708864A (zh) * 2011-03-28 2012-10-03 德信互动科技(北京)有限公司 基于对话的家用电子设备和控制方法
CN103002425A (zh) * 2011-09-16 2013-03-27 三星电子(中国)研发中心 自动触发紧急呼叫的方法和系统及其移动终端
CN103136905A (zh) * 2011-11-25 2013-06-05 厦门瑞科技术有限公司 3g移动物联监控报警终端
CN103729988A (zh) * 2014-01-15 2014-04-16 陈蜀乔 一种采用旧智能手机监控公共设施无线网络传输报警系统
CN103949072A (zh) * 2014-04-16 2014-07-30 上海元趣信息技术有限公司 智能玩具交互、传输方法及智能玩具

Also Published As

Publication number Publication date
CN105407316A (zh) 2016-03-16
WO2016026446A1 (zh) 2016-02-25

Similar Documents

Publication Publication Date Title
CN105407316B (zh) 智能摄像系统的实现方法、智能摄像系统和网络摄像头
WO2016026447A1 (zh) 智能摄像系统的报警方法、智能摄像系统和网络摄像头
CN106101747B (zh) 一种弹幕内容处理方法及应用服务器、用户终端
CN106570100B (zh) 信息搜索方法和装置
JP5496634B2 (ja) 通信端末の着信処理方法およびその装置
JP2020042834A (ja) アカウント情報取得方法、端末、サーバ、およびシステム
CN107205097B (zh) 移动终端查找方法、装置以及计算机可读存储介质
CN110896376B (zh) 消息提醒方法、消息发送方法及相关装置、设备
US20130063548A1 (en) System and methods for automatic call initiation based on biometric data
CN104506946B (zh) 一种基于图像识别的电视节目识别方法和系统
CN110677542B (zh) 一种通话控制方法及相关产品
CN112752153B (zh) 一种对视频的播放处理方法及智能设备、存储介质
CN116095266A (zh) 同声传译方法和系统、存储介质及电子装置
JP2016006607A (ja) 対話型通信システム、端末装置およびプログラム
CN108205455B (zh) 应用的功能实现方法及装置、终端
WO2015096429A1 (zh) 通话声音识别方法及装置
EP3580920A1 (en) Communications network
CN103701836B (zh) 信息处理方法、终端设备和服务器
RU2615759C2 (ru) Способ и устройство для видеозаписи
CN111131753B (zh) 一种会议处理方法及会管平台服务器
CN106375363B (zh) 社交应用客户端中消除消息提醒的方法、系统和装置
CN106341513A (zh) 通话录音文件展示方法、装置及终端
US20210329127A1 (en) System and method for identifying call status in real-time
CN112165626B (zh) 图像处理方法、资源获取方法、相关设备及介质
JP2021136607A (ja) 処理装置、処理プログラム、処理方法、処理システム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220713

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.