CN110062200A

CN110062200A - 视频监控方法、装置、网络摄像机及存储介质

Info

Publication number: CN110062200A
Application number: CN201810055036.8A
Authority: CN
Inventors: 沈建
Original assignee: Zhejiang Uniview Technologies Co Ltd
Current assignee: Zhejiang Uniview Technologies Co Ltd
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2019-07-26

Abstract

本发明实施例涉及监控技术领域，提供一种视频监控方法、装置、网络摄像机及存储介质，所述方法包括：接收人声定位模块发送的声源相对于网络摄像机的角度信息；依据角度信息，获取该角度信息对应的局部视频画面；对局部视频画面进行人脸识别，确定出声源在局部视频画面中的声源位置坐标；根据声源位置坐标调整网络摄像机的角度，直至声源处于局部视频画面的预设位置。本发明实施例将人声定位技术与人脸识别进行结合，从而实现声源角度信息的精确判断，定位精度高且应用范围广。

Description

视频监控方法、装置、网络摄像机及存储介质

技术领域

本发明涉及监控技术领域，具体而言，涉及一种视频监控方法、装置、网络摄像机及存储介质。

背景技术

随着科技的发展，智能技术不断的在人们的日常生活落地，例如，智能家居、智慧城市等。人声定位技术是通过多路语音采集装置采集语音实现声源定位，同一声源被不同方位的拾音器采集会呈现不同的相位差异及信号能量差异，通过语音处理算法对相位差异及信号能量差异进行处理即可获取声源方位信息。但是，目前常见的人声定位芯片并不能非常准确的定位声源角度，定位精度不高，例如，日本AsahiKASEI公司的AK7755人声定位芯片可获取声源方位角度，但是存在±15°的误差，因此在实际应用中使用受限。

发明内容

本发明实施例的目的在于提供一种视频监控方法、装置、网络摄像机及存储介质，用以提高声源定位的精度。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种视频监控方法，应用于网络摄像机，所述网络摄像机包括人声定位模块，所述方法包括：接收所述人声定位模块发送的声源相对于所述网络摄像机的角度信息；依据所述角度信息，获取该角度信息对应的局部视频画面；对所述局部视频画面进行人脸识别，确定出所述声源在所述局部视频画面中的声源位置坐标；根据所述声源位置坐标调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置。

第二方面，本发明实施例还提供了一种视频监控装置，应用于网络摄像机，所述网络摄像机包括人声定位模块，所述装置包括角度信息接收模块、局部视频画面获取模块、声源位置坐标确定模块及角度调整模块。其中，角度信息接收模块用于接收所述人声定位模块发送的声源相对于所述网络摄像机的角度信息；局部视频画面获取模块用于依据所述角度信息，获取该角度信息对应的局部视频画面；声源位置坐标确定模块用于对所述局部视频画面进行人脸识别，确定出所述声源在所述局部视频画面中的声源位置坐标；角度调整模块用于根据所述声源位置坐标调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置。

第三方面，本发明实施例还提供了一种网络摄像机，所述网络摄像机包括人声定位模块，所述网络摄像机包括：一个或多个处理器；存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的视频监控方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的视频监控方法。

相对现有技术，本发明实施例提供的一种视频监控方法、装置、网络摄像机及存储介质，首先，接收人声定位模块发送的声源相对于网络摄像机的角度信息；然后，依据角度信息，获取该角度信息对应的局部视频画面，并对该局部视频画面进行人脸识别，确定出声源在该局部画面中的声源位置坐标；最后，根据该声源位置坐标调整网络摄像机的角度，直至声源处于局部视频画面的预设位置。本发明实施例将人声定位技术与人脸识别进行结合，从而实现声源角度信息的精确判断，定位精度高且应用范围广。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的网络摄像机和服务器进行交互的方框示意图。

图2示出了本发明实施例提供的网络摄像机的方框示意图。

图3示出了本发明第一实施例提供的视频监控方法流程图。

图4为图3示出的步骤S101的子步骤流程图。

图5为图3示出的步骤S104的子步骤流程图。

图6为图3示出的步骤S105的子步骤流程图。

图7示出了本发明第二实施例提供的视频监控装置的方框示意图。

图标：10-网络摄像机；20-服务器；30-网络；101-存储器；102-存储控制器；103-处理器；104-外设接口；105-语音采集装置；106-人声定位模块；200-视频监控装置；201-角度信息接收模块；202-局部视频画面获取模块；203-身份信息确定模块；204-声源位置坐标确定模块；205-角度调整模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

请参照图1，图1示出了本发明实施例提供的服务器20与至少一个网络摄像机10进行交互的方框示意图。网络摄像机10可通过网络30与服务器20进行通信，以将网络摄像机10采集的视频画面发送至服务器20。

在本发明实施例中，服务器20为视频服务器。网络摄像机10可以是，但不限于室内网络摄像机、室外网络摄像机等等，网络摄像机10的操作系统(operating system，OS)可以采用嵌入式Linux操作系统。

请参照图2，图2是图1所述的网络摄像机10的方框示意图。该网络摄像机10包括视频监控装置200、存储器101、存储控制器102、处理器103、外设接口104、语音采集装置105和人声定位模块106。

所述存储器101、存储控制器102、处理器103、外设接口104、语音采集装置105和人声定位模块106各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述视频监控装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器101中或固化在所述网络摄像机10的操作系统中的软件功能模块。所述处理器103用于执行存储器101中存储的可执行模块，例如所述视频监控装置200包括的软件功能模块或计算机程序。

其中，存储器101可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器101用于存储程序，所述处理器103在接收到执行指令后，执行所述程序。

处理器103可以是一种集成电路芯片，具有信号处理能力。上述的处理器103可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)、语音处理器以及视频处理器等；还可以是数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器103也可以是任何常规的处理器等。

所述外设接口104用于将各种输入/输出装置耦合至处理器103以及存储器101。在一些实施例中，外设接口104、处理器103以及存储控制器102可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

语音采集装置105用于采集声源的语音信息。在本发明实施例中，语音采集装置105可以是，但不限于麦克风、声音传感器等。

人声定位模块106用于依据声源的语音信息，确定出声源相对于网络摄像机10的角度信息。在本发明实施例中，人声定位模块106可以是，但不限于人声定位芯片，例如，日本AsahiKASEI公司的AK7755人声定位芯片。

第一实施例

请参照图3，图3示出了本发明第一实施例提供的视频监控方法流程图。视频监控方法包括以下步骤：

步骤S101，接收人声定位模块发送的声源相对于网络摄像机的角度信息。

在本发明实施例中，网络摄像机10可以应用于多人场景，例如，会议室、教室等等。声源可以是多人场景中的说话者，例如，会议室中的发言人、教室中的老师等等。

在本发明实施例中，网络摄像机10的语音采集装置105采集声源的多个语音信息，并将该多个语音信息均发送至处理器103；处理器103从多个语音信息中获取第一语音信息并发送至人声定位模块106，使得人声定位模块106依据该第一语音信息，确定出声源相对于网络摄像机10的角度信息。作为一种实施方式，第一语音信息可以是多个语音信息中综合效果最好的语音信息，例如，干扰噪声少、信号幅值高等等。

请参照图4，步骤S101可以包括以下子步骤：

子步骤S1011，获取语音采集装置采集的第一语音信息。

在本发明实施例中，语音采集装置105采集声源的多个语音信息，并将该多个语音信息均发送至处理器103，处理器103从该多个语音信息中选择干扰噪声少、信号幅值高等综合效果最好的语音信息作为第一语音信息。

子步骤S1012，接收人声定位模块依据第一语音信息，确定的第一语音信息对应的声源相对于网络摄像机的角度信息。

在本发明实施例中，人声定位模块106可以是目前常见的人声定位芯片，例如，日本AsahiKASEI公司的AK7755人声定位芯片。

步骤S102，依据角度信息，获取该角度信息对应的局部视频画面。

在本发明实施例中，接收到人声定位模块106发送的声源相对于网络摄像机10的角度信息之后，需要获取该角度信息对应的局部视频画面，局部视频画面可以是网络摄像机10获取到全景视频画面之后，根据声源相对于网络摄像机10的角度信息输出的局部视频画面。

步骤S103，对第一语音信息进行语音识别，确定声源的身份信息。

在本发明实施例中，处理器103从语音采集装置105采集的多个语音信息中确定出第一语音信息之后，依据预先建立的人员语音库，对第一语音信息进行语音识别，确定出第一语音信息的身份信息。作为一种实施方式，人员语音库的建立过程可以是：首先，采集网络摄像机10的具体应用场景中的每个人的声纹信息、以及每个声纹信息对应的身份信息，然后，根据每个人的声纹信息建立出每个人的语音模板，并根据每个人的语音模板及每个语音模板对应的身份信息构成人员语音库。

作为一种实施方式，确定声源的身份信息的方法可以是：依据预先建立的人员语音库，利用基于卷积神经网络的声纹识别算法找出与第一语音信息一致的语音模板，并将该语音模板对应的身份信息作为第一语音信息的身份信息。

需要说明的是，在本发明实施例中，根据需要步骤S103的顺序可以调整，也就是说，对第一语音信息进行语音识别来确定声源的身份信息的步骤，不必限定在获取角度信息对应的局部视频画面的步骤之后，用户可以根据实际需要灵活调整步骤S103的执行顺序。

步骤S104，对局部视频画面进行人脸识别，确定出声源在局部视频画面中的声源位置坐标。

在本发明实施例中，获取到声源相对于网络摄像机10的角度信息对应的局部视频画面之后，首先，对局部视频画面进行人脸识别，获取局部视频画面中的所有人脸信息；然后，将每个人脸信息均与预先建立的人脸模板库进行比对，确定出每个人脸信息对应的身份信息，得到人脸识别结果，例如，每个人脸信息对应的身份信息依次为“张三、李四、王五”，则人脸识别结果为“张三、李四、王五”；再依据步骤S103中确定的声源的身份信息，判断人脸识别结果中是否存在与声源的身份信息一致的目标人脸识别结果，也就是说，判断人脸识别结果中是否存在与声源的身份信息一致的身份信息；最后，当人脸识别结果中存在与声源的身份信息一致的目标人脸识别结果时，则判定声源在局部视频画面中，例如，声源的身份信息为“张三”，人脸识别结果包括“张三、李四、王五”，人脸识别结果中存在与声源的身份信息一致的身份信息“张三”，此时，依据目标人脸识别结果对应的人脸信息，获取该人脸信息在局部视频画面中的坐标信息，并将该坐标信息确定为声源在局部视频画面中的声源位置坐标。

作为一种实施方式，人脸模板库的建立过程可以是：首先，采集网络摄像机10的具体应用场景中的每个人的人脸信息、以及每个人脸信息对应的身份信息，然后，根据每个人的人脸信息建立出每个人的人脸模板，并根据每个人的人脸模板及每个人脸模板对应的身份信息构成人脸模板库。

作为一种实施方式，依据目标人脸识别结果对应的人脸信息，获取该人脸信息在局部视频画面中的坐标信息的方法可以是：首先，在局部视频画面中以几何图形框选该人脸信息，以使得该几何图形刚好框选该人脸信息，该几何图形可以是矩形或者正方形或者其他预设的任意形状；然后，获取该几何图形的坐标信息，并将该几何图形的坐标信息作为该人脸信息在局部视频画面中的坐标信息。

请参照图5，步骤S104可以包括以下子步骤：

子步骤S1041，对局部视频画面进行人脸识别，获取局部视频画面中的人脸信息。

在本发明实施例中，人脸信息可以是局部视频画面中每个人员的人脸信息。

子步骤S1042，将人脸信息与预先建立的人脸模板库进行比对，得到人脸识别结果。

在本发明实施例中，可以依据预先建立的人脸模板库，找出与每个人脸信息一致的人脸模板，人脸识别结果包括每个人脸模板对应的身份信息，例如，每个人脸信息对应的身份信息依次为“张三、李四、王五”，则人脸识别结果包括“张三、李四、王五”。

子步骤S1043，将声源的身份信息和每个人脸识别结果依次进行比对分析，得到与身份信息一致的目标人脸识别结果。

在本发明实施例中，目标人脸识别结果可以是人脸识别结果中与声源的身份信息一致的身份信息，例如，人脸识别结果包括“张三、李四、王五”，声源的身份信息为“张三”，人脸识别结果中存在与声源的身份信息一致的身份信息“张三”，则目标人脸识别结果为“张三”。

需要说明的是，如果人脸识别结果中不存在与声源的身份信息一致的目标人脸识别结果，则判定声源相对于网络摄像机10的角度信息存在较大误差，则重新执行步骤S101～步骤S103。

子步骤S1044，依据目标人脸识别结果对应的人脸信息，确定声源在局部视频画面中的声源位置坐标。

在本发明实施例中，在局部视频画面中以几何图形框选该人脸信息，以使得该几何图形刚好框选该人脸信息，该几何图形可以是矩形或者正方形或者其他预设的任意形状；接下来获取该几何图形的坐标信息，并将该几何图形的坐标信息作为该人脸信息在局部视频画面中的坐标信息。

步骤S105，根据声源位置坐标调整网络摄像机的角度，直至声源处于所述局部视频画面的预设位置。

在本发明实施例中，获取到声源在局部视频画面中的声源位置坐标之后，首先，判断该声源位置坐标是否与预设位置坐标匹配，预设位置坐标可以是，但不限于局部视频画面的画面中心；然后，当判定该声源位置坐标与预设位置坐标匹配，表示声源处于局部视频画面的预设位置，则输出局部视频画面；当判定该声源位置坐标与预设位置坐标不匹配，表示声源未处于局部视频画面的预设位置，则计算声源位置坐标与预设位置坐标之间的坐标偏差，并依据坐标偏差，调整网络摄像机10的角度，直至声源处于局部视频画面的预设位置。

请参照图6，步骤S105可以包括以下子步骤：

子步骤S1051，判断声源位置坐标是否与预设位置坐标匹配。

在本发明实施例中，预设位置坐标可以是，但不限于局部视频画面的画面中心。

在本发明实施例中，如果判定声源位置坐标与预设位置坐标匹配，则执行子步骤S1052，如果判定声源位置坐标与预设位置坐标不匹配，则执行子步骤S1053。

子步骤S1052，声源处于局部视频画面的预设位置，输出局部视频画面。

子步骤S1053，计算声源位置坐标与预设位置坐标之间的坐标偏差，并依据坐标偏差，调整网络摄像机的角度，直至声源处于局部视频画面的预设位置。

在本发明实施例中，当声源未处于局部视频画面的预设位置时，则计算声源位置坐标与预设位置坐标之间的坐标偏差，并将该坐标偏差反馈至人声定位模块106，由人声定位模块106对声源相对于网络摄像机10的角度信息进行微调，并循环迭代，直至声源处于局部视频画面的预设位置。

在本发明实施例中，当声源处于局部视频画面的预设位置时，输出局部视频画面，并将局部视频画面发送至服务器20，使得服务器20可以管理网络摄像机10输出的局部视频画面，实现视频监控。

与现有技术相比，本发明实施例具有以下有益效果：

首先，针对多人场景，将人声定位技术与人脸识别进行结合来实现声源定位，提升了人声定位精度，并且可以输出声源处于局部视频画面的预设位置时的局部视频画面；

其次，当声源处于局部视频画面的预设位置时，输出局部视频画面，并将局部视频画面发送至服务器20，使得服务器20可以管理网络摄像机10输出的局部视频画面，可以有效减少人工搜索的工作量。

第二实施例

请参照图7，图7示出了本发明第二实施例提供的视频监控装置200的方框示意图。视频监控装置200包括角度信息接收模块201、局部视频画面获取模块202、身份信息确定模块203、声源位置坐标确定模块204及角度调整模块205。

角度信息接收模块201，用于接收人声定位模块发送的声源相对于网络摄像机的角度信息。

在本发明实施例中，角度信息接收模块201可以用于执行步骤S101。

在本发明实施例中，角度信息接收模块201具体用于，获取语音采集装置105采集的第一语音信息；接收人声定位模块106依据第一语音信息，确定的第一语音信息对应的声源相对于网络摄像机10的角度信息。

局部视频画面获取模块202，用于依据角度信息，获取该角度信息对应的局部视频画面。

在本发明实施例中，局部视频画面获取模块202可以用于执行步骤S102。

身份信息确定模块203，用于对第一语音信息进行语音识别，确定声源的身份信息。

在本发明实施例中，身份信息确定模块203可以用于执行步骤S103。

声源位置坐标确定模块204，用于对局部视频画面进行人脸识别，确定出声源在局部视频画面中的声源位置坐标。

在本发明实施例中，声源位置坐标确定模块204可以用于执行步骤S104。

在本发明实施例中，声源位置坐标确定模块204具体用于，对局部视频画面进行人脸识别，获取局部视频画面中的人脸信息；将人脸信息与预先建立的人脸模板库进行比对，得到人脸识别结果；将声源的身份信息和每个人脸识别结果依次进行比对分析，得到与身份信息一致的目标人脸识别结果；依据目标人脸识别结果对应的人脸信息，确定声源在局部视频画面中的声源位置坐标。

角度调整模块205，用于根据声源位置坐标调整网络摄像机的角度，直至声源处于所述局部视频画面的预设位置。

在本发明实施例中，角度调整模块205可以用于执行步骤S105。

在本发明实施例中，角度调整模块205具体用于，判断声源位置坐标是否与预设位置坐标匹配；如果判定声源位置坐标与预设位置坐标匹配，则声源处于局部视频画面的预设位置，输出局部视频画面；如果判定声源位置坐标与预设位置坐标不匹配，则计算声源位置坐标与预设位置坐标之间的坐标偏差，并依据坐标偏差，调整网络摄像机10的角度，直至声源处于局部视频画面的预设位置。

本发明实施例还揭示了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器103执行时实现本发明前述实施例揭示的视频监控方法。

综上所述，本发明实施例提供的一种视频监控方法、装置、网络摄像机及存储介质，所述方法包括：接收人声定位模块发送的声源相对于网络摄像机的角度信息；依据角度信息，获取该角度信息对应的局部视频画面；对局部视频画面进行人脸识别，确定出声源在局部视频画面中的声源位置坐标；根据声源位置坐标调整网络摄像机的角度，直至声源处于局部视频画面的预设位置。本发明实施例将人声定位技术与人脸识别进行结合，从而实现声源角度信息的精确判断，定位精度高且应用范围广。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

Claims

1.一种视频监控方法，其特征在于，应用于网络摄像机，所述网络摄像机包括人声定位模块，所述方法包括：

接收所述人声定位模块发送的声源相对于所述网络摄像机的角度信息；

依据所述角度信息，获取该角度信息对应的局部视频画面；

对所述局部视频画面进行人脸识别，确定出所述声源在所述局部视频画面中的声源位置坐标；

根据所述声源位置坐标调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置。

2.如权利要求1所述的方法，其特征在于，所述网络摄像机还包括语音采集装置，所述接收所述人声定位模块发送的声源相对于所述网络摄像机的角度信息的步骤，包括：

获取所述语音采集装置采集的第一语音信息；

接收所述人声定位模块依据所述第一语音信息，确定的所述第一语音信息对应的声源相对于所述网络摄像机的角度信息。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

对所述第一语音信息进行语音识别，确定所述声源的身份信息。

4.如权利要求3所述的方法，其特征在于，所述对所述局部视频画面进行人脸识别，确定出所述声源在所述局部视频画面中的声源位置坐标的步骤，包括：

对所述局部视频画面进行人脸识别，获取所述局部视频画面中的多个人脸信息；

将每个人脸信息均与预先建立的人脸模板库进行比对，得到多个人脸识别结果；

将所述声源的身份信息和每个人脸识别结果依次进行比对分析，得到与所述身份信息一致的目标人脸识别结果；

依据所述目标人脸识别结果对应的人脸信息，确定所述声源在所述局部视频画面中的声源位置坐标。

5.如权利要求1所述的方法，其特征在于，所述根据所述声源位置坐标调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置的步骤，包括：

判断所述声源位置坐标是否与预设位置坐标匹配；

若是，则所述声源处于所述局部视频画面的预设位置，输出该局部视频画面；

若否，则计算所述声源位置坐标与所述预设位置坐标之间的坐标偏差，并依据所述坐标偏差，调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置。

6.一种视频监控装置，其特征在于，应用于网络摄像机，所述网络摄像机包括人声定位模块，所述装置包括：

角度信息接收模块，用于接收所述人声定位模块发送的声源相对于所述网络摄像机的角度信息；

局部视频画面获取模块，用于依据所述角度信息，获取该角度信息对应的局部视频画面；

声源位置坐标确定模块，用于对所述局部视频画面进行人脸识别，确定出所述声源在所述局部视频画面中的声源位置坐标；

角度调整模块，用于根据所述声源位置坐标调整所述网络摄像机的角度，直至所述声源处于所述局部视频画面的预设位置。

7.如权利要求6所述的装置，其特征在于，所述网络摄像机还包括语音采集装置，所述角度信息接收模块具体用于：

获取所述语音采集装置采集的第一语音信息；

8.如权利要求7所述的装置，其特征在于，所述视频监控装置还包括：

身份信息确定模块，用于对所述第一语音信息进行语音识别，确定所述声源的身份信息。

9.一种网络摄像机，其特征在于，所述网络摄像机包括人声定位模块，所述网络摄像机包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-5中任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5中任一项所述的方法。