CN110636262A

CN110636262A - 一种监控方法及监控装置

Info

Publication number: CN110636262A
Application number: CN201910876962.6A
Authority: CN
Inventors: 张猛; 冯大航; 陈孝良; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2019-12-31
Anticipated expiration: 2039-09-17
Also published as: CN110636262B

Abstract

本发明提供一种监控方法及监控装置，该方法包括：在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。本发明提供的上述方法，由于监控装置可控制摄像头朝向人声的声源的方位进行拍摄，获得拍摄图像，拍摄图像中可能会包括说话者员的图像，可供监控人员查看，监控人员不用对监控画面进行实时查看，降低了监控的人工成本。

Description

一种监控方法及监控装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种监控方法及监控装置。

背景技术

目前，采用摄像头对场所进行监控的场景越来越多，例如，通过摄像头对考场进行监控，防止作弊，或者通过摄像头对教室进行监控，以维护学生纪律。但是，在通过摄像头进行监控时，需要监控人员对监控画面进行实时查看，人力成本较高，并且监控效率低。

发明内容

本发明实施例提供一种监控方法及监控装置，以解决现有监控方式监控成本高、监控效率低的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种监控方法，所述方法包括：

在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；

控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

第二方面，本发明实施例还提供一种监控装置，包括：

确定模块，用于在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；

控制模块，用于控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

第三方面，本发明实施例还提供一种监控装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述监控方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述监控方法的步骤。

在本发明实施例中，在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。这样，由于监控装置可控制摄像头朝向人声的声源的方位进行拍摄，获得拍摄图像，拍摄图像中可能会包括说话者员的图像，可供监控人员查看，监控人员不用对监控画面进行实时查看，提高了监控效率，并降低了监控的人工成本。

附图说明

图1是本发明实施例提供的监控方法的流程图之一；

图1a是本发明实施例提供的监控装置的结构图；

图2是本发明实施例提供的监控方法的流程图之二；

图3是本发明实施例提供的监控方法的流程图之三；

图4是本发明实施例提供的监控装置的结构图之一；

图5是本发明实施例提供的监控装置的结构图之二；

图6是本发明实施例提供的监控装置的结构图之三；

图7是本发明实施例提供的监控装置的结构图之四；

图8是本发明另一实施例提供的监控装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的监控方法的流程图之一，如图1所示，本实施例提供一种监控方法，应用于监控装置，包括以下步骤：

步骤101、在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位。

可通过语音采集设备采集声音信号，并对采集的声音信号进行分析，判断声音信号中是否包括人声。人声是指人说话的声音。若声音信号包括人声，则确定人声的声源所在的方位。此处方位可以指相对于拍摄装置的方位，也可以指预设方位集中的方位。例如，将空间方位按照东、南、西、北进行划分，预设方位集包括东方、南方、西方、北方四个方位。也可将空间方位按照经纬度进行划分，预设方位集包括由经度和纬度组成的多个方位。

在声音信号包括多个人声的情况下，确定声音信号中人声的分贝最大的声源所在的方位。

步骤102、控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

在确定人声的声源所在方位之后，控制拍摄装置朝向所述方位，并进行拍摄，获得拍摄图像。拍摄装置可为旋转摄像头，监控装置通过控制旋转摄像头旋转，以将摄像头朝向所述方位进行拍摄，获得拍摄图像。

如图1a所示，图中标号11所示为语音采集设备，标号22为摄像头，图中包括4个摄像头，分别安装在四个方位上。在监控装置连接有多个朝向不同方位设置的拍摄装置时，可控制朝向所述方位的拍摄装置进行拍摄，或者控制朝向的方位最接近声源的方位的拍摄装置进行拍摄，或者控制朝向的方位最接近所述声源的方位的拍摄装置旋转，使其朝向声源的方位，然后进行拍摄。

图1a中，摄像头中间是一个语音采集设备(标号11所示)，语音采集设备内置无线模块，该无线模块可以连接附近基站。通过对语音信号进行处理可以计算出说话人的方位信息(即方位)，摄像头朝向所述方位并进行抓拍，然后传送给语音采集设备中的无线模块。同时语音采集设备也会对采集的语音信息(即声音信号)进行声纹识别，识别出说话人的身份。也可以对采集的语音信息进行识别，转换为文字，然后通过无线模块将这些信息发送到老师或者监控人员的手机或者其它手持终端上。语音采集设备上报方位信息给摄像头时可以通过USB接口、串口、网口发送方位信息。

本实施例中，通过对声源所在方位进行拍摄，可获得说话者的拍摄图像，便于监控人员查看说话者是谁。相比于单独的视频监控来说，由于视频监控需要监控人工对监控画面进行实时查看，监控成本较大，难度较高。采用本实施例中的监控方法，监控人员不用对监控画面进行实时查看，降低了监控的人工成本，提高了监控人员工作的灵活性。

本实施例中的监控装置可为语音采集设备，语音采集设备不仅可采集声音信号，还可根据声音信号确定人声的声源的方位，并控制摄像头朝向所述方位进行拍摄，获得拍摄图像。监控装置也可为电子设备，电子设备与语音采集设备连接，在获取到语音采集设备采集的声音信号后，根据声音信号确定人声的声源的方位，并控制摄像头朝向所述方位进行拍摄，获得拍摄图像。

本发明实施例的监控方法，在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。这样，由于监控装置可控制摄像头朝向人声的声源的方位进行拍摄，获得拍摄图像，拍摄图像中可能会包括说话者员的图像，可供监控人员查看，上述监控方法，监控人员不用对监控画面进行实时查看，提高了监控效率，并降低了监控的人工成本。

在所述控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像之后，上述监控方法还包括：

将所述拍摄的图像发送给监控终端。

由于监控装置采集声音信号，并控制拍摄装置对声音信号包括的人声所在的方位进行拍摄，进一步将获得的拍摄图像发送给监控终端的过程是自动完成的，不需要人工参与，监控效率高，同时，监控人员不用对监控画面进行实时查看，降低了监控的人工成本，提高了监控人员工作的灵活性。

参见图2，图2是本发明实施例提供的监控方法的流程图之二，如图2所示，本实施例提供一种监控方法，应用于监控装置，包括以下步骤：

步骤201、在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位。

步骤202、根据所述声音信号，确定所述人声的分贝。

根据声音信号，可确定人声的分贝。

步骤203、若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

预设阈值可根据实际情况进行设置。在不同的场景下，检测的人声的分贝是不同的，此时，可设置不同的预设阈值。每个监控场景，对应一个预设阈值，其中，监控场景对人说话的声音分贝的容忍度越低，预设阈值越低；监控场景对人说话的声音分贝的容忍度越高，预设阈值越高。

例如，若监控方法应用的场景为自习室，由于自习室不允许说话，或者只允许小声说话，那么此时，可将预设阈值设置得较低一些，这样，当人说话的声音超过预设阈值，监控装置就会控制拍摄装置朝向人声的声源的方位进行拍摄。若监控方法应用的场景为考场，由于考场不允许说话，那么此时，可将预设阈值设置为最低等级。

步骤202-步骤203为步骤102的一种具体实现方式。

步骤204、对所述人声进行声纹识别，获得声纹特征；

监控装置在检测到人声的分贝大于预设阈值时，还可以对声音信号中的人声进行声纹识别，以识别出说话者的身份。在进行声纹识别时，获得人声的声纹特征。

步骤205、根据声纹特征，确定所述人声对应的身份信息。

在本步骤中，可将所述声纹特征与映射关系中的声纹特征进行比对，获得所述人声对应的身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

映射关系包括声纹特征与身份信息的对应关系，身份信息可为人员姓名、省份证号码、学号、班级、工号等等可对被监控人员进行标识的信息。在步骤204中获取到人声的声纹特征后，将声纹特征与映射关系中的声纹特征进行比对，获取对应的身份信息，根据身份信息可获知说话者的身份，便于监控人员查看，迅速确定说话者身份。同时，将拍摄装置拍摄的图像存储并与识别到的声纹特征、身份信息进行关联或绑定，以便后期查找图像证据。

步骤206、将所述拍摄的图像和所述身份信息发送给监控终端。

监控装置在获取到拍摄的图像和身份信息后，将拍摄的图像和身份信息发送给监控终端，便于监控人员对异常情况(有人说话的情况，或者说话声音超过预设阈值的情况)进行查看，迅速确定说话者身份。

参见图3，图3是本发明实施例提供的监控方法的流程图之三，如图3所示，本实施例提供一种监控方法，应用于监控装置，包括以下步骤：

步骤301、在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位。

步骤302、根据所述声音信号，确定所述人声的分贝。

根据声音信号，可确定人声的分贝。在根据声音信息确定人声的分贝时，可将人声从声音信号中提取出来并存储，以便监控人员查询。

步骤303、若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

步骤304、对所述人声进行语义识别，获得语义信息。

为适应更多场景，监控装置在检测到人声的分贝大于预设阈值时，还可对人声进行语义识别，获得语义信息，以进一步判断说话内容是否包括预设话题，若不包括预设话题，则执行步骤305。若包括预设话题，则监控装置可以不获取说话者的身份信息。预设话题可为对问题的讨论，例如，若监控场景为对自习教室的监控，那么预设话题可为数学问题、语文问题、物理问题或者英语问题等与学习有关的问题的讨论。

步骤305、若所述语义信息不包括预设话题，对所述人声进行声纹识别，获得声纹特征。

若语义信息不包括预设话题，则对人声进行声纹识别，以进一步识别出说话者的身份。在进行声纹识别时，获得人声的声纹特征。

步骤306、将所述声纹特征与映射关系中的声纹特征进行比对，获得所述人声对应的身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

映射关系包括声纹特征与身份信息的对应关系，身份信息可为人员姓名、省份证号码、学号、班级、工号等等可对被监控人员进行标识的信息。在步骤204中获取到人声的声纹特征后，将声纹特征与映射关系中的声纹特征进行比对，获取对应的身份信息，根据身份信息可获知说话者的身份，便于监控人员查看，迅速确定说话者身份。

进一步的，在步骤306之后，还包括：

将所述拍摄的图像和所述身份信息发送给监控终端。

以下列举具体实现方式对上述的监控方法进行说明。

在被监控室屋顶中央安装多个摄像头，在多个摄像头的中央安装一个语音监控设备(可理解为监控装置)，用来检测说话人的声音，并对说话人的方位进行识别。当说话人的声音达到一定分贝，语音监控设备会认为这时有人在大声说话，并计算出说话人的方位，然后语音监控设备根据方位信息，通知朝向最接近方位的摄像头，对说话人进行抓拍，并将抓拍获取的拍摄图像传回给后台计算机系统，便于监控人员精准的找到说话人。

语音监控设备在检测说话人的声音时，同时会对语音(可理解为人声)进行拾取，然后对语音进行声纹识别，识别出说话人身份。如果是在普通教室中，则可进一步进行语义识别。如果根据语义识别，发现是讨论问题，则不会发出警报，否则将说话人身份信息、教室信息、抓拍到的图像和时间信息发送到老师的手机上或者其它监控终端上。如果是在考场场景中，则不进行语义识别，直接将识别到的说话人身份、抓拍到的图像、考场位置信息和当前时间信息通过无线模块发送到巡查人员的手持终端中。这样，被监控教室的说话人的语音信息和图像信息，同时都被记录了下来。

本实施例可以应用在教学领域中，通过安装语音监控设备和摄像头，语音监控设备可以提高监控效率，有学生说话可以及时发现并通知老师，相当于给老师定了一个“闹钟”，有学生违纪闹钟就会响，不用老师再时刻看着摄像头，这样老师就可以完全解放出来，把时间用在备课等其他更重要的事上。摄像头的监控在作为辅助监控的手段，当学生对语音监控结果有异议时，可以通过查视频监控来进一步还原现场。

本实施例还可以应用在考场场景中，语音监控设备负责监控考场的声音信息，考场中除了发试卷和收试卷之外，其它时间应该是安静的。在考试过程中，如果有较大的声音的发出，语音监控设备会对其进行采集，对声音信号进行信号处理，定位出声源的位置，并且将位置信息传递给摄像头进行抓拍。抓拍信息被上传到监控中心。语音监控设备中同时可以进行声纹识别，确定说话人身份。另外，还可以对声音信号进行语义识别，将语音转换为文字。语音监控设备内置的无线发射模块将文字和考场信息以及当前时间信息发送到巡查人员的手持终端上，这样巡查人员就可以重点观察这个考场，在视频回放时也不用观察所有时间段的视频，只需观察敏感时间点附近的视频即可。

本申请中的监控方法，提高了监控效率和监控及时性，解放了人力，提高了监控的威慑力。

参见图4，图4是本发明实施例提供的监控装置的结构图之一，如图4所示，监控装置400包括：

确定模块401，用于在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；

控制模块402，用于控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

进一步的，如图5所示，所述控制模块402，包括：

确定子模块4021，用于根据所述声音信号，确定所述人声的分贝；

控制子模块4022，用于若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

进一步的，如图6所示，监控装置400还包括：

第一获取模块403，用于对所述人声进行声纹识别，获得声纹特征；

第二获取模块404，用于将所述声纹特征与映射关系中的声纹特征进行比对，获得所述人声对应的身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

进一步的，如图7所示，监控装置400还包括：

第三获取模块405，用于对所述人声进行语义识别，获得语义信息；

第四获取模块406，用于若所述语义信息不包括预设话题，对所述人声进行声纹识别，获得声纹特征；

第五获取模块407，用于将所述声纹特征与映射关系中的声纹特征进行比对，获得身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

进一步的，如图6所示，监控装置400还包括：

第一发送模块408，用于将所述拍摄的图像和所述身份信息发送给监控终端。

进一步的，如图5所示，监控装置400还包括：

第二发送模块409，用于将所述拍摄的图像发送给监控终端。

监控装置400能够实现图1至图3的方法实施例中监控装置实现的各个过程，为避免重复，这里不再赘述。

本发明实施例的监控装置400，在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像，这样，由于监控装置可控制摄像头朝向人声的声源的方位进行拍摄，获得拍摄图像，拍摄图像中可能会包括说话者员的图像，可供监控人员查看，监控人员不用对监控画面进行实时查看，降低了监控的人工成本。

参见图8，图8是本发明实施例提供的一种监控装置的结构示意图。如图8所示，服务器800包括：处理器801、存储器802及存储在所述存储器802上并可在所述处理器上运行的计算机程序，服务器800中的各个组件通过总线系统803耦合在一起。可理解，总线系统803用于实现这些组件之间的连接通信。

其中，处理器801，用于在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；

进一步的，处理器801，还用于根据所述声音信号，确定所述人声的分贝；

若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

进一步的，处理器801，还用于对所述人声进行声纹识别，获得声纹特征；

将所述声纹特征与映射关系中的声纹特征进行比对，获得所述人声对应的身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

进一步的，处理器801，还用于对所述人声进行语义识别，获得语义信息；

若所述语义信息不包括预设话题，对所述人声进行声纹识别，获得声纹特征；

将所述声纹特征与映射关系中的声纹特征进行比对，获得身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

进一步的，处理器801，还用于将所述拍摄的图像和所述身份信息发送给监控终端。

监控装置800能够实现前述实施例中监控装置实现的各个过程，为避免重复，这里不再赘述。

本发明实施例的监控装置800，在采集的声音信号包括人声的情况下，确定所述人声的声源所在的方位；控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像，这样，由于监控装置可控制摄像头朝向人声的声源的方位进行拍摄，获得拍摄图像，拍摄图像中可能会包括说话者员的图像，可供监控人员查看，监控人员不用对监控画面进行实时查看，降低了监控的人工成本。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述监控方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种监控方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像，包括：

根据所述声音信号，确定所述人声的分贝；

3.根据权利要求2所述的方法，其特征在于，在所述若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像之后，还包括：

对所述人声进行声纹识别，获得声纹特征；

根据所述声纹特征，确定所述人声对应的身份信息。

4.根据权利要求2所述的方法，其特征在于，在所述若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像之后，还包括：

对所述人声进行语义识别，获得语义信息；

5.根据权利要求3所述的方法，其特征在于，在将所述声纹特征与映射关系中的声纹特征进行比对，获得所述人声对应的身份信息之后，还包括：

将所述拍摄的图像和所述身份信息发送给监控终端。

6.根据权利要求1或2所述的方法，其特征在于，在所述控制拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像之后，还包括：

将所述拍摄的图像发送给监控终端。

7.一种监控装置，其特征在于，包括：

8.根据权利要求7所述的监控装置，其特征在于，所述控制模块，包括：

确定子模块，用于根据所述声音信号，确定所述人声的分贝；

控制子模块，用于若所述人声的分贝大于预设阈值，控制所述拍摄装置朝向所述方位进行拍摄，以得到所述拍摄装置拍摄的图像。

9.根据权利要求8所述的监控装置，其特征在于，还包括：

第一获取模块，用于对所述人声进行声纹识别，获得声纹特征；

第二获取模块，用于根据所述声纹特征，确定所述人声对应的身份信息。

10.根据权利要求8所述的监控装置，其特征在于，还包括：

第三获取模块，用于对所述人声进行语义识别，获得语义信息；

第四获取模块，用于若所述语义信息不包括预设话题，对所述人声进行声纹识别，获得声纹特征；

第五获取模块，用于将所述声纹特征与映射关系中的声纹特征进行比对，获得身份信息，其中，所述映射关系包括所述声纹特征与所述身份信息的对应关系。

11.根据权利要求9所述的监控装置，其特征在于，还包括：

第一发送模块，用于将所述拍摄的图像和所述身份信息发送给监控终端。

12.根据权利要求7或8所述的监控装置，其特征在于，还包括：

第二发送模块，用于将所述拍摄的图像发送给监控终端。

13.一种监控装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的监控方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的监控方法的步骤。