CN108154878A

CN108154878A - 控制监控设备的方法及装置

Info

Publication number: CN108154878A
Application number: CN201711318188.4A
Authority: CN
Inventors: 邢政; 张磊; 刘振华
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-06-12

Abstract

本公开提供一种控制监控设备的方法及装置，所述方法包括：采集语音信号；从所述语音信号中解析语音命令词；控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。本公开中以语音控制监控设备，通过对采集的语音信号进行解析，识别语音命令词，执行所述语音命令词对应的操作，从而能够避免黑客远程控制监控设备，提高了监控设备的安全性。

Description

控制监控设备的方法及装置

技术领域

本公开涉及视频监控技术领域，尤其涉及控制监控设备的方法及装置。

背景技术

现在很多摄像机可以通过网络控制其监控或休眠等。虽然用户可以通过网络向摄像机发送控制指令，但黑客也可以利用网络技术向摄像机发送控制指令，且，对于摄像机而言，黑客与用户发送的控制指令并无区别，因此，摄像机在休眠后，如果没有切断电源或网络，摄像机有可能被黑客利用网络技术远程控制。

发明内容

为克服相关技术中存在的问题，本公开提供了控制监控设备的方法及装置。

根据本公开实施例的第一方面，提供一种控制监控设备的方法，所述方法包括：

采集语音信号；

从所述语音信号中解析语音命令词；

控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

可选的，所述采集语音信号的步骤之后，所述方法还包括：

从所述语音信号中提取声纹特征；

基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户；

当确定所述语音信号源自所述目标用户时，从所述语音信号中解析语音命令词。

可选的，所述方法还包括：

当确定所述语音信号不是源自所述目标用户时，控制所述监控设备的镜头旋转至拍摄声源区域人物的角度；

通过所述镜头采集所述人物的面部图像；

基于所述面部图像确定语音信号是否源自所述目标用户。

可选的，所述基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户，包括：

确定所述声纹特征与目标用户声纹模型之间的第一相似度；

当所述第一相似度符合预设条件时，确定所述语音信号源自所述目标用户。

可选的，所述方法还包括：

检测所述语音信号中是否存在唤醒词；

当存在所述唤醒词时，从所述语音信号中解析语音命令词。

可选的，所述方法还包括：

当所述对应的操作为停止监控时，控制所述监控设备的镜头调整至预设角度。

可选的，所述预设角度为：通过旋转镜头从监控区域选定的休眠角度。

根据本公开实施例的第二方面，提供一种控制监控设备的装置，所述装置包括：

采集单元，用于采集语音信号；

解析单元，用于从所述语音信号中解析语音命令词；

控制单元，用于控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

可选的，所述装置还包括：提取单元和匹配单元；

所述提取单元，用于从所述语音信号中提取声纹特征；

所述匹配单元，用于基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户；

所述解析单元，还用于当确定所述语音信号源自所述目标用户时，从所述语音信号中解析语音命令词。

可选的，所述控制单元，还用于当确定所述语音信号不是源自所述目标用户时，控制所述监控设备的镜头旋转至拍摄声源区域人物的角度；

所述采集单元，还用于通过所述镜头采集所述人物的面部图像；

所述匹配单元，还用于基于所述面部图像确定语音信号是否源自所述目标用户。

可选的，所述匹配单元包括：

比较子单元，用于确定所述声纹特征与目标用户声纹模型之间的第一相似度；

匹配子单元，用于当所述第一相似度符合预设条件时，确定所述语音信号源自所述目标用户。

可选的，所述解析单元，还用于检测所述语音信号中是否存在唤醒词；

所述控制单元，还用于当存在所述唤醒词时，从所述语音信号中解析语音命令词。

可选的，所述控制单元，还用于当所述对应的操作为停止监控时，控制所述监控设备的镜头调整至预设角度。

根据本公开实施例的第三方面，提供一种控制监控设备的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

采集语音信号；

从所述语音信号中解析语音命令词；

根据本公开实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前任一项所述控制监控设备的方法的步骤。

本公开的实施例提供的技术方案可以包括以下有益效果：

本公开中以语音控制监控设备，通过对采集的语音信号进行解析，识别语音命令词，执行所述语音命令词对应的操作，从而能够避免黑客远程控制监控设备，提高了监控设备的安全性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开一示例性实施例示出的一种控制监控设备的方法的流程图。

图2a是本公开一示例性实施例示出的一种控制监控设备的应用场景的示意图。

图2b是本公开一示例性实施例示出的另一种控制监控设备的应用场景的示意图。

图2c是本公开一示例性实施例示出的一种设置控制监控设备的呈现界面示意图。

图3本公开一示例性实施例示出的另一种控制监控设备的方法的流程图。

图4本公开一示例性实施例示出的另一种控制监控设备的方法的流程图。

图5本公开一示例性实施例示出的另一种控制监控设备的方法的流程图。

图6是本公开一示例性实施例示出的另一种控制监控设备的方法的应用场景的示意图。

图7是本公开根据一示例性实施例示出的一种控制监控设备的装置的框图。

图8是本公开根据一示例性实施例示出的另一种控制监控设备的装置的框图。

图9是本公开根据一示例性实施例示出的另一种控制监控设备的装置的框图。

图10是本公开根据一示例性实施例示出的另一种控制监控设备的装置的框图。

图11是本公开根据一示例性实施例示出的另一种控制监控设备的装置的框图。

图12是本公开根据一示例性实施例示出的一种控制监控设备的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，图1是本公开根据一示例性实施例示出的一种控制监控设备的方法的流程图，该方法可以用于监控设备中，也可以用于终端中，包括以下步骤：

在步骤101中，采集语音信号。

本公开实施例中涉及的监控设备可以是各种具有监控功能的设备，例如，智能摄像头、智能摄像机等。所述监控设备还可以具有采集语音信号的功能。

本公开实施例中涉及的终端可以是各种智能终端，例如，智能手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)等。

监控设备或终端可以通过拾音器或麦克风等设备采集周围环境中的语音信号，例如，如图2a及图2b所示，监控设备210可以采集用户说的话。监控设备或终端还可以将所述语音信号转化成电信号，方便后续环节对所述语音信号进行处理。

在步骤102中，从所述语音信号中解析语音命令词。

本步骤可以通过语音识别技术对所述语音信号进行解析，例如，将所述语音信号识别成文字，对所述文字进行分词处理，再从分词处理后的文字中提取语音命令词。

本公开一实施例中，可以预先设置目标命令词，从所述文字中判断是否存在所述目标命令词。例如，预先设置目标命令词“关闭侦查”及“开启侦查”。如图2a所示，用户说的话是“小白，关闭侦查”，监控设备210根据采集的所述语音信号可以识别成文字“小白，关闭侦查”，将该内容进行分词处理，得到“小白”、“关闭侦查”，从这几个词中可以匹配出语音命令词“关闭侦查”。如图2b所示，用户说的话是“小白，开启侦查”，监控设备210根据采集的所述语音信号可以识别成文字“小白，开启侦查”，将该内容进行分词处理，得到“小白”、“开启侦查”，从这几个词中可以匹配出语音命令词“开启侦查”。

在步骤103中，控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

所述监控设备可以执行的操作包括启动监控和启动监控等，本公开是根据语音命令词控制监控设备，因此，可以预先将语音命令词与监控设备执行的操作相对应，从而，在检测到语音命令词时可以控制监控设备执行相应的操作。例如，可以在所述监控设备的控制端预先设置与所述语音命令词对应的操作，所述监控设备的控制端可以是与所述监控设备关联的终端中的应用程序，也可以是所述监控设备的遥控器或者控制界面等。

在其中一种实现方式中，可以预先设置目标命令词及与所述目标命令词对应的监控操作。即步骤103可以包括：确定所述语音命令词与目标命令词是否匹配；当确定所述语音命令词与所述目标命令词匹配时，控制所述监控设备执行与所述目标命令词对应的监控操作。

在解析出语音命令词后，可以查找与所述语音命令词匹配的目标命令词，再根据所述目标命令词确定与所述语音命令词对应的监控操作。例如，如图2a及图2c所示，目标命令词“关闭侦查”作为休眠指令，用于控制监控设备停止监控，从而，当解析出“关闭侦查”这一语音命令词时，即可控制监控设备停止监控。如图2b及图2c所示，目标命令词“开启侦查”作为启动指令，用于控制监控设备启动监控，从而，当解析出“开启侦查”这一语音命令词时，即可控制监控设备启动监控。

本实施例通过预先设置目标命令词，将从语音信号中解析语音命令词与目标命令词进行匹配，当确定所述语音命令词与所述目标命令词匹配时，根据所述目标命令词确定所述语音命令词对应的操作，执行所述语音命令词对应的操作，提高了根据语音命令词执行对应操作的准确性。

在另一种实现方式中，可以预先录入语音模板信号、目标命令词及与所述目标命令词对应的监控操作。即步骤103可以包括：将所述语音信号与语音模板信号进行匹配；当所述语音信号与所述语音模板信号匹配时，将与所述语音模板信号对应的所述目标命令词确定为所述语音信号的语音命令词；控制所述监控设备执行与所述目标命令词对应的操作。

受用户的语言、口音、语速等因素的影响，根据语音信号解析语音命令词时可能存在一定的误差，而同一用户在不同时刻说同一句话时的差距通常较小。因此，在用户输入目标命令词时，可以同时录入用户朗读所述目标命令词的语音信号作为语音模板信号，则在检测到语音信号时，将语音信号与语音模板信号进行匹配，从而确定用户是否说了包含目标命令词的语句。当所述语音信号与所述语音模板信号匹配时，即可确定所述语音信号对应的目标命令词，从而可以控制所述监控设备执行与所述目标命令词对应的操作。

例如，如图2a及图2c所示，在用户设置目标命令词“关闭侦查”作为休眠指令时，录入用户朗读“关闭侦查”的语音信号作为语音模板信号，从而，当检测到语音信号时，将检测到的语音信号与语音模板信号进行匹配，判断用户说的话中是否包含“关闭侦查”，当确定用户是否说了包含“关闭侦查”的语句时，即可控制监控设备停止监控。如图2b及图2c所示，在用户设置目标命令词“开启侦查”作为启动指令时，录入用户朗读“开启侦查”的语音信号作为语音模板信号，从而，当检测到语音信号时，将检测到的语音信号与语音模板信号进行匹配，判断用户说的话中是否包含“开启侦查”，当确定用户是否说了包含“开启侦查”的语句时，即可控制监控设备启动监控。

本实施例中目标用户预先录入目标命令词、与所述目标命令词对应的操作及与所述目标命令词对应的语音模板信号，通过将采集的语音信号与语音模板信号进行匹配以确定语音命令词，可以大大提高声音匹配的效率及准确性。

虽然以语音控制的方式可以有效的避免黑客通过网络远程控制监控设备，但是，如果任何人都可以通过说出包含目标命令词的语句控制监控设备，那么，监控设备仍可能被用户以外的人控制，从而损害用户权益，为此，本公开提出了可以仅由用户的声音控制监控设备的方法。

如图3所示，图3是本公开根据一示例性实施例示出的另一种控制监控设备的方法的流程图，该方法可以用于监控设备中，也可以用于终端中，包括以下步骤：

在步骤301中，采集语音信号。

在步骤302中，从所述语音信号中提取声纹特征。

在步骤303中，基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户。

在步骤304中，当确定所述语音信号源自所述目标用户时，从所述语音信号中解析语音命令词。

在步骤305中，控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

由于每个人的声音都具有唯一性，通过声纹识别来确认用户身份具有其独特的优越性。比如，声纹识别来确认用户身份可以真正实现用户的不可替代性，即使其他人故意要控制监控设备，也可以判断不是用户本人而不执行监控操作。

声纹识别也称为说话人识别。声纹识别包括文本相关(Text-Dependent)和文本无关(Text-Independent)两种。

与文本有关的声纹识别系统要求用户按照规定的内容发音，每个人的声纹模型逐个被精确地建立，而识别时也必须按规定的内容发音，因此可以达到较好的识别效果。

在其中一种实现方式中，建立目标用户声纹模型的方式可以为：获取目标命令词及与所述目标命令词对应的操作；采集与所述目标命令词对应的语音模板信号；根据所述语音模板信号建立所述目标用户声纹模型。例如，在用户设置目标命令词“开启侦查”作为启动指令时，根据用户朗读“开启侦查”的语音信号建立目标用户声纹模型。

在另一种实现方式中，建立目标用户声纹模型的方式可以为：采集目标用户录入的语音训练信号；根据所述语音训练信号建立所述目标用户声纹模型。例如，用户可以任意说一段话，这一段话中可以包含目标命令词，也可以不包含目标命令词，根据用户说的这一段话的语音信号建立目标用户声纹模型。

当检测到语音信号时，从所述语音信号中提取声纹特征，根据目标用户声纹模型判断检测到语音信号是否源自目标用户。可以仅在所述语音信号源自所述目标用户时，从所述语音信号中解析语音命令词。若所述语音信号不是源自所述目标用户时，则不对所述语音信号进行解析。

当然，由于噪声等因素的影响，根据用户不同时候说的语句提取的声纹特征不一定完全相同，即根据目标用户声纹模型与声纹特征判断所述语音信号是否源自所述目标用户可能存在一定的误差，但是，同一用户声纹特征的波动较小。为此，即步骤303可以包括：确定所述声纹特征与目标用户声纹模型之间的第一相似度；当所述第一相似度符合预设条件时，确定所述语音信号源自所述目标用户。

可以预先设置若所述声纹特征与目标用户声纹模型之间的第一相似度大于预设相似度，则判断所述语音信号源自所述目标用户。当然，采用不同的算法，比较原则也可能有异，例如，可以是第一相似度小于预设相似度，则判断所述语音信号源自所述目标用户。具体判断规则可根据实际情况制定，本公开对此不作限定。

本公开中通过将所述语音信号的声纹特征与目标用户声纹模型进行比较，确定所述语音信号是否源自所述目标用户，可以设置仅根据目标用户的语音信号执行相应操作，从而保证监控设备仅受目标用户控制，进一步提高了监控设备的安全性。

虽然通过将声纹特征与目标用户声纹模型进行比较，可以判断所述语音信号是否源自所述目标用户，但是，用户可能会因为感冒等原因导致嗓音发生变化，从而根据用户嗓音变化时说的语句提取的声纹特征将与平常的声纹特征存在较大差异，即，监控设备可能存在无法确定当前说话的用户是否为目标用户，导致目标用户无法正常控制监控设备。为此，本公开提出了结合用户面部图像控制监控设备的方法。

如图4所示，图4是本公开根据一示例性实施例示出的另一种控制监控设备的方法的流程图，该方法可以用于监控设备中，也可以用于终端中，包括以下步骤：

在步骤401中，采集语音信号。

在步骤402中，从所述语音信号中提取声纹特征。

在步骤403中，基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户。

在步骤404中，当确定所述语音信号不是源自所述目标用户时，控制所述监控设备的镜头旋转至拍摄声源区域人物的角度。

在步骤405中，通过所述镜头采集所述人物的面部图像。

在步骤406中，基于所述面部图像确定语音信号是否源自所述目标用户。

由于用户可能因感冒等原因导致嗓音发生变化，从而根据用户嗓音变化时说的语句提取的声纹特征将与平常的声纹特征存在较大差异，此时，监控设备可能无法确定当前说话的用户是否为目标用户。

虽然声音可能发生较大变化，但人的容貌通常来说变化不大。为此，在判断所述语音信号不是源自所述目标用户时，可以通过人脸识别的方式再次验证当前用户是否为目标用户。当判断所述语音信号不是源自所述目标用户时，控制所述监控设备旋转镜头，采集监控区域的人物的面部图像(例如根据声源或红外等方式确定人物位置从而旋转镜头拍摄声源区域的人物)，通过人脸识别等技术对所述面部图像进行识别，判断是否存在所述目标用户，从而确定所述语音信号是否源自所述目标用户。当存在目标用户时，则从所述语音信号中解析语音命令词，控制所述监控设备执行与所述语音命令词对应的操作。

当然，还有可能虽然目标用户在监控区域中，但语音信号确实不是源自所述目标用户，例如，所述语音信号源自所述目标用户的朋友甚至犯罪分子(所述朋友和犯罪分子不是目标用户)。为此，本公开一实施例中，可以在采集监控区域的人物的面部图像时，同时判断所述人物是否正在说话，当存在目标用户，且所述目标用户正在说话时，则确定所述语音信号源自所述目标用户，从而从所述语音信号中解析语音命令词，控制所述监控设备执行与所述语音命令词对应的操作。

然而，目标用户可能正在说话，包含目标命令词的语句并不是目标用户说的，为此，在判断所述人物是否正在说话时，还可以结合口型识别、唇读算法等识别所述人物所说的话。当然，由于口型识别、唇读算法等运算量较大，可以仅对目标用户采用口型识别及唇读算法。从而确定用户是否说了包含目标命令词的语句。

本公开在确定所述语音信号不是源自所述目标用户时，旋转镜头确定监控区域是否存在所述目标用户，从而在用户因噪音变化致使未识别出所述语音信号源自所述目标用户时，仍可根据脸部识别等确定所述语音信号是否源自所述目标用户，提高了控制监控设备的准确性。且，通过采集监控区域的人物的面部图像，若确实存在犯罪分子，也可以记录犯罪分子的特征，能进一步保障用户的权益。

通常来说，监控设备或终端若要采集语音信号、对语音信号进行转化、增益、编解码等操作，至少需要可执行该功能的元器件处于工作状态。但元器件长期处于工作状态，一方面会增加功耗，另一方面也会降低元器件的寿命。

为此，本公开提出了通过唤醒词控制监控设备的方法。

如图5所示，图5是本公开根据一示例性实施例示出的另一种控制监控设备的方法的流程图，该方法可以用于监控设备中，也可以用于终端中，包括以下步骤：

在步骤501中，采集语音信号。

在步骤502中，检测所述语音信号中是否存在唤醒词。

在步骤503中，当存在所述唤醒词时，从所述语音信号中解析语音命令词。

在步骤504中，控制所述监控设备执行与所述语音命令词对应的操作。

本公开一实施例通过预先为所述监控设备设置唤醒词，在未检测到唤醒词时，所述监控设备可以处于待机模式。待机模式下可以仅拾音器或麦克风等少量元器件处于工作状态，其他元器件则可以处于低功耗甚至关机状态，从而可以极大的降低监控设的功耗，延长监控设备的寿命。

当检测到唤醒词时，可以控制所述监控设备进入唤醒模式。唤醒模式下，拾音器或麦克风，对语音信号进行转化、增益、编解码等操作的元器件均将处于工作状态，以从语音信号中解析语音命令词，并执行与所述语音命令词对应的操作。

例如，如图2a及图2c所示，用户设置监控设备的名称为“小白”，“小白”即可以作为唤醒词。从而，当检测到语音信号时，检测所述语音信号中是否存在唤醒词“小白”，若存在，则控制所述监控设备进入唤醒模式，并对所述语音信号进行解析。如图2a所示，用户说的是“小白，关闭侦查”，在检测到唤醒词“小白”时，则控制所述监控设备进入唤醒模式，并从所述语音信号中解析出语音命令词“关闭侦查”，“关闭侦查”作为休眠指令，用于控制监控设备停止监控，从而，当解析出“关闭侦查”这一语音命令词时，即可控制监控设备停止监控。

例如，如图2b及图2c所示，用户设置监控设备的名称为“小白”，“小白”即可以作为唤醒词。从而，当检测到语音信号时，检测所述语音信号中是否存在唤醒词“小白”，若存在，则控制所述监控设备进入唤醒模式，并对所述语音信号进行解析。如图2a所示，用户说的是“小白，开启侦查”，在检测到唤醒词“小白”时，则控制所述监控设备进入唤醒模式，并从所述语音信号中解析出语音命令词“开启侦查”，“开启侦查”作为启动指令，用于控制监控设备启动监控，从而，当解析出“开启侦查”这一语音命令词时，即可控制监控设备启动监控。

由于用户在平常说话的过程中，也可能说到带唤醒词和语音命令词的语句，当然，这类情况下，唤醒词与语音命令词之间可能存在一定的时间差，或者唤醒词与语音命令词之间可能掺杂有其他词语。为了避免用户平常说的话导致监控设备出现误操作，可以设置检测到唤醒词与语音命令词的间隔时间处于预设时间内，才执行与所述语音命令词对应的操作。或者在检测到唤醒词与语音命令词间掺杂其他词语未超过预设数量时，才执行与所述语音命令词对应的操作。还可以设置从唤醒模式进入待机模式的时间，例如，在检测到唤醒词控制所述监控设备进入唤醒模式后，若到达预设时间仍未检测到包含语音命令词的语音信号，则控制所述监控设备进入待机模式。

本公开通过设置唤醒词，使监控设备在检测到所述唤醒词时才进入唤醒模式，未检测到所述唤醒词时可以处于低功耗模式，从而降低了监控设备的功耗。

用户有时候会控制监控设备停止监控，监控设备停止监控通常是关闭摄像头和拾音器等，以停止采集音视频信号。但是，监控设备处于监控状态时，其摄像头所处的角度通常能够较好的采集监控区域的视频画面。应当理解，这里的其指代的是所述监控设备本身。

由于停止监控后，监控设备仍有可能被误启动，继续录制监控区域的画面。为此，本公开一实施例中，当所述对应的操作为停止监控时，控制所述监控设备的镜头调整至预设角度。

上述步骤中，当控制监控设备停止监控时，调整所述监控设备的镜头角度，例如，如图2c所示，“关闭侦查”作为休眠指令，用于控制监控设备停止监控，同时，还可以设置镜头方向从前上转向后下。如图6所示，监控设备设置在房间的角落，镜头方向为前下时可以监控房间的大部分区域；当镜头方向为后上时，镜头对着墙角，基本无法对房间实施监控。在实际应用中，可以根据监控设备安装的位置等综合选择停止监控时镜头要调整到的预设角度。

由于停止监控即可以不需要监控设备对房间实施监控，以下将可以不对房间实施监控的角度称为休眠角度。

虽然用户可以自行设置预设角度，但是通过词语描述设置的角度可能无法达到不对房间实施监控的程度，还需要用户反复调整设置的角度才能达到理想状态。为此，本公开一实施例中，可以设定所述预设角度为：通过旋转镜头从监控区域选定的休眠角度。在用户需要设置预设角度例如休眠角度时，可以设置监控设备不断调整镜头方向，从各个视角中选取能够不对房间实施监控的角度，例如，从该角度拍摄到的画面为距离较近的墙壁、天花板或其他近距离的静态物体等，则以该角度作为休眠角度，当然，也可以选择一处或多处预选角度供用户参考，将用户选定的预选角度作为休眠角度。当然，也可以是监控设备不断调整镜头方向，用户根据监控设备从不同角度采集的画面自行选定休眠角度。

本公开通过设置监控设备在停止监控时旋转镜头至预设角度，当监控设备处于预设角度时，即便意外启动监控，拍摄到的视频也可以不涉及用户隐私，从而进一步提高了监控设备的安全性。

应当理解，上述各实施例虽然是独立的，但是，在不冲突的情况下也可以组合使用，不以上述具体实施例的形式为限。上述实施例中的各步骤，可以用于监控设备中，但是，也可以应用于终端中。即，可以在手机端设置目标命令词及监控操作，监控设备根据设置的信息解析语音信号进而执行监控操作；也可以在监控设备处设置目标命令词及监控操作等。

与前述控制监控设备的方法的实施例相对应，本公开还提供了控制监控设备的装置及其所应用的终端的实施例。

如图7所示，图7是本公开根据一示例性实施例示出的一种信息提示装置框图，所述装置包括：采集单元710、解析单元720和控制单元730。

其中，采集单元710，被配置为采集语音信号；

解析单元720，被配置为从所述语音信号中解析语音命令词；

控制单元730，被配置为控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

由上述实施例可见，以语音控制监控设备，通过对采集的语音信号进行解析，识别语音命令词，执行所述语音命令词对应的操作，从而能够避免黑客远程控制监控设备，提高了监控设备的安全性。

如图8所示，图8是本公开根据一示例性实施例示出的另一种控制监控设备的装置框图，该实施例在前述图7所示实施例的基础上，所述控制单元730包括至少一种下述子单元，为了示例清楚，图8中示出了控制单元730可以包括的所有子单元：第一匹配子单元731和第一执行子单元732。

其中，第一匹配子单元731，被配置为确定所述语音命令词与目标命令词是否匹配；

第一执行子单元732，被配置为当确定所述语音命令词与所述目标命令词匹配时，控制所述监控设备执行与所述目标命令词对应的监控操作。

由上述实施例可见，通过预先设置目标命令词，将从语音信号中解析语音命令词与目标命令词进行匹配，当确定所述语音命令词与所述目标命令词匹配时，根据所述目标命令词确定所述语音命令词对应的操作，执行所述语音命令词对应的操作，提高了根据语音命令词执行对应操作的准确性。

如图9所示，图9是本公开根据一示例性实施例示出的另一种控制监控设备的装置框图，该实施例在前述图7所示实施例的基础上，所述控制单元730包括至少一种下述子单元，为了示例清楚，图9中示出了控制单元730可以包括的所有子单元：第二匹配子单元733和第二执行子单元734。

其中，第二匹配子单元733，被配置为将所述语音信号与语音模板信号进行匹配；及

当所述语音信号与所述语音模板信号匹配时，将与所述语音模板信号对应的所述目标命令词确定为所述语音信号的语音命令词；

第二执行子单元734，被配置为控制所述监控设备执行与所述目标命令词对应的操作。

由上述实施例可见，目标用户预先录入目标命令词、与所述目标命令词对应的操作及与所述目标命令词对应的语音模板信号，通过将采集的语音信号与语音模板信号进行匹配以确定语音命令词，可以大大提高声音匹配的效率及准确性。

如图10所示，图10是本公开根据一示例性实施例示出的另一种控制监控设备的装置框图，该实施例在前述图7所示实施例的基础上，所述装置还包括：提取单元740和匹配单元750。

其中，提取单元740，被配置为从所述语音信号中提取声纹特征；

匹配单元750，被配置为基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户；

解析单元720，被配置为当确定所述语音信号源自所述目标用户时，从所述语音信号中解析语音命令词。

由上述实施例可见，通过将所述语音信号的声纹特征与目标用户声纹模型进行比较，确定所述语音信号是否源自所述目标用户，可以设置仅根据目标用户的语音信号执行相应操作，从而保证监控设备仅受目标用户控制，进一步提高了监控设备的安全性。

进一步地，所述控制单元730，被配置为当确定所述语音信号不是源自所述目标用户时，控制所述监控设备的镜头旋转至拍摄声源区域人物的角度；

所述采集单元710，被配置为通过所述镜头采集所述人物的面部图像；

所述匹配单元750，被配置为基于所述面部图像确定语音信号是否源自所述目标用户。

由上述实施例可见，在确定所述语音信号不是源自所述目标用户时，旋转镜头确定监控区域是否存在所述目标用户，从而在用户因噪音变化致使未识别出所述语音信号源自所述目标用户时，仍可根据脸部识别等确定所述语音信号是否源自所述目标用户，提高了控制监控设备的准确性。

如图11所示，图11是本公开根据一示例性实施例示出的另一种控制监控设备的装置框图，该实施例在前述图10所示实施例的基础上，所述匹配单元750包括至少一种下述子单元，为了示例清楚，图11中示出了匹配单元750可以包括的所有子单元：比较子单元751和第三匹配子单元752。

其中，比较子单元751，被配置为确定所述声纹特征与目标用户声纹模型之间的第一相似度；

第三匹配子单元752，被配置为当所述第一相似度符合预设条件时，确定所述语音信号源自所述目标用户。

进一步地，所述解析单元720，被配置为检测所述语音信号中是否存在唤醒词；

所述控制单元730，被配置为当存在所述唤醒词时，从所述语音信号中解析语音命令词。

由上述实施例可见，通过设置唤醒词，使监控设备在检测到所述唤醒词时才进入唤醒模式，未检测到所述唤醒词时可以处于低功耗模式，从而降低了监控设备的功耗。

进一步地，所述控制单元730，被配置为当所述对应的操作为停止监控时，控制所述监控设备的镜头调整至预设角度。

进一步地，所述预设角度为：通过旋转镜头从监控区域选定的休眠角度。

由上述实施例可见，通过设置监控设备在停止监控时旋转镜头至预设角度，当监控设备处于预设角度时，即便意外启动监控，拍摄到的视频也可以不涉及用户隐私，从而进一步提高了监控设备的安全性。

相应的，本公开还提供另一种控制监控设备的装置，所述装置包括有处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：

采集语音信号；

从所述语音信号中解析语音命令词；

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

图12是根据一示例性实施例示出的一种控制监控设备的装置1200的结构示意图。该装置1200可以是智能摄像头，智能摄像机等监控设备，该装置1200也可以是计算机，移动电话，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等终端。

参照图12，装置1200可以包括以下一个或多个组件：处理组件1201，存储器1202，电源组件1203，多媒体组件1204，音频组件1205，输入/输出(I/O)的接口1206，传感器组件1207，以及通信组件1208。

处理组件1201通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1201可以包括一个或多个处理器1209来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1201可以包括一个或多个模块，便于处理组件1201和其它组件之间的交互。例如，处理部件1201可以包括多媒体模块，以方便多媒体组件1204和处理组件1201之间的交互。

存储器1202被配置为存储各种类型的数据以支持在装置1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1203为装置1200的各种组件提供电力。电源组件1203可以包括电源管理系统，一个或多个电源，及其它与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1204包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1204包括一个前置摄像头和/或后置摄像头。当装置1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1205被配置为输出和/或输入音频信号。例如，音频组件1205包括一个麦克风(MIC)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1202或经由通信组件1208发送。在一些实施例中，音频组件1205还包括一个扬声器，用于输出音频信号。

I/O接口1202为处理组件1201和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1207包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1207可以检测到装置1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1207还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1207可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1207还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1207还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1208被配置为便于装置1200和其它设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1208经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1208还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其它技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其它电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1202，上述指令可由装置1200的处理器1209执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由监控设备的处理器执行时，使得监控设备能够执行一种控制监控设备的方法，所述方法包括：采集语音信号；从所述语音信号中解析语音命令词；控制所述监控设备执行与所述语音命令词对应的操作，所述语音命令词对应的操作由用户在所述监控设备的控制端预先设置。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种控制监控设备的方法，其特征在于，所述方法包括：

采集语音信号；

从所述语音信号中解析语音命令词；

2.如权利要求1所述的控制监控设备的方法，其特征在于，所述采集语音信号的步骤之后，所述方法还包括：

从所述语音信号中提取声纹特征；

3.如权利要求2所述的控制监控设备的方法，其特征在于，所述方法还包括：

采集所述人物的面部图像；

基于所述面部图像确定语音信号是否源自所述目标用户。

4.如权利要求2所述的控制监控设备的方法，其特征在于，所述基于所述声纹特征及目标用户声纹模型确定所述语音信号是否源自所述目标用户，包括：

确定所述声纹特征与目标用户声纹模型之间的第一相似度；

5.如权利要求1所述的控制监控设备的方法，其特征在于，所述方法还包括：

检测所述语音信号中是否存在唤醒词；

当存在所述唤醒词时，从所述语音信号中解析语音命令词。

6.如权利要求1所述的控制监控设备的方法，其特征在于，所述方法还包括：

7.如权利要求6所述的控制监控设备的方法，其特征在于，所述预设角度为：通过旋转镜头从监控区域选定的休眠角度。

8.一种控制监控设备的装置，其特征在于，所述装置包括：

采集单元，用于采集语音信号；

解析单元，用于从所述语音信号中解析语音命令词；

9.如权利要求8所述的控制监控设备的装置，其特征在于，所述装置还包括：提取单元和匹配单元；

所述提取单元，用于从所述语音信号中提取声纹特征；

10.如权利要求9所述的控制监控设备的装置，其特征在于，所述控制单元，还用于当确定所述语音信号不是源自所述目标用户时，控制所述监控设备的镜头旋转至拍摄声源区域人物的角度；

所述采集单元，还用于采集所述人物的面部图像；

11.如权利要求9所述的控制监控设备的装置，其特征在于，所述匹配单元包括：

12.如权利要求8所述的控制监控设备的装置，其特征在于，所述解析单元，还用于检测所述语音信号中是否存在唤醒词；

13.如权利要求8所述的控制监控设备的装置，其特征在于，所述控制单元，还用于当所述对应的操作为停止监控时，控制所述监控设备的镜头调整至预设角度。

14.如权利要求13所述的控制监控设备的装置，其特征在于，所述预设角度为：通过旋转镜头从监控区域选定的休眠角度。

15.一种控制监控设备的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

采集语音信号；

从所述语音信号中解析语音命令词；

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述方法的步骤。