CN112207811A

CN112207811A - 一种机器人控制方法、装置、机器人及存储介质

Info

Publication number: CN112207811A
Application number: CN201910625626.4A
Authority: CN
Inventors: 范娜娜
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2021-01-12
Anticipated expiration: 2039-07-11
Also published as: CN112207811B

Abstract

本申请公开了一种机器人控制方法、装置、机器人及存储介质，属于机器人技术领域。所述方法包括：当处于休眠状态时，采集周围环境的音频；调用声音检测模型，将所述音频输入至所述声音检测模型中，输出所述音频的音频类别，所述声音检测模型用于基于任一音频确定所述任一音频的音频类别；当根据所述音频类别确定所述音频为异常声音时，控制机器人从休眠状态切换至工作状态。如此，当弱势人员独处时，即便机器人在休眠状态下，也可以在检测到危险等异常声音时主动开始工作，并将这些危险状况上报给监护人，降低了出现严重后果的可能性。

Description

一种机器人控制方法、装置、机器人及存储介质

技术领域

本申请涉及机器人技术领域，特别涉及一种机器人控制方法、装置、机器人及存储介质。

背景技术

随着现代社会的生活节奏加快，监护人通常需要在外工作，当家里有小孩、老人或残障人士之类的弱势人员独处时，可能会出现各种各样的突发情况，如果监护人不能及时得知可能就会造成严重的后果。为此，现在提供了一些具有监护、陪伴等功能的机器人，该类机器人通常可以将一些突发情况上报给监护人，以便监护人可以及时了解到用户的情况。在应用过程中，当机器人长时间未监测到周围环境的声音时，会自动进入休眠状态，因此，如何对该机器人的工作状态进行控制成为研究的热点。

发明内容

本申请实施例提供了一种机器人控制方法、装置、机器人及存储介质，可以解决机器人在休眠状态下不能主动监护用户的情况的问题。所述技术方案如下：

一方面，提供了一种机器人控制方法，该方法包括：

当处于休眠状态时，采集周围环境的音频；

调用声音检测模型，将音频输入至声音检测模型中，输出音频的音频类别，该声音检测模型用于基于任一音频确定任一音频的音频类别；

当根据音频类别确定音频为异常声音时，控制机器人从休眠状态切换至工作状态。

在本申请一种可能的实现方式中，输出音频的音频类别之后，还包括：

当根据音频类别确定音频为语音时，调用语音识别模型，将语音输入至语音识别模型中，输出语音的语音内容，该语音识别模型用于基于任一语音确定任一语音的语音内容；

当语音内容包括唤醒词时，控制机器人从休眠状态切换至工作状态。

在本申请一种可能的实现方式中，该方法还包括：

确定语音的语音特征；

将语音特征输入至语音识别模型中，输出语音的内容向量；

获取语音的实际内容向量，根据该语音的内容向量与该语音的实际内容向量之间的距离，对语音识别模型的模型参数进行调整。

在本申请一种可能的实现方式中，当根据音频类别确定音频为异常声音时，声音检测模型还输出异常声音所属的异常类别，唤醒机器人之后，还包括：

对产生异常声音的异常事件进行视频录制并存储；和/或，

执行与异常声音所属的异常类别对应的异常报警操作；和/或，

当异常声音所属的异常类别符合参考安抚条件时，执行对应的安抚操作。

在本申请一种可能的实现方式中，该方法还包括：

确定音频的音频特征；

将音频特征输入至声音检测模型中，输出音频的类别向量；

获取音频的实际类别向量，根据该音频的类别向量与该音频的实际类别向量之间的距离，对声音检测模型的模型参数进行调整。

另一方面，提供了一种机器人控制装置，该装置包括：

采集模块，用于当处于休眠状态时，采集周围环境的音频；

检测模块，用于调用声音检测模型，将音频输入至声音检测模型中，输出音频的音频类别，该声音检测模型用于基于任一音频确定任一音频的音频类别；

控制模块，用于当根据音频类别确定音频为异常声音时，控制机器人从休眠状态切换至工作状态。

在本申请一种可能的实现方式中，该检测模块还用于：

当根据音频类别确定音频为语音时，调用语音识别模型，将语音输入至语音识别模型中，输出语音的语音内容，语音识别模型用于基于任一语音确定任一语音的语音内容；

在本申请一种可能的实现方式中，该控制模块还用于：

确定语音的语音特征；

将语音特征输入至语音识别模型中，输出语音的内容向量；

在本申请一种可能的实现方式中，声音检测模型还输出异常声音所属的异常类别，该检测模块还用于：

对产生异常声音的异常事件进行视频录制并存储；和/或，

在本申请一种可能的实现方式中，该控制模块还用于：

确定音频的音频特征；

将音频特征输入至声音检测模型中，输出音频的类别向量；

另一方面，提供了一种机器人，该机器人包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，该处理器被配置为实现上述一方面所述的任一项方法的步骤。

另一方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有指令，该指令被处理器执行时实现上述一方面所述的任一项方法的步骤。

另一方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述一方面所述的任一项方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

当机器人处于休眠状态时，可以采集周围环境的音频，并且调用声音检测模型对该音频进行检测，该声音检测模型可以基于任一音频确定该任一音频的音频类别，将采集到的音频输入至声音检测模型中，该声音检测模型可以输出该音频的音频类别，当确定该音频为异常声音时，可以控制机器人从休眠状态切换至工作状态。也就是说，当机器人在休眠状态下检测到异常声音时，可以切换至工作状态。如此，当弱势人员独处时，即便机器人在休眠状态下，也可以在检测到危险等异常声音时主动开始工作，并将这些危险状况上报给监护人，降低了出现严重后果的可能性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种机器人控制方法流程图；

图2是根据另一示例性实施例示出的一种机器人控制方法流程图；

图3是根据一示例性实施例示出的一种机器人控制装置的结构示意图；

图4是根据一示例性实施例示出的一种机器人的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的实施环境予以说明。

本申请实施例涉及的机器人控制方法可以由机器人来执行。该机器人可以根据用户的语音和用户进行交互，也可以根据检测到的异常声音主动执行相应的操作，该机器人可以包括音频接收模块、声音检测模块、语音识别模块和语音合成模块。

其中，音频接收模块用于采集外界的音频；声音检测模块包括声音检测模型，该声音检测模型用于对采集到的音频进行检测，可以基于任一音频确定该任一音频的音频类别，该声音检测模块还可以检测音频的开始时间和结束时间；语音识别模块包括语音识别模型，该语音识别模型用于对采集到的语音进行识别，可以基于任一语音确定该任一语音的语音内容；语音合成模块用于将文本进行语音合成，得到与文本内容相同的语音。

图1是根据一示例性实施例示出的一种机器人控制方法流程图，以该方法应用于上述实施环境中为例进行说明，该方法可以包括如下几个步骤：

步骤101：当处于休眠状态时，采集周围环境的音频。

本申请中的机器人可以包括两种状态：工作状态和休眠状态。通常情况下，机器人处于休眠状态，耗电量、带宽等资源消耗较低，可以起到节省资源的作用。只有通过唤醒词或异常声音被唤醒时，机器人才会切换到工作状态。

当机器人处于工作状态时，该机器人的音频接收模块、声音检测模块、语音识别模块和语音合成模块都处于启动状态，当接收到对应的指令或交互任务时，可以调用对应的模块执行对应的操作。若在工作状态长时间没有接收到音频，机器人可以从工作状态切换至休眠状态。

当机器人处于休眠状态时，该机器人中只有音频接收模块和声音检测模块可以继续工作，其他模块处于关闭状态。通常情况下，音频接收模块可以采集周围环境的音频。

步骤102：调用声音检测模型，将音频输入至所述声音检测模型中，输出该音频的音频类别，该声音检测模型用于基于任一音频确定该任一音频的音频类别。

当音频接收模块接收到周围环境的音频时，可以调用声音检测模块，通过声音检测模块的声音检测模型对音频进行检测，确定音频的音频类别，根据检测结果可以确定是否需要唤醒机器人，若不需要，机器人继续处于休眠状态，若需要，机器人可以从休眠状态切换至工作状态。

其中，音频类别可以用于指示该音频是语音还是异常声音。示例性地，若该音频是一段对话，可以确定音频类别为语音，若该音频是儿童的哭声，可以确定音频类别为异常声音。

其中，声音检测模型是基于机器学习技术训练得到的。也就是说，在将采集到的音频输入至声音检测模型中，确定该音频的音频类别之前，需要对待训练的神经网络模型进行训练，得到声音检测模型。示例性地，该待训练的神经网络模型可以为前馈神经网络、卷积神经网络等，本申请实施例对此不做限定。

在一些实施例中，对待训练的神经网络模型进行训练时，可以收集多个音频样本，包括但不限于儿童哭声、玻璃破碎声、儿童喊叫声等，并且可以通过人工收听的方式确定每个音频样本的实际音频类别，当该音频样本为异常声音时，还可以确定该异常声音的实际异常类别，如此，可以保证该实际音频类别和实际异常类别是正确的，对该多个音频样本进行音频处理，得到多个音频样本的音频特征，将该多个音频样本的音频特征和该多个音频样本中每个音频样本的实际音频类别及异常声音的实际异常类别输入至待训练的神经网络模型中进行训练，可以得到声音检测模型。

作为一种示例，可以收集多个音频样本，对该多个音频样本进行音频处理，得到多个音频样本的音频特征，并且确定该多个音频样本中每个音频样本的实际音频类别，当该音频样本为异常声音时，还可以确定异常声音的实际异常类别，然后确定多组训练数据，该多组训练数据中的每组训练数据可以包括一个音频样本的实际音频类别和该一个音频样本的音频特征，当该一个音频样本为异常声音时，该组训练数据还包括该异常声音的异常类别，将该多组训练数据输入至该待训练的神经网络模型中，该待训练的神经网络模型可以基于初始模型参数输出该多个音频样本的音频类别及异常声音的异常类别，将该输出的音频类别和实际音频类别进行对比，若输出的音频类别和实际音频类别不同，和/或输出的异常类别和实际异常类别不同，可以调整初始模型参数，当该输出的音频类别和实际音频类别接近且输出的异常类别和实际异常类别接近时，可以确定该待训练的神经网络模型已经训练结束，可以将此时得到的待训练的神经网络模型确定为声音检测模型。

基于大数据的训练方式得到的声音检测模型，在对音频进行检测时，不同于现有的在音频模板中寻找相似的音频的方式，而是通过对音频的特征进行分析，根据参数进行计算，最后输出音频的音频类别，泛化性较强，可以适用于多种不同的场景，准确率较高。

在一些实施例中，该声音检测模型可以包括输入层、卷积层、池化层、全连接层和输出层，机器人将采集到的音频输入至该声音检测模型后，该声音检测模型依次通过该输入层、卷积层、池化层、全连接层和输出层对该音频进行处理，可以输出该音频的音频类别。

需要说明的是，上述仅是以该声音检测模型包括输入层、卷积层、池化层、全连接层和输出层为例进行说明，在另一些实施例中，该声音检测模型还可以包括其他网络层，例如，还可以包括循环神经网络隐含层等，本申请实施例对此不做限定。

步骤103：当根据音频类别确定该音频为异常声音时，控制机器人从休眠状态切换至工作状态。

作为一种示例，当根据音频类别确定该音频为异常声音时，可以将机器人唤醒，同时声音检测模型还可以输出异常声音所属的异常类别。其中，异常类别包括但不限于儿童哭声、儿童喊叫声、玻璃破碎声、撞击声等。也就是说，当机器人接收到异常声音时，可以被主动唤醒，进入工作状态。

进一步地，声音检测模型输出音频的音频类别之后，当根据音频类别确定音频为语音时，可以调用语音识别模型，将语音输入至语音识别模型中，可以输出语音的语音内容，该语音识别模型用于基于任一语音确定任一语音的语音内容，当语音内容包括唤醒词时，控制机器人从休眠状态切换至工作状态。

其中，语音识别模型是基于机器学习技术训练得到的。也就是说，在将语音输入至语音识别模型中，确定该语音的语音内容之前，需要对待训练的神经网络模型进行训练，得到语音识别模型。示例性地，该待训练的神经网络模型可以为前馈神经网络、卷积神经网络等，本申请实施例对此不做限定。

在一些实施例中，对待训练的神经网络模型进行训练时，可以收集多个语音样本，并且可以通过人工收听的方式确定每个语音样本的实际语音内容，如此，可以保证该实际语音内容是正确的，对该多个语音样本进行语音处理，得到多个语音样本的语音特征，将该多个语音样本的语音特征和该多个语音样本中每个语音样本的实际音频类别输入至待训练的神经网络模型中进行训练，可以得到语音识别模型。在后续的使用过程中，可以一直使用该语音识别模型进行语音识别。

作为一种示例，可以收集多个语音样本，对该多个语音样本进行语音处理，得到多个语音样本的语音特征，并且确定该多个语音样本中每个语音样本的实际语音内容，然后确定多组训练数据，该多组训练数据中的每组训练数据可以包括一个语音样本的实际语音内容和该一个语音样本的语音特征，将该多组训练数据输入至该待训练的神经网络模型中，该待训练的神经网络模型可以基于初始模型参数输出该多个语音样本的语音内容，将该输出的语音内容和实际语音内容进行对比，若输出的语音内容和实际语音内容不同，可以调整初始模型参数，当该输出的语音内容和实际语音内容接近时，可以确定该待训练的神经网络模型已经训练结束，可以将此时得到的待训练的神经网络模型确定为语音识别模型。

在一些实施例中，该语音识别模型可以包括输入层、全连接层和输出层，机器人将采集到的语音输入至该语音识别模型后，该语音识别模型依次通过该输入层、全连接层和输出层对该语音进行处理，可以输出该语音的语音内容。

需要说明的是，上述仅是以该语音识别模型包括输入层、全连接层和输出层为例进行说明，在另一些实施例中，该语音识别模型还可以包括其他网络层，例如，还可以包括循环神经网络隐含层等，本申请实施例对此不做限定。

作为一种示例，可以预先为机器人设置唤醒词，当机器人在休眠状态下接收到音频，且该音频的音频类别为语音时，通过语音识别模型对该语音进行识别，当输出语音的语音内容后，可以判断该语音内容中是否包括预先设置的唤醒词，当该语音内容包括唤醒词时，可以将机器人唤醒，使其从休眠状态切换至工作状态，可以与用户进行交互或执行用户的指令；当该语音内容不包括唤醒词时，机器人不会被唤醒，继续处于休眠状态，不能和用户进行任何交互。

示例性地，假设唤醒词为“小康”，当输出语音的语音内容为“你好，小康”时，可以确定该语音内容中包括预先设置的唤醒词，可以将机器人唤醒，进而可以启动机器人中的各个模块，使机器人进入工作状态；当输出语音的语音内容为“今天天气如何”时，可以确定该语音内容中不包括唤醒词，机器人不会被唤醒，继续处于休眠状态。

值得注意的是，唤醒词可以为一个，也可以为多个，以便当用户忘记了其中一个时，可以用其他的唤醒词将机器人唤醒。且唤醒词可以由用户根据实际需要进行设置，也可以由机器人默认设置，本申请实施例对此不做限定。

需要说明的是，上述步骤可以控制机器人从休眠状态进入唤醒状态，已经可以实现本申请的技术方案，接下来介绍一下当机器人处于工作状态时可以执行的操作。

步骤104：当机器人处于工作状态时，可以将异常声音进行上报并根据用户的语音和用户进行交互。

作为一种示例，声音检测模块还可以检测异常声音的开始时间和结束时间，并且按照时间戳进行记录。示例性地，声音检测模块可以在确定音频为异常声音时，将该时间点记录为该异常声音的开始时间，并从该时间点开始记录，直到检测到该异常声音结束，作为结束时间。

在一些实施例中，唤醒机器人之后，机器人可以对产生异常声音的异常事件进行视频录制并存储，和/或执行与异常声音所属的异常类别对应的异常报警操作，和/或当异常声音所属的异常类别符合参考安抚条件时，执行对应的安抚操作。其中，该参考安抚条件可以由用户根据实际需要进行设置，也可以由机器人默认设置，本申请实施例对此不做限定。

作为一种示例，可以在该机器人上安装摄像设备，唤醒机器人之后，机器人可以通过该摄像设备对产生异常声音的异常事件进行视频录制并存储，或者，可以在该机器人中安装录音设备，唤醒机器人之后，可以通过该录音设备对产生异常声音的异常事件进行音频录制并存储。

示例性地，声音检测模块可以在记录开始时间时，向摄像设备发送开始录制的指令，摄像设备可以开始录制该异常声音对应的异常事件的视频，当声音检测模块检测到该异常声音停止时，可以向摄像设备发送结束录制的指令，摄像设备可以停止对该异常事件的视频录制，将录制的视频与声音检测模型记录的时间戳对应存储起来，以便监护人可以查看，并且了解事情发生的时间；或者，声音检测模块可以在记录开始时间时，向录音设备发送开始录制的指令，录音设备可以开始录制该异常声音对应的异常事件的音频，当声音检测模块检测到该异常声音停止时，可以向录音设备发送结束录制的指令，录音设备可以停止对该异常事件的音频录制，将录制的音频与声音检测模型记录的时间戳对应存储起来，以便监护人可以查看，并且了解事情发生的时间。

作为一种示例，唤醒机器人之后，机器人还可以在确定该异常声音的异常类别之后，根据所属的异常类别执行对应的异常报警操作，该异常报警操作包括向监护人终端发送文字提示、音频信息或视频信息等中的一个或多个。

示例性地，可以预先为机器人和监护人的终端建立通信联系。当根据异常类别确定该异常声音为儿童哭声时，可以向监护人的终端发送文字信息，该文字信息的内容可以为“宝贝哭啦”，也可以向监护人的终端发送录音设备录制的音频；当确定该异常声音为玻璃破碎声时，可以向监护人的终端发送录制的视频等。

需要说明的是，监护人的终端可以为手机、电脑、平板电脑等，本申请实施例对此不做限定。

作为一种示例，唤醒机器人之后，机器人还可以在异常声音所属的异常类别符合安抚条件时，执行相应的安抚操作。示例性地，假设安抚条件为异常声音为儿童哭声，当确定异常声音所属的异常类别为儿童哭声时，机器人可以播放音乐、动画等来转移用户的注意力，安抚用户的情绪。

需要说明的是，在实际使用中，机器人可以执行上述三种操作中的任意一种或多种，本申请实施例对此不做限定。

进一步地，在机器人处于工作状态之后，可以将采集到的音频进行存储，并基于存储的音频对声音检测模型的模型参数进行调整。如此，可以在使用过程中对声音检测模型做针对用户的训练，使该声音检测模型的性能不断提高，可以提高该声音检测模型的准确率。

作为一种示例，可以确定音频的音频特征，将该音频特征输入至声音检测模型中，可以输出该音频的类别向量，获取该音频的实际类别向量，根据该音频的类别向量与该音频的实际类别向量之间的距离，对声音检测模型的模型参数进行调整。作为一种示例，可以对存储的音频进行音频处理，得到音频的音频特征，譬如，可以对音频信号进行滤波、做傅里叶变换等一系列处理，进而提取出音频的音频特征。

其中，该类别向量可以用于指示声音检测模型确定的该音频的音频类别，当该音频为异常声音时，该类别向量还可以用于指示声音检测模型确定的该异常声音的异常类别；实际类别向量可以用于指示人工确定的该音频的实际音频类别，当该音频为异常声音时，该实际类别向量还可以用于指示人工确定的该异常声音的实际异常类别。

作为一种示例，实际类别向量可以通过人工收听的方式确定，人工可以确定音频的实际音频类别及异常声音的实际异常类别，并且将实际音频类别和实际异常类别映射为实际类别向量。可以提前确定音频的实际类别向量并存储在机器人中，机器人可以在调整声音检测模型的模型参数时直接使用，也可以在调整声音检测模型的模型参数时再确定音频的实际类别向量，并输入机器人中，机器人可以基于输入的音频的实际类别向量和音频的类别向量对声音检测模型的模型参数进行调整。或者，可以将确定的音频的实际音频类别及异常声音的实际异常类别存储在机器人中，当机器人进行声音检测模型的模型参数调整时，可以根据映射关系将实际音频类别和实际异常类别映射为实际类别向量。这里的映射关系可以由机器人默认设置，也可以由开发人员根据实际需要进行设置，本申请实施例对此不做限定。

示例性地，可以对存储的音频进行音频处理，得到该音频的音频特征，将该音频的音频特征输入声音检测模型中，声音检测模型可以输出该音频的类别向量。假设输出的该音频的类别向量为(0,1)，实际类别向量为(1,1)，可以计算输出的该音频的类别向量和该音频的实际类别向量之间的距离为1，可以根据该距离对声音检测模型的模型参数进行调整。在后续使用中，可以直接使用调整过后的声音检测模型检测音频的音频类别。

进一步地，在机器人处于工作状态之后，可以一直使用训练好的语音识别模型进行语音识别，也可以在每次进行语音识别之后，将采集到的语音进行存储，并基于该语音对语音识别模型的模型参数进行调整。如此，可以在使用过程中对语音识别模型做针对用户语音的训练，使该语音识别模型的性能不断提高，可以提高该语音识别模型的准确率。作为一种示例，可以由用户选择存储哪些语音，如此，可以保护用户的隐私。

作为一种示例，可以确定语音的语音特征，将该语音特征输入至语音识别模型中，可以输出该语音的内容向量，获取该语音的实际内容向量，根据该语音的内容向量与该语音的实际内容向量之间的距离，对语音识别模型的模型参数进行调整。作为一种示例，可以对存储的语音进行音频处理，得到语音的语音特征，譬如，可以对语音信号进行滤波、做傅里叶变换等一系列处理，进而提取出语音的语音特征。

其中，该内容向量可以用于指示语音识别模型确定的该语音的语音内容，实际内容向量可以用于指示人工确定的该语音的语音内容。

作为一种示例，实际内容向量可以通过人工收听的方式确定，人工可以确定语音的实际语音内容，并且将实际语音内容映射为实际内容向量。可以提前确定语音的实际内容向量并存储在机器人中，机器人可以在调整语音识别模型的模型参数时直接使用，也可以在调整语音识别模型的模型参数时再确定语音的实际内容向量，并输入机器人中，机器人可以基于输入的语音的实际内容向量和语音的内容向量对语音识别模型的模型参数进行调整。或者，可以将确定的语音的实际语音内容存储在机器人中，当机器人进行语音识别模型的模型参数调整时，可以根据映射关系将实际语音内容映射为实际内容向量。这里的映射关系可以由机器人默认设置，也可以由开发人员根据实际需要进行设置，本申请实施例对此不做限定。

示例性地，可以对存储的语音进行语音处理，得到该语音的语音特征，将该语音的语音特征输入语音识别模型中，语音识别模型可以输出该语音的内容向量。假设输出的该语音的内容向量为(0,1,0)，实际内容向量为(0,1,1)，可以计算输出的该语音的内容向量和该语音的实际内容向量之间的距离为1，可以根据该距离对语音识别模型的模型参数进行调整。在后续使用中，可以直接使用调整过后的语音识别模型识别语音的语音内容。

进一步地，在机器人被唤醒之后，当采集到音频且根据音频类别确定该音频为语音时，可以通过语音识别模型确定语音内容，并且根据语音内容完成用户指令或和用户进行交互。和用户进行交互时，机器人可以根据语音内容生成交互文本，该交互文本为机器人对用户的语音内容的反馈，可以通过语音合成模块对该交互文本进行语音合成，得到对应的语音，并将该对应的语音进行播放，该语音合成模块可以用于基于文本内容确定该文本内容合成之后的语音。

示例性地，参见图2，当机器人在工作状态下采集到语音时，可以通过语音识别模型确定语音内容，假设语音内容为“播放音乐”，机器人可以根据该语音内容为用户播放音乐；假设语音内容为“今天是几月几号”，机器人可以根据该语音内容生成交互文本，该交互文本可能为“今天是2008年8月8日”，将该交互文本输入语音合成模块中，该语音合成模块可以输出该交互文本对应的语音，机器人可以将该语音进行播放，从而完成和用户的交互。

在本申请实施例中，当机器人处于休眠状态时，可以采集周围环境的音频，并且调用声音检测模型对该音频进行检测，该声音检测模型可以基于任一音频确定该任一音频的音频类别，将采集到的音频输入至声音检测模型中，该声音检测模型可以输出该音频的音频类别，当确定该音频为异常声音时，可以控制机器人从休眠状态切换至工作状态。也就是说，当机器人在休眠状态下检测到异常声音时，可以切换至工作状态，如此，当弱势人员独处时，即便机器人在休眠状态下，也可以在检测到危险等异常声音时开始工作，并将这些危险状况上报给监护人，降低了出现严重后果的可能性。

图3是根据一示例性实施例示出的一种机器人控制装置的结构示意图，该装置可以由软件、硬件或者两者的结合实现。参见图3，该装置可以包括：采集模块301、检测模块302和控制模块303。

采集模块301，用于当处于休眠状态时，采集周围环境的音频；

检测模块302，用于调用声音检测模型，将音频输入至声音检测模型中，输出音频的音频类别，该声音检测模型用于基于任一音频确定任一音频的音频类别；

控制模块303，用于当根据音频类别确定音频为异常声音时，控制机器人从休眠状态切换至工作状态。

在本申请一种可能的实现方式中，该检测模块302还用于：

在本申请一种可能的实现方式中，该控制模块303还用于：

确定语音的语音特征；

将语音特征输入至语音识别模型中，输出语音的内容向量；

在本申请一种可能的实现方式中，声音检测模型还输出异常声音所属的异常类别，该检测模块302还用于：

对产生异常声音的异常事件进行视频录制并存储；和/或，

在本申请一种可能的实现方式中，该控制模块303还用于：

确定音频的音频特征；

将音频特征输入至声音检测模型中，输出音频的类别向量；

在本申请实施例中，当机器人处于休眠状态时，可以采集周围环境的音频，并且调用声音检测模型对该音频进行检测，该声音检测模型可以基于任一音频确定该任一音频的音频类别，将采集到的音频输入至声音检测模型中，该声音检测模型可以输出该音频的音频类别，当确定该音频为异常声音时，可以控制机器人从休眠状态切换至工作状态。也就是说，当机器人在休眠状态下检测到异常声音时，可以切换至工作状态，如此，当弱势人员独处时，即便机器人在休眠状态下，也可以在检测到危险等异常声音时主动开始工作，并将这些危险状况上报给监护人，降低了出现严重后果的可能性。

需要说明的是：上述实施例提供的机器人控制装置在控制机器人时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的机器人控制装置与机器人控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是根据一示例性实施例提供的一种机器人400的结构示意图，该机器人400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)401和一个或一个以上的存储器402，其中，所述存储器402中存储有至少一条指令，所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的机器人控制方法。

当然，该机器人400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该机器人400还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行上述图1所示实施例提供的机器人控制方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各个实施例提供的机器人控制方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种机器人控制方法，其特征在于，所述方法包括：

当处于休眠状态时，采集周围环境的音频；

调用声音检测模型，将所述音频输入至所述声音检测模型中，输出所述音频的音频类别，所述声音检测模型用于基于任一音频确定所述任一音频的音频类别；

当根据所述音频类别确定所述音频为异常声音时，控制机器人从休眠状态切换至工作状态。

2.如权利要求1所述的方法，其特征在于，所述输出所述音频的音频类别之后，还包括：

当根据所述音频类别确定所述音频为语音时，调用语音识别模型，将所述语音输入至所述语音识别模型中，输出所述语音的语音内容，所述语音识别模型用于基于任一语音确定所述任一语音的语音内容；

当所述语音内容包括唤醒词时，控制所述机器人从休眠状态切换至工作状态。

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

确定所述语音的语音特征；

将所述语音特征输入至所述语音识别模型中，输出所述语音的内容向量；

获取所述语音的实际内容向量，根据所述语音的内容向量与所述语音的实际内容向量之间的距离，对所述语音识别模型的模型参数进行调整。

4.如权利要求1所述的方法，其特征在于，所述当根据所述音频类别确定所述音频为异常声音时，所述声音检测模型还输出所述异常声音所属的异常类别，唤醒机器人之后，还包括：

对产生所述异常声音的异常事件进行视频录制并存储；和/或，

执行与所述异常声音所属的异常类别对应的异常报警操作；和/或，

当所述异常声音所属的异常类别符合参考安抚条件时，执行对应的安抚操作。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

确定所述音频的音频特征；

将所述音频特征输入至所述声音检测模型中，输出所述音频的类别向量；

获取所述音频的实际类别向量，根据所述音频的类别向量与所述音频的实际类别向量之间的距离，对所述声音检测模型的模型参数进行调整。

6.一种机器人控制装置，其特征在于，所述装置包括：

采集模块，用于当处于休眠状态时，采集周围环境的音频；

检测模块，用于调用声音检测模型，将所述音频输入至所述声音检测模型中，输出所述音频的音频类别，所述声音检测模型用于基于任一音频确定所述任一音频的音频类别；

控制模块，用于当根据所述音频类别确定所述音频为异常声音时，控制机器人从休眠状态切换至工作状态。

7.如权利要求6所述的装置，其特征在于，所述检测模块还用于：

8.如权利要求7所述的装置，其特征在于，所述控制模块还用于：

确定所述语音的语音特征；

9.如权利要求6所述的装置，其特征在于，所述声音检测模型还输出所述异常声音所属的异常类别，所述检测模块还用于：

10.如权利要求6所述的装置，其特征在于，所述控制模块还用于：

确定所述音频的音频特征；

11.一种机器人，其特征在于，所述机器人包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为实现权利要求1-5所述的任一项方法的步骤。

12.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5所述的任一项方法的步骤。