CN114571473A

CN114571473A - 足式机器人的控制方法、装置及足式机器人

Info

Publication number: CN114571473A
Application number: CN202011390057.9A
Authority: CN
Inventors: 庄伟基
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-06-03

Abstract

本公开提出了一种足式机器人的控制方法，包括：采集环境音频；从所述环境音频之中提取声音事件；以及响应于所述声音事件，对所述足式机器人进行控制。本公开的实施例可以通过足式机器人采集环境的环境音频，从而根据环境音频获取环境之中发生的声音事件，并根据声音事件做出相应的响应，从而提高足式机器人对环境的感知能力。在该实施例之中，足式机器人还可以根据检测到的声音事件做出相应的响应，从而更加具有“智慧”，增强与用户的交互。

Description

足式机器人的控制方法、装置及足式机器人

技术领域

本公开涉及机器人技术领域，尤其涉及一种足式机器人的控制方法、装置及足式机器人，以及存储介质和计算机程序产品。

背景技术

目前，随着机器人技术的不断发展，机器人逐渐从生产的领域进入到家庭领域。例如，出现了机器宠物，例如机器狗等产品，来对用户进行陪伴。

然而，目前的机器人，特别是四足机器人的产品还不成熟，缺乏对用户的感知和检测，无法满足用户的陪伴需求。对于家庭机器人而言，特别是宠物机器人等，需要其具有一定的“智慧”，才能够模仿真正的宠物，提高与用户的互动性。因此，提高机器人的感知能力，特别是足式机器人，已经成为了亟待解决的问题。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一，特别是解决足式机器人感知能力不强的问题。

为此，在本公开的一个实施例之中，提出了一种足式机器人的控制方法，包括：采集环境音频；从所述环境音频之中提取声音事件；以及响应于所述声音事件，对所述足式机器人进行控制。

在本公开的另一个实施例之中，还提出了一种足式机器人的控制装置，包括：采集模块，用于采集环境音频；提取模块，用于从所述环境音频之中提取声音事件；以及控制模块，用于响应于所述声音事件，对所述足式机器人进行控制。

在本公开的再一个实施例之中，还提出了一种足式机器人，包括如上所述的足式机器人的控制装置。

在本公开的再一个实施例之中，还提出了一种足式机器人，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述的足式机器人的控制方法。

在本公开的再一个实施例之中，还提出了一种存储介质，当所述存储介质中的指令由足式机器人的处理器执行时，使得足式机器人能够执行如上所述的足式机器人的控制方法。

在本公开的再一个实施例之中，还提出了一种计算机程序产品，用于执行如上所述足式机器人的控制方法。

在本公开的实施例之中，可以通过足式机器人采集环境的环境音频，从而根据环境音频获取环境之中发生的声音事件，并根据声音事件做出相应的响应，从而提高足式机器人对环境的感知能力。在该实施例之中，足式机器人还可以根据检测到的声音事件做出相应的响应，从而更加具有“智慧”，增强与用户的交互。在该实施例之中，由于足式机器人是随时运动的，不同于目前的一些智能设备，是固定不动的，因此足式机器人能够采集更多的环境音频，从而能够感知环境之中更多的声音事件，并对响应的声音事件做出响应。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1本公开实施例所提供的一种足式机器人的控制方法的流程示意图；

图2a-e为本公开一些实施例的声音事件的时域波形特征；

图3为本公开实施例中足式机器人对声音进行响应的示意图；

图4为本公开实施例的声音事件提取流程图；

图5为本公开实施例之中声音事件的事件边界确定方法流程图；

图6为本公开实施例之中声音事件生成方法流程图；

图7为本公开实施例的卷积递归神经网络训练步骤流程图；

图8为本公开实施例的足式机器人的控制装置结构图；

图9为本公开实施例的足式机器人的结构图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参考附图描述本公开实施例的足式机器人的控制方法和装置。

图1为本公开实施例所提供的一种足式机器人的控制方法的流程示意图。在本公开的实施例之中，该足式机器人可为两足机器人，也可以为四足机器人，甚至可以是三足机器人，或多足机器人，对此并无限制。为了提高足式机器人的环境感知能力，该足式机器人之上会设置麦克风，用于采集足式机器人所在环境的环境音频以及用户的指令。在本公开的一个实施例之中，用户可通过特定的唤醒词对足式机器人进行唤醒，并向足式机器人发送语音指令，使得足式机器人执行该指令。在本公开的后续实施例之中，主要是针对足式机器人所在环境的环境音频(非用户的语音指令)进行采集，通过对环境音频的检测确定环境所发生的事件(即语音事件)，从而做出相应的响应动作。

如图1所示，该足式机器人的控制方法包括以下步骤：

步骤110，采集环境音频。可通过足式机器人身上的麦克风进行音频检测，从而采集环境音频。

在本公开的实施例之中，重点采集环境之中的环境音频。在一个实施例之中，足式机器人可以具有多个麦克风，且每个麦克风的朝向不同。不同朝向的麦克风，分别用于采集多个方向的用户声音。在某个实施例之中，麦克风可为6个，在足式机器人的前部和后部各装有一个麦克风，分别朝向足式机器人的前方以及足式机器人的后方。同时，在足式机器人的两侧分别安装两个麦克风，分别朝向足式机器人的两侧。在本公开的实施例之中，由于足式机器人与传统的智能设备不同，其是运动而非位置固定的，甚至有可能足式机器人会跑到与用户较远的位置，且用户的位置相对于足式机器人来说也不固定。因此，在本公开的实施例之中，通过设置多个麦克风，来检测不同方向的语音指令，并可将信噪比最低的语音指令作为最终的语音指令，这样无论用户在足式机器人的哪个方向，都可以进行采集。同样地，对于环境音频来说也一样，通过设置多个不同方向的麦克风可以有效地检测环境音频。

由于机器人的不断普及，越来越多的场景需要机器人的协助，例如应用于家庭、办公、安保等场所。以家庭场景为例，该环境音频为家庭之中的环境声音，例如水开的声音、玻璃打碎的声音、电视播放的声音、人尖叫的声音、小孩哭声以及爆炸声、敲门声等等。在上述家庭实施例的实施例之中，环境声音有很多种，上述的家庭环境声音仅是为了方便理解本公开的方案而已，并不是只能用于上述声音的检测。

步骤130，从环境音频之中提取声音事件。声音事件检测是从输入的音频中检测出异常声音事件，并判断发生了哪一种事件。本质上是模式识别问题。例如可以从环境音频之中提取有效音频特征，并用机器学习算法训练一个分类器，再利用分类器对异常声音事件进行检测。机器学习算法可以是卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短时记忆神经网络(Long Short TermMemory,LSTM)等。针对上述所提到的家庭的声音，可以通过神经网络训练的方式训练对于的分类器，再通过分类器进行分类，从而确定声音事件。在本公开的后续实施例之中，将对采用的神经网络进行详细介绍，在此不在赘述。在本公开的一个实施例之中，可通过神经网络根据环境音频的时域波形特征进行分类，从而确定声音事件。

作为本公开的一些实施例，提出了一些具体的声音事件的时域波形特征的例子。参照图2a-e所示，为本公开一些实施例的声音事件的时域波形特征。如图2a所示，为本公开实施例的玻璃破碎所对应的声音事件所对应的时域波形特征。如图2a所示，其中211为玻璃破碎的声音，212为玻璃破碎声音所对应的域波形特征。如图2b所示，为本公开实施例的人尖叫声所对应的声音事件所对应的时域波形特征。如图2b所示，其中213为人尖叫的声音，214为人尖叫声音所对应的域波形特征。如图2c所示，为本公开实施例的水壶烧开所对应的声音事件所对应的时域波形特征。如图2c所示，其中215为水壶烧开的声音，216为水壶烧开声音所对应的域波形特征。如图2d所示，为本公开实施例的爆炸声所对应的声音事件所对应的时域波形特征。如图2d所示，其中217为爆炸声的声音，218为爆炸声音所对应的域波形特征。如图2e所示，为本公开实施例的敲门声所对应的声音事件所对应的时域波形特征。如图2e所示，其中219为敲门声的声音，220为敲门声音所对应的域波形特征。需要说明的是，各种声音事件都是可以通过模型分析学习得到的，上述图2a-e仅是为了便于理解本公开的方案所列的例子，并不是对声音事件的限定。本公开的实施例可以适用于各类的声音事件。

需要说明的是，在本公开的上述实施例之中，声音事件是指从环境声音之中提取的声音事件，而非用户的指令。

步骤150，响应于声音事件，对足式机器人进行控制。

在本公开的一个实施例之中，足式机器人在获得该声音事件之后，可以对该声音事件进行相应的响应。从而使得足式机器人更加具有“智慧”，能够对周边的声音进行响应，模仿生物的听力系统，并提取相应的声音事件进行动作响应。因此可以看出，本申请实施例之中的足式机器人更加智能，能够对像动物一样对周边的声音进行响应。

在本公开的其他实施例之中，足式机器人的响应策略也可以通过神经网络生成，神经网络运行在足式机器人之中，从而可以对采集的声音事件及时响应。在本公开的其他实施例之中，在某些对运算资源要求较高的场景下，该神经网络也可以运行在用户的移动终端之中，或者运行在服务器端，例如足式机器人将识别的声音事件发送至移动终端或服务器，移动终端或服务器根据声音事件生成相应的响应策略，再将响应策略发送至足式机器人。在本公开的一些实施例之中，也可以不采用神经网络的方式生成响应策略，由于在特定场景下，例如家庭场景等，环境之中产生的声音事件是有限的，因此也可以针对每种声音事件预设相应的响应策略。

在本公开的实施例之中，可以通过足式机器人采集环境的环境音频，从而根据环境音频获取环境之中发生的声音事件，并根据声音事件做出相应的响应，从而提高足式机器人对环境的感知能力。在该实施例之中，足式机器人还可以根据检测到的声音事件做出相应的响应，从而更加具有“智慧”，增强与用户的交互。在该实施例之中，由于足式机器人是随时运动的，不同于目前的一些智能设备，是固定不动的，因此足式机器人能够采集更多的环境音频，从而能够感知环境之中更多的声音事件，并对响应的声音事件做出响应。如图3所示，为本公开实施例中足式机器人对声音进行响应的示意图。例如在家庭场景中，当房间内出现异常响动时，可以根据环境音频生成相应的声音事件，例如玻璃破碎、敲门、水壶烧开、爆炸、撞击声、尖叫声、枪声等事件。这样，足式机器人会对声音事件进行分析并做出响应。比如当判断出有人敲门时，足式机器人会告知主人，如果没人在家中，则前往门口主动与人交谈，并询问关键信息上传至服务器。当判断声音事件为水烧开的声音时，足式机器人会尝试告知主人。如果烧水设备为物联网设备，则足式机器人可以通过服务器直接控制关闭该烧水设备。当判断声音事件为玻璃破碎声音时，且利用声源定位出为房屋边缘，则足式机器人会主动前往查看情况并联系主人。

然而，由于足式机器人所处的环境非常复杂，因此如何从复杂的环境音频之中提取想要的内容是非常困难的。由于异常声音相较于静音而言，频率变化相对不稳定，每个异常声音的时域波形特征差别都很大，但是同一种类的异常声音由于具有类似的频谱特性，因此在本公开的实施例之中，可以经过双门限检测法初步判断为非静音后，之后再送入神经网络进行判断。为此，本申请提出了一种从环境音频之中提声音事件的方法。如图4所示，为本公开实施例的声音事件提取流程图。该方法，包括；

步骤S410，对环境音频进行事件边界检测以确定事件边界。

在本公开的一个实施例之中，可以使用双门限检测法来对非静音的部分进行检测。该非静音的部分，可能是事件声音，也可能是噪声，甚至也可能是用户的指令，因此本实施例之中，先将非静音的部分音频分离出来，之后再通过神经网络进行声音事件的提取。在该实施例之中，先对环境音频进行事件边界检测，并根据边界检测的结果确定声音事件的事件边界。在后续实施例之中，将对本公开实施例的事件边界确定方法进行详细介绍，在此不再赘述。

在本公开的实施例之中，可以确定事件的起始时刻，以及事件的终止时刻。

步骤S430，根据事件边界从环境音频之中提取事件音频。

在该实施例之中，可以将起始时刻和终止时刻事件的音频，作为事件音频。当然如上所述的，这段音频可能是事件音频，也可能是噪音，甚至用户的语音指令。由于在本公开的实施例之中，是为了提取声音事件，因此在本公开的实施例之中，将提取的音频统称为事件音频。

步骤S450，对事件音频进行分析以生成声音事件。

如上所述的，在一个实施例之中，可以通过神经网络来生成声音事件。在本公开的一个优选实施例之中，可通过卷积递归神经网络来生成声音事件。卷积递归神经网络能够更好的利用音频的信号特征和时序信息，能够更准确地生成声音事件。卷积神经网络通常用于计算机视觉任务，具有强大的特征提取能力，能够很好地提取局部特征。而循环神经网络是一种适合于序列数据建模的神经网络，包含历史信息，具有一定的记忆性。以此框架训练的分类器较为适合提取声音事件。需要说明的是卷积递归神经网络仅为本申请的一个实施例，还可以采用其他的神经网络实现。

如图5所示，为本公开实施例之中声音事件的事件边界确定方法流程图。如图5所示，包括如下步骤：

S510，检测环境音频的能量值或过零率值。

在本公开的实施例之中，通过环境音频的能量值或过零率值来作为决策依据。

S530，如果环境音频在第一时刻的能量值或过零率值大于第一阈值，则将第一时刻作为事件边界的起始时刻。

通常来说，一个时间事件包括四个阶段：静音段、过渡段、语音段、结束段。在静音段时，如果环境音频在第一时刻的能量值或过零率值大于第一阈值，就标记为事件边界的起始时刻，并进入过渡段。

S550，如果环境音频在第二时刻的能量值或过零率值大于第二阈值，且在第三时刻低于第一阈值，则将第三时刻作为事件边界的终止时刻，其中，第二阈值大于第一阈值，且第二时刻晚于第一时刻，且第三时刻晚于第二时刻。

如果在过渡段中当能量值和过零率值都回落到第一阈值以下，则将状态恢复为静音段。反之，如果过渡段中的第二时刻能量值和过零率值任意一个超过第二阈值，则认为进入语音段。在进入语音段之后，如果在第三时刻能量值和过零率值降低到第一阈值以下，则认为该语音段结束，并将第三时刻作为终止时刻。

如图6所示，为本公开实施例之中声音事件生成方法流程图。如图6所示，包括如下步骤：

S610，获取事件音频的时域波形特征。

在本公开的实施例之中，可对事件音频进行时域特征提取以生成时域波形特征。

S630，从时域波形特征之中提取MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征。

在本公开的一个实施例之中，对时域波形特征经过FFT(Fast FourierTransform，快速傅立叶变换)变换之后变成复数谱特征，之后对复数谱特征取模再取对数之后，得到对数功率谱特征(log power spectrogram，LPS)。之后，再把谱特征送入梅尔滤波器组可以得到FBank(Filterbank，滤波器组)特征，对FBank特征取DCT(Discrete CosineTransform，离散余弦变换)以得到MFCC特征。

S650，通过卷积递归神经网络根据所述MFCC特征生成声音事件。

在本公开的一个实施例之中，如图7所示，为本公开实施例的卷积递归神经网络训练步骤流程图。在该实施例之中，卷积递归神经网络通过以下步骤训练得到：

S710，获取样本音频，以及样本音频的标注值。

S730，对样本音频进行分段以生成多个音频段，并生成多个音频段的MFCC特征。

S750，将MFCC特征输入至初始卷积递归神经网络以生成预测值。

S770，根据标注值和预测值生成损失值。

S790，根据损失值对初始卷积递归神经网络进行训练。

在本公开的一个实施例之中，足式机器人还可以对声源的位置进行定位，并且还可以接近到声源的位置，并进一步的进行探测，例如通过摄像头进行图像拍摄，并进行识别，从而进一步确定事件的种类，为进一步的响应决策提供依据。在该实施例之中，足式机器人对环境音频进行声源定位，以获取声音事件的发生位置。足式机器人之后将声音事件和声音事件的发生位置发送至服务器，从而服务器可以根据声音位置及发生位置进行决策，生成相应的响应策略。足式机器人接收服务器反馈的响应策略，其中，响应策略用于对足式机器人进行控制。

在该实施例之中，服务器根据足式机器人反馈的声音事件和声源位置生成相应的处理策略，并反馈给足式机器人进行响应，从而提升响应的准确性。

如图8所示，为本公开实施例的足式机器人的控制装置结构图。该控制装置800包括采集模块810、提取模块820和控制模块830。其中，采集模块810用于采集环境音频，即足式机器人所在环境的环境音频。提取模块820用于从环境音频之中提取声音事件。控制模块830用于响应于该声音事件，对足式机器人进行控制。

在本公开的实施例之中，提取模块820包括事件边界确定子模块821、提取子模块822和生成子模块823。其中，事件边界确定子模块821用于对环境音频进行事件边界检测以确定事件边界。提取子模块822用于根据事件边界从环境音频之中提取事件音频。生成子模块823用于对事件音频进行分析以生成声音事件。

在本公开的实施例之中，事件边界确定子模块包括检测单元和起始和终止时刻确定单元。检测单元用于检测环境音频的能量值或过零率值。起始和终止时刻确定单元，于在环境音频在第一时刻的能量值或过零率值大于第一阈值时，将第一时刻作为事件边界的起始时刻，以及在环境音频在第二时刻的能量值或过零率值大于第二阈值，且在第三时刻低于第一阈值时，将第三时刻作为事件边界的终止时刻，其中，第二阈值大于第一阈值，且第二时刻晚于第一时刻，且第三时刻晚于第二时刻。

在本公开的实施例之中，生成子模块包括时域波形特征获取单元、特征提取单元和生成单元。时域波形特征获取单元用于获取事件音频的时域波形特征。特征提取单元用于从时域波形特征之中提取MFCC特征。生成单元用于根据所述MFCC特征生成声音事件。

在本公开的实施例之中，控制装置800还包括定位模块840和通信模块850。定位模块840用于对环境音频进行声源定位，以获取声音事件的发生位置。通信模块850用于将声音事件和声音事件的发生位置发送至服务器，并接收服务器反馈的响应策略，其中，所述响应策略用于对所述足式机器人进行控制。

在本公开的实施例之中，提出了一种足式机器人。如图9所示，为足式机器人的结构图。足式机器人100包括头部110、躯干120和腿部130，还包括如上所述的足式机器人的控制装置。

在本公开的实施例之中，还提出了一种足式机器人，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上所述足式机器人的控制方法。

在本公开的实施例之中，还提出了一种存储介质，当所述存储介质中的指令由足式机器人的处理器执行时，使得足式机器人能够执行如上所述的足式机器人的控制方法。

在本公开的实施例之中，还提出了一种计算机程序产品，用于执行如上所述的足式机器人的控制方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种足式机器人的控制方法，其特征在于，包括：

采集环境音频；

从所述环境音频之中提取声音事件；以及

响应于所述声音事件，对所述足式机器人进行控制。

2.如权利要求1所述足式机器人的控制方法，其特征在于，所述从所述环境音频之中提取声音事件，包括：

对所述环境音频进行事件边界检测以确定事件边界，并根据所述事件边界从所述环境音频之中提取事件音频；

对所述事件音频进行分析以生成声音事件。

3.如权利要求2所述足式机器人的控制方法，其特征在于，所述对所述环境音频进行事件边界检测以确定事件边界，包括：

检测所述环境音频的能量值或过零率值；

如果所述环境音频在第一时刻的能量值或过零率值大于第一阈值，则将所述第一时刻作为所述事件边界的起始时刻；

如果所述环境音频在第二时刻的能量值或过零率值大于第二阈值，且在第三时刻低于所述第一阈值，则将所述第三时刻作为所述事件边界的终止时刻，其中，所述第二阈值大于所述第一阈值，且所述第二时刻晚于所述第一时刻，且所述第三时刻晚于所述第二时刻。

4.如权利要求2所述足式机器人的控制方法，其特征在于，所述对所述事件音频进行分析以生成声音事件，包括：

获取所述事件音频的时域波形特征；

从所述时域波形特征之中提取梅尔频率倒谱系数MFCC特征；以及

根据所述MFCC特征生成所述声音事件。

5.如权利要求4所述足式机器人的控制方法，其特征在于，通过卷积递归神经网络根据所述时域波形特征生成所述声音事件，其中，所述卷积递归神经网络通过以下步骤训练得到：

获取样本音频，以及所述样本音频的标注值；

对所述样本音频进行分段以生成多个音频段，并生成所述多个音频段的MFCC特征；

将所述MFCC特征输入至初始卷积递归神经网络以生成预测值；

根据所述标注值和所述预测值生成损失值；以及

根据所述损失值对所述初始卷积递归神经网络进行训练。

6.如权利要求1所述足式机器人的控制方法，其特征在于，在所述从所述环境音频之中提取声音事件之后，还包括：

对所述环境音频进行声源定位，以获取所述声音事件的发生位置；

其中，所述方法还包括：

将所述声音事件和所述声音事件的发生位置发送至服务器；

接收所述服务器反馈的响应策略，其中，所述响应策略用于对所述足式机器人进行控制。

7.一种足式机器人的控制装置，其特征在于，包括：

采集模块，用于采集环境音频；

提取模块，用于从所述环境音频之中提取声音事件；以及

控制模块，用于响应于所述声音事件，对所述足式机器人进行控制。

8.如权利要求7所述足式机器人的控制装置，其特征在于，所述提取模块包括：

事件边界确定子模块，用于对所述环境音频进行事件边界检测以确定事件边界；

提取子模块，用于根据所述事件边界从所述环境音频之中提取事件音频；以及

生成子模块，用于对所述事件音频进行分析以生成声音事件。

9.如权利要求8所述足式机器人的控制装置，其特征在于，所述事件边界确定子模块包括：

检测单元，用于检测所述环境音频的能量值或过零率值；

起始和终止时刻确定单元，用于在所述环境音频在第一时刻的能量值或过零率值大于第一阈值时，将所述第一时刻作为所述事件边界的起始时刻，以及在所述环境音频在第二时刻的能量值或过零率值大于第二阈值，且在第三时刻低于所述第一阈值时，将所述第三时刻作为所述事件边界的终止时刻，其中，所述第二阈值大于所述第一阈值，且所述第二时刻晚于所述第一时刻，且所述第三时刻晚于所述第二时刻。

10.如权利要求8所述足式机器人的控制装置，其特征在于，所述生成子模块包括：

时域波形特征获取单元，用于获取所述事件音频的时域波形特征；

特征提取单元，用于从所述时域波形特征之中提取MFCC特征；以及

生成单元，用于根据所述MFCC特征生成所述声音事件。

11.如权利要求7所述足式机器人的控制装置，其特征在于，还包括：

定位模块，用于对所述环境音频进行声源定位，以获取所述声音事件的发生位置；

通信模块，用于将所述声音事件和所述声音事件的发生位置发送至服务器，并接收所述服务器反馈的响应策略，其中，所述响应策略用于对所述足式机器人进行控制。

12.一种足式机器人，其特征在于，包括:

如权利要求7-11任一项所述的足式机器人的控制装置。

13.一种足式机器人，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述足式机器人的控制方法。

14.一种存储介质，其特征在于，当所述存储介质中的指令由足式机器人的处理器执行时，使得足式机器人能够执行如权利要求1至6中任一项所述的足式机器人的控制方法。

15.一种计算机程序产品，其特征在于，用于执行如权利要求1至6中任一项所述的足式机器人的控制方法。