CN112207811A - 一种机器人控制方法、装置、机器人及存储介质 - Google Patents

一种机器人控制方法、装置、机器人及存储介质 Download PDF

Info

Publication number
CN112207811A
CN112207811A CN201910625626.4A CN201910625626A CN112207811A CN 112207811 A CN112207811 A CN 112207811A CN 201910625626 A CN201910625626 A CN 201910625626A CN 112207811 A CN112207811 A CN 112207811A
Authority
CN
China
Prior art keywords
audio
voice
robot
abnormal
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910625626.4A
Other languages
English (en)
Other versions
CN112207811B (zh
Inventor
范娜娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN201910625626.4A priority Critical patent/CN112207811B/zh
Publication of CN112207811A publication Critical patent/CN112207811A/zh
Application granted granted Critical
Publication of CN112207811B publication Critical patent/CN112207811B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/008Manipulators for service tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Multimedia (AREA)
  • Automation & Control Theory (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Manipulator (AREA)

Abstract

本申请公开了一种机器人控制方法、装置、机器人及存储介质,属于机器人技术领域。所述方法包括:当处于休眠状态时,采集周围环境的音频;调用声音检测模型,将所述音频输入至所述声音检测模型中,输出所述音频的音频类别,所述声音检测模型用于基于任一音频确定所述任一音频的音频类别;当根据所述音频类别确定所述音频为异常声音时,控制机器人从休眠状态切换至工作状态。如此,当弱势人员独处时,即便机器人在休眠状态下,也可以在检测到危险等异常声音时主动开始工作,并将这些危险状况上报给监护人,降低了出现严重后果的可能性。

Description

一种机器人控制方法、装置、机器人及存储介质
技术领域
本申请涉及机器人技术领域,特别涉及一种机器人控制方法、装置、机器人及存储介质。
背景技术
随着现代社会的生活节奏加快,监护人通常需要在外工作,当家里有小孩、老人或残障人士之类的弱势人员独处时,可能会出现各种各样的突发情况,如果监护人不能及时得知可能就会造成严重的后果。为此,现在提供了一些具有监护、陪伴等功能的机器人,该类机器人通常可以将一些突发情况上报给监护人,以便监护人可以及时了解到用户的情况。在应用过程中,当机器人长时间未监测到周围环境的声音时,会自动进入休眠状态,因此,如何对该机器人的工作状态进行控制成为研究的热点。
发明内容
本申请实施例提供了一种机器人控制方法、装置、机器人及存储介质,可以解决机器人在休眠状态下不能主动监护用户的情况的问题。所述技术方案如下:
一方面,提供了一种机器人控制方法,该方法包括:
当处于休眠状态时,采集周围环境的音频;
调用声音检测模型,将音频输入至声音检测模型中,输出音频的音频类别,该声音检测模型用于基于任一音频确定任一音频的音频类别;
当根据音频类别确定音频为异常声音时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,输出音频的音频类别之后,还包括:
当根据音频类别确定音频为语音时,调用语音识别模型,将语音输入至语音识别模型中,输出语音的语音内容,该语音识别模型用于基于任一语音确定任一语音的语音内容;
当语音内容包括唤醒词时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,该方法还包括:
确定语音的语音特征;
将语音特征输入至语音识别模型中,输出语音的内容向量;
获取语音的实际内容向量,根据该语音的内容向量与该语音的实际内容向量之间的距离,对语音识别模型的模型参数进行调整。
在本申请一种可能的实现方式中,当根据音频类别确定音频为异常声音时,声音检测模型还输出异常声音所属的异常类别,唤醒机器人之后,还包括:
对产生异常声音的异常事件进行视频录制并存储;和/或,
执行与异常声音所属的异常类别对应的异常报警操作;和/或,
当异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。
在本申请一种可能的实现方式中,该方法还包括:
确定音频的音频特征;
将音频特征输入至声音检测模型中,输出音频的类别向量;
获取音频的实际类别向量,根据该音频的类别向量与该音频的实际类别向量之间的距离,对声音检测模型的模型参数进行调整。
另一方面,提供了一种机器人控制装置,该装置包括:
采集模块,用于当处于休眠状态时,采集周围环境的音频;
检测模块,用于调用声音检测模型,将音频输入至声音检测模型中,输出音频的音频类别,该声音检测模型用于基于任一音频确定任一音频的音频类别;
控制模块,用于当根据音频类别确定音频为异常声音时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,该检测模块还用于:
当根据音频类别确定音频为语音时,调用语音识别模型,将语音输入至语音识别模型中,输出语音的语音内容,语音识别模型用于基于任一语音确定任一语音的语音内容;
当语音内容包括唤醒词时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,该控制模块还用于:
确定语音的语音特征;
将语音特征输入至语音识别模型中,输出语音的内容向量;
获取语音的实际内容向量,根据该语音的内容向量与该语音的实际内容向量之间的距离,对语音识别模型的模型参数进行调整。
在本申请一种可能的实现方式中,声音检测模型还输出异常声音所属的异常类别,该检测模块还用于:
对产生异常声音的异常事件进行视频录制并存储;和/或,
执行与异常声音所属的异常类别对应的异常报警操作;和/或,
当异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。
在本申请一种可能的实现方式中,该控制模块还用于:
确定音频的音频特征;
将音频特征输入至声音检测模型中,输出音频的类别向量;
获取音频的实际类别向量,根据该音频的类别向量与该音频的实际类别向量之间的距离,对声音检测模型的模型参数进行调整。
另一方面,提供了一种机器人,该机器人包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,该处理器被配置为实现上述一方面所述的任一项方法的步骤。
另一方面,提供一种计算机可读存储介质,该计算机可读存储介质上存储有指令,该指令被处理器执行时实现上述一方面所述的任一项方法的步骤。
另一方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述一方面所述的任一项方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
当机器人处于休眠状态时,可以采集周围环境的音频,并且调用声音检测模型对该音频进行检测,该声音检测模型可以基于任一音频确定该任一音频的音频类别,将采集到的音频输入至声音检测模型中,该声音检测模型可以输出该音频的音频类别,当确定该音频为异常声音时,可以控制机器人从休眠状态切换至工作状态。也就是说,当机器人在休眠状态下检测到异常声音时,可以切换至工作状态。如此,当弱势人员独处时,即便机器人在休眠状态下,也可以在检测到危险等异常声音时主动开始工作,并将这些危险状况上报给监护人,降低了出现严重后果的可能性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例示出的一种机器人控制方法流程图;
图2是根据另一示例性实施例示出的一种机器人控制方法流程图;
图3是根据一示例性实施例示出的一种机器人控制装置的结构示意图;
图4是根据一示例性实施例示出的一种机器人的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例涉及的实施环境予以说明。
本申请实施例涉及的机器人控制方法可以由机器人来执行。该机器人可以根据用户的语音和用户进行交互,也可以根据检测到的异常声音主动执行相应的操作,该机器人可以包括音频接收模块、声音检测模块、语音识别模块和语音合成模块。
其中,音频接收模块用于采集外界的音频;声音检测模块包括声音检测模型,该声音检测模型用于对采集到的音频进行检测,可以基于任一音频确定该任一音频的音频类别,该声音检测模块还可以检测音频的开始时间和结束时间;语音识别模块包括语音识别模型,该语音识别模型用于对采集到的语音进行识别,可以基于任一语音确定该任一语音的语音内容;语音合成模块用于将文本进行语音合成,得到与文本内容相同的语音。
图1是根据一示例性实施例示出的一种机器人控制方法流程图,以该方法应用于上述实施环境中为例进行说明,该方法可以包括如下几个步骤:
步骤101:当处于休眠状态时,采集周围环境的音频。
本申请中的机器人可以包括两种状态:工作状态和休眠状态。通常情况下,机器人处于休眠状态,耗电量、带宽等资源消耗较低,可以起到节省资源的作用。只有通过唤醒词或异常声音被唤醒时,机器人才会切换到工作状态。
当机器人处于工作状态时,该机器人的音频接收模块、声音检测模块、语音识别模块和语音合成模块都处于启动状态,当接收到对应的指令或交互任务时,可以调用对应的模块执行对应的操作。若在工作状态长时间没有接收到音频,机器人可以从工作状态切换至休眠状态。
当机器人处于休眠状态时,该机器人中只有音频接收模块和声音检测模块可以继续工作,其他模块处于关闭状态。通常情况下,音频接收模块可以采集周围环境的音频。
步骤102:调用声音检测模型,将音频输入至所述声音检测模型中,输出该音频的音频类别,该声音检测模型用于基于任一音频确定该任一音频的音频类别。
当音频接收模块接收到周围环境的音频时,可以调用声音检测模块,通过声音检测模块的声音检测模型对音频进行检测,确定音频的音频类别,根据检测结果可以确定是否需要唤醒机器人,若不需要,机器人继续处于休眠状态,若需要,机器人可以从休眠状态切换至工作状态。
其中,音频类别可以用于指示该音频是语音还是异常声音。示例性地,若该音频是一段对话,可以确定音频类别为语音,若该音频是儿童的哭声,可以确定音频类别为异常声音。
其中,声音检测模型是基于机器学习技术训练得到的。也就是说,在将采集到的音频输入至声音检测模型中,确定该音频的音频类别之前,需要对待训练的神经网络模型进行训练,得到声音检测模型。示例性地,该待训练的神经网络模型可以为前馈神经网络、卷积神经网络等,本申请实施例对此不做限定。
在一些实施例中,对待训练的神经网络模型进行训练时,可以收集多个音频样本,包括但不限于儿童哭声、玻璃破碎声、儿童喊叫声等,并且可以通过人工收听的方式确定每个音频样本的实际音频类别,当该音频样本为异常声音时,还可以确定该异常声音的实际异常类别,如此,可以保证该实际音频类别和实际异常类别是正确的,对该多个音频样本进行音频处理,得到多个音频样本的音频特征,将该多个音频样本的音频特征和该多个音频样本中每个音频样本的实际音频类别及异常声音的实际异常类别输入至待训练的神经网络模型中进行训练,可以得到声音检测模型。
作为一种示例,可以收集多个音频样本,对该多个音频样本进行音频处理,得到多个音频样本的音频特征,并且确定该多个音频样本中每个音频样本的实际音频类别,当该音频样本为异常声音时,还可以确定异常声音的实际异常类别,然后确定多组训练数据,该多组训练数据中的每组训练数据可以包括一个音频样本的实际音频类别和该一个音频样本的音频特征,当该一个音频样本为异常声音时,该组训练数据还包括该异常声音的异常类别,将该多组训练数据输入至该待训练的神经网络模型中,该待训练的神经网络模型可以基于初始模型参数输出该多个音频样本的音频类别及异常声音的异常类别,将该输出的音频类别和实际音频类别进行对比,若输出的音频类别和实际音频类别不同,和/或输出的异常类别和实际异常类别不同,可以调整初始模型参数,当该输出的音频类别和实际音频类别接近且输出的异常类别和实际异常类别接近时,可以确定该待训练的神经网络模型已经训练结束,可以将此时得到的待训练的神经网络模型确定为声音检测模型。
基于大数据的训练方式得到的声音检测模型,在对音频进行检测时,不同于现有的在音频模板中寻找相似的音频的方式,而是通过对音频的特征进行分析,根据参数进行计算,最后输出音频的音频类别,泛化性较强,可以适用于多种不同的场景,准确率较高。
在一些实施例中,该声音检测模型可以包括输入层、卷积层、池化层、全连接层和输出层,机器人将采集到的音频输入至该声音检测模型后,该声音检测模型依次通过该输入层、卷积层、池化层、全连接层和输出层对该音频进行处理,可以输出该音频的音频类别。
需要说明的是,上述仅是以该声音检测模型包括输入层、卷积层、池化层、全连接层和输出层为例进行说明,在另一些实施例中,该声音检测模型还可以包括其他网络层,例如,还可以包括循环神经网络隐含层等,本申请实施例对此不做限定。
步骤103:当根据音频类别确定该音频为异常声音时,控制机器人从休眠状态切换至工作状态。
作为一种示例,当根据音频类别确定该音频为异常声音时,可以将机器人唤醒,同时声音检测模型还可以输出异常声音所属的异常类别。其中,异常类别包括但不限于儿童哭声、儿童喊叫声、玻璃破碎声、撞击声等。也就是说,当机器人接收到异常声音时,可以被主动唤醒,进入工作状态。
进一步地,声音检测模型输出音频的音频类别之后,当根据音频类别确定音频为语音时,可以调用语音识别模型,将语音输入至语音识别模型中,可以输出语音的语音内容,该语音识别模型用于基于任一语音确定任一语音的语音内容,当语音内容包括唤醒词时,控制机器人从休眠状态切换至工作状态。
其中,语音识别模型是基于机器学习技术训练得到的。也就是说,在将语音输入至语音识别模型中,确定该语音的语音内容之前,需要对待训练的神经网络模型进行训练,得到语音识别模型。示例性地,该待训练的神经网络模型可以为前馈神经网络、卷积神经网络等,本申请实施例对此不做限定。
在一些实施例中,对待训练的神经网络模型进行训练时,可以收集多个语音样本,并且可以通过人工收听的方式确定每个语音样本的实际语音内容,如此,可以保证该实际语音内容是正确的,对该多个语音样本进行语音处理,得到多个语音样本的语音特征,将该多个语音样本的语音特征和该多个语音样本中每个语音样本的实际音频类别输入至待训练的神经网络模型中进行训练,可以得到语音识别模型。在后续的使用过程中,可以一直使用该语音识别模型进行语音识别。
作为一种示例,可以收集多个语音样本,对该多个语音样本进行语音处理,得到多个语音样本的语音特征,并且确定该多个语音样本中每个语音样本的实际语音内容,然后确定多组训练数据,该多组训练数据中的每组训练数据可以包括一个语音样本的实际语音内容和该一个语音样本的语音特征,将该多组训练数据输入至该待训练的神经网络模型中,该待训练的神经网络模型可以基于初始模型参数输出该多个语音样本的语音内容,将该输出的语音内容和实际语音内容进行对比,若输出的语音内容和实际语音内容不同,可以调整初始模型参数,当该输出的语音内容和实际语音内容接近时,可以确定该待训练的神经网络模型已经训练结束,可以将此时得到的待训练的神经网络模型确定为语音识别模型。
在一些实施例中,该语音识别模型可以包括输入层、全连接层和输出层,机器人将采集到的语音输入至该语音识别模型后,该语音识别模型依次通过该输入层、全连接层和输出层对该语音进行处理,可以输出该语音的语音内容。
需要说明的是,上述仅是以该语音识别模型包括输入层、全连接层和输出层为例进行说明,在另一些实施例中,该语音识别模型还可以包括其他网络层,例如,还可以包括循环神经网络隐含层等,本申请实施例对此不做限定。
作为一种示例,可以预先为机器人设置唤醒词,当机器人在休眠状态下接收到音频,且该音频的音频类别为语音时,通过语音识别模型对该语音进行识别,当输出语音的语音内容后,可以判断该语音内容中是否包括预先设置的唤醒词,当该语音内容包括唤醒词时,可以将机器人唤醒,使其从休眠状态切换至工作状态,可以与用户进行交互或执行用户的指令;当该语音内容不包括唤醒词时,机器人不会被唤醒,继续处于休眠状态,不能和用户进行任何交互。
示例性地,假设唤醒词为“小康”,当输出语音的语音内容为“你好,小康”时,可以确定该语音内容中包括预先设置的唤醒词,可以将机器人唤醒,进而可以启动机器人中的各个模块,使机器人进入工作状态;当输出语音的语音内容为“今天天气如何”时,可以确定该语音内容中不包括唤醒词,机器人不会被唤醒,继续处于休眠状态。
值得注意的是,唤醒词可以为一个,也可以为多个,以便当用户忘记了其中一个时,可以用其他的唤醒词将机器人唤醒。且唤醒词可以由用户根据实际需要进行设置,也可以由机器人默认设置,本申请实施例对此不做限定。
需要说明的是,上述步骤可以控制机器人从休眠状态进入唤醒状态,已经可以实现本申请的技术方案,接下来介绍一下当机器人处于工作状态时可以执行的操作。
步骤104:当机器人处于工作状态时,可以将异常声音进行上报并根据用户的语音和用户进行交互。
作为一种示例,声音检测模块还可以检测异常声音的开始时间和结束时间,并且按照时间戳进行记录。示例性地,声音检测模块可以在确定音频为异常声音时,将该时间点记录为该异常声音的开始时间,并从该时间点开始记录,直到检测到该异常声音结束,作为结束时间。
在一些实施例中,唤醒机器人之后,机器人可以对产生异常声音的异常事件进行视频录制并存储,和/或执行与异常声音所属的异常类别对应的异常报警操作,和/或当异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。其中,该参考安抚条件可以由用户根据实际需要进行设置,也可以由机器人默认设置,本申请实施例对此不做限定。
作为一种示例,可以在该机器人上安装摄像设备,唤醒机器人之后,机器人可以通过该摄像设备对产生异常声音的异常事件进行视频录制并存储,或者,可以在该机器人中安装录音设备,唤醒机器人之后,可以通过该录音设备对产生异常声音的异常事件进行音频录制并存储。
示例性地,声音检测模块可以在记录开始时间时,向摄像设备发送开始录制的指令,摄像设备可以开始录制该异常声音对应的异常事件的视频,当声音检测模块检测到该异常声音停止时,可以向摄像设备发送结束录制的指令,摄像设备可以停止对该异常事件的视频录制,将录制的视频与声音检测模型记录的时间戳对应存储起来,以便监护人可以查看,并且了解事情发生的时间;或者,声音检测模块可以在记录开始时间时,向录音设备发送开始录制的指令,录音设备可以开始录制该异常声音对应的异常事件的音频,当声音检测模块检测到该异常声音停止时,可以向录音设备发送结束录制的指令,录音设备可以停止对该异常事件的音频录制,将录制的音频与声音检测模型记录的时间戳对应存储起来,以便监护人可以查看,并且了解事情发生的时间。
作为一种示例,唤醒机器人之后,机器人还可以在确定该异常声音的异常类别之后,根据所属的异常类别执行对应的异常报警操作,该异常报警操作包括向监护人终端发送文字提示、音频信息或视频信息等中的一个或多个。
示例性地,可以预先为机器人和监护人的终端建立通信联系。当根据异常类别确定该异常声音为儿童哭声时,可以向监护人的终端发送文字信息,该文字信息的内容可以为“宝贝哭啦”,也可以向监护人的终端发送录音设备录制的音频;当确定该异常声音为玻璃破碎声时,可以向监护人的终端发送录制的视频等。
需要说明的是,监护人的终端可以为手机、电脑、平板电脑等,本申请实施例对此不做限定。
作为一种示例,唤醒机器人之后,机器人还可以在异常声音所属的异常类别符合安抚条件时,执行相应的安抚操作。示例性地,假设安抚条件为异常声音为儿童哭声,当确定异常声音所属的异常类别为儿童哭声时,机器人可以播放音乐、动画等来转移用户的注意力,安抚用户的情绪。
需要说明的是,在实际使用中,机器人可以执行上述三种操作中的任意一种或多种,本申请实施例对此不做限定。
进一步地,在机器人处于工作状态之后,可以将采集到的音频进行存储,并基于存储的音频对声音检测模型的模型参数进行调整。如此,可以在使用过程中对声音检测模型做针对用户的训练,使该声音检测模型的性能不断提高,可以提高该声音检测模型的准确率。
作为一种示例,可以确定音频的音频特征,将该音频特征输入至声音检测模型中,可以输出该音频的类别向量,获取该音频的实际类别向量,根据该音频的类别向量与该音频的实际类别向量之间的距离,对声音检测模型的模型参数进行调整。作为一种示例,可以对存储的音频进行音频处理,得到音频的音频特征,譬如,可以对音频信号进行滤波、做傅里叶变换等一系列处理,进而提取出音频的音频特征。
其中,该类别向量可以用于指示声音检测模型确定的该音频的音频类别,当该音频为异常声音时,该类别向量还可以用于指示声音检测模型确定的该异常声音的异常类别;实际类别向量可以用于指示人工确定的该音频的实际音频类别,当该音频为异常声音时,该实际类别向量还可以用于指示人工确定的该异常声音的实际异常类别。
作为一种示例,实际类别向量可以通过人工收听的方式确定,人工可以确定音频的实际音频类别及异常声音的实际异常类别,并且将实际音频类别和实际异常类别映射为实际类别向量。可以提前确定音频的实际类别向量并存储在机器人中,机器人可以在调整声音检测模型的模型参数时直接使用,也可以在调整声音检测模型的模型参数时再确定音频的实际类别向量,并输入机器人中,机器人可以基于输入的音频的实际类别向量和音频的类别向量对声音检测模型的模型参数进行调整。或者,可以将确定的音频的实际音频类别及异常声音的实际异常类别存储在机器人中,当机器人进行声音检测模型的模型参数调整时,可以根据映射关系将实际音频类别和实际异常类别映射为实际类别向量。这里的映射关系可以由机器人默认设置,也可以由开发人员根据实际需要进行设置,本申请实施例对此不做限定。
示例性地,可以对存储的音频进行音频处理,得到该音频的音频特征,将该音频的音频特征输入声音检测模型中,声音检测模型可以输出该音频的类别向量。假设输出的该音频的类别向量为(0,1),实际类别向量为(1,1),可以计算输出的该音频的类别向量和该音频的实际类别向量之间的距离为1,可以根据该距离对声音检测模型的模型参数进行调整。在后续使用中,可以直接使用调整过后的声音检测模型检测音频的音频类别。
进一步地,在机器人处于工作状态之后,可以一直使用训练好的语音识别模型进行语音识别,也可以在每次进行语音识别之后,将采集到的语音进行存储,并基于该语音对语音识别模型的模型参数进行调整。如此,可以在使用过程中对语音识别模型做针对用户语音的训练,使该语音识别模型的性能不断提高,可以提高该语音识别模型的准确率。作为一种示例,可以由用户选择存储哪些语音,如此,可以保护用户的隐私。
作为一种示例,可以确定语音的语音特征,将该语音特征输入至语音识别模型中,可以输出该语音的内容向量,获取该语音的实际内容向量,根据该语音的内容向量与该语音的实际内容向量之间的距离,对语音识别模型的模型参数进行调整。作为一种示例,可以对存储的语音进行音频处理,得到语音的语音特征,譬如,可以对语音信号进行滤波、做傅里叶变换等一系列处理,进而提取出语音的语音特征。
其中,该内容向量可以用于指示语音识别模型确定的该语音的语音内容,实际内容向量可以用于指示人工确定的该语音的语音内容。
作为一种示例,实际内容向量可以通过人工收听的方式确定,人工可以确定语音的实际语音内容,并且将实际语音内容映射为实际内容向量。可以提前确定语音的实际内容向量并存储在机器人中,机器人可以在调整语音识别模型的模型参数时直接使用,也可以在调整语音识别模型的模型参数时再确定语音的实际内容向量,并输入机器人中,机器人可以基于输入的语音的实际内容向量和语音的内容向量对语音识别模型的模型参数进行调整。或者,可以将确定的语音的实际语音内容存储在机器人中,当机器人进行语音识别模型的模型参数调整时,可以根据映射关系将实际语音内容映射为实际内容向量。这里的映射关系可以由机器人默认设置,也可以由开发人员根据实际需要进行设置,本申请实施例对此不做限定。
示例性地,可以对存储的语音进行语音处理,得到该语音的语音特征,将该语音的语音特征输入语音识别模型中,语音识别模型可以输出该语音的内容向量。假设输出的该语音的内容向量为(0,1,0),实际内容向量为(0,1,1),可以计算输出的该语音的内容向量和该语音的实际内容向量之间的距离为1,可以根据该距离对语音识别模型的模型参数进行调整。在后续使用中,可以直接使用调整过后的语音识别模型识别语音的语音内容。
进一步地,在机器人被唤醒之后,当采集到音频且根据音频类别确定该音频为语音时,可以通过语音识别模型确定语音内容,并且根据语音内容完成用户指令或和用户进行交互。和用户进行交互时,机器人可以根据语音内容生成交互文本,该交互文本为机器人对用户的语音内容的反馈,可以通过语音合成模块对该交互文本进行语音合成,得到对应的语音,并将该对应的语音进行播放,该语音合成模块可以用于基于文本内容确定该文本内容合成之后的语音。
示例性地,参见图2,当机器人在工作状态下采集到语音时,可以通过语音识别模型确定语音内容,假设语音内容为“播放音乐”,机器人可以根据该语音内容为用户播放音乐;假设语音内容为“今天是几月几号”,机器人可以根据该语音内容生成交互文本,该交互文本可能为“今天是2008年8月8日”,将该交互文本输入语音合成模块中,该语音合成模块可以输出该交互文本对应的语音,机器人可以将该语音进行播放,从而完成和用户的交互。
在本申请实施例中,当机器人处于休眠状态时,可以采集周围环境的音频,并且调用声音检测模型对该音频进行检测,该声音检测模型可以基于任一音频确定该任一音频的音频类别,将采集到的音频输入至声音检测模型中,该声音检测模型可以输出该音频的音频类别,当确定该音频为异常声音时,可以控制机器人从休眠状态切换至工作状态。也就是说,当机器人在休眠状态下检测到异常声音时,可以切换至工作状态,如此,当弱势人员独处时,即便机器人在休眠状态下,也可以在检测到危险等异常声音时开始工作,并将这些危险状况上报给监护人,降低了出现严重后果的可能性。
图3是根据一示例性实施例示出的一种机器人控制装置的结构示意图,该装置可以由软件、硬件或者两者的结合实现。参见图3,该装置可以包括:采集模块301、检测模块302和控制模块303。
采集模块301,用于当处于休眠状态时,采集周围环境的音频;
检测模块302,用于调用声音检测模型,将音频输入至声音检测模型中,输出音频的音频类别,该声音检测模型用于基于任一音频确定任一音频的音频类别;
控制模块303,用于当根据音频类别确定音频为异常声音时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,该检测模块302还用于:
当根据音频类别确定音频为语音时,调用语音识别模型,将语音输入至语音识别模型中,输出语音的语音内容,该语音识别模型用于基于任一语音确定任一语音的语音内容;
当语音内容包括唤醒词时,控制机器人从休眠状态切换至工作状态。
在本申请一种可能的实现方式中,该控制模块303还用于:
确定语音的语音特征;
将语音特征输入至语音识别模型中,输出语音的内容向量;
获取语音的实际内容向量,根据该语音的内容向量与该语音的实际内容向量之间的距离,对语音识别模型的模型参数进行调整。
在本申请一种可能的实现方式中,声音检测模型还输出异常声音所属的异常类别,该检测模块302还用于:
对产生异常声音的异常事件进行视频录制并存储;和/或,
执行与异常声音所属的异常类别对应的异常报警操作;和/或,
当异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。
在本申请一种可能的实现方式中,该控制模块303还用于:
确定音频的音频特征;
将音频特征输入至声音检测模型中,输出音频的类别向量;
获取音频的实际类别向量,根据该音频的类别向量与该音频的实际类别向量之间的距离,对声音检测模型的模型参数进行调整。
在本申请实施例中,当机器人处于休眠状态时,可以采集周围环境的音频,并且调用声音检测模型对该音频进行检测,该声音检测模型可以基于任一音频确定该任一音频的音频类别,将采集到的音频输入至声音检测模型中,该声音检测模型可以输出该音频的音频类别,当确定该音频为异常声音时,可以控制机器人从休眠状态切换至工作状态。也就是说,当机器人在休眠状态下检测到异常声音时,可以切换至工作状态,如此,当弱势人员独处时,即便机器人在休眠状态下,也可以在检测到危险等异常声音时主动开始工作,并将这些危险状况上报给监护人,降低了出现严重后果的可能性。
需要说明的是:上述实施例提供的机器人控制装置在控制机器人时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的机器人控制装置与机器人控制方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图4是根据一示例性实施例提供的一种机器人400的结构示意图,该机器人400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)401和一个或一个以上的存储器402,其中,所述存储器402中存储有至少一条指令,所述至少一条指令由所述处理器401加载并执行以实现上述各个方法实施例提供的机器人控制方法。
当然,该机器人400还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该机器人400还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述图1所示实施例提供的机器人控制方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各个实施例提供的机器人控制方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种机器人控制方法,其特征在于,所述方法包括:
当处于休眠状态时,采集周围环境的音频;
调用声音检测模型,将所述音频输入至所述声音检测模型中,输出所述音频的音频类别,所述声音检测模型用于基于任一音频确定所述任一音频的音频类别;
当根据所述音频类别确定所述音频为异常声音时,控制机器人从休眠状态切换至工作状态。
2.如权利要求1所述的方法,其特征在于,所述输出所述音频的音频类别之后,还包括:
当根据所述音频类别确定所述音频为语音时,调用语音识别模型,将所述语音输入至所述语音识别模型中,输出所述语音的语音内容,所述语音识别模型用于基于任一语音确定所述任一语音的语音内容;
当所述语音内容包括唤醒词时,控制所述机器人从休眠状态切换至工作状态。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
确定所述语音的语音特征;
将所述语音特征输入至所述语音识别模型中,输出所述语音的内容向量;
获取所述语音的实际内容向量,根据所述语音的内容向量与所述语音的实际内容向量之间的距离,对所述语音识别模型的模型参数进行调整。
4.如权利要求1所述的方法,其特征在于,所述当根据所述音频类别确定所述音频为异常声音时,所述声音检测模型还输出所述异常声音所属的异常类别,唤醒机器人之后,还包括:
对产生所述异常声音的异常事件进行视频录制并存储;和/或,
执行与所述异常声音所属的异常类别对应的异常报警操作;和/或,
当所述异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
确定所述音频的音频特征;
将所述音频特征输入至所述声音检测模型中,输出所述音频的类别向量;
获取所述音频的实际类别向量,根据所述音频的类别向量与所述音频的实际类别向量之间的距离,对所述声音检测模型的模型参数进行调整。
6.一种机器人控制装置,其特征在于,所述装置包括:
采集模块,用于当处于休眠状态时,采集周围环境的音频;
检测模块,用于调用声音检测模型,将所述音频输入至所述声音检测模型中,输出所述音频的音频类别,所述声音检测模型用于基于任一音频确定所述任一音频的音频类别;
控制模块,用于当根据所述音频类别确定所述音频为异常声音时,控制机器人从休眠状态切换至工作状态。
7.如权利要求6所述的装置,其特征在于,所述检测模块还用于:
当根据所述音频类别确定所述音频为语音时,调用语音识别模型,将所述语音输入至所述语音识别模型中,输出所述语音的语音内容,所述语音识别模型用于基于任一语音确定所述任一语音的语音内容;
当所述语音内容包括唤醒词时,控制所述机器人从休眠状态切换至工作状态。
8.如权利要求7所述的装置,其特征在于,所述控制模块还用于:
确定所述语音的语音特征;
将所述语音特征输入至所述语音识别模型中,输出所述语音的内容向量;
获取所述语音的实际内容向量,根据所述语音的内容向量与所述语音的实际内容向量之间的距离,对所述语音识别模型的模型参数进行调整。
9.如权利要求6所述的装置,其特征在于,所述声音检测模型还输出所述异常声音所属的异常类别,所述检测模块还用于:
对产生所述异常声音的异常事件进行视频录制并存储;和/或,
执行与所述异常声音所属的异常类别对应的异常报警操作;和/或,
当所述异常声音所属的异常类别符合参考安抚条件时,执行对应的安抚操作。
10.如权利要求6所述的装置,其特征在于,所述控制模块还用于:
确定所述音频的音频特征;
将所述音频特征输入至所述声音检测模型中,输出所述音频的类别向量;
获取所述音频的实际类别向量,根据所述音频的类别向量与所述音频的实际类别向量之间的距离,对所述声音检测模型的模型参数进行调整。
11.一种机器人,其特征在于,所述机器人包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为实现权利要求1-5所述的任一项方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-5所述的任一项方法的步骤。
CN201910625626.4A 2019-07-11 2019-07-11 一种机器人控制方法、装置、机器人及存储介质 Active CN112207811B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910625626.4A CN112207811B (zh) 2019-07-11 2019-07-11 一种机器人控制方法、装置、机器人及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910625626.4A CN112207811B (zh) 2019-07-11 2019-07-11 一种机器人控制方法、装置、机器人及存储介质

Publications (2)

Publication Number Publication Date
CN112207811A true CN112207811A (zh) 2021-01-12
CN112207811B CN112207811B (zh) 2022-05-17

Family

ID=74048198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910625626.4A Active CN112207811B (zh) 2019-07-11 2019-07-11 一种机器人控制方法、装置、机器人及存储介质

Country Status (1)

Country Link
CN (1) CN112207811B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113059573A (zh) * 2021-03-16 2021-07-02 读书郎教育科技有限公司 一种陪伴儿童自主进食的语音交互机器人及方法
CN114246526A (zh) * 2021-12-31 2022-03-29 思必驰科技股份有限公司 扫地机器人控制方法、电子设备和存储介质
CN115225917A (zh) * 2021-04-15 2022-10-21 北京字节跳动网络技术有限公司 一种录音推流方法、装置、设备及介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008033532A (ja) * 2006-07-27 2008-02-14 Denso Corp 可動部を備えた設備の異常を検出する方法及び異常検出装置
CN102322943A (zh) * 2011-06-13 2012-01-18 河北省电力公司超高压输变电分公司 用于电力设备的声音异常检测系统及检测方法
US20130232717A1 (en) * 2012-03-09 2013-09-12 Lg Electronics Inc. Robot cleaner and method for controlling the same
CN103677198A (zh) * 2012-09-03 2014-03-26 联想(北京)有限公司 一种电子设备控制方法及电子设备
CN104503691A (zh) * 2014-11-27 2015-04-08 小米科技有限责任公司 设备控制方法及装置
CN105046875A (zh) * 2015-07-21 2015-11-11 深圳市前海安测信息技术有限公司 婴幼儿监护系统及方法
WO2016041190A1 (zh) * 2014-09-19 2016-03-24 华为技术有限公司 一种运行应用程序的方法及装置
CN105556582A (zh) * 2013-07-18 2016-05-04 谷歌公司 用于多标准警报的系统和方法
CN105881548A (zh) * 2016-04-29 2016-08-24 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
CN106230959A (zh) * 2016-08-09 2016-12-14 西安科技大学 一种智能婴儿监护系统
CN106600920A (zh) * 2016-12-27 2017-04-26 深圳市文立科技有限公司 户外安全警报装置及监控系统
CN107360327A (zh) * 2017-07-19 2017-11-17 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
US20180357414A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Cognitive learning to counter security threats for kinematic actions in robots
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008033532A (ja) * 2006-07-27 2008-02-14 Denso Corp 可動部を備えた設備の異常を検出する方法及び異常検出装置
CN102322943A (zh) * 2011-06-13 2012-01-18 河北省电力公司超高压输变电分公司 用于电力设备的声音异常检测系统及检测方法
US20130232717A1 (en) * 2012-03-09 2013-09-12 Lg Electronics Inc. Robot cleaner and method for controlling the same
CN103677198A (zh) * 2012-09-03 2014-03-26 联想(北京)有限公司 一种电子设备控制方法及电子设备
CN105556582A (zh) * 2013-07-18 2016-05-04 谷歌公司 用于多标准警报的系统和方法
WO2016041190A1 (zh) * 2014-09-19 2016-03-24 华为技术有限公司 一种运行应用程序的方法及装置
CN104503691A (zh) * 2014-11-27 2015-04-08 小米科技有限责任公司 设备控制方法及装置
CN105046875A (zh) * 2015-07-21 2015-11-11 深圳市前海安测信息技术有限公司 婴幼儿监护系统及方法
CN105881548A (zh) * 2016-04-29 2016-08-24 北京快乐智慧科技有限责任公司 唤醒智能交互机器人的方法及智能交互机器人
CN106230959A (zh) * 2016-08-09 2016-12-14 西安科技大学 一种智能婴儿监护系统
CN106600920A (zh) * 2016-12-27 2017-04-26 深圳市文立科技有限公司 户外安全警报装置及监控系统
US20180357414A1 (en) * 2017-06-07 2018-12-13 International Business Machines Corporation Cognitive learning to counter security threats for kinematic actions in robots
CN107360327A (zh) * 2017-07-19 2017-11-17 腾讯科技(深圳)有限公司 语音识别方法、装置和存储介质
CN109036428A (zh) * 2018-10-31 2018-12-18 广东小天才科技有限公司 一种语音唤醒设备、方法及计算机可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113059573A (zh) * 2021-03-16 2021-07-02 读书郎教育科技有限公司 一种陪伴儿童自主进食的语音交互机器人及方法
CN115225917A (zh) * 2021-04-15 2022-10-21 北京字节跳动网络技术有限公司 一种录音推流方法、装置、设备及介质
CN114246526A (zh) * 2021-12-31 2022-03-29 思必驰科技股份有限公司 扫地机器人控制方法、电子设备和存储介质

Also Published As

Publication number Publication date
CN112207811B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN112207811B (zh) 一种机器人控制方法、装置、机器人及存储介质
CN105009204B (zh) 语音识别功率管理
CN110060685B (zh) 语音唤醒方法和装置
CN109243431A (zh) 一种处理方法、控制方法、识别方法及其装置和电子设备
CN105575395A (zh) 语音唤醒方法及装置、终端及其处理方法
CN110570873B (zh) 声纹唤醒方法、装置、计算机设备以及存储介质
WO2018188587A1 (zh) 一种语音响应方法、装置及智能设备
WO2020244257A1 (zh) 语音唤醒方法、系统、电子设备及计算机可读存储介质
CN104700832A (zh) 语音关键字检测系统及方法
CN108198553B (zh) 语音交互方法、装置、设备和计算机可读存储介质
CN111105796A (zh) 无线耳机控制装置及控制方法、语音控制设置方法和系统
CN103077721A (zh) 移动终端的语音备忘方法及移动终端
CN111161714A (zh) 一种语音信息处理方法、电子设备及存储介质
CN110968353A (zh) 中央处理器的唤醒方法、装置、语音处理器以及用户设备
KR20200045851A (ko) 음성 인식 서비스를 제공하는 전자 장치 및 시스템
CN111370004A (zh) 人机交互方法、语音处理方法及设备
CN112669837B (zh) 智能终端的唤醒方法、装置及电子设备
CN113160815B (zh) 语音唤醒的智能控制方法、装置、设备及存储介质
US20200286475A1 (en) Two-person Automatic Speech Recognition Training To Interpret Unknown Voice Inputs
WO2021169711A1 (zh) 指令执行方法、装置、存储介质及电子设备
CN116705033A (zh) 用于无线智能音频设备的片上系统和无线处理方法
WO2022127497A1 (zh) 基于ai的可穿戴设备及其应用数据处理方法
CN109920433A (zh) 嘈杂环境下电子设备的语音唤醒方法
CN115331664A (zh) 语音识别方法和装置、电子设备、计算机可读存储介质
US20200310523A1 (en) User Request Detection and Execution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant