CN113011447A

CN113011447A - 一种机器人自主学习的方法、装置及机器人

Info

Publication number: CN113011447A
Application number: CN201911325203.7A
Authority: CN
Inventors: 郑思远; 谭文军; 高倩; 邵长东
Original assignee: Ecovacs Robotics Suzhou Co Ltd
Current assignee: Ecovacs Robotics Suzhou Co Ltd; Ecovacs Commercial Robotics Co Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-06-22

Abstract

本申请公开了一种机器人自适应学习的方法，包括：接收感知设备采集到的场景信息，代入当前分类模型，获得用户身份及用户行为识别结果，判断是否与当前用户发生互动；若判断是否与当前用户发生互动的判断结果为是，根据预置的识别结果与互动方式的对应关系，选择互动方式并执行；根据感知设备采集到的当前用户对于互动方式的反馈信息，判断互动方式是否适当；若判断互动方式是否适当的判断结果为是，将感知设备采集到的用户信息与用户身份及用户行为识别结果作为正样本；若判断互动方式是否适当的判断结果为否，将感知设备采集到的用户信息与用户身份及用户行为识别结果作为负样本；将正样本或者负样本加入训练样本集，用于对当前分类模型的训练。

Description

一种机器人自主学习的方法、装置及机器人

技术领域

本申请涉及智能机器人技术领域，具体涉及一种机器人自主学习的方法。本申请同时涉及一种机器人自主学习的装置，本申请还涉及一种机器人。

背景技术

随着人工智能的发展，现如今，智能机器人被应用于各个领域。现有的机器人往往都是根据设计之初的模型框架，根据使用者的指令做出相应的互动。为了使智能机器人在使用过程中与用户更加具有亲和力，更新智能机器人采用的原有的分类模型是必不可少的。本领域技术人员实现分类模型的更新，往往需要统计大量的用户使用数据以及场景数据，并将这些数据进行分类筛选后通过深度的学习框架进行数据训练，以此实现分类模型的更新。

发明内容

本申请提供一种机器人自适应学习的方法。本申请同时提供一种机器人自适应学习的装置以及一种机器人。

本申请提供了一种机器人自适应学习的方法，包括：

接收感知设备采集的场景信息，代入当前分类模型，获得用户身份及用户行为识别结果；

根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动；

若上述判断是否与当前用户发生互动的判断结果为是，根据预置的识别结果与互动方式的对应关系，选择互动方式并执行；

根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当；

若上述判断所述互动方式是否适当的判断结果为是，则将所述感知设备采集到的用户信息与用户身份及用户行为识别结果作为正样本；

若上述判断所述互动方式是否适当的判断结果为否，则将所述感知设备采集到的用户信息与用户身份及用户行为识别结果作为负样本；

将所述正样本或者负样本加入训练样本集，用于对所述当前分类模型的训练。

优选的，所述感知设备包括：图像传感器、声音传感器、触摸传感器。

优选的，所述当前分类模型是根据用户及用户行为识别结果预先训练得到的。

优选的，所述根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动，包括：

根据所述感知设备采集到的当前用户的声音信息、人脸图像、当前用户与机器人之间的距离、当前用户肢体动作，判断当前用户的置信度是否大于预设的阈值；

当所述当前用户的置信度大于预设的阈值时，与所述当前用户发生互动。

优选的，所述互动方式包括以下方式中的至少一种：语音互动、用户图形界面互动、肢体互动。

优选的，所述根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当，包括：判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当。

优选的，所述判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当，包括：

判断所述当前用户是否对语音互动信息做出正向回应，从而判断所述互动方式是否适当；

若所述当前用户对语音互动信息做出正向回应，认为所述互动方式是适当的；

若所述当前用户对语音互动信息未做出回应或者未做出正向回应，认为所述互动方式是不适当的。

判断所述当前用户是否根据语音提示信息或者文字提示信息，对当前显示的用户图形界面进行操作，从而判断所述互动方式是否适当；

若所述当前用户根据语音提示信息或者文字提示信息，对当前显示的用户图形界面进行操作，认为所述互动方式是适当的；

若所述当前用户未对当前用户图形界面进行操作，或者是退出了当前用户图形界面，认为所述互动方式是不适当的。

优选的，所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息包括：声音信息、用户图形界面的操作信息、当前用户的位置信息、当前用户的人脸信息。

优选的，所述将所述正样本或者负样本加入训练样本集，用于对所述当前分类模型的训练，包括：

当所述正样本或者负样本的数量到达预设数量时，将预设数量的正样本或者负样本加入训练样本集，对所述当前分类模型进行训练，并更新所述当前分类模型。

当所述识别结果为正样本或者负样本时，将所述正样本或者负样本加入训练样本集，对所述当前分类模型进行训练，实时更新所述当前分类模型。

此外，本申请还提供一种机器人自适应学习的装置，包括：

操作行为采集单元，用于采集场景信息，获取用户身份及用户行为识别结果，采集当前用户的反馈信息；

互动行为判断单元，用于根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动；

操作行为判断单元，用于根据所述当前用户对于互动方式的反馈信息，判断所述互动方式是否适当；

数据信息标记单元，用于根据所述操作行为判断单元的判断结果，将所述用户信息与用户身份及用户行为识别结果作为正样本或负样本；

分类模型训练单元，用于根据所述正样本或者负样本对所述当前分类模型的训练。

另外，本申请还涉及一种机器人，所述机器人采用机器人自使用学习装置，所述自适应学习装置包括：

操作行为采集单元，用于采集场景信息，根据当前分类模型，获取用户身份及用户行为识别结果，采集当前用户的反馈信息。

互动行为判断单元，用于根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动。

互动方式选择单元，用于根据预置的识别结果与互动方式的对应关系，选择互动方式并执行。

操作行为判断单元，用于根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当。

与现有技术相比，本申请具有以下优点：

本申请通过预设当前分类模型，利用机器人自身设置的感知设备进行多方面的数据采集，获得用户身份及用户行为识别结果，与所述当前用户发生互动；在互动的同时，感知设备会继续采集当前用户做出的回应，由此得知机器人获得的用户身份及用户行为识别结果是否正确，通过上述方式，获得了一次互动过程中所获得的数据以及识别结果、识别结果是否准确等三方面数据组成的一组数据，这组数据可以作为分类模型训练的积累数据。本申请提供的方法中，通过机器人自主的对每个识别都进行了定义，即，通过判断互动方式是否适当，推导出对用户信息与用户身份的判断结果是否正确，从而将这组数据划分为正样本和负样本，通过不断的运用分类模型，就可以不断积累样本数据，为分类模型的不断改进提供数据基础。

附图说明

图1是本申请第一实施例提供的一种机器人自适应学习的方法的流程图；

图2是本申请第二实施例提供的一种机器人自适应学习装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是，本申请能够以很多不同于此描述的其他方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此，本申请不受下面公开的具体实施例的限制。

本申请第一实施例提供的一种机器人自适应学习的方法，该方法为后续的机器人自适应学习的装置以及机器人提供了基础。需要说明的是，在下述实施例中多以公共服务机器人为例对本方法进行了详细介绍，但本方法的适用范围不仅仅局限于公共服务机器人，还包括自移动售货机器人、清洁机器人等等。请参看图1，该图为本申请第一实施例的流程图。

本申请第一实施例所述的机器人自适应学习的方法，包括：

S101，接收感知设备采集的场景信息，代入当前分类模型，获得用户身份及用户行为识别结果。

本步骤是通过采用当前分类模型，对当前场景下的用户身份以及用户行为进行识别，从而为后续如何交互提供依据。所述感知设备采集场景信息，是本实施例机器人处于特定场景内，通过其内部设置的感知设备实时获得周围的场景信息。

所述感知设备是指能够获得周围环境信息的敏感设备；根据需要采集的不同信息类型，可以使用不同类型的感知设备，例如，采集视频信息的摄像头等设备，采集音频信息的声音传感器，采集障碍物距离信息的激光感知设备等等。

所述场景信息是指在当前机器人放置的地点，由建筑、人物、人物活动所组成的画面，比如，所述场景信息可以是医院、商场、银行、饭店等等。另外，场景信息可以是人为设定的，也可以是由机器人自身感知设备实时采集周围环境信息获得。

所述分类模型指的是根据数据的特点把未知类别的样本映射到给定类别中的某一个，分类模型的构造过程通常由机器学习过程实现，为了提升分类的正确性，分类模型的构造可以有多种形式，例如：在决策树的基础上添加随机森林分类器，即：由多个决策树组成的分类器，当待分类样本进入随机森林时，其实就是让每一颗决策树进行分类，最后选取被所有决策树选择次数最多的类别作为最终的分类结果。

本申请中所述感知设备采集的场景信息就是用于输入所述分类模型的待分类样本，所述用户身份及用户行为识别结果就是所述分类模型输出的分类结果。

所述当前分类模型是通过预先搜集的数据样本进行训练，获得初始的分类模型，需要说明的是，随着时间的推移和分类模型的更新，无论是哪个时间点的分类模型在当前的时间点下都可以被称为当前分类模型。

所述用户身份的识别结果可以有多种识别方式。比如，所述感知设备通过获得了当前用户的人脸图像，服务器随即会对所述人脸图像进行身份分析，根据分析结果判断所述人脸图像的所有者的年龄、性别等信息。或者是所述感知设备获取人脸图像，根据服务器中的人脸识别算法以及人脸数据库分析得知，该用户为该商场(饭店)的会员，服务器随即会从数据库中调用该用户的办理会员时的全部信息，以及常用的服务项目。

所述用户行为识别结果指的是，感知设备采集到的用户行为信息基于当前分类模型计算得到的对用户当前行为类型的识别结果。比如，采集障碍物距离信息的激光感知设备采集到当前用户距离机器人的距离超过10米，那么机器人基于当前分类模型对所述当前用户的行为的识别结果就为当前用户行为为暂时不需要互动的行为类型；再如，机器人内置摄像头拍摄到当前用户就站在机器人面前，那么机器人基于当前分类模型对所述当前用户的行为识别结果就为为需要互动的行为类型。

本步骤通过感知设备为所述机器人提供当前环境下的场景信息，以及用户的人脸信息、声音信息、对机器人的触摸信息等。为了实现这一目的，本申请第一实施例中所述感知设备应该至少包含图像传感器、声音传感器、触摸传感器中的一种。当然，所述感知设备并不仅仅局限于上述传感器，还可以使用其他类型的感知设备；具体采用的感知设备类型可以包括多种。该步骤的本意是通过感知设备令机器人能够“感知”周围的环境，“了解”用户的信息，因此，凡是能够赋予机器人这一功能的感知设备，或者其他能够令机器人具备这一功能的设备均可采用，这些属于对本方法的简单变换，不偏离本申请的核心，都在本申请的保护范围之内。

S102，根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动。

本步骤是通过对当前场景下用户身份及用户行为识别结果做出分析，从而决定是否为客户提供服务的过程，也为当前用户发出反馈信息提供了可能。

所述互动指的是由机器人发起的与用户之间的“交流”。

所述判断是否与当前用户发生互动，指的是判断是否与当前用户产生“交流”，为了让人工智能更好的融入本申请第一实施例提供的机器人自适应学习的方法，机器人要根据所述用户身份信息及用户行为识别结果，判断当前用户是否需要所述机器人的帮助，即，判断用户是否希望与所述机器人产生“对话”，以及希望进行何种主题的“对话”。在本步骤中，将用户身份与用户行为的识别结果相结合，是为了根据两方面的信息对是否互动以及进行何种主题的互动进行精准判断；用户身份有助于帮助对“对话”主题进行有效筛选，通过对当前的用户行为的识别，则能够获得用户当前的状态从而选择其可能关心的“对话”主题。

因此，这一判断过程总的来说就是根据所述感知设备采集到的当前用户的声音信息、人脸图像、当前用户与机器人之间的距离、当前用户肢体动作等信息，判断当前用户需要互动的置信度是否大于预设的阈值的过程。

所述置信度，也称为可靠度或者是置信水平、置信系数。在对当前用户的行为做出判断时，由于感知设备采集到的当前用户的信息是随机的，机器人得到的结果是不确定的，因此需要有一个衡量标准帮助机器人确定是否需要为当前用户进行互动，或者是说是否需要为当前用户提供帮助。

互动的过程是必要的，也是本申请所述的机器人自适应学习的方法实现的一个重要的条件。

S103，若上述判断是否与当前用户发生互动的判断结果为是，根据预置的识别结果与互动方式的对应关系，选择互动方式并执行。

所述预设的识别结果指的是所述用户身份及用户行为识别结果。

所述预设的识别结果与互动方式的对应关系指的是每一个预设的识别结果也就是用户身份及用户行为识别结果都会有一个或者若干个可选择的与之相应的互动方式，比如，若机器人识别到用户A，且用户A咨询过某理财产品，机器人会选用语音或者是语音与用户图形界面相结合的方式与用户A产生互动，即，机器人向用户A发出“A先生/女士您好，您关注过的理财产品最近回报率很高，是否需要了解一下”的提问，与此同时，用户图形界面还会跳转到与所述理财产品相关的界面。

当然，上述互动方式的产生的前提是机器人采集到的包含用户A的场景信息的置信度大于预设的阈值。

通过上述描述可知所述互动的方式可以有很多种，例如：语音互动、用户图形界面互动、肢体互动。但这些互动方式并不是独立存在的，在其他实施方式中可以采用更多、更复杂互动方式。且这些互动方式可以是单独的一种，也可以是多各互动交叉进行。这些属于对步骤的简单变换，不偏离本申请的核心，都在本申请的保护范围之内。

S104，根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当。

本步骤是使用感知设备采集当前用户对于机器人发出的互动的反应作为反馈信息，从而确定基于所述当前分类模型获得的用户身份及用户行为识别结果是否正确。为分类模型的更新提供了必要的依据。

所述反馈信息指的是感知设备采集到的当前用户对于机器人发出的互动方式做出的反应，是能够直接体现根据感知设备采集的场景信息所获得的所述用户身份及用户行为识别结果是否正确的信息。

此外，适当的标准是相对的，因此在本步骤之前需要对每一种互动方式预计一些可能的反馈信息。如果这些预计到的反馈信息对于所述互动方式来说是正向的，那么将实际的反馈信息与预计的反馈信息结果对比，就达到了判断是否适当的目的。需要说明的是，预计到的反馈信息相对于所述互动方式来说也可以是反向的，这属于对本方法的简单变换，不偏离本申请的核心，也在本申请的保护范围之内。

感知设备是无时无刻都在工作的，向当前用户发出互动之后，感知设备要将用户对于互动所做出的反应及时反馈回机器人，判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当，进而判断基于当前分类模型，根据感知设备采集的场景信息，获得的所述用户身份及用户行为识别结果是否正确。

这里将与预计的反馈结果相同的反馈信息称为正向回应，也就是说通过判断所述当前用户是否对语音互动信息做出正向回应，从而判断所述互动方式是否适当；

若所述当前用户对语音互动信息做出正向回应，认为所述互动方式是适当的；若所述当前用户对语音互动信息未做出回应或者未做出正向回应，认为所述互动方式是不适当的。

例如，如果机器人发出的互动为“请问您是否需要帮助”的语音，机器人接受到的反馈信息为“是的”或者是“需要帮助”这类的语音信息，则判定为当前用户对语音互动信息做出正向回应，所述互动方式是适当的。如果机器人接受到的反馈信息为“不用，谢谢”这类的语音信息，或者是接收到当前用户人体已经离开的反馈信息，则认为当前用户未对所述语音互动信息做出正向回应，所述互动方式是不适当的。

再例如，如果机器人发出的互动信息为“A先生/女士您好，您关注过的理财产品最近回报率很高，是否需要了解一下”以及相应的理财产品的用户图形界面。机器人接受到的反馈信息为“好的”这一类的语音信息，或者是所述当前用户根据用户图形界面上的提示信息对所述当前理财产品的用户图形界面进行了相应的操作，则判定为当前用户对互动信息做出正向回应，所述互动方式是适当的。

令机器人具备判断自己发出的互动信息是否是适当的这一能力是本申请第一实施例的所提出的机器人自适应学习的方法的关键，但更重要的是如何针对这些实时判断的互动信息，令机器人具备自适应学习的能力。

S105-1，若上述判断所述互动方式是否适当的判断结果为是，则将所述感知设备采集到的用户信息与用户身份及用户行为识别结果作为正样本。

S105-2，若上述判断所述互动方式是否适当的判断结果为否，则将所述感知设备采集到的用户信息与用户身份及用户行为识别结果作为负样本。

若所述判断所述互动方式是否适当的判断结果为是，那么基于当前分类模型，根据感知设备采集到的场景信息获得的所述用户身份及用户行为识别结果就是准确的，此时将所述用户身份及用户行为识别结果标注为正样本。

若所述判断所述互动方式是否适当的判断结果为否，那么基于当前分类模型，根据感知设备采集到的场景信息获得的所述用户身份及用户行为识别结果就是不准确的，此时将所述用户身份及用户行为识别结果标注为负样本。

这里对每一个判断过得的结果进行标注，即，若判断所述互动方式是否适当的判断结果为是，将用户信息与用户身份及用户行为识别结果标注为正样本；判断所述互动方式是否适当的判断结果为否，将用户信息与用户身份及用户行为识别结果标注为负样本。这样无论是感知设备采集到的场景信息还是各个用户信息与用户身份及用户行为识别结果都会存在机器人的记忆中。

S106，将所述正样本或者负样本加入训练样本集，用于对所述当前分类模型的训练。

所述训练样本指的是由待分类样本和分类结果两者组成的数据集合，每个样本都有类似如下的表现形式：(X1，X2：C)，在本申请中X1表示感知设备采集的场景信息，X2表示用户身份及用户行为识别结果，C表示的是根据所述感知设备采集到的场景信息得到的用户身份及用户行为识别结果是否正确的判断结果，若所述判断结果正确，则令C＝1，表示该样本为正样本，若所述判断结果错误，则令C＝0，表示该样本为负样本。

通常我们把这些错误的样本数占样本总数的比例称为“错误率”，即如果在m个样本中有a个负样本，则错误率E＝a/m；相应的，1-a/m称为“精度”，即精度＝1-错误率。对所述当前分类模型的训练的意义就在于提高“精度”，让基于分类模型得到的识别结果更加准确。

所述训练样本集指的是用于挖掘所述当前分类模型构架的由正样本和负样本组成的数据集合。

在已经具备各个样本的情况下，为了实现机器人的自适应学习，只需在当前分类模型的基础上对这些样本下的所述用户信息与用户身份及用户行为识别结果进行数据训练，并基于训练结果更新所述分类模型。

这里训练的方式可以有多种情况，比如，当所述正样本或者负样本的数量到达预设数量时，再将预设数量的正样本或者负样本加入训练样本集，对所述当前分类模型进行训练，并更新所述当前分类模型。或者是当所述识别结果为正样本或者负样本时，将所述正样本或者负样本加入训练样本集，对所述当前分类模型进行训练，实时更新所述当前分类模型。

两种训练方式有所不同，但相比之下各有优势，前者可以减轻机器人的计算频率，但分类模型更新频率低，且更新时间长。后者数据更新频率高，用时少。因此，所述训练方式可以根据实际情况进行选择。

为了使读者更容易理解本申请第一实施例中所述的机器人自主学习的方法，结合具体的使用场景对该方法进行详细介绍：

场景1，将具备自主学习能力的机器人被放置在医院中，用户A曾经在网上进行过挂号操作，如果机器人识别出了用户A，则认为用户A的置信度较高，机器人选择互动方式与用户A进行互动。

机器人基于场景信息以及感知设备采集到的用户A的信息向用户A发出“A先生/小姐您好，请问您是否需要挂号？”的提问，且同时将用户图形界面跳转到用于客户挂号的服务界面。

如果声音感知设备采集到用户A回答“是的”之类表示肯定的语音信息，或者是触摸感知设备采集到用户根据所述用户图形界面上的提示信息一步一步对服务界面进行操作，则认为基于当前分类模型得到的用户A的信息是正确的，此时，机器人将用户A的信息标注为正样本。

如果声音感知设备采集到用户A回答为“不用，谢谢”之类表示否定的语音信息，或是触摸感知设备采集到用户退出了用于客户挂号的服务界面，或是用户A没有根据提示操作服务界面，则认为基于当前分类模型得到的用户A的信息是错误的，此时，机器人将用户A的信息标注为负样本。

当机器人收集到足够多的样本后，将包含所有正样本和负样本的样本数据集进行数据训练，并更新当前分类模型。

场景2，将具备自助学习能力的机器人放置在银行中，用户B多次来到银行办理存款业务，如果机器人识别出了用户B，则认为用户B的置信度较高，机器人选择互动方式与用户B进行互动。

机器人向用户B发出“B先生/女士您好，请问您是否需要办理存款业务？”的提问，且同时将用户图形界面跳转到存款业务的服务界面。

如果声音感知设备采集到用户B回答为“是的”之类表示肯定的语音信息，或者是触摸感知设备采集到用户根据所述用户图形界面上的提示信息一步一步操作服务界面进行存款，则认为基于当前分类模型得到的用户B的信息是正确的，此时机器人将用户B的信息标注为正样本。每标注一个正样本或者是负样本，就将该样本加入样本数据集进行训练更新所述当前分类模型。

场景3，将具备自主学习能力的机器人放置在商场中，如果机器人多次识别到用户C，或者是机器人声音感知设备采集到用户发出“请问卖衣服的地方怎么走？”之类的信息，则认为用户C的置信度较高，机器人选择互动方式与用户C进行互动。

机器人向用户C发出“请问您需要该商场的地图吗？”之类的语音信息或者是用户图形界面自动跳转到选择服务的界面。

如果声音感知设备采集到用户C回答为“是的”之类表示肯定的语音信息且根据提示信息打开了商场地图，则认为基于当前分类模型得到的用户C的信息是正确的，此时机器人将用户C的信息标注为正样本。

如果声音感知设备采集到用户C回答为“不用，谢谢”之类表示否定的语音信息，或是触摸感知设备采集到用户退出了选择服务界面，或者是距离感知设备采集到用户已经离开，则认为基于当前分类模型得到的用户C的信息是错误的，此时，机器人将用户C的信息标注为负样本。

当机器人收集到足够多的样本后，将包含所有正样本和负样本的样本数据集进行数据训练，并更新当前分类模型。或者是机器人每标注一个正样本或者是负样本，就将该样本加入样本数据集进行训练更新所述当前分类模型。

需要说明的是，利用对正样本以及负样本组成的样本数据集进行训练的过程中，样本数据集的大小可以根据实际情况自由设定，根据实际情况改变样本数据集的大小属于对本方法简单变换，不偏离本申请的核心。

通过上述对本申请第一实施例的介绍以及对各个使用场景下机器人对本申请第一实施例提出的自适应学习的方法的使用可以看出，本申请通过预设当前分类模型，利用机器人自身设置的感知设备进行多方面的数据采集，获得用户身份及用户行为识别结果，与所述当前用户发生互动；在互动的同时，感知设备会继续采集当前用户做出的回应，由此得知机器人获得的用户身份及用户行为识别结果是否正确，通过上述方式，获得了一次互动过程中所获得的数据以及识别结果、识别结果是否准确等三方面数据组成的一组数据，这组数据可以作为分类模型训练的积累数据。本申请提供的方法中，通过机器人自主的对每个识别都进行了定义，即，通过判断互动方式是否适当，推导出对用户信息与用户身份的判断结果是否正确，从而将这组数据划分为正样本和负样本，通过不断的运用分类模型，就可以不断积累样本数据，为分类模型的不断改进提供数据基础。

在上述的实施例中，提供了一种机器人自适应学习的方法，与之相应的，本申请还提供一种机器人自适应学习的装置。请参看图2，其为本申请第二实施例提供的一种机器人自适应学习装置的结构示意图，由于装置实施例基本相似与方法实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

本实施例的一种机器人自适应学习的装置101，包括：

操作行为采集单元101-1，用于接收感知设备采集的场景信息，根据当前分类模型，获取用户身份及用户行为识别结果，采集当前用户的反馈信息。

其中，所述感知设备包括：图像传感器、声音传感器、触摸传感器；所述当前分类模型是根据用户及用户行为识别结果预先训练得到的。

互动行为判断单元101-2，用于根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动，包括：根据所述感知设备采集到的当前用户的声音信息、人脸图像、当前用户与机器人之间的距离、当前用户肢体动作，判断当前用户的置信度是否大于预设的阈值；

当所述当前用户的置信度大于预设的阈值时，与所述当前用户发生互动。互动方式选择单元101-3，用于根据预置的识别结果与互动方式的对应关系，选择互动方式并执行。

所述互动方式包括以下方式中的至少一种：语音互动、用户图形界面互动、肢体互动。

操作行为判断单元101-4，用于根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当，包括：判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当。

例如，所述互动方式为语音互动时，判断所述当前用户是否对语音互动信息做出正向回应，从而判断所述互动方式是否适当；

所述互动方式为用户图形界面互动时，判断所述当前用户是否根据语音提示信息或者文字提示信息，对当前显示的用户图形界面进行操作，从而判断所述互动方式是否适当；

若所述当前用户未对当前用户图形界面进行操作，或者是退出了当前用户图形界面，认为所述互动方式是不适当的。所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息包括：声音信息、用户图形界面的操作信息、当前用户的位置信息、当前用户的人脸信息。

数据信息标记单元101-5，用于根据所述操作行为判断单元的判断结果，将所述用户信息与用户身份及用户行为识别结果作为正样本或负样本；

分类模型训练单元101-6，用于根据所述正样本或者负样本对所述当前分类模型的训练。

所述训练方式可以由多种形式，例如：

优选的，所述用于根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动包括：

其中，所述互动方式包括以下方式中的至少一种：语音互动、用户图形界面互动、肢体互动。

优选的，所述根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当，是通过判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同实现的，包括：

优选的，判断所述当前用户是否根据语音提示信息或者文字提示信息，对当前显示的用户图形界面进行操作，从而判断所述互动方式是否适当；

所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息包括：声音信息、用户图形界面的操作信息、当前用户的位置信息、当前用户的人脸信息。

所述用于根据所述正样本或者负样本对所述当前分类模型的训练，包括：

此外，本申请第三实施例还提供一种机器人，所述机器人采用机器人自适应学习装置，由于机器人实施例基本相似与装置实施例，所以描述得比较简单，相关之处参见系统实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

一种机器人，所述机器人采用机器人自适应学习装置，所述自适应学习装置包括：

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括非暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

2、本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims

1.一种机器人自适应学习的方法，其特征在于，包括：

2.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述感知设备包括：图像传感器、声音传感器、触摸传感器。

3.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述当前分类模型是根据用户及用户行为识别结果预先训练得到的。

4.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述根据所述用户身份及用户行为识别结果，判断是否与当前用户发生互动，包括：

5.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述互动方式包括以下方式中的至少一种：语音互动、用户图形界面互动、肢体互动。

6.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述根据所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息，判断所述互动方式是否适当，包括：判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当。

7.根据权利要求6所述的机器人自适应学习的方法，其特征在于，所述判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当，包括：

8.根据权利要求6所述的机器人自适应学习的方法，其特征在于，所述判断所述当前用户对于所述互动方式的反馈信息是否与预计的反馈结果相同，从而判断所述互动方式是否适当，包括：

9.根据权利要求6所述的机器人自适应学习的方法，其特征在于，所述感知设备采集到的所述当前用户对于所述互动方式的反馈信息包括：声音信息、用户图形界面的操作信息、当前用户的位置信息、当前用户的人脸信息。

10.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述将所述正样本或者负样本加入训练样本集，用于对所述当前分类模型的训练，包括：

11.根据权利要求1所述的机器人自适应学习的方法，其特征在于，所述将所述正样本或者负样本加入训练样本集，用于对所述当前分类模型的训练，包括：

12.一种机器人自适应学习的装置，其特征在于，包括：

操作行为采集单元，用于接收感知设备采集的场景信息，根据当前分类模型，获取用户身份及用户行为识别结果，采集当前用户的反馈信息。

13.一种机器人，其特征在于，所述机器人采用机器人自适应学习装置，所述自适应学习装置包括：