CN109986553A

CN109986553A - 一种主动交互的机器人、系统、方法及存储装置

Info

Publication number: CN109986553A
Application number: CN201711498760.XA
Authority: CN
Inventors: 熊友军; 王征添; 王先基
Original assignee: Ubtech Robotics Corp
Current assignee: Beijing Youbixuan Intelligent Robot Co ltd; Shenzhen Ubtech Technology Co ltd
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2019-07-09
Anticipated expiration: 2037-12-29
Also published as: CN109986553B

Abstract

本申请公开了一种机器人主动交互的方法，该方法包括：在预设的条件下获取图像；对图像进行预设检测分析，以得到分析结果；根据分析结果的优先级别进行权重分析以得出交互内容；将交互内容输出。以上技术方案通过对预设条件下获取到的图像进行预设检测分析，并将所得的分析结果根据优先级别进行权重分析得出交互内容，并交互内容输出用以与人进行交互，可以较好的实现与人主动交互。本申请还提供一种机器人主动交互的系统，包括：图像获取单元、视觉语义分析单元和决策输出单元。本申请还提供一种机器人及具有存储功能的装置。

Description

一种主动交互的机器人、系统、方法及存储装置

技术领域

本申请涉及机器人领域，特别是涉及一种主动交互的机器人、系统、方法及存储装置。

背景技术

目前机器人交互虽然已经具备一定智能水平，但基本上都是被动回答用户的提问，只能进行单向交互，交互体验相对较差。

发明内容

本申请主要解决的技术问题是，提供一种主动交互的机器人、系统、方法及存储装置，能够解决机器人主动交互的问题。

为解决上述技术问题，本申请采用的技术方案是：提供一种机器人主动交互的方法，该方法包括以下步骤：

在预设的条件下获取图像；

对所述图像进行预设检测分析，以得到分析结果；

根据所述分析结果的优先级别进行权重分析以得出交互内容；

将所述交互内容输出。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种机器人主动交互的系统，该系统包括：

图像获取单元，用于在满足预设条件时，启动拍摄预设数量的照片，以捕获机器人周围环境；

视觉语义分析单元，用于对所述预设数量的照片进一步进行预设的图像检测分析，以得到分析结果；

决策输出单元，用于对所述分析结果内容进一步设定优先级别，并输出交互内容。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种机器人，该机器人包括：主体；安装于所述主体上端预设位置处的摄像头，所述摄像头用于获取图像；处理器，以及分别与所述处理器连接的存储器和扬声器；所述存储器和所述扬声器用于辅助所述处理器用于完成如上所述的机器人主动交互的方法。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种具有存储功能的装置，存储有程序数据，所述程序数据被执行时实现以上所述的方法。

以上技术方案的有益效果是：区别于现有技术的情况，本申请通过在预设条件情况获取图像，对所获取的到的图像进行预设检测分析，通过预设的检测分析得到分析结果，并将分析结果关联预设的数据库，并根据分析结果的优先级别进行权重分析得到交互内容，最终将交互内容输出，用于与人交互，实现了与人主动交互。

附图说明

图1是本申请机器人主动交互的方法一实施方式的流程示意图；

图2是本申请机器人主动交互的方法另一实施方式的流程示意图；

图3是本申请机器人主动交互的系统一实施方式的结构示意图；

图4是本申请一种机器人一实施方式的结构示意图；

图5是本申请一种具有存储功能的装置一实施方式的结构示意图。

具体实施方式

在下文中，将参照附图来描述本申请的示例性实施例。为了清楚和简要的目的，不详细描述公知的功能和构造，这是因为所述公知的功能和构造会使本申请在不必要的细节上变模糊。考虑到本申请中的功能而限定的下面描述的术语可以根据用户和操作者的意图或实施而不同。因此，应该在整个说明书的公开的基础上来限定所述术语。

请参阅图1，为本申请一种机器人主动交互的方法一实施例方式的流程示意图。需注意的是，若有实质上相同的结果，本申请的方法并不以图1所示的流程顺序为限，下述其他流程示意图同样不以图示的流程顺序为限。如图1所示，该方法包括步骤S10至步骤S40，其中，

S10：在预设的条件下获取图像。

步骤S10是当检测到外界满足预设条件时，会触发启动摄像装置进行获取图像，获取图像的角度根据摄像装置可拍摄的角度和系统的初始设定而定。

进一步的，步骤S10为：当传感设备感应到人体红外线和/或声音时，启动摄像头进行获取图像。其中，步骤S10中的预设条件是检测到预存的属于人声频率或是音色，或者是人体红外线。进行拍摄的角度是根据所检测到的人声强度最强的方向，或者是人体红外强度最大的方向进行获取图像。可以理解的，当检测到预存的属于人声的声音频率或音色时，对所检测的声音进行强度测定，用以指导拍摄装置获取图像的方向。同样的，当检测到人体红外线时，对所检测到的人体红外线进行测定，测定人体红外的强度，用以指导拍摄装置的获取图像方向。

在一实施例中，设定的初始条件是：检测到预设的人声频率或者是音色时，所以此时检测到预设的人声频率或者是音色时，则会进行获取图像。

在另一实施例中，设定初始条件时：在检测到预设的人声频率或音色时，且同时检测到有人体红外线时，判定此时有人靠近，则会触发启动摄像装置，进行获取图像。

在又一实施例中，可以在设定初始条件的同时，根据历史经验值进行进一步的限定。即根据历史经验值可知，每天晚上的22时至第二天的6时为人们在休息的时间，则设定在此时间段内不会进行触发启动摄像装置，此时传感设备和摄像装置为休眠时间。

进一步的，当所检测到的人声强度或者是人体红外强度小于所设定的值时，此时判定不符合拍摄的预设条件，只有当所检测到的人声强度或者是人体红外强度大于等于预设阈值时，方判定符合拍摄条件，进一步启动拍摄装置进行获取图像。其中，预设的比对阈值根据机器人的工作环境和需要进行设定调整，在此不做限定。

在一实施例中，当传感设备检测到人体红外，但是此时的人体红外强度小于所设定的阈值，则判定此时不符合预设条件。当检测到的人体红外强度，但是人体红外强度小于所设定的阈值时，此时可以判定有人通过机器人的附近，但是距离靠的较远，不符合主动交互的条件。可以理解的，当人距离机器人的距离较远时，机器人可以在人主动打招呼或者是询问时，进一步给出应答。

在另一实施例中，设定的预设条件是检测到大于等于预设阈值的人体红外和/或检测到大于等于预设声强(声音的强度或者是大小)人声音。可以理解的是，当人体红外强度或者是人声强度中的至少一个大于等于其对应的比对阈值时，则判定符合预设条件，此时会进一步启动拍摄装置以获取图像。

在又一实施例中，当所检测到人体红外强度过高时，超出所设定的人体正常体温的红外线强度，此时当前即将拍摄的人体温异常，则会进一步保存这一信息，用作生成语音消息阶段进行调用，用以提醒交互对象体温存在异常的可能。

其中，在一实施例中，获取图像可以是以预览的模式获取图像，即获取的图像速度较快，但会适当的降低图像的分辨率。在另一实施例中，获取图像还可以是以拍照的方式获取图像，获取的速度较慢，但是清晰度较好。在其他的实施例中，获取图像还可以是以获取视频的方式，获取图像的清晰度较好，但是占用内存角度。需要说明的，获取图像的具体模式在此不做限定。

可以理解的，在一实施例中，本申请所提供的技术方案中机器人是应用在一人群较少的地方，可以设定获取图像的模式是拍照，当判定满足预设条件时，启动拍摄装置进行获取图像时，由于人是动态的，所以所拍摄的图片数量可以预先设定为多张抓拍，也可以是多角度拍摄。

在另一实施例中，当拍摄的图片数量为多张时，将拍摄的清晰度较差(无法识特征信息的图像)的图片删除，只保存清晰度较好的图片。其中，所拍摄的图片数量在此不做限定，对抓拍的时间间隔也不做任何限定。

在又一实施例中，当所拍摄的图片数量较少时，如只拍摄了2张图片时，对于其中清晰度较差的图片会进行进一步的处理后，调整清晰度后，再做检测分析。具体的，清晰度较差的图片是删除或者是进一步处理，依据预先的设定执行，在此不作限定。

当设定是以预览的方式获取图像，即快速获取大量的分辨率略低的图像时，则会设定摄像装置或者是机器人主体，根据传感设备测得的人体红外强度或者是人声方向转动，以获取包含更多有效的图像。

其中，拍摄装置在工作的过程中，自动检测拍摄装置自身的温度，当检测到拍摄装置自身的温度大于等于预设阈值时，会自动关闭拍摄装置，停止拍摄。拍摄装置定时检测自身的温度是以此保护拍摄装置，避免因其温度过高造成零部件异常，避免拍摄装置的损坏。其中预设的温度阈值根据拍摄装置的不同，以及工作环境的不同，所设定的温度阈值会进行调整设定，具体在此不做限定。

S20：对图像进行预设检测分析，以得到分析结果。

当步骤S10在满足预设的条件下获取到图像后，进一步对摄像装置所获取到的图像进行人像检测，当检测到人像时，对所获取到的图像进行预设的检测分析，以得到分析结果。其中，检测分析的内容包括：人脸检测、人体检测、物体检测和场景检测中的一种或多种，具体检测分析的内容依据初始的设定。

请参见图2是本申请一种机器人主动交互的方法一实施方式的流程示意图。需要说明的是本申请的方法并不以图2所示的流程顺序为限。

具体的，请参见图2，步骤S20进一步包括步骤S21至步骤S24中至少一种。需要说明的，步骤S21至步骤S24的顺序是可调整设定的，在此对步骤S21至步骤S24的顺序不做任何限定。其中，

S21：对图像中的人像进行人脸检测，以获取第一分析结果。

当拍摄装置所获取的图像中有人像时，对人像进行人脸检测，以获取第一分析结果。第一分析结果包括：人脸的性别、年龄和人脸的方向中的至少一种。

其中，步骤S21具体可以为：获取人脸特征信息，并将人脸特征信息与第一预设数据库中数据进行比对，以得到图像中人脸的性别年龄和/或人脸的方向。对图像中人脸部分进行检测分析，获取人脸部分的特征信息，并将所获取的人脸特征信息与第一预设数据库中的数据信息进行比较分析，以获取当前图像中人脸的年龄和/或性别，同时还根据人脸特征信息获取人脸的方向。

具体的，人脸的特征信息包括：头骨的棱角、线条，眉弓位置、眼眶的大小、鼻骨下额骨等位置角度信息。可以理解的，所获取的人脸的特征信息还可以包括其他的信息，具体根据对人脸特征分析的需要。

在获取人脸的特征信息之前还包括：获取人像中人脸部分。在本实施例中，优选的，采用多任务卷积神经网络(Muti-task convolutional neural networks，简称MTCNN)算法获取人像中人脸部分。在获取人脸部分的图像后，再进一步获取人脸的特征信息，并将获取的人脸的特征信息与对应的第一预设数据库中所存储的人脸数据进行比对分析，以获取人脸的年龄和/或性别，并保存，用作后续的调用。其中，第一预设数据库为经过MTCNN算法训练后的人脸检测数据集(例如CelebA数据集)和经过八层小网格训练的人脸属性数据集，在本实施例中，人脸属性数据集可以为性别年龄数据集，简称adience数据集。

其中，通过所获取的人脸特征信息，进一步判定人脸的方向，是用以判断当前拍摄到的人是否是符合交互的条件。如当所获取的人脸特征中，人的眼睛所看向的方向不是摄像头的方向(摄像头的方向也可以看做是机器人的方向)，则判定当前所获取到的人是不符合交互的条件的，或者是不具有与人交互的愿望，此时并将所判定的结果进行保存并生成对应指令，用以触停下述的步骤。可以理解的，在一实施例中，当判定所拍摄图像中的人不符合交互条件，但当此人主动询问时，则会进一步与其交互。

其中，在一实施例中，通过将所获取的人脸特征信息与第一预设数据库中的数据信息比对，可以判断出当前人像的情绪，喜怒哀乐等情绪。可以理解的，当需要在人脸分析时获取人的情绪特征时，则相应的先进行训练情绪对应的数据集，在将所获取的人脸特征信息与情绪对应的数据集进行比对，获取到当前图像中人的情绪信息，进一步保存为第一分析结果。

其中，上述的CelebA数据集中是经过MTCNN算法进行训练后得到的数据库。具体的，MTCNN算法针对人脸检测任务设计，采用候选网络P-net/区域网络R-net两层网络对CelebA数据集中的人脸图片进行训练，并将经过训练的CelebA数据集保存，导出为数据交互(protocol buffer，简称PB)文件格式。人脸年龄性别使用八层小网络对收集的人脸图片进行训练。具体的第一层是96个7x7的卷积核，第三层是256个5x5的卷积核，第五层是384个3x3的卷积核，每层后面各接一个最大池化层，最后两层是全连接层。在对adience数据集进行训练时对人脸年龄划分年龄段，依次分为0-2、4-6、8-13、15-20、25-32、38-43以及大于60共八个年龄段。其中，对人脸年龄训练的所采用的数据集是adience数据集。将经过八层小网络训练后的adience数据集导出为PB文件格式，存入机器人本地存储器或者是可以远程调用的远端。

S22：对图像中的人像进行人体检测，以获取第二分析结果。

当在拍摄装置所获取的图像中检测到人像时，对图像中的人体部分进行检测分析，获取人体的特征信息，再将所获取的人体特征信息与对应数据库中信息比对，以此获取第二分析结果。

进一步的，步骤S22具体为：获取人体部分特征信息，并将人体部分特征信息与第二预设数据库中的数据进行比对，以得到图像中人像的姿态。其中，具体的是采用SSD(Single Shot MultiBox Detector)算法在已有网络基础上对自行收集标注的人体姿态数据集进行微调，并根据所获取的人体特征信息与第二预设数据库的比对结果，得到当前图像中人体的姿态。人体的姿态例如为坐姿、站姿和走姿中的至少一种。

其中，人体的姿态估计是使用开源人体姿态估计(openpose)框架，采用自定义的深度网络(shufflenet)训练得到的人体标注数据集，例如微软人体标注MSCOCO数据集，进行训练分析，以得到的第二预设数据库。

S23：对图像中的物体进行检测识别，以获取第三分析结果。

对所拍摄的图像检测识别其中的物体，获取物体的特征信息，并将所获取到的物体的特征信息，与第三数据库中的数据进行比对分析，并将比对分析的结果保存为第三分析结果。

进一步的，步骤S23包括：提取所述图像中的物体，并将所得到的物体与图像数据集中的数据进行比较，以得到第三分析结果。在本实施例中，可通过采用yolo或faster-rcnn神经网络算法提取所述图像中的物体，所述图像数据集可以为VOC数据集。其中，第三分析结果包括：所检测识别到的物体的名称，物体的用途、物体的常见组成部分等。可以理解的，第三分析结果还包括其他的内容，具体在此不一一详述。

在一实施例中，步骤S23经过将当前图像中物体的特征信息与第三数据库中的数据进行比对后，得到当前检测识别到一钢琴，对应的第三分析结果可以是钢琴，对应第三分析结果得到的交互内容主要是围绕钢琴展开，如“这架钢琴是放在这里是做什么用的？你会弹钢琴吗？需要为帮为您播放一些钢琴的演奏名曲吗？”可以理解的，具体的交互内容不以上述所举的例子为限。

S24：对图像中的场景进行检测识别，以获取第四分析结果。

对所获取的图像中的场景进行检测识别，获取图像中场景的特征信息，并将所获取的场景特征信息与第四数据库进行比对，最终得出第四分析结果，并将所得到的第四分析结果保存，用作后续调用。

进一步的，步骤S24具体包括：提取图像中的场景与场景数据库进行比对，以得到对应的场景。即将所获取到的场景的数据，与场景数据库中的场景进行比对，当所获取的场景数据与数据库中的场景数据与数据库中的某一场景匹配值最大时，则判断当前所获取的场景为数据库中所预存的这一场景，在比对完成后，并将比对分析的结果保存。在一实施例中，当前获取所拍摄的照片对应的特征数据，在第四数据库中的数据比对完成，判断当前拍摄的图片是银行柜台前的场景，此时得到第四分析结果，进而对应场景的交互内容是围绕当前判断的场景展开：如“请问您需要什么服务？是否需要提供帮助”等问题，具体的交互内容不以上述举例为限，具体在此不作限定。

其中所述场景数据库通过采用深度网络算法对收集的场景图片进行深度学习训练得到。

需要说明的是，在此对上述步骤S21至步骤S24之间的顺序并不做任何限定，即可以根据当前机器人的工作环境进行设定上述步骤S21至S24的具体地顺序。如在一实施例中，当前机器人工作的环境是人脸检测准确较高的地方，则设定先进行步骤S21。在另一实施例中，可以设定，在摄像装置获取图像后，同时进行步骤S21至步骤S24，即同时对所获取的图像中的人脸、人体、物体和场景进行检测分析，即对于步骤S21至步骤S24中的每一个步骤均会进行分配到一个线程上运行，可以较好地提高对于图像的检测和感知的速度。

可以理解的，在不同的实施例中，可以设定对所获取的图像中的人脸、人体、物体和场景中的至少一个进行检测，具体的根据机器人工作需要和主动交互的准确度进行设定调整，具体在此不做任何限定。

在对图像完成所设定的分析后，进一步对分析结果设定优先级别。优先级别的设定依据系统的初始设定。

在一实施例中，当设定是对图像进行人脸分析(步骤S21)、人体分析(步骤S22)、物体分析(步骤S23)和场景分析(步骤S24)，当完成上述分析后，则会对上述分析所得的结果设定优先级别。设定上述分析结果的优先级别依次减少，具体为：第一分析结果、第二分析结果、第三分析结果和第四分析结果，其中第一分析结果优先级别最高。

在另一实施例中，当机器人工作的场景较为单一时，如只需要进行人脸检测和人体检测时，则设定人脸检测的优先级别最高。

进一步的，在一实施例中，将每个模型(模型包括：人脸检测、人体检测、场景检测识别和物体检测识别)各分配到一个线程上去同时运行，以提高感知的速度，同时根据上述设定的检测分析的特性和所设定的优先级，设定每个模型的运行频次不一样。在本实施例中，以预览的模式获取图像，即可以快速的获取到大量的图像，此时如果要对每一帧图像均进行上述的人脸检测、人体检测、场景检测识别和物体检测识别，计算量相对较大，也会降低交互的实时性，此时会进一步设定每个模型的运行频次。具体的，由于场景检测识别具有不变性，设定运行频次最低，可以每隔30-60s进行检测(每隔30-60s抽取一帧图像进行检测识别，下同)。同样的，由于物体变化相对也较少或者是较慢，设定物体检测识别每隔10-20s运行一次。由于人的出现是不可预测的，所以设定人脸检测与人体检测必须一直运行。在检测到人脸后才会依次调用相关算法进行年龄性别的估计；在检测到人体后，才调用对应的算法进行人体姿态估计。经过上述对于人脸检测、人体检测、场景检测识别和物体检测识别的运行设计，运行框架明显优化，显著降低计算量，提升交互系统的性能。可以立即的，当本申请所提供的机器人的应用场所不同，根据实际需要，可以进一步对人脸检测、人体检测、场景检测识别和物体检测识别的运行设计进行适应性调整，具体在此不做限定。

进一步的，当获取图像采用的是拍照的模式时，摄像装置拍摄的图片是多张时，则会在遵循设定的规则下，对符合条件的图片分别进行上述的人脸、人体、物体和场景分析，并将分析的结果进行特定的标记，如分别标记为“20171010Aa1、20171010Aa2、20171010Aa3”，用以表示是2017年10月10日对A组图片进行a类分析，a后面的数字代表当前组图片中的第几张，用以清楚标记。

S30：根据分析结果的优先级别进行权重分析以得出交互内容。

经过步骤S20中对图像进行预先所设定的分析后，即经过分析得到对应的分析结果(包括第一分析结果、第二分析结果、第三分析结果和第四分析结果)后，需要根据所设定分析结果的优先级别进行权重分析，最终率得出交互内容。

其中，进行权重分析具体可以是，结合机器人的拍摄视角、运动模糊等因素，以及预先设定分析结果的优先级别，进一步的进行权重分析。

在一实施例中，设定对人脸检测、人体检测、场景检测识别和物体检测识别设定权重分析是多帧分析融合决策，以此提高对图像分析的准确度。多帧分析融合决策具体是指，对摄像装置所获取的多帧图片分别进行上述设定的人脸、人体、物体和场景检测分析，并对多帧分析的结果进行预设的权重分析计算，以得到更加准确的交互内容。

在另一实施例中，当拍摄的是数量的较少的图片时，如拍摄的是一张图片时，则依据设定的分析结果的优先级别的，进行权重分析，此时的权重为1。可以理解的，因此时获取的图片数量是一张，所以此时的权重分析为1，也可以理解的为没有进行实质上的权重分析，此时依据对分析结果所设定的优先级别，进行输出交互内容，依次询问交互对象。

在又一实施例中，可以对一些分析统计历史经验值，并根据所统计的历史经验值，对现有检测分析所得检测分析结果进行权重分析。如经过对历史经验值统计得到，机器人当前工作场所中的物体，在所拍摄的所有图片中，有98％均出现了一架钢琴，则当前检测中，再检测到钢琴时，对所检测的钢琴信息权重设定较低，即所得的交互内容中，关于以钢琴为主题的问题则会权重较低，且优先级别较低。

可以理解的，在一实施例中，经过步骤S20对于所获取的图像进行设定的检测分析后，得到第一分析结果、第二分析结果、第三分析结果和第四分析结果后，可以进一步的得到其交互内容。具体的，交互内容预存在对应的数据库中，在得到分析结果后将该分析结果与数据库中对应预存交互内容相关联，关联采用关键词制的映射关系得到交互内容。

S40：将交互内容输出。

步骤S40是将经上述步骤中所得到的交互内容进行转换识别，并输出。可选地，可以将交互的内容转换成语音，输出用以与交互对象进行交互；也可以是所得的交互内容转换成动作或者是图片(机器人带有显示器时)输出，实现与交互对象进行交互。

进一步的，步骤S40具体包括：通过从文本到语音算法将交互内容转化成语音、动作和图片中的任意一种，并输出。

在一实施例中，当所得交互内容中一条为：“你好，小朋友！”则会通过tts算法将交互内容转换成语音的方式输出。

在另一实施例中，当所得交互内容可以同时使用图片的方式输出时，可以设定还以图片的方式进行输出交互内容，也可以是语音和图片的方式同时进行输出。如所得的交互内容是“小朋友，中秋快乐，有没有吃月饼”，则在输出语音的同时，进一步在显示屏幕上输出“中秋快乐”字样，或者是月饼等预先设定的图案。

可选地，交互内容可以转换成多种常用语言进行输出。可以将所得的交互内容通过联网后，进行语言之间的转换；也可以是根据本地所设定常用交互内容的转换方法，进行不同语言的转换。如，当首次将交互内容以中文的方式输出，得到交互对象的回复是英文时，则会将交互内容转换成英文后再次输出。

在一实施例中，当输出的交互内容是：“你好，女士！”，如果获得的回复“sorry”等英文回答，则会将所得的交互内容转化成英文后，再次进行输出。可以理解的，在一实施例中，当在步骤S20中获取到人像中有明显的欧美人物特征，则会自动进行标记。得出交互内容后，则会进行第二常用语言输出的备份。当所设定的默认语言得不到回应或者是对应当前语言的回应，则会启动第二语言继续进行交互。

可选地，在步骤S40之后，即在输出交互内容后，交互对象有作出相对应的反馈或者是回复后，在接收到上述的交互对象反馈的内容后，进一步对所获取交互对象回复的内容进行识别分析，得到第五分析结果。

在一实施例中，当获取到的交互对象的回复内容是“我很累”，则在获取到当前的交互对象回复的内容后，进一步进行分析，以得到第五分析结果“那就睡一会吧”，同时播放舒缓的音乐。第五分析结果是基于当前交互对象的回复内容分析所得的结果。

通过在预设条件情况启动摄像装置获取图像，对所获取的到的图像进行预设检测分析，通过预设的检测分析得到分析结果，并将分析结果关联预设的数据库，并根据分析结果的优先级别进行权重分析得到交互内容，最终将交互内容输出，用以与人交互，实现了与人主动交互，同时通过对于图形检测分析可以使得主动交互更加准确人性化。

参见图3，为本申请一种机器人主动交互的系统10结构示意图，该系统包括：图像获取单元14、视觉语义分析单元12、决策输出单元16。

其中，图像获取单元14用以在满足预设条件时，启动拍摄装置获取预设数量的图片，以捕获机器人周围环境。其中，预设条件为通过传感设备检测到预设的人声，或者是检测到预设的人体红外线的情况。可以理解的，预设条件因在不同的实施例中，所设定的条件不同，具体在此不做限定。

进一步的，图像获取单元14包括：摄像装置、传感设备，接口电路组成。其中摄像装置为RGB摄像头。用于检测是否满足预设条件的传感设备可以是红外传感器。可以理解的，传感设备在其他的实施例中，也可以是其他的装置，具体的在此不做限定。

视觉语义分析单元12用于对所述预设数量的照片进一步进行预设的图像检测分析，以得到分析结果。其中，图像检测分析，包括：人脸检测、人体检测、物体检测和场景检测。可以理解的，图像检测具体包括的分析内容就可以根据初始设定而定。在其他实施例中，图像检测还可以包括其他的类型检测分析。

决策输出单元16，用于对所述分析结果内容进一步设定优先级别，并输出交互内容。在一实施例中，决策输出单元16进一步用于，将经检测所得分析结果与数据库内的交互内容关联，得到对应的交互内容，并输出，实现与人主动交互。

在一实施例中，上述机器人主动交互的系统10进一步包括：声音获取识别单元(图未示)，用于获取预设声音，并对所获取到的声音进行预设的声音检测分析，以所获取的声音进行分析，以获取声音的频率和声色，判定是否属于所设定的频率或者设定声色，进一步判断是否是符合预设的条件。可以理解的，声音获取识别单元，进一步还用于获取交互对象回复的声音内容，具体的在此不做限定。

进一步的，当本申请所提供的机器人为一专属机器人时，声音获取识别单元(图未示)还可识别记录声音，如可以识别主人和客人的声音，进一步进行交互内容的计算与输出。

请参见图4，为本申请一种机器人20的结构示意图，该机器人20包括：主体21，摄像头24、处理器22，以及处理器22相互连接的存储器23和扬声器25。

其中，主体21用于承载机器人的其他零部件，组成机器人的外观，并保护机器人的内部零部件。该机器人20还包括安装在上述主体21上端预设位置处的摄像24头，该摄像头24用于获取图像。可以理解的是，摄像头24所安装的位置根据机器人20主体21的尺寸进行具体设定。

在一实施例中，摄像头24为一RGB摄像头，安装在机器人20主体21上端。

在另一实施例中，摄像头24的数量为多个，安装在机器人20主体21不同的位置，其中，至少一个安装在主体21的上端，具体的，摄像头24的安装位置主要是考虑机器人20的拍摄角度，在多数实施例中选取最佳最大的拍摄角度，以可以拍摄的画面最多为主要考虑因素。其中，所选择的摄像头24也可以是一个摄像头，该摄像头可转动以调整角度。

处理器22，以及分别与处理器22连接的存储器23和扬声器25。其中存储器23和扬声器25用于辅助处理器22用于完成上所述的机器人主动交互的方法。

进一步的，存储器23进一步用于存储预设的对比数据库，以及上述对于图像检测分析的结果。

请参阅图5，为本申请一种具有存储功能的装置30，存储装置30存储有程序数据，存储装置30所存储的程序数据被执行时实现如上所述的机器人主动交互的方法。具体的，上述具有存储功能的装置30可以是终端设备的存储器、个人计算机、服务器、网络设备，或者U盘等其中的一种。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种机器人主动交互的方法，其特征在于，包括以下步骤:

在预设的条件下获取图像；

对所述图像进行预设检测分析，以得到分析结果；

将所述交互内容输出。

2.根据权利要求1所述的机器人主动交互的方法，其特征在于，所述在预设的条件下获取图像的步骤具体包括：当传感设备感应到人体红外线和/或声音时，启动摄像头获取图像。

3.根据权利要求1所述的机器人主动交互的方法，其特征在于，所述对所述图像进行预设检测分析，以得到分析结果的步骤具体包括以下至少一种：

对所述图像中的人像进行人脸检测，以获取第一分析结果；

对所述图像中的人像进行人体检测，以获取第二分析结果；

对所述图像中的物体进行检测识别，以获取第三分析结果；

对所述图像中的场景进行检测识别，以获取第四分析结果。

4.根据权利要求3所述的机器人主动交互的方法，其特征在于，所述对所述图像中的人像进行人脸检测，以获取第一分析结果的步骤包括：获取人脸特征信息，并将所述人脸特征信息与第一预设数据库中数据进行比对，以得到图像中人脸的性别、年龄、人脸的方向中的至少一种。

5.根据权利要求3所述的机器人主动交互的方法，其特征在于，所述对所述图像中的人像进行人体检测，以获取第二分析结果的步骤包括：获取人体部分的特征信息，并将人体部分特征信息与第二预设数据库中的数据进行比对，以得到图像中人像的姿态。

6.根据权利要求3所述的机器人主动交互的方法，其特征在于，所述对所述图像中的物体进行识别，以获取第三分析结果的步骤包括：

提取所述图像中的物体，并将所得到的物体与图像数据集中的数据进行比较，以得到第三分析结果。

7.根据权利要求3所述的机器人主动交互的方法，其特征在于，所述对所述图像中的场景进行识别，以获取第四分析结果的步骤包括：

提取所述图像中的场景与场景数据库进行比对，以得到对应场景；

8.根据权利要求3所述的机器人主动交互的方法，其特征在于，所述对所述图像进行预设检测分析，以得到分析结果的步骤之后还包括：设定所述第一分析结果、所述第二分析结果、所述第三分析结果以及所述第四分析结果优先级别依次减少。

9.根据权利要求1所述的机器人主动交互的方法，其特征在于，所述将所述交互内容输出的步骤具体包括：通过从文本到语音算法将所述交互内容转化成语音、动作和图片中的至少一种，并输出。

10.根据权利要求1所述的机器人主动交互的方法，其特征在于，所述将所述交互内容输出的步骤之后还包括：当收到来自交互对象的回复时，进一步对所获取的内容进行识别分析，得到第五分析结果。

11.一种机器人主动交互的系统，其特征在于，包括：

12.根据权利要求11所述的机器人主动交互的系统，其特征在于，所述机器人交互系统进一步包括：声音获取识别单元，用于获取预设声音，并对所获取到的声音进行预设的声音检测分析。

13.根据权利要求11所述的机器人主动交互的系统，其特征在于，所述预设条件是指所述图像获取单元中的传感设备检测到人声或人体红外线。

14.一种机器人，其特征在于，包括：

主体；安装于所述主体上端预设位置处的摄像头，所述摄像头用于获取图像；处理器，以及分别与所述处理器连接的存储器和扬声器；所述存储器和所述扬声器用于辅助所述处理器用于完成如权利要求1-10任意一项所述的机器人主动交互的方法。

15.根据权利要求14所述的机器人，其特征在于，所述存储器进一步用于存储预设的比对数据库以及权利要求1-10任意一项所述方法进行中产生的数据。

16.根据权利要求14所述的机器人，其特征在于，所述机器人还包括多个的传感器，所述传感器包括：红外传感器、超声波传感器中的至少一种。

17.一种具有存储功能的装置，其特征在于，所述存储装置存储有程序数据，所述程序数据被执行时实现如权利要求1～10任意一项所述的方法。