CN111421557A

CN111421557A - 电子装置及其控制方法

Info

Publication number: CN111421557A
Application number: CN202010024953.7A
Authority: CN
Inventors: 辛晧先; 李哲敏; 宋佳进
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-01-10
Filing date: 2020-01-10
Publication date: 2020-07-17
Anticipated expiration: 2040-01-10
Also published as: US11216655B2; EP3680754A2; EP3680754B1; KR20200093094A; US20200226356A1; WO2020145688A1; EP3680754A3

Abstract

公开一种电子装置及其控制方法。该装置包括：壳体；至少一个相机；多个麦克风，配置为检测声源的方向；至少一个驱动器，可进行操作以使壳体的至少一部分旋转和/或移动；无线通信电路；处理器，可操作地连接到相机、麦克风、驱动器和无线通信电路；存储器。处理器实现该方法，该方法包括：接收用户话语；检测用户话语源自的第一方向；控制驱动器使壳体的至少一部分朝向第一方向旋转和/或移动；在朝向第一方向旋转和/或运动后，通过在相机被定向在第一方向上的同时使用相机捕捉图像并分析图像中是否存在用户来执行对第一方向的第一图像扫描；当未检测到用户时，使壳体的至少一部分在第二方向上旋转和/或移动；并执行对第二方向的第二图像扫描。

Description

电子装置及其控制方法

本申请基于并要求于2019年1月10日在韩国知识产权局提交的申请号为10-2019-0003247的韩国专利申请的优先权，其中，上述申请的公开通过引用被全部合并在本申请中。

技术领域

本公开涉及一种从用户接收输入然后进行操作的电子装置以及一种用于该电子装置的技术。

背景技术

随着与电子装置相关联的技术的发展，各种智能装置在分布和使用方面已经激增。例如，各种机器人现在成为流行的消费产品，包括如机器人真空吸尘器、舞蹈或动画机器人(例如，随着音乐和/或用户的语音移动的机器人)、模仿动物行为的“宠物”机器人。

电子装置可包括用于接收用户输入的输入装置。当电子装置通过输入装置接收输入时，电子装置可通过解释接收到的输入然后根据解释的结果执行操作来向用户提供服务。

以上信息作为背景信息被呈现仅用于帮助理解本公开。至于以上信息中的任何信息是否可应用为针对本公开的现有技术，尚未作出确定并且尚未作出断言。

发明内容

本公开的各方面将至少解决上述问题和/或缺点，并至少提供下面描述的优点。因此，本公开的一方面在于提供一种识别用户然后能够面向用户移动的电子装置。

此外，本公开的另一方面在于提供一种能够准确且快速地面向用户的电子装置。

根据本公开的一方面，一种电子装置可包括：壳体；至少一个相机，被布置在壳体中；多个麦克风，被布置为检测声源的方向；至少一个驱动部件，被连接到或被布置在壳体中以使壳体的至少一部分旋转和/或移动；无线通信电路，被布置在壳体内；处理器，可操作地连接到相机、麦克风、驱动部件和无线通信电路；以及存储器，可操作地连接到处理器。存储器可存储指令，其中，所述指令在被执行时使处理器执行以下操作：使用所述多个麦克风接收用户话语；基于所述用户话语的至少一部分检测所述用户话语源自的第一方向；控制驱动器使所述壳体的至少一部分朝向第一方向旋转和/或移动；在所述朝向第一方向旋转和/或移动之后，通过在相机被定向在第一方向上的同时使用相机捕捉图像并且分析图像中是否存在用户来执行针对第一方向的第一图像扫描；当在所述图像中未检测到用户时，控制驱动器使所述壳体的至少一部分在第二方向上旋转和/或移动；并且针对第二方向执行第二图像扫描。

根据本公开的另一方面，一种电子装置可包括：壳体；至少一个相机，被布置在壳体中；多个麦克风，被布置为检测声源的方向；至少一个驱动部件，被连接到或被布置在壳体中以使壳体的至少一部分旋转和/或移动；处理器，可操作地连接到相机、麦克风和驱动部件；以及存储器，可操作地连接到处理器。存储器可存储指令，其中，所述指令在被执行时使处理器执行以下操作：使用所述多个麦克风接收用户话语；基于所述用户话语的至少一部分检测所述用户话语源自的第一方向；控制驱动器使壳体的至少一部分朝向第一方向旋转和/或移动；在所述朝向第一方向旋转和/或移动之后，通过使用相机捕捉图像来执行针对第一方向的图像扫描；基于图像的至少一部分检测第二方向；并且控制驱动器使壳体的至少一部分朝向第二方向旋转和/或移动。

根据本公开的另一方面，一种用于控制电子装置的方法可包括：使用多个麦克风接收用户话语；基于所述用户话语的至少一部分，由驱动器使所述电子装置的至少一部分朝向检测到所述用户话语的第一方向旋转和/或移动；在所述朝向检测到所述用户话语的第一方向旋转和/或移动之后，使用相机在第一方向上执行第一图像扫描；当通过第一图像扫描在第一方向上未检测到所述用户话语的用户时，由驱动器使所述电子装置的至少一部分在第二方向上旋转和/或移动；并且使用相机在第二方向上执行第二图像扫描。

根据本公开的另一方面，一种用于控制电子装置的方法可包括：使用多个麦克风接收用户话语；基于所述用户话语的至少一部分，由驱动器使电子装置的至少一部分朝向检测到所述用户话语的第一方向旋转和/或移动；在所述朝向检测到所述用户话语的第一方向旋转和/或移动之后，执行包括使用相机在第一方向上捕捉图像的图像扫描；并且由驱动器使所述电子装置的至少一部分在基于所述图像的至少一部分确定的第二方向上旋转和/或移动。

根据本公开的另一方面，一种计算机可读记录介质可存储计算机程序，其中，该计算机程序使电子装置执行以下操作：使用多个麦克风接收用户话语；使所述电子装置的至少一部分在基于所述用户话语的至少一部分确定的第一方向上旋转和/或移动；在所述在第一方向上旋转和/或移动之后，使用相机在第一方向上执行第一图像扫描；当在第一方向上未检测到所述用户话语的用户时，使电子装置的至少一部分在第二方向上旋转和/或移动；并且在第二方向上执行第二图像扫描。

根据本公开的另一方面，一种计算机可读记录介质可存储计算机程序，其中，该计算机程序使电子装置执行以下操作：使用多个麦克风接收用户话语；使所述电子装置的至少一部分在基于所述用户话语的至少一部分确定的第一方向上旋转和/或移动；在所述在第一方向上旋转和/或移动之后，使用相机在第一方向上执行图像扫描；并且使电子装置的至少一部分在基于通过图像扫描获得的图像的至少一部分而确定的第三方向上旋转和/或移动。

根据下面结合附图公开了本公开的特定实施例的详细描述，本公开的其它方面、优点和显著特征对于本领域技术人员将变得显而易见。

附图说明

根据下面结合附图进行的描述，本公开的特定实施例的以上和其它方面、特征和优点将变得更加明显，其中：

图1是示出根据实施例的电子装置的外观的示图。

图2是示出根据实施例的电子装置的结构的框图；

图3是示出根据另一实施例的电子装置的结构的框图；

图4是示出根据实施例的电子装置进行操作以面向用户的处理的流程图；

图5是用于描述根据实施例的电子装置接收用户话语的操作的示意图；

图6是用于描述根据实施例的接收用户话语的电子装置移动和/或旋转的操作的示意图；

图7是用于描述根据实施例的执行图像扫描的电子装置移动和/或旋转的操作的示意图；

图8是示出用于描述根据实施例的电子装置检测多个方向的方法的示例的曲线图；

图9是示出根据实施例的电子装置接收用户的命令话语的处理的流程图；

图10是示出根据另一实施例的电子装置接收用户的命令话语的处理的流程图；

图11是用于描述根据另一实施例的当图像扫描结果指示未检测到用户时确定第二方向的处理的流程图；

图12是示出根据另一实施例的电子装置进行操作以面向用户的处理的流程图；

图13是用于描述根据实施例的当电子装置的图像扫描结果指示检测到用户时确定方向的方法的示意图；

图14是示出根据示例实施例的电子装置在由图像扫描结果确定的方向上移动和/或旋转的操作的示意图；

图15是用于描述根据另一实施例的电子装置根据用户执行操作的处理的流程图；

图16是用于描述根据另一实施例的电子装置根据用户的命令执行操作的处理的流程图。

图17示出根据特定实施例的网络环境中的电子装置；以及

图18是根据本公开的特定实施例的软件框图。

具体实施方式

在下文中，将参照附图描述本公开的特定实施例。然而，本领域普通技术人员将认识到，在不脱离本公开的情况下，可对本文描述的特定实施例进行各种修改、等同和/或替换。

图1是示出根据实施例的电子装置10的外观的示例的示图。

根据实施例的电子装置10可包括包含头部111和主体部112的壳体。在此，头部111可围绕主体部112可旋转地连接。可选地，头部111可以以其他方式可移动地连接到主体部112。可选地，头部111可被连接为相对于主体部112可旋转和可移动。然而，图1中示出的壳体的构造仅描述一个示例；可根据实施例对壳体的形状进行各种修改。例如，在不区分头部111和主体部112的情况下一体地形成壳体，或者头部111可固定地连接到主体部112。

电子装置10可包括能够拍摄静止图像或视频的至少一个相机150。根据实施例，相机150可被布置为在头部111被定向的方向上捕捉图像。例如，电子装置10可使用相机跟踪用户，其中，电子装置10可利用安装在头部111或装置中的眼睛的形状、或者可选地通过经由显示装置输出形状像眼睛的图像或图标来模拟电子装置10(例如，机器人)正在看着用户的体验。在此，头部111面向的方向可表示包括在头部111或输出中的眼睛的形状观看用户的方向。根据实施例的电子装置10可使用通过相机150获得的图像来检测用户的位置。然而，通过使用分析图像的结果来检测用户的位置的操作需要大量计算，从而减慢了电子装置10移动以搜索用户的位置的操作。

此外，根据实施例的电子装置10可包括能够接收声音信号的多个麦克风140。参照图1，多个麦克风140可被布置在头部111中。然而，根据另一实施例，麦克风140可被设置在壳体的另一位置。例如，麦克风140可被布置在主体部112中。

根据实施例的电子装置10可基于通过麦克风140接收到的声音信号来检测声源的位置。然而，当接收到的声音信号包括大量噪声或与用户话语相应的声音信号的量级较小时，难以准确地检测基于通过麦克风140接收到的声音信号检测到的声源的位置。

此外，根据实施例的电子装置10可在底表面16上包括用于使壳体移动的驱动主体。在本说明书中，术语使对象“移动”不仅包括对象的位置被移动的情况，而且包括对象旋转的情况。可根据实施例不同地实现驱动主体。例如，驱动主体可包括一个或更多个支撑壳体并使壳体移动的车轮。又例如，可以以包括关节的腿的形状来实现驱动主体。

图2是示出根据实施例的电子装置10的结构的框图。

根据实施例的电子装置10可包括壳体110，并且可包括处理器120、存储器130、多个麦克风140、相机150和在壳体110内部或外部的驱动部件160。

存储器130可存储包括能够由处理器120执行的指令的程序。所述指令当被执行时可使处理器120通过控制电子装置10的组件来处理信息或执行电子装置10的操作。

根据实施例，处理器120可使用麦克风140接收用户话语。此外，处理器120可基于接收到的用户话语的至少一部分检测声源的方向(或第一方向)(例如，相对于机器人而言的产生用户话语的方向)。麦克风140可被布置为检测出现接收到的声音信号的声源的方向。例如，麦克风140可分别被布置在彼此间隔开的位置。在这种情况下，处理器120可基于通过麦克风140接收到的声音信号之间的接收延迟差来执行波达方向估计(DOA)处理。

存储在存储器130中的指令当被执行时可使处理器120控制驱动部件160，使得当基于用户话语确定第一方向时，壳体110在第一方向上移动。根据实施例，驱动部件160可包括驱动主体165。驱动部件160可在处理器120的控制下驱动驱动主体165以使壳体110移动。例如，驱动部件160可使用包括在驱动部件160中的电机使车轮旋转。

处理器120可在第一方向上使壳体110的至少一部分移动，然后可使用相机150执行图像扫描(或第一图像扫描)。处理器120可尝试从通过执行第一次图像扫描获得的图像检测用户。在此，处理器120可确定在图像中是否存在与用户的形状相应的对象。例如，处理器120可从图像提取第一特征信息，然后可确定提取的第一特征信息是否包括用户的面部图像具有的第二特征信息。

当执行第一图像扫描的结果指示在第一方向上未检测到用户时，处理器120可控制驱动部件160以使壳体110的至少一部分在第二方向上移动。例如，第二方向可以是被设置为默认值的方向，诸如，顺时针方向。又例如，第二方向可以是基于使用麦克风140另外接收到的用户话语确定的方向。

此外，处理器120可使用相机150在第二方向上执行图像扫描(或第二图像扫描)。根据实施例，处理器120可在控制驱动部件160使得壳体110在第二方向上移动的同时连续地执行第二图像扫描。处理器120可尝试从通过第二图像扫描获得的图像检测用户。当基于通过第二图像扫描获得的图像确定用户位于图像内的指定位置(例如，图像的中心)时，处理器120可控制驱动部件160，使得壳体110的移动停止。可选地，根据另一实施例，在完成壳体110在第二方向上的移动之后，处理器120可重复地执行进行第二图像扫描的操作直到用户被检测到或者指定次数为止。

根据实施例，当在基于用户话语确定的第一方向上移动时，处理器120可控制驱动部件160使得壳体110以第一速度移动；当在执行图像扫描的同时在第二方向上移动时，处理器120可控制驱动部件160使得壳体110以第二速度移动。第一速度可以是比第二速度快的速度(或者第二速度是小于第一速度的速度)。在整个说明书中，“速度”可以是指示包括线速度和角速度中的至少一个的概念的术语。

也就是说，电子装置10可首先基于使用麦克风140接收到的声音信号来检测用户的位置，然后可基于使用相机150获得的图像来第二次检测用户的位置。因此，根据实施例的电子装置10可准确且快速地检测用户的位置并且可移动。

根据另一实施例，可由多个部分的组合来实现电子装置10的壳体110。图3是示出根据另一实施例的电子装置10的结构的框图。

根据另一实施例，电子装置10可包括包含头部111和主体部112的壳体110。参照图3，头部111可包括处理器120、存储器130、麦克风140和相机150。此外，主体部112可包括第一驱动部件161。然而，图3用于描述实施例，在图3中，设置在头部111中的组件可被设置在主体部112中，或者设置在主体部112中的组件可被设置在头部111中。例如，麦克风140可被安装在主体部112中。

头部111可被连接为相对于主体部112可移动。例如，头部111可被连接到主体部112的节点以进行移动或旋转。根据实施例，驱动部件160可被设置在电子装置10中作为第一驱动部件161和第二驱动部件162；处理器120可控制第二驱动部件162使头部111移动。例如，第二驱动部件162可包括用于操作头部111与主体部112之间的连接部的电机。

存储在存储器130中的指令当被执行时可使处理器120控制第一驱动部件161，使得当基于用户话语确定第一方向时，壳体110在第一方向上移动。根据实施例，第一驱动部件161可包括驱动主体165。第一驱动部件161可在处理器120的控制下驱动驱动主体165来使壳体110移动。例如，第一驱动部件161可使用包括在第一驱动部件161中的电机使车轮旋转。

处理器120可使壳体110的至少一部分(例如，主体部112)在第一方向上移动，然后可使用相机150执行图像扫描。处理器120可尝试从通过执行图像扫描获得的图像检测用户。在此，处理器120可确定在图像中是否存在与用户的形状相应的对象。例如，处理器120可从图像提取第一特征信息，然后可确定提取的第一特征信息是否包括用户的面部图像具有的第二特征信息。

当执行图像扫描的结果指示在第一方向上检测到用户时，处理器120可根据在图像中检测到用户的位置来确定检测到的用户的方向(或第三方向)。例如，处理器120可识别在作为执行图像扫描的结果而获得的图像内的一个或更多个面部。之后，处理器120可在识别出的一个或更多个面部中检测与用户话语相应的用户的面部。处理器120可将壳体将被移动为使得检测到的用户的面部位于图像中心的方向确定为第三方向。

在此，与用户话语相应的用户可以是注册用户，以检测与用户话语相应的用户的面部。例如，可将指示用户的语音的特征的语音特征信息和指示用户的面部的特征的面部特征信息在彼此关联的同时存储在存储器130中。处理器120可从接收到的用户话语提取语音特征信息，并且可使用提取的语音特征信息来搜索存储在存储器130中的面部特征信息。处理器120可将在图像中识别出的一个或更多个面部中具有与找到的面部特征信息相应的特征的面部检测为用户的面部。可选地，又例如，可将指示用户的语音的特征的语音特征信息和指示用户的面部的特征的面部特征信息注册在外部服务器中。处理器120可将从用户话语提取的语音特征信息发送到外部服务器，并且可接收面部特征信息作为响应。

处理器120可控制电子装置10的驱动部件，使得电子装置10的壳体的至少一部分在第三方向上移动。在此，处理器120可在连续地执行图像扫描的同时更新第三方向，并且可控制电子装置10的驱动部件，使得电子装置10的壳体的至少一部分在更新的第三方向上移动。

因为头部111被安装在主体部112上，所以头部111可在主体部112通过驱动主体165被移动时一起移动。然而，头部111可通过第二驱动部件162的操作独立于主体部112的移动而被移动。因此，根据实施例，当处理器120使壳体的至少一部分在基于用户话语确定的第一方向上移动时，处理器120可控制第一驱动部件161使头部111和主体部112一起移动。此外，当处理器120使壳体的至少一部分在基于图像扫描确定的第三方向上移动时，处理器120可控制第二驱动部件162使主体部112和头部111分开移动。

在此，当在第一方向上移动时，处理器120可控制第一驱动部件161，使得主体部112以第一速度移动。此外，当在第三方向上移动时，处理器120可控制第二驱动部件162，使得头部111以第二速度移动。根据实施例，第一速度可比第二速度快。

图4是示出根据实施例的电子装置10进行操作以面向用户的处理的流程图400。

首先，电子装置10可执行包括通过多个麦克风140接收用户话语(例如，接收语音输入)的操作410。之后，电子装置10可执行基于接收到的用户话语的至少一部分来检测第一方向的操作420(例如，检测用户话语所源自的被检测到的方向)。

根据实施例，在操作410，电子装置10可基于多DOA算法，基于接收到的用户话语来确定至少一个方向。此外，电子装置10可计算确定的至少一个方向的可靠性。因此，在确定了多个可能方向的实施例中，电子装置10可从所述多个方向中选择在所述多个方向中与最高可靠性相关联的方向作为第一方向。

在此，参照图5，电子装置10可通过多个麦克风140接收由用户1产生的用户话语500。接收用户话语500的电子装置10可将接收到用户话语500的方向510检测为第一方向。

之后，电子装置10可执行包括基于第一方向执行移动的操作430。例如，电子装置10可旋转和/或移动电子装置10的壳体的至少一部分，使得包括在电子装置10中的相机150被移动为朝向第一方向(例如，“面向”第一个方向)定向。

之后，电子装置10可执行包括基于第一方向执行第一图像扫描的操作440。也就是说，在将相机150朝向第一方向定向的同时，电子装置10可使用相机150来捕捉图像。在一些实施例中，电子装置10可对获得的图像执行图像识别处理。

在此，如图5和图6所示，电子装置10可使壳体110的至少一部分移动，使得相机150朝向检测到的第一方向510定向。在使壳体110的至少一部分移动之后，电子装置10可使用捕捉位于第一方向510上的用户1的相机150来获得图像511。然而，当在电子装置10使壳体110的至少一部分移动的同时用户1移动时，或者当在第一方向510的检测中存在误差时，可能出现在图像511中未捕捉到用户1的误差。

之后，电子装置10可执行包括确定在获得的图像内是否检测到用户的操作450。根据实施例，电子装置10可确定在操作410接收到的用户话语是否是注册用户的语音。例如，可从存储在电子装置10中的信息寻找从接收到的用户话语提取的语音特征信息。当找到与提取的语音特征信息匹配的信息时，电子装置10可搜索与语音特征信息关联存储的图像特征信息(例如，面部特征信息)。当找到图像特征信息时，在操作450，电子装置10可在图像内检测与找到的图像特征信息匹配的对象。

根据另一实施例，在操作450，电子装置10可在图像内检测具有人的形状的特征的对象。当检测到对象时，电子装置10可确定在图像中检测到用户。

当在操作450未在图像中检测到用户时，在操作460，电子装置10可在第二方向上移动。根据实施例，当基于多DOA处理来预测多个方向和每个方向的可靠性时，电子装置10可确定在先前选择的第一方向之后的下一最高可靠性的方向是第二方向。根据另一实施例，在第二方向上移动可表示从第一方向起在确定的方向上移动。例如，在第二方向上移动可表示从第一方向起在顺时针方向上移动。根据又一实施例，第二方向可表示从第一方向起的预定角度内的方向。

在电子装置10执行包括基于第二方向移动的操作460之后，或在执行操作460的同时，电子装置10可执行包括执行第二图像扫描的操作470。在执行第二图像扫描之后，电子装置10可在操作450重新确定是否从在第二图像扫描中捕捉的图像检测到用户。

参照图7，为了捕捉第二图像，电子装置10可进行移动以便使相机150朝向第二方向520定向。当用户1位于第二方向520内并且因此通过第二图像扫描被检测到时，电子装置10可终止使壳体的至少一部分移动的操作。

图8是示出描述根据实施例的电子装置检测多个方向的方法的示例的曲线图。

图8的(a)是示出当接收到的话语进入多DOA处理时输出值指示单个方向(0度)的情况的曲线图。当检测到单个方向时，电子装置10可在检测到的方向上基于第一速度移动。在检测到的方向上移动的电子装置10可使用相机150执行图像扫描，然后可尝试在获得的图像中检测用户。当未检测到用户时，电子装置10可基于第二速度在预定方向上移动(例如，在顺时针方向上旋转)。

图8的(b)是示出当接收到的话语进入多DOA处理时输出值指示两个方向(-30度和90度)的情况的曲线图。此外，图8的(c)是示出当将接收到的话语进入多DOA处理时输出值指示三个方向(-30度、90度和-150度)的情况的曲线图。电子装置10可在多个方向中的最高可靠性方向上基于第一速度移动。在检测到的方向上移动的电子装置10可使用相机150执行图像扫描，然后可尝试在获得的图像中检测用户。当未检测到用户时，电子装置10可在第二高可靠性的方向上基于第二速度移动。

根据实施例，电子装置10可基于通过DOA处理获得的可靠性、接收到的用户话语的语音强度、信噪比(SNR)和置信度得分中的至少一个来确定第一速度和第二速度中的至少一个。置信度得分可以是指示用户话语与预定单词匹配的信息的值。例如，当可靠性、语音强度、SNR或置信度得分较高时，电子装置10可确定第一速度是高值。可选地，当作为基于接收到的用户话语执行说话者验证(SV)的结果而获得的得分较高时，电子装置10可确定第一速度是高值。

根据另一实施例，电子装置10可使用利用相机150获得的图像，根据当检测到用户的方向时利用的每秒的帧数来确定第二速度。可选地，当在第二方向上移动的同时，电子装置10可在找到从通过相机150获得的图像检测到的对象或背景的方向上增大第二速度。

根据又一实施例，电子装置10可计算与用于确定第一速度的因素相应的值。在此，当计算值不小于阈值时，电子装置10可跳过图4的操作440至操作470，其中，图4的操作440至操作470扫描图像以检测用户的方向。

图9是示出根据实施例的电子装置10接收用户的命令话语的处理的流程图900。

电子装置10可执行包括通过麦克风140接收用户话语的操作910。当电子装置10接收用户话语时，电子装置10可执行包括确定在接收到的用户话语中是否包括唤醒话语的操作920。

特定预先存储的关键词或短语可与可唤醒电子装置10以准备接收语音命令的唤醒命令相关联。这可能是有益的，因为该装置否则可能拾取环境噪声和语音并且将这些短语误解为命令，从而造成用户不便。因此，唤醒话语表示允许电子装置10准备接收命令话语的语音信号。例如，当接收到用户说出的词语“你好，Bixby”的语音信号时，电子装置10可接收在“你好，Bixby”之后接收到的语音信号作为命令话语。此外，命令话语可表示用于指定将由电子装置10执行的操作的语音信号。例如，当在用户说出唤醒话语之后输入说“让我知道今天的天气”的语音信号时，电子装置可根据接收到的语音信号执行搜索天气信息然后输出天气信息的处理。

根据实施例，当在操作920检测到存在于话语中的唤醒命令时，电子装置10可在操作935控制驱动部件160在由检测到唤醒话语的方向指示的第一方向上移动。同时，在操作930，在电子装置10移动的同时，电子装置10可执行包括接收命令话语的操作。在此，可通过对唤醒话语执行DOA处理来确定第一方向。

之后，当在操作930接收到命令话语时，电子装置10可控制驱动部件160在从命令话语确定的与接收到命令话语的另一方向相应的第二方向上移动。

图10是示出根据另一实施例的电子装置10接收用户的命令话语的处理的流程图1000。

如在图9中更详细地描述的，电子装置10可在操作1010和操作1020检测用户话语并且确定检测到的用户话语是否包括唤醒话语。当检测到唤醒话语时，电子装置10可执行包括基于在检测到的唤醒话语之后接收到的语音信号接收命令话语的操作1030。

之后，在操作1040，电子装置10可确定命令话语的接收是否完成。例如，当在指定时间内未接收到用户话语时，电子装置10可执行确定命令话语的接收是否完成的操作1040。

当命令话语的接收完成时，电子装置10可执行包括控制驱动部件160在基于唤醒话语和命令话语中的至少一个确定的方向上移动的操作1050。

图11是用于描述根据另一实施例的当图像扫描结果指示未检测到用户时确定第二方向的处理的流程图1100。

当在图4的操作450未检测到用户时，根据实施例，电子装置10可执行包括另外接收用户话语的操作451。根据实施例，在操作451，电子装置10还可输出提示用户说出另外的用户话语的消息。

因此，电子装置10可从另外接收到的用户话语另外获得第二语音特征。此外，电子装置10可从在操作410接收到的用户话语获得第一语音特征。电子装置可执行包括确定第一语音特征是否与第二语音特征匹配的操作452。在此，当语音特征匹配时，可确定产生在操作410接收到的用户话语的用户和产生在操作451额外接收到的用户话语的用户彼此相同。因此，当第一语音特征与第二语音特征匹配时，电子装置10可执行从另外接收到的用户话语检测第二方向的操作453。

当语音特征不匹配时，电子装置10可执行包括确定设置方向(例如，时钟方向)是第二方向的操作454。在执行操作453或操作454之后，电子装置10可执行图4的操作460。

图12是示出根据另一实施例的电子装置10进行操作以面向用户的处理的流程图1200。

电子装置10可执行包括通过多个麦克风140接收用户话语的操作1210。之后，电子装置10可执行包括基于接收到的用户话语的至少一部分检测第一方向的操作1220。

之后，电子装置10可执行包括基于第一方向移动的操作1230。根据实施例，在操作1230，电子装置10可使用设置在壳体110中的驱动部件160来使壳体110的至少一部分移动。根据另一实施例，壳体110可包括头部111和主体部112；驱动部件160可包括用于使主体部112移动的第一驱动部件161和用于使头部111移动的第二驱动部件162。在此，在操作1230，电子装置10可通过控制第一驱动部件161来使电子装置10的壳体110的至少一部分移动。此外，根据实施例，在操作1230，电子装置10可以以第一速度使电子装置10的壳体110的至少一部分移动。

参照图13，电子装置10可使主体部112移动，使得相机150面向第一方向510。在此，头部111可被安装在主体部112中，以与主体部112一起移动。

之后，电子装置10可执行包括在第一方向上执行第一图像扫描的操作1240。参照图13，电子装置10可经由相机150获得图像511，并且可在图像511中识别通过捕捉用户1而获得的对象2(例如，面部)。

之后，电子装置10可执行包括基于通过第一图像扫描获得的图像来确定第三方向的操作1250。例如，参照图13，当在图像511内识别出对象2时，电子装置10可确定允许通过移动相机150使对象2位于图像511的中心的第三方向530。

例如，在操作1240，电子装置10可识别图像内的一个或更多个面部。此外，电子装置10可从在操作1210接收到的用户话语提取语音特征信息，并且可搜索与语音特征信息关联存储的面部特征信息。例如，电子装置10可将语音特征信息发送到外部服务器，然后可接收找到的结果作为响应；可选地，电子装置10可使用语音特征信息搜索存储在电子装置10的存储器(例如，图2的存储器130、图3的存储器130或图17的存储器1730)中的面部特征信息。在此，电子装置10可在识别出的一个或更多个面部中检测在操作1210接收到的用户话语的用户的面部(即，与找到的面部特征信息匹配的面部)。电子装置10可确定允许检测到的面部位于图像内的指定位置(例如，图像中心)的第三方向。例如，第三方向可指使电子装置(图1的10)中的配备有相机(图1的150)的头部(图1的111)或整个电子装置10好像电子装置看着用户一样移动的方向。

之后，电子装置10可执行包括基于确定的第三方向使壳体的至少一部分移动的操作1260。例如，参照图14，电子装置10可通过控制第二驱动部件162来使头部111移动使得相机150面向第三方向530。又例如，电子装置10可使主体部112以第二速度移动，使得相机150面向第三方向。

之后，电子装置10可执行包括使用相机150在第三方向上执行第二图像扫描的操作1270。电子装置10可执行包括确定在操作1270获得的图像内被识别为用户的对象2的位置是否在指定范围内的操作1280。当对象2的位置不在指定范围内时，电子装置10可重复执行操作1250至操作1280，直到在图像内检测到的对象2的位置在指定范围内为止。例如，电子装置10可控制驱动部件160使得相机150面向的方向被移动，直到在图像内识别出的用户的面部在图像中居中为止。

图15是用于描述根据另一实施例的电子装置10根据用户执行操作的处理的流程图1500。

电子装置10可执行使用麦克风140接收用户话语的操作1510。之后，电子装置10可执行从用户话语检测唤醒话语的操作1520。

当在操作1520检测到唤醒话语时，电子装置10可执行确定说出在操作1510接收到的用户话语的用户是否是注册用户的操作1530。例如，电子装置10可从唤醒话语提取语音特征信息。电子装置10可搜索是否存储了与提取的语音特征信息匹配的信息。

当确定说出唤醒话语的用户是注册用户时，电子装置10可执行确定预测注册语音被接收的第一方向的操作1540。之后，电子装置10可执行基于确定的第一方向以第一速度使壳体的至少一部分移动的操作1550、以及在第一方向上执行第一图像扫描的操作1560。

之后，电子装置10可执行确定在操作1560获得的图像内是否检测到注册用户的操作1570。例如，电子装置10可搜索与匹配于从唤醒话语提取的语音特征信息的信息关联存储的图像特征信息(例如，面部特征信息)。当具有与找到的图像特征信息匹配的特征的对象包括在图像中时，电子装置10可确定通过图像扫描检测到注册用户。

当在操作1570未检测到注册用户时，电子装置10可执行以第二速度使壳体110的至少一部分移动并且执行第二图像扫描的操作1580。电子装置10可重复执行操作1570和操作1580，直到在通过图像扫描结果获得的图像中检测到注册用户为止。

当在操作1530确定说出唤醒话语的用户不是注册用户时，电子装置10可执行基于唤醒话语确定第一方向的操作1545。之后，电子装置10可执行基于第一方向以第一速度使壳体110的至少一部分移动的操作1555。此外，电子装置10可在移动的第一方向上执行第一图像扫描的操作1565。

之后，电子装置10可执行确定在操作1565获得的图像中是否检测到人体的形状的操作1575。例如，电子装置10可确定是否存在通过将定义人体的大体形状的特征的信息与在获得的图像中提取的特征信息进行比较而匹配的信息。当在图像中未检测到人体的形状时，电子装置10可执行以第二速度使壳体的至少一部分移动并且执行第二图像扫描的操作1585。

图16是用于描述根据另一实施例的电子装置10根据用户的命令执行操作的处理的流程图1600。

首先，电子装置10可使用麦克风140执行接收用户话语的操作1610。之后，电子装置10可执行确定是否从接收到的用户话语检测到唤醒话语的操作1620。

当检测到唤醒话语时，电子装置10可执行确定用于使壳体110的至少一部分移动的速度和方向的操作1630。例如，电子装置10可基于语音和图像中的至少一个确定用户的方向。根据实施例，确定的速度和方向可包括由第一驱动部件161操作的驱动主体165和由第二驱动部件162移动的头部111中的每一个的速度和方向。之后，在操作1640，电子装置10可根据确定的速度和方向使壳体110的至少一部分移动。

此外，电子装置10可执行确定在接收到检测到唤醒话语的用户话语之后的预定等待时间内是否检测到命令话语的操作1650。当在操作1650在所述等待时间内检测到命令话语时，电子装置10可根据命令话语执行操作1660。

根据实施例，根据命令话语的操作1660可包括根据基于命令话语确定的速度和方向使壳体110的至少一部分移动的操作。根据实施例，电子装置10可基于语音和图像中的至少一个确定根据命令话语使壳体110的至少一部分移动的方向。例如，当电子装置10接收到说出“清洁我右侧的椅子的前面”的命令时，电子装置10可执行移动到基于语音识别确定的用户的方向的右侧的操作，直到扫描到包括被识别为椅子的形状的图像为止。

图17是根据特定实施例的网络环境1700中的电子装置1701的框图。

参照图1，网络环境1700中的电子装置1701可通过第一网络1798(例如，短距离无线通信)与电子装置1702通信，或者可通过第二网络1799(例如，长距离无线通信)与电子装置1704或服务器1708通信。电子装置1701可通过服务器1708与电子装置1704通信。根据实施例，电子装置1701可包括处理器1720、存储器1730、输入装置1750、声音输出装置1755、显示装置1760、行为模块1763、音频模块1770、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电力管理模块1788、电池1789、通信模块1790、用户识别模块1796或天线模块1797。在任意实施例中，电子装置1701可不包括上述组件中的至少一个组件(例如，显示装置1760或相机模块1780)，或者还可包括一个或更多个其它组件。在任意实施例中，组件中的一些组件可被实现为单个集成电路。例如，传感器模块1776(例如，指纹传感器、虹膜传感器或照度传感器)可在被嵌入在显示装置1760(例如，显示器)中的同时被实现。

例如，处理器1720可执行软件(例如，程序1740)以控制电子装置1701的连接到处理器1720的至少另一组件(例如，硬件或软件组件)，并且可处理和计算各种类型的数据。根据实施例，作为数据处理或计算的至少一部分，处理器1720可将从其它组件(例如，传感器模块1776或通信模块1790)接收的指令或数据加载到易失性存储器1732中，可处理存储在易失性存储器1732中的指令或数据，并且可将结果数据存储在非易失性存储器1734中。根据实施例，处理器1720可包括主处理器1721(例如，中央处理器或应用处理器)和能够独立于主处理器或与主处理器一起进行操作的辅助处理器1723(例如，图形处理器、图像信号处理器、传感器集线器处理器或通信处理器)。另外或可选地，辅助处理器1723可使用比主处理器1721更低的功率，或者可被配置为专用于指定功能。辅助处理器1723可与主处理器1721分开实现，或者可被实现为主处理器1721的一部分。

例如，在主处理器1721处于未激活(例如，睡眠)状态时，辅助处理器1723(而非主处理器1721)可控制与电子装置1701的组件中的至少一个组件(例如，显示装置1760、传感器模块1776或通信模块1790)相关联的功能或状态中的至少一部分，或者在主处理器1721处于激活(例如，执行应用)状态时，辅助处理器1723可与主处理器1721一起来控制与电子装置1701的组件中的至少一个组件(例如，显示装置1760、传感器模块1776或通信模块1790)相关联的功能或状态中的至少一部分。根据实施例，可将辅助处理器1723(例如，图像信号处理器或通信处理器)实现为可操作地关联的其它组件(例如，相机模块1780或通信模块1790)的一部分。

存储器1730可存储由电子装置1701的至少一个组件(例如，处理器1720或传感器模块1776)使用的各种数据。例如，数据可包括软件(例如，程序1740)以及针对与该软件相关联的指令的输入数据或输出数据。存储器1730可包括例如易失性存储器1732或非易失性存储器1734。

可将程序1740作为软件存储在存储器1730中，并且程序1740可包括例如操作系统1742、中间件1744或应用1746。

输入装置1750可从电子装置1701的外部(例如，用户)接收将被用于电子装置1701的组件(例如，处理器1720)的指令或数据。输入装置1750可包括麦克风、鼠标或键盘。

声音输出装置1755可向电子装置1701的外部输出声音信号。声音输出装置1755可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的，并且接收器可用于接收呼入呼叫。根据实施例，接收器可为与扬声器分开实现，或可被实现为扬声器的一部分。

显示装置1760可向电子装置1701的外部(例如，用户)在视觉上提供信息。显示装置1760可包括例如显示器、全息图装置或投影仪以及用于控制相应装置的控制电路。根据实施例，显示装置1760可包括被配置为感测触摸的触摸电路或被配置为测量由触摸产生的力的强度的传感器电路(例如，压力传感器)。

行为模块1763可提供面部改变表情、姿态表情或驱动。根据实施例，行为模块1763可包括面部表情电机、姿态表情电机或驱动器。例如，面部表情电机可通过显示装置1760在视觉上提供电子装置1701的状态。例如，驱动器可用于使电子装置1701移动或机械地改变其它组件。例如，驱动器可以是能够围绕至少一个轴向上/向下或向左/向右移动或顺时针/逆时针旋转的形式。例如，驱动器可与驱动电机(例如，车轮型脚轮、球形车轮、连续履带或螺旋桨)结合被实现，或者驱动器可通过独立地控制驱动电机而被实现。

音频模块1770可将声音转换为电信号，或者相反地，可将电信号转换为声音。根据实施例，音频模块1770可通过输入装置1750获得声音，或者可通过声音输出装置1755或通过与电子装置1701直接或无线连接的外部电子装置(例如，电子装置1702)(例如，扬声器或耳机)输出声音。

传感器模块1776可感测电子装置1701的操作状态(例如，功率或温度)或外部环境状态(例如，用户状态)，并且可产生与感测到的状态相应的电信号或数据值。根据实施例，传感器模块1776可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(IR)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。

接口1777可支持可用于直接和无线地将电子装置1701与外部电子装置(例如，电子装置1702)连接的一个或更多个指定协议。根据实施例，接口1777可包括例如高清晰度多媒体接口(HDMI)、通用串行总线(USB)接口、安全数字(SD)卡接口或音频接口。

连接端子1778可包括可允许电子装置1701与外部电子装置(例如，电子装置1702)物理地连接的连接器。根据实施例，连接端子1778可包括例如HDMI连接器、USB连接器、SD卡连接器或音频连接器(例如，耳机连接器)。

触觉模块1779可将电信号转换为用户可通过触觉或动觉感知的机械刺激(例如，振动或移动)或电刺激。根据实施例，触觉模块1779可包括例如电机、压电传感器或电刺激装置。

相机模块1780可拍摄静止图像和视频。根据实施例，相机模块1780可包括一个或更多个镜头、图像传感器、图像信号处理器或闪光灯(或电闪光灯)。根据实施例，相机模块1780可包括2D相机1782或基于红外的深度相机1784。

电力管理模块1788可管理供应给电子装置1701的电力。根据实施例，电力管理模块1688可被实现为例如电力管理集成电路(PMIC)的至少一部分。

电池1789可为电子装置1701的至少一个组件供电。根据实施例，电池1789可包括例如不可充电的原电池、可充电的蓄电池或燃料电池。

通信模块1790可在电子装置1701与外部电子装置(例如，电子装置1702、电子装置1704或服务器1708)之间建立直接(或有线)通信信道或无线通信信道，并且可通过建立的通信信道执行通信。通信模块1790可包括独立于处理器1720(例如，应用处理器)操作并且支持直接(或有线)通信或无线通信的一个或更多个通信处理器。根据实施例，通信模块1790可包括无线通信模块1792(例如，蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(GNSS)通信模块)或有线通信模块1794(例如，局域网(LAN)通信模块或电力线通信模块)。这些通信模块中的相应的通信模块可通过第一网络1798(例如，诸如蓝牙、Wi-Fi直接或红外数据协会(IrDA)的短距离通信网络)或第二网络1799(例如，诸如蜂窝网络、互联网或计算机网络(例如，LAN或WAN)的长距离通信网络)与外部电子装置通信。上述种类的通信模块可被集成在一个组件(例如，单个芯片)中，或者可被实现为彼此独立的多个组件(例如，多个芯片)。无线通信模块1792可通过使用存储在用户识别模块1796中的用户信息(例如，国际移动用户识别码(IMSI))来识别和认证通信网络(诸如，第一网络1798或第二网络1799)内的电子装置1701。

天线模块1797可向外部(例如，外部电子装置)发送信号或电力，或者可从外部接收信号或电力。根据实施例，天线模块可由导体或导电图案形成；根据一些实施例，除了导体或导电图案之外，天线模块还可包括其它部件(例如，RFIC)。根据实施例，天线模块1797可包括一个或更多个天线；这样，例如，可通过通信模块1790选择适合于在通信网络(诸如，第一网络1798或第二网络1799)中使用的通信方案的至少一个天线。可通过选择的至少一个天线在通信模块1790与外部电子装置之间交换信号或电力，或者可通过选择的至少一个天线和通信模块190从外部电子装置接收信号或电力。

组件的至少一部分可通过外围装置之间的通信方案(例如，总线、通用输入输出(GPIO)、串行外围接口(SPI)或移动工业处理器接口)彼此连接，并且可彼此交换信号(例如，命令或数据)。

根据实施例，可通过连接到第二网络1799的服务器1708在电子装置1701与外部电子装置1704之间发送或接收(或交换)命令或数据。电子装置1702和1704中的每个可以是类型与电子装置1701的类型不同或相同的装置。根据实施例，将在电子装置1701中执行的全部操作或部分操作可在外部电子装置1702、1704或1708的一个或更多个外部装置中执行。例如，在电子装置1701应自动地或响应于来自用户或任何其它装置的请求而执行任何功能或服务的情况下，电子装置1701可另外请求一个或更多个外部电子装置执行所述功能或服务的至少一部分，而不是内部地执行所述功能或服务。接收该请求的所述一个或更多个外部电子装置可执行请求的所述功能或服务的至少一部分，或者执行与该请求相关联的另外的功能或服务，并且可将执行的结果提供给电子装置1701。电子装置1701可按原样或另外处理接收到的结果，并且可将处理的结果作为对请求的响应的至少一部分来提供。为此，例如，可使用云计算、分布式计算或客户端-服务器计算技术。

图18是根据本公开的特定实施例的软件框图。参照图18，电子装置(例如，图17的1701)的软件可包括用于控制电子装置、中间件1744、智能框架1830或内部存储器1826的一个或更多个资源的操作系统(OS)1742。OS可包括例如Android^TM、iOS^TM、Windows^TM、Symbian^TM、Tizen^TM或Bada^TM。例如，当电子装置被制造时，软件程序的至少一部分可被预加载到电子装置上；可选地，当用户使用电子装置时，可从外部电子装置(例如，电子装置1702或1704)或服务器1708下载软件程序的至少一部分，或者可更新软件程序的至少一部分。

OS 1742可控制电子装置的一个或更多个系统资源(例如，进程、存储器或电力)的管理(例如，分配或检索)。另外或可选地，OS 1742可包括用于驱动电子装置1701的任何其它硬件装置(例如，输入装置1750、声音输出装置1755、显示装置1760、行为模块1763、音频模块1770、传感器模块1776、接口1777、触觉模块1779、相机模块1780、电力管理模块1788、电池1789、通信模块1790、用户识别模块1796或天线模块1797)的一个或更多个驱动程序1815。

中间件1744可使用经过信号处理的数据来检测和跟踪用户的面部的位置，或者可通过面部识别来执行认证。中间件1744可识别用户的3D手势，可跟踪音频信号的输入位置(波达方向(DOA))，并且可处理语音识别的信号和各种传感器数据。例如，中间件1744可包括姿态识别管理器1801、面部检测/跟踪/识别管理器1803、传感器信息处理管理器1805、对话工具管理器1807、语音合成管理器1809、声源跟踪管理器1811、或语音识别管理器1813。

例如，智能框架1830可包括多模式融合块1831、用户模式训练块1833或行为控制块(例如，行为控制器)1835。例如，多模式融合块1831可收集和管理由中间件1744处理的各种信息。例如，用户模式训练块1833可使用多模式融合块的信息来提取和训练有意义的信息，诸如，用户的生活模式、偏好等。例如，行为控制块1835可表示将由电子装置(例如，图17的1701)通过移动、图形UI/UX、光、语音响应或声音反馈给用户的信息。

例如，内部存储器1826可包括用户模型DB 1821、行为模型DB 1823或语音模型DB1825。例如，用户模型DB 1821可存储针对每个用户的由智能框架1830训练的信息。例如，行为模型DB 1823可存储用于控制电子装置的行为的信息。例如，存储在每个DB中的信息可存储在无线网络DB(例如，云)1810中或与无线网络DB(例如，云)1810共享。

根据在本公开中公开的特定实施例的电子装置可以是各种类型的装置。所述电子装置可包括例如便携式通信装置(例如，智能电话)、计算机装置、便携式多媒体装置、移动医疗设备、相机、可穿戴装置或家用电器。根据本公开的实施例的电子装置不应限于上述装置。

本公开的特定实施例可用包括存储在可由机器(例如，电子装置1701)读取的存储介质(例如，内部存储器1736或外部存储器1738)中的一个或更多个指令的软件(例如，程序1740)来实现。例如，机器(例如，电子装置1701)的处理器(例如，处理器1720)可从存储介质调用存储的一个或更多个指令中的至少一个指令，然后可执行所述至少一个指令。这使机器能够进行操作以根据已调用的至少一个指令来执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或可由解释器执行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。在此，“非暂时性”仅表示存储介质是有形装置，并且不包括信号(例如，电磁波)，并且该术语不区分将数据半永久地存储在存储介质中的情况和临时存储数据的情况。

根据实施例，可提供根据在此公开的特定实施例的方法以包括在计算机程序产品中。计算机程序产品可在买方与卖方之间作为产品进行交易。可以以机器可读存储介质(例如，光盘只读存储器(CD-ROM))的形式发布计算机程序产品，或者可通过应用商店(例如，PlayStoreTM)直接在两个用户装置(例如，智能电话)之间或在线发布计算机程序产品。在在线发布的情况下，可将计算机程序产品的至少一部分至少临时存储在机器可读存储介质中(诸如，制造商的服务器、应用商店的服务器或中继服务器的存储器)，或者可临时产生计算机程序产品的至少一部分。

根据特定实施例，上述组件中的每个组件(例如，模块或程序)可包括单个实体或多个实体。根据特定实施例，可省略上述组件或操作中的一个或更多个组件或操作，或者可添加一个或更多个其它组件或操作。可选地或另外地，可将多个组件(例如，模块或程序)集成到一个组件中。在这种情况下，集成组件可以以与由集成之前的所述多个组件中的相应组件执行的方式相同或相似的方式来执行所述多个组件中的每个组件的一个或更多个功能。根据特定实施例，可通过连续方式、并行方式、重复方式或启发式方式来执行由模块、程序或其它组件执行的操作，或者可以以不同的顺序执行所述操作中的一个或更多个操作，或者可省略所述操作中的一个或更多个操作。可选地，可添加一个或更多个其它操作。

本公开的特定实施例和在此使用的术语并不旨在将本公开中描述的技术限于指定实施例，并且应理解的是，实施例和术语包括对在此描述的相应实施例的修改、等同和/或替换。关于附图的描述，可通过相似的参考标号标记相似的组件。除非另外说明，否则单数形式的术语可包括复数形式。在在此公开的本公开中，在此使用的表述“A或B”、“A和/或B中的至少一个”、“A、B或C”或“A、B和/或C中的至少一个”等可包括一个或更多个关联列出的项的任意组合和所有组合。诸如“第一”或“第二”等的表述可表示它们的组件，而不管它们的优先级或重要性如何，并且可用于将一个组件与另一组件区分开，但不限制这些组件。当(例如，第一)组件被称为“(可操作地或通信地)与另一(例如，第二)组件“耦合”/“耦合到”另一(例如，第二)组件或“连接到”另一(例如，第二)组件时，该组件可直接与另一组件耦合/耦合到另一组件或连接到另一组件，或者可存在中间组件(例如，第三组件)。

根据情况，在此使用的表述“被适配为…或被配置为…”可互换地用作例如表述“适合于…”、“具有…的能力”、“被改变为…”、“被制造为…”、“能够…”或“被设计为…”。表述“被配置为…的装置”可表示该装置“能够”与另一装置或其它部件一起进行操作。例如，“被配置为(或被设置为)执行A、B和C的处理器”可表示用于执行相应操作的专用处理器(例如，嵌入式处理器)或通过执行存储在存储装置(例如，存储器30)中的一个或更多个软件程序来执行相应操作的通用处理器(例如，中央处理器(CPU)或应用处理器)。

在本说明书中使用的术语“模块”可包括用硬件、软件或固件实现的单元。例如，术语“模块”可与术语“逻辑”、“逻辑块”、“组件”、“电路”等互换使用。“模块”可以是集成部件的最小单元或最小单元的一部分，或者可以是用于执行一个或更多个功能的最小单元或最小单元的一部分。“模块”可被机械地或电地实现，并且可包括例如已知的或将被开发的专用IC(ASIC)芯片、现场可编程门阵列(FPGA)和用于执行一些操作的可编程逻辑装置。

根据特定实施例，可例如由存储在计算机可读存储介质(例如，存储器30)中的指令以程序模块的形式来实现设备(例如，模块或模块的功能)或方法(例如，操作)的至少一部分。所述指令当被处理器(例如，处理器20)执行时可使处理器执行与所述指令相应的功能。计算机可读存储介质可包括硬盘、软盘、磁性介质(例如，磁带)、光学介质(例如，光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光介质(例如，软光盘)、嵌入式存储器等。所述指令可包含由编译器编写的代码或可由解释器执行的代码。

根据在说明书中公开的实施例，提供一种能够准确且快速地面向用户的电子装置。

此外，可提供通过本公开直接或间接理解的各种效果。

虽然已经参考本公开的特定实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离由权利要求及其等同物限定的本公开的情况下，可对其进行形式和细节上的各种改变。

Claims

1.一种电子装置，包括：

壳体；

至少一个相机，被至少部分地布置在壳体内；

多个麦克风，被配置为检测声源的方向；

至少一个驱动器，能够进行操作以使壳体的至少一部分旋转和/或移动；

无线通信电路，被布置在壳体内；

处理器，可操作地连接到相机、麦克风、驱动器和无线通信电路；以及

存储器，可操作地连接到处理器，

其中，存储器存储指令，其中，所述指令在被执行时使处理器执行以下操作：

使用所述多个麦克风接收用户话语；

基于所述用户话语的至少一部分来检测所述用户话语源自的第一方向；

控制驱动器使壳体的至少一部分朝向第一方向旋转和/或移动；

在所述朝向第一方向旋转和/或运动之后，通过在相机被定向在第一方向上的同时使用相机捕捉图像并且分析所述图像中是否存在用户来执行针对第一方向的第一图像扫描；

当在所述图像中未检测到用户时，控制驱动器使壳体的至少一部分在第二方向上旋转和/或移动；并且

执行针对第二方向的第二图像扫描。

2.如权利要求1所述的电子装置，其中：在检测到第一方向之后，控制驱动器使壳体的至少一部分朝向第一方向旋转和/或移动的步骤包括：控制壳体朝向第一方向以第一旋转速度和/或第一移动速度旋转和/或移动。

3.如权利要求2所述的电子装置，其中，所述指令在被执行时还使处理器执行以下操作：

当在所述图像中未检测到用户时，控制壳体在第二方向上以第二旋转速度和/或第二移动速度旋转和/或移动。

4.如权利要求3所述的电子装置，其中，第二旋转速度小于第一旋转速度并且第二移动速度小于第一移动速度。

5.如权利要求1所述的电子装置，其中，驱动器包括电机和/或车轮。

6.如权利要求1所述的电子装置，其中，所述指令在被执行时还使所述处理器执行以下操作：

基于所述用户话语的至少一部分，检测所述用户话语源自的至少两个潜在方向，其中，所述至少两个潜在方向包括第一潜在方向和第二潜在方向；并且

计算第一潜在方向的第一可靠性值和第二潜在方向的第二可靠性值，

其中，基于第一可靠性值大于第二可靠性值，将具有第一可靠性值的第一潜在方向设置为第一方向，并且将具有第二可靠性值的第二潜在方向设置为第二方向。

7.如权利要求1所述的电子装置，其中，存储器还存储预定的唤醒话语，并且所述指令在被执行时还使处理器执行以下操作：

基于检测到所述唤醒话语的接收，配置所述电子装置接收命令话语。

8.如权利要求7所述的电子装置，其中，所述用户话语包括所述命令话语，并且所述命令话语在所述电子装置被配置为接收所述唤醒话语之后被接收。

9.如权利要求1所述的电子装置，其中，当在所述图像中未检测到用户时，所述指令在被执行时还使所述处理器执行以下操作：

产生请求输入另外用户话语的提示；并且

在通过所述多个麦克风接收到所述另外用户话语之后，检测在所述用户话语中指示的第一语音特征是否与在所述另外用户话语中指示的第二语音特征匹配，

其中，当第一语音特征与第二语音特征匹配时，基于所述另外用户话语的至少一部分来检测第二方向。

10.一种用于控制电子装置的方法，所述方法包括：

使用多个麦克风接收用户话语；

基于所述用户话语的至少一部分，由驱动器使所述电子装置的至少一部分朝向检测到所述用户话语的第一方向旋转和/或移动；

在所述朝向检测到所述用户话语的第一方向旋转和/或移动之后，使用相机在第一方向上执行第一图像扫描；

当通过第一图像扫描未在第一方向上检测到所述用户话语的用户时，由驱动器使所述电子装置的至少一部分在第二方向上旋转和/或移动；并且

使用相机在第二方向上执行第二图像扫描。

11.如权利要求10所述的方法，其中，使所述电子装置的至少一部分在朝向检测到所述用户话语的第一方向上旋转和/或移动的步骤包括：

使所述电子装置的至少一部分以第一速度旋转和/或移动，并且

其中，使所述电子装置的至少一部分在第二方向上旋转和/或移动的步骤包括：

使所述电子装置的至少一部分以第二速度旋转和/或移动。

12.如权利要求10所述的方法，所述方法还包括：

13.如权利要求10所述的方法，所述方法还包括：

基于检测到预定的唤醒话语的接收，配置所述电子装置接收命令话语。

14.如权利要求10所述的方法，其中，所述方法还包括：

当从所述用户话语检测到唤醒话语时，从所述用户话语中的所述唤醒话语之后接收到的声音信息检测命令话语；并且

当检测到所述命令话语时，控制驱动器使壳体的至少一部分在第一方向上旋转和/或移动。

15.如权利要求10所述的方法，所述方法还包括：

产生请求输入另外用户话语的提示；并且