CN110663021A

CN110663021A - 关注出席用户的方法和系统

Info

Publication number: CN110663021A
Application number: CN201880033439.0A
Authority: CN
Inventors: 袁媛; 约翰·沙尔克维克; 肯尼斯·米克斯特
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-11-06
Filing date: 2018-08-14
Publication date: 2020-01-07
Anticipated expiration: 2038-08-14
Also published as: WO2019089108A1; US11789697B2; US11086597B2; US20200285443A1; EP3602272A1; US20210334070A1; CN110663021B; EP3602272B1

Abstract

本文所述各种实施方式包括用于关注出席用户的方法、装置和系统。在一个方面中，在包括图像传感器、麦克风、显示器、处理器和存储器的电子装置处进行所述方法。所述装置(1)通过同时在每个麦克风处接收音频数据来获得音频信号；(2)基于所获得的音频信号，确定有人在电子装置附近讲话；(3)从图像传感器获得视频数据；(4)经由视频数据确定该人不在图像传感器的视野之内；(5)基于所接收到的音频数据中的差异来重新定向电子装置；(6)在重新定向电子装置之后，从图像传感器获得第二视频数据，并确定该人在视野之内；以及(7)通过将显示器指向该人来关注该人。

Description

关注出席用户的方法和系统

技术领域

本发明一般涉及自动助理，包括但不限于在有自动助理的房间中关注讲话者的方法和系统。

背景技术

集成了麦克风和相机的电子装置广泛用于收集来自用户的听觉和视觉数据，并根据语音输入来实现语音激活功能。装置越来越能够访问信息并向用户呈现信息。但是，呈现视觉信息的装置必须朝向用户，以便用户查看所呈现的信息。对于在装置周围移动到不同位置的用户来说这可能有问题。

因此，希望采用这样一种电子装置，它集成了麦克风和相机，以定位并朝向房间中的讲话者。对于自动助理装置，还希望它们关注正在寻址它们的用户。

发明内容

存在用于在房间中定位并关注讲话者的方法、装置和系统的需要。在后附权利要求保护范围内的系统、方法和装置的各种实施方式均具有多个方案，没有一个方案单独负责本文所述的属性。在不限制后附权利要求保护范围的情况下，在考虑本公开之后，特别是在考虑标题为“说明书”的部分之后，应当理解如何使用各种实施方式的方案来自动(没有用户输入)定位并关注讲话者。例如，存在对对听觉和视觉用户输入都做出响应的电子装置的需要。通过定位用户，指示他们正在聆听用户，并在诸如视频会议的设置中向用户呈现可视化结果，这些电子装置可以创建与用户的有效且增强的交互体验。此外，希望电子装置以对用户而言看起来自然的风格来显示对讲话者的关注。

例如，可将自动助理装置用于经由听觉和视觉媒体与用户交互。这种助理装置还可以使用听觉和视觉输入来定位用户并关注该用户(例如，重新定向自己以更好地从用户接收信息和/或更好地向用户呈现信息)。因为用户不需要移动到特定位置来查看装置上的显示数据，也不需要手动重新定向装置，所以这样可以改善用户的体验。

集成了麦克风和相机的电子装置广泛用于收集来自用户的听觉和视觉输入。通过组合多种感测技术，这些电子装置可以在房间内以高精度和低延迟找到用户。

所述实施方式相对于纯粹基于音频信号的用户定位方法具有优点，纯粹基于音频信号的用户定位方法存在与找到去往用户的路径可能不直接相关联的问题。例如，在装置后面是坚硬墙壁或表面的情况下，装置可以将从后壁反射的路径认作为是通向用户的路径。

在一些实施方式中，采用具有多个麦克风和安装在马达上的广角相机的电子装置来定位用户，例如，以指示该装置在聆听用户或获得其可视化结果用于视频会议。

在一些实施方式中，用户用已知热词/关键词来寻址装置。在一些实施方式中，将装置配置为识别讲话用户。在一些实施方式中，将装置配置为识别讲话用户。

在一些实施方式中，响应于检测到来自用户的热词，装置从其相机获得视频数据，并基于该视频数据确定用户在相机的视野中。在一些实施方式中，根据确定用户在相机的视野中，装置在相机的视野之内将用户居中。

但是在一些情况下，讲话用户不在相机的视野中。在一些实施方式中，在确定用户不在相机的视野中之后，装置重新定向以寻找用户。在一些实施方式中，装置基于用户向装置发出热词时接收到的音频的波束成形来决定在哪里寻找。在一些实施方式中，装置：(i)创建多个热词波束，(ii)识别具有最高信噪比的波束，以及(iii)在具有最高信噪比的波束的方向上定位用户。在一些实施方式中，如果用户并非位于具有最高信噪比的波束的方向上，则装置继续在具有第二高信噪比的波束的方向上寻找。在一些实施方式中，装置可通过检查附加非水平波束的功率来自适应地细分，上下左右寻找。

例如，用户John用热词(“OK assistant”)寻址装置。装置通过语音识别用户是John，但是在相机视野中看不到John。装置确定热词能量主要来自装置后面和上面的方向，并因此沿热词能量的方向旋转和倾斜相机。装置找到John的脸并使相机居中，使John确信装置在关注他。

因此，通过组合多种高级听觉和视觉感测技术，装置能够以高精度和低延迟找到用户。在一些实施方式中，装置寻找用户时的风格对用户而言看起来也自然，从而改善用户与装置的交互。

在一个方面中，一些实施方式包括在具有图像传感器、多个麦克风、显示器、一个或多个处理器以及存储器的电子装置处进行的关注出席用户的方法。该方法包括：(1)通过同时在多个麦克风中的每个麦克风处接收音频数据来获得音频信号；(2)基于所获得的音频信号，确定有人在所述电子装置附近讲话；(3)从所述图像传感器获得视频数据；(4)基于对所述视频数据的分析，确定所述人不在所述图像传感器的视野之内；(5)基于在所述多个麦克风中的各个麦克风处接收到的所述音频数据中的差异来重新定向所述电子装置；(6)在重新定向所述电子装置之后，从所述图像传感器获得第二视频数据，并根据所述第二视频数据确定所述人在所述图像传感器的视野之内；(7)以及通过将所述显示器指向所述人来关注该人。在一些实施方式中，显示器包括屏幕(例如触摸屏)、一个或多个LED和/或具有一个或多个功能可见性的用户界面。

在另一个方面中，一些实施方式包括一种计算系统，其包括一个或多个处理器以及被联接到所述一个或多个处理器的存储器，所述存储器存储被配置为通过所述一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于进行本文所述任一项方法的指令。

在另一个方面中，一些实施方式包括存储用于通过计算系统的一个或多个处理器执行的一个或多个程序的非暂时性计算机可读存储介质，所述一个或多个程序包括用于进行本文所述任一项方法的指令。

因此，向装置、存储介质和计算系统提供用于关注房间中讲话用户的方法，从而增强用户交互(例如，提高交互的准确性和/或效率)以及用户对这种系统的满意度。这种方法可以补充或替代与用户交互的常规方法。

附图说明

为了更好地理解各种所述实施方式，结合以下附图参考以下实施方式的描述，其中，相似的附图标记在所有附图中表示对应的部分。

图1A-图1C示出根据一些实施方式的用于关注讲话用户的代表性电子装置和显示器。

图2是示出根据一些实施方式的包括电子装置和服务器系统的代表性操作环境的方框图。

图3是示出根据一些实施方式的代表性电子装置的方框图。

图4是示出根据一些实施方式的代表性服务器系统的方框图。

图5A-图5B示出根据一些实施方式的图3的电子装置的代表性操作。

图6A-图6B示出根据一些实施方式的图3的电子装置的另一个代表性操作。

图7A-图7B示出根据一些实施方式的图3的电子装置的另一个代表性操作。

图8A-图8C是根据一些实施方式的用于关注讲话用户的方法的流程图。

在所有附图中，相同的附图标记表示对应的部分。

具体实施方式

下面详细参考实施方式，附图示出其示例。在下面的详细描述中，给出很多具体细节，以便提供对各种所述实施方式的透彻理解。但是，对于本领域技术人员而言显然，没有这些具体细节也可以实践各种所述实施方式。在其它情况下，没有详细描述公知的方法、过程、组件、电路和网络，以免不必要地混淆实施方式的方案。

集成了麦克风和相机的电子装置可用于收集来自用户的听觉和视觉输入，并根据语音输入实现语音激活功能。一些电子装置包括语音助理功能，该语音助理功能被配置为使用听觉输入来进行多项任务。这些装置的功能可以进一步扩展，以定位并关注用户。

例如，Jane在向自动助理装置发出多个请求的同时在房间中游走。助理装置接收请求并呈现响应，该响应包括供Jane查看的视觉信息。为了适应Jane的移动，助理装置使用听觉和视觉提示在Jane在房间中游走时不断对她重新定向。这使得Jane能够在不中断她活动的情况下查看视觉信息。助理装置还使她确信，该助理装置活跃并且在关注她。在一些情况下，重新定向助理装置还提高了Jane在装置处接收到的语音的质量以及Jane听到的装置音频质量。

图1A示出根据一些实施方式的用于关注讲话用户的电子装置100。在一些实施方式中，电子装置100包括麦克风102(例如102-1和102-2)、照明器阵列104(例如LED)、一个或多个扬声器106、相机108和显示器110。在一些实施方式中，电子装置100可以在一个或多个方向上旋转(例如，沿着轴线112和/或轴线114，具有由各个箭头指示的对应旋转方向)，因此使得电子装置100能够将相机108和显示器110指向讲话用户。在一些实施方式中，相机108和/或显示器110独立绕多个轴平移和/或旋转(未示出)。在一些实施方式中，在电子装置100不旋转的情况下实现相机108和显示器110的平移和/或旋转。此外，电子装置100的后侧选择性地包括被配置为联接到电源(未示出)的电源连接器。在一些实施方式中，电子装置100包括比图1A所示更多或更少的麦克风102。在一些实施方式中，将麦克风102布置在电子装置100内除了图1A所示位置之外的位置。在一些实施方式中，电子装置100包括一个以上的相机108。在一些实施方式中，电子装置100包括一个以上的显示器，或者没有显示器。在一些实施方式中，显示器100包括照明器阵列104。在一些实施方式中，显示器100由一个或多个照明器组成。在一些实施方式中，显示器100包括零个或多个屏幕以及一个或多个照明器。在一些实施方式中，显示器100包括一个或多个被配置为呈现视觉数据的组件。

在一些实施方式中，电子装置100是语音激活的。在一些实施方式中，电子装置100呈现没有可见按钮的简洁外观，并且与电子装置100的交互基于语音和触摸手势。替代性地，在一些实施方式中，电子装置100包括一个或多个物理按钮(未示出)，并且除了语音和/或触摸手势之外，与电子装置的交互还基于对按钮的按压。

图1B示出根据一些实施方式的用于关注讲话用户的另一个电子装置120。在一些实施方式中，电子装置120包括在基座122上的电子装置100，基座122包括通过铰链126连接的致动器124。在一些实施方式中，将基座122配置为改变电子装置120的高度(例如，将其升高到讲话用户的眼睛高度)，以便更好地关注用户。在一些实施方式中，致动器124包括允许线性运动的液压、气动、电动、机械、可伸缩和机电致动器和/或允许旋转运动的其它致动器(例如，电动机)。在一些实施方式中，电子装置120包括比图1B所示更多或更少的致动器124和/或铰链126。虽然图1B示出致动器在装置100的壳体外部，但是在一些实施方式中，将致动器和/或马达封闭在装置的壳体之内。在一些实施方式中，致动器124在装置120内部。例如，将相机选择性地安装到壳体内部的轨道或其它导轨，将升高器或用于改变高度的其它结构选择性地容置在壳体内部等等。在一些实施方式中，电子装置120还包括轮子130上的平台128，使得电子装置120能够响应于识别用户的位置而移动到用户附近。在一些实施方式中，电子装置120包括夹臂(未示出)，夹臂在固定电子装置100的同时帮助电子装置100的运动。

图1C示出根据一些实施方式的显示器140及其运动范围。在一些实施方式中，显示器140是图1A和图1B所示的显示器110。显示器140的运动选择性地使用笛卡尔坐标系或极坐标系来限定。在一些实施方式中，显示器140的运动包括绕x轴的旋转142(例如滚动)，绕y轴的旋转144(例如俯仰)，绕z轴的旋转146(例如偏航)和/或倾斜148。在一些实施方式中，显示器140可通过平移的方式移动，例如，在箭头152所示的方向上升高或降低和/或在箭头154所示所示的方向上前进或后退。在一些实施方式中，显示器140连接到接头(例如球形接头和套管接头)(未示出)，且显示器140的运动由接头连接确定。

图2是示出根据一些实施方式的操作环境200的方框图，包括电子装置202、服务器系统206、220和一个或多个内容主机230。在一些实施方式中，电子装置202包括电子装置100和/或电子装置120。在一些实施方式中，电子装置202位于限定空间内的一个或多个位置处，例如在结构的单个房间或空间内，或者在开放空间的限定区域内。

根据一些实施方式，电子装置202通过通信网络210可通信地联接到服务器系统206、智能助理系统220和一个或多个内容主机230。在一些实施方式中，内容主机230是远程内容源，根据用户请求由其流传输或以其它方式获得内容。在一些实施方式中，内容主机230是信息源，智能助理系统220根据用户请求由其检索信息。

在一些实施方式中，电子装置202是语音激活的装置，并且用户请求是用户语音请求(例如语音命令)。电子装置202通过以下方式来响应语音命令：生成并提供对语音命令的言语响应(例如，响应于问题“现在几点？”而说出当前时间)；以及用户请求的流媒体内容(例如“播放沙滩男孩的歌曲”)；阅读为用户准备的新闻故事或每日新闻简报；播放存储在个人助理装置或局域网中的媒体项目；在操作环境200内改变状态或操作一个或多个其它连接的装置(未示出)(例如，打开/关闭灯、电器或媒体装置，锁定/解锁，开窗等)；或经由网络210向服务器发出对应的请求。在一些实施方式中，电子装置202经由照明器阵列104(例如LED)显示一个或多个视觉图案，以传达信息或通过视觉方式指示电子装置202的各种语音处理状态。

在一些实施方式中，服务器系统206包括前端服务器212，其帮助经由通信网络210在服务器系统206与电子装置202之间的通信。例如，前端服务器212接收来自电子装置202的听觉内容(例如，听觉内容是热词和/或讲话)和/或视觉内容(例如，视频信号)。在一些实施方式中，将前端服务器212配置为向电子装置202发送信息。在一些实施方式中，将前端服务器212配置为向电子装置202发送响应信息(例如，通过他/她的名字来寻址用户和/或将关注指向用户)。在一些实施方式中，将服务器212配置为向电子装置202发送数据和/或超链接。例如，将前端服务器212配置为向电子装置202发送更新(例如，数据库更新)。例如，将前端服务器212配置为从电子装置202接收听觉和/或视觉数据，并将方位信息发送给电子装置202。

在一些实施方式中，服务器系统206包括响应模块214，响应模块214根据从电子装置202收集到的音频信号和/或视频信号来确定关于讲话用户的信息。在一些实施方式中，响应模块从个人数据库216获得讲话用户的身份(例如，将经由前端服务器212发送给电子装置)。

在一些实施方式中，服务器系统206包括个人数据库216，其存储关于已知人员的信息。例如，个人数据库216包括关于已知人员的语音签名和/或面部特征识别信息。

在一些实施方式中，环境200包括多个电子装置202(例如，装置202-1至202-N)。在一些实施方式中，装置202位于整个环境200中(例如，全部位于结构中的房间或空间之内，分布在整个结构中，一部分在结构内且一部分不在结构内)。当用户发出音频请求时，每个装置202要么接收请求，要么不接收输入(例如，如果装置离用户太远)。在一些实施方式中，电子装置202以不同的质量等级接收请求。在装置202输入的语音样本的质量选择性地基于多个因素，包括但不限于用户到装置的距离以及装置周围的噪声。在一些实施方式中，多个装置202基于所接收到的语音输入样本的质量，在它们之间协商领导者以响应和/或关注用户，以及从用户接收其它的语音输入。

图3是示出根据一些实施方式的电子装置202的方框图。在一些实施方式中，电子装置202包括一个或多个处理器302、一个或多个网络通信接口304、存储器306以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线308。

在一些实施方式中，电子装置202包括帮助听觉输入、视觉输入和/或用户输入的一个或多个输入装置312，例如麦克风314、按钮316、触摸传感器阵列318以及一个或多个相机319。在一些实施方式中，麦克风314包括麦克风102和/或其它麦克风。在一些实施方式中，相机319包括相机108和/或其它相机。在一些实施方式中，电子装置202包括一个或多个用户功能可见性，例如拨号盘、按钮或开关。

在一些实施方式中，电子装置202包括一个或多个帮助听觉输出和/或视觉输出的输出装置322，包括一个或多个扬声器324、LED 326、显示器328以及一个或多个致动器330。在一些实施方式中，LED 326包括照明器104和/或其它LED。在一些实施方式中，扬声器324包括扬声器106和/或其它扬声器。在一些实施方式中，显示器328包括显示器140和/或其它显示器。在一些实施方式中，致动器330包括使得电子装置202改变位置和/或高度的致动器(例如，图1B的致动器126)，以及使得电子装置202改变方位(例如，经由围绕图1A所示的轴线112和/或轴线114旋转)和/或装置中的运动(例如，经由图1B中的轮子130)的其它致动器(例如，电动机)。在一些实施方式中，致动器330在显示器328中产生一个或多个旋转、倾斜和/或平移运动(例如，旋转142、旋转144、旋转146、倾斜148、平移152和/或平移154，如图1C所示)。

在一些实施方式中，电子装置202包括无线电装置320和一个或多个传感器330。无线电装置320使得能够连接到一个或多个通信网络，并允许电子装置202与其它装置通信。在一些实施方式中，无线电装置320能够使用各种定制或标准无线协议(例如，IEEE802.15.4、Wi-Fi、ZigBee、6LoWPAN、Thread、Z-Wave，Bluetooth Smart，ISA100.5A、WirelessHART，MiWi等)、定制或标准有线协议(例如，Ethernet、HomePlug等)和/或任何其它合适的通信协议，包括截至本文提交日尚未开发的通信协议的任何一个进行数据通信。

在一些实施方式中，传感器330包括一个或多个运动传感器(例如加速度计)、光传感器、定位传感器(例如GPS)和/或音频传感器。在一些实施方式中，定位传感器包括一个或多个位置传感器(例如被动红外(PIR)传感器)和/或一个或多个方位传感器(例如陀螺仪)。

存储器306包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器装置；以及选择性地，包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其它非易失性固态存储装置。存储器306选择性地包括一个或多个远离一个或多个处理器302的存储装置。存储器306或替代性地存储器306内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器306或存储器306的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作逻辑332，所述操作逻辑332包括用于处理各种基本系统服务和进行硬件相关任务的过程；

·用户界面模块334，所述用户界面模块334用于提供和显示用户界面，在所述用户界面中，可以配置和/或查看设置、捕获的包括热词的数据和/或其它数据；

·无线电通信模块336，所述无线电通信模块336用于连接经由一个或多个通信接口304(有线或无线)联接到一个或多个通信网络210的其它网络装置并与之通信；

·音频输出模块338，所述音频输出模块338用于确定和/或呈现音频信号(例如，结合扬声器324)；

·音频处理模块340，所述音频处理模块340用于获得和/或分析音频信号(例如，结合麦克风314)，包括但不限于：

ο热词检测子模块3401，所述热词检测子模块3401用于确定音频信号是否包括用于唤醒电子装置202并在音频信号中识别热词；

ο麦克风分析子模块3402，所述麦克风分析子模块3402用于分析从输入装置(例如，麦克风314)收集到的音频信号并确定音频属性(例如，音频签名、频率、相移和/或相位差)；

ο听觉定位器子模块3403，所述听觉定位器子模块3403用于识别和分析热词和/或音频波束，以确定一个或多个热词和/或音频波束属性(例如，方向、信噪比等)；以及

ο听觉识别子模块3404，所述听觉识别子模块3404用于例如通过将获得的音频信号与个人数据库350中存储的听觉识别数据3501进行比较来获得讲话者的身份；

·视频处理模块342，所述视频处理模块342用于获取和/或分析视频数据(例如，结合相机319)，包括但不限于：

ο视觉语音检测子模块3421，所述视觉语音检测子模块3421用于通过分析在讲话期间产生的视觉信号(例如，张开嘴唇和/或抬起眉毛)来确定视频数据中的讲话者；以及

ο视觉识别子模块3422，所述视觉识别子模块3422用于基于所收集到的视频数据来确定讲话者是否在相机的视野中；以及例如通过将所获得的视频数据与个人数据库350中的视觉识别数据3502进行比较来来获得讲话者的身份；

·置信度分析模块344，所述置信度分析模块344用于使用音频处理模块340和视频处理模块342，基于所分析的音频信号和/或视频数据，将置信度得分分配给各个识别的讲话者；基于置信度得分对各个识别的讲话者进行排名；以及/或基于分配的最高置信度得分确定讲话者；以及

·响应模块346，所述响应模块346用于将关注指向讲话用户，包括但不限于：

ο关注控制子模块3461，所述关注控制子模块3461用于基于分配的最高置信度得分来识别讲话者；以及将关注指向所识别的讲话者(例如，通过讲话者的名字来确认他/她)；以及

ο致动器控制子模块3462，所述致动器控制子模块3462用于控制致动器330以将电子装置202指向所识别的讲话者(例如，朝向讲话者旋转电子装置202、旋转显示器328、倾斜显示器328和/或平移显示器328)；以及

·装置数据库348，所述装置数据库348用于存储与电子装置202相关联的信息，包括但不限于：

ο来自传感器330的传感器信息3481；

ο电子装置202的装置设置3482，例如默认选项和优选用户设置；以及

ο通信协议信息3503，所述通信协议信息3503指定电子装置202所要使用的通信协议；

·用于存储个人信息的个人数据库350，根据一些实施方式，包括以下数据集或其子集或超集：

ο听觉识别数据3501，所述听觉识别数据3501包括对应于特定人员的听觉信息(例如，音频签名、音频指纹等)；以及

ο视觉识别数据3502，所述视觉识别数据3502包括对应于特定人员的视觉信息(例如，面部特征、头发颜色、眼睛颜色等)。

以上所标识的模块中的每个模块都可以选择性地存储在本文所述的一个或多个存储装置中，并且对应于用于进行上述功能的指令集。以上所标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其它方式重新布置。在一些实施方式中，存储器306存储以上所标识的模块和数据结构的子集。此外，存储器306选择性地存储以上未描述的附加模块和数据结构(例如，用于存储电子装置202所在房间的布局的模块)。在一些实施方式中，将程序的子集、模块和/或存储器306中存储的数据存储在服务器系统206和/或语音辅助服务器224上和/或由其执行。

图4是示出根据一些实施方式的服务器系统206的方框图。根据一些实施方式，服务器系统206包括一个或多个处理器402、一个或多个网络接口404、存储器410、以及用于互连这些组件(有时称为芯片组)的一个或多个通信总线408。

服务器系统206选择性地包括一个或多个帮助用户输入的输入装置412，例如键盘、鼠标、语音命令输入单元或麦克风、触摸屏显示器、触敏输入板、手势捕获相机、或其它输入按钮或控件。在一些实施方式中，服务器系统206选择性地使用麦克风和语音识别或相机和手势识别来补充或替代键盘。服务器系统206选择性地包括一个或多个输出装置414，其使得能够呈现用户界面和显示内容，例如一个或多个扬声器和/或一个或多个视觉显示器。

存储器410包括高速随机存取存储器，例如DRAM、SRAM、DDR RAM或其它随机存取固态存储器装置；以及选择性地包括非易失性存储器，例如一个或多个磁盘存储装置、一个或多个光盘存储装置、一个或多个闪存装置或一个或多个其它非易失性固态存储装置。存储器410选择性地包括一个或多个远离一个或多个处理器402的存储装置。存储器410或替代性地存储器410内的非易失性存储器包括非暂时性计算机可读存储介质。在一些实施方式中，存储器410或存储器410的非暂时性计算机可读存储介质存储以下程序、模块和数据结构或其子集或超集：

·操作系统416，所述操作系统416包括用于处理各种基本系统服务和进行硬件相关任务的过程；

·前端212，所述前端212用于将服务器系统206可通信地联接到其它装置(例如，电子装置202)和一个或多个网络，例如互联网、其它广域网、局域网、城域网等；

·用户界面模块420，所述用户界面模块420用于在服务器系统处或远程电子装置处实现信息的呈现(例如，用于呈现应用程序、窗口小部件、网站及其网页、游戏、音频和/或视频内容、文本等的图形用户界面)；

·装置注册模块422，所述装置注册模块422用于注册与服务器系统206一起使用的装置(例如，电子装置202)；

·音频处理模块424，所述音频处理模块424用于获得和/或分析音频信号，包括但不限于：

ο热词检测子模块4241，所述热词检测子模块4241用于确定音频信号是否包括用于唤醒电子装置(例如，电子装置202)并在音频信号中识别热词；

ο麦克风分析子模块4242，所述麦克风分析子模块4242用于分析从一个或多个电子装置(例如，电子装置202)收集到的音频信号并确定音频属性(例如，音频签名、频率、相移和/或相位差)；

ο听觉定位器子模块4243，所述听觉定位器子模块4243用于基于用户对装置(例如，电子装置202)进行热词检测时听到的音频来分析音频波束，并用于确定音频波束属性(例如，方向、信噪比等)；以及

ο听觉识别子模块4244，所述听觉识别子模块4244用于例如通过将从电子装置(例如，电子装置202)获得的音频信号与个人数据库350中存储的听觉识别数据3501进行比较来获得讲话者的身份；

·视频处理模块426，所述视频处理模块426用于获得和/或分析所收集到的视频数据，包括但不限于：

ο视觉语音检测子模块4261，所述视觉语音检测子模块4261用于根据电子装置(例如，电子装置202)的视频数据确定讲话者，例如，通过分析讲话期间产生的视觉信号(例如，张开嘴唇和/或扬起眉毛)；以及

ο视觉识别子模块4262，所述视觉识别子模块4262用于基于所收集到的视频数据来确定讲话者是否在电子装置的相机(例如，电子装置202的相机319)的视野中；和/或例如通过将所获得的视频数据与个人数据库216中的视觉识别数据2162进行比较来获得讲话者的身份；

·置信度分析子模块428，所述置信度分析子模块428用于将置信度得分分配给从音频处理模块424和视频处理模块426获得的各个识别的讲话者；基于置信度得分对各个识别的讲话者进行排名；和/或基于分配的最高置信度得分确定讲话者；

·响应模块214，所述响应模块214用于将关注指向讲话用户，包括但不限于：

ο注意控制子模块4291，所述注意控制子模块4291用于基于分配的最高置信度得分来识别讲话者；以及引导电子装置(例如，电子装置202)以关注所识别的讲话者(例如，通过讲话者的名字来确认他/她)；以及

ο致动器控制子模块4292，所述致动器控制子模块4292用于确定与讲话者的位置相对应的坐标(例如，笛卡尔坐标和/或极坐标)；以及将电子装置的致动器(例如，电子装置202的致动器330)指向讲话者的位置；以及

·服务器系统数据430，所述服务器系统数据430存储与服务器系统206相关联的数据，包括但不限于：

ο客户端装置设置4301，所述客户端装置设置4301包括用于一个或多个电子装置(例如，电子装置202)的装置设置，例如通用装置设置(例如，服务层、装置模型、存储容量、处理能力、通信能力等)以及用于自动媒体显示控制的信息；

ο音频装置设置4302，所述音频装置设置4302包括与服务器系统206相关联的音频装置(例如，电子装置202)的音频设置，例如通用和默认设置(例如，扬声器和/或麦克风的音量设置等)；以及

ο语音辅助数据4303，所述语音辅助数据4303用于语音激活装置和/或语音辅助服务器224的用户帐户，例如帐户访问信息以及用于一个或多个电子装置202的信息(例如，服务层、装置模型、存储容量、处理能力、通信能力等)；以及

·用于存储个人信息的个人数据库350，根据一些实施方式，用于存储个人信息的个人数据库350包括以下数据集或其子集或超集：

ο听觉识别数据4321，所述听觉识别数据4321包括对应于特定人员的听觉信息(例如，音频签名、音频指纹等)；以及

ο视觉识别数据4322，所述视觉识别数据4322包括对应于特定人员的视觉信息。

在一些实施方式中，服务器系统206包括通知模块(未示出)，所述通知模块用于为电子装置的用户生成警报和/或通知。例如，在一些实施方式中，个人数据库216本地存储在用户的电子装置上，服务器系统206可以生成通知以警告用户将最新版本或更新下载到个人数据库。

以上所标识的元素的每个元素都可以存储在本文所述的一个或多个存储装置中，并且对应于用于进行上述功能的指令集。以上所标识的模块或程序不需要实现为单独的软件程序、过程、模块或数据结构，因此这些模块的各个子集可以在各种实施方式中组合或以其它方式重新布置。在一些实施方式中，存储器410选择性地存储以上所标识的模块和数据结构的子集。此外，存储器410选择性地存储以上未描述的附加模块和数据结构。

图5A-5B示出根据一些实施方式的图3的电子装置202的代表性操作。在该示例中，电子装置202是图1A所示的电子装置100。图5A示出房间500，包括工作台502、桌子504和沙发506。如图5A所示，电子装置100最初在工作台502上，其中电子装置100的相机108和显示器110朝向位于房间500右侧(+x方向)的墙壁508。相机108的视野由线512表示。用户520通过说出热词(“OK Assistant”)来寻址电子装置100。在一些实施方式中，电子装置100处于待机模式，并且对热词(有时也称为“唤醒词”)的检测唤醒电子装置100(例如，经由热词检测子模块3401)。

图5B示出根据一些实施方式的电子装置100，其响应于对用户520所说热词的检测。如图5B中所示，电子装置100重新定向，使得用户520在装置的视野之内，并通过以名字(“Yes,Jane？”)寻址用户520来做出响应。在一些实施方式中，响应于所检测到的热词，电子装置100基于所获得的热词信号来确定有人520在电子装置附近讲话(例如，通过识别一个或多个热词波束并使用听觉定位器子模块3402确定它们对应的确定信噪比)。在一些实施方式中，电子装置100通过将所获得的音频信号与听觉识别数据进行比较来获得讲话者的身份(例如，使用听觉识别子模块3404)。

在一些实施方式中，响应于所检测到的热词，电子装置100还确定讲话者520不在相机108的视野中(例如，使用视觉语音检测子模块3421和/或视觉识别子模块3422)。在一些实施方式中，电子装置100基于在各个麦克风102处接收到的音频数据中的差异来重新定向自己。在一些实施方式中，对电子装置100的定向包括旋转电子装置100(例如，绕轴线112和/或绕轴线114)。在一些实施方式中，在重新定向之后，电子装置100从相机108获得视频数据，并根据视频数据确定讲话者现在正在视野中。在一些实施方式中，电子装置100将关注指向所识别的讲话用户，包括通过其名字(“Yes Jane？”)来确认讲话者(例如，使用关注控制子模块3461)。在一些实施方式中，将关注指向所识别的讲话用户包括在电子装置100上重新放置一个或多个物理特征(例如，重新放置照明器阵列104)。在一些实施方式中，将关注指向所识别的讲话用户包括重新定向视觉数据的呈现(例如，重新定向来自照明器阵列104的照明)。在一些实施方面中，将关注指向所识别的讲话用户包括调整朝向所识别的用户的视觉数据的呈现的方向性(例如，调整来自照明器阵列104的照明，以指示所识别的用户的方向)。

图6A-6B示出根据一些实施方式的图3的电子装置202的另一个代表性操作。在该示例中，电子装置202是图1B所示的电子装置120。图6A示出房间500，其中电子装置120位于桌子504上。如图6A所示，电子装置120的相机108和显示器110最初指向工作台502。相机的视野图108由线602表示。如图6A所示，房间500中有两个用户，即：用户520和另一个用户620，他们都坐在沙发506上。用户620通过说出热词(“OK Assistant”)来寻址电子装置120。在一些实施方式中，电子装置120处于待机模式，并且对热词的检测(例如，经由热词检测子模块3401)唤醒电子装置120。

图6B示出根据一些实施方式的电子装置120的响应，作为检测用户620所说热词的结果。如图6B所示，电子装置120重新定向，使得用户620在装置的视野之内，并通过以名字(“Yes,John？”)寻址用户620来做出响应。在一些实施方式中，响应于所检测到的热词，电子装置120识别一个或多个热词波束，并确定具有热词功率的最高信噪比的音频波束方向(例如，使用听觉定位器子模块3402)。在一些实施方式中，电子装置120通过将所获得的音频信号与听觉识别数据进行比较来获得讲话用户的身份(例如，使用听觉识别子模块3404)。在一些实施方式中，响应于所检测到的热词，电子装置120确定讲话用户不在相机108的视野中(例如，使用视觉语音检测子模块3421和/或视觉识别子模块3422)。

在一些实施方式中，电子装置120基于在各个麦克风102处接收到的音频数据中的差异来重新定向自己。在一些实施方式中，对电子装置120定向包括旋转电子装置100(例如，绕轴线112和/或绕轴线114)。在一些实施方式中，重新定向电子装置120包括控制致动器124以改变电子装置120的位置(例如，增加高度)。在一些实施方式中，重新定向电子装置120包括将电子装置移动到用户附近(例如，使用图1B的轮子130，未示出)。

在一些实施方式中，在重新定向自己之后，电子装置120使用相机108获得附加视频数据，并确定多个用户(例如，用户520和用户620)在电子装置120的视野之内。在一些实施方式中，根据确定多个用户在视野中，电子装置120向每个用户520和620分配置信度得分(例如，使用置信度分析模块344)。在一些实施方式中，置信度得分的分配基于音频和/或视频信号的分析。在该示例中，电子装置120基于确定(例如，使用语音检测子模块3421)用户620的眉毛抬起且用户520的嘴巴张开，向用户620分配更高的置信度得分。因此，电子装置120确定用户620是讲话用户。

在一些实施方式中，根据确定用户620是讲话用户，电子装置通过将显示器110指向用户620来关注讲话用户，如指示显示器110视野的线612所示。在一些实施方式中，将关注指向讲话用户包括通过其名字(“Yes John？”)来确认讲话用户620(例如，使用关注控制子模块3461)。

图7A-7B示出根据一些实施方式的图3的电子装置202的另一个代表性操作。在该示例中，电子装置202是图1B所示的电子装置120。图7A示出房间500，其中电子装置120在桌子504上。如图7A所示，电子装置120的相机108和显示器110最初指向右边墙壁508。相机的视野108由线712示出。如图7A所示，工作台502包括一堆书702，用户520在工作台502后面。用户520通过说出热词(“OK Assistant”)来寻址电子装置120。在一些实施方式中，电子装置120处于待机模式，并且对热词的检测(例如，经由热词检测子模块3401)唤醒电子装置120。

图7B示出根据一些实施方式的电子装置120的响应，作为检测用户520所说热词的结果。如图7B中所示，电子装置120重新定向以试图使用户520在装置的视野之内，但是其视野被书702阻挡。因此，即使装置120没有到达用户的视线，电子装置120仍通过通知用户520该装置在关注该用户520来响应。在一些实施方式中，电子装置120识别一个或多个热词波束，并确定具有热词功率的最高信噪比的音频波束方向(例如，使用听觉定位器子模块3402)。在一些实施方式中，电子装置120通过将所获得的音频信号与听觉识别数据进行比较来获得讲话用户的身份(例如，使用听觉识别子模块3404)。

在一些实施方式中，响应于所检测到的热词，电子装置120进一步确定讲话用户520不在相机108的视野中(例如，使用视觉语音检测子模块3421和/或视觉识别子模块3422)。在一些实施方式中，电子装置120基于在各个麦克风102处接收到的音频数据中的差异来重新定向自己。在该示例中，电子装置120通过旋转自己(例如，绕轴线112和/或绕轴线114)来重新定向，以及通过使用致动器124(例如，使用致动器控制子模块3462)来改变其位置。

在一些实施方式中，在重新定向之后，电子装置120从相机108获得附加视频数据，并根据附加视频数据确定讲话者不在视野中。在该示例中，即使相机108和显示器110已经重新定向为朝向用户520，书堆702仍在相机108的视野中阻挡了用户520。在一些实施方式中，根据确定讲话用户不可见，电子装置120经由显示器110指示讲话用户不可见(例如，使用关注控制子模块3461)。在一些实施方式中，根据确定讲话用户520不可见，电子装置120以语音方式确认讲话用户520，并且同时(例如，使用关注控制子模块3461)呈现言语指示(“Hi Jane,I can’t see you.What’s your question？”)，即讲话用户520对于电子装置120而言不可见。

图8A-8C是根据一些实施方式的用于利用图3的电子装置202关注出席用户的方法800的流程图。在一些实施方式中，方法800由以下进行：(1)一个或多个电子装置202；(2)一个或多个服务器系统，例如服务器系统206；或(3)其组合。在一些实施方式中，方法800由存储在非暂时性计算机可读存储介质中并且由装置/计算系统的一个或多个处理器(例如电子装置202的一个或多个处理器302和/或服务器系统206的一个或多个处理器402)执行的指令支配。为方便起见，将下面详细描述的具体操作描述为通过电子装置202进行。

电子装置202通过在多个麦克风中的每个麦克风(例如，麦克风314)同时接收音频数据来获得(802)音频信号。在一些实施方式中，所接收到的音频数据包括热词。例如，图5A示出用户520通过说出热词来寻址电子装置100。在一些实施方式中，电子装置202处于待机模式，并且热词(例如，使用热词检测子模块3401)用于唤醒电子装置202。在一些实施方式中，所接收到的音频数据包括用户查询，且电子装置202从一个或多个远程源(例如，内容主机230)收集数据，以回答用户查询。

电子装置202基于所获得的音频信号来确定(806)有人在电子装置202附近讲话。例如，装置202识别所获得的音频信号内的一个或多个单词。作为另一个示例，装置202基于对所获得的音频的频率、音调或节奏的分析来确定音频包括人员讲话。在一些实施方式中，电子装置202基于所获得的音频信号来识别(807)讲话者。在一些实施方式中，电子装置202通过将所获得的音频信号与听觉识别数据(例如，个人数据库350中的听觉识别数据3501)进行比较来识别人。

在一些实施方式中，一旦检测到未知语音，电子装置202就向用户查询身份，并将身份和语音存储在人员数据库350中。在一些实施方式中，电子装置202向用户生成音频查询。在一些实施方式中，电子装置生成电子通知(例如，要发送给用户的移动装置)。

在一些实施方式中，在确定有人在电子装置202附近讲话之后，电子装置202经由显示器(例如，显示器328)指示(808)已经检测到讲话者。在一些实施方式中，经由显示器指示已经检测到讲话者包括打开/关闭照明器(例如，LED 326)，调整显示器(例如，显示器328)的颜色等。在一些实施方式中，在确定有人在讲话之后，电子装置202还确定该人说出了热词(例如，使用热词检测子模块3401)，并经由显示器328指示已经检测到热词。在一些实施方式中，在电子装置202确定有人在讲话之后，电子装置202确定该人在对电子装置202讲话，并经由显示器指示电子装置知道有人讲话。在一些实施方式中，在确定有人在讲话之后，电子装置202还确定该人发出了查询，并且装置指示已经接收查询(例如，经由视觉和/或听觉呈现)。

电子装置202从一个或多个图像传感器(例如，相机319)获得(810)视频数据。在一些实施方式中，视频数据是在连续的基础上获得的。在一些实施方式中，在预定时间段(例如2秒、30秒等)内连续获得视频数据。在一些实施方式中，在预定时间段内(例如，在十分钟的持续时间内每五秒一帧)间歇获得视频数据。

电子装置202基于对视频数据的分析来确定(812)该人不在图像传感器的视野之内。在一些实施方式中，使用包括视觉语音检测子模块3421和/或视觉识别子模块3422的视频处理模块342来进行确定。在一些实施方式中，通过将视频数据与个人数据库350中的视觉识别数据3502进行比较来进行确定。

在一些实施方式中，一旦检测到未知人员，电子装置202就向用户查询身份并将人员的身份和特征数据存储在个人数据库350中。在一些实施方式中，电子装置202向用户生成音频查询。在一些实施方式中，电子装置生成电子通知(例如，要发送给用户的移动装置)。在一些实施方式中，身份和特征数据对应于特定语音，并且特征数据与语音相关联。

在一些实施方式中，根据确定该人不在图像传感器的视野之内，电子装置202确定(814)用于对人员进行重新定向的优选方向。在一些实施方式中，基于由电子装置202创建的(例如，使用听觉定位器子模块3403)获得的音频信号的热词和/或音频波束来确定优选方向。在一些实施方式中，基于所获得的音频信号的一个或多个热词和/或音频波束属性(例如，方向、信噪比等)来确定优选方向。

在一些实施方式中，确定用于针对该人进行重新定向的优选方向包括识别(816)电子装置202附近的表面的位置，所述表面反射了在由多个麦克风314的第一麦克风接收到的音频数据的至少一部分。在一些实施方式中，用于对该人进行重新定向的优选方向(817)基于表面的位置。例如，装置202确定墙壁就在装置后面，并且所接收到的音频数据的一部分是来自墙壁的音频反射。在该示例中，装置202考虑到音频反射并确定优选方向不是墙壁的方向。

在一些实施方式中，用于针对该人进行重新定向的优选方向(818)基于电子装置202所在房间的布局。在一些实施方式中，电子装置202存储房间、住宅或结构的地图。例如，如图3的描述所言，电子装置202的存储器306选择性地存储电子装置202所在房间的布局。为了进一步说明，电子装置202基于房间布局和对热词波束的分析确定该电子装置202的位置紧邻墙壁，因此接收源自用户以及从附近墙壁反射的音频射束。在该示例中，电子装置202将用于对该人进行重新定向的优选方向确定为远离墙壁的方向。

在一些实施方式中，经由雷达、声纳等获得房间的地图(例如，经由电子装置202的传感器360获得)。在一些实施方式中，经由来自图像传感器(例如，相机319)的视频数据的分析来获得房间的布局。

电子装置202基于在多个麦克风314中的各个麦克风处接收到的音频数据中的差异来重新定向(820)电子装置202。在一些实施方式中，重新定向电子装置202包括绕其轴线旋转电子装置202(例如，绕轴线112和/或绕轴线114，如图1A所示)。在一些实施方式中，重新定向电子装置202包括平移、升高和/或旋转电子装置(例如，使用致动器330)。

在一些实施方式中，重新定向电子装置202包括以优选方位(如在814中确定的)旋转(822)图像传感器(例如，相机319)。在一些实施方式中，重新定向电子装置包括旋转显示器(例如，显示器319)和图像传感器(例如，相机319)。在一些实施方式中，重新定向电子装置202包括沿着多个轴线移动(824)图像传感器(例如，相机319)。在一些实施方式中，沿着多个轴线移动图像传感器包括，例如，调整俯仰和偏航；上下倾斜显示器以对齐人员的视线；向该人移动；调整高度；等等。在一些实施方式中，重新定向电子装置202包括移动显示器和图像传感器；或整个装置。

在重新定向之后，电子装置202从图像传感器(例如，相机319)获得(826)第二视频数据，并根据第二视频数据确定该人在图像传感器的视野之内(例如，使用视频处理模块342)。

在一些实施方式中，电子装置202基于来自图像传感器的视频数据的分析来识别(828)该人。在一些实施方式中，电子装置202基于对视频数据的分析(例如，通过将所获得的视频数据与个人数据库350中的视觉识别数据3502进行比较)，对视频数据进行面部识别，以识别该人(830)。在一些实施方式中，识别该人包括基于该人的尺寸、呼吸模式和/或步态来识别该人。在一些实施方式中，进行面部识别包括确定图像传感器与人员之间的距离。

在一些实施方式中，电子装置202基于对来自图像传感器的视觉数据的分析来识别(832)该人。在一些实施方式中，对该人的识别基于视觉语音检测技术(例如，使用视觉语音检测子模块3421)。在一些实施方式中，视觉语音检测技术包括确定人的嘴/脸(例如，眉毛)在移动。在一些实施方式中，视觉语音检测技术包括确定人的嘴巴运动与所接收到的音频信号相关。

在一些实施方式中，在电子装置202重新定向自己并从图像传感器获得第二视频数据之后，电子装置202确定(834)多个人员在图像传感器的视野之内。例如，图6B示出电子装置202的相机108的视野中的两个用户，即用户520和用户620。根据确定所述多个人员在图像传感器的视野之内，电子装置202向所述多个人员中的每个人员分配(836)置信度得分(例如，使用置信度分析模块344)。在一些实施方式中，置信度得分基于分析(838)来自图像传感器的音频信号和/或视频信号(例如，使用以下的一个或多个：听觉定位器子模块3403、听觉识别子模块3404、视觉语音检测子模块3421、以及视觉识别子模块3422)。在一些实施方式中，将不同的权重分配给听觉信号和/或视觉信号的各个分量。在一些实施方式中，确定该人在图像传感器的视野之内包括确定向该人分配(840)最高置信度得分。

电子装置202通过将显示器(例如，显示器328)指向该人来关注(842)该人。在一些实施方式中，显示器包括屏幕(例如，触摸屏)、一个或多个照明器104(例如，LED)和/或具有一个或多个功能可见性的用户界面。在一些实施方式中，引导显示器包括将显示器移向(例如，平移和/或旋转)讲话用户。例如，图6B示出电子装置120从初始位置(如图6A所示)移动到显示对讲话用户620的关注的关注位置，如线612所示。

在一些实施方式中，电子装置202通过将图像传感器(例如，相机319)指向(844)该人来关注该人。在一些实施方式中，将图像传感器指向该人包括在图像传感器的视野之内将该人居中(846)。在一些实施方式中，将图像传感器指向该人包括将图像传感器对该人聚焦。在一些实施方式中，将图像传感器指向该人包括调整亮度和/或对比度以突出该人。在一些实施方式中，除了将图像传感器指向该人之外，电子装置202还输出它正在聆听该人的视觉指示(例如，使用一个或多个照明器104(例如，LED)的预定图案)。

在一些实施方式中，电子装置202通过在多个麦克风314中的每个麦克风处同时接收第二音频数据来获得(848)第二音频信号。

在一些实施方式中，根据获得第二音频信号，电子装置202基于第二音频信号确定(850)第二人在电子装置202附近讲话。根据基于第二音频信号确定第二人在电子装置202附近讲话，电子装置202确定(852)该第二人是否在图像传感器的视野之内。

在一些实施方式中，根据确定第二人在图像传感器的视野之内，电子装置202通过将图像传感器(例如，相机319)和显示器328朝向第二人来关注(854)第二人。

在一些实施方式中，根据确定第二人不在图像传感器的视野之内，电子装置202基于在所述多个麦克风314中的各个麦克风处接收到的第二音频数据中的差异来重新定向自己(856)。在一些实施方式中，在电子装置202基于第二音频数据中的差异重新定向自己之后，电子装置202确定(858)第二人员对于电子装置202不可见。根据确定第二人不可见，电子装置202经由显示器328指示(860)第二人不可见。在一些实施方式中，根据确定第二人不可见，电子装置202输出指示人员不可见的响应(例如，音频响应)。

对于以上讨论的系统收集关于用户的信息的情况，可以向用户提供选择加入/退出可以收集个人信息的程序或特征的机会(例如，关于用户的偏好或智能装置使用的信息)。此外，在一些实施方式中，一些数据可以在存储或使用之前以一种或多种方式匿名化，以便去除个人可识别信息。例如，可以将用户的身份匿名化，从而不能对于用户确定个人可识别信息或者将其与用户相关联，并且可以对用户偏好或用户交互进行泛化(例如，基于用户人口统计特征进行泛化)，而不是与特定用户相关联。

虽然各种附图中的一部分附图以特定顺序示出多个逻辑阶段，但是可将不依赖于顺序的阶段重新排序，并且可将其它阶段组合或分解。虽然具体提及一些重新排序或其它分组，但是其它重新排序或分组对于本领域技术人员而言将显而易见，因此，本文给出的排序和分组并非详尽的替代物列举。此外，应当认识到，这些阶段可以以硬件、固件、软件或其任何组合来实现。

还应理解，虽然在一些情况下，在本文中用术语第一、第二等描述各种元件，但是这些元件不应受这些术语限制。这些术语仅用于区分一个元件和另一个元件。例如，在不脱离各种所述实施方式范围的情况下，可将第一电子装置称为第二电子装置，并且类似地，可将第二电子装置称为第一电子装置。第一电子装置和第二电子装置都是电子装置，但是它们不是相同类型的电子装置。

在本文中对各种所述实施方式的描述中使用的术语仅是出于描述特定实施方式的目的，并非要进行限制。如在各种所述实施方式的描述和后附权利要求中所使用的，单数形式“一”也意图包括复数形式，除非上下文另外明确指出。还应理解，本文所用的术语“和/或”表示并涵盖一个或多个相关联列举项目的任何和所有可能的组合。还应理解，在本说明书中使用时，术语“包括”的一般时和现在时规定了所述特征、整数、步骤、操作、元件和/或组件的存在，但是不排除一个或多个其它特征、整数、步骤、操作、元件和/或组件的存在或添加。

如本文中所使用的，术语“如果”被选择性地解释为表示“何时”或“在……时”或“响应于确定”或“响应于检测到”或“根据确定”，这取决于上下文。类似地，短语“如果确定”或“如果检测到[所陈述的条件或事件]”被选择性地解释为表示“在确定时”或“响应于确定”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”或“根据确定检测到[所陈述的条件或事件]”，这取决于上下文。

为了说明的目的，已经参考具体实施方式描述了前面的说明书部分。但是，以上说明性讨论并非要穷举或将权利要求的保护范围限制为所公开的精确形式。鉴于以上教导，很多变型和变化是可能的。选择实施方式是为了最好地解释权利要求及其实际应用所基于的原理，从而使得本领域其它技术人员能够最好地使用具有适于所设想的特定用途的各种修改的实施方式。

Claims

1.一种方法，包括：

在具有图像传感器、多个麦克风、显示器、一个或多个处理器和存储器的电子装置处：

通过同时在所述多个麦克风中的每个麦克风处接收音频数据来获得音频信号；

基于所获得的音频信号，确定有人在所述电子装置附近讲话；

从所述图像传感器获得视频数据；

基于对所述视频数据的分析，确定所述人不在所述图像传感器的视野之内；

基于在所述多个麦克风中的各个麦克风处接收到的所述音频数据中的差异来重新定向所述电子装置；

在重新定向所述电子装置之后，从所述图像传感器获得第二视频数据，并根据所述第二视频数据确定所述人在所述图像传感器的视野之内；以及

通过将所述显示器指向所述人来关注所述人。

2.根据权利要求1所述的方法，其中，关注所述人包括将所述图像传感器指向所述人。

3.根据权利要求1至2中的任一项所述的方法，还包括：

基于所获得的音频信号来识别所述人；以及

其中，确定所述人在所述图像传感器的视野之内包括基于对来自所述图像传感器的视频数据的分析来识别所述人。

4.根据权利要求1至3中的任一项所述的方法，其中，确定所述人在所述图像传感器的视野之内包括基于对来自所述图像传感器的视觉数据的分析来识别所述人。

5.根据权利要求1至4中的任一项所述的方法，还包括：在确定所述人在所述电子装置附近讲话之后，经由所述显示器指示已经检测到讲话者。

6.根据权利要求1至4中的任一项所述的方法，还包括：在确定所述人不在所述图像传感器的视野之内之后，为了针对所述人重新定向而确定一优选方向；并且

其中，重新定向所述电子装置包括在所述优选方向上旋转所述图像传感器。

7.根据权利要求6所述的方法，还包括：识别所述电子装置附近的表面的位置，所述表面已经反射了由所述多个麦克风中的第一麦克风接收到的音频数据的至少一部分；并且

其中，所述优选方向基于所述表面的位置。

8.根据权利要求6或7所述的方法，其中，所述优选方向基于所述电子装置所在房间的布局。

9.根据权利要求1至8中的任一项所述的方法，其中，重新定向所述电子装置包括沿着多个轴线移动所述图像传感器。

10.根据权利要求1至9中的任一项所述的方法，还包括：

在重新定向所述电子装置之后，确定多个人在所述视野之内；

为所述多个人中的每个人分配置信度得分；并且

其中，确定所述人在所述视野之内包括确定所述人被分配最高置信度得分。

11.根据权利要求10所述的方法，其中，所述置信度得分基于对从所述图像传感器获得的音频信号和/或视频信号的分析。

12.根据权利要求1至11中的任一项所述的方法，还包括：

通过同时在所述多个麦克风中的每个麦克风处接收第二音频数据来获得第二音频信号；

基于所述第二音频信号确定第二人在所述电子装置附近讲话；

确定所述第二人在所述图像传感器的视野之内；以及

通过将所述图像传感器和所述显示器指向所述第二人来关注所述第二人。

13.根据权利要求1至12中的任一项所述的方法，还包括：

确定所述第二人不在所述图像传感器的视野之内；

基于在所述多个麦克风中的各个麦克风处接收到的所述第二音频数据中的差异来重新定向所述电子装置；

在基于所述第二音频数据中的差异重新定向所述电子装置之后，确定所述第二人对于所述电子装置不可见；以及

根据确定所述第二人不可见，经由所述显示器指示所述第二人不可见。

14.一种计算系统，包括：

一个或多个处理器；以及

存储器，所述存储器被联接到所述一个或多个处理器，所述存储器存储被配置为通过所述一个或多个处理器执行一个或多个程序，所述一个或多个程序包括用于进行权利要求1至13中的任一项所述的方法的指令。

15.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序包括指令，在通过计算系统执行时，所述指令使得所述系统进行权利要求1至13中的任一项所述的方法。