CN113287032A

CN113287032A - 通过声音信号跟踪手的运动来控制设备

Info

Publication number: CN113287032A
Application number: CN201980069588.7A
Authority: CN
Inventors: 邱锂力; 毛文广
Original assignee: University of Texas System
Current assignee: University of Texas System
Priority date: 2018-08-23
Filing date: 2019-08-22
Publication date: 2021-08-20
Also published as: EP3841399A4; SG11202101826WA; WO2020041563A1; US11474194B2; EP3841399A1; KR20210063341A; JP2022511271A; US20210199751A1

Abstract

一种通过跟踪手或其他物体的运动来控制设备的方法，设备和计算机程序产品。设备接收声音信号。至少一部分接收信号被转换为一维或二维正弦波，其频率与到达角(AoA)或/和反射信号的传播距离成比例。基于从对象接收的信号估计一维或二维正弦波的频率，得出AoA或/和距离轮廓。然后，从入射角或/和距离分布导出入射角或/和距离。基于估计的AoA距离对确定对象的当前位置。然后，该设备基于对象的先前位置和当前位置来判断手势并执行手势对应的命令。

Description

通过声音信号跟踪手的运动来控制设备

相关申请的交叉引用

本申请要求美国临时专利申请序列号No.62/722,110，标题为“通过使用声音信号跟踪手的运动来控制设备信号”，于2018年8月23日提交，其全部内容通过引用合并于此。

技术领域

本发明总体上涉及控制装置，并且更具体地涉及通过使用声音信号跟踪物体(例如手)的运动来控制设备(例如智能扬声器)。

背景技术

智能设备，例如智能扬声器，是通常连接到的电子设备可以在某种程度上交互和自主运行的其他设备或网络。智能扬声器是一种无线扬声器，接受语音命令设备，具有人工智能的虚拟助手，提供交互式操作和免提借助一个“热门词”(或几个“热门词”)激活。其中一些智能扬声器还可以利用

和其他无线技术的智能设备协议标准，将使用范围扩展到音频播放之外，例如控制家庭自动化设备。功能包括但不限于通过网状网络的对等连接，虚拟助手等。每个设备通常都有自己的指定接口和功能通过应用程序或家庭自动化软件启动或控制。一些智能音箱也包括一个向用户显示视觉响应的屏幕。

当前，语音扬声器之类的智能设备是通过语音命令来控制的。但是，基于语音的控制并不总是合适的。例如由于在嘈杂的环境中干扰，语音控制性能明显下降。在安静的环境下，也不适合用语音来控制，以免打扰他人。此外，有不少家庭成员说多种语言，开发能自动识别所使用的语言的智能扬声器具有挑战性且成本高昂。而且，在不少使用场景，例如与屏幕进行交互或从许多菜单选项中进行选择，与基于语音的界面进行交互可能很麻烦。

相比之下，基于运动的控制在这些情况下很有吸引力，可以和基于语音控制互补，取得很好的效果。

可惜当前没有用手势控制的智能设备，也没有用手势和语音一起控制的智能设备和智能扬声器。

发明内容

在本发明的一个实施例中，一种用于跟踪物体运动的方法。对象包括使用一个或多个麦克风接收声音信号的设备。该方法进一步包括把所接收的声波变换成二维正弦波，其中的两个频率一个与到达角成比例，另一个和物体的传播距离成比例。该方法还包括基于从物体接收的信号，通过评估二维正弦波频率来得出到达距离角分布。此外，该方法包括估计角度到达和距离基于到达角距离轮廓。另外，方法包括基于估计的到达角度确定物体的当前位置和估计的距离。

上述方法的实施例的其他形式是在设备中和在计算机程序产品中。

在本发明的另一个实施例中，包括使用一个或多个麦克风收到的用户或用户的设备发送的声音信号用于控制设备的方法。该方法还包括把至少一部分的接收信号变成二维正弦波，其频率与到达角和接收信号的传播距离成比例。该方法另外包括根据接收到的声音信号推导到达角度和距离曲线，通过评估二维正弦波的频率来定位目标。此外，方法包括从到达角度分布轮廓估计到达角度。另外，该方法包括基于所述物体，确定物体的当前位置。估计到达角度和距离。另外，该方法包括根据对先前位置和当前位置确定用户是否移动，并用移动轨迹确定并执行命令。该方法还包括根据用户移动来执行指令。

上述方法的实施例可以在设备或在计算机程序产品中实现。

前述内容概括地概述了一个装置的特征和技术优点本发明的一个或更多个实施例，以便更好地理解本发明。下文将更具体地描述本发明和更多的功能以及本发明的权利要求。

附图说明

结合以下附图可以更好地理解本发明。附图包括：

图1显示了根据本发明的实施例配置的系统发明；

图2显示了根据本发明的实施例的用手势来控制的设备的硬件配置；

图3A-3B显示根据用户的手的运动来控制智能设备(例如智能设备)的方法的流程图；

图4显示根据本发明的设备收集的反射的类型本发明的一个实施例；

图5显示根据本发明的到达角和传播距离本发明的实施例；

图6显示了根据公式(3)计算的二维(2D)轮廓；

图7A显示了具有歧义性的示例性2D轮廓，其中Δ为2.7cm，而λ为2.1cm；

图7B显示了示例性2D轮廓，其具有比图7A少的歧义度，这是由于本发明实施了非均匀阵列；

图8A和8B分别为根据本发明实施例的均匀阵列情况下和非均匀阵列情况下u(0)和u(θ)之间的相关性的曲线图；

图9A显示正弦信号的长度取决于本发明实施例的两个chirps的重叠度；

图9B显示本发明的实施例的中间chirp；

图10显示本发明中发射中重叠的chirps；

图11说明了在本发明实施中1D MUSIC和2D MUSIC算法的差异；

图12图示在本发明实施中用递归神经网络(RNN)来计算角度和距离；

图13是本发明实施例的RNN中的stage；

图14示出了根据本发明一个实施例中的一个房间相对应的到达角(AoA)距离分布图；

图15显示本发明的实施例中用户的手和身体的峰值超过1秒的图；

图16显示基于设备的跟踪，其中移动设备A发出声音信号，另一台设备上的多个麦克风可以基于接收到的信号跟踪移动设备A；

图17说明本发明的实施例中用一个设备上的多个麦克风跟踪一个物体，如移动设备的运动。

具体实施方式

虽然以下说明描述用手势控制智能设备，例如智能扬声器，本发明的原理可以应用于控制其他设备，例如使用手部动作或头部动作控制有一个或多个扬声器或麦克风的设备。本领域普通技术人员将能够应用以下原理：本发明的这种实现方式。此外，应用以下原理的实施方式将落入本发明的范围内。

如上文在背景技术部分中所述，当前，智能设备之类的智能设备扬声器通过语音命令控制。但是，基于语音的控制并不总是合适的。例如，在嘈杂的环境中，语音控制会由于干涉。此外，开发可以理解多种语言的智能扬声器成员说不同语言并自动识别语言的家庭使用具有挑战性且成本高昂。此外，在几种使用情况下，例如进行交互通过屏幕或从许多菜单选项中进行选择，基于语音的界面进行交互麻烦。相比下，在这些情况下，基于手势的控制很有吸引力，并且与基于语音的控件很好地互补。可惜目前没有完全用手势或与语音的控制共同使用来控制智能扬声器之类的智能设备。

使用手势控制智能设备将极大地提高了用户控制设备的能力，跟踪手部动作非常重要但很有挑战。理想的方法应该是(i)低成本，(ii)易于在现有智能设备上部署扬声器硬件，(iii)准确可靠，并且(iv)支持整个房间规模的跟踪。实现全部这些目标尤其具有挑战性。本发明的原理提供了手段。为了实现这些目标，采用了一种新型的整个房间规模跟踪空手的系统，在本文中称为“RTrack”。

在一个实施例中，由于以下原因，声信号被用于跟踪。首先，智能扬声器的普及迅速增加。他们配备了多个麦克风和扬声器。有效利用此设置不仅可以显着增强跟踪性能，而且易于部署。其次，基于音频的信号传播速度慢，因此具有很高的精度。三，声学采样率信号很低，因此可以使用在计算机或普通仪器上运行软件实时完成所有运算。这提供了自定义传输信号的自由，并且处理算法，以达到较高的精度。

为了跟踪用户手之类的物体，本发明根据智能扬声器其反射信号使用1DMUSIC算法或2D MUSIC算法确定联合估计(“联合估计”)距离(反射信号的传播距离)和到达角度(AoA)。如本文所用，“到达角”是指反射信号到达设备的角度。

如下面进一步详细讨论的，表明联合估计由于以下原因，进行房间规模的设备跟踪。首先，信噪比(SNR)在房间规模跟踪中，手反射引起的噪声可能低于-20dB，这会大大降低跟踪精度。联合估算可增加传感器的有效数量，从而提高准确性。其次，背景反射可以主导手部反射房间规模的跟踪，并引入明显的歧义。如果要单独追踪距离(反射信号的传播距离)和AoA会有很多歧义。相比之下，联合估计可以有效减少歧义的数量，因为并非所有距离和AoA组合出现在二维(2D)轮廓中。

为了进一步增强跟踪性能，本发明实施例可以实施以下一系列技术：(i)非均匀的麦克风位置可以提高准确性而又不增加歧义，(ii)使用重叠的传输信号来增加用于联合估计的声学样本数量并提高精度，而无需增加带宽或延迟，(iii)加速计算以支持实时跟踪，以及(iv)一种简单而有效的初始化算法能可靠地确定手的初始位置。

如下面进一步讨论的，本发明的系统可以跟踪多个用户同时。

在以下描述中，阐述了许多具体细节以提供对本发明的全面。然而，对于本领域技术人员而言将是显而易见的在没有这些具体细节的情况下可以实践本发明。在大多数情况下，因此，省略了考虑时序等的细节。细节对于完全理解本发明不是必需的，并且是在相关领域普通技术人员的能力范围内。

现在详细参考附图，图1示出了配置为根据本发明的实施例。参照图1，系统100包括要被控制的设备101，例如智能设备(例如，智能扬声器，智能电话)通过用户103的手102来控制。设备101可以是包含扬声器104的任何智能设备。和麦克风105A-105B(分别标识为“麦克风A”和“麦克风B”)，在图1中。麦克风105A-105B可以统称为单独麦克风105或麦克风105。虽然图1将设备101图示为包括单个扬声器104和两个麦克风105，本发明的设备101是在范围上不限于仅包括扬声器104和两个麦克风105。相反，设备101可以包括一个或多个扬声器104和一个或多个麦克风105。此外，在一个实施例中，设备101可以利用多个扬声器104。例如，包含两个扬声器104和两个麦克风105的设备101的实施例可以。如下所述，在控制装置101中扬声器104包含四个麦克风105。此外，在一个实施例中，扬声器104麦克风105和/或麦克风105可以沿z轴位于三维空间中。一些设备101的示例包括但不限于智能扬声器，智能手机，智能电视和智能家电。

设备101被配置为通过其扬声器104发出音频信号，无论是否人听不见。此外，设备101被配置为接收音频信号通过用户的手102反射的麦克风105来使用。如下面进一步讨论的，设备101通过实时连续跟踪手102。经过跟踪手102的运动，设备101可以确定用户是否正在做手势。在设备101上执行的命令，例如“播放音乐”或“告诉我天气”。硬件的更详细描述下面结合图2提供设备101的实施例。

现在参考图2，图2是设备101(图1)示例的功能框图。在该示例中，设备101包括处理器201。处理器201可以包括一个或多个专用集成电路(ASIC)，数字信号处理器(DSP)，数字信号处理设备(DSPD)，可编程逻辑设备(PLD)，现场可编程门阵列(FPGA)，控制器，微控制器，微处理器，电子设备，电子单元或其组合。

处理器201被配置为存储由一个或多个接口接收的数据并进行处理并将数据存储在存储器202中。存储器202可以在处理器201或此处使用的术语“内存”是指任何类型的长期，短期，易失性，非易失性或其他存储器，并且不限于任何特定类型存储器的数量，存储器的数量或存储介质的类型。合而为一在一个实施例中，存储器202存储应用程序，例如用于控制设备101的程序通过使用声信号持续跟踪手102的运动来(图1)来执行指令。在一实施例中，处理器201被配置执行存储在存储器202中的应用程序的程序指令。

此外，扬声器104和麦克风105A，105B通过以下方式连接到设备101用户界面适配器203。扬声器104配置为生成音频信号(人类可以听见或听不到)。此外，麦克风105A，105B是配置为接收由用户的手102反射的音频信号。

图2的设备101的范围不限于图2所示的元件并且可能包含比图2所示更少或更多的元素。

本发明可以是系统，设备，方法和/或计算机程序产品。该计算机程序产品可以包括计算机可读存储介质(或介质)上具有用于使处理器携带的计算机可读程序指令本发明的各个方面。

计算机可读存储介质可以保留和存储的有形设备指令执行设备使用的指令。计算机可读存储介质例如但不限于电子存储设备，磁存储设备设备，光学存储设备，电磁存储设备，半导体存储装置，或前述的任何适当组合。较详尽的清单，不详尽计算机可读存储介质的示例包括以下内容：便携式计算机软盘，硬盘，随机存取存储器(RAM)，只读存储器(ROM)，可擦可编程只读存储器(EPROM或闪存)，静态随机存取存储器(SRAM)，便携式光盘只读存储器(CD-ROM)，数字多功能磁盘(DVD)，记忆棒，软盘，机械编码的设备(例如打孔卡)或凸起的凹槽中记录了指令的结构。如本文所使用的，计算机可读存储介质不应被解释为是瞬时信号本身，例如无线电波或其他自由传播的电磁波，通过波导或其他传输介质(例如光)传播的电磁波通过光缆的脉冲或通过电线传输的电信号。

本文描述的计算机可读程序指令可以下载到相应的计算/处理设备从计算机可读存储介质或到外部计算机或外部存储设备通过网络(例如Internet，本地区域)网络，广域网和/或无线网络。网络可以包括铜传输电缆，光纤传输，无线传输，路由器，防火墙，交换机，网关计算机和/或边缘服务器。网络适配器卡或网络接口每个计算/处理设备中的计算机从计算机中接收计算机可读程序指令网络并转发计算机可读程序指令以存储在计算机中各个计算/处理设备内的可读存储介质。

用于执行本发明的操作的计算机可读程序指令本发明可以是汇编器指令，指令集架构(ISA)指令，机器指令，机器相关指令，微码，固件指令，状态设置数据，或者源代码或目标代码以一种或多种的任意组合编写编程语言，包括面向对象的编程语言，例如Smalltalk，C++等，以及常规的过程编程语言，例如“C”编程语言或类似的编程语言。计算机可读程序指令可以完全在用户计算机上执行，部分可以在用户计算机上执行，例如独立软件包，部分在用户计算机上，部分在远程计算机上，或者完全在远程计算机或服务器上。在后一种情况下，远程计算机可能是通过任何类型的网络(包括局域网)连接到用户的计算机(LAN)或广域网(WAN)，或者可以与外部计算机建立连接(例如通过使用Internet服务提供商的Internet)。在某些实施例中，电子电路，包括例如可编程逻辑电路，现场可编程的门阵列(FPGA)或可编程逻辑阵列(PLA)可执行计算机可读利用计算机可读程序指令的状态信息的程序指令为了使电子电路个性化，以执行本发明的方面。

在此参考流程图描述本发明的各方面方法，装置(系统)和计算机程序的图示和/或框图根据本发明实施例的产品。将会理解，流程图图示和/或方框图，以及流程图中方框的组合图示和/或框图可以通过计算机可读程序来实现指示。

可以将这些计算机可读程序指令提供给计算机的处理器。通用计算机，专用计算机或其他可编程数据处理产生机器的设备，使得通过机器处理器执行的指令计算机或其他可编程数据处理设备，创建用于实现流程图和/或框图中指定的功能/动作。这些电脑可读程序指令也可以存储在计算机可读存储介质中，可以将计算机，可编程数据处理设备和/或其他设备定向到功能以特定方式起作用，从而使计算机可读存储介质具有其中存储的说明包括制品，该制品包括实现流程图和/或框图中指定的功能/动作的各个方面模块。

计算机可读程序指令还可以被加载到计算机上，其他可编程数据处理设备或其他设备，以引起一系列操作步骤在计算机，其他可编程设备或其他设备上执行以产生计算机执行的过程，在计算机上执行的指令，其他可编程设备或其他设备实现流程图中指定的功能/动作和/或方框图。

附图中的流程图和框图示出了架构，功能，以及系统，方法和计算机程序产品的可能实现的操作及根据本发明的各种实施例。在这方面，流程图或方框图可以表示指令的模块，片段或部分，其中包括用于实施指定的逻辑功能的一个或多个可执行指令。在一些替代实施中，方框中指出的功能可能不按顺序发生。在图中指出。例如，实际上可以执行连续显示的两个块基本上同时执行，或者有时可能以相反的顺序执行这些块，取决于所涉及的功能。还应注意，流程图，以及框图和/或方框中的框组合流程图说明，可以通过基于专用硬件的系统来实现执行指定的功能或动作或执行专用硬件的组合和计算机指令。

如以上在背景技术部分中所讨论的，当前，诸如智能设备之类的智能设备扬声器通过语音命令控制。但是，基于语音的控制并不总是合适的。例如，在嘈杂的环境中，语音控制会由于干涉。此外，开发可以理解多种语言的智能扬声器并自动识别家庭成员说不同语言具有挑战性且成本高昂。此外，在几种使用情况下，例如与屏幕进行交互或从许多菜单选项中进行选择，可以与基于语音的界面进行交互很麻烦。相比之下，基于手势控制很有吸引力，并且与基于语音的控件很好地互补。可惜目前没有独立或与基于语音的控制共同使用的手势来控制智能扬声器之类的智能设备。

本发明的原理提供了一种用于控制智能设备的手段，例如智能扬声器，可以独立地或与基于语音的控制一起使用运动，例如下面结合图3A-3B，4-6、7A-7B，8A-8B，9A-9B和10-17进行讨论。

尽管下面通过使设备101静止来讨论控制设备101，设备101不必一定是静止的。而是设备101(包括扬声器104和麦克风105)可以移动，例如放置在更好的位置以进行收集。

图3A-3B是用于控制智能设备(例如，智能扬声器)使用来自用户103(图1)的手102(图1)的运动本发明的实施例。

结合图1-2参见图3A，在步骤301中，设备101使用扬声器104将声学信号发送给用户103。

在步骤302中，设备101使用麦克风105收集所传输的声信号的反射，其中声音信号被用户103的手102和其他背景反射器，如图4所示。在一实施例中，协助设备101收集传输的声信号的反射，金属结构(例如铝)可将其放置在设备101(例如周围的设备101)的附近，以直接反射到设备101。在一个实施例中，这种结构设计有一个抛物线形状。

虽然以下讨论收集由手102反射的声学信号用户103，本发明的原理可以应用于收集声信号由其他反射器(例如信用卡或一张纸)反射。换句话说，以下的描述不仅可以跟踪用户103的手102，也能跟踪其他对象(例如信用卡，用户身体，钱包，卡，杯子，书等)的移动。

参照图4，图4说明了由反射镜收集的反射类型根据本发明的实施例的设备101。如图4所示设备101可以收集身体反射401(来自用户103的身体其他部分的反射除了手102之外，还有背景反射402(来自其他物体(例如房间)的反射)和自干扰403。此外，如图4所示，设备101收集了所需的手反射404。如下所述，实现了一系列技术通过本发明除身体和背景反射以及自干扰，从而本发明可以主要利用手反射404来确定手102的位置。

返回图3A，结合图1-2和4，在步骤303中，通过通滤波器把设备101收集的反射删除带外噪声(例如背景反射402)。

在步骤304中，设备101对所收集的反射进行干扰消除以消除接收到的静态背景反射402和自干扰403。在实施例中，关于基于设备的跟踪，不进行干扰消除。而是在步骤301之后估算频率偏移。

在步骤305中，设备101执行初始化以确定相对于用户103的手102的初始位置。如下所述初始位置对应于初始的到达角(AoA)和距离。

在步骤306中，设备101变换剩余的收到的反射信号(在执行步骤304和305)成为频率。频率与到达的角度和所收集反射的传播距离成正比。正如本文所用，“到达角”是指反射信号到达设备101的角度。“传播距离”是指从反射的初始点传播到设备101反射信号的距离。

在步骤307中，设备101得出到达角(AoA)和距离分布，包含到达角与各种信号传播距离的映射通过评估二维频率，由用户103的手102反射。使用诸如1D(一维)或2D(二维)MUSIC算法之类的正弦曲线计算。在一个实施例中，AoA距离分布是基于从对象接收的信号而得出的，例如通过评估二维正弦波的频率，可以作为手102。

开发了两个实施例以估计AoA以及距离。在一个实施例中，从AoA距离分布中选择一个峰，用于估计AoA，距离和多普勒频移。在第二实施例中，设备101将最近时间窗口中的AoA距离轮廓应用到递归神经网络(RNN)来估计AoA和距离。

在替代实施例中，在步骤308中，设备101从到达角距离轮廓估计到达角距离对。在一个实施例中，基于估计的到达距离分布图来估计到达距离对用户103的手102反射的信号的传播距离。如上所述，“尖峰”接近于先前选定的尖峰。“尖峰”对应于传播延迟到达相应的到达角，如图15所示。例如，尖峰1501对应于手102反射的信号的传播距离的分组相应的到达角。如上所述，第一次选择尖峰是基于手102的先前选择的峰值位置，先前选择的峰值位置对应于初始手位置。合适的到达角距离对是根据步骤307的估计传播距离选择，该距离对应于所选尖峰中的传播距离。

现在参考图3B，结合图1-2、4-6、7A-7B，8A-8B，9A-9B和10-17，在步骤309中，设备101基于所选择的到达角距离来确定手102的位置。通过知道从手102和反射信号到达设备101的到达角度，就可以确定在x-y坐标系或在x-y-z方面，手102的准确位置坐标系。

下面提供关于步骤301-309的更详细的讨论。

如前所述，本发明开发了一种新的无设备跟踪系统在本文中称为“RTrack”，以解决上述挑战。RTrack依靠扬声器和麦克风(例如智能设备上可用的扬声器)和麦克风，可以精确跟踪用户的手势，其工作范围覆盖典型的房间。确定位置用户的手102，在一个实施例中，将2D MUSIC算法应用于联合估计手102反射的信号的到达角(AoA)和传播距离。

本发明的联合估计框架具有以下优点，用于远场跟踪。首先，该框架结合了调频连续波(FMCW)和多信号分类(MUSIC)用于距离和AoA估算，在低SNR下比其他替代方案更有效。其次，它增加了有效传感器的数量，这有助于显着提高跟踪精度。第三，联合估算距离和AoA可以更轻松地解决多径问题，因为这些路径的距离或AoA不同。第四，发展几种机制在低SNR情况下显着增强跟踪性能并减少计算时间以启用实时跟踪。

在一个实施例中，本发明联合估计AoA和传播用户的手102反射的信号的距离。为此，设备101发送通过扬声器104发出chirp声信号，并使用麦克风105收集接收到的样本。然后，接收到的信号将转换为二维正弦波，其频率与AoA和距离成正比。然后，本发明通过评估二维正弦波的频率。转换程序是描述如下。

考虑如图5所示的N个麦克风(MIC)和扬声器。根据本发明的实施例的AoA(θ)和传播距离(d+d_n)发明。

参照图5，为简单起见，假设N为奇数。MIC(麦克风)501A-501D(对应于麦克风105)从

到

索引并统一沿着一条线分布。两个连续MIC之间的间隔为Δ。扬声器502(对应于扬声器104)在该线的中心。在这种情况下，扬声器502和第n个MIC为nΔ。

为了测量由用户的手102反射的信号的AoA(θ)和距离(d)，扬声器104/502发送chirp声(频率随着时间线性调频增加或减小的信号，其频率在周期T内从f线性扫向f+β。y_t表示传输的chirp。即

声音是由用户的手102反射并由MIC 105/501A-501D接收。令t_n表示第n个MIC的信号传播延迟。如图5所示，t_n＝(d+d_n)/v_s，其中v_s是声音的速度。此外，d_n可以近似为d–r_n cos(θ)，并且r_n＝nΔ。因此，t_n＝2d/v_s–nΔcos(θ)/v_s。令t_d表示2d/v_s，并且δ表示Δcos(θ)/v_s。然后t_n＝t_d-nδ。MIC n的接收chirp由下式给出：

作为FMCW，将y_t与

相乘，并应用低通滤波器。令s(n，t)表示获得的信号。基于2cos(p)cos(q)＝cos(p-q)+cos(p+q)的性质，我们得到

通过代入t_n＝t_d-nδ，我们得到s(n，t)的相位为

其中第三和第四项与n和t无关。φ表示它们的和。最后三个项目很小，可以忽略。我们得到：

s(n,t)为二维正弦波，该二维正弦波在n维具有频率Ω＝2π(-fδ)＝2π(-fΔcos(θ)/v_s)，在以t为维度时具有频率ω＝2πβt_d/T＝4πβd/(Tv_s)。因此，只需估算Ω和ω即可确定到达角θ和距离d。

为了确定2D正弦波的频率Ω和ω，可以把s(n，t)进行傅里叶变换得到二维(2D)正弦波的频率：Ω和ω，在2D频谱上找到峰值。但是，由于只有很少的MICs(在一个实现中4个mics)，基于二维(2D)傅里叶变换得到的精度很有限。更好的方法是2D MUSIC算法，计算二维(2D)正弦波e^j(Ωn+ωt)的频率。因为实数正弦波cos(p)是两个复数正弦波e^jp与e^-jp的和。我们可以用2D MUSIC算法得到s(n，t)的频率。

2D MUSIC算法的推导描述如下。主要思想是将2D信号矩阵转换为1D向量，并应用经典的1D MUSIC算法。考虑2D信号S，其中包含L个复数正弦波，

其中n属于[0，N-1]，t属于[0，T-1]。c_i是第i个正弦波的大小，Ω_i和ω_i分别是其在n维和t维上的两个频率。W是噪声项。等式的矩阵形式如下：

S＝UCV′+W，

其中C是对角矩阵，第i个对角元素等于c_i。U定义为[u(Ω₁),u(Ω₂)...u(Ω_L)]，其中u(Ω)＝[1,e^jΩ,e^j2Ω,...,e^j(N-1)Ω]。V和v是用ω相似的方式定义。质数表示转置运算符。可以很容易地验证S中的第(n，t)个元素与等式2相同把U，C，V′相乘。然后可以证明

其中vec是向量化运算符，而

是Kronecker乘积，

和

是把C和W向量化.这里使用

的属性。

为了进一步简化

的表达，考虑第[(j-1)L+i]个元素，等于C(i，j)。由于C是对角矩阵，因此当i≠j时C(i，j)＝0，而C(i，i)＝c_i。此外，

第[(j-1)L+i]列是

其中v_i和u_j分别是V的第i列和第j列和U。因此，可以简化为

因此，

可以简化成

其中

且

其余过程与1D MUSIC算法完全相同。首先计算协方差矩阵Rs为

其中H是Hermitian符号。然后，在Rs上进行特征值分解，把特征向量根据特征值从大到小排序。由于Rs的大小为NT×NT，因此它有NT特征向量。它们的最后NT-L被称为噪声空间特征向量。令N表示由噪声空间特征向量组成的矩阵。可以证明N^HM＝0。由于

是M的第i-列，所以对所有i我们得到

根据它们的定义，u_i和v_i是由u(Ω_i)和v(ω_i)定义。为了确定(Ω_i，ω_i)，对(Ω，ω)的任意组合我们计算

P(Ω，ω)曲线中的L尖峰表示信号S中L个正弦曲线的频率(Ω_i，ω_i)。在本发明的系统中，Ω＝-2πΔcos(θ)/λ，ω＝4πβdT_s/(Tv_s)，其中λ是chirp的波长，波长是声速v_s除频率f，Δ是mic的间距，β是带宽，T_s是声采样周期，T是线性调频长度。另外，θ是AoA，d是距离。当用θ和d代替Ω和ω时，得到

其中u(θ)＝[1，e^{-j2πΔcos(θ)/λ}，...，e^{-j(N-1)2πΔcos(θ)/λ}]和

通过这种方式，可以获得AoA和距离的2D轮廓，并且尖峰对应于手102和其他背景反射器。只要L＜NT，以上推导就有效。在本发明的上下文中，这意味着2DMUSIC算法可以解决更高的反射次数(L)大于麦克风的反射次数(N)。这等同于增加系统中的传感器数量。增加的传感器还有助于显着改善估计精度。通过应用联合估计，可以降低AoA和距离误差使用2D MUSIC算法。

图6显示了使用等式生成的2D轮廓。根据一个实施例的图3本发明的在这种情况下，可以清楚地看到与手和身体相对应的峰。这表明联合估计有助于解决多径干扰。

使用2D MUSIC算法的联合估计对于跟踪是有益的。但是，这是仍不足以支持房间规模的跟踪。要实现房间规模的跟踪，低信噪比下二维MUSIC算法精度还需要提高。

通过MUSIC估计AoA的均方误差ε由下式确定：

其中L是接收信号中的反射次数，Δ是MIC之间的间隔，N是MIC的数量，T是时域采样的数量。虽然等式是源自1D MUSIC，由于2DMUSIC实际上已经转换，因此可以应用于2DMUSIC通过矢量化转换为一维版本。

基于等式4的见解，采用以下策略减少低SNR下的估计误差：(i)增加Δ：MIC之间的间隔(例如麦克风之间的距离不相等)，(ii)增加T：采样数，(iii)处理接收到的信号以减少有效的反射信号数L。这些方法将在下面进一步详细说明。

一种在低SNR下改善MUSIC性能的方法是增加间隔ΔMIC之间。但是，如果Δ大于波长的一半(用λ表示)，则存在估计AoA的歧义。在这种情况下，存在两个不同的角度θ₁和θ₂其中-2πΔcos(θ₁)/λ＝-2πΔcos(θ₂)/λ+2π。基于等式3，因为u(θ₁)＝u(θ₂)，P(θ₁，d)＝P(θ₂，d)。如果峰位于AoA距离分布图的(θ₁，d₁)处，则将有一个在(θ₂，d₁)处具有相同的峰。人们无法确定哪一个是由于真实信号引起的。图7A展示了一个示例性的2D轮廓图，其中Δ为2.7cm，λ为2.1cm本发明的实施例。两个模糊度分别为50度和-50度当地面真相在0度达到峰值时，观察到相同的幅度和模式。

为了增加MIC的分离而不引入歧义，用一种非均匀的MIC阵列。非均匀阵列包括成对的MIC，它们之间的间距很小，以减少歧义如图7B所示，并通过加大分离，对MIC来提高分辨率。数字图7B示出了由于利用了图2A而具有比图7A更少的歧义的示例性2D轮廓。根据本发明实施例的非均匀阵列。关键问题是如何设计最佳的非均匀阵列以在低SNR下最大程度地减少歧义。

在一个实施例中，向量[m₁，m₂，...，m_N]用于描述线性MIC阵列，其中m_i是第i个和第一个MIC之间的距离。m₁始终为零，m_N为总和数组的大小。对于均匀阵列，m_i＝(i-1)Δ。给定这个定义，等式(3)的u(θ)可以推出[e^{-j2πm1cos(θ)/λ}，e^{-j2πm2cos(θ)/λ}，...e^{-j2πmNcos(θ)/λ}]。

为了确定模棱两可的存在，我们评估了u(θ)与真实值AoAθ₁和所有其他角度之间的相关性。图8A和8B是相关性的曲线图分别在均匀阵列情况和非均匀阵列情况下在u(0)和u(θ)之间根据本发明的实施例。根据本发明，图8A和8B显示在等距和非等距的mic下u(0)和u(θ)的相关性。如图8A和8B所示，在相关性图上有许多峰值。在真实值附近有主峰，其他是侧峰。如果在θ₂处有一个大小为1的侧峰，u(θ₂)＝u(θ₁)。在这种情况下，基于等式3，P(θ₁，d)和P(θ₂，d)具有相同的值，θ₂是θ₁的歧义。降低副峰的幅度可减少歧义。在一实施例中，使用时域中的波束成形将信号组合在一起，从不同时间采样使得波同时到达接收端，从而SNR不断提高。在-实施例中，侧峰与一个确定在低SNR情况下容忍噪声的余量。因此，MIC阵列的位置是通过解决以下优化选择使噪声容限最大化的方法：

s.t.m_n＝M，

m_i+m_n+1-i＝M，

其中函数side(θ₁)返回θ₁的相关图中最高侧峰，然后进行搜索在给定MIC阵列的情况下找到最大侧峰。第一个约束要求数组大小等于常数M，这保证了所有候选数组都具有相似的MUSIC准确性(尽管模棱两可)。第二个约束条件要求阵列相对于中心对称，因此可以应用前后平滑。前向平滑消除了多径信号之间的相干性并改善了MUSIC表现。

在一个实施例中，M被选为8cm，使得该阵列可以容易地适合于智能扬声器。解决该优化问题可得到一个最佳阵列[0、3cm，5cm，8cm]。它的图8B中显示了0度时真实AoA的相关图。二维MUSIC在-20dB SNR下的频率分布如图7B所示，其中潜在歧义周围的尖峰角度(±50度)比真相的角度要弱得多。鉴于SNR，基于这些事实，真实峰值的平均幅度是歧义峰值的6倍测量，这很容易选择正确的峰。

为了将2D MUSIC算法用于联合估计，在一个实施例中，把发射chirp和接收的chirp相乘，并使用低通滤波来获得正弦信号(等式1)，其频率与AoA和传播延迟成正比。正弦曲线的长度信号取决于两个线性调频脉冲之间的重叠，根据本发明的实施例，如图9A所示该区域之外的乘积为零。对于房间规模的跟踪，由于传播速度慢，传播延迟大。声音信号(例如，用户103与智能扬声器101之间的5m距离约为30ms)。如图9A所示，这大大减少了导出的正弦信号的长度，因为一个典型的chirp只持续数十毫秒。减小的信号长度对MUSIC算法性能有不好的影响。

为了解决这个问题，根据图9B所示，引入了中间chirp。本发明的实施例。它是传输的chirp的时移版本。基于对传播延迟的粗略估计来预先确定偏移量

收到的chirp。结果，中间的chirp与接收到chirp大重叠。在一实施例中，将二维MUSIC算法应用于由将这两个chirp相乘。以这种方式估算的AoA等于接收到的AoA，因为AoA是由传播延迟之间的差异决定的MIC(即等式1中的δ)，并且将所有MIC的发射线性调频偏移相同没有改变的区别。以这种方式估算的传播延迟

是中间的chirp和接收到的chirp的线性调频脉冲的总传播延迟的和，如图9B所示。因为用于估计的有效样本数量增加，中间chirp提高了精度。

该方法需要关于接收到的传播延迟的粗略估计。先前跟踪周期中的估计结果用于此目的，因为用户的手部位置102在连续的时间段内(数十毫秒。为了从一开始就进行追踪，开发了一种方法来确定手的初始位置如下所述。

增加用于2D MUSIC估计的样本数量的另一种方法是：增加chrip的长度。但是，这可能会增加跟踪延迟，这是不理想的。为了增加线性调频脉冲的长度而又不增加延迟，如图所示发送重叠的线性调频脉冲在图10中，图10示出了根据实施例的发送重叠的chirp。本发明的有趣的是，这些chirp可以通过相同的通道发送，只要在前一个chirp的所有反射信号在下一个chirp的第一个反射信号之前到达，就无需增加带宽。这表明重叠的chirp之间的时间差至少应为最大传播时间

对于长达5m的跟踪范围，这个时间为30ms。因此，在一实施例中，在两个连续的chirp之间选择40ms，以此提供另外的10ms缓冲，可区分来自两个连续chirp的反射。这需要每40毫秒更新一次测量，这足以满足智能扬声器的使用情况。经过使用重叠的chirp，人们可以承受更长的chirp持续时间。在一个实验中，我们使用80毫秒。

与RF信号不同，从硬件报告的声学样本是实数。因此，在发射和接收信号相乘后，可获得真实的正弦曲线(请参见等式1)。但是，MUSIC是一种估算复数正弦波频率的方法，而实数正弦曲线cos(p)由两个复数的正弦曲线sinusoids^e±jp组成。所以MUSIC看到的正弦波实际上是接收到的反射波的两倍。基于等式4，正弦曲线数目的增加对MUSIC性能有负面影响。为了避免这种情况问题是，通过以下方法消除信号的负频率：1)对信号进行傅里叶变换；2)将负频点设置为零，3)执行IFFT。这样，每个反射仅对应一个复杂的正弦波。消除负频率可把信号和噪声减半，去除负频率后SNR不变。

使用2D MUSIC的联合估计涉及两个计算密集的步骤。这第一个是特征值分解，以导出噪声空间特征向量矩阵N，计算成本随特征向量(NT×1)的大小而增加，其中N是MIC和T是时域样本的数量。另一步骤是评估2D轮廓(等式3)用于AoA和距离的所有组合。它的计算成本取决于矩阵每个评估的乘积是O((NT)2)，与AoA距离的数量组合成正比。在本发明的系统的一个实施例中，MIC的数量N是4，而在44.1KHz采样率和80ms chirp下，声学样本的数目是3528。因此，NT非常重要，这两个步骤对于实时计算而言都太昂贵了。

为了降低计算的复杂度，使用子采样和空间平滑有效地降低了计算时间。特征值分解的时间减少到2.2ms。但是评估2D轮廓仍然很高：接近500毫秒。这是由于大量可能的AoA距离组合。

少了要评估的距离的数量。对于一维场景，root MUSIC用于避免在较大空间上评估一维轮廓。它通过找到求解一维正弦曲线多项式的根来估计频率，其系数由噪声空间矩阵N。但是，对于2D场景，找到根会变得更加昂贵。

为了减少评估2D轮廓的成本，依赖以下观察之上。给定式如图1所示，一维MUSIC算法可以在时间范围内应用，以估算传播延迟t_d相位项(-fδn)不依赖于时间，因此被视为这里不变。距离是通过将t_d乘以声速得出的。距离以这种方式估算的结果接近于使用2DMUSIC算法进行联合估算的结果。这是因为T很大，因此在此维度上有足够的虚拟传感器。如图所示图11是根据本发明实施例的区别使用1D MUSIC算法和2DMUSIC算法90％测量结果在5mm以内，大于95％的测量结果1cm以内。因此，在一实施例中，一维MUSIC算法应用于估计距离，然后二维MUSIC算法用于联合估计，但仅用于评估周围的2D轮廓估计距离(即±2厘米)。这显着减少了计算方程式的次数，从而减少了计算时间。

为了进一步降低计算成本，可使用等式3的分母转换为

利用

的属性，其中v和u是列向量，I_n是与u具有相同行数的单位矩阵。令Q(d)表示

观察到Q(d)不依赖于θ，其大小仅为N×N，由于MIC数量少非常小。基于这些观察，二维轮廓P(θ，d)为通过以下方式进行评估：

·给定任何d，首先评估Q(d)。此步骤的计算成本为O(N(NT)²)，因为

和NN^H分别为NT×N和NT×NT大小。这里假设因为N不依赖于任何角度或距离，所以NN^H是预先评估。

·对于所有可能的θ，通过

评估P(θ，d)。每次评估的成本为仅为O(N²)，因为(θ)和Q(d)分别为N×1和N×N大小。

·对所有可能的步骤重复上述步骤。

以这种方式，针对每个AoA和距离，P(θ，d)平均计算成本为

其中N_a是可能的AoA数，Q(d)在相同的d只计算一次来减少计算量。相比之下，直接计算等式3需要O(N²T²)。由于在本发明的系统中，N＜＜N_a和T＞＞1，上述方法显著降低了评估P(θ，d)的成本。结果，这种方法将每次联合估算的时间从520毫秒减少到31毫秒。

在另一个实施例中，机器学习算法可以用于将AoA和distance轮廓映射到距离和AoA估计。递归神经网络(RNN)用于自动了解从2D轮廓到AoA和距离的映射。使用RNN利用手部动作的时间相关性。例如，即使2D轮廓是在某些时候比较嘈杂，您可以利用最近一段时间的配置文件来帮助改善估计。而且，它可以通过分析连续的2D来潜在地学习多普勒频移并补偿其影响。

在一个实施例中，RNN包含K个阶段。这些阶段对应于2D图12中显示了最近K个周期中提取的概要文件。图12展示了一个递归神经网络(RNN)用于将到达角(AoA)距离轮廓映射到AoA和根据本发明的实施例的距离估计。参考图12中的每个阶段都具有相同的网络结构(表示为R1201)。最后阶段需要当前2D轮廓作为输入，而较早的阶段则将先前的轮廓作为输入。每个阶段还向下一阶段提供某些上下文信息。

RNN由一系列相同的网络结构R1201组成。RNN的设计1201对RNN的有效性产生了深远的影响。图13显示根据本发明的一个实施例的RNN之中的R层。参照图13，网络需要两个输入：先前阶段的上下文和当前2D轮廓。首先，2D轮廓通过平均合并层P。该层将输入分段配置文件分成多个块，每个块包含BXB像素。P的输出包括每个块的平均像素大小。P层有效地压缩2D轮廓BXB倍。这大大减少了网络中的参数数量，并且防止过度拟合。将原始2D轮廓馈送到P层比直接使用粗粒度的2D轮廓效果好，因为后者可能会错过尖锐的峰，这高信噪比下很常见。汇聚层之后是隐藏层H1。隐藏层H1从压缩的前层O和上下文层C提取特征信号。层H1之后是隐藏层H2，它从隐藏层H1和之前的上下文层中提取特征，并输出O层和C层。

层O包含代表估计距离和AoA的两个神经元。输出O层的O表示当前位置，因此仅在最后阶段使用。

上下文层C用于自动学习需要哪些信息转发到下一阶段。本质上，它是另一个隐藏层，其中包含多个神经元并连接RNN中的连续阶段。

在一个实施例中，二维轮廓对应于具有围绕目标的先前位置生成指定大小，并用于导出目标的位置。为了提高准确性和效率，只有2D轮廓围绕目标位置生成区域，而不是覆盖整个房间。具体来说，假设目标位置大致已知，则选择目标位置周围的检测窗口以覆盖从B_D到B_D+W_D的距离以及从B_A到B_A+W_D的AoA。在该窗口的2D轮廓将被评估并用作网络输入。RNN的输出是相对于检测窗口边界的距离和AoA。当峰出现在在轮廓的最左下角，RNN会将距离和AoA都估计为零。什么时候峰值位于右上角，网络将其分别估计为W_D和W_A。可以得出相对距离和左下角之和的最终距离和AoA窗口的一角(即(B_D，B_A))。

使用该策略的好处是多方面的。首先，它大大减少了通过仅评估本地区域中的配置文件来降低计算成本。其次，RNN在通过选择适当的距离，可以将特定距离或AoA应用于另一个距离或AoA检测窗口。第三，它通过过滤使网络对环境的敏感性降低窗外的干扰路径。第四，它可以同时跟踪多个用户使用多个检测窗口。

该机制需要关于目标位置的粗略知识。因此，初始化方案用于确定初始窗口。在跟踪过程中，窗口为当目标移至边界附近时更新。在一实施例中，窗户覆盖60厘米x 60厘米面积，因此不需要精确的目标位置。

在一个实施例中，使用由序列组成的训练迹线来训练RNN时间窗口上的真相位置和到达角及距离分布图。合而为一在实施例中，到达角和距离轮廓的序列被应用于RNN以获得到达角度和距离的估计值。在一实施例中，根据递归神经网络估算的，其中训练轨迹包括在一个时间窗口上具有到达角轮廓的真实到达角的顺序是用于训练递归神经网络，到达角轮廓的序列为应用于递归网络以获得到达角的估计。在另一个实施例中，基于递归神经网络估计距离，其中训练轨迹包括真实距离序列和时间窗口上的距离轮廓用于训练递归神经网络，并且将距离分布的序列应用于循环网络以获得距离的估计值。

如先前所论述，每次反射相对应于由2D MUSIC算法得出AoA和距离的峰值。这些峰值之一选为对应于手反射。当用户103由于手而远离设备101时，这是具有挑战性的在这种情况下，手反射404信号不是最大的信号。图14显示一个根据本发明实施例的房间AoA和距离分布图。用户的手102和设备101距离为3.6m。即使在消除干扰之后，也可以观察到除手部反射外还有尖峰。这些尖峰对应于用户的身体反射401，动态背景反射402和噪声(例如，自干扰403)。用户的手102反射的信号不一定是最强的。

由于基于一个2D MUSIC得到的轮廓图来找真实值是模棱两可的，所以我们利用了时间上多个轮廓图的关系来找。在一实施例中，用户103被要求执行初始手势并识别其轨迹随时间变化的尖峰匹配手势。在一个实验中，要求用户103在操作过程中伸出他的手向设备102靠近初始化。理想的峰值应随时间线性变化。此模式用于识别手102。图15是显示手102和使用者身体的尖峰的图形根据本发明的实施例，在1秒内达到用户103。如图15所示，与手部反射对应的尖峰随时间线性变化。那就是直接路径的峰值保持不变，动态背景反射的峰值保持不变402噪声(例如，自干扰403)呈现随机模式。在实验中，显示用户103大部分时间只需要向设备靠近一次即可清楚地确定初始手的位置。为了可靠性，可以要求用户103靠近两次。

基于这些观察，在扫描过程中从2D MUSIC轮廓提取尖峰初始化阶段(即1秒)。所有峰值均使用k-means算法进行聚类，其中k是此阶段在每个跟踪周期内检测到的最大尖峰数。为了每个群集，所有点都使用一条线拟合到群集中，这对应于初始化手势。拟合误差最小的簇(即R平方度量最接近1)来选择。选择该簇中的最新峰值作为初始指针位置。一旦初始确定位置后，可以选择最接近上一个尖峰的尖峰用于后续连续跟踪。

在步骤310，结合图1-2和图4-13返回图3B，设备101基于用户102在手103中的位置来确定用户103在最近时间窗口是否执行了命令。在一个实施例中，例如在设备101存储器202中存储先前的手位置(例如先前十个位置)。在一个实施例中，此类存储的位置可以推断运动轨迹。例如，每个手102的位置通过x，y坐标系确定手102移动时的x，y坐标。在一个实施例中，用一种数据结构(例如表)推断运动轨迹来判断运动是否对应于指令(例如，增加音量)。如果设备101确定用户103希望设备101执行命令，然后设备101执行这样的操作命令。如本文所用，“命令”是指将由以下人员执行的任何类型的指令：设备101，包括化身的运动。

在步骤311中，设备101确定用户103是否执行了与命令相对应的手势动作。如果用户的手势对应于命令，然后在步骤312，设备101执行上述命令。

然而，如果设备101确定用户的手部动作不对应于命令，则设备101在图3A的步骤301中继续向用户103发送音频信号。

以这种方式，可以控制诸如智能设备(例如，智能扬声器)之类的设备通过用户自己的动作(例如用户的手)或与基于语音的控制共同使用。智能设备之类的设备的功能或能力通过使用户可以通过手势和运动控制设备。这对残疾人来说尤其重要，如残疾人不能说话，但能用手势来控制设备。

此外，通过使除语音控制之外还能够通过手势来控制设备，极大地提高了控制设备的准确性。用户无需花大量时间尝试正确命令设备执行特定操作操作(例如调节音量)。

此外，本发明改善了涉及的技术或技术领域控制设备。如上所述，目前，诸如智能扬声器之类的智能设备正在普及。通过语音命令控制。但是，基于语音的控制并不总是合适的。为了例如，由于干扰，语音控制在嘈杂的环境中会大大降低。在此外，开发智能扬声器，可以为家庭成员理解多种语言会说不同语言并自动识别所使用语言的成员是具有挑战性和昂贵。此外，在几种使用情况下，例如与屏幕进行交互或从许多菜单选项中进行选择，可以基于语音的界面进行交互麻烦的相比之下，在这些情况下，基于运动的控制很有吸引力，并且与基于语音的控件很好地互补。可惜目前没有办法用于使用诸如手势之类的运动来控制诸如智能扬声器之类的智能设备，独立或与基于语音的控制共同使用。

如上所述，本发明通过实现以下目的来改进这种技术：用户使用诸如手运动之类的运动来控制诸如智能设备之类的设备。

尽管上文结合跟踪手来讨论本发明，本发明的原理可用于跟踪任何类型的对象，例如信用卡，一张纸或移动设备。

在一个实施例中，设备101直接从待测物体接收信号。跟踪，例如智能手机，而不是收集传输信号的反射。例如，如图16所示，图16说明了基于设备的跟踪，其中移动设备A1601发出声音信号1602，另一个设备101上的多个麦克风(见图1)可以根据接收到的信号跟踪移动设备A1601的运动根据本发明的实施例。图17显示另一个设备101上的多个麦克风105A-105C用于跟踪对象1701的运动，根据本发明的实施例，诸如图16的移动设备A1601。麦克风105A-105C可以统称为或单独称为麦克风105或麦克风105。图17说明了三个麦克风105，本发明的原理不限于任何范围或特定数量的麦克风105。

参照图1，图16和图17，设备101接收发送的声信号使用设备101中的一个或多个麦克风105通过对象(例如，智能手机)拍摄。设备101将至少一部分接收到的信号转换成二维正弦波频率与接收角和接收信号的传播距离成正比信号。装置101通过评估天线的频率来导出到达角距离轮廓。设备101估计到达角和与到达距离轮廓。设备101可以估计设备之间的频率偏移101和发送声音信号的设备。在一实施例中，频率偏移基于到达角距离轮廓或距离中峰值的变化来估计发送者和接收者均为静态时进行配置。设备101调整距离，估计使用频率偏移。在一个实施例中，基于峰值来估计到达角及到达距离轮廓或到达角轮廓中。设备101根据所选的到达角度-距离对确定对象(例如，智能手机)的当前位置。然后，根据对象的先前位置和当前位置，设备101确定用户103是否移动以执行命令。如确定执行命令，设备101将响应于确定用户103移动以执行命令。

在一个实施例中，设备101可以从以下设备获得三维(3D)坐标：二维(2D)坐标。在一实施例中，设备101使用接收到的信号从沿x轴放置的麦克风105收集信号以获取x-z坐标，然后使用从沿y轴放置的麦克风105收集的接收信号获得y-z坐标。然后，设备101使用导出的x-z和y-z坐标形成x-y-z坐标。

换句话说，设备101转换目标的二维坐标(例如，通过估计多个到达角度来将其转换为三维坐标使用不同组的麦克风105来配对一对，并将估计的到达角距离对转换为三维坐标。

这样的实施例可以用于跟踪设备或跟踪无设备的物体(比如手)。

已经对本发明的各种实施例进行了描述。出于说明目的而提出，但并不旨在穷举或限于公开的实施例。对于普通人而言，许多修改和变化将是显而易见的。在不脱离所描述的实施例的范围和精神的情况下，本领域技术人员可以理解。这选择这里使用的术语以最好地解释实施例的原理，实际应用或对市场上发现的技术的技术改进，或使本领域的其他普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于跟踪对象的运动的方法，该方法包括：

使用设备中的一个或多个麦克风从所述物体接收声音信号；

将至少一部分所述接收到的声信号转换成正弦波，其频率与以下至少一项成比例：所述物体的到达角和传播距离；

通过评估所述正弦波的频率，基于从所述物体接收的信号，得出到达角轮廓或距离轮廓或到达角距离轮廓；

基于所述轮廓估计到达角或距离或到达角距离；和

基于所述估计的到达角度或所述估计的距离或到达角度和距离，确定所述物体的当前位置。

2.根据权利要求1所述的方法，还包括：

基于所述对象的先前和当前位置来确定用户是否移动以执行命令；和

响应于确定所述用户移动以执行所述命令而在所述设备上执行命令。

3.如权利要求1所述的方法，还包括：

基于递归神经网络估计所述到达角和与所述到达角距离轮廓的距离，其中训练迹线包括用真实位置和到达角距离轮廓在时间窗口上的序列用于训练所述递归神经网络，并且将所述到达角距离轮廓的序列应用于所述递归神经网络以获得对所述到达角和所述距离的估计。

4.如权利要求1所述的方法，还包括：

基于递归神经网络估计所述到达角，其中训练迹线包括时间轴上的到达地面轮廓的真实到达角序列，用于训练所述递归神经网络和到达角轮廓被应用于所述递归网络以获得对所述到达角的估计。

5.根据权利要求1所述的方法，还包括：

基于递归神经网络估计所述距离，其中使用包括在时间窗上具有距离分布的真实距离序列的训练迹线来训练所述递归神经网络，并且将所述距离分布的序列应用于所述递归网络获得所述距离的估计值。

6.如权利要求1所述的方法，还包括：

执行初始化以确定所述物体的初始位置，该初始位置对应于所述到达角距离轮廓中的初始到达角距离对。

7.根据权利要求1所述的方法，还包括：

对所述接收到的声信号进行干扰消除，以去除静态背景反射。

8.如权利要求1所述的方法，其特征在于，所述到达角距离分布是使用2D MUSIC算法获得的。

9.如权利要求1所述的方法，还包括：

当所述发送器和所述接收器都是静态的时，基于所述到达角距离轮廓中的峰值的变化来估计所述声学信号的发送器和接收器之间的频率偏移，其中，所述频率偏移用于调整所述估计距离。

10.如权利要求1所述的方法，其特征在于，所述设备包括所述一个或多个麦克风，所述麦克风的位置使相关中的侧峰和主峰之间的噪声容限最大化。

11.如权利要求1所述的方法，还包括：

在时域中使用波束成形来提高信噪比。

12.如权利要求1所述的方法，还包括：

在所述到达角轮廓中识别与一个或多个物体的位置相对应的峰。

13.根据权利要求1所述的方法，其中，所述物体包括移动设备或反射器，所述反射器包括用户的手，用户的身体，钱包，卡片，杯子或书本。

14.如权利要求1所述的方法，其中，基于所述到达角-距离轮廓或距离轮廓中的峰值来估计所述距离。

15.根据权利要求1所述的方法，其中，基于所述到达角距离轮廓或到达角轮廓中的峰值来估计所述到达角。

16.根据权利要求1所述的方法，其中，所述设备通过使用不同组的麦克风来估计多个到达距离对，并且通过将所述估计的多个角度转换为目标，来将目标的二维坐标转换为三维坐标，到达距离对成三维坐标。

17.根据权利要求1所述的方法，其中，产生与围绕所述物体的先前位置的具有指定尺寸的区域相对应的二维轮廓，并且该二维轮廓用于导出所述物体的当前位置。

18.一种用于控制设备的方法，所述方法包括：

使用所述设备中的一个或多个麦克风从用户的物体接收声音信号；

基于所述轮廓估计到达角或距离或到达角距离；和

基于所述估计的到达角度或所述估计的距离或到达角度和距离，确定所述物体的当前位置；

基于所述对象的先前和当前位置确定所述用户是否移动以执行命令；和

19.一种用于跟踪对象的运动的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有体现在其上的程序代码，所述程序代码包括用于以下目的的编程指令：

使用设备中的一个或多个麦克风从所述物体接收声音信号；

基于所述轮廓估计到达角或距离或到达角距离；和

20.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

21.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

基于递归神经网络估计所述到达角和与所述到达角距离轮廓的距离，其中训练迹线包括真实位置和到达角距离轮廓在时间窗口上的序列用于训练所述递归神经网络，并且将所述到达角距离轮廓的序列应用于所述递归神经网络以获得对所述到达角和所述距离的估计。

22.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

23.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

基于递归神经网络估计所述距离，其中使用包括在时间窗上具有距离分布的地面真实距离序列的训练迹线来训练所述递归神经网络，并且将所述距离分布的序列应用于所述递归网络获得所述距离的估计值。

24.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

25.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

26.根据权利要求19所述的计算机程序产品，其中，所述到达角距离分布是使用2DMUSIC算法获得的。

27.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

28.根据权利要求19所述的计算机程序产品，其中，所述设备包括所述一个或多个麦克风，所述麦克风的布置使相关中的侧峰和主峰之间的噪声容限最大化。

29.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

在时域中使用波束成形来提高信噪比。

30.根据权利要求19所述的计算机程序产品，其中，所述程序代码还包括用于以下目的的编程指令：

31.根据权利要求19所述的计算机程序产品，其中，所述对象包括移动设备或反射器，所述反射器包括用户的手，用户的身体，钱包，卡片，杯子或书本。

32.如权利要求19所述的计算机程序产品，其特征在于，所述距离是基于所述到达角-距离分布或距离分布中的峰值来估计的。

33.根据权利要求19所述的计算机程序产品，其中，基于所述到达角距离轮廓或到达角轮廓中的峰值来估计所述到达角。

34.根据权利要求19所述的计算机程序产品，其中，所述设备通过使用不同组的麦克风来估计多个到达角距离对并转换所述估计的倍数，从而将目标的二维坐标转换为三维坐标，到达角距离对成三维坐标。

35.根据权利要求19所述的计算机程序产品，其中，生成与围绕所述对象的先前位置的具有指定大小的区域相对应的二维轮廓，并用于导出所述对象的当前位置。

36.一种用于控制设备的计算机程序产品，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质具有在其上体现的程序代码，所述程序代码包括用于以下目的的编程指令：

基于所述轮廓估计到达角或距离或到达角距离；和

37.一种设备，包括：

存储器，用于存储用于跟踪对象的运动的计算机程序；和

连接到所述存储器的处理器，其中，所述处理器被配置为执行计算机程序的程序指令，包括：

使用设备中的一个或多个麦克风从所述物体接收声音信号；

基于所述轮廓估计到达角，或距离，或到达角和距离；和

38.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

基于所述物体的先前和当前位置确定用户是否移动以执行命令；和

响应于所述用户移动以执行所述命令而在所述设备上执行命令。

39.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

40.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

41.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

42.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

43.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

44.根据权利要求37所述的设备，其中，所述到达角距离分布是使用2D MUSIC算法获得的。

45.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

46.如权利要求37所述的设备，其特征在于，所述设备包括所述一个或多个麦克风，所述麦克风的位置使相关中的侧峰和主峰之间的噪声容限最大化。

47.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

在时域中使用波束成形来提高信噪比。

48.根据权利要求37所述的设备，其中，所述计算机程序的程序指令还包括：

49.根据权利要求37所述的设备，其中，所述物体包括移动设备或反射器，所述反射器包括用户的手，用户的身体，钱包，卡片，杯子或书本。

50.根据权利要求37所述的设备，其中，基于所述到达角-距离轮廓或距离轮廓中的峰值来估计所述距离。

51.根据权利要求37所述的设备，其中，基于所述到达角距离轮廓或到达角轮廓中的峰值来估计所述到达角。

52.根据权利要求37所述的设备，其中，所述设备通过使用不同组的麦克风来估计多个到达距离对，并且将所述估计的多个角度转换为目标，从而将目标的二维坐标转换为三维坐标，到达距离对成三维坐标。

53.根据权利要求37所述的设备，其中，产生与围绕所述物体的先前位置的具有指定尺寸的区域相对应的二维轮廓，并用于导出所述物体的当前位置。

54.一种设备，包括：

存储器，用于存储用于控制所述设备的计算机程序；和

基于所述轮廓估计到达角，或距离，或到达角距离；和

基于所述估计的到达角度，或所述估计的距离，或到达角度和距离，确定所述物体的当前位置；