CN104995664B

CN104995664B - 实时的连续交互学习及检测

Info

Publication number: CN104995664B
Application number: CN201380073060.XA
Authority: CN
Inventors: C·埃文斯
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-03-15
Filing date: 2013-03-15
Publication date: 2017-10-31
Anticipated expiration: 2033-03-15
Also published as: EP2973427B1; EP2973427A1; CN107657280A; US20160371604A1; US20140279744A1; CN107657280B; WO2014143032A1; US9390380B2; CN104995664A; EP2973427A4; US10366345B2

Abstract

系统和方法可以提供：将多个训练样本划分为第一质心顺序列表，移除所述第一质心顺序列表中的一个或多个重复质心以获取第一精简的质心列表，以及基于所述第一精简的质心列表来生成隐马尔可夫模型(HMM)参数的集合。此外，可以将多个检测样本划分为第二质心顺序列表，其中，可以移除所述第二质心顺序列表中的一个或多个重复质心以获取第二精简的质心列表。可以使用所述第二精简的质心列表来确定所述多个检测样本与HMM参数的集合之间的匹配概率。在一个示例中，精简的质心列表缺乏时间变化性。

Description

实时的连续交互学习及检测

技术领域

实施例整体上涉及对交互(例如，姿势和语言输入)进行的基于计算机的检测。更具体地，实施例涉及实时人机交互的连续学习和检测。

背景技术

人体运动具有很多细微之处，这些细微之处使得难以对运动进行建模，虽然在合理的时间框架中并非不可能。例如，由于在对给定姿势进行建模中可能要考虑空间和时间因素二者，因此，对于需要检测其姿势的群体在该姿势被多快地执行可能具有巨大的差异。将这些变动考虑在建模中可能引入不确定性，这种不确定性可能降低姿势检测决策的准确性。此外，传统的检测算法可能针对感兴趣的姿势的潜在起点和终点执行耗时的搜索。这可能使性能减慢并且使紧接的(back-to-back)姿势的检测(例如，连续检测)变得不可行。简言之，对实时系统而言，常规姿势学习和检测系统的处理时间可能是过长的。

附图说明

通过阅读以下说明和所附的权利要求，以及通过参照以下附图，实施例的各种优点对本领域技术人员而言将变得显而易见，在附图中：

图1是根据实施例的学习/训练序列的示例的框图；

图2是根据实施例的检测序列的示例的框图；

图3是根据实施例的处理训练样本的方法的示例的流程图；

图4是根据实施例的处理检测样本的方法的示例的流程图；

图5是根据实施例的计算设备的示例的框图；

图6是根据实施例的处理器的示例的框图；以及

图7是根据实施例的系统的示例的框图。

具体实施方式

现转向图1，示出了针对多个训练样本16(16a-16c)的训练序列10。在一个示例中，训练样本16表示在一个或多个训练会话期间由例如图像/深度传感器等的传感器14捕获的姿势样本(例如，人体姿势输入)。在这样的情况下，训练样本16可以在训练会话期间从空间坐标12(例如，二维/2D、三维/3D、n维)中获得，所述空间坐标12与一个或多个对象(例如，人类、动物、机器人、机器)的物理部件(例如，手、手指、虹膜等)的位置相对应。

例如，训练样本的第一集合16a可以与第一对象(例如，来自第一群体统计的个体)相对应，训练样本的第二集合16b可以与第二对象(例如，来自第二群体统计的个体)相对应，训练样本的第三集合16c可以与第三对象(例如，来自第三群体统计的个体)相对应等。当对象做出例如圆周形的手部运动等的特定的手部动作时，可以对该对象进行可视化地监测和/或记录。

训练样本16还可以表示语音样本(例如，人类语言输入)，其中，传感器14可以包括在训练会话期间设置于一个或多个对象的可听范围内的麦克风。在这样的情况下，训练样本16可以包括从语言输入提取的音素数据。其他类型的交互数据还可以用于训练样本16。

训练样本16可以经历聚类过程18，所述聚类过程18确定针对训练样本16的群集集合20(“C0”到“C5”)。可以基于目标分辨率来预先确定该群集集合20中的群集的数量。在这一点上，在设置群集的数量时，可以在分辨率和处理速度之间进行某些折衷。聚类过程18还可以确定与群集集合20相对应的群集质心集合22，其中，质心集合22中的每一个质心可以指示相对应的群集的中心点。此外，可以将多个训练样本16中的每一个训练样本分配给群集质心集合22中的质心。由此，可以将空间坐标12中的每一个分配给最近的质心，以便于进行所述分配。在一个示例中，聚类过程18使用k均值(k-means)聚类来确定训练样本16的群集集合20和群集质心集合22。

例如，k均值聚类可以提供：将质心放置为尽可能远离另一个，以及将属于训练样本16的每一个样本与最近的质心相关联以获取“早期编组(early groupage)”。当没有样本未决时，可以将k个新的质心重新计算为由早期编组产生的群集的“重心(barycenter)”。一旦已经确定该k个新质心，则新的绑定可以在训练样本16和最近的新质心之间完成。结果可以是一个循环，在该循环中k个质心逐步改变它们的位置，直到不再做出变化为止。如将要更加详细讨论的，每一个质心可以由唯一的值来标识，以在训练隐马尔可夫模型(HMM)时使用。HMM通常可以包含多个状态，其中每一个状态具有相关联的观测概率分布，该观测概率分布确定在时间上的特定时刻处以及每一对状态处生成观测的概率，并且具有相关联的转移概率。在一个示例中，可以使用诸如Baum-Welch算法等的算法和/或过程来训练HMM。

由此，所示出的聚类过程18将训练样本16划分为质心顺序列表24(24a-24c)。例如，质心顺序列表24中的第一列24a可以与训练样本的第一集合16a相对应，第二列24b可以与训练样本的第二集合16b相对应，第三列24c可以与训练样本的第三集合16c相对应等，其中，质心顺序列表24中的项可以包含质心的唯一值/标识符。特别注意的是，示出的质心顺序列表24包括顺序重复质心，例如，重复质心26，其表示训练样本16的时间维度(例如，取决于采样率)。如将要更详细地讨论的，移除这样的时间维度可以继而消除时间变化性，并且使得能够对交互进行实时、连续的学习和检测。

更特别地，质心顺序列表24可以经受过滤过程28，过滤过程28从质心顺序列表24中移除诸如重复质心26等的顺序重复中心，以获得精简的质心列表30(30a-30c)。因此，所示出的精简的质心列表24缺乏时间变化性。该精简的质心列表30可以随后被供给HMM训练过程32，其基于精简的质心列表30来生成HMM参数的集合34。群集集合20可以具与有在HMM中的状态的一对一映射。通过有效地使群集间转移的优先级高于群集内转移(例如，使C0→C1的转移的优先级高于C0→C0转移)，这样的方式可以创建具有增强的鲁棒性的模型。如将更详细地讨论的，增强的鲁棒性可以进一步利于对交互进行实时、连续的学习和检测。

图2示出了检测序列36，在检测序列36中，与空间坐标38相关联的多个检测样本40被供给到质心分配过程42。因此，检测样本40可以表示在系统(例如，游戏系统、视频会议系统、消息传送系统、社交网络系统等)的实时操作期间由传感器46捕获的姿势样本、语音样本等。示出的质心分配过程42基于在训练序列(例如，已经讨论过的训练序列10(图1))中确定的相同群集和质心布置来将检测样本40划分为质心顺序列表44。质心顺序列表44因此可以具有时间维度，过滤过程28通过从质心顺序列表44中移除一个或多个顺序重复质心(例如，质心48)来消除该时间维度。其结果是，可以获取精简的质心列表50，其中，精简的质心列表50缺乏时间变化性。简言之，移除重复质心48可以保持从一个群集到另一个群集的转移，同时消除对在特定的群集上持续时间的依赖性。

示出的检测序列36还提供：使用精简的质心列表50来确定检测样本40与同训练会话相关联的HMM参数的集合34之间的一个或多个匹配概率52。更特别地，可以将滑动窗口54应用到精简的质心列表50来获取用于前向算法58的候选列表56。例如，候选列表56中的第一项是，从右到左，“C1、C5、C4、C3、C2、C1”，其与所示出的示例中的滑动窗口54的最右端位置相对应。类似地，候选列表56中的第二项是，从右到左，“C5、C4、C3、C2、C1、C0”，其与所示出的示例中的滑动窗口54的下一位置相对应。候选列表56中的每一项可以被经受前向算法58，以便确定底层交互(例如，姿势交互、语音交互)的匹配概率52。就此而言，候选项60可以产生相对高的匹配概率52。

特别要注意的是，所示出的滑动窗口54具有固定宽度，该固定宽度等于群集集合20的群集的数量(即六个)以及HMM中的状态数量。此外，群集集合20可以具有与HMM中的状态的一对一映射。通过消除在大范围样本上进行搜索以定位交互的起点和终点的任何需要，固定的窗口尺寸和一对一的映射可以提供提高的效率。此外，滑动窗口可以使得能够在不引起额外的计算开销的情况下来对紧接的交互进行连续检测。

现在转到图3，示出了处理训练样本的方法62。方法62可以在计算设备中被实现为固件和/或逻辑指令的集合，所述固件和/或逻辑指令的集合被存储在机器或计算机可读介质(例如，随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、闪速存储器等)中；被存储在可配置逻辑中，例如，可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)中；使用电路技术被存储在固定功能逻辑硬件中，例如，专用集成电路(ASIC)、互补金属氧化物半导体(CMOS)、或晶体管-晶体管逻辑(TTL)技术、或其任何组合。例如，用于实施方法62中示出的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写，所述一种或多种编程语言的任何组合包括诸如C++等的面向对象的编程语言，以及例如“C”编程语言的常规的流程化编程语言，或类似的编程语言。此外，可以使用上文提到的任何电路技术来实现方法62。

所示出的处理块64提供：将多个训练样本划分为质心顺序列表。如已经说明的，该训练样本可以包括姿势样本、语音样本等。因此，块64可以涉及确定针对多个训练样本的群集集合、确定与该群集集合相对应的群集质心集合、以及将多个训练样本中的每一个训练样本分配给群集质心集合中的质心。在块66中，可以移除质心顺序列表中的一个或多个重复质心以获取精简的质心列表，其中，该精简的质心列表缺乏时间变化性。所示出的块68基于该精简的质心列表生成隐马尔科夫模型(HMM)参数的集合。在一个示例中，质心顺序列表与具有同HMM中的状态一对一映射的群集集合相关联。

图4示出了处理检测样本的方法70。方法70可以在计算设备中被实现为固件和/或逻辑指令的集合，所述固件和/或逻辑指令的集合被存储在机器或计算机可读介质(例如，RAM、ROM、PROM、闪速存储器等)中；被存储在可配置逻辑(例如PLA、FPGA、CPLD)中；使用电路技术被存储在固定功能逻辑硬件(例如，ASIC、CMOS、或TTL技术、或其任何组合)中。所示出的处理块72提供：将多个检测样本划分为质心顺序列表。如已经注意的，检测样本可以包括姿势样本、语音样本等等。因此，块72可以涉及将多个检测样本中的每一个检测样本分配给与训练序列相关联的群集质心集合中的质心。

在块74中，一个或多个重复质心可以从质心顺序列表中移除，以获取精简的质心列表，其中，该精简的质心列表可能缺乏时间变化性，如已经讨论的。所示出的块76使用该精简的质心列表来确定多个检测样本与同一个或多个训练会话相关联的HMM参数的集合之间的一个或多个匹配概率。在一个示例中，块76涉及将滑动窗口应用到精简的质心列表，其中，该滑动窗口具有固定宽度，该固定宽度等于与质心顺序列表相关联的群集集合中的群集的数量。此外，该群集集合可以具有与HMM中的状态的一对一的映射。

现在参照图5，示出了计算设备78(78a-78d)。该计算设备可以包括，例如台式计算机、工作站、笔记本计算机、智能平板、智能电话、移动互联网设备(MID)、媒体播放器等，或其任何组合。计算设备78通常可以用于实施训练序列，例如，已经讨论过的训练序列10(图1)，和/或用于实施检测序列，例如，已经讨论过的检测序列36(图2)。示出的计算设备78包括：划分模块78a，其将多个训练样本划分为质心顺序列表；过滤器78b，其从质心顺序列表中移除一个或多个顺序重复质心，以获取精简的质心列表；以及参数模块78c，其基于该精简的质心列表来生成HMM参数的集合。

在一个示例中，划分模块78a包括聚类单元80，其确定针对多个训练样本的群集集合；质心单元82，其确定与群集集合相对应的群集质心集合；以及分配单元84，其将多个训练样本中的每一个训练样本分配给群集质心集合中的质心。划分模块78a可以使用例如k聚类过程之类的过程来对训练样本进行划分。

此外，划分模块78a可以将多个检测样本划分为质心顺序列表，其中，示出的过滤器78b从与检测样本相对应的质心顺序列表中移除一个或多个重复质心。示出的计算设备78还包括检测模块78d，其使用精简的质心列表来确定多个检测样本与同训练会话相关联的HMM参数的集合之间的匹配概率。

图6示出了根据一个实施例的处理器核心200。处理器核心200可以是针对任何类型的处理器的核心，所述任何类型的处理器例如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器、或执行代码的其他设备。尽管图6中仅示出了一个处理器核心200，但处理元件可以可替换地包括比图6中示出的处理器核心200中的一个更多的处理器核心。处理器核心200可以是单线程核心，或者对至少一个实施例而言，处理器核心200可以是多线程的，即可以包括每核心一个以上的硬件线程上下文(或“逻辑处理器”)。

图6还示出了耦合到处理器200的存储器270。存储器270可以是公知的或另外本领域技术人员可用的种类繁多的存储器(包括存储器层次中的各种层)中的任何一种。存储器270可以包括由处理器核心200执行的一个或多个代码213指令，其中，代码213可以实现已经讨论的方法62(图3)、和/或方法70(图4)。处理器核心200遵循由代码213指示的指令的程序序列。每一个指令可以进入前端部分210并且由一个或多个解码器220来进行处理。解码器220可以生成微操作作为其输出，所述微操作例如按照预定格式的固定宽度的微操作，或可以生成其他指令、微指令、或反映原始代码指令的控制信号。示出的前端210还包括寄存器重命名逻辑225和调度逻辑230，该寄存器重命名逻辑225和调度逻辑230通常对资源进行分配，并且对与转换指令相对应的操作进行入队以用于执行。

处理器200被示为包括执行逻辑250，执行逻辑250具有执行单元255-1到255-N的集合。一些实施例可以包括专用于特定功能或功能集合的多个执行单元。其他实施例可以仅包括一个执行单元或可以执行特定功能的一个执行单元。示出的执行逻辑250执行由代码指令指定的操作。

在由代码指令指定的操作的执行完成后，后端逻辑260引退代码213的指令。在一个实施例中，处理器200允许乱序执行但是要求按顺序引退指令。引退逻辑265可以采用本领域技术人员公知的多种形式(例如，对缓冲区进行重排等)。以这种方式，在代码213的执行期间，处理器核心200至少在以下方面被改变：解码器生成的输出、寄存器重命名逻辑225所利用的硬件寄存器和表、以及由执行逻辑250修改的任何寄存器(未示出)。

尽管未在图6中示出，但是处理元件可以包括与处理器核心200同在芯片上的其他元件。例如，处理元件可以包括存储器控制逻辑以及处理器核心200。处理元件可以包括I/O控制逻辑和/或可以包括与存储器控制逻辑集成的I/O控制逻辑。处理元件还可以包括一个或多个高速缓存。

现在参照图7，示出了根据实施例的系统1000实施例的框图。图7中示出的是包括第一处理元件1070和第二处理元件1080的多处理器系统1000。尽管示出了两个处理元件1070和1080，但应该理解的是系统1000的实施例也可以仅包括一个这样的处理元件。

系统1000被示出为点对点互联系统，其中，第一处理元件1070和第二处理元件1080经由点对点互联1050耦合。应该理解的是，图7所示的任何或所有互联可以被实现为多点(multi-drop)总线，而非点对点互联。

如图7所示，处理元件1070和1080中的每一个可以是多核处理器，包括第一和第二处理器核心(即，处理器核心1074a和1074b，以及处理器核心1084a和1084b)。这样的核心1074a、1074b、1084a、1084b可以被配置为按照与上文结合图6所讨论的类似的方式来执行指令代码。

每一个处理元件1070、1080可以包括至少一个共享高速缓存1896a、1896b。该共享高速缓存1896a、1896b可以存储数据(例如，指令)，所述数据分别由处理器的一个或多个部件(例如核心1074a、1074b、以及1084a、1084b)利用。例如，共享高速缓存1896a、1896b可以对存储在存储器1032、1034中的数据进行本地高速缓存，以用于由处理器的部件进行更快的访问。在一个或多个实施例中，共享高速缓存1896a、1896b可以包括一个或多个中级高速缓存，例如，2级(L2)、3级(L3)、4级(L4)、或其他级高速缓存、最后一级高速缓存(LLC)、和/或其组合。

尽管仅示出了两个处理元件1070、1080，但是应该理解的是，实施例的范围不限于此。在其他实施例中，在给定的处理器中可以存在一个或多个额外的处理元件。可替换地，处理元件1070、1080中的一个或多个可以是处理器以外的元件，例如，加速器或现场可编程门阵列。例如，额外的处理元件可以包括与第一处理器1070相同的额外的处理器、与处理器或第一处理器1070异构或非对称的额外的处理器、加速器(例如，图形加速器或数字信号处理(DSP)单元)、现场可编程门阵列、或任何其他处理元件。在包括架构、微架构、散热、功耗特点等在内的指标的测度范围方面，处理元件1070、1080之间可能存在多种区别。这些区别可以有效地将自身显现为处理元件1070、1080之间的非对称性或异构性。对于至少一个实施例而言，各种处理元件1070、1080可以驻留在同一管芯封装中。

第一处理元件1070还可以包括存储器控制器逻辑(MC)1072以及点对点(P-P)接口1076和1078。类似地，第二处理元件1080可以包括MC1082以及P-P接口1086和1088。如图7所示，MC的1072和1082将处理器耦合到相应的存储器，即存储器1032和存储器1034，存储器1032和存储器1034可以是本地附连到相应的处理器的主存储器的一部分。尽管将MC 1072和1082示为集成到处理元件1070和1080中，但是对于可替换的实施例，MC逻辑可以是处理元件1070、1080外部的分立逻辑，而不是集成在其中。

第一处理元件1070和第二处理元件1080可以分别经由P-P互联1076、1086耦合到I/O子系统1090。如图7所示，I/O子系统1090包括P-P接口1094和1098。此外，I/O子系统1090包括将I/O子系统1090与高性能图形引擎1038耦合的接口1092。在一个实施例中，可以使用总线1049来将图形引擎1038耦合到I/O子系统1090。可替换地，点对点互联可以耦合这些部件。

继而，I/O子系统1090可以经由接口1096耦合到第一总线1016。在一个实施例中，第一总线1016可以是外围部件互联(PCI)总线、或诸如PCI快速总线或其他第三代I/O互连总线之类的总线，但是实施例的范围不限于此。

如图7所示，各种I/O设备1014(例如，摄像头、麦克风)可以耦合到第一总线1016，以及总线桥1018可以将第一总线1016耦合到第二总线1020。在一个实施例中，第二总线1020可以是低引脚数(LPC)总线。在一个实施例中，各种设备可以耦合到第二总线1020，所述各种设备包括例如键盘/鼠标1012、网络控制器/通信设备1026(其可以继而与计算机网络通信)、以及数据存储单元1019，例如磁盘驱动器，或可以包括代码1030的其他大容量存储设备。代码1030可以包括用于执行上文描述的方法的一个或多个的实施例的指令。由此，示出的代码1030可以实现已经讨论的方法62(图3)、和/或方法70(图4)，并且可以与代码213(图6)类似。此外，音频I/O 1024可以耦合到第二总线1020，其中，该音频I/O 1024可以用于建立耳机(headset)连接。

应该注意的是，还可以想到其他实施例。例如，替代图7的点对点架构，系统可以实现多点总线或其他这样的通信拓扑结构。此外，可以使用比图7所示的更多或更少的集成芯片，来可替换地划分图7中的元件。

额外的说明和示例：

示例1可以包括一种用于处理训练样本的装置，包括：划分模块，其用于将多个训练样本划分为质心顺序列表。所述装置还可以包括过滤器，其移除所述质心顺序列表中的一个或多个重复质心以获取精简的质心列表；以及参数模块，其基于所述精简的质心列表来生成隐马尔科夫模型(HMM)参数的集合。

示例2可以包括示例1的装置，其中，所述精简的质心列表缺乏时间变化性。

示例3可以包括示例1的装置，其中，所述质心顺序列表与具有到所述HMM中的一个或多个状态的一对一映射的群集集合相关联。

示例4可以包括示例1的装置，其中，所述划分模块包括群集单元，所述群集单元确定针对所述多个训练样本的群集集合；质心单元，确定与所述群集集合相对应的群集质心集合；以及分配单元，将所述多个训练样本中的每一个训练样本分配给所述群集质心集合中的质心。

示例5可以包括示例1至4中任何一个的装置，其中，所述划分模块将多个姿势样本划分为所述质心顺序列表。

示例6可以包括示例1至4中任何一个的装置，其中，所述划分模块将多个语音样本划分为所述质心顺序列表。

示例7可以包括一种用于处理训练样本的方法，包括：将多个训练样本划分为质心顺序列表。所述方法还可以包括提供移除所述质心顺序列表中的一个或多个重复质心以获取精简的质心列表，以及基于所述精简的质心列表来生成隐马尔可夫模型(HMM)参数的集合。

示例8可以包括示例7的方法，其中，所述精简的质心列表缺乏时间变化性。

示例9可以包括示例7的方法，其中，质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

示例10可以包括示例7的方法，其中，划分所述多个训练样本包括确定针对所述多个训练样本的群集集合、确定与所述群集集合相对应的群集质心集合、以及将所述多个训练样本中的每一个训练样本分配给所述群集质心集合中的质心。

示例11可以包括示例7至10中任一个的方法，其中，多个姿势样本被划分为所述质心顺序列表。

示例12可以包括示例7至10中任一个的方法，其中，多个语音样本被划分为所述质心顺序列表。

示例13可以包括一种用于处理检测样本的方法，包括：将多个检测样本划分为质心顺序列表，移除所述质心顺序列表中的一个或多个重复质心以获取精简的质心列表，以及使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔科夫模型(HMM)参数之间的匹配概率。

示例14可以包括示例13的方法，其中，所述精简的质心列表缺乏时间变化性。

示例15可以包括示例13的方法，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

示例16可以包括示例13的方法，其中，使用所述质心列表来确定所述匹配概率包括将滑动窗口应用于所述精简的质心列表，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集的数量。

示例17可以包括示例13至16中任一个的方法，其中，多个姿势样本被划分为所述质心顺序列表。

示例18可以包括示例13至16中任一个的方法，其中，多个语音样本被划分为所述质心顺序列表。

示例19可以包括具有指令的集合的至少一个计算机可读存储介质，其中，如果所述指令集合通过计算设备执行，使得所述计算设备将多个检测样本划分为质心顺序列表。如果被执行，所述指令还可以使得所述计算设备移除所述质心顺序列表中的一个或多个重复质心以获得精简的质心列表，以及使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔可夫模型(HMM)参数之间的匹配概率。

示例20可以包括示例19的至少一个计算机可读存储介质，其中，所述精简的质心列表缺乏时间变化性。

示例21可以包括示例19的至少一个计算机可读存储介质，其中，所述质心顺序列表与具有到HMM中的状态的一对一的映射的群集集合相关联。

示例22可以包括示例19的至少一个计算机可读存储介质，其中，如果被执行，所述指令使得计算设备将滑动窗口应用于所述精简的质心列表，以使用所述列表来确定所述匹配概率，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集的数量。

示例23可以包括示例19至22中任何一个的至少一个计算机可读存储介质，其中，多个姿势样本被划分为所述质心顺序列表。

示例24可以包括示例19至22中任何一个的至少一个计算机可读存储介质，其中，多个语音样本被划分为所述质心顺序列表。

示例25可以包括一种用于处理检测样本的装置，包括：划分模块，其将多个检测样本划分为质心顺序列表；过滤器，移除所述质心顺序列表中的一个或多个重复质心，以获取精简的质心列表；以及检测模块，其使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔科夫模型(HMM)参数的集合之间的匹配概率。

示例26可以包括示例25的装置，其中，所述精简的质心列表缺乏时间变化性。

示例27可以包括示例25的装置，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

示例28可以包括示例25的装置，其中，所述检测模块将滑动窗口应用于所述精简的质心列表，以使用所述列表来确定所述匹配概率，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集的数量。

示例29可以包括示例25至28中任一个的装置，其中，多个姿势样本被划分为质心顺序列表。

示例30可以包括示例25至28中任一个的装置，其中，多个语音样本被划分为质心顺序列表。

示例31可以包括至少一个计算机可读存储介质，所述至少一个计算机可读存储介质包括指令集合，如果被计算设备执行，所述指令使得所述计算设备执行示例7至12中任一个的方法。

示例32可以包括一种用于处理训练样本的装置，包括：用于执行示例7至10中任一个的方法的模块。

示例33可以包括一种用于处理检测样本的装置，包括：用于执行示例13至16中任一个的方法的模块。

因此，本文中描述的技术可以基于实时并且连续地对诸如姿势以及语言输入等的交互进行学习和检测。例如，在训练和检测样本中消除时间变化性可以降低不确定性并且继而提高可靠性。此外，将HMM中的状态映射到训练检测样本的质心/群集可以增强效率并且提升性能。此外，使用具有固定宽度的滑动窗口可以进一步改进效率和速度，并且最终使得能够进行实时和连续的检测。

可以使用硬件元件、软件元件或两者的组合来实现各种实施例。硬件元件的示例可以包括处理器、微处理器、电路、电路元件(例如，晶体管、电阻、电容、电感等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可以包括软件部件、程序、应用、计算机程序、应用程序、系统程序、机器程序、操作系统软件、中间件(middleware)、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序编程接口(API)、指令集合、计算代码、计算机代码、代码段、计算机代码段、字、值、符号、或其任何组合。确定实施例是否是使用硬件元件和/或软件元件来实现的可以根据任何数量的因素(例如，期望的计算速率、功率级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其他设计或性能约束等)而不同。

可以通过存储在机器可读介质上的代表性指令来实现至少一个实施例的一个或多个方面，所述代表性指令表示处理器内的各种逻辑，当由机器读取时，所述代表性指令使得机器构建逻辑以执行本文描述的技术。被称为“IP核”的这种表示可以存储在有形的、机器可读介质上并且被供应给各种用户或制造设备，以将其加载到最终制造所述逻辑或处理器的制造机器中。

实施例对于与所有类型的半导体集成电路(“IC”)芯片使用而言都是适用的。这些IC芯片的示例包括但不限于处理器、控制器、芯片组部件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片等。此外，在一些附图中，使用线条来表示信号导线。一些线条可以是不同的，以指示多个信号路径，可以具有附图标记，以指示一些组成信号路径，和/或在一个或多个端点具有箭头，以指示主要的信息流向。然而，不应该以限制的方式来对此进行解释。事实上，这样的补充的细节可以结合一个或多个示例性实施例来使用，以利于更容易地理解电路。任何被表示的信号线，不管是否具有额外的信息，实际上可以包括可以在多个方向上穿行的一个或多个信号，并且可以使用任何合适类型的信号方案被实现，例如，利用差分对、光纤线路、和/或单端线路实现的数字或模拟线路。

尽管可能已经给出了示例尺寸/模型/值/范围，然而实施例并不限于此。由于制造工艺(例如，影印石版术)随时间而成熟，可以期望的是将可以制造出更小尺寸的器件。此外，为了说明和讨论的简单起见，以及为了不使实施例的某些方面难以理解，到IC芯片的公知的电源/地连接，以及其他部件可能或可能没有在附图内示出。此外，布置可以以框图形式示出，以便避免使实施例难以理解，并且这也是考虑到这样的事实：与实现这种框图的布置有关的细节高度依赖于其内部实现该实施例的平台，即这样的细节应该在本领域技术人员的能力范围内。在阐述了具体细节(例如，电路)以便于描述示例实施例的情况下，对本领域的技术人员而言应该显而易见的是，实施例可以在没有这些具体细节的情况下，或利用这些具体细节的变形来实践。由此，应该认为这些描述是说明性的，而不是限制性的。

例如，一些实施例可以使用机器或可以存储指令或指令集合的有形的计算机可读介质或产品来实现，如果被机器执行，所述指令或指令集可以使得该机器执行根据实施例的方法和/或操作。例如，这样的机器可以包括任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等，以及可以使用硬件和/或软件的任何合适的组合来实现。机器可读介质或产品可以包括例如，任何合适类型的存储器单元、存储器设备、存储器产品、存储器介质、存储设备、存储产品、存储介质和/或存储单元，例如，存储器、可移除或不可移除介质、可擦除或不可擦除介质、可写或可重写介质、数字或模拟介质、硬盘、软盘、光盘只读存储器(CD-ROM)、可记录式光盘(CD-R)、可重写光盘(CD-RW)、光学盘、磁性介质、磁-光介质、可移除存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、录音带等。指令可以包括任何合适类型的代码，例如源代码、编译的代码、解释的代码、可执行代码、静态代码、动态代码、加密代码等，可以使用任何合适的高级、低级、面向对象、可视、编译和/或解释的编程语言来实现所述任何合适类型的代码。

除非另作特别说明，可以意识到的是，诸如“处理”、“计算”、“运算”、“确定”等术语指的是对计算机或计算系统、或类似的电子计算设备的动作和/或处理，其将计算系统的寄存器和/或存储器内被表示为物理量(例如，电子量)的数据操纵和/或转变为计算系统的存储器、寄存器或其它这样的信息存储、传输或显示设备内类似地被表示为物理量的其他数据。实施例在此上下文中不受限制。

在本文中，可以使用术语“耦合”来指代所讨论的部件之间的任何类型的关系，直接或间接的，并且其可以适用于电气、机械、流体、光学、电磁、机电或其他连接。此外，在本文中可以使用术语“第一”、“第二”等仅是为了便于讨论，而不带有特别的时间或顺序意义，除非另外指明。

本领域技术人员从上文描述中应当意识到的是，可以以各种形式来实现实施例的广泛技术。因此，尽管已经结合实施例的特定示例描述了这些实施例，然而这些实施例的真正范围不应受限于此，这是因为，在学习了附图、说明书、以及所附权利要求书之后，其他的修改对本领域的技术人员而言将变得显而易见。

Claims

1.一种用于处理训练样本的装置，包括：

包括用于收集多个训练样本的传感器的计算设备，所述计算设备包括：

划分模块，将所述多个训练样本划分为质心顺序列表；

过滤器，移除所述质心顺序列表中的一个或多个重复质心以获取精简的质心列表；以及

参数模块，基于所述精简的质心列表来生成隐马尔科夫模型(HMM)参数集合并且将滑动窗口应用于所述精简的质心列表，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集数量。

2.根据权利要求1所述的装置，其中，所述精简的质心列表缺乏时间变化性。

3.根据权利要求1所述的装置，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

4.根据权利要求1所述的装置，其中，所述划分模块包括：

群集单元，确定针对所述多个训练样本的群集集合；

质心单元，确定与所述群集集合相对应的群集质心集合；以及

分配单元，将所述多个训练样本中的每一个训练样本分配给所述群集质心集合中的质心。

5.根据权利要求1所述的装置，其中，所述划分模块将多个姿势样本划分为所述质心顺序列表。

6.根据权利要求1所述的装置，其中，所述划分模块将多个语音样本划分为所述质心顺序列表。

7.一种用于处理训练样本的方法，包括：

将多个训练样本划分为质心顺序列表；

移除所述质心顺序列表中的一个或多个重复质心以获取精简的质心列表；以及

基于所述精简的质心列表来生成隐马尔可夫模型(HMM)参数的集合；

将滑动窗口应用于所述精简的质心列表，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集数量。

8.根据权利要求7所述的方法，其中，所述精简的质心列表缺乏时间变化性。

9.根据权利要求7所述的方法，其中，质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

10.根据权利要求7所述的方法，其中，划分所述多个训练样本包括：

确定针对所述多个训练样本的群集集合；

确定与所述群集集合相对应的群集质心集合；以及

将所述多个训练样本中的每一个训练样本分配给所述群集质心集合中的质心。

11.根据权利要求7所述的方法，其中，多个姿势样本被划分为所述质心顺序列表。

12.根据权利要求7所述的方法，其中，多个语音样本被划分为所述质心顺序列表。

13.一种用于处理检测样本的方法，包括：

将多个检测样本划分为质心顺序列表；

使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔可夫模型(HMM)参数集合之间的匹配概率，这包括将滑动窗口应用于所述精简的质心列表，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集数量。

14.根据权利要求13所述的方法，其中，所述精简的质心列表缺乏时间变化性。

15.根据权利要求13所述的方法，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一映射的群集集合相关联。

16.根据权利要求13所述的方法，其中，多个姿势样本被划分为所述质心顺序列表。

17.根据权利要求13所述的方法，其中，多个语音样本被划分为所述质心顺序列表。

18.一种用于处理检测样本的装置，包括：

用于将多个检测样本划分为质心顺序列表的单元；

用于移除所述质心顺序列表中的一个或多个重复质心以获得精简的质心列表的单元；以及

用于使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔科夫模型(HMM)参数集合的匹配概率的单元；以及

用于将滑动窗口应用于所述精简的质心列表来使用所述列表确定所述匹配概率的单元，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集数量。

19.根据权利要求18所述的装置，其中，所述精简的质心列表缺乏时间变化性。

20.根据权利要求18所述的装置，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一的映射的群集集合相关联。

21.根据权利要求18所述的装置，其中，多个姿势样本被划分为所述质心顺序列表。

22.根据权利要求18所述的装置，其中，多个语音样本被划分为所述质心顺序列表。

23.包括指令的集合的至少一个非暂时性计算机可读存储介质，所述指令当由计算设备执行时，使得所述计算设备用于

将多个检测样本划分为质心顺序列表；

移除所述质心顺序列表中的一个或多个重复质心以获得精简的质心列表；以及

使用所述精简的质心列表来确定所述多个检测样本与同训练会话相关联的隐马尔科夫模型(HMM)参数集合的匹配概率；以及

将滑动窗口应用于所述精简的质心列表来使用所述列表确定所述匹配概率，并且其中，所述滑动窗口具有固定宽度，所述固定宽度等于与所述质心顺序列表相关联的群集集合中的群集数量。

24.根据权利要求23所述的计算机可读存储介质，其中，所述精简的质心列表缺乏时间变化性。

25.根据权利要求23所述的计算机可读存储介质，其中，所述质心顺序列表与具有到所述HMM中的状态的一对一的映射的群集集合相关联。

26.根据权利要求23所述的计算机可读存储介质，其中，多个姿势样本被划分为所述质心顺序列表。

27.根据权利要求23所述的计算机可读存储介质，其中，多个语音样本被划分为所述质心顺序列表。