CN102227240B

CN102227240B - 展示联系行为的玩具

Info

Publication number: CN102227240B
Application number: CN2009801475166A
Authority: CN
Inventors: J·A·杜普里兹; L·C·施沃尔德特
Original assignee: Stellenbosch University
Current assignee: Stellenbosch University
Priority date: 2008-11-27
Filing date: 2009-11-27
Publication date: 2013-11-13
Anticipated expiration: 2029-11-27
Also published as: HK1163003A1; US20110230114A1; CN102227240A; EP2367606A1; ZA201103438B; EP2367606A4; WO2010061286A1

Abstract

本发明提供能够向用户展示联系行为的玩具和模拟这种行为的方法。玩具包括用于接收来自用户的交互输入的输入传感器(18)，用于与用户通信的输出设备(24)，处理器(12)和存储器(16)，存储器(16)包括使得处理器(12)接收交互输入、处理所接收的输入和向输出设备发送控制信号的机器指令。处理器(12)将所接收的输入分类为积极的或消极的并根据该分类调整存储器(16)中存储的累积输入。而控制信号取决于累积输入。

Description

展示联系行为的玩具

技术领域

本发明涉及交互式玩具，更具体地涉及模仿父母和孩子之间自然发生的联系的能够向自然人展示联系行为的玩具。本发明扩展至用于模拟玩具对自然的人或人们的联系行为的方法。

背景技术

全世界的人们拥有玩具、特别是玩偶，并且已经有数百年了。由于友谊以及有时也为了激发安全感的原因，孩子们以玩偶为乐。孩子，特别是小孩子，通常与他们的玩偶形成非常强的联系，其中该联系甚至可能在孩子的成长中起到作用。由于各种原因，成年人也拥有玩偶，由于他们的审美质量或情感依恋，可能作为收藏者的考虑。

过去几年随着技术的进步，玩偶得到了发展并已经日益变得复杂，且实际上，变得更为逼真。例如，发明人意识到玩偶能够模拟诸如哭、睡觉、谈话的有限的人类行为，甚至模拟诸如吃饭和排泄身体排泄物的人类身体机能。发明人进一步意识到诸如麦克风、声音传感器、运动传动器(movement actuator)和类似的电子设备已经合并到玩偶中。

例如，名称为“交互式高技术玩偶”的美国专利申请第US2007/0128979号公开了一种玩偶，其产生类似于人类的面部表情、当与人类交谈时识别特定单词、并能够根据某些预定问题和答案情况与有生命的人进行有限交谈。玩偶识别口语单词基于由结合在玩偶中的处理器所控制的语音和声音识别技术，并允许训练玩偶以识别特定人的声音，以及给人分配特定角色，例如其妈妈的角色。玩偶在其脸上配有运动传动器，允许在说话或分别模仿人类表情时移动其眼睛、嘴和脸颊以展示特定的预定面部表情。有限的交谈技能基于本领域公知的基础声音和语音识别技术。在每种情况下，玩偶会问预先记录的问题并期望接收特定的回答。如果它接收到所希望的回答，玩偶做出积极的反应，以及如果它接收到任何不期望的回答，它做出不合适的反映。然而，在该申请中没有提及玩偶具有长期学习能力。相反，其行为看来是由主要响应于当前的用户输入和其在时钟上构建的状态机所控制的。

发明目的

本发明的一个目的是提供一种交互式玩具，更具体地，是提供一种能够模仿朝向人的联系行为的玩偶，其是对上述概括的现有技术的改进。

发明内容

根据本发明，提供一种包含主体的玩具，所述主体包括用于接收来自人类用户的输入的至少一个输入传感器；至少一个输出设备，玩具通过该输出设备与用户进行交互；与输入传感器和输出设备通信的处理器以及与处理器通信的存储器，所述玩具的特征在于，处理器被编程为将每个接收的输入分类为积极的或消极的，以根据该分类调整存储在存储器中的累积输入，并根据累积输入将控制信号发送给输出设备，从而玩具响应于一系列随时间推移而显著地积极输入展示出增长的联系行为，并响应于一系列随时间推移而显著地消极输入展示出减少的联系行为。

本发明进一步的特征提供了接收的输入对应于人类与玩具之间的交互，其中交互对应于声音、运动和图像中的一个或多个；处理器将与叫喊相关联的声音和与身体虐待相关联的运动分类为消极输入；玩具包括至少两个输入传感器，第一个输入传感器是配置为检测语音和语言幅度的麦克风，以及第二个输入传感器是配置为检测玩具的运动和加速度的加速度计；累计输入至少在一些程度上表示玩具的偏爱用户的语音；处理器被编程为确定由麦克风接收的接收语音输入和累计输入之间的相似度；在将接收输入分类为积极的，调整累计输入以越来越多地表示用户，以及在相似度较低或将接收输入分类为消极时，其变得更少地表示偏好用户或者保持不变；处理器被编程为将幅度高于预定最大语音幅度的接收语音分类为消极输入，并且将在其之下的分类为积极输入；处理器被编程为将加速度高于预定最大加速度门限的检测运动输入分类为消极输入，并且将在其之下的分类为积极输入；处理器被编程为根据情况确定接收输入的积极程度或消极程度，并与积极程度或消极程度成比例的调整累计输入。

同时本发明进一步的特征提供了玩具，包括连接到处理器的定时装置，并且其中处理器被编程为将大于预定时间段的缺少接收输入分类为消极输入，并响应于其调整累计输入变得更少地表示偏好用户；以及输出设备包括声音传感器和运动传动器中的一个或全部，并且处理器被编程为当接收语音输入的相似度较高时，以更高频率地和/或更高质量地将控制信号发送给输出设备，并且其中处理器被编程为当接收语音输入的相似度较低时，以更低频率地和/或更低质量地将控制信号发送给输出设备。

同时本发明进一步的特征提供了累计输入，包括从与普通背景说话者相关联的语音中提取的特征集合，每个特征具有与之相关联的可变权重，从而加权特征集合表示偏爱用户的语音；调整与特征相关联的权重以使累计输入增加地或减少地表示偏爱用户的语音；以及当累计输入变得更少地表示当前偏爱用户的语音时，调整累计输入以增加至少一个可替代用户语音的样本，当累计输入相比于当前偏爱用户更多地表示可替代用户的语音时，可替代用户成为新的偏爱用户。

本发明还提供了一种模拟玩具朝向人类的联系行为的方法，包括以下步骤：在存储器中存储表示与玩具相关联的偏爱用户的累积输入，通过在玩具中结合的至少一个输入传感器从用户接收输入，将输入分类为积极的或消极的，响应于积极输入将累计输入调整为增加对偏爱用户的表示，以及响应于消极输入而减少对偏爱用户的表示，且响应于输入将控制信号发布给玩具的输出设备，控制信号取决于累计输入。

本发明进一步的特征为方法提供了将接收的高于预定幅度的语音输入分类为消极输入、将接收的超出预定加速度范围的运动输入分类为消极输入、以及将超过预定时间段没有接收输入分类为消极输入的步骤；以及确定接收语音输入与偏爱用户的语音输入的相似度并将与相似度成比例的控制信号发布给玩具的输出设备的步骤。

附图说明

现在通过仅参照附图的实施例来描述本发明，其中：

图1是根据本发明的第一实施方式的能够向人类展示联系行为的玩具玩偶的内部元件的示意图；

图2是图1的玩具玩偶的可替换实施方式的示意图；以及

图3是描述根据本发明的玩具玩偶的宏观行为的流程图。

具体实施方式

附图中的图1描述了根据本发明第一实施方式的玩具玩偶(在图中没有示出)的内部功能元件(10)。玩具包含在附图中没有示出的身体，其可以采用任何数量的外形，例如婴儿、幼童、动物或甚至玩具人物。元件(10)通常位于玩偶内部，例如在身体的胸腔内，在那里它们由身体所保护。为了进入可能需要周期性替换或维护的元件特定部分，在身体的重要位置上可以设置入口，例如电源或电池包。

元件(10)包括下列内容以支持所要求的行为：数字中央处理单元(CPU)(12)，包括定时装置(14)(在该实施例中是数字定时器)、作为非易失性存储模块形式的存储单元(16)、检测输入的输入传感器(18)(在该实施例中是麦克风(20)和加速计(22))和与用户进行通信的输出设备(24)。在该实施方式中的输出设备包括声音传感器(26)和与玩具的肢体(在图中没有示出)相连接的运动传动器(28)。可以理解的是，为了控制肢体的运动，运动传动器(28)可以与玩具的任何肢体相连接。CPU(12)利用输入接口(30)和输出接口(32)分别与输入传感器(18)和输出设备(26)相连接。输入接口(30)包括模数(A/D)转换器(34)，以及输出接口(32)包括数模(D/A)转换器(36)。软件形式的机器指令(在图中没有示出)存储在存储器(16)中或附加存储模块(38)上，以驱动输入接口(30)和输出接口(32)以及他们各自的A/D和D/A转换器。机器指令还包括促使CPU通过输入传感器接收输入、处理接收的输入、并将控制信号发送给输出设备的指令。

将控制玩具行为的附加软件以及按数字模型形式的累积输入变量(在图中没有示出)也存储在存储器(16)中，其中输入变量包含从用户的语音和/或行为中提取的特征或属性的汇集，包括当前的偏爱用户以及偏爱用户的特性通常如何与其它用户相区别的参考。累积的输入在可变范围内表示当前偏爱的用户，并存储在非易失性存储模块(16)中。该软件进一步包括声音和语音识别功能，并且其它特征提取软件允许处理器分析所接收的输入并确定其对应于当前偏爱用户的数字模型的程度，从而产生所接收的语音输入与由累积输入所表示的偏爱用户的相似程度。

此外，存储器(16)包括允许CPU分析由输入传感器(18)检测的输入以及将输入分类为实质上积极或消极的并且还将积极或消极的程度分配给所接收的输入的软件。如果将通过输入接收的与当前用户的交互视为积极的，那么该输入用于提供更多当前用户的属性的学习，并用这样更多的属性来更新累积输入。可以理解的是，只要输入被分类为积极的，将当前用户更多的属性添加到累积输入中会使得表示当前用户的累积输入增加，从而表示与当前用户的联系日益增强。如果当前用户也接近表示为偏爱用户，则累积输入将逐渐变为表示模拟与其日益紧密联系的偏爱用户，但是如果当前用户不表示偏爱用户，玩具将减小其与偏爱用户的联系并增大其与当前用户的联系。因此，从可以通过与玩具进行连续的积极交户来把当前用户变成偏爱(首选，优选)用户。

如果与玩具的交互视为是消极的并且达到当前用户匹配在累积输入中包含的表示偏爱用户的属性的程度时，逐渐返回遗忘过程或降低累积输入以变得更少地表示偏爱用户而变得更多地表示其它或普通背景的用户。

在这种情况下，学习或遗忘的程度与将来自用户的交互分类为积极或消极的程度成比例。机器指令(软件)包括接收的语音输入幅度以及检测的动作输入加速度的门限值。如果接收的语音具有高于幅度门限值的幅度，由于其对应于喊叫或噪声，因此将这样的语音分类为消极输入。由于超过最大门限的加速度对应于身体虐待、投掷或坠落，因此将其分类为消极输入。还可预见的是，软件可以允许CPU(12)识别在作为唱歌的声音输入的基音图样中的标准偏差和在作为扰动的预定最小和最大门限之间的标准加速度，可将其解释为积极输入。

在将来自用户的交互视为是积极的并且当前用户的特性与偏爱用户的特性紧密地匹配的范围下，换句话说就是在当前用户的语音和偏爱用户的语音(由累积输入所表示)之间存在较高程度的相似性，由CPU(12)发送到输出设备(26)的指令所指示的，来自玩具的积极响应在频率上和/或质量上会增加。相反，如果当前用户的特性不与偏爱用户的特性匹配，由CPU(12)发送到输出设备(26)的指令所指示的，来自玩具的积极响应在频率上和/或质量上会减小。

除了传感器(18)检测的诸如语音和运动的输入外，软件还促使CPU(12)监视定时器(14)并识别与玩具缺少交互大于指定时间段。这对应于忽略玩具并被分类为消极输入且相应地影响累积输入，导致遗忘偏爱用户。

参照图3描述的流程图能够更简单地解释玩具的宏观行为。在图3中，在步骤(40)当通过输入传感器(18)中的一个检测到输入时，CPU(12)将输入分类为积极或消极，并根据情况可以测量其积极性和消极性的程度。CPU(12)还确定语音输入相关联的语音与偏爱用户的语音的相似度，在图中该步骤被称作与联系用户的匹配质量。如果该输入被分类为积极的，这在步骤(42)中进行识别，以及通过使累积输入逐渐增加地表示偏爱用户，指示CPU(12)学习或加强当前用户的属性，在步骤(44)中将用户属性与所接收输入的积极性程度成比例，其后CPU(12)给输出设备(18)发送指令，在步骤(46)将当前用户与偏爱用户的相似度和输入的积极性成比例。

如果在步骤(42)将输入识别为消极，在步骤(48)中CPU(12)确定当前用户是否也是当前偏爱用户或是否将输入识别为消极的。如果当前用户不是当前偏爱用户并且输入也不被识别为消极的，CPU(12)再次给输出设备(18)发送指令，在步骤(46)中当前用户和偏爱用户的相似度与输入的消极性成比例。然而，在步骤(48)如果将当前用户识别为当前偏爱用户或者将输入识别为消极，在步骤(50)指示CPU(12)遗忘与输入的消极性程度成比例的当前用户的属性，之后CPU(12)将指令发送给输出设备(18)，在步骤(46)将当前用户与偏爱用户的相似度和输入的消极性成比例。

在步骤(46)中完成将指令发送给输出设备后，CPU(12)等待要接收的下一输入或等待定时器指示缺少交互。

在图2中示出了本发明的可替换的实施方式。在图中，相同的附图标记表示与图1所说明的实施方式相同的特征。图2的实施方式也包括数字中央处理单元(CPU)(12)，包括数字定时器(14)、非易失性存储模块形式的存储单元(16)、检测输入的输入传感器(18)和麦克风(20)以及加速计(22)。该实施方式还包括数字图像记录器(50)，在该实施方式中是数字照相机。该实施方式还包括与用户进行通信的输出设备(24)。输出设备还包括声音传感器(26)和与玩具的肢体(在图中没有示出)连接的运动传动器(28)。CPU(12)分别利用输入接口(30)和输出接口(32)与输入传感器(18)和输出装置(26)相连接。输入接口(30)包括模数(A/D)转换器(34)并且输出接口(32)包括数模(D/A)转换器(36)。软件形式的机器指令(在图中没有示出)存储在存储器(16)中或附加的存储模块(38)中，以驱动输入接口(30)和输出接口(32)以及它们各自的A/D和D/A转换器。

可以理解的是，在本发明的该实施方式中，例如当检测到来自用户的交互时，数字照相机(50)可以用于周期性地拍摄用户的图像。该图像可以与语音记录结合地或单独地用于识别偏爱用户的脸。复杂的图像识别软件是可用的，其可以用于将数字图像与存储在存储器(16)中的偏爱用户的图像进行比较。如上面所述和下面用于语音识别的进一步描述，图像识别软件可以用于确定由照相机(50)拍摄的偏爱用户的图像与当前用户在最近阶段拍摄的图像之间的相似度。由CPU(12)发送给输出设备(24)的控制信号也可以取决于当前用户的图像和偏爱用户的图像之间的相似度。

上述描述对玩具的工作提供了概述。下面是对由软件所利用的和CPU(12)所执行的算法的更为详细地分析。无论是软件还是硬件实现的并且可能不驻留在存储器(16)中的算法，将在CPU(12)上执行以评估与当前用户的交互并据此改变其偏爱用户的内部表现(累积输入)以及确定其与用户交互的性质。

当以数字形式进行检测并提供给CPU时，对来自用户的输入(在这种情况下是语音)进行采样。从而对该信号进行数字处理以确定其相关的信息内容。尽管各种替换是可能的，但在该实施方式中将其再分为30ms的帧序列，彼此重叠50％。由窗口函数对每个帧进行整形，并确定其功率水平以及梅尔频率倒谱系统(MFCC)(还可使用诸如RASTA PLP的各种其它分析)。其在给定时间随着基音频率增大。将所有这些信息合并到特征矢量x(n)中，其中矢量概括用于那个帧的相关语音信息。索引n表示确定该矢量的具体帧号。利用可使用的信息，由已知的几种实现方式将信号分为沉默和语音段。

相似地，能够将从加速度计获得的输入收集到概括玩具运动的另一特征矢量y(n)中。

通过x(n)将信号功率(幅度)以及基音频率称为时间的函数。通过该功率直接确定声音的响度。如果响度保持在预先确定的最小和最大门限之间，可以认为交互是积极的。在预定间隔内语音的全部缺失将会被认为是忽略的，并且因此是消极的，并且超过最大门限的过度大声的存在可被认为是喊叫，并且因此也是消极的。

可以将这些方面合并到给定时间段上的质量测量中，用值-1≤Q≤1表示，其中0为中性的。

为了确定说话者的身份，使用统计模型来描述目标说话者以及普通的背景说话者。尽管这里的描述涉及对说话者的特征进行建模并用其确定未知语音采样和特定说话者之间匹配的特定实现，但是不排除其他执行此功能的技术。精确的技术或实现对本发明并不是重要的，并且通常具有来自说话者识别和机器学习(模式识别)的广阔领域中的几个可使用的替代者。除了这里描述的以外，可以想象还能够使用支持向量机(SVM)或其它流行的模式分类方法。

普通的背景说话者用这里称为全局背景模型(UBM)的高斯混合模型(GMM)来表示。在其的最简单形式中，这样的混合能够退化为单一的高斯密度，从而极大地减小计算要求。典型地，通过大量说话者的语音来集体训练UBM。

然后，该UBM通过诸如最大后验(MAP)自适应、最大似然线性回归(MLLR)、或最大似然特征分解(MLED)的处理来适应指定目标说话者的语音，指定目标说话者在该实施方式中是优选用户。训练的UBM参数形成稳定的初始模型估计，其中按一些方式对初始模型估计重新加权，从而和偏爱用户的特征更接近。该结果是优选的说话者模型。在下面对该方法进行更为详细的描述。

具有可使用的UBM和目标说话者模型允许其评估语音的未知片段与偏爱用户的模型的匹配相似度。这通过评估该语音片段与背景说话者模型(UBM)和偏爱用户(由累积输入表示)的对数值来实现。这些值之间的差别接近对数似然比(LLR)分数并且直接解释为偏爱用户与当前语音匹配的程度如何。在数学上，将第n个帧的LLR分数s(n)表示为：

s(x(n))＝log(f_T(x(n)))-log(f_U(x(n)))，

其中f表示高斯或GMM概率密度函数，以及下标T和U分别表示目标说话者和UBM说话者。

基于单一帧的判断是不稳定的。典型地是在进行处理前收集N个帧，其中所选择的N对应于10-30秒范围的持续时间。然后由下式给出该部分的分数

s (X) = Σ_{n = 0}^{N - 1} s (x (n)),

其中X＝{x(0)，...，x(N-1)}。较大的值表示语音来自偏爱用户的可能性较大(相似度高)，并用0值表示不能将语音从普通背景说话者中区别出来(相似度低)。此外，还有用于此的几个其它替换方式。测试归一化(TNORM)是另一个用多个背景说话者模型代替单一UBM的著名实例。

多维高斯密度包括均值/矩心矢量m和协方差矩阵C。高斯矩心矢量的MAP自适应特别地导致在先存在的矩心和最近观测的目标特征矢量的加权组合，而保持协方差矩阵不被改动和完整。这里该想法适于允许系统以计算上有效的方式学习最近说话者的特征并同时也逐渐遗忘较早说话者的特性。

首先描述单目标高斯矩心自适应，并稍后将其扩展至GMM中嵌入的高斯矩心自适应。在玩具第一次使用前，目标矩心从UBM克隆。从而，在该阶段不能将偏爱用户从普通背景说话者中区别出来。因此

m_T(n)＝m_U，n＝-1

其中再一次，T表示目标，U表示UBM，并且n的数量表示自适应时间步长。注意目标矩心是时间n的函数，而UBM矩心保持不变。现在观测从用户的语音导出的由x(n)表示的目标特征矢量。随后使用下列递归式对目标矩心进行修改

m_T(n)＝λx(n)+(1-λ)m_T(n-1)，

其中λ为小的正的常数，n＝0，1，2...。该差分公式表示具有DC增益为1的数字低通滤波器。λ的值越小，对现有矩心值越重视并对最近观测的特征值越不重视。因此，λ有效地控制了系统具有过去的矩心的存储器的长度。通过记录该滤波器的脉冲响应用多长时间将原始脉冲高度减小10％，能够确定该存储器的有效长度。下列表格对此进行概括：

λ	10^-3	10^-4	10^-5
				步长的数量	2301	23025	230257
分钟数量	0.58	5.8	58

表1：用于不同λ值的有效存储器长度。分钟长度取决于15ms的时间步长。

因此，对于λ＝10^-5，大约要求一小时的持续语音以遗忘之前的说话者并与新的偏好说话者建立联系。这样的学习速率可以通过交互质量进行调整，可将其设置为

λ = 10^{- 5} (1 + \frac{Q}{2}) .

更复杂的系统使用高斯混合模型(GMM)，其包括K个高斯元素模型，而并非是上面讨论的单一高斯密度。如果指定第i个高斯元素的特征矢量x(n)的似然由f_i(x(n))给出，则由GMM导出的似然将是加权和

f (x (n)) = Σ_{i = 1}^{k} w_{i} f_{i} (x (n)),

其中w_i是混合权重，并且i＝1，2，...，K。当更新这样的模型时，目标特征矢量x(n)现在会成比例地与各种高斯元素相关联，而不是全部仅与一个高斯元素相关联。将这些成比例的常数称为响应度并由下式确定

r_{i} (n) = \frac{w_{i} f_{i} (x (n))}{Σ_{j = 1}^{k} w_{j} f_{j} (x (n))} .

通过成比例地使用特征矢量来更新高斯元素以相应地执行GMM的自适应。这将原始更新的递归式变为：

m_T，i(n)＝λr_i(n)x(n)+(1+λr_i(n))m_T，i(n-1)，

只要用户维持交互，使用该自适应方法会维持现有用户的联系。然而，如果另一用户开始与该玩具交互，则原始用户的记忆会逐渐减弱并由新用户的记忆所代替，其中新用户的记忆正是所期望的行为。

在当前偏爱的用户忽略与玩具的交互时，我们也希望他/她从玩具的记忆中减弱，换句话说玩具遗忘他/她的语音特性。这通过周期性地将源自UBM矩心的额外特征矢量x′_i＝m_U，i插入到自适应处理中。他们相应的响应度常量可以是

r′_i＝w_i，

这会将目标模型从偏爱用户的特征中除去，并靠近普通背景说话者。然而，这些矢量的效果不如真实目标说话者输入矢量的效果显著。因此，它们应当在大约每20个(或更多的)时间帧后插入，从而使该遗忘处理比学习过程大约慢20倍。这有两个目的。第一，目标模型逐渐对UBM稳定，从而提供对外界环境噪声的一些额外的健壮性，以及第二，如果在长期周期内用户忽略玩具，玩具会逐渐“忘记”该用户。

如果偏爱用户从事“虐待”行为，我们希望快速从玩具的记忆中忘记该用户。通过高识别分数s(X)来识别偏爱用户并由交互质量Q的高负值来表示虐待的存在。通过立即应用该过程，以及

λ = \frac{1}{3} \max (0, \frac{2}{1 + e^{- s (x)}} - 1),

值的大量增加，他们的联合存在加速上面的遗忘过程。

这会将目标模型快速移动到UBM并同时考虑实际源自偏爱说话者的语音的不确定性。

在将交互认为是a)积极的和b)与偏爱用户有强匹配的情况下，来自玩具的积极交互会增加，无论在频率上还是在质量上。这由玩具的口头响应、可能的面部表情控制、以及由其肢体进行的移动来表示。

尽管这里的描述涉及用于检测平静温柔的语音相对于叫喊、以及温和摇晃的运动相对于扔或坠落的特定实现，但是并不排除用于此处理的其它实现，以及所考虑的其它类型的姿态。精确的技术或实现对本发明并不重要。

此外，尽管在这里没有描述，但是能够设计用于从普通面部表情中区别出偏爱个体的面部的相似处理。一种用于此的方法是通过测量偏爱的面部偏离由特征面部表示的第一元素提供的普通面部的程度。

可以理解的是，上述描述仅仅是示例，并且各种修改、调整和其它实现是可行的。例如，可以对图中所示的元件进行替代、增加或修改，并且可通过对所公开的方法进行替代、重新排序、或增加步骤以对这里描述的方法进行修改。此外，如果对玩具的硬件进行合适的变化，用数字方式描述的任何元素可由模拟电路实现。因此，上面的详细描述不对本发明做出限制。

Claims

1.一种玩具，包括主体，其中主体包括用于接收来自人类用户的输入的至少一个输入传感器（18）；至少一个输出设备（24），玩具利用该输出设备与用户交互；与输入传感器（18）和输出设备（24）通信的处理器（12）和与处理器（12）通信的存储器（16），其特征在于，处理器（12）被编程为将每个接收的输入分类为积极的或消极的，以根据该分类来调整存储在存储器（16）中的累计输入，所述累计输入表示玩具的偏爱用户，并根据累计输入将控制信号发送给输出设备（24），从而玩具响应于一系列随着时间的显著地积极输入而展示出增长的联系行为，并响应于一系列随着时间的显著地消极输入而展示出减少的联系行为。

2.根据权利要求1所述的玩具，其中接收的输入对应于人类与玩具之间的交互，其中交互对应于声音、运动和图像中的一个或多个。

3.根据权利要求2所述的玩具，其中处理器（12）将与叫喊相关联的声音和与身体虐待相关联的运动分类为消极输入。

4.根据前述权利要求中任一个所述的玩具，其中玩具包括至少两个输入传感器（18），第一个输入传感器是配置为检测语音和语言幅度的麦克风（20），以及第二个输入传感器是配置为检测玩具的运动和加速度的加速度计（22）。

5.根据权利要求1至3中任一个所述的玩具，其中累计输入表示玩具的偏爱用户的语音。

6.根据权利要求4所述的玩具，其中累计输入表示玩具的偏爱用户的语音。

7.根据权利要求4所述的玩具，其中处理器（12）被编程为确定由麦克风（20）接收的接收语音输入和累计输入之间的相似度。

8.根据权利要求6所述的玩具，其中处理器（12）被编程为确定由麦克风（20）接收的接收语音输入和累计输入之间的相似度。

9.根据权利要求7所述的玩具，其中在将接收输入分类为积极的时，调整累计输入以增加用户的表示，以及在相似度较低或将接收输入分类为消极的时，减少偏爱用户的表示或者保持不变。

10.根据权利要求4所述的玩具，其中处理器（12）被编程为将接收的幅度高于预定的最大语音幅度的语音输入分类为消极输入，并且将接收的低于其的语音输入分类为积极输入。

11.根据权利要求4所述的玩具，其中处理器（12）被编程为将检测到的加速度高于预定最大加速度门限的运动输入分类为消极输入，并且将检测到的低于其的运动输入分类为积极输入。

12.根据权利要求1所述的玩具，其中处理器（12）被编程为根据具体情况确定接收输入的积极程度或消极程度，以及与积极程度或消极程度成比例的调整累计输入。

13.根据权利要求1所述的玩具，其中玩具包括与处理器（12）通信的定时装置（14），并且其中处理器（12）被编程为将超出预定时间段没有接收输入分类为消极输入，以及响应于其调整累计输入以减少偏爱用户的表示。

14.根据权利要求7所述的玩具，其中输出装置（24）包括声换能器（26）和运动传动器（28）中的一个或全部，以及其中处理器（12）被编程为当接收语音输入的相似度较高时，以更高频率和/或更高质量将控制信号发送给输出设备（24），以及其中处理器（12）被编程为当接收语音输入的相似度较低时，以更低频率和/或更低质量将控制信号发送给输出设备（24）。

15.根据权利要求1所述的玩具，其中累计输入包括从与普通背景说话者相关联的语音提取的特征集合，每个特征具有与之相关联的可变权重，从而加权的特征集合表示所述偏爱用户的语音。

16.根据权利要求15所述的玩具，其中调整与特征相关联的可变权重以使累计输入减少地表示偏爱用户的语音。

17.根据权利要求15或权利要求16所述的玩具，其中当累计输入更少地表示当前偏爱用户的语音时，调整累计输入以增加至少一个可替代用户语音的表示，当累计输入相比于当前偏爱用户更多地表示可替代用户的语音时，可替代用户成为新的偏爱用户。

18.一种模拟玩具朝向人类的联系行为的方法，包括以下步骤：在存储器（16）中存储表示与玩具相关联的偏爱用户的累计输入，通过在玩具中结合的至少一个输入传感器（18）从用户接收输入，将输入分类为积极的或消极的，响应于积极输入将累计输入调整为增加对偏爱用户的表示，以及响应于消极输入而减少对偏爱用户的表示，且响应于输入将控制信号发布给玩具的输出设备（26），控制信号取决于累计输入。

19.根据权利要求18所述的方法，包括将接收的高于预定幅度的语音输入分类为消极输入、将接收的超出预定加速度范围的运动输入分类为消极输入、以及将超过预定时间段没有接收输入分类为消极输入的步骤。

20.根据权利要求18或权利要求19所述的方法，包括确定接收语音输入与累计输入的相似度并将与相似度成比例的控制信号发布给玩具的输出设备的步骤。