CN101983396B

CN101983396B - 基于用户指令修改表示的方法

Info

Publication number: CN101983396B
Application number: CN200980111893.4A
Authority: CN
Inventors: X·周; P·M·C·莱门斯; A·A·M·L·布鲁克斯; A·A·托克马科夫; E·M·哈特德鲁伊特-贝克; S·P·P·普龙克
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-03-31
Filing date: 2009-03-24
Publication date: 2014-07-09
Anticipated expiration: 2029-03-24
Also published as: KR101604593B1; US20110022992A1; JP5616325B2; WO2009122324A1; KR20110008059A; EP2263226A1; JP2011516954A; CN101983396A

Abstract

本发明涉及基于用户指令修改表示的方法以及通过所述方法产生经修改的表示的系统。常规的绘图系统，如笔和纸以及书写板，需要并非所有用户都拥有的适度的绘图技能。此外，这些常规的系统产生静态的绘图。本发明的方法包括接收来自第一用户的表示，将该表示与输入对象类别相关联，接收来自第二用户的指令，将该指令与动画类别相关联，利用该输入对象类别和动画类别确定所述表示的修改，并利用所述修改来修改所述表示。当第一用户提供某事物的表示，例如故事中的人物时，通过将其与对象类别关联进行一定程度的标识。换句话说，确定最佳的可能的匹配。当第二用户想象涉及所述表示的故事时，该故事的动态元素以一种或多种通信形式，如笔迹、语音、手势、面部表情来展示。通过从这些信号中获得指令，所述表示可以被修改或制成动画，以说明故事中的动态元素。这改进了对用户的反馈，并增加了用户的乐趣。

Description

基于用户指令修改表示的方法

技术领域

本发明涉及在计算机系统上处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的方法，处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的计算机系统，以及存储在计算机可读介质上的用于执行该方法的计算机程序。

许多不同类型的绘图系统是可用的，范围从简单的笔和纸到连接到某种形式的计算设备的绘图板。通常，用户利用适当的绘图工具进行一系列的手动移动以便在适当的接收表面上创建线条。在纸上绘图意味着难以擦除和改变事物。

背景技术

使用计算设备绘图可以允许作出改变，但这典型地用在为商业目的而需要绘图的商业环境中。这些电子绘图随后可以被输入到计算环境中，在该计算环境中，可以如所期望地对其进行操作，但操作和功能经常是商业驱动的。

用于娱乐目的的绘图大多数由孩子们来完成。可用的绘图系统，无论笔和纸还是电子板，通常只允许用户通过添加来构建绘图——只要该绘图未结束，它就可以进一步地进行。一旦绘图完成，它就不能容易地被修改。常规上，用户必须删除该绘图的一个或多个轮廓并重绘它们，或者利用一张空白页面再次开始。在擦除一个或多个轮廓之后重绘需要适度的绘图技能，这并非所有用户都拥有。

尽管孩子们可以享受使用电子绘图板，但是设计电子绘图板并未考虑到孩子们。用户接口可能非常复杂，而孩子并不拥有成功使用这些电子设备所需的精细的机械技能。另外，许多这些设备并非足够健壮以供孩子使用。

另外的问题(尤其是与孩子们有关的问题)是这些绘图系统的静态本性。当绘图时，孩子们经常一边绘图一边虚构故事并讲述它们。故事是动态的，因此在讲述的内容和绘图的内容之间的重叠部分受限于静态元素，如对象和人物的基本外观和基本结构。

本发明的目的是提供一种基于用户指令修改表示的方法。

发明内容

本发明涉及一种在计算机系统上处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的方法，其中所述计算机系统具有用于接收第一用户输入和第二用户输入的用户接口以及显示监视器。第一用户输入指示用于在显示监视器上进行再现的表示。第二用户输入指示用于修改在显示监视器上再现的所述表示的指令。所述方法包括通过用户接口接收第一用户输入；将第一用户输入与输入对象类别相关联；通过用户接口接收第二用户输入；将第二用户输入与动画类别相关联；利用输入对象类别和动画类别选择所述表示的修改；并利用所述修改来修改所述表示。

按照本发明的另外方面，提供了一种方法，其中指令来自第二用户的声音、笔迹、运动或手势。

当第一用户提供某事物(例如故事中的人物)的表示时，通过将其与对象类别相关联而在一定程度上对其进行了标识。换句话说，确定了最佳可能匹配。当第二用户想象与该表示有关的故事时，故事的动态元素以一种或多种通信形式(诸如运动、笔迹、声音、语言、手势、面部姿态或面部表情)来展示。通过从来自第二用户的这些信号得到指令，所述表示可被修改或制成动画来说明故事中的动态元素。这改进了对第一和第二用户的反馈，且增加了第一和第二用户的乐趣。

另一益处是增加了用于输入所述表示的设备的寿命——通过使用从所述不同形式获得的指令，不必如已知设备中那样经常持续地使用单个表示输入，已知设备例如易于磨损的触摸屏和书写板。

按照本发明的一方面，提供了一种方法，其中动画类别包括情绪类别。修改表示来反应情绪在静态的系统中是特别困难的，因为它需要例如重复地擦除和绘制特定人物的嘴的轮廓。然而，显示情绪经常比简单地显现部分表示(例如嘴)更加精细，因此本发明的方法允许给所期望的情绪的第一和第二用户更为广泛的和可再现的反馈。在考虑到孩子们的情况下，将情绪添加到他们的绘图中大大增加了他们的乐趣。

本发明还涉及一种用于处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的计算机系统，其中该计算机系统包括用于接收第一用户输入和第二用户输入的用户接口以及显示监视器。第一用户输入指示用于在显示监视器上被再现的表示。第二用户输入指示用于修改在显示监视器上再现的所述表示的指令。该计算机系统还包括：第一分类器，其连接到用户接口，用于接收第一用户输入，并用于将该第一用户输入与输入对象类别相关联；第二分类器，其连接到用户接口，用于接收第二用户输入，并用于将第二用户输入与动画类别相关联；选择器，其连接到第一分类器和第二分类器，用于接收输入对象类别和动画类别，以及用于使用输入对象类别和动画类别来确定所述表示的修改；以及修改器，其连接到显示监视器，用于利用所述修改来控制对在显示监视器上再现的所述表示的修改。

按照本发明的另一方面，提供了一种系统，其中第一用户和第二用户是同一用户，并且该系统被配置用于接收表示并接收来自所述用户的指令。

本发明的这些和其它方面根据下文所描述的实施例是清楚明白的，并参考这些实施例进行阐述。

附图说明

在图中：

图1显示了按照本发明的基于用户指令修改表示的基本方法；

图2描述了执行按照本发明的方法的系统的示意图；

图3显示了本发明的系统的实施例；

图4描述了图3的第一分类器的示意图；

图5显示了图3的第二分类器的示意图；

图6描述了图3的选择器的示意图；以及

图7描述了使用语音分析的情绪识别的示例。

这些图纯粹是图解性的，并未按比例绘制。特别是为了清楚起见，一些尺寸被强烈地放大。图中的类似部件尽可能地由相同的附图标记来标示。

图1显示了按照本发明的基于用户指令修改表示的基本方法。

具体实施方式

从第一用户接收(110)表示，该表示构成动画的基础，并代表第一用户的起点的选择。可以使用任何适当方式来输入表示，这些方式例如数字化笔和纸绘图、直接使用书写板、从起始表示库中选择、给对象照相或给显示在计算设备上的对象拍快照。

在接收到表示后立即以某种方式输出该表示给第一用户可能是有利的。

将所述表示与输入对象类别相关联(120)。注意到对象在其最广义上用于包含无生命的(例如花瓶、桌子、汽车)和有生命的(例如人、卡通人物、动物、昆虫)对象。本发明通过将输入的表示标识为对象类别而简化了修改过程。当由计算设备执行时，标识可以更大或更小程度上依赖于其它步骤的能力和需求，以及其它折衷(如计算能力、速度、存储需求、编程容量等)而执行。例如，如果所述表示描绘一头猪，则可将对象类别定义成将其与不同程度的身份相关联，诸如动物、哺乳动物、农场动物、猪、甚至特定品种的猪。

所述表示与对象类别的关联可以使用本领域普通技术人员公知的任何适当方法来执行。例如，它可以基于类比和相似性的恰当模型。

在本领域中让用户通过绘图自然地与计算机交互的系统是公知的，并且其提供对输入为草图的表示的识别。展示草图识别的目前可能性的这类系统在如下论文中进行了描述：“Magic Paper：Sketch-Understanding Research，”Computer，vol.40，no.9，pp.34-41，Sept.，2007，by Randall Davis of MIT。示例之一是用于勾画简单的二维物理设备并随后观看它们的行为表现的“Assist”(一种精明的草图解释和仿真工具)。“Assist”在如下意义上理解未加工的草图：“Assist”和我们以同样的方式来解释墨。“Assist”将该解释传递给物理仿真器，物理仿真器对该设备制作动画，从而给予用户在智能纸上绘图的体验。

当接收到所述输入表示时，或在与对象类别关联期间，可以执行对所述输入表示的处理，例如，将用户提供的未加工的数据再解释为图元形状——线和弧。基于指示方向或曲率和速度的数据的时间特征找到图元可以用来参与关联任务。

作为在关联(120)之后的替选项，在后续的选择(150)和修改(160)步骤期间，对象类别可以代替所述表示。随后，所述对象类别将代表输入的所述表示的理想化版本。

介于输入的原始表示和理想化表示之间的表示也可以用于后续的选择(150)和修改(160)步骤。在这种情况下，在第一用户看来所输入的表示进行了某种程度的“整理”。这可以通过所选动画(150)简化表示的修改(160)。

从第二用户接收(130)指令。这可以以任何形式给出以代表一个刻意的愿望，例如“猪走路”，或者它可以反映从第二用户使用的通信手段获得的某些东西，诸如第二用户在讲述故事期间作的评论，例如“并且那使得猪很高兴”。提供直接的输入选项(如“走路”、“高兴”)可能也是有利的，第二用户可以使用任何常规手段(比如按钮或可选图标)直接选择这些选项。

将指令与动画类别相关联(140)。为了允许一定程度的灵活性，不必了解预定的类别且仅仅传递这些特定指令。例如，如果动画类别“走路”可用，那么它可与接近走路(如口语词，“步行”、“闲逛”、“溜达”等)的任何指令相关联。可以定义各种程度的动画类别。例如，如果动画指令是“跑”，则动画类别可以被定义成将其与“跑”、“快走”、“步行”或“运动”相关联。

这里使用的动画在其最广义上不仅仅描述运动，如“跑”、“跳”，而且描述情绪特性的显示，如哭、笑。这样的动画可以包括视觉分量和音频分量。例如，如果该动画意欲显示“难过”，那么视觉分量可以是眼里含着泪，而音频分量可以是哭泣的声音。适当时，音频和视觉分量可以同步，使得例如声音看起来象是由活动的嘴发出的——例如，如果动画是“高兴”，则音频分量可以是快乐的歌曲，而视觉分量可以包括同步的嘴的运动。视觉分量可以是修改的轮廓，如微笑时上翘的嘴，或改变颜色，如尴尬时的红脸颊，或其组合。

如果动画描述情绪，那么也可以定义各种程度的动画类别。例如，如果动画指令是“高兴”，则动画类别可以被定义成将其与“开心”、“微笑”、“高兴”或“发笑”相关联。

选择(150)使用输入对象类别和动画类别的表示的修改。对象类别和动画类别可以看作用于访问所定义的可能的修改库的参数。所访问的修改代表用于所输入的表示的恰当的动画，例如，当对象类别是“猪”以及动画类别是“走路”时，使用代表猪走路的一系列腿的运动。

利用所述修改来修改(160)所述表示。然后，按照所选择的修改，即以第一用户直接影响的方式，第一用户的表示被制作成动画。

可证明是有益的另一措施是学习模式，这样，第一用户可以以本领域技术人员公知的用于笔迹和语音识别的类似方式来定义对象类别自身，和/或适应性改变所述表示被处理的方式，从而改进关联的精度。第一用户还可以被要求指定所述表示是什么，或者确认所述表示被正确地标识。

这样的学习系统在下文中进行了描述：“Efficient Learning of Qualitative Descriptions for Sketch Recognition，by A.Lovett， M.Dehghani and K.Forbus，20^th International Workshop on Qualitative Reasoning.Hanover，USA，2006。该论文描述了一种在开放域草图环境中识别对象的方法。该系统基于那些对象的先前的草图来建立对象的概括，并使用那些概括来对新草图分类。所选择的方法是定性地表示草图，因为定性的信息提供某种层面的描述，该描述将干扰分类的细节(如确切的尺寸)抽离。在构建用于处理感知问题中的固有的不确定性的表示的过程中可以使用贝叶斯(Bayesian)推理。使用结构映射引擎(SME)、由来自知觉相似性研究的心理学证据所支持的类比和相似性计算模型对定性的表示进行比较。该系统基于由SME在同一对象的不同草图中发现的共同结构来产生概括。

SME是类比和仿真的计算模型，还可以构成将所述表示与对象类别相关联(120)和/或将指令与动画类别相关联(140)的基础。

类似地，学习模式还可以被提供用于动画分类，以便改进其关联的精度。

图2描述了适合于执行图1的方法的系统的示意图。

该系统包括第一输入(210)，用于接收来自第一用户的表示以及用于以适当形式向第一分类器(220)输出该表示。这可以包括适于以期望的电子格式输入表示的任何适当设备。例如，它可以包括将第一用户的手动运动转换成数字形式的设备，如绘图板或触摸屏。它可以是数字化仪，如用于数字化纸上的图像的扫描仪或用于数字化图像的相机。它还可以是用于以数字形式从存储设备或位置接收表示的网络连接。第一输入(210)还包括一种将表示转换成适于第一分类器(220)的形式的装置。

当图2的系统已经接收来自第一输入(210)的表示时，它可以利用输出设备(270)将其输出到第一用户。按此方式，当表示已被输入时，第一用户将立即获得关于所述表示的反馈。

该系统还包括第一分类器(220)，用于将从第一输入(210)接收的表示与输入对象类别相关联，以及用于将该对象类别输出给选择器(250)。第一分类器接收所述表示并通过将该表示与对象类别相关联来标识该表示。第一分类器(220)被配置和设置成以适当格式提供输入对象类别给选择器(250)。

所述表示的一个或多个方面可用于参与将表示与类别相关联。例如，以下任一种可以单独或组合地使用：

如果第一输入(210)是检测第一用户的手动运动的绘图接口，则给第一分类器(220)的信号可包括如何绘制该表示，如所使用的笔画的顺序、大小、速度和压力；

所述表示看起来像什么——笔画之间的关系；

第一用户在输入如通过适当输入所检测到的所述表示期间通过任何可检测的通信手段传递什么。

当将表示与输入对象类别相关联时可以使用的方面是：

如何定义所述表示——即，标准化表示必须遵守的几何约束集合以成为特定对象类别的实例；

如何绘制所述表示——即，所使用的笔画的顺序；以及

所述表示看起来像什么——即，图像识别的传统概念。

从表示生成对象类别的问题之一是第一用户可用来输入部分表示(如仅仅猪的头部，或例如从前面、从侧面、从上面的不同视图)的自由度。

可能有利的是采用与第一用户的其它接口，如声音、手势、或运动检测来增加处理器可用于确定第一用户想要表示的是什么的信息量。这在下面相对于第二输入(230)的可能性进行了描述。通过监测在进行表示和输入表示期间的通信手段，如声音、语音、手势、面部姿态、面部表情和/或运动，预期将提供额外的线索。在语音情况下，这些可通过适当的第二输入(230)来标识并提供给第一分类器(220)。

从这些通信手段获得指令甚至也可能是有利的，这些通信手段可以用作将表示和输入对象类别相关联的唯一手段。普通技术人员将意识到这两种方法的组合也可以被采用，可能将权重附接到指令和表示。

注意到，词性用于描述每个口头表达，不仅仅是字词还有噪音。例如，如果第一用户要制作猪打呼噜声，那么这可以用于帮助将表示与对象类别相关联。

如果第一和第二用户在同一物理位置，那么可以向每个用户提供专门的或共享的输入，类似于下面针对第二输入(230)描述的那些内容。如果这些输入是共享的，那么所述系统还可包括常规的语音识别系统，从而可以在第一和第二用户输入之间作出区分。

可替选地，可能有利的是仅当第一分类器(220)已将表示与对象类别相关联时，输出(270)如利用第一输入(210)所输入的所述表示。这给了第一用户以下确认：关联(120)步骤已经成功完成。

提供第二输入(230)以用于接收来自第二用户的指令，以及用于以适当形式向第二分类器(240)输出指令。这可包括适于输入指令的任何适当设备，使得第二用户可以直接或间接地指示系统以特定方式修改表示。第二用户可以通过多种通信手段给出指令或线索，如运动、笔迹、声音、语音、手势、面部姿态、面部表情或直接选择。第二输入(230)包括用于检测通信手段的适当设备，比如麦克风、相机或带有图标的按钮、用于从这些输入获得指令的装置以及将指令输出为适合第二分类器(240)的形式的装置。

还可能有利的是针对合作绘图形式为多个第二用户提供多个第二输入(230)。该系统随后可以被修改成进一步包括如下装置：该装置对不同输入进行分析和加权并因此确定主导动画指令是什么。如果所有的输入限于获得特定类型(例如限于情绪)的动画指令，则该任务可以简化。如果需要，常规的语音识别也可用于对某些第二用户给予更多加权。

如果动画指令将从第二输入(220)检测到的声音或语音获得，那么可以使用多个方面。例如，以下任一种可以单独或组合地使用：

-包含在语音内的触发词的识别，如“跑”、“难过”、“高兴”。实现其的技术在本领域是公知的，例如来自微软特征窗口语音识别的Windows Vista；

-第二用户的语音的音调分析可用于检测讲话者的情绪状态；以及

-语法分析可用于滤除与输入表示不相关的可能的动画指令。例如，如果第一用户输入猪的表示，但是在讲述故事期间，第二用户提到猪很害怕，因为狗向它跑去，那么重要的是仅仅传递动画指令“害怕”而不是“跑”。

目前从微软可获得的语音识别是很灵活的——它允许用户在主流应用中口述文档和电子邮件，使用语音命令启动应用以及在应用之间切换，控制操作系统，甚至填写Web上的表格。Windows语音识别是利用最新的微软语音技术来构建的。它提供了以下功能，这些功能可被第二输入(230)和第二分类器(240)利用以使使用更容易：

-命令：“Say what you see(说出你所看见的)”命令允许自然地控制应用和完整的任务，如格式化和保存文档；打开应用并在应用之间切换；以及打开、拷贝和删除文件。你甚至可以通过说出链接的名称来浏览因特网。这需要软件从语音中提取上下文，因此同样的技术可以用来应用语法分析来滤除不想要的动画指令和/或标识动画指令；

-消除模糊性：利用用于澄清的用户接口易于解决模糊情况。当用户说出可以以多种方式来解释的命令时，系统澄清什么是想要的。这样的选项可以添加到按照本发明的系统以便澄清是否已经作出正确的关联；

-交互式指南：交互式语音识别指南教导如何使用Windows Vista语音识别以及教导该识别系统用户的语音听起来像什么；以及

-个性化(适应)：正在进行的对讲话风格和口音两者的适应持续地改进语音识别的精度。

音调分析识别：实现其的技术在本领域是公知的，在欧洲专利申请EP1326445中描述了一个示例。该申请揭示了执行语音通信的通信单元，以及选择对应于通信伙伴的CG人物的人物背景选择输入单元。语音输入单元获得语音。语音分析单元分析语音，而情绪假设单元基于语音分析的结果来假设情绪。嘴唇运动控制单元、身体运动控制单元和表情控制单元发送控制信息给三维图像绘制单元以产生图像，并且显示单元显示图像。

实施图2的系统中的该音调分析识别时，第二输入(230)包括用于分析语音的语音分析单元，以及用于基于语音分析的结果来假设情绪的情绪假设单元。修改器260包括嘴唇运动控制单元、身体运动控制单元和表情控制单元。修改器(260)还包括图像绘制单元以接收来自控制单元的控制信息。输出设备(270)显示图像。语音分析单元分析所发送的语音数据的强度或音素或者两者。在人类语言中，音素是区分意义的最小结构单位。音素本身并非物理分段，但是从理论上说，是它们的认知抽象。

语音强度以如下方式分析：预定时间段(如显示速率时间)的语音数据幅度的绝对值被积分(取样值相加)，如图7所示，并且积分值的水平基于该时段的预定值确定。音素以如下方式分析：执行正常语音识别的处理并且将这些音素分类为“n”、“a”、“i”、“u”、 “e”或“o”，或者输出每个音素的比率。基本上，通过归一化统计上收集的音素“n”、“a”、“i”、“u”、“e”或“o”的语音数据所获得的模板与被分解成音素且归一化的输入语音数据匹配，选择最匹配数据，或输出匹配水平比率。关于匹配水平，选择具有通过适当预定义的距离函数(如Euclid距离、Hilbert距离和Maharanobis距离)度量的最小距离的数据，或者该值通过用所有音素“n”、“a”、“i”、“u”、“e”和“o”的总测量距离去除每个距离来计算作为所述比率。这些语音分析结果被发送到情绪假设单元。

情绪假设单元提前存储从语音分析单元发送的预定时间段的语音分析结果，并基于所存储的结果假设用户的情绪状态。例如，情绪类型被分类为“正常”、“笑”、“生气”、“哭泣”和“闷闷不乐”。

关于语音强度水平，情绪假设单元保持水平模式一个特定时间段作为用于每个情绪的模板。假定该特定时间段对应于3次语音分析，模板显示“水平2，水平2，水平2”为“正常”，“水平3，水平2，水平3”为“笑”，“水平3，水平3，水平3”为“生气”，“水平1，水平2，水平1”为“哭泣”，以及“水平0，水平1，水平0”为“闷闷不乐”。对于为这些模板存储的3次分析结果，水平差值的绝对值的总和(Hilbert距离)或者水平差值的平方的总和(Euclid距离)被计算，使得最接近的一个被确定为当时的情绪状态。或者，利用通过用所有情绪的距离总和去除用于每个情绪的距离所获得的比率来计算情绪状态。

语法分析以得到动画指令的任务可以通过用户使用特定措辞或在句子内停顿来简化。这些停顿应分隔动画指令、动画指令的程度以及对象类别。

例如，在这种情况下，句子“There is a pig called Bill，he is very happy because today is his birthday”应拼读为：

“There is a.....pig.....called Bill，he is.....very.....happy.....because today is his birthday”。

类似地，在这种情况下，对于句子“The dog is very sad when he finds he did not pass the exam”应拼读为：

“The.....dog.....is.....very.....sad.....when he finds he did not pass the exam”。

附加地或者可替换地，可向第二分类器(240)提供输入以从运动、笔迹、手势或面部表情或其任何组合得到动画指令。换句话说，可以使用多种技术，如笔迹识别、手势识别和面部表情识别。

手势和运动识别：实现其的技术是本领域公知的，一个这样的技术在下文中公开：“Demo：A Multimodal Learning Interface for Sketch，Speak and Point Creation of a Schedule Chart，”Proc.Int’1 Conf. Multimodal Interfaces(ICMI)，ACM Press，2004，pp.329-330，by E. Kaiser et al.。该论文描述了一种跟踪预定会议的两个人的系统：一个人站在触摸敏感白板旁创建Gantt图表，而另一个人在校准的立体相机看来是在旁观。立体相机对旁观者的头部、躯干和四肢的运动执行实时、无束缚的、基于视觉的跟踪，所述运动又被传送到3维手势识别代理。利用语音、3维指示手势和2维对象参考解除，该系统能够跟踪旁观者的暗示来移动特定重要事件。该系统还具有语音识别代理，其能够识别词表外(OOV)的词语作为语音序列。这样，当白板旁的用户说出针对图表组成的OOV标记名称同时还写出它时，该OOV语音与字迹识别器假设的字母序列相结合，以产生用于新标记的正确拼字、发音和语义。随后，这些被系统动态地学习，并立即变成可用于未来的识别。

面部姿态和面部表情识别：实现其的技术在本领域是公知的，如下文所描述的系统：“The Facereader：online facial expression recognition”，by M.J.den Uyl，H.van Kuilenburg；Proceedings of Measuring Behavior 2005；Wageningen，30 Augus t-2 September2005。该论文描述了面部读取器系统，其能够在线高精度地描述面部表情和其它面部特征。该论文描述了系统的可能性和用于使其工作的技术。利用该系统，可以以89％的精度识别情绪表达，并且它还可以分类多种其它的面部特征。

第二分类器(240)的功能是将从第二输入(230)接收的指令与动画类别相关联，并将动画类别输出给选择器(250)。第二分类器(240)被配置和设置成将动画类别以适当的格式向选择器(250)提供。

如果多个输入被用于第二分类器(240)，则第二分类器(240)还可以包括一种用于分析和加权不同输入，并从而确定主导的动画指令是什么，以及因此应与动画类别关联的是什么的装置。如果所有的输入被限制于获得特定类型的动画指令，例如受限于情绪，则可简化该任务。

即使当使用单个输入时，第二分类器(240)仍然可以分析和加权在不同时间到达的不同动画指令。例如，为了处理输入，如“The.....pig.....felt.....sad.....in the morning，but in the afternoon he became......happy.....again. He was so.....happy.....that he invited his friends to his home for a barbecue”，应选择动画指令“快乐”。实际上，对于那些关键词，用户可以停顿若干毫秒。可替换地，如果检测到多个情绪词，那么描绘在人物上的情绪可以动态地跟随正被讲述的故事情节。这将取决于系统的响应时间——即从第二用户给出动画指令的时间到该动画被输出在输出设备(270)上的时间。

该系统包括选择器(250)，用于使用从第一分类器(220)接收的输入对象类别以及根据从第二分类器(240)接收的动画类别来确定表示的修改。选择器(250)的输出是所选择的修改，将该修改提供给修改器(260)。两个输入参数被用于决定所述表示将如何被修改器(260)修改，并且选择器(250)以适当的格式向修改器(260)提供适当的指令。

在系统中提供修改器(260)以便利用所述修改来修改所述表示。修改器(260)接收来自第一输入(210)的表示并进一步接收来自选择器(250)的修改。修改器(260)连接到输出设备(270)，该输出设备输出所述表示，使得该表示可被第一和/或第二用户感知。修改器(260)将所述修改施加到所述表示，并且当它这样做时，第一和/或第二用户对输出设备(270)上的所述表示的感知也被修改。修改器(260)可被配置和设置成向输出设备(270)直接提供从第一输入设备(210)接收的所述表示，即未向输出设备(270)提供经修改的表示，或者在向输出设备(270)提供经修改的表示之前。例如，在第一用户已经输入绘图之后和在已得到动画指令之前，该绘图可以被显示在输出设备上。随后，当从第二输入(230)得到指令时，第一和/或第二用户将随后看到制成动画的绘图。

该系统还包括输出设备(270)，用于接收来自修改器(260)的信号以及用于输出经修改的表示，使得用户可以感知它。例如，它可以包括音频输出和视觉输出。

对于该系统的用户的附加的优点在于不需要高水平的绘图技巧。使用基本表示并给出指令意味着不是大画家的用户也仍然可以使用该系统，并从使用它当中得到乐趣。

通过接收来自第一和第二用户的输入，协作绘图是可能的。第一和第二用户可以存在于不同的物理位置或者同一物理位置。

如果第一和第二用户存在于不同的物理位置，那么该方法可以被修改成使得从第一用户接收(110)第一表示，从第二用户接收(130)第一指令，并且从第二用户接收第二表示，从第一用户接收第二指令。

在第一和第二用户处于同一物理位置进行协作绘图的情况下，可以共享输出设备(270)或者可以向每个用户提供单独的显示。在第一和第二用户处于不同物理位置的情况下，可以向两个用户或仅一个用户提供显示。

可能有利的是修改该方法，使得第一用户和第二用户是同一用户。这可以减少所需要的输入和输出数量，并且可以增加关联步骤的精度，因为可以预期较少的置换。在该方式下，本发明可以用于为单个用户证实交互式的绘图环境。

图3描述了本发明的系统的实施例，该实施例适合于孩子。图3的系统与图2的系统相同，除了以下描述的附加方面。普通技术人员应当清楚的是，这些附加中的许多也可以用在图2的系统的其它实施例中。

在该实施例的描述中，第一用户和第二用户是同一用户，并且被简单地称为用户或该用户。

通过设计专用于孩子的系统，可降低该系统的复杂水平。例如，可能的对象类别和/或动画类别的数量可降低到接近孩子的词汇表和经验。这可以以与那些用于其它信息内容(如图书或教育视频)的方式相似的方式来实现：

-限制可能的输入对象类别为诸如“农场上”，“房子周围”、“在学校”之类的近似位置；和/或

-限制动画类别为诸如“汽车”、“动物”、“情绪”之类的主题。

甚至可能有利的是使得复杂性可变，从而可能性可以调成符合孩子的能力和年龄。

输出设备(270)包括视觉显示设备(271)(例如LCD监视器)以及可选的音频再现设备(272)(例如扬声器)。为了简化用于用户的系统，用于用户表示的第一输入(210)可以集成到如用于输出的同一单元。这可以例如使用连接到计算设备的书写板或设置有触摸屏的计算机监视器来实现。

第二输入(230)包括用于在给出指令或讲述故事时检测声音，特别是孩子讲出的语音的麦克风(235)。该麦克风(235)也可以被集成到输出设备(270)中。

在操作期间，孩子通过利用第一输入(210)绘制对象的表示来选择起点。在例如通过按压适当按钮或等待一段时间指示完成绘图之后，第一分类器(220)将把所述表示与对象类别相关联。

可替换地，第一分类器(220)可以不断地试图将所述表示与对象类别相关联。这样做的优点是更快和更自然地对用户作出响应。

图4描述了图3的第一分类器(220)的示意图，其包括第一处理器(221)和对象类别数据库(225)。当利用第一输入(210)输入表示时，未加工的数据需要以某种方式被翻译成对象。例如，当用户绘制一头猪时，那么第一分类器(220)的任务是将该对象类别“猪”输出给选择器(250)。第一处理器(221)的任务是将第一输入(210)提供的信号转换成标准化的对象定义，该定义可以与对象类别数据库(225)中的条目作比较。当在数据库(225)中找到该对象的匹配时，对象类别被输出给选择器(250)。

所述表示的若干方面可以被第一处理器(221)用来确定所述标准化的对象定义。例如，以下任一项可以单独地使用或结合地使用：

如果第一输入(210)是检测用户的手动运动的绘图接口，则给第一处理器(221)的信号可以包括所述表示如何绘制，如所使用的笔画顺序、大小、速度和压力；

所述表示看起来像什么——笔画彼此之间的关系；

包括麦克风(235)的第二输入(230)所检测的在输入所述表示期间用户发出的声音；以及

在输入所述表示期间用户书写的内容——可以使用笔迹分析来检测任何有关的字词。

在图3的系统确定了对象类别之后，它可以在视觉显示设备(271)上显示使用第一输入(210)输入的原始表示。这给用户已成功关联的视觉信号。

图5描述了图3的第二分类器(240)的示意图，其包括第二处理器(241)和动画类别数据库(245)。当使用第二输入(230)输入声音(如语音)时，语音内的动画线索需要被检测并以某种方式翻译成动画。

情绪动画对孩子们尤其有利，因为这增加了他们与所显示的表示的联系，并保持他们对更长久地使用该系统的兴趣。这改善了记忆力并增强了学习体验。

例如，当用户说“跑”时，则第二分类器(240)的任务是输出动画类别“跑”给选择器(250)。当用户说“难过”时，第二分类器(240)的任务是输出动画类别“难过”给选择器(250)。

第二处理器(241)的任务是将第二输入(230)提供的声音转换成标准化的动画定义，该定义可以与动画类别数据库(245)中的条目作比较。当在数据库(245)中找到动画的匹配时，将动画类别输出给选择器(250)。

另外地或者可替换地，可提供适当的输入以从运动、笔迹、手势、面部姿态或面部表情或其任意组合得到指令：

-笔迹或手运动的识别。可以使用包括数字书写工具(335)的第三输入(330)提供信号，为了方便起见，该第三输入可以与第一输入(210)结合；

-运动或手势识别。通过使用包括在第四输入(430)内的第一图像检测设备(435)，如立体相机，可以从用户肢体的运动和身体姿态得到指令；

-面部表情、面部运动或面部姿态识别。通过使用包括在第五输入(530)内的第二图像检测设备(535)，如相机，可以从用户面部特征的运动得到指令。这在期望对应于情绪的动画指令时尤其有用。

当图3的系统已确定了动画类别时，将其传递给选择器(250)。

动画类别可以包括动作，例如“跑”，以及程度，例如“快”或“慢”。例如，如果该动画类别是情绪，例如“难过”，则程度可以是“轻微地”或“非常”。如果这是期望的，则第二分类器(220)将必须被修改以从可用输入(230，330，430，530)对其进行确定。实际上，所述程度可以被编码为数字，如-5到+5，其中0是中性的或者缺省级别，+5是“非常”或“非常快”，而-5是“轻微地”或“很慢的”。如果第二分类器(220)不能确定该程度，则可使用缺省值0。

图6描述了图3的选择器(250)的示意图，其包括第三处理器(251)和动画数据库(255)。

在接收到来自第一分类器(220)的输入对象类别和来自第二分类器(240)的动画类别之后，第三处理器(251)将访问动画数据库(255)以获得适当动画。该适当动画将被传送给修改器(260)，在该修改器中，基于该适当动画修改用户表示，并且利用显示设备(270)，该制成动画的表示将被显示给用户。例如，如果输入对象类别是“猪”，且动画类别是“高兴”，那么第三处理器(251)将获取用于“高兴的猪”的适当动画。

如上所述，可能有利的是通过限制可用的输入对象类别和/或动画类别来降低系统的复杂性。这些参数直接影响动画数据库的复杂性和大小。

还可能有利的是将动画限制于所述表示的一个或多个部分，如语音、手势、面部表情、步态、发式、衣着、体态、腿姿、胳膊位置等。这也可以降低系统的复杂性。例如，情绪(例如“难过”)可被限制于：

-仅仅所述表示的脸部，或

-仅仅限制到嘴，例如，嘴变得下弯，或

-限制到眼，例如，眼里含泪。

如果适当动画被限制于这样的部分，则这必须传送给修改器(260)，使得修改器知道在哪里应用该动画。

可替换地，用户通过现有的输入(210，230，330，430，530)提供特定的动画指令，或者通过在输出设备(270)上进行进一步的输入检测，要制成动画的所述表示的部分可以是可选择的。例如，通过触摸或指向所述表示的一部分，仅仅输出与所述表示的那部分关联的音频和视觉分量。例如，指向嘴将导致唱歌。而指向手，所述表示可以鼓掌。指向眼可以出现眼泪。

适当的动画的最简单形式在复杂性方面类似因特网“表情符 (smileys)”——基本上嘴、眼和鼻子形状。

可以以任何适当格式(如通过擦除和/或增加来逐帧地改变)将适当动画提供给修改器(260)。该动画还可以采取修改器识别的格式的指令(如“抖动”)形式。在这种情况下，修改器将知道如何例如通过重复地增加和擦除在原始表示的轮廓之外的附加轮廓来抖动所述表示。

类似地，动画可以包括指令和动画的组合——例如，使表示走路制成动画，该动画可包括一组在+30度的腿，一组在-30度的腿，以及交替显示这些的指令。显示这样的动画组之间的时间可以是固定的，与相关的动画类别(如“跑”和“走”)，或动画类别的程度(如“快”或“慢”)有关。

该动画还可以包括用于所述表示的不同部分的动画块和/或指令的流。例如，如果所述表示已与狗关联，并且动画指令已与跑关联，则所述动画可以包括腿左右运动、然后头上下运动、继而尾巴上下运动的后续指令。

当图3的系统已确定了适当的动画时，将其传送给修改器(260)。该修改器(260)接收来自第一输入(210)的表示，将来自选择器(250)的动画应用到该表示，并将其传送给输出设备(270)。

由于适当的动画可能只影响所述表示的一部分，如腿，因而可能有利的是向修改器(260)提供检测所述表示的适当部分的机构。该任务可以通过向修改器(260)提供由第一分类器(220)产生的输入对象类别以及提供确定所述表示的相关部分的装置来简化。

输出设备(270)接收来自修改器的信号，并产生用于用户的适当输出。所述表示的视觉分量在视频显示器(271)上显示，而任何音频分量利用音频再现设备(272)再现。

可能有利的是允许用户自己以学习(新动画)或编辑(修改的动画)模式来填写动画数据库(255)。按此方式，动画可以被分裂或合并成新的动画。这也可以单独针对动画的音频和视觉分量来完成，使得例如用户可以记录用于现有动画的新的音频分量，或用不同的音频分量取代现有的音频分量。此外，用户可以将动画从一个输入对象类别拷贝到另一输入对象类别，例如，难过的猪的动画可以被拷贝到狗的动画，以创建难过的狗的动画。

图3的系统可以被修改成使得对于多个孩子的协作绘图是可能的。如上面关于图1和图2所描述的，这可能需要一个或多个输入和输出。

应注意，上述实施例说明了而非限制了本发明，本领域的普通技术人员将能够设计多种可替换的实施例而不脱离所附权利要求书的范围。例如，所述实施例涉及多个处理器和数据库，但是可以利用单个处理器和单个组合的数据库来操作图2的系统。

本发明的方法可以编码为一个或多个程序内的程序代码，使得所述方法在这些程序运行在一个或多个计算机上时执行。程序代码也可以存储在计算机可读介质上，并包括在计算机程序产品中。

图2的系统可以是独立的专用单元，或者它可以是设置有程序代码的PC，或者用于执行图1的方法的软件，或作为用于PC的硬件附加装置。它可以集成到便携式电子设备，如PDA或移动电话。

它也可以被并入所述系统，用于在国际申请IB2007/053926(PH007064)中描述的物理表面上进行虚拟绘图。图3的系统尤其有利，因为本申请中描述的系统也特别为孩子们设计。

图2的系统还可以包括接近数据读取器，如在RFID应用中使用的那些读取器，其允许通过将数据载体带到靠近读取器来输入所述表示。类似地，也可以使用接触数据读取器，如USB设备。所述表示可以随后在适当的数据载体上单独地提供。

普通技术人员能够修改图2的系统以便通过通信网络(如互联网)来交换数据。例如，可以使表示和适当动画的在线库可用于下载到该系统中。

类似地，普通技术人员还能够修改所述实施例，使得它们的功能是分布的，从而允许第一和第二用户在物理上同一位置或物理上分开的位置协作绘图。随后，可以向用户中的一个或多个提供以下设备中的一个或多个：第一输入(210)、第二输入(230)和输出设备(230)。

在权利要求中，任何置于括号内的附图标记不应被理解为限制该权利要求。使用动词“包括”及其变化形式不排除除权利要求中陈述的那些之外的元素或步骤的存在。元素前的冠词“一”不排除多个这样的元素的存在。本发明可以借助于包括若干不同元素的硬件来实施。在列举若干装置的设备权利要求中，这些装置的若干可以通过同一项硬件来实施。在相互不同的从属权利要求中记载某些措施的纯粹事实不表明这些措施的组合不能被有利地利用。

总之，本发明涉及基于用户指令修改表示的方法以及通过所述方法产生修改的表示的系统。常规的绘图系统，如笔和纸以及书写板，需要并非所有用户所拥有的适度的绘图技能。另外，这些常规的系统产生静态的绘图。

本发明的方法包括接收来自第一用户的表示，将该表示与输入对象类别相关联，接收来自第二用户的指令，将该指令与动画类别相关联，利用该输入对象类别和动画类别来确定所述表示的修改，并利用所述修改来修改所述表示。

当第一用户提供某事物的表示时，例如故事中的人物，通过将其与对象类别关联进行一定程度的标识。换句话说，确定最佳的可能的匹配。当第二用户想象涉及所述表示的故事时，该故事的动态元素以一种或多种通信形式(如笔迹、语音、手势、面部表情)来展示。通过从这些信号中获得指令，所述表示可以被修改或制成动画，以说明故事中的动态元素。这改进了对用户的反馈，并增加了用户的乐趣。

Claims

1.一种在计算机系统上处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的方法，其中

所述计算机系统具有用于接收第一用户输入和第二用户输入的用户接口以及显示监视器；

第一用户输入指示用于在显示监视器上进行再现的表示；

第二用户输入指示用于修改在显示监视器上再现的所述表示的指令；

所述方法包括：

-通过所述用户接口接收第一用户输入；

-将所述第一用户输入与输入对象类别相关联；

-通过所述用户接口接收第二用户输入；

-将所述第二用户输入与动画类别相关联；

-利用所述输入对象类别和动画类别选择所述表示的修改；以及

-利用所述修改来修改所述表示。

2.根据权利要求1所述的方法，其中所述动画类别包括情绪类别。

3.根据权利要求1或2所述的方法，其中第一用户和第二用户是同一用户。

4.根据权利要求1或2所述的方法，其中所述方法还包括：

-从第一用户的通信手段获得进一步的指令，所述通信手段选自包括直接选择、运动、声音、语音、笔迹、手势及其任意组合的组，以及

-利用所述进一步的指令将所述表示与输入对象类别相关联。

5.根据权利要求1或2所述的方法，其中所述方法还包括：

-从第二用户的通信手段获得指令，所述通信手段选自包括直接选择、运动、声音、语音、笔迹、手势及其任意组合的组。

6.根据权利要求5所述的方法，其中所述方法还包括：

-从第二用户的面部姿态或面部表情获得所述指令。

7.根据权利要求1或2所述的方法，其中所述方法还包括：

-从第一用户的运动或手势获得所述表示。

8.根据权利要求7所述的方法，其中所述表示从第一用户的手动运动获得。

9.根据权利要求1或2所述的方法，其中所述表示包括音频和视觉分量。

10.根据权利要求9所述的方法，其中所述修改受限于所述表示的音频分量或受限于所述表示的视觉分量。

11.根据权利要求1或2所述的方法，其中所述修改受限于所述表示的一部分。

12.一种用于处理来自第一用户的第一用户输入以及来自第二用户的第二用户输入的计算机系统，其中：

所述计算机系统包括：

用户接口，用于接收第一用户输入和第二用户输入；以及显示监视器；

第一用户输入指示用于在显示监视器上进行再现的表示；

所述计算机系统还包括：

第一分类器，连接到所述用户接口，用于接收第一用户输入并用于将所述第一用户输入与输入对象类别相关联；

第二分类器，连接到所述用户接口，用于接收第二用户输入并用于将第二用户输入与动画类别相关联；

选择器，连接到第一分类器和第二分类器，用于接收输入对象类别和动画类别，并用于利用输入对象类别和动画类别确定所述表示的修改；以及

修改器，连接到显示监视器，用于利用所述修改来控制对在显示监视器上再现的所述表示的修改。

13.根据权利要求12所述的系统，其中第一用户和第二用户是同一用户，且所述系统被配置成接收来自所述用户的表示以及接收来自所述用户的指令。