CN116368536A - 具身代理中的事件表示 - Google Patents
具身代理中的事件表示 Download PDFInfo
- Publication number
- CN116368536A CN116368536A CN202180064729.3A CN202180064729A CN116368536A CN 116368536 A CN116368536 A CN 116368536A CN 202180064729 A CN202180064729 A CN 202180064729A CN 116368536 A CN116368536 A CN 116368536A
- Authority
- CN
- China
- Prior art keywords
- event
- notifier
- classifier
- action
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/043—Distributed expert systems; Blackboards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Processing Or Creating Images (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
Abstract
描述了一种计算机实现的方法,该计算机实现的方法用于将具身代理所经历的感觉运动事件解析为映射到定义该事件的句子的WM事件表示的符号字段,该方法包括如下步骤:注意参与对象;对该参与对象进行分类;以及对该事件进行一系列级联确定,其中一些确定以先前确定的结果为条件,其中每个确定设置该WM事件表示中的字段。
Description
技术领域
本发明的实施方案涉及自然语言处理和认知建模。更具体地但非专有地,本发明的实施方案涉及事件表示和事件处理的认知模型。
背景技术
人类将他们对世界的体验解析成称为事件的单元(例如,参见Radvansky和Zacks,2014年)。事件是可以自然地用句子表达的事情:例如“玛丽抓住了杯子”、“杯子打碎了”、“约翰叹了口气”。在人类认知过程的计算建模中,事件表示问题是指如何对工作记忆(WM)和长期记忆(LTM)中的事件进行编码。事件处理问题是指采用哪些感官机制来处理世界各地发生的事件并构造WM事件表示,以及哪些感觉运动机制允许具身代理以运动动作的形式在世界上制造事件?
现有的题元角色模型
在语言学文献中,题元角色模型试图定义名词短语(NP)可以在句子中扮演的不同语义角色。这些模型通常隐含地定义了事件类型的系统,其中事件的类型部分地由其参与者的题元角色决定。
道蒂(D Dowty,题元原型角色与论元选择(Thematic proto-roles and argumentselection),《语言》(Language),67(3):547-619,1991年)涉及两个基本的题元角色:“原型施事”和“原型受事”。对于道蒂而言,“施事”和“受事”的概念是原型,承认隶属程度:重要的是事件的参与者具有类似施事和类似受事属性的程度。在论元链接模型中,道蒂将题元角色与语法位置(特别是主语和宾语)关联。具有最多类似施事属性(例如,移动性、自立性、感知性和使因性)的参与者将被表示为句子的主语。原型受事是具有最多类似受事特征的参与者:这些特征包括受动性、状态变化以及所引起过程的经历。在“玛丽抓住了杯子”中,“玛丽”的指示对象具有最多类似施事属性,因此“玛丽”是句子的主语;而在“杯子被抓住了”中,“杯子”的指示对象具有最多类似施事属性(具有必然性,因为它是唯一的NP),因此“杯子”是句子的主语。
“类似施事”对象属性吸引注意力(例如,参见以下文献以了解视觉注意力的结果:Koch和Ullman,1985年;Ro等人,2007年)。注意力是具有竞争性的:首先注意的项目是具有最多吸引注意力的属性的项目。
与状态变化事件相关联的角色。一个具有影响力的建议是,像“玛丽打碎了玻璃杯”这样的及物句隐含地表达了一个致使过程,该过程可以解释为“玛丽导致[玻璃杯碎了]”,而像“玻璃杯碎了”这样的不及物句表达了结构类似的“某物导致[玻璃杯碎了]”。在该分析中,“玻璃杯”的指示对象在这两个句子的语义中占据相同的结构位置,正是处于该位置的项目经历了状态变化;因此“玻璃杯”的语法位置可以自由变化。\
长期记忆中的现有事件存储模型
在认知模型中,事件通常先在WM中表示,然后再存储到LTM中。Takae和Knott(2016年)提出了一种事件的WM表示,其允许向LTM表达查询,该表示检索与某些部分指定的事件模板匹配的存储事件。例如,WM介质保存“玛丽抓住了什么”等查询以及检索到的答案(“玛丽抓住了杯子”)。WM事件表示是语义角色的“位置编码”。保存对象表示的主要介质在“当前对象”介质中一次仅表示一个对象。
正在经历的事件的WM表示是随着体验的进行而逐步编写的,如以下文献所述:MTakae和A Knott,事件的工作记忆编码及其参与者(Working memory encoding of eventsand their participants),《认知科学协会》(CogSci),第2345-2350页,2016a。当经历事件的过程结束时(通常是当事件本身结束时),事件的WM表示将完成,并且完整的事件表示可以存储在长期记忆中,如以下文献所述:M Takae和A Knott.,用于存储和访问情节记忆中的事件表示以及它们在语言中的表达的机制:神经网络模型(Mechanisms for storingand accessing event representations in episodic memory,and their expressionin language:a neural network model),《认知科学协会》(CogSci),第532-537页,2016b。
然而,先验模型存在若干缺点:它没有解释事件的语义参与者是如何从语法上实现的。语义/题元角色不映射到句法位置。例如,在主动句中,主语位置报告事件的施事,并且宾语报告受事;但是在被动句中,主语位置报告受事。同样,也没有办法读出主格和宾格。先验模型也不能支持状态变化事件或致使事件。
现有的事件感知模型:跟踪过程、指示例程和认知模式
具身代理“感知”事件涉及注意其参与对象并且对其参与对象进行分类;视觉注意力和视觉对象分类都是经过充分研究的过程。当观看及物动作时,观察者还使用特殊机制在动作进行时注意目标对象;注视跟踪和轨迹外推是其中重要的子过程。还有一些专门用于检测位置或内在属性变化的大脑机制(例如,参见Snowden和Freeman,2004年),以及更专业的用于对有生命的施事的运动进行分类的机制(例如,参见Oram和Perrett,1994年)。检测被注意对象的变化或运动需要在一段连续时间内跟踪该对象,因为记录变化需要时间(有关该原理的良好介绍,参见Kahneman等人,1992年)。在事件感知期间,由于经常有多个移动的事物需要监视,因此一些理论家为多个对象跟踪过程设想了角色(例如,参见Cavanagh,2014年)。
Ballard(1997年)、Knott(2012年)、Knott和Takae(2020年)提出,事件感知被构造为一个离散、有序的过程,称为指示例程。指示例程是一系列相对离散的认知操作,其对具身代理当前的注意焦点进行操作,并且可能更新该焦点。指示例程理解事件的某些特定子类型,重点关注涉及及物动作的事件。具身代理首先注意动作的施事(并且对其进行分类),然后注意动作的受事(并且对其分类),并且然后对动作本身进行分类。
PCT/IB2020/056438涵盖了动作的执行及其感知。为了区分这些操作,具身代理被置于不同的认知模式中,即,不同的神经连接模式。指示例程中的第一个操作(对施事的注意)涉及对外部个体的注意或涉及对具身代理的注意。这些操作触发了不同的/可选的认知模式:前一种情况是“动作感知模式”,后一种情况是“动作执行模式”。
发明目的
本发明的目的是改进具身代理中的事件表示或至少为公众或业界提供有用的选择。
发明内容
在一个实施方案中,本发明包括一种计算机实现的方法,所述计算机实现的方法用于将具身代理所经历的感觉运动事件解析为映射到定义所述事件的句子的WM事件表示的符号字段,所述方法包括如下步骤:
a.注意参与对象;
b.对所述参与对象进行分类;以及
c.对所述事件进行一系列级联确定,其中一些确定以先前确定的结果为条件,
d.其中每个确定设置所述WM事件表示中的字段。
在另一实施方案中,至少一些确定可触发所述具身代理中的认知处理的可选模式。
在另一实施方案中,对所述具身代理中的认知处理的可选模式的确定可以包括如下步骤:
a.定义证据收集过程,所述证据收集过程在做出选择之前的某一时间段内分别累积每种模式的任意量的证据;以及
b.对于每种模式,将所累积的证据存储到表示为所述模式累积的所述证据量的连续变量中;
c.通过查询每种模式的所述证据累加器变量来确定认知处理的所述模式。
在另一实施方案中,确定可以选自以下各项所组成的组:
a.确定是否存在第二对象;
b.确定是否存在创建动作的证据;
c.确定对象是否正在经历状态变化;以及
d.确定对象是否正在施加致使影响和/或执行及物动作。
在第二实施方案中,本发明包括一种数据结构,所述数据结构用于将具身代理所经历的感觉运动事件解析为WM事件表示的符号字段,所述数据结构包括:
a.WM事件表示数据结构,所述WM事件表示数据结构包括:
b.致使关系/变化区域,所述致使关系/变化区域被配置为存储致事者/注意者对象和变化者/被注意者对象;
c.存储序列区域,所述存储序列区域被配置为存储第一被注意对象和第二被注意对象,从而保存所述致使关系/变化区域中所述对象的重新表示;
d.动作;
e.原因标志;
f.字段,所述字段表示正在发生状态变化;和
g.结果状态。
在另一实施方案中,确定数据结构可以包括指示表示数据结构,所述指示表示数据结构包括:当前对象,被配置为同时映射到所述致使关系变化区域和所述存储序列区域。
在第三实施方案中,本发明包括一种通过具身代理来注意对象的方法,所述方法包括如下步骤:
a.同时将致事者/注意者跟踪器和变化者/被注意者跟踪器分配给所述具身代理注意的第一对象;
b.确定所述第一对象是致事者/注意者还是变化者/注意者;以及
c.如果所述第一对象是致事者/注意者,则将所述变化者/被注意者跟踪器重新分配给所述被注意的对象。
在另一实施方案中,注意所述对象是对所述对象产生致使影响。
附图说明
图1示出了WM事件表示系统的图;
图2示出了一个流程图,该流程图示出了具身代理在事件理解过程中进行的一系列确定。
图3示出了说明WM事件介质的覆盖范围的示例。
图4示出了另一流程图,该流程图示出了具身代理在事件理解过程中进行的一系列确定。
具体实施方式
在本文描述的实施方案中,认知系统包括将感觉运动体验解析为事件的事件处理器。事件处理器可以将施事所经历的事件映射到句子。
事件的WM表示采取所存储的指示例程的形式。指示例程提供了压缩原理,该压缩原理允许将复杂的实时感觉运动体验高效地编码在记忆中。事件的WM编码允许重演指示例程和模拟所存储的事件。模拟重演是句子生成过程的基础。事件的WM表示存储在事件处理期间激活的指示对象表示的副本。这允许在WM事件表示中使用角色绑定的位置编码模型,并且支持与LTM的接口的简单模型。LTM事件编码是所存储的WM事件字段之间的关联,这些字段可以使用部分WM事件表示进行查询。
在事件感知模型中,当注意对象参与者时,视觉跟踪器被放置在参与者上。采用了多个对象跟踪器,并且动作分类器出于特定目的咨询施事和受事跟踪器。
在一个实施方案中,施事始终是第一被注意对象,并且受事始终是第二被注意对象。施事和受事都是原型类别,并且参与者基本上会竞争成为施事。原型施事品质是那些吸引注意力的品质。
变为/变得动作类型表示状态变化事件。可以添加保存这些事件的结果状态的字段,该字段可以是属性或位置。“原因”标志用于已识别状态变化原因的事件。
WM事件表示的扩展模型
在一个实施方案中,认知系统将注意突显的道蒂式模型与状态变化事件的L&RH型模型相组合。
事件表示的模型表示WM中事件的关键参与者,这些参与者既与连续注意过程(作为第一被注意对象和[可选地]第二被注意对象)有关,也与致使关系/变化过程(作为变化者对象和[可选地]致使对象)有关。题元角色在两个基本正交的维度上表示。
这使得映射到语言的表述更加清晰。“存储序列”区域(以英文等语言)表达了关于哪些参与者被表达为语法主语和宾语以及哪些参与者采用主格和宾格的规则。“致使关系/变化”区域对致使交替进行建模,并且(以作格语言)表达了关于哪些参与者采用作格和通格的规则。该模型还使得很好地解释了所谓的“分裂作格”语言,该语言使用两种格系统的混合。
图1示出了与LTM事件存储系统的接口,包括对象参与者的双重表示。模型中的LTM事件表示是所存储的WM事件介质的所有字段之间的关联,其中关键参与者出现两次。
“致使关系/变化”区域中的字段被定义为施事/受事原型:“致事者”的概念与“注意者”的概念组合,并且“变化者对象”的概念与“被注意者”的概念组合,因此这些字段可以用于保存及物动作的施事和受事。这些组合的基本原理是大多数及物动作也会对目标对象产生致使效应。理想情况下,原型定义注意到了这种归纳,但是它们仍然允许对目标没有致使效应的及物动作(如“苏碰了杯子”),以及涉及非意志致事者的致使事件(如“风吹得树叶沙沙作响”)。
致使关系/变化区域
致使关系/变化区域表示对象发生变化的事件(如“玻璃杯碎了”和“勺子弯了”等句子中所述)以及导致这些变化的致使过程(如“约翰打碎了玻璃杯”或“火把勺子弄弯了”等句子中所述)。该区域包含两个字段,每个字段都定义为一组相关的概念。
变化者/被注意者字段
变化者/被注意者字段表示在位置(例如移动的对象)或内在属性(例如弯了或碎了的对象)方面经历变化的对象。该字段还可用于表示不及物的意志性动作的施事,诸如耸肩或微笑。此类动作会导致施事主体的构造变化:从这个意义上说,施事“经历变化”,就像弯了的勺子一样。(注意,弯可以是意志性的不及物动作,如约翰弯下腰。)
变化者/被注意者字段还表示及物动作的受事。该受事并非始终变化:例如,我可以触碰杯子而不影响它。但是,及物动作通常会改变目标:因此“受事”和“变化经历者”的角色通常是相符的。变化者/被注意者字段的析取定义体现了这种规律性。
致事者/注意者字段
致事者/注意者字段表示引起变化者/被注意者的变化的对象。例如,在约翰把勺子弄弯了中,它表示约翰,并且在火把勺子弄弯了中,它表示火。通过类似的析取定义,该字段也表示及物动作的施事:及物动作不一定会引起目标对象的变化,但是它们通常会引起变化,因此施事通常也是致事者。
注意,观察施事可以作为致事者/注意者注意自己。“对自己的注意”这一操作导致观察者执行动作,而不是被动地观察动作。如果观察者让自己成为致事者/注意者,其关于要做什么的选择再次通过来自LTM事件介质的“期望”动作事件的重建来指导。虽然字段的重建可以并行进行,但是它仍然通知严格有序的指示例程。对于被动感知事件和主动“执行”事件,该例程的连续顺序是相同的。
致事者/注意者的可选择性
致事者/注意者字段不必填写,该信息是在“存储序列”区域中单独捕获的。允许致事者/注意者字段为空使得可以表示“纯粹的状态变化事件”,如玻璃杯碎了,这不涉及致事者。它还支持被动事件的表示,如约翰被吻了,这不涉及施事。
支持LTM事件网络中的归纳
致使关系/变化区域对状态变化事件进行了有用的归纳。考虑“玻璃杯碎了”这一事件,以及另一事件“某个机构(约翰或火)导致玻璃杯碎了”。理想情况下,LTM事件编码介质表示这些事件之间的相似性:特别是,它们对所发生变化的表示是相同的。致使关系/变化区域实现了这一点:存储了约翰打碎了玻璃杯的事件,然后我们向LTM介质查询“玻璃杯碎了吗?”,则答案将是(正确)肯定的。
支持对作格和通格的解释
致使关系/变化区域还为作格和通格的解释提供了基础。变化者/被注意者字段保存不及物事件句的施事,也保存及物事件句的受事,而致事者/注意者字段保存及物句的施事。如果事件参与者担任变化者/被注意者,则该参与者因此符合使用作格的情况;并且如果事件参与者担任致事者/注意者,则该参与者符合使用通格的情况。
“原因”、“变为/变得”、“结果状态”以及“制作”字段
图3中所示的新WM事件方案还包括一些附加字段,用于表示状态变化事件。“动作”字段现在包括一个称为“变为/变得”的动作类别。如果观察者登记了状态变化事件,则指示该动作类别。(注意,动词go可以指示内在属性的变化(约翰脸红了)以及位置的变化(约翰去了公园)。
结果状态字段保存在状态变化事件期间达到的状态。该字段具有用于指定对象属性(诸如“红色”)和位置/轨迹(诸如“去公园”)的子字段。
新的WM方案还以“原因”标志为特征,该标志为状态变化事件指示是否识别出导致状态变化的致使过程。该标志设置在类似约翰把勺子弄弯了或火把勺子弄弯了这样的事件中,但不设置在勺子弯了中。即使没有注意致事者对象,也可以识别致使过程。这允许表示被动的致使性,诸如勺子被弄弯了,这表达的是“某物使得勺子弯了”,而不识别该物。
最后,新的WM方案以称为“制作”的特殊及物动作为特征,其用于表示创建对象的动作,而不是简单地改变。“创建动作”可涉及将素材重新组合成新的形式,或操纵现有对象的形式。但是,它们还可涉及短暂存在的事物的产生,诸如声音(发出噪声、创作歌曲)或符号制品的产生,例如通过绘制或绘画(划线、划三角形)。“制作”动作可以通过各种不同的词来实现:例如,在英语中,可以经常使用(特别是在儿童语言中)动词do以及动词make。制作的特定子类型用不同的动词来表达:例如,施事可以唱歌或播放歌曲,以及绘制或画一副画。在许多语言中,还可以使用一般动词make来代替动词cause。(例如,在英语中,可以说玛丽导致杯子碎了,也可以说玛丽使杯子碎了。)
存储序列区域
以绿色示出的存储序列区域按照事件参与者被注意的顺序来保存事件参与者。该信息与致使关系和变化的编码分开存储。称为第一对象和第二对象的两个字段获取所注意的第一对象和第二对象的副本。在被动(玛丽被吻了,勺子被弄弯了)和纯状态变化句(勺子弯了)中,没有第二对象。
占据“第一对象”和“第二对象”字段的对象在语义上是异构的,就像占据“致事者/注意者”和“变化者/被注意者”字段的对象一样。但同样,可以从这些类别中得到有用的归纳。特别是,无论动作是及物动作还是不及物动作,并且无论动作是否具有致使性,动作的意志性施事始终占据第一对象字段。在一个实施方案中,LTM事件编码介质以相同的方式对动作的意志性施事进行编码,从而允许查询“约翰做了什么?”等,并且检索所有事件,无论动作是及物或不及物、致使性或非致使性动作。
还应注意,“第一对象”和“第二对象”字段为主格和宾格的解释提供了良好的基础。回顾第1节,主动及物句和不及物句的施事采用主格,被动句的受事也采用主格:主动及物句的受事是例外情况,其采用宾格。在本文的模型中,如果事件参与者担任第一对象,则该参与者符合使用主格的情况,并且如果事件参与者担任第二对象,则该参与者符合使用宾格的情况。这些担任还识别句子的(表面)主语和宾语:采用主格和宾格的参与者分别表现为句子的主语和宾语。
第一对象和第二对象之间的区别也对应于众所周知的事件参与者角色的分类,即道蒂于1991年提出的分类。道蒂的关注点正好在于提出关于事件参与者的语义特征如何决定他们在句子(主语和宾语)中所保持的句法位置的一般性建议。道蒂定义了“原型施事”和“原型受事”。原型施事是通过一系列类似施事特征来定义的,包括生命度、意志性、感知性和致使影响。原型受事是通过一系列类似受事特征来定义的,包括相对的受动性和状态变化的经历。至关重要的是,成为主语的参与者是具有最多类似施事特征的参与者:对于道蒂而言,参与者基本上在竞争占据主语位置。在本文的模型中,该竞争是注意力的竞争:首先注意的参与者占据“第一对象”字段,并且通过该字段被选为语法上的主语。
图3示出了可以利用本文描述的系统建模的句子类型的范围。对于每个句子类型,指示WM事件介质的每个字段的内容。
事件处理
在一个实施方案中,事件表示的声明性模型通知事件处理的新模型,该新模型涵盖更广泛的事件类型。在被构造为指示例程的事件处理模型中,该例程中的一些操作涉及在可选认知模式之间做出选择。
图2和图4示出了具身代理在事件理解过程中进行一系列确定。具身代理通过按顺序注意事件中的关键参与者来开始例程。当具身代理注意参与者时,具身代理对其正在感知的事件类型进行分类。具体地说,当代理注意第一对象时,该代理确定该对象是否应作为“致事者/注意者”或“变化者/被注意者”记录在致使关系/变化区域中。即,该对象是否正在经历状态变化(或及物动作),或者该对象是否对附近的某物施加了致使影响(或执行及物动作)?
如果该对象正在经历状态变化(及物动作),则该事件被归类为纯状态变化事件(如“杯子碎了”或“粘土变软了”或“球穿过窗户”)或被动事件(如“杯子被抓住了”)。如果该对象正在施加致使影响,则该事件被归类为致使状态变化事件(如“莎莉打碎了杯子”)或纯及物事件(如“约翰碰了杯子”),或两者的混合(如“佛瑞德把粘土拍软了”或“玛丽将球踢过窗户”)。
这种初始确定建立了具身代理的认知模式:“致事者/注意者模式”或“变化者/被注意者模式”。这些不同的/可选的模式激活适用于所识别事件类型的不同感知过程。在该模型中,参与理解事件的指示例程涉及一系列离散选择,较早的选择建立较晚的选择。
图2中所示的算法采用参与事件处理的视觉和认知机制来理解不同类型的完整事件,如下文详细所述:
矩形框表示指示操作。圆形框表示选择点,取决于在例程中较早进行的处理结果。主要操作是部署对象跟踪器、启用分类器以及在WM事件介质中登记处理的“登记”结果。
步骤1:注意第一对象
扩展指示例程中的步骤1是注意场景中最显著的对象,并且将两个跟踪器分配给该对象。分配变化者跟踪器允许对象分类器生成“当前对象”表示。
步骤2:决定第一对象的角色
在步骤2中,代理决定被注意对象正在参与哪种类型的事件。第一决定是将对象表示复制到致事者/注意者字段,还是复制到变化者/被注意者字段。变化者/被注意者字段的证据由变化检测器收集,该变化检测器由变化者跟踪器指向被注意对象。通过定向注意力和致使影响分类器来联合收集致事者/注意者字段的证据,两者均由致事者跟踪器指向被注意对象。如果该对象被确定为致事者/注意者,则算法继续执行步骤2a;如果该对象被确定为变化者/被注意者,则算法继续执行步骤2b。在任一情况下,对象表示也被复制到WM事件的“第一对象”字段。
步骤2a:处理涉及第二对象的事件
在步骤2a中,将致事者跟踪器保留在当前对象上,并且尝试将变化者跟踪器重新分配到新位置。为此,定向注意力和致使机构分类器被用于寻找作为联合注意力、或定向运动、或致使影响的焦点的位置。然后,具身代理注意所选的位置,并且将变化者跟踪器重新分配给该对象。然后,对象分类器尝试在“当前对象”介质中产生该新对象的表示。对象分类器对变化者区域进行操作。
在这一点上,出现了与“创建动作”有关的另一选择:被观察施事是作用于已经存在的对象还是在创建一个尚不存在的对象?如同关于致使关系的决定一样,这种选择的结果有所不同,取决于观察者是处于“动作感知模式”(观察与自己分开的施事)还是处于“动作执行模式”(扮演施事本身的角色)。在动作感知模式中,各种信号对创建动作进行诊断。这些都与指向变化者区域的对象分类器的输出有关。如果该分类器指示该区域中根本没有对象,则这很好地表明正在进行创建动作,并且该区域作为施事所选的“工作空间”。(这解释了施事对该区域的注意。)如果分类器识别出对象,但该对象的类型似乎不稳定或处于变化中,则这是施事正在进行某事的另一良好指示。另一方面,如果分类器清楚地识别出具有不变类型的对象,则观察者可以得出该事件涉及现有对象的结论。在后一种情况下,观察者将执行步骤3a(I)来处理及物和/或致使事件。在前一种情况下,观察者将执行步骤3a(ii)来处理创建动作。
在动作执行模式中,关键问题是自上而下重建的期望事件是否涉及“制作”动作。如果除制作之外的一些动词是强重建的,则观察者将执行步骤3a(i);如果“制作”在重建中占主导地位,则观察者将执行步骤3a(ii)。
步骤3a(i):处理及物和/或致使事件
在步骤3a(i)中,观察者已确定被观察施事作用于现有对象,该对象的类型没有变化。观察者首先将所识别的对象表示复制到WM事件的变化者/被注意者字段,并且复制到“第二对象”字段。
在这一点上,观察者能够采用两个分类器,这两个分类器共同对致事者和变化者区域进行操作:及物动作分类器(查找致事者对变化者所做的动作,诸如“玛丽拍球”),以及致使过程分类器(查找致事者对变化者的致使影响,例如“玛丽把球向下移动”)。注意,如果致使过程也恰好是及物动作,如“玛丽把球拍了下来”,则这些分类器都可以启动。如果识别了一个致使过程,则观察者在WM事件中设置“原因”标志,并且还设置“变为/变得”标志(因为所导致的是一个变化)。如果没有,则不会进行上述设置。
如果正在导致变化,则具身代理将监视变化直到完成,并且在最后的步骤中,所达到的“结果状态”被写入到WM事件中。该结果状态可涉及一直在变化的固有对象属性的最终值(例如,“平坦”、“红色”),或一直在移动的对象的最终位置(例如,“到门”),或移动对象的完整轨迹(例如,“通过门”)。
步骤3a(ii):处理创建动作
在步骤3a(ii)中,观察者已确定被观察施事正在执行创建动作。
如果被观察施事是观察者自己,则其必须首先决定要创建什么,然后才能对任何运动动作进行编程。同样,在这个决定中,她被在WM事件介质中重建的期望事件所驱动。这里重构的对象可能是混合的:对于施事而言,选择这些对象的中一个对象很重要。重要的是,当她这样做时,她并不是通过感知来识别世界上的某个对象:相反,她在积极地想象某个对象。有了想象,她就能做到。(注意,对于现有对象的正常及物动作和创建动作两者,观察者必须在执行运动动作之前激活目标对象的表示。
假设施事已经选择“正方形”作为要制作的对象(假设有一个可以制作不同形状的绘图介质)。施事现在必须启用“对象创建运动电路”,该电路将想象的对象映射到一系列运动上。在本文的模型中,执行“制作”动作实际上被实现为一个模式设置操作,而不是一阶运动动作:执行“制作”基本上要启用对象创建运动电路,使得所选的(想象的)待制作对象驱动一系列一阶运动动作。
在想象一个对象并执行“制作”之后,施事现在将执行特定的一系列运动。当她这样做时,她也会感知地监视这些动作的效果:这并不保证这些动作将按计划或预期进行。一篇单独的论文中对所有这些过程进行了更详细的描述(Takae等人,2020年)。
在动作感知模式中监视创建动作时,观察者观察某个外部施事,该外部施事执行创建特定类型的新对象的一系列动作。该过程还启用对象创建运动电路,并且用于生成关于正在制作的对象的期望。如果这些期望足够强,并且被观察施事在执行动作过程中停止或遇到困难,则观察者可以按预期完成动作。
步骤2b:单独处理变化者/被注意者
所有上述处理都涉及步骤2a,其中已经独立地识别出致事者对象和变化者对象。在步骤2b中,有变化者对象,但没有致事者对象,因此单独对该变化者对象进行处理。
在步骤2a中,停止致事者跟踪器,但是变化者跟踪器保持在当前被注意对象上。执行三个单独的动态例程。
一个例程是与步骤2a中操作的相同的变化检测例程。同样,如果检测到变化,则设置“变为/变得”标志,并且记录所达到的最终结果状态。在这种情况下,会产生非宾格句,如玻璃杯碎了或比尔脸红了或门敞开着。
其它两个例程是及物动作分类器和致使过程分类器,被配置为仅对变化者对象进行操作,以给出被动语态。致使过程分类器仅在还检测到变化时运行,以给出玻璃杯碎了等句子。此外,及物动作分类器仅在既未检测到变化也未检测到致使关系(例如,“杯子被抓住了”)或两者都被检测到(例如“杯子被拍扁了”)时运行。
两个视觉跟踪器
在一个实施方案中,通过专用的视觉跟踪器来跟踪被注意的每个参与者。提供了两个不同的“视觉对象跟踪器”:一个被配置用于致事者/注意者对象,一个被配置用于变化者/被注意者对象。
两个跟踪器传递视觉区域作为不同视觉功能的输入。变化者/被注意者跟踪器为对象分类器、变化检测器和变化分类器提供输入。致事者/注意者跟踪器为有生命的施事分类器(如果可以找到子跟踪器,则该分类器将子跟踪器放置在头部和运动效应器上)、注意力方向分类器(如果存在子跟踪器,则该分类器使用这些子跟踪器来实现注视跟随和运动外插例程)以及致使影响检测器(该分类器在被跟踪对象的环境中寻找其似乎正在施加致使效应的区域)提供输入。
在事件感知开始时,当注意第一对象时,将两个跟踪器分配给该单个对象。然后竞争性地使用由两个跟踪器通知的分类器,以决定对象应当被识别为致事者/注意者(触发致事者/注意者模式)还是应当被识别为变化者/被注意者(触发变化者/被注意者模式)。
如果对象被识别为致事者/注意者,这必然是因为已经找到第二对象的一些证据,该对象正在被注意和/或受到致使影响。在致事者/注意者模式中,观察者的下一个动作是注意该第二对象。变化者/被注意者跟踪器现在被重新分配给第二对象。这允许对第二对象进行分类(对象分类器从由变化者/被注意者跟踪器识别的可视区域获取输入)。这还允许检测该第二对象中的变化并且对其进行分类。
首先将变化者/被注意者跟踪器分配给第一被注意对象,并且在致事者/注意者模式中将其重新分配给第二对象,这一事实在解释致使交替方面发挥重要作用。在“杯子碎了”中,系统首先将变化者/被注意者跟踪器分配给杯子,然后建立变化者/被注意者模式。在该模式中,系统登记第一被注意对象发生的变化并且对其进行分类。在“莎莉打碎了杯子”中,系统最初将两个跟踪器都分配给莎莉,然后建立致事者/注意者模式,并且因此将变化者/被注意者跟踪器重新分配给杯子。在该模式中,系统登记第二被注意对象发生的变化并且对其进行分类。
总之,提供了两个独立的视觉跟踪器,并且这些视觉跟踪器被配置为对不同的语义目标进行操作。致事者跟踪器被设置为跟踪致事者/注意者;变化者跟踪器被设置为跟踪变化者/被注意者。然后,许多不同的机制对这些跟踪器返回的可视区域(我们将其分别称为致事者区域和变化者区域)进行操作。
对变化者区域进行操作的机制
三种机制对变化者跟踪器返回的“变化者区域”进行操作。
对象分类器/识别器以及相关联的属性分类器
一种机制是常规对象分类器/识别器。这将关于被跟踪对象的类型和令牌身份的信息传递给“当前对象”介质。除该机制之外,一组属性分类器单独识别被注意对象的显著属性。这些属性被传递到“当前对象”介质的单独部分,该部分保存这些属性。属性分类器是分离的,因为被注意对象的某些变化是特定的属性,例如颜色或形状。
变化检测器
对变化者区域进行操作的第二机制是变化检测器。当被跟踪对象的某些变化被识别时,该检测器将启动。变化检测器具有两个独立的部件:运动检测器,该运动检测器识别物理位置的变化;以及属性变化检测器,该属性变化检测器识别由属性分类器识别的属性变化。属性的变化包括主体构造的变化。不及物动作是这种频繁发生的变化。
变化分类器
对变化者区域进行操作的第三机制是变化分类器。该分类器监视物理空间和属性空间中变化者对象的动态。如果变化者对象是有生命的,则一些动态模式被不及物动作分类器识别为可以自愿发起的变化,如耸肩和微笑。变化者对象可以是观察者自身。在这种情况下,系统包括用于通过观察者的运动系统产生被注意对象的变化的机制,而不是用于对感知到的变化进行分类的机制。可执行不及物动作的运动系统被启用。
对致事者区域进行操作的机制
两个单独的机制对致事者跟踪器返回的“致事者区域”进行操作。
有生命的施事分类器
对致事者区域进行操作的第一机制是有生命的施事分类器。该机制试图在被跟踪区域内定位头部和运动效应器(例如手臂/手)。如果找到这些子区域,则将头部跟踪器和效应器跟踪器分配给这些子区域。
观察施事也可以作为致事者对象注意自己。在这种情况下,头部和效应器跟踪器的作用由观察者自己的本体感受系统来发挥,该系统跟踪其头部、眼睛和运动效应器的位置。
定向注意力分类器
如果有生命的施事分类器分配头部跟踪器和/或效应器跟踪器,则称为定向注意力分类器的二级分类器对这些跟踪器进行操作。定向注意力分类器基于被跟踪施事的注视和/或外推效应器轨迹来识别该施事附近的显著对象。如果观察施事作为致事者正在注意自己,则定向注意力分类器在观察者自己的近身空间中传递一组显著的潜在目标。
致使影响分类器
对致事者区域进行操作的最终机制是致使影响分类器。该分类器通过在这些周围环境中引起一些状态变化来收集被跟踪对象正在对其周围环境产生致使影响的证据。
施事了解到,在特定环境中,特定类型的对象可以在特定位置产生特定致使效应。在这种情况下,致使影响分类器将观察者的注意力吸引到这些区域。因此在功能上,它表现得像定向注意力分类器:它将注意力吸引到被跟踪对象附近的显著区域。
如果观察施事自己是致事者,则问题不是观察者是否感知到一个起作用的致使过程,而是观察者能够对其周围环境中的哪些对象施加致使影响,以及其可能希望对其中哪些对象施加致使影响。该机制的作用是将施事的注意力吸引到附近的对象。
致使影响分类器将注意力吸引到致事者对象周围的位置,但该分类器也分析致事者对象的形式,也许还会分析运动。某些形式和运动表示在某些方向上或在某些周围位置处的致使影响:例如,沿着某条路径移动的锤子的形式和运动表示对位于该路径上的对象的致使影响。这些形式和运动当然可以与有生命的施事执行的及物动作的形式和运动一致,但是也可以涉及无生命的致使对象,例如锤子的情况。
对两个被跟踪区域进行联合操作的机制
最后一组机制对两个跟踪器返回的致事者和变化者区域进行联合操作。
及物动作分类器
作用于致事者和变化者区域两者的第一机制是及物动作分类器。在动作感知模式中,及物动作分类器对被跟踪对象在致事者区域中的类似施事运动的模式进行分类,如果已识别出该对象的运动效应器,则特别注意这些运动效应器。有生命的施事分类器尝试识别运动效应器,并且为其分配子跟踪器。在动作执行模式中,及物动作分类器生成由施事的末端效应器位置参数化的运动和所选的目标对象。
在这两种模式中,在及物动作分类器的操作中,施事的被跟踪末端效应器出现两次。首先,分类器监视效应器朝向变化者区域的运动,该变化者区域被理解为该施事注意的位置。及物动作类别部分地由施事的效应器到目标对象上的特定轨迹来定义:例如,抢夺、拍打和拳击都涉及特征轨迹。其次,分类器监视被跟踪运动效应器的形状和姿态。该效应器可以是任何合适的效应器,诸如但不限于手:施事的手的形状和姿势也有助于识别及物动作。有时,手的绝对形状是要考虑的重要因素:例如,在拍击时,手掌必须张开;在拳击时,手掌应该是握住的。但是在其它情况下,相对于目标对象的形状的手的形状是重要因素(例如,抓握动作)。
施事在物体中选择某对立轴和在手上选择相容的对立轴,然后通过旋转手并且通过在所选的轴线上充分打开手以允许物体进入其中来使这两个轴对准。可以实现任何合适的模型,诸如以下文献中描述的:M Rabbi、J Bonaiuto、S Jacobs和S Frey,工具的使用和末端效应器的远端化(Tool use and the distalization of the end-effector),《心理学研究》(Psychological Research),73:441-462,2009年。
关于将效应器移动到目标对象以及对准效应器和目标对象的对立轴,及物动作分类涉及两个跟踪操作:1.效应器被移动,作为整个施事的子区域(在本文的模型中,施事也被独立跟踪);以及,2.目标对象。因此,及物动作分类器是“对两个被跟踪区域进行联合操作”的视觉机制:“致事者”区域(跟踪施事及其效应器)和“变化者”区域(跟踪目标对象)。
尽管存在与施事和被跟踪对象相关联的专用跟踪器,但是观察者有时可以在单个被跟踪区域内表示施事和对象的混合。当手接近目标对象时,其会出现在与被跟踪目标对象相关联的区域内(在“变化者”区域内)。在这一点上,及物动作分类器还可以直接计算表征相对于目标的位置和姿势的手的位置和姿势的模式,并且监视该相对位置和姿势的变化。如果动作的观察者是执行动作的人,则这些直接信号可用于微调手部运动。如果被观察施事是其他人,则这些信号可以帮助观察者对动作的类别或其他参数(如动作的方式,即“强烈”、“温和”、“粗暴”等)作出精细决定。
致使过程分类器
对两个被跟踪区域进行操作的第二机制是致使过程分类器。该系统试图将(致使机构分类器提供的)致事者对象的动态与(变化分类器提供的)变化者对象的动态相结合。
需要考虑的最简单情况是,观察者正在监视外部致事者对象,并且考虑其与外部变化者对象的关系。在这种情况下,分类器简单地做出一个二元判定,判断致事者对象的动态是否会导致变化者对象的动态。为此,该分类器试图根据致事者对象的动态预测变化者对象的动态。如果预测的动态与给定的致使过程一致,则分类器在WM事件介质中设置“原因”标志。如果不一致,则不设置该标志。
可以在大量候选致事者和变化者对象上以任何合适的方式训练致使过程分类器。
致使过程分类器还在观察者选择自己作为施事的场景中操作,即在“动作执行模式”中。在这种情况下,“原因”标志的作用有所不同。所执行的动作是根据事件表示产生的,该事件表示是根据代理的LTM重建的,表示当前环境中的期望事件。一些此类事件涉及导致某些目标对象状态发生有益变化的致使过程。这些事件将设置“原因”标志。在这种情况下,致使过程分类器的功能不同:其提供一组可能的运动动作,产生期望的状态变化。施事选择其中一个动作,并且执行它。当监视动作时,施事(也是观察者)仍然必须判断预期的致使过程是否真的即将到来。如果是,则可以自下而上地设置“原因”标志,就像观察外部致使过程一样。
在某个对象中引起状态变化的所有动作必须是指向该对象的及物动作。
如果观察者选择自己作为施事,则训练致使过程分类器的实验可以特别具有针对性,因为假定的“致事者对象”是其自己,并且其可直接控制该对象的动态。在这种情况下,观察者可以通过尝试运动动作的多个变体来识别哪些参数对于实现给定效果是必要的,从而主动测试关于致使过程的假设。如果“致事者对象”是观察者无法直接控制的外部事物,也可以进行同样的学习。该外部物体可以是另一个施事,但也可以是无生命的对象,例如火、或移动的汽车、或重物。
在发展的角度来看,致使影响分类器比致使过程分类器更晚获取。致使影响分类器在由致使过程分类器识别的致使过程的正例上进行训练,即,致使影响分类器必须学习对象或位置的前注意签名,这些对象或位置可能受到当前选择的致事者对象的致使影响,其类型可将观察者的注意力吸引到这些对象或位置。在成熟事件处理期间,致使影响分类器在致使事件分类器之前运行。该分类器基本上确定是否有任何理由部署致使过程分类器,并且如果有,应该选择哪个对象作为受致使影响的变化者对象。
对象创建运动电路
在“创建动作”期间启用了对两个被跟踪区域进行操作的最终机制,其中施事的运动创建特定类型的对象,而不是仅操纵现有对象。创建动作类似于及物动作,但施事所追求的运动目标采用对象表示的形式(即,要创建的对象)。当通过注意目标对象来执行正常及物动作时,创建动作基本上涉及想象要创建的对象,然后使该想象的对象驱动运动系统。
该驱动通过对象创建运动电路进行。与致使过程分类器类似,该电路也需要训练。当致使过程分类器学习从运动动作到状态变化的映射时,对象创建电路学习从运动动作到新对象类型的出现的映射。例如,当施事学习绘画时,其在变化者分类器跟踪的位置处的空白背景上迭代地执行一系列随机绘画运动(并且因此作为输入传递到视觉对象分类器)。通常,这些运动将创建一种形式,视觉对象分类器将该形式标识为其已知的对象类型之一:例如,正方形或圆形。在这种情况下,对象创建运动电路学习从该特定运动序列到相关对象类型的映射。
及物动作分类器和致使过程分类器的“一元”操作
刚才描述的及物动作分类器和致使过程分类器被配置为共同对致事者和变化者对象进行操作,并且在该配置中进行了训练,经过训练后,这些分类器也可以单独地对变化者对象进行操作。这句话所断言的事件是可通过感知直接识别的事件:也就是说,观察者可以对及物动作“抢夺”进行分类而不识别进行抢夺的施事。及物动作的一些方面涉及完全由分配给目标对象的跟踪器监视的过程(在“变化者”区域内)。
致使句也可以用被动语态来表示:例如,玻璃杯被打碎了。该句子所描述的事件与主动状态变化句子(玻璃杯碎了)所描述的事件略有不同。前一句不仅报告了玻璃杯发生的状态变化过程:它还断言该过程是由一些其他过程引起的。致使过程分类器可以单独地对变化者对象进行有意义的操作。即,当仅监视正在经历状态变化的对象时,分类器可以检测到关于致使过程的某物。更具推测性的是,分类器的这一属性是被动的致使性存在的原因。
查询模式
该系统可以支持WM介质的查询。形式为“X做了什么”[其中X是某个施事]的查询可以检索不及物动作和及物动作两者(包括致使动作)。“X”出现在WM事件的“第一对象”字段中,以指定该查询。
另一种查询的形式为“Y发生了什么?”[其中Y是任意对象]。单个查询检索Y经历状态变化的事件,以及Y是及物动作的受事的事件。“Y”出现在WM事件的“变化者/被注意者”字段中,以指定该查询。
优点
事件的语义模型通常仅包括参与者在每个论元位置的一个表示。在本文所公开的实施方案中,每个关键参与者被表示两次而不是仅表示一次。该模型以关键参与者的两次表示为特征。这支持从语义到语法的清晰映射。
该模型包括关于支持刚才概述的指示例程的分量感知过程的新颖建议。
被监视事件类型的分类是在时间上进行扩展的“增量”过程,涉及一系列离散的决定(以及伴随的模式设置操作)。事件类型是从实时感觉运动处理的角度来考虑的。这将事件之间变化的特定维度与事件的感觉运动体验中的特定阶段联系在一起。关键思想是,在事件体验期间有一些特定时间,其中参与者被注册为扮演特定的语义角色,或者第二参与者被注册为参与了该事件。这些决定对更新WM事件表示的特定字段具有局部效应,但也通过建立在事件处理的剩余阶段持续的认知模式对所有后续事件处理产生影响。
在事件处理期间注意的每个参与者随后都被跟踪,并且其中一些跟踪器专门用于在事件中扮演特定角色的对象(“致事者/注意者”和“变化者/被注意者”跟踪器)。这些跟踪器首先都被分配给相同的对象,其中一个跟踪器可以在事件处理期间被重新分配给新对象。
具身代理
在一个实施方案中,具身代理将计算机图形/动画和神经网络建模相组合。该代理可以具有被实现为大量计算机图形模型的模拟身体,以及被实现为由互连神经网络组成的庞大系统的模拟大脑。模拟视觉系统从照相机获取输入(该照相机从世界(可以指向人类用户)获取输入),和/或从她和用户可以共同交互的网络浏览器页面的屏幕获取输入。模拟运动系统控制具身代理的头部和眼睛,因此代理的注视可被引导至代理的视觉反馈中的不同区域;并且该系统控制代理的手和手臂。在一个实施方案中,代理能够点击并拖动浏览器窗口中的对象(该对象在代理的近身空间中以触摸屏的形式显示)。代理还可以感知用户在浏览器窗口中移动对象的事件,以及这些对象在它们自己的流下移动的事件。
本文描述的实施方案允许具身代理用语言描述所经历的事件——代理感知的事件以及代理参与的事件两者。在一个实施方案中,代理递增地产生事件的表示,一次一个分量。递增地表示事件可以实现语言界面所需的丰富、准确的事件表示。
该模型可在具身代理中起重要作用,向其提供广泛的能力,以识别不同类型的事件(例如,来自视频输入)或执行不同类型的动作(例如,在具身代理自己的模拟环境中和/或在具身代理与用户共享的浏览器窗口世界中)。例如,具身代理可以经历事件并将事件存储在WM中。然后,当代理听到描述事件的话语时,代理学习事件结构和话语结构之间的关联。
优点
新模型为具身代理提供了一种通过与世界交互来理解各种事件类型的方法。用于从视频识别事件的现有方法倾向于关注单一类型的事件(例如,参见Balaji和Karthikeyan,2017年)或一小组事件类型(例如,参见Yu等人,2015年),或者完全避免对事件类型进行建模,将视频帧序列直接映射到单词序列(例如,参见Xu等人,2019年)。
本文描述的实施方案解决了若干问题:
·如何对致使交替建模:事实上一些表示状态变化的动词允许变化的对象作为不及物句(“玻璃杯打碎了”)的主语,但也作为及物句(“玛丽打碎了玻璃杯”)的宾语。(语言学家通常假设,在语义层面上,变化的对象在这两种情况下具有相同的表示:问题是要解释为什么该表示有时被映射到主语,有时被映射到宾语。)
·如何对句法格建模。在英语中,格表现在主格名词短语(例如,“她”、“他”)和宾格名词短语(例如,“她”、“他”)之间的区别。在英语中,主语始终采用主格,而宾语始终采用宾格。但是在所谓的“作格”语言中,发现了另一种模式:不及物动词的主语采用的格与及物句的宾语相同(称为作格),而及物句的主语采用不同的格(称为通格)。本文的新模型提供了格的新颖解释,解释了这些不同格系统的起源。
·如何对被动句建模,诸如“杯子被偷了”或“杯子被打破了”。这里的新颖之处在于我们对感知机制的解释,通过这种感知机制我们可以理解事件。
本文描述的认知系统解决了如何将分量感知机制组合在整个感知系统中。先前在及物动作处理方面的尝试得到了扩展,以涵盖更大范围的事件类型。当“当前对象”介质拥有不同的对象表示时,WM事件表示保存在事件处理期间的不同点获得的该介质的副本。认知模型通过使WM事件表示记录“变化者”对象和(可选地)“致事者”对象来合并状态变化事件。
这允许具身代理用语言报告其感觉运动体验,并且根据语言指示执行感觉运动任务。
将参与对象表示两次(一次在存储序列区域中,一次在致使关系/变化区域中)有助于对事件参与者的语义方面进行编码,这些语义方面确定
(a)哪个参与者成为报告事件的句子的句法主语,哪个参与者成为句法宾语;以及(b)支持被动句、纯状态变化句和致使交替的模型。
重新分配操作对于解释“致使交替”是至关重要的。致使交替是一种现象,其允许对象改变状态,有时作为句子的语法主语(例如“杯子打碎了”),有时作为语法宾语(“苏打碎了杯子”)。在该模型中,语法主语始终是第一注意参与者,而语法宾语始终是第二注意参与者。识别(并监视/分类)状态变化的感知机制必须对第一注意参与者进行操作以识别“杯子打碎了”,并且对第二注意参与者进行操作以识别“X打碎了杯子”。将输入传递到变化检测器/分类器的视觉跟踪器最初被分配给第一参与者,然后如果需要,该跟踪器将被重新分配给第二参与者。
解释
所描述的方法和系统可用于任何合适的电子计算系统。根据下文所述的实施方案,电子计算系统使用各种模块和引擎来利用本发明的方法。电子计算系统可包括:至少一个处理器;一个或多个存储器装置或用于连接到一个或多个存储器装置的接口;输入接口和输出接口,该输入接口和输出接口用于连接到外部装置,以便使系统能够根据来自一个或多个用户或外部系统的指令接收和操作;数据总线,该数据总线用于各种组件之间的内部和外部通信;以及合适的电源。此外,电子计算系统可包括用于与外部和内部装置通信的一个或多个通信装置(有线或无线),以及一个或多个输入/输出装置,诸如显示器、指向装置、键盘或打印装置。处理器被布置成执行作为程序指令存储在存储器装置内的程序的步骤。程序指令使如本文所述执行本发明的各种方法能够被执行。程序指令可使用任何合适的软件编程语言和工具包(诸如例如基于C的语言和编译器)来开发或实现。此外,程序指令可以任何合适的方式存储,使得它们可被传输到存储器装置或由处理器读取,诸如例如存储在计算机可读介质上。计算机可读介质可以是用于有形地存储程序指令的任何合适的介质,诸如例如固态存储器、磁带、光盘(CD-ROM或CD-R/W)、存储卡、闪存、光盘、磁盘或任何其他合适的计算机可读介质。电子计算系统被布置成与数据存储系统或装置(例如,外部数据存储系统或装置)通信以便检索相关数据。应当理解,本文所述的系统包括被布置成执行如本文所述的各种功能和方法的一个或多个元件。本文所述的实施方案旨在向读者提供构成系统的元件的各种模块和/或引擎可如何互连以实现要实施功能的示例。此外,本说明书的实施方案以系统相关的细节解释了可如何执行本文所述的方法的步骤。提供概念图是为了向读者指示如何由各种不同模块和/或引擎在不同阶段处理各种数据元。应当理解,模块或引擎的布置和构造可根据系统和用户要求相应地进行调整,使得各种功能可由与本文所述的那些不同的模块或引擎执行,并且某些模块或引擎可组合成单个模块或引擎。应当理解,可使用任何合适形式的技术利用指令来实现并设置所描述的模块和/或引擎。例如,模块或引擎可使用以任何合适的语言编写的任何合适的软件代码来实现或创建,其中代码随后被编译以产生可在任何合适的计算系统上运行的可执行程序。另选地,或是结合可执行程序,模块或引擎可使用硬件、固件和软件的任何合适的混合来实现。例如,模块的部分可使用专用集成电路(ASIC)、片上系统(SoC)、现场可编程门阵列(FPGA)或任何其他合适的自适应或可编程处理装置来实现。本文所述的方法可使用被特别编程以执行所述步骤的通用计算系统来实现。另选地,本文所述的方法可使用特定的电子计算机系统来实现,诸如数据分类和可视化计算机、数据库查询计算机、图形分析计算机、数据分析计算机、制造数据分析计算机、商业智能计算机、人工智能计算机系统等,其中计算机已特别适于对从与特定字段相关联的环境捕获的特定数据执行所述步骤。
附图标记列表
1 代理
2 参与者(对象?)
3 事件处理器
4 事件
5 跟踪器
6 变化者/被注意者
7 致事者/注意者
8 动作分类器
Claims (8)
1.一种计算机实现的方法,所述计算机实现的方法用于将具身代理所经历的感觉运动事件解析为映射到定义所述事件的句子的WM事件表示的符号字段,所述方法包括如下步骤:
a.注意参与对象;
b.对所述参与对象进行分类;以及
c.对所述事件进行一系列级联确定,其中一些确定以先前确定的结果为条件,
其中每个确定设置所述WM事件表示中的字段。
2.根据权利要求1所述的方法,其中至少一些确定触发所述具身代理中的认知处理的可选模式。
3.根据权利要求2所述的方法,其中在所述具身代理中的认知处理的所述可选模式之间进行选择的所述确定包括如下步骤:
a.定义证据收集过程,所述证据收集过程在做出选择之前的某一时间段内分别累积每种模式的任意量的证据;以及
b.对于每种模式,将所累积的证据存储到表示为所述模式累积的所述证据量的连续变量中;
c.通过查询每种模式的所述证据累加器变量来确定认知处理的所述模式。
4.根据任一前述权利要求所述的方法,其中确定选自以下各项所组成的组:
a.确定是否存在第二对象;
b.确定是否存在创建动作的证据;
c.确定对象是否正在经历状态变化;以及
d.确定对象是否正在施加致使影响和/或执行及物动作。
5.一种数据结构,所述数据结构用于将具身代理所经历的感觉运动事件解析为WM事件表示的符号字段,所述数据结构包括:
WM事件表示数据结构,所述WM事件表示数据结构包括:
a.致使关系/变化区域,所述致使关系/变化区域被配置为存储致事者/注意者对象和变化者/被注意者对象;
b.存储序列区域,所述存储序列区域被配置为存储第一被注意对象和第二被注意对象,从而保存所述致使关系/变化区域中所述对象的重新表示;
c.动作;
d.原因标志;
e.字段,所述字段表示正在发生状态变化;和
f.结果状态。
6.根据权利要求5所述的数据结构,所述数据结构还包括指示表示数据结构,所述指示表示数据结构包括:当前对象,被配置为同时映射到所述致使关系变化区域和所述存储序列区域。
7.一种通过具身代理来注意对象的方法,所述方法包括如下步骤:
a.同时将致事者/注意者跟踪器和变化者/被注意者跟踪器分配给所述具身代理注意的第一对象;
b.确定所述第一对象是致事者/注意者还是变化者/注意者;以及
c.如果所述第一对象是致事者/注意者,则将所述变化者/被注意者跟踪器重新分配给所述被注意的对象。
8.根据权利要求7所述的方法,其中注意所述对象是对所述对象产生致使影响。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NZ768405 | 2020-09-25 | ||
NZ76840520 | 2020-09-25 | ||
US202063109336P | 2020-11-03 | 2020-11-03 | |
US63/109,336 | 2020-11-03 | ||
PCT/IB2021/058708 WO2022064431A1 (en) | 2020-09-25 | 2021-09-24 | Event representation in embodied agents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116368536A true CN116368536A (zh) | 2023-06-30 |
Family
ID=80844536
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180064729.3A Pending CN116368536A (zh) | 2020-09-25 | 2021-09-24 | 具身代理中的事件表示 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20230334253A1 (zh) |
EP (1) | EP4217922A1 (zh) |
JP (1) | JP2023543209A (zh) |
KR (1) | KR20230070488A (zh) |
CN (1) | CN116368536A (zh) |
AU (1) | AU2021349421A1 (zh) |
CA (1) | CA3193435A1 (zh) |
WO (1) | WO2022064431A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8799776B2 (en) * | 2001-07-31 | 2014-08-05 | Invention Machine Corporation | Semantic processor for recognition of whole-part relations in natural language documents |
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
US10606952B2 (en) * | 2016-06-24 | 2020-03-31 | Elemental Cognition Llc | Architecture and processes for computer learning and understanding |
US11562135B2 (en) * | 2018-10-16 | 2023-01-24 | Oracle International Corporation | Constructing conclusive answers for autonomous agents |
US10750019B1 (en) * | 2019-03-29 | 2020-08-18 | Genesys Telecommunications Laboratories, Inc. | System and method for assisting agents via artificial intelligence |
-
2021
- 2021-09-24 KR KR1020237013414A patent/KR20230070488A/ko unknown
- 2021-09-24 CA CA3193435A patent/CA3193435A1/en active Pending
- 2021-09-24 EP EP21871800.5A patent/EP4217922A1/en active Pending
- 2021-09-24 US US18/028,094 patent/US20230334253A1/en active Pending
- 2021-09-24 CN CN202180064729.3A patent/CN116368536A/zh active Pending
- 2021-09-24 JP JP2023518721A patent/JP2023543209A/ja active Pending
- 2021-09-24 AU AU2021349421A patent/AU2021349421A1/en active Pending
- 2021-09-24 WO PCT/IB2021/058708 patent/WO2022064431A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
AU2021349421A1 (en) | 2023-06-01 |
JP2023543209A (ja) | 2023-10-13 |
CA3193435A1 (en) | 2022-03-31 |
KR20230070488A (ko) | 2023-05-23 |
US20230334253A1 (en) | 2023-10-19 |
EP4217922A1 (en) | 2023-08-02 |
WO2022064431A1 (en) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tellex et al. | Robots that use language | |
Vuletic et al. | Systematic literature review of hand gestures used in human computer interaction interfaces | |
Barca et al. | Unfolding visual lexical decision in time | |
Scheutz et al. | The utility of affect expression in natural language interactions in joint human-robot tasks | |
CN110998696A (zh) | 用于数据驱动型移动技能训练的系统和方法 | |
Kächele et al. | Inferring depression and affect from application dependent meta knowledge | |
Areeb et al. | Helping hearing-impaired in emergency situations: A deep learning-based approach | |
US20180204107A1 (en) | Cognitive-emotional conversational interaction system | |
Kopp et al. | Using cognitive models to understand multimodal processes: The case for speech and gesture production | |
Saunders et al. | Robot learning of lexical semantics from sensorimotor interaction and the unrestricted speech of human tutors | |
Brock et al. | Robust real-time hand gestural recognition for non-verbal communication with tabletop robot haru | |
Sowa et al. | Interpretation of shape-related iconic gestures in virtual environments | |
CN116368536A (zh) | 具身代理中的事件表示 | |
Sárkány et al. | Maintain and improve mental health by smart virtual reality serious games | |
Fardinpour et al. | The taxonomy of goal-oriented actions in virtual training environments | |
Dymarska et al. | More is not necessarily better: How different aspects of sensorimotor experience affect recognition memory for words. | |
André et al. | Multimodal fusion in human-agent dialogue | |
Farinelli | Design and implementation of a multi-modal framework for scenic actions classification in autonomous actor-robot theatre improvisations | |
Ruttkay et al. | Human computing, virtual humans and artificial imperfection | |
Van Maanen et al. | Accounting for subliminal priming in ACT-R | |
De Angeli et al. | Ecological interfaces: Extending the pointing paradigm by visual context | |
Woodin | Degrees of metaphoricity: a quantitative gesture analysis | |
Martinez et al. | Multimodal Interfaces: A Study on Speech-Hand Gesture Recognition | |
Wang | Anticipative coordinated cognitive processes for interactivist and piagetian theories | |
Falandays | Three Scales of Symbol Grounding: From Neural Resonance, to Embodied and Context-Sensitive Language Processing, to Collective Cognitive Alignment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |