CN112215346B - 一种实现类人通用人工智能机器的方法 - Google Patents

一种实现类人通用人工智能机器的方法 Download PDF

Info

Publication number
CN112215346B
CN112215346B CN202011121889.0A CN202011121889A CN112215346B CN 112215346 B CN112215346 B CN 112215346B CN 202011121889 A CN202011121889 A CN 202011121889A CN 112215346 B CN112215346 B CN 112215346B
Authority
CN
China
Prior art keywords
machine
information
memory
activation
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011121889.0A
Other languages
English (en)
Other versions
CN112215346A (zh
Inventor
陈永聪
曾婷
其他发明人请求不公开姓名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202011121889.0A priority Critical patent/CN112215346B/zh
Publication of CN112215346A publication Critical patent/CN112215346A/zh
Priority to PCT/CN2021/086573 priority patent/WO2021218614A1/zh
Application granted granted Critical
Publication of CN112215346B publication Critical patent/CN112215346B/zh
Priority to US17/565,449 priority patent/US11715291B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • G06N3/065Analogue means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明申请提出了实现类人通用人工智能的方法和流程。提出了采用注意力机制,多层次特征提取,链式联想激活来建立预测模型。提出了把需求信息、奖罚信息和情绪信息和其他输入信息一样处理,并作为关系网络的一部分。提出了机器通过限定搜索范围在被激活信息中,在限定范围内搜索最优响应路径作为对输入信息的响应路径。在本发明申请中,也提出了机器建立自我意识,建立同理心等实施方法。通过本发明申请提出的方法,机器可以拥有类似于人类的认知和决策能力,这些都展现了本发明申请提出的机器学习方法和目前已有的方法存在巨大差异,目前在业界还没有与之类似的方法。

Description

一种实现类人通用人工智能机器的方法
技术领域
本发明申请涉及人工智能领域,尤其涉及如何建立通用人工智能。
背景技术
当前人工智能通常是为特定任务设计的,还没有能够完成多种不确定性任务的通用人工智能。实现通用人工智能最大的障碍在于如何在纷繁复杂的事物之间建立类似于人类常识的知识网络和如何利用这样的知识网络。只有机器拥有了类似于人类的常识,机器才可能产生类似于人类的思维活动。
本发明申请重点在于揭示了机器如何建立类似于人类的知识表征体系,如何利用这样的知识表征体系来指导机器自己的行为。有了这些基础后,机器就可以采用类似与人类的趋利避害原则,做出对信息分析和响应。这些分析和响应和人类类似。同时,机器也可以自我学习人类知识,并通过发现知识之间的潜在联系,进一步创建新的知识。这将给人类社会带来巨大经济和社会效益。
发明内容
本发明申请主要包含两方面内容。一是如何建立机器的知识表征体系,二是如何使用这些表征体系来实现通用人工智能。
S1,机器对传感器数据做特征提取,内容包括:S1.1,基础特征选取。
本发明申请提出机器需要提取的基础信息特征,就是那些广泛存在于我们的世界中的局部共有信息特征。
S1.2,分层表征方法。
分层表征的意思是对输入信息,采用不同层次的分辨率提取其中的信息特征。比如在默认情况下,优先提取整体的拓扑特征、轮廓特征和整体动态特征。然后由机器的决策系统处理这些信息,用于决定是否需要进一步提取更多信息。所以同一个事物或者过程可能同时有多层不同分辨率的信息特征来代表。
其次,按照决策系统给出的注意力机制,对所注意的区间,再次使用信息压缩通道处理。同样可以优选目前已有的信息压缩方法,同样优先提取注意力区间内的整体拓扑、整体轮廓、整体性线条和纹理等基础特征。
上述过程迭代进行,提取的信息按照同时性信息存储方法,存储为记忆,直到机器的决策系统认为获得的信息,已经足够确认可能的奖罚信息为止。通过上述过程,就可以实现对同一个输入信息,使用不同分辨率,使用不同层级特征来表达。这就是分层表征的实现。
S1.3,建立模式识别和注意力机制。
机器通过优先提取输入信息中一到多个分辨率层次上的基础信息特征,并使用这些信息特征在记忆中做链式联想激活。机器挑选被激活的共有特征,通过激活信息重组的方法,建立输入信息的预期模型。决策系统通过预期模型带来的置信度,决定是否进一步识别信息。如果进一步识别信息,机器通过预期模型中包含的空间和时间关系,把注意力转移到这些还没有出现的特征的时间和空间位置上,注意力转移时按照高激活值优先原则进行,并按照预期特征的相关属性(比如在模型中的时间、空间,预期大小以及其他属性)来确定使用的分辨率和赋予给预期信息的初始激活值。如果不再识别信息,机器进入识别其他信息或者进入建立响应路径的过程。
S1.4,进行置信度浮动。
机器的决策系统判断预期模型是否达到置信度的预设标准,就是判断预期模型带来的奖罚值大小是否达到预设标准。决策系统通过预期模型中已经确认的条件,来确定预期模型A发生的概率P,和通过奖罚系统确认预期模型A带来的奖罚值V,按照R=f(P,V)来确认奖罚信息,其中R是预期模型A的奖罚信息,f是统计函数。机器决策系统通过R和预置标准的比较,决定是否进一步识别信息。上述过程迭代进行。直到机器认为目前已经完成的信息识别,它们的奖罚信息已经足够完成决策为止。
置信度浮动是由机器的决策系统,根据经验来预测该模型可能给自己带来的奖罚值来调整。它是机器对输入信息的响应的组成部分。机器对那些几乎对自己奖罚信息没有影响的信息,要求的置信度(预设的奖罚值标准)很低;而对那些和自己奖罚信息密切相关的信息,则要求的置信度较高。这是机器通过决策系统判断奖罚信息,然后使用注意力机制来实现的。机器对那些和奖罚信息连接关系弱的信息,很快就达到停止判断的预算奖罚值。而对那些和奖罚信息连接关系强的信息,提高了预设的奖罚判断值,可能需要迭代使用注意力机制去识别。
S2,机器对信息特征做存储,内容包括:S2.1,同时性保存方法。
在本发明申请中,我们提出一个基本假设:“同时输入到机器的信息之间,存在隐含的连接关系”。同时,我们提出一种保存这种隐含连接关系的信息存储方法:对那些“输入时间上相邻的信息”采用“存储空间上也相邻”来表达。
信息在存储空间上相邻可以是存储信息的物理位置上的相邻。信息在存储空间上相邻还可以不采用物理位置相邻,但采用一种数据映射机制来表达信息之间的关系是相邻关系。
S2.2,记忆存储方法。
机器首先把提取的基础特征,按照和原始数据相似度最高的位置、角度和大小,把它们和原始数据重叠放置,这样就能保留这些基础特征在时间和空间上的相对位置。机器可以只存储这些基础特征,也可以存储叠加了这些基础特征的原始数据。在本发明申请中,我们主要使用提取的基础特征,其对应的原始数据可以作为一种备份数据,这种备份数值在需要时,可以再次调用,按照相同的方法再次根据需要来提取特征。所以这两种存储方式,对机器的通用人工智能实现上并没有本质差异。
机器对基础特征提取后,保留了输入信息的时间和空间信息,并构成了需要存储的记忆。这些记忆可以通过调用,重现部分存储发生时的输入信息,所以这些信息被称之为镜像记忆。因为它们是机器在记忆中对输入信息特征的镜像记录。一次镜像记忆的存储数据,我们称之为一个记忆帧。它们像电影帧一样,通过多个帧连续回放,我们就能重现记忆发生时的动态场景。所不同的是,记忆帧中的信息可能会随时间而被遗忘。
S2.3,记忆和遗忘。
在本发明申请中,遗忘是一种信息之间关系的提取方法,是一个主动过程。
存储在记忆库中的信息,除了特征数据本身外,还包含有表征其能在记忆库中存在时间的数据,这个数据被称为记忆值。记忆值随记忆函数而增加,随遗忘函数而减小。记忆函数是指记忆值随被激活的次数增加而增加。具体的增加方式可以采用一个函数来表示,这个函数就是记忆函数。需要指出,对不同类型的记忆可以采取不同的记忆函数。遗忘函数是指记忆值随时间(包括训练时间)增加而递减。具体的减小方式可以采用一个函数来表示,这个函数就是遗忘函数。需要指出,对不同类型的记忆可以采取不同的遗忘函数。被存储的信息的初始记忆值和存储发生时的它们对应的激活值成正相关,但不一定是线性关系。
需要特别指出,记忆和遗忘机制,并不一定需要把信息遗忘,而是值指重复出现带来的记忆值的变化,而记忆值变化带来的不同信息之间的连接强度变化,而连接强度不同带来了激活值传递的不同。它们是构成关系网络的基础。
S2.4,对存储数据的筛选。
机器对信息的存储采用记忆筛选方法包括事件驱动机制和临时记忆库机制。
在镜像记忆中,每发生一次事件,机器就把这个镜像记忆做一个快照,保存为记忆帧。发生事件是指本次输入特征和上次输入特征之间,通过相似性对比,存在超过预设阈值的变化。这就被称为发生了一个事件。
需要指出,发生事件不仅仅是指外部信息,也指机器的内部信息,比如机器自身的监控信息,或者自己的需求信息发生了超过预设值的改变,这也是发生了一个事件,机器也需要再次更新记忆。更新的内容包括镜像记忆中的特征,包括外部特征、机器的内部状态、机器的需求符号和状态、机器的奖罚符号和状态,机器的情绪符号和状态等相关信息,以及这些信息的记忆值。上述方法就是事件驱动机制。
记忆库就是指存放这些记忆帧的数据库。而临时记忆库是记忆库的一种,其目的是对记忆帧存储的信息做初步筛选。在临时记忆库中,如果某一个特征的记忆值达到预设标准,那么这个特征就可以被标记为长期记忆。它将采用更加缓慢变化的遗忘曲线。
本发明申请中,我们采用有限容量的堆栈来限制临时记忆库容量的大小,并在临时记忆库中采用快速记忆和快速遗忘的方式,来对准备放入长期记忆库中的材料进行筛选。上述方法就是临时记忆库机制。
S3,机器建立知识表征体系,内容包括:S3.1,联想激活方法。
为了建立记忆中的知识表征体系(本发明申请中称为关系网络),在本发明申请中,我们提出了一个基本假设:“在时间上相邻出现的信息彼此之间存在隐含的连接关系”。这是我们建立关系网络的关键假设。
同时,我们提出了另外三条假设用于关系网络的优化:“临近关系”假设、“相似关系”假设和“记忆强度关系”假设。
“临近关系”假设:记忆中,时间上相邻的信息,存储位置也相邻。机器使用存储位置相邻的方式来表达相邻时间信息之间的连接关系。
“相似关系”假设:在记忆中,相似的记忆信息彼此之间也存在联系。
“记忆强度关系”假设:在记忆中,那些记忆值高的记忆更加容易被激活。
当记忆中一个信息被激活后,它会采用“临近激活”原则、“相似激活”原则和“强记忆激活”原则来激活其他信息。
“临近激活”是指记忆中特定的信息激活后,它会激活和它存储位置上临近的信息。存储位置上的临近关系,既可以是存储单元物理上的临近,也可以是任意其他表达存储位置临近的方式(即使它们存储单元物理上并非临近)。
“相似激活”是指记忆中的特定特征,接收其他特征发出的激活信号时,接收能力和彼此之间相似度成正相关。所以一个相似的记忆被激活后,它会发出自己的激活信号,并可能很容易进一步激活其他与其相似的记忆。这是因为相似的记忆之间彼此接收对方的激活信号能力强。在本发明申请中,一种简单的激活值传递关系可以是传递系数正比于相似度。当然,也可以采用其他传递函数,但需要表达传递系数和相似度的正相关。
当信息输入后,在不同分辨率层次上的各种特征都可能激活记忆中与自己相似的特征,所以“相似激活”并非指整体相似,而是指各种特定分辨率下特定特征会激活记忆中与自己相似的特征。
“强记忆激活”是指记忆值越高的记忆,接收其他特征发出的激活信号的能力越强。所以那些记忆深刻的信息更容易被激活。
在本发明申请中,每一个基础特征都被赋予一个记忆值,用于表示能够存在于记忆库中的时间。那些记忆值高的记忆可能长期存在,其接收其他特征发出的激活信号的能力强。
以上三种激活方式统称为联想激活方法。
S3.2,链式激活方法。
链式激活是指机器在“临近激活”原则、“相似激活”原则和“强记忆激活”原则的基础上,从一个输入基础特征出发,链式激活了多个记忆信息的过程。
当节点收到传过来的激活值,并累计上自己的现有激活值后,总激活值大于自己节点的预设激活阈值,那么自己也被激活。也同样采用“临近激活”原则、“相似激活”原则和“强记忆激活”原则来进行链式激活。这个激活过程链式传递下去,直到没有新的激活发生,整个激活值传递过程停止,这个过程称为一次链式激活过程。为了避免两个基础特征之间反复彼此激活,机器需要限制两个基础特征之间发生一次激活值传递后,并不能立即发生反向激活值传递。
S3.3,关系网络的建立方法。
在本发明申请中,我们采用记忆和遗忘机制来维护信息在记忆库中的记忆值。记忆和遗忘机制是本发明申请中广泛使用的关系提取机制。
如果我们把记忆看作是一个包含了无数特征的立体空间,那么关系网络,就是这个空间中的连接脉络。这些连接脉络的出现,来自于记忆和遗忘机制的优化。那些不能被反复激活的特征其记忆值降低,而那些能得到反复激活的特征,其记忆值增加。这些不同记忆值的特征,通过链式联想激活原则,彼此之间就形成了不同的连接强度。
当特定的信息特征输入后,通过链式的联想激活,存在关系的记忆被激活。这些被激活的记忆,就代表了和输入信息相关的经验,它包含了机器认知的常识和特定知识。在本发明申请中,我们把这个知识表征体系称为关系网络。
需要指出,在本发明申请中,机器不仅仅存储了外部输入信息特征,还存储了其他类型信息,比如机器的内部状态数据、机器的需求系统信息、机器的奖罚系统信息和机器的情绪系统数据等。机器对这些信息的处理方法和外部输入信息采用一样的特征提取方法,采用一样的存储方法,采用一样的信息利用方法。所以机器对输入信息赋予的激活值,也会通过关系网络传播到机器的需求系统、奖罚系统和和情绪数据上,产生了机器的需求数据、奖罚数据和情绪数据。机器的决策系统利用这些数据,统计收益和损失,采用趋利避害的方法,来选择自己对输入信息的响应路径。响应路径包括情绪外显,进一步识别信息,或者对信息做出响应等。
S3.4,概念的形成方法。
关系网络中,那些通过粗大的关系脉络连接起来的多分辨率信息就组成了概念。这是因为它们通常同时出现,并彼此之间可能通过联想激活相互激活,从而增强了彼此之间的连接频次,从而在关系网络中构成了更加紧密的局部网络。这些局部网络可能包含图像、语音、文字、需求符号和对应记忆值或者其他任何表达形式。由于这些表达形式频繁出现在一起,并频繁相互转换,所以它们之间的连接更加紧密。它们就是机器常常在激活信息重组过程中建立的信息块。
由于人类后天使用语言非常频繁,所以通常在一个概念中,语言的激活次数有可能是最多的,语言的记忆值也是最高的。同时由于语言通常和一个概念的所有属性相连接,所以它是各个属性之间相互激活的桥梁。从而成为这个概念最频繁的入口,也就是这个概念最常用的代表性信息特征。所以表现得好像语言是我们概念思维的中心。
概念包含的局部网络并没有明确的界限,而是取决于局部连接网络紧密程度标准的选取。当紧密程度标准取值高,代表限定概念的特征少,这时概念代表的范围就大,可能指向更加抽象的概念。反之,当紧密程度标准取值低,代表限定概念的特征多,这时概念代表的局部网络范围就小,可能指向更加具体的概念。
S3.5,概念的开放和迭代识别方法。
对输入信息的迭代识别过程,也是对概念的迭代识别过程。但概念的识别过程,还包括对记忆中激活信息的迭代识别过程。在一个概念中,通常低分辨率特征因为在同类事物中重复次数很高,它们的记忆值也高,它们通常位于塔顶。比如一件物体的拓扑和整体轮廓,比如一个过程的少量关键步骤,它们因为在同类物体或者过程中反复出现,记忆值得到强化。而那些重复性较低的高分辨率特征,通常位于塔中,比如具体的纹理、特定的曲线、颜色、大小等属性。而那些偶然出现的信息,通常位于塔低。所以通常由低分辨率特征组合而形成的概念是概括性概念,而包含了局部分辨率特征的组合,通常是更加具体的概念。
在链式联想激活驱动下,由于高记忆值更加容易被激活,所以通常拥有高记忆值的低分辨率的特征通常更加容易有更高激活值。这和人类识别事物首先是从整体特征来进行识别的方式类似。这些高激活特征通常是同类事物中的共有特征。
机器通过把这些已经激活的概念中,激活值高的特征,通过激活信息重组过程,重组为预期模型。机器使用这些预期模型,来分割输入的信息特征。并通过对比预期模型和输入,利用决策系统,来确定需要进一步识别的预期特征所处区间和需要采用的分辨率,以及根据预期的奖罚信息来调整初始激活值赋值程序的参数。也可以根据奖罚信息来调整需求系统、情绪系统和执行系统的参数,这是一种情绪的表达方式。这就是机器的注意力机制。在这里,机器对预期特征的搜索范围,包括了记忆中的特征。
机器通过反复迭代的方式来识别更多的特征。在这个过程中,先前被激活的记忆,其激活值会随时间消退。而那些被新特征所激活的记忆,其激活值会持续增加或者保持。这样机器就通过逐步增加的概念识别标准,逐步缩小激活值的“凸显”范围,从而实现被激活的概念从抽象走向具体的识别过程。这就是机器识别输入信息的注意力机制。注意力关注的特征路径是由机器在目前环境下产生的奖罚信息所驱动的,所以注意力和被识别的信息本身复杂度无关,而是由这个信息在目前环境下带给机器的奖罚信息来决定的。
S3.6,类人传感器信息融合。
为了机器智能和人类能够更好的沟通,所以本发明申请提出采用与人类相似的传感器和组成结构,来训练机器理解众多和人类自身感知方式相关的信息。这是因为人类的文化是建立在人类的感知能力、行动能力和决策方式之上的。机器要理解人类,必须要有类似的感知能力、行动能力和决策方式。
S3.7,激活消退和激活增强。
为了合理地处理信息输入的先后次序,确保后面输入的信息带来的激活值,不会被前面的信息的激活值所屏蔽,在本发明申请中,链式激活中的激活值,会随时间而递减。因为如果关系网络中的激活值不随时间消退,后面信息带来的激活值变化就不够明显,这会带来信息间干扰。如果激活值不消退,后面的信息输入后,会受到前面信息的强烈干扰。
但如果我们完全清空前面信息的记忆值,那么我们又丢失了前后两段信息可能存在的连接关系。所以,在本发明中,我们提出采用渐进消退的方法来实现前后段信息的隔离和连接之间的平衡。这样做的优点是既能维护信息的前后相关性,又能平衡前后信息的权重。而且由于重点信息通常会获得多个渠道赋予的激活值,成为高激活值节点。所以这些重点信息的激活值存在的时间长,它们会更加长久的存在于被激活的信息中,更长时间的参与信息识别和机器决策过程。
激活值消退参数需要在实践中优选。但激活值消会带来维护一个信息的激活状态的问题。机器的决策系统做出的响应路径,可能包含了维持一些信息的激活值,确保它们处于决策考虑之中。机器需要采用刷新的方法来维护自己的激活值,而刷新的方法主要包括虚拟输出转输入的方法和排除后续干扰的方法。
S4,建立需求系统、情绪系统和奖罚系统。
需求系统:在本发明申请中,机器采用符号来代表各种人类赋予给机器的各种需求。每一类需求都可以采用符号来表示,并且这些符号可以被赋值来表示所处的状态。需求类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的需求都是类似的处理方法。
情绪系统:在本申请发明中,机器采用符号来代表各种人类赋予机器的情绪。机器的情绪可以多种多样,每一类情绪可以使用符号来代表,这些符号可以被机器赋值来表示所处状态。这些情绪类型的差异和多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的情绪都是类似的处理方法。
奖罚系统:在本发明申请中,机器采用符号来代表奖罚信息。这些符号可以被机器赋值来表示所获得的奖罚信息。比如可以采用收益符号和收益指,损失符号或者损失值来实现奖罚系统。这些奖罚符号的多少,不影响本发明申请的权利要求。因为在本发明申请中,所有的奖罚符号都是类似的处理方法。
决策系统:在本发明申请中,机器使用决策系统来确定对输入信息的响应目标和实施路径。
在本申请所提方法中,机器的情绪和机器的需求状态之间的关系,可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。
在本申请所提方法中,机器的情绪状态和机器情绪的外显的表达方式,也可以通过预置的程序来联系起来。这些预置程序的参数可以通过机器在自身的学习过程中,根据“趋利避害”的原则进行自我调整。
在本发明申请中,机器监控内部信息和外部信息,并根据这些信息给需求符号赋予初始激活值。需求符号获得的激活值,和奖罚系统之间通过程序连接。奖罚系统根据需求值和合理区间之间的差异,产生不同的收益激活值和损失激活值。机器使用决策系统,根据“趋利避害”的原则做出决策,建立对输入信息的响应路径。
机器把需求和需求激活值、奖罚和奖罚激活值、情绪和情绪激活值,内部和外部信息,作为总的输入信息,作为记忆存入记忆库,作为后续决策系统的参考经验。机器在存储这些信息时,赋予给它们的初始记忆值和存储发生时它们的激活值正相关。
S4.1,建立机器维护自身运行状态的需求。
机器监控每一类自身内部运行状态参数,并使用符号来代表这类运行状态参数,并预置这些运行参数的合理区间。当机器发现这些需求符号偏离合理区间时,机器产生让这些需求符号回到合理区间的需求,需求的大小和这些参数偏离合理区间的程度相关。
S4.2建立机器的安全感需求。
安全感是机器对维护自身运行状态的需求能否满足的一种预测结果。如果机器预测自己能够很好的维护自身运行状态,那么就产生安全感。如果机器预测自己难以很好的维护自身运行状态,那么就产生不安全感。当机器处于不安全感时,机器的响应可能倾向于着手解决给自己带来不安全感的因素。从而表现出机器对安全感的需求。
机器的安全感可以使用一到多个符号来表示,每个符号可以表示一种类型的安全感。比如生理需求安全感,心里需求安全感等。
S4.3,机器情绪系统的实现方法。
在本发明申请中,机器的所有情绪都使用符号来表示。当这些符号被赋予激活值后,机器就出现相应的情绪。
在本发明申请中,机器的情绪和情绪的外显之间,是双层调控的。底层调控是本能情绪外显,是通过预置程序来实现情绪到情绪外显之间的映射。
但情绪外显还受到机器的决策系统的调控,这是情绪到情绪外显的上层调控。机器的情绪外显是机器根据决策系统,模仿过去的经验,来调整自己情绪外显状态(包括内部运行参数、姿态、动作和外显表情等),它们是机器对响应路径的具体执行的一部分。
S4.4,机器奖罚系统的实现方法。
机器的奖罚系统,主要包括内部奖罚系统和外部奖罚系统和预置奖罚信息系统。
机器的内部奖罚系统,是机器根据自身的运转状态的需求,来建立的奖罚系统。而机器维护自身运转状态的信息,是限定在机器自身运转状态的监控信息之中的,所以是一个有限范围的映射关系,这个关系的实现是公知知识就可以很容易实现的。
机器的外部奖罚信息系统,是机器通过学习获得的。首先,在本发明申请中,我们需要预置的一套基础符号来对机器传递我们的奖罚信息。通过这些基础符号,训练者可以和机器进行沟通,机器从训练者的反应,逐步学习到形形色色的奖罚信息。这些奖罚信息会成为关系网络的一部分,从而成为一种常识,通过学习来不断丰富,并通过链式联想激活,通过经验泛化来预见新情况下可能的奖罚信息。
上述建立外部奖罚信息系统的过程中,预置一套基础符号来对机器传递我们的奖罚信息,可以采用预置程序直接实现。这些符号是有限的,其实现是公知知识就可以很容易实现的。
机器的预置奖罚信息系统,是通过直接修改机器关系网络来建立,并通过学习不断完善的。这种信息主要包含那些类似于人类拥有的先天知识。
比如对危险的直觉。机器通过预置程序,建立对高处坠落很危险的先天知识,包括高度和危险的直觉。比如建立机器对失去重力感,对高加速运动的害怕等先天知识。再比如对打击的危险直觉。可以给机器预置被重击后会带来危险的奖罚信息。比如把承受过大的压力和危险符号之间建立连接关系。这种连接关系可以是在记忆中,把承受过大的压力和危险符号相邻存储,并赋予两种高记忆值。当机器根据经验预测到可能遭到过大的压力时(比如预测来袭物体的硬度高、质量大,预测其运动轨道可能会击中自己),这种预测会激活所有关于承受压力的记忆。
另外一类先天知识是关于美和秩序的先天直觉。人类关于美和秩序的先天偏好,其实是人类在进化过程中,建立的对大脑效率提升的一种方法。比如,人类通常喜欢对称、整洁、干净、层次化、有序化等信息。而对称显然可以带来识别的复用,提高大脑的效率。比如人类喜欢重叠排列的图案,这也明显是一种提升大脑效率的偏好。比如人类喜欢有序的东西,这是因为有序的东西,可以便于建立层次化的特征表达体系。这种体系显然有助于人类通过层次化快速识别和检索这些信息。
比如人类喜欢把东西整理成不同的类别,并认为这样有一种美感。这是一种建立层次化信息表征的需求。这种美感来自于人类对这种信息层次化的需求,这种需求满足后,会带来奖励和正面情绪,这是进化带给人类的礼物。
比如人类喜欢复杂的图案结构。但这种复杂的图案必须是可以抽象为一个整体,比如一种纹理,一种相似图案的重叠排列。这样就可以建立起层次化的信息。人类只需要少量高层信息特征表征和少量底层信息特征表征就可以表达整个图案。所以这也是一种大脑效率提升的方式。
另外一种提升大脑效率的方案,是输入的信息和预置的模型比较接近。比如预置的人脸模型、特定的曲线、特定的颜色,这些预置的模型是人类进化过程中建立的,比如孩子的脸蛋颜色和曲线,男人或者女人特定的曲线,这些和人类繁衍相关的信息在进化过程中成为了特定的模型,这些模型也被优先作为模式识别。
所以机器可以通过模仿人类大脑这种偏好,建立机器的“本能审美观”:当机器通过迭代识别,发现输入信息具有对称、重复或者良好的层次化表征时,机器采用预置程序来产生奖励信息和愉悦情绪。当机器发现和人类预置给自己的特征信息模型相似的信息时,产生特定情绪。比如特定形状的曲线、特定的信息模型产生特定的情绪等。
在机器有了“本能审美观”的基础上,机器通过在生活中学习,不断从获得的社会中其他个体的审美经验,把社会认可的“美”和具体的事物联系起来,最终丰富自己的审美观。
S5,建立通用机器智能。
S5.1,经验泛化的实现方法。
经验泛化对实现通用人工智能至关重要。经验泛化可以简单描述如下:机器通过降低概念X的分辨率,在记忆中寻找和它相似度最高的概念Y。降低概念的分辨率,也就是减少构成概念的组合特征,这就扩大了其包含的范围。如果X和Y存在相似的特征L,那么机器假设在自己的经验中,和相似特征L相关的经验可以用于X,也可以用于Y;如果机器在记忆中找不到和X相似的概念,机器就继续降低X的分辨率,来迭代进行上述过程。
经验泛化也是类比、隐喻和直觉思维的基础。经验泛化的应用对象不仅仅是动态特征,还可以是任何静态特征,或者它们组合后的过程特征。比如“深渊”给人带来的感觉,存在于人面对真实“深渊”时的感觉,相似的感觉也存在于人“面对无法摆脱的困境”时的感觉。机器在面对“深渊”时,通过自己的过去经验,也会得到难以离开的经验。或者机器直接从人类经验中通过学习获得这样的经验。表征深渊的特征,可能就是一个机器记忆中所有深渊的共有低分辨率特征和一个对象(比如质点)难以脱离其限制的低分辨率特征。与这种特征相似的特征很多,比如机器在“面对无法摆脱的困境”时,机器记忆中所有困境的低分辨率特征可能就和“深渊”的低分辨率特征相似,而且两者对“无法摆脱”的表征可能都是一个对象(比如质点)难以脱离其限制的动态特征。再比如“滑动”带来的感觉,“滑动”包含的动态特征,和主体“整体情况看上去没有变,但实际处境已经起了变化”等产生的低分辨率动态特征是类似的,所以正是通过这些低分辨率相似性特征,机器才能理解“他一步步滑向深渊”这样的信息中的隐喻含义。
在本发明申请中,经验泛化包括过程泛化和属性泛化。
过程泛化:机器以识别出来的过程概念为操作对象,采用链式联想激活去寻找和概念最相关的记忆。最相关记忆是指包含输入概念最多的记忆,或者总体激活值最高的记忆。机器模仿最相关记忆中概念的组合方式来组合概念。
如果机器找不到关于两个概念之间的组合方式,或者找到的两个概念之间的组合方式不满足决策时需要的奖罚值要求,机器降低这两个概念的分辨率,也就是扩大这两个概念的范围。一种可能的实施例就是去掉这两个概念中的一些低激活值特征,对剩下的特征再次重组,由于这两个概念包含的范围发生了改变,所以重组后的概念会发生变化,从具体的概念走向概括性的概念。比如机器如果没有“去麦当劳吃汉堡”的经验,但可以把“去麦当劳”降低分辨率为“去饭馆”,“吃汉堡”降低分辨率为“吃饭”,于是机器可以模仿自己关于“去饭馆吃饭”这两个概念的最相关记忆,把这个最相关记忆中的过程特征(存在于这一类过程中的共有特征,比如次序是先去饭馆。然后才是吃饭,需要确定路线,确定时间,确定没有支付问题),泛化到“去麦当劳吃汉堡”这个过程中。这就是过程泛化。而降低分辨率的一种实施方法,就是把“去麦当劳”所包含的特征去掉那些局部特征,去“吃汉堡”去掉那些局部特征,然后重组剩下的特征,就变成了“去饭馆”和“吃饭”这样的范围更大的概念。这些更大范围概念相关的经验就很多,其中一些经验就可以借用到目前需要处理的问题上。
机器能够在现有条件下模仿的信息被保留,用于后续直接模仿。而在现有条件下不能模仿的部分,需要通过分段模仿的方法,从其他相关经验中取出可以利用的片段,并重组成一个可以模仿的过程,从而构成机器的响应路径。
现有条件下不能模仿的部分,是指在现有条件下,缺乏模仿需要的物质或者信息;也指在现有条件下,即使能够模仿,但机器的决策系统认为不是收益最大化的选择,然后决策系统从其他相关经验中取出可以利用过的片段,并重组成另外一个可以实现收益最大化的过程。
属性泛化:由于机器在提取输入信息的特征时,采用的策略是整体特征优先(比如整体拓扑、整体轮廓、线条、纹理等),并且采用多分辨率、从整体到局部的提取方法。所以对同类事物、场景和过程,那些整体特征是相似的,这些特征能够在机器的生活中重复出现,并一次次被激活,所以关于整体特征的信息通常记忆值比较高。
另外,由于我们采用同时性存储方法和联想激活方法,所以同一事物、场景和过程的整体特征和局部特征天然就通过临近记忆和强记忆激活原则就联系起来了。所以机器在利用过去的经验时,采用的方法是逐层从整体到局部的方法利用经验。实现方法就是先利用高激活值经验,然后利用低激活值经验。
所以当机器在现有条件下,缺乏相关经验时,可以通过只使用部分高激活值,重组为在这一类事物、场景和过程中共有特征的组合方式作为框架(就是选用高激活值记忆特征),用于模仿过程。然后再寻找其他经验来解决目前的局部信息和框架之间的匹配问题。
而解决目前的局部信息和框架之间的匹配问题,思路就是寻找包含目前局部信息和框架局部信息之间的组合经验。机器有可能没有完全符合目前局部信息和框架局部信息之间的组合经验,但通过把目前局部信息和框架局部信息都去掉细节,采用它们更加抽象的属性时,则机器可能有这样的经验。然后机器把这样的经验作为组合两者的小框架,然后通过两者之间相似属性作为桥梁,认为和相似属性紧密连接的其他属性也是相似的。所以可以借用和相似属性相关的经验,来尝试解决问题。比如在麦当劳发现汉堡卖完了,只能吃鸡块。机器可能没有在麦当劳吃鸡块的经验。但机器可以把一个概念从汉堡降低分辨率为食物,另外一个概念也从鸡块降低分辨率到食物。那么机器降低这两个概念的分辨率后,找到这两个概念之间存在的相同特征(食物),并把和这个相同特征连接紧密的其他特征(可食用和食用方法)进行泛化。如果机器只有吃汉堡或者吃鸡块的经验,那么通过食物这个低分辨率桥梁,可以把两种之间和食物连接关系紧密的经验相互泛化。而连接关系紧密,只需要通过判断本次激活过程中,两个特征之间是否传递了超过预设阈值的激活值就可以了。在目前环境下,两个特征之间如果传递了较大的激活值,那么它们之间的关系就属于紧密关系。如果机器既没有吃汉堡,也没有吃鸡块的经验,那么两者都可以通过泛化吃食物的经验来操作。这就是属性泛化过程。
再比如机器有使用钉锤钉钉子的经验,但没有使用石头来钉钉子的经验。但两种共同的上层经验是:使用硬物敲打东西的经验。所有机器可以把使用钉锤钉钉子的经验,降低分辨率,变为使用硬物敲打硬物的经验。然后把这样的经验,应用到是使用石头来钉钉子的过程中,并预期可以得到和使用钉锤敲打钉子相似的结果。这就是通过低分辨率经验桥梁来泛化经验的过程。
而之所以机器能够完成这样的泛化能力,是因为按照本发明申请中提出的特征提取方法和关系网络建立方法,机器建立的使用钉锤钉钉子的经验是一个多层结构的经验:钉锤钉钉子的过程,因为钉锤、钉子和环境本身都是一个多分辨率塔型信息特征组合。
它们通过同时性存储和链式联想激活同步建立了连接关系,所以这种连接关系表现为:
顶层:首先是所有关于敲打这类过程中共有的动作特征。静态上是两个闭合拓扑,动态上是一个拓扑敲打另外一个拓扑。
敲打的动态特征由于存在于所有的敲打过程中,所以它们的记忆值很高,带来它们的激活值通常也较高。所以机器通过选取高激活值,选取整体特征,就可以把这些记忆选取出来。它们就是敲打经验的整体框架。
其次:那些普遍存在于敲打过程中的静态共有特征。比如敲打工具的近似大小、触觉、重量感、使用的力量感觉。这些经验是使用不同工具完成敲打动作的共有部分。所以它们的记忆值比较高,带来它们的激活值通常也较高。所以机器通过选取高激活值,就可以把这些记忆选取出来。它们也是敲打经验的整体框架的一部分。
再其次,是具体使用钉锤敲打物体的静态和动态特征,以及使用各种工具钉钉子的静态和动态特征。
所以机器虽然无法直接把钉锤钉钉子的经验,用到使用石头钉钉子的过程中。但由于钉锤和特定石头之间的共有特征:硬度相似、大小相似、使用的力量上感觉相似等。当机器激活了使用钉锤钉钉子的经验后,并在环境信息中没有输入钉锤,但输入有石头,所以钉锤和石头都会获得较高的激活值,机器在分段重组经验时,就可以通过两者作为敲打工具时的共有经验,把使用钉锤钉钉子的经验泛化到使用石头钉钉子的过程中。
过程泛化是两个过程组合成一个大的过程的方法。这是通过降低两个过程的分辨率(过程抽象),然后寻找包含这两个抽象过程的相关经验,并模仿这些经验把两个过程的部分属性组合起来。这个过程迭代进行,机器就能从多段过去的经验中,通过重组变成解决目前问题的经验。
属性泛化是机器对一个抽象的过程(比如过程泛化后组合的过程),通过模仿它其中一些属性和其他事物之间的组织方式,把目前的事物放入这个过程。而目前的事物和参考的经验中的事物可能并不完全相似,但它们存在部分相似(比如降低分辨率后相似,或者部分属性相似),所以机器可以认为和相似部分连接紧密的经验,对两者而言就是可以通用的。通过这样的方式,进行经验泛化。
在泛化过程中,需要确定降低分辨率的标准:降低到什么状态下才能实现经验泛化。一种具体的实现方法就是:对两个需要进行经验泛化的概念,先去掉它们各自的一些低激活值,或者时间、空间上属于局部信息的特征,然后把各自剩下的特征分别做链式联想激活,寻找两次链式联想激活中共有的被激活的概念(比如高激活值语言特征,或者高激活值图像、气味等特征),这就是可以在两者之间进行泛化的桥梁。两个概念中,和这个可以泛化的桥梁相关的经验,就可以彼此泛化。如果找不到共有的被激活的特征,那么上述过程再次迭代(去掉更多的特征,再次寻找共同特征),直到找到共同点为止。如果两个概念完全没有共同点,那么在链式激活过程中,它们就难以被同一个过程激活并都获得较高的激活值。所以两者的激活值能够达到彼此可以泛化的范围(没有被优先去除掉),它们之间一定是存在共有特征的。比如上述例子中的鸡块和汉堡、石头和钉锤。
S5.2,激活信息的分段重组的实现方法。
在特征信息输入后,在联想激活驱动下,由于高记忆值更加容易被激活,所以通常拥有高记忆值的低分辨率的特征通常更加容易被激活,这和人类识别事物首先是从整体特征来进行识别的方式类似。这些优先被激活的高记忆值特征通常是同类事物中的共有特征。它们所代表的激活记忆信息就构成了机器识别输入信息的基础模型。
机器识别输入信息的整个过程表现为机器通过把这些已经激活的概念中,激活值高的信息特征作为模型。机器使用这些模型,来分割输入的信息特征。并通过对比模型和输入,利用决策系统,来确定需要进一步识别的区间和需要采用的分辨率。机器通过反复迭代的方式来识别更多的输入信息。在这个过程中,先前被激活的记忆,其激活值会随时间消退。而那些被新信息所激活的记忆,其激活值会持续增加或者保持。这样机器就通过逐步增加的概念识别标准,逐步缩小激活值的“凸显”范围,从而实现被激活的概念从抽象走向具体的识别过程。
每个概念就相当于一个信息块。机器需要通过过程泛化,把这些信息块按照正确的次序重组起来。所以激活信息的分段重组过程就是不断使用过程泛化方法,把多个概念组合成一个大的过程。机器需要使用这个重组后的过程,去寻找过去相似的经验,来确定信息源的目的。然后结合自己的需求状态,再次利用过去包含了和自己目前需求状态相关的多段经验,利用过程泛化方法,再次组合成各种可能的响应路径。而在组合过程中,利用已有的奖罚机制,在被激活信息的范围内,寻找最优响应路径,这就是机器的决策过程。
另外一种可能的重组方法是:1,机器使用最高激活值信息作为拼图的起点。机器把和最高激活值信息连接紧密的较高激活值(比如给它传递激活值从大到小的前N个特征)作为一个可能的分组。
2,机器寻找包含这个分组内信息最多的记忆,作为最相关记忆。
3,机器模仿最相关记忆,使用过程泛化方法,把被激活的信息重组起来。
4,如果存在没有被重组的信息,这些信息作为后续其他重组过程的被激活信息。
5,机器回到步骤1,再次以剩下的最高激活值信息作为拼图的起点,重复上述过程。
在上述过程中,机器找到的这些最相关记忆,可能来自于不同时间,不同空间的记忆。它们需要按照一个合理的时间和空间次序组织起来,构成一个可以供机器模仿的过程。这个过程就是经验泛化之中的过程泛化。
在上述过程中,机器找到的经验,可能包含的事物、场景和过程,和目前的事物、场景和过程存在差异。但机器能够找到这样的经验,就说明两者存在相似性。这些相似性通常就是这类过程中的共有特征(包括静态或者动态特征)。机器选用高激活值信息作为这些共有特征,然后通过属性泛化,把已有事物、场景和过程中和相似属性连接关系紧密的经验借用过来,作为解决目前问题的尝试方案。
S5.3,建立自我意识。
机器在建立决策时,必须首先建立自我意识。因为奖罚信息是自我意识密切相关。这样机器才能通过趋利避害来选择合理的响应路径。
而机器的自我意识,包括两个方面。
一个方面是从机器自身的角度看,区分自我和他人,包括从自我身体,也包括从自我身体外延出来的自我财产,也包括从自我外延出来的抽象概念,比如所属团体、民族、国家、信仰等。
另外一个方面,是从社会的角度看,自我意识就是一种行为方式。它是机器通过关系网络和联想激活学习到各种认知后,按照“趋利避害”的方式来决定自己和外界互动的一种行为方式。从外界看,这样的行为就代表了机器具有自我意识。
机器通过预置的自己身体的模型,了解自己的组成部分。并通过全身的传感器传递的各种数据,逐步建立和自我身体各个组成部分相关的记忆。由于身体组成部分是相互关联,很多时候这些记忆是同步发生的,所以它们可能在记忆中被彼此激活。
机器采用激活记忆重组的方法,建立自我形象:机器除了使用目前关于自我的输入信息外,还需要融合目前输入信息激活的记忆中相关信息:比如视觉、听觉、触觉、嗅觉、味觉、感觉、重力感觉、肢体状态感觉、情绪和情绪状态、需求和需求状态等。机器需要采用(1)把这些信息中相似的部分重叠,用于构建三维形象。需要特别指出,三维形象包括动态过程。(2)使用关于自身记忆中的概念,比如过去自我评价概念或者他人赋予自己的概念,去掉那些低记忆值概念,保留高记忆值概念,并通过过程泛化或者属性泛化,把这些概念重组起来,构成自我评价。通过(1)、(2)步骤,机器组合而成的信息整体,就是机器建立的关于自身的形象。这个过程本质上就是利用多段关于自我的记忆,来重组一个整体信息块,包括静态特征和动态特征,包括具体概念和抽象概念。
比如,当我们的双手放在背后做动作,我们仿佛能看到这些动作。这就是因为我们发出神经指令、获得触觉感知,它们经常和手部相应的动作作为同时信息存储为记忆,并经过重复出现而变成了高记忆值记忆。它们激活了记忆中相似的神经指令连接的视觉,也激活了相似的本体姿态感知信息连接的视觉和触觉,也激活了相似的触觉感知信息连接的视觉,这些信息通过把相似部分重叠后,整合为我们的整体形象。我们在头脑中创建了一个自我镜像,我们仿佛能看到自我镜像的动作,也包括手部的动作。这个过程的本质就是激活信息重组过程。
有了狭义的“自我身体”概念后,机器通过在学习中,逐步获得各种“收益”和“损失”与“自我需求”之间的关系。所以在“趋利避害”的决策系统驱动下,机器的行为模式就可能是“占有”那些给自己带来“收益”的事物,而“躲避”那些给自己带来“损失”的事物,用于满足自己的安全感和支配权。这样,机器就会把“自我”延展到所有自己占有的和自己利益相关的事物,包括财产、血缘关系、社会归属、社会认同等方面。机器有了延展的“自我”概念后,就能把这些关系纳入奖罚系统。比如原来属于自己占有的、带来利益的东西,失去后就会产生“损失”,这种东西可以是财产、血缘关系、社会认同、支配权、繁衍权。机器有了延展的“自我”概念后,才会有广义的“占有”和“避免”这些概念。因为“占有”和“避免”这些概念是在收益最大化,损失最小化的原则的驱动下延伸出来的。有了“占有”和“避免”这些概念,机器就能理解我们这个社会的组织、法律、规则和道德。因为我们这个社会的组织形式的核心内容就是对“占有”和“避免”的各种形式的表述。
S5.4,同理心的建立方法。
机器建立同理心的具体过程为:同理心的实现,第一步是在推测出其他人或者其他机器可能拥有的信息。
首先,机器把特定其他人或者其他机器作为输入信息,并通过链式联想激活,寻找记忆中关于特定其他人或者其他机器相关的记忆。
其次,机器使用这些信息,通过激活信息重组,把这些信息变成合理的过程。然后,再次通过链式联想激活寻找与这些过程相关记忆,寻找那些自己处于类似过程中获得的信息。然后机器通过属性泛化,来推测特定对象在特定环境下可能获得的信息。
机器对特定对象可能拥有的信息,是基于机器自身经验的推测,所以可能存在偏差。
同理心的实现,第二步是在推测出其他人或者其他机器在拥有的信息的基础上,做出的决策。
首先,机器需要从关于其他人或者其他机器人的相关记忆中,建立分析对象(这里指其他人或者其他机器人)的需求系统和奖罚系统的参数模型。这个模型可能是机器在多次分析其他人或者其他机器人的过程中,建立的高记忆值共有特征组合。这些特性组合就是机器对其他人或者其他机器人的一种共有推测模型。比如其他人或者机器的一些共有需求,共有奖罚信息,共有决策倾向或者共有情绪倾向。
然后,机器调整初始激活值赋值系统、需求系统、奖罚系统、情绪系统、决策系统和执行系统中预置程序的相关参数,迭代使用上述过程,直到机器通过部分调整参数,或者加入更多参数,产生的虚拟需求、情绪和决策响应匹配分析对象实际响应决策为止。
机器把这些调整后的参数模型和同时性的其他输入信息一起存储下来,作为关于具体分析对象的行为和决策模型,并在后续涉及到具体分析对象时,作为相关记忆直接使用。需要特别指出,上述同理心的建立过程,不仅仅可以运用到其他人类、其他机器,也可以运用到任何其他智能体,比如动物智能。机器可以根据自己的知识,通过对一类的智能体的记忆重组后的过程中的共有特征,创建共有特征模型。这就类似于对输入信息做模型识别的过程中,先通过大量的共有特征来建立预测模型,这个预测模型范围是比较宽泛的。然后在加入更多的信息,通过这些信息来调整模型的范围,逐步走向具体的模型。在这里,机器在共有模型的基础上,通过加入更多的特征,通过对模型加入更多的参数,来创建对更小类别,或者直接对单个智能体的建模。同理心是共情的基础,也是机器对人类情感关系的泛化基础。
同理心的另外一种简单实现方法是:通过对机器的需求系统、奖罚系统和情绪系统做一些预置的设置,比如在奖罚系统中,建立损害他人利益时,也会给自己带来一定的损失;帮助他人获得利益时,也会给自己带来一定利益。在这些奖罚规则的约束下,机器在最大化利益的驱动下,就会平衡自己的利益和他人的利益。表现出一定的同理心。
S5.5,建立机器的决策倾向。
机器的决策倾向是赋予机器一些人类希望它们拥有的特征,也是赋予每个机器不同个性的方法。
个性包括不同的参数设置。比如链式激活过程中,发起激活的阈值比较低的机器,更加容易产生联想。而相似性对比中,要求的置信度低的机器,更加马马虎虎。而决策中,激活更广,借用经验更多的机器,可能思维灵活,个性幽默。而情绪不轻易外显的机器,显得非常严肃。所以机器不同的参数设置,会带来机器的不同个性。机器的个性,也包括机器的需求系统、情绪系统和奖罚系统之间的映射关系,也包括情绪系统对机器决策过程和执行过程的影响。为了更加拟人化,本发明申请中提出可以通过情绪系统来微调机器的初始激活值赋值系统,也可以微调机器的决策系统的参数(比如需要的置信度,或者对奖罚信息计算的收敛标准等),也可以微调机器调用底层驱动命令的参数。这些都是模仿机器在不同情绪下的对信息识别、决策产生和执行输出的差异化。这些目的是拟人化,并不是机器实现通用人工智能必须的部分。
机器的决策倾向,也包括赋予机器一些共有特质。比如好奇心。实现好奇心的方法是:对那些无法放入记忆重构过程的信息,或者对那些相关记忆很少的信息,或者那些未知的信息,机器的奖罚系统把进一步了解新信息作为一种提高安全感的行为,这个行为作为一种奖励行为。在这种奖励机制的驱动下,机器可能在决策时,会提高对这些信息的注意力,提高对它们进一步分析的概率。
通过这样的奖罚机制,机器在做出响应决策时,会表现出对新信息的好奇心。机器做出的响应决策还可能是:模仿过去识别新信息的经验,采用主动的方式和新信息互动,从而获得更多关于新信息的信息。更进一步,我们对信息的识别是分为不同层次的。从宏观层次而言,我们的生活就是一个对外界信息不断识别的过程,包括宇宙、自然和其中的规律。所以在好奇心的驱动下,机器在生活中,也会表现出类似于人类的探索精神。
S5.6,机器的决策过程。
机器的决策系统是机器建立对输入信息的响应路径的功能系统。
通过输入信息的链式激活过程,产生了和输入信息存在关系的被激活记忆信息。而机器的决策系统,则是在限定范围内(被激活的信息,通过重组后建立的事物、场景和过程),通过奖罚机制(就是通过过去的经验,对每个事物、场景和过程中包含的收益值和损失值的预测),寻找最优路径问题。机器可以使用目前已有的任何方法,包括但不限于贝叶斯推理,决策树,知识规则,马尔科夫链,强化学习等方法。在有了常识,有了奖罚信息,有了限定范围,寻找最优响应路径就是寻找收益最大化,损失最小化的路径,这些是目前业界已经解决了的问题。本发明申请的主要创新点是如何建立常识,如何建立奖惩信息,如何建立需求、奖罚和情绪系统,如何建立机器的自我意识,如何建立机器的同理心和社会性,机器如何创建新知识,使得机器更像人类。
机器依据过去的经验,来推动事情的发展方向“趋利避害”。机器首先建立初略的框架信息,然后逐步细化框架信息。在这个过程中,不断根据奖罚信息调整自己的决策路径。每一个加入到响应路径中的细节步骤,目的都是:不断提高收益值高的事件发生的概率,不断降低损失值高的事件发生概率。这是一个迭代的逐层细化过程,每一个步骤(响应路径上的子目标)又需要采用多个更加具体的步骤来实现。但每一步都是处理的方式都是一样的。
S5.7,决策的执行过程。
机器的执行过程,本质上是一个分段模仿过程。机器是把过去的多段经验,通过重组,形成解决目前问题的初步方案。这是经验泛化中的过程泛化。然后,机器把过去经验中关于具体事物、场景和过程的经验,通过属性泛化使用到目前的具体事物、场景和过程上。有了框架经验和具体事物、场景和过程的相关经验,机器就可以模仿这些重组过程来执行响应。
上述过程是迭代进行,不断细化的过程。机器执行过程也是一边模仿整个框架过程,一边根据实际情况,利用经验来建立响应路径上的子目标。在实现子目标的过程中,是迭代采用同样的方法来进一步细化到更多的子目标和执行环节。一直要细化到机器可以直接执行的底层驱动命令,比如发出语音或者驱动关节。
需要特别指出,机器从外界信息输入和完成响应的过程,并非是串联进行的,而是多个过程交织进行的。机器在一个输入、决策和响应过程中,可能出现其他的输入、决策和响应过程。机器需要把所有过程的输入信息、决策目标和响应路径汇总为总的输入信息、总的决策目标和总的响应路径来考虑。而这些总的输入信息、总的决策目标和总的响应路径是根据输入信息的变化而随时调整的。所以机器的信息提取、决策和响应执行过程是持续工作的。
S5.8,创建新知识。
知识就是使用符号来表达信息之间的连接关系。机器发现新知识的过程,包括两个步骤。首先,机器发现信息之间的连接关系。其次,机器模仿已有连接和知识之间的表达方式,比如采用方程和符号,或者采用列表和规则等,来创建连接关系和知识表达之间的映射。如果这种知识表达是人类没有的,这就是新知识。
由于机器可以拥有在广度和深度上远超人类感知,远超人类的知识容量,远超人类的运算速率,远超人类的彼此之间协同的能力,机器可以轻易的发现人类没有发现的连接关系,并通过模仿连接关系到知识表达的方式,轻易创建出大量的知识。
附图说明
图1本发明为实现类人通用人工智能的基本功能框图。
图2是一种基础特征的建立方法示意图。
图3是一种机器激活信息重组过程示意图。
具体实施方式
下面结合附图对本发明申请作进一步的阐述。应该理解,本申请文本主要是提出了实现通用人工智能的主要步骤和步骤之间的相互关系。这些主要步骤中,每一个具体步骤都可以采用目前公知结构和技术来实现。所以本申请文本的重点在于揭示这些步骤和步骤之间的相互关系,而不是局限于采用已知技术来实现每个步骤的细节上。所以这些实施例描述只是示例性的,而并非要限制本申请文本的范围。在以下说明中,为了避免不必要地混淆本申请文本的重点,我们省略了对公知结构和技术的描述。本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请文本保护的范围。
S1.1,基础特征选取实现方法。
机器的输入信息包括各类传感器输入信息,包括但不限于:听觉、视觉、触觉、嗅觉、温度、重力方向、肢体状态、关节张力等,也包括自身的需求数据,包括但不限于:比如电量需求值、自身冷暖需求值、自身安全感需求值等。这些输入信息的类型和数量的多少,并影响本发明申请所提出的方法的实施。因为在本发明申请中,我们对数据的处理方法,并不区分数据的类型和数据的多少。
机器对输入信息提取特征的方法,可以描述为:首先通过感知算法提取数据中基础特征。提取方法是优先从拓扑、整体特征开始提取,再提取局部特征。对局部特征的提取也是优先从拓扑、整体特征开始提取,再进一步提取局部特征。上述方法迭代进行。
然后使用认知的方法把基础特征和概念之间建立联系,这个联系是通过关系网络和链式联想激活过程来实现的。
在有了概念的基础上,机器通过决策系统,产生注意力,然后按照注意力的次序,按照预测模型的指引,来提取输入信息中的基础特征。机器上述对输入信息提取特征的过程,是迭代进行的。
一个可能的实施例如下:前提步骤:需要选出哪些数据可以作为局部共有基础特征。
一种选取方法是:我们提出了如图2所示的基础特征选取方法。S201是通过滤波器把训练数据分成多个输入通道。对于图像,这些通道包括针对图形的轮廓、纹理、色调、动态模式等方面做特定的滤波。对于语音,这些通道包括对音频组成、音调变化(一种动态模式)等语音识别方面做滤波。对于其他数据,采用类似的方式。这些预处理方式可以采用目前行业内已有的图像、语音和其他数据预处理方法,比如卷积神经网络、时频域变化和滤波等,它们不在本发明申请的权利要求范围之内,这里不再赘述。
S202是对每个通道内数据,使用特定的分辨率窗口,来寻找局部相似性。这一步是对每一个通道的数据,在数据窗口中寻找共有的局部特征,而忽略整体信息。在S202步骤中,机器首先是使用一个局部窗口W1,通过移动W1来寻找窗口内的数据中普遍存在的局部特征。
这里需要指出,不同分辨率的窗口可以是时间窗口或者空间窗口,或者两者混合使用。在对比窗口内的数据相似性时,是使用相似性对比算法。在对比相似性时,还需要考虑经过旋转和缩放后的相似性对比。尽管这些算法需要通过实践来优选,但这些算法本身是非常成熟的算法,本行业专业人员基于公知知识就可以实现。
机器把找到的局部相似特征放入临时记忆库中。每新放入一个局部特征,就赋予其初始记忆值。每发现一个已有的局部特征,就对临时记忆库中的局部特征(基础特征)的记忆值按照记忆曲线增加。临时记忆库中的信息都遵守临时记忆库的记忆和遗忘机制。那些在临时记忆库中存活下来的基础特征,达到进入长期记忆库阈值后,就可以放入基础特征库中,作为选出的局部共有基础特征。S203是逐次使用局部窗口W2,W3,…,Wn,其中W1
在S204中,是机器建立的一种基础特征提取算法模型A。这种算法模型就是寻找局部相似性中的算法:对比相似性算法。在S205中,是另外一种提取基础特征的算法模型B。它是基于多层神经网络的算法模型。这种模型训练好后,比相似度算法的计算效率要高。
在S205中,机器采用选出的信息特征,作为可能的输出来训练多层神经网络。由于最底层的信息特征并不是很多,比如图像中,主要就是点、线、面、梯度、曲率等最本质特征,然后才是这些特征组合而成的图像特征。所以我们可以采用逐层训练方法。在S205中,机器首先使用局部窗口W1来选取数据区间,使用区间内的数据来训练神经网络。神经网络的输出选用和W1窗口分辨率相近分辨率下选出的信息特征。
在S206中,机器再逐次使用局部窗口W2,W3,…,Wn,其中W1
需要指出,上述方法可以对图像、语音处理,也可以对任何其他传感器的信息采用类似的方法处理。还需要指出,选用不同的分辨率就是选用不同的窗口,选用不同的特征提取算法。所以提取的特征大小也是不一样的。有些基础特征可能和整个图像一样大。这样的基础特征通常是一些图像的背景特征图或者特定的场景特征图。
动态特征的提取,是把空间分辨率窗口中的事物作为一个整体,来提取其运动轨迹的相似性。当确定了运动轨迹后,可以把这些轨迹作为静态数据来看。所以对运动特征的选取和对运动特征的提取算法,和静态数据是类似的。而变化速率是一个通过时间分辨率(时间窗口)来提取的运动特征,它是按照时间来对整个过程取样,通过对比不同取样之间的运动轨迹的相似性差异来确定变化率的。所以运动特征有两个分辨率,一个是空间,我们使用空间取样窗口,把窗口内数据作为一个质点来实现。一个是时间,我们通过时间窗口取样,通过这些取样中的运动轨迹的变化情况来确定运动的变化速率。
所以,通过上述方法,机器使用训练数据,或者在生活中逐步起建立包含共有基础特征的长期记忆,就完成了局部共有基础特征的选取过程。
另外一种选取方法是:本发明申请认为,对图像而言,局部共有特征就是指那些普遍存在于图形中的局部相似图形,包括但不限于点、线、面、梯度和曲率等最基础特征,然后是这些最基础特征组合而成的局部边缘、局部曲率、纹理、色调、脊、顶点、角度、平行、相交、大小、动态变化模式等普遍存在于图形中的局部特征。对语音就是相似的音节、音色、音调和它们的动态变化模式。
其他传感器数据也可以采用类似的方法优先选出最基础的特征,然后在数据中选取广泛存在的最基础特征的组合。
所以机器可以直接把这些选取的基础特征作为识别分类,采用目前任何已有的特征提取方法(比如卷积、线性变换和滤波、数据降采样等方法),在输入数据中提取基础特征。提取的方式依然是:同一数据需要使用不同的分辨率和区间同步提取。所以输入信息的基础特征组合是分层次的。它们是由低分辨率整体特征和高分辨率局部特征组合构成的。
S1.2,分层表征实现方法。
分层表征的实现,采用如下方法:首先,对输入信息做信息压缩通道处理。这一步可以优选目前已有的信息压缩方法,比如卷积、基底变换和滤波、降采样等方法。对压缩后的信息,重点是提取其中的整体拓扑、整体轮廓、整体性线条和纹理等基础特征。
其次,按照决策系统给出的注意力机制,对所注意的区间,再次使用信息压缩通道处理。同样可以优选目前已有的信息压缩方法,同样优先提取注意力区间内的整体拓扑、整体轮廓、整体性线条和纹理等基础特征。
然后,机器再次按照决策系统给出的注意力机制,对所注意的区间,再次使用信息压缩通道处理。同样可以优选目前已有的信息压缩方法,同样再次优先提取注意力区间内的整体拓扑、整体轮廓、整体性线条和纹理等基础特征。
上述过程迭代进行,提取的信息按照同时性信息存储方法,存储为记忆。通过上述过程,就可以实现对同一个输入信息,使用不同分辨率,使用不同层级机构特征来表达。这就是分层表征的实现。
S1.3,模式识别的实现方法。
机器在提取输入信息的分层表征特征过程中,每完成一次注意力区间的提取后,机器获得新的信息特征。
机器把新的信息特征通过链式联想激活过程,寻找与之相关的记忆。机器按照激活信息重组的方法,把被激活的信息重组成信息块。这些信息块就是被激活的概念。
一种可能的具体实施例是:机器以激活值最高的特征为起点,把和这个最高激活值连接紧密(激活值传递系数大)的被激活信息作为一个分组。
这个分组中,有些信息已经出现在输入中并被识别,有些还没有被确认输入中是否存在。机器通过决策系统,参考记忆中已经出现的特征和没有出现的特征之间的空间或者时间关系,以目前已经出现特征的时间和空间位置为基准,预测这些还没有出现的信息,可能出现的时间或者空间位置。然后机器优先把注意力机制转到这些预测信息上,进一步确认信息。注意力转移也是采用模型中高激活值特征优先原则。
由于记忆中,那些记忆值高的记忆,是同类事物、场景和过程中共有特征,因为能够重复出现而一次次被激活,从而获得高记忆值。所以这些记忆就是能够表征这一类事物、场景和过程的模型。这个模型包含的信息范围是开放的。当机器以较高的激活值标准来确定这个模型的范围时,这时使用的判断标准少,包含的范围就大。机器通过一次次注意力机制,获取更多的特征加入到模型识别中。在这个过程中,模型包含的范围随激活值的分布变化而变化,迭代次数越多,使用到的特征就越多,和所有使用的特征都相关的特征(比如这个模型的语言),被一次次通过不同的特征路径传递激活值,其激活值越来越高。而最高的激活值也从范围广泛的特征(比如范围广泛的语言特征)逐步转移到包含了注意力机制识别的所有特征重建的模型(比如范围限定的语言)。举例说明:比如一开始识别出来的概念是“一个物体”,然后转移到“圆形物体”,然后转移到“特定大小的圆形物体”,然后转移到“有苹果纹理和苹果大小的近似圆形物体”,然后转移到“苹果”这个概念的语言特征上。
上述过程迭代进行。当机器经过迭代识别,决策系统确认了输入信息后。如果机器的决策系统决定继续识别信息,则机器继续把还没有使用过的被激活信息,同样按照上述方法,进行预测和迭代识别。
上述过程迭代进行。直到机器认为目前已经完成的信息识别,已经足够完成决策。机器的决策系统做出的响应不再是识别信息。
S1.4,置信度浮动方法的实现。
机器在迭代使用模式识别的过程中,随时可能因为认为已经达到一个模型识别的置信度,决策系统认为不需要进一步识别时,本次迭代识别就可以结束。机器可能进一步识别其他信息,或者做出对输入信息的响应。
机器对模型识别的置信度,来自于机器的决策系统。决策系统是机器通过预测自己的收益和损失情况,并按照趋利避害的原则进行的。
机器在对模型识别过程中,可能因为识别出来的新信息,而改变了预测的模型。比如围绕某组高激活值特征而做出的预测模型,可能在新识别出来的信息后,新信息带来的高激活值转移,使得其他信息组合的激活值更高,机器就可能认为目前已经出现的这些高激活值特征应该属于新的高激活值信息组合所代表的模型。
对给自己带来的收益和损失不一样的模型,机器对它们的识别置信度要求也不相同。比如,对那些和收益损失关系不大的信息,机器采用较低的置信度,识别时采用的迭代次数少,表现的不感兴趣。而对那些带来较大收益和损失的信息,则需要的置信度高,表现为注意力高。需要特别指出,识别置信度不是指机器要确认某些信息是否属于某个概念,而是指目前信息相关的收益和损失预测,是否达到了做出决策的标准。如果达到了做出决策的标准,就满足了置信度,而不再需要进一步去识别信息。
所以机器在识别过程中,对信息的识别的置信度要求是浮动的。带来奖罚信息高的信息,按照预置程序,需要的置信度也高。一种可能的具体实施方法就是:机器通过确认带来奖罚值的预期模型A(模型A就是机器通过激活信息重组建立的事物、场景或者过程)发生的概率P,和预期模型A带来的奖罚值V,按照R=f(P,V)来确认奖罚信息,其中R是预期模型A的奖罚信息,f是统计函数,比如f采用乘法时,R=P*V。一种可能的标准就是预置V的上下限标准VH和VL,R的上下限标准RH和RL。这两个标准把奖罚值和发生概率分为3个区间,分别为高、中和低。如果V为高,R为高,机器认为达到置信度。如果V为高,R为中,机器则认为需要再次确认。如果V为高,R为低,机器根据自己的个性或者情绪设置,可以认为达到置信度,也可以选择再次识别。如果V为中,R为高,机器认为达到置信度。如果V为中,R为中,机器则认为需要再次确认。如果V为中,R为低,机器认为达到置信度。如果V为低,R为高,机器认为达到置信度。如果V为低,R为中,机器根据自己的个性或者情绪设置,可以认为达到置信度,也可以选择再次识别。如果V为低,R为低,机器认为达到置信度。这样做的目的,就是让机器尽量节省计算能力,只进一步识别那些和自己需求密切相关的信息,并且不是很确定的信息。当然,上述实施方法只是一个简单的示例,任何可以实现类似目的的方法,都可以应用于本发明申请中。
S2,机器对信息特征做存储,实现方法:S2.1,同时性保存方法。
方法1:机器按照时间轴来存储信息。每当发生需要存储的事件时,机器把此时刻获得的全部输入存入数据库。这些信息作为一次同时输入信息。
机器存储记忆的次序就是时间流逝的次序。最终形成一个用时间轴串起的同时性记忆串,串上的每一个切片就是一次存储时刻发生的信息。
方法2:机器按照时间轴来存储信息。每当输入信息和目前存储的信息发生了超过预设阈值的改变(记忆的事件驱动机制),机器只存储发生了改变的信息。
方法3:机器存储信息时,可以把不同类型的信息存储到不同的记忆空间中去。但机器在存储信息的同时,也存储信息发生的时间信息。每个信息和自己的存储时间信息作为伴随信息。这样,机器就可以通过读取每个信息的伴随时间信息,得到存储信息在时间上是相邻的信息。
方法4:机器可以建立一套物理存储空间和逻辑存储空间的映射关系,把实际的物理存储空间映射为便于存储和组织的逻辑存储空间。机器使用逻辑存储空间的相邻关系,按照方法1、方法2或者方法3来存储信息。
方法5:机器使用编码来代替实际的信息。每个编码包含了对应信息被存储的位置信息。而机器通过存储编码的方式,比如相邻存储的编码代表了时间上也相邻。
进一步,编码还可以包含信息所属的大类别和多个下层子类别。这样机器通过编码的位置可以找到临近记忆,还可以通过编码本身来找到相似信息。
使用编码代表实际的特征信息,好处在于可以把相似的特征放在一起,便于降低搜索相似特征的计算时间。而编码本身可以采用统一的格式,便于表达相邻或者相似关系。
当然,任何可以在数据库中表达出信息之间的同时性关系的存储方式都可以用于本发明专利所揭示的方法中。
S2.2,建立记忆值。
在本发明申请所提出的存储方法中,需要有一种数据来表达信息的记忆强度。在本发明申请中,我们称这种数据为记忆值。每个信息都有自己的记忆值,记忆值可以随信息做伴随存储,也可以单独存储,但必须要有一种方法来表达信息和它对应的记忆值之间的连接关系。
一种可能的实施例:采用数字来表示记忆值,记忆值和信息一起存储,作为信息的一部分(伴随存储)。
另外一种可能的实施例:采用符号来表示记忆值,符号的多少代表记忆值的大小。比如符号越多,表示记忆值越高。
另外一种可能的实施例:在不同的记忆库中采用不同的记忆值表达方法。比如在临时记忆库中采用数字来表达记忆值,而在长期记忆库中采用符号来表达记忆值。或者反过来。
需要指出,任何可以表达出记忆和遗忘机制的数据,都可以作为记忆值。
在本发明申请中,输入的信息包括所有传感器信息(包括机器的内部状态监控信息),还包括机器的需求信息和机器的奖罚信息。需求信息和奖罚信息作为一种内部输入信息,和其他信息一样存储和激活,它们是关系网络的一部分。
存储发生时,被存储信息获得的初始记忆值,和该信息获得的激活值正相关。
S2.3,记忆和遗忘机制的实现方法。
在本发明申请中,记忆和遗忘机制是指记忆值随被激活的次数增加而增加,随时间增加而递减。
具体的增加方式可以采用一个函数来表示,这个函数就是记忆函数。具体的减小方式可以采用一个函数来表示,这个函数就是遗忘函数。需要指出,对不同记忆库中的记忆可以采取不同的记忆函数和遗忘函数。
一种可能的实施例是:机器采用艾宾浩斯遗忘曲线来作为机器的记忆和遗忘曲线,使得机器表现的更像人类。记忆值的遗忘速率按照艾宾浩斯遗忘曲线递减。
记忆值也按照艾宾浩斯遗忘曲线的规律来增加,增加的幅度和重复的次数,以及重复发生在遗忘曲线上的时间点相关。
另外一种可能的实施例是:机器采用F0(t)曲线作为临时记忆的遗忘曲线,采用F1(t)曲线作为长期记忆的遗忘曲线。其中F0是记忆值,而t是遗忘时间。F0(t)函数值一开始随t增加而快速下降,随后随t增加而下降速率变慢。而F1(t)和F0(t)相似,但有更慢的下降曲线。F1(t)和F0(t)需要在通过实践中优选。但它们的约束条件是:都是随t增加而下降的单调递减函数。
当信息在被遗忘之前再次被激活,新存储的记忆所获得的记忆值和其获得的激活值成正相关。原有记忆,其记忆值的增加值,也和原有信息获得的激活值正相关。所以新存储的记忆和原有存储的记忆,都需要更新记忆值。
记忆和遗忘曲线需要通过实践来优选。本发明申请所揭示的方法,可以采用不同的记忆和遗忘曲线。这些记忆和遗忘曲线,只需要满足:记忆值随时间而遗忘,而记忆值随重复被激活而增加的就可以。
需要特别指出,记忆和遗忘机制,并不是指需要把信息实际遗忘,而是值指信息的记忆值变化。而记忆值变化带来的不同信息之间的连接强度变化,而连接强度不同带来了激活值传递的不同,激活值传递的不同,反映了机器对信息之间常识的利用。
S2.4,对存储数据的筛选的实现方法。
对记忆存储筛选的目的:机器在面对大量的输入信息时,那些已经习以为常的事物、场景和过程,或者远离关注点的事物、场景和过程,机器对它们缺乏深入分析的动机,所以机器可能不去识别这些数据,或者赋予给它们的激活值很低。机器在按照事件驱动的方式把信息存入临时记忆库时,机器对每个信息特征赋予的记忆值和其存储发生时的激活值正相关。那些记忆值低的记忆有可能很快就从临时记忆库中被忘记,而不会进入长期记忆库。这样我们只需要把那些我们关注的信息放入长期记忆库,而不用把每天琐碎的、不需要再提取连接关系的事物都记忆下来。另外,因为临时记忆库容量有限制,所以临时记忆库也会因为堆栈容量接近饱和而被动加快遗忘速度。
一种可能的实现方法:当机器得到传感器信息输入时,机器首先对比目前时刻和上一个时刻之间的数据差异,如果两者的差异没有达到预设标准(比如0.1%,或者其他类型标准,需要根据实践来优选),那么机器就不会分析和存储传感器输入的数据。而对比差异的方法,可以采用信息特征之间相似性对比的方法。
如果对比中出现差异,机器通过决策系统中预置的好奇心偏好,会立刻把注意力转移到出现差异的局部,进入数据分析、激活、决策和存储的流程。这就是机器的事件驱动存储机制。
需要指出,输入信息的差异,包括机器自身的需求变化、情绪变化和奖罚信息变化。当机器自身的需求变化、情绪变化和奖罚信息发生了变化,机器同样需要进入数据分析、激活、决策和存储的流程。
机器存储的记忆,首先是存入临时记忆库。临时记忆库模仿人类的短时记忆,有快速记忆和快速遗忘的特征。机器可以有一到多个临时记忆库,它们可以有不同的记忆和遗忘曲线,但都是快速记忆和快速遗忘。
临时记忆库中的记忆,获得的初始记忆值和其被存储时的激活值正相关。所以那些在机器的迭代识别过程中,没有获得机器的注意力关注(那些对机器自身影响很小的信息,机器缺乏对其深入分析的动机),没有在迭代过程中多次被赋予初始激活值的信息组合,其最终获得的激活值较低,其最终获得的记忆值也较低,它们很快就被忘记,而无法成为长期记忆。
在记忆库中,机器可以建立遗忘标准,比如记忆值低于预设的阈值时,机器就可以将记忆删除。在不同类型的记忆库中,这个标准可以有差异。这需要根据实践来优选。这将大大节省机器的记忆空间需求,并建立更加有效的关系网络。
本发明申请中,我们也可以采用有限容量的堆栈来限制临时记忆库容量的大小,这是模仿人类短时记忆存在容量限制的现象。一种具体实现方法可以是:当新的临时记忆进入后,并且临时记忆库容量满了后,机器将删除临时记忆库中记忆值最低的记忆,即使这些记忆的记忆值还处于删除标准之上。另外一种具体实现方法可以是:临时记忆库并不是单独的数据库,而是指那些没有被标记为长期记忆的特征的集合。这个集合是有限的。当新的临时记忆进入后,并且临时记忆集合容量满了后,机器将删除临时记忆集合中记忆值最低的记忆,即使这些记忆的记忆值还处于删除标准之上。
S3,机器建立知识表征体系:S3.1,联想激活的实现方法。
机器按照注意力机制,通过预置初始激活值赋值程序,给提取到的输入特征赋予初始激活值。被赋予初始激活值的特征,会按照链式联想激活方法发起激活过程。两个特征之间的激活值Va=tf(Aorg,Morg,Mt,L,P)。其中,Va是被传递的激活值,Morg和Mt是激活源和激活目标的记忆值,L是两个信息之间的信息距离,P是两个特征之间的相似度。tf函数需要通过实践来优选。激活值传递系数和相似度成正相关、和存储距离成反相关和两端记忆值成正相关。
“临近激活”的实现方法:被记忆的信息,它们的时间距离是指它们被记录的时间差。需要注意同时存储的记忆,由于注意力的原因,它们也存在存储时间上的差异。
使用三维立体坐标点位置来代表不同特征信息在记忆空间中的位置,并使用空间距离(激活源和接收特征之间的空间距离)来计算衰减量。衰减率和时间距离之间的关系函数需要通过实践优选。
需要指出同一个事物可能会激活多种分辨率上的不同特征。这些特征会发起各自的临近激活过程。被激活的特征,按照随时间距离而衰减的方式,激活周边特征。
一种实现方法是采用一个顶层激活值赋值模块,由它直接赋予每个临近特征的对应的激活值,从而实现临近激活值的传递过程。另外一种实现方法是激活源只激活相邻记忆。这个过程链式进行,依次传递激活值,这样激活值就像波动一样,从激活源逐渐传播开。在传播的过程中,每一次相邻传递的传递系数都小于1,所以随传播距离增加,激活值不断衰减。
“相似激活”的实现方法:被赋予初始激活值的特征,通过搜索和对比相似度的方法,激活记忆中与它相似的记忆。
一种搜索方法是直接对比同类特征,确定相似度。激活值传递系数T和相似度正相关,和接收端的记忆值正相关。
另外一种搜索方法是首先使用编码信息,根据编码信息中包含的实际信息的存储区间,去调用实际信息。如果编码信息中包含了信息的类别或者特征类别的话,机器可以根据编码信息确定搜索的记忆空间,从而快速确定相似记忆。
相似激活需要考虑输入特征和记忆中特征的进行旋转、缩放等不同角度变换后的比较。在比较过程中,机器会优先比较记忆中相似角度和大小的特征,然后寻找经过旋转、缩放等不同角度后相似的特征。在比较过程中,机器需要对记忆中的特征进行旋转、缩放等操作,尽可能按照最大相似性和输入的信息叠放,来比较两者的异同,并使用记忆中被激活的特征来对输入信息做分割处理。
显然,要实现这样的叠放,必须有全局坐标和局域坐标。局部坐标是具体物体的惯用坐标,是一种存在于记忆中的常用局域坐标,通常沿物体的边沿或者中心建立。而全局坐标则通常是沿自己所处的地平线、重力方向和景深来建立的。因为这是人类最习惯,也是机器最熟悉的坐标体系。
因为重力感应是一种持续输入的传感器信息,它存在于所有记忆之中。它和记忆中的所有事物都有连接关系,并且这些关系由记忆和遗忘机制来优化。这些图像和重力感应之间的方向关系是广泛的存在于这些记忆中,所以我们会对上下颠倒非常敏感,而对左右颠倒却没有那么敏感。这是因为上下颠倒导致我们脱离了熟悉的特征图和重力方向之间的组合关系。所以我们在使用提取的特征图叠放到输入数据中并建立环境空间时,一个默认的参考坐标系就是重力方向。而上下颠倒时,脱离了记忆中的叠放方式,使得物体的局域坐标系和整个大的坐标系在借用过去经验来放置时,出现了不匹配的问题。这使得我们不得不提高注意力进行迭代识别,并可能通过扩大记忆搜索范围,或者通过角度旋转来找到对应的特征图,这要求我们付出更多的注意力,这就是我们对上下颠倒如此敏感的原因。
“强记忆激活”的实现方法:在临近激活或者相似激活过程中,激活值传递的大小和激活源以及被激活信息的记忆值相关。
激活值传递系数的一种实施例可以是:在相似性激活和临近激活过程中,激活值传递系数和相似度成正比,和距离的平方成反比,和接收端记忆值成正比。再比如另外一种实施例可以是:在相似性激活和临近激活过程中,激活值传递系数和相似度的平方成正比,和距离的平方成反比,和接收端记忆值的对数成正比。所以激活值传递函数需要通过实践来优选,它们只涉及到公知的基础数学计算,这里不再赘述。
S3.2,链式激活的实现方法。
一种可能的链式激活实现方法:当某个节点(i)被赋予一定的激活值,如果这个值大于自己的预设激活阈值Va(i),那么节点(i)将被激活。它会把激活值传递到和它有连接关系的其他特征节点上。如果某个节点收到传过来的激活值,并累计上自己的初始激活值后,总激活值大于自己节点的预设激活阈值,那么自己也被激活,也会向和自己有连接关系的其他特征图传递激活值。这个激活过程链式传递下去,直到没有新的激活发生,整个激活值传递过程停止,这个过程称为一次链式激活过程。
一种实施例可以是:机器采用一个专门的激活值赋值模块。机器通过分析记忆中信息的相似关系、临近关系和记忆值,直接给每个相关的记忆中信息赋予激活值。其激活值分布表现出按照链式联想激活过程得到的激活值分布。这是一种采用专门的模块(可以硬件实现,也可以是专用软件模块)来直接赋值的方式。
一种实施例可以是:机器把激活值赋值功能放在记忆存储模块中。机器的临近赋值是记忆模块按照临近关系依次激活,并传播激活值,并在传播中采用强记忆激活方式。机器的相似性激活是机器通过调用搜索模块(可以是集成在记忆中的专用模块,也可以是整机的搜索功能模块),找到相似的信息来实现。并且通过迭代使用上述流程来实现链式激活。
需要指出,链式激活是一个非线性激活值传递过程。由于存在激活阈值,即使激活值传递系数是线性的,总的传递过程依然是非线性的。最终的激活值分布和激活次序相关。而激活次序的选择,可以依照一些预设的规则,比如按照时间次序,先完成整体特征的链式激活。也可以多个链式激活同步进行,在每一轮激活值传递过程中,按照传递激活值的大小来排优先次序。当然,还可以把两者混合实施,或者采用其他的规则。这些规则可以认为只机器思维个性的一部分,它们不影响机器的智能实现过程。
S3.3,关系网络的实现方法。
关系网络的组成,是记忆库中的信息和它们的记忆值,通过链式联想激活过程自动建立的,所以在本发明申请中,不需要特别的步骤去实现关系网络。
S3.4,概念的实现方法。
概念本身是一个开放的局部网络。它们是关系网络中连接比较紧密的部分。所以概念不需要特别的步骤去实现。
由于人类后天使用语言非常频繁,所以通常在一个概念中,语言的激活次数有可能是最多的,语言的记忆值也是最高的。同时由于语言通常和一个概念的所有属性相连接,所以它是各个属性之间相互激活的桥梁。从而成为这个概念最频繁的入口,也就是这个概念最常用的代表性信息特征。所以表现得好像语言是我们概念中心。
S3.5,概念的开放和迭代识别实现方法。
概念的开放和迭代识别属于机器对信息识别的方法。概念的开放和迭代识别,属于机器迭代运用激活信息重组过程和注意力机制来识别输入信息,或者识别记忆中被激活的信息。而通过概念的开放和迭代识别,机器使用概念来对激活信息分组,组成信息块。这些信息块可以包含一到多个概念。然后机器使用经验泛化中的过程泛化来组织这些信息块的时间和空间次序,把它们组织成一个或者多个过程。然后机器使用经验泛化过程中的属性泛化,把更多的信息加入到这个过程中。这些更多的信息是机器目前面对的信息。然后构成的过程就是机器的可能的响应路径中的一部分。然后机器是通过重组后的过程去做链式联想激活,来激活过去类似过程中的奖罚信息V,并根据这个过程在不同的先验条件下发生的概率,和目前已经确认的先验条件,来估计这个过程在目前发生的概率P。有了发生概率P和对应奖罚值V,机器可以获得总的奖罚值R=f(P,V),其中f为奖罚信息统计函数。机器获得的R就是机器是否采用对应的重组过程作为响应路径的一部分的决策依据。
在信息输入时,机器通过链式联想激活过程,激活了记忆中与之相关的记忆。这些被激活的记忆中,部分特征是因为和输入信息相似而被激活,它们已经出现在输入信息中。部分特征是因为临近激活和强记忆激活过程,而被激活的。它们是和输入信息相关,但还没有出现在输入信息中。
由于链式激活过程只能激活和自己存在连接关系的记忆,并且和自己连接关系越紧密(比如相似度高、位置临近或者彼此记忆值高,或者两者之间存在很多链式激活通道)的记忆获得的激活值较高。而激活值较高的信息,通常是同一类事物、过程和场景中的共有特征。那些最广泛存在的特征,重复性最高所以记忆值最高。这些共有特征,使用被激活信息重组过程,就构成了一个信息的识别模型。
所以机器对输入信息的识别过程是一个模式识别过程。而在识别过程中,随更多的输入信息被识别,机器使用的模型也从初略到细致,从概括到具体转移。
一个可能的实施例描述如下:机器首先以激活值最高的记忆特征为中心,把和它连接紧密的被激活信息作为一个信息块。紧密连接可以通过激活值传递系数的大小获得。这个信息块通常是一到多个概念形成的。这个信息块中有些信息已经出现在输入信息中,有些信息还没有出现。
由于在本发明申请中,机器是采用多分辨率特征存储信息的,那些普遍存在同类信息中的共有特征,因为能够重复而获得更高的记忆值,也在激活中获得更高的激活值。而它们通常是低分辨率的共有框架(因为这样的特征才能普遍存在于同类信息中)。
所以机器识别概念的方法是:从最高激活值开始,把和最高激活值信息连接紧密的较高激活值(比如给它传递激活值从大到小的前N个特征)作为一个可能的组合。把其中的低分辨率整体特征作为框架,然后按照记忆中框架和细节之间的时间和空间方式,来组合被选出的被激活特征。
在组合的过程中,存在同类被激活信息出现在多段记忆中的情况,也有可能某些特征只出现在单次记忆中。在组合时,局部记忆和整体低分辨率框架记忆信息的大小或者观察角度无法匹配。解决的方法是:1,机器在被激活的信息中,寻找同时存在相似整体和局部的记忆。如果找不到,机器就降低整体或者局部,或者两者的分辨率,寻找包含两者低分辨率的最相关记忆。2,如果没有类似信息,机器把目前的整体特征和局部特征作为输入信息,重新在记忆中寻找包含和两者相似特征的相关组合记忆。如果找不到,机器就降低整体或者局部,或者两者的分辨率,寻找包含两者低分辨率的最相关记忆。找到这些最相关记忆后,机器以这些最相关记忆作为参考框架,来调整它们之间的大小和角度,使得它们可以通过模仿最相关记忆来组合成一个信息块。
举例说明:当机器听到“家乡的小屋”这样的语音信息时,它可能在头脑中组合成一个信息块:家乡小屋的整体图像。
这个图像的素材来源于机器在记忆中,存储的关于家乡小屋的整体轮廓,主要组成部分的整体轮廓,整体印象中的颜色、纹理,以及一些记忆深刻的局部记忆。但这些记忆是零碎的,是在不同时刻,不同观察角度被存储的。它们本身并不能直接组合成一个合理的“家乡的小屋”的图像。
“家乡的小屋”这样的信息,可能也会激活一些关于房屋的整体观察角度的记忆,或者一些看到过的图片上有类似于“家乡的小屋”,或者一些文字描述了类似于“家乡的小屋”的记忆。还可能激活任何关于家乡和关于小屋的相关记忆,它们可以来自任何渠道。
机器利用关于自己“家乡的小屋”的整体信息,或者来自于任何渠道的关于类似“家乡的小屋”这样的整体信息中,通过经验泛化,把激活值比较高的局部信息(比如关于门、窗、房屋外面的景象、人和其他相关信息),通过调整放入整体框架中,就构成了关于自己“家乡的小屋”的信息块。这个信息块的观察角度和细节的观察角度有可能并不一致。比如组合的整体图像,可能是一种整体俯视或者整体仰视的角度观察,但机器有可能对自己“家乡的小屋”中的窗户、门、狗等并没有这样的观察角度。这样的观察角度是机器参考了自己学习到的类似小屋图片的观察角度,并通过自己对事物的旋转和缩放经验,把自己记忆中关于窗户、门、狗等信息做了旋转和缩放,使得它们和参考框架更加符合泛化规则而得到的。这种组合信息会因为“家乡的小屋”这样的语音的信息重建而被记忆下来,成为记忆的一部分,在机器的以后生活中,有可能被作为参考记忆来使用。
上述过程中,机器利用了经验泛化。经验泛化的规则是:通过两个事物之间的相似的低分辨率特征作为桥梁,把和相似部分紧密关联的其他属性,认为也是相似的,从而把关于一个事物的经验,通过相似的低分辨率特征桥梁,转移到另外一个没有相关经验的事物上去。它的本质是基于这样的假设:如果两个事物之间存在相似属性,那么和这个相似属性关联度高的其他属性也是相似的。显然,多层次的多分辨率信息特征同时提取,并做同时性存储,并通过链式联想激活、记忆和遗忘机制,来建立特征之间的层次化关联是实现经验泛化的基础。关于泛化的具体实施方法在后续说明。
所以机器组合信息块时,很可能是从语言信息开始的,因为它们通常有高的激活值。所以语言常常扮演概念的中心,使得人类和机器看上去都习惯使用语言来代表概念。
在机器完成信息组合后,机器还需要采用开放和迭代识别方法来确认信息块中相关的概念。一种实施例可以是:机器通过把注意力转移到信息块中还没有出现在输入中的信息,并按照信息块组合中的时间、空间、大小和分辨率来调整自己的注意力区间,来确认对于位置是否存在预期信息。这是一个使用类似贝叶斯分类来确定输入信息分类的过程。通过对概念所属信息的确认来不断修改输入信息属于该概念的置信度。当机器达到预设的置信度时,机器停止对这个信息块进一步确认。机器开始重复上述过程,进行识别其他输入信息。具体方法就是把剩下的输入信息中,还没有使用到的输入信息中最高激活值作为起点,把与之相关的信息组合成一个信息块,并通过注意力机制,通过使用类似贝叶斯分类方法来确定这些信息块所属的概念。上述方法迭代进行,直到机器的决策系统认为以及可以做出决策,不需要进一步识别更多信息未知。
上述过程就是概念的开放和迭代识别的实施过程。
上述过程存在先入为主的现象。比如拥有同样的关系网络的两个机器,面对同样一个特征图和同样的初始激活值,其中一个机器突然处理了一条关于这个特征图的输入信息,那么这个机器在处理了额外的这条信息后,它会更新关系网络中的相关部分。其中某一个关系线可能会按照记忆曲线增加。这个增加的记忆值在短时间内不会消退。所以在面临同样的特征图和同样的初始激活值时,处理了额外信息的机器,将会把更多的激活值沿刚刚增强了的关系线传播,从而出现先入为主的现象。
这种现象也出现在对输入信息的处理上。比如当我们在输入信息中,识别出一个特征后,相似的特征就可能因为相似性而更容易被激活,并获得更高的激活值。这会使得我们更容易识别出输入信息中的相似的特征。这个现象使得我们容易识别出输入信息中由相似特征构成的整体特征。比如由相同颜色或者形状的“点”构成的图案,比如由一连串“点”构成的线。或者由一些离散的小图案构成的大图案。这些相似特征之间的联系,加上机器对整体特征的优先处理,使得机器更加易于识别由这些相似图案构成的整体特征。
另外,由于机器是采用模式识别的方式,通过迭代来识别输入信息的。如果机器在识别过程中,通过其他方式激活了某一个概念模型(比如语言、环境或者其他暗示信息),那么机器在识别输入信息时,就可以优先采用这个被激活了的概念模型作为基础,通过对比这个模型中的信息和外界信息来建立识别过程。这个模型的信息就可能被机器用于对输入信息的分割和归类,从而比较两者之间的相似性。这也是一种先入为主的主观识别偏差。
识别的另外一个方面是,低分辨率整体特征由于频繁使用,通常和很多其他特征之间存在连接。当低分辨率整体特征被激活后,大量的其他特征可能通过本发明申请提出的“链式激活”而被激活,由于激活通路众多而分散了激活值的传递权重,再加上被激活特征数量众多,这使得被激活的信息中,没有特定节点的激活值显著高于其他概念的节点(没有凸显的节点),这意味候选概念包含的范围大,置信度低。从而使得机器需要进一步使用更高分辨率的特征来做二次识别。与之相反,那些较少使用的高分辨率特征,一旦被激活,由于它和其他概念之间连接较少,所以不会出现激活通路众多而分散了激活值的传递权重,所以它的激活值将会直接传递到与之相连的概念上,使得机器能够快速的识别出与之相关的概念(容易凸显出来)。这和人类通过特定的特征来快速识别特定的概念也是类似的。
S3.6,类人传感器信息融合。
对于那些通用型的机器人,本发明申请提出一种类人传感器信息融合的方法。首先是采用类人传感器,包括采用类似人类的传感器类型,采用类似于人类的传感器分辨能力,采用类似于人类的传感器感知范围,这样机器才能更好的理解人类文化。比如“当面一套,背后一套”,对于一个360度视角的机器人可能很难产生正确的感受,而对于一个和人类相似视角的机器人,则可以通过学习获得对这个语言的正确理解和感受。再比如“迈开大步往前走”这样的寓意,对一个轮式机器人可能就比较难以理解。而对黑暗的害怕,对一个拥有夜视能力的机器人而言也难以感受。类人传感器也包括模仿人类的组成结构,比如头部、四肢关节等身体组成部分。
具体内容可以包括,但不限于:采用双目视角,双目位置、间距和视角范围来模仿人类双目。模仿人类的双耳听觉传感器,包括位置、间距、听觉能力的模仿。采用全局脚底压力传感器阵列,通过脚底传感器的输入信息,来学习和调整重心。采用全身的温度传感器,来感知外界温度。采用重力传感器,来感知重力方向。采用全身触觉传感器,来感知全身压力和触觉。采用类似于人类的嗅觉传感器,来识别气味。采用类似与人类的味觉传感器,来识别味觉。建立类似于人类的疲劳指数,来反应机器的疲劳程度。机器的全体骨骼关节采用张力传感器,让机器更好的确定关节张力。机器的四肢安装加速度传感器,感知四肢运动的加速度。机器需要建立自身的监控系统,用于检测自身的姿态模式。机器还可以根据特定应用,增加相应的传感器组。上述传感器,尤其是全身温度、压力和触觉传感器,可以按照人类的传感器密度分布来进行相应的分布,比如手掌和手指尖和足趾指尖、面部可以密布传感器,而其他位置则可以相应的减少传感器的密度。采用和人类类似的身体组成部分,也采用类似的力量、材料强度、损耗情况等,来模仿人类的身体。
S3.7,激活消退和激活增强的实现方法。
激活值的赋值和激活值的消退,可以采用专门的激活值管理模块来实现。激活值消退是指激活值随时间而递减。递减的速率需要根据实践来优选。激活值消退,一种可能的实施例可以是,激活值在时钟的驱动下,每一次时钟时,激活值消退一个正的变量delta。这是一种线性消退的方式,也可以采用非线性消退方法,比如指数消退或者倒数消退的方式等。
激活消退带来了维护一个信息的激活状态的问题。机器的决策系统做出的响应路径,可能包含了维持一些信息的激活的内容。机器需要采用刷新的方法来维护这些信息的激活值,确保这些信息一直处于机器的决策过程中。
一种可能的实施方式包括虚拟输出转输入和避免后续被打扰的方法:当机器面对大量被激活的信息,这些被激活信息中,激活值高的信息就是机器的关注点。如果机器迟迟无法完成信息理解,无法找出满足机器评估系统的响应方案,随时间流逝,这些激活值就会消退,导致机器可能失去对这些被激活信息的关注,甚至忘了自己要干什么。这时机器需要把这些关注点的激活值再次刷新。一种刷新方法是:把这些关注点转变成虚拟输出,再把这个虚拟输出作为信息输入,走一遍信息输入流程,来强调这些关注点。
这就是人类在思考时,为什么有时候,不理解时或者找不到思路时,喜欢喃喃自语,或者自己在心中默念。这种虚拟的输入,和真实的输入流程一样,同样使用联想激活过程,搜寻记忆和更新记忆值。所以,这种方法可以使得机器有意去增加某些特定信息的激活值,也可以使用这种方法让某些特定信息反复出现,增加其记忆值。这就是使用朗读或者默念的方法来增加记忆。另外,在这种情况下,如果出现新的输入信息,机器不得不打断思考过程,去处理新的信息,从而导致关注点丢失。所以,从节省能量的角度看,机器是倾向于完成思维,避免浪费的。这时机器可能会主动发出“嗯…啊…”等缓冲辅助词,或者采用其他方式来发出信息,表示自己正在思维,请勿打扰。还有一种可能是给予机器的思考时间有限,或者信息过多,机器需要尽快完成信息响应,这时机器也可以采用输出再转输入的方式。通过一次这样的方式,机器就强调了有用信息,抑制干扰信息(干扰信息没有被再次输入,其激活值随时间而消退)。这些方式在人类普遍使用,在本发明申请中,我们也把它也引入机器的思维。
机器可以根据内置的程序,或者自己的经验,或者两者混合,来确定是不是目前的思考时间超过了正常时间,需要刷新关注信息,或者告诉别人自己正在思考,或者强调重点,排除干扰信息。
由于人类交流最频繁的是语音和文字,所以一个概念的局部网络中,各种特征从关系网络的各个支路获得激活值,它们都可能向语音或者文字传送激活值,所以通常的激活值最高的节点(关注点)就是概念的语音或者文字。所以,机器的自我信息过滤或者强调的方法,虚拟输出通常是语音,因为这是最常见的输出方式。机器输出它们耗能最少。当然,这和一个人的成长过程密切相关。比如,从书本中学习生活的人,有可能是把信息转变成文字,再重新输入。
S4,需求系统、情绪系统和奖罚系统的实现方法。
机器的需求、情绪和奖罚都可以采用符号来代表。这些符号的激活值表示需求、情绪和奖罚的强度,它们和其他信息一起,采用同样的方法存入记忆中。存储时,被赋予的初始记忆值和其激活值正相关。
需求、情绪和奖罚的种类和数量多少不影响本发明申请的实施。因为在本发明申请中,需求、情绪和奖罚的处理方式不区分种类和数量多少。
S4.1,机器维护自身运行状态需求的实现方法。
对机器的关键监控信息,确定合理区间。偏离合理区间后,产生回到合理区间的需求。
比如机器监控电量。当电量处于0~30%之间时,机器通过预置程序对需要充电的符号赋予激活值,这相当于机器发出了需要充电的信息,这个信息是机器的输入信息之一。电量越低,激活值越高,反映了机器需求强烈。这个符号会激活记忆中同类符号,并根据链式联想激活,去激活记忆中和充电相关的记忆。
比如机器监控自己的温度。当温度过高,机器激活过热符号。这相当于机器发出了需要降温的信息。激活值越高,反映了机器需求强烈。同理,这个符号会激活记忆中同类符号,这些被激活的记忆可以帮助机器借用以前的经验来解决自己的需求。当温度过低,机器激活过冷符号。同理,激活值越高,反映了机器需求强烈。同理,这个符号会激活记忆中同类符号,这些被激活的记忆可以帮助机器借用以前的经验来解决自己的需求。
同理,机器对压力、扭矩、触觉、嗅觉等都可以建立自己的合理区间。比如建立对臭味的回避需求,对可能给自己带来损害的压力或者扭矩产生保护自己的需求。每一种需求都用一个符号表示,并使用激活值强度表示需求强烈程度。
所以,机器维护自身运行状态的需求系统,是通过预置程序,人为建立的,并且每一种需求采用类似的处理方法。
S4.2,机器安全感的实现方法。
机器使用符号代表各种安全感。安全感是机器对维护自身运行状态的需求能否满足的一种预测结果。如果机器预测自己能够很好的维护自身运行状态,那么就产生安全感,通过预置程序给代表安全感的符号赋予激活值。如果机器预测自己难以很好的维护自身运行状态,那么就产生不安全感,通过预置程序给代表安不全感的符号赋予激活值。
当机器处于不安全感时,机器的决策和响应系统可能倾向于着手解决给自己带来不安全感的因素。从而表现出机器对安全感的需求。
机器的安全感的具体实现方法:机器采用预置程序监控奖罚系统产生的收益值和损失值,并建立收益值和损失值的合理区间。当机器监控到收益值和损失值偏离合理区间后,通过预置程序对一到多个安全感符号或者不安全感符号赋予初始激活值。
当外界或者机器内部信息输入后,机器通过链式联想激活和记忆重组过程,建立多个预测的可能结果,并分析每一种预测结果可能带来的收益和损失情况,并评估它们发生的概率。当预测的收益和损失在不同的区间范围,机器赋予安全感符号或者不安全感符号对应的激活值。这些被激活的符号,就是机器的输入信息的一部分。
由于上述过程是通过关系网络的激活过程,所以影响机器安全感的可能是直接因素,比如自身工作状态是否良好,或者预测会出现无法维持工作状态正常的情况,或者预测会遭受伤害等情况。这些信息会直接产生预测的收益值和损失值,从而激活安全和不安全符号。
同时,影响机器安全感的还可能是间接因素,比如机器预测收到的薪资减少,可能进一步激活机器预测后续无法买到足够维持自己工作状态物资或者服务,这个预测会带来较大的损失,从而触发了机器给不安全感符号赋予激活值;或者机器预测主人的财物将受到损失,而根据关系网络中经验的预测,自己可能会被牵连,可能会被惩罚,这会带来较大的损失,从而触发了机器给不安全感符号赋予激活值;还可能是机器为了避免目前潜在的巨大损失,而在决策系统中选择了避免眼前立即出现损失的响应路径,但这种路径对自己其他长远目标会带来损失。在解决了眼前问题后,这种远期损失值的预测可能依然存在,也可能会触发机器给不安全感符号赋予激活值。
所以机器的安全感需求,是根据机器的奖罚系统对收益和损失情况的预测而建立的。当机器预测收益和损失会偏离合理区间,就会通过预置程序产生相应的不安全感。机器在随后的决策系统中,选择倾向于预测能获得收益、避免损失的响应路径,从而表现出机器寻求安全感的需求。
S4.3,机器情绪系统的实现方法。
在本发明申请中,机器的所有情绪都使用符号来表示。当这些符号被赋予激活值后,机器就出现相应的情绪。
在本发明申请中,机器的情绪和情绪的外显之间,是双层调控的。底层调控是本能情绪外显,是通过预置程序来实现情绪到情绪外显之间的映射。
但情绪外显还受到机器的决策系统的调控,这是情绪到情绪外显的上层调控。机器的情绪外显是机器根据决策系统,模仿过去的经验,来调整自己情绪外显状态(包括内部运行参数、姿态、动作和外显表情等),它们是机器对响应路径的具体执行的一部分。
所以情绪外显既受到实际情绪的影响,也受到机器的决策系统影响。机器通过调整预置的情绪外显程序的参数,使得情绪外显带来的潜在奖罚信息符合趋利避害的原则。所以机器的情绪和外显的情绪可能是不一样的。
每类情绪可以使用一个符号来代表,这些符号可以被机器赋予激活值来表示所处状态,比如兴奋、生气、伤心、紧张、焦虑、尴尬、厌倦、冷静、困惑、厌恶、痛苦、嫉妒、恐惧、快乐、浪漫、悲伤、同情和满足等各种情绪。这些被激活的情绪符号是机器输入信息的一部分。当某种情绪符号被激活后,机器会通过链式联想激活过程,激活过去与这种情绪的相关记忆,和这些记忆带来的收益和损失,从而确定自己的响应路径。而响应路径中,就包括如何输出情绪外显。
下面是一个可能的情绪产生实施例。需要指出,这里只是使用一个例子来说明情绪产生以及情绪的外显过程。机器的其他情绪和其他情绪外显过程,可以参考这个例子来建立。
情绪产生的一个来源:通过预置程序,产生机器需求状态和情绪之间的映射关系。
我们可以通过预置程序,把机器的需求满足状态映射到情绪状态上。
比如当机器需求符号出现激活值,符号的激活值一方面会激活记忆中相似符号相关的记忆,另外一方面会作为情绪系统的输入值,按照预置程序激活相应的情绪符号。并且激活强度和需求符号的激活强度相关。
例如:当机器过热的符号被激活后,它作为机器情绪系统的输入,会激活相应的情绪符号。比如“感到热”、“难受”、“累”、“焦虑”等情绪符号。并进一步通过预置情绪外显程序,产生出“流汗”、“张嘴哈气”、“表情难受”等情绪外显需求。如果机器的决策系统根据过去的经验,认为目前环境下,外显这些情绪需求可以带来收益,避免损失,那么机器的决策系统在建立的输入信息响应路径中,既包含有发出“我好热啊”等语言信息(它们是机器根据过去经验来建立的解决方案),还包含情绪外显系统执行“流汗”、“张嘴哈气”、“表情难受”等响应路径上的子目标。如果机器的决策系统根据过去的经验,认为目前环境下,外显这些情绪,可能不会带来任何收益甚至可能带来损失,那么机器就可能建立不同的响应路径,这些响应路径中,可能没有情绪外显,甚至可能模仿过去的经验,在趋利避害的选择下,建立的响应路径中包含做出其他表情、姿态和动作。
例如:当机器的安全感符号被激活后,机器对应激活的情绪可能是“满足”、“愉悦”或者“安静”等,而对应的情绪外显也可能是和“满足”、“愉悦”或者“安静”相关的表情、姿态和动作。当然,机器的决策系统也可能调整机器实际的情绪外显。当机器的不安全感符号被激活后,机器对应激活的情绪可能是“焦虑不安”、“急躁”、“神不守舍”等情绪状态,而这些状态的外显,也同样受到机器的决策系统来调控,因为它们是机器对输入信息的响应路径的一部分。
在本发明申请中,机器的情绪建立在机器的需求状态和奖罚状态基础上的,机器的情绪外显是建立在机器情绪和机器决策系统基础上的。机器通过需求状态和奖罚状态到情绪的映射就可以实现情绪,这种映射可以采用预置程序来实现。而机器的情绪到情绪外显,由于受到机器决策系统的控制,所以它是机器决策的一部分。
S4.4,机器奖罚系统的实现方法。
机器的奖罚系统,主要包括内部奖罚系统和外部奖罚系统和预置奖罚信息系统。
机器的内部奖罚系统,主要把需求符号的状态映射为奖罚值。
实现方式1:采用预置程序直接把各项需求符号的满足状态映射到收益和损失值。比如把缺乏电量映射为对应程度的损失值;把温度过高映射为对应程度的损失值;把遭到击打映射为对应程度的损失值;把自身系统的损害映射为对应程度的损失值。在这个实现方式中,机器也同步把需求符号的满足状态映射到情绪系统。
实现方式2:机器通过情绪系统,把各项需求符号的满足状态映射到情绪符号和情绪符号激活值,然后通过奖罚系统,把各种情绪和对应的激活值,映射到相应的收益和损失值。比如把缺乏电量映射为对应程度的“担心”,把温度过高映射为对应程度的“难受”,然后再把“担心”或者“难受”映射为对应程度的损失值。
这两种方式并没有本质区别。实现方式1是需求直接同步映射到情绪和奖罚信息上。实现方式2是需求先映射到情绪符号上,然后通过情绪符号,再次映射到奖罚信息上。通过这样的中间映射过程,机器对奖罚信息的趋利避害追求,也表现出对带来收益的情绪的追求。
由于机器的内部奖罚系统,是机器根据自身的运转状态的需求,来建立的奖罚系统。而机器维护自身运转状态的信息,是限定在机器自身运转状态的监控信息之中的,所以是一个有限范围的映射关系,这个关系的实现是公知知识就可以很容易实现的。
机器的外部奖罚信息系统,是机器通过学习获得的。
机器的外部奖罚系统,由于面对的是开放的外部信息,它们缺乏明确的合理区间,并且也无法穷尽各种情况,所以需要通过机器自身学习来建立。
首先,在本发明申请中,我们首先需要预置的一套基础符号来对机器传递我们的奖罚信息。这些符号包括预置的语气、动作、眼神和表情等,它们和人类的通用基础符号是一样的,比如:微笑、愤怒、鄙视、冷眼、拥抱、攻击、限制自由等人类群体中的通用符号。也可以建立一些表达基础奖罚信息的语言或者动作,比如点头/摇头,好/不好,赞同/反对等动作或者语言。通过这些基础符号,训练者可以和机器进行沟通,机器从训练者的反应,逐步学习到形形色色的奖罚信息。这些奖罚信息会成为关系网络的一部分,从而成为一种常识,通过学习来不断丰富,并通过链式联想激活,通过经验泛化来预见新情况下可能的奖罚信息。
比如,训练者无法使用穷举法,告知机器那些东西是安全的,那些是危险的。但训练者可以在训练中,告诉机器那些环境是安全的,那些环境是危险的,或者可以进一步告诉机器不同的等级。和训练一个孩子一样,告诉它“非常危险”、“比较危险”和“有一点危险”等就可以了。这样,机器就能通过训练,通过记忆和遗忘机制,逐渐把那些带来危险的环境或者过程中的共有特征,和危险这个符号的连接强度逐渐增加(因为出现的重复次数增多)。那么当下一次机器处理输入信息时,当给予输入信息同样的初始激活值后,有些特征的激活值由于和危险这个符号连接关系紧密,它传递了一个大的激活值给危险这个符号。而危险这个符号在奖罚机制中,和损失符号之间存在紧密连接关系。所以危险这个符号会进一步把激活值传递给奖罚系统中的损失符号。导致机器的损失符号获得了激活值。机器在决策时,是按照趋利避害的方式来选择不同的响应路径的,所以机器在建立响应路径时,就可能采用降低损失的路径,也就是如何降低这个带来损失的事件发生的概率。机器会按照类似于贝叶斯决策,进一步把降低这个事件的先验概率作为响应路径中的子目标。当实现这个子目标后,这个带来危险的事件发生的概率就降低了。这个过程不断迭代,产生的最终行为结果可能就是:机器会避开这个危险的事物。比如,如果这个危险的事物是一个环境因素,那么机器就会想法避开它。如果这个危险的事物是被主人呵斥,那么机器也会想法避免这种潜在情况的发生。
上述建立外部奖罚信息系统的过程中,预置一套基础符号来对机器传递我们的奖罚信息,可以采用预置程序直接实现。这些预置基础符号是有限的,其实现是公知知识就可以很容易实现的。
机器的预置奖罚信息系统,是机器在预置奖罚信息基础上,通过学习而不断完善的。
这种信息主要包含那些类似于人类拥有的先天知识。
比如对危险的直觉。机器通过预置程序,建立对高处坠落很危险的先天知识,包括高度和危险的直觉。比如建立机器对失去重力感,对高加速运动的害怕等先天知识。这样的机器在做过山车时,其响应也可能是害怕的大喊大叫或者紧闭双眼,这取决于机器的经验和个性参数。
再比如对打击的危险直觉。可以给机器预置被重击后会带来危险的奖罚信息。比如把承受过大的压力和危险符号之间建立连接关系。这种连接关系可以是在记忆中,把承受过大的压力和危险符号相邻存储,并赋予两种高记忆值,这是一种修改关系网络的方法。当机器根据经验预测到可能遭到过大的压力时(比如预测来袭物体的硬度高、质量大,预测其运动轨道可能会击中自己),这种预测会激活所有关于承受压力的记忆。这些记忆中,那些被重击的记忆和预测最符合,可能获得的激活值最高。如果存在被重击和危险之间的紧密连接经验,那么危险符号就会得到高的激活值,而危险符号的激活值,又会传递激活值给损失符号,机器在决策时,就会考虑降低这个损失发生的概率。在这个过程中,机器的被重击和危险之间的经验,是预置的。所以机器即使没有真实的被重击过,也能根据预置经验来做出正确响应。
另外一类先天知识是关于美和秩序的先天直觉。人类关于美和秩序的先天偏好,其实是人类在进化过程中,建立的对大脑效率提升的一种方法。
比如,人类通常喜欢对称、整洁、干净、层次化、有序化等信息。而对称显然可以带来识别的复用,提高大脑的效率。
比如人类喜欢重叠排列的图案,这也明显是一种提升大脑效率的偏好。
比如人类喜欢有序的东西,这是因为有序的东西,可以便于建立层次化的特征表达体系。这种体系显然有助于人类通过层次化快速识别和检索这些信息。
比如人类喜欢把东西整理成不同的类别,并认为这样有一种美感。这是一种建立层次化信息表征的需求。这种美感来自于人类对这种信息层次化的需求,这种需求满足后,会带来奖励和正面情绪,这是进化带给人类的礼物。
比如人类喜欢复杂的图案结构。但这种复杂的图案必须是可以抽象为一个整体,比如一种纹理,一种相似图案的重叠排列。这样就可以建立起层次化的信息。人类只需要少量高层信息特征表征和少量底层信息特征表征就可以表达整个图案。所以这也是一种大脑效率提升的方式。
比如人类都排斥杂乱无章、乱七八糟的信息。这些信息难以使用层次化特征来表征,所以大脑需要使用更多的能量来识别这些信息。从能效比而言,对人类大脑是一个损失项。这些也反面说明了“美”来自于层次化信息和复用信息的过程。
另外一种提升大脑效率的方案,是输入的信息和预置的模型比较接近。比如预置的人脸模型、特定的曲线、特定的颜色,这些预置的模型是人类进化过程中建立的,比如孩子的脸蛋颜色和曲线,男人或者女人特定的曲线,这些和人类繁衍相关的信息在进化过程中成为了特定的模型,这些模型也被优先作为模式识别,这些模型中那些特定颜色、曲线和轮廓,因为和繁衍相关而被人类的进化选择有了特定的偏好,这些偏好就是美。当输入信息和这些偏好模型接近,人类使用少量的大脑能量而获得了更多的信息,这种方式给大脑带来了愉悦感,这也是一种“美”的感觉和需求。
所以机器可以通过模仿人类大脑这种偏好,建立机器的“本能审美观”:当机器通过迭代识别,发现输入信息具有对称、重复或者良好的层次化表征时,机器采用预置程序来产生奖励信息和愉悦情绪。一种方式是同步产生奖励信息和愉悦情绪,一种方式是先产生愉悦情绪,由愉悦情绪通过预置程序,产生奖励机制。当然先产生奖励信息,然后由奖励信息通过预置程序,产生愉悦情绪也是可以的。这些次序对整体的机器智能实现没有影响,只要是建立三者之间的联系关系就可以了。
当机器发现和人类预置给自己的特征信息模型相似的信息时,产生特定情绪。比如特定形状的曲线、特定的信息模型,比如孩子的脸蛋可能激发机器的喜爱情感等。
在机器有了“本能审美观”的基础上,机器通过在生活中学习,不断从获得的社会中其他个体的审美经验,把社会认可的“美”和具体的事物联系起来,最终丰富自己的审美观。
人类这一类先天的知识是有限的,所以机器可以模仿人类主要的先天知识就可以了。所以模仿上述预置经验的建立方法,机器可以获得几乎和人类一样的先天知识,这些知识是本能知识。
机器建立整体奖罚信息的过程是就是机器在生活中建立关系网络的过程。通过奖罚系统,我们告诉机器哪些行为是我们鼓励的,而哪些行为会被惩罚的。和训练孩子一样,我们只需要在它做出特定行为后,给予奖励或者惩罚就可以了。或者在事件发生之后一段时间,使用奖励和惩罚,并告诉它原因就可以了。只要能够让机器把受到奖励和惩罚和对应的信息建立临近记忆就可以了。这种临近记忆可以是事件和奖罚信息之间的直接连接记忆,也可以是代表事件的符号(包括语言概念)和奖罚信息之间的间接连接记忆,还可以是代表事件和代表奖罚信息都采用符号(包括语言)来建立间接连接记忆。在链式联想激活的驱动下,只要这些记忆之间的连接关系紧密,那么机器就能正确地产生事件和奖罚之间的关系。
机器在学习过程中(包括通过语言学习,如书本、课堂或者交流),类似于人类成长过程,会逐步建立各种情况和自身利益之间的连接关系。有些关系是和自身生理需求直接连接的:类似于人类出生后,和利益相联系的是“水”,“奶”、“食物”和“温暖”等。对机器就是合适的电量,自检系统正常,部件正常等。后来通过记忆和链式联系激活过程,激活记忆中的奖罚信息,人类逐步建立了“考试分数”、“钞票”等事物到收益和损失之间的联系。对机器而已,就是“人类的评价”,能买到维护自己运转需要的服务的“钞票”。再后来,人类通过记忆和链式联系激活过程,激活记忆中的奖罚信息,我们还可能建立“爱情”、“时间”、“支配权”等没有实体的东西和利益之间的联系。同样,机器也可能建立“使用周期”、“机器等级”、“支配权”、“报废”等抽象概念的奖罚信息。这些信息虽然没有实体对照物,但通过一次次链式激活、决策执行和外界反馈的过程,机器能够建立起它们和实际利益存在间接关联的路径。这些抽象概念就会进入机器的决策系统,并按照间接激活的奖罚信息纳入决策过程。需要特别指出,机器的奖罚信息是建立在自我意识的基础上的。自我意识和奖罚信息之间的关系,首先是基于需求和需求被满足的条件而建立起来的,这是机器的本能奖罚信息。然后是基于能否满足自己需求的预期而建立起来的。这是机器在有了社会性常识,对能满足自己需求的事物的占有和对给自己带来损失的事物的避免。这是通过关系网络建立的常识性奖罚信息。然后是机器通过同理心,学习到自己利益最大化的实现并非是对带来利益的事物全部占有和带来损失的事物全部避免,而是需要平衡自己和外界之间的利益关系,这样才能维护自己的最大化利益。这就是社会化认知带来的社会性奖罚信息。机器的决策过程,就是利用过去的经验,来建立各种响应组合,并统计这三类奖罚信息。这个过程持续进行,不断迭代,不同的响应路径组合会带来奖罚值的变化。机器的目的就是寻找那些让奖罚值波动曲线增加的响应路径,或者让损失值波动曲线减小的路径。机器对响应路径的搜索持续到机器发现奖罚值曲线已经收敛了为止。
由于人类已经有大量关于奖罚信息的知识,所以我们可以:1,直接去修改机器的关系网络来建立我们期望机器拥有的奖罚倾向。2,直接给机器伪造一段记忆,让机器利用这段假经历(记忆)来建立合适的奖罚信息。所以,人类可以通过机器的需求系统和奖罚系统,来确保机器的行为符合人类的要求。
另外,同样的事件,对象是自己或者他人,带给机器的奖罚信息是不一样的。由于机器拥有自我意识,所以同样的事件,机器根据这些事件带给自己的收益和损失,逐步学会了识别一个事件发生在他人身上或者发生在自己身上时,对于的奖罚值。因为机器对事件的奖罚值的建立,是通过统计事件带来自己确切的收益和损失来确定的。显然,同样事件发生在他人身上或者发生在自己身上,带给机器的最终相关收益是不一样的。
另外,机器还可以预测他人的奖罚信息。比如有人告诉机器“自己丢失了一只金戒指”。机器并不知道“金戒指”的价格,但机器有失去给自己带来收益的东西是一个带来损失的框架经验,机器利用这个框架经验就能确定这个人受到了损失。机器再模仿自己过去的框架经验:“自己失去…”,把一只金戒指的信息组合到这个框架经验上去。尽管机器可能并不知道金戒指的价值,但机器有金子很值钱的记忆。而且机器有戒指的形状相关记忆。所以机器能够通过戒指的形状,再次寻找过去的相关经验,来估计戒指的相关体积和重量,并进一步估计金戒指包含了多少金子。所以通过经验泛化,机器就能大致预测他人丢失金戒指可能带来的损失大小。在这样的奖罚信息下,机器通过过去和这个人的交互经验和同理心,有可能确定这个人(假设是自己的朋友),她是想寻求同情。所以确定他人获得的奖罚信息,是实现同理心的一部分,也就成为决策的一部分。
S5,建立通用机器智能。
S5.1,经验泛化的实现方法。
经验泛化对实现通用人工智能至关重要。在本发明申请中,经验泛化的基础是:第一个基础:泛化是基于一个假设:当两个事物存在相似特征(属性)时,那么和相似特征连接关系紧密的其他特征(属性)可能也是相似的。
第二个基础:多分辨率特征提取。因为多分辨率、层次化特征提取,所以两个局部并不相似的物体,在整体上可能是相似的。两个整体上并不相似的物体,在局部上有可能有相似点。
第三个基础:同时性存储和链式联想激活,从而建立起关系网络。
比如,我们要求机器在公园树木上订一颗钉子:机器首先把所有相关信息做多分辨率、层次化特征提取和模式迭代识别。在这个过程中,机器激活了很多相关信息。
机器寻找一到多段最相关记忆。最相关记忆是指包含最高激活值特征的记忆片段,包含输入信息最多的记忆片段,包含总的激活值最高的记忆片段。这些相关记忆就是机器可以模仿的片段。它们是机器使用最高激活值特征和与它连接紧密的高激活值特征,通过链式激活过程选出来的。
比如机器找到了“在家使用钉锤订钉子到木头上的记忆片段”是最相关记忆片段,还有机器在电视中看到“其他人在后院树上使用斧头订钉子”的记忆片段等相关片段,还有机器的训练者告诉机器订钉子时注意别敲到手了的记忆片段等。机器需要通过经验泛化来组合这些经验,组合出来的方案要能达到目的,并解决目前没有钉锤作为工具,机器也没有在公园树木上订钉子的相关经验等问题。
泛化的过程是:机器首先把最相关经验(比如上述找到的使用钉锤订钉子到木头上的相关记忆),降低分辨率,也就是扩大其中概念包含的范围,也就是扩大经验的适用范围。具体实现方法之一可以是:去掉那些激活值低的记忆(这些记忆通常是同类过程中和单次具体场景相关的细节),去掉那些目前输入信息中没有的信息(比如目前输入信息中没有的钉锤和树木),保留那些目前输入信息中存在的信息(比如钉子),获得的经验就是本次用于模仿的经验。
这些经验是多分辨率、多层次记忆的组合:当机器需要敲打物体时,机器被激活的记忆中包含了使用钉锤敲打钉子的记忆。这些记忆也是多层次的。所有被激活的记忆中,激活值最高的记忆片段是那些普遍存在于敲打过程中的共有特征。这些经验是机器使用钉锤、斧头、榔头等系列工具敲打经验中的共有特征。它们因为普遍存在于这类事物、场景和过程中,所以一次次被相似性重复激活,而获得了高记忆值。按照链式联想激活原则,它们通常获得的激活值很高。
所以机器被激活的记忆中,按照激活值从高到低的组合的记忆片段可能是:最低分辨率,也是最普遍的经验:敲打工具是“独立拓扑”、感觉是“硬的物体”、动态特征是“运动击打”,这是敲打的基础经验,是存在于所有敲打记忆中的低分辨率特征(包括静态特征和动态特征)。
其次,是最普遍经验之下的更加具体聚类。比如按照工具大小聚类、使用的力量感觉聚类,敲打发出的声音聚类,敲打的对象聚类。这些聚类就是在上面普遍的经验上,增加了更加特定的信息特征。比如钉锤的重量感觉,订钉子的力量感觉,订钉子发出的声音感觉,这些细节也会被激活。
再其次,是和具体过程连接更加紧密的细节。比如工具“钉锤”,动作“订钉子”,对象“木头”,环境“家里”。
再其次,就是和具体过程中可能包含的信息相关,比如某一次订钉子时,有一只狗从木头上跳过去了等。
所以,机器选用特征的分辨率低和高,其实就是针对同一事物,按照激活值高低来选特征。
然后,机器需要通过泛化来把框架信息和目前的细节信息结合起来,构成一个响应计划,然后评估这个响应计划,如果符合自己决策系统对奖罚信息的要求,机器把这个响应路径作为响应输出。这个过程是机器的决策过程,在后续说明。
机器的泛化包含两个方面:1,过程泛化。
这是使用多段不同记忆的片段,来组合成一个可以供目前模仿的过程。这是机器建立响应路径的步骤,是机器使用激活信息重组的信息块来完成的,在后续说明。
S2,属性泛化。
当两个事物存在相似特征(属性)时,那么和相似特征连接紧密的其他特征(属性)可能也是相似的。
尽管两个事物不可能在所有分辨率上都相似,但通过逐步降低分辨率(就是去掉低激活值特征),机器可以在它们之间找到相似的属性。从而通过这些相似的属性,把这个相似属性连接紧密的属性,也泛化到另外一个事物上。
比如钉锤和一块近似大小的石头,看上去并不相似。但在多分辨率提取下,最低分辨率上(分辨率层0):它们的拓扑是相似的(独立拓扑)。然后(分辨率层1):整体轮廓上有相似性(大小近似),硬度感觉上相似(两者的触觉感类似,都是硬的),两种重量感觉上是相似的。然后(分辨率层2):钉锤是有手柄的,而石头并没有。钉锤材质是铁,而石头材质是石头。所以在信息块中包含了分辨率层0、分辨率层1和分辨率层2信息时,两者并不相似。但通过去掉低激活值的分辨率层2,剩下的分辨率层0和分辨率层1组合的信息块,两者是相似的,它们的相关的经验是互通的:比如敲东西用的相关经验。
事物的多分辨率层并不是人为规定的,也没有任何分层的标准,这里分层举例只是便于说明。而在实际过程中,机器按照激活值从高到低,逐步去掉低激活值信息,直到找到两个事物之间的相似特征,并泛化与相似特征相关的其他特征就可以了。
所以机器可能把自己在家里在木头上订钉子的经验片段(经验片段既指事件上的片段,也指整个经验中的部分分辨率内容,并非特指时间上分成片段),和电视上看到的树木上订钉子的经验,和自己使用石头敲打东西的经验,通过激活信息重组,就能构成一个过程。这个过程就是机器计划的响应路径。
在计划这个响应路径,或者执行响应路径中的子目标时,机器通过树木和木头之间的材质的相似性,使用在这类材质上订钉子的经验感觉记忆(在这个模仿层次上,木头和树木是一样的),把订木头的经验泛化到订树木的过程中去,所以机器会参考订木头的力量和方式,来订树木。但由于模仿的经验和订木头材质的经验,而木头材质和树木之间存在分辨率更高的属性差异,所以机器在模仿这些经验的过程中,会激活过去那些模仿不是很确定经验的经验。这些经验可能告诉机器:先试试看,不要急于模仿,否则可能出现问题。
同理,对机器而言,如果在执行过程中,机器发现手边没有石头。但机器有公园里面有很多石头的经验,所以机器按照手边没有,但其他地方有,需要用的相关经验,把目前响应路径暂停,转为继承目标。然后机器重新建立一个响应子目标:先去找块合适的石头。而这个过程和上述过程中的经验泛化是一样的。所以机器通过迭代使用经验泛化,就可以主动解决一系列的问题。这就是机器智能的实现。
S5.2,激活信息的分段重组的实现方法。
语言在机器智能中扮演了重要的角色。语言是人类为了更好的交流经验而建立的一套符号。每个语言符号都代表一些具体的事物、过程和场景。当语言输入时,语言所代表的相关记忆被激活。这些记忆既可能有语言本身代表的概念,也可能有语言组合的整体低分辨率信息(比如重音变化,语调变化,语气变化,比如表示不信任的语气,或者嘲弄的语调等)。这些被激活的信息构成了一个激活信息流。为了平衡语言的前后关联,被激活的信息的激活值会随时间而衰退。由于机器采用注意力机制来赋予输入信息的初始激活值,所以那些获得注意的信息,衰退时间更长,其参与决策的时间更长。
语言的链式激活实现了所有输入信息的上下文关联识别。那些存在关联的信息会相互激活,并推高彼此的激活值。所以机器选用激活值高的激活信息,就实现了使用信息之间相互的关系来区别歧义,选出语言正确信息的目的。这里的信息不仅仅是语言,而是所有信息。所以通过链式联想激活,机器使用了常识来识别语言的歧义,并理解语言。
机器使用语言和其他信息的渠道,比如图像、触觉、嗅觉、感觉、重力、姿态等各种传感器数据,通过链式联想激活,激活了相关记忆。然后通过激活信息重组的方法,建立了和语言输入对应的重组后过程。这个重组过程依然是对所有被激活的信息,采用从繁到简的过程,并利用过程泛化,组合成初略的过程框架。然后采用从简到繁的过程,通过属性泛化把需要加入的细节加入到这个框架,形成了语言代表的过程。在持续的语言输入激励下,机器不断的使用上述过程,不断的产生代表语言的持续重组过程。这个持续的重组过程中的非语言特征,就是不同语言翻译之间的桥梁。所以机器只需要通过对不同语言的学习,就可以实现翻译的能力。这是因为语言和非语言之间的无歧义特征建立了转换的桥梁。
然后通过重复激活信息重组的方法,把概念作为信息块,通过利用过去多段经验,建立包含概念次序的过程。在组合概念次序的过程中,利用已有的奖罚机制,在被激活信息的范围内,寻找最优响应路径,从而建立合适的响应路径。所以通过本发明申请提出的方法,实现的通用人工智能,能够真正的理解输入信息,能够真正的建立合适的奖罚机制。只有这样才能真正的实现社会对人工智能的期望,比如完全自动驾驶,比如家庭保姆,比如机器警察,比如机器科学家等。
由于语言信息是其他具体信息的符号代表,其组合方式和实际具体信息组合方式并不相同,所以激活信息重组中,经常涉及到语言信息的重组,当然也包括语言信息和其他信息的重组和其他信息之间的重组。信息重组的基本思路就是让信息组合从繁到简(去掉细节),扩大应用范围,然后机器把这个简化的信息组合,采用属性泛化的方法,再次把目前的信息加入到这个简化的信息组合上,实现再次从简到繁的过程(加入新细节)。第一次从繁到简,是经验泛化的过程泛化,其中可能涉及到多段记忆简化后组合起来的过程。
而多段简化记忆组合的方法又是通过寻找结合两端的最相关记忆,通过从繁到简后,把它们的组合经验泛化过程作为参考,这就是我们把这个泛化过程称之为过程泛化的原因。机器不断使用过程泛化,就可以借用过去的很多经验组合起来,作为解决目前问题的参考框架。而第二次从简到繁的过程,是因为机器组合的参考框架是一个范围宽泛的框架,可能没有包含目前状态的一些细节。所以机器需要把目前状态的一些细节加入到这个框架的合适位置上去。而加入的方法还是通过降低目前细节的范围(目前细节是一个塔型的特征组合,有共有特征,有独有特征,还有不常见特征等)。机器通过找到目前细节和框架信息中的概念的共有特征(共有特征是这一类塔型信息中的共有部分,寻找的方法就是相似度对比),通过对比确认相同特征,然后把和相同特征相关的经验认为是两者可以相互借用的。这样机器就完成了一次局部响应路径的组合。然后机器使用这个组合,去寻找记忆中相似组合带来的奖罚值,用于确实是否使用这段组合。
一种可能的重组实施例如下:1,机器使用最高激活值信息作为拼图的起点。机器把和最高激活值信息连接紧密的较高激活值(比如给它传递激活值从大到小的前N个特征)作为一个可能的分组(目的就是去掉那些低激活值特征)。
2,机器寻找包含这个分组内信息最多的记忆,作为最相关记忆。一种方式是直接在现有被激活的记忆中统计。另外一种方式是把这个分组信息作为新的输入信息,通过链式联想激活过程,并统计包含激活值最多的记忆作为最相关记忆。
3,寻找最相关记忆的过程中,需要寻找和输入信息相似的输入次序的信息,所以信息的输入次序也是一种低分辨率的输入信息特征。机器使用这种低分辨率的输入信息特征来激活相似的输入次序的相关记忆。它们也是参考记忆的一部分。
在语言或者过程的输入信息中,次序是非常关键的信息。它们是一种低分辨率的输入信息特征。所以机器需要学习提取这种信息特征的能力。对语言而言,输入信息的次序特征就是常用句型和常用组合。它们在类似的语言次序中,因为一次次被重复而被一次次激活,那些常用句型和常用组合的关键词重复次数很高,最终变成了句型和短语。所以机器的语法知识就是机器通过记忆和遗忘机制自我总结出来的关于语言的框架信息。
机器找到的这些最相关记忆,可能来自于不同时间,不同空间的记忆。它们需要按照一个合理的时间和空间次序组织起来,构成一个可以供机器模仿的过程。这个过程就是经验泛化之中的过程泛化。
而过程泛化的方法,和属性泛化的方法类似。基本原则就是通过降低两个过程的分辨率(比如忽略两个过程中的低激活值特征),从而找到参考记忆,参考记忆中包含了两个过程中共有部分的组合方式,这些共有部分是通过降低分辨率后,通过链式激活过程或者记忆搜索得到的(需要特别指出,链式激活过程本身就是记忆搜索方法的一种具体实现)。
经验泛化可以简单描述如下:机器通过降低概念X的分辨率,也降低输入信息中概念Y的分辨率,然后比较概念X和概念Y的相似性;如果X和Y相似,就把记忆过程中和概念X保留的特征相关的经验泛化到应用概念Y保留的特征上;如果X和Y不相似,就继续降低两者的分辨率,来迭代进行上述过程。
降低分辨率,寻找共有特征事实例:第一个实施例:选出那些在被激活的记忆中出现的次数最多的相似特征。由于链式联想激活,会搜索记忆中和激活源特征相似的所有特征,所以机器可以通过统计的方法,获得那些找到最多数量和自己相似的特征。这些特征通常是一类事物、场景和过程中的共有特征。只有这样,它们才能普遍存在于各段最相关记忆中。机器通过对上述方法找到的特征按被相似性激活的次数从高到低排序,并选择排在前面的特征,它们就是降低分辨率后的特征。通过上述方法的迭代进行,机器就能选出那些低分辨率共有特征,并使用它们作为桥梁来泛化经验。
第二个实施例:保留高激活值特征,去掉低激活值特征。这种方法的基础是:在记忆和遗忘机制作用下,记忆值的变化存在一个正反馈机制:如果某一段记忆中的部分记忆特征被多次激活,获得了更高的记忆值。那么在随后的相似性激活过程中,这些记忆特征因为记忆值高,会再次获得更高的激活值,再次被选用为框架中的模仿对象。这是一个正反馈过程:被激活的次数越多,就更容易被再次激活。所以某段特定记忆中的低分辨率特征,可能被一次次激活而成为经常使用的经验片段,而这段特定记忆中的其他特征有可能会因为时间流逝而最终被遗忘。于是机器有可能每次在相似需求下,都会激活同一段记忆中的低分辨率共有特征记忆,尽管这段记忆的其他信息已经被忘记。这段记忆中的低分辨率共有特征记忆就成为能广泛使用的经验。
第三个实施例:把通过相似性激活连接起来的相似特征的激活值累计。那些累计激活值高的特征就是同类事物、场景和过程中的共有特征。机器只需要去掉部分低累计激活值特征,剩下的就可以作为框架信息。
第四个实施例:去掉概念所包含的低激活值特征或者局部特征,使用剩下的特征重组后得到的就是扩大了应用范围的概念。
机器的框架信息并不需要明确的范围。机器选用这些框架信息的方式是:先选用最高激活值(或存在最广泛)的记忆作为起点。然后选用和它连接关系密切的高激活值组合。完成后,再把剩下的特征,按照同样的方法再来一次,组合成另外一个信息块。组合的方法是:机器通过搜索并模仿和这两个过程中低分辨率特征都相关的最相关记忆,把两个过程组合起来,作为过程泛化的整体框架。
组合两个过程时的经验泛化,通常是降低两个过程中时间、空间、场景、过程的分辨率(就是去掉那些低激活值信息),然后模仿最相关记忆的组合方式,把两个过程连接起来。它们的结果通常是把相似的低分辨率特征重叠而形成的。
然后,机器通过属性泛化过程,把还没有加入到过程中,但存在于目前实际输入的信息,加入到框架信息中。加入的方法就是:通过记忆中原有的事物的属性,去掉其包含的低激活值特征,把目前实际事物也去掉其包含的低激活值特征,并寻找这两个事物的最相关记忆,模仿最相关记忆来做泛化。泛化的理论基础就是:两者之间和相似属性连接关系紧密的其他属性,可能也相似,所以可以被借鉴。
重组的实际结果通常是重叠来自不同记忆段中的、被激活信息中的图像、动作、过程、感觉、时间和空间信息的相似部分,从而构成一个更大的信息块。在这个重组过程中,机器需要根据框架信息的需求,对部分特征的观察角度进行旋转、缩放等变换,从而使得能够符合重叠的要求。而对立体空间进行旋转和缩放后的形状,这是目前行业内成熟的技术,可以直接应用于本发明申请中。它们不是本发明申请的权利要求,这里不再赘述。
上述信息重组是一个迭代过程。机器通过上述方法,不断去掉记忆中被激活的低激活值信息,从而找到可以供重组模仿的基本框架。建立基本框架后,又不断加入实际输入的信息,不断丰富框架包含的细节。每加入一批激活值在特定范围内的输入信息后,机器使用决策系统进行决策,然后由决策系统确定是否还需要进一步重组被激活信息。
如果在机器的决策系统中,机器无法做出总体响应目标,那么机器的决策系统就倾向于继续识别信息:有可能是继续采用更高分辨率查看输入数据;也有可能是把更低的激活值信息纳入信息重组;有可能是通过向外界反馈,寻求获得更多的相关信息。
上述过程一直迭代到机器能够建立总体响应目标为止(确定了奖罚信息,才能建立响应路径,才能确定总体目标)。当然,对外响应的目标,也包括对外不给出任何响应,也包括对外寻求更多的信息来确认目前输入的信息。
机器对语言信息的重建,主要通过重组来构成静态信息和动态信息,从而在机器“头脑”中,从简单到具体,逐步勾勒出一到多个动态过程。这些动态过程是输入信息的一部分,被作为一种虚拟过程存储下来,和通过其他渠道获得的记忆是一样的。只不过和这些记忆的同时存储的记忆中,有我们获得语言信息的相关记忆(比如听语音或者阅读文字),所以通过这些记忆,我们能否区分真实过程和通过语言获得的虚拟过程。当我们回忆通过语言获得的信息时,由于通过语言信息激活而重组的过程,通常和我们日常生活中很多过程存在相似片段,所以通过语言信息激活而重组的过程可能会从多个路径获得激活值,这些激活值可能超过我们回忆语言本身的激活值,所以我们通常更容易回忆起这个重组的过程,而不是语言本身。甚至我们会忘记语言本身,甚至忘记我们是通过语言获得的这些信息,而把这些重组信息误以为是我们真实的记忆。
举例说明,当朋友问“你晚上会不会来我家吃饭”时,机器得到这个输入信息后,通过链式激活过程,“会不会”可能会成为最高激活值特征。这个特征激活了一种询问的感觉,可能还激活了一个动态特征,比如一个来回移动的感觉。这是因为广泛存在的询问感觉和来回移动的感觉在低分辨率上存在相似性:一种不确定性的感觉。所以有可能“会不会”所激活的询问感觉和来回移动的不确定性感觉成为框架信息。然后机器通过参考过去的经验,理解“你”是指自己,“晚上”会激活一些晚上的典型场景和相关感觉。“来”这样的信息会激活相关动作记忆。这些记忆可能只有普遍存在的共有特征保留下来,而每一次具体过程的具体信息都已经忘记了。所以“来”这个词激发的动作特征成为了一种经验,这个经验可能来自于机器在学习过程中的某一个或者多个记忆。这些记忆有共同的“来”的动作特征。它们被激活的次数很多,从而变得更加容易被激活,从而成了“经验”。机器即使从来没有去过朋友家,但机器通过其余关于“家”的记忆和关于“朋友”的记忆,和关于特定人和特定家之间的对照经验,去掉这些经验中的低激活值信息,并重组这些高激活值信息,从而建立对“朋友的家”的预测框架。如果这是一个富有的朋友,那些关于富裕家庭的场景可能会得到更高的激活值(因为通过富裕等相关的特征会传递激活值给它们),所以重组出来的是一个初略的富裕家庭场景。如果这是一个贫困的朋友,那些关于贫困家庭的场景可能会得到更高的激活值,所以重组出来的是一个初略的贫困家庭场景。这些场景可能参与机器的决策过程。
再比如,“吃饭”这样的惯用语,可能激活很多记忆,可能是最近的吃饭场景中部分记忆,也可能是过去某一次记忆深刻的部分记忆,但这些场景中共有的部分是共通的:吃饭的感觉、氛围和过程中共有步骤。所以机器通过这些共有信息就可以预测吃饭这个过程本身带给自己的奖罚值。当然,可能还有很多之前的信息和环境信息也会参与到机器的决策中。
所以机器是通过激活信息重组,来预测吃饭可能的流程,然后把这个流程逐步细化,并预测可能给自己带来的奖罚值。直到确定了奖罚信息,建立了响应路径为止。然后使用同理心分析朋友在自己做出响应后的反馈,并把朋友的反馈对自己的奖罚值纳入考虑,并再次评估自己的决策是否满足奖罚要求。如果需要,就调整决策。上述过程迭代进行,直到机器发现各种响应路径下,最优奖罚值已经收敛了,难以进一步提高,于是机器就开始执行自己的响应。比如,机器通过以前的信息,激活了朋友是和他爸爸在一起生活。机器就可能根据过去的经验,预测到去朋友家吃晚餐可能会碰到他的爸爸。机器进一步通过参考过去类似于他爸爸这样类型的人的相关记忆,建立同理心,预测他爸爸可能会问自己很多问题。而机器通过自己的需求系统来分析,发现自己的需求是追求轻松的情绪。而根据经验,长辈问的一些问题通常给自己带来的不是轻松的情绪。所以机器通过预测,认为碰到他爸爸可能和自己的需求期望完全相反,会带来损失。由于这个损失比较大,达到了机器做出决策的置信度。于是机器不再进一步识别信息,而是开始建立响应路径。机器在规划自己的响应路径时,需要降低这个带来损失事件的发生概率。而机器根据模仿过去的经验,要避免这个事件发生有多种方法,但损失最小的一种方法是:不去朋友家吃饭(如果机器预测去朋友家吃饭收益并不高的话)。所以机器建立的响应路径可能就包含了“不去朋友家吃饭”这样的目标。然后机器继续通过输入信息和链式联想激活过程,把这个目标细化到下层路径上的子目标。细化的原则还是模仿经验和趋利避害。比如,机器激活了以往直接拒绝朋友带来的损失相关的记忆,那么机器在建立决策时,就会想法降低直接拒绝朋友这个带来损失的事件发生概率。机器在实现这个子目标时,采用的和上述一样的流程来迭代进行,找到实现这个子目标的下层子目标序列。比如激活了一些委婉词语。上述过程迭代进行,一直要迭代到机器把发出委婉词语细化到给喇叭发出驱动命令为止。机器在这个过程中,还需要随时根据新输入的信息,调整自己的决策。
S5.3,建立自我意识的实现方法。
机器在建立决策时,首先需要建立自我意识,这样才能确定奖罚信息,并通过趋利避害来选择合理的响应路径。
而机器的自我意识,包括两个方面。
一个方面是从机器自身的角度看,区分自我和他人,包括从自我身体,也包括从自我身体外延出来的自我财产,也包括从自我外延出来的抽象概念,比如所属团体、民族、国家、信仰的。
另外一个方面,是从社会的角度看,自我意识就是一种行为方式。它是机器通过关系网络和联想激活学习到各种认知后,按照“趋利避害”的方式来决定自己和外界互动的一种行为方式。从外界看,这样的行为就代表了机器能够区分自己和他人的能力,所以就具有了自我意识。
机器通过预置的自己身体的模型,了解自己的组成部分。并通过全身的传感器传递的各种数据,逐步建立和自我身体各个组成部分相关的记忆。由于身体组成部分是相互关联,很多时候这些记忆是同步发生的,所以它们可能在记忆中被彼此激活。
机器采用记忆重组的方法,建立自我形象。一种可能的具体实施例如下:机器除了使用目前关于自我的输入信息外,还需要融合目前输入信息激活的记忆中相关信息:比如视觉、听觉、触觉、嗅觉、味觉、感觉、重力感觉、肢体状态感觉、情绪和情绪状态、需求和需求状态等。机器需要采用去掉被激活的低激活值特征,然后寻找剩下的特征的最相关记忆。机器模仿最相关记忆,把这些高激活值特征组合起来,成为关于自己的框架信息块。然后把目前关于自己的信息和框架信息块,通过去掉被激活的低激活值特征,然后寻找剩下的特征的最相关记忆。机器模仿最相关记忆,把目前关于自己的信息和框架信息块组合起来。这就是机器建立的关于自身形象。比如,当我们的双手放在背后做动作,我们仿佛能看到这些动作。这就是因为我们发出神经指令、获得触觉感知,它们经常和手部相应的动作作为同时信息存储为记忆,并经过重复出现而变成了高记忆值记忆。它们激活了记忆中相似的神经指令连接的视觉,也激活了相似的本体姿态感知信息连接的视觉和触觉,也激活了相似的触觉感知信息连接的视觉,这些信息去掉低激活值信息(偶发信息)后,寻找并模仿最相关记忆,通过把相似部分重叠后,并把目前信息整合进去后,成为我们的整体形象。我们在头脑中创建了一个自我镜像,我们仿佛能看到自我镜像的动作,也包括手部的动作。
自我意识还包括抽象的自我评价。机器使用关于自身记忆中的概念,比如过去自我评价概念或者他人赋予自己的概念,去掉那些低记忆值概念,保留高记忆值概念,并通过过程泛化或者属性泛化,把这些概念重组起来,构成自我评价。一种可能的实施例是:机器在综合人类(或者机器类)的共有特征(去掉关于人类或者机器行为的细节特征),使用共有特征建立共有模型。然后机器通过调整参数或者增加参数,使得这个模型可以反映出自己的行为决策倾向的模型。这是机器对自我的认知。由于在这个过程中,机器是基于自己的奖罚系统来预测自己的行为的,所以机器建立的模型,和他人(它机器)对机器通过同理心建立的模型可能存在差异。原因是两者的奖罚系统不一样。
有了狭义的“自我身体”概念后,机器通过在学习中,逐步获得各种“收益”和“损失”与“自我身体的需求”之间的关系。所以在“趋利避害”的决策系统驱动下,机器的行为模式就可能是“占有”那些给自己带来“收益”的事物,而“躲避”那些给自己带来“损失”的事物,用于满足自己的安全感和支配权。这样,机器就会把“自我”延展到所有自己占有的,和自己利益相关的事物,包括财产、血缘关系、社会归属、社会认同等方面。机器有了延展的“自我”概念后,就能把这些关系纳入奖罚系统。比如原来属于自己占有的、带来利益的东西,失去后就会产生“损失”,这种东西可以是财产、血缘关系、社会认同、支配权、繁衍权。机器有了延展的“自我”概念后,才会有广义的“占有”和“避免”这些概念。因为“占有”和“避免”这些概念是在收益最大化,损失最小化的原则的驱动下延伸出来的。有了“占有”和“避免”这些概念,机器就能理解我们这个社会的组织、法律、规则和道德。因为我们这个社会的组织形式的核心内容就是对“占有”和“避免”的各种形式的表述。所以机器的自我意识,对内就是机器的自我形象和自我利益的综合体,对外就是表现为一种行为方式。
S5.4,同理心的实现方法。
机器在建立同理心的具体过程为:同理心的实现,第一步是在推测出其他人或者其他机器可能拥有的信息。
首先,机器把特定其他人或者其他机器作为输入信息,并通过链式联想激活,寻找记忆中关于特定其他人或者其他机器相关的记忆。
其次,机器使用这些信息,再次作为自己的输入信息,再次通过链式联想激活寻找相关记忆,寻找那些自己处于类似过程中的相关记忆,并寻找自己在这些过程中获得的信息。
然后,机器根据自己获得的信息情况,使用其中的高激活值重组成一个或者多个过程。这些过程就是机器把关于特定对象的零散的记忆,整理成关于特定对象的整体认知。对特定对象的整体认知中融合了机器自身的经验,有可能和实际情况有偏差。
同理心的实现,第二步是在推测出其他人或者其他机器可能拥有的信息的基础上,其他人或者其他机器可能做出的决策。
首先,机器需要从关于其他人或者其他机器的相关记忆中,建立分析对象(这里指其他人或者其他机器人)的需求系统和奖罚系统的参数模型。具体方法是,机器通过分析关于其他人或者其他机器人的一到多段过程。机器通过把这些过程中的初始信息,作为一种虚拟的输入信息,并按照自己的需求系统,奖励系统和情绪系统参数,做出虚拟的响应决策。
然后,机器比较分析对象实际的响应决策和自己的虚拟响应决策,把差异作为一种反馈信息,来调整自己的需求系统参数、奖罚系统参数,情绪系统参数和决策系统参数,然后再次进行虚拟输入到虚拟响应决策的过程。机器迭代使用上述过程,直到机器通过调整参数,产生的虚拟响应决策匹配了分析对象实际响应决策。这是对特定对象的行为方式建模的方法。
再其次,机器使用调整后的需求系统参数、奖罚系统参数,情绪系统参数和决策系统参数,作为一个临时的需求、奖罚、情绪和决策系统。并把分析对象所获得的信息输入到这个临时系统,然后把这个系统做出的决策作为分析对象目前可能做出的决策。
机器对具体分析对象所做的分析主要包括具体对象的决策倾向。机器把这些调整后的决策参数模型和其他输入信息一起存储下来,作为关于具体分析对象的行为和决策模型,并在后续涉及到具体分析对象时,作为模型直接使用。
同理心的另外一种简单实现方法是:我们也可以通过对机器的需求系统、奖罚系统和情绪系统做一些预置的设置,比如在奖罚系统中,建立损害他人利益时,也会给自己带来一定的损失;帮助他人获得利益时,也会给自己带来一定利益。在这些奖罚规则的约束下,机器在最大化利益的驱动下,就会平衡自己的利益和他人的利益。表现出一定的同理心。
所以,在同理心的基础上,机器会预测到团体其他成员也会表现出维护自己利益的同时,照顾到他人的利益。所以机器从追求安全感的角度,倾向于依赖于集体的力量:维护团体的利益,并同时希望团体维护自己的利益。因为机器通过社会生活认识到:个体的力量无法给自己带来足够的安全感。所以机器表现出归属感需求。
而维护团体的利益,就包括对团体内成员富有同情心,乐于助人,遵守团体的公共道德标准、文化习俗、行为习惯、共同信仰等社会化规则,这些行为动机在于希望得到团体的认可,因为这些社会化规则是我们这个星球文明的基石。
S5.5,建立机器的决策倾向。
人类存在满足好奇心的需求。好奇心可以促进人类探索未知领域。在本发明申请中,我们对机器也同样建立好奇心需求。机器的好奇心,可以在机器的奖罚系统中实现。
当机器面对输入的信息时,首先提取输入信息的整体拓扑、整体轮廓和整体动态特征,然后进入链式联想激活,进行激活的记忆信息重组,然后在重组的记忆过程中,寻找相关的收益和损失,并根据决策系统做出响应路径。
在这个决策过程中,实现好奇心的方法是:对那些无法放入记忆重组过程的信息,或者对那些相关记忆很少的信息,或者那些未知的信息,机器的奖罚系统把进一步了解新信息作为一种提高安全感的行为,这个行为作为一种奖励行为。在这种奖励机制的驱动下,机器可能在决策时,会提高对这些信息的注意力,提高对它们进一步分析的概率。
通过这样的奖罚机制,机器在做出响应决策时,会表现出对新信息的好奇心。在再次识别时,机器的响应可能是通知输入信息识别系统,采用更高的初始激活值,更高的分辨率,对新信息再次识别。上述过程可以迭代进行,使得机器可以多次识别这些新信息。
机器做出的响应决策还可能是:模仿过去识别新信息的经验,采用主动的方式和新信息互动,从而获得更多关于新信息的信息。这些都可以在通过机器的奖罚系统和决策系统来实现。
更进一步,我们对信息的识别是分为不同层次的。从宏观层次而言,我们的生活就是一个对外界信息不断识别的过程,包括宇宙、自然和其中的规律。所以在好奇心的驱动下,机器在生活中,也会表现出类似于人类的探索精神,走向自己的星辰大海。
S5.6,机器的决策过程。
机器的决策系统是机器建立对输入信息的响应路径的系统。我们可以通过预置程序或者预置记忆,来建立一些机器的本能响应。比如对从高处跌落的避免,对过热的躲避,对打击的本能躲避等。对部分本能需求的响应,比如对系统运转不正常时自动外显信息,开机后自动进行自检等预置响应。这些本能系统可以通过预置记忆或者预置需求到决策的响应来建立。按照这样的方法,我们可以对机器预置任何我们希望机器拥有的先天刺激到决策的过程。
关系网络体现了机器的常识,也包含了因果关系。
通过输入信息的链式激活过程,产生了和输入信息存在关系的被激活记忆信息。而机器的决策系统,则是在限定范围内(被激活的信息内),通过奖罚机制(就是每个信息块中包含的收益值和损失值),寻找最优路径问题。
而在有限的范围内,通过奖罚机制来寻找最优路径问题,是目前机器智能已经解决了的问题。机器在这个范围内,搜索最优路径,可以使用目前已有的任何方法,包括但不限于贝叶斯推理,决策树,知识规则,马尔科夫链,强化学习等方法。
在有了常识,有了奖罚信息,有了限定范围,寻找最优响应路径就是寻找收益最大化,损失最小化的路径。机器依据过去的经验,来推动事情的发展方向“趋利避害”。每一个加入到响应路径中的步骤,目的都是:不断提高收益值高的事件发生的概率,不断降低损失值高的事件发生概率。这是一个迭代的逐层细化过程,每一个步骤(响应路径上的子目标)又需要采用多个更加具体的步骤来实现。但每一步都是处理的方式都是一样的。
机器首先通过链式联想激活和激活信息重组过程,寻找与输入信息相关的记忆。并根据这些记忆的上下相关记忆,确定信息源发出这个指令的目的。在相似指令下,自己的惯常响应就是信息源发出这个指令的目的。如果没有惯常响应,那么他人在类似指令下的惯常响应就是信息源发出这个指令的目的。因为信息源的决策系统在发出指令前,已经预测了机器的响应,并将其响应作为目的。否则,信息源会使用其他方式。
机器根据信息源的目的和自己的需求,决定响应目标。方法是机器根据信息源的目的和自己的需求状态,重新通过链式联想激活寻找与之相关的记忆。机器对激活信息进行分段重组,把这些记忆重组成多个信息块,并使用这些信息块组成不同的响应路径。机器统计实现不同响应路径中包含的奖罚值,然后根据奖罚值的统计,不断调整自己的响应路径。这样建立的响应上只是存在一些可以模仿的经验片段,它们只是机器使用高激活值特征重组成的经验框架下的一些片段,用于确定整个响应路径上的收益值和损失值,只是一个粗略的框架过程,机器通常无法直接执行。
采用类似方法,机器把子目标作为新的总目标,再次通过层层迭代分解的方式,就可以把一个抽象的趋利避害目标,在特定输入条件下,层层分解成大量的提高或者降低某些具体事件发生的概率的任务。这些任务可以层层细分到非常具体的目标任务,比如一直分解到机器的底层驱动能力。这个过程就是机器的决策和执行系统。
由于世界的复杂性,机器在对抽象任务逐层分解的过程中,很难刚好有完全匹配的经验可以供分解过程作为参考框架。这时就需要使用被激活信息重组的方法来解决这些问题。
机器在确定了决策总的目标或者决策路径后,机器需要使用同理心的能力,把自己的响应路径作为一个虚拟输出,从而预测其他人或者其他机器对自己的响应。然后把这些响应纳入新的决策信息范围,再次采用同样的方法,来建立新的响应路径。这个过程可以迭代进行,直到奖罚值收敛为止。在同理心的驱动下,机器最终可能做出符合自己利益,也符合社会化需求的决策路径,比如遵守规则、有道德、遵守法律、有同情心、照顾集体利益等行为,并表现出自我意识。以上就是机器的决策过程。
机器的信息识别、决策过程和执行过程,可能是多个过程交织进行的。机器在新建立决策过程时,在奖罚信息评估时,需要同时考虑一个过程对所有目标的影响,这些目标包括之前的响应过程还没有完成的目标或者子目标。而同一个过程,处于不同的响应路径上,面对不同的目标(子目标),带来的奖罚信息是不一样的。所以机器需要通过统计的方法,统计一个过程对所有目标的奖罚值,并依据统计数据来搜索最优响应路径。具体实现方法是:分别寻找同一个过程和每个目标的最相关记忆,通过这些最相关记忆来分析奖罚信息,然后把同一个过程,针对不同目标的奖罚信息,进行加权统计。而加权的权重来自于机器目前的需求强度。需求越强,带来的收益和损失值越大,那么在统计过程中,和这个需求相关的目标所关联的奖罚信息的权重就越高。
正如人类一样,机器也总是处于多个进行中的过程中。这些过程就是之前的决策过程建立的,但完成它们的时间是较长的,所以出现多个过程并行。机器正是通过这样一个过程,来平衡短期奖罚信息和长期奖罚信息,也能根据目前的需求状态,来临时调整短期奖罚信息和长期奖罚信息之间的平衡。这样的决策和人类的决策过程非常相似。
S5.7,决策的执行过程。
建立模仿能力。模仿能力是人类存在于基因里的能力。所以,机器需要把模仿作为一种底层动机置入机器。使得机器愿意模仿他人(他机器)的行为,并根据自己的评估或者外界的反馈信息来不断改进,从而不断锻炼自己的各种感官、肢体、语言和动作的协调一致的能力,从而提高学习效率。在机器学习的不同阶段,我们可以给机器赋予不同强度的模仿动机。比如在机器学习语言和动作输出时,我们可以给机器直接赋予较强的模仿动机,而在其他阶段,则可以赋予正常的模仿动机。
当机器获得外界的语音或者动作输入后,这些语言或者动作会激活机器自己的相关记忆。这些记忆可能是一个相似的发音,或者一个基础的动作片段。这些记忆会进一步激活和这些记忆相关的感觉信息、需求和情绪信息、语言或者动作记忆。机器在模仿动机的驱动下,会以这些被激活的记忆为基础,通过决策系统来通过调整经验中的底层驱动参数来做出类似的语音输出或者动作输出。而底层驱动是指语音输出底层经验,或者动作输出底层经验。它们是特定语音或者动作对应的肌肉驱动命令,其中参数是通过后天学习并不断通过反馈来更新的。
机器建立预置的能力。人类可以给机器预置一些最基本的语音或者动作(包括表情和肢体语言)能力。它们是预置给机器面对一些输入信息时的响应策略和执行流程。这些预置程序的参数优化可以通过后续学习和训练,让这些参数和行为的结果通过记忆联想起来,包含奖罚信息。并在奖罚信息的参与下,逐步被优化。
人类还可以给机器赋予预置的条件反射系统。这些系统的作用就是在特定的输入情况下,人类希望机器做出的快速响应,它们也是预置的能力的一部分。比如机器在危急情况下的躲避动作,或者机器在特定信息输入下的特定输出动作(比如特定的静态或者动态符号,让机器进入用于机器的自检,或者紧急停机,或者调整机器的工作状态等目的)。
机器建立执行过程。在有了以上各种基础能力后,机器才能够根据自己的决策,来具体执行响应。比如语言输出、动作输出(包括表情和肢体语言输出)或者其他形式的输出(比如输出数据流、图像等)。执行响应步骤是一个把规划翻译成实际输出的过程。
如果在选择各种可能的响应步骤中,机器选用的是语音输出,这就比较简单,只需要把准备输出的图像特征,通过概念内翻译转变为语音,然后利用关系网络中的语言之间的关系(存在于关系网络中的语法知识),组织成语言输出序列,并调用发音经验来实施就可以了。需要指出,机器可能根据经验(自己或者他人经验),选用一些表达整个句子的动态特征(比如使用语气、音频音调或者重音变化的不同运动模式,来表达疑问、嘲弄、不信任、强调重点等人类常用方式。这些方式通常是一句话或者整段语音的低分辨率特征)。因为机器是从人类生活中学习到这些表达方式的,所以人类任何表达方式,理论上机器都可以学习到。
如果机器选用的是动作输出,或者是语音和动作混合输出,那么问题就会变得复杂很多。这相当于组织起一场活动。机器的响应规划中,可能只有主要子目标和最终目标,其余都需要在实践中随机应变。
机器需要把准备输出的序列目标响应,按照这些目标涉及到不同的时间和空间,对它们在时间和空间上做划分,便于协调自己的执行效率。采用的方法是通过选择时间上紧密联系的目标和空间上紧密联系的目标作为分组。因为动态特征图和静态特征图结合后构成的信息组合,其相关记忆的环境空间是带有时间和空间信息的,所以这一步可以采用归类方法。这一步相当于从总剧本改写到分剧本。
机器需要把每个环节中的中间目标,作为新的总目标,并再次结合现实环境,作为新的输入信息,通过链式联想激活过程,寻找相关记忆,并再次采用激活信息分段重组的方法,来构成实现这个中间目标的响应路径。这个过程和实现总目标的过程都是同样的流程,也是由决策系统来完成。
机器在顶层提出的响应规划,通常只是使用概括性很高的过程特征,和概括性很高的静态概念组成的(因为这些概括性很高的过程才能找到多个相似的记忆,所以借鉴它们建立的响应也是高度概括的)。比如“出差”这个总输出响应下面,“去机场”是一个中间环节目标。但这个目标依然很抽象,机器是无法执行模仿的。
所以机器需要按照时间和空间划分,把在目前时间和空间中,需要执行的环节作为目前的目标。而把其他时间和空间的目标作为继承目标,暂时放到一边。机器把中间环节作为目标后,机器还是需要进一步细分时间和空间(再次写下级分剧本)。这是一个时间和空间分辨率不断增加的过程。机器把一个目标转换成多个中间环节目标的过程,依然是使用决策能力,分析各种可能的结果和可能发生的概率,并按照“趋利避害”的原则来选择自己的响应的过程。上述过程是不断迭代,每一个目标划分成多个中间目标的程是完全相似的处理流程。一直要分解到机器的底层经验为止。底层经验对语言来说就是调动肌肉发出音节。对动作而言,就是分解到对相关“肌肉”发出驱动命令。这是一个塔形分解结构。机器从顶层目标开始,把一个目标分解成多个中间环节目标。这个过程就是创建虚拟的中间过程目标,如果这些中间过程目标“符合要求”就保留。如果“不符合要求”就重新创建。这个过程逐层展开,最终建立机器丰富多彩的响应。
在这个过程中,机器随时可能碰到新信息,导致机器需要处理各种信息,而这些原来的目标就变成继承动机。这就相当于组织活动的过程中,不断碰到新情况,需要立即解决,否者活动就无法组织下去了。于是导演叫停其他活动,先来解决眼前碰到的问题。解决后,活动继续进行。另外一种情况就是在这个过程中,导演突然接到一个新任务,于是导演权衡利弊后,决定活动先暂停,优先处理新任务。
机器是一边执行可以进行的模仿任务,一边分解其他目标到更细致目标的。所以机器是边做边想的。这是因为现实情况千差万别,机器不可能事先都知道外界情况而做出计划。所以这是一个环境和机器互动来完成的一个目标的过程。
所以本发明申请中,机器是在不完备的信息情况下,通过部分信息来做出最优决策并执行,并根据得到的信息不断丰富,而不断调整自己的响应决策和执行过程。至此,机器利用上述各项能力就可以完成一次对输入信息的理解和响应。这个过程作为机器和外界互动的一个最小周期。机器不断重复是使用这个过程,来完成更大的目标,表现为机器和外界的持续互动过程,表现出机器智能。
需要特别指出,机器从外界信息输入和完成响应的过程,并非是串联进行的,而是多个过程交织进行的。机器在一个输入、决策和响应过程中,可能出现其他的输入、决策和响应过程。机器需要把所有过程的输入信息、决策目标和响应路径汇总为总的输入信息、总的决策目标和总的响应路径来考虑。而这些总的输入信息、总的决策目标和总的响应路径是根据输入信息的变化而随时调整的。所以机器的信息提取、决策和响应执行过程是持续工作的。
需要指出,在本发明申请中,机器对动作的执行,是决策系统的一部分。机器的动作是对过去经验的模仿(或者在没有直接经验的情况下,通过分段重组后建立了可模仿的经验)。所以机器的动作,不仅仅涉及到机器的动作驱动部分,也不仅仅涉及到动作模仿,而是涉及到全面的模仿,包括信息识别、经验重组和全身驱动模仿,所以机器的动作是由所有输入信息和过去的经验来决定的,机器的动作模仿是机器的响应执行系统的一部分,而不是由单独的动作控制系统来决定的。
5.8,创建新知识。
知识就是使用符号来表达信息之间的连接关系。机器发现新知识的过程,包括两个步骤。首先,机器发现信息之间的连接关系。其次,机器模仿已有经验,使用符号来表达这种连接关系。
机器可以拥有在广度和深度上远超人类感知的传感器,比如红外传感器、磁场感应器、次声波和超声波收发、射线透视等各类超越人类感知的传感器,机器也可以拥有远超人类感知精度的传感器,比如人体的精细温度分布、对细小物体的显微分辨等。另外,机器可以通过联网的方式,把网络上的传感器作为自己的传感器,这样机器拥有的传感器检测的范围远远超越人类。这些传感器获取的数据,和类似与人类感知的视觉、触觉、嗅觉、听觉传感器的数据,通过同时性存储,通过记忆和遗忘机制,它们共同成为关系网络的一部分。在链式联想激活过程中,有连接关系的记忆可能彼此传递激活值,从而彼此加强记忆值,从而增加了彼此之间的连接关系。这些连接关系通过在生活中重复出现而不断加强,最终表现出比其他连接关系更加紧密的连接关系。这些连接关系中,那些超越人类知识所表达的部分,就是可以产生新知识的部分。
其次,机器通过模仿自己记忆的信息连接关系,和人类用于描述这种连接关系的符号序列,从简单到复杂,就可以逐步建立表达信息之间连接关系的符号序列,这种符号序列可能是人类还没有的,这就是机器创建的新知识。
机器对知识的创建过程和对知识的学习过程是并行的。比如在简单的方程学习中,学习了使用抽象符号代表一类未知量,而未知量这个概念可能包含了一类模糊的物体轮廓,还可能包含不确定数量或者性质的多层次感觉特征数据。而模糊的物体轮廓和多层次感觉特征数据正是来自于机器自身的学习过程中:机器在少年时,学习未知量的过程中,从各种具体物体的多层次多分辨率特征中,获得了用于学习的物体的共有抽象特征(比如模糊的物体轮廓,或者某种共有感觉),这些共有特征和这个概念之间建立了记忆值更紧密的连接,从而它们和这个概念相关的符号之间相互在激活过程中传递激活值,从而相互代表。这些共有特征同样可能出现在机器获得的某一类其他事物之中(即使这些事物在人类的知识之外),机器通过这些事物也包含的共有特征,从而泛化到使用符号来代表这类事物,并按照类似的方法,使用符号来表示新事物和其他事物之间的关系。这就是新知识。
所以机器通过学习过程中获得的知识表达方法,来表达自己发现的信息之间的关系。如果这些关系是人类还没有发现的,或者是机器采用不同于人类已有的表达方式,那么这些知识就是新知识。所以,通过本发明申请建立的机器智能,是通用任务的机器智能,是具有开拓创新的机器智能,它将通过创建新知识,帮助人类解决问题。
S6,流程说明。
图1为整体流程功能简图。S101代表输入信息。输入信息包括外部信息、内部信息、需求信息、奖罚信息、情绪信息和之前被激活的记忆信息。
S102是多分辨率特征提取。这个模块是机器建立经验泛化的关键模块。机器按照注意力区间内整体特征优先的原则,提取输入信息中的特征。
S103是记忆模块。其中链式激活模块主要是通过给记忆中特征赋予激活值来实现链式联想激活过程,包括相似性搜索和赋值模块、临近赋值模块和按照记忆值赋值计算模块。记忆存储模块主要是实现同时性记忆存储、记忆筛选机制和记忆值维护机制(记忆和遗忘过程)。
S104是激活信息重组过程。激活信息重组过程,是机器利用对输入信息中概念的迭代识别和对经验的泛化,来实现对激活信息的分段重组。其中,对概念的迭代识别过程是识别输入信息中信息块的过程。在这个过程中,机器通过以最高激活值特征作为中心,把与它相互传递较高激活值的信息重组为一个整体,这就是一个信息块,它通常是一到多个概念组成。其中重组的静态环境框架就是“环境地图框架信息”,而重组的动态过程框架就是“动态过程框架信息”。之所以它们是框架信息,是因为重组时,选用了高激活值特征,去掉了低激活值特征。这些特征要么是相似事物、场景和过程中的共有特征,要么是和输入信息存在紧密关系。而那些在具体记忆中偶然出现的特征通常记忆值低,从而激活值低,从而被忽略了。所以它们重组后的环境或者过程,是一个可用于模仿的初略小框架。在这个重组的过程中,机器可能需要寻找和这些高激活值信息都相关的最相关记忆作为参考。这个过程是迭代进行的。
机器把多个小框架按照合理次序重组起来。这就是过程泛化。过程泛化和上述重组单个框架是一样的。它是把单个框架作为一个整体激活特征,以框架为单元,寻找高激活值单元的最相关记忆作为参考,按照和上述一样的流程,把小框架重组和大框架。这个过程也是迭代进行的。
机器还需要对重组的框架加入符合目前实际情况的细节信息。这就是属性泛化。属性泛化的本质:当机器无法找到同时匹配目前细节和对应的框架结合点经验时,机器通过寻找能在低分辨率上,同时最优匹配目前细节和框架的经验。然后尝试把目前细节加入到合适的框架结合点上。属性泛化的基础是:假设低分辨率特征匹配,那么和这个特征相关的其他属性可能也是匹配的。
上述过程可以简要描述为:输入信息激活了记忆中相关记忆信息。然后机器通过去掉细节,寻找关键信息的一到多段重组经验,并模仿这些经验把关系信息组合起来形成框架。框架在语言中就是句型和常用语,在动作中就是动作特征,在过程中就是过程的关键步骤。然后机器再次寻找把现实细节加入这个框架的相关经验,然后模仿这些经验,把现实细节加入到框架中,重组为一到多个合理的过程。
S105是机器的决策系统。机器的决策系统包括:在概念的迭代识别过程中:当机器首先得到整体信息时,机器对整体信息做链式联想激活,并对激活信息重组。这些信息块就是一到多个概念,它们中最高激活值的通常是语言特征或者该概念的特有特征。由于缺乏激活值凸显出来的特征(比其他激活值高出预设标准),所以它们的置信度都不高。机器在统计奖罚信息时,既要考虑每个概念块带来的奖罚信息,还要考虑它们发生的概率。所以机器需要在目前被激活信息所限定的范围内,以及目前的奖罚信息状态下,搜索最优响应路径。而搜索原则就是趋利避害。比如输入信息可能属于某一个可能带来很大损失的概念,即使机器认为目前信息下,确认是这个概念的概率很低,但按照统计得到的损失值高,机器是按照奖罚信息来确定置信度的,于是认为置信度已经达到,需要立即选择逃避。比如收益值很高,即使概率很低,但统计收益值高,机器可能也会去试一试,尽管它觉得输入信息属于带来高收益值信息的概率比较低,但按照统计算收益值较高,值的立即尝试。或者即使它发现在尝试的路径上可能带来损失,它也会因为总的统计收益值高而做出尝试的决策。还有可能是机器发现概念的置信度很低,无法建立合理的奖罚信息,于是机器的决策就是进一步确认输入信息:机器建立注意力区间和预测的分辨率,进一步寻找其他线索来确认输入信息。上述过程就是S105、S106和S107所组成的过程。
机器迭代使用S102、S103、S104、S105、S106和S107组成的过程,直到机器在决策过程中,确定了奖罚信息,并根据奖罚信息优选出了响应路径为止。
机器确定奖罚信息,只需要框架信息就可以了,并不需要非常细节的过程。这是因为奖罚信息通常是和框架信息之间连接的,存在于概念之中。比如机器发现主人生病,并做出送主人去医院的决策,它并不需要把响应路径上的每一个细节都考虑到。比如如何走到门把手那儿去打开门等细节。
S108、S109、S110和S111是机器对决策的执行过程。S108是机器开始执行决策,S109是机器把响应路径上的目标,分析其中包含的时间、空间和目前条件信息,并再次使用S101到S107的流程,寻找过去的相关经验,建立主要的执行次序,并建立第一个执行子目标。
然后机器把第一个执行子目标作为总目标,再次走S101到S107的流程,来建立第一个执行子目标的响应路径。上述过程迭代进行,一直要迭代到机器可以直接执行的子目标为止。比如迭代到机器驱动喇叭发出声音或者驱动关节做出表情或者动作。
机器通过不断迭代使用上述过程,来完成响应路径。在这个执行过程中,可能不断有新信息加入,比如发现新情况,或者有了新任务,机器需要把这些新信息合并到输入信息中,新信息建立的目标合并到总响应路径中。所以机器的执行过程,可能是多目标执行过程交织进行的。
图3是一种激活信息重组流程实施例示意图。S301是降低两个需要泛化的信息块的分辨率。
S302是通过链式联想激活,找到包含这两个低分辨率组合相关的记忆。因为降低分辨率后的特征通常是低分辨率特征(它们广泛存在于同类事物、场景和过程中),所以相对容易找到用于重组过程中作为参考的最相关记忆。如果找不到,就需要在S301中进一步去掉更多的低激活值信息,直到能找到为止。
在S303中,机器模仿这些记忆,把这些信息重组起来,这就是一个信息块,这就是一个小框架。在S304中,这个小框架作为一个或者多个概念输出(这就是概念的迭代识别过程。S303和S304过程有可能会调用S101到S107全部流程)。
S305是机器把小框架作为整体,采用类似S301到S304的方法,寻找经验并组合这些小框架,构成一到多个大的过程。在S306中,是机器的决策系统分析目前识别出来的奖罚信息,决定是否还需要进一步重组激活信息,还是进入响应过程。奖罚信息通常是包含在小框架中的。是一些相对独立的过程。比如失去给自己带来收益的东西、获得认同、失去支配权、自己身体被伤害等过程,它们是类似过程中的共有特征,在结合具体的细节后,就可以确定具体的奖罚值。
S307是机器输出重组后的过程。这些过程是机器确定奖罚信息,用于预测信息源的目的,并寻找过去相关经验来组织响应路径的依据。
所以记忆重组流程是整个机器智能实现的一部分。但记忆重组过程中,也用到了机器智能的各个模块。所以图1、图2和图3的过程是交织进行的。

Claims (16)

1.一种类人通用人工智能的实现方法,其特征在于,包括:
S1,机器对传感器数据做特征提取,以获得信息特征;
S2,机器对信息特征做存储;
S3,机器建立知识表征体系;
S4,机器建立需求系统、情绪系统和奖罚系统;
S5,建立通用机器智能;
在S4,模仿关系网络中的链式联想激活原则,给机器建立预置的关系网络;预置的关系网络包括预置的基础特征和人类认为与之相关的需求符号、奖罚符号和情绪符号,以及它们之间的激活值传递关系;
在S1中,机器从外部输入信息或者自身运行信息中提取基础特征;在S2和S3中,机器对这些基础特征赋予初始激活值,并通过链式联想激活过程在关系网络中传播激活值;机器把获得激活值超过阈值的需求符号、奖罚符号和情绪符号也作为一种输入信息,把这些被激活的需求符号、奖罚符号和情绪符号,和机器从外部输入信息或者自身运行信息中提取基础特征,按照同时性存储方法存储在记忆中;这些后天存储的记忆,通过记忆和遗忘机制优化后,和预置的关系网络共同构成了机器的整体关系网络,作为知识表征体系;
在S5中,机器利用S3的知识表征体系实现通用人工智能;步骤S5的建立通用人工智能包括:S5.4,进行同理心的建立;其中机器在选择合理的响应路径时,推测其他人或者其他机器对自己的响应路径做出的可能反馈,所述可能反馈会影响到机器响应路径实际的奖罚信息;机器需要通过迭代的方式,来确定每一条响应路径最终可能的奖罚值;“同理心”包括建立分析对象的需求系统和奖罚系统的参数模型,机器在多次分析所述分析对象的过程中,建立高记忆值共有特征组合,作为机器对待分析对象的共有推测模型;然后,机器调整初始激活值赋值系统、需求系统、奖罚系统、情绪系统、决策系统和执行系统中预置程序的相关参数,迭代使用上述过程,直到机器通过部分调整参数或者加入更多参数,产生的虚拟需求、情绪和决策响应匹配所述分析对象实际响应决策为止;机器把调整后的参数模型和同时性的输入信息一起存储下来,作为关于具体分析对象的行为和决策模型,并在后续涉及到具体分析对象时,作为相关记忆直接使用;
每一次链式联想激活完成后,机器把所有的被激活的基础特征作为机器的工作空间;机器在工作空间中搜索激活值超过预设阈值的奖罚符号;机器以实现每一个奖励,避免每一个惩罚为目标,自主创建多目标任务;
机器基于与被激活信息存在激活值传递关系的一到多段记忆,按照趋利避害的决策系统,通过响应路径搜索和响应路径重组来创建能够实现奖励最大化和惩罚最小化的响应路径;“趋利避害”包括机器首先建立初略的框架信息,然后逐步细化框架信息;在过程中,不断根据奖罚信息调整自己的决策路径;每一个加入到响应路径中的细节步骤,目的都是不断提高收益值高的事件发生的概率,不断降低损失值高的事件发生概率;
机器在确定了决策总的目标或者决策路径后,机器使用S5.4建立的同理心决策模型来预测外界对自己的响应路径可能的反馈,并再次分析所述反馈对自己奖罚评估结果的影响,并再次把这个外界可能的反馈,作为新信息加入到决策的信息搜索范围,再次在这个范围内,采用机器决策过程,来重新搜索最优响应路径;这个过程迭代进行,直到所创建的响应路径带来的奖罚值满足预设标准或者收敛为止。
2.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,S5包括:
S5.1,进行经验泛化的实现;机器通过降低概念X的分辨率,在记忆中寻找和概念X对应相似度最高的概念Y;如果X和Y存在相似的特征L,则机器假设在自己的经验中,和相似特征L相关的经验用于概念X,也用于相似度最高的概念Y;如果机器在记忆中找不到和概念X相似的概念,机器就继续降低概念X的分辨率,来迭代进行上述过程;
S5.2,进行激活信息的分段重组的实现;机器通过模仿在经验泛化中找到的相似概念在记忆中的组合方式,来组织机器识别输入信息中的模型;其中机器识别输入信息的整个过程表现为机器通过把已经激活的概念中,以激活值高的信息特征作为模型;机器使用所述模型来分割输入的信息特征;并通过对比模型和输入,利用决策系统,来确定需要进一步识别的区间和需要采用的分辨率;机器通过反复迭代的方式来识别更多的输入信息;在这个过程中,先前被激活的记忆,激活值会随时间消退;而被新信息所激活的记忆的激活值会持续增加或者保持;
S5.3,在步骤S5.4前,建立自我意识;其中奖罚信息与自我意识密切相关,机器通过趋利避害的决策系统来选择合理的响应路径;机器建立自我意识中,通过统计所有可能的响应路径中所包含的和自己相关的奖罚信息,并按照趋利避害的决策系统来选择合理的响应路径;所有可能的响应路径都是由激活值高的信息特征作为模型,并按照经验泛化过程中找到的一段或者多段相似组织模型的组织方式,并通过分段模仿而建立的;确定被激活的奖罚信息属于哪一条路径的方法是通过分析该奖罚符号的激活值来自于哪一条路径而确定的;奖罚信息的大小和该奖罚符号的激活值成正相关;
S5.4,包括:机器是根据自己所建立的其他人或者其他机器的模型来推测其他人或者其他机器的可能反馈,以建立同理心;其中所述推测方式包括:第一步是推测出其他人或者其他机器可能拥有的信息;第二步是在推测出其他人或者其他机器在拥有的信息的基础上做出的决策;或者,建立同理心的另外一种方法是把自己的收益和损失,与他人的收益和损失,通过预置程序建立联系,从而在建立响应路径时,表现出选取平衡自己的收益和损失与他人的收益和损失的路径,从而表现出遵从社会性要求的需求,展现出同理心;
S5.5,建立机器的决策倾向;其中机器的决策倾向是赋予每个机器不同个性;
S5.6,进行机器的决策;其中使用的机器的决策系统是机器建立对输入信息的响应路径的功能系统;
S5.7,进行决策的执行;其中机器的执行过程本质上是一个分段模仿过程;机器通过分段模仿过程,把响应路径逐步分解到底层驱动命令为止;
S5.8,创建新知识的步骤;其中,S5.8中,知识使用符号来表达信息之间的连接关系;首先,机器发现信息之间的连接关系;其次,机器模仿已有连接和知识之间的表达方式,来创建连接关系和知识表达之间的映射;如果所述知识表达是人类没有的,即是新知识。
3.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,机器的先天知识采用预置关系网络的形式来实现;机器后天获得的知识是在预置的关系网络基础上,通过扩展预置关系网络而形成,扩展后的网络统称为关系网络;关系网络的节点是基础特征,关系网络节点之间的关系线是节点之间的激活值传递关系。
4.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,在S5中,机器在工作空间中搜索激活值超过预设阈值的奖罚符号,并以实现奖励符号,避免惩罚符号为目标,自主创建多目标任务;机器的所有任务是机器自身创建的,而不是外界赋予的。
5.根据权利要求4所述的类人通用人工智能的实现方法,其特征在于,机器对输入信息的识别过程,是一个迭代识别过程;机器通过把这些已经激活的概念中,激活值高的特征,按照链式激活中激活值传递关系的紧密程度,组合成预期模型;那些激活值传递关系紧密的基础特征属于同一个预期模型,而那些激活值传递关系不紧密的基础特征属于不同的预期模型;机器使用这些预期模型,来分割输入的信息特征,并通过对比预期模型和输入,来确定需要进一步识别的预期特征所处区间和需要采用的分辨率,以及根据预期的奖罚信息来调整初始激活值赋值程序的参数。
6.根据权利要求5所述的类人通用人工智能的实现方法,其特征在于,机器在迭代识别输入信息的过程中,先前被激活的记忆,其激活值会随时间消退,而那些被新特征所激活的记忆,其激活值会持续增加或者保持,这样机器就通过逐步增加的概念识别标准,逐步缩小激活值的“凸显”范围,从而实现被激活的概念从抽象走向具体的识别过程;
机器是否进一步迭代识别输入信息,是由S5中决策系统中创建的响应路径来决定的。
7.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,S1用于机器识别输入信息步骤,S1包括:
S1.1,基础特征选取;其中机器需要提取的基础信息特征为局部共有信息特征;
S1.2,分层表征;其中对输入信息采用不同层次的分辨率提取其中的信息特征,优先提取整体的拓扑特征、轮廓特征和整体动态特征,同一个事物或者过程可能同时有多层不同分辨率的信息特征来代表;
S1.3,建立模式识别和注意力机制;机器通过优先提取输入信息中一到多个分辨率层次上的基础信息特征,并使用所述信息特征在记忆中做链式联想激活,机器挑选被激活的共有特征,通过激活信息重组的方法,建立输入信息的预期模型;
S1.4,进行置信度浮动;机器的决策系统判断所述预期模型是否达到置信度的预设标准;S1过程迭代进行,提取的信息按照同时性信息存储方法存储为记忆,直到机器的决策系统认为获得的信息已经足够确认可能的奖罚信息为止;
其中机器按照整体特征优先的方式提取注意力区间的信息特征,使用这些特征做链式联想激活;机器选用共有特征,使用激活信息重组的方法,把选出的特征组合作为识别输入信息的预期模型;机器使用决策系统来确定预期模型是否达到置信度;如果置信度达到预设标准,机器使用预期模型分割输入信息,并由决策系统决定是否进一步识别其他输入信息;如果置信度没有达到预设标准,机器对比预期模型和输入信息之间的差异,并按照激活值高的差异在预期模型中所处的时间位置、空间位置和大小来设置注意力的时间位置、空间位置、分辨率和相应的初始激活值赋值程序的参数。
8.根据权利要求7所述的类人通用人工智能的实现方法,其特征在于,S1.4中机器的决策系统判断预期模型是否达到置信度的预设标准,是判断预期模型带来的奖罚值大小是否达到预设标准,所述预设标准在迭代识别过程中是浮动的;
机器通过确认带来奖罚值的预期模型A发生的概率P,和预期模型A带来的奖罚值V,按照R=f(P,V)来确认奖罚信息,其中R是预期模型A的奖罚信息,f是统计函数。
9.根据权利要求7所述的方法,其特征在于,
S1的机器在识别输入信息的过程中,通过不断增加的识别区间和识别分辨率来获得更多的输入特征;新的输入特征发起的链式联想激活过程,会改变整个激活值分布;机器根据新的激活值分布,迭代使用权利要求7或8中的方法,逐渐增加预测模型包含的特征数量,这会逐渐缩小预测模型所包含的范围,从而使得预测模型从宽泛的概念走向具体的概念。
10.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,S4包括:S4.1,建立机器维护自身运行状态的需求;对机器的各种运行状态使用符号来代表,并对这些符号建立合理的区间范围;当机器发现需求符号偏离运行参数的合理区间时,机器产生让自身运行状态回到合理区间的需求;需求大小使用符号或者数字来表达并和参数偏离合理区间的程度相关;
S4.2,建立机器的安全感需求;如果机器预测自己不能很好的维护自身运行状态,就产生不安全感;当机器处于不安全感时,机器的响倾向于着手解决给自己带来不安全感的因素,表现出机器对安全感的需求;
S4.3,进行机器情绪系统的实现;其中情绪是根据需求系统和奖罚系统的状态,通过预置程序来实现;其中机器的情绪和情绪的外显之间是双层调控的,底层调控是本能情绪外显,通过预置程序来实现情绪到情绪外显之间的映射;而机器实际情绪外显是由机器的决策系统,通过趋利避害的决策系统,模仿过去的经验来调控的;
S4.4,进行机器奖罚系统的实现;
其中机器的预置奖罚信息系统通过直接修改机器关系网络来建立,并通过学习不断完善;
机器在学习过程中,所建立的其他信息到奖罚符号的激活值传递路径就是机器的奖罚系统;当机器的奖罚符号被激活后,奖罚符号作为一种输入信息,存储在记忆中,并构成关系网络的一部分。
11.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,S4中机器建立机器奖罚系统的方法包括:
机器使用一到多个符号来代表不同类型的奖罚信息,并根据需求被满足的状态来产生对应的奖罚信息;
机器通过预置一套基础符号来获得外界反馈的奖罚信息;
机器通过修改记忆来预置一部分奖罚信息,并通过外界反馈的奖罚信息,来完善自己的奖罚系统;
机器把获得的奖罚信息和包括需求信息、情绪信息和其他传感器信息的其他输入信息一起作为记忆信息存储,并通过记忆和遗忘机制来建立彼此连接关系;这种连接关系成为关系网络的一部分;机器通过链式联想激活过程,寻找和重组后的事、场景或者过程相似的事物、场景或者过程,作为最相关记忆;机器通过统计最相关记忆中所有奖罚符号被赋予的激活值,来确定重组后过程可能的奖罚值。
12.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,激活信息重组的方法包括:
机器在被激活的信息中,挑选共有特征,并寻找和挑选出来的特征都相关的最相关记忆;机器通过分段模仿最相关记忆中这些特征的组合方式,把这些特征重组成一个或者多个静态或者动态的预期模型,所述预期模型作为概念或者概念组合;
机器以所述概念或者概念组合为单元,再次寻找和所述概念或者概念组合都相关的最相关记忆,机器通过分段模仿最相关记忆中所述概念或者概念组合的组合方式,组成更大的框架过程;
机器使用两个概念或者概念组合中包含的共有特征作为桥梁,通过和所述共有特征连接紧密的其他特征可能也是相似的假设,来泛化两个概念或者概念组合之间的相关经验;
在激活信息重组过程中,机器会对特征或者框架特征,做观察角度和大小的调整,从而使得重组后的记忆,和最相关记忆相似度更高。
13.根据权利要求2所述的类人通用人工智能的实现方法,其特征在于,机器的决策步骤S5.6包括:
机器的决策信息搜索范围限定在被激活的信息范围之内;
机器通过信息重组获得的过程框架中,所激活的奖罚信息,来预测潜在的奖罚信息;
机器通过奖罚信息,在被激活的信息范围内,按照趋利避害的决策系统,搜索最优响应路径。
14.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,机器在建立响应路径的同时,对所述响应路径进行分解和执行;
机器根据在分解和执行过程中新获得的信息加入决策信息搜索范围内,并重新寻找最优响应路径。
15.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,包括:
机器以交织进行的方式同时执行多个决策过程和决策执行过程;
机器在建立决策过程时,进行奖罚信息评估时,同时考虑一个过程对所有响应过程的影响,部分响应过程中的目标是以前的执行过程中还没有完成的目标;
当同一个过程对不同的目标而言,带来的奖罚信息是不一样的,机器通过统计方法统计一个决策过程对所有目标的奖罚值,并依据所述统计方法确定的奖罚值来选择最优响应路径。
16.根据权利要求1所述的类人通用人工智能的实现方法,其特征在于,当语言输入时,所述语言包括语言本身和语言组合的整体信息,其中重音变化、语调变化、语气变化、表示不信任的语气或者嘲弄的语调所代表的相关记忆被激活,被激活的信息构成了一个激活信息流,机器是通过激活信息重组的方法,建立和语言输入对应的重组后过程作为实际的输入信息。
CN202011121889.0A 2020-04-30 2020-10-20 一种实现类人通用人工智能机器的方法 Active CN112215346B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011121889.0A CN112215346B (zh) 2020-10-20 2020-10-20 一种实现类人通用人工智能机器的方法
PCT/CN2021/086573 WO2021218614A1 (zh) 2020-04-30 2021-04-12 通用人工智能的体系建立
US17/565,449 US11715291B2 (en) 2020-04-30 2021-12-29 Establishment of general-purpose artificial intelligence system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011121889.0A CN112215346B (zh) 2020-10-20 2020-10-20 一种实现类人通用人工智能机器的方法

Publications (2)

Publication Number Publication Date
CN112215346A CN112215346A (zh) 2021-01-12
CN112215346B true CN112215346B (zh) 2021-11-02

Family

ID=74055914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011121889.0A Active CN112215346B (zh) 2020-04-30 2020-10-20 一种实现类人通用人工智能机器的方法

Country Status (1)

Country Link
CN (1) CN112215346B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218614A1 (zh) 2020-04-30 2021-11-04 陈永聪 通用人工智能的体系建立
CN114842524B (zh) * 2022-03-16 2023-03-10 电子科技大学 一种基于不规则显著性像素簇的人脸鉴伪方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000064933A (ja) * 1998-08-19 2000-03-03 Yamaha Motor Co Ltd 2サイクル筒内噴射エンジンの始動方法
WO2015125017A2 (en) * 2014-02-20 2015-08-27 Mark Oleynik Methods and systems for food preparation in a robotic cooking kitchen
CA3087780A1 (en) * 2017-02-01 2018-08-09 Cerebian Inc. System and method for measuring perceptual experiences
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN110119844B (zh) * 2019-05-08 2021-02-12 中国科学院自动化研究所 引入情绪调控机制的机器人运动决策方法、系统、装置
CN111582457A (zh) * 2020-05-11 2020-08-25 陈永聪 一种模仿人类记忆来实现通用机器智能的方法

Also Published As

Publication number Publication date
CN112215346A (zh) 2021-01-12

Similar Documents

Publication Publication Date Title
US11514305B1 (en) Intelligent control with hierarchical stacked neural networks
Menges et al. Computational design thinking: computation design thinking
Janssen Complexity and ecosystem management: the theory and practice of multi-agent systems
CN111553467B (zh) 一种实现通用人工智能的方法
CN111652357B (zh) 一种利用基于图的特定目标网络解决视频问答问题的方法及其系统
US20070156625A1 (en) Method for movie animation
CN112215346B (zh) 一种实现类人通用人工智能机器的方法
WO2021226731A1 (zh) 一种模仿人类记忆来实现通用机器智能的方法
WO2021223042A1 (zh) 一种类似于人类智能的机器智能实现方法
Reva Logic, Reasoning, Decision-Making
US11715291B2 (en) Establishment of general-purpose artificial intelligence system
CN114020954A (zh) 一种用于体现用户意图和风格的个性化图像描述方法
CN113962353A (zh) 一种建立强人工智能的方法
CN112016664A (zh) 一种实现类人通用人工智能机器的方法
WO2022109759A1 (zh) 一种类人通用人工智能的实现方法
WO2007092795A2 (en) Method for movie animation
WO2022016299A1 (zh) 一种建立强人工智能的方法
Okada et al. Towards affective integration of vision, behavior, and speech processing
Torres et al. The ANIMUS Project: a framework for the creation of interactive creatures in immersed environments
Edelman et al. Learning as formation of low-dimensional representation spaces
Ogiso et al. Expression of Emotion in Robots Using a Flow ofArtificial Consciousness
Yue A world-self model towards understanding intelligence
Sajadi et al. Polynomials in hybrid artificial intelligence
Chen et al. A new solution and concrete implementation steps for Artificial General Intelligence
Khan et al. Agent-based crowd simulation: an in-depth survey of determining factors for heterogeneous behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant