CN118261192A - 一种通用智能体及其控制方法 - Google Patents
一种通用智能体及其控制方法 Download PDFInfo
- Publication number
- CN118261192A CN118261192A CN202410426223.8A CN202410426223A CN118261192A CN 118261192 A CN118261192 A CN 118261192A CN 202410426223 A CN202410426223 A CN 202410426223A CN 118261192 A CN118261192 A CN 118261192A
- Authority
- CN
- China
- Prior art keywords
- module
- model
- logic
- concept
- scene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 230000008447 perception Effects 0.000 claims abstract description 74
- 230000019771 cognition Effects 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims abstract description 12
- 238000010276 construction Methods 0.000 claims description 68
- 230000000763 evoking effect Effects 0.000 claims description 32
- 230000009471 action Effects 0.000 claims description 21
- 230000001149 cognitive effect Effects 0.000 claims description 20
- 230000001953 sensory effect Effects 0.000 claims description 19
- 230000010365 information processing Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 14
- 230000008859 change Effects 0.000 claims description 13
- 230000003993 interaction Effects 0.000 claims description 13
- 230000036544 posture Effects 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 12
- 230000000007 visual effect Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000011049 filling Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 10
- 230000007787 long-term memory Effects 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 9
- 230000009023 proprioceptive sensation Effects 0.000 claims description 9
- 239000000463 material Substances 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006698 induction Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims description 5
- 230000004438 eyesight Effects 0.000 claims description 5
- 230000006383 arousal process Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000013707 sensory perception of sound Effects 0.000 claims description 4
- 230000003920 cognitive function Effects 0.000 claims description 3
- 230000036992 cognitive tasks Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000037152 sensory function Effects 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 2
- 230000035943 smell Effects 0.000 claims 1
- 230000036410 touch Effects 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 18
- 238000013473 artificial intelligence Methods 0.000 description 12
- 230000006399 behavior Effects 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 6
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 208000004547 Hallucinations Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000001339 gustatory effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/008—Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Robotics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种通用智能体,包括输入模块,用于获取预处理后的输入信号;意识模块,用于透明可解释的抽象思维形式进行感知、认知操作;自我意识模块,对智能体本体的感知和认知;潜意识模块,使用数据驱动模型实现潜意识下的感知、认知功能;信息交换模块,用于将意识模块、自我意识模块和潜意识模块生成的感知、认知等信息相互交换从而融合利用;输出模块,将处理结果按需输出。本发明在机器智能体中,机器使用通用语言作为底层思维和交互语言,思维过程和结果完全透明,在完全可控情况下实现自主决策、自主学习、持续进化,构造通用智能体及通用语言方法,相比于自然语言的现有技术,基于通用语言的机器智能体在应用中具有广泛通用性。
Description
技术领域
本发明属于人工智能领域,特别涉及到一种通用智能体及其控制方法。
背景技术
自诞生以来,人工智能(AI)的研究大致有三个派别:符号主义、联结主义和行为主义。符号主义主要利用大量的if-else等符号逻辑推理实现专家系统和知识表示,优点在于逻辑规则清晰和易解释性,但其局限在于物理世界脱节,且难以面面俱到,陷入到无休止的人工添加符号规则过程中;联结主义主张通过模拟神经元之间的相互连接和权值来实现AI,将事物间的因果逻辑简化为数据相关性,具有良好的端到端处理信息能力,但其缺点在于网络的训练需要大量的时间和计算资源,并且缺乏可解释性;以强化学习为代表的行为主义,让一个智能体不断地采取不同的行动和环境进行交互,获得不同的奖励从而在不断试错中习得合适的策略,优点在于能够处理实时的环境信息,但其只能用于特定环境下训练的特定智能体,应用范围窄。
符号主义、联结主义和行为主义从不同角度展现了智能的不同方面,各自在对应领域得到了很多的应用,它们的实现路径虽然不同,但都隐含着一个共同假设:智能隐藏在数据和规则中,只要有面面俱到尽可能多的符号规则和多模态数据供机器发掘,就能接近通用人工智能(AGI)。因此,这些技术可统称为被动式AI,在人类智能活动产生的海量数据和具体规则表象上,通过概率统计分析和人工查缺补漏,开发出形似智能行为(可称作“智能幻觉”)的机器。基于被动式AI的特点,当前的主流AI技术,比如大语言模型,以及感知、理解、生成和具身类的多模态大模型,普遍存在着脆弱、不可控、“幻觉”和“黑箱”等问题,加上高昂的资源消耗、复杂的知识产权保护和AI伦理问题,给实际应用带来了极大困扰。
发明内容
针对现有技术中存在的问题,本发明提供了一种主动式的通用智能体及其控制方法。
为了解决上述技术问题,本发明通过以下方式来实现:
一种通用智能体,包括:
1)输入模块,用于获取预处理后的输入信号;
2)意识模块,用于透明可解释的抽象思维形式进行感知、认知操作;
3)自我意识模块,对智能体本体的感知和认知;
4)潜意识模块,使用数据驱动模型实现潜意识下的感知、认知功能;
5)信息交换模块,用于将意识模块、自我意识模块和潜意识模块生成的感知、认知等信息相互交换从而融合利用;
6)输出模块,将处理结果按需输出;
所述输入模块通过信息处理模块与输出模块相连接,信息处理模块包括相对独立的两组模块,其一组包括意识模块和自我意识模块,另一组是潜意识模块,信息处理模块处理由输入模块获得的输入信号,处理结果发送到输出模块,所述信息交换模块负责相对独立的两组模块间的信息交换和融合利用。
进一步的,所述输入模块信号预处理具体包括:
所述信号包括接收到的通用语言语句、自然语言语句、代码、智能体记忆库数据、本体感应传感器及其他外接传感器接收的定位跟踪、视觉、听觉、触觉、嗅觉、味觉等各类模态信号;所述预处理包括采样、改变图像分辨率、信号增强、去噪、滤波等各类常用信号预处理方法,以及对于一些模态信号通过线性或非线性变换将信号由信号空间转换到特征空间、在变换域中以便更好进行特征降维或聚类的各类常用方法。
进一步的,所述意识模块包括:
21)感觉子模块,将调用输入模块获得的输入信号通过底层直观处理后转化为线索;
22)知觉子模块,利用线索唤起相关概念和知觉逻辑,在建构空间中以新视角和姿态构建出对象和场景;
23)认知子模块,利用构建出的对象和场景条件部分和任务部分,唤起相关逻辑,在建构空间内生成判断、推理或规划,获得理性认知;
24)输出模态转换子模块,根据需要将思维的通用语言形式转换为自然语言文本、音频、图像、视频等其他模态信号;
25)长期记忆子模块,存储智能体预置或习得的长期记忆数据,包括概念库、逻辑库、本体模型库等。
作为一种优选方式,所述感觉子模块的处理流程包括:
211)调用输入模块获得的输入信号,并获取注意力预设参数,所述注意力预设参数包括关注点、关注的感觉类型及取值范围、最小关注细粒度等直观过程中与注意力相关的计算参数;
212)根据注意力预设参数,使用区域分割算法选取信号数字空间中关注到的平面或空间区域;
213)将所选区域进行结构化表示,转换为以元点为基本元素组合成的元点集合,并作为线索存储在建构空间中。
进一步的,所述步骤213)中元点是机器思维空间的基本构成元素,元点集合表示如下:
M={mi(Pi,Ei,Vi,Ri,Oi)} i=1,2,…
其中,Pi表示物理属性,Ei表示扩展属性,Vi表示价值观属性,Ri表示指代属性,Oi表示其他属性;在线索提取阶段,元点采用骨架线提取或角点、质心、边缘等图像处理中各类关键点、关键线的检测和提取方法,或采用神经网络训练的点云估计、高斯分布估计等各类方法进行组合简化,并将提取结果转换为结构化数据;元点集合转换为对应的线索图型,作为对应线索的可视化附属图像存储于建构空间。
作为一种优选方式,所述知觉子模块的处理流程包括:
221)调用感觉子模块获得的线索;
222)利用线索在概念库中唤起相关概念,并存储在建构空间中;
223)以唤起的概念为模板、相关线索为材料,在建构空间中以新视角和姿态构建出对象,感知对象的存在和状态,同时唤起相关知觉逻辑构建环境、条件和任务等有关场景;
224)再次调用感觉子模块寻找新线索来填充和更新,支持和丰富构建出的对象和场景;
225)比较对象、场景与概念库中相关概念的异同,在已有概念的基础上形成新的概念,扩充概念库;
226)步骤221)—步骤225)进行多轮,对场景和对象进行更细致地观察和分析。
作为一种优选方式,所述步骤222)中具体过程是:寻找概念库中的某个或某些概念,与步骤221)中获得的线索在数据结构的某方面或某些方面相同或相似,将相关概念从概念库中调出到建构空间中;
所述步骤223)具体过程是:唤起概念后,根据概念和线索的匹配关系,将概念中的元点由对应的线索元点全部或部分填充,更新概念中每个元点属性,通过这种方式在空时坐标系中以新的视角和姿态构建出对象,从而感知对象的存在和状态,同时唤起相关知觉逻辑构建环境、条件和任务等有关场景;
所述步骤224)中新线索指在感觉子模块找到的线索中,关注唤起过程未利用到的线索或线索中未利用到的元点,或者回到输入的原始信号中改变注意力参数重新寻找的线索;
所述步骤225)具体包括:在经过步骤224)获得的对象、场景情况下,判断其与概念库中相关概念的异同,并将对象、场景及相应线索以简化、突出差异特征的方式,在已有概念的基础上更新形成新概念,以高级概念类别存储到概念库中;
所述步骤226)具体包括:在建构空间内已获得的线索、概念、对象和场景的基础上,随着注意力参数的改变,对步骤221)—步骤225)多轮进行,不断更新对象和场景,对已有对象和场景的基础细致观察,并在唤起更相似概念和知觉逻辑后用新唤起的概念和逻辑生成新对象和新场景。
进一步的,所述认知子模块处理流程包括:
231)调用知觉子模块获得对象和场景;
232)深化条件和任务场景构建,同时唤起相关逻辑,包括在逻辑库中直接唤起的以及从概念库中唤起的涉及判断、推理或规划的具体场景概念中间接提取出的相关逻辑,并存储在建构空间中;
233)以唤起的逻辑为模板、相关对象和场景为材料,在建构空间内生成包含具体内容的判断、推理或规划,获得初步的理性认知;
234)寻找新对象或新场景来填充和更新,支持和丰富构建出的判断、推理或规划。
235)形成判断、推理或规划作为一个具体场景,在已有概念的基础上形成新的概念,扩充概念库;同时在判断、推理或规划中寻找规律,在已有逻辑的基础上更新形成新逻辑,扩充逻辑库;
236)步骤231)—步骤235)多轮进行,对任务及生成的判断、推理或规划进行更细致地分析和考虑。
作为一种优选方式,所述步骤233)具体过程是:唤起逻辑后,根据逻辑和对象、场景的匹配关系,将逻辑中的元点由对应的对象、场景元点集合来填充,并计算逻辑元点中的扩展属性值等参数、更新逻辑中每个元点属性,通过这种方式在建构空间中生成包含具体内容的判断、推理或规划,获得初步的理性认知;
所述步骤234)中新对象或新场景是指找到的对象和场景中,关注逻辑唤起过程未利用到的对象和场景,或者调用知觉子模块回到输入的原始信号中改变注意力参数重新寻找的新线索、对象和场景,并在判断、推理或规划的元点集合中仍然没有内容填充的元点,通过概念库唤起相关概念来生成新的对象和场景作为填充内容。
所述输出模态转换子模块的流程具体包括:根据各子模块在建构空间里已生成的线索、对象、场景、判断、推理或规划内容的元点集合或图型形式,并将全部或者选择部分内容直接作为通用语言的语句输出;并根据需要将通用语言形式内容转换为自然语言文本、音频、图像、视频等其他模态信号。
进一步的,所述自我意识模块包括:
31)本体感觉子模块,用于接收本体感应信号,包括智能体主干和各部件上的导航定位、时间感知、视觉、听觉、触觉、嗅觉、味觉、惯性、平衡等各类本体感应信号;
32)本体知觉子模块,使用本体感应信号和本体模型估计模型参数,并结合建构空间内的对象和场景,计算智能体本体包括主干和各部件相对其他对象在场景中的位置和姿态,并在本体模型不适用时修正本体模型并更新本体模型库;
33)本体认知子模块,判断、推理或规划过程中若需要本体参与,则将本体作为一项内容或元素填充进唤起的逻辑中,参与进判断、推理或规划过程中;
34)本体动作控制子模块,需要本体行动时,将规划结果生成动作序列、硬件控制程序等信息作为本体控制信号输出;
35)本体模型库,存储智能体主干和各部件在数学、物理、图型、运动、相互作用等方面的结构参数模型。
作为一种优选方式,所述潜意识模块包括:
41)潜意识感觉子模块,使用数据驱动模型实现潜意识下的感觉功能;
42)潜意识知觉子模块,使用数据驱动模型实现潜意识下的知觉功能;
43)潜意识认知子模块,使用数据驱动模型实现潜意识下的认知功能;
44)潜意识输出模态转换子模块,使用数据驱动模型实现潜意识下的多模态信号输出功能。
作为一种优选方式,所述子模块41)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号是输入模块获取的输入信号,模型输出信号是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句;
所述子模块42)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句,模型输出信号包括与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句;
所述子模块43)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句或是与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句,模型输出信号包括与意识模块中认知子模块生成的认知元点集合或图型相适配的通用语言语句;
所述子模块44)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句或是与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句或是与意识模块中认知子模块生成的认知元点集合或图型相适配的通用语言语句,模型输出信号包括与输出模块输出信号相适配的多模态数据。
作为一种优选方式,所述信息交换模块处理流程包括:
51)将输入模块获取的输入信号,及意识模块中感觉、知觉、认知、输出模态转换各子模块生成的感觉、知觉、认知、多模态输出数据,添加进训练数据集供潜意识模块的各子模块训练模型使用;
52)将潜意识模块中的感觉、知觉、认知、输出模态转换各子模块生成的感觉、知觉、认知、多模态输出数据,作为参考数据提供给意识模块各子模块,供意识模块的各子模块感知、分析、修正,与意识模块自身生成数据相融合,得到输出结果。
作为一种优选方式,所述输出模块处理流程包括:
根据交互和行动需求,输出前述各模块生成的通用语言语句、自然语言语句、代码、智能体记忆库数据、本体控制信号及其他图像、视频、音频等各类模态信号。
第二方面,本发明还提供了一种通用智能体控制方法,包括:
S1、记忆预置与智能体预训练;
S2、价值驱动的任务生成;
S3、任务导向的自主决策;
S4、任务执行与自我进化;
S5、步骤S2—步骤S4多轮进行,主动与环境和用户交互。
作为上述方法的一种优选,所述步骤S1具体包括:对于意识模块长期记忆子模块中的概念库、逻辑库、本体模型库进行预先设置,且按照需求设置属性值;对于潜意识模块中各子模块包含的网络模型,收集模型输入数据和期望的模型输出数据,对模型进行训练,更新模型参数;
所述步骤S2具体包括:对用户安排的目标、任务、指示,或根据观察到对象和场景,对记忆库中唤起的相关任务场景进行任务分析,通过价值判断选择合适任务;
所述步骤S3具体包括:对选择的任务自主生成判断、推理、规划,分解成任务解决的具体步骤和移动、操作等动作序列;
所述步骤S4具体包括:智能体输出本体控制信号进行动作执行或直接在建构空间内完成认知任务,并在任务执行中通过观察场景构建和动作控制误差自适应调整意识模块记忆库和潜意识模块各模型参数实现自我进化;
所述步骤S5具体包括:多轮进行步骤S2—步骤S4,智能体主动与环境和用户交互,持续生成任务并自主决策执行,整个过程中智能体思维透明可控,且智能体通过学习调整属性。
与现有技术相比,本发明具有的有益效果:
本发明的主动式AI使用抽象元点统一表征和解释各类模态信号,自主构建世界模型,从而拥有理解物理世界、创造文化世界的能力。主动式AI是一种通用的人工智能系统而设计,通过对自身认知范围之外的有限数据的重点关注和分析,学习、拓展高级概念和认知逻辑;在主动式AI框架下,符号主义、联结主义和行为主义在通用智能系统的不同局部发挥出高效作用,其中作为“快系统”的潜意识模块,在“慢系统”意识模块的指导下,将端到端的神经网络“黑箱”处理拆分成感觉、知觉、认知等多层级降维处理,通过抽象形式的概念和逻辑表征,极大程度解决数据驱动模型脆弱、不可控等问题,极大减轻端对端方式海量数据、模型规模和算力的需求。
在机器智能体中,机器使用通用语言作为底层思维和交互语言,思维过程和结果完全透明,因此可以在与人类价值观对齐、完全可控的情况下实现自主决策、自主学习、持续进化。通用语言嵌入底层物理和逻辑表征的抽象概念交互语言,本发明构造通用智能体的方法,同时也是构造通用语言的方法,相比于自然语言的现有技术,基于通用语言的机器智能体在应用中具有广泛的通用性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明通用智能体的系统组成示意图;
图2是本发明通用智能体的输入模块、输出模块示意图;
图3是本发明通用智能体的意识模块、自我意识模块示意图;
图4是本发明通用智能体的潜意识模块示意图;
图5是本发明通用智能体的信息交换模块示意图;
图6是本发明实施例2输入图片的示意图;
图7是本发明实施例2输入信号中提取出的各元点示意图;
图8是本发明实施例2元点集合转换的线索图型示意图;
图9是本发明实施例2概念库中圆形的元点集合及概念图型示意图;
图10是本发明实施例2构建出的对象分解场景示意图;
图11是本发明实施例2机器感知到的各对象及对给定条件和任务解读示意图;
图12是本发明实施例2机器认知过程示意图;
图13是本发明实施例2机器通过类比完成任务示意图;
图14是本发明实施例3摄像头采集图像示意图;
图15是本发明实施例3建构空间中生成的三维场景示意图;
图16是本发明实施例3由三维场景转换到二维形式的场景示意图;
图17是本发明实施例3用户以通用语言发送命令示意图;
图18是本发明实施例3机器人对物理环境逻辑分析示意图;
图19是本发明实施例3机器人逻辑库中多种移动方式示意图;
图20是本发明实施例3机器人对用户命令行为过程和结果预测示意图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等(如果存在),或者“步骤1”、“步骤2”、“步骤3”等(如果存在)并不必然用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
下面结合附图和具体实施例对本发明一种通用智能体组成和工作模式进行详细说明。
如图1所示,一种通用智能体,包括以下模块:
1)输入模块,用于获取预处理后的输入信号;
2)意识模块,用于透明可解释的抽象思维形式进行感知、认知操作;
3)自我意识模块,对智能体本体的感知和认知;
4)潜意识模块,使用数据驱动模型实现潜意识下的感知、认知功能;
5)信息交换模块,用于将意识模块、自我意识模块和潜意识模块生成的感知、认知等信息相互交换从而融合利用;
6)输出模块,将处理结果按需输出;
所述输入模块通过信息处理模块与输出模块相连接,信息处理模块包括相对独立的两组模块,其一组包括意识模块和自我意识模块(分别用于感知外界和本体),另一组是潜意识模块,信息处理模块处理由输入模块获得的输入信号,处理结果发送到输出模块,所述信息交换模块负责相对独立的两组模块间的信息交换和融合利用。
如图2所示,输入模块具体包括接收信号并对信号预处理,信号包括接收到的通用语言语句、自然语言语句(语音或文本)、代码、智能体记忆库数据、本体感应传感器及其他外接传感器接收的定位跟踪、视觉、听觉、触觉、嗅觉、味觉等各类模态信号;所述预处理包括采样、改变图像分辨率、信号增强、去噪、滤波等各类常用信号预处理方法,以及对于一些模态信号通过线性或非线性变换将信号由信号空间转换到特征空间、在变换域中以便更好进行特征降维或聚类的各类常用方法。
通用语言是嵌入了底层物理和逻辑表征的抽象概念交互语言,作为一种底层人机交互语言,具有最大限度的表达灵活度、精确和场景化的意图表达及透明安全、完全可解释等优点。国家专利申请号:202410201258.1,专利名称“人机交互方法、装置、设备及存储介质”在感知层面提供了通用语言的构造方法。本发明将通用语言拓展到认知层面,能够更完整地表达抽象的感知和认知信息。
输出模块具体包括:根据交互和行动需求,输出意识模块、自我意识模块和潜意识模块生成的通用语言语句、自然语言语句(语音或文本)、代码、智能体记忆库数据、本体控制信号及其他图像、视频、音频等各类模态信号。
如图3所示,加粗线条和深色方框对应自我意识模块,其他线条和方框对应意识模块,所述意识模块包括:
21)感觉子模块,将调用输入模块获得的输入信号通过底层直观处理后转化为线索;
22)知觉子模块,利用线索唤起相关概念和知觉逻辑,在建构空间中以新视角和姿态构建出对象和场景;
23)认知子模块,利用构建出的对象和场景条件部分和任务部分,唤起相关逻辑,在建构空间内生成判断、推理或规划,获得理性认知;
24)输出模态转换子模块,根据需要将思维的通用语言形式转换为自然语言文本、音频、图像、视频等其他模态信号;
25)长期记忆子模块,存储智能体预置或习得的长期记忆数据,包括概念库、逻辑库、本体模型库等;
所述感觉子模块、知觉子模块、认知子模块和输出模态转换子模块顺序连接,其中各模块中所用到的概念和逻辑等数据在长期记忆子模块中搜索和存取。
自我意识模块包括:
31)本体感觉子模块,用于接收本体感应信号,包括智能体主干和各部件上的导航定位、时间感知、视觉、听觉、触觉、嗅觉、味觉、惯性、平衡等各类本体感应信号;
32)本体知觉子模块,使用本体感应信号和本体模型估计模型参数,并结合建构空间内的对象和场景,计算智能体本体包括主干和各部件相对其他对象在场景中的位置和姿态,并在本体模型不适用时修正本体模型并更新本体模型库;
33)本体认知子模块,判断、推理或规划过程中若需要本体参与,则将本体作为一项内容或元素填充进唤起的逻辑中,参与进判断、推理或规划过程中;
34)本体动作控制子模块,需要本体行动时,将规划结果生成动作序列、硬件控制程序等信息作为本体控制信号输出;
35)本体模型库,存储智能体主干和各部件在数学、物理、图型、运动、相互作用等方面的结构参数模型,该模型库可存储在长期记忆子模块中。
在图3中,节点P0、P1、P2、P3、P4位于意识模块数据处理流程中的不同位置,节点处的数据类型分别为:P0:输入模块获取的输入信号中的多模态数据;P1:感觉子模块生成的表示线索元点集合或图型的通用语言语句;P2:知觉子模块生成的表示对象、场景元点集合或图型的通用语言语句;P3:认知子模块生成的表示认知元点集合或图型的通用语言语句;P4:输出模块输出信号中的多模态数据。
如图4所示,潜意识模块包括:
41)潜意识感觉子模块,使用数据驱动模型实现潜意识下的感觉功能;
42)潜意识知觉子模块,使用数据驱动模型实现潜意识下的知觉功能;
43)潜意识认知子模块,使用数据驱动模型实现潜意识下的认知功能;
44)潜意识输出模态转换子模块,使用数据驱动模型实现潜意识下的多模态信号输出功能。
在图3中的节点P0、P1、P2、P3、P4代表从输入到输出,信号在意识模块经历的不同阶段加工过程,在图4所示潜意识模块中也有5个代表节点P0′、P1′、P2′、P3′、P4′,节点处的数据类型分别为:P0′:输入模块获取的输入信号;P1′:与意识模块感觉子模块生成的线索元点集合或图型相适配的通用语言语句;P2′:与意识模块知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句;P3′:与意识模块认知子模块生成的认知元点集合或图型相适配的通用语言语句;P4′:与输出模块输出信号相适配的多模态数据。
一种类型输入数据和一种类型期望输出数据可训练一组神经网络,故5个节点两两组合,存在P0′>P1′、P0′>P2′、……、P3′>P4′等10组神经网络模型,依据输出信号类型分别归入潜意识感觉子模块、潜意识知觉子模块、潜意识认知子模块和潜意识输出模态转换子模块中,实际根据需求和效果选用部分模型,其中输入或输出涉及到多模态数据的,可综合训练单一的多模态模型,或者针对每种模态数据分别训练一组子模型。训练方式采用批量数据的预训练方式,也可随着新的训练数据实时更新模型参数,其中P0′>P4′代表多模态输入到多模态输出神经网络模型,也可直接接入、调用现有各类单模态或多模态大模型。
如图5所示,P0、…、P4和P0′、…、P4′分别对应图3意识模块和图4潜意识模块中的代表节点,信息交换模块5)处理流程具体包括:
51)将输入模块获取的输入信号,及意识模块中感觉、知觉、认知、输出模态转换各子模块生成的感觉、知觉、认知、多模态输出数据,添加进训练数据集供潜意识模块的各子模块训练模型使用;
52)将潜意识模块中的感觉、知觉、认知、输出模态转换各子模块生成的感觉、知觉、认知、多模态输出数据,作为参考数据提供给意识模块各子模块,供意识模块的各子模块感知、分析、修正,与意识模块自身生成数据相融合,从而得到更精确、流畅的输出结果。
在智能体系统组成基础上,本发明提供了一种智能体控制方法,包括:
S1、记忆预置与智能体预训练;
S2、价值驱动的任务生成;
S3、任务导向的自主决策;
S4、任务执行与自我进化;
S5、步骤S2—步骤S4多轮进行,主动与环境和用户交互。
智能体通过价值判断选择任务,自主生成判断、推理、规划和具体步骤,输出本体控制信号进行动作执行或直接在建构空间内完成认知任务,因建构空间内的感知和认知结果以预测方式生成,预测结果的后续准确性能够成为智能体自发的奖惩信号,所以智能体在与环境和用户有意识交互中的观察、决策、行动、奖励成为一个闭环,在任务执行中通过调整意识模块记忆库和潜意识模块中各模型参数实现人机价值观对齐和自我进化。
使用上述控制方法,本智能体可以包含但不限于以下8种工作模式:自主探索模式、主动学习模式、被动学习模式、互动教学模式、任务驱动自主决策模式、目标驱动自主决策模式、价值驱动自主决策模式、对话和多模态翻译模式。本智能体各模块和子模块,这些模块的划分只是一种逻辑功能的划分,物理上这些模块可以是集成的,也可以是独立的,实际实现时一些模块可忽略,或不执行,比如意识模块工作时,并不强求必须存在潜意识模块。
实施例2
在实施例1的基础上,下面结合附图和具体实施例2对本发明在对象感知、场景理解和任务推理等方面进行详细的说明。
所述感觉子模块的处理流程包括:
211)调用输入模块获得的输入信号,并获取注意力预设参数,所述注意力预设参数包括关注点、关注的感觉类型及取值范围、最小关注细粒度等直观过程中与注意力相关的计算参数;本实施例中,输入如图6所示图片,由一组视觉谜题——邦加德问题中的问题91改编而来的分类推理题,注意力预设参数中关注点覆盖整幅图像,感觉参数为灰度值,最小关注细粒度半径为4的圆。
212)根据注意力预设参数,使用区域分割算法选取信号数字空间中关注到的平面或空间区域;其区域分割算法包括传统的各类图像分割方法、使用深度学习的图像分割方法等;通过将区域以二值掩码标记,闭合曲线或曲面的形式提取边缘等方式,表示分割出来的区域,平面或空间区域包含区域范围及对应的感觉参数,而感觉参数是划分区域依据的感觉类型及其取值范围;本实施例中,采用二值量化将各个黑色区域以二值掩码标记出来,作为关注到的平面区域。
213)将所选区域进行结构化表示,转换为以元点为基本元素组合成的元点集合,并作为线索存储在建构空间中。元点是机器思维空间的基本构成元素,能够以抽象的元点集合形式表示思维空间内的线索、概念、逻辑、对象等内容,元点集合表示如下:
M={mi(Pi,Ei,Vi,Ri,Oi)} i=1,2…
其中,Pi表示包含位置属性、范围属性和感觉属性的物理属性,位置属性是元点在空时坐标系中的代表位置,范围属性是元点在空时坐标系中的延展范围大小,可获得对象的面或体特征感知,感觉属性是元点所属的感觉类型及其取值范围;Ei表示包含连接属性和动态属性的扩展属性,连接属性是静态属性,表明元点间的连接关系,获得对象各部件间拓扑关系的抽象感知,动态属性刻画元点在空间以直线、曲线形式的延伸趋势及在时间上的变化趋势,获得对象在空时坐标系中的直线、曲线的抽象特征感知;Vi表示包含事实、代价、规定、价值、审美、偏好、欲望、信念、意图等方面的价值观属性;Ri表示指代属性,线索、概念和对象元点中该属性代表元点指向的目标区域,逻辑元点中该属性可指代对象或场景元点集合;Oi表示其他属性。
在线索提取阶段,元点采用骨架线提取或角点、质心、边缘等图像处理中各类关键点、关键线的检测和提取方法,或采用神经网络训练的点云估计、高斯分布估计等各类方法进行组合简化,并将提取结果转换为结构化数据;元点集合转换为对应的线索图型,作为对应线索的可视化附属图像存储于建构空间。图型由元点集合转换而来的图(可表示为G(M)),可将元点集合中的各种扩展属性,比如连接属性表示的拓扑关系以图的节点和边的形式、动态属性表示的空间和时间上的延伸和变化趋势以直线和曲线的形式显式描绘出来,图型类似于人们经常使用的简笔画、示意图等抽象表示,对于用户来说有很高的可理解度和很好的亲和度。
本实施例,结合最大内切圆求取骨架线算法和角点检测方法来提取元点,根据注意力预设参数,最小的内切圆半径设置为4,获得的各元点如图7所示,因输入图片中包含的对象数量众多,图7只显示了其中一个(图6第二行第二列图案)的感知结果,包含两类元点:静态元点(动态属性为空的元点)以“×”标记,动态元点(动态属性不为空的元点)以实心圆标记。
作为元点实例,下表给出图7中2个元点的数据结构,给出位置、范围、连接和动态属性值,其中位置属性值是元点坐标,范围属性值是元点半径,连接属性值是相接的其他元点,动态属性值有多种形式,这里使用模拟元点行进的方式,将元点的延伸趋势表达为[朝向,偏向,曲率半径],其中偏向有三种取值:-1表示沿行进方向向左偏转,0表示直行,1表示向右偏转。
元点A | 元点D | |
位置属性 | (48,34) | (107,103) |
范围属性 | 1 | 51 |
连接属性 | {B,C} | {E,F,G} |
动态属性 | {[-39°,-1,91],[50.6°,0]} | [] |
元点集合转化的线索图型G(M)如图8所示,表明经过底层直观处理后,机器对输入信号的初步感知结果,感知到各条直线、弧线、三瓣不规则物等。
所述知觉子模块的处理流程包括:
221)调用感觉子模块获得的线索;
222)利用线索在概念库中唤起相关概念,并存储在建构空间中;概念与线索同质,也是由元点为基本元素构成的结构化数据结构,同样可以转换为概念图型。本实施例中,概念库中存储了一些通过预设或学习得到的基本几何图形概念,依据步骤221)中找到的各种线索(各个元点集合),唤起是将相关概念从概念库中找到并调用出来,概念库中的直线、角、四边形、圆弧、圆形等多种概念;如图7中相接的元点A和元点B的动态属性中都具有相同的曲率变径,唤起如图9所示“圆形”概念;如图7中元点C有两个直线延伸方向,通过直线两两关联的包含元点C在内有4个元点,与概念库中的四边形概念一致,根据特征匹配的原则唤起“四边形”概念。
223)以唤起的概念为模板、相关线索为材料,在建构空间中以新视角和姿态构建出对象,感知对象的存在和状态,同时唤起相关知觉逻辑构建环境、条件和任务等有关场景;其具体包括:
唤起概念后,根据概念和线索的匹配关系,将概念中的元点由对应的线索元点全部或部分填充,更新概念中每个元点的位置、范围、感觉、扩展等属性;通过这种方式在空时坐标系中以新的视角和姿态构建出对象,同时唤起相关知觉逻辑构建环境、条件和任务等有关场景,并将对象和场景存储在建构空间中;通过线索和概念构建具体对象,使得机器感知到对象的存在和状态,同时能够认识到对象、各部件及名称。逻辑元点是纯粹的理性元点,应用时由指代属性中指代的对象或场景的元点集合来填充;逻辑元点中的扩展属性包含了与其他元点的连接关系和连接强度,用来表示不同类型和强度的逻辑关系,作为逻辑的一种类别,知觉逻辑是对象间或对象部件间的时间、物理和几何关系作用于对象或对象部件上的感知规律。知觉逻辑能够解决知觉层面的、相对简单和直接的环境、条件和任务场景构建,更高级认知层面的场景构建可在后续的认知子模块中进行。
其中概念唤起和对象构建过程中填充指的是概念和线索中的元点在关键点、线和图等,相似度计算中建立一种匹配关系,从而能够使用线索中的元点属性代替概念中的元点属性;而对前景背景或多个对象的构建可组成场景,是平面或空间中的静态场景,或空间时间中的动态连续或者顺序切片场景;构建是以预测方式工作,机器需要构建、解释当时的周边场景环境,通过相关概念和知觉逻辑构建、预测对象和场景的后续时刻状态。以预测方式进行场景解释和理解,若后续发展偏离先前预测结果,说明场景构建与现实不完全相符,需要重新观察线索和唤起概念和逻辑,并更新对象和场景的构建。
本实施例中,在唤起过程中概念中的元点和线索中的元点建立起对应关系,能够使用线索中的元点属性替换概念中的元点属性,将步骤222)唤起的圆形和四边形概念中的元点属性由步骤221)中线索中对应的元点属性来填充,从而在建构空间内以新的视角和姿态构建出圆形、四边形等多个新对象,且根据多个对象元点集合间的相互特征唤起对象的部件分解和缺失等知觉逻辑,如图10所示,部件分解中的逻辑元点,分别由相符的对象元点集合来填充,从而构建出的场景为:初始完整的圆形物体被分解为两部分,一部分包含三组四边形,另一部分是剩下的三瓣不规则物;这些初步感知到的对象和场景,经常是对实际情况的一种直观近似。在图10中圆形、四边形和三瓣不规则物,这些构建出的对象和场景,都可作为素材存储到建构空间中,因在概念库中的概念比如图9所示的圆形概念也附加了部分部件的文字名称,机器针对图10构建出的对象也可以给出它们及各部件的文字名称。
224)调用感觉子模块寻找新线索来填充和更新,支持和丰富构建出的对象和场景,具体包括:对象被构建出来后,若因线索与概念的元点存在失配情况导致对象的某些部件有缺失,或对象被注视需更丰富的细节,机器需要寻找新的线索来填充和更新对象,在找到的线索中,关注唤起过程未利用到的线索或线索中未利用到的元点,或者回到输入的原始信号中改变注意力参数重新寻找的新线索,从而支持和丰富构建出的对象和场景。本实施例中,图10中的四边形对象对应元点集合的特征中缺失了一条边,重新回到原始信号改变注意力参数后仍找不到相关线索,间接支持了步骤223)场景构建中的对象部件分解和缺失的假设。
225)比较对象、场景与概念库中相关概念的异同,在已有概念的基础上形成新的概念,扩充概念库,具体包括:在经过步骤224)获得的对象、场景情况下,判断其与概念库中相关概念的异同,并将对象、场景及相应线索以简化、突出差异特征的方式,在已有概念的基础上更新形成新概念,以高级概念类别存储到概念库中;用户可直接校对、修改概念库中的概念,或者在建构空间里查看新生成的概念,并在后续步骤中通过人机交互进行修改;用户也可在机器生成的概念数据结构中添加符号名称、典型特征说明、与已有概念的衍生关系。本实施例,机器将生成的图8所示的三瓣不规则物加入概念库,并由用户决定是否需要保留并添加文字说明。
226)具体包括:在原始输入信号和用户的交互命令、或者在建构空间内已获得的线索、概念和对象的基础上,随着注意力参数的改变,对步骤221)—步骤225)多轮进行,不断更新对象和场景,对已有对象和场景的基础细致观察,并在唤起更相似概念和知觉逻辑后生成新对象和新场景,根据从输入信号中感知到的用户需求,将建构空间内相关的对象和场景分别归类到条件类别和任务类别。
其中注意力参数的变化,包括关注点的转移、聚焦或泛化、感觉类型和关注细粒度等计算参数的变化,注意力参数由机器在对象、场景构建过程中自主改变,也可以由用户在交互中命令机器改变。
本实施例中,前面着重以输入图片中第二行第二列图案示例了机器感知过程,回到整体输入图片,如图11所示的机器在输入图片中感知到的各组对象,且将相关对象归类到了条件类别(包含条件1组别和条件2组别)和任务类别中;因图6中有明显的字母和问号提示,直接唤起并转换为“选择”逻辑和“填充”逻辑作为理解到的具体任务,更复杂条件和任务的解读也可在后续的认知子模块中进行。实践中,根据注意力、概念库、逻辑库和建构空间内的素材,机器对场景和对象的构建以预测方式进行,预测或解读可灵活多样,只要是符合机器本身认知,能够以自己的方式来理解输入信号,解读出来的对象和场景都可作为备选,在与用户交互中实现用户特定目的。
所述认知子模块处理流程包括:
231)调用知觉子模块获得对象和场景;
232)深化条件和任务场景构建,同时唤起相关逻辑,包括在逻辑库中直接唤起的,以及从概念库中唤起的涉及判断、推理或规划的具体场景概念中间接提取出的相关逻辑,并存储在建构空间中;
233)以唤起的逻辑为模板、相关对象和场景为材料,唤起逻辑后,根据逻辑和对象、场景的匹配关系,将逻辑中的元点由对应的对象、场景元点集合来填充,并计算逻辑元点中的连接强度等参数、更新逻辑中每个元点属性,通过这种方式在建构空间中生成包含具体内容的判断、推理或规划,获得初步的理性认知。
本实施例中,获得如图11所示,感知到各对象以及给定的条件和任务后,根据逻辑和对象、场景的匹配关系,在逻辑库中相继唤起“归纳”、“相似”、“类比”等逻辑。如图12所示,首先使用“归纳”逻辑1201对条件类别中的各对象进行处理,按照“形成假设、验证假设”的处理流程,将各对象元点集合中各属性值按照类别、数量、数值等分别进行特征抽取和统计比较,从而抽取出共同特征,即图12所示的条件1组别中的“三”和条件2组别中的“四”;使用“相似”逻辑1202将抽取出的共同特征与任务类别中的两个对象分别求取相似度;最后如图13所示,唤起“类比”逻辑,将图11中的“选择”任务和图12中的“相似”逻辑进行参数、内容的对比置换,从而得到最终的任务答案(图13仅给出条件1组别中的结果,条件2组别可同理完成)。
步骤234)寻找新对象或新场景来填充和更新,支持和丰富构建出的判断、推理或规划,在步骤231)找到的对象和场景中,关注逻辑唤起过程未利用到的对象和场景,或者调用知觉子模块回到输入的原始信号中改变注意力参数重新寻找的新线索、对象和场景;在判断、推理或规划的元点集合中仍然没有内容填充的元点,可以通过概念库唤起相关概念来生成新的对象和场景作为填充内容。
235)形成判断、推理或规划可作为一个具体场景,在已有概念的基础上形成新的概念,扩充概念库;同时在判断、推理或规划中寻找规律,在已有逻辑的基础上更新形成新逻辑,扩充逻辑库。
236)对步骤231)—步骤235)多轮进行,对任务及生成的判断、推理或规划进行更细致地分析和考虑。本实施例中,可从多方面考察、验证已作出的推理结果,如图12所示,将推理出的对象通过填充逻辑1203归入相应的条件类别后,进一步对扩充后的各组员对象进行特征归纳,检验结果是否有误。
需要说明的是,根据前面各步骤在建构空间里已经生成的对象、场景、推理等内容的图型形式,如图8—图13,使用抽象方式的图型类似于人们常用的简笔画、示意图、流程图等,用户可直接在机器的建构空间内查看,或者机器把这些全部的或选择一部分的内容直接就作为通用语言的语句通过输出模块6)输出,且用户把自己的需求也用简笔画、草图、示意图、流程图等通过输入模块发送给机器,机器通过前面步骤在建构空间生成相应的对象和场景后也能理解。建构空间里生成的感知和认知内容,清晰表明机器的思维过程和结果,实质上形成机器的底层语言,作为机器思维和程序控制且与用户交互的通用语言。
实施例3
在实施例1的基础上,下面结合附图和实施例3对本发明在三维场景理解、人机交互和自主决策方面等方面进行详细的说明。
机器人拥有双目摄像头、机械臂和轮式装置,能够在房间内移动并观察环境、抓取物体。在输入模块输入的双目摄像头采集信号,如图14所示其中一个摄像头采集的图像,在意识模块经过线索寻找和概念唤起后在三维建构空间中生成如图15所示的三维场景图,机器人只学习过一些结构简单的物体概念,在建构空间中生成墙面、天花板和地板等房间结构和桌子、球体等房间内对象,而其他物体,例如插座面板、壁橱和壁橱上的消防图、洗手液等机器人没有识别到,如图16所示是在图14视角下的由三维场景转换到二维形式的场景图。线索寻找过程用到了三维空间的元点提取办法,即先在两幅单目图像上提取平面上的元点,然后使用双目视觉空间位置估计算法获得该元点的空间位置坐标。
用户通过输出模块即时查看机器人的场景构建结果,并在此基础上以通用语言给机器人发送指示、命令;如用户需要机器人把桌子中央的球体转移到桌底地板位置,如图17所示,在图16基础上加上一个箭头,发送给机器人。这里的箭头表示由元点指代的对象在空时坐标系中的运动或操作,即对象从箭头的起始元点位置运动到终止元点位置的这样一个空间和时间过程。
机器人收到命令后,在建构空间中生成任务场景,并对需要操作的相关对象进行物理和操作分析。如图18所示,根据逻辑库中已注入重力和平衡逻辑,需操作的球体因为有桌子的支撑没有因重力影响而下落。如图19所示,逻辑库中的移动逻辑有两种情况:无遮挡移动(从位置A移动到位置B)和有遮挡移动(从位置A经过遮挡物C移动到位置B),根据桌子元点集合中的位置和范围属性,图17中的球体移动任务属于有遮挡移动,因此任务细化为“有遮挡移动”逻辑中的三种行为选项,对应着使用工具击破遮挡物、挪开遮挡物、绕开遮挡物三种情况。机器人针对这三种情况分别计算价值观属性值,从逻辑和概念库中已有的相同或类似场景的元点集合的价值观属性中提取并统计评分,将得分最高的行为作为备选项。本实施例中,因为用户规定机器人不能损害房间内物品,并且预测到击破或挪开桌子可能需要更多的力气代价,而且操作作为支撑物的桌子会产生风险代价这些因素,综合评价后机器人选择绕开遮挡物移动球体这一选项。因此,机器人在建构空间中以预测方式生成对象的移动过程和结果,并在交互界面以动态图或如图20所示静态图的形式反馈给用户,用户可以检查机器人对命令的理解和预备的行为操作是否恰当,需要纠正时可及时补充命令。
机器人确切理解了用户的意图后,在自我意识模块中,把建构空间内生成的动作序列转换为硬件控制程序进行操作,通过轮式装置运动到桌子旁边并使用机械臂将球体移动到指定位置。操作过程中机器人实时感知对象和环境变化并与预测的场景结果比较,若任务失败则在无监督或用户监督下重新制定动作序列并执行操作。
使用本发明提供的智能系统和控制方法,机器在未知环境下能够理解物理环境,在全新任务中能够精准理解用户意图,并自主决策规划,以安全操作方式完成用户指令。
本说明书中各实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其他的形式。另外,在本发明各个实施例中的各功能单元可集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种通用智能体,其特征在于:包括:
1)输入模块,用于获取预处理后的输入信号;
2)意识模块,用于透明可解释的抽象思维形式进行感知、认知操作;
3)自我意识模块,对智能体本体的感知和认知;
4)潜意识模块,使用数据驱动模型实现潜意识下的感知、认知功能;
5)信息交换模块,用于将意识模块、自我意识模块和潜意识模块生成的感知、认知等信息相互交换从而融合利用;
6)输出模块,将处理结果按需输出;
所述输入模块通过信息处理模块与输出模块相连接,信息处理模块包括相对独立的两组模块,其一组包括意识模块和自我意识模块,另一组是潜意识模块,信息处理模块处理由输入模块获得的输入信号,处理结果发送到输出模块,所述信息交换模块负责相对独立的两组模块间的信息交换和融合利用。
2.如权利要求1所述的一种通用智能体,其特征在于:
所述意识模块包括:
21)感觉子模块,将调用输入模块获得的输入信号通过底层直观处理后转化为线索;
22)知觉子模块,利用线索唤起相关概念和知觉逻辑,在建构空间中以新视角和姿态构建出对象和场景;
23)认知子模块,利用构建出的对象和场景条件部分和任务部分,唤起相关逻辑,在建构空间内生成判断、推理或规划,获得理性认知;
24)输出模态转换子模块,根据需要将思维的通用语言形式转换为自然语言文本、音频、图像、视频模态信号;
25)长期记忆子模块,存储智能体预置或习得的长期记忆数据,包括概念库、逻辑库、本体模型库。
3.如权利要求2所述的一种通用智能体,其特征在于:
所述感觉子模块的处理流程包括:
211)调用输入模块获得输入信号,并获取注意力预设参数,所述注意力预设参数包括关注点、关注的感觉类型及取值范围、最小关注细粒度直观过程中与注意力相关的计算参数;
212)根据注意力预设参数,使用区域分割算法选取信号数字空间中关注到的平面或空间区域;
213)将所选区域进行结构化表示,转换为以元点为基本元素组合成的元点集合,并作为线索存储在建构空间中;所述元点是机器思维空间的基本构成元素,元点集合表示如下:
M={mi(Pi,Ei,Vi,Ri,Oi)} i=1,2…
其中,Pi表示物理属性,Ei表示扩展属性,Vi表示价值观属性,Ri表示指代属性,Oi表示其他属性;在线索提取阶段,元点采用骨架线提取或角点、质心、边缘等图像处理中各类关键点、关键线的检测和提取方法,或采用神经网络训练的点云估计、高斯分布估计各类方法进行组合简化,并将提取结果转换为结构化数据;元点集合转换为对应的线索图型,作为对应线索的可视化附属图像存储于建构空间。
4.如权利要求2所述的一种通用智能体,其特征在于:
所述知觉子模块的处理流程包括:
221)调用感觉子模块获得的线索;
222)利用线索在概念库中唤起相关概念,并存储在建构空间中;
223)以唤起的概念为模板、相关线索为材料,在建构空间中以新视角和姿态构建出对象,感知对象的存在和状态,同时唤起相关知觉逻辑构建环境、条件和任务等有关场景;
224)再次调用感觉子模块寻找新线索来填充和更新,支持和丰富构建出的对象和场景;
225)比较对象、场景与概念库中相关概念的异同,在已有概念的基础上形成新的概念,扩充概念库;
226)步骤221)—步骤225)进行多轮,对场景和对象进行更细致地观察和分析。
5.如权利要求4所述的一种通用智能体,其特征在于:
所述步骤222)具体过程是:寻找概念库中的某个或某些概念,与步骤221)中获得的线索在数据结构的某方面或某些方面相同或相似,将相关概念从概念库中调出到建构空间中;
所述步骤223)具体过程是:唤起概念后,根据概念和线索的匹配关系,将概念中的元点由对应的线索元点全部或部分填充,更新概念中每个元点属性,通过这种方式在空时坐标系中以新的视角和姿态构建出对象,从而感知对象的存在和状态,同时唤起相关知觉逻辑构建环境、条件和任务有关场景;
所述步骤224)中新线索指在感觉子模块找到的线索中,关注唤起过程未利用到的线索或线索中未利用到的元点,或者回到输入的原始信号中改变注意力参数重新寻找的线索;
所述步骤225)具体包括:在经过步骤224)获得的对象、场景情况下,判断其与概念库中相关概念的异同,并将对象、场景及相应线索以简化、突出差异特征的方式,在已有概念的基础上更新形成新概念,以高级概念类别存储到概念库中;
所述步骤226)具体包括:在建构空间内已获得的线索、概念、对象和场景的基础上,随着注意力参数的改变,对步骤221)—步骤225)多轮进行,不断更新对象和场景,对已有对象和场景的基础细致观察,并在唤起更相似概念和知觉逻辑后用新唤起的概念和逻辑生成新对象和新场景。
6.如权利要求2所述的一种通用智能体,其特征在于:
所述认知子模块处理流程包括:
231)调用知觉子模块获得对象和场景;
232)深化条件和任务场景构建,同时唤起相关逻辑,包括在逻辑库中直接唤起的以及从概念库中唤起的涉及判断、推理或规划的具体场景概念中间接提取出的相关逻辑,并存储在建构空间中;
233)以唤起的逻辑为模板、相关对象和场景为材料,在建构空间内生成包含具体内容的判断、推理或规划,获得初步的理性认知;
234)寻找新对象或新场景来填充和更新,支持和丰富构建出的判断、推理或规划;
235)形成判断、推理或规划作为一个具体场景,在已有概念的基础上形成新的概念,扩充概念库;同时在判断、推理或规划中寻找规律,在已有逻辑的基础上更新形成新逻辑,扩充逻辑库;
236)步骤231)—步骤235)多轮进行,对任务及生成的判断、推理或规划进行更细致地分析和考虑。
7.如权利要求6所述的一种通用智能体,其特征在于:
所述步骤233)具体过程是:唤起逻辑后,根据逻辑和对象、场景的匹配关系,将逻辑中的元点由对应的对象、场景元点集合来填充,并计算逻辑元点中的扩展属性值参数、更新逻辑中每个元点属性,通过这种方式在建构空间中生成包含具体内容的判断、推理或规划,获得初步的理性认知;
所述步骤234)中新对象或新场景是指找到的对象和场景中,关注逻辑唤起过程未利用到的对象和场景,或者调用知觉子模块回到输入的原始信号中改变注意力参数重新寻找的新线索、对象和场景,并在判断、推理或规划的元点集合中仍然没有内容填充的元点,通过概念库唤起相关概念来生成新的对象和场景作为填充内容。
8.如权利要求1所述的一种通用智能体,其特征在于:
所述自我意识模块包括:
31)本体感觉子模块,用于接收本体感应信号,包括智能体主干和各部件上的导航定位、时间感知、视觉、听觉、触觉、嗅觉、味觉、惯性、平衡各类本体感应信号;
32)本体知觉子模块,使用本体感应信号和本体模型估计模型参数,并结合建构空间内的对象和场景,计算智能体本体包括主干和各部件相对其他对象在场景中的位置和姿态,并在本体模型不适用时修正本体模型并更新本体模型库;
33)本体认知子模块,判断、推理或规划过程中若需要本体参与,则将本体作为一项内容或元素填充进唤起的逻辑中,参与进判断、推理或规划过程中;
34)本体动作控制子模块,需要本体行动时,将规划结果生成动作序列、硬件控制程序信息作为本体控制信号输出;
35)本体模型库,存储智能体主干和各部件在数学、物理、图型、运动、相互作用方面的结构参数模型。
9.如权利要求1所述的一种通用智能体,其特征在于:
所述潜意识模块包括:
41)潜意识感觉子模块,使用数据驱动模型实现潜意识下的感觉功能;
42)潜意识知觉子模块,使用数据驱动模型实现潜意识下的知觉功能;
43)潜意识认知子模块,使用数据驱动模型实现潜意识下的认知功能;
44)潜意识输出模态转换子模块,使用数据驱动模型实现潜意识下多模态信号输出功能;
所述子模块41)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号是输入模块获取的输入信号,模型输出信号是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句;
所述子模块42)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句,模型输出信号包括与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句;
所述子模块43)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句或是与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句,模型输出信号包括与意识模块中认知子模块生成的认知元点集合或图型相适配的通用语言语句;
所述子模块44)处理流程具体包括:使用训练后的模型参数,根据模型输入信号,获取模型输出信号;模型输入信号分别是输入模块获取的输入信号或是与意识模块中感觉子模块生成的线索元点集合或图型相适配的通用语言语句或是与意识模块中知觉子模块生成的对象、场景元点集合或图型相适配的通用语言语句或是与意识模块中认知子模块生成的认知元点集合或图型相适配的通用语言语句,模型输出信号包括与输出模块输出信号相适配的多模态数据。
10.一种如权利要求1所述的通用智能体控制方法,其特征在于:包括:
S1、记忆预置与智能体预训练;
S2、价值驱动的任务生成;
S3、任务导向的自主决策;
S4、任务执行与自我进化;
S5、步骤S2—步骤S4多轮进行,主动与环境和用户交互;
所述步骤S1具体包括:对于意识模块长期记忆子模块中的概念库、逻辑库、本体模型库进行预先设置,且按照需求设置属性值;对于潜意识模块中各子模块包含的网络模型,收集模型输入数据和期望的模型输出数据,对模型进行训练,更新模型参数;
所述步骤S2具体包括:对用户安排的目标、任务、指示,或根据观察到对象和场景,对记忆库中唤起的相关任务场景进行任务分析,通过价值判断选择合适任务;
所述步骤S3具体包括:对选择的任务自主生成判断、推理、规划,分解成任务解决的具体步骤和移动、操作动作序列;
所述步骤S4具体包括:智能体输出本体控制信号进行动作执行或直接在建构空间内完成认知任务,并在任务执行中通过观察场景构建和动作控制误差自适应调整意识模块记忆库和潜意识模块各模型参数实现自我进化;
所述步骤S5具体包括:多轮进行步骤S2—步骤S4,智能体主动与环境和用户交互,持续生成任务并自主决策执行,整个过程中智能体思维透明可控,且智能体通过学习调整属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410426223.8A CN118261192A (zh) | 2024-04-10 | 2024-04-10 | 一种通用智能体及其控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410426223.8A CN118261192A (zh) | 2024-04-10 | 2024-04-10 | 一种通用智能体及其控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118261192A true CN118261192A (zh) | 2024-06-28 |
Family
ID=91603623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410426223.8A Pending CN118261192A (zh) | 2024-04-10 | 2024-04-10 | 一种通用智能体及其控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118261192A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118552953A (zh) * | 2024-07-26 | 2024-08-27 | 华润医药研究院(深圳)有限公司 | 基于ai智能体分析高内涵图像的系统和方法 |
-
2024
- 2024-04-10 CN CN202410426223.8A patent/CN118261192A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118552953A (zh) * | 2024-07-26 | 2024-08-27 | 华润医药研究院(深圳)有限公司 | 基于ai智能体分析高内涵图像的系统和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xi et al. | The rise and potential of large language model based agents: A survey | |
Lobos-Tsunekawa et al. | Visual navigation for biped humanoid robots using deep reinforcement learning | |
Scheutz et al. | Novel mechanisms for natural human-robot interactions in the diarc architecture | |
CN107150347A (zh) | 基于人机协作的机器人感知与理解方法 | |
CN118261192A (zh) | 一种通用智能体及其控制方法 | |
Zare et al. | A survey of imitation learning: Algorithms, recent developments, and challenges | |
Zambelli et al. | Online multimodal ensemble learning using self-learned sensorimotor representations | |
Song et al. | Skill learning for robotic assembly based on visual perspectives and force sensing | |
Bryndin | Development of sensitivity and active behavior of cognitive robot by means artificial intelligence | |
Escobar-Juárez et al. | A self-organized internal models architecture for coding sensory–motor schemes | |
CN116205294A (zh) | 一种用于机器人社交的知识库自更新方法、装置及机器人 | |
Crowley et al. | A hierarchical framework for collaborative artificial intelligence | |
CN110928302A (zh) | 一种人机协同自然语言空间导航方法及系统 | |
Dindo et al. | An adaptive probabilistic approach to goal-level imitation learning | |
Papadopoulos et al. | User profile-driven large-scale multi-agent learning from demonstration in federated human-robot collaborative environments | |
Wu et al. | Internal model control structure inspired robotic calligraphy system | |
Edwards et al. | Cross-domain perceptual reward functions | |
Li et al. | What Foundation Models can Bring for Robot Learning in Manipulation: A Survey | |
Helenon et al. | Cognitive architecture for intuitive and interactive task learning in industrial collaborative robotics | |
Wang et al. | Research on Computer Aided Interaction Design based on Virtual reality Technology | |
Li et al. | Perception-enhancement based task learning and action scheduling for robotic limb in CPS environment | |
Belkin | World modeling for intelligent autonomous systems | |
Wu et al. | Video driven adaptive grasp planning of virtual hand using deep reinforcement learning | |
Farinelli | Design and implementation of a multi-modal framework for scenic actions classification in autonomous actor-robot theatre improvisations | |
Liu et al. | CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |