CN113272646B

CN113272646B - 关联复杂数据

Info

Publication number: CN113272646B
Application number: CN201980060174.8A
Authority: CN
Inventors: 埃里克·希尔; 谢尔顿·布朗; 维斯利·霍金斯
Original assignee: University of California
Current assignee: University of California
Priority date: 2018-07-16
Filing date: 2019-07-16
Publication date: 2023-10-24
Anticipated expiration: 2039-07-16
Also published as: CA3106638A1; WO2020018576A1; US11379731B2; EP3824284A4; CN113272646A; US20210248480A1; EP3824284A1; ZA202100959B; US20230020112A1

Abstract

一种数据分析和处理方法，包括：形成包括多个实体的数据集的初始程序集，其中，每个实体均为限定实体如何彼此交互的变量和关系的集合；通过执行多次迭代来模拟初始程序集的进化，其中，第一次迭代使用初始程序集作为起始程序集；以及在模拟期间，查询初始程序集的进化，以获得满足最佳标准的数据集。

Description

关联复杂数据

优先权声明

本文件要求于2018年7月16日提交的题为“关联复杂数据(Relating ComplexData)”的第62/698,723序列号美国临时专利申请的优先权。该文件的全部内容通过引用并入本文件中。

关于联邦赞助的研究或开发的声明

本发明是在由国家科学基金会(NSF)授予的IIP-1439664的资助下，在政府的支持下完成的。政府对本发明享有一定权利。

技术领域

本专利文件涉及人工智能和数据库处理领域。

背景技术

在数字时代，人类活动、传感器和计算处理正在产生不断增长的数字数据，并且这些数字数据由计算机进行存储和分析。数据捕获和分析通常是在基础科学、计算机技术、金融行业、医疗保健的许多进步中的重要步骤，并用于解决许多现实问题。

发明内容

公开了用于分析复杂数据的设备、系统和方法。

在一个示例性方面，公开了一种计算机实施的数据处理方法。该方法包括：通过程序集的群集中实例化，形成数据集和算法关系的初始程序集，其中，程序集的群集具有数据集和算法条件的变化范围；将至少一个情境条件与群集相关联；将群集中的各个程序集彼此进行比较并与至少一个情境条件进行比较，以寻找由各个程序集提供的优化；通过执行多次迭代来模拟初始程序集的进化，其中，第一次迭代使用初始程序集作为起始程序集；以及基于初始程序集的进化期间的查询，提供满足最佳标准的数据集。模拟通过以下操作进化：通过使起始程序集中的每个数据集(1)使用相应的算法关系与起始程序集中的其它数据集进行交互，或(2)使用随机化技术来改变至少一些数据集的值，而使起始程序集进化；在第n次迭代结束时，剔除群集中未能满足第n次迭代的靶目标函数的程序集；以及选择性地基于多次迭代的终结，替换起始程序集，以包括在剔除之后的剩余数据集和算法关系。

在另一示例性方面，计算机实施的数据处理方法包括：形成初始程序集；通过执行多次迭代来模拟初始程序集的进化，其中，第一次迭代使用初始程序集作为起始程序集；以及在模拟期间，查询初始程序集的进化，以获得满足最佳标准的数据集。模拟包括：通过使起始程序集中的多个实体(1)利用该关系与起始程序集中的其它实体进行交互，或(2)使用随机化技术来改变变量的值，而使起始程序集进化；在迭代结束时，剔除未能满足该迭代的靶目标函数的多个实体；以及选择性地基于多次迭代的终结，替换起始程序集，以包括在剔除之后的剩余实体。

在另一方面，包括一个或多个计算平台的计算机系统可配置为实施上述方法。

在又一方面，上述方法可以以计算机可执行代码的形式实施并存储在存储介质上。

在又一方面，公开了一种用于显示模拟的进行中的进展的可视化方法。

关于上述方法，各种实施方式可优选地实现以下特征。

优选地，多个实体中的至少一个包括实体的集合。

优选地，比较被用于寻找由各个程序集提供的特定优化。

优选地，不同的靶目标函数用于至少一些迭代。

优选地，靶目标函数包括能量函数。

优选地，靶目标函数包括唯一性函数。

优选地，不同的靶目标函数用于至少一些迭代。

优选地，使起始程序集进化的操作还包括：由于多个实体中的两个之间的交互而创建新的实体。

优选地，初始程序集中的至少一些实体对应于现实世界属性，以及其中，形成数据集的初始程序集包括：通过包括与现实世界属性相关联的基于数据库的字段来形成至少一些实体。

优选地，数据集匹配被用于创建新的实体。

优选地，数据集程序集可基于满足兼容性标准而交互。

优选地，可使用与模板的偏差作为标准来执行剔除。

这些以及其它特征和方面在本文件中进一步公开。

附图说明

图1是程序运行环境的示例。

图2是共生计算系统的程序集行为平台的示例性实施例。

图3是用于实施本文件中描述的技术的硬件平台的框图。

图4示出其中自由形式浮点值用于各种计算机数据结构的示例性系统。

图5示出刚性网格结构和自由形式结构的示例，同时使用整数表示各种计算机数据结构中使用的值。

图6是使用更简单的结构计算来执行计算的思想的图示描绘。

图7示出程序运行环境中的计算的中间结果的示例性可视化。

图8是程序集的突变的示例的图示描绘。

图9是环境因素对计算的影响的示例的图示说明。

图10示出计算系统的优化的示例性过程。

图11示出非对称跨平台实施例的示例。

图12是复杂数据分析的示例性方法的流程图。

图13示出复杂数据分析的另一示例性方法的流程图。

具体实施方式

近年来，实际上人类生活的每个方面以及我们对所有事物的理解正被捕获并存储为计算机数据。能以计算机数据的形式建模或存储的事物的示例包括全球天气模式、星际数据、自然生态系统、金融数据等。在运动、金融、医疗保健领域、艺术、执法、电子商务、科学、新闻报道等方面，新的数据被创建、存储和分析。随着数据量的不断增长，新的计算机正持续被发展以帮助对该不断增长的信息量进行存储和分析。

例如，执法官员、或股票经纪人、或医疗从业者、或运动管理者、或科学家可能会触手可及大量的数据，并且可能能够使用当今允许用户筛选数据并检索有用数据的工具。然而，这种工具的一个局限性在于用户将仅能够检索其正在寻找的东西。现有的工具不足以通过学习数据之间的相关性来搜索模式。例如，当今许多现代数据库非常庞大，轻松拥有上亿个数据条目。尽管可使用许多当前工具进行简单查询和搜索技术或数据库的相关搜索，但是这种工具无法通过使计算机学习各种数据条目之间的相似性或差异来提供对数据库的附加见解。

本文件公开了可以在用于复杂数据分析的系统中实施的技术。看到一些实施方式的一种方式是通过使用进化的、多级人造生命环境的隐喻，以得出数据与算法函数之间的新颖、优化的关系。一些实施方式可包括编码特征的合成系统，以及与环境的化学和物理学类似的规则集，为创建日益复杂的突发行为提供基础。

在一些公开的实施方式中，通过交互和实验在算法系统的脉冲及其理解手段之间创建合作机制。

在本文件中描述的一些实施方式涉及通过简单组件的程序集和交互来实验突变“智能”的潜力。

在本文件中公开的一些实施方式涉及发展越来越复杂的模仿神经网络的交互系统。

在本文件中描述的一些实施方式涉及创建多用户游戏体验，该体验通过过程性和基于进化的生成性游戏推动“标准”多玩家游戏的发展。

一些实施方式实施用于优化数据和算法关系的方法。例如，方法可包括：基于用于从群集中选择一个或多个程序集的指定标准，隔离程序集的群集的不同方面的能力，该程序集可以是例如如本文件中描述的数据分组。然后，可以将这些分离的程序集放置到情境条件中，该情境条件是原始情境环境条件的任何子集，包括原始的所有方面或子集方面。在一些实施方式中，程序集的子集和环境情境的子集作为单独的计算过程在进化方案中运行，并且可以在不同的硬件或与原始程序相同的硬件的并行线程上运行。在实施期间的任何时候，已经在这些替代线程上发展的程序集可重新引入到主计算系统中。然后，一些实施方式可以检查如果特定的优化范围更窄，那么是否将为群集行为的总体稳健性提供价值，或者是否比已在更大环境条件下进化的群集成员具有更高的最佳性。

接下来，描述上述技术可以如何与汽车设计优化相关联的示例。数据分析系统可确定该系统的用户想要设计针对其功能的一个方面(诸如牵引力)进行优化的汽车。系统可评估通过运行而出现的设计，设计可具有系统可能会考虑达到良好的总体平衡(加速度、制动、货物容量、燃料效率、环境影响等)的一系列特征。系统可选择已在系统中进化的这些候选项中的一个或多个，这些候选项已响应于非常大量的情境条件并已为了指定的成功(诸如消费者的期望)而彼此竞争。用户可为诸如“牵引力”的特征选择候选项并创建有限的适应性测试。用户还可创建环境情境，其中牵引力条件是唯一结果性变量。然后，设计进化过程可改变诸如轮胎宽度、轮胎混合物、悬架系统、车轮数量、空气动力效应、重量分布、转向半径、重心等参数。当这些特征的变化已达到一定程度的优化时，然后可将成功的候选项重新引入更大的情境条件集中，其具有对进化过程可用的更广泛或完整范围的特征。

数据分析技术的另一示例还可以在医疗保健领域中进行说明。一种实施方式可通过从大规模健康研究中剔除结果，寻找人类行为与生理测量的数百种优化关系。该实施方式可建立由已测量的部分组成的个体模型，然后用适当的差异来进化这些个体，以确定其可如何针对与汇总研究数据的情境条件影响健康。实施方式可以将各个模拟个体或各个现实世界患者带入其自身的过程，并运行独立的进化过程以了解什么类型的行为、环境和/或生物特征变化将会对总体健康结果产生影响。这些可具有总的汇总研究中或其任何子集上的完整情境。

现在讨论以上介绍的复杂数据分析技术的附加细节和实施方式。

简要系统概述

图1描绘了程序运行环境100的示例。环境100可使用单个计算机平台或使用诸如云计算网络的分布式计算机来实施。可构造环境100以解决问题102。根据问题102，可以在环境100中执行的实施和模拟期间使用一个或多个数据库104的条目。贯穿本文件描述了问题102和环境100的形成的各种示例。

环境100可包括多个程序集106，其中一些程序集106可一起分组到相应的混合体(Amalgam)108。因此，混合体108可包括多个程序集106。当解决具有各种数据库条目之间的多种关系及其与所需解决方案的交互的复杂问题时，如本文件中进一步描述的，单个环境100可包括多达10,000(或更多)的程序集。

此外，尽管图1并未明确地描述群集，但是该术语可以指与其环境分开的程序集的集合。例如，群集及其情境一起将是混合体。混合体的群集可被认为是环境。因此，如本文件中所公开的，复杂的数据集可组织成具有相应的关联行为属性的递归结构。

程序集方案的示例

图2以图示方式描绘程序集方案106的示例实施方式。在程序集方案106中，数据和算法可视为人造生命有机体的特征和行为，并且存在于过滤和选择其可能状态之间的最佳性能变量的环境中。实体由许多数据之间的许多算法关系组成。数据及其算法关系的变量是通过多种方法创建的，诸如随机变化(突变)和来自多个亲本的遗传组合(繁殖)。实体存在于测试其整体健壮性的条件的情境内。这些环境条件可设置为允许各种测试场景，以允许实体作为候选解决方案继续存在和进化。高性能实体持续存在，而低性能解决方案被剔除。随着时间的推移，会创建高度优化的解决方案，并且可以在出数据与算法之间的关系方面展现出新颖性，这对于人类设计者而言是不太可能确定的。数据集的规模及其涉及的任何算法关系在理论上是没有限制的。然而，已集中于针对具有高达1000个以各种方式聚集的特征的数据集来优化该过程。

程序集系统106用形态依赖性的数据良好地工作。可以在围绕赛道赛车的汽车程序集的描述中找到其示例，汽车的行进时间和距离将由车辆尺寸和重量、引擎功率、空气动力学、能量消耗、制动距离、轮胎组成和许多其它因素之间的相互关系来确定，其中每个因素具有其自身的细节和变量子集。另外，包括诸如赛道形状、路面和天气的事物的不同环境条件可能会有利于不同的最佳解决方案。创建初始模拟模型，其中将总体问题分割成与其它子系统和/或以特定操作规模限定的系统具有特定关系的子系统。在赛车的示例中，轮胎将是合理的子系统，其具有尺寸、混合物、胎面类型、充气水平的变量。这些特征中的一些可具有多个特征，而其它的特征可仅具有单个值。轮胎实体将能够在某点处物理地连接到元实体的其它方面，并且连接的特征也将经受变化和进化。跑车问题将继续以该方式分解成子系统集。子系统的细节级别可以非常深入，并可具有嵌套实体。以此类推，赛道的环境还可以用诸如长度、表面、天气、规律性、燃料可用性、比赛条件(时间和/或长度限制)的特征来指定。模拟的开始将是在所有状态下随机产生许多可能的变量。初始适应性函数可被应用，在这种情况下，如果实体能够产生运动，则可能会导致失败而被剔除，并且幸存项产生具有随机突变的子代(子代的数量可变化并可取决于幸存项在适应性函数方面表现如何)；可能在这种情况下，能够行进得最远的幸存项产生十几(或一百万)个突变子代，且在特征可能变化的数量和范围方面，突变率都从极小量变化到大量(即，特征的0.01％至10％)。适合度测试可被再次应用，在这种情况下，由实体是否到达某个路标为特征。那些的确能够繁殖的；那些到某时间不会被剔除。更大规模的环境条件是计算资源的环境条件，对不太可能产生可行解决方案的解决方案的持续变量进行计算是一种资源的浪费，应将其应用于最具希望的解决方案。然而，由于有利的突变会在稍后阶段发挥作用，因此在稍后的模拟中保持不同的方法来发挥作用可导致最佳解决方案。正解决的条件的性质可确定如果采用主动或被动剔除策略可能会更有意义，并且实际上，该方法本身可以经受与基础模拟的更高级嵌套相同的进化计算方法。

环境交互还可以是模拟的方面。例如，可能会存在实体争夺的某种资源。在这种情况下，燃料资源可能具有局限性，在经过一定距离(并沿特定方向)之后，实体可发现其自身正在添加燃料。其添加量可具有多重含义，太多会增加了重量，太少会使其实体可能没有足够的能量继续。燃料还可位于具有多条路径的赛道上，并且实体可具有引导系统，该引导系统具有可能会或可能不会有助于将其引导到正确方向的各种特征。到此为止，已经描述了实体如何通过复制自身的突变进行繁殖以作为进化的方式。还可使用多亲代的概念，其中两个或更多个实体可作为子代的亲代，具有表达其自身的差异(诸如主导和隐性价值)的具体特征或具有混合比率的亲代特征的混合作为另一特征。

实体还可嵌套在其它实体内，并且具有其中实施的多个嵌套实体。这些嵌套级别可以彼此具有共生关系，这可提供更有效的方法来产生许多潜在的候选解决方案。使用示例性条件，赛车产生的废气与其速度和行进距离成比例。具有行进许多路径的快速汽车可能是许多汽车利用所有可用燃料的良好方式，但其将产生大量废气。除了汽车的特定功能之外，可考虑生产燃料的方式：太阳能蒸馏厂，其输出随着烟雾水平的上升而下降。汽车实体还可具有燃烧子系统，该燃烧子系统在燃料使用率、功率输出和烟雾输出方面具有变化，并且还具有与引擎特征的关系，诸如氧气利用(其还可受到烟雾输出的影响)、燃烧时间、压缩比、以及影响发动机设计的尺寸和重量的其它条件。所有这些特征可具有多级抽象和相互依赖，这可将解决问题的模拟集中在所需规模。通用模型可以用设置为特定变量的方面或用有限的差异来构建，而模拟的其它部分通过进化计算模拟来运行。

数据间复杂关系的示例

这些类型的差异和形态关系可以在许多复杂的数据系统中找到。另一示例可以在来自大规模研究的人类健康数据中看到。了解人类行为、个体特征、疾病和治疗的许多因素如何影响患者的预后是个艰巨的问题。幸运的是，越来越多的数据开始标记其之间的相关性。但是，该数据具有成百上千个维度。对于个体患者，他们及其医生不可能了解哪些变化可产生更好的预后。可以将多尺度、环境进化方法应用到这一难题。可以以多种方式将适应性的不同组成分组到子系统中，并观察特征(其一些可存在于一个以上的子系统中)可如何导致对预后的整体评估。例如，具有跟踪人们的生活方式、家庭疾病率和特别关注的医疗条件(例如心脏病、癌症、肺部疾病、认知和神经功能以及适合度)的广泛数据集。这些领域的每一个中的大规模研究都已经以不同的方法完成并产生了各种格式的结果，但是总的来说，都已经观察了许多生活方式特征，诸如：年龄、体重、身高、性别、饮食、药物、补品、心率、血压、血小板、睡眠模式等。几十年来，一些研究已经跟踪了数十万人的数百个特征。其它在较短的时间内跟踪了更多数量的人的更少变量。在这些现有研究的每一个中，很难利用当前的分析方法来确定应追求怎样的生活方式以产生最佳的健康结果。应每天服用阿司匹林吗？做的运动量、喝的咖啡量、或看电视花费的时间量重要吗？阿司匹林会改善心脏健康，但可能增加结肠直肠癌风险吗？

在进化计算系统中，可以在已知程度上创建个体特征的模型，并且可以持续地更新该模型以改善完整性并包括同期条件。该模型可用作创建可进化出变量的实体程序集的基础，该变量可以与从这些大规模研究的数据集得出的结果进行比较以作为多变量适应性条件。总体系统可观察各种研究之间的相互关系，并将各个特征归一化使得可以对其进行全面比较。这可能显示，对一个区域中的结果进行优化可能会严重损害另一领域的结果。

经济学是可以与该方法结合使用的另一领域。对微观和宏观经济条件的变化进行建模可有助于观察政策或投资决策的可能后果和解决方案。例如，对特定进口材料征收关税可能有助于促进经济的特定部分，但也可能导致经济的其它部分遭受损失。可以对许多不同的工业部门进行建模，工业部门的每一个将具有基于生产价格(材料、劳动力、能源、运输、税收)和收入(价格、所需努力、市场规模、竞争)的各种特征。可以从测量的起始点提取数据，并且实体将处于许多彼此共生的相互关系中，其特征也将随时间变化。

示例性硬件平台

图3示出示例性硬件平台300。一个或多个这种平台300可用于实施本文描述的环境100。在各种实施方式中，平台300可用于分布式计算系统或可对应于位于计算云中的计算源。所公开的环境100是可扩展的以在单个平台300上实施，平台300可以是移动电话、膝上型计算机或工作站。

平台300可包括一个或多个处理器302。处理器302可配置为执行代码。平台300可包括用于存储代码、数据和运行的中间结果的一个或多个存储器304。平台300可包括用于数据输入或输出的一个或多个接口306。例如，接口306可以是诸如有线以太网或无线Wi-Fi连接的网络连接，或可以是诸如USB的通信端口等。文件中描述的各种技术可以在基于云的计算系统中实施，其中可存在多个硬件平台300。

模拟环境的示例

已经创建对该示例系统的模拟，以示出各种数据条件如何能够产生高性能结果。该模拟创建了具有3级嵌入式系统的多级环境。嵌入级别没有下限的上限。在这种情况下，将把这些级别命名为程序集、混合体和环境。将最详细地描述该程序集。其是由遗传密码指定的人造生命实体。该代码指定程序集中节点的数量、以及节点布置和彼此连接的方式，以及基于连接模式中的位置的每个节点的功能。混合体中有许多程序集。程序集的群集与混合体的活力之间存在共生关系。混合体从其所处的环境中捕获能量，然而直到其被程序集代谢才能利用能量。程序集试图通过混合体移动以捕获该能量，利用该能量，并释放混合体用于其活力的代谢物。

剔除和适合度检查的示例

适合度检查和剔除可以在分层结构的任何层进行。适合度测试可具有多个因素，并可进行调整以允许更宽或更窄范围的结果通过。例如，代谢状态的适应性函数可用于从环境中剔除程序集——如果程序集不能以匹配或超过其利用率的速率添加能量，则其将不复存在，并且其数据关系的特定配置将不会是未来可能的数据关系的总体集的部分。如果将适合度测试应用在更高级别(诸如Amalgam级)，则基础数据关系的整个群集将被从系统中剔除。可使用的其它测试将包括，需要消耗过多的能量以允许程序集与另一程序集结合产生子代；不能产生子代的程序集将离开基因库。数据分析系统可以无限期地运行，但是已经发现随着时间的推移，程序集将趋向于达到组合可能性的相对停滞，有时与多于一种数据关系共存的普遍压力。则这些将是良好候选项以提取和检查数据关系的具体细节以用作辅助决策过程。

示例性可视化

各种附图提供在数据分析和进化期间如何获得结果或程序集之间的关系的可视化描述的示例。一种可视化技术可描绘类似于通过交互、突变和去除在群集中发展各种生命形式的视觉图片。

表1示出了混合体格式的一个示例，其中，用所使用或处理的数据的简化表示以及到程序集的输入和输出，来限定各种程序集。

表1：示例性混合体格式

表2提供了程序集格式的示例，其中程序集的各种子系统模拟简单生活形式的功能，以及相应的数据和输入/输出用作改变程序集的行为和特征的函数。

表2：示例性程序集格式

示例性特征和平台

图4示出了自由形式浮点值用于各种计算机数据结构的示例性系统400。系统400可模拟为互锁齿轮的布置，其运动或计算进展可单独控制，但可能能够影响彼此的运动(进展)。例如，三个“齿轮”或“子系统”包括三维点云物理模型的模拟，云内的每个点以某位置和某速度操作。可连接这些点以基于它们的位置/速度值来驱动随机节点连接和的邻域选择。得到的计算可以与自由浮动节点位置交互。

对复杂数据执行有意义的分析并使其对解决某问题有用的巨大挑战之一是能够以有意义的方式视觉地呈现给人类用户。在数据具有数十或数百个属性并可分析基础复杂关系的系统中，传统的数据库显示技术(诸如电子表格、过滤结果和多维图形)是不够的，由于这些技术可能使呈现的信息量在视觉上过载而更难以引起注意。图4示出了数据分析系统的各种部件(如多个互锁齿轮)之间的交互的示例，以突出不同节点连接和位置之间的交互。在一个示例性方面，这些交互可有利地用于将正进行的模拟结果显示为“生命形式”，其在模拟的持续时间中进化、彼此交互、形成程序集、繁殖或分离、突变等。数据分析和可视化的各个方面的附加细节还参考图5至图11进行描述，如下所述。

图5示出刚性网格结构和自由形式结构的示例，同时使用用于各种计算机数据结构中的值的整数表示。左边的结构示出实心的最接近包装棱镜，其表示程序集结构的基于刚性(例如，通过与邻域的连接性限定)整数的方案。在该方案中，每个点用三个整数表示，并且网格的每个点或顶点在一个属性值上与其邻域不同。与这种刚性结构相比，右边的刚性结构示出一种计算平台，其中允许计算顶点具有形成的自由度，并且结果点中的一些被认为是结构的部分。因此，右边的计算的可视化表示示出一种方案，其中模拟结果可采用许多不同的值(不仅沿着刚性结构)，并且以分布式方式促进模拟的进化。如图5的视觉上所示，在一个有利的方面，右边的数据集的显示在视觉上是有效的和直观的。特别地，数据元素在空间上被寻址，并提供条件的可视状态或数据模拟的进化。

图6是使用更简单的结构计算来执行计算的思想的图示描述。图6可视化地示出最接近包装网格系统的“随机爬虫”基准测试示例的操作。与图5类似，图6标识结构，并且随着模拟的进展，人类用户可以可视地跟踪结构(例如，程序集)的进化。

图7示出程序运行环境中计算的中间结果的示例性可视化。在本示例中，每个程序集是使用刚性最接近包装网格系统而构造的，显示系统的有机美感，否则其构造是欧几里得的。图7中的示例示出了如何将模拟的结果可视化地描绘为活生物体或细胞(例如，多面体)，及其与其它数据结构的相应连接、以及通过数据分析的进展而进化。

图8是程序集突变的示例的图示。在一些示例性实施方式中，系数可应用于多个类型的变量。该操作难以平衡，因此变量以相对于其当前值的最大变化规模进行评估。示出计算的三个阶段(从左到右)经历了突变，其中程序集从服从结构开始，然后发展出有效的移动策略，并最终在高效的目标系统中对该策略进行磨练。如图8所示，单个实体(多个多维数据集的集合，每个多维数据集具有不同的视觉标识或灰度表示以将其标识从其它实体中区分)可进化为更复杂的实体(中间)，并发展各种部件之间的关系，包括使用突变过程，逐渐得到右边的实体。例如，如本文件中公开的，基于被设计成创建从一次迭代到下一迭代的操作参数，这可被称为“0.05”突变。

图9是环境因素对计算的影响的示例的图示说明。在本文公开的一些实施方式可使用生物界所理解的进化概念，以执行复杂的数据分析并在复杂的数据分析期间提供中间结果的可视化显示。例如，现实世界的问题可作为生物学问题而被提出。类似于生物生命的进化，其中适用法则包括诸如能量守恒的自然法则，并且生物生命受到其自身的代谢活动的限制和限义，并且生物生命形式的生长和变化受到环境因素(诸如食物供应、与其它生物生命形式的竞争、危险条件等)的影响，可以将数据对象的进化模拟为类似的框架以解决问题。在该框架中，如贯穿本文件所描述的，现实生活问题可作为数据特征或关系或相关性而被提出，并且可允许相应的起始数据集使用“自然规则”、“生命规则(例如，代谢)”和“环境规则”来进化，这些规则限定各种数据对象之间的复杂关系以其之间的交互。

图10示出对作为数据分析系统操作的计算系统进行优化的示例性过程。图10示出优化为在10,000多个单独的网络节点上运行的引擎。复杂数据的模拟可能必须进行优化，以保持可控和实时的计算复杂度。这种方法可包括使用八叉树，如图10所描绘的。例如，在给定时间经历进化的所有数据集的整体可被划分为八个八分之一(通常为任何数量)。从划分中，可选择保留具有有效影响最终结果的可能性的较小的实体或数据对象集，并且剩余的数据实体可以“放弃”或去除。诸如邻域的距离的度量可被用于进行该剔除。例如，可以将距离与阈值进行比较，并且具有比阈值长的距离的数据实体可被去重或去除。类似的策略可用于数据对象的剔除，并且还可用于实现数据对象的进化的计算节点的剔除。

如图10所示，节点间的物理交互在“基于邻域”的系统上操作。每个节点已进行对其邻域的引用，然后尝试将其自身“拉”到相对于邻域的目标位置。邻域也执行相同的操作。一旦所有节点已运行了其计算，则对该帧进行位置和速度更新。

例如，在一些实施方式中，节点可实施为以下逻辑以尝试将其“静止位置”与其邻域对齐。

curNeighborNode.delayPosition-＝vecToNeighborTargetPos*lerpStep/neighbors.Count；

curNeighborNode.delayRotation＝Quaternion.Ler(delayRotation,curNeighborNode.rotation,lerpStep).

此处，变量后缀位置和旋转可表示节点相对于坐标轴的节点在3D空间中的位置和旋转角度。例如，便利的3D参考轴系统可以是从模拟系统的用户的角度来看的。此外，可使用向量以步长变量将位置调整到相邻目标位置，所述步长变量由相邻节点的数量的计数进行缩放。例如，当相邻节点的数量很大时，例如，当给定节点处于拥挤状态时，则位置调整可以相应地缩小或减慢。因而，该数学性质可促进模拟的稳定转换。上面的第二方程描述节点在四元数坐标系(四维复数系统)中的旋转运动，其中，在一定的延迟之后，基于与相邻节点旋转的关系来实现旋转。例如，在经过一定量的延迟(例如，迭代次数)之后，该数学关系允许相邻数据集受到彼此之间的变化的影响。图4中的每个“点”或实心几何形状(诸如图5至图11中的圆形节点或立方体)可表示实体、或数据集和关系的集合。

在一些实施方式中，最接近包装网格系统可用作确定性方法以进行程序集结构的保存/恢复/突变，但是“晶格”不再是刚性的。新的节点物理引擎可以从软体物理引擎的基本原理中脱离，以允许可模拟有机组织和肌肉的有机结构流动。

为了进行模拟并为了可视化地显示结果，运动是通过肌肉收缩与所得到的肌肉位移的乘积以及这些收缩的频率来实现的。在模拟中可观察所得到的运动的差异。

图11示出了非对称跨平台实施方式的示例。从左上角开始，各种程序集的环境可以随机地用起始数据实体播种。随着环境的波动(进化)，进化的程序集中的一些可转移到先前不是模拟框架的一部分的另一计算平台。这种接收计算平台可以是例如手持设备(诸如平板或智能电话)。该模拟可以在这种设备上与在起始数据对象上运行的模拟隔离地继续。在手持设备上进行模拟期间，对于某些环境因素(例如，功率消耗)，可使用稍微不同的参数进行模拟。在一些将来时间，可以将手持设备模拟的结果重新引入到原始或主要模拟环境中。

在重新引入环境条件的情况下，模拟返回到先前与刚性程序集运行的“汤(soup)”模拟，但是现在具有更高的性能以及基于物理的更有趣的程序集行为。

繁殖的示例

当环境用随机产生的唯一程序集播种时，具有足够高的内部能量的两个程序集可尝试进行有性繁殖。子代将包含基于来自两个亲本的随机遗传以及少量随机突变的结构和节点信息。

复杂度增加的示例

环境的最高级阶段“乌托邦(Utopia)”用于将更早期阶段的概念和机制纳入社会情境。用户操作具有与环境的一些形式的全面交互的人形机器人，该人形机器人已脱离产生第一级和第二级的过程而生长(并构建在其上)。

图12是数据处理和分析的示例性方法1200的流程图表示。方法1200可由本申请中描述的数据分析系统实施，例如，使用关于图3描述的硬件平台。

方法1200包括，在1202处，形成包括多个实体的数据集的初始程序集，其中，每个实体是限定实体如何彼此交互的变量和关系的集合。

方法1200包括，在1204处，通过执行多次迭代来模拟初始程序集的进化，其中，第一次迭代使用初始程序集作为起始程序集。在操作1204中对进化的模拟可包括：第一操作，通过使起始程序集的中的多个实体(1)使用该关系与起始程序集中的其它实体进行交互，或(2)使用随机化技术改变变量的值，而使起始程序集进化；第二操作，在迭代结束时剔除多个未能满足该迭代的靶目标函数的多个实体；以及第三操作，选择性地基于多次迭代的终结，替换初始程序集以包括在剔除后的剩余实体。

方法1200包括，在1206处，在模拟期间，查询初始程序集的进化以获得满足最佳标准的数据集。

方法1200还可用于对不同部分或子系统之间的依赖性进行建模。依赖性可在成为相应程序集实体的“基因”的不同子系统之间限定。多个基因之间的交互成为程序集的行为。在一些实施方式中，可以将用于数据模拟和分析的现实生命问题映射到其相应的程序集，这可用作系统行为模拟的起始点。

在模拟期间，可使用适应性函数并通过在给定时间读取程序集的特征来确定初始程序集的进化。原则上，模拟可能不具有明确限定的结束标准。对于现实世界的模拟，查询的结果可用于结束模拟，因为其可产生感兴趣的答案。

在一些实施方式中，实体本身可表示其它实体的集合(例如，人体是多个器官的集合，器官是多个细胞的集合等。)

在一些实施方式中，不同的靶目标函数可用于不同的迭代。在一些实施例中，目标函数可基于相同的参数，但是在不同的迭代中具有不同的值。例如，实体维度可用作目标函数标准，并且维度的阈值可以从一次迭代改变到下一次迭代。可替代地或另外地，不同的迭代可针对目标函数使用不同的参数。例如，实体维度可用于一次迭代中，而实体权重可用于另一迭代的目标函数中。在一些情况下，目标函数可使用多个实体参数的组合。

如本文件中进一步描述的，实体可能能够创建(产生)新实体作为其之间的交互结果。例如，从患者出生年份实体和患者体重实体开始，当模拟达到特定体重和出生年份之间的相关性达到显著数量的阶段时，可创建对应于“肥胖青少年”的新实体。该新实体可以用它自身的数据结构和函数来限定(例如，增加对糖摄取的敏感性)。

在一些实施方式中，可以通过数据集匹配过程创建新的实体。该过程可以在程序集具有过多的能量储备时发生，并且除了搜索能量输入之外，程序集还能够将其活动的一些转向搜索以进行适当的匹配。能量可以表示通过其遗传密码确定的特征和通过其代谢活动和环境交互满足的条件。当两个(或多个)程序集找到感兴趣的匹配时，其能够创建新的子代实体(具有来自每个亲本的特征的混合)。混合本身可以是如程序集的所有其它特征一样具有进化变量的物质。混合可涉及数学技术，诸如线性加权、非线性加权或随机化。在一些情况下，可能会从两个以上的亲本实体中自动生成新的实体。例如，在数据集匹配的过程期间，一个亲本实体可能找到一个以上适于创建新实体的其它实体。取决于该亲本实体的特征，例如，该亲本实体是否可以通过与多个其它实体进行匹配来生成新的实体，上述技术可用于创建具有多个亲本的新实体。这种多亲本数据分析技术的一个优点在于，通过控制可导致新的子代实体的亲本的数量，可控制从一代到下一代或从一次迭代到下一迭代的数据集中的变化量或变化范围。

例如，在一些实施方式中，亲本实体A和B(或附加的亲本，如果存在)的特征(包括特定的数据值以及算法方法的规范)由新的实体C、D、E等继承。创建的新实体的总数可以是变量，该变量可设置为具有上限和下限，并具有控制创建多个子代的可能性，诸如固定数、随机数、具有概率结果的随机数。来自任一亲本的特定特征的表达可具有多种可能性，这些可能性本身是可遗传和可突变的特征。一个亲本的版本或数据集可直接复制到子代中的一个，可发生结合亲本的特征的方面的特征的一些混合物，并且该组合的加权本身是可遗传的特征，并且其中任何一个可经受突变，其中无论使用哪种方法，结果都可以对其应用随机化因子。随机化因子可以在遗传密码的外部，并且可以由操作系统的人来设置，并且可以将其设置为在系统上具有其自身的分布，诸如应用于整个群集的相同突变因子，或应用于群集的每个成员的变化的突变因子，或在群集的不同代上具有特定变化率的突变因子。例如，可指定在初始代中突变率为10％的基因突变(具有10％的数据特征的变化)，并且随后每一代的突变率下降1％。如由模拟系统的操作员所确定的，这些突变率还可限于遗传密码的特定区域。

在一些实施方式中，初始程序集中的至少一些实体对应于现实世界属性，并且其中，数据集的初始程序集的形成包括，通过包括与现实世界属性相关联的基于数据库的字段来形成至少一些实体。在本文档中描述了现实世界问题的各种示例以进行说明，并且其它应用也是可能的。

图13是用于分析复杂数据的另一示例性方法1300的流程图。在一些实施方式中，方法1300包括通过程序集的群集中实例化来形成数据集和算法关系的初始程序集，其中，程序集的群集具有数据集和算法条件的变化范围。方法1300可由使用诸如关于图3所述的硬件平台的数据分析系统来实施。

在一些实施方式中，方法1300包括将至少一个情境条件与群集相关联。例如，可建立与群集相关联的情境条件，以使数据集在模拟期间进入竞争。

在一些实施方式中，方法1300包括将群集中的各个程序集彼此进行比较，并与至少一个情境条件进行比较，以找到由各个程序集提供的优化。例如，比较操作可用于找到由各个程序集提供的特定优化。例如，特定的优化可根据满足目标函数的一些目标值来制定。可改变靶目标函数以进行不同的迭代。因此，一个单独的程序集可能在一次迭代中被视为最佳的，但是在该迭代之前或之后的另一迭代中可能不被视为最佳的。

在一些实施方式中，方法1300包括通过执行多次迭代来模拟初始程序集的进化，其中，第一次迭代使用初始程序集作为起始程序集。模拟可通过以下步骤执行：通过使起始程序集中的每个数据集(1)使用相应的算法关系与起始程序集中的其它数据集进行交互，或(2)使用随机化技术改变至少一些数据集的值，而使起始程序集进化；在第n次迭代结束时，剔除群集中未能满足第n次迭代的靶目标函数的程序集；以及选择性地基于多次迭代的终结，替换起始程序集，以包括在剔除后的剩余数据集和算法关系。

关于方法1200和1300，例如，可以基于由数据分析系统的操作员提供的模板并通过读取一个或多个数据库的条目来形成初始程序集。数据库可具有类似的数据(例如，两个医疗或金融机构的数据库)或可包括不同的数据(例如，医疗数据库和金融数据库)。初始程序集可基于由操作者指定的规则集而形成。

关于方法1200和1300，可以以迭代方式执行进化的模拟。在一些实施方式中，可以以非同步方式迭代地进化各种数据集和程序集。例如，一个程序集可以在一周期内迭代K次，而另一程序集在同一周期内迭代L次，其中K和L是不同的整数。

关于方法1200和1300，程序集中的数据集可基于满足兼容性标准，使用算法关系彼此交互。例如，第一数据集可检查第二数据集的某一属性，然后仅在发现第二数据集是兼容的情况下使用第二数据集进行其进化。可以在不同的实施方式中、在不同的迭代中或通过不同的数据集使用不同的兼容性标准。兼容性标准规则可预先指定用于模拟进化，或可以在模拟期间指定并进化。可替代地，兼容性标准可限定为模拟中的另一实体或程序集，并且可以在模拟期间具有其自身的生命。兼容性标准的一些示例包括第二数据集已经历的多次迭代。例如，经历了多次迭代或大于阈值的进化的数据集可以不被强调或以减少的概率用于第一数据集的进化(例如，由于其代表过去发生的事)。可替代地，在一些实施方式中，经历更少进化的数据集可更频繁地使用或具有更高的权重。这种兼容性规则可用于通过遵循更早的迭代来加速迭代的收敛。

关于方法1200和1300，剔除操作可包括将程序集的各个条目与模板进行比较，并去除偏离模板的程序集。可替换地或另外地，可评估使用程序集的一些(或全部)条目的功能。可以对处于某范围内的函数的值执行检查，并且如果不存在，则在进化期间可以不再考虑相应的数据集或程序集。例如，函数可以评估程序集的“能量”(例如，量值)或程序集的“活力”(例如，由于该程序集而修改了多少其它程序集，或多少其它程序集已经导致了该程序集的改变)，或程序集的“唯一性”(例如，该程序集是否与至少N个其它程序集相似，其中N是阈值)等。因此，该功能可以导致异常值被去除(或可替代地，如果需要数据的突变，则被促进)。例如，可以限定该功能以去除不重要的程序集或不在家族中的程序集。可替代地，可设计函数以减少外观类似的数据集的收敛机会。因而，选择使用哪些功能进行剔除可以有效地用于引导进化沿着所需的收敛方向进行。在一些实施方式中，功能可以由数据分析系统的用户预限定。在一些实施方式中，可限定规则以用于在模拟期间进化函数本身。例如，如果迭代次数超过阈值并仍未获得收敛，则可改变剔除函数以促进更快的收敛。

方法1200和1300还可以向用户提供进行中的进化的快照，以允许用户监视和/或控制进化和数据分析。例如，可提供满足最佳标准的数据集作为对查询的响应。查询可以是在模拟系统的用户界面接收的显式查询。可替换地或另外地，查询可以是隐式的，例如，基于时间的流逝或者基于特定事件的发生(例如，创建新的程序集或新的群集)。

在一些实施方式中，初始程序集的进化可连续地提供到用户界面。图4至图11提供用于提供关于程序集、群集、混合体和环境的进化的信息的可视化技术的各种示例。

在一些实施方式中，包括方法1200和1300的上述技术可以是在一个或多个硬件平台上实施的模拟系统，例如，如关于图3所述。

在一些实施方式中，上述技术可以以处理器可执行代码的形式实施并存储在程序介质上，该程序介质可以由计算机读取以实现本文所述的数据分析方法。

从以上描述中，本领域技术人员将清楚，公开了用于分析复杂数据集并发现其之间的关系的新技术。所公开的技术可以在单个计算机平台或在诸如网络或云计算平台的一组计算平台上运行，或在平台上实施、转移到另一平台并重新引入到原始平台。

还将理解，在一些实施方式中，无论是在分析规则方面，还是在显示中间结果方面，数据分析可模拟生命形式的进化。例如，混合体可代表的多个程序集的高级程序集，程序集可代表最低级生命形式(例如，单细胞生命。数据分析的进化的可视化描绘提供了一种直观的方法，通过该方法人类用户能够保持跟踪分析的中间结果并控制分析的流程。

本领域技术人员还将理解，本文件中公开的技术可用于分析复杂的数据集，以发现或制定各种数据集之间的关系。迭代地执行分析，使得各种数据集关系基于某些目标函数而被制定、评估和传播或丢弃。

本专利文件和所附权利要求中描述的主题和功能操作的实施方式可使用包括各种系统的数据处理单元，数字电子电路，或计算机软件、固件或硬件中，包括在本说明书及其结构等同形式中公开的结构、模块和组件，或其中的一个或多个的组合来实施。与本说明书中描述的数据处理有关的主题的实施方式可实施为一个或多个计算机程序产品，即，在有形和非暂时性计算机可读介质上编码的计算机程序指令的一个或多个模块，以用于由数据处理设备执行或控制数据处理设备的操作。计算机可读介质可以是机器可读存储设备、机器可读存储衬底、存储设备、影响机器可读传播信号的物质组成，或其中的一个或多个的组合。术语“数据处理单元”、“数据处理模块”或“数据处理装置”等包括用于处理数据的所有装置、设备和机器，包括通过例如可编程处理器、计算机、或多处理器或多计算机。除了硬件之外，装置可包括为所讨论的计算机程序创建执行环境的代码，例如构成处理器固件、协议栈、数据库管理系统、操作系统或其中的一个或多个的组合的代码。

计算机程序(也称为程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言)编写，并且其可以以任何形式来部署，包括作为独立程序或作为模块、组件、子例程或其它适合在计算环境中使用的单元。计算机程序不必对应于文件系统中的文件。程序可存储在保存其它程序或数据的文件的一部分(例如，存储在标记语言文档中的一个或多个脚本)中、存储在专用于所讨论的程序的单个文件中、或存储在多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一个计算机上运行，或在位于一个站点或分布在多个站点上并通过通信网络互连的多个计算机上运行。

本说明书中描述的处理和逻辑流程可以由一个或多个可编程处理器来执行，该可编程处理器通过对输入数据进行操作并生成输出来执行一个或多个计算机程序以执行功能。处理和逻辑流程还可由专用逻辑电路(例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行，并且装置还可实施为专用逻辑电路。

适于运行计算机程序的处理器包括例如通用和专用微处理器、以及任何类型的数字计算机的任何一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器，以及用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括或被可操作地联接到用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，以从其接收数据或向其传送数据或两者兼有。然而，计算机不需要具有这种设备。适用于存储计算机程序指令和数据的计算机可读介质包括，所有形式的非易失性存储器、介质和存储设备、包括例如半导体存储设备(例如EPROM、EEPROM和闪存设备)。处理器和存储器可以由专用逻辑电路进行补充或并入专用逻辑电路中。

本说明书和附图一起旨被认为仅是示例性的，其中示例性意味着示例。如本文所使用的，单数形式“一”、“一个”和“该”还旨在包括复数形式，除非上下文另外明确指示。另外，“或”的使用旨在包括“和/或”，除非上下文另外明确指出。

尽管本专利文件和所附权利要求包含许多细节，但这些细节不应被解释为对任何发明的范围或所要求保护的范围的限制，而应被解释为特定于特定发明的特定实施方式的特征的描述。在本专利文献中描述的以及在单独的实施方式的上下文中的所附权利要求的某些特征还可在单个实施方式中组合实施。相反，在单个实施方式的上下文中描述的各种特征还可在多个实施方式中单独地实施或以任何合适的子组合来实施。此外，尽管以上可能将特征描述为在某些组合中起作用，甚至最初如此要求保护，但是在一些情况下，可以从要求保护的组合中去除组合中的一个或多个特征，并且要求保护的组合可以指子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描述了操作，但这不应被理解为要求以所示的特定顺序或以连续的顺序执行这些操作，或执行所有示出的操作以获得期望的结果。此外，在本专利文件和所附权利要求中描述的实施方式中的各种系统组件的分离不应被理解为在所有实施方式中都需要这种分离。

仅描述了几个实施方式和示例，并且基于本专利文件和所附权利要求中所描述和示出的内容可进行其它实施、增强和变化。

Claims

1.一种计算机实施的数据处理方法，包括：

通过程序集的群集中实例化，形成数据集和算法关系的初始程序集，其中，所述程序集的群集具有数据集和算法条件的变化范围；

将至少一个情境条件与所述群集相关联；

将所述群集中的各个程序集彼此进行比较，并与所述至少一个情境条件进行比较，以寻找由所述各个程序集提供的优化；

通过执行多次迭代来模拟所述初始程序集的进化，其中，第一次迭代使用所述初始程序集作为起始程序集，包括：

通过使所述起始程序集中的每个数据集(1)使用相应的算法关系与所述起始程序集中的其它数据集进行交互，或(2)使用随机化技术改变至少一些数据集的值，而使所述起始程序集进化；

在第n次迭代结束时，剔除所述群集中未能满足所述第n次迭代的靶目标函数的程序集，以及

选择性地基于所述多次迭代的终结，替换所述起始程序集，以包括在所述剔除之后的剩余数据集和算法关系；以及

基于所述初始程序集的进化期间的查询，提供满足最佳标准的数据集。

2.根据权利要求1所述的方法，其中，所述比较用于寻找由各个程序集提供的特定优化。

3.根据权利要求1或2所述的方法，其中，不同的靶目标函数用于至少一些迭代。

4.根据权利要求1所述的方法，其中，所述靶目标函数包括能量函数。

5.根据权利要求1所述的方法，其中，所述靶目标函数包括唯一性函数。

6.一种计算机实施的数据处理方法，包括：

形成包括多个实体的数据集的初始程序集，其中，每个实体是限定实体如何彼此交互的变量和关系的集合；

通过使所述起始程序集中的所述多个实体(1)使用所述关系与所述起始程序集中的其它实体进行交互，或(2)使用随机化技术改变变量的值，而使所述起始程序集进化；

在迭代结束时，剔除未能满足所述迭代的靶目标函数的多个实体；以及

选择性地基于所述多次迭代的终结，替换所述起始程序集，以包括在所述剔除之后的剩余实体；以及

在所述模拟期间，查询所述初始程序集的所述进化，以获得满足最佳标准的数据集。

7.根据权利要求6所述的方法，其中，所述多个实体中的至少一个包括实体的集合。

8.根据权利要求6所述的方法，其中，不同的靶目标函数用于至少一些迭代。

9.根据权利要求6所述的方法，其中，使所述起始程序集进化的操作还包括：由于所述多个实体中的两个之间的交互而创建新的实体。

10.根据权利要求6至9中任一项所述的方法，其中，所述初始程序集中的至少一些实体对应于现实世界属性，以及其中，形成数据集的初始程序集包括：通过包括与所述现实世界属性相关联的基于数据库的字段来形成所述至少一些实体。

11.一种包括一个或多个硬件平台的计算系统，所述一个或多个硬件平台配置为实施包括以下各项的方法：

将至少一个情境条件与所述群集相关联；

12.根据权利要求11所述的计算系统，其中，所述比较用于寻找由各个程序集提供的特定优化。

13.根据权利要求11所述的计算系统，其中，不同的靶目标函数用于至少一些迭代。

14.根据权利要求11所述的计算系统，其中，所述靶目标函数包括能量函数。

15.根据权利要求11所述的计算系统，其中，所述靶目标函数包括唯一性函数。

16.一种其上存储有代码的计算机程序产品，当所述代码由处理器执行时，使所述处理器实施包括以下各项的方法：

17.根据权利要求16所述的计算机程序产品，其中，所述多个实体中的至少一个包括实体的集合。

18.根据权利要求16所述的计算机程序产品，其中，不同的靶目标函数用于至少一些迭代。

19.根据权利要求16所述的计算机程序产品，其中，使所述起始程序集进化的操作还包括：由于所述多个实体中的两个之间的交互而创建新的实体。

20.根据权利要求16所述的计算机程序产品，其中，所述初始程序集中的至少一些实体对应于现实世界属性，以及其中，形成数据集的初始程序集包括：通过包括与所述现实世界属性相关联的基于数据库的字段来形成所述至少一些实体。