CN111708818B

CN111708818B - 一种智能计算方法

Info

Publication number: CN111708818B
Application number: CN202010468761.5A
Authority: CN
Inventors: 王军平
Original assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Current assignee: Beijing Saibo Yunrui Intelligent Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2023-06-16
Anticipated expiration: 2040-05-28
Also published as: CN111708818A

Abstract

本发明公开了一种智能计算方法，包括：在预设数量个大数据中提取新知识，生成可视化交互模型库；对可视化交互模型库中的模型进行分类和统计，统计出多个模型；在获取到当前计算数据时，根据当前计算数据在多个模型中选择目标模型；利用目标模型与预设算法对当前计算数据进行计算，输出计算结果。通过确认当前计算数据所需要的目标模型进而根据目标模型来对当前计算数据进行计算，改变了现有技术中获取到计算数据启动所有的模型来计算的情况，使得目标模型可以获得足够的系统资源而不至于浪费大量的系统资源，并且，获得了足够的系统资源后计算效率也会大大提高，同时，内存占用率也大大降低，使得性能一直保持完美。

Description

一种智能计算方法

技术领域

本发明涉及数据计算技术领域，尤其涉及一种智能计算方法。

背景技术

目前，随着大数据领域的发展和壮大，越来越受到业内人士的青睐，大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”，但是大数据的计算数量是庞大的，庞大到无法想象，因此，现有技术的技术人员利用已经训练好的模型对计算数据进行计算，但是这种方法存在以下缺点：模型的数量多，在接收到计算任务时，会触发所有的模型进行启动进而导致系统无法为众多模型调度足够多和资源来进行计算，并且，用不到的模型也会占用系统资源和内存导致计算效率低下的问题。严重影响了用户的体验感。

发明内容

针对上述所显示出来的问题，本方法基于根据当前计算数据在生成的可视化交互模型库里选择目标模型来对计算数据进行计算。

一种智能计算方法，包括以下步骤：

在预设数量个大数据中提取新知识，生成可视化交互模型库；

对所述可视化交互模型库中的模型进行分类和统计，统计出多个模型；

在获取到当前计算数据时，根据所述当前计算数据在所述多个模型中选择目标模型；

利用所述目标模型与预设算法对所述当前计算数据进行计算，输出计算结果。

优选的，所述多个模型，包括：分析模型、数据降维模型、分类\逻辑回归模型、时空表示、决策与推理模型、轨迹挖掘模型、聚类与相似性模型、主题推荐模型以及模型优化模型。

优选的，所述在预设数量个大数据中提取新知识，生成可视化交互模型库，包括：

获取预设数量个所述大数据；

预设数量个所述大数据进行预处理，所述预处理包括：对所述大数据进行权值计算，矢量表示以及特征提取；

根据预设数量个所述大数据和每个所述大数据对应的特征确认每个大数据的对应的第一功能，确认出预设数量个第一功能；

将所述预设数量个第一功能按照相似度进行归类，归为n个种类；

预先建立多个原始模型；

根据n个种类的第一功能所对应的大数据对所述多个原始模型进行训练，得到多个训练后的模型；

根据所述多个训练后的模型生成所述可视化交互模型库。

优选的，所述在获取到当前计算数据时，根据所述当前计算数据在所述多个模型中选择目标模型，包括：

接收到所述当前计算数据时，存储所述当前计算数据；

对所述当前计算数据进行解析，解析出所述当前计算数据所需要的第二功能；

将所述第二功能输入到所述可视化交互模型库中进行匹配，输出匹配结果；

根据所述匹配结果在多个训练后的模型中选择所述目标模型。

优选的，所述方法还包括：

获取所述当前计算数据所需要的系统资源百分比；

在获取到所需要的系统资源百分比之后，为所述当前计算数据申请系统资源；

在利用申请的系统资源将所述当前计算数据计算完毕后，将所述申请的系统资源进行还原；

当计算数据有多个时，对计算量不同的计算数据分配不同的资源调用度。

优选的，所述利用所述目标模型与预设算法对所述当前计算数据进行计算，输出计算结果，包括：

将所述当前计算数据分配到与所述目标模型对应的主节点上；

将所述当前计算数据调度到所述主节点管理的多个工作子节点上进行计算；

所述方法还包括：

在所述多个工作子节点的计算过程中生成统计数据和指标；

监控所述统计数据和指标，生成监控报告；

当所述监控报告显示异常时，发出报警提示。

优选的，所述方法还包括：

对所述计算结果进行处理，处理过程包括：将所述计算结果通过高阶函数组成的复杂算法进行处理。

优选的，所述方法还包括：

根据所述当前计算数据在预设算法库中检索出所述当前计算数据所需要的预设算法；

当所述当前计算数据所需要的预设算法为多个时，在计算所述当前计算数据的过程中将多个所述预设算法进行组合；

所述方法还包括：

将DataFrame/DataSet作为数据集，根据所述数据集对所述当前计算数据进行数据类型配置；

当发现有最新的更新文件时，下载所述更新文件进行更新。

优选的，所述对所述大数据进行权值计算，矢量表示以及特征提取中，特征提取根据如下方法处理：

A、根据下述公式计算所述大数据的度量误差；

上述公式中，λ_i为所述大数据中第i个矢量数据的度量误差，α_i为所述大数据中第i个矢量数据，β_k为第k个正交基向量，n为所述大数据中矢量数据的数目，m为正交基向量的数目，T为转置符号；

B、根据下述公式获得所述大数据的特征数据；

上述公式中，χ为所述大数据的特征数据集，P为基向量矩阵，P^TP＝E为约束条件，E为单位矩阵。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制，在附图中：

图1为本发明所提供的一种智能计算方法的工作流程图；

图2为本发明所提供的一种智能计算方法的另一工作流程图；

图3为本发明所提供的一种智能计算方法的又一工作流程图；

图4为本发明所提供的一种智能计算方法的工作流程截图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

目前，随着大数据领域的发展和壮大，越来越受到业内人士的青睐，大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”，但是大数据的计算数量是庞大的，庞大到无法想象，因此，现有技术的技术人员利用已经训练好的模型对计算数据进行计算，但是这种方法存在以下缺点：模型的数量多，在接收到计算任务时，会触发所有的模型进行启动进而导致系统无法为众多模型调度足够多和资源来进行计算，并且，用不到的模型也会占用系统资源和内存导致计算效率低下的问题。严重影响了用户的体验感。为了解决上述问题，本实施例公开了一种基于根据当前计算数据在生成的可视化交互模型库里选择目标模型来对计算数据进行计算的方法。

一种智能计算方法，如图1所示，包括：

步骤S101、在预设数量个大数据中提取新知识，生成可视化交互模型库；

步骤S102、对可视化交互模型库中的模型进行分类和统计，统计出多个模型；

步骤S103、在获取到当前计算数据时，根据当前计算数据在多个模型中选择目标模型；

步骤S104、利用目标模型与预设算法对当前计算数据进行计算，输出计算结果；

在本实施例中，上述预设数量可以为10万个甚至100万个，大数据的数量越多提取的新知识也就越多，可以更加准确的生成可视化交互模型库，对可视化交互模型库中的模型进行分类的标准为根据模型的作用来进行分类，当获取到当前计算数据时，确定当前计算数据需要目标模型，然后在可视化交互模型库中选择目标模型与预设算法来对当前计算数据进行计算，最后输出计算结果。

上述技术方案的工作原理为：首先从设数量个大数据中提取新知识，生成可视化交互模型库，然后对可视化交互模型库中的模型进行分类和统计，获得多个模型，接收当前的计算数据，确定当前的计算数据需要用到那个模型，最后确定了模型之后从可视化交互模型库中选择目标模型结合预设算法对当前计算数据进行计算，输出计算结果。

上述技术方案的有益效果为：通过确认当前计算数据所需要的目标模型进而根据目标模型来对当前计算数据进行计算，改变了现有技术中获取到计算数据启动所有的模型来计算的情况，使得目标模型可以获得足够的系统资源而不至于浪费大量的系统资源，并且，获得了足够的系统资源后计算效率也会大大提高，同时，内存占用率也大大降低，使得性能一直保持完美，解决了现有技术中由于模型众多占用系统资源和内存过大而导致计算效率低下的问题，大大的提高了用户的体验感。

在一个实施例中，多个模型，包括：分析模型、数据降维模型、分类\逻辑回归模型、时空表示、决策与推理模型、轨迹挖掘模型、聚类与相似性模型、主题推荐模型以及模型优化模型；

在本实施例中，分析模型是对客观事物或现象的一种描述，模型是被研究对象的一种抽象。客观事物或现象，是一个多因素综合体。因素之间存在着相互依赖又相互制约的关系，通常是复杂的非线性关系。为了分析其相互作用机制，揭示内部规律，可根据理论推导，或对观测数据的分析，或依据实践经验，设计一种模型来代表所研究的对象。数据降维模型用于对复杂的计算数据进行降维来获得低维度的计算数据，降低了计算的复杂程度。

上述技术方案的有益效果为：通过统计上述多个模型可以应对多个不同的计算数据，针对不同的计算数据选择不同的模型来进行计算，一定程度上提高了计算的效率。

在一个实施例中，在预设数量个大数据中提取新知识，生成可视化交互模型库，包括：

获取预设数量个所述大数据；

预设数量个大数据进行预处理，预处理包括：对大数据进行权值计算，矢量表示以及特征提取；

根据预设数量个大数据和每个大数据对应的特征确认每个大数据的对应的第一功能，确认出预设数量个第一功能；

将预设数量个第一功能按照相似度进行归类，归为n个种类；

预先建立多个原始模型；

根据n个种类的第一功能所对应的大数据对多个原始模型进行训练，得到多个训练后的模型；

根据多个训练后的模型生成可视化交互模型库；

在本实施例中，获取预设数量个大数据的方式可以为从网络端获取或者从大数据公司获取，获取的数量为10万个到100万个之间，然后利用预处理子模块对获取的大数据进行权值计算、矢量表示以及特征提取，我们可以根据提取的特征来确定大数据的功能，例如，我们提取的特征都为一些某个层面的数据，此时就需要分析这些数据的关系，此时定位为这些数据的功能为分析，使用归类子模块将数量个第一功能按照相似度进行分类，归为n个种类，例如在分析到上述提取的数据有一定的关联时，我们可以根据这些提取的数据进行回归逻辑模型的构建，此时的两个功能就有了一定的相似度，我们将具有相似度的功能分为一类，共分为n个种类，此时的n为大于等于2的正整数，即最少分为两个种类，预先构建原始模型，然后根据n个种类的第一功能所对应的大数据对多个原始模型进行训练，得到多个训练后的模型，此时，多个训练后的模型实现的各自功能也就不同，利用多个训练后的模型生成可视化交互模型库，此时的可视化交互模型库中即有了多个发挥不同功能的模型。

上述技术方案的有益效果为：使用大量的大数据对预先构建的原始模型进行训练，既划分了每个模型功能的不同同时也为每个模型提供了足够数量的训练数据，使得训练后的模型更加精确，提高了模型的精度以及使用模型对当前数据进行计算时进一步的提高了计算效率和缩短了计算时间。

在一个实施例中，如图2所示，在获取到当前计算数据时，根据当前计算数据在多个模型中选择目标模型，包括：

步骤S201、接收到当前计算数据时，存储当前计算数据；

步骤S202、对当前计算数据进行解析，解析出当前计算数据所需要的第二功能；

步骤S203、将第二功能输入到可视化交互模型库中进行匹配，输出匹配结果；

步骤S204、根据匹配结果在多个训练后的模型中选择目标模型；

在本实施例中，在获取到当前计算数据的同时存储当前计算数据，存储的位置可以是自带的存储空间或者是计算机的内存中，进一步地，确定当前计算数据所需要的第二功能，根据第二功能在生成的可视化交互模型库中选择目标模型来对当前计算数据进行计算。

上述技术方案的有益效果为：通过确认当前技术数据所需要的目标模型来对当前计算数据进行计算，节省了去一个个排除模型的时间，提供了效率，进一步地，保存了计算数据使得万一出现模型计算错误的情况时可直接将存储的当前计算数据重新计算，避免了再一次的去输入当前计算数据，节省了整体的时间，同时，避免了重要数据丢失的问题，提高了安全性。

在一个实施例中，上述方法还包括：

获取当前计算数据所需要的系统资源百分比；

在获取到所需要的系统资源百分比之后，为当前计算数据申请系统资源；

在利用申请的系统资源将当前计算数据计算完毕后，将申请的系统资源进行还原；

当计算数据有多个时，对计算量不同的计算数据分配不同的资源调用度；

在本实施例中，当运行一个计算处理的应用程序时，首先是提交应用程序，从而调用资源调度器为驱动申请资源。申请成功后，向主节点为应用程序申请资源。之后，调用资源调度器把任务分发到工作节点执行器进行执行。在各个工作节点进行分布式的并行计算。应用会在资源空闲的时候将其释放给集群，需要时再重新申请。这一特性在多个应用共享集群资源的情况下特别有用。公平调度器支持将作业分组放入资源池，给每个资源池配置不同的权重。可以给一些比较重要的作业创建一个“高优先级”资源池，或者也可以把每个用户的作业分到一组，这样一来就是各个用户平均分享集群资源，而不是各个作业平分集群资源。

上述技术方案的有益效果为：可以使系统资源一直保持在一个充满的状态，并且在计算完毕后可以将申请的系统资源进行还原，不耽误别的计算数据申请系统资源，并且根据当前计算数据所需要的资源百分比来为当前计算数据申请系统资源，避免了申请过多系统资源或者系统资源不够情况的发生进而导致计算过程无法有效进行情况的发生，提高了整体的运行速度。

在一个实施例中，利用目标模型与预设算法对当前计算数据进行计算，输出计算结果，包括：

将当前计算数据分配到与目标模型对应的主节点上；

将当前计算数据调度到主节点管理的多个工作子节点上进行计算；

如图3所示，上述方法还包括：

步骤S301、在多个工作子节点的计算过程中生成统计数据和指标；

步骤S302、监控统计数据和指标，生成监控报告；

步骤S303、当监控报告显示异常时，发出报警提示；

在本实施例中，由主节点进程来管理工作节点执行进程在每个集群节点上的运行，应用程序在这些工作节点上运行任务。可部署在1024个节点规模以上数据中心部署、资源自动调度，可视化运维管理。主节点和工作节点提供一组统计数据和指标，能方便地监控资源使用情况并及早发现异常状况。监控报告包括可用资源、已经使用的资源、已经注册的框架、活跃的工作节点和任务的状态等细节。使用这些监控信息实现自动化的报警，当监控报告中有任一项出现异常时，发出报警提示。

上述技术方案的有益效果为：提高了安全性，并且由主节点将计算数据的任务分配到多个工作子节点上来进行计算，使得计算的效率进一步的提高，并且精度也很高，在提高了安全性的同时进一步的提高了准确性和效率。

在一个实施例中，上述方法还包括：

计算结果进行处理，处理过程包括：将计算结果通过高阶函数组成的复杂算法进行处理。

上述技术方案的有益效果为：处理后的数据可以输出到文件系统、数据仓库以及实时可视化界面中，可提供用户多重的选择性，进一步的提高了用户的体验感。

在一个实施例中，上述方法还包括：

根据当前计算数据在预设算法库中检索出当前计算数据所需要的预设算法；

当当前计算数据所需要的预设算法为多个时，在计算当前计算数据的过程中将多个预设算法进行组合；

上述方法还包括：

将DataFrame/DataSet作为数据集，根据数据集对当前计算数据进行数据类型配置；

当发现有最新的更新文件时，下载更新文件进行更新；

在本实施例中，将DataFrame/DataSet作为数据集，数据集支持许多数据类型。例如,可以有不同的列储存文本、特征向量、标注、预测结果、图形和结构化数据等机器学习数据类型。提供了以下工具：机器学习算法：常用的学习算法，如分类，回归，聚类和协同过滤特征：特征提取，变换，降维和选择管道：构建，评估和调整机器学习管道的工具持久性：保存和加载算法，模型和管道实用程序：线性代数，统计，数据处理等。当计算当前计算数据需要多个预设算法时，可通过组合模块将多个算法进行组合进而结合目标模型进行计算。

上述技术方案的有益效果为：保持更新，即保持了稳定性，并且在计算过程中可以将多个预设算法组合起来和对当前计算数据进行数据类型配置，可以根据数据类型更快的确定目标模型。

在一个实施例中，如图4所示，包括：

在客户端接收到新的计算数据时，根据新的计算数据配置环境参数以及选取合适的模型，在配置完毕后启动主节点来对新的计算数据进行计算，在主节点接收到新的计算数据后，将新的计算数据分配到主节点管理的多个工作节点上，然后由工作节点进行计算，主节点负责监控每个工作节点的计算情况以及工作状态，在计算完毕后输出计算结果。

在一个实施例中，所述对所述大数据进行权值计算，矢量表示以及特征提取中，特征提取根据如下方法处理：

A、根据下述公式计算所述大数据的度量误差；

B、根据下述公式获得所述大数据的特征数据；

上述技术方案的有益效果为：通过上述技术方案进行特征提取，不仅可以降低数据维数，而且在减少数据的情况下获得数据的特征数据，并且在特征提取过程中充分考虑数据的度量误差，使得提取的特征数据更加精确，同时还减少了繁多数据赘余，降低数据复杂度。

本领域技术人员应当理解的是，本发明中的第一、第二指的是不同应用阶段而已。

本领域技术用户员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种智能计算方法，其特征在于，包括以下步骤：

利用所述目标模型与预设算法对所述当前计算数据进行计算，输出计算结果；

所述在预设数量个大数据中提取新知识，生成可视化交互模型库，包括：

获取预设数量个所述大数据；

预先建立多个原始模型；

根据所述多个训练后的模型生成所述可视化交互模型库；

所述对所述大数据进行权值计算，矢量表示以及特征提取中，特征提取根据如下方法处理：

A、根据下述公式计算所述大数据的度量误差；

B、根据下述公式获得所述大数据的特征数据；

2.根据权利要求1所述智能计算方法，其特征在于，所述多个模型，包括：分析模型、数据降维模型、分类\逻辑回归模型、时空表示、决策与推理模型、轨迹挖掘模型、聚类与相似性模型、主题推荐模型以及模型优化模型。

3.根据权利要求1所述智能计算方法，其特征在于，所述在获取到当前计算数据时，根据所述当前计算数据在所述多个模型中选择目标模型，包括：

接收到所述当前计算数据时，存储所述当前计算数据；

4.根据权利要求1所述智能计算方法，其特征在于，所述方法还包括：

获取所述当前计算数据所需要的系统资源百分比；

5.根据权利要求1所述智能计算方法，其特征在于，所述利用所述目标模型与预设算法对所述当前计算数据进行计算，输出计算结果，包括：

所述方法还包括：

在所述多个工作子节点的计算过程中生成统计数据和指标；

监控所述统计数据和指标，生成监控报告；

当所述监控报告显示异常时，发出报警提示。

6.根据权利要求1所述智能计算方法，其特征在于，所述方法还包括：

7.根据权利要求1所述智能计算方法，其特征在于，所述方法还包括：

所述方法还包括：

当发现有最新的更新文件时，下载所述更新文件进行更新。