CN114596061A

CN114596061A - 一种基于大数据的项目数据管理方法及系统

Info

Publication number: CN114596061A
Application number: CN202210197613.3A
Authority: CN
Inventors: 涂勇
Original assignee: Suibao Guangzhou Technology Co ltd
Current assignee: Century Tang (Beijing) Management Consulting Co.,Ltd.
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2022-06-07
Anticipated expiration: 2042-03-02
Also published as: CN114596061B

Abstract

本发明提供一种基于大数据的项目数据管理方法，包括：获取业务需求，并对所述业务需求进行采集、清洗、融合和挖掘，确定项目数据；基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型；通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型。

Description

一种基于大数据的项目数据管理方法及系统

技术领域

本发明涉及大数据、项目数据技术领域，特别涉及一种基于大数据的项目数据管理方法及系统。

背景技术

目前，大数据项目分析覆盖到人们生活的方方面面，涵括了生活方式、音乐、时尚、创意和等等场所，通过大数据对用户和课题进行研究和挖掘，通过大数据驱动产品，是目前大数据项目服务的主要价值。

但目前而言，实现大数据项目的分析，需要庞大的数据支持，不仅工作效率慢，对用户需求定位不够精准，同时数据的融合效果也面临着海量数据，面对庞大的数据，数据迭代周期快，大数据项目也需要时常更新，但现在的项目时长需要人工进行排查和更新，目前需要一种自我迭代快、适应力强和鲁棒性高的大数据项目管理方法。

已经公开的专利CN 112598405 A提供了一种基于大数据的项目数据管理方法及系统。针对用户需求定位不够精准、智能，从而导致项目实施方向的定位不够合理。基于大数据的数据分析成为项目决策的重要步骤，从而为市场预测和营销决策提供客观的、正确的资料。

发明内容

本发明提供一种基于大数据的项目数据管理系统及方法，以解决上述问题。

本发明提一种基于大数据的项目数据管理方法，包括：

获取业务需求，并对所述业务需求进行采集、清洗、融合和挖掘，确定项目数据；

基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型；

通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型。

作为本技术方案的一种实施例，所述获取业务需求，并对所述业务需求进行采集、清洗、融合和挖掘，确定项目数据，包括：

获取业务需求，设置爬虫程序，通过所述爬虫程序，按照预设的抓取频率，对业务需求进行定向采集，确定采集数据；

对所述采集数据进行查重、过滤、清理和替换，确定清洗数据；

基于预设的大数据处理中心，对所述清洗数据进行归类、合并和融合，确定融合数据；

基于预设的挖掘机制，对所述融合数据进行挖掘，确定项目数据；其中，

所述挖掘机制至少由预设的决策树算法、贝叶斯分类算法、规则分类算法、神经网络机制、持向量机、懒惰学习算法和案例推理算法构成。

作为本技术方案的一种实施例，所述对所述采集数据进行查重、过滤、清理和替换，确定清洗数据，还包括：

获取采集数据的采集时间序列；

当所述采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据；

当所述采集数据对应的采集时间序列的缺失率超过预设的缺失率阈值，将采集时间序列对应位置的采集数据进行清理；

当所述采集数据对应的采集时间序列的缺失率小过预设的缺失率阈值，确定未缺失的采集时间序列下对应的样本数据集合和缺失的采集时间序列下对应的缺失数据集合；

通过所述样本数据集合和缺失数据集合，构建最小二乘法回归函数；

基于所述最小二乘法回归函数，估计缺失数据集合中的缺失数据，并通过估计后的缺失数据对对应的缺失的采集时间序列下的缺失位置进行填补和替换。

作为本技术方案的一种实施例，所述当所述采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据，包括：

当所述采集数据对应的采集时间序列出现重复时，判断重复的采集时间序列对应的采集数据是否相同，确定重复判断结果；其中，

当重复判断结果为重复的采集时间序列对应的采集数据相同时，对重复的采集数据进行过滤；

当重复判断结果为重复的采集时间序列对应的采集数据不相同时，获取对应的采集时间序列，并将所述采集时间序列和对应的采集数据反馈至预设的控制终端。

作为本技术方案的一种实施例，所述基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型，包括：

将所述项目数据传输至大数据中心预设的深度神经网络系统进行训练，生成训练样本；

获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，并通过预设的决策对象和所述依赖度，分析和计算训练样本的规则强度和确定因子；

通过所述规则强度和确定因子，生成对应的决策机制；

获取训练样本的类关系，梳理并分析不同类关系下的项目数据集合的业务需求和业务流程，并通过所述业务需求和业务流程，构建业务项目；

通过决策机制，对所述业务项目进行信息提取和信息推理，构建项目模型。

作为本技术方案的一种实施例，所述获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，包括：

获取训练样本集合X；

其中，

x代表训练样本集合任意一个训练样本；

获取训练样本集合中训练样本的描述信息，对所述描述信息进行处理和统计，确定对应的样本函数簇；

I＝(U,S,Z,f:a→b)

其中，I代表描述样本函数簇，U∈X，U代表不同种类的描述信息区分后的样本训练非空集合，S代表样本训练非空集合对应的属性数据集合，Z代表属性数据集合的区间范围，f代表映射规则，a→b代表描述信息a和描述信息b之间存在着映射规则f，a和b代表不同的描述信息的标识符；

基于所述样本函数簇，计算训练样本之间的依赖度；

其中，H代表练样本之间的依赖度，i＝1,2,…,m，m代表样本函数簇的样本总批数，k_i代表第i批样本函数簇中之间有映射关系的总个数，A_i代表第i批样本函数簇的映射中心点，A_X代表所有样本函数簇的映射中心点，X代表训练样本集合，I_j代表第j批样本函数簇，j＝1,2,…,n代表样本函数簇的样本点总个数，cer代表样本函数簇之间的耦合度，s代表样本函数簇之间的分离度，∝代表样本函数簇之间的影响临界值。

作为本技术方案的一种实施例，所述通过决策机制，对所述业务项目进行信息提取和信息推理，构建项目模型，包括：

通过决策机制，对所述业务项目进行趋势预测，确定预测结果；其中，

所述趋势预测至少包括业务类型趋势预测、业务风险趋势预测、业务成本趋势预测和业务获益趋势预测；

基于所述预测结果，对业务项目进行信息提取，基于预设的等级规则分类器，并将不同体系的业务项目进行分类，确定分类结果；

通过预设的项目存储库，按照所述分类结果，对业务项目进行检索，判断是否存在相似的历史业务项目，确定项目判断结果；

当所述项目判断结果为存在相似的历史业务项目，对历史项目模型进行评估和优化；

当所述项目判断结果为不存在相似的历史业务项目，基于所述预测结果，对所述业务项目进行信息推理，构建项目模型。

作为本技术方案的一种实施例，所述通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型，包括：

获取预设的评价指标，通过所述评价指标，建立价值评价体系；

通过所述价值评价体系，对所述项目模型进行评估，并确定评估结果；

对比预设的评估动态阈值和所述评估结果，对项目模型对应的项目价值进行评级，并确定评级结果；

通过对项目模型对应的评估结果和评级结果的分析，对所述项目模型进行迭代和更新，优化所述项目模型。

本发明提一种基于大数据的项目数据管理系统，包括：

项目数据模块：获取业务需求，并对所述业务需求进行采集、清洗、融合和挖掘，确定项目数据；

项目模型模块：用于基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型；

优化模块：用于通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型。

本发明的有益效果如下：通过对大数据的分类处理，对用户需求精准定位，融合海量数据，，大数据项目也需要时常更新，在快速的数据迭代周期中，对用户的业务需求进行精准的进行通过对项目模型及时的进行更新和优化、提高项目模型的鲁棒性、自适应能力和灵活性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于大数据的项目数据管理方法流程图；

图2为本发明实施例中一种基于大数据的项目数据管理方法流程图；

图3为本发明实施例中一种基于大数据的项目数据管理系统流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

需说明的是，当部件被称为“固定于”或“设置于”另一个部件，它可以直接在另一个部件上或者间接在该另一个部件上。当一个部件被称为是“连接于”另一个部件，它可以是直接或者间接连接至该另一个部件上。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，“多个”的含义是两个或两个以上，除非另有明确具体的限定。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

实施例1：

根据图1所示，本发明实施例提供了一种基于大数据的项目数据管理方法，其特征在于，包括：

上述技术方案的工作原理为：

在现有技术中，实现大数据项目的分析，需要庞大的数据支持，不仅工作效率慢，对用户需求定位不够精准，同时数据的融合效果也面临着海量数据，面对庞大的数据，数据迭代周期快，大数据项目也需要时常更新，但现在的项目时长需要人工进行排查和更新，本技术方案获取业务需求，并对业务需求进行采集、清洗、融合和挖掘，发掘出对用户需求定位准确，灵活的业务需求信息，从而确定项目数据，将项目数据传输至预设的深度神经网络系统进行训练，将训练后的样本和行为学习数据传输至预设的大数据中心进行推理和演绎，构建对应的项目模型，可以对通过所述项目模型，生成对应的项目业务，从而实现对用户的业务进行精准定位，并基于预设的评估模型，对项目业务进行评估，确定评估结果，评估模型中包含对此业务的价值评价、风险估计和成本损失，并通过对收益预测，满足对项目的综合性评价，通过项目的评估结果，对历史项目模型进行迭代并更新，优化项目模型。

上述技术方案的有益效果为：

通过对大数据的分类处理，对用户需求精准定位，融合海量数据，，大数据项目也需要时常更新，在快速的数据迭代周期中，对用户的业务需求进行精准的进行通过对项目模型及时的进行更新和优化、提高项目模型的鲁棒性、自适应能力和灵活性。

实施例2：

根据附图2所示，本技术方案提供了一种实施例，所述获取业务需求，并对所述业务需求进行采集、清洗、融合和挖掘，确定项目数据，包括：

上述技术方案的工作原理为：

在现有技术中，往往对业务需求首先通过特征词汇高频词汇的特征处理和分类，比较的僵硬和机械化，同时，在归类特征时，往往需要耗费巨大的人力成本和时间成本，在本技术方案中在大数据项目分析中主要构成包括信息采集、清洗、融合和挖掘，本技术方案首先信息通过网络爬虫来采集数据，根据业务需求，通过不同的方式来采集数据；把一些无效的脏数据找出来剔除或者替换，把爬来的课程信息把相似的归类，例如上下级关系，可以按照子类父类归类，拿到可用的数据之后通过数据挖掘算法，去研究之前设定好的影响因子之间的因果关系，主要的分类算法有决策树、贝叶斯分类、基于规则的分类、神经网络、持向量机、懒惰学习算法中的K-最近邻分类和基于案例的推理等算法，为数据挖掘的成果可视化展示提供原始数据，这样可以不仅直观的看到数据之间的关系，还可以利用数据分析和开发工具发现其中未知信息的处理过程。

上述技术方案的有益效果为：

本技术方案通过机器爬取，加快数据的采集效率，同时在进行采集的过程中，便对数据进行相应预处理，减轻后续工作的工作量，提高业务数据的精纯度，提供了一种灵活的、可持续的数据预处理方式。

实施例3：

本技术方案提供了一种实施例，所述对所述采集数据进行查重、过滤、清理和替换，确定清洗数据，还包括：

获取采集数据的采集时间序列；

上述技术方案的工作原理为：

在现有技术中，常常出现对针对性的数据进行爬取，同时，爬取时会由于数据爬取量过大，导致数据清洗任务量其实很大，因为爬来的数据脏数据量很大，工作周期一般较长；本技术方案通过获取采集数据的采集时间序列，可以对时间链的快速检索，更快的对缺失数据或者离群数据进行定位，当采集数据对应的采集时间序列出现重复时，重复的采集时间序列对应的采集数据相同时，对重复的采集数据进行过滤；重复的采集时间序列对应的采集数据不相同时，获取对应的采集时间序列，将采集时间序列和对应的采集数据反馈至预设的控制终端；针对重复的时间链，有可能因为人为操作不当，设备中断等原因，即使时间序列重复，但对应的下面存储的数据不同，当采集数据对应的采集时间序列的缺失率超过预设的缺失率阈值，将采集时间序列对应位置的采集数据进行清理，譬如当采集数据已丢失达到85％时，我们对当前的数据直接进行清理，当采集数据对应的采集时间序列的缺失率小过预设的缺失率阈值，确定未缺失的采集时间序列下对应的样本数据集合和缺失的采集时间序列下对应的缺失数据集合，譬如缺失率小于15％，我们可以针对的进行修复，通过样本数据集合和缺失数据集合，构建最小二乘法回归函数；基于最小二乘法回归函数，估计缺失数据集合中的缺失数据，并通过估计后的缺失数据对对应的缺失的采集时间序列下的缺失位置进行填补和替换，从而使整条数据链完成。

上述技术方案的有益效果为：

本技术方案通过对数据对应的时间链进行快速检索，在时间链上的时间序列检索，加快对数据清洗的效率，减少数据清洗的工作周期，减轻数据清洗的工作成本。

实施例4：

本技术方案提供了一种实施例，所述当所述采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据，包括：

上述技术方案的工作原理为：

在现有技术中，常对重复的数据不多加排查，就直接进行删除，本技术方案当采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据，当采集数据对应的采集时间序列出现重复时，判断重复的采集时间序列对应的采集数据是否相同，确定重复判断结果；当重复判断结果为重复的采集时间序列对应的采集数据相同时，对重复的采集数据进行过滤；当重复判断结果为重复的采集时间序列对应的采集数据不相同时，获取对应的采集时间序列，并将采集时间序列和对应的采集数据反馈至预设的控制终端，可以提高人机协同的效率。

上述技术方案的有益效果为：

本技术方案通过采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据，提高人机协同的效率。

实施例5：

本技术方案提供了一种实施例，所述基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型，包括：

通过所述规则强度和确定因子，生成对应的决策机制；

上述技术方案的工作原理为：

与现有技术相比，传统技术通过对特征或者高频出现的特征信息进行过滤和处理，但由于某些不高频的词语可能拥有联系关系，本技术方案将项目数据传输至大数据中心预设的深度神经网络系统进行训练，生成训练样本；获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，并通过预设的决策对象和所述依赖度，分析和计算训练样本的规则强度和确定因子，将整个业务需求的版图拓展化，通过规则强度和确定因子，规则强度用于通过不同纬度、不同强度的规则将训练样本约束成符合对应业务项目的函数，确定因子是提取到的训练样本约束成符合对应业务项目过程中的决定性因子，将尽可能生成全方面满足用户需求的对应的决策机制；获取训练样本的类关系，梳理并分析不同类关系下的项目数据集合的业务需求和业务流程，构建业务项目，通过决策机制，对所述业务项目进行信息提取和信息推理，构建项目模型，实现更加精准的定位。

上述技术方案的有益效果为：

本技术方案通过更加精准的定位，全方面的全区域的从不同维度实现业务项目，提高业务的完整度，提高用户的服务体验。

实施例6：

本技术方案提供了一种实施例，所述获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，包括：

获取训练样本集合X；

其中，

x代表训练样本集合任意一个训练样本；

I＝(U,S,Z,f:a→b)

基于所述样本函数簇，计算训练样本之间的依赖度；

上述技术方案的工作原理和有益效果为：

本技术方案通过获取训练样本集合X；获取训练样本集合中训练样本的描述信息，每个训练样本拥有不同的特征信息，对描述信息进行处理和统计，确定对应的样本函数簇I，样本函数簇代表在描述信息的空间上和训练样本之间存有映射关系的函数层，基于所述样本函数簇，计算训练样本之间的依赖度H，依赖度用于描述训练样本之间的关系程度，从而实现将依赖度高的数据进行聚类，依赖度低的数据进行延伸和衍生，全方面的实现业务的需求。

实施例7：

本技术方案提供了一种实施例，所述通过预设的决策对象和所述依赖度，分析和计算训练样本的规则强度和确定性因子，包括：

获取预设的决策对象，计算在依赖度影响下的决策参数；

其中，

代表在依赖度影响下的决策参数，H代表练样本之间的依赖度，γ代表决策对象在决策范围内的范围参数，r代表决策对象的标识符，u代表决策对象对应的决策方式的标识符，v代表决策对象的决策时长，t＝1,2,..,T,T代表决策对象的总周期，r_u,v代表在决策方式u下决策时长v的决策对象，r_u,t代表在决策方式u下决策对象周期t下的决策对象；

将所述决策参数传输预设的训练模型中，获取业务属性核值，并通过所述业务属性核值，提取训练样本的确定性因子；

基于预设的大数据中心，将所述确定性因子进行区间融合和分析，提取训练样本的规则，并计算所述规则对应的规则强度。

上述技术方案的工作原理和有益效果为：

与现有技术相比，本技术方案对决策的计算和强度分级，可以实现更加细致的规划规则，本技术方案通过获取预设的决策对象，计算在依赖度影响下的决策参数

决策参数用来判断那些因子是确定因子，哪些因子属于影响因子，将决策参数传输预设的训练模型中，获取业务属性核值，并通过业务属性核值，例如，通过决策参数，确定业务的确定因子包括用户的年龄、产品的使用时间和用户反馈周期，通过这三个点，对业务进行属性定位，并确定对应的价值评估值，即业务属性核值，提取训练样本的确定性因子；基于预设的大数据中心，将所述确定性因子进行区间融合和分析，提取训练样本的规则，并计算所述规则对应的规则强度。

实施例8：

本技术方案提供了一种实施例，所述通过决策机制，对所述业务项目进行信息提取和信息推理，构建项目模型，包括：

上述技术方案的工作原理和有益效果为：

与现有技术相比，传统技术对项目的抽取往往简单而粗糙，本技术方案通过决策机制，对业务项目进行信息提取和信息推理，构建项目模型，通过决策机制对业务项目进行业务类型趋势预测、业务风险趋势预测、业务成本趋势预测和业务获益趋势预测，对业务项目进行信息提取，等级规则分类器将不同体系的业务项目进行分类，对业务进行细分，可以对用户需求进行精准定位，通过预设的项目存储库，按照所述分类结果，对业务项目进行检索，判断是否存在相似的历史业务项目，用于减少项目构建的成本，提高项目构建的效率，对于某个客户多次构建同一项目，可以减少不必要的时间和人力成本，当项目判断结果为存在相似的历史业务项目，对历史项目模型进行评估和优化；当项目判断结果为不存在相似的历史业务项目，对业务项目进行信息推理，构建项目模型，也就是进行信息的萃取、构建和服务，提高项目的完整度，提高项目体验。

实施例9：

本技术方案提供了一种实施例，所述通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型，包括：

上述技术方案的工作原理为：

与现有技术相比，传统技术仅仅会在数据爬取时，通过评估精准定位，而本技术方案还在项目模型完成后，对项目模型进行演绎并评价，通过预设的评价指标，建立价值评价体系；通过价值评价体系，对所述项目模型进行评估，并确定评估结果，对项目的价值进行评判，对比预设的评估动态阈值和所述评估结果，对项目模型对应的项目价值进行评级，并确定评级结果，针对同一业务需求，但对于面向客体不同，承担的风险和成本，获取的利益也完全不同，所以需要定向分析，需要对每项项目模型进行评级，通过对项目模型对应的评估结果和评级结果的分析，对项目模型进行迭代和更新，优化项目模型，提高项目模型的自适应力。

上述技术方案的有益效果为：

本技术方案通过对项目模型的评估、评价和优化，综合分析项目模型的风险和成本，提高项目模型的鲁棒性和自适应能力。

实施例10：

根据附图3所示，本技术方案提供了一种实施例，包括：

上述技术方案的工作原理为：

上述技术方案的有益效果为：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于大数据的项目数据管理方法，其特征在于，包括：

获取业务需求，并对所述业务需求进行预处理，确定项目数据；其中，所述预处理至少包括采集、清洗、融合和挖掘；

2.如权利要求1所述的一种基于大数据的项目数据管理系统，其特征在于，所述获取业务需求，并对所述业务需求进行预处理，确定项目数据，包括：

获取业务需求，设置爬虫程序，通过所述爬虫程序，对业务需求进行定向采集，确定采集数据；

对所述采集数据进行清洗确定清洗数据；其中，所述清洗至少包括查重、过滤、清理和替换；

基于预设的挖掘机制，对所述融合数据进行数据分析和挖掘，确定挖掘数据；其中，

所述挖掘机制至少由预设的决策树算法、贝叶斯分类算法、规则分类算法、神经网络机制、持向量机、懒惰学习算法和案例推理算法构成；

基于预设的业务需求指标，对满足业务需求指标的挖掘数据进行二次整理和统计，确定项目数据。

3.如权利要求2所述的一种基于大数据的项目数据管理系统，其特征在于，所述对所述采集数据进行清洗，确定清洗数据，还包括：

获取采集数据的采集时间序列；

4.如权利要求2所述的一种基于大数据的项目数据管理系统，其特征在于，所述当所述采集数据对应的采集时间序列出现重复时，对重复的采集时间序列下的采集数据进行过滤，保留唯一采集时间序列及对应的采集数据，包括：

5.如权利要求1所述的一种基于大数据的项目数据管理系统，其特征在于，所述基于预设的大数据中心，对所述项目数据进行处理，生成对应的项目业务，并基于所述项目业务，构建项目模型，包括：

获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，并通过预设的决策对象和所述依赖度，分析和计算训练样本的规则强度和确定性因子；

通过所述规则强度和确定因子，生成对应的决策机制；

获取训练样本的类关系，梳理并分析不同类关系下的项目数据集合的业务需求和业务流程，并通过所述业务需求和业务流程，构建业务项目；其中，

所述类关系至少包括继承关系、依赖关系、聚合关系、关联关系和组合关系；

6.如权利要求5所述的一种基于大数据的项目数据管理系统，其特征在于，所述获取训练样本的描述信息，并计算训练样本描述信息之间的依赖度，包括：

获取训练样本集合；

基于所述样本函数簇，计算训练样本之间的依赖度。

7.如权利要求5所述的一种基于大数据的项目数据管理系统，其特征在于，所述通过预设的决策对象和所述依赖度，分析和计算训练样本的规则强度和确定性因子，包括：

获取预设的决策对象，计算在依赖度影响下的决策参数；

8.如权利要求5所述的一种基于大数据的项目数据管理系统，其特征在于，所述通过决策机制，对所述业务项目进行信息提取和信息推理，构建项目模型，包括：

9.如权利要求1所述的一种基于大数据的项目数据管理系统，其特征在于，所述通过预设的评价指标，对所述项目模型进行评估，生成评估结果，并通过所述评估结果，优化项目模型，包括：

10.一种基于大数据的项目数据管理系统，其特征在于，包括：