CN117389994A - 项目数据库的构建方法、装置、设备及存储介质 - Google Patents
项目数据库的构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117389994A CN117389994A CN202311439027.6A CN202311439027A CN117389994A CN 117389994 A CN117389994 A CN 117389994A CN 202311439027 A CN202311439027 A CN 202311439027A CN 117389994 A CN117389994 A CN 117389994A
- Authority
- CN
- China
- Prior art keywords
- data
- item
- target
- project
- demand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003860 storage Methods 0.000 title claims abstract description 73
- 238000010276 construction Methods 0.000 title claims description 31
- 238000004458 analytical method Methods 0.000 claims abstract description 70
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000009826 distribution Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 97
- 239000011159 matrix material Substances 0.000 claims description 57
- 230000011218 segmentation Effects 0.000 claims description 26
- 230000004927 fusion Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012795 verification Methods 0.000 claims description 13
- 238000007621 cluster analysis Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000012423 maintenance Methods 0.000 claims description 10
- 238000013508 migration Methods 0.000 claims description 10
- 230000005012 migration Effects 0.000 claims description 10
- 238000012098 association analyses Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 description 25
- 230000008569 process Effects 0.000 description 16
- 230000006872 improvement Effects 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013079 data visualisation Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010921 in-depth analysis Methods 0.000 description 1
- 238000009440 infrastructure construction Methods 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理领域,公开了一种项目数据库的构建方法、装置、设备及存储介质,用于提高项目数据的查询效率。方法包括:创建第一数据中心和第一存储中心;进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并生成项目数据分布网络;进行数据查询路径解析,得到目标数据查询路径;根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据,并通过第二数据中心对N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;根据关联度排序结果,对N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将目标项目推送列表推送至对应的目标客户端。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种项目数据库的构建方法、装置、设备及存储介质。
背景技术
项目申报是指向政府、机构、组织或公司等提交项目计划和建议,以争取资金、资源、支持或批准的过程。不同类型的项目申报会有特定的格式和要求,因此在准备项目申报时,申请人需要遵循相关的指南和要求,确保申请内容的准确性和完整性。
但是,现有方案面临以下挑战:项目管理涉及到多个部门和环节,导致项目数据分散在不同的系统和数据库中,难以统一管理和利用。项目的不同阶段和模块之间存在着复杂的关联关系,例如项目需求和申报数据之间的关联。如何有效地分析和利用这些关联关系,能够为项目决策提供有力支持。项目参与者需要从海量数据中查询所需信息,并且需要根据项目特点和关联度进行数据推送,以便及时获得关键信息。随着数据量不断增加,项目数据库的性能和效率问题变得越来越突出,需要一种方法来优化数据库的性能。
发明内容
本发明提供了一种项目数据库的构建方法、装置、设备及存储介质,用于提高项目数据的查询效率。
本发明第一方面提供了一种项目数据库的构建方法,所述项目数据库的构建方法包括:
获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心;
对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络;
接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心;
根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
根据所述关联度排序结果,对所述N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将所述目标项目推送列表推送至对应的目标客户端。
结合第一方面,在本发明第一方面的第一种实现方式中,所述获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心,包括:
获取项目需求信息,并对所述项目需求信息进行需求提取,得到多个项目需求,并对所述多个项目需求进行数据矩阵转换,生成初始需求数据矩阵;
对所述初始需求数据矩阵进行标准化处理,得到目标需求数据矩阵,并计算所述目标需求数据矩阵的协方差矩阵,得到目标协方差矩阵;
对所述目标协方差矩阵进行特征值分解,得到特征值和对应的特征向量,并对所述特征值进行排序,得到特征值序列;
选择所述特征值序列中的前k个特征值和对应的特征向量作为主成分,其中,k为目标需求类的个数;
将所述目标需求数据矩阵投影到所述主成分上,得到降维后的数据矩阵,并对所述降维后的数据矩阵进行聚类分析,得到多个目标需求类;
对所述多个目标需求类进行需求信息整合,得到每个目标需求类的需求信息,并根据每个目标需求类的需求信息创建对应的第一数据中心,同时,将每个目标需求类的需求信息存储至所述第一数据中心。
结合第一方面,在本发明第一方面的第二种实现方式中,所述获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心,包括:
获取多个原始项目申报数据,并对所述多个原始项目申报数据进行分词处理,得到目标分词数据;
将所述目标分词数据中的多个词汇作为图节点,并根据所述多个词汇的语义关系构建边,生成目标无向图;
通过预置的初始权重值对所述目标无向图进行节点权重设置,得到加权无向图,并对所述加权无向图进行迭代计算,得到多个节点权重值;
根据所述多个节点权重值,对所述目标分词数据进行关键字提取,得到多个项目申报关键字;
将所述多个项目申报关键字输入预置的均值漂移聚类分析模型进行聚类中心计算,得到对应的聚类中心;
对所述多个项目申报关键字与所述聚类中心进行距离计算,得到多个关键字中心距,并对所述多个关键字中心距进行特征运算,得到特征运算结果;
通过所述特征运算结果生成所述目标分词数据对应的多个项目特征数据;
根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心,并将所述多个原始项目申报数据存储至对应的第一存储中心;
根据所述多个项目特征数据生成对应的数据标签,并通过所述数据标签对所述第一存储中心进行标签关联处理。
结合第一方面,在本发明第一方面的第三种实现方式中,所述对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络,包括:
对所述多个项目特征数据进行事务形式转换,生成对应的多个事务,其中,每个事务表示一个项目特征数据,每个项目特征表示一个特征项;
根据所述多个事务设定支持度阈值和置信度阈值,其中,支持度阈值表示项集在数据集中出现的频率,置信度阈值表示关联规则的可信程度;
根据所述支持度阈值和所述置信度阈值,通过预置的Apriori算法进行频繁项集分析,得到频繁项集;
根据所述频繁项集生成目标关联规则,并根据所述目标关联规则生成每个目标需求类的至少一个项目特征数据;
根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络。
结合第一方面,在本发明第一方面的第四种实现方式中,所述接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心,包括:
接收待处理的多个项目数据查询请求,并对所述多个项目数据查询请求进行解析,得到每个项目数据查询请求对应的项目查询类;
对每个项目数据查询请求进行权限校验,得到对应的权限校验结果;
根据所述权限校验结果对所述项目查询类与所述项目数据分布网络中的第一数据中心进行匹配,得到对应的第二数据中心;
对所述第二数据中心进行关联规则解析,得到对应的N个第二存储中心;
根据所述第二数据中心和所述N个第二存储中心,构建每个项目数据查询请求的目标数据查询路径。
结合第一方面,在本发明第一方面的第五种实现方式中,所述根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果,包括:
根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据;
将每个项目数据查询请求的项目查询类转换为第一向量,并将所述N个目标项目申报数据转换为对应的N个第二向量;
分别对所述N个第二向量与所述第一向量进行欧式距离计算,得到每个第二向量的欧式距离;
根据所述每个第二向量的欧式距离生成关联度数据,并根据所述关联度数据生成每个项目数据查询请求的关联度排序结果。
结合第一方面,在本发明第一方面的第六种实现方式中,所述项目数据库的构建方法还包括:
获取每个项目数据查询请求的响应时长和请求数据量,并对所述响应时长进行向量编码,得到时长编码向量,同时,对所述请求数据量进行编码处理,得到数据量编码向量;
对所述时长编码向量和所述数据量编码向量进行向量融合,得到目标融合向量;
将所述目标融合向量输入预置的数据库性能分析模型进行数据库性能分析,得到数据库性能评价指标,其中,所述数据库性能分析模型包括:两层门限循环网络以及全连接网络;
根据所述数据库性能评价指标匹配对应的网络维护策略及数据更新和迁移策略;
根据所述网络维护策略及数据更新和迁移策略,对所述项目数据分布网络进行优化处理,得到优化后的数据分布网络。
本发明第二方面提供了一种项目数据库的构建装置,所述项目数据库的构建装置包括:
获取模块,用于获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
创建模块,用于获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心;
分析模块,用于对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络;
解析模块,用于接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心;
处理模块,用于根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
推送模块,用于根据所述关联度排序结果,对所述N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将所述目标项目推送列表推送至对应的目标客户端。
本发明第三方面提供了一种项目数据库的构建设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述项目数据库的构建设备执行上述的项目数据库的构建方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的项目数据库的构建方法。
本发明提供的技术方案中,创建第一数据中心和第一存储中心;进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并生成项目数据分布网络;进行数据查询路径解析,得到目标数据查询路径;根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据,并通过第二数据中心对N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;根据关联度排序结果,对N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将目标项目推送列表推送至对应的目标客户端,本发明通过对项目需求信息和申报数据进行关联分析,项目数据库可以集成来自不同部门和环节的数据,实现数据共享和统一管理;利用关联度分析和数据路径解析,项目数据库可以智能地解析查询请求,并根据项目需求的关联性推送相关数据;数据需求关系分析使得不同项目特征数据之间的关联关系变得清晰,帮助项目管理者更好地理解不同项目要素之间的相互作用;通过对关联度排序结果的数据可视化,项目管理者可以更清楚地看到项目数据的相关性和趋势,从而更好地了解项目的状态和动态变化;根据每个项目数据查询请求的关联度排序结果,生成目标项目推送列表,可以实现个性化的数据推送。这有助于用户获得更有针对性的信息,提升工作效率和决策准确性,进而提高项目数据的查询效率。
附图说明
图1为本发明实施例中项目数据库的构建方法的一个实施例示意图;
图2为本发明实施例中生成项目数据分布网络的流程图;
图3为本发明实施例中数据查询路径解析的流程图;
图4为本发明实施例中关联度分析的流程图;
图5为本发明实施例中项目数据库的构建装置的一个实施例示意图;
图6为本发明实施例中项目数据库的构建设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种项目数据库的构建方法、装置、设备及存储介质,用于提高项目数据的查询效率。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中项目数据库的构建方法的一个实施例包括:
S101、获取项目需求信息,对项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
可以理解的是,本发明的执行主体可以为项目数据库的构建装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
具体的,服务器从政府部门和申报机构收集项目需求信息,包括项目类型、资金需求、申报材料等。将这些信息进行分类,得到多个目标需求类。为每个目标需求类创建一个第一数据中心,用于存储和管理与该类需求相关的数据。对每个目标需求类的项目需求信息进行提取,得到多个项目需求。将这些需求转换成一个初始需求数据矩阵,其中每行表示一个项目需求,每列表示一个特征项。对初始需求数据矩阵进行标准化处理,使各个特征项具有相同的尺度。计算标准化后的数据矩阵的协方差矩阵,用于分析特征项之间的相关性。对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。对特征值进行降序排序,选择前k个特征值及其对应的特征向量作为主成分,其中k为目标需求类的个数。将目标需求数据矩阵投影到所选的主成分上,得到降维后的数据矩阵。对降维后的数据矩阵进行聚类分析,将相似的项目需求归为同一类,得到多个目标需求类。对每个目标需求类中的项目需求信息进行整合,提取共性和特点。根据每个目标需求类的需求信息,在相应的第一数据中心创建存储空间,并将需求信息存储其中。例如,假设一个政府部门管理教育领域的项目申报,收集到不同项目的需求信息,包括项目类型(例如科研、培训)、所需资金、项目计划等。将这些信息分类,得到两个目标需求类:科研项目和培训项目。对于科研项目需求,提取其中的资金需求、研究领域和项目计划等信息。对于培训项目需求,提取其中的培训类型、受训对象和培训计划等信息。将这些需求信息转换成初始需求数据矩阵,标准化处理后计算协方差矩阵,得到特征值和特征向量。选择前k个特征值作为主成分,假设选择k=2。将需求数据矩阵投影到两个主成分上,进行聚类分析,得到两个目标需求类:科研项目类和培训项目类。对每个目标需求类中的项目需求信息进行整合,提取共性和特点。为每个类别创建第一数据中心,存储相应的需求信息。
S102、获取多个原始项目申报数据,对多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据多个项目特征数据创建每个原始项目申报数据的第一存储中心;
具体的,服务器从政府部门、机构或在线平台获取多个项目的原始申报数据,包括项目名称、描述、目标等。对每个原始项目申报数据进行文本分析,进行关键字提取和分词处理,得到目标分词数据。例如,对于一个教育项目,关键字包括“教育”、“培训”、“学校”等。将目标分词数据中的关键字作为图的节点,根据关键字之间的语义关系构建边,生成目标无向图。使用预置的初始权重值为目标无向图的节点设置权重。基于这些权重值,生成加权无向图。对加权无向图进行迭代计算,调整节点权重值,以更好地反映关键字的重要性和语义关系。据节点权重值,对目标分词数据进行关键字提取,得到多个项目申报关键字。将这些关键字输入预置的均值漂移聚类分析模型进行聚类中心计算,得到对应的聚类中心。计算多个项目申报关键字与聚类中心之间的距离,得到多个关键字中心距。基于这些距离,进行特征运算,得到特征运算结果。利用特征运算结果生成目标分词数据对应的多个项目特征数据。对于每个原始项目申报数据,根据所述多个项目特征数据,在相应的第一存储中心创建存储空间,并将多个原始项目申报数据存储其中。根据所述多个项目特征数据生成对应的数据标签。将这些数据标签用于对第一存储中心进行标签关联处理,以便更好地组织和检索数据。例如,考虑一个政府教育项目申报数据库的构建。假设从不同学校收集了多个教育项目的申报数据,包括项目名称、项目描述和所需资金。通过文本分析,对每个项目提取了关键字和进行了分词处理。例如,对于一个名为“STEM教育推广计划”的项目,提取的关键字包括“STEM”、“教育”、“学校”等。根据这些关键字构建目标无向图,并设置初始权重值。通过迭代计算,调整了节点权重值,突出了与STEM教育相关的关键字。根据节点权重值进行关键字提取,得到项目申报关键字,如“STEM”、“教育计划”等。将这些关键字输入均值漂移聚类分析模型,得到关键字的聚类中心。计算关键字中心距,并进行特征运算,得到特征运算结果。利用特征运算结果生成项目特征数据,例如,项目名称、关键字、特征值等。为每个项目创建第一存储中心,存储对应的项目特征数据。基于数据标签,实现数据的标签关联处理,提高数据的组织和检索效率。
S103、对多个目标需求类和多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据每个目标需求类的至少一个项目特征数据生成第一数据中心和第一存储中心的项目数据分布网络;
需要说明的是,服务器针对多个项目特征数据,将其转化为事务形式,其中每个事务表示一个项目特征数据,每个项目特征数据则由不同的特征项构成。这将有助于后续的数据分析和处理。服务器设定支持度和置信度阈值。支持度阈值表示项集在数据集中出现的频率,置信度阈值则表示关联规则的可信程度。这两个阈值在频繁项集分析和关联规则生成中起到关键作用。利用预置的Apriori算法,服务器根据设定的支持度和置信度阈值进行频繁项集分析,服务器能够从事务数据中找出频繁出现的项集,揭示出不同特征项之间的关联关系。根据频繁项集,服务器生成目标关联规则。这些规则能够描述不同特征项之间的关系,为后续的项目需求分析提供基础。例如,若频繁项集中包含"环保"和"可再生能源",关联规则可以是“若选择环保项目,则倾向于选择可再生能源项目”。基于生成的关联规则,服务器能够为每个目标需求类生成至少一个项目特征数据。这些数据将根据关联规则中的特征项进行组合,以满足不同需求类的要求。例如,对于“环保项目需求类”,生成了包括“太阳能发电”和“垃圾分类”等特征数据。借助这些目标需求类的项目特征数据,服务器能够创建第一数据中心和第一存储中心。这些中心将存储各个目标需求类的数据,为项目数据分布网络的构建提供基础。例如,考虑一个政府部门需要对不同领域的社会项目进行申报和管理。他们收集了多个项目的申报数据,包括项目名称、预算、目标领域等特征数据。通过数据需求关系分析,他们根据项目的预算规模将项目进行了分类,形成了“小型项目”和“大型项目”两个目标需求类。通过关联规则生成,他们确定了“环保项目”和“教育项目”之间存在关联,即两者常常同时申报。在生成了每个目标需求类的项目特征数据后,他们创建了第一数据中心和第一存储中心,用于存储和管理不同类别的项目数据。这些数据中心构成了项目数据分布网络,为政府部门的决策和管理提供了更有针对性的数据支持。
S104、接收待处理的多个项目数据查询请求,并根据多个项目数据查询请求对项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,目标数据查询路径包括N个第二存储中心以及第二数据中心;
具体的,服务器接收待处理的多个项目数据查询请求。这些查询请求包括对项目信息、预算、进展等的查询需求。每个请求都会包含特定的查询条件和目标数据。对接收到的每个项目数据查询请求进行解析,以获得项目查询类。这将帮助服务器理解用户的查询意图,从而更好地响应他们的需求。在解析后,进行权限校验,确保用户具有访问相应数据的权限。这将防止未经授权的用户访问敏感数据,同时确保数据的安全性。基于权限校验的结果,将项目查询类与项目数据分布网络中的第一数据中心进行匹配。根据查询类的特征,找到适合查询需求的数据中心。这是为了优化查询效率,确保从合适的数据源中获取数据。进一步,对选定的第一数据中心进行关联规则解析。这将有助于确定与所选数据中心相关的其他数据中心,构成目标数据查询路径。关联规则解析可以基于先前的数据分析和关联性判断。服务器根据第二数据中心和关联规则解析的结果,构建每个项目数据查询请求的目标数据查询路径。这个路径将涵盖了数据查询的路径,从第一数据中心到多个第二存储中心,以及最终的第二数据中心。例如,考虑一个政府部门的项目数据库,包括不同领域的项目数据。一个用户发起了一个查询请求,要求获取关于“环保项目”的预算和进展情况。服务器解析了这个查询请求,并根据权限校验确定用户有权访问这些数据。服务器匹配查询类为“环保项目”的特征,将查询路由到与环保项目数据相关的第一数据中心。服务器对这个第一数据中心进行关联规则解析,找到与环保项目数据关联的其他数据中心,比如“可再生能源数据中心”和“污水处理数据中心”。根据解析结果,服务器构建了目标数据查询路径,用户的查询将从第一数据中心传输到这些第二存储中心,最终返回用户所需的关于环保项目的预算和进展数据。这样,查询过程得以优化,用户得到了准确且高效的查询结果。
S105、根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据,并通过第二数据中心对N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
具体的,服务器根据每个项目数据查询请求的目标数据查询路径,服务器从N个第二存储中心获取对应的N个目标项目申报数据。这些第二存储中心存储着不同类型或领域的项目数据,根据路径,从适合的存储中心获取所需数据。将每个项目数据查询请求的项目查询类转换为第一向量,同时将N个目标项目申报数据转换为对应的N个第二向量。这一步骤将查询类和数据都转换成数值表示,为后续的欧式距离计算做准备。在计算欧式距离之前,服务器将分别对N个第二向量与第一向量进行欧式距离计算。欧式距离是一种常用的距离度量方法,用于衡量向量之间的相似性。通过计算向量之间的欧式距离,可以量化它们之间的差异程度。根据每个第二向量的欧式距离,服务器生成关联度数据。这些数据表示每个第二向量与查询向量之间的关联程度,即越相似关联度越高。这将帮助服务器了解每个第二存储中心的数据与查询的匹配程度。服务器基于生成的关联度数据,服务器将每个项目数据查询请求的关联度进行排序。这将为用户提供一个按关联度排列的结果列表,使他们能够更好地了解与他们查询相关的项目数据。例如,假设一个市政府部门正在查询与“交通改善项目”相关的预算情况。服务器根据查询路径,从不同的第二存储中心获取相关数据,如“交通规划存储中心”和“财政数据中心”。将查询类“交通改善项目”的特征转换为第一向量,同时将相关数据转换为对应的第二向量。随后,服务器计算每个第二向量与第一向量之间的欧式距离,量化它们之间的差异。基于计算结果,服务器生成关联度数据,表征每个第二向量与查询向量的匹配程度。服务器将根据关联度数据对查询结果进行排序,将与“交通改善项目”关联度较高的数据排在前面,使市政府部门能够更快地获取所需的预算情况数据。这种排序结果将帮助用户更高效地获取相关项目数据。
S106、根据关联度排序结果,对N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将目标项目推送列表推送至对应的目标客户端。
具体的,在之前,服务器已经获得了每个项目数据查询请求的关联度排序结果。这些结果表示了每个项目数据与查询需求的关联程度,越相关的项目数据关联度越高。基于关联度排序结果,服务器对N个目标项目申报数据进行列表转换。这个转换过程将根据关联度从高到低的顺序,将项目数据逐一添加到推送列表中。这样,列表的前部将包含最相关的项目数据,后部则包含较低关联度的数据。随后,服务器将生成的目标项目推送列表准备好,以便将其推送至对应的目标客户端。推送可以通过多种方式进行,如电子邮件、移动应用通知等,根据客户端的偏好和可用的通信渠道来决定。例如,考虑一个市政府部门使用项目数据库来查询城市交通改善项目的预算和进展情况。在之前,服务器已经根据关联度对相关项目数据进行了排序。现在,服务器将根据排序结果生成目标项目推送列表。假设有两个目标客户端:市长办公室和城市规划部门。对于市长办公室,服务器将从列表的前部开始,选择与市政决策和预算分配相关的项目数据。这些数据与市长的关注点和决策需要密切相关,因此将被添加到目标项目推送列表中。对于城市规划部门,服务器会关注更广泛的城市发展和规划问题。因此,服务器会选择与城市规划、交通规划等领域相关的项目数据,并将其添加到目标项目推送列表中。随后,服务器将根据每个客户端的通信偏好,将生成的目标项目推送列表通过合适的通信渠道推送给相应的客户端。市长办公室会收到一封包含高关联度项目数据的电子邮件,而城市规划部门则会在移动应用上收到相关通知。通过这个过程,市政府部门能够根据关联度排序结果,将最相关的项目数据推送给不同的目标客户端,使他们能够更有效地获取所需的信息,支持决策和规划工作。这种个性化的推送将提升数据利用的效率和准确性。
本发明实施例中,创建第一数据中心和第一存储中心;进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并生成项目数据分布网络;进行数据查询路径解析,得到目标数据查询路径;根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据,并通过第二数据中心对N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;根据关联度排序结果,对N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将目标项目推送列表推送至对应的目标客户端,本发明通过对项目需求信息和申报数据进行关联分析,项目数据库可以集成来自不同部门和环节的数据,实现数据共享和统一管理;利用关联度分析和数据路径解析,项目数据库可以智能地解析查询请求,并根据项目需求的关联性推送相关数据;数据需求关系分析使得不同项目特征数据之间的关联关系变得清晰,帮助项目管理者更好地理解不同项目要素之间的相互作用;通过对关联度排序结果的数据可视化,项目管理者可以更清楚地看到项目数据的相关性和趋势,从而更好地了解项目的状态和动态变化;根据每个项目数据查询请求的关联度排序结果,生成目标项目推送列表,可以实现个性化的数据推送。这有助于用户获得更有针对性的信息,提升工作效率和决策准确性,进而提高项目数据的查询效率。
在一具体实施例中,执行步骤S101的过程可以具体包括如下步骤:
(1)获取项目需求信息,并对项目需求信息进行需求提取,得到多个项目需求,并对多个项目需求进行数据矩阵转换,生成初始需求数据矩阵;
(2)对初始需求数据矩阵进行标准化处理,得到目标需求数据矩阵,并计算目标需求数据矩阵的协方差矩阵,得到目标协方差矩阵;
(3)对目标协方差矩阵进行特征值分解,得到特征值和对应的特征向量,并对特征值进行排序,得到特征值序列;
(4)选择特征值序列中的前k个特征值和对应的特征向量作为主成分,其中,k为目标需求类的个数;
(5)将目标需求数据矩阵投影到主成分上,得到降维后的数据矩阵,并对降维后的数据矩阵进行聚类分析,得到多个目标需求类;
(6)对多个目标需求类进行需求信息整合,得到每个目标需求类的需求信息,并根据每个目标需求类的需求信息创建对应的第一数据中心,同时,将每个目标需求类的需求信息存储至第一数据中心。
具体的,服务器从各个渠道获取项目需求信息,这包括政府部门、组织提交的计划和建议。对这些项目需求信息进行处理,进行需求提取操作。在这一步,服务器会识别出各个项目需求的关键要素,如预算、时间表、项目范围等。这些要素将用于后续的分析和处理。接下来,通过需求提取得到的多个项目需求,创建一个初始需求数据矩阵。矩阵的每一行表示一个项目需求,而每列则代表一个关键要素。这将使得项目需求可以以数据的形式进行处理和分析。对初始需求数据矩阵进行标准化处理,以确保各个要素的权重和值在合理的范围内。标准化后的矩阵将作为目标需求数据矩阵,用于后续分析。通过对目标需求数据矩阵计算协方差矩阵,可以揭示不同要素之间的相关性。协方差矩阵的特征值分解能够得到特征值和对应的特征向量,从中服务器得到数据的主要方向。服务器选择特征值序列中的前k个特征值和对应的特征向量,用于主成分分析。这个k通常由目标需求类的个数来决定。将目标需求数据矩阵投影到这些主成分上,得到降维后的数据矩阵。基于降维后的数据矩阵,进行聚类分析以识别出多个目标需求类。聚类算法将根据项目需求之间的相似性将其分组,形成不同的需求类别。对多个目标需求类进行需求信息整合,将每个类别内的项目需求整合在一起。这些整合后的需求信息可以更好地理解和分析每个类别的特点。对于每个目标需求类,根据其需求信息创建对应的第一数据中心。这个数据中心将用于存储该类别内的项目需求数据,便于后续的访问和分析。例如,假设一个城市政府希望构建一个项目数据库来管理不同类别的基础设施建设项目。从不同部门和机构收集了多个项目需求,如道路建设、公共交通、环保等。本实施例中,将这些项目需求整合并创建初始需求数据矩阵。在标准化处理后,协方差矩阵分析揭示了不同项目需求之间的关系。通过主成分分析,识别出了主要的需求特征方向。聚类分析将这些需求分为不同的类别,如交通类、环保类等。对于交通类需求,整合其项目需求信息,例如道路规划、公共交通改善等。为此类需求创建第一数据中心,存储相应数据。同样,针对环保类需求,也进行类似操作。通过这个构建方法,政府可以更好地管理和分析不同类别的项目需求,为决策提供支持。例如,市长办公室可以从交通类需求中了解交通改善计划,而环保部门可以查阅环保相关项目的需求信息。这有助于政府更有效地规划和执行项目。
在一具体实施例中,执行步骤S102的过程可以具体包括如下步骤:
(1)获取多个原始项目申报数据,并对多个原始项目申报数据进行分词处理,得到目标分词数据;
(2)将目标分词数据中的多个词汇作为图节点,并根据多个词汇的语义关系构建边,生成目标无向图;
(3)通过预置的初始权重值对目标无向图进行节点权重设置,得到加权无向图,并对加权无向图进行迭代计算,得到多个节点权重值;
(4)根据多个节点权重值,对目标分词数据进行关键字提取,得到多个项目申报关键字;
(5)将多个项目申报关键字输入预置的均值漂移聚类分析模型进行聚类中心计算,得到对应的聚类中心;
(6)对多个项目申报关键字与聚类中心进行距离计算,得到多个关键字中心距,并对多个关键字中心距进行特征运算,得到特征运算结果;
(7)通过特征运算结果生成目标分词数据对应的多个项目特征数据;
(8)根据多个项目特征数据创建每个原始项目申报数据的第一存储中心,并将多个原始项目申报数据存储至对应的第一存储中心;
(9)根据多个项目特征数据生成对应的数据标签,并通过数据标签对第一存储中心进行标签关联处理。
具体的,从不同渠道收集多个原始项目申报数据,这些数据来自政府部门、机构或企业。对这些原始数据进行分词处理,将每个申报数据拆解成多个词汇,形成目标分词数据。分词有助于将文本信息转化为计算机可以理解和处理的形式。将目标分词数据中的多个词汇作为图的节点,同时根据这些词汇之间的语义关系构建边,生成一个目标无向图。在这个图中,词汇之间的关联性将有助于后续的分析和处理。为了进一步处理图的节点,需要为图中的每个节点设定初始权重值。这些初始权重值可以根据词汇的重要性、出现频率等进行设置。通过迭代计算,可以得到每个节点的加权值,从而形成加权无向图。基于加权无向图,进行关键字提取操作。根据节点的加权值,提取出多个项目申报关键字,这些关键字将代表着原始数据的重要内容。将提取出的多个项目申报关键字输入预置的均值漂移聚类分析模型,计算出对应的聚类中心。聚类中心代表着关键字的主要类别,有助于进一步组织和分析数据。将多个项目申报关键字与聚类中心进行距离计算,得到多个关键字中心距。通过对这些距离进行特征运算,可以生成特征运算结果,这些结果将有助于对关键字进行更深入的分析和处理。利用特征运算结果,可以将目标分词数据转化为多个项目特征数据。每个项目特征数据将包含与该项目关联的关键信息,这将有助于更好地理解和分析原始数据。基于多个项目特征数据,可以为每个原始项目申报数据创建第一存储中心。这些存储中心将用于将项目特征数据存储在一个集中的位置,以便后续的访问和查询。通过对多个项目特征数据生成对应的数据标签,可以为这些数据添加关键标签。这些标签将有助于对数据进行组织和分类。通过使用这些数据标签,可以对第一存储中心进行标签关联处理,从而更好地组织和管理数据。例如,考虑一个城市规划局收集了多个原始项目申报数据,其中包括了道路建设、城市绿化、交通改善等方面的数据。本实施例中,可以将这些数据分词并构建成关联图。通过关键字提取和聚类分析,可以获得关于每个类别的关键信息。为每个项目特征数据创建第一存储中心,例如创建一个针对道路建设的存储中心。这样,城市规划局就能更好地管理和分析不同项目的关键数据,从而支持更有效的决策制定。
在一具体实施例中,如图2所示,执行步骤S103的过程可以具体包括如下步骤:
S201、对多个项目特征数据进行事务形式转换,生成对应的多个事务,其中,每个事务表示一个项目特征数据,每个项目特征表示一个特征项;
S202、根据多个事务设定支持度阈值和置信度阈值,其中,支持度阈值表示项集在数据集中出现的频率,置信度阈值表示关联规则的可信程度;
S203、根据支持度阈值和置信度阈值,通过预置的Apriori算法进行频繁项集分析,得到频繁项集;
S204、根据频繁项集生成目标关联规则,并根据目标关联规则生成每个目标需求类的至少一个项目特征数据;
S205、根据每个目标需求类的至少一个项目特征数据生成第一数据中心和第一存储中心的项目数据分布网络。
具体的,服务器对多个项目特征数据进行事务形式的转换,将每个项目特征数据转化为一个事务,其中每个事务代表一个项目特征数据,而每个项目特征又可以表示为一个特征项。这将有助于将数据整理成可进行关联规则分析的形式。接下来,为了对数据进行关联规则分析,需要设定支持度阈值和置信度阈值。支持度阈值表示在数据集中出现的频率,而置信度阈值表示关联规则的可信程度。这两个阈值的设置将影响分析的结果。根据设定的支持度阈值和置信度阈值,使用预置的Apriori算法进行频繁项集分析。这个算法将从事务数据中找出满足设定阈值的频繁项集,即在数据中经常同时出现的特征项的组合。基于频繁项集,可以生成目标关联规则。关联规则表示特征项之间的关联关系,可以用“如果...那么...”的形式表示。例如,如果特征A出现,则有较大性特征B也会出现。这些关联规则可以提供有关数据中特征之间关系的信息。使用生成的目标关联规则,可以根据规则推断出每个目标需求类的至少一个项目特征数据。这些推断出的数据将有助于更好地理解目标需求类所包含的特征项和关联关系。最后,基于每个目标需求类的至少一个项目特征数据,可以构建第一数据中心和第一存储中心的项目数据分布网络。这个网络将有助于将相关的项目特征数据存储在一个集中的位置,以便后续的查询和分析。例如,考虑一个城市的交通管理部门想要分析交通拥堵的原因。他们收集了多个交通流量、道路状况等方面的项目特征数据,每个项目特征数据代表一个时段的交通状况。通过将这些数据转化成事务,并应用Apriori算法,可以发现频繁出现的特征项组合,比如高峰时段、雨天和道路状况差等。基于这些频繁项集,可以生成关联规则,比如“在高峰时段和雨天,道路状况差的情况下,交通拥堵的性较大”。根据这些关联规则,交通管理部门可以推断出交通拥堵的原因,并根据每个目标需求类的推断结果构建第一数据中心和第一存储中心的项目数据分布网络,方便后续的分析和决策。
在一具体实施例中,如图3所示,执行步骤S104的过程可以具体包括如下步骤:
S301、接收待处理的多个项目数据查询请求,并对多个项目数据查询请求进行解析,得到每个项目数据查询请求对应的项目查询类;
S302、对每个项目数据查询请求进行权限校验,得到对应的权限校验结果;
S303、根据权限校验结果对项目查询类与项目数据分布网络中的第一数据中心进行匹配,得到对应的第二数据中心;
S304、对第二数据中心进行关联规则解析,得到对应的N个第二存储中心;
S305、根据第二数据中心和N个第二存储中心,构建每个项目数据查询请求的目标数据查询路径。
具体的,服务器建立一个服务器来接收待处理的多个项目数据查询请求。这些请求来自于不同的用户或应用程序,包含了需要查询的数据信息。对接收到的多个项目数据查询请求进行解析。解析过程涉及从请求中提取出关键信息,如查询的数据类型、范围、条件等,以便后续处理。针对每个项目数据查询请求,需要进行权限校验,验证请求发起者是否有权利访问所请求的数据。权限校验可以确保只有有权访问的用户才能获取到需要的数据。根据权限校验的结果,可以得到每个项目数据查询请求对应的权限校验结果。这些结果表示请求发起者是否被授权访问所需的数据。根据权限校验结果,可以将项目数据查询请求对应的项目查询类与项目数据分布网络中的第一数据中心进行匹配。这将决定从哪个数据中心获取数据。对第一数据中心进行匹配后,根据匹配结果,需要对第二数据中心进行关联规则解析。这一步骤用于确定从第二数据中心获取哪些附加数据,以满足查询需求。在关联规则解析的基础上,得到了N个第二存储中心,表示可以从这些数据中心获取相关的数据。基于第二数据中心和N个第二存储中心,可以构建每个项目数据查询请求的目标数据查询路径。这个路径将指导服务器从哪些数据中心获取数据,以满足查询请求。例如,假设某政府部门接收到一个查询请求,要求获取所有与环保相关的项目信息和预算分配情况。服务器首先解析请求,检查请求者的权限。通过权限校验,确认请求者有权进行此类查询。将查询请求与环保类别的项目查询类匹配,选择与环保相关的第一数据中心。在第一数据中心,服务器解析关联规则,发现环保项目与具有相同预算的其他项目相关。根据关联规则解析的结果,选择相应的第二数据中心。服务器构建了一个查询路径,从第一数据中心获取环保项目信息,同时从第二数据中心获取与环保项目有关的其他数据。
在一具体实施例中,如图4所示,执行步骤S105的过程可以具体包括如下步骤:
S401、根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据;
S402、将每个项目数据查询请求的项目查询类转换为第一向量,并将N个目标项目申报数据转换为对应的N个第二向量;
S403、分别对N个第二向量与第一向量进行欧式距离计算,得到每个第二向量的欧式距离;
S404、根据每个第二向量的欧式距离生成关联度数据,并根据关联度数据生成每个项目数据查询请求的关联度排序结果。
具体的,服务器根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据。这些数据包括项目名称、预算情况、执行进度等信息。将每个项目数据查询请求的项目查询类转换为第一向量,以便后续计算。同时,将N个目标项目申报数据转换为对应的N个第二向量,使得数据能够以数值形式进行比较。对N个第二向量与第一向量分别进行欧式距离计算。欧式距离衡量了两个向量之间的相似度,距离越小表示两个向量越相似。根据每个第二向量的欧式距离计算结果,生成关联度数据。关联度可以通过简单的数值映射将欧式距离转换为关联度分数,值越高表示关联度越高。根据生成的关联度数据,对每个项目数据查询请求的关联度进行排序,得到关联度排序结果。这个结果将告诉服务器哪些项目数据与查询请求最相关。例如,假设一个政府部门收到两个项目数据查询请求:A和B。请求A是关于环保项目的预算分配情况,请求B是关于教育项目的执行进度。部门通过构建目标数据查询路径,从3个第二存储中心获取了对应的目标项目申报数据。第一个第二存储中心的环保项目数据向量表示为[0.8,0.2,0.5],教育项目数据向量表示为[0.2,0.7,0.9]。第二个第二存储中心的环保项目数据向量表示为[0.7,0.4,0.3],教育项目数据向量表示为[0.1,0.5,0.8]。第三个第二存储中心的环保项目数据向量表示为[0.6,0.3,0.6],教育项目数据向量表示为[0.3,0.6,0.7]。将查询请求A的项目查询类转换为第一向量为[0.9,0.1],请求B的项目查询类转换为第一向量为[0.2,0.8]。计算欧式距离后得到:请求A与第一、第二、第三存储中心的距离分别为0.5、0.6、0.4。请求B与第一、第二、第三存储中心的距离分别为0.6、0.4、0.5。通过欧式距离计算得到的距离,可以转化为关联度分数。假设转化公式为:关联度=1-距离。根据这个公式,得到:请求A与第一、第二、第三存储中心的关联度分别为0.5、0.4、0.6。请求B与第一、第二、第三存储中心的关联度分别为0.4、0.6、0.5。综合每个存储中心的关联度,可以得到关联度排序结果:对于请求A,第三存储中心与环保项目数据最相关;对于请求B,第二存储中心与教育项目数据最相关。
在一具体实施例中,执行项目数据库的构建方法的过程还可以具体包括如下步骤:
(1)获取每个项目数据查询请求的响应时长和请求数据量,并对响应时长进行向量编码,得到时长编码向量,同时,对请求数据量进行编码处理,得到数据量编码向量;
(2)对时长编码向量和数据量编码向量进行向量融合,得到目标融合向量;
(3)将目标融合向量输入预置的数据库性能分析模型进行数据库性能分析,得到数据库性能评价指标,其中,数据库性能分析模型包括:两层门限循环网络以及全连接网络;
(4)根据数据库性能评价指标匹配对应的网络维护策略及数据更新和迁移策略;
(5)根据网络维护策略及数据更新和迁移策略,对项目数据分布网络进行优化处理,得到优化后的数据分布网络。
具体的,服务器对每个项目数据查询请求,记录其响应时长(数据库处理请求所需时间)和请求数据量(所需数据的大小)。对响应时长进行向量编码,得到时长编码向量。对请求数据量进行编码处理,得到数据量编码向量。编码可以使用不同的方法,例如将时长和数据量分别归一化到[0,1]范围内。将时长编码向量和数据量编码向量进行向量融合,得到目标融合向量。融合可以采用简单的加权和,也可以使用更复杂的融合技术,如神经网络。将目标融合向量输入预置的数据库性能分析模型进行分析,得到数据库性能评价指标。该模型可以由两层门限循环网络和全连接网络组成,用于预测不同输入向量与数据库性能之间的关系。根据数据库性能评价指标,匹配对应的网络维护策略及数据更新和迁移策略。这些策略可以根据数据库性能的情况,决定是否进行数据库维护、数据更新或迁移操作。根据匹配得到的网络维护策略及数据更新和迁移策略,对项目数据分布网络进行优化处理。例如,可以根据性能需求将数据从性能较差的节点迁移到性能较好的节点,从而提高数据访问效率。例如,考虑一个政府部门的项目数据查询服务器,其中有两个存储节点:节点A和节点B。对于查询请求A,响应时长为0.5秒,请求数据量为10MB;对于查询请求B,响应时长为1秒,请求数据量为5MB。对于查询请求A,进行向量编码得到时长编码向量[0.5],数据量编码向量[0.1]。对于查询请求B,进行向量编码得到时长编码向量[1.0],数据量编码向量[0.05]。将时长编码向量和数据量编码向量进行向量融合,得到目标融合向量:[0.75]对于每个向量,将其输入预置的数据库性能分析模型,得到数据库性能评价指标为0.85。基于数据库性能评价指标,服务器匹配了一个策略,即需要进行数据库维护和部分数据迁移操作。根据这个策略,服务器决定将部分数据从节点B迁移到节点A,以减少节点B的负载,提高整体性能,本实施例中,政府部门在每个查询请求中考虑了响应时长和数据量等因素,通过数据库性能分析和优化策略,实现了项目数据查询服务器的性能提升和数据分布的优化。这有助于政府决策者更快速、更准确地获取所需数据,支持项目申报管理的决策过程。
上面对本发明实施例中项目数据库的构建方法进行了描述,下面对本发明实施例中项目数据库的构建装置进行描述,请参阅图5,本发明实施例中项目数据库的构建装置一个实施例包括:
获取模块501,用于获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
创建模块502,用于获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心;
分析模块503,用于对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络;
解析模块504,用于接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心;
处理模块505,用于根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
推送模块506,用于根据所述关联度排序结果,对所述N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将所述目标项目推送列表推送至对应的目标客户端。
通过上述各个组成部分的协同合作,创建第一数据中心和第一存储中心;进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并生成项目数据分布网络;进行数据查询路径解析,得到目标数据查询路径;根据每个项目数据查询请求的目标数据查询路径,从N个第二存储中心获取对应的N个目标项目申报数据,并通过第二数据中心对N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;根据关联度排序结果,对N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将目标项目推送列表推送至对应的目标客户端,本发明通过对项目需求信息和申报数据进行关联分析,项目数据库可以集成来自不同部门和环节的数据,实现数据共享和统一管理;利用关联度分析和数据路径解析,项目数据库可以智能地解析查询请求,并根据项目需求的关联性推送相关数据;数据需求关系分析使得不同项目特征数据之间的关联关系变得清晰,帮助项目管理者更好地理解不同项目要素之间的相互作用;通过对关联度排序结果的数据可视化,项目管理者可以更清楚地看到项目数据的相关性和趋势,从而更好地了解项目的状态和动态变化;根据每个项目数据查询请求的关联度排序结果,生成目标项目推送列表,可以实现个性化的数据推送。这有助于用户获得更有针对性的信息,提升工作效率和决策准确性,进而提高项目数据的查询效率。
上面图5从模块化功能实体的角度对本发明实施例中的项目数据库的构建装置进行详细描述,下面从硬件处理的角度对本发明实施例中项目数据库的构建设备进行详细描述。
图6是本发明实施例提供的一种项目数据库的构建设备的结构示意图,该项目数据库的构建设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对项目数据库的构建设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在项目数据库的构建设备600上执行存储介质630中的一系列指令操作。
项目数据库的构建设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的项目数据库的构建设备结构并不构成对项目数据库的构建设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种项目数据库的构建设备,所述项目数据库的构建设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述项目数据库的构建方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述项目数据库的构建方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种项目数据库的构建方法,其特征在于,所述项目数据库的构建方法包括:
获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心;
对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络;
接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心;
根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
根据所述关联度排序结果,对所述N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将所述目标项目推送列表推送至对应的目标客户端。
2.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心,包括:
获取项目需求信息,并对所述项目需求信息进行需求提取,得到多个项目需求,并对所述多个项目需求进行数据矩阵转换,生成初始需求数据矩阵;
对所述初始需求数据矩阵进行标准化处理,得到目标需求数据矩阵,并计算所述目标需求数据矩阵的协方差矩阵,得到目标协方差矩阵;
对所述目标协方差矩阵进行特征值分解,得到特征值和对应的特征向量,并对所述特征值进行排序,得到特征值序列;
选择所述特征值序列中的前k个特征值和对应的特征向量作为主成分,其中,k为目标需求类的个数;
将所述目标需求数据矩阵投影到所述主成分上,得到降维后的数据矩阵,并对所述降维后的数据矩阵进行聚类分析,得到多个目标需求类;
对所述多个目标需求类进行需求信息整合,得到每个目标需求类的需求信息,并根据每个目标需求类的需求信息创建对应的第一数据中心,同时,将每个目标需求类的需求信息存储至所述第一数据中心。
3.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心,包括:
获取多个原始项目申报数据,并对所述多个原始项目申报数据进行分词处理,得到目标分词数据;
将所述目标分词数据中的多个词汇作为图节点,并根据所述多个词汇的语义关系构建边,生成目标无向图;
通过预置的初始权重值对所述目标无向图进行节点权重设置,得到加权无向图,并对所述加权无向图进行迭代计算,得到多个节点权重值;
根据所述多个节点权重值,对所述目标分词数据进行关键字提取,得到多个项目申报关键字;
将所述多个项目申报关键字输入预置的均值漂移聚类分析模型进行聚类中心计算,得到对应的聚类中心;
对所述多个项目申报关键字与所述聚类中心进行距离计算,得到多个关键字中心距,并对所述多个关键字中心距进行特征运算,得到特征运算结果;
通过所述特征运算结果生成所述目标分词数据对应的多个项目特征数据;
根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心,并将所述多个原始项目申报数据存储至对应的第一存储中心;
根据所述多个项目特征数据生成对应的数据标签,并通过所述数据标签对所述第一存储中心进行标签关联处理。
4.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络,包括:
对所述多个项目特征数据进行事务形式转换,生成对应的多个事务,其中,每个事务表示一个项目特征数据,每个项目特征表示一个特征项;
根据所述多个事务设定支持度阈值和置信度阈值,其中,支持度阈值表示项集在数据集中出现的频率,置信度阈值表示关联规则的可信程度;
根据所述支持度阈值和所述置信度阈值,通过预置的Apriori算法进行频繁项集分析,得到频繁项集;
根据所述频繁项集生成目标关联规则,并根据所述目标关联规则生成每个目标需求类的至少一个项目特征数据;
根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络。
5.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心,包括:
接收待处理的多个项目数据查询请求,并对所述多个项目数据查询请求进行解析,得到每个项目数据查询请求对应的项目查询类;
对每个项目数据查询请求进行权限校验,得到对应的权限校验结果;
根据所述权限校验结果对所述项目查询类与所述项目数据分布网络中的第一数据中心进行匹配,得到对应的第二数据中心;
对所述第二数据中心进行关联规则解析,得到对应的N个第二存储中心;
根据所述第二数据中心和所述N个第二存储中心,构建每个项目数据查询请求的目标数据查询路径。
6.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果,包括:
根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据;
将每个项目数据查询请求的项目查询类转换为第一向量,并将所述N个目标项目申报数据转换为对应的N个第二向量;
分别对所述N个第二向量与所述第一向量进行欧式距离计算,得到每个第二向量的欧式距离;
根据所述每个第二向量的欧式距离生成关联度数据,并根据所述关联度数据生成每个项目数据查询请求的关联度排序结果。
7.根据权利要求1所述的项目数据库的构建方法,其特征在于,所述项目数据库的构建方法还包括:
获取每个项目数据查询请求的响应时长和请求数据量,并对所述响应时长进行向量编码,得到时长编码向量,同时,对所述请求数据量进行编码处理,得到数据量编码向量;
对所述时长编码向量和所述数据量编码向量进行向量融合,得到目标融合向量;
将所述目标融合向量输入预置的数据库性能分析模型进行数据库性能分析,得到数据库性能评价指标,其中,所述数据库性能分析模型包括:两层门限循环网络以及全连接网络;
根据所述数据库性能评价指标匹配对应的网络维护策略及数据更新和迁移策略;
根据所述网络维护策略及数据更新和迁移策略,对所述项目数据分布网络进行优化处理,得到优化后的数据分布网络。
8.一种项目数据库的构建装置,其特征在于,所述项目数据库的构建装置包括:
获取模块,用于获取项目需求信息,对所述项目需求信息进行需求分类,得到多个目标需求类,并创建每个目标需求类的第一数据中心;
创建模块,用于获取多个原始项目申报数据,对所述多个原始项目申报数据进行关键字提取,得到多个项目特征数据,并根据所述多个项目特征数据创建每个原始项目申报数据的第一存储中心;
分析模块,用于对所述多个目标需求类和所述多个项目特征数据进行数据需求关系分析,得到每个目标需求类的至少一个项目特征数据,并根据所述每个目标需求类的至少一个项目特征数据生成所述第一数据中心和所述第一存储中心的项目数据分布网络;
解析模块,用于接收待处理的多个项目数据查询请求,并根据所述多个项目数据查询请求对所述项目数据分布网络进行数据查询路径解析,得到每个项目数据查询请求的目标数据查询路径,其中,所述目标数据查询路径包括N个第二存储中心以及第二数据中心;
处理模块,用于根据每个项目数据查询请求的目标数据查询路径,从所述N个第二存储中心获取对应的N个目标项目申报数据,并通过所述第二数据中心对所述N个目标项目申报数据进行关联度分析,得到每个项目数据查询请求的关联度排序结果;
推送模块,用于根据所述关联度排序结果,对所述N个目标项目申报数据进行列表转换,生成目标项目推送列表,并将所述目标项目推送列表推送至对应的目标客户端。
9.一种项目数据库的构建设备,其特征在于,所述项目数据库的构建设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述项目数据库的构建设备执行如权利要求1-7中任一项所述的项目数据库的构建方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的项目数据库的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439027.6A CN117389994A (zh) | 2023-11-01 | 2023-11-01 | 项目数据库的构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311439027.6A CN117389994A (zh) | 2023-11-01 | 2023-11-01 | 项目数据库的构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117389994A true CN117389994A (zh) | 2024-01-12 |
Family
ID=89464713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311439027.6A Pending CN117389994A (zh) | 2023-11-01 | 2023-11-01 | 项目数据库的构建方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117389994A (zh) |
-
2023
- 2023-11-01 CN CN202311439027.6A patent/CN117389994A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11663254B2 (en) | System and engine for seeded clustering of news events | |
US10019442B2 (en) | Method and system for peer detection | |
Stonebraker et al. | Data curation at scale: the data tamer system. | |
US9098564B2 (en) | Domain-specific syntactic tagging in a functional information system | |
CN111324642A (zh) | 一种面向电网大数据分析的模型算法选型与评价方法 | |
US8185536B2 (en) | Rank-order service providers based on desired service properties | |
KR20090010185A (ko) | 싱글 및 멀티플 택소노미 관리 방법 및 시스템 | |
CN105205104A (zh) | 一种云平台数据获取方法 | |
CN105159971B (zh) | 一种云平台数据检索方法 | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN101393550A (zh) | 用于计算对象之间竞争性度量的方法与系统 | |
Hancock et al. | Impact of hyperparameter tuning in classifying highly imbalanced big data | |
CN115145871A (zh) | 文件查询方法、装置和电子设备 | |
Tang et al. | Forecasting SQL query cost at Twitter | |
Pang et al. | PUMA: Parallel subspace clustering of categorical data using multi-attribute weights | |
WO2022111148A1 (en) | Metadata indexing for information management | |
CN115982429B (zh) | 一种基于流程控制的知识管理方法及系统 | |
Shi et al. | [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering | |
Raad et al. | Constructing and cleaning identity graphs in the LOD cloud | |
CN111209403A (zh) | 数据处理方法、装置、介质及电子设备 | |
Venkateswara Rao et al. | The societal communication of the Q&A community on topic modeling | |
Bai et al. | Adaptive query relaxation and result categorization of fuzzy spatiotemporal data based on XML | |
US20220277008A1 (en) | Supporting database queries using unsupervised vector embedding approaches over unseen data | |
Hassan et al. | Sampling technique selection framework for knowledge discovery | |
CN113095604B (zh) | 产品数据的融合方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |