CN117056867B - 一种可用于数字孪生的多源异构数据融合方法及系统 - Google Patents
一种可用于数字孪生的多源异构数据融合方法及系统 Download PDFInfo
- Publication number
- CN117056867B CN117056867B CN202311316248.4A CN202311316248A CN117056867B CN 117056867 B CN117056867 B CN 117056867B CN 202311316248 A CN202311316248 A CN 202311316248A CN 117056867 B CN117056867 B CN 117056867B
- Authority
- CN
- China
- Prior art keywords
- data
- source
- fusion
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007500 overflow downdraw method Methods 0.000 title claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 213
- 238000003066 decision tree Methods 0.000 claims abstract description 87
- 238000013507 mapping Methods 0.000 claims abstract description 48
- 238000011156 evaluation Methods 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 36
- 238000007781 pre-processing Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000013499 data model Methods 0.000 claims description 20
- 238000005516 engineering process Methods 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000002452 interceptive effect Effects 0.000 claims description 15
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000010354 integration Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000013079 data visualisation Methods 0.000 claims description 7
- 238000005065 mining Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 7
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 230000008030 elimination Effects 0.000 claims description 6
- 238000003379 elimination reaction Methods 0.000 claims description 6
- 238000010223 real-time analysis Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 description 21
- 238000010276 construction Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000009430 construction management Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000013480 data collection Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/904—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种可用于数字孪生的多源异构数据融合方法及系统,属于数字孪生信息技术领域,对多个数据源提取格式信息以及协议信息,并通过服务器解析器获取多源数据,将多源数据进行标准化和映射得到不同的标准化数据源,由不同的标准化数据源提取转化得到多个实际特征信息,判断多个所述实际特征信息是否符合预设特征需求范围,得到多源异构数据集,将多源异构数据集进行语义映射构建决策树模型,基于决策树模型得到多源异构融合数据,根据多源异构融合数据建立多源异构融合数据库,并得到实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。
Description
技术领域
本发明涉及数字孪生信息技术领域,尤其涉及一种可用于数字孪生的多源异构数据融合方法及系统。
背景技术
数字孪生是指对现实世界中的实体、系统或过程进行数字化建模和仿真,以便更好地理解、分析和优化它们的行为。多源异构数据融合是将来自不同来源、不同类型的数据进行整合,以提供更全面、准确的信息来支持数字孪生模型的创建和更新。在此背景下,现代社会中产生了大量的数据,这些数据可能包括结构化数据、半结构化数据和非结构化数据。多源异构数字孪生技术可运用于多种领域,例如城市建设管理、健康医疗、电子商务等,为了构建准确、全面的数字孪生模型,需要将这些多源异构数据整合起来,有助于消除信息孤立,获得更深入的洞察力。
然而,多源异构数据融合面临着许多挑战,如数据格式不一致、数据质量不稳定、数据语义不匹配等。解决这些挑战需要使用数据清洗、转换、集成和语义映射等技术,以确保融合后的数据具有一致性和可信度。为了有必要研究多源异构数据融合方法,更好地利用不同来源的数据,构建更精确、全面的数字孪生模型,从而支持更好地理解和优化现实世界中的实体、系统或过程。
发明内容
本发明克服了现有技术的不足,提供了一种可用于数字孪生的多源异构数据融合方法及系统。
为达上述目的,本发明采用的技术方案为:
本发明提供了一种可用于数字孪生的多源异构数据融合方法,包括如下步骤:
获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据;
基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。
优选的,本发明的一个较佳的实施例中,所述获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据,具体包括如下步骤:
获取多个数据源,在多个所述数据源中提取数据样本,通过推断数据样本得到多个所述数据源的格式信息;
获取多个所述数据源的供应商,通过所述供应商提供得到多个数据源文档,查阅多个所述数据源文档得到多个所述数据源的协议信息;
根据多个所述数据源的格式信息和多个所述数据源的协议信息编写不同的解析器程序,将所述不同的编码器程序进行整合,生成服务器解析器;
将多个所述数据源导入所述服务器解析器中进行解析,获取多源数据。
优选的,本发明的一个较佳的实施例中,所述基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源,具体包括如下步骤:
对所述多源数据进行预处理得到预处理结果,并提取所述预处理结果的数据库模式,基于所述数据库模式构建预设数据模型;
通过GIS可视化软件计算分析所述预设数据模型,生成数据模型坐标系,将所述数据模型坐标系和所述预设数据模型进行匹配,得到可映射模型并获取数据类型模板;
由所述预处理结果中获取多种字段信息,将多种所述字段信息导入所述可映射模型中进行映射转化,得到多种实际数据类型;
判断多种所述实际数据类型是否符合所述数据类型模板,若不符合,则根据所述数据类型模板进行数据转化,得到不同的标准化数据源。
优选的,本发明的一个较佳的实施例中,所述通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
优选的,本发明的一个较佳的实施例中,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
优选的,本发明的一个较佳的实施例中,基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
本发明另一方面提供了一种可用于数字孪生的多源异构数据融合系统,所述融合系统包括存储器与处理器,所述存储器中储存可用于数字孪生的多源异构数据融合方法程序,所述可用于数字孪生的多源异构数据融合方法程序被所述处理器执行时,实现如下步骤:
获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,得到多源异构融合数据;
基于所述多源异构融合数据建立多源异构融合数据库,获取所述多源异构融合数据库中的大规模多源数据,得到实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。
优选的,本发明的一个较佳的实施例中,所述通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
优选的,本发明的一个较佳的实施例中,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
优选的,本发明的一个较佳的实施例中,基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
本发明解决了背景技术中存在的技术缺陷,本发明的有益技术效果在于:
对多个数据源提取格式信息以及协议信息,并通过服务器解析器获取多源数据,将多源数据进行标准化和映射得到不同的标准化数据源,由不同的标准化数据源提取转化得到多个实际特征信息,判断多个所述实际特征信息是否符合预设特征需求范围,得到多源异构数据集,将多源异构数据集进行语义映射构建决策树模型,基于决策树模型得到多源异构融合数据,根据多源异构融合数据建立多源异构融合数据库,并得到实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。本发明能够多源异构数据融合在数字孪生中以创建更为精确和全面的数字孪生模型,提高数据融合准确性,缓解数据不足问题,从而增强数字孪生模型的鲁棒性和稳定性,改善数字孪生模型的预测能力,效率高,符合经济效益。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了一种可用于数字孪生的多源异构数据融合方法流程图;
图2示出了通过服务器解析器获取多源数据的方法流程图;
图3示出了通过多源数据标准化获取不同的标准化数据源的方法流程图;
图4示出了一种可用于数字孪生的多源异构数据融合系统的系统框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明提供了一种可用于数字孪生的多源异构数据融合方法,如图1所示,包括如下步骤:
S102:获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
S104:基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
S106:通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
S108:将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据;
S110:基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。
需要说明的是,本发明通过多源异构数据融合在数字孪生中的应用旨在将来自不同数据源、不同类型的数据整合在一起,以创建更为精确和全面的数字孪生模型,通过融合来自不同数据源的信息,数字孪生模型可以获得更准确的输入数据,从而产生更准确的预测和模拟结果,缓解数据不足的问题,从而提高数字孪生模型的鲁棒性和稳定性,同时改善数字孪生模型的预测能力,通过融合这些信息,模型可以更好地捕捉系统的动态变化和复杂关系,提高工作效率,极大地提升数字孪生模型的质量和应用价值。
优选的,本发明的一个较佳的实施例中,所述获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据,如图2所示,具体包括如下步骤:
S202:获取多个数据源,在多个所述数据源中提取数据样本,通过推断数据样本得到多个所述数据源的格式信息;
S204:获取多个所述数据源的供应商,通过所述供应商提供得到多个数据源文档,查阅多个所述数据源文档得到多个所述数据源的协议信息;
S206:根据多个所述数据源的格式信息和多个所述数据源的协议信息编写不同的解析器程序,将所述不同的编码器程序进行整合,生成服务器解析器;
S208:将多个所述数据源导入所述服务器解析器中进行解析,获取多源数据。
需要说明的是,在数据采集的过程中,由于不同的数据源可能有不同的格式和协议,使得数据源在解析采集时出现数据错误和无法采集数据等问题,可能会产生数据误差以及数据采集时速度较慢,影响多源异构数据的融合。首先从服务器层面收集多个数据源,所述数据源包括数据库、日志文件、传感器、API接口等,根据多个数据源能够得知其对应的数据样本和供应商,通过推断数据样本能够得到多个格式信息,由供应商提供得到多个协议信息,然后根据多个格式信息和协议信息编写各自对应的解析器程序,并生成服务器解析器,最后运用所述服务器解析器对多个数据源进行数据解析可得到多源数据。本发明能够通过数据源自身的格式和协议编写生成服务器解析器,从而对数据源进行数据解析,大幅度提高了数据获取的准确性,加快数据收集速率,避免产生数据误差,保证多源异构数据融合的质量。
优选的,本发明的一个较佳的实施例中,所述基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源,如图3所示,具体包括如下步骤:
S302:对所述多源数据进行预处理得到预处理结果,并提取所述预处理结果的数据库模式,基于所述数据库模式构建预设数据模型;
S304:通过GIS可视化软件计算分析所述预设数据模型,生成数据模型坐标系,将所述数据模型坐标系和所述预设数据模型进行匹配,得到可映射模型并获取数据类型模板;
S306:由所述预处理结果中获取多种字段信息,将多种所述字段信息导入所述可映射模型中进行映射转化,得到多种实际数据类型;
S308:判断多种所述实际数据类型是否符合所述数据类型模板,若不符合,则根据所述数据类型模板进行数据转化,得到不同的标准化数据源。
需要说明的是,多个来源的数据往往存在重复、数值缺失、异常等问题,导致数据融合出现冗余显示等情况,且多源数据之间的数据标准和格式不一致,使得数据的融合变的繁琐复杂,融合速率和质量降低,因此在将多个来源的数据进行融合前需要进行数据预处理和标准化。通过对多源数据进行预处理得到预处理结果,所述预处理包括去除噪声、填充缺失值和处理异常值等,利用GIS可视化软件对预处理结果进一步分析匹配得到可映射模型以及数据类型模板,可映射模型能够映射出数据字段中的实际数据类型,所述实际数据类型为多源数据中某个数据的类型,对比实际数据类型和数据类型模板之间的符合程度,若判定不符合,则将实际数据类型依照数据类型模板进行转化得到不同的标准化数据源。本发明通过对多源数据进行预处理并将预处理后的数据转化为统一的标准,以消除因数据不一致造成的偏差,便于数据的融合和分析,提高融合效率,可靠性高。
优选的,本发明的一个较佳的实施例中,所述通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
需要说明的是,数据源中包含有各种特征,若将未进行特征选择提取的全部数据融合可能会导致多源异构数据特征与所需的数字孪生模型不匹配,从而导致数字孪生模型在处理数据上产生误差和偏移,降低数字孪生技术的稳定性。通过随机森林算法在不同的标准化数据源中提取得到多个实际特征信息,所述实际特征信息为数据源中包含的所有数据特征,而数据的融合则应根据数字孪生模型的特征需求,在数据源中选择并提取符合要求以及最具信息量的特征进行转化表示,数字孪生模型的特征需求作为预设特征需求范围,判定实际特征信息是否符合预设特征需求范围进行数据处理得到多个目标特征数据,所述目标特征数据为数字孪生模型所需的特征数据,最终运用数据合并场景集成目标特征数据的类型能够得到多源异构数据集。本发明能够通过数字孪生模型的数据特征需求对多个数据源进行目标特征的获取,从而使得目标特征在数字孪生模型中具有最佳的表达意义,提高数字孪生模型的数据表达质量以及数据处理速度,避免数字孪生模型在处理数据上产生误差。
优选的,本发明的一个较佳的实施例中,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
需要说明的是,在数据融合过程中,不同数据源的数据语义和概念可能存在差异,从而使数据之间无法进行对应,从而导致多源异构数据存在数据紊乱和错误,且数据融合若选用不匹配的算法进行融合,可能会导致数据融合失败,使其无法运用于数字孪生技术上。所述语言映射表为用户实现定义的语义映射工具,能够将多源异构数据集中的语言对应为同值数据,结合分类特征值及其最小基尼系数得到划分特征的数值,并根据划分特征值划分同值数据集来构建决策树模型,采用决策树算法能够更好的使数据融合完整,提高数据融合稳定性,利用同值数据集对决策树模型进行训练和测试,以此得到决策树模型的评估分数,数字孪生模型中存在着多源异构数据的评估指标,通过评估分数和评估指标能够对所述决策树模型的质量权重进行验证,从而使数据能够更好的融合并获得最佳的多源异构融合数据。本发明将数据语义同值化并基于决策树算法对数据进行融合,大幅度提升了数据融合的一致性和准确性,使多源异构数据在数字孪生技术应用中更为精准稳定,有效提高数据处理的效率。
优选的,本发明的一个较佳的实施例中,所述基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
需要说明的是,融合后的数据需进行存储和管理并实现可视化方可供数字孪生模型使用,由于融合后的数据中存在许多大规模的数据,运用传统的数据存储方法容易出现数据存储错误和缺失等情况,降低数字孪生模型对数据查询效率和处理能力,目前多源异构数据运用于数字孪生技术大多为不可视状态,导致数字孪生模型无法全面展示融合后的数据。获取多源异构融合数据中的初始融合数据和衍生融合数据,所述衍生融合数据可以是清洗后的数据、数据处理和分析结果等,通过数据可视化工具将初始融合数据和衍生融合数据整合得到的多源异构融合数据库进行计算得到数据图形参数,并基于数字孪生技术和数据图形参数创建交互可视化界面,所述交互可视化界面为数字孪生模型的可视化交互表达模型,运用聚类分析法挖掘大规模多源数据,并运用流式处理框架实时分析得到实时多源数据,所述实时多源数据为多源异构数据的实时数据变化,最后实时多源数据嵌入交互可视化界面便可得到实时多源数据的数字孪生模型。本发明能够对融合后的数据进行存储管理以及在数字孪生模型上实现可视化交互表达应用,极大地提升数字孪生模型的质量和应用价值,使其能够更好地模拟、预测和优化真实世界中的各种系统。
此外,所述一种可用于数字孪生的多源异构数据融合方法,还包括以下步骤:
获取城市建设的各类监测数据,对所述各类监测数据进行数据清洗得到城市建设参数,构建预设数字孪生模型;
基于卡尔曼滤波法对所述各类监测数据进行实时分析,分析得到观测模型,并在所述各类监测数据中更新协方差量,通过计算调整所述观测模型与所述协方差量的残差率,得到实时管理数据;
将所述实时管理数据导入实时多源数据的数字孪生模型中进行模拟,得到第管理参数,将所述实时管理数据导入所述预设数字孪生模型中进行模拟,得到第二管理参数;
判断所述第一管理参数是否大于第二管理参数,若是,则在城市建设数字孪生模型中运用多源异构数据融合的管理效率高于未使用的管理效率;
需要说明的是,数字孪生模型可运用于城市的建设管理中,基于数字孪生模型对城市建设和运营进行高效管理,但城市建设中所包含的信息数据较为繁多,模型处理数据的能力有限,若数据没有融合,数字孪生模型容易出现误差导致管理效率低的情况。首先需要先构建预设数字孪生模型,所述预设数字孪生模型为没有进行数据融合的常规模型,通过卡尔曼滤波算法能够实时计算并调整出城市建设的实时管理数据,将实时管理模型分别导入预设数字孪生模型和实时多源数据的数字孪生模型中得到两个管理参数进行比较,能够分析出多源异构数据融合在城市建设数字孪生模型中的管理效率优于常规模型。本发明能够判断多源异构数据融合的数字孪生模型在城市建设管理中的优势性,大幅度提升城市建设管理的效率和管理质量,可靠性高,数据处理稳定性好。
此外,所述一种可用于数字孪生的多源异构数据融合方法,还包括以下步骤:
获取城市管理的当前模型参数,由实时多源数据提取实时评估数据,根据所述实时评估数据构建实时决策树模型,得到实时决策树模型的性能参数,并基于所述实时决策树模型的性能参数获取第一时间节点;
基于网格搜索法对所述城市管理的当前模型参数进行评估,调优超参数,创建参数网格并列出超参数组合,基于超参数组合交叉验证所述城市管理的当前模型参数,得到当前决策树模型的性能参数,并基于所述当前决策树模型的性能参数获取第二时间节点;
判断所述当前决策树模型的性能参数是否小于所述实时决策树模型的性能参数,若小于,则对决策树模型重新训练并生成迭代模型;
将所述第一时间节点与所述第二时间节点导入所述迭代模型中进行周期跨度计算,得到迭代周期值,将所述迭代周期值设置为决策树模型的定期更新时间。
需要说明的是,数字孪生是一个动态的过程,城市管理数字孪生模型的性能通常会随着时间、数据和场景的变化而发生变化,若决策树模型无法完成定期迭代更新,则模型无法精准适配实时变化的多源异构数据,难以保证数字孪生模型的适应性和数据准确性,因此城市管理的决策树模型持续迭代更新非常重要。通过判断当前决策树模型的性能参数与多源异构数据实时更新后的实时决策树模型的性能参数的大小差异,以此判定决策树模型是否需要迭代更新,并记录二者的时间变化节点计算得到迭代周期值,从而设置决策树模型迭代更新的最小周期。本发明能够定期对城市管理的决策树模型进行迭代更新,使模型保持适应性和时效性,以更好地应对时刻变化的数据和场景,确保决策树模型始终具有较高的准确性和应用价值。
本发明另一方面提供了一种可用于数字孪生的多源异构数据融合系统,所述融合系统包括存储器41与处理器42,所述存储器41中储存可用于数字孪生的多源异构数据融合方法程序,所述可用于数字孪生的多源异构数据融合方法程序被所述处理器42执行时,实现如下步骤:
获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,得到多源异构融合数据;
基于所述多源异构融合数据建立多源异构融合数据库,获取所述多源异构融合数据库中的大规模多源数据,得到实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型。
优选的,本发明的一个较佳的实施例中,所述通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
优选的,本发明的一个较佳的实施例中,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
优选的,本发明的一个较佳的实施例中,基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种可用于数字孪生的多源异构数据融合方法,其特征在于,具体包括以下步骤:
获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据;
基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型;
其中,获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据,具体包括如下步骤:
获取多个数据源,在多个所述数据源中提取数据样本,通过推断数据样本得到多个所述数据源的格式信息;
获取多个所述数据源的供应商,通过所述供应商提供得到多个数据源文档,查阅多个所述数据源文档得到多个所述数据源的协议信息;
根据多个所述数据源的格式信息和多个所述数据源的协议信息编写不同的解析器程序,将所述不同的编码器程序进行整合,生成服务器解析器;
将多个所述数据源导入所述服务器解析器中进行解析,获取多源数据;
其中,基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源,具体包括如下步骤:
对所述多源数据进行预处理得到预处理结果,并提取所述预处理结果的数据库模式,基于所述数据库模式构建预设数据模型;
通过GIS可视化软件计算分析所述预设数据模型,生成数据模型坐标系,将所述数据模型坐标系和所述预设数据模型进行匹配,得到可映射模型并获取数据类型模板;
由所述预处理结果中获取多种字段信息,将多种所述字段信息导入所述可映射模型中进行映射转化,得到多种实际数据类型;
判断多种所述实际数据类型是否符合所述数据类型模板,若不符合,则根据所述数据类型模板进行数据转化,得到不同的标准化数据源;
其中,通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
2.根据权利要求1所述的一种可用于数字孪生的多源异构数据融合方法,其特征在于,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
3.根据权利要求1所述的一种可用于数字孪生的多源异构数据融合方法,其特征在于,所述基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
4.一种可用于数字孪生的多源异构数据融合系统,其特征在于,所述融合系统包括存储器与处理器,所述存储器中储存可用于数字孪生的多源异构数据融合方法程序,所述可用于数字孪生的多源异构数据融合方法程序被所述处理器执行时,实现如下步骤:
获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据;
基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源;
通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集;
将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据;
基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型;
其中,获取多个数据源,由多个所述数据源提取格式信息以及协议信息,并根据所述格式信息和协议信息生成服务器解析器,基于所述服务器解析器获取多源数据,具体包括如下步骤:
获取多个数据源,在多个所述数据源中提取数据样本,通过推断数据样本得到多个所述数据源的格式信息;
获取多个所述数据源的供应商,通过所述供应商提供得到多个数据源文档,查阅多个所述数据源文档得到多个所述数据源的协议信息;
根据多个所述数据源的格式信息和多个所述数据源的协议信息编写不同的解析器程序,将所述不同的编码器程序进行整合,生成服务器解析器;
将多个所述数据源导入所述服务器解析器中进行解析,获取多源数据;
其中,基于所述多源数据获取多种字段信息,将多种所述字段信息映射转化得到多种实际数据类型,判断多种所述实际数据类型是否符合数据类型模板,得到不同的标准化数据源,具体包括如下步骤:
对所述多源数据进行预处理得到预处理结果,并提取所述预处理结果的数据库模式,基于所述数据库模式构建预设数据模型;
通过GIS可视化软件计算分析所述预设数据模型,生成数据模型坐标系,将所述数据模型坐标系和所述预设数据模型进行匹配,得到可映射模型并获取数据类型模板;
由所述预处理结果中获取多种字段信息,将多种所述字段信息导入所述可映射模型中进行映射转化,得到多种实际数据类型;
判断多种所述实际数据类型是否符合所述数据类型模板,若不符合,则根据所述数据类型模板进行数据转化,得到不同的标准化数据源;
其中,通过提取转化所述不同的标准化数据源得到多个实际特征信息,若多个所述实际特征信息符合预设特征需求范围,得到多源异构数据集,具体包括如下步骤:
基于随机森林算法提取所述不同的标准化数据源中的若干个原始特征,并通过归一化对所述若干个原始特征进行特征转换,得到多个实际特征信息;
获取数字孪生模型的特征需求信息,对所述特征需求信息进行冗余特征消除并整合,得到预设特征需求范围;
判断多个所述实际特征信息是否符合预设特征需求范围,若不符合,则对不符合需求范围的所述实际特征信息进行剔除,若符合,则采用所述实际特征信息进行数据融合,并将符合需求范围的多个所述实际特征信息与所述不同的标准化数据源逐一对应,得到多个目标特征数据;
通过分析所述目标特征数据获取数据类型信息,基于所述数据类型信息分配合适的数据合并场景,运用所述数据合并场景将多个所述目标特征数据进行数据合并,得到多源异构数据集。
5.根据权利要求4所述的一种可用于数字孪生的多源异构数据融合系统,其特征在于,所述将所述多源异构数据集进行语义映射,建立同值数据集,将所述同值数据集划分为多个子集,根据多个所述子集构建决策树模型,基于所述决策树模型进行融合质量权重评估得到多源异构融合数据,具体包括如下步骤:
获取定义完成的语言映射表,根据所述多源异构数据集获取多源异构数据源的语言信息,将所述多源异构数据源的语言信息导入所述语言映射表中进行语义映射,建立同值数据集;
基于所述同值数据集获取分类特征值,通过所述分类特征值结合分类特征的最小基尼系数进行评估,得到划分特征值,基于所述划分特征值,将所述同值数据集划分为多个子集,根据多个所述子集和所述划分特征值递归构建子树直至满足终止条件并标记为叶节点,整理所有叶节点构建决策树模型;
将所述同值数据集分成训练集和测试集,将所述训练集导入所述决策树模型中进行模型的融合训练,得到训练完成的决策树模型,并将所述测试集导入所述训练完成的决策树模型中进行预测评估,得到决策树模型的评估分数;
获取数字孪生模型的评估指标,根据所述数字孪生模型的评估指标和所述决策树模型的评估分数得到融合质量权重值,判断所述融合质量权重值是否存在于预设融合质量权重范围内,若存在,则直接得到数据融合模型,并基于所述数据融合模型获取多源异构融合数据。
6.根据权利要求4所述的一种可用于数字孪生的多源异构数据融合系统,其特征在于,所述基于所述多源异构融合数据建立多源异构融合数据库,通过所述多源异构融合数据库获取实时多源数据,将所述实时多源数据进行可视化表达,得到实时多源数据的数字孪生模型,具体包括如下步骤:
由所述多源异构融合数据获取初始融合数据,通过所述初始融合数据生成衍生融合数据,基于数据湖技术将所述初始融合数据和所述衍生融合数据进行整合并存储管理,建立多源异构融合数据库;
通过数据可视化工具计算解析所述多源异构融合数据库,得到数据图形参数,并基于数字孪生技术以及所述数据图形参数创建交互可视化界面;
获取所述多源异构融合数据库中的大规模多源数据,根据聚类分析法对所述大规模多源数据进行深入分析和挖掘,得到隐藏数据模式,并运用流式处理框架实时分析处理所述隐藏数据模式,得到实时多源数据;
将所述实时多源数据和所述隐藏数据模式导入所述交互可视化界面中,得到实时多源数据的数字孪生模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316248.4A CN117056867B (zh) | 2023-10-12 | 2023-10-12 | 一种可用于数字孪生的多源异构数据融合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311316248.4A CN117056867B (zh) | 2023-10-12 | 2023-10-12 | 一种可用于数字孪生的多源异构数据融合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117056867A CN117056867A (zh) | 2023-11-14 |
CN117056867B true CN117056867B (zh) | 2024-01-23 |
Family
ID=88657602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311316248.4A Active CN117056867B (zh) | 2023-10-12 | 2023-10-12 | 一种可用于数字孪生的多源异构数据融合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117056867B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591025B (zh) * | 2023-11-27 | 2024-05-10 | 海南榕树家信息科技有限公司 | 多源异构数据处理系统 |
CN117611108B (zh) * | 2024-01-24 | 2024-05-10 | 山东省国土空间生态修复中心(山东省地质灾害防治技术指导中心、山东省土地储备中心) | 一种城乡建设用地有偿调剂的智能决策构建方法 |
CN117668764B (zh) * | 2024-01-31 | 2024-04-26 | 北京清创美科环境科技有限公司 | 一种编制大气污染物和温室气体融合清单的方法及装置 |
CN117828539B (zh) * | 2024-03-06 | 2024-05-24 | 昆明智合力兴信息系统集成有限公司 | 数据智能融合分析系统及方法 |
CN117852324B (zh) * | 2024-03-08 | 2024-05-10 | 云南云金地科技有限公司 | 一种基于数据孪生的场景构建方法 |
CN117922538B (zh) * | 2024-03-25 | 2024-06-11 | 杭州迪为科技有限公司 | 一种基于数字孪生技术的混合动力汽车的测控方法及系统 |
CN118070075B (zh) * | 2024-04-22 | 2024-09-03 | 之江实验室 | 一种数据分析方法、装置、电子装置和存储介质 |
CN118170837B (zh) * | 2024-05-16 | 2024-07-19 | 国网浙江省电力有限公司永康市供电公司 | 基于多模型算法的电力多元异构数据安全融合方法 |
CN118228036B (zh) * | 2024-05-23 | 2024-07-23 | 成都数据集团股份有限公司 | 一种用于整合多源异构数据集的集成方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN110750588A (zh) * | 2019-10-29 | 2020-02-04 | 珠海格力电器股份有限公司 | 面向多源异构的数据融合方法、系统、装置及存储介质 |
CN113065000A (zh) * | 2021-03-29 | 2021-07-02 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN114461603A (zh) * | 2021-12-30 | 2022-05-10 | 奇安信科技集团股份有限公司 | 多源异构数据融合方法及装置 |
US11334815B1 (en) * | 2018-09-28 | 2022-05-17 | Snap Inc. | Cloud based machine learning |
CN115438740A (zh) * | 2022-09-16 | 2022-12-06 | 北京无代码科技有限公司 | 一种多源数据的汇聚融合方法和系统 |
CN115774860A (zh) * | 2022-12-21 | 2023-03-10 | 烽火乾坤科技(南京)有限公司 | 一种基于多源数据融合计算的领域引擎技术识别方法 |
CN116226626A (zh) * | 2022-12-19 | 2023-06-06 | 国网浙江省电力有限公司营销服务中心 | 一种多源异构数据关联方法 |
CN116680445A (zh) * | 2023-05-05 | 2023-09-01 | 国网吉林省电力有限公司 | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 |
CN116861303A (zh) * | 2023-05-15 | 2023-10-10 | 温州电力建设有限公司 | 一种变电站数字孪生多源信息融合诊断方法 |
-
2023
- 2023-10-12 CN CN202311316248.4A patent/CN117056867B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
US11334815B1 (en) * | 2018-09-28 | 2022-05-17 | Snap Inc. | Cloud based machine learning |
CN110750588A (zh) * | 2019-10-29 | 2020-02-04 | 珠海格力电器股份有限公司 | 面向多源异构的数据融合方法、系统、装置及存储介质 |
CN113065000A (zh) * | 2021-03-29 | 2021-07-02 | 泰瑞数创科技(北京)有限公司 | 一种基于地理实体的多源异构数据融合方法 |
CN114461603A (zh) * | 2021-12-30 | 2022-05-10 | 奇安信科技集团股份有限公司 | 多源异构数据融合方法及装置 |
CN115438740A (zh) * | 2022-09-16 | 2022-12-06 | 北京无代码科技有限公司 | 一种多源数据的汇聚融合方法和系统 |
CN116226626A (zh) * | 2022-12-19 | 2023-06-06 | 国网浙江省电力有限公司营销服务中心 | 一种多源异构数据关联方法 |
CN115774860A (zh) * | 2022-12-21 | 2023-03-10 | 烽火乾坤科技(南京)有限公司 | 一种基于多源数据融合计算的领域引擎技术识别方法 |
CN116680445A (zh) * | 2023-05-05 | 2023-09-01 | 国网吉林省电力有限公司 | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 |
CN116861303A (zh) * | 2023-05-15 | 2023-10-10 | 温州电力建设有限公司 | 一种变电站数字孪生多源信息融合诊断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117056867A (zh) | 2023-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117056867B (zh) | 一种可用于数字孪生的多源异构数据融合方法及系统 | |
CN109190094B (zh) | 基于ifc标准的建筑信息模型文件切分方法 | |
CN111488465A (zh) | 一种知识图谱构建方法及相关装置 | |
CN110990467B (zh) | 一种bim模型格式转换方法及转换系统 | |
CN112181955B (zh) | 一种用于重载铁路综合大数据平台信息共享的数据规范治理方法 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN116894152B (zh) | 一种多源数据调研与实时分析方法 | |
CN111125068A (zh) | 一种元数据治理方法和系统 | |
CN111552813A (zh) | 一种基于电网全业务数据的电力知识图谱构建方法 | |
WO2023108967A1 (zh) | 基于隐私保护计算和跨组织的联合信用评分方法及装置 | |
CN113190694A (zh) | 一种知识图谱的知识管理平台 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
CN113742368A (zh) | 一种数据血缘关系分析方法 | |
CN113254517A (zh) | 一种基于互联网大数据的服务提供方法 | |
CN115687649A (zh) | 一种基于bim和知识图谱的自动审图系统 | |
CN115392805A (zh) | 一种交易型合同合规风险诊断方法及系统 | |
CN116680445B (zh) | 基于知识图谱的电力光通信系统多源异构数据融合方法及系统 | |
CN117972111A (zh) | 一种基于在线图处理技术面向知识图谱的知识推理方法 | |
CN113032496A (zh) | 一种基于产业知识图谱的产业大脑数据分析系统 | |
CN117633249A (zh) | 面向SDGs空间型监测指标的基本变量构建方法及装置 | |
CN115730015A (zh) | 基于任务标识编码解析的工业数据管理方法 | |
CN115587190A (zh) | 一种电力领域知识图谱的构建方法、装置及电子设备 | |
Rakushev et al. | The Technique of Operational Processing of Heterogeneous Surveillance Data in Assessing Situation in Geographic Information Systems | |
CN114880483A (zh) | 一种元数据知识图谱构建方法、存储介质及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |