CN114661810B - 轻量级多源异构数据融合方法及系统 - Google Patents
轻量级多源异构数据融合方法及系统 Download PDFInfo
- Publication number
- CN114661810B CN114661810B CN202210568465.1A CN202210568465A CN114661810B CN 114661810 B CN114661810 B CN 114661810B CN 202210568465 A CN202210568465 A CN 202210568465A CN 114661810 B CN114661810 B CN 114661810B
- Authority
- CN
- China
- Prior art keywords
- data
- source
- slave
- main
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/256—Integrating or interfacing systems involving database management systems in federated or virtual databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种轻量级多源异构数据融合方法及系统,包括:对数据源分类得到主数据源和从数据源,将具有相同数据主体的从数据源归类为一个从数据集合;根据数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;基于多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,生成相应多源异构数据的差异标签;将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种轻量级多源异构数据融合方法及系统。
背景技术
多源异构简单而言就是指一个整体由多个不同来源的成分而构成,既有混合型数据(包括结构化和非结构化)又有离散性数据(数据分布在不同的系统或平台),互联网就是一个典型的异构网络,融合传播矩阵就是一个典型的多源异构数据网络。
在电网系统中,多源至少可以包括用电行为的个人用户源、企业用户源、以及电网对电力进行管理的管理源。个人用户源所产生的数据可以例如每个用户的用电费用、用电分配(取暖用电费用、照明用电费用、文娱用电费用、烹调用电费用、生活用电费用),企业用户源可以例如每个企业的用电费用、用电分配(取暖用电费用、照明用电费用、生产用电费用),管理源所产生的数据可以是对某个用户、企业的维修数据、负责人数据等等。
以企业为例,其不同的用电分配可以体现出其在生产经营中耗能较多、耗能较少的行为,根据不同的耗能行为能够为后续相应目标区域内的电网建设进行指导。在现有技术中,还无法将多种类型的多源异构数据进行相应的融合,并且电网中的数据巨大,所以亟需一种轻量级多源异构数据融合的技术方案,实现轻量的多源异构的数据融合。
发明内容
本发明实施例提供一种轻量级多源异构数据融合方法及系统,能够将多种类型的多源异构数据进行相应的融合,并进行轻量化的存储,实现轻量的多源异构的数据融合。
本发明实施例的第一方面,提供的轻量级多源异构数据融合方法,包括:
对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合;
依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;
基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;
根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签;
根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内。
可选地,在第一方面的一种可能实现方式中,所述对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合具体包括:
根据用户主动配置的主数据标签将第一数据接口所对应的数据源作为主数据源;
对没有配置主数据标签的其他第二数据接口配置从数据标签,将第二数据接口所对应的数据源作为从数据源,获取每个主数据源和从数据源分别所对应的数据主体;
依次遍历每一个从数据源的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合。
可选地,在第一方面的一种可能实现方式中,所述对没有配置主数据标签的其他第二数据接口配置从数据标签,将第二数据接口所对应的数据源作为从数据源,获取每个主数据源和从数据源分别所对应的数据主体具体包括:
获取每一个主数据源所对应的第一数据采集设备和/或第一输入设备,将所述第一数据采集设备和/或第一输入设备所采集的目标主体作为主数据源的数据主体;
获取每二个主数据源所对应的第二数据采集设备和/或第二输入设备,将所述第二数据采集设备和/或第二输入设备所采集的目标主体作为从数据源的数据主体。
可选地,在第一方面的一种可能实现方式中,所述依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板具体包括:
获取初始化数据模板,所述初始化数据模板包括主体槽位、主数据槽位以及从数据槽位;
获取每一个主数据源的数据主体,将所述数据主体填充至所述主体槽位处,对所述主数据槽位的数量进行调整得到与所述主数据源的数量相对应的主数据槽位;
对所述从数据槽位的数量进行调整得到与所述从数据源的数量相对应的从数据槽位;
基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板。
可选地,在第一方面的一种可能实现方式中,所述基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板具体包括:
基于所述主数据源的主数据属性在所述主数据槽位处建立至少一个维度的主数据采集栏目,所述主数据采集栏目包括主数据采集单元格;
基于所述从数据源的从数据属性在所述从数据槽位处建立至少一个维度的从数据采集栏目,所述从数据采集栏目包括从数据采集单元格;
在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板。
可选地,在第一方面的一种可能实现方式中,所述在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板具体包括:
获取所述主数据采集单元格和/或从数据采集单元格分别所对应的维度信息;
基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符;
将所述维度字符对初始化数据模板中相对应的维度信息进行替换,生成相对应的多源异构模板。
可选地,在第一方面的一种可能实现方式中,所述基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符具体包括:
获取所有轻量转化表内的所有维度字符,按照所述维度字符长度对所有的维度字符进行升序排序得到字符排序表;
获取所有的主数据采集单元格内的维度信息的第一数量,选取字符排序表中前部与所述第一数量相对应的维度字符作为第一子字符表;
将字符排序表中与所述第一子字符表相对应的维度字符删除,得到第一更新子排序表;
获取所有的从数据采集单元格内的维度信息的第二数量,选取第一更新子排序表的前部与所述第二数量相对应的维度字符作为第二子字符表;
基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符。
可选地,在第一方面的一种可能实现方式中,所述基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符具体包括:
获取所有主数据源中每个主数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有主数据采集单元格的维度信息进行降序排序得到第一子维度表;
获取所有从数据源中每个从数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有从数据采集单元格的维度信息进行降序排序得到第二子维度表;
选取第一子维度表和第一子字符表中相同顺序号的维度信息和字符信息对应处理,选取第二子维度表和第二子字符表中相同顺序号的维度信息和字符信息对应处理。
可选地,在第一方面的一种可能实现方式中,还包括:
将第一更新子排序表中与所述第二子字符表相对应的维度字符删除得到剩余字符排序表;
若判断新建主数据采集单元格和/或从数据采集单元中的任意一个或多个,则提取新建的主数据采集单元格和/或从数据采集单元的新建维度信息;
按照剩余字符排序表中的字符顺序选取维度字符与所述新建维度信息相对应设置。
可选地,在第一方面的一种可能实现方式中,所述基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据具体包括:
确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息,所述电力标量值和/或电力备注信息属于所述主电力数据和/或从电力数据;
若判断每一个多源异构模板的所有主数据采集单元格和/或从数据采集单元格内分别填充有相对应的电力标量值和/或电力备注信息后,则判断得到相对应数据主体的多源异构数据。
可选地,在第一方面的一种可能实现方式中,所述确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息具体包括:
获取多源异构模板中每个主数据采集单元格和/或从数据采集单元格所对应的维度字符;
确定与所述主数据采集单元格和/或从数据采集单元格相对应的主数据源和/或从数据源,根据所述维度字符采集相应主数据源和/或从数据源内的电力标量值和/或电力备注信息。
可选地,在第一方面的一种可能实现方式中,所述根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签具体包括:
根据每个多源异构数据的数据结构对所有的多源异构数据进行分类得到多个异构数据集合,每个异构数据集合分别具有与其相对应的异构集合标签,每个异构集合标签包括相应异构数据集合中每个多源异构数据所对应的所有维度信息;
确定维度信息最少的异构集合标签作为基准集合标签,将非最少的维度信息的异构集合标签作为对比集合标签;
将所述对比集合标签与所述基准集合标签比对得到差异的维度信息,根据所有差异的维度信息得到差异结构数据;
根据所述差异结构数据生成相应异构数据集合内多源异构数据的差异标签。
本发明实施例的第二方面,提供一种轻量级多源异构数据融合系统,包括:
分类模块,用于对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合;
确定模块,用于依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;
融合模块,用于基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;
生成模块,用于根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签;
存储模块,用于根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内。
本发明实施例的第三方面,提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
本发明提供的一种轻量级多源异构数据融合方法及系统,能够对电网中不同类型的数据源进行分类,得到相对应的主数据源和从数据源,并且按照数据主体的不同将数据源归类为多个集合,本发明会根据主数据集合、从数据集合的不同数据属性得到相对应的多源异构模板,基于多源异构模板实现轻量化的数据采集,进而得到每个数据主体的多源异构数据。为了提高确定每个数据主体所对应的多源异构数据的效率,本发明会生成相应的差异标签,使得在遍历得到相应多源异构数据时,本发明可以快速的在所有的多源异构数据中进行筛查,直接定位到存储有被调取的多源异构数据的数据结构存储单元,缩短了定位到所需要的多源异构数据的时间。
本发明提供的技术方案,会根据主数据源的主数据属性、从数据源的从数据属性对初始化数据模板进行处理得到相对应的多源异构模板,通过该多源异构模板可以采集多个数据源的异构数据,使得所有数据源的所有异构数据能够集成于一个多源异构模板处,进而使得本发明提供的技术方案在对每一个数据主体进行数据存储时都是整体存储的。并且,本发明可以对每个维度信息进行轻量化的转化处理,使得每个多源异构模板中不同的维度信息具有不同的维度字符,进而降低了多源异构模板的数据量,有效的对多源异构模板进行轻量化的处理,降低多源异构数据的存储空间。
本发明提供的技术方案,为了保障所有多源异构数据整体具有最小化的占用空间,本发明会将字符量较少的维度字符优先与热度较高的维度信息相对应,使得多源异构数据中较少字符量的维度字符的使用频率较高,降低整体的源异构数据的数据量。
附图说明
图1为本发明轻量级多源异构数据融合方法的第一种实施方式的流程图;
图2为本发明轻量级多源异构数据融合方法的第二种实施方式的流程图;
图3为本发明轻量级多源异构数据融合系统的第一种实施方式的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
本发明提供一种轻量级多源异构数据融合方法,如图1所示,包括:
步骤S110、对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合。本发明提供的技术方案,会将电网中的所有数据源进行分类得到主数据源和从数据源,一个数据源可能会对应多个数据主体,一个数据主体可能会对应多个数据源,本发明首先会将具有相同数据主体的从数据源归类为一个从数据集合。可以这样理解,所有的数据主体都会具有主数据源内的相应电力数据,不同的数据主体可能会具有不同的从数据源内的电力数据。
为了方便理解,以3个数据源进行举例,数据源1为管理源、数据源2为个人用户源、数据源3为企业用户源。以两个主体为例,分别包括个人主体和企业主体,个人主体所对应的多源异构数据会包括管理源和个人用户源的相关管理数据,企业主体所对应的多源异构数据会包括管理源和企业用户源的相关管理数据。本发明会将管理源作为主数据源,个人用户源和企业用户源作为从数据源。此时一个从数据集合可能会具有一个相应的从数据源,在实际的场景中,一个从数据集合可能会对应多个相应的从数据源,例如还包括数据源4为营销源,该营销源用于采集、收集个人用户和/或企业用户相对应的营销的电力数据。
本发明提供的技术方案,在一个可能的实施方式中,如图2所示,步骤S110具体包括:
步骤S1101、根据用户主动配置的主数据标签将第一数据接口所对应的数据源作为主数据源。确定主数据源时,本发明可以根据用户主动配置的主数据标签将第一数据接口所对应的数据源作为主数据源,第一数据接口可以是多个,例如第一数据接口可以是与电网中管理维护系统所连接的接口,此时管理维护系统所连接的接口即为第一数据接口,即将电网中管理维护系统作为主数据源。
步骤S1102、对没有配置主数据标签的其他第二数据接口配置从数据标签,将第二数据接口所对应的数据源作为从数据源,获取每个主数据源和从数据源分别所对应的数据主体。用户在对需要主动配置的主数据标签的第一数据接口配置完成后,默认为所有没主动配置的主数据标签的第二数据接口作为从数据源,例如个人用户源、企业用户源等等。一般来说,每个数据源内都会具有相应的数据主体,不同类型的数据主体可能会包括想用的数据类型和不同的数据类型,以两个数据主体为例,第1个数据主体为个人A,第2个数据主体为企业B,此时个人A所对应的数据源包括管理源和个人用户源,企业B所对应的数据源包括管理源和企业用户源,即此时管理源、个人用户源以及企业用户源分别对应不同的数据主体。
本发明提供的技术方案,在一个可能的实施方式中,步骤S1102具体包括:
获取每一个主数据源所对应的第一数据采集设备和/或第一输入设备,将所述第一数据采集设备和/或第一输入设备所采集的目标主体作为主数据源的数据主体。一般来说,主数据源都会具有相对应的第一数据采集设备和/或第一输入设备,第一数据采集设备可以是电压互感器、电流互感器等等,第一输入设备可以是电脑、平板等具有输入功能的智能终端,一般来说,一个第一数据采集设备和/或第一输入设备会针对某一个目标进行相应数据的采、输入,例如个人A需要进行电力设备维护,则此时可以通过第一输入设备输入进行维护的电力数据,此时被输入的个人A即可以理解为是第一输入设备所采集的目标主体,此时该进行维护的电力数据的数据主体即为个人A。
获取每二个主数据源所对应的第二数据采集设备和/或第二输入设备,将所述第二数据采集设备和/或第二输入设备所采集的目标主体作为从数据源的数据主体。一般来说,从数据源都会具有相对应的第二数据采集设备和/或第二输入设备,第二数据采集设备可以是电能监测设备(例如电表)等等,第一输入设备可以是电脑、平板等具有输入功能的智能终端,一般来说,一个第二数据采集设备和/或第二输入设备会针对某一个目标进行相应数据的采、输入,例如个人A需要进行电能的监测,则此时可以通过第二采集设备(电能监测设备)对个人A出的用电行为进行监测,此时被检测的个人A即可以理解为是第二采集设备所采集的目标主体,此时的数据主体即为个人A。
通过以上方式,可以确定每个数据源所对应的所有数据主体。
步骤S1103、依次遍历每一个从数据源的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合。本发明会根据数据主体的不同对所有的从数据源进行归类得到相对应的从数据集合,一个从数据集合内至少具有一个相对应的从数据源。
步骤S120、依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板。本发明提供的技术方案,在确定每个从数据源、主数据源所对应的数据主体后,首先会获取每一个主数据源的数据主体,然后确定每一个数据主体所对应的从数据集合,可以这样理解,所有数据主体都会分别与主数据源相对应,但是所有的数据主体并不会与所有的从数据源相对应,所以此时本发明需要以主数据源的数据主体为基础,确定数据主体在主数据源的主数据属性、从数据集合中的至少一个从数据属性,根据主数据属性、从数据属性生成每个数据主体相对应的多源异构模板,此时的多源异构模板会根据每个数据主体所对应的从数据集合的不同具有不同的形式。
本发明提供的技术方案,在一个可能的实施方式中,步骤S120具体包括:
获取初始化数据模板,所述初始化数据模板包括主体槽位、主数据槽位以及从数据槽位。本发明会为每个数据主体预先配置初始化数据模板,初始化数据模板中会至少具有主体槽位、主数据槽位以及从数据槽位。
获取每一个主数据源的数据主体,将所述数据主体填充至所述主体槽位处,对所述主数据槽位的数量进行调整得到与所述主数据源的数量相对应的主数据槽位。本发明会首先获取得到每一个主数据源的数据主体,一般来说,所有的主数据源内的数据主体都是相同的,所以只需要获取一个主数据源的数据主体即能够得到所有主数据源的数据主体,本发明会将每一个初始化数据模板内填充一个数据主体,使得每个多源异构模板对应不同的数据主体。一般来说,主数据源越多,则主数据源所对应的维度信息就越多。所以此时需要对主数据槽位的数量进行调整,得到与主数据源的数量相对应的主数据槽位,使得主数据槽位是根据数据主体的不同、主数据源的数量的不同动态变化的。
对所述从数据槽位的数量进行调整得到与所述从数据源的数量相对应的从数据槽位。本发明会对从数据槽位的数量进行调整得到与所述从数据源的数量相对应的从数据槽位,例如从数据源的数量为5,则此时所对应的从数据槽位可能即为5。
基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板。本发明会根据主数据源的主数据属性、从数据源的从数据属性在主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,主数据属性例如是电力维修,从数据源的从数据属性例如是电流监测、电压监测等等。本发明会根据主数据属性、从数据属性的不同在主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,此时每个数据主体都会具有与其相对应的多源异构模板。个人用户A和企业用户B所对应的多源异构模板即为不同的模板,并且通过每个多源异构模板能够对每个数据主体进行多源、异构数据的采集及融合。
主数据槽位和从数据槽位可以看作是一个较大面积的区域,主数据槽位和从数据槽位可以进行进一步的划分处理。
本发明提供的技术方案,在一个可能的实施方式中,所述基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板具体包括:
基于所述主数据源的主数据属性在所述主数据槽位处建立至少一个维度的主数据采集栏目,所述主数据采集栏目包括主数据采集单元格。本发明会根据主数据属性对主数据槽位进行调整,建立相对应的主数据采集栏目,主数据采集栏目或具有相对应的主数据采集单元格,通过主数据采集单元格可以填充主数据源内相对应的电力数据。
基于所述从数据源的从数据属性在所述从数据槽位处建立至少一个维度的从数据采集栏目,所述从数据采集栏目包括从数据采集单元格。本发明会根据从数据属性对从数据槽位进行调整,建立相对应的从数据采集栏目,从数据采集栏目或具有相对应的从数据采集单元格,通过从数据采集单元格可以填充从数据源内相对应的电力数据。
在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板。此时完成多源异构模板的建立,可以基于该多源异构模板在主数据源、从数据源内进行电力数据的采集。
本发明提供的技术方案,在一个可能的实施方式中,所述在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板具体包括:
获取所述主数据采集单元格和/或从数据采集单元格分别所对应的维度信息。一般来说,不同的主数据采集单元格和/或从数据采集单元格用于填充不同维度的电力数据,所以本发明中不同的主数据采集单元格和/或从数据采集单元格会分别具有不同的维度信息,维度信息例如是电压检测数据、电流监测数据等等。
基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符。由于在电网中,会具有大量的数据主体,所以本发明需要对多源异构模板中的所有维度信息进行轻量转化处理,使所生成的多源异构模板的字符量较少、占用空间较少。维度字符例如1、2、3、a、b等等,本发明可以将电压检测数据、电流监测数据等转化为轻量化的维度字符1、2、3、a、b,使得多源异构模板内的字节量减少。
将所述维度字符对初始化数据模板中相对应的维度信息进行替换,生成相对应的多源异构模板。本发明会将维度字符对初始化数据模板中相对应的维度信息进行替换,得到最终的多源异构模板,此时的多源异构模板的维度信息处或具有1、2、3、10、11、a、b等维度字符。
本发明提供的技术方案,在一个可能的实施方式中,所述基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符具体包括:
获取所有轻量转化表内的所有维度字符,按照所述维度字符长度对所有的维度字符进行升序排序得到字符排序表。一般来说,轻量转化表内的所有维度字符都是工作人员预先配置的,维度字符长度也会有所不同,维度字符11所对应的维度字符长度会大于维度字符1所对应的维度字符长度。所以为了使频率较高的维度信息对应较短的维度字符,本发明会按照所述维度字符长度对所有的维度字符进行升序排序得到字符排序表,此时字符排序表中具有较小字符长度的维度字符排在字符排序表的前部。
获取所有的主数据采集单元格内的维度信息的第一数量,选取字符排序表中前部与所述第一数量相对应的维度字符作为第一子字符表。由于主数据采集单元格是与主数据源相对应的,所以所有的主数据采集单元格内的维度信息所出现的频率都是最高的、相同的,所以此时本发明会首先挑选字符排序表中前部与所述第一数量相对应的维度字符作为第一子字符表,将第一子字符表中的每个维度字符分别与相对应的维度信息相对应。
将字符排序表中与所述第一子字符表相对应的维度字符删除,得到第一更新子排序表。在确定与主数据源所对应的第一子字符表后,本发明会将字符排序表中与第一子字符表相对应的维度字符删除,此时得到第一更新子排序表。
获取所有的从数据采集单元格内的维度信息的第二数量,选取第一更新子排序表的前部与所述第二数量相对应的维度字符作为第二子字符表。本发明会得到从数据采集单元格内的维度信息的第二数量,并且将第一更新子排序表的前部与第二数量相对应的维度字符作为第二子字符表,此时即选择了第一更新子排序表中字符数量较低的维度字符与从数据采集单元格内的维度信息相对应。
基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符。本发明会根据第一子字符表确定与主数据采集单元格的维度信息相对应的维度字符,并且根据第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符,使得主数据采集单元格和从数据采集单元格内的维度信息分别具有相对应的维度字符。
本发明提供的技术方案,在一个可能的实施方式中,所述基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符具体包括:
获取所有主数据源中每个主数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有主数据采集单元格的维度信息进行降序排序得到第一子维度表;
若判断所有维度信息的采集频率均相同,则对所有主数据采集单元格的维度信息进行随机排序得到第一子维度表。一般来说,主数据源内每个维度信息的采集频率是相同的。
获取所有从数据源中每个从数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有从数据采集单元格的维度信息进行降序排序得到第二子维度表。在实际的场景中,不同的从数据源内的数据主体的数量是不同的,所以一般的场景下,不同的从数据源内的维度信息会具有不同的采集频率,此时本发明会根据维度信息的采集频率对所有从数据采集单元格的维度信息进行降序排序得到第二子维度表。
选取第一子维度表和第一子字符表中相同顺序号的维度信息和字符信息对应处理,选取第二子维度表和第二子字符表中相同顺序号的维度信息和字符信息对应处理。此时维度信息和字符信息都是按照顺序相对应的,即具有较高频率的维度信息会对应较少的字符,使得所有的维度信息在与维度字符相对应后,整体的维度信息所形成的多源异构模板的数据量是最小的。
本发明提供的技术方案,在一个可能的实施方式中,还包括:
将第一更新子排序表中与所述第二子字符表相对应的维度字符删除得到剩余字符排序表。此时的剩余字符排序表中的所有维度字符是没有被选中过的维度字符,并且字符长度较短的维度字符会排在剩余字符排序表的前部。
若判断新建主数据采集单元格和/或从数据采集单元中的任意一个或多个,则提取新建的主数据采集单元格和/或从数据采集单元的新建维度信息。如果新建主数据采集单元格和/或从数据采集单元,则证明此时会具有新的维度信息,所以此时需要提取、确定新建维度信息。
按照剩余字符排序表中的字符顺序选取维度字符与所述新建维度信息相对应设置。本发明会按照剩余字符排序表中的字符顺序确定与新建维度信息对应的维度字符,使得每次所选取的维度字符的长度都是较少的。
步骤S130、基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据。本发明会根据多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,根据每个数据主体所对应的多源异构模板得到相对应的多源异构数据。
本发明提供的技术方案,在一个可能的实施方式中,步骤S130具体包括:
确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息,所述电力标量值和/或电力备注信息属于所述主电力数据和/或从电力数据。电力标量值可以是一个数值,例如某一个电力设别的维修次数即1次、2次,个人用户的监测电压110V、220V等等。电力备注信息可以是用于进行电力备注的信息,例如某个设备出现故障的位置、原因等等。
若判断每一个多源异构模板的所有主数据采集单元格和/或从数据采集单元格内分别填充有相对应的电力标量值和/或电力备注信息后,则判断得到相对应数据主体的多源异构数据。此时即判断相应的数据主体完成多源、异构的数据的采集。
本发明提供的技术方案,在一个可能的实施方式中,所述确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息具体包括:
获取多源异构模板中每个主数据采集单元格和/或从数据采集单元格所对应的维度字符。本发明会首先得到主数据采集单元格和/或从数据采集单元格所对应的维度字符,根据轻量转化表对维度字符进行对应解析得到相对应的维度信息。
确定与所述主数据采集单元格和/或从数据采集单元格相对应的主数据源和/或从数据源,根据所述维度字符采集相应主数据源和/或从数据源内的电力标量值和/或电力备注信息。本发明会根据维度信息得到主数据采集单元格和/或从数据采集单元格相对应的主数据源和/或从数据源,进而相应信息的采集,得到电力标量值和/或电力备注信息。
步骤S140、根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签。本发明提供的技术方案,会对多源异构数据进行分类,确定不同的多源异构数据中的差异结构数据,进而使得每个多源异构数据与其他类型的多源异构数据的差异得到相对应的维度画像,此时维度画像即可以理解为是相对应的差异标签。
本发明提供的技术方案,在一个可能的实施方式中,步骤S140具体包括:
根据每个多源异构数据的数据结构对所有的多源异构数据进行分类得到多个异构数据集合,每个异构数据集合分别具有与其相对应的异构集合标签,每个异构集合标签包括相应异构数据集合中每个多源异构数据所对应的所有维度信息。本发明会根据多源异构数据的数据结构对所有的多源异构数据进行分类得到多个异构数据集合,可以这样理解,不同类型的多源异构数据可能会对应不同的从数据源,所以此时本发明可以根据对应从数据源的不同将多源异构数据进行分类得到多个异构数据集合,此时每个异构数据集合分别具有与其相对应的异构集合标签。异构集合标签可以看作是某一个多源异构数据与其他多源异构数据中所有不同的维度信息所生成的异构集合标签。
确定维度信息最少的异构集合标签作为基准集合标签,将非最少的维度信息的异构集合标签作为对比集合标签。本发明会将维度信息最少的异构集合标签作为基准集合标签,该基准集合标签所对应的多源异构数据可以理解为是与其他所有的多源异构数据接近的,本发明会将非最少的维度信息的异构集合标签作为对比集合标签。
将所述对比集合标签与所述基准集合标签比对得到差异的维度信息,根据所有差异的维度信息得到差异结构数据。本发明会将每一个对比集合标签与所述基准集合标签比对得到差异的维度信息,即此时每个对比集合标签都会具有相应的差异的维度信息,本发明会统计每个对比集合标签的所有差异的维度信息生成相对应的差异结构数据。例如对比集合标签中的维度信息包括维度X、维度Y和维度Z,此时基准集合标签包括维度X,则此时的差异的维度信息即包括维度Y和维度Z,差异结构数据即为由维度信息的维度Y和维度Z构成。
根据所述差异结构数据生成相应异构数据集合内多源异构数据的差异标签。本发明会得到相对应的差异标签,即差异结构数据的差异标签即可能包括维度Y和维度Z,此时在搜寻相应的数据主体的多源异构数据时,即可以根据维度Y和维度Z对多种类型的多源异构数据进行快速过滤筛选,提高多源异构数据的确定效率。
步骤S150、根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内。本发明会根据差异标签生成不同的数据结构存储单元,根据差异标签度多源异构数据进行存储,使得管理员在需要查询某一个数据主体的多源异构数据时,可以根据相应的差异标签直接在多个数据结构存储单元内确定一个或多个可能存储多源异构数据的单元,具有效率高的优势。
为了实现本发明提供的一种轻量级多源异构数据融合方法,本发明还提供一种轻量级多源异构数据融合系统,如图3所示,包括:
分类模块,用于对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合;
确定模块,用于依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;
融合模块,用于基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;
生成模块,用于根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签;
存储模块,用于根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内。
本发明还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在存储介质中。设备的至少一个处理器可以从存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.轻量级多源异构数据融合方法,其特征在于,包括:
对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合;
依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;
基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;
根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签;
根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内;
所述依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板,包括:
获取初始化数据模板,所述初始化数据模板包括主体槽位、主数据槽位以及从数据槽位;
获取每一个主数据源的数据主体,将所述数据主体填充至所述主体槽位处,对所述主数据槽位的数量进行调整得到与所述主数据源的数量相对应的主数据槽位;
对所述从数据槽位的数量进行调整得到与所述从数据源的数量相对应的从数据槽位;
基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板;
所述基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板,包括:
基于所述主数据源的主数据属性在所述主数据槽位处建立至少一个维度的主数据采集栏目,所述主数据采集栏目包括主数据采集单元格;
基于所述从数据源的从数据属性在所述从数据槽位处建立至少一个维度的从数据采集栏目,所述从数据采集栏目包括从数据采集单元格;
在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板;
所述在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板,包括:
获取所述主数据采集单元格和/或从数据采集单元格分别所对应的维度信息;
基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符;
将所述维度字符对初始化数据模板中相对应的维度信息进行替换,生成相对应的多源异构模板;
所述基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符,包括:
获取所有轻量转化表内的所有维度字符,按照所述维度字符长度对所有的维度字符进行升序排序得到字符排序表;
获取所有的主数据采集单元格内的维度信息的第一数量,选取字符排序表中前部与所述第一数量相对应的维度字符作为第一子字符表;
将字符排序表中与所述第一子字符表相对应的维度字符删除,得到第一更新子排序表;
获取所有的从数据采集单元格内的维度信息的第二数量,选取第一更新子排序表的前部与所述第二数量相对应的维度字符作为第二子字符表;
基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符;
所述基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据,包括:
确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息,所述电力标量值和/或电力备注信息属于所述主电力数据和/或从电力数据;
若判断每一个多源异构模板的所有主数据采集单元格和/或从数据采集单元格内分别填充有相对应的电力标量值和/或电力备注信息后,则判断得到相对应数据主体的多源异构数据。
2.根据权利要求1所述的轻量级多源异构数据融合方法,其特征在于,
所述对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合,包括:
根据用户主动配置的主数据标签将第一数据接口所对应的数据源作为主数据源;
对没有配置主数据标签的其他第二数据接口配置从数据标签,将第二数据接口所对应的数据源作为从数据源,获取每个主数据源和从数据源分别所对应的数据主体;
依次遍历每一个从数据源的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合。
3.根据权利要求2所述的轻量级多源异构数据融合方法,其特征在于,
所述对没有配置主数据标签的其他第二数据接口配置从数据标签,将第二数据接口所对应的数据源作为从数据源,获取每个主数据源和从数据源分别所对应的数据主体,包括:
获取每一个主数据源所对应的第一数据采集设备和/或第一输入设备,将所述第一数据采集设备和/或第一输入设备所采集的目标主体作为主数据源的数据主体;
获取每二个主数据源所对应的第二数据采集设备和/或第二输入设备,将所述第二数据采集设备和/或第二输入设备所采集的目标主体作为从数据源的数据主体。
4.根据权利要求1所述的轻量级多源异构数据融合方法,其特征在于,
所述基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符,包括:
获取所有主数据源中每个主数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有主数据采集单元格的维度信息进行降序排序得到第一子维度表;
获取所有从数据源中每个从数据采集单元格的维度信息所对应的采集频率,基于维度信息的采集频率对所有从数据采集单元格的维度信息进行降序排序得到第二子维度表;
选取第一子维度表和第一子字符表中相同顺序号的维度信息和字符信息对应处理,选取第二子维度表和第二子字符表中相同顺序号的维度信息和字符信息对应处理。
5.根据权利要求4所述的轻量级多源异构数据融合方法,其特征在于,还包括:
将第一更新子排序表中与所述第二子字符表相对应的维度字符删除得到剩余字符排序表;
若判断新建主数据采集单元格和/或从数据采集单元中的任意一个或多个,则提取新建的主数据采集单元格和/或从数据采集单元的新建维度信息;
按照剩余字符排序表中的字符顺序选取维度字符与所述新建维度信息相对应设置。
6.根据权利要求1所述的轻量级多源异构数据融合方法,其特征在于,
所述确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息,包括:
获取多源异构模板中每个主数据采集单元格和/或从数据采集单元格所对应的维度字符;
确定与所述主数据采集单元格和/或从数据采集单元格相对应的主数据源和/或从数据源,根据所述维度字符采集相应主数据源和/或从数据源内的电力标量值和/或电力备注信息。
7.根据权利要求6所述的轻量级多源异构数据融合方法,其特征在于,
所述根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签,包括:
根据每个多源异构数据的数据结构对所有的多源异构数据进行分类得到多个异构数据集合,每个异构数据集合分别具有与其相对应的异构集合标签,每个异构集合标签包括相应异构数据集合中每个多源异构数据所对应的所有维度信息;
确定维度信息最少的异构集合标签作为基准集合标签,将非最少的维度信息的异构集合标签作为对比集合标签;
将所述对比集合标签与所述基准集合标签进行比对得到差异的维度信息,根据所有差异的维度信息得到差异结构数据;
根据所述差异结构数据生成相应异构数据集合内多源异构数据的差异标签。
8.轻量级多源异构数据融合系统,其特征在于,包括:
分类模块,用于对电网中的所有数据源进行分类得到主数据源和从数据源,若判断从数据源为多个,则获取每个从数据源所对应的数据主体,将具有相同数据主体的从数据源归类为一个从数据集合;
确定模块,用于依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板;
融合模块,用于基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据;
生成模块,用于根据每个多源异构数据的数据结构对所有的多源异构数据进行分类,获取具有不同数据结构的多源异构数据中的差异结构数据,根据所述差异结构数据生成相应多源异构数据的差异标签;
存储模块,用于根据所述差异标签生成不同的数据结构存储单元,将多个数据主体的多源异构数据根据其数据结构存储至具有不同差异标签的数据结构存储单元内;
所述依次获取每一个主数据源的数据主体,确定与所述数据主体相对应的从数据集合,根据所述数据主体在主数据源的主数据属性、以及从数据集合中的至少一个从数据属性,生成相对应的多源异构模板,包括:
获取初始化数据模板,所述初始化数据模板包括主体槽位、主数据槽位以及从数据槽位;
获取每一个主数据源的数据主体,将所述数据主体填充至所述主体槽位处,对所述主数据槽位的数量进行调整得到与所述主数据源的数量相对应的主数据槽位;
对所述从数据槽位的数量进行调整得到与所述从数据源的数量相对应的从数据槽位;
基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板;
所述基于所述主数据源的主数据属性、从数据源的从数据属性,在所述主数据槽位以及从数据槽位处分别建立主数据采集单元格和从数据采集单元格,生成多源异构模板,包括:
基于所述主数据源的主数据属性在所述主数据槽位处建立至少一个维度的主数据采集栏目,所述主数据采集栏目包括主数据采集单元格;
基于所述从数据源的从数据属性在所述从数据槽位处建立至少一个维度的从数据采集栏目,所述从数据采集栏目包括从数据采集单元格;
在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板;
所述在每个数据主体所对应的初始化数据模板中分别建立与所有主数据源、从数据源对应的主数据采集单元格、从数据采集单元格后,对所述初始化数据模板轻量化处理,生成相对应的多源异构模板,包括:
获取所述主数据采集单元格和/或从数据采集单元格分别所对应的维度信息;
基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符;
将所述维度字符对初始化数据模板中相对应的维度信息进行替换,生成相对应的多源异构模板;
所述基于轻量转化表对所有的维度信息进行轻量转化处理,使得主数据采集单元格和/或从数据采集单元格的每个维度信息转化为唯一相对应的维度字符,包括:
获取所有轻量转化表内的所有维度字符,按照所述维度字符长度对所有的维度字符进行升序排序得到字符排序表;
获取所有的主数据采集单元格内的维度信息的第一数量,选取字符排序表中前部与所述第一数量相对应的维度字符作为第一子字符表;
将字符排序表中与所述第一子字符表相对应的维度字符删除,得到第一更新子排序表;
获取所有的从数据采集单元格内的维度信息的第二数量,选取第一更新子排序表的前部与所述第二数量相对应的维度字符作为第二子字符表;
基于所述第一子字符表确定与所述主数据采集单元格的维度信息相对应的维度字符,基于所述第二子字符表确定与所述从数据采集单元格的维度信息相对应的维度字符;
所述基于所述多源异构模板对主数据源和从数据源内相对应的主电力数据、从电力数据进行轻量化的采集融合,得到每个数据主体的多源异构数据,包括:
确定每一个多源异构模板所对应的数据主体,采集所述主数据源和/或从数据源内与所述数据主体的维度信息相对应的电力标量值和/或电力备注信息,所述电力标量值和/或电力备注信息属于所述主电力数据和/或从电力数据;
若判断每一个多源异构模板的所有主数据采集单元格和/或从数据采集单元格内分别填充有相对应的电力标量值和/或电力备注信息后,则判断得到相对应数据主体的多源异构数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210568465.1A CN114661810B (zh) | 2022-05-24 | 2022-05-24 | 轻量级多源异构数据融合方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210568465.1A CN114661810B (zh) | 2022-05-24 | 2022-05-24 | 轻量级多源异构数据融合方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114661810A CN114661810A (zh) | 2022-06-24 |
CN114661810B true CN114661810B (zh) | 2022-08-16 |
Family
ID=82037330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210568465.1A Active CN114661810B (zh) | 2022-05-24 | 2022-05-24 | 轻量级多源异构数据融合方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661810B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115145991B (zh) * | 2022-08-31 | 2022-11-15 | 南京三百云信息科技有限公司 | 适用于异构数据的数据处理方法及系统 |
CN115952471B (zh) * | 2023-03-13 | 2023-06-30 | 北京中兵数字科技集团有限公司 | 融合不同数据源的数据的方法、装置、计算设备和介质 |
CN116432297B (zh) * | 2023-06-12 | 2023-09-12 | 南京纵横时空智能科技有限公司 | 一种建筑智能化设施异构数据的采集方法 |
CN116662434B (zh) * | 2023-06-21 | 2023-10-13 | 河北维嘉信息科技有限公司 | 一种多源异构大数据处理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103810299B (zh) * | 2014-03-10 | 2017-02-15 | 西安电子科技大学 | 基于多特征融合的图像检索方法 |
CN105159951A (zh) * | 2015-08-17 | 2015-12-16 | 成都中科大旗软件有限公司 | 一种开放式的旅游多源异构数据融合方法及系统 |
CN107958086A (zh) * | 2017-12-18 | 2018-04-24 | 北京睿力科技有限公司 | 解决数据语义异构问题的多源异构数据库数据集成方法 |
CN109492059B (zh) * | 2019-01-03 | 2020-10-27 | 北京理工大学 | 一种多源异构数据融合与模型修正过程管控方法 |
CN110489395B (zh) * | 2019-07-27 | 2022-07-29 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 自动获取多源异构数据知识的方法 |
CN110602546A (zh) * | 2019-09-06 | 2019-12-20 | Oppo广东移动通信有限公司 | 视频生成方法、终端及计算机可读存储介质 |
CN111753024B (zh) * | 2020-06-24 | 2024-02-20 | 河北工程大学 | 一种面向公共安全领域的多源异构数据实体对齐方法 |
CN113434623B (zh) * | 2021-06-30 | 2022-02-15 | 广东省城乡规划设计研究院有限责任公司 | 一种基于多源异构空间规划数据的融合方法 |
CN113821702A (zh) * | 2021-11-24 | 2021-12-21 | 中国电子科技集团公司第二十八研究所 | 一种城市多维空间多元异构信息数据处理方法 |
CN114416836A (zh) * | 2021-12-22 | 2022-04-29 | 山东同圆数字科技有限公司 | 一种多源异构cim数据库融合访问系统及方法 |
CN114461603A (zh) * | 2021-12-30 | 2022-05-10 | 奇安信科技集团股份有限公司 | 多源异构数据融合方法及装置 |
-
2022
- 2022-05-24 CN CN202210568465.1A patent/CN114661810B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107193858A (zh) * | 2017-03-28 | 2017-09-22 | 福州金瑞迪软件技术有限公司 | 面向多源异构数据融合的智能服务应用平台和方法 |
CN111428048A (zh) * | 2020-03-20 | 2020-07-17 | 厦门渊亭信息科技有限公司 | 一种基于人工智能的跨领域知识图谱构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114661810A (zh) | 2022-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114661810B (zh) | 轻量级多源异构数据融合方法及系统 | |
CN105956015A (zh) | 一种基于大数据的服务平台整合方法 | |
CN109190051B (zh) | 一种用户行为分析方法和基于该分析方法的资源推荐方法 | |
CN114024829B (zh) | 电力通信网络的故障检修方法、装置、设备和存储介质 | |
CN105827603A (zh) | 未明协议特征库建立方法、未明报文分类方法及相关装置 | |
CN108228787B (zh) | 按照多级类目处理信息的方法和装置 | |
CN115795329B (zh) | 一种基于大数据网格下的用电异常行为分析方法和装置 | |
CN115576998A (zh) | 一种基于多维信息融合的配电网数据整合方法及系统 | |
CN115809229A (zh) | 一种基于多维数据属性的评估管理方法及系统 | |
Ding et al. | High accuracy real-time insulator string defect detection method based on improved yolov5 | |
CN110555138A (zh) | 一种云计算架构下的混合云存储方法 | |
CN111488464B (zh) | 实体属性处理方法、装置、设备及介质 | |
CN101495978A (zh) | 减少总线连接的消费者和产生者之间的消息流 | |
CN110287237B (zh) | 一种基于社会网络结构分析社团数据挖掘方法 | |
Mattas et al. | Agglomerative hierarchical clustering technique for partitioning patent dataset | |
CN114610758A (zh) | 基于数据仓库的数据处理方法、装置、可读介质及设备 | |
CN115292361A (zh) | 一种分布式能源异常数据的筛选方法及系统 | |
CN114064897A (zh) | 一种情感文本数据标注方法、装置、系统及电子设备 | |
CN113569067A (zh) | 标签分类方法、装置、电子设备及计算机可读存储介质 | |
CN111460046A (zh) | 一种基于大数据的科技信息聚类方法 | |
CN110321435A (zh) | 一种数据源划分方法、装置、设备和存储介质 | |
CN110895541A (zh) | 一种Timing云数据统计智能化平台 | |
CN111144687A (zh) | 一种新型电力大数据分析系统 | |
CN110765236A (zh) | 一种非结构化海量数据的预处理方法及系统 | |
CN114638550B (zh) | 一种储能电站配置方案的指标筛选方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |