CN111737246A - 一种数据融合方法、装置、电子设备及存储介质 - Google Patents
一种数据融合方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111737246A CN111737246A CN202010615760.9A CN202010615760A CN111737246A CN 111737246 A CN111737246 A CN 111737246A CN 202010615760 A CN202010615760 A CN 202010615760A CN 111737246 A CN111737246 A CN 111737246A
- Authority
- CN
- China
- Prior art keywords
- data
- quality
- original
- highest
- priority
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007500 overflow downdraw method Methods 0.000 title abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000001514 detection method Methods 0.000 claims description 68
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008713 feedback mechanism Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Telephone Function (AREA)
Abstract
本申请提供一种数据融合方法、装置、电子设备及存储介质,其中,方法包括:获取多个待融合的原始表;在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;将优先级最高的原始表中所述字段的数据融合到目标表中。本实施例提供的数据融合方法能够更加高效、方便地完成数据融合,且在融合过程中可根据多个原始表中存在冲突的相同字段的数据的数据质量灵活调整表的优先级及融合策略,保证融合后的目标表中的数据均是高质量的数据,从而优化融合后的数据质量,具有较好的融合效果。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据融合方法、装置、电子设备及存储介质。
背景技术
在知识图谱的构建过程中,需要将多数据源的原始数据进行融合,也就是需要将多个原始表的相同数据项的数据融合成一个目标表的唯一数据,融合前的表为原始表,融合后的表为目标表。多个原始表中可能会有相同的字段,但其字段中的数据并不相同,即信息存在冲突,现有的融合策略对于此类情况并未提出有效的解决方案,一般是按照新数据覆盖老数据的策略将这多个冲突的数据直接融合,这种融合策略很容易覆盖掉之前有效的融合结果,融合的结果并不合理,效果也不理想。
发明内容
本申请实施例的目的在于提供一种数据融合方法、装置、电子设备及存储介质,能够优化融合后的数据质量,提高融合效果。
第一方面,本申请实施例提供一种数据融合方法,包括:获取多个待融合的原始表;在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;将优先级最高的原始表中所述字段的数据融合到目标表中。
上述方案能够高效、方便地实现数据融合,且在融合过程中可根据多个原始表中存在冲突的相同字段的数据的数据质量灵活调整原始表的优先级及融合策略,保证融合后的目标表中的数据均是高质量的数据,优化融合后的数据质量。
在一种可能的实施方式中,所述根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级,包括:根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,将所述数据质量最高的数据对应的原始表作为目标原始表;将目标原始表的优先级设置为最高优先级。
在上述方案中,根据预设的质量检测规则来检测多个原始表中相同字段的数据的质量,在进行质量检测之后,基于原始表进行真实优先级的调整,将数据质量检测的反馈机制和原始表优先级的动态调整这两个策略结合起来,确保最终的目标表中的数据质量是最高的。于本方案中,多个原始表中优先级的顺序并不是静态的,而是在融合过程中进行动态调整,确保融合的数据质量。
在一种可能的实施方式中,所述质量检测规则中配置有至少一个质量检测指标以及所述质量检测指标对应的评分占比,所述根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,包括:根据所述质量检测指标和所述评分占比,分别计算所述至少两个原始表中所述相同字段的数据对应的质量评分;确定出质量评分最高的数据,作为数据质量最高的数据。
在一种可能的实施方式中,所述至少一个质量检测指标包括下列指标中的至少一个:数据的完整性、一致性、准确性、及时性。
质量检测规则中的每个质量检测指标的评分占比可以由用户预先定义,如果对于某项数据在某一维度上的质量特别看重,则可以将该维度的指标所对应的评分占比设置的比其他指标高一些,在设置评分占比时,可以考虑每个字段的核心质量指标以及核心质量指标所占的评分占比,根据各指标的评分占比的配比不同,来综合决定最终的质量检测的结果。
第二方面,本申请实施例提供一种数据融合装置,包括:获取模块,用于获取多个待融合的原始表;调整模块,用于在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;融合模块,用于将优先级最高的原始表中所述字段的数据融合到目标表中。
在一种可能的实施方式中,所述调整模块具体用于:根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,将所述数据质量最高的数据对应的原始表作为目标原始表;将目标原始表的优先级设置为最高优先级。
在一种可能的实施方式中,所述调整模块还具体用于:根据所述质量检测规则中配置的至少一个质量检测指标以及所述质量检测指标对应的评分占比,分别计算所述至少两个原始表中所述相同字段的数据对应的质量评分;确定出质量评分最高的数据,作为数据质量最高的数据。
在一种可能的实施方式中,所述至少一个质量检测指标包括下列指标中的至少一个:数据的完整性、一致性、准确性、及时性。
第三方面,本申请实施例提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面所述的方法。
第四方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据融合方法的流程图;
图2为本申请实施例提供的数据融合装置的示意图;
图3为本申请实施例提供的电子设备的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例考虑数据融合的合理性,提供一种数据融合方法,能够更加高效、方便地完成数据融合,且在融合过程中可灵活调整融合策略,保证融合后的目标表中的数据均是高质量的数据,优化融合后的数据质量。请参照图1,该数据融合方法包括如下步骤:
步骤110:获取多个待融合的原始表。
其中,每个原始表中携带有若干项数据,如张三的身份证号、手机号、家庭住址等。多个待融合的原始表可能来自不同的数据源,例如,对于原始表A、B、C,原始表A可能是源自公安的数据,原始表B和C可能是源自互联网的数据,例如各交易平台、社交平台等,表A、B、C中可能存在相同字段的数据,即都有张三的“手机号”,所以需要将表A、B、C中的三个手机号融合为目标表中的一个手机号。在获取原始表的过程中,同时还需生成目标表。首先需要确认要融合的目标表所使用的目标模型,目标模型可针对实际场景制定,模型中定义了目标表信息,如目标表中具体具有哪些字段,然后根据目标模型生成目标表。
步骤120:在该多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据相同字段的数据的数据质量确定原始表的优先级。
在获得多个待融合的原始表和目标表后,原始表A、B、C建立映射关系,如果针对同一个人,原始表中共有三个手机号码,通过一定的融合策略将该“手机号”字段的数据进行融合,融合后不是将三个手机号码保留,而是最终将一个最有质量保证的手机号码融合到目标表中。
在一个可能的实施例中,步骤120具有如下实现方式:在多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据预设的质量检测规则从该至少两个原始表中确定出数据质量最高的目标原始表,并将目标原始表的优先级设置为最高优先级。
在本实施例中,将数据的质量检测与优先级的动态调整机制相结合。具体的,预先配置有质量检测规则,当多个原始表中出现数据冲突时,依次取多个原始表中冲突的数据,对取出的多个冲突的数据进行质量检测,如果某个原始表中的数据质量最好,则将该原始表作为目标原始表,并将其优先级设置为最高的优先级。其中,将目标原始表的优先级设置为最高优先级包括两种情况,如果目标原始表当前的优先级已经是最高优先级,则不需要对优先级作出调整,按照当前优先级执行下一步数据融合操作即可,如果目标原始表当前的优先级并不是最高优先级,则将优先级调整到最高优先级。
目标原始表当前的优先级可以是初始优先级,也可以是在融合过程中基于初始优先级不断调整后的当前所处的优先级,因此在获得多个原始表后,可先确定每个原始表的初始优先级。即在步骤110之后,该方法还包括:针对多个待融合的原始表进行排序,根据排序结果确定每个原始表的初始优先级。
具体的,可根据每个原始表的数据源的有效性(或者说可靠性)对多个原始表进行排序,假设原始表A的数据来源为A1,原始表B的数据来源为B1,原始表C的数据来源为C1,数据来源A1、B1、C1的有效级别分别为第一有效级别、第二有效级别、第三有效级别,假设第一有效级别的有效性高于第三有效级别的有效性,第三有效级别的有效性高于第二有效级别的有效性,那么获得的排序结果为A、C、B,根据排序结果将原始表A、B、C的优先级划分为第一优先级、第二优先级和第三优先级,第一优先级表示最高优先级。例如,对于身份证号而言,来自公安表中的身份证信息比互联网上的身份证信息更加有效。
表的优先级表示在多个原始表中数据出现信息冲突时,优先将优先级最高的原始表中的数据融合到目标表中,对于除最高优先级外的其他优先级别的原始表中的冲突数据可以将其舍弃。
在确定每个原始表的初始优先级后,在多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,对多个原始表中该字段的数据进行质量检测,并根据数据质量动态调整表的优先级别,确保融合到目标表中的数据质量最优。
具体的,在上述质量检测规则中配置有至少一个质量检测指标以及与质量检测指标对应的评分占比,将每项质量检测指标分别与对应的评分占比相乘然后进行累加,可获得一个最终的质量评分。质量检测指标可以包括多个维度的质量指标,例如数据的完整性、一致性、准确性、及时性。
数据的完整性是指数据信息是否存在缺失的状况,不完整的数据其价值和质量将会大大降低,即便公安表中的身份证信息最为可靠,但是如果其身份证号存在信息缺失,其数据质量达不到预期的质量要求,那么在融合时可能需要考虑其他原始表中的身份证信息;数据的一致性是指数据是否遵循了统一的规范,是否保持了统一的格式,一项数据存在它特定的格式,例如手机号码一定是11位,且均是数字;数据的准确性是指数据记录的信息是否存在异常或错误,例如是否存在乱码等情况,在某些特定的情况下,例如性别、年龄、出生日期、籍贯等信息可以通过校验身份证号来检测其数据准确性(前提是确保身份证号码是正确的);数据的及时性表示数据从生成到录入数据库存在的时间间隔的长短,或者说是否是较新的数据,如果数据的生成时间较为久远,可能导致该数据已失效,则失去了融合的价值。在具体实施时,可以取上述指标中的一个或者多个。
在确定好要检测的质量检测指标和评分占比后,生成质量检测规则。在进行质量检测的过程中,根据质量检测规则中的质量检测指标和对应的评分占比,分别计算该至少两个原始表中相同的字段的数据对应的质量评分;根据获得的多个质量评分确定出质量评分最高的原始表,作为上述的目标原始表。
数据的质量评分通过计算每个质量检测指标的得分,将每个质量检测指标的得分按照给定的评分占比进行加权,从而得到质量评分,该质量评分能够合理反映数据的质量等级。当然,上述所示的数据质量检测方式仅是一种可能的实施方式,在实际应用中,也可以将多个质量检测指标的得分取平均值,将该平均值作为该数据对应的质量评分。
通过质量评分的规则体系,可以准确反映多个原始表中相同字段的数据间的质量高低,通过对质量评分进行比较,可以确定多个冲突的数据中,哪个数据的质量最高,并将质量最高的数据所对应的原始表作为目标原始表,并确定为最高优先级。
可选的,在质量检测规则中还可以配置基于业务的业务指标,业务指标同样可用于反映数据的质量,在计算质量评分时,基于业务指标和上述质量检测指标共同计算质量评分。上述质量检测指标是一种可通用于所有字段数据的检测指标,而业务指标可根据字段的业务属性进行针对性配置,例如,对于身份证和手机号码这两个字段,其质量可以根据不同的业务指标去检测。比如,张三的居住住址在北京,那么其常用手机号的归属地应当在北京的范围以内,这个归属地的范围其实就是一个业务指标的体现,又例如,根据张三的身份证号可以判断其性别、年龄、出生日期、籍贯等信息,这些信息可以转换为身份证号的业务属性,根据这些业务属性可检测身份证号的数据质量。
在探测数据质量时,一方面可基于质量检测指标检测数据的一致性、准确性、及时性等,例如手机号只有10位数字,那么其质量显然达不到要求,这条数据根本无法使用。另一方面,基于业务场景预配置一些业务质量规则,进行业务指标的自定义,与前述的质量检测指标共同进行质量判断。
质量检测规则中的每个质量检测指标和业务指标的评分占比可以由用户预先定义,如果对于某项数据在某一维度上的质量特别看重,则可以将该维度的指标所对应的评分占比设置的比其他指标高一些,在设置评分占比时,可以考虑每个字段的核心质量指标以及核心质量指标所占的评分占比,根据各指标的评分占比的配比不同,来综合决定最终的质量检测的结果。在实际实施时,可以针对一系列的字段配置相同的质量检测指标和与质量检测指标对应的评分占比,业务指标可针对一些特殊的字段进行单独配置,比如某些字段可以不需要业务指标。
进一步的,在确定每个原始表的优先级后,即在步骤120后,执行步骤130:将优先级最高的原始表中该相同字段的数据融合到目标表中。
在本实施例中,根据预设的质量检测规则来检测多个原始表中相同字段的数据的质量,在进行质量检测之后,基于原始表进行真实优先级的调整,将数据质量检测的反馈机制和原始表优先级的动态调整这两个策略结合起来,确保最终的目标表中的数据质量是最高的。当确定出哪个表的数据质量最好之后,调整该原始表当前的优先级,将其调整为真实优先级(即数据质量最好,则优先级最高),调整以后,按照真实优先级对数据进行融合处理。
在此举例说明,在选择出需要融合的原始表A、B、C后,根据数据来源的可靠性,假设将原始表A设置为最高优先级,但随着时间变化和数据版本的迭代,且每日都有新的增量数据,初始优先级并不一定能够表示真实的数据质量和数据有效性。因此,虽然此时已根据数据源确定各原始表的优先级,例如公安原始表的身份证信息确实要比互联网原始表的身份证信息更加可靠,但如果公安原始表中的身份证信息存在缺失、信息格式出错等问题,那么其他原始表中的身份证号反而比公安表中的身份证号要更加有效,而且,对于手机号码而言,互联网上的手机号也要比公安的手机号要更加准确,所以,在数据融合过程中,需要将更加可靠的原始表调整为最高优先级,并根据真实优先级进行数据融合。因此,于本实施例中,多个原始表中优先级的顺序并不是静态的,而应当在融合过程中根据数据质量进行动态调整,确保融合的数据质量。
综上所述,本实施例提供的数据融合方法可以快速不断迭代优化融合策略,并迅速执行数据融合,确保数据融合的最高数据质量。当遇到新的增量数据或新的融合需求时,按照上述方案进行循环操作。
基于同一发明构思,本申请实施例还提供一种数据融合装置,请参照图2,该装置包括:
获取模块210,用于获取多个待融合的原始表;
调整模块220,用于在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;
融合模块230,用于将优先级最高的原始表中所述字段的数据融合到目标表中。
在一种可能的实施方式中,所述调整模块220具体用于:根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,将所述数据质量最高的数据对应的原始表作为目标原始表;将目标原始表的优先级设置为最高优先级。
在一种可能的实施方式中,所述调整模块220还具体用于:根据所述质量检测规则中配置的至少一个质量检测指标以及所述质量检测指标对应的评分占比,分别计算所述至少两个原始表中所述相同字段的数据对应的质量评分;确定出质量评分最高的数据,作为数据质量最高的数据。
在一种可能的实施方式中,所述至少一个质量检测指标包括下列指标中的至少一个:数据的完整性、一致性、准确性、及时性。
所述质量检测规则中还可配置业务指标,质量检测规则中的每个质量检测指标和业务指标的评分占比可以由用户预先定义,根据各指标的评分占比的配比不同,来综合决定最终的质量检测的结果。
上述提供的数据融合装置能够实现前一方法实施例中的所有步骤,其与前一方法实施例的基本原理及产生的技术效果相同,为简要描述,本实施例部分未提及之处,可参考上述的方法实施例中的相应内容,在此不做赘述。
图3示出了本申请实施例提供的电子设备300的一种可能的结构。请参照图3,电子设备300包括:处理器310、存储器320以及通信接口330,这些组件通过通信总线340和/或其他形式的连接机构(未示出)互连并相互通讯。
其中,存储器320包括一个或多个(图中仅示出一个),其可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称EEPROM)等。处理器310以及其他可能的组件可对存储器320进行访问,读和/或写其中的数据。
处理器310包括一个或多个(图中仅示出一个),其可以是一种集成电路芯片,具有信号的处理能力。上述的处理器310可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、微控制单元(Micro Controller Unit,简称MCU)、网络处理器(Network Processor,简称NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuits,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通信接口330包括一个或多个(图中仅示出一个),可以用于和其他设备进行直接或间接地通信,以便进行数据的交互。通信接口330可以是以太网接口;可以是移动通信网络接口,例如3G、4G、5G网络的接口;还是可以是具有数据收发功能的其他类型的接口。
在存储器320中可以存储一个或多个计算机程序指令,处理器310可以读取并运行这些计算机程序指令,以实现本申请实施例提供的数据融合方法的步骤以及其他期望的功能。
可以理解,图3所示的结构仅为示意,电子设备300还可以包括比图3中所示更多或者更少的组件,或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。于本申请实施例中,电子设备300能够更加高效、方便地完成数据融合,且在融合过程中可根据多个原始表中存在冲突的相同字段的数据的数据质量灵活调整表的优先级及融合策略,保证融合后的目标表中的数据均是高质量的数据,从而优化融合后的数据质量,具有较好的融合效果。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令,该计算机程序指令被计算机的处理器读取并运行时,执行本申请实施例提供的数据融合方法的步骤。例如,计算机可读存储介质可以实现为图3中电子设备300中的存储器320。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种数据融合方法,其特征在于,包括:
获取多个待融合的原始表;
在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;
将优先级最高的原始表中所述字段的数据融合到目标表中。
2.根据权利要求1所述的方法,其特征在于,所述根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级,包括:
根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,将所述数据质量最高的数据对应的原始表作为目标原始表;
将目标原始表的优先级设置为最高优先级。
3.根据权利要求2所述的方法,其特征在于,所述质量检测规则中配置有至少一个质量检测指标以及所述质量检测指标对应的评分占比,所述根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,包括:
根据所述质量检测指标和所述评分占比,分别计算所述至少两个原始表中所述相同字段的数据对应的质量评分;
确定出质量评分最高的数据,作为数据质量最高的数据。
4.根据权利要求3所述的方法,其特征在于,所述至少一个质量检测指标包括下列指标中的至少一个:数据的完整性、一致性、准确性、及时性。
5.一种数据融合装置,其特征在于,包括:
获取模块,用于获取多个待融合的原始表;
调整模块,用于在所述多个待融合的原始表中有至少两个原始表存在相同字段的数据的情况下,根据所述相同字段的数据的数据质量确定所述至少两个原始表的优先级;
融合模块,用于将优先级最高的原始表中所述字段的数据融合到目标表中。
6.根据权利要求5所述的装置,其特征在于,所述调整模块具体用于:根据预设的质量检测规则,从所述相同字段的数据中确定出数据质量最高的数据,将所述数据质量最高的数据对应的原始表作为目标原始表;将目标原始表的优先级设置为最高优先级。
7.根据权利要求6所述的装置,其特征在于,所述调整模块还具体用于:根据所述质量检测规则中配置的至少一个质量检测指标以及所述质量检测指标对应的评分占比,分别计算所述至少两个原始表中所述相同字段的数据对应的质量评分;确定出质量评分最高的数据,作为数据质量最高的数据。
8.根据权利要求7所述的装置,其特征在于,所述至少一个质量检测指标包括下列指标中的至少一个:数据的完整性、一致性、准确性、及时性。
9.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1-4任一项所述的方法。
10.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当所述电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1-4任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615760.9A CN111737246A (zh) | 2020-06-29 | 2020-06-29 | 一种数据融合方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010615760.9A CN111737246A (zh) | 2020-06-29 | 2020-06-29 | 一种数据融合方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737246A true CN111737246A (zh) | 2020-10-02 |
Family
ID=72653792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010615760.9A Pending CN111737246A (zh) | 2020-06-29 | 2020-06-29 | 一种数据融合方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737246A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127467A (zh) * | 2021-04-20 | 2021-07-16 | 赛诺数据科技(南京)有限公司 | 基于自定义规则的etl任务失败平台处理方法及系统 |
CN114827209A (zh) * | 2022-05-07 | 2022-07-29 | 南京四维智联科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN116089907A (zh) * | 2023-04-13 | 2023-05-09 | 民航成都信息技术有限公司 | 航空多源数据的融合方法、装置、电子设备及存储介质 |
CN116894229A (zh) * | 2023-09-06 | 2023-10-17 | 北京华云安软件有限公司 | 一种同类多数据源融合方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212496A1 (en) * | 1999-11-15 | 2006-09-21 | William Romine | System and method for quiescing select data modification operations against an object of a database during one or more structural operations |
CN110276060A (zh) * | 2019-06-24 | 2019-09-24 | 北京明略软件系统有限公司 | 数据处理的方法以及装置 |
CN110413596A (zh) * | 2019-07-30 | 2019-11-05 | 北京明略软件系统有限公司 | 字段处理方法及装置、存储介质、电子装置 |
-
2020
- 2020-06-29 CN CN202010615760.9A patent/CN111737246A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060212496A1 (en) * | 1999-11-15 | 2006-09-21 | William Romine | System and method for quiescing select data modification operations against an object of a database during one or more structural operations |
CN110276060A (zh) * | 2019-06-24 | 2019-09-24 | 北京明略软件系统有限公司 | 数据处理的方法以及装置 |
CN110413596A (zh) * | 2019-07-30 | 2019-11-05 | 北京明略软件系统有限公司 | 字段处理方法及装置、存储介质、电子装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127467A (zh) * | 2021-04-20 | 2021-07-16 | 赛诺数据科技(南京)有限公司 | 基于自定义规则的etl任务失败平台处理方法及系统 |
CN114827209A (zh) * | 2022-05-07 | 2022-07-29 | 南京四维智联科技有限公司 | 一种数据采集方法、装置、电子设备及存储介质 |
CN116089907A (zh) * | 2023-04-13 | 2023-05-09 | 民航成都信息技术有限公司 | 航空多源数据的融合方法、装置、电子设备及存储介质 |
CN116894229A (zh) * | 2023-09-06 | 2023-10-17 | 北京华云安软件有限公司 | 一种同类多数据源融合方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111737246A (zh) | 一种数据融合方法、装置、电子设备及存储介质 | |
CN110597511B (zh) | 一种页面自动生成方法、系统、终端设备及存储介质 | |
CN109522746A (zh) | 一种数据处理方法、电子设备及计算机存储介质 | |
CN109617646B (zh) | 报文转换方法、装置、计算机设备及计算机可读存储介质 | |
CN110020086B (zh) | 一种用户画像查询方法及装置 | |
CN107545451B (zh) | 一种广告推送方法及装置 | |
CN107798579B (zh) | 一种协议文件的生成方法及其终端 | |
CN115145587A (zh) | 一种产品参数校验方法、装置、电子设备及存储介质 | |
CN110335061B (zh) | 交易模式画像建立方法、装置、介质及电子设备 | |
CN111475494A (zh) | 一种海量数据处理方法、系统、终端及存储介质 | |
CN114610372A (zh) | 评审文件的处理方法及装置、存储介质、处理器、终端 | |
CN112131851B (zh) | 一种目标电子病历模板生成方法及装置 | |
CN114219596A (zh) | 一种基于决策树模型的数据处理方法及相关设备 | |
CN109271564A (zh) | 保单查询方法及设备 | |
CN110287049B (zh) | 数据处理方法、装置和存储介质 | |
CN114579580A (zh) | 存储数据的方法、查询数据的方法和装置 | |
CN116107801A (zh) | 交易处理方法及相关产品 | |
CN111901299A (zh) | 申请认证方法、装置、电子设备和存储介质 | |
CN117290401B (zh) | 一种数据交易方法和系统 | |
CN115314382B (zh) | 配置信息处理方法 | |
CN110765118B (zh) | 一种数据的修订方法、修订装置及可读存储介质 | |
CN116027938B (zh) | 信息交互方法、装置、设备、介质及程序产品 | |
CN115174131B (zh) | 基于异常流量识别的信息拦截方法、系统及云平台 | |
CN109471870B (zh) | 资源数据读取的方法、装置、电子设备和计算机可读介质 | |
CN110728584B (zh) | 信息处理方法及装置、可读存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |