CN109783490A - 数据融合方法、装置、计算机设备及存储介质 - Google Patents

数据融合方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109783490A
CN109783490A CN201811593391.7A CN201811593391A CN109783490A CN 109783490 A CN109783490 A CN 109783490A CN 201811593391 A CN201811593391 A CN 201811593391A CN 109783490 A CN109783490 A CN 109783490A
Authority
CN
China
Prior art keywords
information
data
word segment
source word
candidate data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811593391.7A
Other languages
English (en)
Other versions
CN109783490B (zh
Inventor
贾涛
林佳龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dt Dream Technology Co Ltd
Original Assignee
Hangzhou Dt Dream Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dt Dream Technology Co Ltd filed Critical Hangzhou Dt Dream Technology Co Ltd
Priority to CN201811593391.7A priority Critical patent/CN109783490B/zh
Publication of CN109783490A publication Critical patent/CN109783490A/zh
Application granted granted Critical
Publication of CN109783490B publication Critical patent/CN109783490B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种数据融合方法、装置、计算机设备及存储介质,属于计算机应用技术领域。其中,该方法包括:确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度;根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率;根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过这种数据融合方法,不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。

Description

数据融合方法、装置、计算机设备及存储介质
技术领域
本申请涉及计算机应用技术领域,尤其涉及一种数据融合方法、装置、计算机设备及存储介质。
背景技术
物联网、大数据技术的快速发展,扩大了数据的来源范围。万物互联将人们生活的方方面面都转换为数据,这些数据被采集以用于后续处理和利用。大数据技术为海量数据的处理提供了技术上的支持。通过大数据技术,海量的数据能够被识别、处理、整合和存储,为数据的利用提供了基础。
基于大数据技术,可以通过数据融合的方式将不同来源的数据进行整合以获得所需的数据,或者将利用多种方式采集的数据进行融合以提高数据的精确性。然而,相关技术中,对来自不同来源的已知数据进行融合后,会出现融合后的数据与预想的数据不一致的情况,数据融合的准确度较低。
发明内容
本申请提出的数据融合方法、装置、计算机设备及存储介质,用于解决相关技术中,对来自不同来源的已知数据进行融合后,所得到的数据与预想的数据不一致,准确度较低的问题。
本申请一方面实施例提出的数据融合方法,包括:确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;根据所述每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度;根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率;根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
本申请另一方面实施例提出的数据融合装置,包括:第一确定模块,用于确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;第二确定模块,用于根据所述每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度;第三确定模块,用于根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率;融合模块,用于根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
本申请再一方面实施例提出的计算机设备,其包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如前所述的数据融合方法。
本申请又一方面实施例提出的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如前所述的数据融合方法。
本申请再一方面实施例提出的计算机程序,该程序被处理器执行时,以实现本申请实施例所述的数据融合方法。
本申请实施例提供的数据融合方法、装置、计算机设备、计算机可读存储介质及计算机程序,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度,之后根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,进而根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过根据候选数据对应的源字段信息与目标字段信息的匹配度,确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种数据融合方法的流程示意图;
图2为本申请实施例所提供的另一种数据融合方法的流程示意图;
图3为本申请实施例所提供的一种数据融合装置的结构示意图;
图4为本申请实施例所提供的计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
本申请实施例针对相关技术中,对来自不同来源的已知数据进行融合后,所得到的数据与预想的数据不一致,准确度较低的问题,提出一种数据融合方法。
本申请实施例提供的数据融合方法,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度,之后根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,进而根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过根据候选数据对应的源字段信息与目标字段信息的匹配度,确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。
下面参考附图对本申请提供的数据融合方法、装置、计算机设备、存储介质及计算机程序进行详细描述。
图1为本申请实施例所提供的一种数据融合方法的流程示意图。
如图1所示,该数据融合方法,包括以下步骤:
步骤101,确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息。
需要说明的是,在本申请实施例中,可以根据需求,对已知的源数据库中的数据进行数据融合,以建立所需的新的数据库。
其中,目标数据,是指建立新数据库所需的数据;目标字段信息,是指用于解释目标数据的信息,比如,目标数据为姓名,则目标数据对应的目标字段信息可以是姓名、name等。候选数据,是指源数据库中包括的所有数据;源字段信息,是指用于解释候选数据的信息,比如,候选数据为“张三”,则其对应的源字段信息可以是“姓名”。
需要说明的是,实际使用时,本申请实施例的数据融合方法可以由本申请实施例的数据融合装置执行,本申请实施例提供的数据融合装置可以配置在任意计算机设备中。待获取的目标数据及其对应的目标字段信息,可以是用户通过计算机设备的输入装置提供给数据融合装置的,并且可以将源数据库中的数据导入计算机设备中,数据融合装置可以直接根据用户输入的信息和指令,确定目标数据对应的目标字段信息,以及每个源数据库中的候选数据对应的源字段信息。
举例来说,假设需要建立某市常驻人口的基本信息库,则可以根据需要确定各目标数据分别对应的目标字段信息,比如,各目标数据分别对应的目标字段信息可以是姓名、性别、年龄、居民身份证号码、职业、学历等;所使用的源数据库可以是该市的社保数据库、公安数据库、民政数据库等。
步骤102,根据每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度。
其中,源字段信息与目标字段信息的匹配度,是指源字段信息与目标字段信息之间的相似程度。源字段信息与目标字段信息的匹配度越大,则说明两者之间的相似程度越高;源字段信息与目标字段信息的匹配度越小,则说明两者之间的相似程度越低。在本申请实施例中,源字段信息与目标字段信息的匹配度可以是0-1之间的任一数值,匹配度为0时,源字段信息与目标字段信息之间的相似程度最低;匹配度为1时,源字段信息与目标字段信息之间的相似程度最高。
需要说明的是,在自然语言处理领域,为了使得机器可以理解人类的语言符号,可以将这些符号转换成数学向量的形式,以便于对语言符号进行处理和分析。通过词向量可以很好的度量词与词之间的相似程度。
在本申请实施例中,可以首先通过机器学习的方式,确定出源数据库中每个候选数据对应的源字段信息的词向量,以及目标字段信息的词向量,进而计算出每个候选数据对应的源字段信息的词向量与目标字段信息的词向量之间的余弦相似度,并将词向量之间的余弦相似度确定为每个候选数据对应的源字段信息与目标字段信息的匹配度。
进一步的,同一词汇在不同的应用场景,或在不同的行业中,其含义可能大相径庭,因此,在不同的行业中具有不同含义的词汇,可以采用不同的词向量表达其含义,以保证词汇匹配时的准确性。即在本申请实施例一种可能的实现形式中,上述步骤102之前,还可以包括:
对每个源数据库所属的行业词汇进行机器学习,以确定所述每个行业对应的向量词库,其中所述向量词库中包括源字段信息与第一词向量间的映射关系。
在本申请实施例一种可能的实现形式中,可以根据每个源数据库所属的行业,通过行业内容网站、书籍、文献、论文等渠道,分别采集各源数据库所属行业对应的行业词汇,并通过机器学习的方式,分别确定出各行业对应的行业词汇的词向量,以建立每个行业对应的向量词库。其中,向量词库中包含每个行业词汇与其对应的词向量的映射关系。
可以理解的是,由于各行业对应的词向量库中,包含了从各种渠道采集的大量行业词汇及其对应的词向量信息,因此,各源数据库所属的行业对应的向量词库,也分别包含了各源数据库中所有候选数据对应的源字段信息,以及源字段信息与其对应的第一词向量之间的映射关系。
进一步的,在根据每个源数据库所属的行业,确定出每个行业对应的向量词库之后,可以根据源数据库所属的行业确定出源数据库中源字段信息对应的词向量,以保证源字段信息与目标字段信息进行匹配时的准确性。即在本申请实施例一种可能的实现形式中,上述步骤102,可以包括:
根据每个源数据库所属的行业,确定每个源字段信息对应的第一词向量;
确定所述每个源字段信息对应的第一词向量与所述目标字段信息对应的第二词向量的匹配度。
可以理解的是,确定出每个源数据库所属的行业分别对应的向量词库之后,即可以根据每个源数据库所属的行业,分别确定出各源数据库对应的向量词库,进而根据各源数据库中的源字段信息,以及相应的向量词库中包含的源字段信息与第一词向量的映射关系,确定出各源数据库中每个源字段信息对应的第一词向量。
需要说明的是,目标字段信息对应的第二词向量也是通过机器学习的方式确定的。确定出各源数据库中每个候选数据对应的源字段信息对应的第一词向量,以及目标字段对应的第二词向量之后,即可以通过计算每个源字段信息对应的第一词向量与第二词向量之间的余弦相似度,确定每个候选数据对应的源字段信息与目标字段信息之间的匹配度。
步骤103,根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率。
需要说明的是,每个候选数据对应的源字段信息与目标字段信息的匹配度,反映了源字段信息与目标字段信息的相似程度。在本申请实施例中,候选数据为目标数据的概率,可以根据每个候选数据对应的源字段信息与目标字段信息的匹配度确定。具体的,若候选数据对应的源字段信息与目标字段信息的匹配度越大,即相似程度越高,则该候选数据为目标数据的概率就越大;若候选数据对应的源字段信息与目标字段信息的匹配度越小,即相似程度越低,则该候选数据为目标数据的概率就越小。在本申请实施例一种可能的实现形式中,由于源字段信息与目标字段信息的匹配度是处于0-1之间的数值,并且候选数据为目标数据的概率,与候选数据对应的源字段信息与目标字段信息的匹配度呈正相关,因此,可以将源字段信息与目标字段信息的匹配度,确定为源字段信息对应的候选数据为目标数据的概率。
步骤104,根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
在本申请实施例一种可能实现形式中,可以根据每个候选数据为目标数据的概率,判断各候选数据是否为目标数据,进而将每个源数据库中确定出的目标数据进行融合处理。
具体的,可以预设候选数据为目标数据的概率的第一阈值,若候选数据为目标数据的概率大于或等于第一阈值,则可以确定该候选数据为目标数据,可以将该候选数据进行融合处理;若候选数据为目标数据的概率小于第一阈值,则可以确定该候选数据不是目标数据,无需将该候选数据进行融合处理。
举例来说,预设的第一阈值为0.8,候选数据A为目标数据的概率为0.9,候选数据B为目标数据的概率为0.7,则可以确定候选数据A为目标数据,并将候选数据A进行融合处理;候选数据B不是目标数据,无需对候选数据B进行融合处理。
在本申请实施例另一种可能的实现形式中,还可以预设候选数据为目标数据的概率第二阈值,并且第二阈值小于第一阈值,以根据候选数据为目标数据的概率与第一阈值、第二阈值的关系,判断候选数据是否为疑似数据,并将疑似数据的候选数据推送给用户,由用户进一步判断该疑似数据是否为目标数据,并根据用户指令对疑似数据进行相应的处理。其中,当候选数据为目标数据的概率大于第二阈值且小于第一阈值时,候选数据为疑似数据。
举例来说,预设的第一阈值为0.8,第二阈值为0.6,候选数据C为目标数据的概率为0.65,则可以确定候选数据C为疑似数据,并将候选数据C推送给用户,由用户判断候选数据C是否为目标数据。具体的,若用户确定候选数据C为目标数据,则对候选数据C进行融合处理;若用户确定候选数据C不是目标数据,则不对候选数据C进行融合处理。
需要说明的是,上述举例仅为示例性的,不能视为对本申请的限制。实际使用时,可以根据实际需要预设第一阈值和第二阈值,本申请实施例对此不做限定。
本申请实施例提供的数据融合方法,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度,之后根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,进而根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过根据候选数据对应的源字段信息与目标字段信息的匹配度,确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。
在本申请一种可能的实现形式中,目标数据对应的目标字段信息以及候选数据对应的源字段信息,可以包括多个信息,以对目标数据及候选数据进行详细描述。因此,还可以根据源字段信息中每个信息与目标字段信息中相应的信息的匹配度,以及字段信息中各信息的权重,确定源字段信息与目标字段信息的匹配度。
下面结合图2,对本申请实施例提供的数据融合方法进行进一步说明。
图2为本申请实施例所提供的另一种数据融合方法的流程示意图。
如图2所示,该数据融合方法,包括以下步骤:
步骤201,确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息。
在本申请实施例一种可能的实现形式中,字段信息可以包括以下多项信息中的至少两种:字段名称、字段说明、备注、简拼、英文缩写。目标数据对应的目标字段信息所包括的信息以及各信息的具体内容,可以根据实际需要自行设定;候选数据对应的源字段信息是在获取到源数据库时就已经确定的。
比如,某目标数据对应的目标字段信息中包括“字段名称、简拼、英文缩写”,各信息对应的具体取值为“性别、xb、sx”;候选数据“张三”对应的源字段信息可以包括“字段名称、字段说明、简拼、英文缩写”,各信息对应的具体取值为“姓名、常用名、xm、name”。
步骤202,根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重。
需要说明的是,根据字段信息中的各项信息可以对该字段信息进行详细描述,但字段信息中的各项信息对该字段信息所起的描述作用可以是不同的,即字段信息中各项信息的重要性不同。在本申请实施例一种可能的实现形式中,源字段信息中重要性较小的信息,可以认为在确定源字段信息与目标字段信息的匹配度时,其所起的作用也较小,即可以将源字段信息中该项信息的权重确定为较小的值;而源字段信息中重要性较大的信息,可以认为在确定源字段信息与目标字段信息的匹配度时,其所起的作用也较大,即可以将源字段信息中该项信息的权重确定为较大的值。
可以理解的是,各候选数据对应的源字段信息的差异以及每项信息的取值差异,可以反映各项信息在其对应的源字段信息中的重要性,即可以根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重。
具体的,在本申请实施例一种可能的实现形式中,上述步骤202,可以包括:
若源数据库中的第一候选数据对应的源字段信息中包括第一项信息及第二项信息、且第二候选数据对应的源字段信息中包括第一项信息但未包括第二项信息,则确定所述第一项信息的权重值大于所述第二项信息的权重值;和/或,
若源数据库中的各个候选数据对应的源字段信息的第一项信息的取值相同的比例小于第二项信息取值相同的比例,则确定所述第一项信息的权重大于所述第二项信息的权重。
需要说明的是,在同一个源数据库中各候选数据对应的源字段信息中包括的各项信息的种类一般是相同的,而由于不同源数据库的用途不同,因此在不同的源数据库中的候选数据对应的源字段信息中包括的各项信息的种类可以是不同的。比如,在社保数据库中,各候选数据对应的源字段信息中包括的信息可以为“字段名称、字段说明、备注、简拼、英文缩写”,在公安数据库中,,各候选数据对应的源字段信息中包括的信息可以为“字段名称、字段说明、简拼”。
可以理解的是,若源数据库中的第一候选数据对应的源字段信息中包括第一项信息及第二项信息、且第二候选数据对应的源字段信息中包括第一项信息但未包括第二项信息,即第二项信息对于候选数据来说并不是必须的信息,重要性较低,则可以确定第一项信息的权重大于第二项信息。
在本申请实施例一种可能的实现形式中,还可以根据各项信息在候选数据对应的源字段信息中出现的频率,确定源字段信息中各项信息的权重。具体的,在候选数据对应的源字段信息中出现的频率越高的信息,其对应的权重越大;反之,对应的权重越小。
需要说明的是,候选数据对应的源字段信息中各项信息的取值,也能反映出各项信息对应源字段信息的重要性,即还可以根据源字段信息中各项信息的取值,确定各项信息的权重。具体的,若源数据库中的各个候选数据对应的源字段信息的第一项信息的取值相同的比例小于第二项信息取值相同的比例,则确定第一项信息的权重大于第二项信息的权重。
可以理解的是,若各候选数据对应的源字段信息的第一项信息的取值相同的比例第二项信息取值相同的比例,即第一项信息在不同候选数据对应的源字段信息中的取值大多不同,第二项信息在不同候选数据对应的源字段信息中的取值大多相同,比如,第二项信息在个候选数据中对应的源字段信息中的取值大多为空,则可以确定第二项信息对与源字段信息来说并不是必须的信息,即可以确定第一项信息的权重大于第二项信息的权重。
举例来说,假设有100条候选数据,其对应的源字段信息为“字段名称、备注”,其中,字段名称的取值在100条数据中各不相同,备注的取值98条为“NULL”,那么可以确定备注信息对应源字段信息的重要性较低,即可以将字段名称的权重确定为较大的值,而将备注的权重确定为较小的值。
步骤203,确定所述每个源字段信息与所述目标字段信息中每项信息间的匹配度。
步骤204,根据所述每项信息间的匹配度及所述每项信息的权重,确定所述每个源字段信息与所述目标字段信息的匹配度。
需要说明的是,在候选数据对应的源字段信息以及目标数据对应的目标字段信息中包括多个信息时,可以分别计算出各候选数据的源字段信息中各项信息取值的词向量,以及目标字段信息中各项信息取值的词向量,进而计算源字段信息中各项信息取值的词向量,与目标字段信息中对应项信息取值的词向量之间的余弦相似度,即匹配度,并根据每项信息对应的权重对确定出的匹配度进行加权,进而将加权之后的各项信息之间的匹配度相加,即可得到每个源字段信息与目标字段信息的匹配度。
举例来说,候选数据A对应的源字段信息中包括“字段名称、备注”,且字段名称的权重为0.9,备注对应的权重为0.1,目标字段信息中包括“字段名称、备注”,且源字段信息中字段名称的取值与目标字段信息中的字段名称的取值的匹配度为0.8,源字段信息中备注的取值与目标字段信息中的备注的取值的匹配度为0.7,则候选数据A对应的源字段信息与目标字段信息的匹配度为0.9×0.8+0.1×0.7=0.79。
步骤205,根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率。
步骤206,根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
上述步骤205-206的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
本申请实施例提供的数据融合方法,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重,之后根据确定的每个源字段信息与目标字段信息中每项信息间的匹配度及每项信息的权重,确定每个源字段信息与目标字段信息的匹配度,进而根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,并根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,在字段信息中包括多项信息时,通过根据候选数据对应的每个源字段信息与目标字段信息中每项信息间的匹配度及每项信息的权重,确定源字段信息与目标字段信息的匹配度,进而确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且进一步提高了数据融合的准确度。
为了实现上述实施例,本申请还提出一种数据融合装置。
图3为本申请实施例提供的一种数据融合装置的结构示意图。
如图3所示,该数据融合装置30,包括:
第一确定模块31,用于确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;
第二确定模块32,用于根据每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度;
第三确定模块33,用于根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率;
融合模块34,用于根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
在实际使用时,本申请实施例提供的数据融合装置,可以被配置在计算机设备中,以执行前述数据融合方法。
本申请实施例提供的数据融合装置,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度,之后根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,进而根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过根据候选数据对应的源字段信息与目标字段信息的匹配度,确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。
在本申请一种可能的实现形式中,上述第二确定模块32,具体用于:
根据每个源数据库所属的行业,确定每个源字段信息对应的第一词向量;
确定所述每个源字段信息对应的第一词向量与所述目标字段信息对应的第二词向量的匹配度。
相应的,上述数据融合装置30,还包括:
第四确定模块,用于对每个源数据库所属的行业词汇进行机器学习,以确定所述每个行业对应的向量词库,其中所述向量词库中包括源字段信息与第一词向量间的映射关系。
进一步的,上述字段信息中包括以下多项信息中的至少两种:字段名称、字段说明、备注、简拼、英文缩写。
进一步的,上述第二确定模块32,还用于:
根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重;
确定所述每个源字段信息与所述目标字段信息中每项信息间的匹配度;
根据所述每项信息间的匹配度及所述每项信息的权重,确定所述每个源字段信息与所述目标字段信息的匹配度。
进一步的,上述第二确定模块32,还用于:
若源数据库中的第一候选数据对应的源字段信息中包括第一项信息及第二项信息、且第二候选数据对应的源字段信息中包括第一项信息但未包括第二项信息,则确定所述第一项信息的权重值大于所述第二项信息的权重值;和/或,
若源数据库中的各个候选数据对应的源字段信息的第一项信息的取值相同的比例小于第二项信息取值相同的比例,则确定所述第一项信息的权重大于所述第二项信息的权重。
本申请实施例提供的数据融合装置,可以确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重,之后根据确定的每个源字段信息与目标字段信息中每项信息间的匹配度及每项信息的权重,确定每个源字段信息与目标字段信息的匹配度,进而根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,并根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,在字段信息中包括多项信息时,通过根据候选数据对应的每个源字段信息与目标字段信息中每项信息间的匹配度及每项信息的权重,确定源字段信息与目标字段信息的匹配度,进而确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且进一步提高了数据融合的准确度。
为了实现上述实施例,本申请还提出一种计算机设备。
图4为本发明一个实施例的计算机设备的结构示意图。
如图4所示,上述计算机设备200包括:
存储器210及处理器220,连接不同组件(包括存储器210和处理器220)的总线230,存储器210存储有计算机程序,当处理器220执行所述程序时实现本申请实施例所述的数据融合方法。
总线230表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器210还可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统260可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块270的程序/实用工具280,可以存储在例如存储器210中,这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信,还可与一个或者多个使得用户能与该计算机设备200交互的设备通信,和/或与使得该计算机设备200能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且,计算机设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器293通过总线230与计算机设备200的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器220通过运行存储在存储器210中的程序,从而执行各种功能应用以及数据处理。
需要说明的是,本实施例的计算机设备的实施过程和技术原理参见前述对本申请实施例的数据融合方法的解释说明,此处不再赘述。
本申请实施例提供的计算机设备,可以执行如前所述的数据融合方法,确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息,并根据每个源数据库所属的行业,确定每个候选数据对应的源字段信息与目标字段信息的匹配度,之后根据每个候选数据对应的源字段信息与目标字段信息的匹配度,确定每个候选数据为目标数据的概率,进而根据每个候选数据为目标数据的概率,将每个源数据库中的目标数据进行融合处理。由此,通过根据候选数据对应的源字段信息与目标字段信息的匹配度,确定每个源数据库中的目标数据并进行融合处理,从而不仅实现了将不同来源的数据进行融合,以生成所需的数据,而且提高了数据融合的准确度。
为了实现上述实施例,本申请还提出一种计算机可读存储介质。
其中,该计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,以实现本申请实施例所述的数据融合方法。
为了实现上述实施例,本申请再一方面实施例提供一种计算机程序,该程序被处理器执行时,以实现本申请实施例所述的数据融合方法。
一种可选实现形式中,本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务器上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据融合方法,其特征在于,包括:
确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;
根据所述每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度;
根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率;
根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
2.如权利要求1所述的方法,其特征在于,所述确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,包括:
根据每个源数据库所属的行业,确定每个源字段信息对应的第一词向量;
确定所述每个源字段信息对应的第一词向量与所述目标字段信息对应的第二词向量的匹配度。
3.如权利要求2所述的方法,其特征在于,所述根据每个源数据库所属的行业,确定每个源字段信息对应的第一词向量之前,还包括:
对每个源数据库所属的行业词汇进行机器学习,以确定所述每个行业对应的向量词库,其中所述向量词库中包括源字段信息与第一词向量间的映射关系。
4.如权利要求1-3任一所述的方法,其特征在于,所述字段信息中包括以下多项信息中的至少两种:字段名称、字段说明、备注、简拼、英文缩写。
5.如权利要求4所述的方法,其特征在于,所述确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,包括:
根据各候选数据对应的源字段信息的差异和/或每项信息的取值差异,确定每个源字段信息中每项信息的权重;
确定所述每个源字段信息与所述目标字段信息中每项信息间的匹配度;
根据所述每项信息间的匹配度及所述每项信息的权重,确定所述每个源字段信息与所述目标字段信息的匹配度。
6.如权利要求5所述的方法,其特征在于,所述确定每个源字段信息中每项信息的权重,包括:
若源数据库中的第一候选数据对应的源字段信息中包括第一项信息及第二项信息、且第二候选数据对应的源字段信息中包括第一项信息但未包括第二项信息,则确定所述第一项信息的权重值大于所述第二项信息的权重值;和/或,
若源数据库中的各个候选数据对应的源字段信息的第一项信息的取值相同的比例小于第二项信息取值相同的比例,则确定所述第一项信息的权重大于所述第二项信息的权重。
7.一种数据融合装置,其特征在于,包括:
第一确定模块,用于确定待获取的目标数据对应的目标字段信息及每个源数据库中的每个候选数据对应的源字段信息;
第二确定模块,用于根据所述每个源数据库所属的行业,确定所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度;
第三确定模块,用于根据所述每个候选数据对应的源字段信息与所述目标字段信息的匹配度,确定所述每个候选数据为目标数据的概率;
融合模块,用于根据所述每个候选数据为目标数据的概率,将所述每个源数据库中的目标数据进行融合处理。
8.如权利要求7所述的装置,其特征在于,所述第二确定模块,包括:
第一确定单元,用于根据每个源数据库所属的行业,确定每个源字段信息对应的第一词向量;
第二确定单元,用于确定所述每个源字段信息对应的第一词向量与所述目标字段信息对应的第二词向量的匹配度。
9.一种计算机设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的数据融合方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的数据融合方法。
CN201811593391.7A 2018-12-25 2018-12-25 数据融合方法、装置、计算机设备及存储介质 Active CN109783490B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811593391.7A CN109783490B (zh) 2018-12-25 2018-12-25 数据融合方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811593391.7A CN109783490B (zh) 2018-12-25 2018-12-25 数据融合方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN109783490A true CN109783490A (zh) 2019-05-21
CN109783490B CN109783490B (zh) 2021-09-10

Family

ID=66497692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811593391.7A Active CN109783490B (zh) 2018-12-25 2018-12-25 数据融合方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109783490B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263314A (zh) * 2019-06-19 2019-09-20 北京明略软件系统有限公司 表格处理方法及装置、存储介质、电子装置
CN110442582A (zh) * 2019-08-09 2019-11-12 江苏满运软件科技有限公司 场景检测方法、装置、设备和介质
CN111258981A (zh) * 2020-01-13 2020-06-09 中国建设银行股份有限公司 一种数据处理方法、装置、设备和存储介质
CN112231524A (zh) * 2020-10-22 2021-01-15 北京天融信网络安全技术有限公司 一种数据融合方法、装置、存储介质及电子设备
CN112528315A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 识别敏感数据的方法和装置
CN112613764A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 数据处理方法、装置以及电子设备
CN112650799A (zh) * 2019-10-12 2021-04-13 中国石油化工股份有限公司 用于分析地震解释数据文本的方法和装置
CN112749311A (zh) * 2019-10-31 2021-05-04 西门子股份公司 资产信息管理方法、装置和计算机可读介质
CN113836897A (zh) * 2021-09-22 2021-12-24 北京计算机技术及应用研究所 一种多源异构数据字典对齐的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150451A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method and system for selective merging of patient data
CN101930464A (zh) * 2010-08-25 2010-12-29 华南理工大学 一种面向rfid物流应用的松散性异构数据交换系统及方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090150451A1 (en) * 2007-12-07 2009-06-11 Roche Diagnostics Operations, Inc. Method and system for selective merging of patient data
CN101930464A (zh) * 2010-08-25 2010-12-29 华南理工大学 一种面向rfid物流应用的松散性异构数据交换系统及方法
CN106933806A (zh) * 2017-03-15 2017-07-07 北京大数医达科技有限公司 医疗同义词的确定方法和装置
CN108664464A (zh) * 2017-03-27 2018-10-16 中国移动通信有限公司研究院 一种语义相关度的确定方法及确定装置
CN107122352A (zh) * 2017-05-18 2017-09-01 成都四方伟业软件股份有限公司 一种基于k‑means、word2vec的抽取关键词的方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263314A (zh) * 2019-06-19 2019-09-20 北京明略软件系统有限公司 表格处理方法及装置、存储介质、电子装置
CN110263314B (zh) * 2019-06-19 2023-07-11 北京明略软件系统有限公司 表格处理方法及装置、存储介质、电子装置
CN110442582A (zh) * 2019-08-09 2019-11-12 江苏满运软件科技有限公司 场景检测方法、装置、设备和介质
CN112528315A (zh) * 2019-09-19 2021-03-19 华为技术有限公司 识别敏感数据的方法和装置
CN112650799A (zh) * 2019-10-12 2021-04-13 中国石油化工股份有限公司 用于分析地震解释数据文本的方法和装置
CN112749311A (zh) * 2019-10-31 2021-05-04 西门子股份公司 资产信息管理方法、装置和计算机可读介质
CN111258981A (zh) * 2020-01-13 2020-06-09 中国建设银行股份有限公司 一种数据处理方法、装置、设备和存储介质
CN112231524A (zh) * 2020-10-22 2021-01-15 北京天融信网络安全技术有限公司 一种数据融合方法、装置、存储介质及电子设备
CN112613764A (zh) * 2020-12-25 2021-04-06 北京知因智慧科技有限公司 数据处理方法、装置以及电子设备
CN113836897A (zh) * 2021-09-22 2021-12-24 北京计算机技术及应用研究所 一种多源异构数据字典对齐的方法

Also Published As

Publication number Publication date
CN109783490B (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN109783490A (zh) 数据融合方法、装置、计算机设备及存储介质
US11455473B2 (en) Vector representation based on context
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
US10984316B2 (en) Context aware sensitive information detection
CN113887701B (zh) 生成用于神经网络输出层的输出的方法、系统和存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20210089936A1 (en) Opinion snippet detection for aspect-based sentiment analysis
US11308286B2 (en) Method and device for retelling text, server, and storage medium
US20180357216A1 (en) Domain concept discovery and clustering using word embedding in dialogue design
CN109325108A (zh) 查询处理方法、装置、服务器及存储介质
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
CN109599095A (zh) 一种语音数据的标注方法、装置、设备和计算机存储介质
US10572597B2 (en) Resolution of acronyms in question answering systems
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN108932323A (zh) 实体答案的确定方法、装置、服务器及存储介质
CN116681083A (zh) 文本数据涉敏检测方法、装置、设备及介质
CN111125550B (zh) 兴趣点分类方法、装置、设备及存储介质
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
CN111460117B (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
JP2023510241A (ja) 仮想エージェント対話システムの会話ログの検索方法、システム、プログラム
CN110929499A (zh) 文本相似度获取方法、装置、介质及电子设备
US20230186072A1 (en) Extracting explanations from attention-based models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant