CN108572947B - 一种数据融合方法及装置 - Google Patents

一种数据融合方法及装置 Download PDF

Info

Publication number
CN108572947B
CN108572947B CN201710145976.1A CN201710145976A CN108572947B CN 108572947 B CN108572947 B CN 108572947B CN 201710145976 A CN201710145976 A CN 201710145976A CN 108572947 B CN108572947 B CN 108572947B
Authority
CN
China
Prior art keywords
data
attribute
value
similarity value
shared
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710145976.1A
Other languages
English (en)
Other versions
CN108572947A (zh
Inventor
甘骏
苏可
饶孟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710145976.1A priority Critical patent/CN108572947B/zh
Priority to PCT/CN2018/077184 priority patent/WO2018166343A1/zh
Publication of CN108572947A publication Critical patent/CN108572947A/zh
Application granted granted Critical
Publication of CN108572947B publication Critical patent/CN108572947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种数据融合方法及装置,所述方法包括:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。计算各个属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明在保证数据融合准确性的前提下,提高了数据融合率。

Description

一种数据融合方法及装置
技术领域
本发明涉及数据处理领域,具体涉及一种数据融合方法及装置。
背景技术
数据融合是对指向同一实体的数据进行合并去重,最终实现对指向不同实体的数据保留。例如,歌曲库中存储有源自qq音乐的歌曲《忘情水》,包含有若干属性,如歌手刘德华、曲长4分钟;另外,歌曲库中还存储有源自虾米音乐的歌曲《忘情水》,包含歌手刘德华,发行时间1994年等属性。由于两首歌曲实质上是同一首歌曲,为了避免出现歌曲查询错误,系统需要对两首歌曲进行融合,即融合成一首歌曲《忘情水》存储在歌曲库中,其中融合后的歌曲中包含上述两首歌曲的所有属性。
在数据融合的过程中,需要首先判断数据之间是否能够进行融合,通常是判断数据包含的特征是否能够融合。现有的处理方式是基于字符串对数据包含的特征进行比对判断,从而完成数据融合。但是,基于字符串对特征的严格匹配会造成数据的融合率较低。也就是说,这种方式会造成实际上能够进行融合的数据得不到融合。
发明内容
有鉴于此,本发明提供了一种数据融合方法及装置。
本发明提供了一种数据融合方法,所述方法包括:
提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
计算各个属性之间的语义相似度值;
确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;
如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
优选地,所述通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,包括:
从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;
根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
优选地,所述方法还包括:
在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:
将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:
从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
优选地,所述计算各个属性之间的语义相似度值之前,还包括:
提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
优选地,所述计算各个属性之间的语义相似度值,包括:
计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。
优选地,所述计算各个属性之间的语义相似度值之前,还包括:
通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
优选地,所述计算各个属性之间的语义相似度值,包括:
计算不属于同义词的属性之间的语义相似度值。
优选地,所述计算各个属性之间的语义相似度值,包括:
利用预设的词嵌入模型分别获取各个属性对应的语义向量;
计算各个属性对应的语义向量之间的语义相似度值。
本发明还提供了一种数据融合方法,所述方法包括:
提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
计算各个属性值之间的相似度值;
根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值;
如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
优选地,所述计算各个属性值之间的相似度值之前,还包括:
提取所述第一数据和所述第二数据中的属性;
计算各个属性之间的语义相似度值;
确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。
优选地,所述计算各个属性值之间的相似度值,包括:
计算同一对共有属性对应的属性值之间的语义相似度值。
优选地,所述根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:
根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
优选地,所述方法还包括:
在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:
将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
优选地,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:
从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
优选地,所述计算各个属性之间的语义相似度值之前,还包括:
获取相似度值大于预设第四阈值的属性值对应的属性。
优选地,所述计算各个属性之间的语义相似度值,包括:
计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。
优选地,所述计算各个属性之间的语义相似度值之前,还包括:
通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
优选地,所述计算各个属性之间的语义相似度值,包括:
计算不属于同义词的属性之间的语义相似度值。
优选地,所述计算各个属性之间的语义相似度值,包括:
利用预设的词嵌入模型分别获取各个属性对应的语义向量;
计算各个属性对应的语义向量之间的语义相似度值。
优选地,所述计算各个属性值之间的相似度值,包括:
计算各个属性值之间的字符串相似度值。
本发明还提供了一种数据融合装置,所述装置包括:
提取模块,用于提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
第一计算模块,用于计算各个属性之间的语义相似度值;
第一确定模块,用于确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
第二确定模块,用于通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;
融合模块,用于在所述第一数据和所述第二数据之间的相似度值大于预设第二阈值时,将所述第一数据和所述第二数据进行融合。
优选地,所述第二确定模块包括:
第一计算子模块,用于从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;
第一确定子模块,用于根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
优选地,所述装置还包括:
第二计算模块,用于在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
优选地,所述第一确定子模块包括:
累加子模块,用于将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
优选地,所述装置还包括:
筛除模块,用于从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
优选地,所述装置还包括:
获取模块,用于提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
优选地,所述第一计算模块包括:
第二计算子模块,用于计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。
优选地,所述装置还包括:
第三确定模块,用于通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
优选地,所述第一计算模块包括:
第三计算子模块,用于计算不属于同义词的属性之间的语义相似度值。
优选地,所述第一计算模块包括:
获取子模块,用于利用预设的词嵌入模型分别获取各个属性对应的语义向量;
第四计算子模块,用于计算各个属性对应的语义向量之间的语义相似度值。
本发明提供的数据融合方法中,首先,提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。其次,计算各个属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。最后,通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明基于语义相似度值确定第一数据和第二数据的共有属性,进而比较共有属性对应的属性值之间的相似度,最终确定第一数据和第二数据之间的相似度值。与现有技术相比,本发明在保证数据融合准确性的前提下,提高了数据融合率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据融合方法流程图;
图2为本发明实施例提供的另一种数据融合方法流程图;
图3为本发明实施例提供的另一种数据融合方法流程图;
图4为本发明实施例提供的一种数据融合装置的结构示意图;
图5为本发明实施例提供的一种计算机的部分结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明提供了一种数据融合方法,参考图1,为本发明实施例提供的一种数据融合方法流程图,所述方法具体可以包括:
S101:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。
本发明实施例中的第一数据和第二数据均包括属性与属性值的对应关系,例如第一数据中可以包括演唱者-刘德华的对应关系,第二数据中可以包括歌手-华仔的对应关系;其中,演唱者、歌手均为属性,刘德华、华仔为与演唱者、歌手分别具有对应关系的属性值。
本发明实施例中,在对第一数据和第二数据进行融合之前,首先需要判断第一数据和第二数据是否能够进行融合。实际应用中,首先提取第一数据和第二数据中包括的各个属性。
S102:计算各个属性之间的语义相似度值。
本发明实施例中,在提取到第一数据和第二数据中的属性后,计算各个属性之间的语义相似度值。通过语义相似度值的计算,本发明实施例能够确定实质上指向同一实体的属性,而不需要字符串的完全匹配。
实际应用中,可以计算第一数据中的属性与第二数据中的属性之间的语义相似度。一种实现方式中,首先,利用预设的词嵌入模型分别获取各个属性对应的语义向量,其次,计算各个属性对应的语义向量之间的语义相似度值,即为各个属性之间的语义相似度值。
S103:确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。
本发明实施例中,通过计算得到各个属性之间的语义相似度值之后,确定大于预设第一阈值的语义相似度值。进一步的,确定大于第一阈值的语义相似度值对应的属性,并将所述属性确定为第一数据和第二数据之间的共有属性。也就是说,对于语义相似度值比较高的一对属性,可以确定为第一数据和第二数据之间的共有属性。
例如,作为第一数据和第二数据中的属性,演唱者和歌手之间的语义相似度值高于第一阈值,则将演唱者和歌手确定为第一数据和第二数据之间的共有属性。
S104:通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值。
本发明实施例中,在确定第一数据和第二数据之间的共有属性后,比较每对共有属性分别对应的属性值之间的相似度,具体的,计算每对共有属性分别对应的属性值之间的语义相似度值或字符串相似度值等,最终根据每对共有属性对应的属性值之间的相似度,确定第一数据和第二数据之间的相似度值。
一种实现方式中,首先,从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值。例如,获取作为一对共有属性的演唱者和歌手,分别对应的属性值刘德华和华仔,计算刘德华和华仔之间的语义相似度值。其次,根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。也就是说,第一数据和第二数据之间的相似度取决于第一数据和第二数据的共有属性对应的属性值之间的相似度。
为了提高第一数据和第二数据之间的相似度值的计算效率,本发明实施例在确定所述第一数据和所述第二数据之间的相似度值之前,确定所述共有属性中语义相似度值不大于预设第三阈值的属性值对应的共有属性,并共有属性剔除。也就是说,语义相似度值不大于所述第三阈值的属性值对应的属性不属于第一数据和第二数据之间的共有属性。本发明实施例预先对第一数据和第二数据之间的共有属性进行进一步的确定,筛除不是真正的共有属性,以提高后续第一数据和第二数据之间的相似度值的计算效率。
另外,本发明实施例提供了一种确定第一数据和第二数据之间的相似度值的方法。首先,在第一数据和第二数据中,计算每对共有属性对应的权重值。具体的,可以利用tf-idf算法计算在第一数据和第二数据中每对共有属性对应的权重值。其次,将每对共有属性对应的属性值之间的语义相似度值,与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
例如,属于一对共有属性的演唱者和歌手,分别对应的属性值刘德华和华仔之间的语义相似度值为90%,同时该对共有属性对应的权重值为0.6,则计算该对共有属性对应的90%与0.6的乘积,作为后续累加的一个加数,依此类推,得到每对共有属性对应的乘积后进行累加,最终得到所述第一数据和所述第二数据之间的相似度值。
S105:如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
本发明实施例在计算得到所述第一数据和所述第二数据之间的相似度值后,判断所述相似度值是否大于预设第二阈值,如果所述相似度值大于所述第二阈值,则将所述第一数据和所述第二数据进行融合;否则说明所述第一数据和所述第二数据不能够进行融合。
本发明实施例提供的数据融合方法中,首先,提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。其次,计算各个属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。最后,通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明基于语义相似度值确定第一数据和第二数据的共有属性,进而比较共有属性对应的属性值之间的相似度,最终确定第一数据和第二数据之间的相似度值。与现有技术相比,本发明在保证数据融合准确性的前提下,提高了数据融合率。
本发明实施例还提供了一种数据融合方法,参考图2,为本发明实施例提供的另一种数据融合方法的流程图,所述数据融合方法具体包括:
S201:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。
S202:提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
S203:计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。
本发明实施例中,通过计算第一数据和第二数据中属性值之间的相似度值,确定相似度值大于预设第四阈值的属性值,进而获取所述属性值对应的属性。也就是说,本发明实施例通过属性值之间的相似度值的计算,筛选出更可能属于第一数据和第二数据之间的共有属性的属性,即相似度值大于预设第四阈值的属性值对应的属性。在此基础上,计算所述相似度值大于第四阈值的属性值对应的属性之间的语义相似度值,从而确定第一数据和第二数据之间的共有属性,能够提高共有属性的确定效率。
另外,本发明实施例还可以在确定第一数据和第二数据的共有属性之前,通过查询预设的同义词库,将属于同义词的属性预先确定为第一数据和第二数据的共有属性。进一步的,本发明实施例在计算相似度值大于第四阈值的属性值对应的属性之间的语义相似度值之前,可以筛除已经通过同义词确定为共有属性的属性,在此基础上进一步的确定第一数据和第二数据之间的其他共有属性,也能够提高共有属性的确定效率。
S204:确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。
S205:通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值。
S206:如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
本发明实施例中的S201、S204-S206与上述S101、S103-S105执行过程相同,可以参照上述解释进行理解。
本发明实施例提供的数据融合方法中,通过对第一数据和第二数据中各个属性值之间的相似度值的计算,筛选出更可能属于第一数据和第二数据之间的共有属性的属性,另外也可以通过同义词库确定属于同义词的共有属性,进而在此基础上确定出第一数据和第二数据之间的其他的共有属性,提高了数据融合中的共有属性的确定效率。
另外,本发明实施例基于语义相似度值确定第一数据和第二数据的共有属性,进而比较共有属性对应的属性值之间的相似度,最终确定第一数据和第二数据之间的相似度值。与现有技术相比,本发明在保证数据融合准确性的前提下,提高了数据融合率。
本发明实施例还提供了一种数据融合方法,参考图3,为本发明实施例提供的另一种数据融合方法的流程图,所述数据融合方法包括:
S301:提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。
本发明实施例中,首先提取第一数据和第二数据中的各个属性值,例如,第一数据中包括演唱者-刘德华的对应关系,第二数据中包括歌手-华仔的对应关系,其中,第一数据中的刘德华和第二数据中的华仔为属性值。
S302:计算各个属性值之间的相似度值。
本发明实施例中,在提取第一数据和第二数据中的属性值后,计算各个属性值之间的相似度值,例如计算属性值刘德华和华仔之间的相似度值。
实际应用中,可以计算各个属性值之间的语义相似度值。为了提高准确性,本发明实施例还可以直接计算各个属性值之间的字符串相似度值。
一种实现方式中,计算各个属性值之间的语义相似度值的方法可以利用预设的词嵌入模型分别获取各个属性值对应的语义向量,然后,计算各个属性值对应的语义向量之间的语义相似度值,即为各个属性值之间的语义相似度值。
S303:根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值。
本发明实施例中,在计算各个属性值之间的相似度值后,根据各个属性值之间的相似度值,确定第一数据和第二数据之间的相似度值。
一种实现方式中,在计算各个属性值之间的相似度值之前,首先提取第一数据和第二数据中的属性,并计算各个属性之间的语义相似度值,从而确定出第一数据和第二数据的共有属性。具体的,将语义相似度值大于预设第一阈值的属性确定为第一数据和第二数据的共有属性。
本发明实施例在计算各个属性值之间的相似度值时,可以只计算同一对共有属性对应的属性值之间的语义相似度值,以提高属性值之间的相似度的计算效率。
另外,在确定第一数据和第二数据之间的相似度值时,可以根据第一数据和第二数据的每对共有属性对应的属性值之间的语义相似度值而确定。具体的,预先计算每对共有属性在第一数据和第二数据中的权重值,然后,将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,进而得到第一数据和第二数据之间的相似度值。
为了提高第一数据和第二数据之间的相似度值的确定效率,本发明实施例预先从确定的共有属性中筛除语义相似度值不大于预设第三阈值的属性值对应的共有属性,以提高共有属性的准确度,也减少了共有属性的数量,提高第一数据和第二数据之间的相似度值的确定效率。
另外,在确定第一数据和第二数据的共有属性之前,为了提高共有属性的确定效率,首先确定相似度值大于预设第四阈值的属性值对应的属性,并计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,将所述语义相似度值对应的属性确定为第一数据和第二数据的公有属性。
另外,本发明实施例还可以通过查询预设的同义词库的方式,预先将属于同义词的属性直接确定为第一数据和第二数据的共有属性,后续只需要计算不属于同义词的属性之间的语义相似度值,从而提高共有属性的确定效率。
本发明实施例还提供了一种计算各个属性之间的语义相似度值的方法,具体的,首先利用预设的词嵌入模型分别获取各个属性对应的语义向量。其次,计算各个属性对应的语义向量之间的语义相似度值,即为各个属性之间的语义相似度值。
S304:如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
本发明实施例在计算得到所述第一数据和所述第二数据之间的相似度值后,判断所述相似度值是否大于预设第二阈值,如果所述相似度值大于所述第二阈值,则将所述第一数据和所述第二数据进行融合;否则说明所述第一数据和所述第二数据不能够进行融合。
本发明实施例提供的数据融合方法中,首先,提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。其次,计算各个属性值之间的相似度值。最后,根据所述各个属性值之间的相似度值,确定所述第一数据和所述第二数据之间的相似度值。如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明实施例通过直接计算第一数据和第二数据中属性值之间的相似度值,确定第一数据和第二数据之间的相似度值,提高了数据融合的效率。
进一步的,基于语义相似度值确定第一数据和第二数据的共有属性,进而比较共有属性对应的属性值之间的相似度,最终确定第一数据和第二数据之间的相似度值,在保证数据融合准确性的前提下,提高了数据融合率。
本发明实施例提供了一种数据融合装置,参考图4,为本发明实施例提供的一种数据融合装置结构示意图,所述装置包括:
提取模块401,用于提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
第一计算模块402,用于计算各个属性之间的语义相似度值;
第一确定模块403,用于确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
第二确定模块404,用于通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;
融合模块405,用于在所述第一数据和所述第二数据之间的相似度值大于预设第二阈值时,将所述第一数据和所述第二数据进行融合。
其中,所述第二确定模块包括:
第一计算子模块,用于从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;
第一确定子模块,用于根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
具体的,所述装置还包括:
第二计算模块,用于在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
相应的,所述第一确定子模块包括:
累加子模块,用于将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
另外,所述装置还包括:
筛除模块,用于从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
所述装置还包括:
获取模块,用于提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
相应的,所述第一计算模块包括:
第二计算子模块,用于计算所述相似度值大于预设第四阈值的属性值对应的属性之间的语义相似度值。
所述装置还包括:
第三确定模块,用于通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
相应的,所述第一计算模块包括:
第三计算子模块,用于计算不属于同义词的属性之间的语义相似度值。
具体的,所述第一计算模块包括:
获取子模块,用于利用预设的词嵌入模型分别获取各个属性对应的语义向量;
第四计算子模块,用于计算各个属性对应的语义向量之间的语义相似度值。
本发明实施例提供的数据融合装置能够实现如下功能:提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系。计算各个属性之间的语义相似度值,确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性。通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值,如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。本发明基于语义相似度值确定第一数据和第二数据的共有属性,进而比较共有属性对应的属性值之间的相似度,最终确定第一数据和第二数据之间的相似度值。与现有技术相比,本发明在保证数据融合准确性的前提下,提高了数据融合率。
相应的,本发明实施例还提供一种计算机,参见图5所示,可以包括:
处理器501、存储器502、输入装置503和输出装置504。浏览器服务器中的处理器501的数量可以一个或多个,图5中以一个处理器为例。在本发明的一些实施例中,处理器501、存储器502、输入装置503和输出装置504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。输入装置503可用于接收输入的数字或字符信息,以及产生与浏览器服务器的用户设置以及功能控制有关的键信号输入。
具体在本实施例中,处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能:
提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
计算各个属性之间的语义相似度值;
确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
通过比较每对共有属性对应的属性值,确定所述第一数据和所述第二数据之间的相似度值;
如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明实施例所提供的一种数据融合方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (26)

1.一种数据融合方法,其特征在于,所述方法包括:
提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值;
确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
通过比较每对共有属性对应的属性值之间的相似度,确定所述第一数据和所述第二数据之间的相似度值;
如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
2.根据权利要求1所述的数据融合方法,其特征在于,所述通过比较每对共有属性对应的属性值之间的相似度,确定所述第一数据和所述第二数据之间的相似度值,包括:
从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;
根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
3.根据权利要求2所述的数据融合方法,其特征在于,所述方法还包括:
在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
4.根据权利要求3所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:
将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
5.根据权利要求2所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:
从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
6.根据权利要求1所述的数据融合方法,其特征在于,所述计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值之前,还包括:
提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
7.根据权利要求6所述的数据融合方法,其特征在于,所述计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值,包括:
计算所述相似度值大于预设第四阈值的属性值对应的所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值。
8.根据权利要求1所述的数据融合方法,其特征在于,所述计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值之前,还包括:
通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
9.根据权利要求8所述的数据融合方法,其特征在于,所述计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值,包括:
计算所述第一数据中的属性与所述第二数据中的属性中不属于同义词的属性之间的语义相似度值。
10.根据权利要求1所述的数据融合方法,其特征在于,所述计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值,包括:
利用预设的词嵌入模型分别获取所述第一数据中的属性与所述第二数据中的属性对应的语义向量;
计算所述第一数据中的属性与所述第二数据中的属性对应的语义向量之间的语义相似度值。
11.一种数据融合方法,其特征在于,所述方法包括:
提取第一数据和第二数据中的属性值,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
提取所述第一数据和所述第二数据中的属性;
获取相似度值大于预设第四阈值的属性值对应的属性;
针对所述相似度值大于预设第四阈值的属性值对应的属性,利用预设的词嵌入模型分别获取各个属性对应的语义向量,计算各个属性对应的语义向量之间的语义相似度值;
将语义相似度值大于预设第一阈值的属性对确定为所述第一数据和所述第二数据的一对共有属性;
计算同一对共有属性对应的属性值之间的语义相似度值或字符串相似度值;
根据每对共有属性对应的属性值之间的语义相似度值或字符串相似度值,确定所述第一数据和所述第二数据之间的相似度值;
如果所述第一数据和所述第二数据之间的相似度值大于预设第二阈值,则将所述第一数据和所述第二数据进行融合。
12.根据权利要求11所述的数据融合方法,其特征在于,所述方法还包括:
在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
13.根据权利要求12所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值或字符串相似度值,确定所述第一数据和所述第二数据之间的相似度值,包括:
将每对共有属性对应的属性值之间的语义相似度值或字符串相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
14.根据权利要求11所述的数据融合方法,其特征在于,所述根据每对共有属性对应的属性值之间的语义相似度值或字符串相似度值,确定所述第一数据和所述第二数据之间的相似度值之前,还包括:
从所述共有属性中,筛除所述语义相似度值或字符串相似度值不大于预设第三阈值的属性值对应的共有属性。
15.根据权利要求11所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值之前,还包括:
通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
16.根据权利要求15所述的数据融合方法,其特征在于,所述计算各个属性之间的语义相似度值,包括:
计算不属于同义词的属性之间的语义相似度值。
17.一种数据融合装置,其特征在于,所述装置包括:
提取模块,用于提取第一数据和第二数据中的属性,其中,所述第一数据和所述第二数据中包括属性与属性值的对应关系;
第一计算模块,用于计算所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值;
第一确定模块,用于确定大于预设第一阈值的语义相似度值,并将每个所述语义相似度值对应的属性确定为所述第一数据和所述第二数据的一对共有属性;
第二确定模块,用于通过比较每对共有属性对应的属性值之间的相似度,确定所述第一数据和所述第二数据之间的相似度值;
融合模块,用于在所述第一数据和所述第二数据之间的相似度值大于预设第二阈值时,将所述第一数据和所述第二数据进行融合。
18.根据权利要求17所述的数据融合装置,其特征在于,所述第二确定模块包括:
第一计算子模块,用于从所述第一数据和所述第二数据中,获取每对共有属性对应的属性值,并计算同一对共有属性对应的属性值之间的语义相似度值;
第一确定子模块,用于根据每对共有属性对应的属性值之间的语义相似度值,确定所述第一数据和所述第二数据之间的相似度值。
19.根据权利要求18所述的数据融合装置,其特征在于,所述装置还包括:
第二计算模块,用于在所述第一数据和所述第二数据中,计算每对共有属性对应的权重值。
20.根据权利要求19所述的数据融合装置,其特征在于,所述第一确定子模块包括:
累加子模块,用于将每对共有属性对应的属性值之间的语义相似度值与该对共有属性对应的权重值的乘积进行累加,得到所述第一数据和所述第二数据之间的相似度值。
21.根据权利要求18所述的数据融合装置,其特征在于,所述装置还包括:
筛除模块,用于从所述共有属性中,筛除所述语义相似度值不大于预设第三阈值的属性值对应的共有属性。
22.根据权利要求17所述的数据融合装置,其特征在于,所述装置还包括:
获取模块,用于提取所述第一数据和所述第二数据中各个属性对应的属性值,并获取相似度值大于预设第四阈值的属性值对应的属性。
23.根据权利要求22所述的数据融合装置,其特征在于,所述第一计算模块包括:
第二计算子模块,用于计算所述相似度值大于预设第四阈值的属性值对应的所述第一数据中的属性与所述第二数据中的属性之间的语义相似度值。
24.根据权利要求17所述的数据融合装置,其特征在于,所述装置还包括:
第三确定模块,用于通过查询预设的同义词库,将属于同义词的属性确定为所述第一数据和所述第二数据的一对共有属性。
25.根据权利要求24所述的数据融合装置,其特征在于,所述第一计算模块包括:
第三计算子模块,用于计算所述第一数据中的属性与所述第二数据中的属性中不属于同义词的属性之间的语义相似度值。
26.根据权利要求17所述的数据融合装置,其特征在于,所述第一计算模块包括:
获取子模块,用于利用预设的词嵌入模型分别获取各个属性对应的语义向量;
第四计算子模块,用于计算所述第一数据中的属性与所述第二数据中的属性中属性对应的语义向量之间的语义相似度值。
CN201710145976.1A 2017-03-13 2017-03-13 一种数据融合方法及装置 Active CN108572947B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710145976.1A CN108572947B (zh) 2017-03-13 2017-03-13 一种数据融合方法及装置
PCT/CN2018/077184 WO2018166343A1 (zh) 2017-03-13 2018-02-26 一种数据融合方法及装置、存储介质以及电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710145976.1A CN108572947B (zh) 2017-03-13 2017-03-13 一种数据融合方法及装置

Publications (2)

Publication Number Publication Date
CN108572947A CN108572947A (zh) 2018-09-25
CN108572947B true CN108572947B (zh) 2019-11-19

Family

ID=63522782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710145976.1A Active CN108572947B (zh) 2017-03-13 2017-03-13 一种数据融合方法及装置

Country Status (2)

Country Link
CN (1) CN108572947B (zh)
WO (1) WO2018166343A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840080B (zh) * 2018-12-28 2022-08-26 东软集团股份有限公司 字符属性比较方法、装置、存储介质及电子设备
CN110222200A (zh) * 2019-06-20 2019-09-10 京东方科技集团股份有限公司 用于实体融合的方法和设备
CN110517077A (zh) * 2019-08-21 2019-11-29 天津货比三价科技有限公司 基于属性距离的商品相似度分析方法、装置及存储介质
CN110704405B (zh) * 2019-08-29 2020-11-10 南京医渡云医学技术有限公司 一种基于疾病指标的数据融合方法及装置
CN111104795A (zh) * 2019-11-19 2020-05-05 平安金融管理学院(中国·深圳) 公司名称的匹配方法、装置、计算机设备及存储介质
CN113032775B (zh) * 2019-12-25 2024-02-06 中国电信股份有限公司 情报处理方法和情报处理系统
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112163485B (zh) * 2020-09-18 2023-11-24 杭州海康威视系统技术有限公司 数据处理方法、装置、数据库系统及电子设备
CN112256882A (zh) * 2020-10-16 2021-01-22 美林数据技术股份有限公司 一种基于多重相似度的跨系统配网实体融合方法
CN116257420B (zh) * 2023-03-14 2023-12-15 山西融创智联信息科技有限公司 一种基于数据融合的计算机智能化调控系统及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3379603B2 (ja) * 1994-05-10 2003-02-24 日本電信電話株式会社 類似判別用データ精錬方法およびこの方法を実施する装置
CN1955960A (zh) * 2005-10-28 2007-05-02 日电(中国)有限公司 文档信息表构造装置以及利用其的浏览和查找系统
CN103207859B (zh) * 2012-01-11 2016-07-06 北京四维图新科技股份有限公司 整合数据库的方法和装置
CN103530334B (zh) * 2013-09-29 2018-01-23 北大医疗信息技术有限公司 基于比较模板的数据匹配系统和方法
CN103617192B (zh) * 2013-11-07 2017-06-16 北京奇虎科技有限公司 一种数据对象的聚类方法和装置
CN104182517B (zh) * 2014-08-22 2017-10-27 北京羽乐创新科技有限公司 数据处理的方法及装置
CN104504138A (zh) * 2014-12-31 2015-04-08 广州索答信息科技有限公司 一种基于人的信息聚合方法和装置
CN105488176A (zh) * 2015-11-30 2016-04-13 华为软件技术有限公司 数据处理方法和装置

Also Published As

Publication number Publication date
WO2018166343A1 (zh) 2018-09-20
CN108572947A (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
CN108572947B (zh) 一种数据融合方法及装置
JP7150770B2 (ja) 対話方法、装置、コンピュータ可読記憶媒体、及びプログラム
CN108363602B (zh) 智能ui界面布局方法、装置、终端设备及存储介质
CN103678708B (zh) 一种识别预设地址的方法及装置
CN107395665A (zh) 一种区块链业务受理及业务共识方法及装置
CN109474640B (zh) 恶意爬虫检测方法、装置、电子设备及存储介质
CN105893349A (zh) 类目标签匹配映射方法及装置
CN107679700A (zh) 业务流程处理方法、装置及服务器
CN105528372A (zh) 一种地址搜索方法和设备
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN109951547A (zh) 事务请求并行处理方法、装置、设备和介质
CN107315682A (zh) 测试浏览器兼容方法、装置、存储介质及电子设备
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN111563192A (zh) 实体对齐方法、装置、电子设备及存储介质
CN109657134A (zh) 一种数据过滤方法及装置
WO2020034116A1 (zh) 一种ai运算结果的验证方法及相关产品
CN107590189B (zh) 智能合约执行方法、装置、设备及存储介质
CN104753758B (zh) 一种信息属性识别方法及装置
CN110555108A (zh) 事件脉络生成方法、装置、设备及存储介质
CN108376146A (zh) 基于域的影响评分
CN107193754A (zh) 进行数据存储用于搜索的方法及设备
CN106528802A (zh) 一种数据采集方法及装置
CN108664505A (zh) 一种数据库表结构的导出方法及装置
CN110059276A (zh) 页面更新方法、装置、设备和存储介质
CN110263140A (zh) 一种主题词的挖掘方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230713

Address after: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee after: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

Patentee after: TENCENT CLOUD COMPUTING (BEIJING) Co.,Ltd.

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.