CN107341220B - 一种多源数据融合方法和装置 - Google Patents

一种多源数据融合方法和装置 Download PDF

Info

Publication number
CN107341220B
CN107341220B CN201710506696.9A CN201710506696A CN107341220B CN 107341220 B CN107341220 B CN 107341220B CN 201710506696 A CN201710506696 A CN 201710506696A CN 107341220 B CN107341220 B CN 107341220B
Authority
CN
China
Prior art keywords
attribute
entity
attributes
data
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710506696.9A
Other languages
English (en)
Other versions
CN107341220A (zh
Inventor
徐喆昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710506696.9A priority Critical patent/CN107341220B/zh
Publication of CN107341220A publication Critical patent/CN107341220A/zh
Priority to TW107108813A priority patent/TW201905733A/zh
Priority to PCT/CN2018/092901 priority patent/WO2019001429A1/zh
Application granted granted Critical
Publication of CN107341220B publication Critical patent/CN107341220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本说明书实施例提供一种多源数据融合方法和装置,其中的多源数据融合方法可以用于由数据集中获取属于同一实体的数据,对于任一个实体,可以分别获取该实体的实体属性的至少一个关联属性;并且可以获得两个实体的关联属性的属性相似度;如果上述的属性相似度大于相似度阈值,则可以确定上述两个实体是同一实体,将这两个实体的实体属性均关联至同一实体。

Description

一种多源数据融合方法和装置
技术领域
本公开涉及网络技术领域,特别涉及一种多源数据融合方法和装置。
背景技术
在对一个实体进行数据分析时,需要获取到描述该实体的大量属性数据,这些属性数据可以包括多种来源,例如,来源于用户自己输入的信息,或者来源于网络爬虫采集,或者来源于多家不同的渠道商。不同来源的数据可以具有不同的数据标准,对于同一个实体的描述可能不同,比如,假设两个数据来源实际上是对同一实体的描述,但是这两个来源的描述中对该实体的名称描述不同或者地址描述不同。
在对实体进行数据分析时,可以将描述同一实体的大量属性数据都关联至该实体,即进行该实体的多源数据融合,然后再根据这些多源数据对该实体进行分析。需要提供能够更准确的将同一实体的多源数据进行融合的方案。
发明内容
有鉴于此,本说明书实施例提供一种多源数据融合方法和装置,以准确快速的进行多源数据融合。
具体地,本公开是通过如下技术方案实现的:
第一方面,提供一种多源数据融合方法,所述方法用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述方法包括:
对于任一个实体,分别获取每个实体属性的至少一个关联属性;
获得两个实体的所述关联属性的属性相似度;
若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。
第二方面,提供一种多源数据融合装置,所述装置用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述装置包括:
属性获取模块,用于对于任一个实体,分别获取每个实体属性的至少一个关联属性;
相似度计算模块,用于获得两个实体的所述关联属性的属性相似度;
关联处理模块,用于若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。
本说明书实施例提供的多源数据融合方法和装置,通过基于实体属性的关联属性构建相似度计算方式,用以衡量两个实体之间的相似性关系,使得实体属性描述的不同不会影响相同实体的识别,可以快速准确的完成对同一实体的多源数据的获取;对于数据格式不同的多源数据之间有了一种有效的衡量方式,能够实现同一实体数据的识别与融合,从而使得实体的数据更加完善。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例提供的图数据库的部分示意图;
图2为本说明书一个或多个实施例提供的多源数据融合方法的流程示意图;
图3为本说明书一个或多个实施例提供的多源数据融合装置的结构示意图;
图4为本说明书一个或多个实施例提供的多源数据融合装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
在数据分析时,经常涉及到采集来源于多种渠道的同一实体的数据,根据这些数据对该实体进行较为准确的业务分析。实际实施中,上述多种来源的数据即使都是对同一实体的特征描述,也可能描述方式不同。例如,同一个实体门店,在来源L1中的名称是m,在来源L2中的名称是n,其实名称m和n都是指代同一个门店,只是字面描述不同;又例如,上述同一个实体门店,在来源L1和来源L2中对门店地址的描述也可能不同。
在进行多源数据融合时,需要获取到属于同一实体的数据,并将这些数据都关联至该同一实体,以备根据这些数据对实体进行分析。然而上述例子中提到的不同来源的数据,由于对实体的描述方式不一致,导致可能无法关联至同一实体。本说明书一个或多个实施例提供的多源数据融合方法,将用于解决这一问题,使得即使实体描述方式不同也能够将同一实体的数据进行关联。
本说明书一个或多个实施例的多源数据融合方法中,将涉及到“实体属性”和“关联属性”。其中,实体属性即由各个数据来源中采集到的一个实体的直接属性,而关联属性可以是与实体属性相关的其他属性。如下举例:
例如,一个实体属性可以是某个实体门店的地址。而该“地址”对应的“经纬度坐标”是“地址”的关联属性,或者,“地址所属的省市区信息”也是“地址”的关联属性。
又例如,一个实体属性可以是某个实体门店的联系电话。而该“联系电话对应的号码所属省份”是“联系电话”的关联属性;或者,“该联系电话对应的常用收货人姓名”也是“联系电话”的关联属性;又或者,“该联系电话对应的联系邮箱”也是“联系电话”的关联属性。
关联属性的获取方式可以有多种,可以是其他实体的实体属性,或者可以是由历史收集的大数据信息中得到,比如,可以由收集存储的历史交易数据中,得到某个联系电话对应的常用收货地址、或者常用收货人姓名等信息。一个实体属性对应的关联属性的数量可以是至少一个。
为了后续处理中获取关联属性的快速和方便,可以预先建立一个图数据库。图1示例了图数据库的一部分,图数据库中可以包括多个属性节点,例如图1中的属性节点11、属性节点12、属性节点13和属性节点14等。并且,存在关联关系的属性节点之间以边连接,例如,属性节点11和属性节点12之间以边连接,表示号码所归省份与号码是有关系的;没有关联关系的属性节点之间可以不以边连接。
图数据库中用于连接属性节点的边,可以辅助快速查找某一个属性节点相关联的属性节点,应用于关联属性的查找中。例如,假设属性节点11是一个实体属性,那么可以根据节点连接关系,将与属性节点11边连接的至少一个属性节点对应的属性,都确定为联系电话的关联属性,比如,号码所归省份、号码对应的常用收货人姓名等,都是联系电话的关联属性。图数据库的建立,即可以应用其他实体的实体属性或者历史收集的大数据信息来构建。
在上述说明“实体属性”和“关联属性”的基础上,如下结合图2描述本说明书一个或多个实施例的多源数据融合方法,在该方法中,将基于不同实体之间的“关联属性”的相似度的计算,来衡量实体之间的相似性。如前面提到的,不同实体的描述方式可能不同(这里的不同实体只是用于表示不同的数据来源,实际可能是同一实体),这种不同通常是实体的“实体属性”的描述不同,而本例子的方法中的实体相似性判断不依据实体属性而是依据关联属性,从而实体属性的不同描述不会导致实体差异的误判,而实体相似通常会有更高的关联属性相似度。
在步骤202中,将数据集中的数据进行数据格式统一化处理。
对多源异构数据集,可以进行标准化和结构化预处理,以便规范化实体的描述属性。由于数据来源不同,信息的描述方式可能不同,数据的格式标准也可能不同,例如英文字母大小写、分隔符、简繁体等,需要进行统一处理,提升数据质量。对于实体信息可以进行相应的数据模型构建,例如,对于门店可以确定门店的标准属性范围,例如电话、营业执照、地址等信息,尽可能多的提取有价值的信息。
在步骤204中,将符合预定条件的不同实体的数据,分入同一数据集。
为了避免后续相似度计算造成的笛卡尔积导致数据计算量膨胀,可以对数据集进行一个初步分类,将实体相似的可能性更高的数据聚集在一起,这一过程可以称为数据分桶。例如,对于唯一特征完全一致的实体可以直接判定为同一实体,例如门店名称、营业执照号等。而对于剩余未被直接认定一致的数据可以通过强规则分类桶进行初步分类,比如,可以将符合预定条件的不同实体的数据,分入同一数据集,例如,被分到同一个数据集内的门店实体所在城市一致,座机号码区域一致,或者门店服务类型(美食、服务、购物)一致。
而强规则分类桶的多个预定条件,可以分批次执行,例如,在具体实施中,可以先按照门店所在城市一致划分一个数据集,对该数据集执行步骤206至210的处理,提取出同一实体的数据;而后对该数据集的剩余数据,可以再按照座机号码区域一致得到一个子数据集,对该子数据集再次执行步骤206至210的处理,提取出同一实体的数据。
在步骤206中,对于任一个实体,分别获取每个实体属性的至少一个关联属性。本步骤可以在图1示例的图数据库中,根据属性节点之间的连接关系,查找与实体属性相关的至少一个关联属性。比如,可以先在图数据库中找到某一个实体属性,该实体属性是图数据库中的其中一个属性节点,再将与该实体属性边连接的至少一个属性节点的属性,作为其关联属性。
在步骤208中,获得两个实体的所述关联属性的属性相似度。
例如,假设实体A分别有属性a0,a1…an,实体B有属性b0,b1…bn。通常,a0和b0可以是相同的属性只是取值不同,比如,都是手机号,只是手机号码不同。同样,a1和b1也是相同的属性,比如,两者都是门店地址,只是具体的地址信息不同。本例子中,可以将类似“a0和b0”、“a1和b1”的属性对称为两个实体的“对应实体属性”,即指代的是同一实体属性。
再以其中一个对应实体属性为例,“a0和b0”,假设属性a0的关联属性包括:α0,α1,…αn;属性b0的关联属性包括:β01,…βn。类似的,α0和β0可以是相同的属性只是取值不同,比如,都是手机号关联的邮箱,只是邮箱不同。本例子可以将类似“α0和β0”的属性对称为“对应关联属性”,即指代的是同一关联属性,并且“α0和β0”是“对应实体属性”“a0和b0”的其中一个“对应关联属性”。
基于上述的“对应实体属性”和“对应关联属性”的概念,如下说明如何计算两个实体的属性相似度。
可以分别计算任两个对应关联属性之间的属性相似度,计算公式可以如下面的公式(1)所示。αi与βi是两个对应关联属性,当αi不等于βi时,相似度为0,当αi=βi时,相似度e-N/θ。其中,e为自然底数,N为该对应关联属性关联的其他属性值个数,例如,a0,b0为手机号,α0,β0为该手机号关联的邮箱,当α0=β0时,发现该邮箱有4个手机号与其有关系,则N=4。θ为集中度调节参数,对于热点数据,例如手机对应的城市信息,一个城市可能对应非常多关联手机号,则θ值可以设置的较大,反之,如邮箱等数据重复可能性不高则θ值可设置较小。
Figure BDA0001334830630000061
对于任一对应实体属性的任一对应关联属性,都可以按照公式(1)进行计算。比如,对于其中一对应实体属性“a0和b0”,可以计算α0和β0的属性相似度,可以计算α1和β1的属性相似度,等。
接着,可以根据对应关联属性之间的属性相似度、以及对应实体属性的属性权重,得到两个实体的属性相似度。
比如,可以参见公式(2)所示,示例的是实体A与实体B的属性相似度sim(A,B)的计算。其中,m为A,B的有效属性个数,即对应属性都有值。上述的例子中,实体A分别有属性a0,a1…an,实体B有属性b0,b1…bn。假设a1和b1至少一个没有获取到属性值,那么这个属性是无效属性,a0和b0均能获取到属性值,则为有效属性,最多n个有效属性。对于其中一对“对应实体属性”(例如,a0和b0)来说,n为该对应实体属性的有效对应关联属性的个数,同理,假设属性a0的关联属性包括:α01,…αn;属性b0的关联属性包括:β01,…βn,最多有n个有效的对应关联属性。
ωj为“对应关联属性”(例如,“αii”)关联的“对应实体属性”(例如,a0和b0)的属性权重,对于重要的对应实体属性可以设置权重较高,对于非重要的对应实体属性可以设置权重较低。
Figure BDA0001334830630000071
表示某一“对应实体属性”关联的“对应关联属性”的属性相似度的平均值。
Figure BDA0001334830630000072
在步骤210中,若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。
例如,当sim(A,B)的值大于阈值σ时,可以认为两者是同一实体。识别到两个是同一实体后,可以将这两个实体的实体属性均关联至同一实体。
本例子的多源数据融合方法,通过基于实体属性的关联属性构建相似度计算方式,用以衡量两个实体之间的相似性关系,使得实体属性描述的不同不会影响相同实体的识别,可以快速准确的完成对同一实体的多源数据的获取;对于数据格式不同的多源数据之间有了一种有效的衡量方式,能够实现同一实体数据的识别与融合,从而使得实体的数据更加完善。
上述图2所示流程中的各个步骤,其执行顺序不限制于流程图中的顺序。此外,各个步骤的描述,可以实现为软件、硬件或者其结合的形式,例如,本领域技术人员可以将其实现为软件代码的形式,可以为能够实现所述步骤对应的逻辑功能的计算机可执行指令。当其以软件的方式实现时,所述的可执行指令可以存储在存储器中,并被设备中的处理器执行。
例如,对应于上述方法,本说明书一个或多个实施例同时提供一种数据处理设备,该设备可以包括处理器、存储器、以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器通过执行所述指令,用于实现如下步骤:对于任一个实体,分别获取每个实体属性的至少一个关联属性;获得两个实体的所述关联属性的属性相似度;若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至同一实体。
本说明书一个或多个实施例还提供了一种多源数据融合装置,该装置可以应用于实现本说明书一个或多个实施例的多源数据融合方法。如图3所示,该装置可以包括:属性获取模块31、相似度计算模块32和关联处理模块33。
属性获取模块31,用于对于任一个实体,分别获取每个实体属性的至少一个关联属性;
相似度计算模块32,用于获得两个实体的所述关联属性的属性相似度;
关联处理模块33,用于若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体。
在一个例子中,属性获取模块31,具体用于:由预先建立的图数据库中获取所述实体属性,所述实体属性是所述图数据库中的其中一个属性节点,所述图数据库中包括多个属性节点,存在关联关系的属性节点之间以边连接;将与所述实体属性边连接的至少一个属性节点对应的属性,确定为所述实体属性的关联属性。
在一个例子中,相似度计算模块32,具体用于:对于两个实体的对应实体属性,确定所述对应实体属性的对应关联属性;分别计算任两个对应关联属性之间的属性相似度;根据所述对应关联属性之间的属性相似度、以及所述对应实体属性的属性权重,得到所述两个实体的所述属性相似度。
在一个例子中,如图4所示,该装置还可以包括:数据分类模块34,用于将符合预定条件的不同实体的数据,分入同一数据集。
在一个例子中,如图4所示,该装置还可以包括:数据预处理模块35,用于将所述数据集中的数据进行数据格式统一化处理。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的一个或多个实施例可提供为方法、系统、或计算机程序产品。因此,本说明书的一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书的一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书一个或多个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于数据处理设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书一个或多个实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。

Claims (9)

1.一种多源数据融合方法,所述方法用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述方法包括:
对于任一个实体,分别获取每个实体属性的至少一个关联属性;所述关联属性表示与该实体属性相关联的属性,每个所述实体属性具有至少一个所述关联属性;
获得两个实体的所述关联属性的属性相似度;
若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体;
所述获得两个实体的所述关联属性的属性相似度,包括:
对于两个实体的对应实体属性,确定所述对应实体属性的对应关联属性;
分别计算任两个对应关联属性之间的属性相似度;
根据所述对应关联属性之间的属性相似度、以及所述对应实体属性的属性权重,得到所述两个实体的所述属性相似度。
2.根据权利要求1所述的方法,所述获取每个实体属性的关联属性,包括:
由预先建立的图数据库中获取所述实体属性,所述实体属性是所述图数据库中的其中一个属性节点,所述图数据库中包括多个属性节点,存在关联关系的属性节点之间以边连接;
将与所述实体属性边连接的至少一个属性节点对应的属性,确定为所述实体属性的关联属性。
3.根据权利要求1所述的方法,所述方法还包括:将符合预定条件的不同实体的数据,分入同一数据集。
4.根据权利要求1所述的方法,所述方法还包括:将所述数据集中的数据进行数据格式统一化处理。
5.一种多源数据融合装置,所述装置用于由数据集中获取属于同一实体的数据,所述数据集包括属于多个实体的数据,每个实体的数据包括至少一个实体属性;所述装置包括:
属性获取模块,用于对于任一个实体,分别获取每个实体属性的至少一个关联属性;所述关联属性表示与该实体属性相关联的属性,每个所述实体属性具有至少一个所述关联属性;
相似度计算模块,用于获得两个实体的所述关联属性的属性相似度;
关联处理模块,用于若所述属性相似度大于相似度阈值,则确定所述两个实体是同一实体,将所述两个实体的实体属性均关联至所述同一实体;
所述相似度计算模块,具体用于:对于两个实体的对应实体属性,确定所述对应实体属性的对应关联属性;分别计算任两个对应关联属性之间的属性相似度;根据所述对应关联属性之间的属性相似度、以及所述对应实体属性的属性权重,得到所述两个实体的所述属性相似度。
6.根据权利要求5所述的装置,所述属性获取模块,具体用于:由预先建立的图数据库中获取所述实体属性,所述实体属性是所述图数据库中的其中一个属性节点,所述图数据库中包括多个属性节点,存在关联关系的属性节点之间以边连接;将与所述实体属性边连接的至少一个属性节点对应的属性,确定为所述实体属性的关联属性。
7.根据权利要求5所述的装置,所述装置还包括:数据分类模块,用于将符合预定条件的不同实体的数据,分入同一数据集。
8.根据权利要求5所述的装置,所述装置还包括:数据预处理模块,用于将所述数据集中的数据进行数据格式统一化处理。
9.一种数据处理设备,所述设备包括存储器、处理器,以及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行根据权利要求1至4任一项所述的方法。
CN201710506696.9A 2017-06-28 2017-06-28 一种多源数据融合方法和装置 Active CN107341220B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710506696.9A CN107341220B (zh) 2017-06-28 2017-06-28 一种多源数据融合方法和装置
TW107108813A TW201905733A (zh) 2017-06-28 2018-03-15 多源資料融合方法和裝置
PCT/CN2018/092901 WO2019001429A1 (zh) 2017-06-28 2018-06-26 一种多源数据融合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710506696.9A CN107341220B (zh) 2017-06-28 2017-06-28 一种多源数据融合方法和装置

Publications (2)

Publication Number Publication Date
CN107341220A CN107341220A (zh) 2017-11-10
CN107341220B true CN107341220B (zh) 2020-05-12

Family

ID=60221037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710506696.9A Active CN107341220B (zh) 2017-06-28 2017-06-28 一种多源数据融合方法和装置

Country Status (3)

Country Link
CN (1) CN107341220B (zh)
TW (1) TW201905733A (zh)
WO (1) WO2019001429A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置
CN110019519A (zh) * 2017-11-28 2019-07-16 腾讯科技(深圳)有限公司 数据处理方法、装置、存储介质和电子装置
CN108897947B (zh) * 2018-06-27 2021-02-19 西安交通大学 一种基于改进变分自动编码的装备退化多源数据融合方法
CN110874755B (zh) * 2018-08-31 2024-04-12 阿里巴巴集团控股有限公司 店铺数据的处理方法、装置及电子设备
CN109656970A (zh) * 2018-11-20 2019-04-19 北京松鼠山科技有限公司 面向异构数据的数据关联方法和装置
CN109614498A (zh) * 2018-11-20 2019-04-12 北京松鼠山科技有限公司 知识库构建方法及装置
CN109558468B (zh) * 2018-12-13 2022-04-01 北京百度网讯科技有限公司 资源的处理方法、装置、设备和存储介质
CN110516011B (zh) * 2019-08-28 2022-06-21 北京思维造物信息科技股份有限公司 一种多源实体数据融合方法、装置及设备
CN111538794B (zh) * 2020-04-24 2023-10-03 支付宝(杭州)信息技术有限公司 一种数据融合方法、装置及设备
CN111767325B (zh) * 2020-09-03 2020-11-24 国网浙江省电力有限公司营销服务中心 基于深度学习的多源数据深度融合方法
CN112214531B (zh) * 2020-10-12 2021-11-05 海南大学 跨数据、信息、知识多模态的特征挖掘方法及组件
CN113160956A (zh) * 2021-04-21 2021-07-23 复旦大学附属中山医院 一种基于多身份数据融合的患者管理方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572938A (zh) * 2014-12-30 2015-04-29 江苏师范大学 一种以查询驱动的Web实体识别方法和系统
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
EP2973039A1 (en) * 2013-03-15 2016-01-20 Shimanovsky, Boris Apparatus, systems, and methods for grouping data records
CN106815315A (zh) * 2016-12-23 2017-06-09 国家行政学院 一种基于突发事件情景链的情景推理方法及系统
CN106844622A (zh) * 2017-01-19 2017-06-13 中国测绘科学研究院 一种全空间信息表达方法及全空间信息系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013067575A1 (en) * 2011-11-07 2013-05-16 Curtin University Of Technology A method of analysing data
CN104504138A (zh) * 2014-12-31 2015-04-08 广州索答信息科技有限公司 一种基于人的信息聚合方法和装置
CN104978431B (zh) * 2015-07-13 2019-05-17 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN107341220B (zh) * 2017-06-28 2020-05-12 阿里巴巴集团控股有限公司 一种多源数据融合方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2973039A1 (en) * 2013-03-15 2016-01-20 Shimanovsky, Boris Apparatus, systems, and methods for grouping data records
CN104572938A (zh) * 2014-12-30 2015-04-29 江苏师范大学 一种以查询驱动的Web实体识别方法和系统
CN104699818A (zh) * 2015-03-25 2015-06-10 武汉大学 一种多源异构的多属性poi融合方法
CN104866625A (zh) * 2015-06-15 2015-08-26 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN105045863A (zh) * 2015-07-13 2015-11-11 苏州大学张家港工业技术研究院 一种用于实体匹配的方法及系统
CN106815315A (zh) * 2016-12-23 2017-06-09 国家行政学院 一种基于突发事件情景链的情景推理方法及系统
CN106844622A (zh) * 2017-01-19 2017-06-13 中国测绘科学研究院 一种全空间信息表达方法及全空间信息系统

Also Published As

Publication number Publication date
WO2019001429A1 (zh) 2019-01-03
CN107341220A (zh) 2017-11-10
TW201905733A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN107341220B (zh) 一种多源数据融合方法和装置
JP6575335B2 (ja) ソーシャルメディアメッセージ及び施設の間のリンクを推定する方法、コンピュータシステム、及びプログラム
TWI703862B (zh) 內容推薦方法及裝置
TW202029079A (zh) 異常群體識別方法及裝置
CN107515915A (zh) 基于用户行为数据的用户标识关联方法
CN109726280B (zh) 一种针对同名学者的排歧方法及装置
JP2009151760A (ja) オブジェクト間競合指標計算方法およびシステム
CN110928894B (zh) 实体对齐的方法及装置
TW201710993A (zh) 一種軟體推廣作弊的檢測方法、裝置及系統
CN110598791A (zh) 地址相似度评价方法、装置、设备及介质
CN110888866B (zh) 数据扩充方法、装置、数据处理设备及存储介质
CN104572946B (zh) 黄页数据处理方法及装置
CN111522927A (zh) 基于知识图谱的实体查询方法和装置
CN110648172B (zh) 一种融合多种移动设备的身份识别方法和系统
CN112182391A (zh) 一种用户画像方法与装置
CN111224923A (zh) 一种仿冒网站的检测方法、装置及系统
WO2017020550A1 (zh) 生成无线接入点的接入点属性信息的方法与设备
WO2018033052A1 (zh) 一种评估用户画像数据的方法及系统
Zamora et al. Noise-sensing using smartphones: Determining the right time to sample
CN110827036A (zh) 一种欺诈交易的检测方法、装置、设备及存储介质
JP7092194B2 (ja) 情報処理装置、判定方法、及びプログラム
CN110363206B (zh) 数据对象的聚类、数据处理及数据识别方法
CN108959289B (zh) 网站类别获取方法和装置
CN110737820A (zh) 用于生成事件信息的方法和装置
CN111125369A (zh) 一种默契度检测方法、设备、服务器及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1246432

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200921

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Patentee after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Ltd.