CN106326217A - 一种基于随机算法的分布式实体匹配方法 - Google Patents

一种基于随机算法的分布式实体匹配方法 Download PDF

Info

Publication number
CN106326217A
CN106326217A CN201510330555.7A CN201510330555A CN106326217A CN 106326217 A CN106326217 A CN 106326217A CN 201510330555 A CN201510330555 A CN 201510330555A CN 106326217 A CN106326217 A CN 106326217A
Authority
CN
China
Prior art keywords
distributed
signature
entity
random
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510330555.7A
Other languages
English (en)
Inventor
张蓉
晁平复
高竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510330555.7A priority Critical patent/CN106326217A/zh
Publication of CN106326217A publication Critical patent/CN106326217A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于随机算法的分布式实体匹配方法,包括如下步骤:数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;相似度计算步骤:通过计算海明距离得到匹配对的相似度。本发明提出了用于减少冗余相似度计算的解决方案,可以有效提升分布式环境下对半结构化和非结构化数据的实体匹配效率,在准确率得到保证的同时,处理速度明显高过目前较先进的实体匹配方法。

Description

一种基于随机算法的分布式实体匹配方法
技术领域
本发明属于数据集成与管理技术领域,尤其涉及一种基于随机算法的分布式实体匹配方法。
背景技术
实体匹配技术(也称实体解析、数据关联与重复检测等)旨在从目标数据集中识别出描述相同实体或对象的记录,并通过对描述相同实体的多条记录进行筛选融合,实现对数据的集成与清洗。例如,在一个顾客对顾客(C2C)的在线市场中,人们可以轻松地开办在线商店并且列出任何他们想卖的东西,所以同一件商品很可能被多个卖家以不同价格、品质以及不同的商品描述来进行贩卖,这导致买家在选择时感到困惑。实体匹配的目的是通过评估各个商品记录的相似度,找出哪些实体信息对应同种商品。经过对这些实体信息中的脏数据进行清洗,构成一个相似商品信息的集合,供顾客挑选。
在当前的互联网环境中,网络数据和用户生成内容(User Generated Content)的飞速增长改变了我们过去收集和管理信息的方式。数量庞大的网络用户群体作为数据的主要生产者,其极高的参与度使得数据生成过程变得更为简单,但松散的管理模式却导致数据变得更难管理。网络数据与用户生成内容(UGC)具有数据总量大、数据结构复杂、数据质量差等多个特点。
很多研究工作尝试过分别解决上述的问题:
1)采用文本相似度来衡量非结构化数据(如在线文档)的相似性。它为半结构化和非结构化数据提供了一种标准的度量方法;
2)分词技术被用来减少拼写错误和人为错误对于数据质量的负面影响。这已经成为数据清理中一项重要的步骤,而且提高了实体匹配的精确度;
3)数据分块策略根据相似度将数据划分成多个部分。因为只需要比较相同分块中的数据,所以这些分块策略能有效地减少比较代价。
分布式环境相比于集中式环境,大幅度增加了运算的并行度与系统的可拓展性,为大数据量的实体匹配提供了可能。借助如MapReduce的分布式运算模型,可以将传统方法运用到分布式环境下,因此那些集中环境下的研究成果可以为分布式环境下的实体匹配提供解决思路。另一方面,一些传统实体匹配方法移植到分布式环境时,通常无法充分利用分布式的并发优势,出现了负载均衡和网络传输开销等问题,性能较差。
为了克服上述现有技术的缺陷,本发明在分布式系统环境下,为半结构化和非结构化数据提出一种随机匹配方法,并希望继承一些先前的研究成果,减少计算开销和网络传输开销。
发明内容
本发明提出了一种基于随机算法的分布式实体匹配方法,包括如下步骤:
数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;
签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;
匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;
相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。
本发明的基于随机算法的分布式实体匹配方法中,在所述数据预处理步骤包括:对于所述原始数据中进行实体分词,构造出包含所有记录中所出现的词的词典,最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。
本发明的基于随机算法的分布式实体匹配方法中,使用Part-Of-Speech Tagger对所述原始数据进行实体分词。
本发明的基于随机算法的分布式实体匹配方法中,在所述生成签名步骤中,使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。
本发明的基于随机算法的分布式实体匹配方法中,在所述生成签名步骤中,利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名,在保留空间向量特征的同时减少网络传输开销;所述位置敏感哈希函数以如下公式表示:
h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 .
本发明的基于随机算法的分布式实体匹配方法中,在所述匹配对生成步骤中,在所述分布式节点内按随机变换序号对所述签名分组,并在组内进行排序,选择每个签名和同组中与其相邻的多个签名生成匹配对。
本发明的基于随机算法的分布式实体匹配方法中,在所述相似度计算步骤中,设定阈值并计算海明距离衡量匹配对的相似度,若相似度低于阈值,则认定所述匹配对相似并输出对应的实体编号及相似度。
本发明的基于随机算法的分布式实体匹配方法中,在所述相似度计算步骤之后进一步包括所述近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。
本发明的基于随机算法的分布式实体匹配方法中,所述分布式实体匹配方法是基于分布式环境,所述分布式环境包括MapReduce计算框架、Hadoop分布式系统以及Hadoop分布式文件系统。本发明基于MapReduce框架在Hadoop上完成了算法实现,使用Hadoop的分布式文件系统(HDFS)实现数据的存储和读写。Hadoop具有良好的横向扩展能力,通过并行调度实现任务对大数据的高效处理能力。
本发明的有益效果在于:
本发明在所述生成签名步骤中将高维向量转换成了多个低维签名,有效地减少了网络传输开销。本发明在所述匹配对生成步骤中,在shuffle阶段对所有签名进行分组重排,各组包含所有实体同一次变换后的签名,再将所有组均匀传输给各reduce节点进行相似度计算,各节点接收到的签名数量相近,解决了分布式系统中的负载均衡问题。本发明中只需要执行一个MapReduce任务,相比其他采用多MapReduce任务的实体匹配方法,减轻了因额外任务调度产生的计算代价,带来性能提升。通过实验,本发明与其他分布式实体匹配方法相比,在保证了匹配准确率的同时,性能上有很大的优势,在不同大小的数据集上都展现出了较好的兼容性。
附图说明
图1是本发明基于随机算法的分布式实体匹配方法的流程图。
图2是具体实施中的MapReduce示例图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明基于随机算法的分布式实体匹配方法支持对对海量实体的匹配处理。本发明在开源分布式平台上制定有效的数据存储策略、利用高效的数据索引技术支持时间敏感的查询处理,并设计了基于时间敏感的数据存储策略,为查询的快速文件定位提供保障,实现了基于倒排技术的索引,为查询提供高效的文件过滤。
如图1所示,本发明基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:
S1数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;
S2签名生成步骤:根据实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;
S3匹配对生成步骤:在分布式节点内对签名重排并分组,从组中提取匹配对;
S4相似度计算步骤:通过计算海明距离得到匹配对的相似度。之后进一步包括近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据集合中的文件路径得到外存空间中的源数据文件。
本发明的基于随机算法的分布式实体匹配方法中,实体表示数据集中描述客观物体的记录,实体对表示一对物体记录;键值对为MapReduce计算框架中Map和Reduce作业的输入输出结构,形如(key,value),其中键(key)可作为区分记录的标识,也可作为记录分组的主键,值(value)为记录所包含的具体信息;匹配对表示通过计算相似度得到的相似实体记录对。
本发明较小牺牲匹配准确率而显著提升了匹配速度,相较于其他分布式匹配方法,负载均衡、网络传输花销问题都得到了解决,性能上有很大的优势,能够快速匹配处理不同大小的数据集。以下对本发明技术内容做进一步阐述:
对于处理半结构化和非结构化的数据,余弦相似度是一个合适的方法。但是高维度的实体特征会使其降低匹配正确率。Charikar提出了用于余弦相似度的位置敏感哈希(LSH)函数,为本发明提供了一个选择。
定理:假设有一个在k维向量空间中的向量集(记作Nk),然后从这个k维空间中生成一个随机单位向量r,以如下式(1)定义一个哈希函数hr
h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 ( 1 ) h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 ( 1 ) h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 - - - ( 1 ) ;
Geomans和Williams证明,对于向量u和v利用式(2)计算出对应的关系。从式(2)中得到了式(3)中表述的余弦关系:
Pr [ h r ( u ) = h r ( v ) ] = 1 - &theta; ( u , v ) &pi; - - - ( 2 )
cos(θ(u,v))=cos(1-Pr[hr(u)=hr(v)])π (3)
另一种计算余弦相似度的方法是基于前面的定理发现的,能够避免高维度问题。生成大量(d个)随机向量,计算出每个向量u的hr(u),得到一个向量u的d位二进制串{h1(u),2(u),…,d(u)},称之为向量u的d位签名Sd(u)。因为这个签名包含了向量的特征,两个签名之间大的偏差意味着两个向量很不同,所以任意两个签名的余弦相似度可以通过式(3)算得。此外,生成的随机向量越多,得到的向量间的相似度越准确。
另一方面,如果用签名之间的相似度来表示式(3)中的概率,可以发现pr[hr(u)=hr(v)]=1-(hamming distance)/d。这样一来,计算向量之间余弦相似度的问题被转化成了计算签名之间的海明距离。这样更快而且内存效率更高。在这种方式下,将一个k维的向量精简成了d位,并且保留了余弦相似度,这里的d<<k。所以在本发明描述中,海明距离与余弦相似度的意思相同。
(1)对原始数据进行特征抽取生成向量
在匹配过程之前,对原始数据进行了三步预处理来得到我们想要的输入。首先,本发明用Part-Of-Speech Tagger对实体分词,然后找出数据集中出现的所有不同的词(假设有k个),并构造出包含所有记录中词的词典,最后对每一条实体记录u生成一个k维的向量Vu作为输入,Vu中的第i维是词典中的第i个词在实体u中出现的频率。预处理后得到以实体编号Eu为键、以Vu为值的键值对集合,作为实体匹配的输入。
(2)生成数据签名
本发明生成数据签名步骤的目的是在尽可能保留实体特征的同时降低特征维度。输入数据是形如(Eu,Vu)的实体对,先随机生成d个k维向量{r1,r2,…,rd},d小于向量维度k,对于每个向量Vu,根据公式(1)所示的哈希函数hr(u)计算它的签名,所以可以将向量Vu的签名表示为:Vu={h1(u),hx(u),…,hd(u)]。每个向量u被表示成一个长度为d的二进制串Su,并且键值对变成(Su,Eu)。
如果直接对一组签名排序,那些高相似度的签名对可能不会靠得比较近。例如,不论两个签名有多相似,如果它们的第一位不同,那么字典序的结果会差很多。PLEB算法引入了签名的随机变换来解决这个问题。在生成随机变换以后,海明距离小(即相似)的签名有更高的可能在排序结果中靠得比较近。因此可以找出每个签名的m个相邻签名然后生成实体对。
一次随机变换是根据随机函数,将原签名的每一位映射到一个新的位置,可以看作是签名打乱重排,从而使所有签名尽可能有用均等的机会与相似的签名排到一起。一个随机变换函数类似于π(x)=(ax+b)mod p,这里p是素数且0<a<p,0≤b<p,a和b都是随机取的。对每个签名做t次随机变换(随机选择t次a与b的值),这样得到了每个签名原始二进制串的t个不同变换{Pu1,Pu2,…,Put}。在本步骤中将其作为map的输出。因此对每一个实体,在本步骤执行后有t个形如(i,Pui,Eu)的不同输出,这里i表示变换的序号,Pui表示签名Su第i次交换的结果,Eu是实体编号。
本发明签名生成步骤结束后,每个k维向量被转化成了t个d位的签名。由于d和t总是远小于k(为了更好的性能,d和t总是几十或几百,而k通常有几十万,这取决于输入数据的大小),对了数据量进行了一次很大的削减,同时也大大减少了分布式节点之间的网络传输代价。
(3)分组排列签名并生成匹配对
在签名生成步骤后,在分布式节点内引入一个分组排序过程,先根据变换序号对上一步的(i,Pui,Eu)分组,然后在每个分组中按字典序重排,得到t个形如(i,Li)的组,Li是一个有序的签名列表,例如{(P5i,E5),(P2i,E2),(Pni,En)…,(P3i,E3)},是所有由第i次变换生成的签名安字典序排列的结果。然后在每个有序列表Li中,将每个签名与其相邻的m个签名生成匹配对(在有序列表中相邻签名的相似度较高)。
如图2,Map阶段的输入实体包含(E0,V0)和(E4,V4),对应生成的签名为S0和S4;经过t次随机变换,得到其变换后签名{P01,P02,…,P0t},{P41,P42,…,P4t},在Map阶段的输出包含了对应每次变换的(i,P0i,E0)和(i,P4i,E4);在分组重排阶段,按key即变换序号对(i,Pui,Eu)进行分组,在每个分组中按变换后签名Pui的字典序重排得到(i,Li);对于实体对E0,E4,在有序列表L0中其签名相邻,于是生成匹配对E0E4
(4)计算匹配对相似度
本发明在计算匹配对的海明距离之前,预先设定一个阈值,因为海明距离越近表示两个实体越相似,故在计算过程中,如果两个实体海明距离的计算结果低于设定的阈值,即实体的特征差异较小,则认为它们相似,以(Eu1Eu2,similarity)的形式输出这对实体及其相似度。
如阈值为0.3,签名长度20,若P0i为01101010010110100011,P4i为01101001010011101011,其海明距离为即0.2,小于阈值,认为其相似,若P4i为01100001010011101001,海明距离为即0.35,大于阈值,认为不相似。
(5)近实时查询
以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据集合中的文件路径得到外存空间中的源数据文件。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (9)

1.一种基于随机算法的分布式实体匹配方法,其特征在于,包括如下步骤:
数据预处理步骤:对原始数据进行特征抽取,生成实体及其向量;
签名生成步骤:根据所述实体及其向量生成多个随机向量,生成每一个随机向量相应的签名,对所述签名进行多次随机变换,再将实体编号、变换后签名和变换序号传输到分布式节点内;
匹配对生成步骤:在分布式节点内对所述签名重排并分组,从组中提取匹配对;
相似度计算步骤:通过计算海明距离得到所述匹配对的相似度。
2.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述数据预处理步骤包括:对于所述原始数据中进行实体分词,构造出包含所有记录中所出现的词的词典,最后根据每条所述记录中各个词的出现频率将所述记录转化为统一的向量。
3.如权利要求2所述的基于随机算法的分布式实体匹配方法,其特征在于,使用Part-of-Speech Tagger对所述原始数据进行实体分词。
4.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,使用位置敏感哈希函数生成数量小于所述向量维度的随机向量。
5.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述生成签名步骤中,利用可保留向量特征的位置敏感哈希函数计算所述随机向量的签名,所述位置敏感哈希函数以如下公式表示:
h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 , h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 , h r ( u ) = 1 r . u &GreaterEqual; 0 0 r . u < 0 .
6.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述匹配对生成步骤中,在所述分布式节点内按随机变换序号对所述签名分组,并在组内进行排序,选择每个签名和同组中与其相邻的多个签名生成匹配对。
7.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述相似度计算步骤中,设定阈值并计算海明距离衡量匹配对的相似度,若相似度低于阈值,则认定所述匹配对相似并输出对应的实体编号及相似度。
8.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,在所述相似度计算步骤之后进一步包括所述近实时查询步骤:以用户为单位,对文件路径列表进行分组与去重处理,得到关于源数据的文件路径集合,根据所述集合中的文件路径得到所述外存空间中的源数据文件。
9.如权利要求1所述的基于随机算法的分布式实体匹配方法,其特征在于,所述分布式实体匹配方法是基于分布式环境,所述分布式环境包括MapReduce计算框架、Hadoop分布式系统以及Hadoop分布式文件系统。
CN201510330555.7A 2015-06-15 2015-06-15 一种基于随机算法的分布式实体匹配方法 Pending CN106326217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510330555.7A CN106326217A (zh) 2015-06-15 2015-06-15 一种基于随机算法的分布式实体匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510330555.7A CN106326217A (zh) 2015-06-15 2015-06-15 一种基于随机算法的分布式实体匹配方法

Publications (1)

Publication Number Publication Date
CN106326217A true CN106326217A (zh) 2017-01-11

Family

ID=57732013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510330555.7A Pending CN106326217A (zh) 2015-06-15 2015-06-15 一种基于随机算法的分布式实体匹配方法

Country Status (1)

Country Link
CN (1) CN106326217A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280197A (zh) * 2018-01-29 2018-07-13 中国科学院信息工程研究所 一种识别同源二进制文件的方法及系统
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN111178083A (zh) * 2019-12-12 2020-05-19 广州地理研究所 一种bim和gis的语义匹配方法及装置
CN112637174A (zh) * 2020-12-16 2021-04-09 百度在线网络技术(北京)有限公司 数据相关度计算方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN103761298A (zh) * 2014-01-20 2014-04-30 华东师范大学 一种基于分布式架构的实体匹配方法
US8838609B1 (en) * 2012-10-10 2014-09-16 Google Inc. IDF weighting of LSH bands for live reference ingestion
CN104463233A (zh) * 2014-12-30 2015-03-25 深圳市捷顺科技实业股份有限公司 车标识别方法及车标识别装置
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8838609B1 (en) * 2012-10-10 2014-09-16 Google Inc. IDF weighting of LSH bands for live reference ingestion
CN103425799A (zh) * 2013-09-04 2013-12-04 北京邮电大学 基于主题的个性化研究方向推荐系统和推荐方法
CN103761298A (zh) * 2014-01-20 2014-04-30 华东师范大学 一种基于分布式架构的实体匹配方法
CN104463233A (zh) * 2014-12-30 2015-03-25 深圳市捷顺科技实业股份有限公司 车标识别方法及车标识别装置
CN104462582A (zh) * 2014-12-30 2015-03-25 武汉大学 一种基于结构和内容二级过滤的Web数据相似性检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PIOTR INDYK,ET,AL: "Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality", 《STOC "98 PROCEEDINGS OF THE THIRTIETH ANNUAL ACM SYMPOSIUM ON THEORY OF COMPUTING》 *
凌康: "基于位置敏感哈希的相似性搜索技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280197A (zh) * 2018-01-29 2018-07-13 中国科学院信息工程研究所 一种识别同源二进制文件的方法及系统
CN108280197B (zh) * 2018-01-29 2020-09-11 中国科学院信息工程研究所 一种识别同源二进制文件的方法及系统
CN108804599A (zh) * 2018-05-29 2018-11-13 浙江大学 一种相似子图的快速查找方法
CN108804599B (zh) * 2018-05-29 2022-01-04 浙江大学 一种相似交易模式的快速查找方法
CN111178083A (zh) * 2019-12-12 2020-05-19 广州地理研究所 一种bim和gis的语义匹配方法及装置
CN112637174A (zh) * 2020-12-16 2021-04-09 百度在线网络技术(北京)有限公司 数据相关度计算方法、装置、电子设备和存储介质
CN112637174B (zh) * 2020-12-16 2022-10-21 百度在线网络技术(北京)有限公司 数据相关度计算方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN103886067B (zh) 使用标签隐含主题进行图书推荐的方法
CN110147357A (zh) 一种基于大数据环境下的多源数据聚合抽样方法及系统
US20100313258A1 (en) Identifying synonyms of entities using a document collection
CN104881424A (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
Liang et al. Express supervision system based on NodeJS and MongoDB
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN103425772A (zh) 一种具有多维信息的海量数据查询方法
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN110287329A (zh) 一种基于商品文本分类的电商类目属性挖掘方法
CN105117442B (zh) 一种基于概率的大数据查询方法
CN117556148B (zh) 一种基于网络数据驱动的个性化跨域推荐方法
CN104408034A (zh) 一种面向文本大数据的中文分词方法
CN103970842A (zh) 一种面向防洪减灾领域的水利大数据存取系统及方法
CN104572740B (zh) 一种存储数据的方法和装置
CN106326217A (zh) 一种基于随机算法的分布式实体匹配方法
Hashem et al. An Integrative Modeling of BigData Processing.
CN103412878A (zh) 基于领域知识地图社区结构的文档主题划分方法
Benjelloun et al. Generic entity resolution in the serf project
CN106126727A (zh) 一种推荐系统大数据处理方法
Benny et al. Hadoop framework for entity resolution within high velocity streams
WO2016119508A1 (zh) 基于Spark系统的大规模对象识别方法
Wang et al. Data cube computational model with hadoop mapreduce
Zhang et al. Fast gumbel-max sketch and its applications
Wu et al. Research and improve on K-means algorithm based on hadoop
Priya et al. Entity resolution for high velocity streams using semantic measures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170111