CN104424302B - 一种同类数据对象的匹配方法和装置 - Google Patents
一种同类数据对象的匹配方法和装置 Download PDFInfo
- Publication number
- CN104424302B CN104424302B CN201310397429.4A CN201310397429A CN104424302B CN 104424302 B CN104424302 B CN 104424302B CN 201310397429 A CN201310397429 A CN 201310397429A CN 104424302 B CN104424302 B CN 104424302B
- Authority
- CN
- China
- Prior art keywords
- data object
- homogeneous
- data
- core word
- homogeneous data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Abstract
本申请涉及一种同类数据对象的匹配方法和装置。其中,该方法包括:分别获得多个同类数据对象集合;分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算任意两个同类数据对象集合的核心词词组的相似度;当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象。其通过根据数据对象的一个或多个数据标签,挖掘出核心词,在来自各数据平台的多个同类数据对象集合中进一步做匹配,最终在各数据平台海量数据对象中确定绝对同类数据对象,从而解决跨平台准确匹配同类数据对象的问题,提高跨数据平台的同类数据对象匹配的准确性。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种同类数据对象的匹配方法和装置。
背景技术
随着互联网技术的迅猛发展,当前进入了信息爆炸的时代,将海量数据对象同时呈现给用户,使用户很难从中发现自己感兴趣的部分。基于同类数据对象匹配的方法可以在海量数据对象中将具有相同数据标签的多个数据对象(同类数据对象)匹配在一起,进而将同类数据对象聚合在一起,得到同类数据对象的集合,通过这样的方法可以为用户分类展示不同的数据对象,使用户更容易发现自己感兴趣的数据对象,从而增强了用户体验效果。
目前对同一个数据平台中的大量的数据对象进行同类数据对象匹配的技术,已经成为各个数据平台解决为用户展示的数据对象过于分散的问题的重要技术之一,并且该技术已经日趋成熟。
然而对于来自跨数据平台的数据对象却不能进行同类数据对象的匹配。具体而言,在每一个数据平台中可以依据海量数据对象普遍拥有的一个或多个数据标签在海量数据中对同类数据对象进行匹配,进而实现同类数据对象的聚合,例如,当数据对象为书籍时,可以将书籍普遍拥有的分类号作为数据标签对书籍进行匹配,如,将海量书籍中分类号包括“D”(政治法律类)的书籍进行匹配,进而可以将政治法律类书籍(同类书籍)聚合在一起。
但是每一个数据平台拥有各自的同类数据对象的匹配方法,例如,在不同类目下,使用不同的数据标签进行数据对象的匹配,若使用其中一个数据平台的匹配方法将多个数据平台中的海量数据对象进行匹配,所匹配出的同类数据对象会由于匹配方法的差异存在准确性低的问题,例如:对不同的数据平台中包含“上海”(数据标签)的数据对象进行匹配,该不同的数据平台可以是旅游网站、购物网站、阅读网站等等,则将这些网站中包含“上海”的数据对象进行匹配,可能得到地理类(旅游路书)、商品类(商品)、人文类(文章)等不同的数据对象,即,所得到的数据对象并非都是同类数据对象,也未达到同类数据对象聚合的目的。所以现有技术中跨数据平台的数据对象匹配结果准确性不高。
发明内容
本申请的主要目的在于提供一种同类数据对象的匹配方法和装置,以克服现有技术存在的跨数据平台匹配同类数据对象准确性低的缺陷,解决跨平台准确匹配同类数据对象的问题。
本申请一方面提供的一种同类数据对象的匹配方法,包括:分别获得多个同类数据对象集合;分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算任意两个同类数据对象集合的核心词词组的相似度;当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象。
进一步的,多个同类数据对象集合分别来自不同数据平台。
进一步的,在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据对象的集合;其中,所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对象。
进一步的,分别获得多个同类数据对象集合包括:将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。
进一步的,一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数据标签。
进一步的,挖掘所述同类数据对象集合的每一个数据对象的核心词,包括,基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。
进一步的,计算任意两个同类数据对象集合的核心词词组的相似度,包括,计算每一个所述核心词词组中的每一个核心词所占的权重;基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似度。
本申请另一方面提供的一种同类数据对象的匹配装置,包括:获得模块,用于分别获得多个同类数据对象集合;挖掘与获取模块,用于分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算模块,用于计算任意两个同类数据对象集合的核心词词组的相似度;确定模块,用于当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中数据对象确定为同类数据对象。
进一步的,同类数据对象集合分别来自不同数据平台。
进一步的,获得模块还包括,在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据对象的集合,其中,所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对象。
进一步的,获得模块还包括,将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。
进一步的,一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数据标签。
进一步的,挖掘与获取模块还包括:基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。
进一步的,计算模块还包括计算每一个所述核心词词组中的每一个核心词所占的权重;基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似度。
与现有技术相比,根据本申请的技术方案具有以下有益效果:
本申请可以通过先在每个数据平台中各自进行同类数据对象的匹配,然后根据数据对象的一个或多个数据标签挖掘核心词,在来自各数据平台的多个同类数据对象集合中进行进一步地匹配,最终在各数据平台的海量数据对象中确定出同类数据对象(绝对同类数据对象),进而以此提高跨数据平台的同类数据对象匹配的准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一实施例的同类数据对象的匹配的示意图;
图2是根据本申请一实施例的同类数据对象的匹配方法的流程图;
图3是根据本申请一实施例的同类数据对象的类目结构示意图;
图4是根据本申请一实施例的计算同类数据对象集合的相似度的方法的流程图;
图5是根据本申请一实施例的同类数据对象的匹配装置的结构图。
具体实施方式
本申请的主要思想在于,在各数据平台中,先利用数据对象的一个或多个数据标签,在海量数据对象中实现同类数据对象的匹配获得同类数据对象集合(一个或多个这样的集合),再以此为基础,将各个平台的“相对”同类数据对象集合进行关联和挖掘,以进一步匹配获得跨平台下海量数据对象中的“绝对”同类数据对象,以提高跨平台海量数据中搜索同类数据对象的效率和精确度,从而使得搜索结果更准确。
为使本申请的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本申请作进一步地详细说明。
如图1所示,根据本申请一实施例的同类数据对象的匹配的示意图。在各数据平台中,如以两个数据平台为例,第一数据平台101、第二数据平台102,分别利用数据对象的数据标签(即标识该数据对象的数据属性特征),比如第一数据标签、第二数据标签、叶子类目(第三数据标签),在海量数据对象中进行同类数据对象的匹配,从而得到第一数据平台101的一个或多个同类数据对象集合1011以及第二数据平台102的一个或多个同类数据对象集合1012。以此为基础,可以基于各个数据平台匹配出的一个或多个同类数据对象集合1011、1012,做进一步地数据加工。具体而言,可以将各数据平台(如第一数据平台101、第二数据平台102)具有相同的一个或多个数据标签的同类数据对象集合1011、1012进行关联。例如,第一数据平台101的一个或多个同类数据对象集合1011包括集合S1,第二数据平台102的一个或多个同类数据对象集合1012包括集合S2。如果集合S1及集合S2中的数据对象具有共同的一个或多个数据标签,则将集合S1与集合S2,进行关联。
其中,所述数据平台可以是为用户提供互联网数据交互的平台,例如,新华网、搜索门户网、电商网等等。数据对象可以是用户进行数据访问、搜索和/或其他交互行为的各种数据对象,例如,商品信息、文献等。具体地,数据对象,例如产品信息、图片和视频的文字说明、以及文档等,一般可以由文字信息表现或描述。进一步的,可以利用自然语言处理技术分别对集合S1、S2的数据对象进行分词,并抽取出核心词,得到包含一个或多个核心词的核心词词组。其中,所述核心词可以是预先指定类型的分词,比如名词;对于表示产品信息的数据对象,核心词可以是产品词。
挖掘每一个集合S1、S2中数据对象的核心词词组。例如,在相关联的集合S1和集合S2中各自进行核心词的挖掘,分别得到核心词词组106、108。计算核心词词组106与核心词词组108的相似度。根据核心词词组106与核心词词组108的相似度判断集合S1和集合S2是否是互为同类数据对象集合,以此可以确定相关联的同类数据对象集合是否绝对同类。这里的绝对同类即分别来自两个或两个以上(多个)同类数据对象集合中的数据对象也互为同类数据对象。聚合这两个或两个以上(多个)同类数据对象形成新的集合,从而获得跨数据平台下海量数据对象中的“绝对”同类数据对象。通过该方式得到的同类数据对象则更具准确性。
本申请的一种同类数据对象的匹配方法,如图2所示的根据本申请一实施例的同类数据对象的匹配方法的流程图。
在步骤S210处,获取多个同类数据对象集合。
其中,多个同类数据对象集合分别来自不同的数据平台。
在多个数据平台的每一个数据平台中,对可以被搜索到的数据对象,进行同类数据对象的匹配,形成每一个数据平台中的一个或多个同类数据对象集合。
在每个数据平台上都分别可以得到一个或多个同类数据对象集合。这些同类数据对象,在一个数据平台上,能提高用户的搜索结果完整性和准确性。例如,某用户利用网页进行访问搜索时,搜索到一个数据对象,提供搜索服务的数据平台基于已经匹配聚合的同类数据对象的集合,可以将该数据对象的同类数据对象也一并提供出来作为搜索结果来处理,使得这些同类数据对象可以以集合的形式,都提供给用户。提供搜索服务的数据平台可以通过列表展示(如在网页上显示结果列表)或其他方式,输出搜索结果给用户。一个数据平台上,可以有一个或多个同类数据对象集合(或至少一个同类数据对象集合)。这里,同类数据对象,可以是具有相同的一个或多个数据标签的数据对象。同类数据对象集合,可以包含一个或多个具有相同的一个或多个数据标签的数据对象。进一步地,可以将同类数据对象共同的数据标签(即将同类数据对象聚合、匹配起来的这些相同的一个或多个数据标签)作为所属的同类数据对象集合所具有的一个或多个数据标签。
运用每个数据平台的同类数据对象的匹配方法,对每个数据平台中的数据对象进行匹配,以获得各个数据平台自身的一个或多个同类数据对象的集合。具体而言,可以对每一个数据对象的一个或多个数据标签进行匹配,将与所述一个或多个数据标签匹配的一个或多个数据对象作为同类数据对象,并进而将这些同类数据对象聚合在一起,得到同类数据对象集合。
一个实施方式中,用于匹配的各个数据对象中的一个或多个数据标签,可以包括第一数据标签、第二数据标签和/或第三数据标签等,即所述一个或多个数据标签可以包括第一数据标签,第二数据标签,第三数据标签中的至少一个。其中,第一数据标签、第二数据标签可以是多个数据对象都具有的属性/特征,例如,书籍的分类号,商品的品牌或货号等等。其中,第三数据标签可以是数据对象所属的叶子类目,具体而言,在每一个数据平台中,可以将数据按照分级类目进行划分,参见图3所示,根据本申请一实施例的同类数据对象的类目结构示意图。图3示出了各个数据平台中,采用的第三数据标签即叶子类目,作为待匹配和聚合的同类数据对象的特征之一,在数据对象搜索应用的类目结构中的位置。
一级类目为最顶层类目,可以按照性质将数据对象划分为不同的类目,例如:通信、计算机等。进一步地,可以将一级类目中的数据对象划分出下级子类目(二级类目),例如一级类目中的通信类目下的二级目录可以包括:有线通信、无线通信等。依此类推,通过该方式可以对数据对象所属的类目逐步进行更细粒度的划分,最终获得数据对象的叶子类目,该叶子类目是最低一级、最接近某一数据对象的类目,例如:无线路由器、无线网卡等。也就是说,可以将数据对象所属的最下一级的叶子类目,作为其匹配同类数据对象使用的第三数据标签。
需要说明的是,用于同类数据对象匹配的数据标签的数量和内容,可以根据各个数据平台自身的特点进行设置,或者,预先将多个数据平台在数据对象匹配过程中需要使用的数据标签进行统一。
进一步地,该实施方式中,可以利用指定的标签对每个数据平台上的所有数据对象做匹配,得到一组或多组同类数据对象,并将这些同类数据对象聚合一起,得到每个数据平台的一个或多个同类数据对象集合。之后,还可以将每一个数据平台各自获得的一个或多个同类数据对象集合发送至核心服务器,以做进一步的处理。另外,也可以发送到某一数据平台或数据处理中心进行进一步的处理。下面主要以核心服务器为例来介绍本申请的一实施例。其中,核心服务器可以是独立于各个数据平台所属服务器的第三方服务器,也可以是位于多个数据平台中的一个数据平台所在的服务器,不限于此两种情形。该核心服务器主要可以用于接收来自多个数据平台的一个或多个同类数据对象集合,并基于接收的一个或多个同类数据对象进行关联和挖掘,以确定跨数据平台的海量数据对象中的绝对同类数据对象集合。
进一步的,由于从每一数据平台可以获取一个或多个同类数据对象集合,不同数据平台对同类数据对象的聚合方式不同。为了将不同数据平台上的数据对象进行比较,可以从第一数据平台选择一第一同类数据对象集合,从第二数据平台选择一第二同类数据对象集合,将选择的第一同类数据对象集合与第二同类数据对象集合进行比较。不同数据平台对同类数据对象的聚合方式不同,因此,第一同类数据对象集合及第二同类数据对象集合的数据对象的聚合方式可以不同。
为提升比较效率,也可以将不同数据平台的多个同类数据对象集合进行关联。具体而言,可以将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。每个数据平台可以有一个或多个(两个、甚至两个以上)的同类数据对象集合。换言之,可以将来自多个不同的数据平台、并且具有相同第一数据标签、第二数据标签、第三数据标签(叶子类目)的多个同类数据对象集合进行关联,进而形成存在关联关系的多个同类数据对象集合。关联起来的不同数据平台的多个同类数据对象集合,可以看做这些集合中的同类数据对象是“相对”的同类数据对象。如图1中的第一数据平台101有一个或多个同类数据对象集合1011,其中包括某一个同类数据对象集合S1,而第二数据平台102有一个或多个同类数据对象集合1012,其中包括某一个同类数据对象集合S2。则可以利用分别构成集合S1、S2的数据标签,如上述的第一至第三数据标签,将第一、第二数据平台101、102中的两个集合S1和S2关联起来(如:一个或多个上述数据标签相同和/或相似,或者说,数据对象中用于匹配同类、并聚合在一起所使用的属性/特征等至少有一个相同和/或相似,等等),两个集合中的同类数据对象可以视为(或者说暂时为)同类的数据对象(相对)。这里的关联方式仅为一个例子,本申请并不限于此例子的关联方式。
关联各个不同数据平台的同类数据对象集合,可以提升数据对象搜索的准确率和搜索效率,能跨平台从海量数据对象中,将相同类型的数据对象都搜索出来。
但由于相关联的多个同类数据对象集合S1、S2来自不同的数据平台101、102,并且每个数据平台101、102的同类数据对象的匹配方法也可能不相同(如选用的数据标签不尽相同),使得仍然可能存在集合S1、S2中的同类数据对象,相互之间并不是真正的同类数据对象(绝对意义上的同类数据对象)。从而,在跨平台搜索时,仍然存在搜索结果并不完全准确的情形。如集合S1是2G手机的集合,而集合S2是2G手机配件的集合,但都有相同的数据标签“2G手机”,因此,可以将集合S1和集合S2关联起来。但实际上,如果跨平台搜索2G手机,则可以将集合S1、S2中的数据对象都作为搜索结果发送给搜索用户。而来自集合S2的数据对象并不是用户需要的,即是多余的噪声。对于跨平台海量数据搜索来说,这样的搜索结果噪声过多、准确率仍然偏低。因此,为了更进一步减少噪声、提高搜索准确率,对相关联的多个同类数据对象集合,还可以进一步处理。在对相关联的多个同类数据对象集合进行的进一步处理包括:确定这些相关联的多个同类数据对象集合是否互为同类数据对象集合(真正的同类数据对象集合即绝对同类数据对象集合),换言之,各个集合中的同类数据对象是不是真正意义上的同类数据对象即绝对同类数据对象。
在步骤S220处,根据每一个同类数据对象集合的核心词词组,计算两个或两个以上(多个)同类数据对象集合之间的相似度,以确定绝对同类数据对象集合。
多个同类数据对象集合之间的相似度可以理解为,将多个同类数据对象集合按照排列组合的方法,计算任意两个同类数据对象集合之间的相似度。比如,当前有来自三个不同数据平台的同类数据对象集合Sa、同类数据对象集合Sb、同类数据对象集合Sc,则排列组合得到SaSb、SaSc、SbSc三种组合形式,根据这三种组合形式分别计算Sa和Sb,Sa和Sc,Sb和Sc的相似度。
绝对同类数据对象集合可以是分属不同数据平台的同类数据对象集合进一步合并而成。在绝对同类数据对象集合中,分别来自不同数据平台的数据对象也构成同类数据对象。
两个同类数据对象集合的比较即两个同类数据对象集合中的数据对象比较。步骤S220包括子步骤S221-S223。如图4所示,图4是根据本申请一实施例的计算同类数据对象集合的相似度的方法的流程图。
在步骤S221处,分别挖掘任意两个同类数据对象集合中的每一个同类数据对象的核心词,以形成每一个同类数据对象集合的核心词词组。
核心词是最能体现该数据对象的内容的一个关键字。可以基于所述每一个数据对象所包含的内容和/或数据标签,挖掘每一个数据对象的核心词。
优选地,可以先对数据对象的内容(描述数据对象的这些内容可以包括标题等)和/或叶子类目(第三数据标签)进行分词,进而从中抽取出一个或多个体现该数据对象的关键字,再将出现频次最高的一个或多个关键字作为核心词。例如,某数据对象所属的叶子类目为“老年人手机”,该数据对象的标题(内容)为“诺基亚1050手机,超薄直板正品手机”,那么可以对叶子类目“老年人手机”和“诺基亚1050手机,超薄直板正品手机”进行分词(如:老年人、手机、诺基亚、1050、手机、超薄、直板、正品、手机),提取关键字(如:老年人、手机、诺基亚、1050、手机、超薄、直板、正品、手机),进而可以得到该数据对象的核心词“手机”。
进一步地,可以在每一个同类数据对象集合中获取每一个同类数据对象的核心词。对于每一同类数据对象集合,聚合该同类数据对象集合中的每个数据对象的核心词,形成一个核心词词组。该核心词词组即为该同类数据对象集合的核心词词组。
在步骤S232处,根据每一个同类数据对象集合的核心词词组,计算两个同类数据对象集合之间的相似度。
可以将每个核心词词组作为一个向量(或称作词向量),将核心词词组中的每一个核心词作为该向量中的一个元素。也就是说,一个向量(词向量),是一个同类数据对象集合中的核心词所组合成的词组,可以用符号V或v表示。从一个同类数据对象集合中可以对应的抽取得到一个核心词词组即向量(词向量)。例如,具有四个同类数据对象的同类数据对象集合中,其对应的核心词分别为:手机、老人机、手机、手机。上述核心词组合成词向量,即向量v,可以记作(手机,老人机,手机,手机)。也即是说,计算相关联的多个同类数据对象集合之间的相似度可以是计算相关联的多个同类数据对象集合对应的多个向量的相似度。
在一个实施例中,先可以计算每一个核心词词组中的每个核心词所占的权重(w)。其中,权重w可以是每个核心词在核心词词组中出现的频次,每个核心词在核心词词组中所占的比例等等。
接着,将相关联的多个同类数据对象集合对应的多个向量,组合形成一特定核心词词组(或叫做特定向量、特定词向量)。该组合方式可以是,将所有核心词,以去重方式取出来,作为特定核心词词组中的元素。以两个集合为例,集合S1的核心词词组v1=(a,b,c,a),与集合S1相关联的集合S2的核心词词组v2=(a,b,d),所有核心词a,b,c,d,a,b,d,以去重方式取出,则组合得到的特定核心词词组v=(a,b,c,d)。
然后,每个同类数据对象集合的每个核心词所占的权重w代替集合对应的特定核心词词组中的该核心词,形成相似度计算过程中权重w表示的向量,称为核心词权重向量(简称权重向量)。承上例,可以是,对应集合S1的核心词权重向量V1=(2,1,1,0),对应集合S2的核心词权重向量V2=(1,1,0,1)。
进一步,可以基于每一个核心词词组(向量、词向量)中的每个核心词所占的权重,计算各个核心词权重向量之间的余弦相似度。将核心词权重向量的余弦相似度,作为相关联的多个同类数据对象集合之间的相似度。
下面将以两个相关联的同类数据对象集合S1、S2为例,描述该实施例。同类数据对象集合S1的核心词词组v1=(手机,老人机,手机,手机),同类数据对象集合S2的核心词词组v2=(充电器、充电设备、充电器、充电器),可以组成一个集合S1和集合S2对应的特定核心词词组v=(手机,老人机,充电器,充电设备)。然后,可以将核心词词组中每个核心词的权重w,用来替换该特定核心词词组中对应的核心词,若特定核心词词组中的某一元素未曾出现在核心词词组v1或v2中,则可以用预设的特定权重值来替换该特定核心词词组中的该元素。通过该方式,可以得到每个同类数据对象集合对应的核心词权重向量。
具体地,集合S1和集合S2对应的特定核心词词组v=(手机,老人机,充电器,充电设备)。集合S1的核心词词组v1=(手机,老人机,手机,手机),按核心词出现的次数来计算的核心词权重w,手机出现了3次(权重w),老人机出现了1次,充电器出现0次,充电设备出现0次,那么集合S1对应的核心词权重向量A=(3,1,0,0)。集合S2的核心词词组v2=(充电器、充电设备、充电器、充电器),按核心词出现的次数来计算的核心词权重w,手机出现0次,老人机出现0次,充电器出现3次,充电设备出现1次,则集合S2对应的核心词权重向量B=(0,0,3,1)。
基于每个同类数据对象集合对应的核心词权重向量,计算多个同类数据对象集合之间的余弦相似度。例如,计算集合S1和集合S2的余弦相似度,可以通过计算两个核心词权重向量(A,B)的角的余弦值(cos(θ))来衡量这两个核心词权重向量(同类数据对象集合)的相似度(similarity)。以下为余弦相似度的计算公式,其中,Ai,Bi表示核心词权重向量中的元素。
通过该余弦相似度的计算公式,可以得到核心词权重A和核心词权重B的余弦相似度为0:
本申请还可以采用其他相似度计算的方法,例如,Jaccard相似度系数、欧氏距离(Euclidean distance)等。
在步骤S233处,当所述相似度大于预先设定的阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象。
绝对同类数据对象可以是来自不同数据平台的、具有相同的一个或多个数据标签、以及具有相同或相似核心词的多个数据对象。绝对同类数据对象集合可以是来自不同数据平台的、具有相同的一个或多个数据标签、并具有一定相似度的多个同类数据对象集合,换言之,该绝对同类数据对象集合可以包括来自各个数据平台的互为同类数据对象的多个数据对象。
确定了绝对同类数据对象集合,则可以整合这些相关联的同类数据对象集合,例如,形成新的跨平台的同类数据对象集合,该集合中的同类数据对象即绝对同类数据对象。
利用设定的阈值进行绝对同类数据对象集合的确定,具体而言,可以对相关联的两个同类数据对象集合进行相似度计算(如采用上述各种计算方式),并将计算得到的相似度与该预设的相似度阈值进行比较。若所述相似度大于或等于所述相似度阈值,则表示关联的两个同类数据对象集合为绝对同类数据对象集合,各个集合中的数据对象是绝对同类数据对象,进而还可以将这些关联的集合整合成一个新的集合;若所述相似度小于所述相似度阈值,则表示所述两个同类数据对象集合不是绝对同类数据对象集合,则相关联的同类数据对象集合的数据对象,以集合和集合对比而言,也不是绝对同类数据对象,比如S1中的a、b与S2中的c、d不互为同类数据对象。
本申请通过上述方法可以在跨数据平台的海量数据对象中进行同类数据对象的匹配,准确性更高,且提升了匹配、聚合数据对象以及搜索数据对象的效率以及准确度。并且,由于本申请采用对两个同类数据对象集合进行相似度计算,所以对同类数据对象的容错能力更强,可以允许在同类数据对象集合中出现误差,即非同类数据对象的出现。
本申请还提供了一种同类数据对象的匹配装置。如图5所示是根据本申请一实施例的同类数据对象的匹配装置500的结构图。
本申请所述的装置500可以包括,获得模块510,可以用于分别获得多个同类数据对象集合;聚合模块520,可以用于根据每一个同类数据对象集合的核心词词组以计算两个同类数据对象集合之间的相似度。
其中,聚合模块520包括:挖掘与形成模块521可以用于分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;计算模块522,可以用于计算任意两个同类数据对象集合的核心词词组的相似度;确定模块523,可以用于当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中数据对象确定为同类数据对象。
在根据本申请的一个实施例中,所述同类数据对象集合分别来自不同数据平台。
在根据本申请的一个实施例中,所述获得模块510,进一步包括:在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据对象的集合,其中,所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对象。在根据本申请的一个实施例中,所述获得模块510,进一步包括:将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。在根据本申请的一个实施例中,所述一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数据标签。
获取模块510实现的操作可以参见步骤S210描述的处理。
在根据本申请的一个实施例中,聚合模块520中,挖掘与形成模块521,进一步包括:基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。挖掘与形成模块521实现的操作可以参见步骤S221描述的处理。
在根据本申请的一个实施例中,聚合模块520中,计算模块522,进一步包括:计算每一个所述核心词词组中的每一个核心词所占的权重;基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似度。计算模块522实现的操作可以参见步骤S222描述的处理。
在根据本申请的一个实施例中,聚合模块520中,确定模块523实现的操作可以参见步骤S221描述的处理。
由于图5所描述的本申请的装置所包括的各个模块的具体实施方式与本申请的方法中的步骤的具体实施方式是相对应的,由于已经对图1-图4进行了详细的描述,所以为了不模糊本申请,在此不再对各个模块的具体细节进行描述。
本说明书中的各个实施例一般采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块或单元。一般地,程序模块或单元可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。一般来说,程序模块或单元可以由软件、硬件或两者的结合来实现。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块或单元可以位于包括存储设备在内的本地和远程计算机存储介质中。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其主要思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
Claims (10)
1.一种同类数据对象的匹配方法,其特征在于,包括:
分别获得多个同类数据对象集合,所述多个同类数据对象集合分别来自不同数据平台;
分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;
计算任意两个同类数据对象集合的核心词词组的相似度;
当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中的数据对象确定为同类数据对象;
其中,所述挖掘所述同类数据对象集合的每一个数据对象的核心词,包括:
基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。
2.根据权利要求1所述的方法,其特征在于,还包括:
在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据对象的集合;其中,
所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对象。
3.根据权利要求1或2所述的方法,其特征在于,所述分别获得多个同类数据对象集合,还包括:
将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。
4.根据权利要求3所述的方法,其特征在于,所述一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数据标签。
5.根据权利要求1所述的方法,其特征在于,所述计算任意两个同类数据对象集合的核心词词组的相似度,包括:
计算每一个所述核心词词组中的每一个核心词所占的权重;
基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似度。
6.一种同类数据对象的匹配装置,其特征在于,包括:
获得模块,用于分别获得多个同类数据对象集合,所述同类数据对象集合分别来自不同数据平台;
挖掘与获取模块,用于分别挖掘所述同类数据对象集合的每一数据对象的核心词,获取各同类数据对象集合的核心词词组;
计算模块,用于计算任意两个同类数据对象集合的核心词词组的相似度;
确定模块,用于当所述相似度大于设定阈值时,将发生比较的两个同类数据对象集合中数据对象确定为同类数据对象;
其中,所述挖掘与获取模块,进一步包括:基于所述每一个数据对象所包含的内容和/或数据标签,挖掘所述每一个数据对象的核心词。
7.根据权利要求6所述的装置,其特征在于,所述获得模块,进一步包括:
在每一个所述数据平台,对多个数据对象进行匹配,以聚合得到一个或多个同类数据对象的集合,其中,所述同类数据对象集合中包含一个或多个具有相同的一个或多个数据标签的数据对象。
8.根据权利要求6或7所述的装置,其特征在于,所述获得模块,进一步包括:将来自各个不同数据平台的包含相同的一个或多个数据标签的多个同类数据对象集合进行关联。
9.根据权利要求8所述的装置,其特征在于,所述一个或多个数据标签包括第一数据标签、第二数据标签和/或第三数据标签。
10.根据权利要求6所述的装置,其特征在于,所述计算模块,进一步包括:
计算每一个所述核心词词组中的每一个核心词所占的权重;
基于所述每一个所述核心词词组中每一个核心词所占的权重,计算所述多个相关联的所述同类数据对象集合之间的余弦相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310397429.4A CN104424302B (zh) | 2013-09-04 | 2013-09-04 | 一种同类数据对象的匹配方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310397429.4A CN104424302B (zh) | 2013-09-04 | 2013-09-04 | 一种同类数据对象的匹配方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104424302A CN104424302A (zh) | 2015-03-18 |
CN104424302B true CN104424302B (zh) | 2018-09-18 |
Family
ID=52973280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310397429.4A Active CN104424302B (zh) | 2013-09-04 | 2013-09-04 | 一种同类数据对象的匹配方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104424302B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951553B (zh) * | 2015-06-30 | 2018-11-27 | 成都蓝码科技发展有限公司 | 一种数据处理准确的内容搜集与数据挖掘平台及其实现方法 |
CN107193884B (zh) * | 2017-04-27 | 2021-03-02 | 北京小米移动软件有限公司 | 一种匹配数据的方法和装置 |
CN107291815A (zh) * | 2017-05-22 | 2017-10-24 | 四川大学 | 基于跨平台标签融合的问答社区推荐方法 |
CN109660574B (zh) * | 2017-10-10 | 2022-03-04 | 阿里巴巴集团控股有限公司 | 数据提供方法及装置 |
CN108196885B (zh) * | 2017-11-27 | 2021-07-27 | 腾讯科技(上海)有限公司 | 对象组的确定方法和装置、存储介质、电子装置 |
CN109034248B (zh) * | 2018-07-27 | 2022-04-05 | 电子科技大学 | 一种基于深度学习的含噪声标签图像的分类方法 |
CN109558468B (zh) * | 2018-12-13 | 2022-04-01 | 北京百度网讯科技有限公司 | 资源的处理方法、装置、设备和存储介质 |
CN112711699B (zh) * | 2019-10-24 | 2023-04-07 | 上海哔哩哔哩科技有限公司 | 用户划分方法、系统、计算机设备及可读存储介质 |
CN113139085B (zh) * | 2020-01-20 | 2023-03-21 | 上海哔哩哔哩科技有限公司 | 用户兴趣的挖掘方法及系统 |
CN112906396A (zh) * | 2021-04-01 | 2021-06-04 | 翻车信息科技(杭州)有限公司 | 一种基于自然语言处理的跨平台商品匹配方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436505A (zh) * | 2010-12-16 | 2012-05-02 | 微软公司 | 导出文档相似性索引 |
CN102955849A (zh) * | 2012-10-29 | 2013-03-06 | 新浪技术(中国)有限公司 | 基于标签推荐文档的方法及文档推荐装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715542B2 (en) * | 2005-08-03 | 2017-07-25 | Search Engine Technologies, Llc | Systems for and methods of finding relevant documents by analyzing tags |
-
2013
- 2013-09-04 CN CN201310397429.4A patent/CN104424302B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102436505A (zh) * | 2010-12-16 | 2012-05-02 | 微软公司 | 导出文档相似性索引 |
CN102955849A (zh) * | 2012-10-29 | 2013-03-06 | 新浪技术(中国)有限公司 | 基于标签推荐文档的方法及文档推荐装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104424302A (zh) | 2015-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104424302B (zh) | 一种同类数据对象的匹配方法和装置 | |
CN108804532B (zh) | 一种查询意图的挖掘和查询意图的识别方法、装置 | |
US9449271B2 (en) | Classifying resources using a deep network | |
CN104123332B (zh) | 搜索结果的显示方法及装置 | |
US8341185B2 (en) | Method and apparatus for context-indexed network resources | |
US20170357714A1 (en) | Query Understanding Pipeline | |
US20130138429A1 (en) | Method and Apparatus for Information Searching | |
CN105631707A (zh) | 基于决策树的广告点击率预估方法与应用推荐方法及装置 | |
EP2856342A2 (en) | Method and apparatus of recommending candidate terms based on geographical location | |
US20210133271A1 (en) | Uniform resource identifier encoding | |
CN105677780A (zh) | 可拓展的用户意图挖掘方法及其系统 | |
JP2014515514A (ja) | 提案される語を提供するための方法および装置 | |
US11947595B2 (en) | Storing semi-structured data | |
US10922352B2 (en) | Placard-to-pin interaction | |
CN103927177A (zh) | 基于LDA模型和PageRank算法建立特征接口有向图的方法 | |
US9336311B1 (en) | Determining the relevancy of entities | |
US9015152B1 (en) | Managing search results | |
CN103678400B (zh) | 基于群体搜索行为的网页分类方法及装置 | |
US10510095B2 (en) | Searching based on a local density of entities | |
CA2920825C (en) | Uniform resource identifier encoding | |
US20230177581A1 (en) | Product metadata suggestion using embeddings | |
CN106407215A (zh) | 一种数据处理方法及装置 | |
CN116992109A (zh) | 目录生成方法、装置、电子设备及存储介质 | |
CN114707087A (zh) | 属性识别方法、装置及电子设备 | |
CN110020029A (zh) | 一种文档与查询词的相关性获取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |