CN103678327B

CN103678327B - 一种信息关联的方法及装置

Info

Publication number: CN103678327B
Application number: CN201210322651.3A
Authority: CN
Inventors: 简勤; 郭正平; 王全礼; 张红岩; 王容; 徐凯旋
Original assignee: China Mobile Group Sichuan Co Ltd
Current assignee: China Mobile Group Sichuan Co Ltd
Priority date: 2012-09-04
Filing date: 2012-09-04
Publication date: 2017-02-22
Anticipated expiration: 2032-09-04
Also published as: CN103678327A

Abstract

本发明公开了一种信息关联的方法及装置，其中该方法包括：获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合；递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合。采用本发明提供的方法，能够将一种数据在网络上的所有相关信息关联起来，形成一个一体化的数据集合，提高数据使用效率。

Description

一种信息关联的方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种信息关联的方法及装置。

背景技术

随着互联网数据越来越庞大，获取的数据种类和数量也越来越多，从互联网上获取数据源已经不是什么难题。但是由于互联网数据的不规整性，将获取的异构数据关联起来成为目前的一个难题，另外不同的异构数据库描述的数据一般都有自己格式，将不同异构数据库直接的数据进行融合也需要数据关联处理。一般情况下我们一些已有的目标值，然后从互联网上或者从其他异构数据库中获取相关的信息，比如音乐领域我们有了歌曲、歌手、专辑中的某一种或者几种信息，如果从互联网上获取相关的所有信息并将其关联起来使用是很有价值的，因为互联网数据具有不规整性的特点。

目前常用的做法是通过文本相似度计算，这种方法很大的缺陷是完全根据字符串相似度进行的，而没有考虑文本描述对象包括哪些维度，也就是没有从对象本身考虑问题，这样当一个文本错位严重或者文本不规则时，通过通用的文本相似度计算方法会造成很多错误的结果。

发明内容

为了解决现有技术中异构数据无法关联的技术问题，本发明提出一种信息关联的方法及装置，能够将一种数据在网络上的所有相关信息关联起来，形成一个一体化的数据集合，提高数据使用效率。

本发明的一个方面，提供一种信息关联的方法，包括：

获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合；

递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合。

本发明的另一个方面，还提供一种信息关联的装置，包括升维模块和匹配模块，其中

所述升维模块，用于获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合；

所述匹配模块，用于递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合。

本发明实施例提出的信息关联的方法及装置，通过采用升维法将某一种数据在互联网上所有的相关信息关联起来，然后通过解决冲突的排序策略将同一种关联信息进行再区分，最终形成一个一体化数据集合，用来解决互联网领域数据不规整的特点，提高数据的使用效率。

附图说明

图1是本发明实施例中升维法模型的结构示意图；

图2是本发明实施例中信息关联方法的流程图；

图3是本发明实施例中数据值分解后的示意图；

图4是本发明实施例中将待关联信息描述文本的数据值分解到多维空间的流程图；

图5是本发明实施例中样本集合到匹配集合关联训练的流程图；

图6是本发明实施例中目标集合到匹配集合关联训练的流程图；

图7是本发明实施例中以歌曲为例进行信息关联的示意图；

图8是本发明实施例中信息关联装置的结构示意图；

图9是本发明实施例中升维模块的结构示意图；

图10是本发明实施例中匹配模块的结构示意图。

具体实施方式

本发明是通过升维法将某一种数据在互联网上所有的相关信息关联起来，然后通过解决冲突的策略将同一种关联信息进行再区分，最终形成一个一体化数据集合。

本发明信息关联的方法实施例中，将待关联信息的描述文本的数据值分解到多维空间是通过升维法进行的。升维法模型如图1所示，对于给定m个目标值集合S1，S2…Sm，给定n个相关数据信息集合S1，S2…Sn，每个信息集合中包含了某一类型数据对象值及相关属性序列，目标就是通过本发明设计的数据关联方法将n个相关数据信息集合关联到m个目标集合中，即：S1，S2…Sn—>S1,S2,Sm,形成某一领域的数据全集，完成异构数据的数据融合。

该模型描述如下：假设一条文本描述一个对象，我们的目标是从n个用文本描述的匹配对象中找到匹配最合理的对象列表出来，目前常用的做法是通过文本相似度计算，这种方法很大的缺陷是完全根据字符串相似度进行的，而没有考虑文本描述对象包括哪些维度，也就是没有从对象本身考虑问题，这样当一个文本错位严重或者文本不规则时，通过通用的文本相似度计算方法会造成很多错误的结果，一个对象可以通过多个维度或者是多个方面对其进行描述，我们比较两个对象时可以通过对其各个维度进行比较得到两个对象是否匹配合理，另外如果只靠本身的维度不能判断是否匹配合理，我们还可以通过相关的辅助维度进行对比。本模型首先采用将文本拆分进行升维处理得到主维度和次维度数据值进行分类对比，如果不能得到匹配列表，再根据辅助维度进行对比，直到得到一个匹配合理的列表为止。

如图2所示，本发明实施例提出的信息关联的方法，包括以下步骤：

步骤101、获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合；

步骤102、递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合。

本发明通过升维的方法进行互联网数据间的关联，升维的方法分为两种，一种是对数据值进行分解以增加维度空间，另一种是通过增加相关维度的方式进行的。

如图3所示，数据值分解法是将一个文本数据值升维是指将数据值从一维空间分解到n维空间，一般情况下互联网上大多数一条文本数据值描述的信息有多个方面，但是如果从整体上判断出具体涉及到哪些方面，为判断两条文本数据是否在描述同一个问题造成很大的困难，因此本发明实施例采取升维的方法将其分解到多个维度空间中，这样就可以方便的判断一条文本是描述一个问题对应的多个维度；

如图4所示，通过数据值分解将待关联信息的描述文本的数据值分解到多维空间的具体步骤如下：

步骤401、遍历待关联信息的描述文本的每个数据值；

步骤402、将每个数据值分解为不少于一个的子数据值；

步骤403、将所述不少于一个的子数据值分为主子数据值集合、次子数据值集合和/或辅助子数据值集合，所述主子数据值集合作为主维度集，次子数据值集合作为次维度集，辅助子数据值集合作为辅助维度集。

这样就将一个待关联信息的描述文本中的多个描述对象分解在多个不同的维度集合中，以便下一步分别进行对比。

另一种升维的方式是通过增加辅助维度。一个问题可以用多个文本数据进行描述，如果以其中一条文本数据描述为准，那么另外的文本数据描述准确度就会有差别，我们可以通过辅助维度将这些文本准确度排序，得到一个描述问题准确度的序列。这样做的目的是为了解决第一种升维法不能解决的问题，第一种升维法可以解决大部分的数据关联问题，但是存在一些缺陷，比如一个目标数据经过第一种升维法数据对比后仍然存在关联度完全一样的数据，对于关联度一样的数据可以通过增加维度的方式进行再对比直到区分开为止。

因此，在将待关联信息的描述文本数据值分解升维的同时，也可以将一些辅助信息作为辅助维度，以便解决第一种升维方法对比后仍然存在关联度完全一致的数据的情况。

将待关联信息的描述文本数据值分解为主维度集、次维度集和/或辅助维度集之后，需要通过训练的方式得到最终的关联维度集合，通过递增选取维度集合中的维度值进行目标匹配，当出现多个相同匹配数据时，说明发生了匹配冲突，出现这种情况采用继续升维的方式再匹配，如果所有维度都使用后如果还有冲突，说明在该维度集合下它们是完全相同的数据，我们只需选取其中一个数据即可。

其具体方法如下所述：

第一步，输入样本集合，所述样本集合包括主维度集、次维度集和/或辅助维度集；

匹配集合S＝{M1，M2…Mn}，其中Mi为某一元素对象，里面包含了本身数据值及对应的辅助维度的值。

样本集合S1＝{V1，V2…Vm},其中Vi为某一元素对象，包含了本身数据值及辅助维度值，对应S关联是数据列表。

目标集合S2＝{D1，D2…Dk}，其中Di为某一元素对象，包括了本身数据值及对应的辅助维度值。

第二步，将所述样本集合S1与匹配集合S进行关联训练得到训练维度值集合S’；

将所述样本集合S1与匹配集合S中的各个维度值进行对比，得到样本集合S1到匹配集合S的数据关联列表；

当所述数据关联列表无并列数据且所述数据关联列表和所述匹配集合中已有的关联数据保持一致，则关联成功，得到训练维度值集合S’。

当所述数据关联列表中有并列数据时，通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比，直到所述数据关联列表中没有并列数据。当次维度集合遍历结束后，所述数据关联列表中仍然存在并列数据，增加辅助维度集合中的维度。

如果所述数据关联列表和所述匹配集合中已有的关联数据不一致，则调整维度集合中的匹配顺序进行重新训练。

S1到S的关联训练具体如图5所示，训练过程描述如下：

1)将小样本集合S1及匹配集合S数据升维并填充各个维度值；

2)首先通过两个集合中的主维度集合中的各个维度值进行对比；

3)通过对比得到S1->S的数据关联列表；

4)判断S1中各个元素对应的关联列表是否有并列数据，如果无并列数据且数据关联列表和S中已有的关联数据保持一致，则转6)，如果不一致则转7)，否则转5)；

5)通过递增选取次维度集合及辅助维度集合中的各个维度值进行对比直到次维度集合遍历结束或者关联列表中没有重复的关联数据为止。如果次维度集合遍历结束仍然有重复的关联数据，则转7)，否则转6)；

6)关联成功，返回维度集合；

7)关联失败；

这里设置样本的时候保证样本集合S1->S的数据关联列表没有重复的，这样才能保证得到的维度集合是有效的，另外对于4)中失败的情况，可以通过调整维度集合中的匹配顺序进行重新训练，对于5)中的关联失败情况可以通过增加辅助维度集合中的维度来解决。

第三步，将所述训练维度值集合与目标集合进行关联得到关联维度集合。

将所述训练维度值集合S’与目标集合S进行对比得到目标集合的数据关联列表；

如果所述目标集合的数据关联列表中无并列数据，则通过所述目标集合的数据关联列表进行反向匹配样本集合到匹配集合的关联，得到样本集合到匹配集合的数据关联列表；

如果和已有的数据关联列表相同，则关联成功，得到关联维度集合。

如果所述目标集合的数据关联列表中有并列数据，则通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比，直到所述数据关联列表中没有并列数据。

当次维度集合遍历结束后，所述数据关联列表中仍然存在并列数据，增加辅助维度集合中的维度。

如果与已有的关联数据不一致，则调整维度集合中的匹配顺序进行重新训练。

S2到S的训练过程见如图6所示，训练过程描述如下：

1)输入S2及S，并进行数据升维及维度值填充；

2)根据样本训练得到的维度集合对比得到S2各条数据关联列表；

3)判断关联列表中是否有并列数据，如果无则转5)，如果存在则转至4)；

4)通过递增选取次维度集合及辅助维度集合中的各个维度值进行对比直到次维度集合遍历结束或者关联列表中没有重复的关联数据为止。如果次维度集合遍历结束仍然有重复的关联数据，则转7)，否则转5)；

5)通过得到的新维度集合进行反向匹配S1到S的关联，如果和已有的数据关联列表保持一致，则转6)，否则转7)；

6)关联成功，返回维度集合；

7)关联失败；

对于5)中失败的情况，可以通过调整维度集合中的维度匹配顺序进行重新匹配训练，对于4)中的关联失败情况可以通过增加辅助维度集合中的维度来解决。

总之，本发明实施例提供的这种方法是基于升维度法的数据关联方法，将某一种数据在互联网上所有的相关信息关联起来，由于是通过一个对象多个维度去和另一个对象进行比较，因此具有关联精准的优势。

下面以歌曲信息关联为例进行说明。

给定歌曲集合及歌手集合，从互联网上可以获取到专辑、专辑介绍、专辑图片、歌手介绍、歌手图片、歌曲评价、专辑评价、歌手评价等相关音乐信息集合，通过将这些孤立数据信息集合与目标集合关联成一个关于音乐的数据全集，关联后就可以得到一首歌曲的完整性信息。比如歌曲所在专辑有哪些，对这首歌的评价，所在专辑的介绍、对这首歌的介绍、所在专辑图片、歌曲图片、歌手图片等，形成这样的信息全集后就可以通过搜索或者直接展示的方式得到这首歌曲的所有相关信息，提高用户对这首歌曲的认知度。

由于互联网上的歌曲名信息一般情况下都很不规整，比如“忘情水国语(现场版)”，如果目标集合中的歌曲为“忘情水”，采用文本相似度的匹配算法会造成相似度很低，很难将这两者关联起来，另外即使关联起来也很难清楚这首歌曲名包含的具体信息有哪些，有可能与歌曲“忘情号”及“忘情酒”进行错误关联。

采用升维的方法，将歌曲信息分解为歌曲名、版本、类型、语种、年代、歌手、专辑、Url统一资源定位符地址以及时间等维度，将歌曲名作为主维度集合中的子数据值，将版本、类型、语种和年代作为次维度集合中的子数据值，将歌手、专辑、Url统一资源定位符地址和时间作为辅助维度集合中的子数据值。这样通过子数据的精确对比就可以进行正确的数据关联，另外可以得到歌曲的详细信息。如果一首歌曲匹配得到多个歌曲和对应的专辑，可以通过增加歌手维度及歌曲所在url等维度作为辅助维度进行信息关联。

具体的信息关联方法如下：

先比对主维度集合，通过主维度集合的“忘情水”子数据值与互联网上获取到的信息集合进行对比，对比之后如果得到完整匹配的数据，即互联网上的关于“忘情水”的歌曲信息只有一个，则最终信息关联的结果输出。

如果还有重复数据，例如存在两条关于“忘情水”的歌曲信息，分别是：“忘情水，现场版，铃声”和“忘情水，现场版，MV”，则比对次维度集合，由于次维度集合中类型为铃声，对比之后只与这两条信息中的一条“忘情水，现场版，铃声”建立了唯一的关联关系，因此作为关联结果输出。

如果主维度集合和次维度集合对比之后仍然有其他数据存在，则对比辅助维度集合，例如通过主维度集合和次维度集合关联后得到多条数据，在这些数据中，歌手除了“刘德华”之外，还有“刘德凯”，那么就通过辅助维度集合进行对比。得到与辅助维度集合中的子数据值“刘德华”对应的关联信息。

如果这些维度比对后仍有重复的数据则可以当做一条数据。

另外，如果通过主维度、次维度以及辅助维度进行对比后得不到理想的结果，可以通过调整各维度集合中的各子数据值的顺序，再重新进行关联。例如，如果通过次维度集合中“版本、类型、语种和年代”的顺序进行信息关联后得不到结果，那么根据歌曲名“忘情水”的特点可以将顺序调整为“类型、版本、语种和年代”重新进行关联，以得到合理的结果。

本发明的实施例还提供了一种用于实现上述方法的装置，如图8所示，包括升维模块801和匹配模块802，其中

升维模块801，用于获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合；

所述匹配模块802，用于递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合。

如图9所示，所述升维模块801进一步包括遍历单元901、分解单元902和分类单元903，其中

遍历单元901，用于遍历待关联信息的描述文本的每个数据值；

分解单元902，用于将每个数据值分解为不少于一个的子数据值；

分类单元903，用于将所述不少于一个的子数据值分为主子数据值集合、次子数据值集合和/或辅助子数据值集合，所述主子数据值集合作为主维度集，次子数据值集合作为次维度集，辅助子数据值集合作为辅助维度集。

如图10所示，匹配模块802进一步包括输入单元1001、训练单元1002和关联单元1003，其中

输入单元1001，用于输入样本集合，所述样本集合包括主维度集、次维度集和/或辅助维度集；

训练单元1002，用于将所述样本集合与匹配集合进行关联训练得到训练维度值集合；

关联单元1003，用于将所述训练维度值集合与目标集合进行关联得到关联维度集合。

具体的，所述训练单元用于

将所述样本集合与匹配集合中的各个维度值进行对比，得到样本集合到匹配集合的数据关联列表；

当所述数据关联列表无并列数据且所述数据关联列表和所述匹配集合中已有的关联数据保持一致，则关联成功，得到训练维度值集合。

当所述数据关联列表中有并列数据时，通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比，直到所述数据关联列表中没有并列数据。

具体的，所述关联单元用于：

将所述训练维度值集合与目标集合进行对比得到目标集合的数据关联列表；

应说明的是：以上实施例仅用以说明本发明而非限制，本发明也并不仅限于上述举例，一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围中。

Claims

1.一种信息关联的方法，其特征在于，包括以下步骤：

递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合；

所述递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合的步骤包括：

输入样本集合，所述样本集合包括主维度集、次维度集和/或辅助维度集；

将所述样本集合与匹配集合进行关联训练得到训练维度值集合；

将所述训练维度值集合与目标集合进行关联得到关联维度集合；

所述将样本集合与匹配集合进行关联训练得到训练维度值集合的步骤还包括：

当所述数据关联列表中有并列数据时，通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比，直到所述数据关联列表中没有并列数据；

所述获取待关联信息的描述文本，将所述描述文本的数据值分解到多维空间，得到待关联信息的匹配集合的步骤包括：

遍历待关联信息的描述文本的每个数据值；

将每个数据值分解为不少于一个的子数据值；

将所述不少于一个的子数据值分为主子数据值集合、次子数据值集合和/或辅助子数据值集合，所述主子数据值集合作为主维度集，次子数据值集合作为次维度集，辅助子数据值集合作为辅助维度集。

2.根据权利要求1所述的方法，其特征在于，所述将样本集合与匹配集合进行关联训练得到训练维度值集合的步骤还包括：

当所述数据关联列表无并列数据且所述数据关联列表和所述匹配集合中已有的关联数据相同，则关联成功，得到训练维度值集合。

3.根据权利要求1所述的方法，其特征在于，所述通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比的步骤还包括：

4.根据权利要求2所述的方法，其特征在于，所述当所述数据关联列表无并列数据且所述数据关联列表和所述匹配集合中已有的关联数据保持一致，则关联成功，得到训练维度值集合步骤后还包括步骤：

如果所述数据关联列表和所述匹配集合中已有的关联数据不一致，则调整所述各维度集合中的匹配顺序进行重新训练。

5.根据权利要求1所述的方法，其特征在于，所述将所述训练维度值集合与目标集合进行关联得到关联维度集合的步骤包括：

如果和已有的样本数据列表相同，则关联成功，得到关联维度集合。

6.根据权利要求5所述的方法，其特征在于，所述如果所述目标集合的数据关联列表中无并列数据，则通过所述目标集合的数据关联列表进行反向匹配样本集合到匹配集合的关联，得到样本集合到匹配集合的数据关联列表步骤后还包括：

7.根据权利要求6所述的方法，其特征在于，所述通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比的步骤还包括：

8.根据权利要求5所述的方法，其特征在于，所述如果所述目标集合的数据关联列表中无并列数据，则通过所述目标集合的数据关联列表进行反向匹配样本集合到匹配集合的关联，得到样本集合到匹配集合的数据关联列表的步骤后还包括步骤：

9.一种信息关联的装置，其特征在于，包括升维模块和匹配模块，其中

所述匹配模块，用于递增选取所述待关联信息的匹配集合中的维度值与目标集合中的维度值进行匹配，获得关联维度集合；

所述匹配模块包括输入单元、训练单元和关联单元，其中，

所述输入单元，用于输入样本集合，所述样本集合包括主维度集、次维度集和/或辅助维度集；

所述训练单元，用于将所述样本集合与匹配集合进行关联训练得到训练维度值集合；

所述关联单元，用于将所述训练维度值集合与目标集合进行关联得到关联维度集合；

所述训练单元还用于将所述样本集合与匹配集合中的各个维度值进行对比，得到样本集合到匹配集合的数据关联列表；

所述训练单元还用于当所述数据关联列表中有并列数据时，通过递增选取次维度集合和/或辅助维度集合中的各个维度值进行对比，直到所述数据关联列表中没有并列数据；

所述升维模块包括遍历单元、分解单元和分类单元，其中

所述遍历单元，用于遍历待关联信息的描述文本的每个数据值；

所述分解单元，用于将每个数据值分解为不少于一个的子数据值；

所述分类单元，用于将所述不少于一个的子数据值分为主子数据值集合、次子数据值集合和/或辅助子数据值集合，所述主子数据值集合作为主维度集，次子数据值集合作为次维度集，辅助子数据值集合作为辅助维度集。

10.根据权利要求9所述的装置，其特征在于，所述训练单元还用于

11.根据权利要求9所述的装置，其特征在于，所述训练单元还用于

12.根据权利要求10所述的装置，其特征在于，所述训练单元还用于：

13.根据权利要求9所述的装置，其特征在于，所述关联单元用于：

14.根据权利要求13所述的装置，其特征在于，所述关联单元还用于

15.根据权利要求14所述的装置，其特征在于，所述关联单元还用于

16.根据权利要求13所述的装置，其特征在于，所述关联单元还用于