CN103455623A

CN103455623A - 一种融合多种语言文献的聚类机制

Info

Publication number: CN103455623A
Application number: CN2013104166938A
Authority: CN
Inventors: 袁子牧; 彭澎; 季统凯; 岳强
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2013-12-18
Anticipated expiration: 2033-09-12
Also published as: CN103455623B; WO2015035628A1; EP2876561A1; EP2876561A4; US20170235823A1

Abstract

本发明涉及信息检索技术领域，特别涉及一种融合多种语言文献的聚类机制。本发明按如下步骤进行：步骤1，建立包含多种语言词汇的近义词库;步骤2，提取8种特征值；步骤3，根据特征值，计算任意两篇文献i和j的相似度；步骤4，在文献集合中选择聚点，建立聚类；步骤5，将文献集合中剩余的文献加入到聚类之中；步骤6，将聚类置于圆环结构之中。本发明不限定聚类机制中文献语言的类别，依据相似度判断从文献中选择聚点并建立聚类，将不同语言的文献归于聚类之中；可用于多种语言文献的聚类中。

Description

一种融合多种语言文献的聚类机制

技术领域

本发明涉及信息检索技术领域，特别涉及一种融合多种语言文献的聚类机制。

背景技术

接触互联网的用户时常会在搜索引擎上查找自身关注的内容。类似于搜索引擎这类信息检索系统，通常是针对大批量数据进行过滤检索，并且要求处理时间足够快，以提供给用户及时的响应，避免用户的等待。

信息检索系统中的聚类技术为检索时以足够快的速度为用户提供充分的信息提供了保障。聚类是指对信息检索系统中的信息进行类别划分，它是对信息检索系统的一种有效改进策略，能提供给用户较为齐全的信息。在信息检索中应用聚类技术能使用户在检索信息的过程中快速定位到自己感兴趣的内容。相较未引用聚类技术的信息检索系统，使用聚类技术能起到降低用户等待时间的作用，有若分类更加清晰的特点。

发明内容

本发明解决的技术问题设计一种聚类机制，使得其能融合多种语言文献。

本发明解决上述技术问题的技术方案是:

按如下步骤进行:

步骤1，建立包含多种语言词汇的近义词库;

步骤2，提取8种特征值;

步骤3，根据特征值，计算任意两篇文献i和j的相似度;

步骤4，在文献集合中选择聚点，建立聚类;

步骤5，将文献集合中剩余的文献加入到聚类之中;

步骤6，将聚类置于圆环结构之中。

步骤1中，在词库的每一行中，都记录着意思相同或相近的多种语言词汇，并标记该词汇是动词还是名词。

所述的步骤2中特征值包括引用关系(f₁)、相同参考文献(f₂)、相同字符串(f₃)、近义字符串(f₄)、相同名词(f₅)、近义名词(f₆)、相同动词(f₇)、近义动词(f₈)这八个特征值;这些特征值并不限定于某一种特定的语言，可将多种语言文献融合到聚类分类之中;其中引用文献指在文献中列出的所参考文献，相同字符串指一段组成单词完全相同的字符串，近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串，相同名词指完全相同的名词，近义名词指近义词库中记载在同一行的名词，相同动词指完全相同的动词，近义动词指义词库中记载在同一行的动词;对于某一篇文献i，其特征向量F(i)即为:

F(i)=(f₁(i)，f₂(i)，f₃(i)，f₄(i)，f₅(i)，f₆(i)，f₇(i)，f₈(i))。

步骤3中，八个特征值的重要性为f₁＞f₂＞f₃＞f₄＞f₅＞f₆＞f₇＞f₈;

任意两篇文献i和j的在特征值上的乘积运算:

引用文献的乘积f₁(i)f₁(j)，定义W为i和j中的其中一篇文献被另一篇文献所引用的权值;bool为是否存在引用关系。bool的取值为0或者1，为0表示不存在引用关系，为1表示存在引用关系。计算表达式为:

f₁(i)f₁(j)＝bool×W

相同参考文献的乘积f₂(i)f₂(j)，定义d为权重除法因子并且d≥1；Refs指示参考文献的数目，则Max{Refs(i)，Refs(j)}指在i和j中选择参考文献数目的最大值;CommonRefs(i，j)指i和j这两篇文献中相同的参考文献数目;计算表达式为:

f_{2} (i) f_{2} (j) = \frac{W}{d} \times \frac{CommonRefs (i, j)}{Max {Refs (i), Refs (j)}}

相同字符串的乘积f₃(i)f₃(j)，定义CommonStrs(i，j)为i和j这两篇文献中相同的字符串；Length表示字符串的长度，因此Length(CommonStrs(i，j))表示相同字符串的总长度，Max{Length(i)，Length(j)}指取i和j这两篇文献总长度的最大值；计算表达式为：

f_{3} (i) f_{3} (j) = \frac{W}{d^{2}} \times \frac{Length (CommonStrs (i, j))}{Max {Length (i), Length (j)}}

近义字符串的乘积f₄(i)f₄(j)，定义SimilarStrs(i，j)为i和j这两篇文献中近似的字符串，计算表达式为:

f_{4} (i) f_{4} (j) = \frac{W}{d^{3}} \times \frac{Length (SimilarStrs (i, j))}{Max {Length (i), Length (j)}}

相同名词的乘积f₅(i)f₅(j)，定义CommonNouns(i，j)为i和j这两篇文献中相同的名词;Nouns表示文献中的名词总数，因此Max{Nouns(i)，Nouns(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为:

f_{5} (i) f_{5} (j) = \frac{W}{d^{4}} \times \frac{CommonNouns (i, j)}{Max {Nouns (i), Nouns (j)}}

近义名词的乘积f₆(i)f₆(j)，定义SimilarNouns(i，j)为i和j这两篇文献中意思相近的名词;计算表达式为:

f_{6} (i) f_{6} (j) = \frac{W}{d^{5}} \times \frac{SimilarNouns (i, j)}{Max {Nouns (i), Nouns (j)}}

相同动词的乘积f₇(i)f₇(j)，定义CommonVerbs(i，j)为i和j这两篇文献中相同的动词;Verbs表示文献中的动词总数，因此Mac{Verbs(i)，Verbs(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为:

f_{7} (i) f_{7} (j) = \frac{W}{d^{6}} \times \frac{CommonVerbs (i, j)}{Max {Verbs (i), Verbs (j)}}

近义动词的乘积f₈(i)f₈(j)，定义SimilarVerbs(i，j)为i和j这两篇文献中意思相近的动词;计算表达式为:

f_{8} (i) f_{8} (j) = \frac{W}{d^{7}} \times \frac{SimilarVerbs (i, j)}{Max {Verbs (i), Verbs (j)}}

基于特征值上的乘积运算，任意两篇文献i和j的相似度定义为:

Proximity (i, j) = Σ_{q = 1}^{8} f_{q} (i) f_{q} (j) .

步骤4中，在起始情况下，选择Proximity(i，j)值最小即最不相似的两篇文献作为初始的两个聚点，p₁和p₂，将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择:

p_{m + 1} = Arg \underset{p &NotElement; Points}{Min} {\underset{r = 1,2, . . ., m}{Max} Proximity (p, p_{r})}

在公式中p_r，r=1，2，...，m表示已选为聚点的文献，此时需要从未选为聚点的文献中选择第m+1个聚点，并将该聚点加入集合Points;为上述公式设定一个阈值Th，当选出来的聚点使得

\underset{p &NotElement; Points}{Min} {Max Proximity (p, p_{r})} > Th

时，则停止选取聚点，并且不将该点加入集合Points。

步骤5中，用N表示参与聚类的文献总数目，用M表示选出来的聚点总数目;在初始时，有M篇文献作为聚类的聚点，剩余N-M篇文献要加入这M个聚类之中;用Cluster(p_r)，T=1，2，...，M表示各个聚类集合，最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i，以下式计算最相似的聚类:

p_{q} = Arg \underset{r = 1,2, . . ., M}{Max} {\frac{Σ_{p &Element; Cluster (p_{r})} Proximity (p, i)}{| Cluster (p_{r}) |}}

在公式中，一篇未加入聚类的文献i计算与聚类集合Cluster(p_r)中所有文献的相似程度，取平均值作为文献i与该聚类的相似度;从所有聚类中取值最大的做为与文献i最相似的聚类;这剩余的N-M文献依次加入到聚类集合中，每次选取相似度最大的文献i_q加入聚类集合中，并更新Cluster(p_q)，最终直至所有的文献都加入到聚类集合之中。

步骤6中，将M个聚类放置于圆环结构之中，以使特征较相似的聚类排列在较近位置，特征较不相似的聚类排列在较远位置;在初始时，随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中:

\begin{matrix} (p_{s}, p_{t}) = Arg Max {\frac{Σ_{i &Element; Cluster (p_{r}), j &Element; Cluster (p_{s})} Proximity (i, j)}{| Cluster (p_{r}) | | Cluster (p_{s}) |} \\ + \frac{Σ_{i &Element; Cluster (p_{r}), k &Element; Cluster (p_{t})} Proximity (i, k)}{| Cluster (p_{r}) | | Cluster (p_{t}) |}} \end{matrix}

每一个聚类p_r在加入圆环之时，通过上述公式寻找合适的位置，在最相似的两聚类p_s和p_t之间新加一环放置聚类p_r;在圆环中，离某一聚类p_r越近的聚类则越与p_r相似，否则越远越不相似。

本发明的聚类机制能融合多种语言的文献，通过近义词库将各种语言的词汇串接起来。基于近义词库及其它信息提取特征值，选择聚点进行分类。根据相似度将文献加入聚类之中，并将这些聚类按照相似程度加入到圆环结构中进行排列。本发明能帮助用户通过关键词快速查找到相关分类下所属的一系列文献。相较于没有提供聚类机制时，本发明能以更快的速度提供响应，并且省去用户手工查找的麻烦，亦可减少用户的等待时间;本发明能为文献提供清晰的分类，提供更加精确全面的信息，使得用户能充分了解相关分类中文献所属学科的进展。

附图说明

下面结合附图对本发明进一步说明:

图1是本发明融合多种语言文献聚类机制的实施图;

图2是本发明选择聚点的实施图;

图3是本发明聚类置于圆环结构的实施图;

图4是本发明聚类置于圆环结构的示意图;

图5是本发明新加入一个聚类于圆环结构的示意图。

具体实施方式

如图1至5所示，本发明方法流程是:

首先建立一个近义词库，在词库的每一行中记录着意思相同或相近的多种语言词汇，并标记该词汇是动词还是名词。以N篇文献参与聚类的文献作为输入。

基于近义词库，文章内容和引用等，提取引用关系(f₁)，相同参考文献(f₂)，相同字符串(f₃)，近义字符串(f₄)，相同名词(f₅)，近义名词(f₆)，相同动词(f₇)，近义动词(f₈)这八个特征值组成特征向量F(i)＝(f₁(i)，f₂(i)，f₃(i)，f₄(i)f₅(i)，f₆(i)，f₇(i)，f₈(i))。计算引用文献的乘积f₁(i)f₁(j)=bool×W;计算相同参考文献的乘积

f_{2} (i) f_{2} (j) = \frac{W}{d} \times \frac{CommonRefs (i, j)}{Max {Refs (i), Refs (j)}};

计算相同字符串的乘积

f_{3} (i) f_{3} (j) = \frac{W}{d^{2}} \times \frac{Length (CommonStrs (i, j))}{Max {Length (i), Length (j)}};

计算近义字符串的乘积

f_{4} (i) f_{4} (j) = \frac{W}{d^{3}} \times \frac{Length (SimilarStrs (i, j))}{Max {Length (i), Length (j)}};

计算相同名词的乘积

f_{5} (i) f_{5} (j) = \frac{W}{d^{4}} \times \frac{CommonNouns (i, j)}{Max {Nouns (i), Nouns (j)}};

计算近义名词的乘积

f_{6} (i) f_{6} (j) = \frac{W}{d^{5}} \times \frac{SimilarNouns (i, j)}{Max {Nouns (i), Nouns (j)}};

计算相同动词的乘积

f_{7} (i) f_{7} (j) = \frac{W}{d^{6}} \times \frac{CommonVerbs (i, j)}{Max {Verbs (i), Verbs (j)}};

计算近义动词的乘积

f_{8} (i) f_{8} (j) = \frac{W}{d^{7}} \times \frac{SimilarVerbs (i, j)}{Max {Verbs (i), Verbs (j)}} .

基于特征值上的乘积运算，任意两篇文献i和j的相似度计算为

Proximity (i, j) = Σ_{q = 1}^{8} f_{q} (i) f_{q} (j) .

因此总共N篇文献建立起一个N×N的相似度矩阵。

基于N×N的相似度矩阵，在文献集合中选择聚点。在起始情况下，选择最不相似(即Proximity(i，j)值最小)的两篇文献作为初始的两个聚点，p₁和p₂，将其加入聚点集合Points。其余聚点的选择则依据如下最大最小公式来选择:

p_{m + 1} = Arg \underset{p &NotElement; Points}{Min} {Ma x_{r = 1,2, . . ., m} Proximity (p, p_{r})} .

依次加入聚点到集合Points中，直到选出来的聚点大于一个阈值Th时，即

\underset{p &NotElement; Points}{Min} {Max Proximity (p, p_{r})} > Th,

则停止选取聚点，并且不将该点加入集合Points。

在公式中p_r，r=1，2，...，m表示已选为聚点的文献，此时需要从未选为聚点的文献中选择第m+1个聚点，并将该聚点加入集合Points。为上述公式设定一个阈值Th，当选出来的聚点使得

\underset{p &NotElement; Points}{Min} {Max Proximity (p, p_{r})} > Th

时，则停止选取聚点，并且不将该点加入集合Points。由此选出了M个聚点，即选出了M个聚类。

将剩余N-M篇文献要加入这M个聚类，Cluster(p_r)，r=12，...，M中。最开始每个集合仅有一篇作为聚点的文献。对于一篇未加入聚类的文献i，以式子

p_{q} = Arg \underset{r = 1,2, . . ., M}{Max} {\frac{Σ_{p &Element; Cluster (p_{r})} Proximity (p, i)}{| Cluster (p_{r}) |}}

计算最相似的聚类。这剩余的N-M文献依次加入到聚类集合中，每次选取相似度最大的文献i_q加入聚类集合中，并更新Cluster(p_q)，最终直至所有的文献都加入到聚类集合之中。

将这M个聚类置于圆环结构之中。在初始时，随机选择两个聚类加入圆环中。剩下M-2个聚类，每次从中随机选取一个聚类，并依据公式

\begin{matrix} (p_{s}, p_{t}) = \\ Arg Max {\frac{Σ_{i &Element; Cluster (p_{r}), j &Element; Cluster (p_{s})} Proximity (i, j)}{| Cluster (p_{r}) | | Cluster (p_{s}) |} + \frac{Σ_{i &Element; Cluster (p_{r}), k &Element; Cluster (p_{t})} Proximity (i, k)}{| Cluster (p_{r}) | | Cluster (p_{t}) |}} \end{matrix}

在圆环之中寻找合适的位置，在最相似的两聚类p_s和p_t之间新加一环放置聚类p_r。

整个过程最后输出包含这M个聚类置于圆环结构，每一个聚类包含不限定语言的同类文献。聚类之间在圆环结构中距离越近则聚类越相似，否则距离越远则越不相似。

Claims

1.一种融合多种语言文献的聚类机制，其特征在于：按如下步骤进行：

步骤1，建立包含多种语言词汇的近义词库;

步骤2，提取8种特征值；

步骤3，根据特征值，计算任意两篇文献i和j的相似度；

步骤4，在文献集合中选择聚点，建立聚类；

步骤5，将文献集合中剩余的文献加入到聚类之中；

步骤6，将聚类置于圆环结构之中。

2.根据权利要求1所述的聚类机制，其特征在于：步骤1中，在词库的每一行中，都记录着意思相同或相近的多种语言词汇，并标记该词汇是动词还是名词。

3.根据权利要求1所述的聚类机制，，其特征在于：所述的步骤2中特征值包括引用关系(f₁)、相同参考文献(f₂)、相同字符串（f₃)、近义字符串(f₄)、相同名词(f₅)、近义名词（f₆）、相同动词（f₇)、近义动词（f₈)这八个特征值；这些特征值并不限定于某一种特定的语言，可将多种语言文献融合到聚类分类之中；其中引用文献指在文献中列出的所参考文献，相同字符串指一段组成单词完全相同的字符串，近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串，相同名词指完全相同的名词，近义名词指近义词库中记载在同一行的名词，相同动词指完全相同的动词，近义动词指义词库中记载在同一行的动词;对于某一篇文献i，其特征向量F(i)即为:

4.根据权利要求2所述的聚类机制，，其特征在于:所述的步骤2中特征值包括引用关系(f₁)、相同参考文献(f₂)、相同字符串(f₃)、近义字符串(f₄)、相同名词(f₅)、近义名词(f₆)、相同动词(f₇)、近义动词(f₈)这八个特征值;这些特征值并不限定于某一种特定的语言，可将多种语言文献融合到聚类分类之中;其中引用文献指在文献中列出的所参考文献，相同字符串指一段组成单词完全相同的字符串，近义字符串指一段组成单词相同或者是近义词库中记载的近义词的字符串，相同名词指完全相同的名词，近义名词指近义词库中记载在同一行的名词，相同动词指完全相同的动词，近义动词指义词库中记载在同一行的动词;对于某一篇文献i，其特征向量F(i)即为:

F(i)＝(f₁(i)，f₂(i)，f₃(i)，f₄(i)，f₅(i)，f₆(i)，f₇(i)，f₈(i)) 。

5.根据权利要求1至4任一项所述的聚类机制，其特征在于:步骤3中，八个特征值的重要性为f₁＞f₂＞f₃＞f₄＞f₅＞f₆＞f₇＞f₈;

任意两篇文献i和j的在特征值上的乘积运算:

f₁(i)f₁(j)=bool×W

相同参考文献的乘积f₂(i)f₂(j)，定义d为权重除法因子并且d≥l;Refs指示参考文献的数目，则Max{Refs(i)，Refs(j)}指在i和j中选择参考文献数目的最大值;CommonRefs(i，j)指i和j这两篇文献中相同的参考文献数目;计算表达式为:

相同字符串的乘积f₃(i)f₃(j)，定义CommonStrs(i，j)为i和j这两篇文献中相同的字符串;Length表示字符串的长度，因此Lgngth(CommonStrs(i，j))表示相同字符串的总长度，Max{Length(i)，Length(j)}指取i和j这两篇文献总长度的最大值;计算表达式为:

相同动词的乘积f₇(i)f₇(j)，定义CommonVerbs(i，j)为i和j这两篇文献中相同的动词;Verbs表示文献中的动词总数，因此Max{Verbs(i)，Verbs(j)}表示取i和j这两篇文献名词总数的最大值;计算表达式为:

近义动词的乘积f₈(i)f₈(j)，定义SimilarVerbs(i，j)为i和j这两篇文献中意思相近的动词；计算表达式为：

6.根据权利要求1至4任一项所述的聚类机制，其特征在于:步骤4中，在起始情况下，选择Proximity(i，j)值最小即最不相似的两篇文献作为初始的两个聚点，p₁和p₂，将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择:

在公式中p_r，r＝1，2，...，m表示已选为聚点的文献，此时需要从未选为聚点的文献中选择第m+1个聚点，并将该聚点加入集合Points;为上述公式设定一个阈值Th，当选出来的聚点使得

时，则停止选取聚点，并且不将该点加入集合Points。

7.根据权利要求5所述的聚类机制，其特征在于:步骤4中，在起始情况下，选择Proximity(i，j)值最小即最不相似的两篇文献作为初始的两个聚点，p₁和p₂，将其加入聚点集合Points;其余聚点的选择则依据如下最大最小公式来选择:

在公式中p_r，r=1，2，...，m表示已选为聚点的文献，此时需要从未选为聚点的文献中选择第m+1个聚点，并将该聚点加入集合Points；为上述公式设定一个阈值Th，当选出来的聚点使得

时，则停止选取聚点，并且不将该点加入集合Points。

8.根据权利要求1至4任一项所述的聚类机制，其特征在于:步骤5中，用N表示参与聚类的文献总数目，用M表示选出来的聚点总数目;在初始时，有M篇文献作为聚类的聚点，剩余N-M篇文献要加入这M个聚类之中;用Cluster(p_r)，r=1，2，...，M表示各个聚类集合，最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i，以下式计算最相似的聚类:

9.根据权利要求7所述的聚类机制，其特征在于:步骤5中，用N表示参与聚类的文献总数目，用M表示选出来的聚点总数目;在初始时，有M篇文献作为聚类的聚点，剩余N-M篇文献要加入这M个聚类之中;用Cluster(p_r)，r=1，2，...，M表示各个聚类集合，最开始每个集合仅有一篇作为聚点的文献;对于一篇未加入聚类的文献i，以下式计算最相似的聚类:

10.根据权利要求1至4任一项所述的聚类机制，其特征在于:步骤6中，将M个聚类放置于圆环结构之中，以使特征较相似的聚类排列在较近位置，特征较不相似的聚类排列在较远位置;在初始时，随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中:

11.根据权利要求9所述的聚类机制，其特征在于:步骤6中，将M个聚类放置于圆环结构之中，以使特征较相似的聚类排列在较近位置，特征较不相似的聚类排列在较远位置;在初始时，随机选择两个聚类加入圆环中。剩下M-2个聚类依据下列公式依次加入圆环之中: