CN106021352B

CN106021352B - 一种基于社群分析的学术搜索引擎排序方法

Info

Publication number: CN106021352B
Application number: CN201610304112.5A
Authority: CN
Inventors: 王琦森; 李文中; 陆桑璐
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-05-10
Filing date: 2016-05-10
Publication date: 2019-04-30
Anticipated expiration: 2036-05-10
Also published as: CN106021352A

Abstract

本发明公开了一种基于社群分析的学术搜索引擎排序方法，在学术搜索引擎中，基于学术圈内部的著作引用关系和作者合作关系建立二维复杂图模型，将其转化为一维图模型，运用带权重的标记传播方式进行社群分析，将著作信息划分成不同的社群，然后在用户输入所要搜索内容基础上进行社群关系的映射，然后通过基于随机游走过程的排序策略，参考文本相似性和图节点的游走次数对社群内部的内容进行排序，最后得到用户需要的著作集合。本发明方法可以找出学术搜索引擎传统排序方法不能找出的隐藏相关内容，克服传统方法过于依赖文本相似性的缺点，同时该方法的运算需要较少的时间，适用于大型学术搜索引擎排序的场景。

Description

一种基于社群分析的学术搜索引擎排序方法

技术领域

本发明涉及信息检索和复杂网络，尤其涉及搜索引擎对内容进行排序以及在学术圈形成的复杂网络中进行社群分析的方法，具体涉及一种基于社群分析的学术搜索引擎排序方法。

背景技术

随着互联网的迅速发展，基于HTTP协议的Web服务越来越普及，互联网上的资源和信息量剧增，用户产生了根据自己的个性化信息来寻找分布在互联网上各个位置的资源的需求。1994年7月，Lycos推出基于robot协议的数据挖掘技术，支持对搜索结果进行排序，是搜索引擎历史上一个重要进步。1995年，元搜索引擎诞生。用户提交一次搜索请求之后，元搜索引擎将其转换处理，并提交给多个预先设定的独立搜索引擎，并对各个独立的搜索引擎返回的结果进行整理，然后返回给用户。

随着信息量的爆炸性增长，个性化是搜索引擎当下发展的一个重要趋势。同时，出现了专注于不同领域的各种各样的垂直搜索引擎系统，学术搜索引擎就是其中一种。学术搜索引擎就是搜索学术资源的引擎系统，资源以著作著作、学术会议、期刊、研究人员为主，并且，随着学术搜索引擎的快速发展，其应具备数据分析、学术圈分析、智能化等特色，以满足人们的各种个性化搜索需求。

传统搜索引擎技术包括以下几个部分：网络爬虫、索引器、检索器以及用户接口。网络爬虫的功能是通过深度遍历或者广度遍历的方式将互联网上的资源下载下来，供检索使用。索引器的功能是针对下载下来的文本文件建立索引，使得检索系统可以根据内容快速查找相应的内容。检索器是利用用户的输入，在索引库中进行检索，找到相关内容之后，通过对查询的相关性进行排序，最终得到一个输出结果。用户接口的作用则是用户查询的输入，查询结果输出的界面，同时也具有供用户反馈机制。

尽管传统的学术搜索引擎例如Google Scholar、Microsoft Academic Search、百度学术搜索等具有较完备的根据文本内容在文档索引库中进行匹配并查找相关内容的功能，但是，由于索引主要根据检索内容的文本相似性来建立，因此，对于一些与检索内容紧密相关，但是并不直接具有较高文本相似度的文档，在这种机制中在很大概率上被忽略，造成搜索结果的不完备，不准确。

正是基于以上的情形，本发明提出了一种新的学术搜索引擎排序方法，除了考虑文档内容之外，也考虑到了文档之间的结构关系，通过使用社群分析的办法，将结构关系和文本相似度作为两个度量标准，最终得到的排序结果更加准确，完备，也更加符合用户的个性化搜索需求。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于社群分析的学术搜索引擎排序方法，能够提高学术搜索引擎的排序结果的完备性和准确性，同时更符合用户个性化查询的需求。

技术方案：为实现上述目的，本发明中基于社群分析的学术搜索引擎排序方法，包括以下步骤：

(1)根据著作信息和作者信息确定著作引用关系、著作与作者之间的对应关系以及作者合作关系，并建立二维复杂图模型；

(2)将二维复杂图模型转化为以著作信息为图节点，著作引用关系和著作的作者合作关系为权重的一维图模型；

(3)在一维图模型的基础上使用带权重的标记传播方式进行社群分析，将图节点划分到规模不同的各个社群中；

(4)根据搜索内容进行社群关系的映射，将搜索内容按照文本相似度将所有著作信息进行排序，取前k个图节点，选取这k个图节点所对应的社群中所有图节点，形成图节点集合S；

(5)对于所述图节点集合S中的所有图节点，分别以所述k个图节点作为起始节点通过基于随机游走过程的排序策略确定每个图节点的游走次数，以文本相似性和图节点的游走次数作为著作信息的最终权重对社群内部的著作信息进行排序；

(6)选择最终权重排名靠前的若干个著作信息作为搜索结果。

其中，所述二维复杂图模型分为两层，一层为引用层，所述引用层的图节点集为著作信息，图节点之间的权重为著作信息引用关系；一层为合作层，所述合作层的图节点集为作者信息，图节点之间的权重为作者合作关系；两层之间为著作与作者之间的对应关系。

其中，步骤(2)中将所述二维复杂图模型转化为所述一维图模型包括以下步骤：

以著作信息为图节点，所述二维复杂图模型的引用层保持不变，著作信息的引用关系作为第一权重；

利用著作与作者之间的对应关系将著作间的作者合作关系作为第二权重。

其中，步骤(3)中使用带权重的标记传播方式进行社群分析包括以下步骤：

1)对于任意两个图节点，将其之间的所述第一权重和第二权重按照预设的加权比进行叠加得到两图节点之间的总权重；

2)将所有的图节点通过随机方法初始化为各不相同的随机整数，作为各图节点的社群标记的初始值；

3)对于所述一维图模型中每一个图节点，统计其邻居节点的社群标记所占的权重，选取权重最大的社群标记作为更新后的社群标记；对于每一图节点，不同邻居节点的社群标记有不同的权重，权重值等于该图节点到相应邻居节点之间的总权重；

4)在对所有的图节点依次进行步骤3)所述的社群标记更新的过程之后，判断图中所有的图节点的社群标记是否发生了变化，若发生变化的图节点的比例小于一个给定阈值α，方法结束；否则，返回第步骤3)继续进行更新。

5)在标记传播方式结束后，所有的图节点的社群标记最终确定下来，社群标记相同的图节点属于同一个社群。

其中，步骤(5)中所述基于随机游走过程的排序策略包括以下步骤：

(5.1)从起始节点开始出发，以一定概率向其邻居节点游走，该概率值为从该起始节点到其邻居节点的权重，游走长度加1；

(5.2)若游走长度大于给定阈值L，则游走停止，否则将游走到的邻居节点作为起点，返回步骤(5.1)；

按照步骤(5.1)和步骤(5.2)的游走方式游走N次，统计N次游走循环中每个图节点总共被游走到的次数。

有益效果：本发明中基于社群分析的学术搜索引擎排序方法通过对著作、作者信息建立复杂图模型，然后转化成一维图模型，并在此基础上进行基于权重的标记传播方式的分析，将图节点分为不同社群，然后取文本相似度最高的k个图节点以及相对应的社群的所有图节点集合，进行基于随机游走的排序，得到图节点集合中所有图节点的访问次数之后，结合文本相似度进行排序，取最终权重最高的若干个著作作为排序方法的结果集合。本发明方法可以找出学术搜索引擎传统排序方法不能找出的隐藏相关内容，克服传统方法过于依赖文本相似性的缺点，既能够考虑到文本相似度对于最终排序结果的影响，也能够考虑到图结构的影响，最终得到的排序结果更加准确、完备，也更加符合用户的个性化搜索需求；同时该方法的运算需要较少的时间，适用于大型学术搜索引擎排序的场景。

附图说明

图1是本发明中基于社群分析的学术搜索引擎排序方法的流程图；

图2是二维复杂图模型的示例图；

图3是图2中二维复杂图转化之后的单层图模型示例图；

图4是标记传播方式流程图；

图5是将单层图模型的二维边转化为一维边的示例图；

图6是图5中二维边转化为一维边的加权权重结果示例图；

图7是社群标记更新示例图；

图8是图7中图节点a的社群标记更新结果示例图；

图9是基于随机游走的排序策略的流程图。

具体实施方式

下面结合实例对本发明作更进一步的说明。

图1中基于社群分析的学术搜索引擎排序方法，从两个角度确定搜索结果，首先基于著作信息和作者信息创建社群，然后再利用文本的相关度在社群中确定搜索结果，该方法具体包括以下步骤：

(2)将二维复杂图模型转化为以著作信息为图节点，著作引用关系和作者合作关系为权重的一维图模型；

(4)在用户输入所要搜索的文章标题或者关键词的基础上，进行社群关系的映射，将所有的图节点按照与用户输入的文本相似度的高低排序，根据文本相似度的排序关系取前k个文本相似度最高的图节点，然后取它们所对应的社群内部的所有图节点，以此映射到k个图节点以及相应的社群；

(5)通过基于随机游走过程的排序策略，将文本相似性，图节点的游走次数作为权重不同的两个变量，计算之前得到的k个图节点所对应的社群中所有图节点的最终权重，按照最终权重的高低对社群内部的内容进行排序；

(6)根据排序结果取最终权重靠前的著作图节点的对应著作信息，以此得到用户需要的著作集合。

上述步骤(1)中将著作信息、作者信息、著作引用关系、作者合作关系等表示为二维复杂图模型，二维复杂图由两层图结构组成：引用图和合作图。引用图由代表学术著作的著作图节点和由于著作间引用关系形成的有向边组成。有向边的方向是从著作图节点指向它的引用著作。合作图由代表作者的作者图节点和由于作者之间的合作关系形成的无向带权边组成。无向边的权重等于作者之间合作的著作数量。在这两层网络之间存在作者图节点到著作图节点的映射关系。一个作者存在到他发表的所有著作的映射，反映到复杂图模型上就是由作者图节点到与它有关的著作图节点的映射关系。

如图2中示例所示，该二维复杂图模型为G＝＜V₁,V₂E₁,E₂＞，引用层上的图节点集为V₁，边集为E₁，合作层上的图节点集V₂，边集为E₂；引用层上的图节点集V₁有a，b，c，d四个图节点，分别代表四篇著作文献，其中，文献a引用b和d，文献b引用c和d，因此存在由a分别到b和d的有向边，以及从b到c和d的有向边。在合作层上图节点集V₂有e，f，g三个作者图节点，e和f，f和g之间有合作发表著作，因此边集E₂包括ef，fg两条无向边，其中，作者e发表了著作a和b，作者f发表了著作b和c，e和f之间共享一篇著作b，因此ef的权重等于1；作者g发表了著作b、c和d，f和g共享著作b和c，因此，fg的权重等于2。在具体操作时，这个二维图模型可以存储在两个邻接链表的数据结构中，邻接链表的头节点表示图节点，邻接节点则是与这个头节点有边的图节点。

将二维复杂图向单层图结构的转化，是因为二维复杂图模型含有两层异构的图结构，因此，需要首先将两层图结构转化成单层图结构，以便于进行后续处理。上述步骤(2)中从二维复杂图到单层图模型的转化过程如下：著作之间的引用关系不变，作者之间的合作关系转换成著作之间的共享作者关系，即以二维复杂图模型中的著作信息为图节点，将作者之间的合作关系以及由作者到著作的映射关系转化成著作之间的边，形成一个单层图结构。由于学术搜索引擎的搜索内容主要是著作标题、关键词等内容，因此，转换之后的单层图结构的图节点是著作信息。复杂图中的作者合作关系以及由作者到著作的映射被转化成为著作信息之间的两种边。一种边是原有的著作之间的由于引用关系形成的有向边，另一种边是由于两个著作之间有共同作者形成的带权无向边。无向边的权重等于这两个著作图节点之间的共同作者的数量。

如图3中示例所示，将图2中的二维复杂图模型G＝＜V₁,V₂E₁,E₂＞转换为单层图模型G'＝＜V₁,E₁,E₂'＞，可以看到，图节点集V₁包括的著作图节点a，b，c，d保持不变；著作图节点之间的引用关系不变，边集E₁包含的引用有向边的权重相同，都是1；而边集E₂'表示著作之间的共享作者关系，包括权重为1的无向边ab，权重为2的无向边bc，和权重为1的无向边bd，权重为1的无向边cd。边集E₂'中这些带权的无向边的形成是因为图节点之间共享作者，其权重等于共享的作者个数。例如著作a的作者是e，著作b的作者是e，f，g。a和b之间的共同作者是e，因此其无向边ab的权重为1。同理，其他无向边的权重也是以相同方式得到的。

上述步骤(3)中，在一维图模型的基础上使用带权重的标记传播方式进行社群分析，所有的图节点初始时将被赋予不同的社群标记，社群标记在所有的图节点之间传播，每个图节点选择邻居节点中权重最大的那个标记作为自己的社群标记，经过有限的常数次迭代之后，每个图节点有一个最终的社群标记。经过这个过程，图节点被分到规模不同的各个社群中，以图4为例，标记传播方式的过程如下：

1)将单层图模型G'＝＜V₁,E₁,E₂'＞的每一对图节点v_i、v_j之间的二维边e₁、e₂'按照权重加权转为一维边，得到G'＝＜V₁,E'＞。其中，引用边e₁的权重为1，e₂'权重则为共同作者的个数。这两种边的加权比设定为2:1，即引用边e₁相对于e₂'的加权比为2；如图5中示例所示，图节点a有b，c，d，e，f共5个邻居节点，图节点对ab、ac、ad、ae、af之间存在引用关系，其权重均为1；而ad、af之间还存在共同作者的关系，这里，ad之间共同作者的个数为1，而af之间共同作者的个数为4，则ad之间作者合作边的权重为1，af之间作者合作边的权重为4，因此，根据加权比的设定，记ad之间引用边的加权比为1，则ad之间一维边的总权重为1+1*1/2＝1.5；同理，af之间一维边的总权重为1+4*1/2＝3.0；而ab，ac，ae之间的总权重均为1，得到图6所示的合并边的权重之后得到的图例。

2)首先将所有的图节点通过随机方法初始化为各不相同的随机整数，作为各自图节点的社群标记的初始值；

3)对于图中每一个图节点，统计其邻居节点的不同社群标记所占的比例。不同的邻居节点的社群标记有不同的权重，其值等于该图节点到该邻居节点之间的边的权重。

如图7中所示，设著作图节点a当前的社群标记为l₀，其五个邻居节点b、c、d、e、f的社群标记为{b：l₁，c：l₂，d：l₁，e：l₁，f：l₂}；l₁和l₂均为正整数。社群标记l₁的权重为1.0+1.5+1.0＝3.5，而社群标记l₂的权重为1.0+3.0＝4.0。因为4.0>3.5，因此图节点a选择其邻居节点中社群标记权重所占比例最大的那个，更新为自己的社群标记，即l₂。更新后的结果如图8中所示的图节点a的社群标记更新为l₂。

4)在对所有的图节点依次进行3)所述的社群更新的过程之后，判断图中所有的图节点的社群标记是否发生了变化，若发生变化的图节点的比例小于一个给定阈值α，方法结束。否则，返回第步骤3)继续进行更新。这里的α为一个收敛的阈值，由于经过几次对所有图节点的更新过程之后，大部分图节点的社群标记将保持稳定不变，因此这里的α可以预先设定为一个近似为0的小数值，默认设置为0.000001，如果发生变化的图节点的比例大于α，则说明图节点的社群标记还没有稳定，需要继续进行更新。

在标记传播方式结束后，所有的图节点的社群标记最终确定下来，社群标记一样的图节点被分到同一个社群里。

上述步骤(4)中，按照文本相似度将所有的图节点，即著作信息进行排序，取前k个图节点，以及这k个图节点对应的社群的所有图节点，形成一个图节点集合S。只取前k个文本相似度最高的图节点以及它们所在的社群，以此限制后续随机游走的范围在给定的有限的图节点数目上，降低方法的时间消耗。

对于图节点集合S中的所有图节点，按照基于随机游走的排序策略得到所有的图节点的游走次数，这个随机游走的排序过程以该k个图节点为起始节点。以该k个文本相似度最高的图节点作为起始节点，各个图节点的访问次数的高低代表了该图节点在结构上与起始节点的距离远近。

随机游走的排序策略如图9所示，其具体过程如下：

(5.1)从图中的起始节点开始出发，以一定概率向其邻居节点游走，该概率反映的是两个图节点之间从相互引用角度来讲的相关性，因此将概率值定义为从该起始节点到其邻居节点的边的权重，游走长度加1；

(5.2)若游走长度大于一个给定的阈值L，则游走停止，否则将游走到的邻居节点作为起点，返回步骤(5.1)；

游走过程之后，在图节点集合S中，将每个图节点的游走次数和文本相似度的值作为权重不同的变量，计算每个图节点最终权重，将最终权重由高到低排序，取有限数目的著作信息作为结果集合返回给用户，以满足时间耗费不能太高的要求，例如返回最终权重排名前5的著作信息。

以上详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种等同变换，这些等同变换均属于本发明的保护范围。

Claims

1.一种基于社群分析的学术搜索引擎排序方法，其特征在于，该方法包括以下步骤：

(4)根据搜索内容进行社群关系的映射，将搜索内容按照文本相似度将所有著作信息进行排序，取前k个图节点，选取这k个图节点所对应的社群中所有图节点，形成图节点集合；

(5)对于所述图节点集合中的所有图节点，分别以所述k个图节点作为起始节点通过基于随机游走过程的排序策略确定每个图节点的游走次数，以文本相似性和图节点的游走次数作为著作信息的最终权重对社群内部的著作信息进行排序；

(6)选择最终权重排名靠前的若干个著作信息作为搜索结果。

2.根据权利要求1所述的基于社群分析的学术搜索引擎排序方法，其特征在于，所述二维复杂图模型分为两层，一层为引用层，所述引用层的图节点集为著作信息，图节点之间的权重为著作信息引用关系；一层为合作层，所述合作层的图节点集为作者信息，图节点之间的权重为作者合作关系；两层之间为著作与作者之间的对应关系。

3.根据权利要求2所述的基于社群分析的学术搜索引擎排序方法，其特征在于，步骤(2)中将所述二维复杂图模型转化为所述一维图模型包括以下步骤：以著作信息为图节点，所述二维复杂图模型的引用层保持不变，著作信息的引用关系作为第一权重；

4.根据权利要求3所述的基于社群分析的学术搜索引擎排序方法，其特征在于，步骤(3)中使用带权重的标记传播方式进行社群分析包括以下步骤：

4)在对所有的图节点依次进行步骤3)所述的社群标记更新的过程之后，判断图中所有的图节点的社群标记是否发生了变化，若发生变化的图节点的比例小于一个给定阈值，方法结束；否则，返回第步骤3)继续进行更新；

在标记传播方式结束后，所有的图节点的社群标记最终确定下来，社群标记相同的图节点属于同一个社群。

5.根据权利要求1所述的基于社群分析的学术搜索引擎排序方法，其特征在于，步骤(5)中所述基于随机游走过程的排序策略包括以下步骤：