CN100583804C

CN100583804C - 基于专家值传播算法的社会网络专家信息处理系统及方法

Info

Publication number: CN100583804C
Application number: CN200710117719A
Authority: CN
Inventors: 唐杰; 张静; 李涓子
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2007-06-22
Filing date: 2007-06-22
Publication date: 2010-01-20
Anticipated expiration: 2027-06-22
Also published as: CN101075942A

Abstract

基于专家值传播算法的社会网络专家信息处理系统及方法属于社会网络信息处理领域。其特征为用社会网络生成服务器构建社会关系网络图，该图用个人描述信息、人际关系、关系类别，及人际关系到关系类别的映射函数来描述。用专家值计算服务器对从数据库服务器中读取的信息，按权重分析计算领域关键词与每个人的描述信息及论文信息的相关性，经拟合后得到初始专家值；接着按人际关系重要度及密切度构造传播矩阵，根据初始专家值和传播矩阵作迭代，得到所有专家的专家值，归一化后，从大到小排序，输出到Web服务器，供用户选择。今后，可在社会网络专家信息处理系统上，利用人际关系的重要性及密切性进行专家检索，其结果更为可靠。

Description

基于专家值传播算法的社会网络专家信息处理系统及方法

技术领域

本发明属于社会网络信息处理领域，尤其涉及互联网下的社会网络搜索。

背景技术

随着互联网的飞速发展以及Web1.0向Web2.0的转变，社会网络逐渐成为一项非常重要Web应用。例如，我们可以利用社会网络寻找工作，寻找雇员，寻找共同兴趣的朋友，以及寻找合作伙伴。

基于Web的社会网络为我们提供了大量的数据源，有助于在此基础上进行一些数据挖掘、知识发现，这些研究在Web2.0时代具有巨大的挑战。例如，信任链的挖掘，个性化推荐以及专家发现等。

专家信息处理的目标是自动发现具有某一特定领域知识的专家。通过发现专家，我们可以通过专家快速地得到一些专业问题的答案，弥补了传统搜索引擎存在的“The High Cost ofNot Finding Information”问题，大大提高了检索的效率。该技术将会给互联网带来巨大的用户和使用频率，是体现互联网新技术以及经济价值的重要手段。

已提出的专家发现方法主要着眼于从Web或者无结构化的数据中进行专家信息处理。通常的方法是将专家发现看作传统的信息检索：首先将每个人相关联的一些个人描述文档(如个人主页、电子邮件、发表论文)综合生成一个文档，这样每个人就可以用这个文档来表示；然后使用传统信息检索的方法，根据文档与查询关键词的相关程度对这些文档进行排序，即可以得到对应的专家列表。然而，调研发现，基于社会网络发现专家的工作还很少。在社会网络中，除了每个人所依附的个人描述信息，人与人之间还存在复杂的关系，这些关系信息对于推荐专家有着非常重要的作用。传统的方法往往忽略了社会网络关系的重要性，我们认为利用人与人之间在社会网络中的关系来发现专家具有十分重要的意义。

针对上述问题，本发明提出了一个基于专家值传播算法的社会网络中专家信息处理系统及方法。该方法包括两个阶段。在第一阶段，主要利用个人描述信息进行候选专家的发现，并且为每个候选专家赋予一个初始专家值。在第二阶段，利用第一阶段得到的候选专家的初始专家值以及他们之间的关联关系构造一个图结构(图中每个结点代表一个人，每条边代表人与人之间的一种关系)，然后在图中沿着边的方向传播专家值，即依据节点的专家值以及边表示的关联关系修改相邻节点的专家值，使得每个节点得到与社会网络相关的新的专家值，从而实现更高精度的基于社会网络的专家信息处理。

发明内容

本发明的目的在于提供一种在社会网络中基于专家值传播算法的社会网络专家信息处理系统及方法。

本发明所提出系统及方法的思路在于：采用一种通用的社会网络描述模型，基于该模型定义专家信息处理的目标。在该目标的指导下，首先利用个人描述信息检索出某个领域(如：数据挖掘领域)的相关专家，作为候选专家，并且为每个候选专家计算一个初始的专家值。这个步骤基于一个假设，如果一个人关于某个领域的描述性信息非常多(例如：一个人在数据挖掘领域发表了很多论文，一个人的个人主页中多次提到数据挖掘)，那么很有可能这个人就是该领域的专家；然后利用候选专家的初始专家值以及他们之间的关联关系为这些候选专家们构建一个社会网络子图，并且基于该图将每个人的专家值沿着边的方向传播给他的邻居。该传播过程一直迭代下去直到算法收敛，最终得到一个所有专家值都不再变化的专家列表，并且按照专家值排序后反馈给用户。这个步骤也基于一个假设，如果一个人认识许多某个领域的专家，并且被这些专家所推荐，那么他很有可能也是这个领域的专家。

我们的想法来自于对现实生活寻找专家的观察。在现实中，我们通常通过以下两种方法寻找专家a)阅读一个人的介绍来判断他是否够得上专家的资格；b)求助我们认识的专家帮忙推荐其它的专家。然而，对于机器来说，很难直接通过个人介绍判断一个人的专家水平以及决定他人推荐的程度(例如：强烈推荐，一般推荐)。因此，我们将一个人的介绍具体到能够体现他的专家水平的个人描述信息，包括个人基本信息(如：职位、单位、研究兴趣，主页地址、电话、电子邮箱)以及他发表的论文信息(如：标题、发表会议名称、合作者)；同时，推荐程度可以具体化为推荐者的专家水平以及推荐者与被推荐者之间的关系权重(权重的计算将在步骤3具体阐述)，这里所谓的“推荐者”指的是与被推荐者之间存在某种关系的候选专家。总之，我们判断一个人的专家水平，主要通过综合考虑他的个人描述信息以及他与其他人在社会网络中的关联关系这两个方面因素。

所述方法是基于一个已经存在的社会网络依次按以下步骤具体实现的，所采用的步骤框图请见图1，该方法包括如下步骤。

步骤1：构建社会网络。

在本发明中，我们把社会网络描述成一个图(Graph)。

设：社会网络为G＝(V，E，T，τ)，其中V为节点集，每个节点v∈V代表社会网络中的一个人，一个人可以有多种描述信息，如个人基本信息(包括职位、单位、研究兴趣，主页地址、电话、电子邮箱)以及他发表的论文信息(如：标题、发表会议名称、合作者)；

E &SubsetEqual; V \times V

为边的集合，e^t _ij∈E代表社会网络中的人v_i和v_j之间存在的一种关系t；T为关系类型集合，t∈T代表人与人之间的一种社会关系类型(如“同文章作者”，“被…所指导”，“在同一个项目中工作”，“是朋友”)；τ：E→T是一个从边到关系类型的映射函数，τ(e^t _ij)＝t。图中的边可以是单向的，也可以是双向的。双向的边代表了一种对称的关系。

形式化一个社会网络以后，专家信息处理的任务便可以定义为：给定一个领域关键词q

在本发明中，我们使用了13个计算机领域的关键词做测试，这13个领域包括本体映射、语义Web、数据挖掘、信息抽取、Boosting学习、支持向量机、Planning学习、智能代理、机器学习、自然语言处理、加密学、计算机视觉、神经网络，相应的关键词为OntologyAlignment、Semantic Web、DataMining、Information Extraction、Boosting、Support VectorMachine、Planning、Intelligent Agent、Machine Learning、Natural Language Processing、Cryptography、Computer Vision、Neural Networks。)，从整个社会网络G中查找一个专家集，并将他们以一个排序好的列表R＝{(v_i，s(v_i))}返回，其中s(v_i)代表了一个人v_i·的专家值。

下面举例说明一个社会网络，一个真实的基于实验室的社会网络如图2所示。图2中存在的所有关系以及权重如表1所示：

表1，图2中处理的所有关系以及权重

关系	所表达的意义	权重
关系	所表达的意义	权重	同文章作者	两个人为同一篇论文的作者	2
被…所指导	一个人是另一个人的学生	4	同文章作者	两个人为同一篇论文的作者	2
被…所指导	一个人是另一个人的学生	4	在同一个项目中工作	两个人在同一个项目中工作	3
是朋友	两个人是好朋友	1	在同一个项目中工作	两个人在同一个项目中工作	3

在这个图中，我们可以发现对于“唐博士”：

1)他有一个指向“王教授”的单向被…所指导关系；

2)他有四个双向的关系，如与“小洪”之间存在同文章作者关系。

两个人之间可能存在多种关系，如“唐博士”与“王教授”之间存在同文章作者以及被…所指导两种关系。

步骤1就是创建一个社会网络的图，图中的节点就是人，图中的边即表1中定义的4种边。社会网络存储在关系数据库中，本发明采用如下的数据库结构来存储社会关系网络：

1)关系以及权重表，该表存储社会关系网中的所有关系以及权重，如表2所示：

表2，社会网络图中的关系类型以及关系权重表

关系标识	关系名称	说明	权重
关系标识	关系名称	说明	权重	1	同文章作者	两个人为同一篇论文的作者	2
2	被…所指导	一个人是另一个人的学生	4	1	同文章作者	两个人为同一篇论文的作者	2
2	被…所指导	一个人是另一个人的学生	4	3	在同一个项目中工作	两个人在同一个项目中工作	3
4	是朋友	两个人是好朋友	1	3	在同一个项目中工作	两个人在同一个项目中工作	3

2)个人基本信息表，该表存储社会网络中的所有人的基本信息，在本发明中，我们存储了“职位”、“单位”“研究兴趣”，如表3所示：

表3，社会网络图中的个人基本信息表

人标识	姓名	职位	单位	研究兴趣
人标识	姓名	职位	单位	研究兴趣	1	唐博士	Ph.D(博士)	Keg，tsinghua(清华大学知识工程组)	Semantic Web(语义网络)
2	小洪	Master(硕士)	Keg，tsinghua(清华大学知识工程组)	Information Extraction(信息抽取)	1	唐博士	Ph.D(博士)	Keg，tsinghua(清华大学知识工程组)	Semantic Web(语义网络)
2	小洪	Master(硕士)	Keg，tsinghua(清华大学知识工程组)	Information Extraction(信息抽取)	3	王教授	Ph.Dmentor(博士生导师)	Keg，tsinghua(清华大学知识工程组)	Semantic Web(语义网络)
4	蔡教授	Master mentor(硕士生导师；)	Keg，tsinghua(清华大学知识工程组)	Data Mining(数据挖掘)	3	王教授	Ph.Dmentor(博士生导师)	Keg，tsinghua(清华大学知识工程组)	Semantic Web(语义网络)
4	蔡教授	Master mentor(硕士生导师；)	Keg，tsinghua(清华大学知识工程组)	Data Mining(数据挖掘)	...	...	...	...	...

3)论文信息表，该表存储社会网络中所有人发表的论文信息，在本发明中，我们存储了“论文标题”和“发表会议”。如表4所示：

表4，社会网络图中的论文信息表

论文标识	论文标题	发表会议
论文标识	论文标题	发表会议	1	A Unified Tagging Approach to Text Normalization(文本归一化的统一标记方法)	ACL’2007(计算语言学年会)
2	Semantic annotation using horizontal and vertical contexts(利用水平和垂直的上下文进行语义标注)	ASWC’2006(亚洲语义网络会议)	1		ACL’2007(计算语言学年会)
2		ASWC’2006(亚洲语义网络会议)	3	Multiple strategies detection in ontology mapping(本体映射的多策略发现)	WWW’2005(WWW会议)
...	...	...	3		WWW’2005(WWW会议)

4)人与论文对照表，该表存储社会网络中人与发表论文的对照信息，如表5所示：

表5，社会网络图中的人与论文对照表

标识	人标识	论文标识
标识	人标识	论文标识	1	1	1
2	1	2	1	1	1
2	1	2	3	1	3

标识	人标识	论文标识
标识	人标识	论文标识	4	2	2
5	3	3	4	2	2
5	3	3	...	...	...

其中表的第一行表示，人标识节点1(唐博士)是论文标识节点1(A Unified TaggingApproach to Text Normalization)的作者。

5)节点关系表，标识社会网络中的人之间的关系，如表6所示：

表6，社会网络节点关系表

关系类型	源节点	目标节点
关系类型	源节点	目标节点	2	2	4
3	4	3	2	2	4
3	4	3	1	2	1
2	1	3	1	2	1
2	1	3	...	...	...

其中表中的第一行，标识节点2(小洪)和节点4(蔡教授)之间有关系2(被…所指导)，第二行表示节点4(蔡教授)和节点3(王教授)有关系3(在同一个项目中工作)。

至此，一个社会网络构建完毕。

步骤2：检索与某一领域相关的候选专家，得到一个社会网络子图。

在该步骤中，用户输入任意一个领域关键词q(例如：数据挖掘)，从整个社会网络中查找与该领域相关的专家作为候选专家，并为每个候选专家计算一个初始专家值，构成一个该领域的社会网络子图。在该步骤中，我们仅利用了步骤一中所述个人描述信息(包括表3，表4与表5的内容)去检索候选专家。

对于每个人v_i，将他的个人基本信息连接成一个大文档d(在本发明中，我们使用了表3中的“职位”、“单位”、“研究兴趣”三个字段的连接作为d，这时候我们不再区分“职位”、“单位”、“研究兴趣”的字段限制，而是将d看作一个普通的文档来处理)；并用p_k表示他的每一篇论文的信息(在本发明中，我们仅使用了表4的“论文标题”，“发表会议”两个字段的连接作为p_k，同样我们不再区分“论文标题”，“发表会议”的字段限制，而是将p_k看作一个普通的文档来处理)。

当用户输入一个领域关键词q，运用信息检索中的概率模型估计领域关键词q在文档d中出现的概率，用ρ(q|d)来表示该概率；同时估计领域关键词q在每篇论文p_k出现的概率，用p(q|p_k)来表示该概率。

因为用户输入的领域关键词q作分词之后有可能包含多个词，例如：“数据挖掘”分词后包含“数据”与“挖掘”两个词。这时候，我们要估计的实际上是领域关键词q分词后得到的“数据”这个词在d中出现的概率，以及“挖掘”这个词在d中出现的概率，然后再将这两个概率值用某种方法(公式1表示了我们所用的方法)结合起来，即得到我们最终要估计的p(q|d)，p_k同理。我们用t表示q分词后的某个词(例如：“数据挖掘”中的“数据”或“挖掘”)。我们说，只有q中出现的某个词t同时也会出现在d和p_k中，p(q|d)与p(q|p_k)这两个概率值才会大于0，否则概率值为0。

假设每个词t在文档d中是相互独立的，则可以用连乘号来连接每个t出现在d中的概率p(t|d)，于是领域关键词q出现在文档d中的概率p(q|d)可以表示为：

p (q | d) = \underset{t &Element; q}{Π} p {(t | d)}^{n (t, q)} - - - 1)

其中n(t，q)表示t出现在q的次数(例如，q为“数据挖掘”，词t为“数据”，则t在q中出现的次数n(t，q)为1)。在该公式中，词t出现在文档d中的概率p(t|d)可以用t在d中出现的次数除d中包含的总词数来估算。考虑到p(t|d)有可能为0，这样会导致公式(1)中连乘后的结果为0，于是需要对p(t|d)做平滑处理：

p(t|d)＝(1-λ)p(t|d)+λp(t)

2)

其中，λ取值为[0，1]，p(t)可以用词t在所有人的文档d中出现的次数除所有人的文档d中包含的总词数来估算。有了公式(2)的扩展，公式(1)便可以写成：

p (q | d) = \underset{t &Element; q}{Π} {((1 - λ) p (t | d) + λp (t))}^{n (t, q)} - - - 3)

同样，运用另一个概率模型p(q|p_k)来估计领域关键词q在v_i的每篇论文p_k中出现的概率。模型定义如下(其中符号的定义以及概率的估算同p(q|d))：

p (q | p_{k}) = \underset{i &Element; q}{Π} {((1 - λ) p (t | p_{k}) + λp (t))}^{n (t, q)} - - - 4)

基于公式(3)与公式(4)，我们可以计算出v_i的基本信息以及每一篇论文与领域关键词q的相关度，将这两部分相关度进行线性拟合：

s {(v_{i})}^{0} = α \cdot p (q | d) + (1 - α) \cdot \underset{p_{k} &Element; P}{Σ} if (p_{k}) \times p (q | p_{k}) - - - 5)

其中α取值范围为[0，1](我们在实验中设α＝0.5)；P表示v_i发表的全部论文；p_k表示P中的一篇论文；if(p_k)表示p_k·所发表会议或杂志的影响因子，该影响因子反映了会议或杂志的权威程度，一般为手工确定(我们在实验中从http://citeseer.ist.psu.edu/impact.html上收集该网络整理好的会议影响因子)。最终，s(v_i)⁰即为每个人v_i的初始专家值。在实验中，我们选择初始专家值排在前1000位的人作为算法第二阶段的候选专家。

下面以“唐博士”和“Semantic Web”为例计算“唐博士”关于关键词“Semantic Web”的初始专家值：

1)根据“Semantic Web”得到t₁为“Semantic”，t₂为“Web”，假设p(t₁)＝0.01，p(t₂)＝0.05。

2)根据表3、4、5，“唐博士”的d表示为“ph.D Keg tsinghua Semantic Web”，p₁为“A Unified Tagging Approach to Text Normalization ACL’2007”，p₂为“Semanticannotation using horizontal and vertical contexts ASWC’2006”，p₃为“Multiplestrategies detection in ontology mapping WWW’2005”。

3)p(t|d)用t在d中出现的次数除d中包含的总词数来估算，于是p(t₁|d)＝1/5＝0.2，p(t₂|d)＝1/5＝0.2；p(t₁|p₁)＝0，p(t₂|p₁)＝0；p(t₁|p₂)＝1/7＝0.143(分母为7的原因是过滤掉了高频词“and”，于是只剩下7个词)，p(t₂|p₂)＝0；p(t₁|p₃)＝0，p(t₂|p₃)＝0。

4)根据公式(2)进行平滑，设λ为0.5，于是得到新的p(t₁|d)＝0.5*0.2+0.5*0.01＝0.105，p(t₂|d)＝0.5*0.2+0.5*0.05＝0.125；p(t₁|p₁)＝0.5*0+0.5*0.01＝0.005，p(t₂|p₁)＝0.5*0+0.5*0.05＝0.025；p(t₁|p₂)＝0.5*0.143+0.5*0.01＝0.077，p(t₂|p₂)＝0.5*0+0.5*0.05＝0.025；p(t₁|p₃)＝0.5*0+0.5*0.01＝0.005，p(t₂|p₃)＝0.5*0+0.5*0.05＝0.025。

5)根据公式(3)和公式(4)(其中n(t₁，q)＝1，n(t₂，q)＝1)，则p(q|d)＝p(t₁|d)¹*p(t₂|d)¹＝0.105*0.125＝0.013，p(q|p₁)＝p(t₁|p₁)¹*p(t₂|p₁)¹＝0.005*0.025＝0.000，p(q|p₂)＝p(t₁|p₂)¹*p(t₂|p₂)¹＝0.077*0.025＝0.002，p(q|p₃)＝p(t₁|p₃)¹*p(t₂|p₃)¹＝0.005*0.025＝0.000。

6)最后根据公式(5)(假设其中if(p₁)＝3，if(p₁)＝2，if(p₁)＝1，α＝0.5)，于是得到s(v_i)⁰＝0.5*0.013+0.5*(3*0.000+2*0.002+1*0.000)＝0.009即为唐博士的初始专家值。

步骤3：利用一个基于传播思想的迭代算法，更新候选专家的专家值。

第一阶段的候选专家的初始专家值以及他们之间的关系构成了一个关于领域q的社会网络子图(其中每个结点代表一个候选专家，每条边代表两个专家之间的一种关系)。在该社会网络子图的基础上，我们提出了传播专家值的迭代算法。在每一次迭代中，v_i的专家值s(v_i)ⁿ被传播给与他之间有关联关系的候选专家。因此，每个候选专家的专家值的更新被两个因素所影响：1)推荐者的专家值2)推荐者与被推荐者之间关系的权重

我们用传播系数来指示一个节点的专家值传播到他的邻节点的程度。M用来表示传播系数矩阵；M_ij表示从v_i到v_j的传播系数(取值为0到1之间)。M_ij定义如下：

M_{ij} = \underset{t}{Σ} c (τ (e_{ij}^{t})) * w (e_{ij}^{t}) - - - 6)

其中，c(τ(e^t _ij))代表一种关系e^t _ij的权重(目前我们手工对这些权重进行设置)。w(e^t _ij)代表v_i和v_j之间关系e^t _ij的密切程度。(密切程度可以通过多种不同方法进行计算，如对于“同文章作者”的关系，我们把合作论文的数量当作密切程度)。

在本发明中，由于我们只收集到一种关系数据，“同文章作者”，因此公式(6)就简化成M_ij＝w(e_ij ^{同文章作者})，w(e_ij ^{同文章作者})定义如下：

其中|U_i|表示v_i的所有“同文章作者”关系数目(我们将“同文章作者”看作是一种双向的关系)。

在我们的算法中，对于单向的关系，仅需要将专家值从源节点传到目标节点；对于双向的关系，专家值需要相互传播。

第n+1次迭代时专家值向量Sⁿ⁺¹(Sⁿ⁺¹表示所有专家的专家值组成的向量，其中的每一维S_i ⁿ代表v_i的专家值)计算公式如下：

Sⁿ⁺¹＝(1-ω)Sⁿ+ωM^TSⁿ

8)

其中S表示专家值向量(即所有人的专家值)；ω取值范围在0到1之间，它表示了对传播距离的惩罚，即迭代的次数越多，关系的传播距离就越远，其可信度就越低(在实验中，我们将它设置为0.85)。每次迭代结束后，所有人的专家度要做归一化，使得所有人中最大的专家值始终为1，计算如下：

S_{i}^{n + 1} = \frac{S_{i}^{n + 1}}{\max (S_{i}^{n + 1})} - - - 9)

该算法会一直迭代到某一终止条件。目前设置的终止条件是子图中所有人的专家值的变化都限制在一个阈值范围内(本发明设置为0.05)，或者算法迭代到某一固定的次数停止(本发明设置为100)。

本发明所提出的基于专家值传播算法的社会网络专家信息处理系统及方法的突出贡献在于，我们不仅利用了个人描述信息与领域关键词的相关度来判别一个人的专家水平，同时还利用了社会网络中人与人之间的关联关系来传播专家值，从而达到了专家推荐专家的效果。

下面举例说明步骤3的一次迭代计算过程，举例如附图3所示。

假设图3左半部分为第n次各节点的专家值，

S_{1}^{n} = 0.6,

S_{2}^{n} = 0.7,

S_{3}^{n} = 1.0,

S_{4}^{n} = 0.2,

图中的边表示两个节点之间存在“同文章作者”关系。

由公式(7)可得w(e₁₂)＝w(e₁₃)＝w(e₁₄)＝1/3，w(e₂₁)＝w(e₃₁)＝w(e₄₁)＝1，则由公式(8)得：

S_{1}^{n + 1} = 0.15 * 0.6 + 0.85 * (1 * 0.7 + 1 * 1.0 + 1 * 0.2) = 0.94;

S_{2}^{n + 1} = 0.15 * 0.7 + 0.85 * 1 / 3 * 0.6 = 0.275;

S_{3}^{n + 1} = 0.15 * 1.0 + 0.85 * 1 / 3 * 0.6 = 0.32;

S_{4}^{n + 1} = 0.15 * 0.6 + 0.85 * 1 / 3 * 0.6 = 0.2 .

其中

\max (S_{i}^{n + 1}) = 0.94,

最后根据公式(9)可得：

S_{1}^{n + 1} = 0.94 / 0.94 = 1.0;

S_{2}^{n + 1} = 0.275 / 0.94 = 0.29;

S_{3}^{n + 1} = 0.32 / 0.94 = 0.34;

S_{4}^{n + 1} = 0.2 / 0.94 = 0.21 .

即为图3右半部分所示第n+1次迭代的结果。

步骤4：将传播结束后的专家按照专家值进行排序，输出给用户。

图4是一个有关“data mining”查询输出的例子。

对我们提出的方法总结为如下处理流程：

输入：一个领域关键词q(例如：数据挖掘)以及一个构建好的社会网络G＝(V，E，T，λ)

(这里的社会网络G是静态构造的，即我们的步骤1只需执行一次，与查询无关)

输出：一个按专家值进行排序的专家列表

步骤2.检索候选专家；

//这里以学术研究网络为例解释

1.对于每个人v_i，运用概率模型计算他的个人基本信息d与q的相关度；

2.运用另一个概率模型计算v_i的每篇论文p_k与q的相关度；

3.将2与3的相关度综合起来考虑，计算出的值作为v_i的初始专家值；

4.选择初始专家值较高的一部分人作为候选者，并利用他们之间的关系构建一个社会网络子图；

步骤3.传播候选专家值；

5.do{

6.根据公式(6)计算传播系数矩阵M；

7.对于子图中的每个v_i{

8.根据公式(8)更新他的专家度s(v_i)；

9.}

10.根据公式(9)做归一化；

11.}while(终止条件满足)；

步骤4.将传播结束后的专家按照专家值进行排序，输出给用户

本发明紧密结合当前Web数据的新特征，即Web上大量涌现以人为中心的社会网络这一特征。利用社会网络中人与人复杂的社会关系，加强Web上专家信息处理效果。本发明的新颖性体现在，我们提出在社会网络中发现专家。传统的专家发现仅仅是利用文档与查询关键词的相似度来判断一个人的专家程度，而我们提出的方法不仅考虑文档相似度，而且还考虑到社会网络中人与人之间的关系来加强专家信息处理的效果。其创造性表现在，提出如何利用社会网络中人与人之间的关系来进行专家信息处理的方法。我们将社会网络形式化为一个图结构，然后基于该图提出一种传播算法来进行专家值的传播更新。利用专家信息处理的功能，我们可以通过专家快速地得到一些专业问题的答案，从而大大提高了检索的效率。同时，我们还可以通过专家信息处理去结交兴趣相投的朋友，寻找合作伙伴、雇员、顾问。该技术将会给互联网带来巨大的用户和使用频率，是体现互联网新技术以及经济价值的重要手段。

附图说明

图1.系统的整体框图；

图2.一个社会网络中个人描述信息以及人与人之间关系的例子；

个人描述信息如下：

个人基本信息

职位：硕士单位：清华大学计算机系知识工程组

主页地址：http://hmc.arnetmianer.org 电话：62788788

电子邮件：hmc@keg.cs.tsinghua.edu.cn 研究兴趣：信息标注

论文信息

标题：Semantic Annotation Using Horizontal and Vertical Contexts

发表会议：ASWC2006 合作者：唐杰，李涓子

图3.专家值迭代传播的例子；

图4.基于传播算法的专家信息处理系统的界面；

图5.专家检索系统的硬件结构图。

具体实施方式

利用本发明的步骤1-4，创建了一个研究者的社会网络，并且在该社会网络发现某领域的专家来验证本文的发明。本发明所有实验用Java编程实现，并在配置为双核Intel Xeon3.0GHz处理器、2GB内存的服务器上运行。

(1)研究者社会网络的建模

目前我们的研究者社会网络的构建主要包括两部分信息：每个研究者有自己的个人描述信息(包括职位、单位、研究兴趣、论文标题及发表的相应会议)；研究者与研究者之间存在“同文章作者”的关系，即当两个人曾经一起发表过文章，则他们之间会建立“同文章作者”的关系。

(2)研究者社会网络的生成

通过对特定的学术论文网站(http://www.informatik.uni-trier.de/~ley/db/)的数据分析，首先得到论文列表，将论文信息添加到论文信息表4中；接着得到每一篇论文的作者，对于每一篇论文的作者，做如下步骤：如果个人基本信息表3中不存在此人，则采用信息抽取的方法对Web数据进行挖掘，得到他相应的基本信息，并添加到表3中；同时将该作者与相应论文的对应关系添加到人与论文对照表5中；接着，对于该论文的每两个作者，在节点关系表6中插入“同文章作者”关系。

经过这种构建方法，收集了448,289个计算机领域的研究者，725,655篇发表论文，人与人之间的关系数目总共达到2,413,208个，平均每个人与其他人有5.38个关系。

(3)测试集的建立

为了对算法进行测试，我们从Web上收集了13个领域的测试集，每个测试集分别包含某一领域的专家列表。表8列出了这13个测试集的统计信息以及来源。其中，“本体映射”和“语义Web”来自于相关会议的委员列表；“数据挖掘”来自kmining.com整理的有关数据挖掘的人员；“信息抽取”来自Dr.Ion Muslea收集的有关信息抽取的研究者；“加密学”来自Kevin McCurley收集的有关加密学的研究者；“计算机视觉”来自Dr.Margaret Fleck收集的有关计算机视觉的研究者；“神经网络”是来自Open Directory有关神经网络的研究者；“Boosting学习”与“支持向量机”分别来自它们的官方网站。“Planning学习”，“智能代理”、“机器学习”以及“自然语言处理”都来自于一个人工智能的网站。

表8，13个领域的专家测试集

(4)测试准则

我们采用P@5，P@10，P@20，P@30，R-pre，MAP，bref作为评测准则。定义准确率为专家信息处理结果中的正确结果所占的比例(正确结果指的是在测试集中出现的专家)。P@5评测前5个返回结果的准确率，P@10，P@20，P@30同理；R-pre评测前R个返回结果的准确率，其中R表示测试集中的专家总数；MAP评测每个正确结果出现时的准确率的平均值；bref主要着眼于错误发现的专家排在正确专家前面的平均比例，公式定义如下：

bpref = \frac{1}{R} \underset{r}{Σ} 1 - \frac{| n ranked higher than r |}{R} - - - 10)

其中，R表示测试集中的专家总数，r是测试集中的一个正确专家，n是查找结果中前R个错误发现的专家之一。

(5)实验结果

本发明中所述方法与另一种方法进行比较，该比较方法仅考虑用个人描述信息，而没有考虑关系信息，与我们方法的步骤2非常相似。表9列出了这两种方法分别对13领域进行专家信息处理的评测结果。

表9，用我们的方法和比较方法两种方法在13个领域的专家查找评测结果(％)

从实验结果可以看出，我们的方法在大部分领域上的评测结果都优于比较方法。实验表明，我们提出的基于专家值传播算法的社会网络专家信息处理系统及方法是切实有效的。

由此可见，本发明达到了预期目的。

Claims

1、基于专家值传播算法的社会网络专家信息处理系统，其特征在于该系统由依次串联的社会关系网络生成服务器、数据库服务器、专家值计算服务器及Web服务器构成，其中：

社会关系网络生成服务器，依次按以下步骤构建一个社会关系网络图G：

步骤(1)，社会网络为G＝(V，E，T，τ)，

其中，V为节点集，v∈V，每个节点v代表社会网络中的一个人，他会有下述个人描述信息：

个人基本信息，其中至少会有：职位、单位、研究兴趣和主页地址；

个人发表的论文信息，其中至少含有：论文标题、发表会议名称和合作作者；个人与论文之间的关系用一个人与其所发表的稿件对应表示描述，其中包括：所述人的标识以及论文的标识；

E &SubsetEqual; V \times V

为社会关系网络图G中边的集合，e^t _ij∈E代表G中的人v_i和v_j之间存在的一种关系，用t表示；

T为所述集合E中各种关系类型的集合，t∈T代表人与人之间的一种社会关系类型，用一个社会关系类型表来描述，其中至少含有：关系，不少于论文作者合作关系，论文或项目的指导关系，研究项目的合作关系以及朋友关系四种；各种关系的权重以及关系的标识；

τ：E→T是一个人际关系到所述关系类型的映射函数，用τ(e^t _ij)＝t表示，当所述人际关系为双向关系时，表示一种对称关系；

在所述社会关系网络图G中，全部人际关系构成一个社会关系网络节点表，包括：人际关系类型τ、源节点v_i和目标节点v_j；

步骤(2)，把步骤(1)得到的社会关系网络图G输入到数据库服务器；

步骤(3)，专家值计算服务器在整个社会关系网络中检索所有候选专家，并给每个候选专家计算领域相关的专家值：

步骤(3.1)，对于每个人v_i，把他的个人基本的描述信息连接成一个大文档d，并用p_k表示该v_i的每一篇论文的信息；

步骤(3.2)，给定一个领域关键词q，运用信息检索中的概率模型，估计该领域关键词q和个人基本信息e的相关度p(q|d)，以及领域关键词q和每一篇论文的信息的相关度(q|p_k)：

p (q | d) = \underset{t &Element; q}{Π} {((1 - λ) p (t | d) + λp (t))}^{n (t, q)}

其中：t表示当把领域关键词q分割成分词后，其中各个词的符号表示；

n(t，q)表示分词t出现在q中的次数；

λ为平滑处理系数，取值为[0，1]；

p(t)为分词t在所有人的大文档d中出现的次数除所有人的大文档d中包含的总词数来估算；

p(t|d)为分词t在v_i的大文档d中出现的次数除v_i的大文档d中包含的总字数来估算；

p (q | p_{k}) = \underset{t &Element; q}{Π} {((1 - λ) p (t | p_{k}) + λp (t))}^{n (t, q)}

其中：p(q|p_k)为分词t在v_i的每篇论文的信息p_k中出现的次数除以过滤了高频词后的论文信息p_k中包含的总字数来估算；

步骤(3.2)，根据步骤(3.1)得到的p(q|d)和p(q|p_k)计算出每个人v_i的个人基本信息以及每篇论文的信息各自与领域关键词q的相关度，再把这两个相关度进行线性拟合，得到下式所表示的每个人v_i的专家初始值s(v_i)⁰：

s {(v_{i})}^{0} = α \cdot p (q | d) + (1 - α) \cdot \underset{p_{k} &Element; P}{Σ} if (p_{k}) \times p (q | p_{k})

其中，α取值范围为[0，1]，

P表示该v_i发表的全部论文，p_k表示P中的一篇论文；

if(p_k)表示论文p_k所发表的会议或杂志的影响因子，为已知值；

步骤(3.3)，选择初始专家值排在前N位的专家组成候选专家组，N为设定值；

步骤(4)，所述专家值计算服务器利用基于传播思想的迭代算法，按以下步骤构建一个社会网络子图，并在该子图的基础上更新获取候选专家的专家值：

步骤(4.1)，根据步骤(3.3)得到的候选专家组得到一个关于领域关键词q的社会关系网络子网，其中节点代表一个候选专家，每条边表示连接的两个专家之间关系；

步骤(4.2)为步骤(4.1)得到的社会关系网络子图构建一个传播系统矩阵M，其中的元素M_ij表示从v_i到v_i的传播系数，M_ij取值范围为[0，1]，所述M_ij如下所示：

M_{ij} = \underset{t}{Σ} c (τ (e_{ij}^{t}) * w (e_{ij}^{t}))

其中，c(τ(e^t _ij))代表一种关系e^t _ij的权重，为设定值，

w(e^t _ij)代表v_i和v_j之间关系e^t _ij的密切程度，根据所述社会关系网络图中关系权重大者来选取相应的关系名称，据此来计算相应的关系权重w(e_ij ^t)：

其中，|U_i|表示v_i的所有这种关系的数目；

步骤(4.3)，计算算法迭代到n+1时的专家值向量Sⁿ⁺¹，Sⁿ⁺¹表示所有专家的专家值组成的向量，其中的每一维S_i ⁿ代表v_i的专家值：

Sⁿ⁺¹＝(1-ω)Sⁿ+ωM^TSⁿ

其中，ω表示传播距离的惩罚系数，取值范围为[0，1]，传播系数矩阵M在跌代过程是固定不变的；

步骤(4.4)，把步骤(4.3)中所有专家的专家值归一化为：

S_{i}^{n + 1} = \frac{S_{i}^{n + 1}}{\max (S_{i}^{n + 1})}

专家值最大为1；

步骤(4.5)把步骤(4.4)得到的推荐专家集通过Web网络输出给用户。

2.基于专家值传播算法的社会网络专家信息处理方法，特征在于，该方法是在一个依次由社会关系网络生成服务器，数据库服务器，专家值计算服务器以及Web服务器串联构成的专家集检索系统中按以下步骤逐步实现的：

步骤(1)，社会网络为G＝(V，E，T，τ)，

E &SubsetEqual; V \times V

p (q | d) = \underset{t &Element; q}{Π} {((1 - λ) p (t | d) + λp (t))}^{n (t, q)}

n(t，q)表示分词t出现在q中的次数；

λ为平滑处理系数，取值为[0，1]；

p (q | p_{k}) = \underset{t &Element; q}{Π} {((1 - λ) p (t | p_{k}) + λp (t))}^{n (t, q)}

s {(v_{i})}^{0} = α \cdot p (q | d) + (1 - α) \cdot \underset{p_{k} &Element; P}{Σ} if (p_{k}) \times p (q | p_{k})

其中，α取值范围为[0，1]，

P表示该v_i发表的全部论文，p_k表示P中的一篇论文；

步骤(4.2)为步骤(4.1)得到的社会关系网络子图构建一个传播系统矩阵M，其中的元素M_ij表示从v_i到v_j的传播系数，M_ij取值范围为[0，1]，所述M_ij如下所示：

M_{ij} = \underset{t}{Σ} c (τ (e_{ij}^{t}) * w (e_{ij}^{t}))

其中，c(τ(e^t _ij))代表一种关系e^t _ij的权重，为设定值，

其中，|U_i|表示v_i的所有这种关系的数目；

Sⁿ⁺¹＝(1-ω)Sⁿ+ωM^TSⁿ

步骤(4.4)，把步骤(4.3)中所有专家的专家值归一化为：

S_{i}^{n + 1} = \frac{S_{i}^{n + 1}}{\max (S_{i}^{n + 1})}

专家值最大为1；