CN107548495A

CN107548495A - 识别组织中的专家和专业领域

Info

Publication number: CN107548495A
Application number: CN201680023729.8A
Authority: CN
Inventors: M·普拉塔基斯; C·马克里斯; T·T·利德; B·赫斯塔; S·托曼多; S·日特尼克
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-04-24
Filing date: 2016-04-14
Publication date: 2018-01-05
Also published as: WO2016171993A1; EP3286661A1; US20160314122A1

Abstract

提供对组织中的专家和专业领域的自动识别。分析处理引擎从各种数据存储库中取回数据，对数据进行预处理，并且使用用于识别词语和短语的算法，从所述词语和短语中选择前若干个短语作为专业领域。分析处理引擎将选定的专业领域存储在图形结构中。一旦一个或多个专业领域被识别并存储在图形结构中，则分析处理引擎针对对一个或多个专业领域的专家的识别和排序而查询图形结构。在专业领域节点和专业领域的相应专家之间增加了双向图边，以便使能目标查询和探索性查询。

Description

识别组织中的专家和专业领域

背景技术

一般而言，专家是一个在特定的研究领域具有超越普通人的知识或能力的人。通常，在组织中，员工受益于或需要组织中具有特定专业领域知识或能力的专家的帮助。然而，可能在特定主题中很难知道谁是专家，特别是在大型或分布式组织环境中。

发明内容

提供该发明内容以便以简化的形式来引入下面的具体实施方式中进一步描述的概念的选择。该发明内容不旨在确定所要求保护的主题的关键特征或主要特征，也不旨在作为用于限定所要求保护的主题的范围的辅助。

本公开的方面涉及用于识别组织中的专家和专业领域的自动化系统和方法。专家和专业识别系统包括通信地附接到各种数据存储库的分析处理引擎，专家和专业识别系统从各种数据存储库取回数据，预处理数据，并且使用用于识别词语和短语的算法，从词语和短语中选择前若干个短语作为专业领域。分析处理引擎将选定的专业领域存储在图形结构中。

一旦一个或多个专业领域被识别并存储在图形结构中，对于每个专业领域，分析处理引擎针对对一个或多个专业领域的专家的识别和排序而查询图形结构。在专业领域节点和对应的专业领域的专家之间增加了双向图边，以便启用目标查询和探索性查询。例如，使得用户能够针对主题“A”的专家而查询图形，或者针对用户“X”所在的专业领域而查询图形。因此，用户能够快速、轻松地识别特定主题的专家和同事所拥有的专业领域。因此，专家和专业知识识别系统的方面有助于通过使用户能够花更少的时间在组织中寻找和定位专家来提高用户的效率。此外，专家和专业识别系统鼓励跨整个组织分享知识和协作，从而使用户受益于来自用户可能不认识的专家的知识。

根据一个方面，示例可以被实现为计算机过程、计算系统、或实现为诸如计算机程序产品或计算机可读介质的制品。根据一个方面，计算机程序产品可以是计算机系统可读并且对用于执行计算机过程的指令的计算机程序进行编码的计算机存储介质。

在附图和下面的说明书中阐述了一个或多个方面的细节。其它的特征和优点将从下面详述的阅读以及相关附图的浏览中变得显而易见。应当理解，前面的概述和下面的详述仅是说明性的，不限制权利要求。

附图说明

并入并构成本公开的一部分的附图示出了各个方面。在附图中：

图1是用于识别组织中的专家和专业领域的系统的简化框图；

图2是示出分析处理引擎的组件的简化框图；

图3是包括专家节点、专业领域节点和连接两个节点的双向边的图形结构的示例图示；

图4A和4B示出了用于识别组织中的专家和专业领域的操作流程；

图5是示出可以利用其实践实现方式的计算设备的示例物理组件的框图；

图6A和6B是可以利用其实践实现方式的移动计算设备的简化框图；且

图7是可以其中实践实现方式的分布式计算系统的简化框图。

具体实施方式

以下的详细说明参照附图。尽可能地，在附图和以下描述中使用相同的附图标记来表示相同或相似的元件。尽管可以描述本发明的各方面，但修改、改动和其他实施方式是可能的。例如，可以对附图中所示的元件进行替换、添加或修改，并且可以通过对所公开的方法代替、重新排序或添加阶段来修改本文所描述的方法。因此，以下的详细描述并不限制本发明，而是由所附权利要求限定本发明的适当范围。示例可以采取硬件实现或完全软件实现的形式，或组合软件和硬件方面的实现。因此，以下详细描述不被认为是限制性的。

本公开的方面旨在识别组织中的专家和专业领域。图1是专家和专业识别系统100的一个示例的简化框图。如图1所示，分析处理引擎120分析来自各种数据存储库102各种信息项104，以识别词语或短语作为潜在的专业领域候选者。数据存储库102可以包括远程服务器、本地或远程数据库、本地或远程共享资源存储库、社交网络服务服务器等。数据存储库102存储各种类型的信息项104，例如文档、图像、数据文件、视频文件、音频文件、会议项目、通信项目，例如电子邮件项目、文本消息、电话消息、帖子、博客和类似物。

如将关于图2更详细地描述的，分析处理引擎120可操作以从对存储在各种数据存储库102中的信息项104的分析中收集专业领域候选者，对专业领域候选者进行排序，并且将前N个排序的词语或短语推送到搜索索引106，以作为独立节点存储在图形结构116中。根据另一方面，分析处理引擎120可操作以经由在计算设备126上运行或与计算设备126通信的客户端应用122从用户124接收手动专业领域输入，计算设备126例如为台式计算机、笔记本计算机、平板式计算机、手持计算设备、移动通信设备等。例如，用户124可以经由客户端应用122和分析处理引擎120输入词语或短语作为专业领域，以存储在图形结构116中。

分析处理引擎120进一步可操作以针对包括用于识别专业领域专家的专业领域词语或短语的信息项104而查询数据存储库102，并且经由图形结构116中的双向边表示所识别的专家与专家的专业领域之间的关系。

图形结构116包括关于企业信息项104的信息，例如人和文档以及信息项104之间的关系和交互。信息项104被表示为节点110、114，并且关系和交互被表示为边112。边112表示单个交互(例如，同事修改文档，用户查看图像等)，代表多个交互(例如，用户经常交互的人，在用户的同事圈中流行的项目等)，或代表组织关系(如经理，同事等)。根据本公开的方面，边112可以表示专业关系(例如，用户X是专业领域A的专家或专业领域A由用户X拥有)。由节点110、114和边112表示的每个信息项、交互和关系包括多个属性。节点110、114和边112的属性在搜索索引106中被解析和维护，搜索索引106可由一个或多个服务器来维护。

使得用户124能够经由搜索应用程序编程接口(API)108在搜索索引106上执行搜索查询，其使得客户端应用122能够与搜索索引106通信，以从图形结构116中取回专业信息。根据在一方面，客户端应用122是包含用于生成向用户呈现的信息项104的内容馈送的足够的计算机可执行指令的软件应用(例如搜索和呈现应用)。客户端应用122可操作以经由用户界面向用户124呈现搜索字段，用于从图形结构116请求信息。例如，用户124可以负责与“电气安全”主题相关的任务，用户不是该主题的专家。用户124可以希望在他/她的组织中找到作为“电气安全”专家的某人。因此，用户124可以经由客户端应用122用户界面中的搜索字段提交关于“电气安全”专家的查询。客户端应用122可以向搜索索引106发送针对“电气安全”专的家应用编程接口(API)调用。

搜索索引106可以返回包括被识别为“电气安全”专家的同事的姓名的回复。根据一方面，与图形结构116中的专家相关联的各种属性被包括在回复中。客户端应用122生成用于在用户界面中显示的元素，包括与专家相关联的各种属性，例如电子邮件地址、用户名、标题、电子邮件地址、电话号码等。可以生成链接并且链接包括该元素中，当链接被选择时，允许用户导航到与专家相关联的页面，其中页面可以包括诸如专家的同事的信息，以及在专家和专家的同事中流行的信息项104的选择。

现在参考图2，提供了示出分析处理引擎120的各种组件和模块的简化框图。根据一方面，分析处理引擎120的各种组件和模块在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和取回以及各种处理功能通过诸如因特网或内联网的分布式计算网络彼此远程地进行操作。根据另一方面，分析处理引擎120的各种组件和模块被部署在单个计算机上。

如图所示，分析处理引擎120包括可操作以识别组织中的一个或多个专业领域的专业领域模块202。专业领域模块202包括用于取回与存储在各种数据存储库102中的信息项104的语料库相关联的文本数据的数据挖掘组件204。数据挖掘组件204可操作以与各种数据存储库102、搜索索引106或图形116中的每一个进行通信以用于取回与信息项104相关联的文本数据的。根据一个方面，数据挖掘组件204取回包括在信息项104的标题中的文本数据。根据另一方面，数据挖掘组件204取回包括在信息项104正文中的文本数据。文本数据可以由数据挖掘组件204经由推送或拉取系统接收。根据一个方面，数据挖掘组件204连续运行，使得其可操作以对数据存储库102中的现有内容以及输入的信息项104做出反应。

专业领域模块202还包括文本处理组件206，用于分析文本数据并将文本数据的语料库转换成一组可被用作进一步处理的输入的词语。根据一个方面，文本处理组件206采用标记化(tokenization)过程以将一串文本分解为词语、短语、符号或称为标记的其他有意义的元素。根据另一方面，文本处理组件206采用词形还原过程来将词语的有字尾变化的形式以及有时衍生相关形式的词归纳为共同的基本形式(例如，将“am”、“are”和“is”归纳为“be”)，以及通过词库操作符(例如将“热”匹配到“暖”)来归纳相关词。根据另一方面，文本处理组件206使用用于从文本数据中移除某些词语的停止词移除处理，例如常见的短功能词，例如“the”，“is”，“at”，“which”和“on”。

如图所示，专业领域模块202还包括用于将相关词语和短语识别为专业领域的候选的排序组件208。根据一个方面，排序组件208使用术语频率-逆文档频率(TF-IDF)算法来产生由文本处理组件206提供的词语集合中的每个词语的复合权重，其中TF-IDF值与文档中的词语出现次数(信息项104)成比例地增加，但被文档语料库中词语的频率所抵消。

根据示例，TF-IDF值是两个统计量的乘积：术语频率(TF)和逆文档频率(IDF)，其中TF被计算为词语出现在信息项104的次数除以该信息项104中的词语的总数，并且IDF被计算为语料库中的信息项104的数量除以出现特定术语的信息项104的数量的对数。

术语频率(TF)衡量术语在信息项104中出现的频率。由于每个信息项104的长度不同，所以术语有可能在较长的信息项104中比在较短的信息项出现次数更多。因此，作为归一化的方式，TF除以信息项104长度(即，信息项104中的术语总数)：

TF(t)＝(术语t在文档中出现的次数)/(文档中的术语总数)。

逆文档频率(IDF)衡量一个术语的重要性。在计算TF时，所有术语都被认为是同等重要的。然而，众所周知，某些术语，例如“is”、“of”和“that”可能经常出现但并不太重要。因此，通过以下计算，频繁的术语被减低权重，罕见的术语被放大：

IDF(t)＝log_e(文档总数/其中有术语t的文档数目)。

例如，考虑包含100个词的信息项104，其中“计算机”一词出现3次。“计算机”的TF为：现在，假设语料库中有1000万个信息项104，“计算机”一词出现在其中的一千个中。然后，IDF计算为：因此，TF-IDF值是这些量的乘积：0.03×4＝0.12。应当理解，以上是简化的TD-IDF函数。该简单模型的其他变型可以由排序组件使用以识别信息项104中的相关词语和短语作为专业领域术语的候选。

根据一个方面，排序组件208采用用于关键词提取的统计词共现(WordCo)算法，其确定文档(信息项104)中的术语的重要性，而不需要使用文档语料库。WordCo算法通过计算术语频率来提取一组频繁用术语，并通过对每个术语和每个频繁用术语在序列中的共同出现进行计数来建立共现矩阵。如果术语和频繁用术语之间的共现概率分布偏向于频繁用术语的特定子集，则该术语被确定为很可能是关键词。通过χ₂度量来衡量分布的偏差程度。

根据示例，WordCo算法包括以下步骤：

1.选择频繁用术语：选择最频繁用术语，最多为运行术语数的30％＝Ntotal。

2.将频繁用术语聚类：将Jensen-Shannon发散度高于阈值(0.95×log 2)的一对术语聚类。将互信息高于阈值(log(2.0))的一对术语聚类。获得的聚类被表示为C。

3.计算预期概率：利用c∈C对共同出现的术语数目进行计数，表示为nc，以产生预期概率pc＝nc/Ntotal。

4.χ₂值的计算：对于每个术语w，利用c∈C对同现频率进行计数，表示为freq(w，c)。对包括w在内的句子的术语总数进行计数，表示为nw。计算χ₂值。

5.输出关键词：显示具有最大χ₂值的给定数量的术语。无论其频率如何，提取重要术语。

根据一个方面，排序组件208采用TF-IDF算法和统计词共现算法，用于生成重要词语和短语的集合。例如，将术语频率-逆文档频率算法和统计词共现算法应用于每个信息项104的标题和每个信息项104的正文。排序组件208的输出包括重要的词语和短语的集合，例如，由TF-IDF算法确定的来自信息项104的标题的第一组重要词语和短语，由TF-IDF算法确定的来自信息项104的正文的第二组重要词语和短语，由WordCo算法确定的来自信息项104的标题的第三组重要词语和短语，以及由WordCo算法确定的来自信息项104的正文的第四组重要词语和短语。根据一个方面，每个词语或短语包括重要性等级，例如在从0到1的等级上。

如图所示，专业领域模块202还包括用于从排序组件208接收输出并合并结果的合并器组件210。根据一个示例，合并器组件210使用可用于计算模糊集合的交集、并集和补集的隶属度值的函数(诸如三角余模(T-conorm)函数)来合并词语和短语。一旦结果被合并，合并器组件210选择前N个词语或短语作为专业领域。

专业领域模块202还包括用于将所选择的N个专业领域传递到搜索索引106的输出组件212，使得每个专业领域可以在图形结构116中表示为独立节点110、114。

仍然参考图2，分析处理引擎120包括专家模块214，专家模块214可操作以通过针对专业领域而对组织中的信息项104的作者排序来识别每个专业领域的专家。根据一个示例，排序基于以下概念：人们写文档(信息项104)以传达他们所知道的信息，并且许多人阅读的信息项104包括比那些没有得到更多牵引的信息项更有价值的信息。

如图所示，专家模块214包括查询组件216，用于针对包括专业领域术语的信息项104而查询数据存储库102、搜索索引106或图形结构116中的一个或多个。根据一方面，专业领域术语包括由专业领域模块202确定的专业领域。根据另一方面，查询组件216可操作以用于针对包括用户124手动输入的专业领域术语的信息项104而进行查询。例如，专业领域术语可能未被专业领域模块202识别，或者可能不在由专业领域模块202的合并器组件210确定的前N个专业领域中。无论什么原因，使得用户124能够经由客户端应用122将专业领域术语输入到系统中。根据一个方面，分析处理引擎120包括专业领域输入组件222，其可操作以从客户端应用122接收专业领域术语的输入，并将手动插入的专业领域术语添加到图形结构116中。

仍然参考图2，专家模块214还包括评分组件218，用于对包括专业领域术语的每个信息项104的每个作者产生分数。根据一个方面，如果作者已经与图形结构116中的信息项104相关联，则分数可以是更新的分数。根据另一方面，可以为作者生成节点110、114并将其添加到图形结构116中，并且如果作者尚未与图形结构116中的信息项104相关联，则可以为作者产生分数。以下是可由评分组件218使用以对于包括专业领域术语的每个信息项104的每个作者产生分数的示例启发式方法：

对于所有文档.包含(专业)：

文档权重(WeightOfDocument)＝1

如果文档的摘要.包含(专业)：

WeightOfDocument+＝.2

如果文档的标题。包含(专业)：

WeightOfDocument+＝.5

对于文档中的所有作者：

作者权重(AuthorWeight)＝WeightOfDocument

如果作者是第一作者：

AuthorWeight+＝.5

作者.价值(Author.Value)+＝AuthorWeight*文档.视图(Document.Views)。

根据上述示例，信息项104的权重取决于以下因素：对信息项104的查看，信息项104的摘要是否包括专业领域术语，以及信息项104的标题是否包括专业领域术语。使用信息项104的摘要是否包括专业领域术语以及信息项104的标题是否包括专业领域术语的因素，包括专业领域术语但是不直接与其相关的信息项104的权重被减低加权。此外，假设第一作者是信息项104的内容的主要贡献者，信息项104的第一作者(即，创作者或主要贡献者)比信息项104的其他作者(例如，贡献者)被给予更高的分数。应当意识到，可以使用其他启发式方法。例如，如果信息项104是社交网络帖子或附加到帖子的文档，则按点赞的数量、回复数量、访问该帖子的用户数等来对分数进行加权。评分组件218还可操作地按所生成的分数对与特定专业领域相关联的作者进行排序，并且选择前N个作者的子集作为特定专业领域的专家。

专家模块214还包括输出组件220，用于根据评分组件218生成的分数，在图形结构116中表示专业领域和所选择的专家之间的关联。输出组件220可操作以将分数传递给搜索索引106，使得专家经由双向边112与专业领域相关联。下面关于图3更详细地描述图形结构116中的专家和专业领域之间的关联的表示。

现在参考图3，示出了图形结构116的示例部分。示例图形结构116包括表示由专业领域模块202确定的或由用户124手动添加的专业领域(专业领域A)的第一节点302。示例图形结构116还包括第二节点304，其表示如上所述由专家模块214确定为专业领域A的专家的用户(用户X)。连接第一节点302和第二节点304的双向边306由专家模块输出组件220生成，并如图所示添加到图形结构116。如下面的示例中将描述的，双向边306能够实现有目标的和探索性的用户交互。

根据示例，双向边306包括描述边306的各种属性和属性值。例如，边306可以包括以下中的一个或组合：动作/关系类型、ID、可见性属性、权重和时间戳。动作/关系类型是标识边306表示什么动作或关系类型的标识符。例如，动作/关系类型描述了第一节点302(专业领域A)和第二节点304(用户X)之间的双向关系：“isHeidBy”和“isExpertIn”。因此，经由搜索API 108针对关于谁是主题A的专家而对图形结构116进行查询将生成以下响应：Person：UserX-isExpertIn-AreaOfExpertise：A。此外，针对用户X拥有的专业领域的查询将生成以下响应：AreaOfExpertise：A-i sHeldBy-Person：UserX。

已经关于图1-3描述了操作环境和各个方面，图4A和4B示出了用于识别组织中的专家和专业领域的方法。例程400从开始操作405开始并进行到异步操作410，其中图形结构116跟踪并存储组织实体(例如，信息项104，用户124等)以及它们之间的关系作为搜索索引106中的节点110、114和边112。例如，当用户124创建或创作文档(信息项104)时，针对用户124和文档生成并存储节点110、114，并且连接用户124和文档的、表示“创建”交互的边112被生成并存储在图形结构116中。

例程400前进到决策操作415，其中确定用户124是否已将专业领域术语手动输入到系统中。例如，确定用户124是否已经经由客户端应用122输入主题作为专业领域。如果确定专业领域术语已被用户124手动输入，则路由400前进到操作420，其中专业领域输入组件222接收来自客户端应用122的输入。在操作455，将专业领域术语作为节点302添加到图形结构116中。

如果确定专业领域术语尚未由用户124手动输入，则例程400前进到操作425，其中专业领域模块202的数据挖掘组件204与各种数据存储库102、搜索索引106和图形116进行通信，并且取回与信息项104相关联的文本数据。例如，数据挖掘组件204取回包括在信息项104的标题中以及信息项104的正文中的文本数据。根据一方面，数据挖掘组件204解析某种格式的信息项104，例如文字处理文件、幻灯片演示文件、固定布局文档(例如，PDF文件)和ASCII文本格式的数据文件。文本数据可以由数据挖掘组件204经由推送或拉取系统接收。

例程400前进到操作430，其中文本处理组件206分析由数据挖掘组件204取回的文本数据，并且应用一个或多个预处理函数来将文本数据的语料库转换成可以用作进一步处理的输入的一组术语。例如，文本处理组件206采用以下中的一个或多个：标记化、词形还原和停止词移除。

例程400前进到操作435，其中排序组件208生成相关词语和短语的子集作为专业领域术语的候选。根据一个方面，排序组件208采用一个或多个排序功能，例如术语频率逆文档频率算法和统计词共现算法，以用于识别重要的词语和短语。排序组件208的输出包括关键词和关键短语集合以及每个关键词和关键词短语的重要性等级。根据一个方面，这些集合包括TF-IDF标题集合、TF-IDF正文集合、WordCo标题集合和WordCo正文集合。

例程400前进到操作440，其中合并器组件210将关键词和关键短语集合合并成单个集合，其中关键词和关键短语被排序。根据一个方面，合并器组件210使用T-conorm函数来合并关键词和关键短语集合。一旦集合被合并，例程400前进到操作445，其中合并器组件210从合并的集合中选择前N个关键词或关键短语作为专业领域术语。

在操作450，专业领域模块202的输出组件212将所选择的N个专业领域术语传递到搜索索引106，并且在操作455，每个专业领域术语在图形结构116中被表示为独立节点302。

现在参考图4B，例程400前进到操作460，其中专家模块214的查询组件216针对包括专业领域术语的信息项104而查询数据存储库102、搜索索引106或图形结构116中的一个或多个。根据一方面，专业领域术语可以包括由专业领域模块202确定的专业领域术语和由用户124手动输入的专业领域术语。

例程400前进到操作465，其中评分组件218根据如上所述的各种启发式方法而生成针对包括专业领域术语的每个信息项104的每个作者的分数，并且按所生成的分数对与每个专业领域相关联的作者进行排序。在操作467，评分组件218选择前N个作者作为每个专业领域的专家。

例程400前进到操作470，其中专家模块214的输出组件220将专家和专业领域之间的关联传递到图形结构116，用于将专业领域节点302与所选择的专家节点304之间的关联表示为双向边306。边306除了已经写入的内容之外(即专家排序是持久的)还存储有权重信息。

在操作475，接收到搜索查询的指示。例如，用户124可以使用客户端应用122来搜索“谁是关于主题A的专家？”或“人士X所拥有的专业领域？”。

例程400前进到操作480，其中客户端应用122经由搜索API 108向搜索索引106进行API调用，以针对满足查询的图形边306来查询搜索索引106。例如，如果该查询是针对“谁是主题A的专家”，则搜索API 108针对“AreaofExpertise：A-isHeldBy-Persom：X”边306而查询搜索索引106。

在操作485，查询的结果，即基于权重的专家的有序列表被返回给客户端应用122。根据一个方面，客户端应用122生成用于在用户界面中显示的元素，包括与一个专家或多个专家相关联的各种属性，例如电子邮件地址、用户名、标题、电子邮件地址、电话号码等。可以生成链接并且包括有元素，当链接被选择时，允许用户124导航到与专家相关联的页面，其中页面可以包括诸如专家的同事的信息和对在专家和专家的同事中流行的信息项104的选择的信息。

例程400在操作495结束。

专家和专业识别系统100的示例提供：接收与信息项104的语料库相关联的文本数据；将文本数据变换成可用作进一步处理的输入的一组术语；处理所述一组术语以生成一组排序的关键词或关键短语，以及将一组排序的关键词或关键短语的子集选为一个或多个专业领域；将一个或多个专业领域中的每个作为节点302存储在图形结构116中；执行针对与所述一个或多个专业领域中的每一个相关联的信息项104的查询；生成针对与所述一个或多个专业领域中的每个相关联的每个信息项的每个作者的分数；对与一个或多个专业领域相关的作者进行排序；选择与一个或多个专业领域中的每个相关联的前若干个作者的子集；如果节点尚不存在，则在图形结构116中生成和存储与一个或多个专业领域中的每个相关联的每个排序靠前的作者的节点304；以及生成和存储双向边306，双向边306将表示排序靠前的作者的节点304中的每个与图形结构116中的对应的专业领域节点302相连接。

虽然已经在与在计算机上的操作系统上运行的应用程序一起执行的程序模块的一般上下文中描述了实现方式，但是本领域技术人员将认识到各方面也可以与其他程序模块组合地实现。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。

本文所描述的方面和功能可以通过许多计算系统来操作，包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(例如，移动电话、上网本、平板电脑或平板式计算机、笔记本计算机和膝上型计算机)、手持设备、多处理器系统、基于微处理器或可编程的消费电子产品、小型计算机和大型计算机。

此外，根据一个方面，本文描述的方面和功能可以在分布式系统(例如，基于云的计算系统)上操作，其中应用功能、存储器、数据存储和取回以及各种处理功能通过分布式计算网络(如因特网或内联网)相互远程地操作。根据一个方面，通过板载计算设备显示器或通过与一个或多个计算设备相关联的远程显示单元来显示各种类型的用户界面和信息。例如，各种类型的用户界面和信息被显示在壁面上并且在壁面上进行交互，在壁面上投影有各种类型的用户界面和信息。与实践实现方式的多个计算系统的交互包括：按键输入、触摸屏输入、语音或其他音频输入，其中相关联的计算设备配备有用于捕获和解释用户手势以用于控制计算设备的功能的检测(例如，照相机)功能的手势输入，等等。

图5-7以及相关描述提供了在其中实践示例的各种操作环境的讨论。然而，关于图5-7示出和讨论的设备和系统是出于示例和说明的目的，而不是限于用于实践这里描述的方面的大量计算设备配置。

图5是示出可以实施本公开的示例的计算设备500的物理组件(即，硬件)的框图。在基本配置中，计算设备500包括至少一个处理单元502和系统存储器504。根据一个方面，取决于计算设备的配置和类型，系统存储器504包括但不限于易失性存储器(例如，随机存取存储器)、非易失性存储器(例如，只读存储器)、闪速存储器或这种存储器的任何组合。根据一个方面，系统存储器504包括操作系统505和适于运行软件应用550的一个或多个程序模块506。根据一个方面，系统存储器504包括分析处理引擎120。例如，操作系统505适合于控制计算设备500的操作。此外，各方面结合图形库、其他操作系统或任何其他应用程序来实施，并且不限于任何特定应用或系统。该基本配置在图5中由虚线508中的那些组件示出。根据一方面，计算设备500具有附加特征或功能。例如，根据一个方面，计算设备500包括例如磁盘、光盘或磁带之类的附加数据存储设备(可移动和/或不可移动)。图5中通过可移动存储设备509和不可移动存储设备510示出了这种附加存储。

如上所述，根据一个方面，多个程序模块和数据文件被存储在系统存储器504中。当在处理单元502上执行时，程序模块506(例如，分析处理引擎120)执行包括但不限于图4A和图4B中所示的方法400中的一个或多个阶段的处理。根据一个方面，可以按照示例使用其他程序模块，其他程序模块包括诸如电子邮件和通讯录应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等应用。

根据一个方面，各方面在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路或包含电子元件或微处理器的单个芯片上实现。例如，通过片上系统(SOC)实现各方面，其中图5中所示的每个或许多组件集成到单个集成电路上。根据一个方面，这种SOC设备包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能，它们都作为单个集成电路集成(或“烧录”)到芯片基板上。当通过SOC操作时，本文描述的功能通过与计算设备500的其他组件集成到单个集成电路(芯片)上的专用逻辑来操作。根据一个方面，本公开的方面使用能够执行诸如与(AND)、或(OR)和非(NOT)的逻辑操作的其他技术来实施，包括但不限于机械、光学、流体和量子技术。此外，各方面在通用计算机或任何其他电路或系统中实施。

根据一个方面，计算设备500具有一个或多个输入设备512，诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。根据一个方面，还包括输出设备514，如显示器、扬声器、打印机等。上述设备是示例，并且可以使用其他设备。根据一方面，计算设备500包括允许与其他计算设备518进行通信的一个或多个通信连接516。合适的通信连接516的示例包括但不限于：射频(RF)发射器、接收器和/或收发器电路；通用串行总线(USB)，并行和/或串行端口。

本文使用的术语计算机可读介质包括计算机存储介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构或程序模块的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器504、可移动存储设备509和非可移动存储设备510都是计算机存储介质示例(即，存储器存储)。根据一个方面，计算机存储介质包括RAM、ROM、电可擦除可编程只读存储器(EEPROM)、闪速存储器或其他存储器技术，CD-ROM，数字通用盘(DVD)或其他光存储器，磁带盒，磁带，磁盘存储或其他磁存储设备，或任何其他可以用于存储信息并且可以由计算设备500访问的制品。根据一个方面，任何这样的计算机存储介质是计算设备500的一部分。计算机存储介质不包括载波或其他传播的数据信号。

根据一个方面，通信介质由计算机可读指令、数据结构、程序模块或诸如载波或其他传输机制的调制数据信号中的其他数据来实现，并且包括任何信息传递介质。根据一个方面，术语“调制数据信号”描述了以对信号中的信息进行编码的方式设置或改变一个或多个特性的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、射频(RF)、红外和其它无线介质的无线介质。

图6A和6B示出了可以实践各方面的移动计算设备600，例如移动电话、智能电话、平板个人计算机、膝上型计算机等。参考图6A，示出了用于实现各方面的移动计算设备600的示例。在基本配置中，移动计算设备600是具有输入元件和输出元件的手持式计算机。移动计算设备600通常包括显示器605和允许用户将信息输入到移动计算设备600中的一个或多个输入按钮610。根据一个方面，移动计算设备600的显示器605用作输入设备(例如，触摸屏显示器)。如果包括，可选的侧面输入元件615允许进一步的用户输入。根据一方面，侧面输入元件615是旋转开关、按钮或任何其它类型的手动输入元件。在替代示例中，移动计算设备600包含更多或更少的输入元件。例如，在一些示例中，显示器605可以不是触摸屏。在替代示例中，移动计算设备600是诸如蜂窝电话的便携式电话系统。根据一个方面，移动计算设备600包括可选的小键盘635。根据一个方面，可选的小键盘635是物理小键盘。根据另一方面，可选的小键盘635是在触摸屏显示器上产生的“软”小键盘。在各个方面，输出元件包括用于显示图形用户界面(GUI)、视觉指示器620(例如，发光二极管)和/或音频换能器625(例如扬声器)的显示器605。在一些示例中，移动计算设备600包括用于向用户提供触觉反馈的振动换能器。在又一示例中，移动计算设备600包输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)用于向外部设备发送信号或从外部设备接收信号。在又一示例中，移动计算设备600包含外围设备端口640，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)和视频输出(例如，HDMI端口)用于向外部设备发送信号或从外部设备接收信号。

图6B是示出移动计算设备的一个示例的体系结构的框图。也就是说，移动计算设备600包括实现一些示例的系统(即，体系结构)602。在一个示例中，系统602被实现为能够运行一个或多个应用(例如浏览器，电子邮件，日历，通讯录管理器，消息传递客户端，游戏和媒体客户端/播放器)的“智能电话”。在一些示例中，系统602被集成为诸如集成个人数字助理(PDA)和无线电话之类的计算设备。

根据一个方面，将一个或多个应用程序650加载到存储器662中并在操作系统664上或与操作系统664相关联地运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传递程序等。根据一个方面，分析处理引擎120被加载到存储器662中。系统602还包括存储器662内的非易失性存储区域668。非易失性存储区域668用于存储持久信息，如果系统602断电，则持久信息不会丢失。应用程序650可以使用信息且将信息存储在非易失性存储区域668中，诸如电子邮件或由电子邮件应用使用的其它消息等。同步应用(未示出)也驻留在系统602上，并且被编程为与驻留在主计算机上的对应的同步应用进行交互，以将存储在非易失性存储区域668中的信息与存储在主计算机上的对应信息同步。应当意识到，其他应用可以被加载到存储器662中并在移动计算设备600上运行。

根据一个方面，系统602具有电源670，电源670被实现为一个或多个电池。根据一方面，电源670还包括外部电源，例如AC适配器或用于补充或对电池再充电的电源对接支架。

根据一个方面，系统602包括执行发送和接收射频通信的功能的无线电672。无线电672促进通过通信运营商或服务提供商在系统602和“外界”之间的无线连接。发送到无线电672以及自无线电672发送是在操作系统664的控制下进行的。换句话说，无线电672接收到的通信可以经由操作系统664传播到应用程序650，反之亦然。

根据一个方面，视觉指示器620用于提供视觉通知和/或音频接口674用于经由音频换能器625产生可听的通知。在所示示例中，视觉指示器620是发光二极管(LED)，音频换能器625是扬声器。这些设备可以直接耦合到电源670，使得当被激活时，即使处理器660和其他组件可能关闭以保持电池电力，它们也在由通知机制规定的持续时间内保持接通。LED可能被编程为无限期地接通，直到用户采取动作来指示设备的加电状态。音频接口674用于向用户提供可听见的信号并从其接收可听见的信号。例如，除了耦合到音频换能器625之外，音频接口674还可以耦合到麦克风以接收可听的输入，诸如促进电话对话。根据一个方面，系统602还包括视频接口676，其使得板载照相机730的操作能够记录静止图像、视频流等。

根据一个方面，实现系统602的移动计算设备600具有附加的特征或功能。例如，移动计算设备600包括诸如磁盘、光盘或磁带的附加数据存储设备(可移动和/或不可移动)。这种附加存储在图6B中由非易失性存储区668示出。

根据一个方面，由移动计算设备600生成或捕获且经由系统602存储的数据/信息被本地存储在移动计算设备600上，如上所述。根据另一方面，数据可以存储在可由设备经由无线电672或者经由移动计算设备600与关联移动计算设备600的单独的计算设备(例如，诸如因特网的分布式计算网络中的服务器计算机)之间的有线连接访问的任意数量的存储介质上。应当理解的是，这些数据/信息可以通过移动计算设备600经由无线电672或者经由分布式计算网络来访问。类似地，根据一个方面，根据公知的数据/信息传输和存储手段，包括电子邮件和协作数据/信息共享系统，这些数据/信息可轻易地在计算设备之间传输以便存储和使用。

图7是示出用于如上所述识别组织中的专家和专业领域的系统的体系结构的一个示例。与分析处理引擎120关联地开发的内容、交互的内容或编辑的内容可以存储在不同的通信信道上或其它存储类型。例如，可利用目录服务722、门户网站724、邮箱服务726、即时消息传递存储库728或社交网站730来存储各个文档。分析处理引擎120可使用这些类型的系统等中的任一种用于如本文所述识别专家和专业领域。根据一个方面，服务器715可以为客户端705A、B、C提供分析处理引擎120。作为一个示例，服务器715可以是通过web提供分析处理引擎120的web服务器。服务器715可以通过网络710在web上将分析处理引擎120提供给客户端705。通过示例的方式，客户端计算设备可以实现且体现在个人计算机705A、平板计算设备705B和/或移动计算设备705C(例如，智能手机)或其它计算设备中。客户端计算设备的这些示例中的任一个均可以从存储库716获得内容。

根据各方面，上面参照方法、系统和计算机程序产品的框图和/或操作说明来描述例如实现方式。框中记载的功能/动作可能按照任何流程图所示的顺序发生。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可以基本同时执行，或者有时可以以相反的顺序执行框。

在本申请中提供的一个或多个示例的描述和说明不旨在以任何方式限制或限缩所要求保护的本发明的范围。在该申请中提供的方面、示例和细节被视为足以传达所有权以及使得其他技术人员能够实现和使用所要求保护的发明的最佳方式。实现方式不应被解释为限于本申请中提供的任何方面、示例或细节。无论是组合地或者单独地显示和描述，各个特征(结构上的和方法上的)都意在被选择性地包含或省去以产生具有特定特征集合的示例。已经提供了本申请的描述和说明，本领域技术人员可以设想落入在本申请体现的总的发明构思的较宽方面的精神内的、没有脱离该较宽范围的变型例、修改例和可选的示例。

Claims

1.一种用于识别组织中的专家的计算机实现的方法，包括：

识别专业领域；

将所述专业领域作为节点存储在图形结构中；

执行针对与所识别的专业领域相关联的信息项的查询；

生成针对与所识别的专业领域相关联的每个信息项的每个作者的分数；

将与所识别的专业领域相关联的作者排序；

选择与所识别的专业领域相关联的排序靠前的作者的子集；

确定与所识别的专业领域相关联的排序靠前的作者中的每个是否被表示为所述图形结构中的节点；

如果与所识别的专业领域相关联的排序靠前的作者没有被表示为所述图形结构中的节点，则在所述图形结构中生成和存储表示所述排序靠前的作者的节点；以及

在所述图形结构中生成和存储将表示所述排序靠前的作者的节点中的每个节点与专业领域节点相连接的边。

2.根据权利要求1所述的方法，其中，识别专业领域包括以下中之一：

接收所述专业领域的手动输入；或者

从信息项语料库自动识别所述专业领域。

3.根据权利要求2所述的方法，其中，从所述信息项语料库自动识别所述专业领域包括：

接收与所述信息项语料库相关联的文本数据；

将所述文本数据转换成能够用作进一步处理的输入的一组术语；

处理所述一组术语以生成一组排序的关键词或关键短语；以及

将所述一组排序的关键词或关键短语的子集选择为一个或多个专业领域。

4.根据权利要求3所述的方法，其中，将所述文本数据转换成能够用作进一步处理的输入的一组术语包括采用以下中的一个或多个：

标记化；

词形还原；以及

停止词移除。

5.根据权利要求3所述的方法，其中，处理所述一组术语以生成一组排序的关键词或关键短语包括：

对所述信息项语料库的标题应用术语频率-逆文档频率算法和统计词共现算法；

对所述信息项语料库的正文应用所述术语频率-逆文档频率算法和所述统计词共现算法；

从由所述术语频率-逆文档频率算法确定的所述信息项语料库的标题生成一组关键词或关键短语，所述一组关键词或关键短语包括重要性等级；

从由所述术语频率-逆文档频率算法确定的所述信息项语料库的正文生成一组关键词或关键短语，所述一组关键词或关键短语包括重要性等级；

从由所述统计词共现算法确定的所述信息项语料库的标题生成一组关键词或关键短语，所述一组关键词或关键短语包括重要性等级；

从由所述统计词共现算法确定的所述信息项语料库的正文生成一组关键词或关键短语，所述一组关键词或关键短语包括重要性等级；以及

将各组关键词或关键短语合并成一组排序的关键词或关键短语。

6.根据权利要求1所述的方法，其中，在所述图形结构中生成和存储将表示所述排序靠前的作者的节点中的每个节点与专业领域节点相连接的边包括生成和存储双向边。

7.根据权利要求1所述的方法，还包括：

接收针对以下中的一项的查询的指示：

特定专业领域中的专家；或者

特定人士所拥有的专业领域；

查询与所述图形结构相关联的搜索索引，以用于取回与所述图形结构中的将表示所述排序靠前的作者的节点与专业领域节点相连接的边相关联的专家和专业信息；以及

生成包括以下之一的响应：

所述排序靠前的作者之一是所识别的专业领域中的专家；或者

所述专业领域由所述排序靠前的作者中的一个或多个拥有。

8.一种用于识别组织中的专家的系统，包括：

一个或多个处理器，其用于执行编程指令的；

存储器，耦合到所述一个或多个处理器，用于存储由所述计算机处理器执行的程序指令步骤；

专家模块，用于生成专业领域的一组专家，所述专家模块包括：

查询组件，其用于执行针对与所述专业领域相关联的信息项的查询；

评分组件，用于：

生成与所述专业领域相关联的每个信息项的每个作者的分数；并且

将与所述专业领域相关联的作者进行排序；

选择与所述专业领域相关联的排序靠前的作者的子集；

输出组件，用于：

确定与专业领域相关联的排序靠前的作者中的每个是否被表示为所述图形结构中的节点；

9.根据权利要求8所述的系统，还包括用于识别专业领域的专业领域模块，所述专业领域模块包括：

数据挖掘组件，其用于接收与信息项语料库相关联的文本数据；

文本处理组件，其用于将所述文本数据转换为能够用作进一步处理的输入的一组术语；

排序组件，其用于从所述一组术语生成一组排序的关键词或关键短语；以及

输出组件，用于：

选择所述一组排序的关键词或关键短语的子集作为一个或多个专业领域；以及

将所述一个或多个专业领域存储为所述图形结构中的一个或多个节点。

10.根据权利要求9所述的系统，其中，所述排序组件可操作以用于：

将术语频率-逆文档频率算法和统计词共现算法应用于所述信息项语料库的标题；

将所述术语频率-逆文档频率算法和所述统计词共现算法应用于所述信息项语料库的正文；以及

生成多组关键词和关键短语，其中，每个关键词或关键短语包括重要性等级。

11.根据权利要求10所述的系统，还包括合并器组件，其可操作以将所述多组关键词和关键短语合并成一组排序的关键词或关键短语。

12.根据权利要求8所述的系统，还包括用于接收所述专业领域的手动输入的专业领域输入组件。

13.根据权利要求8所述的系统，其中在生成针对与所述专业领域相关联的每个信息项的每个作者的分数时，所述评分组件可操作以基于以下操作来生成分数：

如果所述信息项包括所述专业领域，则应用权重；

如果所述信息项的摘要包括所述专业领域，则应用权重；

如果所述信息项的标题包括所述专业领域，则应用权重；以及

如果所述作者是所述信息项的创建者，则应用权重。

14.根据权利要求8所述的系统，还包括：

搜索索引，用于：

接收针对以下中的一项的查询的指示：

特定专业领域中的专家；或者

特定人士所拥有的专业领域；

取回与在所述图形结构中的将表示所述排序靠前的作者的节点与专业领域节点相连接的边相关联的专家和专业信息；以及

生成包括以下之一的响应：

所述排序靠前的作者之一是所识别的专业领域的专家；或者

所述专业领域由所述排序靠前的作者中的一个或多个拥有。

15.一种或多种存储计算机可用指令的计算机存储介质，当计算机可用指令被一个或多个计算设备使用时，使所述一个或多个计算设备执行用于识别组织中的专家和专业领域的方法，所述方法包括：

接收与信息项语料库相关联的文本数据；

处理所述一组术语以生成一组排序的关键词或关键短语；

选择所述一组排序的关键词或关键短语的子集作为一个或多个专业领域；

将所述一个或多个专业领域中的每个作为节点存储在图形结构中；

执行针对与所述一个或多个专业领域中的每个相关联的信息项的查询；

生成针对与所述一个或多个专业领域中的每个相关联的每个信息项的每个作者的分数；

将与所述一个或多个专业领域相关联的作者排序；

选择与一个或多个专业领域中的每个相关联的排序靠前的作者的子集；

如果节点尚不存在，则在所述图形结构中生成和存储与一个或多个专业领域中的每个相关联的所述排序靠前的作者中的每个作者的节点；以及

在所述图形结构中生成和存储将表示所述排序靠前的作者的节点中的每个节点与相应专业领域节点相连接的双向边。