CN108701155B

CN108701155B - 社交网络中的专家检测

Info

Publication number: CN108701155B
Application number: CN201780013556.6A
Authority: CN
Inventors: O·阿隆索; M·亨切尔; V·坎迪拉斯; T·塞勒姆
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-02-26
Filing date: 2017-02-16
Publication date: 2022-11-18
Anticipated expiration: 2037-02-16
Also published as: US20230376548A1; EP3420473A1; WO2017146963A1; US20170249388A1; US20210026910A1; CN108701155A; US11797620B2

Abstract

本文描述的技术的方面检测社交网络中的专家。可以使用社交网络数据在社交网络中标识专家。可以基于搜索引擎行为数据来编辑主题集合。利用社交网络数据和搜索引擎行为数据的组合在潜在主题内的每个主题方面对用户进行评分。当主题得分超过预定阈值时，可以将用户分类为该主题的专家。可以生成专家搜索界面以用于浏览或搜索主题内的专家。

Description

社交网络中的专家检测

背景技术

人们希望出于各种原因标识与主题相关的专家。在由只需点击一下按钮即可获得的大量信息组成的当今数字世界中，需要专家帮助巡览这些数字空间。除了要查阅的大量信息之外，所需的知识有时不是可自由使用(或可访问的)，它可能在信息海洋中丢失，或与其他相关的潜在不可靠信息混合(例如，许多人谈论膝盖手术但都不值得信赖)。因此，正确标识具有相关专业知识的人员至关重要。

传统上，专业知识检测侧重于从企业文档中寻找专家，以便使员工之间的协作顺利进行。语料库很小且异质，并且查询非常具体。对于社交媒体，背景是不同的：感兴趣的主题可以是有限的(例如49人队草案)或广泛的(例如体育)。语料库是同质的(所有消息都具有相同的格式)，但规模是巨大的。特别是，大量用户正在就各种主题进行交互。用户正在寻找信息来源，而不是合作者。这就产生了检测具有高查全率和高精确度的社交媒体网络专业知识的问题。

发明内容

提供本发明内容是为了以简化的形式介绍一些概念，这些概念将在下面的详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在单独使用以帮助确定所要求保护的主题的范围。

本文描述的技术允许在社交媒体网络中利用使用行为数据的查询扩展来进行高查全率和高精确度的专业检测，如下面详细讨论的。检测专业知识，并且准确地分析具有此专业知识的用户，以便检索具有给定主题专业知识的用户。使用专家概要分析来标识人员熟悉的主题并且这通过分析用户的在线活动来完成。如果生成准确的档案，则可以将用户归类为具有(或不具有)一组主题的专业知识。可以创建包括共享链接、活动时间线、关联主题、命名实体和社交网络内的用户账户的用户关系的档案。本文描述的技术允许使用基于短片段(例如推文、提及、转发推文等)和多个相似性度量的局部权限进行专业知识检测。本技术还可以将用户账户类型分类为人员类型或公司型。而且，本技术可以适用于任何社交网络结构，并且因此应该在支持这种用户结构的任何软件(例如Twitter、Facebook、电子邮件等)上工作。

附图说明

下面参考附图详细描述本技术的各方面，其中：

图1是根据本文描述的技术的方面的适合于专家检测的示例性计算环境的框图形；

图2是根据本文描述的技术的方面的用于专家概况分析的示例性界面200；

图3是根据本文描述的技术的方面的用于专家概况分析的示例性界面300；

图4是根据本文描述的技术的方面的用于专家检测的示例性界面400；

图5是根据本文描述的技术的方面的用于专家检测的示例性界面500；

图6是描绘根据本文描述的技术的方面的专家检测的第一方法600的流程图形；

图7是描绘根据本文描述的技术的方面的专家检测的第二方法700的流程图形；并且

图8是适合于实现本文描述的技术的各方面的示例性计算环境的框图形。

具体实施方式

具体地描述本文描述的技术的主题以满足法定要求。然而，描述本身并不旨在限制本专利的范围。相反，发明人已经预期所要求保护的主题还可以结合其他现有或未来技术以其他方式体现，以包括与本文档中描述的步骤类似的不同步骤或步骤组合。此外，尽管这里可以使用术语“步骤”和/或“方框”来表示所采用的方法的不同元素，但是这些术语不应被解释为暗示本文公开的各个步骤之中或之间的任何特定顺序，除非明确描述了各个步骤的顺序。

在给定被表达为一组关键字的主题的情况下，本文描述的技术允许通过从微博中检索专家来在社交媒体网络(例如微博)内进行专家检测。如本文所使用的，微博通常指其中用户做出短的、频繁的帖子的社交媒体网络。示例性帖子包括推文、转发推文、提及等。如本文所使用的，推文通常指社交媒体网站Twitter内的原始帖子。如本文所使用的转发推文通常是指共享源自不同作者的帖子的内容的帖子。如本文所使用的，提及通常是指由一个作者创建的引用与作者不同的另一个用户的帖子。提到了帖子中引用的其他用户。帖子可以包括诸如主题标签之类的附加信息，其中主题标签在本文中指的是以哈希标记(#)开头以标识关键字或主题的词或短语。

专业知识检测系统必须实现高精确度和高查全率。精确度对结果的纯度进行测量。由系统返回的专家比例与该主题相关。在微博上，实现高精确度具有挑战性，因为数据包含大量的主题和词汇：它包含垃圾邮件、虚假账户，还有许多含糊之处。例如，简单的术语“足球”在欧洲和美国表示不同的运动。查全率测量结果的穷举性。它是系统检测到的整个微博平台上相关专家的比例。查全率具有挑战性，因为微博的内容很短(例如推文限制为140个字符)。“49人队”的专家很可能也是“NFL”的专家，因为49人队是来自国家橄榄球联盟的受欢迎的足球队。然而，由于内容(例如字符数)有限，在相同帖子中同时具有两个表达的机会很低。因此，搜索“49ers”可能会错过“NFL”的专家。

如前所述，专业技术检测已经研究了几十年，但是在不同的情境下进行的。如前所述，专业知识检测最初侧重于从企业文档中寻找专家，以便使员工之间的协作平稳进行。语料库很小且异质，并且查询非常具体。对于社交媒体，情境是非常不同的：感兴趣的主题可以是狭隘的或广泛的。语料库是同质的，但规模庞大。特别是，大量用户正在就各种主题进行交互。此外，在精确度和查全率方面的要求也不同。在企业环境中，目标是启动专业合作，因此误报代价很高。相反，本讨论的用户正在寻找信息来源，而不是合作者。因此，他们重视深度和多样性，而误报则代价相对低。这将平衡转到查全率。遗憾的是，在社交媒体上实现高查全率要困难得多，因为微博的长度很短，而且词汇量很大。

本文描述的技术利用使用行为数据的查询扩展来检测具有高查全率和高精确度的专家。使用行为数据的查询扩展尚未用于专业知识检测。本文描述的技术以两个步骤操作：离线和在线。对于离线，从Web数据构建了一系列链接的专业知识。对于在线，使用此集合增加传入查询，并将结果提供给基于精确度的专家检测器。

图1提供了本技术中使用的流水线的概述。描绘了两个阶段：由附图标记104示出的离线处理阶段(在此期间构建链接主题的集合)以及由附图标记108描绘的在线阶段(在此期间使用链接主题的集合)。

图1的配置可以经由网络通信地耦合到每个组件。图1可以在一个或多个计算设备上或使用一个或多个计算设备来实现，所述计算设备例如为结合图1描述的计算设备800。网络可以包括但不限于一个或多个局域网(LAN)和/或广域网(WAN)。这种网络环境在办公室、企业范围的计算机网络、内联网和因特网中是常见的。应当理解，在本文描述的技术范围内，可以在系统100内采用任何数量的组件和/或设备。每个可以包括在分布式环境中协作的单个设备或多个设备。另外，未示出的其他组件也可以包括在环境100内。

示例系统可以包括一个或多个客户端设备，其可以包括生成和/或显示输入和结果的任何类型的计算设备。例如，在一个实施例中，客户端设备可以是参照图8描述的一种类型的计算设备。作为示例而非限制，用户设备可以体现为个人数据助理(PDA)、移动设备、智能电话、智能手表、智能眼镜(或其他可穿戴智能设备)、增强现实耳机、虚拟现实耳机、笔记本电脑、平板电脑、遥控器、娱乐系统、车辆计算机系统、嵌入式系统控制器、设备、家用计算机系统、安全系统、消费电子设备或其他类似的电子设备。

尽管构想了本文描述的专家检测模型的各方面可以在一个或多个客户端设备上操作，但是还构想了本文描述的技术的一些实施例不包括客户端设备。例如，专家检测模型可以体现在服务器上或云中。

专家检测涉及两个主要挑战：候选人选择和专业知识排名。候选人选择是为特定主题寻找候选专家的问题。专业知识排名是在给定文本证据的情况下确定专业知识的强度的问题。如本文所使用的，候选专家通常是指内容的作者，或在与查询匹配的内容(例如推文或其他社交媒体帖子)中提及的人。在默认情况下，当内容包含经小写字母(lower-casing)后的查询的所有术语时，内容匹配查询。

最初，利用本文描述的技术的特征来构建用户档案。本文描述的技术的示例性特征使用一个或多个类型特征将用户账户分类为账户类型。示例性账户类型包括人员类型和公司类型。用于区分两者的示例性类型特征包括但不限于代词的使用(例如使用“我的”可能与人而不是公司相关联)、图形像/档案图形片上面部的存在(例如面孔可能与人而非公司相关联)、账户名称(名称可能与知识图形中的人名或公司名称相匹配)、URL的存在(可能与公司相关联)等。该数据可用于对用户账户数据库进行分类。

图2和图3是构建成由用户搜索的示例性档案。在一些情况下，用户可能感兴趣的是对检查特定人员以检索专业知识的主题(而不是查看主题并从中标识人员)。图2和图3示出了示例性档案。图2提供了示例性档案界面200，其中提供了详细的账户视图。如图所示，已经选择用户进行学习-显示为用户202。提供账户类型分类器204，并且在这种情况下，示出用户可能是人。可以提供与账户类型分类器204相关联的置信度。如前所述，将档案分类为账户类型(例如人员或公司)是有用的，因为它允许用户基于类型(人员或公司)搜索和提取专业知识。提供了最新的帖子(例如在该示例中显示为推文)区域206，其示出了根据时间段的帖子。示出了受欢迎的帖子区域208，并且可以基于多个转发推文、视图、共享、喜欢等将其标识为受欢迎。提供共享链接区域210，示出用户402已共享的一个或多个链接。提供活动时间线区域212，示出每个时间段的各种档案信息。例如，活动时间线区域212显示每天的推文、每月的推文和每小时细分的推文。这可能与任何帖子和任何时间段相关。

图3提供了连续的示例性档案界面300，其中提供了(在推特的范围内)主题标签区域302，其中呈现了用户202使用的一个或多个主题标签(例如皇家、巨人等)。实体区域304提供与用户202相关的一个或多个实体(例如CNBC、休斯顿火箭队等)。可以通过命名的实体标记器或其他类似算法从用户的帖子(例如推文)中提取实体。在界面300中还提供排名靠前的领域区域306和排名靠前的链接区域308，其中用户基于账户活动被关联到领域和排名靠前的链接。还提供了关系区域310，其中显示与其他用户的交互。本技术创建详细的用户档案以帮助专家检测。

然后，使用用户档案中的信息，针对各种主题计算用户专业知识。在应用中，为了获得计算专业知识的信息，标识与社交网络(例如微博)相关联的用户账户。可以监视用户账户达一段预定的时间(例如几个月、几天等)以对该账户进行归档。可以使用若干特征来标识潜在的专家。一些示例性特征可以包括基于关注者的排名(根据关注者的数量排序的关于的特定主题的用户的排名)、基于帖子的排名(根据用户在特定主题上发布的帖子数量的用户的排名)、主题信号(估计作者参与主题的参与度-作者在主题上发布了多少帖子vs总共有多少帖子)、提及影响(用户与主题一起被提到的次数)等等。简而言之，用户被独立用户提到的越多越好。但是，如果用户提及其他用户，则会对其提及影响产生负面影响。这可以防止对话对提及影响指标产生太大影响。

用于分析用户的专业知识的简单但并非有效的方式是查看用户已经发推文的所有术语(词语、主题标签、提及等)并根据它们被提及的频率对这些术语进行排名。降低频繁出现的常用术语(例如“RT”(转发推文))的重要性的常用技术是使用词频文档频率统计(tf-idf)。

对于专业知识排名，首先计算文本证据的特征，然后对其进行排名。可以使用若干特征，但是具有重要意义的特征是主题得分(TS)、提及影响(MI)和转发推文影响(RI)。特征定义如下：

前两个特征TS和MI衡量用户在感兴趣的主题中的专业程度。第三个特征RI测量用户的影响。

在执行排名之前，对特征进行标准化和聚合。为了标准化特征，计算z得分。例如，如果μ_TS是TS的平均值，σ_TS是其标准偏差，则计算：

实际上，这些功能似乎是对数正态分布的。因此，采用它们的对数来获得高斯分布。为了汇总得分，使用加权和。

现在转到图1，离线阶段可以分两步进行分解。首先，诸如搜索查询日志102的行为数据被处理。使用搜索项和点击，建立加权图形，在该加权图形中每个顶点表示关键字，每个边表示语义关联。然后，社区在图形表中被检测。每个社区都描述了可用于查询扩展的专业知识主题。在在线阶段108期间，进行实际的查询扩展，其中查询与来自数据库106的专业知识主题相匹配并且附加相应的关键字。然后运行检测算法以检测专家。由于查询日志，关键字集合本质上是当前的。这在处理社交媒体时特别有用。

接下来，描述专业领域的集合。在提取阶段期间，从搜索查询日志中导出语义关系图形。在聚类阶段期间(提取和聚类都在图1的离线阶段中示出)，详细描述了如何使用基于模块性的并行方法将图形分解成社区。

在专家检测领域遇到的问题是几个不同的关键字可以描述相同的专业领域(例如钱包和手提包)。该系统的改进是使用类别集合(查询映射技术)来包括相关关键字的类别。查询映射技术涉及使用行为数据(例如点击数据)从搜索引擎日志构建相关关键字的集合。距离度量可以应用于每个可能的查询对以构建图形，在该图形中顶点表示术语并且边缘表示它们的相似性。在该图形中，来自相同主题的查询很可能全部互连并形成社区(密集地相互连接，但稀疏地连接到其余数据)。换言之，社区内有许多边缘，但社区与图形表的其余部分之间很少。这可以通过计算社区内边缘的数量来量化，并与边缘在图形的顶点之间随机分布时的内容进行比较。

在应用中，查询映射由两部分组成：

1.建立相异矩阵。总之，评估预定时间段的搜索查询日志，标识针对每个查询所点击的所有链接，并获得每个可能的查询对的公共链接列表。计算链接并用于加权图形中的边缘。

2.并行模块性优化。这包括重复以下三个步骤：对于每个社区，获得所有邻居社区；列出社区所属的所有邻居并保留最近的邻居；并采取每个社区，将每个人聚集到一个大的新社区。

使用搜索引擎的搜索查询日志的行为数据(例如，查询日志和用户点击)来生成链接的专业知识主题的集合。此来源提供大量与时间相关的关键字集合。在具有搜索和点击行为的术语之间推断语义关联。然后可以将搜索项划分为社区，即，强相关关键词的组。然后使用这些组来丰富查询。由于所涉及的数据集的规模，模块性最大化的实现是用于检测图形中社区的框架。这种方法的优点是它可以直接在(并行)声明性语言中实现，例如Hive、Pig、微软的SCOPE，或者甚至是SQL。

为了构建相关主题的集合，使用搜索引擎的搜索日志。该来源本质上是当前的和详尽的。使用为每个关键字所点击的URL来推断术语之间的语义关系。该方法允许检测非显而易见的语义关联。考虑其中每个维度表示查询日志中的URL的向量空间。在该空间中，每个查询都与向量相关联。向量的每个组成部分表示URL上的点击次数。为了获得两个术语之间的相似性，计算表示术语的两个矢量之间的余弦距离。如果计算每个可能的术语对之间的距离，则获得术语相似性图形。在这个加权的无向图形中，每个顶点代表查询，并且边缘描述它们的相似性。该图形提供了社区检测的必要信息。

在实践中，每月出现少于预定次数(例如50)的所有查询都被移除以减少噪声并节省空间。即使在此操作之后，相同的术语也可能出现数十个、有时数百个变体(例如sanFrancisco,#sanfrancisco，sf，......)。这些查询保持不变，以便捕获尽可能多的不同情况。

一旦构建了相似性图形，下一步就是创建相关关键字的组。标识密集彼此连接但是稀疏地连接到图形的其余部分的查询组。假设如果关键字的组服从这样的属性，则可以使用它来扩展查询。模块性最大化的定制变体用于社区检测。这种方法可以直接用类似SQL的语言来实现。因此，它可以与标准的映射-减法(map-reduce)关系运算符并行化。通过将每个顶点指派给社区来初始化算法。然后，重复以下三个步骤：

1.对于每个社区，列出所有邻居社区。如果(a)它们是连接的，则两个社区是邻居；(b)如果系统将它们联合起来，则总模块性增加(ΔMod>0)。一些邻居被获得，一个邻居针对每个社区。

2.步骤1中找到的社区是重叠的：一个社区可能属于几个社区。为了对此进行修复，获得每个社区，列出每个社区所属的所有邻居并保留最近的邻居(ΔMod尽可能大)。

3.对于每个邻居，将所有社区聚合成大型的新社区。

接下来，系统检索给定查询的社区。这里使用的方法基于精确匹配-找到在经小写字母之后精确且按顺序包含查询术语的社区。一旦确定相关社区，将分别针对所有相关术语运行专家检索。然后，系统将结果进行统一并对专家进行排名。不存在基于查询扩展的其他专家检测方法。

一旦构建了待搜索的档案(如图2和3所示)以及用于改进对专业知识的查全率的行为数据，则可以对用户生成用于搜索和浏览专业知识检测的界面。示例性界面在图4和5中提供并在下面讨论。

图4提供了用于与本技术一起使用的示例性用户界面400。图4示出了按段浏览专家主题。例如，在体育406类别中，主要主题是NFL 406A、MLB等。该界面400允许用户使用关键字搜索输入402或用户输入404来搜索专家。还示例性的目的列出了附加类别408和410。可以选择界面内的各个主题。例如，主题406A是可选择的，使得当被选择时，可以呈现关联为所选主题的专家的账户的排名列表。社区检测技术用于描述构成主题的关键字(或查询)。这在图5中示出，其中选择图4的主题406A并提供潜在专家的界面500。如图所示，输入510被选择并填充在关键字输入区域中(图4中的区域402)。如图所示，可以提供人员类型专家514和公司类型专家516。另外，区域512提供与主题相关的一个或多个查询。图4和图5中示出的示例性界面400和500可以结合搜索引擎结果来呈现。

现在转到图6，提供了用于主题专家检测的方法600。在一个方面，方法600在客户端设备上执行。在另一方面，方法600在服务器上执行。在步骤602，在社交网络内标识用户。在步骤604，基于社交网络数据和搜索引擎行为数据二者，确定是否应该将用户指定为一个或多个主题方面的专家。在步骤606，基于搜索引擎行为数据和社交网络数据向一个或多个主题的每个主题指派得分。在步骤608，当主题的得分高于预定阈值时，将用户指定为专家。

现在转到图7，提供用于局部专家检测的方法700。在步骤702，标识社交网络内的用户账户。在步骤704，针对第一预定时间段，监视用户账户，以标识用户账户的社交网络数据。在步骤706，在将一个或多个主题标识为专业知识的潜在领域时，从用户账户提取一个或多个主题。此时可以对一个或多个主题指派得分。在步骤708，在第二预定时间段，标识包括查询日志数据和行为数据的的搜索引擎数据。在步骤710，从查询日志数据和行为数据中标识链接主题的集合。在评估一个或多个行为数据和查询日志数据时，链接的主题可以被指示为与一个或多个主题相关。在步骤712，利用链接主题的集合来扩展一个或多个主题。在步骤714，向一个或多个主题中的每个主题指派得分。在步骤716，当得分高于预定阈值时，将用户账户指定为主题方面的专家。

如本文所示，本技术包括三个主要组成部分：用户剖析、专业知识检测、以及通过社区检测使用行为数据进行专业知识检测的查全率改进。最初，构建档案(如图4和图5所示)，然后将其配置为搜索专业知识。最后，通过使用行为数据(例如查询日志和点击)，可以改善专业知识流水线(pipeline)的查全率(即，增加与主题相关的专家的数量)。一旦到位，用户可以通过专家界面搜索和浏览专业知识数据，例如图4和图5。

示例性操作环境

通常参考附图，并且具体地首先参考图8，于实现本文描述的技术的各方面的示例性操作环境通常被示出和指定为计算设备800。计算设备800仅是合适的计算环境的一个示例，并非旨在对本文描述的技术的使用或功能的范围提出任何限制。也不应将计算设备800解释为对所示组件中的任何一个或组合有任何依赖性或要求。

本文描述的技术可以在计算机代码或机器可用指令的一般上下文中描述，包括由例如个人数据助理或其他手持设备的计算机或其他机器执行的计算机可执行指令，例如程序组件。通常，程序组件(包括例程、程序、对象、组件、数据结构等)是指执行特定任务或实现特定抽象数据类型的代码。本文描述的技术的方面可以在各种系统配置中实践，包括手持设备、消费电子产品、通用计算机、专业计算设备等。本文描述的技术的方面也可以在分布式计算环境中实践，其中任务通过通信网络链接的远程处理设备执行。

继续参考图8，计算设备800包括直接或间接耦合以下设备的总线810：存储器812、一个或多个处理器814、一个或多个呈现组件816、输入/输出(I/O)端口818、I/O组件820以及示意性电源822。总线810表示可以是一个或多个总线(例如地址总线、数据总线或其组合)。尽管为了清楚起见而用线条示出图8的各种模块，然而实际上，描绘各种部件并不是那么清楚，并且比喻地，线条将更准确地是灰色和模糊的。例如，可以将诸如显示设备的呈现组件视为I/O组件。此外，处理器具有内存。发明人在此认识到这是本领域的本质，并且重申图8的图表仅说明可结合本文描述的技术的一个或多个方面使用的示例性计算设备。在诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等类别之间没有进行区分，因为所有这些都在图8的范围内并且称为“计算机”或“计算设备”。

计算设备800通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备800访问的任何可用介质，并且包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。

计算机存储介质包括RAM、ROM、EEPROM、闪存或其他存储技术、CD-ROM、数字通用盘(DVD)或其他光盘存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备。计算机存储介质不包括传播的数据信号。

通信介质通常以诸如载波或其他传输机制等的调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。术语“调制数据信号”表示以对信号中的信息进行编码的方式设置或改变一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质，以及诸如声学、RF、红外和其他无线介质的无线介质。上述任何组合也应包括在计算机可读介质的范围内。

存储器812包括易失性和/或非易失性存储器形式的计算机存储介质。存储器812可以是可移除的、不可移除的或其组合。示例性存储器包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备800包括一个或多个处理器814，其从诸如总线810、存储器812或I/O组件820的各种实体读取数据。一个或多个呈现组件816向用户或其他设备呈现数据指示。示例性呈现组件816包括显示设备、扬声器、打印组件、振动组件等。I/O端口818允许计算设备800逻辑地耦合到包括I/O组件820的其他设备，I/O组件中的一些可以内置。

示意性I/O组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、显示设备、无线设备、控制器(诸如触笔、键盘和鼠标)、自然用户界面(NUI)等。在实施例中，提供笔式数字转换器(未示出)和伴随的输入仪器(也未示出，但是其可以仅包括例如笔或触笔)，以便数字地捕获徒手用户输入。笔式数字转换器与一个或多个处理器814之间的连接可以是直接的或通过利用串行端口、并行端口和/或本领域已知的其他接口和/或系统总线的耦合。此外，数字转换器输入组件可以是与诸如显示设备的输出组件分离的组件，或者在一些实施例中，数字转换器的可用输入区域可以与显示设备的显示区域共同延伸、与显示设备集成、或者可以作为覆盖或以其他方式附加到显示设备的单独设备存在。构想任何和所有这样的变化及其任何组合都在本文描述的技术的实施例的范围内。

NUI处理由用户生成的隔空手势、语音或其他生理输入。适当的NUI输入可以被解释为用于与计算设备800相关联地呈现的墨水笔划。可以将这些请求发送到适当的网络元件以进行进一步处理。NUI实现语音识别、触摸和触笔识别、面部识别、生物识别、屏幕上和屏幕附近的手势识别、隔空手势、头部和眼睛跟踪以及与计算设备800上的显示相关联的触摸识别的任何组合。计算设备800可以配备有用于手势检测和识别的深度相机，诸如立体相机系统、红外相机系统、RGB相机系统、以及它们的组合。另外，计算设备800可以配备有能够检测运动的加速计或陀螺仪。可以将加速计或陀螺仪的输出提供给计算设备800的显示器以呈现沉浸式增强现实或虚拟现实。

计算设备可以包括无线电824。无线电824发送和接收无线电通信。计算设备可以是适于通过各种无线网络接收通信和媒体的无线终端。计算设备800可以通过诸如码分多址(“CDMA”)、全球移动系统(“GSM”)或时分多址(“TDMA”)等无线协议与其他设备进行通信。无线电通信可以是短程连接、远程连接、或短程与远程无线电信连接的组合。当我们提到“短”和“长”类型的连接时，我们并不是指两个设备之间的空间关系。相反，短距离和长距离通常是指连接的不同分类或类型(即主要连接和次要连接)。短程连接可以包括与设备(例如移动热点)的Wi-Fi连接，该设备提供对无线通信网络的访问，无线通信网络例如是使用802.11协议的WLAN连接。与另一计算设备的蓝牙连接是短程连接的第二示例。远程连接可以包括使用CDMA、GPRS、GSM、TDMA和802.16协议中的一个或多个的连接。

已经将本文描述的技术的各方面描述为说明性的而非限制性的。应当理解，某些特征和子组合是有用的，并且可以在不参考其他特征和子组合的情况下使用。这是所构想的并且在权利要求的范围内。

Claims

1.一种专家检测系统，包括：

至少一个处理器；以及

存储器，其上存储有计算机可执行指令，当由所述至少一个处理器执行时，所述计算机可执行指令使得所述至少一个处理器执行以下操作：

获取多个主题的经加权的图形，所述经加权的图形内的每个主题包括一个或多个主题关键词；

标识社交网络内的针对用户的用户账户；

根据所述经加权的图形，基于由所述用户账户撰写的帖子中的关键词标识与所述用户账户相关联的一组主题；

根据针对主题的用户账户得分高于预定阈值，将所述用户账户指定为针对所述一组主题的特定主题的专家，其中所述用户账户得分基于以下一个或多个：

基于关注者的排名，

基于帖子的排名，

主题信号，和

提及影响；

获取针对所述特定主题的专家的用户查询；以及

响应于所述用户查询，返回所述用户账户的标识。

2.根据权利要求1所述的系统，还包括获取查询日志，所述查询日志包括所述一个或多个关键字以及URL点击数据。

3.根据权利要求2所述的系统，还包括将查询日志的每个查询关联到矢量，所述矢量的每个分量表示所述URL点击数据。

4.根据权利要求3所述的系统，还包括基于对应于所述关键词的两个向量之间的余弦距离，确定所述一个或多个关键词的主题关键词之间的相似性。

5.根据权利要求4所述的系统，还包括生成所述多个主题的所述经加权的图形，每个顶点表示关键字的一个关键字，并且每个边表示经确定的相似度。

6.根据权利要求5所述的系统，还包括检测所述多个主题的所述经加权的图形中的社区，社区的每个社区描述可用于查询扩展的主题的专业知识。

7.根据权利要求1所述的系统，还包括针对预定时间段来监控所述用户账户，以标识针对所述用户账户的社交网络数据。

8.根据权利要求7所述的系统，还包括根据所述一组主题标识为专业知识的潜在领域，从所述用户账户提取所述一组主题。

9.根据权利要求8所述的系统，还包括针对第二预定时间段来监控搜索引擎数据，以标识查询日志数据和所述用户账户的行为数据。

10.根据权利要求9所述的系统，还包括利用所述查询日志数据和所述用户账户的所述行为数据，标识链接主题的集合。

11.根据权利要求10所述的系统，还包括利用所述链接主题的集合来扩展所述一组主题。

12.根据权利要求10所述的系统，还包括向所述一组主题中的每个主题指派得分。

13.根据权利要求1所述的系统，还包括基于主题得分的标准化和聚合、提及影响和推文转发影响来对所述用户账户进行排名，其中所述主题得分等于由所述用户账户针对所述特定主题的撰写的所述帖子除以由所述用户账户撰写的所述帖子的平方根，所述提及影响为所述用户账户针对所述特定主题的提及数目除以所述用户账户的提及数目，以及所述推文转发影响为所述用户账户针对所述特定主题的转发推文的数目除以所述用户账户的转发推文的数目。

14.根据权利要求1所述的系统，还包括创建针对所述用户账户的简档包括共享链接、活动时间线、关联主题、命名实体和社交网络内的所述用户账户的用户关系。

15.一种用于检测主题专家的方法，所述方法包括：

标识社交网络内的针对用户的用户账户；

基于关注者的排名，

基于帖子的排名，

主题信号，和

提及影响；

获取针对所述特定主题的专家的用户查询；以及

响应于所述用户查询，返回所述用户账户的标识。

16.根据权利要求15所述的方法，还包括基于主题得分的标准化和聚合、提及影响和推文转发影响来对所述用户账户进行排名。

17.根据权利要求16所述的方法，其中所述主题得分等于由所述用户账户针对所述特定主题的撰写的所述帖子除以由所述用户账户撰写的所述帖子的平方根。

18.根据权利要求16所述的方法，其中所述提及影响为所述用户账户针对所述特定主题的提及数目除以所述用户账户的提及数目。

19.根据权利要求16所述的方法，其中所述推文转发影响为所述用户账户针对所述特定主题的转发推文的数目除以所述用户账户的转发推文的数目。

20.一个或多个计算机存储介质，包括嵌入在其上的计算机可执行指令，当所述计算机可执行指令被执行时，其执行操作，所述操作包括：

标识社交网络内的针对用户的用户账户；

基于关注者的排名，

基于帖子的排名，

主题信号，和

提及影响；

获取针对所述特定主题的专家的用户查询；以及

响应于所述用户查询，返回所述用户账户的标识。