CN104239385B

CN104239385B - 用于推断主题之间的关系的方法和系统

Info

Publication number: CN104239385B
Application number: CN201410254310.6A
Authority: CN
Inventors: M·M·弗兰切斯基尼; A·贾格莫汉; L·A·L·蒙塔诺; L·索尔斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-06-11
Filing date: 2014-06-10
Publication date: 2017-12-29
Anticipated expiration: 2034-06-10
Also published as: US9483580B2; US9542503B2; US20140365503A1; US20140365504A1; CN104239385A

Abstract

本发明涉及一种用于推断主题之间的关系的方法和系统。各实施例涉及基于图分析而估计主题的接近度。访问包括多个节点和边的图。所述图中的每个节点表示主题，并且每个边表示两个主题之间的已知关联。针对所述图执行统计遍历试验。基于从所述统计遍历试验提取的统计信息，推断由所述图中的节点表示的任何两个主题之间的关系强度。

Description

用于推断主题之间的关系的方法和系统

技术领域

本公开一般地涉及图分析，更具体地说，涉及基于图分析估计主题的接近度。

背景技术

搜索引擎已经成为有用的工具，有助于用户在因特网中查找感兴趣的信息。通常，当用户希望使用搜索引擎时，用户可以在搜索框中输入搜索查询。用户然后可以提交搜索引擎，这可以将用户导向到包含对应于查询的一个或多个搜索结果的搜索结果页面。用户然后可以能够选择一个搜索结果，其中结果的选择可以将用户导向到网页以便浏览。

诸如和之类的社交网络也提供用户获得(和共享)信息的手段。在线社交网络服务基于在单独用户之间建立的关系，将个体聚集成在线社区。这些关系可以基于友谊、家庭关系、业务关系等。

大多数在线社交网络服务还允许用户将他们自己组织成组。这些组可以基于组成员共有的主题，例如共同兴趣、原因或共享环境。在这些组中，可以交换特别适用于或用于该组成员的消息和其它数据。某些组可能允许任何用户加入，而其它“私有”组可能需要版主或现有组成员邀请潜在的组成员。将用户组织为在线社交网络服务中的不同组可以用于将与特定主题或社交原因相关的信息交换集中到其预定接收者。

发明内容

各实施例包括用于推断主题之间的关系的方法、系统和计算机程序产品。一种方法可以包括访问包含多个节点和边的图。所述图中的每个节点表示主题，并且每个边表示两个主题之间的已知关联。所述方法还可以包括针对所述图执行统计遍历试验。所述方法可以还包括推断由所述图中的节点表示的任何两个主题之间的关系强度。所述推断可以基于从所述统计遍历试验提取的统计信息。

各实施例还包括用于相对于其它代理对一个主题感兴趣的程度而标识代理对所述主题感兴趣的程度的方法、系统和计算机程序产品。一种方法可以包括收集有关代理集合的信息。所述方法还可以包括基于所述信息，计算所述主题和所述代理集合中的每个代理之间的关系强度。所述方法还可以包括基于一个代理与所述主题的关系相对于所述代理集合中的其它代理的不同程度，对所述主题和所述代理之间的关系进行排序。所述方法还可以包括输出所述排序的结果。

通过本公开的技术实现其它特性和优点。在此详细描述了本公开的其它实施例和方面。为了更好地理解本公开以及优点和特性，将参考说明书和附图。

附图说明

在说明书结尾处的权利要求中具体指出并明确要求保护了被视为本发明的主题。从下面结合附图的详细描述，本公开的上述和其它特性和优点将变得显而易见，这些附图是：

图1示出根据一个实施例的可以在其上实现社交交互促进过程的系统；

图2A示出根据一个实施例的用于在即时社区中连接用户的系统环境；

图2B示出根据一个实施例的图；

图3示出根据一个实施例的用于构建用户简档的示例性体系架构；

图4示出根据一个实施例的用于实现即时社区的系统环境；

图5示出根据一个实施例的示例性方法的流程图；

图6示出根据一个实施例的用于计算概率估计的示例性方法的流程图；

图7示出原始得分表；

图8A示出根据一个实施例的用于计算得分的示例性方法的流程图；

图8B示出根据一个实施例的用于计算得分的示例性方法的流程图；

图9示出根据一个实施例的改进后的得分表；

图10示出根据一个实施例的用于推断主题之间的关系的示例性方法的流程图；以及

图11示出根据一个实施例的用于推断主题之间的关系的示例性方法的流程图。

具体实施方式

在此描述的实施例提供一种社交交互促进工具，其基于心理状态一致性或想法共鸣性，促进两个或更多人员之间的通信。在一个实施例中，在用户(例如，使用该工具的人员)和一个或多个其它用户之间促进通信。通过这种方式，可以在用户和一个或多个其它用户之间建立所谓的即时社区。通常，启动通信的用户希望在短时间(例如，大约几秒)内进行通信。启动通信的用户通常想要就感兴趣的特定主题进行交互。在此方面，不与该主题具体相关的材料对于用户来说可能具有很小的价值，并且甚至可能用作消遣。

在一个实施例中，使用该工具的人员在很短时间内以很高概率开始与另一个人员(例如，人)交互，并且这种交互具有很高质量(例如，对于交互的所有方都相关并且有益)。可以基于启动与感兴趣的特定主题有关的查询或讨论的用户，建立即时社区。可以邀请从用户池或组中选择的其它用户加入社区。邀请可以基于一个或多个因素或输入，例如感兴趣的特定主题、与每个其它用户关联的简档，以及一个或多个模型(例如，自适应世界模型)。在一个实施例中，本发明的成功操作不需要专注于特定主题的组，并且启动查询/讨论不需要与任何单独用户的兴趣描述完全匹配以将这些用户视为与查询发起者进行潜在交互。相反，基于要与之交互的自然人(如果给出他们与查询的接近度，如由不断变化的世界理念和事件模型所测量的)，始终即时(on-the-spot)确定交互的自然焦点对等组。

在此描述的各实施例与现有技术形成对照，在现有技术中，用户可能尝试开始与另一个实体(例如，另一个人员或用户)交互或通信。现有技术可能不足以将启动通信的用户与了解感兴趣的主题的人员相链接。例如，当前技术需要启动通信的用户知道就感兴趣的主题与何人联系，或者至少标识其中可能讨论感兴趣的主题的现有论坛。社交媒体当前基于关系和社交组(例如，家庭、朋友、朋友的朋友等)，这通常不是相关目标受众，也不足够大以便确保有关用户的感兴趣主题的富交互。即使假设用户可以以其他方式标识要与其交互的合适人员，该人员也可能很少有动机以有意义的方式参与交互。

在此描述的各实施例涉及即时社区的概念，即时社区表示人员之间的交互，这些人员促进他们之间高度相关但通常短暂的交互。还可以提供用于创建和管理单独即时社区的机制，并且专注于优化单独用户体验。其它实施例还可以包括核心机制，所述机制用于基于实体(例如，人员)的重要理念的相对小的样本以及表示为图的世界模型，推断该实体的世界视图。

参与用户可以使用所述系统的各实施例作为人为交互的通用代理，而不仅仅是消息传送工具，从而大幅提高所述系统在人员之间建立关系的精确度，并且因此改善用户体验。所述系统的一个实施例具有以下能力：除了查询本身之外，还接收有关用户查询背后的意图的信息。例如，用户可能具有以下意图：寻求合作伙伴以便开发一种发明，解决关键的客户情况，启动有关某点的辩论等。同样，查询的潜在响应者可能感觉被强迫在给定主题中回答查询，但仅针对用户查询背后的特定意图，因此所述系统的各实施例包括以下能力：用户仅针对特定意图声明对某一主题感兴趣。所述系统然后使用该其它信息适当地路由请求。可以以多种方式指定用户意图，包括作为文本中的特殊注释(例如散列标签)，或者作为用户接口中的可选择选项。

为了实现将用户与符合的兴趣和/或意图关联的任务，必须采用一种方法，其估计任何两个用户在任何给定时间的接近程度。可以作为该任务一部分采用的一种技术是估计任何两个理念或理念集合的接近程度的方法，其中理念是嵌入所述系统中以帮助推理的理念(或主题)领域的一部分。然后可以使用该方法估计用户可能对理念或理念集合感兴趣的概率，并且通过扩展，估计查询发起者与连接到所述系统的任何特定用户的符合程度。后一种情形可以通过接受采用自然语言形式的用户查询来实现，然后采用自然语言模块以便从查询提取可以被映射到所述系统的理念或主题领域的特定重要关键字。

在此描述的进一步实施例用于针对给定领域中的每个主题或理念，估计代理或用户(人员或其它)对该主题或理念感兴趣的概率或可能性。可以基于代理对某个主题集合感兴趣而对另一个主题集合不感兴趣的情况，估计对给定主题感兴趣的概率。起始假设可以是存在给定领域中的感兴趣主题之间的第一级以及可能第二级关系的初始描述。该描述可以采用图的形式，并且具有连接被判断为密切相关的节点的加权链接，其中权重指示此类接近的程度。术语“理念”和“主题”在此可以交换使用以指图中的节点。

节点领域原则上可以非常大，并且可以以任意精确度描述理念。例如，可以具有数千万个描述理念的节点，并且每个节点连接到多个其它节点(范围从数十个到数千个)。例如，代理可能对“Kind of Blue(泛蓝调调)”(著名的爵士音乐专辑)感兴趣，并且如果给出该兴趣，则一个实施例可能询问：代理也对“Village Vanguard(前卫村)”(知名的纽约市爵士俱乐部)感兴趣的概率是多少？代理对“lydia dominant scale(利地亚属调音阶)”感兴趣的概率是多少？代理对比尔·埃文斯的钢琴演奏风格感兴趣的概率是多少？代理对“chopsuey(杂烩)”感兴趣的概率是多少？如果给出代理不喜欢采用声乐的爵士的事实，则一个实施例可以进一步进行并且询问先前问题的概率如何变化？

现代技术未能提供有关在主题之间建立关系的高解析度或精确度，以便回答例如上面提出的问题。例如，一种技术或技能简单地依赖于图中两个主题/节点之间的链接或跳跃数量作为概念之间接近度的指示符，其中两个主题之间的链接/跳跃数量越大，两个主题密切相关的可能性越小。这种技术未能考虑领域中所有其它节点之间的整体链接集合对所述两个节点之间关系的可能影响，并且也没有考虑到用户可能表明对给定主题不感兴趣而提供一种低估方式。第二种技术是从上述专用于主题集合的图创建马尔可夫链，然后通过迭代矩阵*向量积估计静态概率分布。此第二种技术未能针对高度(或者过于稀疏)连接的节点的性能恶化效应而调整。此外，此第二种技术未能：(1)考虑到用户可能表明对给定主题不感兴趣而提供一种低估方式，以及(2)提供数值，该数值可以很容易被解释为用户对给定题目或主题感兴趣或不感兴趣的概率。

在第一实施例中，可以假设用户仅对一个主题感兴趣。在第二实施例中，可以放宽该假设，第二假设可以是用户表现出对两个或更多主题感兴趣。

在某些实施例中，可以将有关领域中的节点集合的概率分布与其它信息相组合。可以使用用户感兴趣的一个主题的知识迭代从图导出的马尔可夫链，并且可以使用另一个分布规范化或校准得到的概率分布。规范化(也称为校准步骤)可以消除或明显减少单纯马尔可夫链技术固有的对图中高度链接的节点的偏向，同时提供数值，该数值可以被解释为用户对主题感兴趣或不感兴趣的概率估计。

针对单独获得的每个主题或节点生成估计之后，可以针对节点组合生成估计。可以使用基于统计分析和理论的信息组合原则，产生组合各种估计的估计。信息组合技术的一个实例是使用概率的对数似然比，其可以有意义地进行算术相加以便提供上述组合估计，并且还可以扩展以便包括权重，这些权重描述代理表现出感兴趣的各种主题的相对重要性。信息组合技术的另一个实例包括通过针对主题领域中的每个主题，获得分配给主题的每个单独估计的最大概率值，而组合多个单独概率估计。

在某些实施例中，当分配代理对主题领域中的给定主题感兴趣的概率估计时，可以考虑有关代理表现出不感兴趣的主题的知识。可以经由对数似然领域中的减法(subtraction)实现该任务。

上述每个阶段可以与以不同方式完成相同任务的其它技术相交换。例如，不是使用对数似然比执行信息组合，而是可以例如通过针对领域中的每个主题，获得分配给该主题的每个单独估计的最大概率值，来组合多个单独概率估计。

现在转到图1，总体上示出可以在其上实现各实施例的系统100。

系统100包括主机系统计算机102和通信设备104，它们以通信方式耦合到一个或多个网络106。主机系统计算机102可以实现为一个或多个高速计算机处理设备，例如一个或多个大型计算机或服务器，它们能够处理在此描述的社交交互促进工具的各实施例的最终用户进行的大量计算活动。主机系统计算机102可以用作数据库服务器，并且协调对应用数据(包括存储在存储设备110上的数据)的访问。存储设备110可以使用包含在主机系统计算机102中的存储器实现，或者可以是单独的物理设备。在一个实施例中，存储设备110存储用户简档，这些用户简档可以用于维护用户或代理感兴趣(或不感兴趣)的主题的历史或日志。

主机系统计算机102可以使用一个或多个服务器实现，这些服务器响应于存储在可由服务器访问的存储介质中的计算机程序而操作。主机系统计算机102还可以用作网络服务器(例如，Web服务器)，以便与通信设备104以及任何其它网络实体通信。在一个实施例中，主机系统计算机102可以表示云计算环境中的节点，或者可以被配置为在客户机/服务器体系架构中操作。

通信设备104可以是具有计算机处理能力的任何类型的设备。例如，通信设备104可以包括通用计算机(例如，台式计算机、膝上型计算机)、主机连接的终端(例如，瘦客户机)和便携式通信设备(例如，智能电话、个人数字助理和平板PC)的组合。通信设备104可以是有线或无线设备。在一个实施例中，通信设备104可以表示云计算环境中的云消费者。一个或多个通信设备104可以包括用户设备。

在一个实施例中，通信设备104可以由操作主机系统计算机102的实体或企业托管的网站或Web服务的最终用户实现。通信设备104可以均执行Web浏览器以便访问网络实体，例如主机系统计算机102。在一个实施例中，通信设备104访问主机系统计算机102的网站以便浏览和访问应用112。应用112可以实现在此描述的各实施例。应用112的实施例可以包括在此描述的社交交互促进工具(多个)和技术。应用112的实施例可以包括在此描述的概率估计工具(例如，用于推断主题之间的关系，用于相对于其它代理对一个主题感兴趣的程度而标识代理对该主题感兴趣的程度)。

网络(多个)106可以是任何类型的已知网络，包括但不限于广域网(WAN)、局域网(LAN)、全球网络(例如，因特网)、虚拟专用网络(VPN)和内联网。网络(多个)106可以使用所属技术领域已知的无线网络或任何类型的物理网络实施方式实现，例如使用蜂窝、卫星和/或地面网络技术。

系统100还包括存储设备108，其以通信方式耦合到主机系统计算机102。存储设备108可以跨包括网络(例如，网络(多个)106)的分布式环境，被逻辑寻址为整合数据源。在一个实施例中，存储设备108以及存储设备110存储应用112使用的数据(包括但不限于用户简档数据)，以及用于确定用来创建会话或其它交互的用户之间共性的数据(例如，表示主题之间的关系的图)。

在某些实施例中，系统(例如，系统100的应用112)可以用于在人员或用户之间建立即时社区。在某些情况下，社区可以基于特定感兴趣的主题，并且可以在以下用户之间建立：在建立社区之前，他们可能并不相互了解。可以基于用户之间的推断的心理状态一致性(想法共鸣性)建立社区。可以基于世界理念和事件呈现的模型建立社区。可以在模型中包括用户的心理状态(包括静态知识)，以及受事件影响的短期心理状态。

现在转到图2A，示出根据一个实施例的示例性系统环境200。具体地说，在图2A中，名为爱丽丝的第一用户可以启动与服务提供者(SP)的通信。该通信可以涉及爱丽丝感兴趣的特定主题。例如，如果爱丽丝最近生完小孩，则她可能对参与有关照顾婴儿的会话感兴趣。爱丽丝可以输入自然语言表达式“tending to infant children(照顾婴儿)”作为她想要讨论的感兴趣主题。爱丽丝还可以提供与该主题相关的消息，例如“my baby was justborn–what should I do？(我的小孩刚出生—我应该做什么？)”。

爱丽丝可能对与其社交组成员进行有关照顾婴儿的会话感到不舒适，或者可能不知道最近刚有小孩的任何人(以便能够利用有关照顾儿童的最新可用信息或科学)。无论爱丽丝想要参与即时社区的原因为何，她都可以通过在SP提供的文本框中输入(例如，键入)其感兴趣的主题(例如，照顾婴儿)来启动交互，如图2A中的箭头编号1反映的那样。

响应于输入的感兴趣主题，SP可以标识用户数量(例如，当前登录的用户)，在当前时间这些用户可能对爱丽丝的特定主题感兴趣。例如，如图2A中的圆编号2反映的，SP可以将鲍勃、查理和多丽丝标识为至少现在可以与爱丽丝的感兴趣主题最具有“想法一致性”的用户。如经由图2A中的箭头编号3反映的，可以向鲍勃、查理和多丽丝通知爱丽丝的感兴趣主题，并且可以邀请他们加入与爱丽丝进行有关该主题的交互。作为邀请的一部分，鲍勃、查理和多丽丝可以潜在地作为消息而接收爱丽丝提供的主题(例如，“tending to infantchildren”)和/或爱丽丝提供的消息(例如，“my baby was just born–what should Ido？”)。应该注意，所述系统进行这些判断，而鲍勃、查理或多丽丝不必在文本“tending toinfant children”或“my baby was just born–what should I do？”中显式声明其兴趣。相反，所述系统分析爱丽丝写入的文本，并且还分析所述系统的各种用户(包括鲍勃、查理和多丽丝)的简档之间的关系。例如，鲍勃可能表明他是蒙特梭利教育系统的学生，多丽丝可能最近表明对领养感兴趣。

响应于接收爱丽丝想法的通知，鲍勃和多丽丝可以在其选择、形成爱丽丝、鲍勃和多丽丝之间的交互式即时社区(图2A中的箭头编号5)时进行响应(图2A中的箭头编号4)。无论鲍勃和多丽丝哪一个首先响应，都会启动交互。来自鲍勃和多丽丝的响应可以包括对爱丽丝提供的消息的响应。在该社区中，爱丽丝、鲍勃和多丽丝可以讨论照顾婴儿，并且可能讨论任何其它相关主题(例如，照顾青少年)。在某一时刻，可能在以下情况下撤消或取消扩展到查理的邀请：例如，如果查理未在阈值时间内接受邀请，如果足够数量的其它用户开始参与，如果爱丽丝表明加入社区的用户足够或者提供高质量交互等。

通信参数(例如，针对给定主题的被通知用户数量)可以使能在启动交互(例如，图2A的箭头编号1)的几秒内形成想法一致用户的小社区。可以发生这种情况的原因是在统计上，被联系的全体人员中首先响应的人员的平均时间远短于任何给定个人的平均响应时间。

在某些实施例中，可以分析包括节点和边的图。图2B中示出这种图250的一个实例。所述图可以是稀疏图，其中节点之间的边数量远小于节点之间的可能边数量。所述图可以表示世界模型，并且可以基于随时间变得可用的信息或反馈而改变。节点252可以表示类别，例如主题类别。如果两个节点或主题密切相关，则它们可以经由边254直接连接到彼此，而如果两个节点或主题彼此并未如此密切相关，则它们可以通过多个节点和边而彼此分离。可以将图与从启动用户接收的输入主题规范以及与第二用户关联的用户简档相比较，以便判定是否应该邀请第二用户以使启动用户参与即时社区或交互。参考图2B，并且继续上面结合图2A描述的实例，如果查理在一家制造摇响器的公司工作，则可以足够导致邀请查理(图2A中的箭头编号3)与爱丽丝交互。

用户可以显式表明其是否对节点或主题特别感兴趣，以及到什么程度。例如，用户可以从其当前正在查看的网页中选择按钮，这可以用于表明用户对该网页以及该网页中讨论的任何主题信息感兴趣。同样，用户可以扫描餐馆中的菜单上的可用代码，以便表明用户喜欢该餐馆或该餐馆中的特定前菜。可以使用针对图执行统计推断的技术来推断“全世界视图”，以便填充任何缺少的信息。

一个实施例使用潜在接收者的“全世界视图”模型，以便选择要将查询发送到的接收者。此外，所述系统还可以使用用户(其通过发送查询启动交互)的“全世界视图”模型，以便选择所述接收者。发送用户的视图模型可用于增加所述系统的关系构建精确度，例如方式为：允许所述系统在其中查询可能具有多种解释的情况下消除用户查询歧义。例如，考虑其中发送用户的查询是“How about them bobcats？(山猫怎么样？)”的情况。在这种情况下，如果(从用户的视图模型)知道发送用户对篮球比对动物更感兴趣，则所述系统可以能够将查询解释为“How about them[Charlotte Bobcats]？(他们[夏洛特山猫队]怎么样？)”。备选地，如果知道发送用户对动物感兴趣，则所述系统可以能够将查询解释为指动物而不是指体育团队。可以基于各种源形成发送用户的视图模型，这些源包括用户的过去会话(例如，用户具有涉及体育或动物的过去会话)，以及用于生成“世界视图”模型的其它先前提及的源(例如网站)。

一个实施例使用基于网站(例如)中的超链接图的静态世界模型。将用户建模为一对图节点集合，一个集合描述感兴趣的事物，另一个集合描述用户不想听到的事物(即，那些无趣的事物)。一个实施例支持每个用户仅一个节点，并且每个用户的节点数量没有上限。针对图执行统计推断以便推断应用于每个用户的“全世界视图”，因此填充空白。在一个实施例中，假设已知用户U对节点集合S感兴趣，并且已知用户N回避节点集合T，计算用户U认为节点N有趣的概率。

基于世界模型的该统计推断步骤允许使用世界模型作为可用于解释用户查询描述和接收者用户数据的上下文，推导用户查询描述和用于形成潜在接收者用户模型的数据之间的间接关系。作为一个实例，可以将有关夏洛特山猫队的消息推断为与已知兴趣是“American sports(美国体育)”的接收者的兴趣间接相关，即使未显式知道该接收者具有“Charlotte Bobcats(夏洛特山猫队)”作为兴趣。这种用于接触用户的技术与所属技术领域中已知的技术截然不同，后者通常基于关键字匹配。

现在转到图3，示出根据一个实施例的用于构建用户简档的示例性体系架构300。如图所示，用户模型302可以用作到放大阶段304的输入。在其可提供有关用户兴趣或知识的有限数量线索的意义上，用户模型302可以是稀疏的。用户模型302可以包括用户指定的有关用户兴趣或知识的信息。

放大阶段304可以用于基于用户模型302，填充用户简档或图中的任何空白。例如，如果用户图中缺少节点或边，则放大阶段304可以分析用户模型302以便提供任何缺少的信息。放大阶段304可以输出富用户模型308，其可以存储在推断的用户世界视图数据库310中，该数据库可以随一个或多个模型更改而更新。

在一个实施例中，富用户模型308以及推断的用户世界视图数据库310的全部或部分存储在图1中所示的存储设备108中。

在某些实施例中，可以在体系架构300中包括地理信息层(未示出)。系统可以了解是否针对感兴趣的特定主题从某个地理区域中选择人员。参考图2A作为实例，如果爱丽丝位于北美洲，则可以使爱丽丝加入即时社区的潜在用户可能限于位于北美洲的那些用户，前提是例如北美洲的照顾儿童标准不同于世界其它地方。

在某些实施例中，交互或社区可能产生其它交互。例如，并且参考图2A，如果爱丽丝请求有关照顾婴儿的交互，则鲍勃可以能够向爱丽丝推荐其社交网络朋友—儿科医生弗兰克·约翰逊以便进行进一步讨论。

在某些实施例中，可以向感兴趣的特定主题附加紧急标签或标志。例如，如果主题涉及照顾婴儿，并且主题的启动(例如，图2A的箭头1)表明从世界模型中反映的交通事故地点启动主题，则可以将通信请求传输给更多人，例如具有治疗遭遇机动车辆事故的婴儿经验的那些儿科医生。还可以将通信请求传输给可能在爱丽丝或交通事故地点附近的第一响应者，以便确保可以及时实施紧急救援(如果需要)。

在选择候选用户池以便邀请加入即时社区方面(如上所述)，某些用户可能在给定主题方面比其它人更有知识或更积极响应。在某些实施例中，可以将邀请扩展到“社区支柱”(例如，有知识并且积极响应的那些用户)，并且扩展到具有更少知识/更少做出响应的用户。可以扩展邀请以便确保社区支柱未由于过多邀请而超负荷，并且确保为具有有关给定主题的更少知识的用户“播种”知识，这些用户可以有助于在未来分发这些知识(例如，作为未来社区的成员)。

在某些实施例中，可以形成用户参与社区的分布。可以多次扩展邀请。例如，可以使用连续邀请，其中例如最初可能邀请少量用户。基于响应时间，可以扩展其它邀请以使其它用户加入社区。可以使用监视技术以检测何时用户键入，以便判定是否应该扩展其它邀请。

在某些实施例中，社区中的用户可以能够查看社区中的其它用户发送的通信。相反，在某些实施例中，一个或多个用户可能无法查看另一个用户或用户组发送的通信，这可以用于确保通信的隐私性。

一个或多个用户可以浏览社区。这种浏览可以结合网页或任何其它界面发生。在某些实施例中，可以从较大社区集合或池中选择或过滤可见以用于浏览目的的社区。这种选择/过滤可以基于特定用户可能感兴趣的主题，或者用户了解的主题。在某些实施例中，可以利用用户兴趣之间的关联，以便在扩展邀请以使用户加入社区或者建议社区以便用户阅读或查看方面提供增强的解析度或精确度。在某些实施例中，当用户启动交互(例如，图2A中的箭头编号1)时，可以建立新社区，并且可以询问相关社区中的用户或专家以加入新社区。通过这种方式，相关社区中的交互可能不会被解释为新社区的结果。在某些实施例中，不是建立新社区，而是启动交互的用户动作可能导致用户加入现有的相关社区。

社区的存在期可以取决于一个或多个参数。例如，如果社区已建立多个小时，则可能阻止其它用户加入社区。如果社区的已建立时间超过阈值，则当用户浏览社区以便加入时，社区可能不可见。在某些实施例中，社区的存在期可以取决于主题的性质。例如，罕见主题可以在较长一段时间内保持开放或可见。同样，频繁被请求的主题可以在较长一段时间内保持开放或可见，以便将大量常见或相关问题吸收到同一会话中。

在某些实施例中，可以基于初始交互，播种与系统(例如，系统100)关联的知识库。可以从初始用户池中得出这些初始交互，以便扩展系统中可用的主题知识。之后，可以基于对系统的继续使用而发展知识库。系统的大小或容量可以取决于以下项：用户数量、用户活动(例如，用户参与频率、用户参与时间长度等)、可用的处理速度、启动交互的请求产生新社区相对于合并到现有社区的可能性等。

各实施例可以用于针对以下各项创建即时社区(例如，基于地理信息、兴趣、专业知识、时间接近度)(例如，我要听音乐会X，有人具有多余票吗？我希望购买产品X，您所在的路线有多长？)：有关合适领域的专业新闻(例如，您从产品公告中了解如何将技术X应用于产品Z吗？)、最近事件(例如，史密斯刚才就公司XYZ收入都说了什么？)，以及重要信息的局部传播(例如，我刚才感觉地面摇晃？是地震吗？)。与可能包含陈旧和静态(非交互式)数据的博客和网页相比，在此描述的实施例包括交互式数据。

以下是一个实施例如何处理用户问题的实例。用户帕蒂输入问题：“I’m with acustomer.He just asked me about‘Hadoop’.Can someone tell me how it connectsto Websphere？(我有一个客户。他刚才问我有关‘Hadoop’的问题。有人能告诉我如何将它连接到Websphere吗？)”。解析问题并且可以提取概念“customer(客户)”、“Hadoop”、“Websphere”和“Hadoop connects Websphere(Hadoop连接Websphere)”。系统估计这些概念如何与我们认为任何给定的单独用户感兴趣的概念相关。我们强调这些用户不需要表现出对提取的概念的任何直接兴趣，因为我们依赖于一种用于估计在图中表示的任何两个理念之间的关系强度的技术。用户然后创建可以能够帮助帕蒂的用户的草稿列表。系统还从帕蒂的问题(以及任何其它可用信息)推断帕蒂在客户处，并且因此问题紧急。基于此，系统将帕蒂的问题传送到草稿列表的相对大的部分。在一个实施例中，草稿列表例如可以仅限于与帕蒂在同一公司工作的那些人员，或者其所在公司销售帕蒂的问题中提及的产品的人员。

在另一个实例中，帕特正在帕利塞兹商场购物，这时他看到一张熟悉的面孔。他发送问题“Did I just see Mrs.Movie Star enter the Palisades Mall？(我刚才看到某影星夫人进入帕利塞兹商场了吗？)”。系统解析帕特的问题并且认识到地理定位的重要性。它将问题传送到作为当前购物者的用户列表(并且还可能传送到经常在帕利塞兹商场购物的那些用户)，可能根据对名人的兴趣或其它准则确定优先级。几秒后，帕特开始从更多看到或没有看到某影星夫人的购物者那里获得回复。此外，帕特还可能从以下人员那里获得回复：其当前未在帕利塞兹商场，但经常在那里购物，从而让人们知道有一位经常在帕利塞兹商场的某影星夫人的模仿者。帕特可以切换到聊天模式以便向其它用户广播所有响应。这将构建协同定位的即时地理社区。

现在转到图4，示出根据一个实施例的用于实现即时社区的系统环境400。可以结合图1的系统100实现系统400。

如图所示，系统400可以包括匹配引擎402。匹配引擎402可以用于将使用有关其兴趣和特定请求的先前信息的人员与即时社区中的会话内容相匹配。

系统400可以包括控制引擎404，在图4中由虚线椭圆/圆表示。控制引擎404可以基于人类行为模型，促进社区的形成和解散，以便确保蓬勃发展并且管理良好的系统。控制引擎404可以通过优化以下项提供此类特性：即时社区的大小、范围、生存和多样性，邀请多少用户参与，或者启动即时社区建立，如何将用户添加到即时社区或者从即时社区中删除的动态性，应用统计方法以便保护用户的隐私性，以及防止外部恶意“社交工程”。

系统400可以包括一个或多个接口，例如Web接口406、聊天接口408和应用(app)接口410。接口可以与前端接口关联，前端接口可以包括网站、移动应用和工具栏应用设计以及集成接口，以便促进与消息传送服务的通信。接口可以与后端接口关联，后端接口可以包括自然语言处理技术和能力。接口可以用于接收和/或存储用户偏好和兴趣—在某些实施例中，可以在远程服务器中促进这种存储。接口可以耦合到接口集线器412。接口可以将实时数据和用户偏好传送到接口集线器412。

在某些实施例中，每个用户可以在会话期间连接到唯一接口集线器(例如，接口集线器412)。接口集线器412可以将新问题或交互请求路由到即时社区处理机414。即时社区处理机414可以向主数据库416通知用户连接和断开连接。接口集线器412可以将即时社区和系统消息路由到接口(例如，接口406-410)。接口集线器412可以跟踪与连接到该接口集线器412的每个用户对应的即时社区。

即时社区处理机414可以从接口集线器412接收文本和用户标识符。即时社区处理机414可以将新问题或交互请求路由到NLP引擎418。如果给出来自NLP引擎418的主题列表，则即时社区处理机414可以查询匹配引擎402以获得即时社区和(新的或现有的)联系人列表。作为响应，即时社区处理机414可以从匹配引擎402接收即时社区和联系人结果。即时社区处理机414可以将问题或交互路由到联系人(例如，作为邀请的一部分)。即时社区处理机414可以管理响应，并且可以根据需要撤消问题或交互。即时社区处理机414可以向主数据库416通知任何新的即时社区或者对现有即时社区的更改或修改。

即时社区处理机414可以提供对现有即时社区的支持。例如，即时社区处理机414可以将即时社区消息路由到用户。即时社区处理机414可以将即时社区消息路由到NLP引擎418以便过滤(例如，第二级过滤)。即时社区处理机414可以管理即时社区的终止，并且可以向主数据库416通知即时社区的销毁。即时社区处理机414可以联系匹配引擎402以获得有关与给定即时社区相关的主题的联系人列表，或者获得要与其合并的其它现有即时社区。

匹配引擎402可以从即时社区处理机414接收列表。该列表可以包括主题和/或权重。匹配引擎402可以产生与接收的主题相关的用户和现有即时社区的有序列表。匹配引擎402可以从主数据库416接收用户状态和即时社区状态更新(可能借助即时社区处理机414)。匹配引擎402可以从系统分析引擎404a接收参数，这些参数可以控制如何完成列表。

主数据库416可以维护所有用户的列表，包括简档、兴趣、凭证、活动级别、历史以及当前参与。主数据库416可以维护当前即时社区和连接用户的列表。主数据库416可以更新与匹配引擎402关联的数据。主数据库416可以由控制引擎404使用。主数据库416可以由即时社区处理机414和/或接口集线器412更新。

系统分析引擎404a可以跟踪整个系统400的动态。系统分析引擎404a可以处理控制钩子(例如匹配引擎402中的钩子)，以便保证系统400的稳定性。

主题分析引擎404b可以跟踪主题兴趣的演化。主题分析引擎404b可以为NLP引擎418提供有关演化的数据或反馈。

现在转到图5，示出方法500的流程图。可以结合例如在此描述的一个或多个组件、设备或系统执行方法500。方法500可以用于形成即时社区。

在方框502，可以获得用户的感兴趣主题。例如，第一用户可能结合用户简档，输入或表明她感兴趣的那些主题。在某些实施例中，可以推断用户的感兴趣主题。例如，如果第一用户查看与版权和商标相关的网页，则可以推断第一用户通常对知识产权感兴趣，并且可以将知识产权保存为第一用户的感兴趣主题。

在方框504，第二用户可以请求有关所标识的感兴趣主题的交互。例如，第二用户可以请求有关获得发明专利的问题的交互。例如，第二用户可能不知道专利申请的哪些部分需要符合专利局实践规则。第二用户可以使用一个或多个自然语言表达式或消息提出问题，例如“how do I prepare a patent application？(我如何准备专利申请？)”和“whatsections are needed？(需要哪些部分？)”。

在方框506，逻辑可以分解方框504的请求/自然语言表达式，以标识要邀请的以便与第二用户交互的一个或多个用户。可以基于请求/自然语言表达式和用户简档中的可用信息之间的想法共鸣性，标识要邀请的用户。在准备专利申请的上下文中，可以基于第一用户对版权和商标感兴趣，将上面结合方框502描述的第一用户标识为应被邀请的用户。

可以查询一个或多个图(其包括节点和边，这些节点和边可以彼此相关或者将主题连接到彼此)，以便标识要在方框506邀请的用户。图可以表示世界模型，该模型可以随时间改变或变化。所述图可以基于从一个或多个源获得的信息。例如，所述图可以基于用户简档或用户模型(例如，图3的用户模型302)以及世界模型。

为了确保要邀请的用户及时响应请求，可以在方框506，从活跃或当前登录到系统或平台的用户池中选择要邀请的用户。

在方框508，可以将邀请传输到在方框506标识的用户(多个)。传输的邀请可以包括方框504的一个或多个自然语言表达式或消息。因此，对版权和商标感兴趣的第一用户可以接收有关准备专利申请的邀请。作为方框508的一部分，可以形成即时社区。

在方框510，可以从在方框508接收传输的邀请的一个或多个用户处接收加入交互/用户社区的接受。可以将接受邀请的那些用户与在方框504启动请求的(第二)用户一起放入即时社区中，以便作为即时社区成员的用户将能够就感兴趣的主题(多个)(例如，专利准备和专利申请各部分)而彼此交互。

方法500是示例性的。在某些实施例中，可以包括未示出的其它方框或操作。在某些实施例中，某个方框或操作(或其一部分)可以是可选的。在某些实施例中，可以以不同于图5中所示的顺序或序列执行方框或操作。

如上所述，即时社区的概念可以用于使得用户(不必以其它方式知道彼此)能够彼此交互以便讨论一个或多个感兴趣的主题。在此方面，系统或平台可以用作个人交互代理，所述代理可以基于用户的想法、视图或兴趣聚集用户。可以在自然语言表达式与图之间形成上下文关系，以便确定应该邀请哪些用户参与即时社区。

如上所述，在某些实例中，可能难以获得高质量或足够的即时社区参与。例如，用户可能没有动机参与有关给定主题的会话，并且即使他们参与，也可能不倾向于最大限度地参与。同样，系统(例如，系统100和400)的所有者或运营者可能没有动机提供即时社区服务，除非提供用于运营服务的某种激励。

为了激励所有者/运营者提供即时社区服务，服务的所有者或运营者可以提供广告，这些广告与即时社区关联的主题在上下文上相关。这些广告例如可以在与即时社区关联的网页的侧栏中显示。供应商或广告商可以连同预算规范、关键字和感兴趣主题一起提供其广告。即时社区的服务提供者可以根据供应商提供的输入，选择哪些广告在给定即时社区中呈现，或者哪些广告呈现给即时社区的给定用户。服务提供者可以随时间更改呈现的广告，这可以基于即时社区中的交互或会话如何在该时间段内变化。如在此使用的，会话是一种类型交互的实例。

服务提供者可以基于供应商呈现广告的次数，基于广告呈现给的用户的身份等，向供应商收取费用。如果用户点击或选择广告，则服务提供者可以向供应商收取额外费用。更进一步，如果用户从供应商购买产品或服务，则可以向供应商收取额外费用。可以例如通过向用户账户存入份额，将服务提供者收取的部分费用与即时社区的一个或多个用户分享。

可以实现检测系统，以便确保用户未以欺诈性方式就启动或参与即时社区而收取报酬(例如，金钱报酬或费用份额)。例如，即时社区的启动用户可能需要为即时社区中的第二用户提供肯定反馈，以便允许第二用户接收报酬。通过这种方式，可以激励由即时社区中的第二用户所表现出的高质量参与。

可以使用技术确保启动用户和第二用户未尝试结伴参与同一即时社区(单独)以便获得报酬。例如，可以使用随机选择技术降低第一用户和第二用户重复参与同一即时社区的可能性。在某些实施例中，可以阻止第一用户和第二用户在给定时间段内同时参与“n”个以上的即时社区(其中“n”是数值)，或者可以相对于参与其它即时社区的基准缩减或减少其报酬。

在某些实施例中，提供一种在因特网上实现匿名会话的系统。该系统可以包括会话代理、参与者或用户以及广告商。参与者可以通过在系统中发送第一消息而启动会话。代理可以将第一消息转送到它自己目的地的多个参与者和广告商。代理可以根据它自己的目的地，随时添加或删除参与者和广告商。参与者可以参与会话，这可以包括响应于先前消息而发送一个或多个消息。代理可以向广告商拍卖会话内容、关键字、句子以及任何其它相关信息。

在某些实施例中，广告商可以出钱以便加入会话。广告商可以包括机器人或真人。如果代理允许广告商加入，则代理可以从广告商的资金或账户中提取资金。对于参与者，可以将广告商标识为广告商或另一个参与者。

广告可以在会话内显示，或者在单独的广告区域中显示。广告可以不对称地显示或呈现，并且每个参与者可能观察到不同的广告。广告可以是超链接，当参与者点击它们时，代理可以从广告商的资金或账户中提取出价金额。广告可以是广告商提供的实际会话。广告可以随会话更改而更改。

参与者或用户可以因加入和参与会话或交互而从代理接收金钱奖励。代理可以使参与者知道奖励金额，以便参与者可以确定和更改其参与级别的优先级。参与者可以就其它参与者贡献进行表决，以便代理可以调整奖励金额。

现在将注意力转到对上述体系架构的核心组件的描述。读者可以理解，为了实现将用户与符合的兴趣和/或意图关联的任务，必须采用一种方法，其估计任何两个用户在任何给定时间的接近程度。我们采用的观点是：我们将通过依赖于建模为图的概念领域实现这一点，其中图的节点是概念或主题，并且其中图中的边表示这些概念之间的第一级关系，而且边具有潜在权重。拥有图之后，可以作为关联用户的任务一部分采用的一种技术是概率估计工具，其用于估计任何两个理念或理念集合的接近程度，其中理念是理念(或主题)领域的一部分。然后可以使用该方法估计用户可能对理念或理念集合感兴趣的概率，并且通过扩展，估计查询发起者与连接到所述系统的任何特定用户的符合程度。后一种情形可以通过接受采用自然语言形式的用户查询来实现，然后采用自然语言模块以便从查询提取可以被映射到所述系统的理念或主题领域的特定重要关键字。

现在参考图6，例如由图1中所示的应用112实现的概率估计工具可以被配置为结合一个或多个阶段操作。图6中示出用于估计代理对主题领域中的给定主题感兴趣的概率的方法600的一个实例。例如，第一阶段602可以用于获得主题领域的模型。第二阶段604可以用于针对领域中的每个主题，获得代理对该主题感兴趣的概率，假设代理表现出仅对一个主题感兴趣。第三阶段606可以用于计算代理对领域中的各种主题感兴趣的概率估计，假设代理表现出对两个或更多主题感兴趣。第四阶段608可以用于每当代理指定其没有兴趣或不感兴趣的一个或多个主题时，组合估计。

关于上面参考图6描述的第一阶段602，可以假设具有正方随机矩阵P，并且每个维度等于给定主题领域中的主题数量(例如，大约十万个主题、一百万个主题、五百万个主题、一千万个主题等)。P_{i,j}可以指示第i行和第j列上的表项，并且从马尔可夫链理论意义上说，可以被解释为从状态j转到状态i的概率，以便矩阵P的每列分别加一(1)。可以假设已经选择概率，以便反映可以针对领域的主题表现出的第一级关系。可以使用单独网页标识主题，并且主题之间的第一级链接可以由网页(例如，Wikipedia网页、企业内联网网页、普通网页)之间的超链接给出。此外，不需要存在超链接，因为可以基于描述每个主题的语言，使用非结构化信息处理技术提取两个主题之间的隐式链接。可以使用从一个页面去往另一个给定页面的相对超链接数量确定这些页面之间的关系强度。此外，可以使用页面中的超链接重要性(例如，超链接在页面中的位置)的估计，进一步影响填充矩阵P时分配给页面的概率。

当从网页集合的超链接结构构建图时，以下操作可能很有用：人为添加和/或删除链接，以及删除一个或多个节点以便提高对应图的质量。例如，可以将节点与彼此仅松散相关的多个页面的索引关联。这种节点及其链接可能引入假关系，因为索引并非旨在示出主题之间的真正关系，而仅是一种用于浏览Web的机制。消除这些类型的节点及其链接可以用于获得或隔离主题之间的关系的指示。一个实例是考虑Wikipedia中的“消歧”页面。这些页面包含主题列表，这些主题的上下文描述非常类似(例如，Deep Blue计算机和Deep Blue电影)，但表示不同的事物。一个实施例将从图中删除这些消歧节点(但是，它们可以在其它算法中用于其它目的)。

在相反的情况下，在没有链接的位置添加链接可以是适合的，例如当存在从第一主题到第二主题的链接，但没有从第二主题到第一主题的链接时。如果存在从第一主题到第二主题的链接指示第一和第二主题之间的关系，则可以合理地假设应该添加从第二主题到第一主题的链接。添加这种链接可以提高在此描述的算法的整体性能。如果给出人为添加链接的事实，则可以为这种添加的链接提供常规或典型链接的权重，或者可以提供较低的重要性或权重。

关于上面参考图6描述的第二阶段604，第二阶段604可以基于广义形式的矩阵特征向量算法的使用。在此技术中，可以使用下面等式1中提供的矩阵替换马尔可夫链转变概率矩阵P：

(1-a)P+a v^o[1 1 1…1] 等式1

等式1可以表示统计遍历试验或者是其一个实例。在等式1中，“a”表示在0和1之间的参数，“v^o”表示概率向量，其在与代理对其表现出原有兴趣的主题对应的表项中等于1，而在其它位置等于0，“[1 1 1…1]”符号表示充满1的行向量，其长度等于领域中的主题数量(也等于P中的行/列数量)。因此，v^o[1 1 1…1]表示每列等于v^o的方阵。等式1中的矩阵可以被视为专用于特定主题的马尔可夫链。通过图形方式，如果概率“a”1返回到描述代理对其表现出感兴趣的主题的节点，并且转为概率(1-a)，则在随机矩阵P描述的马尔可夫链中采取步骤。

假设等式1中的马尔可夫链具有静态概率分布，则静态概率分布可以被视为Web浏览的“随机浏览”试验的结果，其在感兴趣的特定网页处开始，然后随机查找或点击链接，始终以某一概率返回到起始网页。生成的静态概率分布可以提供任何给定网页多长时间被访问一次的指示，并且具有停留在接近起始网页的页面的某种偏好。可以通过重复的矩阵“x”向量运算估计静态概率分布，其在合理的误差裕度内相当快速地收敛到静态分布。

静态概率分布(或其估计)可能偏重于具有许多内部链接的节点，即使这些节点与初始主题(如向量v^o描述的)所关联的节点相距甚远。这是因为这些节点有效地充当吸引者。例如，在Wikipedia中，使用链接作为度量的一个最受欢迎的节点(或主题)是“U.S.A.(美国)”。即使某人表现出例如对“Patagonia(巴塔哥尼亚)”或“Dim Sum(点心)”感兴趣，也会观察到专用于Patagonia或Dim Sum的对应静态分布仍然为U.S.A.给出高概率。这可能是不希望的结果，该结果可以导致对感兴趣的概率的错误估计。

可以假设“W”表示针对选择某一“a”，等式1的静态分布或其估计，“Z”表示“规范化”分布。规范化分布例如可以是矩阵P的静态分布估计。规范化分布可以是以下矩阵的静态分布估计：该矩阵采用等式1的形式，但其中使用所有表项等于同一概率的概率向量替换向量v^o(例如，均匀分布)。在后一种情形/实施例中，参数“a”还具有潜在选择，该选择不需要与计算“W”时进行的“a”选择一致。备选地，可以选择不同于均匀分布的概率分布，以便反映有关参考人群对每个主题的兴趣程度的不同假设。

无论如何，“Z”可以对应于某人没有任何特定主题作为感兴趣主题时的静态分布，因此更确切地说反映整个人群的兴趣，而不是仅一个特定人员或代理的兴趣。静态分布至少在原则上可以完全基于任何给定主题在图中的拓扑优势(例如，许多内部链接)或劣势，衡量该主题的流行度。上面针对Z给出的实例将具有该通用属性。

拥有“W”和“Z”之后，可以通过下面的等式2计算代理对主题“j”感兴趣的概率估计：

f(g(W(j))/(g(W(j))+g(Z(j)))) 等式2

等式2可以用于推断关系强度。在等式2中，W(j)表示向量W的第j个表项，对于Z也一样，f()表示下面进一步描述的“过滤函数”。如下面进一步描述的，值W可以称为“原始得分”。首先，可以假设f(.)＝1，其对应于没有过滤的条件。同样，由于下面进一步描述的原因，函数g()可以用于预处理向量W和Z。首先，可以假设g(.)＝1。

如果专用于固定主题的分布W具有属性W(j)＝Z(j)，其中Z未专用于某个主题，则等式2中表示的比率等于0.5，这可以被解释为漠不关心(例如，不喜欢也不厌恶)。因此，如果Z和W针对j保持一致，则这可以表示没有证据表明与“普通”或一般的Z(j)相比，存在于W中的专用性导致访问节点j的比率更高。

为了讨论，如果W(j)＝10Z(j)(例如，在专用于给定主题下，访问节点j的频率是Z的十倍)，则等式2中的比率等于10/11或大约0.9。0.9这一值可以被解释为表示代理对j感兴趣的概率是0.9。

同样，如果W(j)与Z(j)相比非常小，则等式2中的比率将接近于0，这可以被解释为表示与一般人群相比，代理对此类主题j感兴趣的可能性更小。

在上述格式中，等式2中表示的比率结果可以被解释为感兴趣/不感兴趣或喜欢/不喜欢的概率。

可以结合等式2中的过滤函数以便考虑以下事实：在许多实际情况下，等式2的变化范围可能仅集中于[0,1]区间内的某些区域。通常，如下函数：

g(x)＝x^b 等式3

对于某个指数b(例如，b＝0.5)可以产生良好的结果。同样，函数f可以用于进一步控制生成的概率估计。例如，它可以用于调整等式2中表示的比率，以便该比率始终等于或大于阈值。因此，可以将函数f表示为：

f(x)＝x，如果x>x_0，以及等式4

f(x)＝x_0，如果x<x_0 等式5

关于上面参考图6描述的第三阶段606，可以假设从两个不同初始主题开始，从等式2获得两个感兴趣概率估计，表示为E1和E2。可以使用多种技术，将估计E1和E2组合成单个估计。例如，E1和E2的最大值可以用于E。例如：

E＝max(E1,E2) 等式6

另一种可能性是将E1和E2均视为从统计独立的试验获得(以试验结果为条件)，这些试验尝试回答感兴趣(1.0＝100％确定感兴趣)相对于没有兴趣或不感兴趣(0.0＝100％确定不感兴趣)的概率的问题。从这个观点来看，可以使用对数似然比的概念在形式上组合两个独立的观察值。具体地说，如果p1、p2、…pM是独立的感兴趣概率估计，则可以从以下等式计算组合概率：

LLRinv(LLR(P1)+LLR(P2)+…+LLR(PM)) 等式6

其中LLR(x)＝log(x/(1-x))并且LLRinv是LLR(x)的对应反函数。这种形式可以通过在每个LLR项的前面添加因数“k_x”，支持对每个单独主题的强度进行加权，例如：

LLRinv(k₁LLR(P1)+k₂LLR(P2)+…+k_M LLR(PM)) 等式8

关于上面参考图6描述的第四阶段608，可以使等式8中的适当“k_x”因数变负，以便每当代理指定其不感兴趣的一个或多个主题时组合估计。

所属技术领域的技术人员将理解，可以使用图对主题之间的关系进行建模。例如，图的每个节点可以表示主题、理念或概念。可以经由一个或多个边或链接，将节点连接到彼此，或者潜在地连接到一个或多个其它节点。

主题包(bundle)可以被定义为节点集合，其中该集合包括至少一个节点。领域中可以存在多个(“M”个)主题包。可能感兴趣的是：确定M个主题包相对彼此的重要性。

例如，参考图7，示出原始得分表700，其中表中的数值是原始得分的自然对数。“并行处理”、“GPGPU”、“数据挖掘”、“贝多芬”、“古典音乐”、“嘻哈文化”和“美国”可以表示主题或节点。主题在表700的垂直列或部分中示为查询主题。经由图7中所示的数值，反映查询主题与表示为个人主题(图7中的顶部水平行)的主题的关系。数值表示查询主题与个人主题的接近度或贴近度，并且值“0”表示高的接近度或贴近度。当值远离“0”时，查询主题与个人主题更少地相关。

如图7中所示，查询主题“数据挖掘”仅与个人主题“并行处理”略微相关，如图7中的值“-13”反映的那样。查询主题“美国”与个人主题“并行处理”更多地相关，如图7中的值“-8”反映的那样。非常确定地显示，与“数据挖掘”相比，“美国”与“并行处理”更密切相关，这用于反映现有技术的不足之处。

在某些实施例中，对于给定主题包，可以为领域中的每个其它主题包分配原始得分，该得分尝试衡量给定主题包与每个其它主题包之间的关系强度。可以使用原始评分函数分配原始得分。

为了计算原始得分，原始评分函数可以依赖于多个输入。所述输入可以包括：(1)表示理念或主题领域的图，并且每个主题是节点，图中的每个链接表示第一级关系，(2)有关M个主题包的概率分布，其表征一般人群对主题包的兴趣，以及(3)至少两个主题包，表示为A和B，以便易于说明。

原始评分函数的输出可以提供以下问题的答案：相对于主题包的一般人群，主题包A与主题包B的相关性为何。可以指出，有关主题包的概率分布，加上原始评分函数(应用于每个单独主题包)，转而可以暗示M个主题包的每一个的原始得分分布。

可以将算法与原始评分函数结合使用，以便确定或计算原始得分。作为算法的第一任务或方法800，可以获得主题包的概率分布估计。

如图8A中所示，第一任务800可以包括多个操作。例如，在操作802中，可以从M个主题包中选择主题包，可能随机选择。在操作804中，可以针对操作802的选定主题包对原始评分函数求值。在操作806中，可以基于操作804的结果，更新每个主题包的得分分布估计。

为了完成操作806，可以针对分布假设参数模型(即，假设分布遵循参数模型)。例如，可以假设将分布的尾部建模为帕累托分布。参数模型可以用于相对于任意分布减少数据存储，可能以使用不会同等应用于所有主题包的模型为代价。

可实行进一步优化。例如，如果原始评分函数是线性的(在可以通过将单独主题的原始评分相加而计算具有两个主题的主题包的原始评分的意义上)，则可以通过限制将主题包视为其内部具有一个主题的主题包，实现第一任务800。

另一种优化是操作806中的估计不需要与所有主题包具有相同的性质。例如，对于某些主题包，参数估计可能足够。对于某些主题包，可以计算更复杂的估计，而不对分布形状进行任何假设。

拥有操作806中的估计之后，可以通过图8B中所示的第二任务或方法850，回答主题包A与主题包B的相关性为何的问题。

如图8B中所示，第二任务850可以包括多个操作。在操作852中，可以针对主题包A对原始评分函数求值。在操作854中，可以从操作852的结果中提取分配给主题包B的得分。在操作856中，可以确定操作854中的已提取得分在主题包B的得分分布估计中具有的百分位数。在操作858中，可以输出操作856的所确定的百分位数。

在某些实施例中，可以将操作852和854融合为单个操作。例如，可能不需要对整个原始评分函数求值以产生操作854中需要的得分。

在某些实施例中，可以预先计算得分分布估计。在某些实施例中，可以预先计算原始评分函数。预先计算可以用于减少存储器/存储容量和/或减少所需的处理资源，以及用于快速获得任何两个主题包之间的关系。

在某些实施例中，可以通过获得马尔可夫链的静态分布估计，实现原始评分函数，该马尔可夫链专用于针对其对原始评分函数求值的主题包，并且描述马尔可夫随机过程，该过程通过将图的链接与给定概率关联，访问图中的节点。可以通过以下操作设计一种此类马尔可夫链：从例如从图的关联矩阵获得的通用马尔可夫链开始，然后将来自图中每个节点的链接添加回包含在主题包中的节点，将合适的概率与此类链接关联。

参考图9，示出根据一个或多个实施例的改进后的得分表900。表900类似于图7的表700。与表900关联的值不同于与表700关联的值。例如，在表900中，数值的范围可以从0.5到1.0。在表900中，值越接近于1.0，表示查询主题和个人主题之间的关系越强。在表900中，值越接近于0.5，表示查询主题与个人主题不相关。如表900中所示，查询主题“数据挖掘”相对于个人主题“并行处理”具有值0.7，这表示数据挖掘和并行处理之间的中等或中度关系。如表900中所示，查询主题“美国”相对于个人主题“并行处理”具有值0.5，这指示美国和并行处理高度不相关。因此，使用在此描述的技术，可以开发主题之间的更精确关系，如表700和900之间的差异反映的那样。

参考图10，示出示例性方法1000的流程图。方法1000可以用于推断主题之间的关系。

在方框1002，可以构造图。所述图可以包括至少三个节点。可以通过一个或多个边表示节点之间的关系。

在方框1004，可以针对图执行统计遍历试验。遍历试验包括遍历至少两个边，并且可以使用例如先前针对等式1描述的矩阵执行。

在方框1006，可以基于遍历试验，推断三个节点中的第一节点和三个节点中的第二节点之间的关系强度。在一个实施例中，可以使用等式2推断关系强度。

本公开的各实施例可以用于调整原始得分(例如，上面等式2中的“W”)，以便考虑一般人群或子人群表现出的兴趣。没有用于比较的基准，单独获得的原始得分可能没有多少含义或意义。参考上面的等式2，“Z”可以表示用于比较“W”的参考或基准分布。

为了获得更具体的实例，第一用户可以对主题“美国”表现出兴趣，概率为10^-5，并且对“法律学校”表现出兴趣，概率为10^-7。将这些概率视为原始得分，考虑到10^-5大于10^-7，可能倾向于假设第一用户对美国比对法律学校更感兴趣。但是，如果参考人群对美国感兴趣的平均概率为10^-5，并且对法律学校感兴趣的平均概率为10^-8，则至少相对于参考人群的平均兴趣，第一用户可能实际上对法律学校比对美国更感兴趣。

结合上面“美国”和“法律学校”之间的比较，第一用户对这些主题/题目的兴趣参考了参考人群表现的对这些主题的平均兴趣。可以在第一用户的原始得分和参考人群之间进行更细致的比较。例如，如果针对用户对“美国”和“法律学校”感兴趣的程度，记录参考人群中的每一个用户的答案，则可以开发参数模型(可能基于直方图)，以便提供有关第一用户对“美国”和“法律学校”感兴趣的更高级别或程度的信息。例如，可以能够确定第一用户对法律学校的兴趣使得该第一用户例如在对法律学校感兴趣的用户中排名前90％，但在对美国感兴趣的用户中仅排名前40％。

现在参考图11，示出方法1100的流程图。方法1100可以用于标识代理对主题的兴趣，该兴趣相对于其它代理对该主题的兴趣。

在方框1102，可以收集有关代理集合的信息。该信息可以包括对一个或多个主题表现出兴趣。

在方框1104，基于方块1102的信息，可以计算主题与代理集合中的每个代理之间的关系强度。

在方框1106，可以基于代理相对于其它代理与主题的关系如何不同，对该主题和该代理之间的关系进行排序。

在方框1108，可以输出排序的结果。例如，可以作为方框1108的一部分获得代理表现出对主题出感兴趣。方框1108的结果可以包括代理对其它主题的兴趣，以及其它代理对一个或多个主题的兴趣。

技术效果和益处包括提供一种社交交互促进工具，其自动执行以下过程：标识两个或更多用户或个体之间的共性，以便促进有关感兴趣的特定主题的偶然社交交互。所述社交交互促进工具可以从各种数据源(例如社交媒体网站)收集有关用户的信息，并且可以建立社区(例如，即时社区)。可以基于以下项建立社区：消息内容的描述、对应于可能接收者人群中的至少两个可能消息接收者的接收者数据，以及基于对所述描述与所述接收者数据之间的至少一种间接关系的强度排序来选择相关子人群，其中所述间接关系可以通过所述描述、所述接收者和至少一个其它数据源来定义。社区可以在消息发送者和相关子人群之间提供双向通信通道。

技术效果和益处还可以包括基于图分析和/或一个或多个评分函数，提供主题或理念的接近度或相关性的估计。

在此使用的术语只是为了描述特定实施例并且并非旨在作为本公开的限制。如在此使用的，单数形式“一”、“一个”和“该”旨在同样包括复数形式，除非上下文明确地另有所指。还将理解，当在此说明书中使用时，术语“包括”和/或“包含”指定了声明的特性、整数、步骤、操作、元素和/或组件的存在，但是并不排除一个或多个其它特性、整数、步骤、操作、元素、组件和/或其组合的存在或增加。

下面权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它元件相组合地执行该功能的结构、材料或操作。出于示例和说明目的给出了对本公开的描述，但所述描述并非旨在是穷举的或是将本公开限于所披露的形式。在不偏离本公开的范围和精神的情况下，对于所属技术领域的普通技术人员来说许多修改和变化都将是显而易见的。实施例的选择和描述是为了最佳地解释本公开的原理和实际应用，并且当适合于所构想的特定使用时，使得所属技术领域的其它普通技术人员能够理解本公开的具有各种修改的各种实施例。

此外，所属技术领域的技术人员知道，本公开的各个方面可以实现为系统、方法或计算机程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本公开的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括—但不限于—无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开的各个方面的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

上面参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。

也可以把这些计算机程序指令存储在计算机可读介质中，这些指令使得计算机、其它可编程数据处理装置、或其它设备以特定方式工作，从而，存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。

附图中的流程图和框图显示了根据本公开的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

Claims

1.一种用于处理主题之间的关系的方法，所述方法包括：

访问包含多个节点和边的图，每个节点表示主题，并且每个边表示两个主题之间的已知关联；

确定代理对每个主题感兴趣的概率，其中假设代理表现出对一个主题感兴趣，其中确定代理对每个主题感兴趣的概率包括：

针对所述图执行统计遍历试验；以及

推断代理和由所述图中的节点表示的每个主题之间的关系强度，所述推断基于从所述统计遍历试验提取的统计信息；以及

导出代理对每个主题感兴趣的概率，其中假设代理表现出对两个或更多主题感兴趣，其中所述导出代理对每个主题感兴趣的概率包括基于信息组合技术组合所述关系强度。

2.根据权利要求1的方法，还包括构造所述图。

3.根据权利要求1的方法，其中所述推断在以下两个主题之间：这两个主题没有连接它们的边。

4.根据权利要求1的方法，其中使用马尔可夫链执行所述遍历试验。

5.根据权利要求1的方法，其中所述图是稀疏图。

6.根据权利要求1的方法，其中到所述统计遍历试验的输入包括所述任何两个主题中的至少一个。

7.根据权利要求1的方法，其中执行统计遍历试验包括：

迭代从所述图中导出的马尔可夫链；以及

其中推断代理和每个主题之间的关系强度包括规范化基于所述迭代获得的概率分布，以便如果给出对一个主题感兴趣，确定对另一主题感兴趣的概率。

8.根据权利要求1的方法，其中所述信息组合技术包括使用概率的对数似然比。

9.根据权利要求8的方法，还包括：

使用所述对数似然比，基于所述代理表现出对至少一个主题不感兴趣，计算所述代理对所述一个主题感兴趣的概率估计。

10.根据权利要求9的方法，其中使用所述对数似然比将所述不感兴趣表示为减法。

11.根据权利要求1的方法，还包括：

迭代地选择包括在所述图中的节点集合；

对于每次迭代，针对选定集合对原始评分函数求值；以及

使用所述求值的结果，针对包括在多个集合中的每个集合更新原始得分分布估计，以便获得所述原始得分的分布。

12.根据权利要求11的方法，其中所述原始评分函数是线性的，并且其中每个选定节点集合具有单个节点。

13.根据权利要求11的方法，其中更新后的得分分布估计基于所述分布遵循参数模型的假设。

14.根据权利要求11的方法，还包括：

将原始得分与所述原始得分的分布相比较；

基于所述比较确定所述原始得分的百分位数；以及

输出所确定的百分位数。

15.根据权利要求11的方法，其中预先计算包括在所述多个集合中的至少一个所述集合的原始得分分布。

16.根据权利要求11的方法，其中作为融合操作而执行迭代选择所述节点集合和针对选定集合对所述原始评分函数求值。

17.一种用于处理主题之间的关系的系统，包括：

存储器，其具有计算机可读计算机指令；以及

处理器，其用于执行所述计算机可读指令以便执行一种方法，所述方法包括：

针对所述图执行统计遍历试验；以及

18.根据权利要求17的系统，其中所述任何两个主题没有连接它们的边。

19.根据权利要求17的系统，其中使用马尔可夫链执行所述统计遍历试验。

20.根据权利要求17的系统，其中到所述统计遍历试验的输入包括所述任何两个主题中的至少一个。

21.一种用于处理主题之间的关系的系统，所述系统包括用于执行权利要求1-16的任何一个中的方法的所有步骤的装置。