CN104025130B

CN104025130B - 计算实体之间的重要性的方法、系统和设备

Info

Publication number: CN104025130B
Application number: CN201280019647.8A
Authority: CN
Inventors: H.H.马利克; M.奥洛夫-奥尔斯
Original assignee: Thomson Reuters Global Resources ULC
Current assignee: Thomson Reuters Global Resources ULC
Priority date: 2011-02-22
Filing date: 2012-02-21
Publication date: 2018-07-20
Anticipated expiration: 2032-02-21
Also published as: CN104025130A; US20170220674A1; CN103782309B; US10650049B2; WO2012115958A2; WO2012115962A1; EP2678808A1; US9495635B2; WO2012115958A3; CN103782309A; US20120215777A1; US8626682B2; US20120215727A1; EP2678806A2

Abstract

公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体，向所述关联应用多个关联准则，基于所定义的权重值对每一个所述准则进行加权，以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系（例如，关联）的重要性，所述实体包括但不限于：组织、人、产品、工业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、工业项目、一般项目、元数据元素、分类代码及其组合。

Description

计算实体之间的重要性的方法、系统和设备

相关申请的交叉引用

本申请要求2011年2月22日提交的名称为“Information Processing andVisualization Methods and Systems”的美国临时申请No. 61/445,236以及2001年5月13日提交的名称为“Association Significance”的美国非临时申请No. 13/107,665的优先权，上述申请的内容以其整体并入到本文中。

技术领域

本公开涉及实体关联，并且更具体地涉及用于度量实体关联的系统和技术。

背景技术

当今，金融市场中的投资决策需要对可从多个来源获得的信息进行仔细分析。为了满足这一挑战，金融机构通常维持为这种分析提供基础的非常大的数据集。例如，预测股票市场、货币汇率、银行破产、理解和管理金融风险、贸易期货、信用评级、借贷管理、银行客户概况以及洗钱分析都需要用于分析的大的信息数据集。信息数据集可以是结构化数据集以及非结构化数据集。

通常，使用信息数据集来对一个或多个不同实体进行建模，每一个所述实体与其它实体可能有关系。例如，公司实体可能受到任何以下实体的影响并由此与任何以下实体有关系：商品（例如，铝、谷物、原油、糖等）、货币（例如，欧元、英镑、日元等）以及一个或多个竞争者。一个实体中的任何变化可能对另一实体有影响。例如，上涨的原油价格可能影响运输公司的收入，这可能影响该公司的估价。

考虑到这些数据集的量和性质，每个所建模的实体趋向于与大量其它实体有多个关系。由此，对于给定实体，难以识别哪些实体比其它实体更重要。

相应地，存在对用于自动分析所有可用数据并给实体关系指派重要性分数的系统和技术的需要。

发明内容

公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体，向所述关联应用多个关联准则，基于所定义的权重值对每一个所述准则进行加权，以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系（例如，关联）的重要性，所述实体包括但不限于：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。

本发明的各方面涉及向实体关联应用兴趣度准则以及加权与所述兴趣度准则相关联的值以产生重要性分数。

例如，根据一个方面，一种计算实体之间的重要性的方法包括：从多个实体识别第一实体和第二实体，所述第一实体具有与所述第二实体的第一关联，并且所述第二实体具有与所述第一实体的第二关联；以及对被指派给所述第一关联的多个准则值进行加权。所述多个准则值基于多个关联准则，所述多个关联准则选自实质上由以下各项构成的组：兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群（cluster）和意外元素。

所述方法还包括：基于所述第一准则的所述多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数，所述重要性分数指示所述第二实体对于所述第一实体的重要性级别；产生与所计算的重要性分数相关联的信号；以及传送所述信号。

在一个实施例中，所述多个实体表示以下各项中的一个或多个：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。可以从文档组、诸如数据库之类的结构化数据储存器或其组合识别所述多个实体。

在另一个实施例中，所述方法还包括使用计算机实现的数据结构在计算机存储器中表示所述多个实体。例如，在一个实施例中，所述计算机实现的数据结构是有向图，其中所述有向图的顶点表示所述多个实体，并且所述有向图的边表示所述多个实体中每一个之间的关联。所述方法还可以包括：使用第一实体和第二实体在所述文档组中的同现（co-occurrence）产生所述关联。

在一个实施例中，所述方法包括：向所述第一关联应用兴趣度准则，其中所述兴趣度准则基于适当的度量，所述度量是诸如（但不限于）以下兴趣度度量之一：相关系数、古德曼-克鲁斯凯的（Goodman-Kruskal’s）lambda（λ）、优势比（α）、尤尔的（Yule’s）Q、尤尔的Y、卡帕（Kappa）(κ)、交互信息(M)、J-度量(J)、基尼（Gini）指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的（Piatetsky-shaporo’s）(PS)、确定性因子(F)、增加值(AV)、收集强度（Collective Strength）(S)、杰卡德（Jaccard）指数以及克洛斯根（Klosgen）(K)。所述方法还包括：基于所述一个关联度量给所述多个准则值之一指派值。

所述方法可以包括：向所述第一关联应用最近兴趣度准则，其中使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则，所述部分与可配置预定时间间隔以及诸如（但不限于）以下兴趣度度量之一之类的适当度量相关联：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕(κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。所述方法还包括：基于所述一个关联度量给所述多个准则值之一指派值。

所述方法可以包括：向所述第一关联应用确认准则，其中应用确认准则包括确定是否所述第一实体和第二实体作为实体对共同存在于预定义对组中，所述预定义实体对中的每一对标识彼此之间的已知关系；以及基于所述确定给所述多个准则值之一指派值。

在一个实施例中，所述方法可以包括：向所述第一关联应用共享近邻准则，其中应用共享近邻准则包括确定具有从所述第一实体和第二实体延伸预定距离的边的实体子集。所述实体子集表示与第一实体和第二实体相邻的节点的交集。所述方法还包括：至少部分基于被包括在所述实体子集中的实体的数量计算关联值；以及基于所计算的关联值给所述多个准则值之一指派值。

在又一个实施例中，所述方法可以包括：向所述第一关联应用时间重要性准则，其中应用时间重要性准则包括使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则，所述第一部分与第一时间间隔相关联。所述第二部分与第二时间间隔相关联，并且不同于所述第一时间间隔。所述兴趣度准则包括但不限于以下兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。所述方法还包括：确定第一关联度量与第二关联度量之间的差值，所述第一关联度量与所述第一时间间隔相关联，所述第二关联度量与所述第二时间间隔相关联；以及基于所确定的差值给所述多个准则值之一指派值。

所述方法可以包括：向所述第一关联应用情境一致性准则，其中应用所述情境一致性准则包括确定所述第一实体和第二实体在情境中出现的频率。所述情境可以选自以下各项中的任一个：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。所述方法还包括：基于所确定的频率给所述多个准则值之一指派值。

在一个实施例中，所述方法包括：将最近活动准则应用于所述第一关联，其中应用最近活动准则包括：计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值；将所计算的出现率的平均值与总体出现率平均值相比较，该总体出现率平均值与同一地理或商业中的其它实体相关联；以及基于所述比较给所述多个准则值之一指派值。还可以季节性地调整所计算的出现率平均值和总体出现率平均值。

所述方法还可以包括：向所述第一关联应用当前集群准则，其中应用当前集群准则包括：确定包括所述第一实体和所述第二实体的集群的数量；将集群的数量同包括与所定义的情境相关联的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较。所定义的情境可以包括可应用于所述第一实体和第二实体的产业或地理。所述方法还包括：基于所述比较给所述多个准则值之一指派值。在一个实施例中，所述方法还包括：使用集群算法对所述多个实体进行集群。

在又一个实施例中，所述方法包括：向所述第一关联应用意外元素准则，其中应用意外元素准则包括比较第一情境与第二情境，在第一情境中，第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现，在第二情境中，第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现。所述方法还包括：基于所述比较给所述多个准则值之一指派值。

所述方法可以包括：将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个；以及对多个相乘后的值求和。

公开了包括存储用于实施各种技术的机器可读指令的机器可读介质的附加系统、方法以及物品。在下文中更详细地讨论各种实施方式的细节。

附图说明

图1是用于计算实体之间的连接重要性的示例性的基于计算机的系统的示意图。

图2示出了根据本发明的一个实施例的用于确定实体之间的连接重要性的示例性方法。

图3是示例性有向图的示意图。

图4示出了示例性的兴趣度度量。

各个图中相似的附图标记指示相似的元件。

具体实施方式

现在转到图1，公开了在其内可以实施本发明的实施例的适当计算系统10的示例。计算系统10仅是一个示例，并不意图暗示任何关于本发明的使用范围或功能的限制。也不应当将计算系统10解释为具有与所示组件中的任一个或组合有关的任何依赖性或需求。

例如，本发明可操作于多种其它通用或专用计算消费电子装置、网络PC、小型计算机、大型计算机、膝上型计算机、以及包括上述系统或装置中的任一个的分布式计算环境等等。

可以在被计算机执行的诸如程序模块之类的计算机可执行指令的一般上下文中描述本发明。通常，程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和结构等。本发明可以在分布式计算环境中实施，在分布式计算环境中，任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中，程序模块位于包括存储储存装置的本地和远程计算机储存介质二者中。在下文中并且借助附图描述由程序和模块执行的任务。本领域技术人员可以将说明书和附图实施为处理器可执行指令，所述指令可以被编写在任何形式的计算机可读介质上。

在一个实施例中，参考图1，系统10包括服务器装置12，该服务器装置12被配置成包括：诸如中央处理单元（“CPU”）之类的处理器14、随机存取存储器（“RAM”）16、一个或多个诸如显示装置（未示出）和键盘（未示出）之类的输入-输出装置18、以及非易失性存储器20，它们全部经由公共总线22互连并由处理器14控制。。

如图1示例中所示，在一个实施例中，非易失性存储器20被配置成包括用于从一个或多个源识别实体的识别模块24。所识别的实体可以包括但不限于：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题代码、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素和分类代码。还提供了关联模块26，用于计算实体之间的关联的重要性分数，所述重要性分数是第二实体对于第一实体的重要性级别的指示。

在一个实施例中，提供了情境模块28，用于确定所识别的实体通常被引用或提及的情境（例如，情形、背景），提供了用于对所识别的实体进行集群（例如，分类）的集群模块30以及用于产生和传送与所计算的重要性分数相关联的信号的信号模块31。结合图2、3和4讨论这些模块24、26、28、30和32的附加细节。

如图1中所示，在一个实施例中，提供了网络32，网络32可以包括各种装置，诸如以内联网、外联网或互联网配置连接的路由器、服务器和交换元件。在一个实施例中，网络32使用有线通信来在访问装置（未示出）、服务器装置12和数据储存器34之间传输信息。在另一个实施例中，网络32采用无线通信协议来在访问装置、服务器装置12和数据储存器34之间传输信息。在另外其他实施例中，网络32采用有线和无线技术的组合来在访问装置、服务器装置12和数据储存器34之间传输信息。

数据储存器34是维护和存储前述模块24、26、28、30和31所利用的信息的储存库。在一个实施例中，数据储存器34是关系数据库。在另一个实施例中，数据储存器34是诸如轻型目录访问协议（“LDAP”）之类的目录服务器。在又一个实施例中，数据储存器34是服务器12的非易失性存储器20的区域。

在一个实施例中，如图1示例中所示，在一个实施例中，数据储存器34包括用于识别一个或多个实体的文档组36。如此处所使用的那样，词语“组”是指从空集到多元素集合的任何集合。文档组36可以包括但不限于：一篇或多篇论文、备忘录、专著（treatise）、新闻报道、文章、目录、组织和法律文档、研究、历史文档、政策和程序、商业文档及其组合。在另一个实施例中，数据储存器34包括用于识别一个或多个实体的结构化数据储存器，诸如关系或层级数据库。在又一个实施例中，使用文档组和结构化数据储存器来识别一个或多个实体。

提供了关联准则组38，其包括被关联模块26用来计算实体之间的所识别的关系的重要性分数的列联表。在一个实施例中，列联表与被关联模块26用来计算重要性分数的兴趣度度量的组相关联。结合图4示出了兴趣度度量的示例连同每个相应公式。

数据储存器34还包括实体对组40。被包括在实体对组40中的每个对表示存在于至少两个所识别的实体之间的已知关系。在一个实施例中，由专家在检查了所述文档组36中的一个文档后识别所述关系。在另一个实施例中，使用情境模块28中包括的计算机算法从一个或多个文档组36识别所述关系。例如，在检查了新闻报道后，专家和/或情境模块28可以识别出现在同一新闻报道中的两个实体的存在。

如图1中所示，在一个实施例中，还提供了情境对组42。情境对组42中的每个对表示存在于至少两个实体之间的情境。例如，无论何时在新闻报道中讨论特定主题或项，这两个实体也在同一新闻报道中被提及。类似于先前讨论的实体对组40，情境对组也可以由专家识别，或者由被包括在情境模块28中的计算机算法识别。在下文中更详细地讨论关于数据储存器34中包括的信息的附加细节。

尽管图1中所示的数据储存器34连接到网络32，但是本领域技术人员将理解，数据储存器34和/或其中所示的任何信息可以分布在各种服务器上且对服务器12来说可经由网络32访问，直接耦合到服务器12，或者被配置在服务器12的非易失性存储器20的区域中。

此外，应当注意，图1中所示的系统10仅是本公开的一个实施例。本公开的其它系统实施例可以包括未示出的附加结构，诸如辅助储存器和附加计算装置。此外，本公开的各种其它实施例包括比图1中所示的那些更少的结构。例如，在一个实施例中，本公开以非联网的独立配置在单个计算装置上实施。经由诸如键盘和/或鼠标之类的输入装置将数据输入和请求传递到计算装置。从计算装置将系统的数据输出（诸如，所计算的重要性分数）传递给诸如计算机监视器之类的显示装置。

现在转到图2，公开了用于确定实体之间的连接重要性的示例方法。如图2示例中所示，在步骤44，识别模块24首先产生有向图来表示在文档组36中的每个文档中识别的实体。在一个实施例中，识别模块24确定文档组36中的每个文档中的每个实体的频率和同现，并且然后产生列联表来记录和确定关联。所述文档组可以是：结构化文档，包括但不限于可扩展标记语言（XML）文件；以及非结构化文档，包括但不限于文章和新闻报道。如前所述，本发明不限于仅使用文档组来识别实体。例如，本发明可以单独地或与文档组相结合地使用包括但不限于关系和层级数据库的结构化数据储存器，来识别实体。

此外，将理解，本发明不限于有向图实现，并且，能够对实体关系进行建模的其它计算机实现的数据结构可以与本发明一起使用，诸如混合图和多重图。

结合图3示出了由识别模块24产生的示例性有向图的示意图。该图的每个节点60、62、64、66、68、70和72表示从所述文档组中的一个或多个文档识别的实体，并且每个节点的顶点（例如，边）表示实体之间的关联（例如，关系）。例如，如图3示例中所示，实体A 60具有与实体B 62的第一关联60A以及与实体B 62的第二关联60B，所述第一关联60A指示实体B62对于实体A 60的重要性级别，所述第二关联60B指示实体A 60对于实体B 62的重要性级别。

再次参考图2，在步骤46，识别模块24接下来从所述有向图识别第一实体和至少一个第二实体。在一个实施例中，第一实体被包括在用户请求中，并且第二实体由识别模块24使用所产生的图的深度优先搜索来确定。在另一个实施例中，识别模块24在所述图的每个节点（例如第一实体）上使用深度优先搜索以确定至少一个其它节点（例如第二实体）。

接下来，在步骤48，一旦识别了第一实体和第二实体，则关联模块26将多个关联准则38应用于第一实体和第二实体之间的关联之一。所述多个关联准则38包括但不限于以下准则组：兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素。一旦应用了关联准则，则关联模块28将准则值指派给每个关联准则。

例如，在一个实施例中，关联模块26可以将兴趣度准则应用于第一关联。兴趣度准则对于本领域技术人员来说是已知的，并作为一般性概念可以强调在数据组中的实体之间检测到的模式（例如关系）的简明性、覆盖范围、可靠性、独特性、多样性、新颖性、意外性、实用性和可行动性。在一个实施例中，兴趣度准则被关联模块26应用于从文档组36识别的所有关联，并可以包括但不限于以下兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。一旦将兴趣度准则应用于第一关联，则关联模块26基于兴趣度度量给兴趣度准则指派值。

结合图4示出了关联模块26所使用的具有所附公式的示例兴趣度度量的列表。如图4示例中所示，兴趣度度量之一包括对分别由图4中的A和B表示的实体对之间的线性相依性的程度进行度量的相关系数（Φ-系数）。该相关系数由两个实体之间的协方差除以它们的标准差来定义。相关系数在实体A和实体B独立时等于零（0），并可以在从负一（-1）到正一（+1）的范围内变化。

在一个实施例中，关联模块26将最近兴趣度准则应用于第一关联。最近兴趣度准则可以由关联模块26应用于从文档组36的一部分和/或结构化数据储存器的一部分识别的关联。该部分可以与可配置预定时间间隔相关联。例如，关联模块26可以将最近兴趣度准则仅应用于从不早于六（6）个月前的文档确定的实体之间的关联。类似于前述兴趣度准则，最近兴趣度准则可以包括但不限于以下兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。一旦将最近兴趣度准则应用于第一关联，则关联模块26基于兴趣度度量给最近兴趣度准则指派值。

关联模块26可以将确认准则应用于第一关联。在一个实施例中，关联模块26确定第一实体和第二实体是否作为实体对共同存在于实体对组40中。如前所述，在实体对组40中定义的每个实体对先前可以被识别为彼此有关系。基于所述确定，关联模块26给确认准则指派值，该值指示第一实体和第二实体是否作为成对实体存在于实体对组40中。

关联模块26可以将共享近邻准则应用于第一关联。在一个实施例中，关联模块26确定具有从第一实体和第二实体延伸预定距离的边的实体子集。所述实体子集表示与第一和第二实体相邻的节点的交集。然后，关联模块26至少部分基于被包括在所述实体子集中的实体的数量计算关联值，并基于所计算的关联值给共享近邻准则指派值。

例如，参考图3并且假设图中实体之间的预定距离（例如，跳）为一（1），则实体A 60与实体B 62之间的共享实体（例如，相邻实体）是实体C 64和实体D，导致计算的关联值为二（2），该关联值被指派给共享近邻准则。如图3示例中所示，实体E 68和实体F 70与实体A 60的距离大于该预定距离，并且实体G 72与实体B 62的距离大于该预定距离。

再次参考图2，在步骤48，关联模块26可以将时间重要性准则应用于第一关联。在一个实施例中，关联模块26将兴趣度准则应用于如文档组的第一部分和/或结构化数据储存器的第一部分确定的第一关联。所述第一部分与第一时间间隔相关联。然后，关联模块26将兴趣度准则应用于如文档组的第二部分和/或结构化数据储存器的第二部分确定的第一关联。所述第二部分与不同于所述第一时间间隔的第二时间间隔相关联。所述兴趣度准则可以包括但不限于以下兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。

一旦应用了时间重要性准则，则关联模块26确定与第一时间间隔相关联的第一兴趣度度量和与第二时间间隔相关联的第二兴趣度度量之间的差值。然后，关联模块26基于所确定的差值给所述时间重要性准则指派值。

关联模块26可以将情境一致性准则应用于所述第一关联。在一个实施例中，关联模块26确定在文档组36中的每个文档的情境中第一实体和第二实体出现的频率。所述情境包括但不限于：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。然后，关联模块26基于所确定的频率给所述情境一致性准则指派值。

关联模块26还可以将最近活动准则应用于所述第一关联。例如，在一个实施例中，关联模块26计算第一实体和第二实体在文档组36中的一个文档和/或所述结构化数据储存器中出现的出现率的平均值。然后，关联模块26将所计算的出现率的平均值与总体出现率平均值相比较，该总体出现率平均值与同一地理或商业中的其它实体相关联。一旦完成了比较，关联模块26就基于所述比较给最近活动准则指派值。在各种实施例中，季节性地调整所计算的出现率平均值和/或总体出现率平均值。

关联模块26还可以将当前集群准则应用于所述第一关联。在一个实施例中，使用集群模块30将所识别的实体集群到一起。集群模块30可以实施本领域中已知的任何集群算法。一旦实体被集群，则关联模块26确定包括第一实体和第二实体的集群的数量。然后，关联模块26将所确定的集群数量与包括来自情境对组42的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较。在一个实施例中，所定义的情境是可应用于第一实体和第二实体二者的产业或地理。然后，关联模块26基于所述比较给所述当前集群准则指派值。

关联模块26还可以将意外元素准则应用于所述第一关联。在一个实施例中，关联模块26比较下述两个情境，在一个情境中，第一实体和第二实体在与文档组的一部分和/或结构化数据储存器的一部分相关联的先前时间间隔中出现，在另一个情境中，第一实体和第二实体在与文档组和/或结构化数据储存器的不同部分相关联的后续时间间隔中出现。然后，关联模块26基于所述比较给所述意外元素准则指派值。

参考图2，一旦将所述多个准则应用于第一关联，则在步骤50，关联模块26对被指派给第一关联的所述多个准则值中的每一个进行加权。在一个实施例中，关联模块26将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个，并且然后对所述多个相乘后的准则值求和以计算重要性分数。如前所讨论，重要性分数指示第二实体对于第一实体的重要性级别。在另一个实施例中，关联模块26将与所述多个准则中的每一个相关联的预定义系统值相乘，并且然后对所述多个相乘后的准则值求和以计算重要性分数。

一旦计算了重要性分数，则在步骤54，信号模块32产生包括所计算的重要性分数的信号。最后，在步骤56，信号模块32传送所产生的信号。在一个实施例中，信号模块32响应于接收到的请求传送所产生的信号。

所述系统的各种特征可以以硬件、软件或硬件和软件的组合实现。例如，所述系统的一些特征可以以在可编程计算机上执行的一个或多个计算机程序实现。每个程序可以以高级过程或面向对象的编程语言实现，以与计算机系统或其它机器通信。此外，每个这种计算机程序可以存储在诸如可由通用或专用可编程计算机或处理器读取的只读存储器（ROM）之类的储存介质上，以用于配置和操作所述计算机来执行上述功能。

Claims

1.一种计算实体之间的重要性的方法，包括：

从在文档内显现的多个实体自动地识别第一实体和第二实体，所述第一实体具有与所述第二实体的第一关联，并且所述第二实体具有与所述第一实体的第二关联；

自动地产生表示所述第一实体与所述第二实体之间存在的情境关系的情境对组；

至少部分地基于所述第一实体和所述第二实体在所述文档内的出现率和同现以及基于所述情境对组，自动地确定所述第一关联和所述第二关联；

将关联准则组指派给所述第一关联，并针对所述关联准则组确定多个准则值，所述关联准则组选自实质上由以下各项构成的群组：兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素；

对被指派给所述第一关联的多个准则值进行加权；

基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数，所述重要性分数指示所述第二实体对于所述第一实体的重要性级别，其中所述重要性分数表示所述第一实体与所述第二实体之间的情境关系的量化；

产生与所计算的重要性分数相关联的信号；以及

传送所述信号。

2.根据权利要求1所述的方法，其中：所述多个实体包括以下各项中的一个或多个的表示：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。

3.根据权利要求2所述的方法，包括：从文档组或结构化数据储存器或其组合识别所述多个实体。

4.根据权利要求3所述的方法，还包括：使用计算机实现的数据结构在计算机存储器中表示所述多个实体。

5.根据权利要求4所述的方法，其中：所述计算机实现的数据结构是有向图，其中所述有向图的顶点表示所述多个实体，并且所述有向图的边表示所述多个实体中每一个之间的关联。

6.根据权利要求5所述的方法，包括：

向所述第一关联应用兴趣度准则，其中所述兴趣度准则包括下述兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)；以及

基于所述一个兴趣度度量给所述多个准则值之一指派值。

7.根据权利要求5所述的方法，包括：

使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则，所述部分与可配置预定时间间隔以及下述兴趣度度量之一相关联：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)；以及

基于所述一个关联度量给所述多个准则值之一指派值。

8.根据权利要求5所述的方法，包括：

向所述第一关联应用确认准则，其中应用确认准则包括确定是否所述第一实体和第二实体作为实体对共同存在于预定义对组中，所述预定义实体对中的每一对标识所述第一实体与所述第二实体之间的已知关系；以及

基于所述确定给所述多个准则值之一指派值。

9.根据权利要求5所述的方法，包括：

向所述第一关联应用共享近邻准则，其中应用共享近邻准则包括确定具有从所述第一实体和所述第二实体延伸预定距离的边的实体子集，所述实体子集表示与所述第一实体和所述第二实体相邻的节点的交集；以及至少部分地基于被包括在所述实体子集中的实体的数量计算关联值；以及

基于所计算的关联值给所述多个准则值之一指派值。

10.根据权利要求5所述的方法，包括：

向所述第一关联应用时间重要性准则，其中应用时间重要性准则包括使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则，所述第一部分与第一时间间隔相关联，所述第二部分与第二时间间隔相关联，所述第一时间间隔不同于所述第二时间间隔，所述兴趣度准则包括下述兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)；

确定第一关联度量与第二关联度量之间的差值，所述第一关联度量与所述第一时间间隔相关联，所述第二关联度量与所述第二时间间隔相关联；以及

基于所确定的差值给所述多个准则值之一指派值。

11.根据权利要求5所述的方法，包括：

向所述第一关联应用情境一致性准则，其中应用所述情境一致性准则包括确定所述第一实体和所述第二实体在情境中出现的频率，所述情境与下述各项之一相关联：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素和分类代码；以及

基于所确定的频率给所述多个准则值之一指派值。

12.根据权利要求5所述的方法，包括：

将所述最近活动准则应用于所述第一关联，其中应用所述最近活动准则包括计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值；

将所计算的出现率的平均值与总体出现率平均值相比较，该总体出现率平均值与同一地理或商业中的其它实体相关联；以及

基于所述比较给所述多个准则值之一指派值。

13.根据权利要求12所述的方法，包括：季节性地调整所计算的出现率平均值和所述总体出现率平均值。

14.根据权利要求5所述的方法，包括：

向所述第一关联应用当前集群准则，其中应用当前集群准则包括确定包括所述第一实体和所述第二实体的集群的数量；

将集群的数量与包括与所定义的情境相关联的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较，所定义的情境包括可应用于所述第一实体和所述第二实体的产业或地理；以及

基于所述比较给所述多个准则值之一指派值。

15.根据权利要求14所述的方法，包括：使用集群算法对所述多个实体进行集群。

16.根据权利要求5所述的方法，包括：

向所述第一关联应用意外元素准则，其中应用意外元素准则包括比较第一情境与第二情境，在第一情境中，第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现，在第二情境中，第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现；以及

基于所述比较给所述多个准则值之一指派值。

17.根据权利要求1所述的方法，其中：对所述多个准则值进行加权包括：

将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个；以及

对所述多个相乘后的准则值求和。

18.根据权利要求1所述的方法，包括：响应于请求，传送包括所计算的重要性分数的所产生的信号。

19.一种计算实体之间的重要性的系统，包括：

数据储存库，其包括结构化数据储存器和文档组之一，所述数据储存库包括多个实体；

服务器，其包括处理器和存储器，所述存储器存储响应于接收到对服务进行访问的请求而使所述处理器执行以下操作的指令：

对被指派给所述第一关联的多个准则值进行加权；

产生与所计算的重要性分数相关联的信号；以及

响应于所述请求传送所述信号。

20.根据权利要求19所述的系统，其中：所述多个实体包括以下各项中的一个或多个的表示：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。

21.根据权利要求20所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：从文档组或结构化数据储存器识别所述多个实体。

22.根据权利要求21所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：使用计算机实现的数据结构在存储器中表示所述多个实体。

23.根据权利要求22所述的系统，其中：所述计算机实现的数据结构是有向图，其中所述有向图的顶点表示所述多个实体，并且所述有向图的边表示所述多个实体中每一个之间的关联。

24.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

基于所述一个关联度量给所述多个准则值之一指派值。

25.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用最近兴趣度准则，其中使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则，所述部分与可配置预定时间间隔以及下述兴趣度度量之一相关联：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)；以及

基于所述一个关联度量给所述多个准则值之一指派值。

26.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用确认准则，其中所述处理器确定是否所述第一实体和所述第二实体作为实体对共同存在于预定义对组中，所述预定义实体对中的每一对标识所述第一实体与所述第二实体之间的已知关系；以及

基于所述确定给所述多个准则值之一指派值。

27.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用共享近邻准则，其中所述处理器确定具有从所述第一实体和所述第二实体延伸预定距离的边的实体子集，以及至少部分地基于被包括在所述实体子集中的实体的数量计算关联值，所述实体子集表示与所述第一实体和所述第二实体相邻的节点的交集；以及

基于所计算的关联值给所述多个准则值之一指派值。

28.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用时间重要性准则，其中所述处理器使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则，所述第一部分与第一时间间隔相关联，所述第二部分与第二时间间隔相关联，所述第二时间间隔不同于所述第一时间间隔，并且所述兴趣度准则包括下述兴趣度度量之一：相关系数、古德曼-克鲁斯凯的lambda（λ）、优势比（α）、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)；

基于所确定的差值给所述多个准则值之一指派值。

29.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用情境一致性准则，其中所述处理器确定所述第一实体和所述第二实体在所述文档组中的每一个文档的情境中出现的频率，所述情境与下述各项之一相关联：组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合；

基于所确定的频率给所述多个准则值之一指派值。

30.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

将所述最近活动准则应用于所述第一关联，其中所述处理器计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值；

基于所述比较给所述多个准则值之一指派值。

31.根据权利要求30所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：季节性地调整所计算的出现率平均值和所述总体出现率平均值。

32.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用当前集群准则，其中所述处理器确定包括所述第一实体和所述第二实体的集群的数量；

基于所述比较给所述多个准则值之一指派值。

33.根据权利要求32所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：使用集群算法对所述多个实体进行集群。

34.根据权利要求23所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

向所述第一关联应用意外元素准则，其中所述处理器比较第一情境与第二情境，在第一情境中，第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现，在第二情境中，第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现；以及

基于所述比较给所述多个准则值之一指派值。

35.根据权利要求19所述的系统，其中：所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令：

对所述多个加权的准则值求和。

36.根据权利要求19所述的系统，其中：所述数据储存库包括所述文档组和所述结构化数据储存器。

37.一种计算实体之间的重要性的设备，包括：

用于从在文档内显现的多个实体自动地识别第一实体和第二实体的装置，所述第一实体具有与所述第二实体的第一关联，并且所述第二实体具有与所述第一实体的第二关联；

用于自动地产生表示所述第一实体与所述第二实体之间存在的情境关系的情境对组的装置；

用于至少部分地基于所述第一实体和所述第二实体在所述文档内的出现率和同现以及基于所述情境对组，自动地确定所述第一关联和所述第二关联的装置；

用于将关联准则组指派给所述第一关联并针对所述关联准则组确定多个准则值的装置，所述关联准则组选自实质上由以下各项构成的群组：兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素；

用于对被指派给所述第一关联的多个准则值进行加权的装置；

用于基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数的装置，所述重要性分数指示所述第二实体对于所述第一实体的重要性级别，其中所述重要性分数表示所述第一实体与所述第二实体之间的情境关系的量化；

用于产生与所计算的重要性分数相关联的信号的装置；以及

用于传送所述信号的装置。