CN104025130B - 计算实体之间的重要性的方法、系统和设备 - Google Patents

计算实体之间的重要性的方法、系统和设备 Download PDF

Info

Publication number
CN104025130B
CN104025130B CN201280019647.8A CN201280019647A CN104025130B CN 104025130 B CN104025130 B CN 104025130B CN 201280019647 A CN201280019647 A CN 201280019647A CN 104025130 B CN104025130 B CN 104025130B
Authority
CN
China
Prior art keywords
instance
criterion
value
entity
situation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280019647.8A
Other languages
English (en)
Other versions
CN104025130A (zh
Inventor
H.H.马利克
M.奥洛夫-奥尔斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Reuters Global Resources ULC
Original Assignee
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Reuters Global Resources ULC filed Critical Thomson Reuters Global Resources ULC
Publication of CN104025130A publication Critical patent/CN104025130A/zh
Application granted granted Critical
Publication of CN104025130B publication Critical patent/CN104025130B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体,向所述关联应用多个关联准则,基于所定义的权重值对每一个所述准则进行加权,以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系(例如,关联)的重要性,所述实体包括但不限于:组织、人、产品、工业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、工业项目、一般项目、元数据元素、分类代码及其组合。

Description

计算实体之间的重要性的方法、系统和设备
相关申请的交叉引用
本申请要求2011年2月22日提交的名称为“Information Processing andVisualization Methods and Systems”的美国临时申请No. 61/445,236以及2001年5月13日提交的名称为“Association Significance”的美国非临时申请No. 13/107,665的优先权,上述申请的内容以其整体并入到本文中。
技术领域
本公开涉及实体关联,并且更具体地涉及用于度量实体关联的系统和技术。
背景技术
当今,金融市场中的投资决策需要对可从多个来源获得的信息进行仔细分析。为了满足这一挑战,金融机构通常维持为这种分析提供基础的非常大的数据集。例如,预测股票市场、货币汇率、银行破产、理解和管理金融风险、贸易期货、信用评级、借贷管理、银行客户概况以及洗钱分析都需要用于分析的大的信息数据集。信息数据集可以是结构化数据集以及非结构化数据集。
通常,使用信息数据集来对一个或多个不同实体进行建模,每一个所述实体与其它实体可能有关系。例如,公司实体可能受到任何以下实体的影响并由此与任何以下实体有关系:商品(例如,铝、谷物、原油、糖等)、货币(例如,欧元、英镑、日元等)以及一个或多个竞争者。一个实体中的任何变化可能对另一实体有影响。例如,上涨的原油价格可能影响运输公司的收入,这可能影响该公司的估价。
考虑到这些数据集的量和性质,每个所建模的实体趋向于与大量其它实体有多个关系。由此,对于给定实体,难以识别哪些实体比其它实体更重要。
相应地,存在对用于自动分析所有可用数据并给实体关系指派重要性分数的系统和技术的需要。
发明内容
公开了用于确定实体之间的重要性的系统和技术。所述系统和技术识别与第二实体有关联的第一实体,向所述关联应用多个关联准则,基于所定义的权重值对每一个所述准则进行加权,以及基于多个加权的准则值之和计算第一实体相对于第二实体的重要性分数。所述系统和技术利用来自全异源的信息来创建独特强力的信号。所述系统和技术可以用于识别各种实体之间的关系(例如,关联)的重要性,所述实体包括但不限于:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。
本发明的各方面涉及向实体关联应用兴趣度准则以及加权与所述兴趣度准则相关联的值以产生重要性分数。
例如,根据一个方面,一种计算实体之间的重要性的方法包括:从多个实体识别第一实体和第二实体,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;以及对被指派给所述第一关联的多个准则值进行加权。所述多个准则值基于多个关联准则,所述多个关联准则选自实质上由以下各项构成的组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群(cluster)和意外元素。
所述方法还包括:基于所述第一准则的所述多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别;产生与所计算的重要性分数相关联的信号;以及传送所述信号。
在一个实施例中,所述多个实体表示以下各项中的一个或多个:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。可以从文档组、诸如数据库之类的结构化数据储存器或其组合识别所述多个实体。
在另一个实施例中,所述方法还包括使用计算机实现的数据结构在计算机存储器中表示所述多个实体。例如,在一个实施例中,所述计算机实现的数据结构是有向图,其中所述有向图的顶点表示所述多个实体,并且所述有向图的边表示所述多个实体中每一个之间的关联。所述方法还可以包括:使用第一实体和第二实体在所述文档组中的同现(co-occurrence)产生所述关联。
在一个实施例中,所述方法包括:向所述第一关联应用兴趣度准则,其中所述兴趣度准则基于适当的度量,所述度量是诸如(但不限于)以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的(Goodman-Kruskal’s)lambda(λ)、优势比(α)、尤尔的(Yule’s)Q、尤尔的Y、卡帕(Kappa)(κ)、交互信息(M)、J-度量(J)、基尼(Gini)指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(Piatetsky-shaporo’s)(PS)、确定性因子(F)、增加值(AV)、收集强度(Collective Strength)(S)、杰卡德(Jaccard)指数以及克洛斯根(Klosgen)(K)。所述方法还包括:基于所述一个关联度量给所述多个准则值之一指派值。
所述方法可以包括:向所述第一关联应用最近兴趣度准则,其中使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则,所述部分与可配置预定时间间隔以及诸如(但不限于)以下兴趣度度量之一之类的适当度量相关联:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕(κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。所述方法还包括:基于所述一个关联度量给所述多个准则值之一指派值。
所述方法可以包括:向所述第一关联应用确认准则,其中应用确认准则包括确定是否所述第一实体和第二实体作为实体对共同存在于预定义对组中,所述预定义实体对中的每一对标识彼此之间的已知关系;以及基于所述确定给所述多个准则值之一指派值。
在一个实施例中,所述方法可以包括:向所述第一关联应用共享近邻准则,其中应用共享近邻准则包括确定具有从所述第一实体和第二实体延伸预定距离的边的实体子集。所述实体子集表示与第一实体和第二实体相邻的节点的交集。所述方法还包括:至少部分基于被包括在所述实体子集中的实体的数量计算关联值;以及基于所计算的关联值给所述多个准则值之一指派值。
在又一个实施例中,所述方法可以包括:向所述第一关联应用时间重要性准则,其中应用时间重要性准则包括使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则,所述第一部分与第一时间间隔相关联。所述第二部分与第二时间间隔相关联,并且不同于所述第一时间间隔。所述兴趣度准则包括但不限于以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。所述方法还包括:确定第一关联度量与第二关联度量之间的差值,所述第一关联度量与所述第一时间间隔相关联,所述第二关联度量与所述第二时间间隔相关联;以及基于所确定的差值给所述多个准则值之一指派值。
所述方法可以包括:向所述第一关联应用情境一致性准则,其中应用所述情境一致性准则包括确定所述第一实体和第二实体在情境中出现的频率。所述情境可以选自以下各项中的任一个:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。所述方法还包括:基于所确定的频率给所述多个准则值之一指派值。
在一个实施例中,所述方法包括:将最近活动准则应用于所述第一关联,其中应用最近活动准则包括:计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值;将所计算的出现率的平均值与总体出现率平均值相比较,该总体出现率平均值与同一地理或商业中的其它实体相关联;以及基于所述比较给所述多个准则值之一指派值。还可以季节性地调整所计算的出现率平均值和总体出现率平均值。
所述方法还可以包括:向所述第一关联应用当前集群准则,其中应用当前集群准则包括:确定包括所述第一实体和所述第二实体的集群的数量;将集群的数量同包括与所定义的情境相关联的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较。所定义的情境可以包括可应用于所述第一实体和第二实体的产业或地理。所述方法还包括:基于所述比较给所述多个准则值之一指派值。在一个实施例中,所述方法还包括:使用集群算法对所述多个实体进行集群。
在又一个实施例中,所述方法包括:向所述第一关联应用意外元素准则,其中应用意外元素准则包括比较第一情境与第二情境,在第一情境中,第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现,在第二情境中,第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现。所述方法还包括:基于所述比较给所述多个准则值之一指派值。
所述方法可以包括:将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个;以及对多个相乘后的值求和。
公开了包括存储用于实施各种技术的机器可读指令的机器可读介质的附加系统、方法以及物品。在下文中更详细地讨论各种实施方式的细节。
附图说明
图1是用于计算实体之间的连接重要性的示例性的基于计算机的系统的示意图。
图2示出了根据本发明的一个实施例的用于确定实体之间的连接重要性的示例性方法。
图3是示例性有向图的示意图。
图4示出了示例性的兴趣度度量。
各个图中相似的附图标记指示相似的元件。
具体实施方式
现在转到图1,公开了在其内可以实施本发明的实施例的适当计算系统10的示例。计算系统10仅是一个示例,并不意图暗示任何关于本发明的使用范围或功能的限制。也不应当将计算系统10解释为具有与所示组件中的任一个或组合有关的任何依赖性或需求。
例如,本发明可操作于多种其它通用或专用计算消费电子装置、网络PC、小型计算机、大型计算机、膝上型计算机、以及包括上述系统或装置中的任一个的分布式计算环境等等。
可以在被计算机执行的诸如程序模块之类的计算机可执行指令的一般上下文中描述本发明。通常,程序模块包括执行特定任务或者实现特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和结构等。本发明可以在分布式计算环境中实施,在分布式计算环境中,任务由通过通信网络链接的远程处理装置执行。在分布式计算环境中,程序模块位于包括存储储存装置的本地和远程计算机储存介质二者中。在下文中并且借助附图描述由程序和模块执行的任务。本领域技术人员可以将说明书和附图实施为处理器可执行指令,所述指令可以被编写在任何形式的计算机可读介质上。
在一个实施例中,参考图1,系统10包括服务器装置12,该服务器装置12被配置成包括:诸如中央处理单元(“CPU”)之类的处理器14、随机存取存储器(“RAM”)16、一个或多个诸如显示装置(未示出)和键盘(未示出)之类的输入-输出装置18、以及非易失性存储器20,它们全部经由公共总线22互连并由处理器14控制。。
如图1示例中所示,在一个实施例中,非易失性存储器20被配置成包括用于从一个或多个源识别实体的识别模块24。所识别的实体可以包括但不限于:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题代码、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素和分类代码。还提供了关联模块26,用于计算实体之间的关联的重要性分数,所述重要性分数是第二实体对于第一实体的重要性级别的指示。
在一个实施例中,提供了情境模块28,用于确定所识别的实体通常被引用或提及的情境(例如,情形、背景),提供了用于对所识别的实体进行集群(例如,分类)的集群模块30以及用于产生和传送与所计算的重要性分数相关联的信号的信号模块31。结合图2、3和4讨论这些模块24、26、28、30和32的附加细节。
如图1中所示,在一个实施例中,提供了网络32,网络32可以包括各种装置,诸如以内联网、外联网或互联网配置连接的路由器、服务器和交换元件。在一个实施例中,网络32使用有线通信来在访问装置(未示出)、服务器装置12和数据储存器34之间传输信息。在另一个实施例中,网络32采用无线通信协议来在访问装置、服务器装置12和数据储存器34之间传输信息。在另外其他实施例中,网络32采用有线和无线技术的组合来在访问装置、服务器装置12和数据储存器34之间传输信息。
数据储存器34是维护和存储前述模块24、26、28、30和31所利用的信息的储存库。在一个实施例中,数据储存器34是关系数据库。在另一个实施例中,数据储存器34是诸如轻型目录访问协议(“LDAP”)之类的目录服务器。在又一个实施例中,数据储存器34是服务器12的非易失性存储器20的区域。
在一个实施例中,如图1示例中所示,在一个实施例中,数据储存器34包括用于识别一个或多个实体的文档组36。如此处所使用的那样,词语“组”是指从空集到多元素集合的任何集合。文档组36可以包括但不限于:一篇或多篇论文、备忘录、专著(treatise)、新闻报道、文章、目录、组织和法律文档、研究、历史文档、政策和程序、商业文档及其组合。在另一个实施例中,数据储存器34包括用于识别一个或多个实体的结构化数据储存器,诸如关系或层级数据库。在又一个实施例中,使用文档组和结构化数据储存器来识别一个或多个实体。
提供了关联准则组38,其包括被关联模块26用来计算实体之间的所识别的关系的重要性分数的列联表。在一个实施例中,列联表与被关联模块26用来计算重要性分数的兴趣度度量的组相关联。结合图4示出了兴趣度度量的示例连同每个相应公式。
数据储存器34还包括实体对组40。被包括在实体对组40中的每个对表示存在于至少两个所识别的实体之间的已知关系。在一个实施例中,由专家在检查了所述文档组36中的一个文档后识别所述关系。在另一个实施例中,使用情境模块28中包括的计算机算法从一个或多个文档组36识别所述关系。例如,在检查了新闻报道后,专家和/或情境模块28可以识别出现在同一新闻报道中的两个实体的存在。
如图1中所示,在一个实施例中,还提供了情境对组42。情境对组42中的每个对表示存在于至少两个实体之间的情境。例如,无论何时在新闻报道中讨论特定主题或项,这两个实体也在同一新闻报道中被提及。类似于先前讨论的实体对组40,情境对组也可以由专家识别,或者由被包括在情境模块28中的计算机算法识别。在下文中更详细地讨论关于数据储存器34中包括的信息的附加细节。
尽管图1中所示的数据储存器34连接到网络32,但是本领域技术人员将理解,数据储存器34和/或其中所示的任何信息可以分布在各种服务器上且对服务器12来说可经由网络32访问,直接耦合到服务器12,或者被配置在服务器12的非易失性存储器20的区域中。
此外,应当注意,图1中所示的系统10仅是本公开的一个实施例。本公开的其它系统实施例可以包括未示出的附加结构,诸如辅助储存器和附加计算装置。此外,本公开的各种其它实施例包括比图1中所示的那些更少的结构。例如,在一个实施例中,本公开以非联网的独立配置在单个计算装置上实施。经由诸如键盘和/或鼠标之类的输入装置将数据输入和请求传递到计算装置。从计算装置将系统的数据输出(诸如,所计算的重要性分数)传递给诸如计算机监视器之类的显示装置。
现在转到图2,公开了用于确定实体之间的连接重要性的示例方法。如图2示例中所示,在步骤44,识别模块24首先产生有向图来表示在文档组36中的每个文档中识别的实体。在一个实施例中,识别模块24确定文档组36中的每个文档中的每个实体的频率和同现,并且然后产生列联表来记录和确定关联。所述文档组可以是:结构化文档,包括但不限于可扩展标记语言(XML)文件;以及非结构化文档,包括但不限于文章和新闻报道。如前所述,本发明不限于仅使用文档组来识别实体。例如,本发明可以单独地或与文档组相结合地使用包括但不限于关系和层级数据库的结构化数据储存器,来识别实体。
此外,将理解,本发明不限于有向图实现,并且,能够对实体关系进行建模的其它计算机实现的数据结构可以与本发明一起使用,诸如混合图和多重图。
结合图3示出了由识别模块24产生的示例性有向图的示意图。该图的每个节点60、62、64、66、68、70和72表示从所述文档组中的一个或多个文档识别的实体,并且每个节点的顶点(例如,边)表示实体之间的关联(例如,关系)。例如,如图3示例中所示,实体A 60具有与实体B 62的第一关联60A以及与实体B 62的第二关联60B,所述第一关联60A指示实体B62对于实体A 60的重要性级别,所述第二关联60B指示实体A 60对于实体B 62的重要性级别。
再次参考图2,在步骤46,识别模块24接下来从所述有向图识别第一实体和至少一个第二实体。在一个实施例中,第一实体被包括在用户请求中,并且第二实体由识别模块24使用所产生的图的深度优先搜索来确定。在另一个实施例中,识别模块24在所述图的每个节点(例如第一实体)上使用深度优先搜索以确定至少一个其它节点(例如第二实体)。
接下来,在步骤48,一旦识别了第一实体和第二实体,则关联模块26将多个关联准则38应用于第一实体和第二实体之间的关联之一。所述多个关联准则38包括但不限于以下准则组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素。一旦应用了关联准则,则关联模块28将准则值指派给每个关联准则。
例如,在一个实施例中,关联模块26可以将兴趣度准则应用于第一关联。兴趣度准则对于本领域技术人员来说是已知的,并作为一般性概念可以强调在数据组中的实体之间检测到的模式(例如关系)的简明性、覆盖范围、可靠性、独特性、多样性、新颖性、意外性、实用性和可行动性。在一个实施例中,兴趣度准则被关联模块26应用于从文档组36识别的所有关联,并可以包括但不限于以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。一旦将兴趣度准则应用于第一关联,则关联模块26基于兴趣度度量给兴趣度准则指派值。
结合图4示出了关联模块26所使用的具有所附公式的示例兴趣度度量的列表。如图4示例中所示,兴趣度度量之一包括对分别由图4中的A和B表示的实体对之间的线性相依性的程度进行度量的相关系数(Φ-系数)。该相关系数由两个实体之间的协方差除以它们的标准差来定义。相关系数在实体A和实体B独立时等于零(0),并可以在从负一(-1)到正一(+1)的范围内变化。
在一个实施例中,关联模块26将最近兴趣度准则应用于第一关联。最近兴趣度准则可以由关联模块26应用于从文档组36的一部分和/或结构化数据储存器的一部分识别的关联。该部分可以与可配置预定时间间隔相关联。例如,关联模块26可以将最近兴趣度准则仅应用于从不早于六(6)个月前的文档确定的实体之间的关联。类似于前述兴趣度准则,最近兴趣度准则可以包括但不限于以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。一旦将最近兴趣度准则应用于第一关联,则关联模块26基于兴趣度度量给最近兴趣度准则指派值。
关联模块26可以将确认准则应用于第一关联。在一个实施例中,关联模块26确定第一实体和第二实体是否作为实体对共同存在于实体对组40中。如前所述,在实体对组40中定义的每个实体对先前可以被识别为彼此有关系。基于所述确定,关联模块26给确认准则指派值,该值指示第一实体和第二实体是否作为成对实体存在于实体对组40中。
关联模块26可以将共享近邻准则应用于第一关联。在一个实施例中,关联模块26确定具有从第一实体和第二实体延伸预定距离的边的实体子集。所述实体子集表示与第一和第二实体相邻的节点的交集。然后,关联模块26至少部分基于被包括在所述实体子集中的实体的数量计算关联值,并基于所计算的关联值给共享近邻准则指派值。
例如,参考图3并且假设图中实体之间的预定距离(例如,跳)为一(1),则实体A 60与实体B 62之间的共享实体(例如,相邻实体)是实体C 64和实体D,导致计算的关联值为二(2),该关联值被指派给共享近邻准则。如图3示例中所示,实体E 68和实体F 70与实体A 60的距离大于该预定距离,并且实体G 72与实体B 62的距离大于该预定距离。
再次参考图2,在步骤48,关联模块26可以将时间重要性准则应用于第一关联。在一个实施例中,关联模块26将兴趣度准则应用于如文档组的第一部分和/或结构化数据储存器的第一部分确定的第一关联。所述第一部分与第一时间间隔相关联。然后,关联模块26将兴趣度准则应用于如文档组的第二部分和/或结构化数据储存器的第二部分确定的第一关联。所述第二部分与不同于所述第一时间间隔的第二时间间隔相关联。所述兴趣度准则可以包括但不限于以下兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K)。
一旦应用了时间重要性准则,则关联模块26确定与第一时间间隔相关联的第一兴趣度度量和与第二时间间隔相关联的第二兴趣度度量之间的差值。然后,关联模块26基于所确定的差值给所述时间重要性准则指派值。
关联模块26可以将情境一致性准则应用于所述第一关联。在一个实施例中,关联模块26确定在文档组36中的每个文档的情境中第一实体和第二实体出现的频率。所述情境包括但不限于:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。然后,关联模块26基于所确定的频率给所述情境一致性准则指派值。
关联模块26还可以将最近活动准则应用于所述第一关联。例如,在一个实施例中,关联模块26计算第一实体和第二实体在文档组36中的一个文档和/或所述结构化数据储存器中出现的出现率的平均值。然后,关联模块26将所计算的出现率的平均值与总体出现率平均值相比较,该总体出现率平均值与同一地理或商业中的其它实体相关联。一旦完成了比较,关联模块26就基于所述比较给最近活动准则指派值。在各种实施例中,季节性地调整所计算的出现率平均值和/或总体出现率平均值。
关联模块26还可以将当前集群准则应用于所述第一关联。在一个实施例中,使用集群模块30将所识别的实体集群到一起。集群模块30可以实施本领域中已知的任何集群算法。一旦实体被集群,则关联模块26确定包括第一实体和第二实体的集群的数量。然后,关联模块26将所确定的集群数量与包括来自情境对组42的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较。在一个实施例中,所定义的情境是可应用于第一实体和第二实体二者的产业或地理。然后,关联模块26基于所述比较给所述当前集群准则指派值。
关联模块26还可以将意外元素准则应用于所述第一关联。在一个实施例中,关联模块26比较下述两个情境,在一个情境中,第一实体和第二实体在与文档组的一部分和/或结构化数据储存器的一部分相关联的先前时间间隔中出现,在另一个情境中,第一实体和第二实体在与文档组和/或结构化数据储存器的不同部分相关联的后续时间间隔中出现。然后,关联模块26基于所述比较给所述意外元素准则指派值。
参考图2,一旦将所述多个准则应用于第一关联,则在步骤50,关联模块26对被指派给第一关联的所述多个准则值中的每一个进行加权。在一个实施例中,关联模块26将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个,并且然后对所述多个相乘后的准则值求和以计算重要性分数。如前所讨论,重要性分数指示第二实体对于第一实体的重要性级别。在另一个实施例中,关联模块26将与所述多个准则中的每一个相关联的预定义系统值相乘,并且然后对所述多个相乘后的准则值求和以计算重要性分数。
一旦计算了重要性分数,则在步骤54,信号模块32产生包括所计算的重要性分数的信号。最后,在步骤56,信号模块32传送所产生的信号。在一个实施例中,信号模块32响应于接收到的请求传送所产生的信号。
所述系统的各种特征可以以硬件、软件或硬件和软件的组合实现。例如,所述系统的一些特征可以以在可编程计算机上执行的一个或多个计算机程序实现。每个程序可以以高级过程或面向对象的编程语言实现,以与计算机系统或其它机器通信。此外,每个这种计算机程序可以存储在诸如可由通用或专用可编程计算机或处理器读取的只读存储器(ROM)之类的储存介质上,以用于配置和操作所述计算机来执行上述功能。

Claims (37)

1.一种计算实体之间的重要性的方法,包括:
从在文档内显现的多个实体自动地识别第一实体和第二实体,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;
自动地产生表示所述第一实体与所述第二实体之间存在的情境关系的情境对组;
至少部分地基于所述第一实体和所述第二实体在所述文档内的出现率和同现以及基于所述情境对组,自动地确定所述第一关联和所述第二关联;
将关联准则组指派给所述第一关联,并针对所述关联准则组确定多个准则值,所述关联准则组选自实质上由以下各项构成的群组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素;
对被指派给所述第一关联的多个准则值进行加权;
基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别,其中所述重要性分数表示所述第一实体与所述第二实体之间的情境关系的量化;
产生与所计算的重要性分数相关联的信号;以及
传送所述信号。
2.根据权利要求1所述的方法,其中:所述多个实体包括以下各项中的一个或多个的表示:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。
3.根据权利要求2所述的方法,包括:从文档组或结构化数据储存器或其组合识别所述多个实体。
4.根据权利要求3所述的方法,还包括:使用计算机实现的数据结构在计算机存储器中表示所述多个实体。
5.根据权利要求4所述的方法,其中:所述计算机实现的数据结构是有向图,其中所述有向图的顶点表示所述多个实体,并且所述有向图的边表示所述多个实体中每一个之间的关联。
6.根据权利要求5所述的方法,包括:
向所述第一关联应用兴趣度准则,其中所述兴趣度准则包括下述兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);以及
基于所述一个兴趣度度量给所述多个准则值之一指派值。
7.根据权利要求5所述的方法,包括:
使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则,所述部分与可配置预定时间间隔以及下述兴趣度度量之一相关联:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);以及
基于所述一个关联度量给所述多个准则值之一指派值。
8.根据权利要求5所述的方法,包括:
向所述第一关联应用确认准则,其中应用确认准则包括确定是否所述第一实体和第二实体作为实体对共同存在于预定义对组中,所述预定义实体对中的每一对标识所述第一实体与所述第二实体之间的已知关系;以及
基于所述确定给所述多个准则值之一指派值。
9.根据权利要求5所述的方法,包括:
向所述第一关联应用共享近邻准则,其中应用共享近邻准则包括确定具有从所述第一实体和所述第二实体延伸预定距离的边的实体子集,所述实体子集表示与所述第一实体和所述第二实体相邻的节点的交集;以及至少部分地基于被包括在所述实体子集中的实体的数量计算关联值;以及
基于所计算的关联值给所述多个准则值之一指派值。
10.根据权利要求5所述的方法,包括:
向所述第一关联应用时间重要性准则,其中应用时间重要性准则包括使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则,所述第一部分与第一时间间隔相关联,所述第二部分与第二时间间隔相关联,所述第一时间间隔不同于所述第二时间间隔,所述兴趣度准则包括下述兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);
确定第一关联度量与第二关联度量之间的差值,所述第一关联度量与所述第一时间间隔相关联,所述第二关联度量与所述第二时间间隔相关联;以及
基于所确定的差值给所述多个准则值之一指派值。
11.根据权利要求5所述的方法,包括:
向所述第一关联应用情境一致性准则,其中应用所述情境一致性准则包括确定所述第一实体和所述第二实体在情境中出现的频率,所述情境与下述各项之一相关联:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素和分类代码;以及
基于所确定的频率给所述多个准则值之一指派值。
12.根据权利要求5所述的方法,包括:
将所述最近活动准则应用于所述第一关联,其中应用所述最近活动准则包括计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值;
将所计算的出现率的平均值与总体出现率平均值相比较,该总体出现率平均值与同一地理或商业中的其它实体相关联;以及
基于所述比较给所述多个准则值之一指派值。
13.根据权利要求12所述的方法,包括:季节性地调整所计算的出现率平均值和所述总体出现率平均值。
14.根据权利要求5所述的方法,包括:
向所述第一关联应用当前集群准则,其中应用当前集群准则包括确定包括所述第一实体和所述第二实体的集群的数量;
将集群的数量与包括与所定义的情境相关联的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较,所定义的情境包括可应用于所述第一实体和所述第二实体的产业或地理;以及
基于所述比较给所述多个准则值之一指派值。
15.根据权利要求14所述的方法,包括:使用集群算法对所述多个实体进行集群。
16.根据权利要求5所述的方法,包括:
向所述第一关联应用意外元素准则,其中应用意外元素准则包括比较第一情境与第二情境,在第一情境中,第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现,在第二情境中,第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现;以及
基于所述比较给所述多个准则值之一指派值。
17.根据权利要求1所述的方法,其中:对所述多个准则值进行加权包括:
将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个;以及
对所述多个相乘后的准则值求和。
18.根据权利要求1所述的方法,包括:响应于请求,传送包括所计算的重要性分数的所产生的信号。
19.一种计算实体之间的重要性的系统,包括:
数据储存库,其包括结构化数据储存器和文档组之一,所述数据储存库包括多个实体;
服务器,其包括处理器和存储器,所述存储器存储响应于接收到对服务进行访问的请求而使所述处理器执行以下操作的指令:
从在文档内显现的多个实体自动地识别第一实体和第二实体,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;
自动地产生表示所述第一实体与所述第二实体之间存在的情境关系的情境对组;
至少部分地基于所述第一实体和所述第二实体在所述文档内的出现率和同现以及基于所述情境对组,自动地确定所述第一关联和所述第二关联;
将关联准则组指派给所述第一关联,并针对所述关联准则组确定多个准则值,所述关联准则组选自实质上由以下各项构成的群组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素;
对被指派给所述第一关联的多个准则值进行加权;
基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别,其中所述重要性分数表示所述第一实体与所述第二实体之间的情境关系的量化;
产生与所计算的重要性分数相关联的信号;以及
响应于所述请求传送所述信号。
20.根据权利要求19所述的系统,其中:所述多个实体包括以下各项中的一个或多个的表示:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合。
21.根据权利要求20所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:从文档组或结构化数据储存器识别所述多个实体。
22.根据权利要求21所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:使用计算机实现的数据结构在存储器中表示所述多个实体。
23.根据权利要求22所述的系统,其中:所述计算机实现的数据结构是有向图,其中所述有向图的顶点表示所述多个实体,并且所述有向图的边表示所述多个实体中每一个之间的关联。
24.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用兴趣度准则,其中所述兴趣度准则包括下述兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);以及
基于所述一个关联度量给所述多个准则值之一指派值。
25.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用最近兴趣度准则,其中使用所述结构化数据储存器和所述文档组中的至少一个的一部分向所述第一关联应用最近兴趣度准则,所述部分与可配置预定时间间隔以及下述兴趣度度量之一相关联:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);以及
基于所述一个关联度量给所述多个准则值之一指派值。
26.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用确认准则,其中所述处理器确定是否所述第一实体和所述第二实体作为实体对共同存在于预定义对组中,所述预定义实体对中的每一对标识所述第一实体与所述第二实体之间的已知关系;以及
基于所述确定给所述多个准则值之一指派值。
27.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用共享近邻准则,其中所述处理器确定具有从所述第一实体和所述第二实体延伸预定距离的边的实体子集,以及至少部分地基于被包括在所述实体子集中的实体的数量计算关联值,所述实体子集表示与所述第一实体和所述第二实体相邻的节点的交集;以及
基于所计算的关联值给所述多个准则值之一指派值。
28.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用时间重要性准则,其中所述处理器使用所述结构化数据储存器和所述文档组中的至少一个的第一部分以及所述结构化数据储存器和所述文档组中的所述至少一个的第二部分来应用兴趣度准则,所述第一部分与第一时间间隔相关联,所述第二部分与第二时间间隔相关联,所述第二时间间隔不同于所述第一时间间隔,并且所述兴趣度准则包括下述兴趣度度量之一:相关系数、古德曼-克鲁斯凯的lambda(λ)、优势比(α)、尤尔的Q、尤尔的Y、卡帕 (κ)、交互信息(M)、J-度量(J)、基尼指数(G)、支持度(s)、置信度(c)、拉普拉斯 (L)、确信度(V)、兴趣(I)、余弦(IS)、皮亚特斯基-夏皮罗的(PS)、确定性因子(F)、增加值(AV)、收集强度(S)、杰卡德指数以及克洛斯根(K);
确定第一关联度量与第二关联度量之间的差值,所述第一关联度量与所述第一时间间隔相关联,所述第二关联度量与所述第二时间间隔相关联;以及
基于所确定的差值给所述多个准则值之一指派值。
29.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用情境一致性准则,其中所述处理器确定所述第一实体和所述第二实体在所述文档组中的每一个文档的情境中出现的频率,所述情境与下述各项之一相关联:组织、人、产品、产业、地理、商品、金融指标、经济指标、事件、主题、科目代码、唯一标识符、社会标签、产业项目、一般项目、元数据元素、分类代码及其组合;
基于所确定的频率给所述多个准则值之一指派值。
30.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
将所述最近活动准则应用于所述第一关联,其中所述处理器计算所述第一实体和所述第二实体在所述结构化数据储存器和所述文档组中的至少一个中出现的出现率的平均值;
将所计算的出现率的平均值与总体出现率平均值相比较,该总体出现率平均值与同一地理或商业中的其它实体相关联;以及
基于所述比较给所述多个准则值之一指派值。
31.根据权利要求30所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:季节性地调整所计算的出现率平均值和所述总体出现率平均值。
32.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用当前集群准则,其中所述处理器确定包括所述第一实体和所述第二实体的集群的数量;
将集群的数量与包括与所定义的情境相关联的实体对且不包括第一实体和第二实体作为实体对之一的集群的平均数量相比较,所定义的情境包括可应用于所述第一实体和所述第二实体的产业或地理;以及
基于所述比较给所述多个准则值之一指派值。
33.根据权利要求32所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:使用集群算法对所述多个实体进行集群。
34.根据权利要求23所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
向所述第一关联应用意外元素准则,其中所述处理器比较第一情境与第二情境,在第一情境中,第一实体和第二实体在与结构化数据储存器和文档组中的至少一个的一部分相关联的先前时间间隔中出现,在第二情境中,第一实体和第二实体在与结构化数据储存器和文档组中的所述至少一个的不同部分相关联的后续时间间隔中出现;以及
基于所述比较给所述多个准则值之一指派值。
35.根据权利要求19所述的系统,其中:所述存储器存储响应于接收到所述请求而使所述处理器执行以下操作的指令:
将与所述多个准则中的每一个相关联的用户可配置值乘以所述多个准则值中的每一个;以及
对所述多个加权的准则值求和。
36.根据权利要求19所述的系统,其中:所述数据储存库包括所述文档组和所述结构化数据储存器。
37.一种计算实体之间的重要性的设备,包括:
用于从在文档内显现的多个实体自动地识别第一实体和第二实体的装置,所述第一实体具有与所述第二实体的第一关联,并且所述第二实体具有与所述第一实体的第二关联;
用于自动地产生表示所述第一实体与所述第二实体之间存在的情境关系的情境对组的装置;
用于至少部分地基于所述第一实体和所述第二实体在所述文档内的出现率和同现以及基于所述情境对组,自动地确定所述第一关联和所述第二关联的装置;
用于将关联准则组指派给所述第一关联并针对所述关联准则组确定多个准则值的装置,所述关联准则组选自实质上由以下各项构成的群组:兴趣度、最近兴趣度、确认、共享近邻、时间重要性、情境一致性、最近活动、当前集群和意外元素;
用于对被指派给所述第一关联的多个准则值进行加权的装置;
用于基于所述第一关联的多个加权的准则值之和计算所述第一实体相对于所述第二实体的重要性分数的装置,所述重要性分数指示所述第二实体对于所述第一实体的重要性级别,其中所述重要性分数表示所述第一实体与所述第二实体之间的情境关系的量化;
用于产生与所计算的重要性分数相关联的信号的装置;以及
用于传送所述信号的装置。
CN201280019647.8A 2011-02-22 2012-02-21 计算实体之间的重要性的方法、系统和设备 Active CN104025130B (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161445236P 2011-02-22 2011-02-22
US61/445,236 2011-02-22
US61/445236 2011-02-22
US13/107,665 2011-05-13
US13/107665 2011-05-13
US13/107,665 US9495635B2 (en) 2011-02-22 2011-05-13 Association significance
PCT/US2012/025937 WO2012115962A1 (en) 2011-02-22 2012-02-21 Association significance

Publications (2)

Publication Number Publication Date
CN104025130A CN104025130A (zh) 2014-09-03
CN104025130B true CN104025130B (zh) 2018-07-20

Family

ID=46653595

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201280019651.4A Active CN103782309B (zh) 2011-02-22 2012-02-21 用于机器学习分类器的自动数据清除
CN201280019647.8A Active CN104025130B (zh) 2011-02-22 2012-02-21 计算实体之间的重要性的方法、系统和设备

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201280019651.4A Active CN103782309B (zh) 2011-02-22 2012-02-21 用于机器学习分类器的自动数据清除

Country Status (4)

Country Link
US (3) US8626682B2 (zh)
EP (2) EP2678808A1 (zh)
CN (2) CN103782309B (zh)
WO (2) WO2012115958A2 (zh)

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10999298B2 (en) 2004-03-02 2021-05-04 The 41St Parameter, Inc. Method and system for identifying users and detecting fraud by use of the internet
US11301585B2 (en) 2005-12-16 2022-04-12 The 41St Parameter, Inc. Methods and apparatus for securely displaying digital images
US8151327B2 (en) 2006-03-31 2012-04-03 The 41St Parameter, Inc. Systems and methods for detection of session tampering and fraud prevention
US9112850B1 (en) 2009-03-25 2015-08-18 The 41St Parameter, Inc. Systems and methods of sharing information through a tag-based consortium
US9015082B1 (en) * 2010-12-14 2015-04-21 Symantec Corporation Data quality assessment for vector machine learning
US9094291B1 (en) 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US8682814B2 (en) 2010-12-14 2014-03-25 Symantec Corporation User interface and workflow for performing machine learning
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US10754913B2 (en) * 2011-11-15 2020-08-25 Tapad, Inc. System and method for analyzing user device information
US8856130B2 (en) * 2012-02-09 2014-10-07 Kenshoo Ltd. System, a method and a computer program product for performance assessment
US9633201B1 (en) 2012-03-01 2017-04-25 The 41St Parameter, Inc. Methods and systems for fraud containment
US9521551B2 (en) 2012-03-22 2016-12-13 The 41St Parameter, Inc. Methods and systems for persistent cross-application mobile device identification
US9116982B1 (en) * 2012-04-27 2015-08-25 Google Inc. Identifying interesting commonalities between entities
EP2880619A1 (en) 2012-08-02 2015-06-10 The 41st Parameter, Inc. Systems and methods for accessing records via derivative locators
US11126720B2 (en) * 2012-09-26 2021-09-21 Bluvector, Inc. System and method for automated machine-learning, zero-day malware detection
WO2014078569A1 (en) 2012-11-14 2014-05-22 The 41St Parameter, Inc. Systems and methods of global identification
US9146980B1 (en) 2013-06-24 2015-09-29 Google Inc. Temporal content selection
US10902327B1 (en) 2013-08-30 2021-01-26 The 41St Parameter, Inc. System and method for device identification and uniqueness
US20150088798A1 (en) * 2013-09-23 2015-03-26 Mastercard International Incorporated Detecting behavioral patterns and anomalies using metadata
US11094015B2 (en) 2014-07-11 2021-08-17 BMLL Technologies, Ltd. Data access and processing system
US10091312B1 (en) 2014-10-14 2018-10-02 The 41St Parameter, Inc. Data structures for intelligently resolving deterministic and probabilistic device identifiers to device profiles and/or groups
US10649740B2 (en) * 2015-01-15 2020-05-12 International Business Machines Corporation Predicting and using utility of script execution in functional web crawling and other crawling
US10891383B2 (en) 2015-02-11 2021-01-12 British Telecommunications Public Limited Company Validating computer resource usage
CN104615442A (zh) * 2015-02-13 2015-05-13 广东欧珀移动通信有限公司 控件使用统计表的更新方法和装置、软件调整方法和装置
WO2017021155A1 (en) 2015-07-31 2017-02-09 British Telecommunications Public Limited Company Controlled resource provisioning in distributed computing environments
EP3329408A1 (en) 2015-07-31 2018-06-06 British Telecommunications public limited company Expendable access control
EP3329409A1 (en) 2015-07-31 2018-06-06 British Telecommunications public limited company Access control
WO2017032427A1 (en) 2015-08-27 2017-03-02 Longsand Limited Identifying augmented features based on a bayesian analysis of a text document
GB201517462D0 (en) * 2015-10-02 2015-11-18 Tractable Ltd Semi-automatic labelling of datasets
US10062084B2 (en) * 2015-10-21 2018-08-28 International Business Machines Corporation Using ontological distance to measure unexpectedness of correlation
US11200466B2 (en) * 2015-10-28 2021-12-14 Hewlett-Packard Development Company, L.P. Machine learning classifiers
US20170206904A1 (en) * 2016-01-19 2017-07-20 Knuedge Incorporated Classifying signals using feature trajectories
US10878341B2 (en) * 2016-03-18 2020-12-29 Fair Isaac Corporation Mining and visualizing associations of concepts on a large-scale unstructured data
US11023248B2 (en) 2016-03-30 2021-06-01 British Telecommunications Public Limited Company Assured application services
WO2017167545A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Network traffic threat identification
WO2017167547A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Cryptocurrencies malware based detection
WO2017167549A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Untrusted code distribution
WO2017167544A1 (en) 2016-03-30 2017-10-05 British Telecommunications Public Limited Company Detecting computer security threats
WO2017176749A1 (en) * 2016-04-05 2017-10-12 Thomson Reuters Global Resources Unlimited Company Self-service classification system
US20170364519A1 (en) * 2016-06-15 2017-12-21 International Business Machines Corporation Automated Answer Scoring Based on Combination of Informativity and Specificity Metrics
US20170364804A1 (en) * 2016-06-15 2017-12-21 International Business Machines Corporation Answer Scoring Based on a Combination of Specificity and Informativity Metrics
US10657482B2 (en) 2016-06-16 2020-05-19 Adp, Llc Dynamic organization structure model
US10607142B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Responding to user input based on confidence scores assigned to relationship entries in a knowledge graph
US10606849B2 (en) * 2016-08-31 2020-03-31 International Business Machines Corporation Techniques for assigning confidence scores to relationship entries in a knowledge graph
CN108121737B (zh) * 2016-11-29 2022-04-26 阿里巴巴集团控股有限公司 一种业务对象属性标识的生成方法、装置和系统
US20180165604A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs A Montana Systems and methods for automating data science machine learning analytical workflows
US11003716B2 (en) 2017-01-10 2021-05-11 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data
WO2018178034A1 (en) 2017-03-30 2018-10-04 British Telecommunications Public Limited Company Anomaly detection for computer systems
EP3382591B1 (en) 2017-03-30 2020-03-25 British Telecommunications public limited company Hierarchical temporal memory for expendable access control
US11586751B2 (en) 2017-03-30 2023-02-21 British Telecommunications Public Limited Company Hierarchical temporal memory for access control
EP3622450A1 (en) 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Management of interoperating machine leaning algorithms
WO2018206407A1 (en) * 2017-05-08 2018-11-15 British Telecommunications Public Limited Company Autonomous logic modules
EP3622447A1 (en) * 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Interoperation of machine learning algorithms
US11562293B2 (en) 2017-05-08 2023-01-24 British Telecommunications Public Limited Company Adaptation of machine learning algorithms
EP3622446A1 (en) * 2017-05-08 2020-03-18 British Telecommunications Public Limited Company Load balancing of machine learning algorithms
US10489722B2 (en) * 2017-07-27 2019-11-26 Disney Enterprises, Inc. Semiautomatic machine learning model improvement and benchmarking
US10929383B2 (en) * 2017-08-11 2021-02-23 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
US10585933B2 (en) 2017-08-16 2020-03-10 International Business Machines Corporation System and method for classification of low relevance records in a database using instance-based classifiers and machine learning
US11619761B2 (en) * 2017-09-12 2023-04-04 Schlumberger Technology Corporation Dynamic representation of exploration and/or production entity relationships
US11574287B2 (en) 2017-10-10 2023-02-07 Text IQ, Inc. Automatic document classification
US10162850B1 (en) 2018-04-10 2018-12-25 Icertis, Inc. Clause discovery for validation of documents
CA3197098A1 (en) * 2018-06-19 2019-12-26 Thomson Reuters Enterprise Centre Gmbh Systems and methods for determining structured proceeding outcomes
US11144581B2 (en) * 2018-07-26 2021-10-12 International Business Machines Corporation Verifying and correcting training data for text classification
US11120367B2 (en) * 2018-07-30 2021-09-14 International Business Machines Corporation Validating training data of classifiers
CN109635029B (zh) * 2018-12-07 2023-10-13 深圳前海微众银行股份有限公司 基于标签指标体系的数据处理方法、装置、设备及介质
US10936974B2 (en) 2018-12-24 2021-03-02 Icertis, Inc. Automated training and selection of models for document analysis
JP7261022B2 (ja) * 2019-01-30 2023-04-19 キヤノン株式会社 情報処理システム、端末装置及びその制御方法、プログラム、記憶媒体
US10726374B1 (en) 2019-02-19 2020-07-28 Icertis, Inc. Risk prediction based on automated analysis of documents
JP7148444B2 (ja) * 2019-03-19 2022-10-05 株式会社日立製作所 文分類装置、文分類方法及び文分類プログラム
US11270078B2 (en) 2019-05-18 2022-03-08 Exxonmobil Upstream Research Company Method and system for generating a surprisingness score for sentences within geoscience text
US11157777B2 (en) 2019-07-15 2021-10-26 Disney Enterprises, Inc. Quality control systems and methods for annotated content
CN110674840B (zh) * 2019-08-22 2022-03-25 中国司法大数据研究院有限公司 一种多方证据关联模型构建方法和证据链提取方法及装置
US11010606B1 (en) 2019-11-15 2021-05-18 Maxar Intelligence Inc. Cloud detection from satellite imagery
US11250260B2 (en) 2019-11-15 2022-02-15 Maxar Intelligence Inc. Automated process for dynamic material classification in remotely sensed imagery
US11386649B2 (en) 2019-11-15 2022-07-12 Maxar Intelligence Inc. Automated concrete/asphalt detection based on sensor time delay
US11556825B2 (en) * 2019-11-26 2023-01-17 International Business Machines Corporation Data label verification using few-shot learners
US11645579B2 (en) 2019-12-20 2023-05-09 Disney Enterprises, Inc. Automated machine learning tagging and optimization of review procedures
US11086891B2 (en) * 2020-01-08 2021-08-10 Subtree Inc. Systems and methods for tracking and representing data science data runs
JP2023521648A (ja) * 2020-04-03 2023-05-25 プレサーゲン プロプライアトリー リミテッド 人工知能(ai)モデルを訓練するためにデータをクリーニングするためのai方法
CN113762519A (zh) * 2020-06-03 2021-12-07 杭州海康威视数字技术股份有限公司 一种数据清洗方法、装置及设备
US11288115B1 (en) 2020-11-05 2022-03-29 International Business Machines Corporation Error analysis of a predictive model
US11568319B2 (en) * 2020-12-30 2023-01-31 Hyland Uk Operations Limited Techniques for dynamic machine learning integration
CN112463915B (zh) * 2021-02-02 2021-06-25 冠传网络科技(南京)有限公司 美妆产品社交媒体评论挖掘的方法、系统及存储介质
US11941020B2 (en) * 2021-02-26 2024-03-26 Micro Focus Llc Displaying query results using machine learning model-determined query results visualizations
US11361034B1 (en) 2021-11-30 2022-06-14 Icertis, Inc. Representing documents using document keys

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1170676A1 (de) * 2000-07-05 2002-01-09 Abb Research Ltd. Darstellung einer Informationsstruktur von Dokumenten des Word Wide Web
CN101268486A (zh) * 2004-08-12 2008-09-17 组合数据公司 联系信息市场
CN101490686A (zh) * 2005-10-18 2009-07-22 英特托拉斯技术公司 数字权利管理的方法

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5600831A (en) * 1994-02-28 1997-02-04 Lucent Technologies Inc. Apparatus and methods for retrieving information by modifying query plan based on description of information sources
US6862710B1 (en) * 1999-03-23 2005-03-01 Insightful Corporation Internet navigation using soft hyperlinks
US20070192863A1 (en) * 2005-07-01 2007-08-16 Harsh Kapoor Systems and methods for processing data flows
US7043661B2 (en) * 2000-10-19 2006-05-09 Tti-Team Telecom International Ltd. Topology-based reasoning apparatus for root-cause analysis of network faults
US6693651B2 (en) * 2001-02-07 2004-02-17 International Business Machines Corporation Customer self service iconic interface for resource search results display and selection
US20030046297A1 (en) 2001-08-30 2003-03-06 Kana Software, Inc. System and method for a partially self-training learning system
US7188117B2 (en) * 2002-05-17 2007-03-06 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
US6990485B2 (en) 2002-08-02 2006-01-24 Hewlett-Packard Development Company, L.P. System and method for inducing a top-down hierarchical categorizer
US6886010B2 (en) * 2002-09-30 2005-04-26 The United States Of America As Represented By The Secretary Of The Navy Method for data and text mining and literature-based discovery
US7451152B2 (en) * 2004-07-29 2008-11-11 Yahoo! Inc. Systems and methods for contextual transaction proposals
US20060117252A1 (en) * 2004-11-29 2006-06-01 Joseph Du Systems and methods for document analysis
JP4640591B2 (ja) 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
US20070067320A1 (en) * 2005-09-20 2007-03-22 International Business Machines Corporation Detecting relationships in unstructured text
US8903810B2 (en) * 2005-12-05 2014-12-02 Collarity, Inc. Techniques for ranking search results
US7739279B2 (en) * 2005-12-12 2010-06-15 Fuji Xerox Co., Ltd. Systems and methods for determining relevant information based on document structure
US7716217B2 (en) * 2006-01-13 2010-05-11 Bluespace Software Corporation Determining relevance of electronic content
ES2452735T3 (es) 2006-08-25 2014-04-02 Motorola Mobility Llc Método y sistema para la clasificación de datos utilizando un mapa auto-organizativo
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US20080195567A1 (en) * 2007-02-13 2008-08-14 International Business Machines Corporation Information mining using domain specific conceptual structures
KR20100015479A (ko) * 2007-03-12 2010-02-12 볼텍스 테크놀로지 서비스 리미티드 의도성 매칭
US8108417B2 (en) 2007-04-04 2012-01-31 Intertrust Technologies Corporation Discovering and scoring relationships extracted from human generated lists
CN101601038A (zh) * 2007-08-03 2009-12-09 松下电器产业株式会社 关联词语提示装置
CN101127029A (zh) * 2007-08-24 2008-02-20 复旦大学 用于在大规模数据分类问题中训练svm分类器的方法
JP5232449B2 (ja) * 2007-11-21 2013-07-10 Kddi株式会社 情報検索装置およびコンピュータプログラム
US8856182B2 (en) * 2008-01-25 2014-10-07 Avaya Inc. Report database dependency tracing through business intelligence metadata
US8082278B2 (en) * 2008-06-13 2011-12-20 Microsoft Corporation Generating query suggestions from semantic relationships in content
US8271422B2 (en) * 2008-11-29 2012-09-18 At&T Intellectual Property I, Lp Systems and methods for detecting and coordinating changes in lexical items
CN101770580B (zh) * 2009-01-04 2014-03-12 中国科学院计算技术研究所 一种跨领域的文本情感分类器的训练方法和分类方法
US8166032B2 (en) * 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
US8375032B2 (en) 2009-06-25 2013-02-12 University Of Tennessee Research Foundation Method and apparatus for predicting object properties and events using similarity-based information retrieval and modeling
JP2011013732A (ja) * 2009-06-30 2011-01-20 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US20110106807A1 (en) * 2009-10-30 2011-05-05 Janya, Inc Systems and methods for information integration through context-based entity disambiguation
US8762375B2 (en) * 2010-04-15 2014-06-24 Palo Alto Research Center Incorporated Method for calculating entity similarities
US8346776B2 (en) 2010-05-17 2013-01-01 International Business Machines Corporation Generating a taxonomy for documents from tag data
US9043360B2 (en) * 2010-12-17 2015-05-26 Yahoo! Inc. Display entity relationship
US8626682B2 (en) * 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1170676A1 (de) * 2000-07-05 2002-01-09 Abb Research Ltd. Darstellung einer Informationsstruktur von Dokumenten des Word Wide Web
CN101268486A (zh) * 2004-08-12 2008-09-17 组合数据公司 联系信息市场
CN101490686A (zh) * 2005-10-18 2009-07-22 英特托拉斯技术公司 数字权利管理的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Efficient Algorithms for Clustering and Classifying High Dimensional Text and Discretized Data using Interesting Patterns";Hassan H. Malik;《ProQuest欧美博硕士学位论文数据库》;20081231;第16页2.2、21页2.3.4,图17、表2 *
"面向零售业的关联规则挖掘的研究与实现";黄嘉满;《中国优秀硕士学位论文全文数据库信息科技辑》;20070615(第06期);第4页、8-10页2.4、16页2.2、21页2.3.4、第33-34页4.3、46页5.2、47页5.4.1、49页5.5.1、50页5.5.2 *

Also Published As

Publication number Publication date
CN104025130A (zh) 2014-09-03
US20170220674A1 (en) 2017-08-03
CN103782309B (zh) 2017-06-16
US10650049B2 (en) 2020-05-12
WO2012115958A2 (en) 2012-08-30
WO2012115962A1 (en) 2012-08-30
EP2678808A1 (en) 2014-01-01
US9495635B2 (en) 2016-11-15
WO2012115958A3 (en) 2012-10-18
CN103782309A (zh) 2014-05-07
US20120215777A1 (en) 2012-08-23
US8626682B2 (en) 2014-01-07
US20120215727A1 (en) 2012-08-23
EP2678806A2 (en) 2014-01-01

Similar Documents

Publication Publication Date Title
CN104025130B (zh) 计算实体之间的重要性的方法、系统和设备
Pamucar et al. Supplier selection in healthcare supply chain management during the COVID-19 pandemic: a novel fuzzy rough decision-making approach
Kharazishvili et al. The systemic approach for estimating and strategizing energy security: The case of Ukraine
US20220343432A1 (en) Machine learning architecture for risk modelling and analytics
Samvedi et al. Quantifying risks in a supply chain through integration of fuzzy AHP and fuzzy TOPSIS
Aslam et al. A combined deep learning and ensemble learning methodology to avoid electricity theft in smart grids
JP5960887B1 (ja) 算出装置、算出方法及び算出プログラム
Orlova Decision-making techniques for credit resource management using machine learning and optimization
AU2014232880A1 (en) Enhanced operational resiliency scoring using intelligence indicators
Kuzior et al. Global digital convergence: Impact of cybersecurity, business transparency, economic transformation, and AML efficiency
Alora et al. Development of a supply chain risk index for manufacturing supply chains
Jin et al. The industrial asymmetry of the stock price prediction with investor sentiment: Based on the comparison of predictive effects with SVR
CN102163304A (zh) 带有优化的域间信息质量评定的协作联网的方法和系统
Pandey et al. A fuzzy decision making approach for analogy detection in new product forecasting
Wanke et al. Revisiting camels rating system and the performance of Asean banks: a comprehensive mcdm/z-numbers approach
Kumar et al. Credit score prediction system using deep learning and k-means algorithms
Chaudhary et al. Comparative Analysis of Entropy Weight Method and C5 Classifier for Predicting Employee Churn
Zhu et al. TOPSIS method for quality credit evaluation: A case of air-conditioning market in China
Horváthová et al. Selected methods of predicting financial health of companies: neural networks versus discriminant analysis
Jiang et al. Research on intelligent prediction method of financial crisis of listed enterprises based on random forest algorithm
Lee et al. An entropy decision model for selection of enterprise resource planning system
Liu et al. Research on risk identification system based on random forest algorithm-high-order moment model
CN113095604B (zh) 产品数据的融合方法、装置、设备及存储介质
Qiang et al. Relationship model between human resource management activities and performance based on LMBP algorithm
Wu A comprehensive approach for the evaluation of the impact of blockchain on photovoltaic supply chain using hybrid data analytic method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Swiss Swiss

Applicant after: Thomsen Reuters global resources unlimited company

Address before: Swiss Swiss

Applicant before: Thomson Reuters Globle Resources

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant