CN117136366A - 基于变换器的模型知识图链接预测 - Google Patents
基于变换器的模型知识图链接预测 Download PDFInfo
- Publication number
- CN117136366A CN117136366A CN202280027738.XA CN202280027738A CN117136366A CN 117136366 A CN117136366 A CN 117136366A CN 202280027738 A CN202280027738 A CN 202280027738A CN 117136366 A CN117136366 A CN 117136366A
- Authority
- CN
- China
- Prior art keywords
- triples
- entities
- subset
- topic model
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 45
- 238000004590 computer program Methods 0.000 claims description 25
- 238000013473 artificial intelligence Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims 1
- 238000012549 training Methods 0.000 description 37
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 19
- 238000012360 testing method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 11
- 239000008186 active pharmaceutical agent Substances 0.000 description 8
- 238000007726 management method Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 7
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- SPBWHPXCWJLQRU-FITJORAGSA-N 4-amino-8-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-oxopyrido[2,3-d]pyrimidine-6-carboxamide Chemical compound C12=NC=NC(N)=C2C(=O)C(C(=O)N)=CN1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O SPBWHPXCWJLQRU-FITJORAGSA-N 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 102000054767 gene variant Human genes 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 150000007942 carboxylates Chemical class 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了用于使用基于变换器的人工神经网络来改进知识图(KG)链接预测的系统、产品和方法。对从包含多个第一三元组的KG导出的第一数据集利用第一主题模型。所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边。第一相似性函数被应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数。基于所述第一相似性分数,从所述多个第一三元组中选择一个或多个第一三元组的第一子集。使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络。
Description
背景技术
本实施例涉及改进基于人工神经网络的语言模型的性能,特别是基于变换器的模型,以用于与补充或完成知识图有关的预测。
人工智能(AI)涉及针对与人类相关的计算机和计算机行为的计算机科学领域。AI指的是当机器基于信息能够做出决定时的智能,这使得在给定主题中成功的机会最大化。更具体地,AI能够从数据集学习以解决问题并提供相关推荐。例如,在人工智能(AI)计算机系统领域中,自然语言系统(诸如IBM人工智能计算机系统或其他自然语言询问应答系统)基于系统获取的知识来处理自然语言。为了处理自然语言,可以用从数据库或知识语料库导出的数据来训练系统,但是由于多种原因,得到的结果可能是不正确的或不准确的。
作为AI的子集的机器学习(ML)利用算法从数据学习并基于该数据创建前瞻。AI指的是当机器基于信息能够做出决定时的智能,这使得在给定主题中成功的机会最大化。更具体地,AI能够从数据集学习以解决问题并提供相关推荐。认知计算是计算机科学和认知科学的混合。认知计算利用使用最小数据、视觉识别和自然语言处理的自教学算法来解决问题并优化人类过程。
AI和相关推理的核心在于相似性的概念。理解自然语言和客体的过程需要从可能具有挑战性的关系角度推理。结构(包括静态结构和动态结构)规定了针对给定的确定输入的所确定的输出或动作。更具体地,所确定的输出或动作基于结构内的明确或固有关系。依赖于足够的数据集来构建那些结构。这样的数据集的示例是使用图形结构的数据模型或拓扑来集成数据的知识图(KG)。
许多AI系统依赖于知识图(KG)作为用于执行诸如问答(QA)、语义搜索和作出推荐之类的任务的关键资源。KG表示通常由信息三元组(triples)(也称为三元组(triplets))组成的互连数据的集合或数据集。KG包括对实体的描述,所述实体由顶点或节点表示,通过关系或谓词链接或连接到彼此,所述关系或谓词由链接或连接KG中的顶点或节点的边表示。三元组的互连实体有时被称为具有由三元组的关系表示的关系的主体和客体。实体可包括例如现实世界客体、事件、情形或抽象概念。KG可以通过标识不同实体之间的关联来构造。KG已经发展到一些已知包括数百万甚至数十亿条目的程度。
一些KG与本体结合使用。本体包括实现会话的一个域、许多域或所有域的概念、数据和实体之间的类别、属性和关系的表示、形式命名和定义。每个领域创建本体以限制复杂性并将信息组织成数据和知识。当制作新本体时,它们的使用有希望地改进该域内的问题解决。
KG经常包含大量的事实信息,具有较不正式的语义。例如,基因组学域中的KG可以包括诸如基因、基因变体、药物和疾病的实体,并且可以指示实体之间的关系,诸如某些基因变体与特定疾病的关联。构建KG的传统方法需要作为主题专家的研究者研究新出版物以便发现实体之间的关系。虽然KG可以向研究者提供对实体的相互关系的了解,但是KG的手动组装和更新可能是相当复杂和耗时的。与KG相关出现的另一问题是包含在KG中的数据通常不完整。
另一方面,开放KG不需要预先指定的本体,使得开放KG具有高适应性。在开放KG中,同一潜在实体可由用不同名词短语(NP)标记的不同节点来表示。例如,实体‘美国总统’可以由第一节点“美国总统”和第二节点“总统”表示。类似地,在开放KG中,同一潜在关系可以由不同的关系短语(RP)来表示。例如,RP“出生在……”和“在……出生”是指同一基本关系。
可以通过使用链接预测模型从准备KG的过程中至少部分地去除主题专家(SME)。链接预测模型的目标是预测KG中缺失的实体(节点)或关系(边)。预测模型评估不存在于KG中的三元组的合理性以补充或完成KG。例如,链接预测可涉及回答标识主体和关系的查询,以预测缺失的客体。作为具体示例,链接预测可提供具有查询“第一夫人”作为主题以及“配偶”作为关系以标识“美国总统”作为客体的链接预测模型。在另一实施例中,KG可包括“第一夫人”与“美国总统”之间的链接,但可能缺乏“第一夫人”和“美国”之间的类似联系。在这个示例中,预测模型将标识表示实体第一夫人和美国总统(或“总统”)之间的关系的边,其中不完整的KG中缺少关系。
Liang Yao等人的KG-BERT:用于知识图完成的BERT,其通过引用并入本文,提出了使用预训练的语言模型,称为知识图来自变换的双向编码器表示(KG-BERT),来对三元组进行建模。Yao将BERT描述为在多层双向变换器编码器上构建的预训练的上下文语言表示模型。Yao说,三元组的实体和关系描述作为KG-BERT模型的文本序列输入被接收,并且KG-BERT计算三元组的评分函数。据说该方法实现了“三元组分类、关系预测和链接预测任务中的最新结果”。三元组分类旨在判断给定的主体-关系-客体(s,r,o)三元组是否正确。给定另一元素(客体或主体)和关系,链接预测预测缺失的元素(主体或客体),即(s,r,?)或(?,r,o)。关系预测旨在从主体和客体预测关系,即(s,?,o)。
然而,发明人已经发现与结合针对大数据集对预测模型的训练和使用的可缩放性相关联的主要技术问题。可以延长预测模型的训练、测试(或验证)和使用运行时间,尤其是在相关联的KG复杂的情况下,例如包含数百万或数十亿条目的KG。对于特别庞大的KG或数据集的训练和测试运行时间理论上可能花费数天、数月或者甚至数年,因此呈现出显著的技术问题。
发明内容
实施例包括用于自然语言处理(NLP)的系统、计算机程序产品和方法,该NLP包括针对提高语言模型(具体地,基于变换器的模型)在知识图链接预测和/或关系预测中的性能的NLP。
在一个方面,提供了一种系统,该系统具有可操作地耦合到存储器的处理单元,以及与处理单元和存储器通信的人工智能(AI)平台。AI平台配置有一个或多个工具以支持知识图的修改,其中工具包括主题模型管理器和机器学习管理器(MLM)。所述主题管理器被配置为对从包含多个第一三元组的知识图(KG)导出的第一数据集利用第一主题模型。所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边。所述主题模型还被配置为将第一相似性函数应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数;以及基于所述第一相似性分数,从所述多个第一三元组中选择一个或多个第一三元组的第一子集。所述MLM被配置为使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络。
在另一方面,提供了一种计算机程序产品。所述计算机程序产品包括计算机可读存储设备,所述计算机可读存储设备具有可由处理器执行的程序代码。所述程序代码可由所述处理器执行来对从包含多个第一三元组的知识图(KG)导出的第一数据集利用第一主题模型,所述多个第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边。所述程序代码还可由所述处理器执行以将第一相似性函数应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数;基于所述第一相似性分数从所述多个第一三元组中选择一个或多个第一三元组的第一子集;以及使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络(ANN)。
在又一方面,提供了一种方法,其中对从包含多个第一三元组的知识图(KG)导出的第一数据集利用第一主题模型。所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边。第一相似性函数被应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数。基于所述第一相似性分数,从所述多个第一三元组中选择或多个第一三元组的第一子集。使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络。
结合附图,从以下示例性实施方式的详细描述,这些和其他特征和优点将变得显而易见。
附图说明
本文所引用的附图形成说明书的一部分。除非另外指明,否则附图中所示的特征仅意味着对一些实施例的说明,而不是对所有实施例的说明。
图1描绘了系统示图,该系统示图示出了根据实施例的包括基于变换器的模型的系统的示意图。
图2描绘了示出根据实施例的图1中所示的工具及其相关联的API的框图。
图3描绘了示出涉及使用第一主题模型来选择训练集以训练人工神经网络(ANN)的方法的实施例的流程图。
图4描绘了示出涉及使用第二主题模型来选择用于经训练的ANN的使用或测试的候选集合的方法的实施例的流程图。
图5描绘了示出涉及例如与测试、验证或做出预测结合使用经训练的ANN的方法的实施例的流程图。
图6描绘了示出基于云的支持系统的计算机系统/服务器的示例的框图,该计算机系统/服务器用于实现以上关于图1-图5描述的系统和过程。
图7描绘了示出云计算机环境的框图。
图8描绘了示出由云计算环境提供的一组功能抽象模型层的框图。
具体实施方式
将容易理解的是,如在本文的附图中一般地描述和图示的,可以以各种各样的不同配置布置和设计本实施例的组件。由此,如附图中所呈现的本实施例的装置、系统、方法和计算机程序产品的实施例的以下细节描述不旨在限制所要求保护的实施例的范围,而是仅表示所选实施例。
贯穿本说明书提及“选择的实施例”、“一个实施例”或“实施例”是指结合该实施例所描述的特定特征、结构或特性被包括在至少一个实施例中。因此,在整个本说明书中的各个地方出现的短语“选择的实施例”、“在一个实施例中”或“在实施例中”不一定是指同一实施例。应当理解,各个实施例可以彼此组合,并且任何一个实施例可以用于修改另一实施例。
通过参考附图,将最好地理解示出的实施例,其中,相同的部分在全文中以相同的附图标记表示。以下描述仅旨在通过举例的方式,并且简单地示出了与本文所要求保护的实施例一致的设备、系统和过程的某些所选实施例。
如本文示出和描述的,通过开发本文描述和/或示出的系统、计算机程序产品、方法和其他方面来提供针对该技术问题的技术方案。
参考图1,描绘了系统(100)的示意图。如图所示,提供了跨计算机网络(在本文中也称为网络连接)(105)与多个计算设备(180)、(182)、(184)、(186)、(188)和(190)通信的服务器(110)。服务器(110)被配置为从计算机网络(105)接收输入内容(102)并且将输出内容(104)发送到计算机网络(105)。服务器(110)设置有处理器(112),在本文中也称为处理单元,并且通过总线(114)操作地耦接到存储器(116)。人工智能(AI)平台形式的工具(在本文中也称为知识引擎)(150)被示为在服务器(110)本地,并且可操作地耦合到处理单元(112)和存储器(116)。如图所示,AI平台(150)包含一个或多个工具(152)和(154)。工具(152)和(154)提供用于允许通过计算机网络(105)从计算设备(180)、(182)、(184)、(186)、(188)和(190)中的一个或多个训练和推理处理人工神经网络(ANN)模型的管理,所述ANN模型包括诸如KG-BERT的基于变换器的ANN模型。
计算设备(180)、(182)、(184)、(186)、(188)和(190)经由一个或多个有线和/或无线数据通信链路彼此通信和与其他设备或组件通信,其中每个通信链路可包括电线、路由器、交换机、发送器、接收器等中的一个或多个。在此联网布置中,服务器(110)和网络连接(105)可实现输入内容(102)和输出内容(104)的交换,例如,用于一个或多个内容用户的模型训练和推理操作。服务器(110)的其他实施例可以与除了本文描绘的那些之外的组件、系统、子系统和/或设备一起使用。
如本文中示出和描述的,AI平台(150)的工具包括主题模型管理器(152)和机器学习模型(MLM)管理器(154)。AI平台(150)可以被配置为从各个源接收输入和/或向各个源发送输入,包括但不限于经由输入内容(102)和输出内容(104)的来自网络(105)的输入、来自知识库或语料库结构(160)的一个或多个知识图(KG)数据集、主题模型(172)和人工神经网络(ANN)(174)。
如图所示,知识库(160)包括数据集库,在实施例中,数据集库包括第一数据集Dataset0(1620)和第二数据集Dataset1(1621)。在示例性实施例中,数据集Dataset0(1620)和Dataset1(1621)表示从同一知识图(KG)导出的不同数据。例如,来自KG的数据可以被拆分成Dataset0(1620)(其子集将用于训练)和Dataset1(1621)(其子集将用于测试或推理)。在示例性实施例中,Dataset0(1620)和Dataset1(1621)体现为KG。可替代地,Dataset0(1620)和Dataset1(1621)中的任一者或两者可体现为另一格式的结构化数据,特别是从KG导出的结构化数据,例如由主题模型(172)生成的嵌入式查找表。本文示出的数据集的数量不应被认为是限制性的。
如本领域所理解的,KG是结构(例如,本体)并且不仅仅存储数据。具体地,信息提取(IE)模型(其示例在本领域中是已知的)从非结构化数据中提取数据和一个或多个数据关系,在KG中为提取的数据和数据关系创建条目,并且在创建的KG条目中存储数据和数据关系。可以利用IE模型来从非结构化文本中自动提取三元组。可替代地,数据集可被手动编译,诸如由主题专家(SME)来编译。
在实施例中,KG中的数据元素被存储或表示在节点中,并且两个数据元素之间的关系被表示为连接或链接两个节点的边。类似地,在实施例中,每个节点具有节点级置信度或真实性值,并且每个关系具有关系置信度或真实性值,其中关系真实性值是基于两个相互连接的节点的真实性值来计算的。
在图1中,第一数据集Dataset0(1620)表示从包括第一多个三元组的知识图(KG)导出的数据。具体地,Dataset0(1620)包括Triple0,0(1640,0)、Triple0,1(1640,1)和Triple0,m(1640,m),其中m是等于或大于二的整数。尽管在第一数据集Dataset0(1620)中示出了三个三元组,但是应当理解,Dataset0(1620)可以包括附加三元组,包括数十、数百、数千、数百万或数十亿个三元组,例如,“m”可以等于例如10到10亿。每个Triple0,0(1640,0)、Triple0,1(1640,1)……和Triple0,m(1640,m)包括主体、关系和客体。作为示例,且如本文所示,Triple0,0(1640,0)包括Subject0,0(1660,0)、Relation0,0(1670,0)和Object0,0(1680,0)。Triple0,1(1640,1)包括Subject0,1(1660,1)、Relation0,1(1670,1)和Object0,1(1680,1)。Triple0,m(1640,m)包括Subject0,m(1660,m)、Relation0,m(1670,m)和Object0,m(1680,m)。
主题模型管理器(152)被配置为对第一数据集Dataset0(1620)利用主题模型(172)。通常,主题建模是自动分析文本数据以确定文档集合的集群词的机器学习技术。这被称为‘无监督的’机器学习,因为该技术不需要先前已经被人类分类的标签或训练数据的预定义列表。在机器学习和自然语言处理中,主题模型是一种用于发现出现在文档集合中的抽象“主题”的统计模型。主题模型的示例包括但不限于潜在语义分析(LSA)和Word2Vec。主题建模是用于发现文本主体中的隐藏语义结构的频繁使用的文本挖掘工具。
根据示例性实施例,对第一数据集Dataset0(1620)利用主题模型(172),通过选择第一数据集Dataset0(1620)的子集来下采样用于训练ANN(174)的数据量,以用于训练。利用经下采样的子集(也称为训练集,其是第一数据集的子集而不是整个第一数据集Dataset0(1620))进行训练减少了与训练ANN(174)有关的计算时间。根据示例性实施例,第一相似性函数是应用于每个三元组的主体和客体以生成第一相似性分数的余弦相似性函数。在示例性实施例中,余弦相似性函数由主题模型(例如,LSA或Word2Vec)应用。例如,相似性分数,例如Triple0,0(1640,0)的SimilarityScore0,0是从Subject0,0(1660,0)和Object0,0(1680,0)计算的余弦相似性分数,相似性分数,例如Triple0,1(1640,1)的SimilarityScore0,1是针对Subject0,1(1660,1)和Object0,1(1680,1)计算的余弦相似性分数,以及相似性分数,例如Triple0,m(1640,m)的SimilarityScore0,m是针对Subject0,m(1660,m)和Object0,m(1680,m)计算的余弦相似性分数。
基于相似性分数SimilarityScore0,0、SimilarityScore0,1、……和SimilarityScore0,m,主题模型(172)从第一数据集Dataset0(1620)的Triple0,0(1640,0)、Triple0,1(1640,1)、……和Triple0,m(1640,m)中选择三元组的子集作为训练集,其中该子集包括一与“m减1”(m-1)个三元组之间。根据实施例,三元组Triple0,0(1640,0)、Triple0,1(1640,1)、……和Triple0,m(1640,m)由主题模型管理器(152)进行排序,并且主题模型管理器(152)选择预定数量的排序靠前的三元组。根据另一实施例,主题模型管理器(152)从第一数据集Dataset0(1620)的Triple0,0(1640,0)、Triple0,1(1640,1)、……和Triple0,m(1640,m)中选择具有满足第一阈值的相似性分数的三元组的子集作为训练集。例如,训练集可包括满足第一阈值的Triple0,0(1640,0)和Triple0,1(1640,1),但可省略不满足第一阈值的Triple0,m(1640,m)。在实施例中,相似性分数反映余弦相似性,该余弦相似性表示两个数据成员在它们的主题方面有多相似的测量。通常,余弦相似性分数在负一(-1)和一(1)之间的范围内,其中负一的分数表示相反,一的分数表示相同,而零的分数表示去相关。在实施例中,将第一阈值设置在0和1之间,例如0.5,其中,0.5至1的所有分数满足根据本实施例的第一阈值。
MLM管理器(154)被配置为使用所选择的训练集的一个或多个三元组(例如,第一数据集Dataset0(1620)的子集Triple0,0(1640,0)和Triple0,1(1640,1))来训练ANN(174)。在示例性实施例中,ANN(174)使用训练三元组针对三元组分类、链接预测、关系预测、其组合和/或一个或多个附加操作和任务进行训练。
在根据实施例的训练期间,MLM管理器(154)采用ANN(174)来向训练集的数据分配或以其他方式指定置信度或真实性值。
AI平台(150)还被配置为接收查询(176)。与网络(105)通信的各个计算设备(180)、(182)、(184)、(186)、(188)和(190)说明用于提交查询(176)的接入点。可替代地,可以从知识库(160)或从另一知识库、用户输入或另一源访问查询(176)。在实施例中,查询(176)经受自然语言处理(NLP)以提取第一实体Entity1(177)和关系Relation(178)。
在图1所示的实施例中,查询Query(176)包括已知实体EntityKNOWN(177)和关系Relation(178),但不包括未知实体EntityUNKNOWN(179)。EntityUNKNOWN(179)拥有相对于EntityKNOWN(177)的Relation(178)。在实施例中,EntityUNKNOWN(179)是对由EntityKNOWN(177)和Relation(178)提出的问题的回答。根据实施例,Query(176)包括作为EntityKNOWN(177)的主体和Relation(178),并且寻找EntityUNKNOWN(179),它是表示对Query(176)的回答的客体。在另一实施例中,Query(176)包括作为EntityKNOWN(177)的客体和Relation(178),并且寻找EntityUNKNOWN(179),它是表示对Query(176)的回答的主体。
主题模型管理器(152)被配置为对第二数据集(在图1中表示为Dataset1(1621))利用经训练的主题模型(172),以用于推理或测试目的。此外,虽然在图1中示出了一个主题模型(172),但是应当理解,两个或更多个主题模型可以是可访问和利用的,例如,用于在训练ANN(174)之前对数据集进行下采样的第一主题模型,以及用于在用经训练的ANN(174)测试之前对另一个数据集进行限制的采样的第二主题模型。
根据示例性实施例,第二数据集Dataset1(1621)表示从与第一数据集Dataset0(1620)相同的KG导出的附加数据。在实施例中,数据集Dataset0(1620)和Dataset1(1621)是不同的并且源自同一KG,诸如例如由主题模型(172)生成的嵌入式查找表。在另一个实施例中,Dataset0(1620)和Dataset1(1621)是相互排斥的,即Dataset1(1621)中的数据尚未用于训练。Dataset1(1611)包括第二实体和链接或连接第二实体的第二边。Dataset1(1621)包括多个三元组,具体地,Triple1,0(1641,0)、Triple1,1(1641,1)、……和Triple1,n(1641,n),其中,n是等于或大于2的整数。虽然在Dataset1(1621)中示出了三个三元组,但是应当理解,Dataset1(1621)可以包括附加的三元组,包括数十、数百、数千、数百万或数十亿的三元组。Triple1,0(1641,0)包括Subject1,0(1661,0)、Relation1,0(1671,0)和Object1,0(1681,0)。Triple1,1(1641,1)包括Subject1,1(1661,1)、Relation1,1(1671,1)和Object1,1(1681,1)。Triple1,n(1641,n)包括Subject1,n(1661,n)、Relation1,n(1671,n)和Object1,n(1681,n)。
根据示例性实施例,对第二数据集Dataset1(1621)利用主题模型(172),通过选择第二数据集Dataset1(1621)的子集作为候选集合来下采样用于测试或使用ANN(174)的数据量,例如用于问题-答案查询解析。作为第二数据集的子集而不是整个第二数据集Dataset1(1621)的候选集合减少了与测试或采用ANN(174)有关的计算时间。根据实施例,主题模型(172)将第二相似性函数应用于第二数据集Dataset1(1621)的三元组Triple1,0(1641,0)、Triple10,1(1641,1)和Triple1,n(1641,n)。
由主题模型(172)评估的第二相似性函数可以与第一相似性函数相同或不同。根据示例性实施例,第二相似性函数是应用于每个三元组的主体和客体以生成第二相似性分数的余弦相似性函数。例如,Triple1,0(1641,0)的相似性分数(例如,SimilarityScore1,0)是从Subject1,0(1661,0)和Object1,0(1681,0)计算的余弦相似性分数,Triplel,1(164l,1)的相似性分数(例如,SimilarityScorel,1)是针对Subjectl,1(166l,1)和Objectl,1(168l,1)计算的余弦相似性分数,Triple1,n(1641,n)的相似性分数(例如,SimilarityScore1,n)是针对Subject1,n(1661,n)和Object1,n(1681,n)计算的余弦相似性分数。
基于相似性分数SimilarityScore1,0、SimilarityScorel,1、……和SimilarityScore1,n,主题模型管理器(152)或者在实施例中MLM管理器(154)从第二数据集Dataset1(1621)的Triple1,0(1641,0)、Triplel,1(164l,1)、……和Triple1,n(1641,n)中选择三元组的子集作为候选,其中该子集包括一和“n减1”(n-1)个三元组。根据实施例,由主题模型管理器(152)对三元组Triple1,0(1641,0)、Triplel,1(164l,1)、……和Triple1,n(1641,n)进行排序,并且将预定数目的排序靠前的三元组选择为候选集合。根据另一实施例,主题模型(152)从第二数据集Dataset1(1621)的Triple1,0(1641,0)、Triplel,1(164l,1)、……和Triple1,n(1641,n)中标识并选择具有满足第二阈值的相似性分数的三元组的子集作为候选集合。例如,训练集可以包括满足第二阈值的Triple1,0(1641,0)和Triplel,1(164l,1),但是可以省略不满足第二阈值的Triple1,n(1641,n)。在相似性分数反映余弦相似性的实施例中,余弦相似性表示两个数据成员在它们的主题方面有多相似的测量。通常,余弦相似性分数在负一(-1)和一(1)之间的范围内,负一的分数表示相反,一的分数表示相同,而零的分数表示去相关。在实施例中,第二阈值设置在0和1之间,例如0.5,其中从0.5至1的所有分数满足根据本实施例的第二阈值。
MLM管理器(154)被配置为针对第二子集的每个候选三元组,利用经训练的ANN(174)来评估对应于Query(176)的EntityUNKNOWN(179)的候选三元组的实体的相应置信度分数。在一个或多个示例性实施例中,对第二子集(或候选三元组)利用经训练的ANN(174)涉及对与Query(176)的EntityUNKNOWN(179)相对应的每个候选三元组的实体的置信度值的评估或评分。在实施例中,如果Query(176)的EntityKNOWN(177)是主体,则用经训练的ANN(174)的评估确定候选集合的每个客体(例如,Object1,0(1681,0)、Objectl,1(168l,1)、……和/或Object1,n(1681,n))的置信度分数。在另一实施例中,如果Query(176)的EntityKNOWN(177)是客体,则评估确定候选集合的每个主体(例如,Subject1,0(1661,0)、Subjectl,1(166l,1)、……和/或Subject1,n(1661,n))的置信度分数。第二子集的第二实体中的至少一个基于置信度分数输出为Query(176)的EntityUNKNOWN(179)的候选。
与网络(105)通信的各个计算设备(180)、(182)、(184)、(186)、(188)和(190)说明了用于提交Query(176)的接入点。一些计算设备可包括用于数据库的设备,所述数据库将数据语料库存储为知识引擎(150)所使用的信息体,并且在一个实施例中为工具(152)和(154)。在不同实施例中,计算机网络(105)可以包括本地网络连接和远程连接,使得知识引擎(150)和嵌入式工具(152)和(154)并且可以在任何大小的环境中操作,包括本地和全球,例如因特网。
服务器(110)可以是可从纽约阿蒙克的国际商业机器公司获得的IBM系统,其用下文描述的说明性实施例的机制扩充。IBM/>知识管理器系统将包括多个三元组(例如,Triple0,0(1640,0)、Triple0,1(1640,1)、……Triple0,m(1640,m))的第一数据集Dataset0(1620)导入主题模型(172)中。具体地,在实施例中,第一数据集Dataset0(1620)的三元组被下采样为三元组的子集,在此也被称为训练三元组。训练三元组用于训练ANN(174)。
此外,IBM知识管理器系统将包括多个三元组(例如,Triple1,0(1641,0)、Triplel,1(164l,1)、……Triplel,n(164l,n))的第二数据集Dataset0(1621)导入主题模型(172)中。具体地,在实施例中,第二数据集的三元组Dataset1(1621)被下采样为三元组的子集,在此也被称为候选三元组。对候选三元组和查询利用经训练的ANN(174)。
服务器(110)利用AI平台(150)和相关联的工具(152)和(154)来支持ANN(174)的训练和测试。虽然示出为在服务器(110)中体现或与服务器(110)集成,但是AI平台(150)可以在跨越计算机网络(105)连接到服务器(110)的单独的计算系统(例如,190)中实现。虽然示出为在服务器(110)本地,工具(152)和(154)可以共同地或单独地嵌入在存储器(114)中或其他地方。
可以利用系统(110)的信息处理系统的类型的范围从诸如手持式计算机/移动电话(180)之类的小型手持式设备到诸如大型计算机(182)之类的大型机系统。手持式计算机(180)的示例包括个人数字助理(PDA)、诸如MP4播放器的个人娱乐设备、便携式电视和致密盘播放器。信息处理系统的其他示例包括笔或平板计算机(184)、膝上型或笔记本计算机(186)、个人计算机系统(188)和服务器(190)。如图所示,可使用计算机网络将各个信息处理系统联网在一起(105)。可以用于互连各个信息处理系统的计算机网络(105)的类型包括局域网(LAN)、无线局域网(WLAN)、因特网、公共交换电话网(PSTN)、其他无线网络和可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储装置,诸如硬盘驱动器和/或非易失性存储器。信息处理系统中的一些可使用单独的非易失性数据存储装置(例如,服务器(190)利用非易失性数据存储装置(190a),大型计算机(182)利用非易失性数据存储装置(182a))。非易失性数据存储装置(182a)可以是在各个信息处理系统外部或可以在信息处理系统之一内部的组件。
信息处理系统可以采取许多形式,其中一些在图1中示出。例如,信息处理系统可以采取台式机、服务器、便携式膝上型计算机、笔记本或其他形状因数计算机或数据处理系统的形式。此外,信息处理系统可以采取其他形式的因素,例如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或包括处理器和存储器的其他设备。
应用程序接口(API)在本领域中被理解为在两个或更多个应用之间的中间的软件。关于图1中示出和描述的系统,一个或多个API可以用于支持工具(152)和(154)中的一个或多个及其相关联的功能。参照图2,提供了示出NL处理工具及其相关联的API的框图(200)。如图所示,在知识引擎(205)内嵌入多个工具,该工具包括与AP10(212)相关联的主题模型管理器(252)以及与API1(222)相关联的MLM管理器(254)。每个API可以用一种或多种语言和接口规范来实现。与主题模型管理器(252)相关联的AP10(212)提供对数据集利用一个或多个主题模型和子集的选择;与MLM管理器(254)相关联的AP11(222)提供了用所选择的第一子集训练ANN并对所选择的第二子集利用经训练的ANN,例如,用于测试目的。如图所示,API(212)和(222)中的每一个可操作地耦合到API编排器(260),该API编排器(260)另外被称为编排层,其在本领域中被理解为充当抽象层以将单独的API透明地串在一起。在一个实施例中,单独的API的功能可以被接合或组合。这样,本文所示的API的配置不应当被认为是限制性的。因而,如本文所示,工具的功能可以由其相应的API体现或支持。
为了提供对本公开的所选实施例的更好理解的附加细节,现在参见图3,图3示出了用于使用第一主题模型来将数据集下采样到用于训练人工神经网络(ANN)的训练数据的子集中的方法的流程图(300)。参见图3,第一数据集被访问(302),在示例性实施例中,所述第一数据集包括一个或多个知识图或从一个或多个知识图导出,所述知识图包括多个三元组。三元组的总数被量化并设定为MTOTAL(304)。初始化表示数据集的三元组的变量M(306)。对三元组TripleM利用第一主题模型(308)。在(310),针对TripleM评估第一相似性分数ScoreM。根据示例性实施方式,第一相似性分数是基于TripleM的实体(例如,主体和客体)之间的余弦相似性。然后,变量M递增(312),并且确定第一数据集中的每个三元组是否已经被评估,例如,M的递增值是否大于数据集中的三元组的总数MTOTAL(314)。如果以否定来回答,则该方法返回用于对具有递增变量M的三元组利用第一主题模型的步骤(308)。如果在步骤(314)处该评估被肯定地回答,则三元组Triple1至TripleMTotal通过基于其相关联的第一相似性分数的排序算法被排序或以其他方式被排序(316)。从三元组的经排序或排名的数据集中标识训练三元组的第一子集(318)。根据实施例,第一子集的训练三元组具有满足第一阈值的相关联的第一相似性分数。第一子集的训练三元组用于训练基于变换器的ANN(320)。
图4示出了与用于使用第二主题模型来将第二数据集下采样成候选子集以供使用、测试或验证经训练的ANN的方法的实施例有关的流程图(400)。参考图4,访问第二数据集(402),在示例性实施例中,第二数据集包括一个或多个知识图或从一个或多个知识图导出,所述知识图包括多个三元组。将三元组的总数量化并设置为NTotal(404)。初始化表示第二数据集的三元组的计数变量N(406)。第二主题模型可与结合图3在上面讨论的第一主题模型相同或不同,并对三元组TripleN利用第二主题模型(408)。在(410),针对TripleN评估第二相似性分数ScoreN。根据示例性实施例,第二相似性分数是基于TripleN的实体(例如,主体和客体)之间的余弦相似性。变量N然后被递增(412),并且确定第二数据集中的每个三元组是否已经被评估,例如,递增的值N是否大于NTOTAL(414)。确定步骤(414)处的否定响应是一个或多个附加三元组仍然用于处理的指示,并且该方法返回步骤(408)以对具有递增变量N的三元组利用第二主题模型。确定步骤(414)处的肯定响应是所有三元组都已经被处理的指示,并且该方法前进到步骤(416)。基于三元组Triple1至TripleNTotal的相关联的第二相似性分数,通过排序算法对它们进行排序或以其他方式进行排序(416)。从所述三元组的数据集中标识三元组的第二子集(418)。根据实施例,三元组的第二子集的三元组具有满足第二阈值的相关联的第二相似性分数。
参考图5,提供了流程图(500),其示出了使用经训练的ANN的实施例的方法,例如关于测试、验证或做出预测。接收查询(502),该查询包括已知实体和关系,但是省略拥有关于已知实体的关系的未知实体。访问根据图4的流程图(400)的方法开发的候选三元组的第二集合(504)。候选三元组的总数量被设置为PTOTAL(506),并且计数变量P被初始化(508)。对于候选TripleP,对应于查询的未知实体的Candidate TripleP的实体被标识为CandidateEntityP(510)。例如,如果查询包括作为未知实体的主体,则将Candidate TripleP的主体标识为Candidate EntityP。另一方面,如果查询包括作为未知实体的客体,则CandidateTripleP的客体被标识为Candidate EntityP。
利用经训练的ANN来评估Candidate TripleP的Candidate EntityP的置信度分数ScoreP。在(514),计数变量P递增,并且确定候选三元组中的每一个是否已经关于置信度分数的评估被处理,例如,递增的计数变量P是否大于PTOTAL(516)。如果在确定步骤(516)处的否定决定是一个或多个附加的候选三元组仍然用于处理的指示,则该方法返回步骤(510)。另一方面,确定步骤(516)处的肯定决定是已对所有候选实体利用经训练的ANN的指示。
基于Candidate Entity1到Candidate EntityPTotal的相关联的置信度分数,通过排序算法来对Candidate Entity1到Candidate EntityPTotal进行排序或以其他方式进行排序(518)。根据实施例,具有最有利(例如,最高)置信度分数的候选条目被标识为输出。根据另一实施例,具有满足第三阈值的相关联的置信度分数的候选实体中的一个或多个被标识(520)。根据又一实施例,所述候选条目由SME评估。
根据实施例,将与一个或多个所标识的候选实体相关联的一个或多个附加的边和/或节点选择性地嵌入KG中(522)。因此,如本文中所示,利用主题模型来有效地限制由ANN进行训练、测试和/或处理的候选者,ANN然后标识用于对应的KG中的一个或多个边的选择性嵌入的候选实体。
利用图1和图2中所示的工具和API以及图3、图4和图5中所示的过程来示出和描述采用主题模型来训练、测试、验证和/或使用ANN的各方面。功能工具(152)和(154)的各方面及其相关联的功能可以体现在单个位置中的计算机系统/服务器中,或者在实施例中,可以配置在共享计算资源的基于云的系统中。参考图6,提供了示出计算机系统/服务器(602)的示例的框图(600),该计算机系统/服务器(602)在下文中被称为与基于云的支持系统通信的主机(602),以实现上面参考图3至图5描述的过程。主机(602)可与许多其他通用或专用计算系统环境或配置一起操作。可适于与主机(602)一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子产品、网络PC、小型计算机系统、大型计算机系统和包括以上系统、设备及其等效物中的任一者的文件系统(例如,分布式存储环境和分布式云计算环境)。
可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述主机(602)。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。主机(602)可以在分布式云计算环境(610)中实现,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
如图6所示,主机(602)以通用计算设备的形式示出。主机(602)的组件可以包括但不限于一个或多个处理器或处理单元(604),例如。硬件处理器、系统存储器(606)和将包括所述系统存储器(606)的不同系统组件耦合到所述处理单元(604)的总线(608)。总线(608)表示若干类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。主机(602)通常包括各种计算机系统可读介质。这样的介质可以是可由主机(602)访问的任何可用介质,并且其包括易失性和非易失性介质、可移动和不可移动介质。
存储器(606)可包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)(630)和/或高速缓存存储器(632)。仅作为示例,存储系统(634)可被提供用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出,可以提供用于从可移动非易失性磁盘(例如,“软盘”)读取或向其写入的磁盘驱动器,以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下,每一个可以通过一个或多个数据介质接口连接到总线(608)。
具有一组(至少一个)程序模块(642)的程序/实用程序(640)以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以作为示例而非限制存储在存储器(606)中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括网络环境的实现方式。程序模块(642)通常执行实施例的功能和/或方法以支持和实现下采样和ANN训练和使用。例如,程序模块(642)的集合可以包括如图1中所描述的工具(152)和(154)。
主机(602)还可与一个或多个外部设备(614)(例如键盘、定点设备等)、显示器(624)、使得用户能够与主机(602)交互的一个或多个设备通信;和/或使得主机(602)能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口(622)发生。此外,主机(602)可以经由网络适配器(620)与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)的一个或多个网络通信。如所描绘的,网络适配器(620)经由总线(608)与主机(602)的其他组件通信。在实施例中,分布式文件系统(未示出)的多个节点经由I/O接口(622)或经由网络适配器(620)与主机(602)通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与主机(602)结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。
在本文档中,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”用于泛指诸如主存储器(606)的介质,所述主存储器(606)包括RAM(630)、高速缓存(632)和存储系统(634),诸如可移动存储驱动器和安装在硬盘驱动器中的硬盘。
计算机程序(也称为计算机控制逻辑)存储在存储器(606)中。计算机程序还可以经由通信接口(诸如网络适配器(620))来接收。这样的计算机程序在运行时使得计算机系统能够执行如本文所讨论的本实施例的特征。具体地,计算机程序在运行时使处理单元(604)能够执行计算机系统的特征。因此,这样的计算机程序表示计算机系统的控制器。
在实施例中,主机(602)是云计算环境的节点。如本领域中已知的,云计算是服务递送的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互被快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。这样的特性的示例如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构薄客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池化:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够在较高抽象层(例如,国家、州或数据中心)处指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象层处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的薄客户机接口从不同客户机设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。
混合云:云基础架构是两个或更多个云(私有、社区或公有)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参考图7,示出了云计算网络(700)。如图所示,云计算网络(700)包括具有一个或多个云计算节点(710)的云计算环境(750),云消费者使用的本地计算设备可以与该云计算节点通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(754A)、台式计算机(754B)、膝上型计算机(754C)和/或汽车计算机系统(754N)。云计算节点(710)内的个体节点可以进一步彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境(700)提供基础架构、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解的是,图7中所示的计算设备(754A-N)的类型旨在仅是说明性的,并且云计算环境(750)可以通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参见图8,示出了由图7的云计算网络提供的一组功能抽象层(800)。应当提前理解的是,图8中所示的部件、层以及功能仅仅旨在进行说明,并且实施方式不限于此。如所描绘的,提供以下层和相应功能:硬件和软件层(810)、虚拟化层(820)、管理层(830)和工作负载层(840)。
硬件和软件层(810)包括硬件和软件组件。硬件组件的示例包括大型机,在一个示例中为系统;基于RISC(精简指令集计算机)架构的服务器,在一个示例中为IBM/>系统;IBM/>系统;IBM/>系统;存储设备;网络和联网组件。软件组件的示例包括网络应用服务器软件,在一个示例中为IBM/>应用服务器软件;以及数据库软件,在一个示例中为IBM/>数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere和DB2是在全球许多司法辖区中注册的国际商业机器公司的商标)。
虚拟化层(820)提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器;虚拟存储装置;虚拟网络,包括虚拟专用网络;虚拟应用和操作系统;以及虚拟客户端。
在一个示例中,管理层(830)可以提供以下功能:资源供应、计量和定价、用户门户、服务层管理和SLA规划和履行。资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价提供成本跟踪,因为资源在云计算环境内被利用,并且为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务层管理提供云计算资源分配和管理,使得满足所需的服务层。服务层协议(SLA)规划和履行提供云计算资源的预安排和采购,根据该SLA预期该云计算资源的未来要求。
工作负载层(840)提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括但不限于:绘图和导航;软件开发和生命周期管理;虚拟教室教育递送;数据分析处理;事务处理;以及主题模型下采样和ANN训练和使用。
虽然已经示出和描述了本实施例的特定实施例,但是对于本领域技术人员来说将显而易见的是,基于本文的教导,在不脱离实施例及其更广泛的方面的情况下可以做出改变和修改。因此,所附权利要求书在其范围内包括在实施例的真实精神和范围内的所有这样的改变和修改。此外,应当理解,实施例仅由所附权利要求限定。本领域技术人员将理解,如果旨在具体数目的所引入的权利要求元素,则这样的意图将在权利要求中明确叙述,并且在没有这样的叙述的情况下,不存在这样的限制。作为非限制性示例,为了帮助理解,以下所附权利要求包含使用介绍性短语“至少”和“一个或多个”来介绍权利要求元素。然而,这种短语的使用不应解释为暗示通过不定冠词“一”或“一个”引入权利要求元素将包含这种引入的权利要求元素的任何特定权利要求限制为仅包含一个这种元素的实施方式,即使当相同的权利要求包括引入性短语“一个或多个”或“至少一个”以及不定冠词诸如“一”或“一个”时;这同样适用于定冠词的权利要求中的用途。
本实施例可以是系统、方法和/或计算机程序产品。此外,本实施方式的所选择的方面可以采取完全硬件实施方式、完全软件实施方式(包括固件、驻留软件、微代码等)或者组合软件和/或硬件方面的实施方式的形式,在本文中可以统称为“电路”、“模块”或“系统”。此外,本实施例的方面可以采取计算机程序产品的形式,该计算机程序产品体现在其上具有用于使处理器执行本实施例的方面的计算机可读程序指令的计算机可读存储介质(或多个介质)中。如此体现,所公开的系统、方法和/或计算机程序产品操作以提供改进以传递学习操作。
计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、磁存储设备、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质和计算机可读存储装置本身不应被解释为暂时性信号,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线传输的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,因特网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向客体的编程语言(如Java、Smalltalk、C++等)和传统过程编程语言(如“C”编程语言或类似编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器或服务器集群上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者可连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本实施例的方面。
本文参考根据实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本实施例的各方面。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各个框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的一个或多个框中指定的功能/动作的方面的指令的制品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个框中指定的功能/动作。
图中的流程图和框图示出根据本实施例的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中,框中标注的功能可以不按照图中标注的顺序发生。例如,取决于所涉及的功能,连续示出的两个块实际上可以基本上同时执行,或者这些块有时可以以相反的顺序执行。图中未表示的附加框可例如在一个或多个所说明的框之前、之后或与一个或多个所说明的框同时包含。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,尽管为了说明的目的在此已经描述了特定实施例,但是在不脱离实施例的精神和范围的情况下可以进行各种修改。具体地,转移学习操作可以由不同的计算平台执行或跨多个设备执行。此外,数据存储和/或语料库可以是局部的、远程的或跨多个系统散布的。因此,实施方式的保护范围仅由所附权利要求及其等同物限定。
Claims (20)
1.一种计算机系统,包括:
处理器,操作地耦接到存储器;以及
人工智能(AI)平台,与所述处理器和所述存储器通信,所述AI平台包括:
主题模型管理器,被配置为:
对第一数据集利用第一主题模型,所述第一数据集从包括多个第一三元组的知识图(KG)导出,所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边,所述第一主题模型的利用包括将第一相似性函数应用于所述第一三元组的所述第一连接实体以提供相应的第一相似性分数;以及
利用所述第一主题模型基于所述第一相似性分数从所述多个第一三元组中选择一个或多个第一三元组的第一子集;和
机器学习管理器(MLM),被配置为使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络(ANN)。
2.根据权利要求1所述的计算机系统,其中所述第一相似性函数包括余弦相似性函数。
3.根据权利要求1所述的计算机系统,其中:
所述AI平台被配置为接收包括已知实体和关系的查询,所述查询省略拥有关于所述已知实体的关系的未知实体;
所述主题模型管理器还被配置为:
对包括多个第二三元组的第二数据集利用可以与所述第一主题模型相同或不同的第二主题模型,所述第二三元组包括第二实体和连接所述第二实体以表示第二连接实体之间的关系的第二边,所述第二主题模型的利用包括将可以与所述第一相似性函数相同或不同的第二相似性函数应用于所述第二三元组的所述第二连接实体,以提供相应的第二相似性分数;以及
基于所述第二相似性分数,从所述多个第二三元组中选择所述一个或多个第二三元组的第二子集;并且
所述MLM管理器还被配置为:
针对与所述查询的所述未知实体对应的所述第二子集的所述第二实体中的每个第二实体,利用经训练的ANN来评估相应的置信度分数;以及
基于所述置信度分数输出所述第二子集的所述第二实体中的至少一个第二实体。
4.根据权利要求3所述的计算机系统,其中所述第二相似性函数包括余弦相似性函数。
5.根据权利要求3所述的计算机系统,其中所述第二数据集从所述KG导出并且不同于所述第一数据集。
6.根据权利要求1所述的计算机系统,其中所述ANN包括知识图来自变换器的双向编码器表示(KG-BERT)模型。
7.根据权利要求1所述的计算机系统,其中所述系统不被配置为执行所述KG的所述第一实体的规范化,并且其中所述系统被配置为无监督地操作。
8.一种计算机程序产品,包括:
计算机可读存储设备;以及
与所述计算机可读存储设备一起体现的程序代码,所述程序代码能够由处理器执行以:
对第一数据集利用第一主题模型,所述第一数据集从包括多个第一三元组的知识图(KG)导出,所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边;
将第一相似性函数应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数;
基于所述第一相似性分数,从所述多个第一三元组中选择一个或多个第一三元组的第一子集;以及
使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络(ANN)。
9.根据权利要求8所述的计算机程序产品,其中所述第一相似性函数包括余弦相似性函数。
10.根据权利要求8所述的计算机程序产品,其中所述程序代码还能够由所述处理器执行以:
接收包括已知实体和关系的查询,所述查询省略拥有关于所述已知实体的关系的未知实体;
对包括多个第二三元组的第二数据集利用可以与所述第一主题模型相同或不同的第二主题模型,所述第二三元组包括第二实体和连接所述第二实体以表示第二连接实体之间的关系的第二边,所述第二主题模型的利用包括将可以与所述第一相似性函数相同或不同的第二相似性函数应用于所述第二三元组的所述第二连接实体,以提供相应的第二相似性分数;以及
基于所述第二相似性分数,从所述多个第二三元组中选择所述一个或多个第二三元组的第二子集;以及
针对与所述查询的所述未知实体对应的所述第二子集的所述第二实体中的每个第二实体,利用经训练的ANN来评估相应的置信度分数;以及
基于所述置信度分数输出所述第二子集的所述第二实体中的至少一个第二实体。
11.根据权利要求10所述的计算机程序产品,其中所述第二相似性函数包括余弦相似性函数。
12.根据权利要求10所述的计算机程序产品,其中,所述第二数据集从所述KG导出并且不同于所述第一数据集。
13.根据权利要求8所述的计算机程序产品,其中所述ANN包括知识图来自变换器的双向编码器表示(KG-BERT)模型。
14.根据权利要求8所述的计算机程序产品,其中所述计算机程序产品不包括能够由所述处理器执行以执行所述KG的所述第一实体的规范化的程序代码,并且其中所述计算机程序产品被配置为无监督地操作。
15.一种方法,包括:
对第一数据集利用第一主题模型,所述第一数据集从包括多个第一三元组的知识图(KG)导出,所述第一三元组包括第一实体和连接所述第一实体以表示第一连接实体之间的关系的第一边;
将第一相似性函数应用于所述第一三元组的所述第一连接实体,以提供相应的第一相似性分数;
基于所述第一相似性分数,从所述多个第一三元组中选择一个或多个第一三元组的第一子集;以及
使用一个或多个第一三元组的所选择的第一子集来训练人工神经网络(ANN)。
16.根据权利要求15所述的方法,其中所述第一相似性函数包括余弦相似性函数。
17.根据权利要求15所述的方法,还包括:
接收包括已知实体和关系的查询,所述查询省略拥有关于所述已知实体的关系的未知实体;
对包括多个第二三元组的第二数据集利用可以与所述第一主题模型相同或不同的第二主题模型,所述第二三元组包括第二实体和连接所述第二实体以表示第二连接实体之间的关系的第二边,所述第二主题模型的利用包括将可以与所述第一相似性函数相同或不同的第二相似性函数应用于所述第二三元组的所述第二连接实体,以提供相应的第二相似性分数;以及
基于所述第二相似性分数,从所述多个第二三元组中选择所述一个或多个第二三元组的第二子集;以及
针对与所述查询的所述未知实体对应的所述第二子集的所述第二实体中的每个第二实体,利用经训练的ANN来评估相应的置信度分数;以及
基于所述置信度分数输出所述第二子集的所述第二实体中的至少一个第二实体。
18.根据权利要求17所述的方法,其中所述第二相似性函数包括余弦相似性函数。
19.根据权利要求17所述的方法,其中所述第二数据集从所述KG导出并且不同于所述第一数据集。
20.根据权利要求15所述的方法,其中所述ANN包括知识图来自变换器的双向编码器表示(KG-BERT)模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/228,099 US20220327356A1 (en) | 2021-04-12 | 2021-04-12 | Transformer-Based Model Knowledge Graph Link Prediction |
US17/228,099 | 2021-04-12 | ||
PCT/IB2022/052547 WO2022219435A1 (en) | 2021-04-12 | 2022-03-21 | Transformer-based model knowledge graph link prediction |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117136366A true CN117136366A (zh) | 2023-11-28 |
Family
ID=83509396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280027738.XA Pending CN117136366A (zh) | 2021-04-12 | 2022-03-21 | 基于变换器的模型知识图链接预测 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20220327356A1 (zh) |
JP (1) | JP2024513293A (zh) |
CN (1) | CN117136366A (zh) |
WO (1) | WO2022219435A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220335307A1 (en) * | 2021-04-14 | 2022-10-20 | EMC IP Holding Company LLC | Knowledge graph management based on multi-source data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10606849B2 (en) * | 2016-08-31 | 2020-03-31 | International Business Machines Corporation | Techniques for assigning confidence scores to relationship entries in a knowledge graph |
CN112119412A (zh) * | 2018-05-18 | 2020-12-22 | 伯耐沃伦人工智能科技有限公司 | 具有注意力的图神经网络 |
US11080300B2 (en) * | 2018-08-21 | 2021-08-03 | International Business Machines Corporation | Using relation suggestions to build a relational database |
US20200074301A1 (en) * | 2018-09-04 | 2020-03-05 | Beijing Jingdong Shangke Information Technology Co., Ltd. | End-to-end structure-aware convolutional networks for knowledge base completion |
-
2021
- 2021-04-12 US US17/228,099 patent/US20220327356A1/en active Pending
-
2022
- 2022-03-21 CN CN202280027738.XA patent/CN117136366A/zh active Pending
- 2022-03-21 WO PCT/IB2022/052547 patent/WO2022219435A1/en active Application Filing
- 2022-03-21 JP JP2023549061A patent/JP2024513293A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2024513293A (ja) | 2024-03-25 |
WO2022219435A1 (en) | 2022-10-20 |
US20220327356A1 (en) | 2022-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11488064B2 (en) | Machine learning model for micro-service compliance requirements | |
AU2020385264B2 (en) | Fusing multimodal data using recurrent neural networks | |
US11030402B2 (en) | Dictionary expansion using neural language models | |
US11551437B2 (en) | Collaborative information extraction | |
US11599826B2 (en) | Knowledge aided feature engineering | |
CN110362663B (zh) | 自适应多感知相似度检测和解析 | |
CN110929523B (zh) | 共指解析和实体链接 | |
US20210064668A1 (en) | Dynamic Query Processing and Document Retrieval | |
AU2020422535B2 (en) | Searching conversation logs of virtual agent dialog system for contrastive temporal patterns | |
US10216719B2 (en) | Relation extraction using QandA | |
US10949613B2 (en) | Dynamic natural language processing | |
US11361031B2 (en) | Dynamic linguistic assessment and measurement | |
CN117136366A (zh) | 基于变换器的模型知识图链接预测 | |
US11443216B2 (en) | Corpus gap probability modeling | |
JP2023002475A (ja) | コンピュータシステム、コンピュータプログラムおよびコンピュータで実装される方法(因果関係知識の識別および抽出) | |
US11288322B2 (en) | Conversational agents over domain structured knowledge | |
US11520783B2 (en) | Automated validity evaluation for dynamic amendment | |
US20200394262A1 (en) | Natural Language Processing and Candidate Response Evaluation | |
US20230222290A1 (en) | Active Learning for Matching Heterogeneous Entity Representations with Language Models | |
US11443208B2 (en) | Assessment of inconsistent statements to a recipient group | |
US20220300852A1 (en) | Method and System for Automating Scenario Planning | |
CN111435409B (zh) | 动态查询处理和文档检索 | |
US20230316101A1 (en) | Knowledge Graph Driven Content Generation | |
US11429789B2 (en) | Natural language processing and candidate response identification | |
US20220300799A1 (en) | Neuro-Symbolic Approach for Entity Linking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |