CN106294313A - 学习用于实体消歧的实体及单词嵌入 - Google Patents

学习用于实体消歧的实体及单词嵌入 Download PDF

Info

Publication number
CN106294313A
CN106294313A CN201510422856.2A CN201510422856A CN106294313A CN 106294313 A CN106294313 A CN 106294313A CN 201510422856 A CN201510422856 A CN 201510422856A CN 106294313 A CN106294313 A CN 106294313A
Authority
CN
China
Prior art keywords
concurrent
entity
training
word
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510422856.2A
Other languages
English (en)
Inventor
陈正
张见闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to EP16739296.8A priority Critical patent/EP3314461A1/en
Priority to US15/736,223 priority patent/US20180189265A1/en
Priority to PCT/US2016/039129 priority patent/WO2016210203A1/en
Publication of CN106294313A publication Critical patent/CN106294313A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Linguistics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文中讨论了用于学习用于实体消歧的实体和单词嵌入的技术。示例方法包括:预处理训练数据以生成从该训练数据提取的命名实体、单词和文档锚的一个或多个并发图形,定义这一个或多个并发图形的概率模型;基于该概率模型和该一个或多个并发图形来定义目标函数;以及,基于通过该目标函数的经优化版本生成的特征向量训练至少一个消歧模型。

Description

学习用于实体消歧的实体及单词嵌入
技术领域
本发明涉及学习实体和单词嵌入的技术,尤其涉及学习用于实体消歧的实体和单词嵌入的技术。
背景技术
一般来说,对于人来说通过标识关于在web文章或另一文档中命名的特定命名实体的上下文或个人知识来识别该命名实体是相对简单的任务。然而,该任务对于机器在没有稳健的机器学习算法的情况下进行计算而言可能是困难的。常规的机器学习算法(诸如,基于词袋的学习算法)遭受降低命名实体标识的准确性的缺点。例如,常规的机器学习算法可忽略单词、短语和/或名称的语义。所忽略的语义是大多数基于词袋的学习算法中实现的独热方法的结果,其中语义上相关的单词在一些场景中被认为与语义上无关的单词等距。
此外,用于实体消歧的常规机器学习算法可能是计算上昂贵的,并且可能一般难以在现实世界环境中实现。作为示例,在现实世界环境中,用于标识命名实体的实体链接可能具有很高的实际意义。这样的标识可对人类最终用户系统有益,因为来自一大群信息的关于相关主题以及相关知识的信息更容易从用户接口访问。此外,通过使用计算机系统可自动地标识出更较丰富的信息。然而,由于常规的机器学习算法缺乏跨大量信息准确地标识出命名实体的计算效率,常规系统可能无法适当地向用户呈现相关结果,由此需要通过用户请求信息来呈现需要大量审阅的更一般的结果。
发明内容
本文中讨论的技术促成学习用于实体消歧的实体和单词嵌入。如本文中所描述的,提供了学习实体和单词嵌入的各种方法和系统。如本文中进一步讨论的,使用新颖消歧模型的各种运行时处理方法跨大量信息准确地标识出命名实体。一般来说,嵌入包括来自训练数据的实体和单词到与训练数据的大小(例如,连续向量空间)有关的低维空间中的实数向量的一个或多个映射。
根据一个示例,一种用于训练连续向量空间中的消歧模型的设备,该设备包括部署在其上的机器学习组件,并且该机器学习组件被配置成:预处理训练数据以生成从该训练数据中提取的命名实体、单词和文档锚的一个或多个并发(concurrence)图形;定义该一个或多个并发图形的概率模型;基于该概率模型以及该一个或多个并发图形来定义目标函数;以及,基于通过该目标函数的经优化版本生成的特征向量来训练至少一个消歧模型。
根据另一示例,一种机器学习系统,该系统包括:训练数据,该训练数据包括自由文本和多个文档锚;预处理组件,该预处理组件被配置成预处理该训练数据的至少一部分以生成命名实体、单词和文档锚的一个或多个并发图形;以及训练组件,该训练组件被配置成基于该一个或多个并发图形来生成实体和单词的向量嵌入,其中该训练组件还被配置成基于该向量嵌入来训练至少一个消歧模型。
根据又一示例,一种用于训练连续向量空间中的消歧模型的设备,该设备包括部署在其上的预处理组件,并且该预处理组件被配置成:通过提取多个观察来准备用于机器学习的训练数据,其中该训练数据包括文本语料库和多个文档锚;基于对该训练数据的多个观察来生成映射表;以及,生成从该训练数据中提取并基于该映射表的命名实体、单词和文档锚的一个或多个并发图形。
上述主题也可用其他方式来实现,诸如例如计算机控制装置、计算机进程、计算系统或诸如计算机可读介质等制品。虽然本文中呈现的技术主要在跨语言语音识别的上下文中公开,但本文中公开的概念和技术也可用其他形式来应用,包括开发针对共享单个语言或方言的说话者的词典。其它变型和实现也可适用。通过阅读下面的详细描述并审阅相关联的附图,这些及各种其他特征将变得显而易见。
提供本概述是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本概述并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在将本概述用来限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任一部分中所提及的任何或所有缺点的实现。
附图说明
参考附图来描述详细描述。在附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在不同的附图中使用相同的附图标记指示类似或相同的项。
图1是示出由本文中描述的技术所提供的说明性操作环境和若干软件组件的各方面的框图;
图2是示出根据本文中呈现的一个实现的用于预处理训练数据的一个说明性例程的各方面的流程图;
图3是示出根据本文中呈现的一个实现的用于训练实体和单词嵌入的一个说明性例程的各方面的流程图;
图4是示出根据本文中呈现的一个实现的用于生成向量空间中的特征并训练向量空间中的消歧模型的一个说明性例程的各方面的流程图;
图5是示出根据本文中呈现的一个实现的用于命名实体的实时预测和标识的一个说明性例程的各方面的流程图;以及
图6是示出说明性计算机硬件和软件架构的计算机架构示图。
具体实施方式
以下详细描述涉及机器学习系统中用于学习用于实体消歧的实体和单词嵌入的各技术。对本文中呈现的技术和概念的使用使得能够在大量数据中准确地识别和标识出命名实体。此外,在一些示例中,所描述的技术还可增加对命名实体的运行时标识的效率。这些技术采用在连续向量空间中训练的消歧模型。此外,对本文中呈现的技术和概念的使用与常规的基于词袋的机器学习算法相比在计算上更不昂贵,同时与在基于词袋的机器学习算法上训练的常规模型相比更准确。
作为对理解本文中描述的技术有用的示例场景,如果用户实现或请求搜索数据语料库以查找关于特定命名实体的信息,则期望返回的结果与所请求的命名实体相关。该请求可显式地或通过包括在该请求中的多个单词或短语的上下文来标识出命名实体。例如,如果用户请求搜索以查找“Michael Jordan(迈克乔丹),AAAI Fellow(AAAI会员)”,则短语“AAAI Fellow”包括可解释以确定该被请求的“Michael Jordan”不是篮球运动员而是还作为人工智能发展协会的会员的计算机科学家的上下文。因此,与同篮球和Michael Jordan有关的结果相比,与计算机科学和Michael Jordan有关的结果更合乎需要。该示例没有限制所有形式的命名实体,并且任何命名实体都可适用于该公开。
如本文中所使用的,短语“命名实体”、“实体”及其变型对应于具有刚性指示符(例如“名称”)的实体,该刚性指示符在一个或多个可能上下文中表示该实体。例如,Mount Everest(珠穆朗玛峰)是具有刚性指示符或名称“MountEverest”或“Everest”的命名实体。类似地,人Henry Ford(亨利福特)是具有名称“Henry Ford”的人。其他命名实体为诸如Ford Model T、萨克拉曼多城市,并且其他命名实体还利用名称来指代特定的人、位置、事物和其他实体。此外,特定的人、场所或事物可以是一些上下文中的命名实体,此一些上下文包括其中单个指示符表示良好定义的对象集合、分类或类别而非单个唯一对象的上下文。然而,诸如“购物中心”或“公园”之类的通用名称不可指代特定实体,并因此可能不会被看作命名实体的名称。
尽管在结合计算机系统上的操作系统和应用程序的执行而执行的程序模块的一般上下文中提出了本文描述的主题,但是本领域技术人员将认识到,其他实现可以结合其他类型的程序模块来执行。一般而言,程序模块包括执行特定任务或实现特定数据类型的例程、程序、组件、数据结构、电路和其他类型的软件和/或硬件结构。此外,本领域技术人员将明白,可以利用其他计算机系统配置来实施本文描述的主题,这些计算机系统配置包括手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、小型计算机、大型计算机等等。
在以下详细描述中,参考形成详细描述的一部分并作为例示具体实施例或示例而示出的附图。现参考附图,将详细描述用于跨语言语音识别和转换的计算系统和方法的各方面。
图1示出依据本文中描述的技术来提供的操作环境和若干逻辑组件。具体地,图1是示出用于训练消歧模型127的系统100的各方面的示图。如系统100中所示出的,训练数据语料库101可包括大量自由文本102和多个文档锚103。
一般来说,此大量自由文本102可包括多篇文章、出版物、因特网网站、或与一个或多个主题相关联的其他形式的文本。此一个或多个主题可包括一个或多个命名实体或可与一个或多个命名实体相关。根据一个示例,此大量自由文本可包括多个基于web的文章。根据一个示例,此大量自由文本可包括来自基于web的百科全书(诸如维基百科)的多篇文章。自由文本102的其他来源也可适用。
文档锚103可包括与自由文本102的文档中的特定位置有关的元数据或信息以及对位于该文档的该特定位置附近或之中的信息的简短描述。例如,文档锚可将读者引向文章中的特定章节。文档锚还可使web浏览器中的查看窗格自动前进到web文章中的一位置。此外,文档锚在指代与除特定文档外的其他类型的数据相关联的数据的情况下可包括“数据锚”。此外,在一些情况下,文档锚和数据锚可被互换地使用。其他形式的锚(包括文档锚、数据锚、词汇表、要点、内容表和其他合适的锚)也可适用于本文中描述的技术。
训练数据101可被机器学习系统120访问。在一些实现中,机器学习系统120可包括计算机装置、计算设备、或联网计算设备的系统。机器学习系统120可包括比实际示出的那些组件更多或更少的组件。此外,在一些实现中,机器学习系统120也可被称为机器学习组件。
多个带伪标记的观察104可由预处理组件121从训练数据101中获得。预处理组件121可以是被配置成在机器学习系统120中执行的组件。在一些实现中,预处理组件121也可以是不与机器学习系统120直接相关联的组件。
使用带伪标记的观察104,预处理组件121可生成一个或多个映射表122、多个并发图形123和令牌化(tokenized)文本序列124。以下参考图2更充分地描述了预处理操作以及映射表122、并发图形123和令牌化文本序列124的生成。
在预处理训练数据101的至少一部分以创建映射表122、并发图形123和令牌化文本序列124之际,训练组件125可训练实体和单词嵌入以用于开发训练数据。参考图3更充分描述了对实体和单词嵌入的训练。
训练组件125也可生成连续向量空间中的多个特征向量126。特征向量126也可被用来训练向量空间中的消歧模型127。参考图4更充分描述了特征向量126的生成和消歧模型127的训练。
在训练消歧模型127之际,运行时预测组件128可利用消歧模型127来标识数据语料库中的命名实体。参考图5更充分描述了对命名实体的运行时预测和标识。
此后,参考图2提供了对预处理组件121的操作的更详细描述。图2是示出根据本文中呈现的一个实现的用于预处理训练数据的一个说明性方法200的各方面的流程图。方法200可在框201开始预处理,并在框214停止预处理。以下参考图1中示出的机器学习系统120描述了方法200的各个体组件。
如图2所示,预处理组件121可在框202使训练数据101准备好用于机器学习。训练数据101可包括从自由文本102和文档锚103中检索到的带伪标记的观察104,如以上所描述的。
训练数据101的准备可包括对单词(word)和实体(entity)词汇表的假设,其中标识单词集,且表示实体集。词汇表是通过用相应的实体替换所有文档锚103而从自由文本102v1,v2,…,vn中导出的。的上下文是它周围在大小为L的窗口{vi-L,…,vi-1,vi+1,…,vi+L}内的单词或实体。随后,上下文uwordentity的词汇表可被建立。通过这种方式,中的术语与u中的那些相同,因为如果术语ti是tj的上下文,则tj也是ti的上下文。在此特定实现中,每一单词或实体分别与向量相关联。
在框204,在如上所述基于带伪标记的观察104准备训练数据101之际,预处理组件生成一个或多个映射表122。一个或多个映射表122包括被配置成训练模型以关联正确候选或不正确候选的表。因此,一个或多个映射表122可用于用针对提到候选实体的任何特定短语的正面示例和负面示例两者来训练消歧模型127。
预处理组件121还在框206从文档锚103和该文档锚103周围的文本生成实体-单词并发图形,在框208从文章的标题以及文档锚13生成实体-实体并发图形,并在框210从文章的标题和包含在这些文章中的单词生成实体-单词并发图形。例如,并发图形还可被称为共享主题图形。并发图形可表示各命名实体之间的共同共存关系。
作为示例,预处理组件可构建共享主题图形,其中G=(V,E)表示该共享主题图形,其中节点集V包含自由文本102中的所有实体,且每一节点表示一实体。此外,E是V×V的子集,且当且仅当ρ(ei,ej)在集合{ρ(ei,ej)|j∈[1,|V|且j≠i}中的k个最大元素之中的情况下,(ei,ej)∈E,其中ρ(ei,ej)=|inlinks(ei)∩inlinks(ej)|。此外,inlinks(e)表示链接到e的实体集。
在一些实现中,基于实体-实体并发或实体-单词并发的其他并发图形也可如以上所解释的那样生成。在生成并发图形之际,预处理组件121可在框212生成令牌化文本序列124。令牌化文本序列124可以是将自由文本102中的文本或文本部分表示成标准化令牌序列的干净序列。一般来说,任何合适的令牌化器都可被实现成创建该序列124,而不背离本公开的范围。
在完成了以上参考框201-212描述的预处理序列中的任何一个或全部之际,方法200可在框214停止。如图1所示,训练组件125可接收映射表122、并发图形123和令牌化文本序列124作为输入。此后,参考图3更全面地描述该训练组件的操作。
图3是示出根据本文中呈现的一个实现的用于训练实体和单词嵌入的一个说明性方法300的各方面的流程图。如所示出的,方法300可在框301开始。训练组件125最初可在框302为各并发定义概率模型。
如以上详细描述的,概率模型可基于每一个并发图形123,每一个并发图形基于命名实体和单词的向量表示。根据一个示例,单词和实体表示被学习以区分短文本序列内的周围单词(或实体)。单词和实体之间的连接是通过将所有文档锚替换为其所指的实体来创建的。例如,向量ωv被训练成在预测滑动窗口中的每一周围术语的向量时表现良好。作为示例,短语可包括“Michael I.Jordan被新选为AAAI会员”。根据该示例,语料库-词汇表中的向量“Michael I.Jordan”被训练成在上下文-词汇表u中预测向量“被”,…,“AAAI”和“成员”。因此,单词(或实体)和从这些短语中提取的上下文对的集合可被表示为
作为适合于该上下文中的概率模型的示例,语料库-上下文对可被考虑。训练组件可使用由以下等式1定义的softmax函数来对条件概率p(μ\v)进行建模,
p ( μ \ v ) = exp ( ω ~ μ T ω v ) Σ μ · ∈ u exp ( ω ~ μ · T ω v ) (等式1)
在定义目标函数之际,训练组件125还可在框304为这些并发定义目标函数。一般来说,目标函数可以是通过学习而被定义成发生并发的可能性的目标函数。例如,以上基于等式1的目标函数可被定义成如以下等式2所述:
(等式2)
在等式2中,σ(x)=1/(1+exp(-x)),并且c是要为每一正面示例区分的负面示例的数目。在给定目标函数的情况下,训练组件125可在框306鼓励(encourage)训练数据中出现的并发和尚未出现的候选并发之间的差距(gap)。训练组件125可进一步在框308优化目标函数,并且方法300可在框310处停止。
如上所述,通过在创建概率模型和目标函数时训练实体和单词嵌入,可生成特征来训练消歧模型127以更好的标识命名实体。此后,参考图4来描述该训练组件125的进一步操作细节。
图4是示出根据本文中呈现的一个实现的用于生成向量空间中的特征向量126并训练向量空间中的消歧模型127的一个说明性方法400的各方面的流程图。方法400在框401开始向量空间中的训练。一般来说,训练组件125在框402定义生成特征的模版。这些模版可被定义成用于自动生成各特征的模板。
根据一个实现,定义至少两个模板。第一模板可基于本地上下文分数。本地上下文分数模板是用于自动生成邻近或“附近”单词的特征的模板。第二模板可基于主题相干性分数。主题相干性分数模板是用于基于平均语义相关性或明确的命名实体可有助于标识各命名实体在较不明确的上下文中的提及的假设来自动生成特征的模板。
利用所生成的模板,训练组件125在框404计算每一模板的分数。计算出的分数基于针对相关联模板的每一底层假设。例如,本地上下文模板可具有基于提及命名实体的本地上下文计算出的分数。用于计算本地上下文分数的示例等式可被实现成以下等式3:
(等式3)
在等式3中,Γ(mi)表示提及mi的候选实体集。此外,多个本地上下文分数可通过改变上下文窗口大小来计算。
对于主题相干性模板,文档级消歧上下文C可基于以下呈现的等式4来计算:
(等式4)
在等式4中,d是经分析文档,且是在文档d中标识出的明确实体的集合。在计算了每一模板的分数后,训练组件125在框306基于计算出的分数从这些模板生成特征。
生成特征可包括例如基于多个消歧决策生成用于构建一个或多个特征向量的个体特征。消歧决策的函数由以下呈现的等式5定义:
∀ m i ∈ M , arg max e i ∈ Γ ( m i ) 1 1 + exp - Σ j = 1 | F | β i · f j (等式5)
在等式5中,F=∪j=1fi表示特征向量,而基本特征是本地上下文分数和主题相干性分数tc(mi,ei)。此外,附加特征也可利用等式5来组合。但一般来说,训练组件被配置成优化参数β,以使得正确实体具有高于不相干的实体的较高分数。在参数β的优化期间,在框408处,训练组件125定义消歧模型127并基于特征向量126来训练消歧模型127。方法400在操作410处停止。
如上所述,消歧模型127可用于更准确地预测特定命名实体的出现。此后,参考图5更全面地描述对命名实体的运行时预测。
图5是示出根据本文中呈现的一个实现的用于命名实体的运行时预测和标识的一个说明性方法500的各方面的流程图。运行时预测在框501开始,并可由运行时预测组件128来执行,或可由系统100的另一部分来执行。
初始地,运行时预测组件128在框502接收标识一个或多个命名实体的搜索请求。搜索请求可在客户端计算设备处始发,诸如通过计算机上的web浏览器始发或从任何其他合适的设备处始发。参考图6详细描述了示例计算设备。
在接收到搜索请求之际,运行时预测组件128可在框504标识web文章或其他信息源的候选条目。根据一个实现,候选条目是从数据库或服务器中标识出的。根据另一实现,候选条目是从因特网中标识出的。
此后,运行时预测组件128可在框506检索单词和/或命名实体的特征向量126。例如,特征向量126可被存储在存储器中、被存储在计算机可读存储介质中或者可以按任何合适的方式存储。特征向量126可被运行时预测组件126访问来进行运行时预测和其他操作。
在检索之际,运行时预测组件128可在框508基于检索到的单词向量和包含在请求中的命名实体来计算特征。特征计算可类似于以上参考消歧模型127和等式5描述的计算。单词和命名实体可提取自该请求。
此后,运行时预测组件128在框510将消歧模型应用于计算出的特征。在应用消歧模型之际,运行时预测组件128可在框512基于消歧模型的输出来对各候选条目进行排序。该排序可包括基于任何一个候选条目更可能参考该命名实体而非其他候选实体的概率集来对各候选条目进行排序。其他形式的排序也可能是可适用的。在排序之际,运行时预测组件128可在框514输出经排序的条目。方法500可在新请求被接收到时持续进行迭代,或替换地可在输出经排序条目后停止。
应理解,以上参考图2-5所述的逻辑操作可被实现为(1)一系列计算机实现的动作或运行于计算系统上的程序模块,和/或(2)计算系统内的互连的机器逻辑电路或电路模块。该实现是取决于计算系统的性能及其他要求的选择问题。因此,此处描述的逻辑操作被不同地称为状态操作、结构设备、动作或模块。这些操作、结构设备、动作和模块可以用软件、固件、专用数字逻辑,以及其任何组合来实现。还应该明白,可以执行比附图中示出并在此处描述的操作更多或更少的操作。这些操作还可以按与此处所描述的不同次序来执行。
图6示出了用于能够执行本文所描述的用于以上述方式进行预处理、训练和运行时预测的软件组件和方法的计算机600的说明性计算机体系结构。图6所示的计算机体系结构示出常规台式、膝上型或服务器计算机,并可以用来执行本文呈现的被描述为在系统100或与其通信的任何组件上执行的软件组件的任何方面。
图6所示的计算机体系结构包括一个或多个中央处理单元602、包括随机存取存储器614(RAM)和只读存储器(ROM)616的系统存储器608、以及将存储器耦合至处理器602的系统总线604。处理器602可包括中央处理单元(CPU)或其他合适的计算机处理器。基本输入/输出系统被存储在ROM 616中,该系统包含帮助诸如在启动期间在计算机600中的元件之间传递信息的基本例程。计算机600还包括用于存储操作系统618、应用程序和其他程序模块的大容量存储设备610,这将在本文中更为详尽地描述。
大容量存储设备610通过连接至总线604的大容量存储控制器(未示出)连接至处理器602。大容量存储设备610是计算机600的计算机可读介质的示例。虽然对此处包含的计算机可读介质的描述引用了诸如硬盘或紧致盘只读存储器(CD-ROM)驱动器、固态存储器(例如闪存)之类的大容量存储设备600,但是本领域的技术人员应该明白,计算机可读介质可以是可由计算机600访问的任何可用计算机存储介质或通信介质。
通信介质包括诸如载波或其它传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据,且包含任何传递介质。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述中任一组合也应包括在通信介质的范围之内。
作为示例而非限制,计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。例如,计算机存储介质包括,但不限于,RAM、ROM、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他固态存储器技术,CD-ROM、高清晰度DVD(HD-DVD)、蓝光或其他光学存储,磁带盒、磁带、磁盘存储或其他磁存储设备,或可以用来存储所需信息并可由计算机600访问的任何其他介质。如本文中所使用的,短语“计算机存储介质”及其变型不包括波或信号本身和/或通信介质。
根据各实现,计算机600可以使用通过诸如网络620之类的网络到远程计算机的逻辑连接来在联网环境中操作。计算机600可以通过连接至总线604的网络接口单元606来连接到网络620。网络接口单元606也可用于连接到其他类型的网络和远程计算机系统。计算机600还可以包括用于接收和处理来自数个其他设备的输入的输入/输出控制器612,这些设备包括键盘、鼠标或者电子指示笔(未在图6中示出)。类似地,输入/输出控制器可以提供至显示屏、打印机或其他类型的输出设备(也未在图6中示出)的输出。
如前简述的那样,数个程序模块和数据文件可以存储在计算机600的大容量存储设备610和RAM 614内,包括适于控制联网的台式计算机、膝上型计算机或服务器计算机的操作的操作系统618。大容量存储设备610和RAM 614还可存储一个或多个程序模块或其他数据,诸如消歧模型127、特征向量126或以上描述的任何其他数据。大容量存储设备610和RAM 614还可存储其它类型的程序模块、服务和数据。
示例条款
A.一种用于训练连续向量空间中的消歧模型的设备,所述设备包括部署在其上的机器学习组件,并且所述机器学习组件被配置成:
预处理训练数据以生成从所述训练数据中提取的命名实体、单词和文档锚的一个或多个并发图形;
定义所述一个或多个并发图形的概率模型;
基于所述概率模型和所述一个或多个并发图形来定义目标函数;以及
基于通过所述目标函数的经优化版本生成的特征向量来训练至少一个消歧模型。
B.如条款1所述的设备,其中所述概率模型基于softmax函数或标准化指数函数。
C.如条款A和B中的任一项所述的设备,其中所述softmax函数包括命名实体向量与单词向量并发的条件概率。
D.如条款A-C中的任一项所述的设备,其中所述目标函数是经预处理的训练数据中包括的多个负面示例的函数。
E.如条款A-D中的任一项所述的设备,其中所述目标函数的经优化版本被优化以鼓励所述并发图形中定义的各并发之间的差距。
F.一种机器学习系统,所述系统包括:
训练数据,所述数据包括自由文本和多个文档锚;
预处理组件,所述预处理组件被配置成预处理所述训练数据的至少一部分以生成命名实体、相关联的数据和数据锚的一个或多个并发图形;以及
训练组件,所述训练组件被配置成基于所述一个或多个并发图形来生成实体和单词的向量嵌入,其中所述训练组件还被配置成基于所述向量嵌入来训练至少一个消歧模型。
G.如条款F所述的系统,进一步包括运行时预测组件,所述运行时预测组件被配置成使用至少一个消歧模型来标识候选条目。
H.如条款F和G中的任一项所述的系统,进一步包括:
存储多个条目的数据库或服务器;以及
运行时预测组件,所述运行时预测组件被配置成使用所述至少一个消歧模型来从所述多个条目中标识出候选条目,并使用所述至少一个消歧模型来对标识出的候选条目进行排序。
I.如条款F-H中的任一项所述的系统,其中所述训练组件还被配置成:
定义所述一个或多个并发图形的概率模型;以及
基于所述概率模型和所述一个或多个并发图形来定义目标函数,其中所述向量嵌入是基于所述概率模型和所述目标函数的经优化版本来创建的。
J.如条款F-I中的任一项所述的系统,其中:
所述概率模型基于softmax函数或标准化指数函数;以及
所述目标函数是包括在所述训练数据中的多个负面示例的函数。
K.一种用于训练连续向量空间中的消歧模型的设备,所述设备包括部署在其上的预处理组件,并且所述预处理组件被配置成:
通过提取多个观察来准备用于机器学习的训练数据,其中所述训练数据包括文本语料库和多个文档锚;
基于所述训练数据的多个观察生成映射表;以及
生成从所述训练数据中提取并基于所述映射表的命名实体、单词和文档锚的一个或多个并发图形。
L.如条款K中所述的设备,进一步包括部署在其上的机器学习组件,并且所述机器学习组件被配置成:
定义所述一个或多个并发图形的概率模型;
基于所述概率模型和所述一个或多个并发图形来定义目标函数;以及
基于通过所述目标函数的经优化版本生成的特征向量来训练至少一个消歧模型。
M.如条款K和L中的任一项所述的设备,其中所述概率模型基于softmax函数或标准化指数函数。
N.如条款K-M中的任一项所述的设备,其中所述softmax函数包括命名实体向量与单词向量并发的条件概率。
O.如条款K-N中的任一项所述的设备,其中所述目标函数是经预处理的训练数据中包括的多个负面示例的函数。
P.如条款K-O中的任一项所述的设备,其中所述目标函数的经优化版本被优化成鼓励所述并发图形中定义的各并发之间的差距。
Q.如条款K-P中的任一项所述的设备,其中所述预处理组件还被配置成从所述多个观察中生成干净的令牌化文本序列。
R.如条款K-O中的任一项所述的设备,进一步包括运行时预测组件,所述运行时预测组件被配置成使用所述至少一个消歧模型来标识候选条目。
S.如条款K-R中的任一项所述的设备,其中所述设备用于与存储多个条目的数据库或服务器进行通信,所述设备进一步包括:
运行时预测组件,所述运行时预测组件被配置成使用所述至少一个消歧模型来从所述多个条目中标识出候选条目,并使用所述至少一个消歧模型来对标识出的候选条目进行排序。
如条款K-S中的任一项所述的设备,其中所述运行时预测组件还被配置成:
接收标识期望命名实体的搜索请求;
基于所述搜索请求来标识所述候选条目;
接收与所述搜索请求相关的单词和命名实体的向量;
基于所述单词和命名实体的向量来计算特征;
将所述至少一个消歧模型应用于计算出的特征;以及
基于对所述至少一个消歧模型的应用来对所述候选条目进行排序。
结论
尽管已经用结构特征和/或方法动作专用的语言描述了本主题,但要理解,所附权利要求书中定义的主题不必限于所描述的具体特征或动作。相反,这些具体特征和步骤是作为实现权利要求的示例形式来公开的。
上述所有方法和过程可以用由一个或多个通用计算机或处理器执行的软件代码模块来具体化,并且可经由这些软件代码模块来完全或部分自动化。这些代码模块可以存储在任何类型的计算机可执行存储介质或其他计算机存储设备中。这些方法中的某些或全部可另选地或替换地用专用计算机硬件来具体化。
除非另外具体声明,否则诸如“能”、“能够”、或“可以”等条件语言表示特定示例包括而其他示例不包括特定特征、元素和/或步骤。
因此,这样的条件语言一般不以任何方式暗示对于一个或多个示例需要特定特征、元素和/或步骤,或者一个或多个示例必然包括用于决定的逻辑、具有或不具有用户输入或提示、在任何特定实施例中是否要包括或要执行特定特征、元素和/或步骤。除非另外具体声明,联合语言(诸如短语“和/或”以及“X、Y或Z中至少一个”)表示项、词语等可以是X、Y或Z中的任一者、或其组合。
本文所述和/或附图中描述的流程图中任何例行描述、元素或框应理解成潜在地表示包括用于实现该例程中具体逻辑功能或元素的一个或多个可执行指令的代码的模块、片段或部分。替换实现被包括在本文描述的示例的范围内,其中各元素或功能可被删除,或与所示出或讨论的顺序不一致地执行,包括基本上同步地执行或按相反顺序执行,这取决于所涉及的功能,如本领域技术人也将理解的。
应当强调,可对上述示例作出许多变型和修改,其中的元素如同其他可接受的示例那样应被理解。所有这样的修改和变型在此旨在包括在本公开的范围内并且由以下权利要求书保护。

Claims (10)

1.一种用于训练连续向量空间中的消歧模型的设备,所述设备包括部署在其上的机器学习组件,并且所述机器学习组件被配置成:
预处理训练数据以生成从所述训练数据中提取的命名实体、单词和文档锚的一个或多个并发图形;
定义所述一个或多个并发图形的概率模型;
基于所述概率模型和所述一个或多个并发图形来定义目标函数;以及
基于通过所述目标函数的经优化版本生成的特征向量来训练至少一个消歧模型。
2.如权利要求1所述的设备,其特征在于,所述概率模型基于softmax函数或标准化指数函数。
3.如权利要求2所述的设备,其特征在于,所述softmax函数包括命名实体向量与单词向量并发的条件概率。
4.如权利要求1所述的设备,其特征在于,所述目标函数是包括在经预处理的训练数据中的多个负面示例的函数。
5.如权利要求1所述的设备,其特征在于,所述目标函数的经优化版本被优化成鼓励所述并发图形中定义的各并发之间的差距。
6.一种机器学习系统,所述系统包括:
训练数据,所述训练数据包括自由文本和多个文档锚;
预处理组件,所述预处理组件被配置成预处理所述训练数据的至少一部分以生成命名实体、相关联的数据和数据锚的一个或多个并发图形;以及
训练组件,所述训练组件被配置成基于所述一个或多个并发图形来生成实体和单词的向量嵌入,其中所述训练组件还被配置成基于所述向量嵌入来训练至少一个消歧模型。
7.如权利要求6所述的机器学习系统,其特征在于,进一步包括运行时预测组件,所述运行时预测组件被配置成使用至少一个消歧模型来标识候选条目。
8.如权利要求6所述的机器学习系统,其特征在于,进一步包括:
存储多个条目的数据库或服务器;以及
运行时预测组件,所述运行时预测组件被配置成使用所述至少一个消歧模型来从所述多个条目中标识出候选条目,并使用所述至少一个消歧模型来对标识出的候选条目进行排序。
9.如权利要求6所述的机器学习系统,其特征在于,所述训练组件还被配置成:
定义所述一个或多个并发图形的概率模型;以及
基于所述概率模型和所述一个或多个并发图形来定义目标函数,其中所述向量嵌入是基于所述概率模型和所述目标函数的经优化版本来创建的。
10.如权利要求9所述的机器学习系统,其特征在于:
所述概率模型基于softmax函数或标准化指数函数;以及
所述目标函数是包括在所述训练数据中的多个负面示例的函数。
CN201510422856.2A 2015-06-26 2015-07-17 学习用于实体消歧的实体及单词嵌入 Pending CN106294313A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP16739296.8A EP3314461A1 (en) 2015-06-26 2016-06-24 Learning entity and word embeddings for entity disambiguation
US15/736,223 US20180189265A1 (en) 2015-06-26 2016-06-24 Learning entity and word embeddings for entity disambiguation
PCT/US2016/039129 WO2016210203A1 (en) 2015-06-26 2016-06-24 Learning entity and word embeddings for entity disambiguation

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNPCT/CN2015/082445 2015-06-26
CN2015082445 2015-06-26

Publications (1)

Publication Number Publication Date
CN106294313A true CN106294313A (zh) 2017-01-04

Family

ID=57651022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510422856.2A Pending CN106294313A (zh) 2015-06-26 2015-07-17 学习用于实体消歧的实体及单词嵌入

Country Status (3)

Country Link
US (1) US20180189265A1 (zh)
EP (1) EP3314461A1 (zh)
CN (1) CN106294313A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN108509453A (zh) * 2017-02-27 2018-09-07 华为技术有限公司 一种信息处理方法及装置
CN111522982A (zh) * 2019-02-05 2020-08-11 国际商业机器公司 使用基于学习者模型的对话模板的图像对象消歧解决方案
CN111652378A (zh) * 2019-05-23 2020-09-11 谷歌有限责任公司 学习来选择类别特征的词汇

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11651326B2 (en) * 2017-11-22 2023-05-16 United Parcel Service Of America, Inc. Automatically predicting shipper behavior using machine learning models
WO2019229523A1 (en) * 2018-05-21 2019-12-05 Leverton Holding Llc Post-filtering of named entities with machine learning
US20210326389A1 (en) * 2018-09-26 2021-10-21 Visa International Service Association Dynamic graph representation learning via attention networks
US11410031B2 (en) 2018-11-29 2022-08-09 International Business Machines Corporation Dynamic updating of a word embedding model
US12026462B2 (en) 2018-11-29 2024-07-02 International Business Machines Corporation Word embedding model parameter advisor
GB201904161D0 (en) * 2019-03-26 2019-05-08 Benevolentai Tech Limited Entity type identification for named entity recognition systems
US11663519B2 (en) * 2019-04-29 2023-05-30 International Business Machines Corporation Adjusting training data for a machine learning processor
CN110134959B (zh) * 2019-05-15 2023-10-20 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
KR20190083629A (ko) * 2019-06-24 2019-07-12 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
KR20190098928A (ko) * 2019-08-05 2019-08-23 엘지전자 주식회사 음성 인식 방법 및 장치
CN110659368A (zh) * 2019-09-20 2020-01-07 北京明略软件系统有限公司 知识图谱构建方法、装置、电子设备及可读存储介质
CN110674304A (zh) * 2019-10-09 2020-01-10 北京明略软件系统有限公司 实体消歧方法、装置、可读存储介质及电子设备
US11422798B2 (en) 2020-02-26 2022-08-23 International Business Machines Corporation Context-based word embedding for programming artifacts
CN112069826B (zh) * 2020-07-15 2021-12-07 浙江工业大学 融合主题模型和卷积神经网络的垂直域实体消歧方法
US20220382741A1 (en) * 2021-05-28 2022-12-01 Neo4J Sweden Ab Graph embeddings via node-property-aware fast random projection
CN115438674B (zh) * 2022-11-08 2023-03-24 腾讯科技(深圳)有限公司 实体数据处理、实体链接方法、装置和计算机设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243556A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS)
US20040243554A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN102968419A (zh) * 2011-08-31 2013-03-13 微软公司 交互式互联网实体名称的消歧方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN103514194A (zh) * 2012-06-21 2014-01-15 富士通株式会社 确定语料与实体的相关性的方法和装置及分类器训练方法
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040243556A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and including a document common analysis system (CAS)
US20040243554A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis
CN101454750A (zh) * 2006-03-31 2009-06-10 谷歌公司 命名实体的消歧
CN102968419A (zh) * 2011-08-31 2013-03-13 微软公司 交互式互联网实体名称的消歧方法
CN102314507A (zh) * 2011-09-08 2012-01-11 北京航空航天大学 一种中文命名实体识别歧义消解方法
CN103514194A (zh) * 2012-06-21 2014-01-15 富士通株式会社 确定语料与实体的相关性的方法和装置及分类器训练方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104268200A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种基于深度学习的非监督命名实体语义消歧方法
CN104462126A (zh) * 2013-09-22 2015-03-25 富士通株式会社 一种实体链接方法及装置
CN104111973A (zh) * 2014-06-17 2014-10-22 中国科学院计算技术研究所 一种学者重名的消歧方法及其系统
CN104899304A (zh) * 2015-06-12 2015-09-09 北京京东尚科信息技术有限公司 命名实体识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HONGZHAO HUANG等: "Leveraging Deep Neural Networks and Knowledge Graphs for Entity Disambiguation", 《HTTP://ARXIV.ORG/PDF/1504.07678.PDF》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509453A (zh) * 2017-02-27 2018-09-07 华为技术有限公司 一种信息处理方法及装置
CN108509453B (zh) * 2017-02-27 2021-02-09 华为技术有限公司 一种信息处理方法及装置
CN107316062A (zh) * 2017-06-26 2017-11-03 中国人民解放军国防科学技术大学 一种改进的面向领域的命名实体消歧方法
CN111522982A (zh) * 2019-02-05 2020-08-11 国际商业机器公司 使用基于学习者模型的对话模板的图像对象消歧解决方案
CN111522982B (zh) * 2019-02-05 2023-06-23 国际商业机器公司 使用基于学习者模型的对话模板的图像对象消歧解决方案
CN111652378A (zh) * 2019-05-23 2020-09-11 谷歌有限责任公司 学习来选择类别特征的词汇
US11714857B2 (en) 2019-05-23 2023-08-01 Google Llc Learning to select vocabularies for categorical features
CN111652378B (zh) * 2019-05-23 2023-11-03 谷歌有限责任公司 学习来选择类别特征的词汇

Also Published As

Publication number Publication date
EP3314461A1 (en) 2018-05-02
US20180189265A1 (en) 2018-07-05

Similar Documents

Publication Publication Date Title
CN106294313A (zh) 学习用于实体消歧的实体及单词嵌入
US20200234102A1 (en) Joint learning of local and global features for entity linking via neural networks
Ratner et al. Snorkel: Fast training set generation for information extraction
EP3180742B1 (en) Generating and using a knowledge-enhanced model
CN109062901B (zh) 神经网络训练方法和装置及命名实体识别方法和装置
CN112528034B (zh) 一种基于知识蒸馏的实体关系抽取方法
CN104598611B (zh) 对搜索条目进行排序的方法及系统
CN101165688B (zh) 知识系统中资源之间的时间关联方法和系统
CN106415535A (zh) 使用深度学习模型的上下文相关的搜索
CN104462056B (zh) 用于呈现基于知识的信息的方法和信息操纵系统
Usuga Cadavid et al. Valuing free-form text data from maintenance logs through transfer learning with camembert
CN104933164A (zh) 互联网海量数据中命名实体间关系提取方法及其系统
CN105389329B (zh) 一种基于群体评论的开源软件推荐方法
CN110032630A (zh) 话术推荐设备、方法及模型训练设备
Hyvönen et al. Culturesampo: A national publication system of cultural heritage on the semantic web 2.0
Ebadi et al. A memory network information retrieval model for identification of news misinformation
CN111339407B (zh) 一种信息抽取云平台的实现方法
CN110972499A (zh) 神经网络的标注系统
CN110362663A (zh) 自适应多感知相似度检测和解析
CN112579870A (zh) 检索匹配模型的训练方法、装置、设备及存储介质
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents
Li et al. Event extraction for criminal legal text
US20230177089A1 (en) Identifying similar content in a multi-item embedding space
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN113779225A (zh) 实体链接模型的训练方法、实体链接方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170104