CN116438529A - 生成式常识推理的知识注入模型 - Google Patents

生成式常识推理的知识注入模型 Download PDF

Info

Publication number
CN116438529A
CN116438529A CN202080107084.2A CN202080107084A CN116438529A CN 116438529 A CN116438529 A CN 116438529A CN 202080107084 A CN202080107084 A CN 202080107084A CN 116438529 A CN116438529 A CN 116438529A
Authority
CN
China
Prior art keywords
input
prototype
token
concept
input token
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080107084.2A
Other languages
English (en)
Inventor
宫叶云
段楠
黄亚蒙
张若非
周明
焦健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN116438529A publication Critical patent/CN116438529A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于生成式常识推理的知识注入模型。在示例中,使用编码器‑解码器模型来生成模型输出(204),针对概念集的合理描述。从领域内或领域外知识语料库生成原型(218),该原型进一步被用作针对编码器‑解码器模型的输入(202)。缩放概念输入令牌和原型输入令牌,以限制可能由原型(218)引入的潜在偏差。另外,针对每个输入令牌生成位置指示符,这些位置指示符指示每个输入令牌与其他输入令牌相比的相对位置。如此,在对经缩放的、经编码的输入令牌进行解码时,解码器(214)可以更适应由原型(218)在生成模型输出(204)时引入的场景偏差。因此,在生成模型输出(204)时,编码器‑解码器模型不需要仅仅依赖于概念集。

Description

生成式常识推理的知识注入模型
背景技术
可以根据生成式常识推理技术来处理概念集,以基于概念来生成合理的描述。然而,在真空中处理概念可能不足以产生合理的描述。相反,至少在一些情况下,所产生的模型输出可能是不合逻辑的或无意义的。
已针对这些和其他一般考虑描述了实施例。而且,尽管已讨论了相对具体的问题,但是应理解的是,实施例不应限于解决在背景技术中标识的具体问题。
发明内容
本公开的方面涉及用于生成式常识推理的知识注入模型。在示例中,使用编码器-解码器模型,基于包括概念集的输入来生成模型输出(例如,合理的描述或描述性句子)。基于概念集来生成原型,该原型还被用作编码器-解码器模型的输入。可以从一个或多个领域内和/或领域外的知识语料库生成原型。缩放引擎对输入的概念输入令牌(taken)和原型输入令牌进行缩放,以减小与概念输入令牌重叠的原型输入令牌扭曲模型输出的可能性。例如,如果原型输入令牌可能有助于生成,则与原型输入令牌相关联的编码器输出状态的范数可能会增大,而当原型输入令牌与概念输入令牌之间存在冲突时,该范数反而可能会减小。
另外,为每个输入令牌生成位置指示符,它提供了每个相应输入令牌与其他输入令牌相比的相对位置的指示。如此,在解码经缩放的、经编码的输入令牌时,解码器可以更适应由所生成的原型在生成模型输出时引入的场景偏差。因此,在生成模型输出时,编码器-解码器模型不需要仅仅依赖于概念集,而可以进一步结合从基于即时缩放和位置指示符技术的知识语料库生成的原型。
提供本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中被进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
参考文献
以下出版物通过引用被整体并入:
1.“An Enhanced Knowledge Injection Model for Commonsense Generation"paper(12pages)(copy attached).
2.Bill Yuchen Lin,Ming Shen,Wangchunshu Zhou,Pei Zhou,ChandraBhagavatula,Yejin Choi,and Xiang Ren.2019b.Commongen:A constrained textgeneration challenge for generative commonsense reasoning.CoRR,abs/1911.03705.
3.Mike Lewis,Yinhan Liu,Naman Goyal,Marjan Ghazvininejad,AbdelrahmanMohamed,Omer Levy,Ves Stoyanov,and Luke Zettlemoyer.2019.Bart:Denoisingsequence-to sequence pre-training for natural language generation,translation,and comprehension.arXiv preprint arXiv:1910.13461.
附图说明
参考下图来描述非限制性和非穷举性的示例。
图1示出了其中可以利用本文中所描述的知识注入模型的示例系统的概述。
图2示出了根据所公开的知识注入模型的生成式常识推理的示例框架的概述。
图3示出了用于根据生成式常识推理的所公开的知识注入模型来处理概念集的示例方法的概述。
图4是示出了计算设备的示例物理组件的框图,可以用该计算设备实践本公开的方面。
图5A和图5B是移动计算设备的简化框图,可以该移动计算设备实践本公开的方面。
图6是分布式计算系统的简化框图,在该分布式计算系统中可以实践本公开的方面。
图7示出了用于执行本公开的一个或多个方面的平板电脑计算设备。
具体实施方式
在以下详细描述中,参考形成本文的一部分的附图,并且在其中以图示的方式示出具体的实施例或示例。可以组合这些方面,可以利用其他方面,并且可以在不偏离本公开的情况下进行结构变化。实施例可以作为方法、系统或装置进行实践。因此,实施例可以采取硬件实现、完全软件实现、或结合软件和硬件方面的实现的形式。因此,以下详细描述不应在限制意义上理解,并且本公开的范围由所附权利要求书及其等同物限定。
在示例中,生成式常识推理用于从概念集生成可信的描述。与概念集相比,生成的描述可以实现改进的数据检索,使得标识出响应用户查询的更大量和/或更准确的数据集。作为另一示例,生成的描述可能更容易被用户理解,或者可以用作向用户请求额外信息的备选方案,从而减小用户的认知和知识负担,并且也减少了用户需要花费输入信息的时间。例如,可以基于相关的标签集(例如,可以使用计算机视觉技术来生成和/或由用户提供)为图像生成描述性句子。作为另一示例,可以为概念集提供目标内容,从而可以为目标内容生成描述性标题和/或描述性总结。描述性标题和/或总结可以用于标识与用户相关联的目标内容,或者作为另一示例,可以使用来自用户的搜索查询来生成用于标识此类目标内容的描述性字符串。因此,将理解的是,生成推理和本文中所描述的相关方面在各种上下文中具有适用性。
生成式常识推理的示例包括但不限于:Situations With AdversarialGenerations(SWAG)、CommonsenseQA和CommonGen。例如,SWAG基于事件的给定文本描述来推断可能发生的后续事件。作为另一示例,CommonsenseQA通过描述来自语义网络(诸如,ConceptNet)的概念之间的关系,专注于常识性问题。与SWAG和CommonsenseQA执行的判别任务不同,commonGen是根据背景常识知识进行训练从而提供计算生成能力的示例。因此,将理解的是,本公开的方面适用于各种生成式常识推理上下文中的任何生成式常识推理上下文。
例如,给定“dog”、“Frisbee”、“catch”、“throw”的概念集,由此产生的合理描述可能是“the dog catches the Frisbee when the boy throws it”。然而,在真空中处理概念集(例如,缺乏额外的上下文)可能会产生不合理的描述。例如,生成的描述可能是“twodogs are throwing Frisbees to each other”。因此,在缺乏额外上下文时(例如,dogstypically catch Frisbees or dogs cannot throw Frisbees),生成式常识推理可能无法优先考虑某些概念组合,而可能产生难以置信或无法具有逻辑意义的描述。
因此,本公开的方面涉及用于生成式常识推理的知识注入模型。作为示例,原型是基于概念集从领域内知识语料库和/或领域外知识语料库生成的。原型与该概念集结合以生成输入(例如,包括输入令牌)令牌,该输入使用预训练的模型进行处理。将缩放因子分配给由模型编码的每个输入令牌。在示例中,生成缩放因子是为了减小与原型相关联的某些输入令牌的注意力权重,从而减小与概念输入令牌重叠的原型输入令牌接收扭曲的注意力权重的可能性。另外,周围的输入令牌可以描述概念如何相互作用。因此,可以为每个输入令牌生成位置指示符,它提供了输入令牌与其他输入令牌相比的相对位置的指示。因此,解码器鉴于位置指示符处理编码的令牌更能适应生成的原型在生成模型输出时引入的场景偏差。
本文中描述了关于使用编码器-解码器模型的示例,诸如BART。编码器-解码器模型可以包括一个或多个编码器层,其中每个编码器层由自注意力网络和前馈网络组成。编码器层还可以包括自注意力网络和前馈网络之间的编码器-解码器注意力机制。相似地,编码器-解码器模型可以包括一个或多个解码器层,其中每个解码器层可以包括自注意力网络和前馈网络。虽然在使用BART编码器-解码器模型的上下文中讨论了示例,但是将理解的是,可以使用其他各种生成式模型中的任何生成式模型(例如,包括编码器和解码器)。
下面提供了与编码器-解码器注意力机制相关联的示例方程集。输入令牌集(例如,包括概念集和相关联的生成的原型)可以被编码成隐藏状态或编码器输出序列
Figure BDA0004221307060000051
Figure BDA0004221307060000052
Figure BDA0004221307060000053
Figure BDA0004221307060000054
Figure BDA0004221307060000055
在上面的示例方程中,du被输入到解码器中,而hv是来自编码器的输出。另外,x表示第x个注意力头,而
Figure BDA0004221307060000056
是查询、键和值的可训练参数,d为隐藏状态序列的大小,dk为注意力头维度,LN为层范数函数。
概念集可以是多种形式中的任何形式。例如,概念集可以是从用户接收的,也可以是从句子生成的。在一些示例中,概念集是来自用户或从元数据生成的关键字集,或者其他实例。相应地,原型是基于概念集生成的。如本文中所使用的,原型包括背景知识,以改进来自编码器-解码器模型的模型输出。原型可以是与响应于用户的搜索查询的搜索结果相关联的句子或搜索片段,或者其他实例。原型可以是从领域内和/或领域外知识语料库生成的。例如,如果概念集与常见场景有关,则示例领域内外部知识语料包括但不限于VaTex(Wang et al.,2019)、SNLI(Bowman et al.,2015)、Activity(Krishna et al.,2017)、或commonGen的训练集。
然而,这样的领域内语料库可能难以泛化到其他领域。因此,可以使用领域外知识语料库(例如,维基百科、网站或社交网络)(例如,作为领域内知识语料库的备选或附加)来生成原型。可以使用一种或多种信息检索技术从知识语料库生成原型,诸如关键字搜索、精确或不精确匹配技术、或本体图数据库的图搜索技术等,或者其他实例。
生成的原型可以与概念集结合,以生成编码器-解码器模型的输入。例如,输入
Figure BDA0004221307060000061
使得输入令牌可以是/>
Figure BDA0004221307060000062
然而,原型输入令牌和概念输入令牌之间可能存在重叠,因此使得对某些输入令牌给予更多的注意力权重,并且在一些示例中,可能会引入额外的噪声。
相应地,缩放引擎可以为每个输入令牌生成缩放因子。在一些示例中,缩放因子可以用作利用简单硬掩码的备选方案,该简单硬掩码省略了也不作为原型输入令牌呈现的概念输入令牌。如果原型输入令牌可能有助于生成,那么缩放引擎可以增大与原型输入令牌相关联的编码器输出状态的范数(例如,上述方程中的hv),而当原型输入令牌和概念输入令牌之间存在冲突时,缩放引擎可以减小相关联的编码器输出状态的范数。下面提供了可以被缩放引擎使用的示例方程集。
Λ=Sigmoid(W2ReLU(W1hv+b1)+b2)
hv=hv⊙(2×Λ)
在该示例中,
Figure BDA0004221307060000063
是可训练的参数,用于调整缩放引擎。在一些情况下,参数可以被初始化为N(0,var),其中var是较小值,这样缩放引擎所生成的缩放因子不会大幅损害编码器-解码器模型的运行。
另外,与编码器-解码器模型的输出令牌
Figure BDA0004221307060000064
共同出现的原型输入令牌在生成模型输出时可能比其他令牌更重要。因此,编码器分类任务可以被用于使缩放引擎确定哪些令牌应出现在生成的输出中。下面示出了示例损失函数,编码器的缩放引擎可以使用该损失函数来执行这样的分类。
Figure BDA0004221307060000065
在上面的示例中,
Figure BDA0004221307060000066
是一个指示函数,使得如果/>
Figure BDA0004221307060000067
则/>
Figure BDA0004221307060000068
或者在备选地,当
Figure BDA0004221307060000069
如上所述,除了利用缩放引擎以外(或者,在一些示例中,作为备选方案),可以生成位置指示符以通知解码器输入令牌的位置。这样的位置指示符可以使得解码器能够更有效地标识和并入可能通过原型引入的场景偏差。例如,给定令牌的位置指示符可以根据其与概念输入令牌的接近度来确定。
例如,输入内的概念输入令牌可以各自接收“0”的值,而原型输入令牌可以接收“1”或更大的值。对于概念输入令牌“dog”和“thrown”的集合,包括“the Frisbee wasthrown to the dog”的原型令牌(可以被替代表示为包括每个令牌的列表)可以接收位置指示符4、3、2、1、2、2、1。在该示例中,“to”和“the”都接收“2”的位置指示符,因为它们都接近也是概念输入令牌的原型令牌(例如,分别是“thrown”和“dog”)。因此,可以根据与概念输入令牌的最小接近度来确定位置指示符。在备选方案中,第二个“the”反而将接收到与“thrown”相关的“3”的位置令牌,而不是前面讨论的与“dog”相关的“2”的位置令牌。
因此,生成的位置指示符集可以根据下面的示例方程集并入编码器-解码器注意力机制。如所示出的,用于为给定输入令牌生成位置指示符的上述技术被实现为函数D(sv),并且ED是D中那些距离值的嵌入。
ED(hv)=ED(D(sv))
Figure BDA0004221307060000071
因此,将ED(hv)并入如上所示的注意力方程中,使得解码器在处理编码器输出hv时能够并入相关联的位置指示符,以更好地学习从生成的原型产生的有效场景偏差。例如,将生成式常识推理应用于真空中的概念集“ear”、“feel”、“pain”、“pierce”,可能会产生与“Ican feel the pain in my ears and feel the pierce in my neck from thepiercing”相似的输出。然而,并入“if you pierce your hand,you also feel pain”的原型,将额外的知识注入到编码器-解码器模型所执行的处理中,从而使得模型在处理该概念集时能够包括场景偏差。如此,产生的输出可以被替代为“one feels the pain of havingan ear pierced”。
将理解的是,本公开的方面可以在生成阶段(例如,预训练的编码器-解码器模型)和/或在训练阶段期间使用。例如,损失函数
Figure BDA0004221307060000081
可以包含/>
Figure BDA0004221307060000082
如上所述。损失函数可以进一步并入下面所定义的/>
Figure BDA0004221307060000083
以在给定/>
Figure BDA0004221307060000084
和/>
Figure BDA0004221307060000085
的情况下最大化/>
Figure BDA0004221307060000086
的对数似然。
Figure BDA0004221307060000087
Figure BDA0004221307060000088
在上面的示例中,tk
Figure BDA0004221307060000089
中的第k个令牌,t<k是/>
Figure BDA00042213070600000810
中的第一个(k-1)令牌。另外,在模型训练期间,可以使用λ来平衡/>
Figure BDA00042213070600000811
和/>
Figure BDA00042213070600000812
以提高编码器-解码器模型的性能。
将理解的是,本公开的方面在各种上下文中具有适用性。例如,所公开的知识注入模型可以用于基于概念集来生成描述的生成式常识推理场景。例如,可以使用计算机视觉技术或基于用户提交的标签为图像生成标签集,使得可以相应地生成图像的描述性句子。描述性句子可以作为与图像相关联的备选文本标签提供给客户机计算设备。
作为另一示例,可以为概念集提供目标内容,使得可以为目标内容生成描述性标题和/或描述性总结。可以基于来自与描述性标题和/或描述性总结相匹配的用户设备的查询,将目标内容提供给用户设备。作为进一步的示例,可以从用户查询的概念集(例如,作为搜索查询字符串)生成描述性查询,该用户查询是从用户设备接收的。可以在描述性查询上标识目标内容。因此,所公开的技术可以实现改进的目标内容标识和分发,从而实现标识相关内容并将其显示给客户,否则相关内容可能不会被确定为响应于用户查询。另外,所公开的方面可以改进相关的用户体验,因为用户不需要向计算机系统提供尽可能多的信息,从而减少了用户的认知和知识负担,也减少了用户需要在输入信息上花费的时间量。相反,生成式常识推理技术和相关的知识注入模型用于补充所使用的信息量,以便生成可能由用户提供的概念的更完整的表示。
图1示出了其中可以利用本文中所描述的知识注入模型的示例系统100的概述。如图所示,系统100包括服务器设备102、客户端设备104、客户端设备106、网络108和域外数据源110。在示例中,服务器设备102、域外数据源110和客户端设备104和106使用网络108进行通信,网络108可以包括局域网、无线网络或互联网(Internet)、或者其任何组合,或者其他实例。
服务器设备102和域外数据源110各自可以是各种计算设备中的任何计算设备,包括但不限于服务器计算设备或构成分布式计算设备的计算设备集。相似地,客户端设备104和106各自可以是各种计算设备中的任何计算设备,包括但不限于移动计算设备、笔记本电脑计算设备、平板电脑计算设备或台式机计算设备。将理解的是,虽然系统100被示出为包括一个服务器设备102、两个客户端设备104和106以及一个域外数据源110,但是可以在其他示例中使用任意数目的此类元素。此外,本文中所描述的关于服务器设备102、客户端设备104和106以及领域外数据源110的功能可以分布在其他示例中的各种配置中的任何配置中的任意数目的不同计算设备之间或以其他方式在其上实现。例如,客户端设备104可以包括与领域外数据源110相似的领域外数据源,其可以用作从中根据本文公开的方面来生成原型的知识语料库。
客户端设备104被示出为包括客户端应用118,其可以是各种应用中的任何应用,诸如在web浏览器中执行的web应用、本机应用、或其组合。例如,客户端设备104的用户可以使用客户端应用118来导航到与服务器设备102相关联的网站,通过该网站提供概念集。相似地,客户端设备106被示出为包括客户端应用120。客户端设备106的方面类似于客户端设备104的方面,因此不必在下面详细地重新描述。
作为示例,客户端应用118可以显示网站,用户可以在该网站上输入查询以搜索内容。该查询可被传输到服务器设备102,该服务器设备102可从该查询提取概念集。生成式推理引擎112可以基于概念集(例如,从领域内数据存储114、领域外数据存储116和/或领域外数据源110)生成原型。然后,生成式推理引擎112可以基于包括该概念集和生成的原型的输入来生成模型输出。模型输出可以用于标识与用户查询相关联的目标内容,该内容可以被传输到客户端设备104,并由客户端应用118与响应于用户的搜索查询的搜索结果一起传输。将理解的是,在其他示例中不需要将概念集作为搜索查询接收。例如,客户端应用118可以使用应用编程接口(API)向服务器设备102提供概念集,并接收由生成式推理引擎112生成的模型输出和/或其他相关联的处理结果。
作为另一示例,客户端应用118可以使得用户能够输入与目标内容相关联的关键字集,该关键字集可以被提供给服务器设备102,以便根据本文中所描述的方面进行处理。生成式推理引擎112可以处理输入并生成一个或多个模型输出,该一个或多个模型输出包括与概念集相关联的目标内容的描述性标题和/或描述性总结。在示例中,目标内容、描述性标题和/或描述性总结可以由服务器设备102存储以供后续使用(例如,提供与响应于用户的搜索查询的搜索结果相关联的目标内容)。作为另一示例,概念集和生成的模型输出可以分别通过API接收和传输。因此,将理解的是,所公开的方面可以根据各种范例中的任何范例来实现(例如,作为经由API的服务,根据客户端/服务器的方法,或者本地到客户端设备,或者其他示例)。
服务器设备102包括生成式推理引擎112、领域内数据存储库114和领域外数据存储库116。生成式推理引擎112处理概念集以生成原型。可以基于知识语料库来生成原型,知识语料库可以由领域内数据存储库114、领域外数据存储库116和/或领域外数据源110存储或以其他方式从领域内数据存储库114、领域外数据存储库116和/或领域外数据源110访问。例如,领域外数据源110可以是第三方数据源,这样的社交网络或在线知识库(例如,在线百科全书或知识库网站)或者其他示例。在一些实例中,可以访问领域内或领域外数据或以其他方式从客户端设备接收。因此,知识语料库不必局限于服务器设备102。一种或多种信息检索技术可以用于从知识语料库生成原型,诸如关键字搜索、精确或不精确匹配技术,或者本体图数据库的图搜索技术,或者其他示例。
在示例中,生成式推理引擎112结合生成的原型处理概念集,以根据本公开的方面来生成模型输出。概念和原型形成包括本文中所描述的输入令牌的输入。示例概念包括但不限于词、主题或短语。因此,回到上面的示例,可以根据词边界或基于标识其中的一个或多个主题从搜索查询提取概念,或者其他示例。由生成式推理引擎112生成的模型输出可以采取多种形式中的任何形式。例如,生成式推理引擎112可以生成一个或多个句子(例如,上面示例中的描述性标题或描述性总结),或者可以利用模型输出随后标识相关内容(例如,上面示例中的目标内容)。虽然本文中描述了示例概念和由此产生的模型输出,但是将理解的是,可以根据本文中所描述的技术使用各种其他输入和输出中的任何输入和输出。
图2示出了根据所公开的知识注入模型的生成式常识推理的示例框架200的概述。如虚线框所示,框架200可以通由图1A中的生成式推理引擎112实现。在示例中,框架200基于编码器-解码器模型,诸如BART。
输入202是概念集,在一些示例中,该概念集可以从客户端设备(诸如,图1中的客户端设备104或106)接收。组嵌入206包括基于输入202的输入令牌集,其被示出为概念集合216和原型218。例如,原型218可以由图1中的生成式推理引擎112基于领域内和/或领域外知识语料库来生成。在示例中,对于概念
Figure BDA0004221307060000111
和原型/>
Figure BDA0004221307060000112
可以根据下面的示例方程生成组嵌入206,其中EB是原始BART嵌入函数。
Figure BDA0004221307060000113
如图所示,组嵌入206由编码器208处理。例如,编码器208的每个编码器层可以由自注意力网络和前馈网络组成。编码器层还可以包括自注意力网络和前馈网络之间的编码器-解码器注意力机制。缩放引擎210进一步为概念集合216和原型218的每个输入令牌分配缩放因子。如上所述,如果原型输入令牌可能有助于生成,那么缩放引擎210可以增大与原型218的原型输入令牌相关联的编码器输出状态的范数。相反,当原型218的原型输入令牌与概念集合216的概念输入令牌之间存在冲突时,缩放引擎210可以减小相关联的编码器输出状态的范数。
位置指示符生成器212为输入202的每个输入令牌生成位置指示符。这样的位置指示符可以使得解码器214能够更有效地标识和并入可能通过原型218引入的场景偏差。作为示例,给定令牌的位置指示符可以根据其与输入令牌的接近度来确定,该输入令牌与概念相同或相似。
解码器214可以包括一个或多个解码器层,其中每个解码器层可以包括自注意力网络和前馈网络。在示例中,对于由编码器208生成的编码组嵌入,解码器214基于由缩放引擎210生成的缩放因子、以及由位置指示符生成器212生成的位置指示符,生成模型输出204。如上所述,缩放引擎210确保概念集合216的输入令牌不会接收由于与原型218的潜在重叠而受到扭曲的注意力。另外,由于解码器214包含由位置指示符生成器212生成的位置指示符,与单独处理概念集相比,解码器214在包含由生成的原型产生的场景偏差方面更有效。
图3示出了用于根据生成式常识推理的所公开的知识注入模型来处理概念集的示例方法300的概述。在示例中,方法300的方面由生成式推理引擎执行,诸如图1和图2中的生成式推理引擎112。方法300从操作302开始,其中获得了概念集(例如,接收、生成等)。在示例中,从客户端设备接收概念集,诸如图1中的客户端设备104或106。作为另一示例,可以生成概念集,可以是使用计算机视觉技术来生成标签集的情况。示例概念包括但不限于词、主题或短语。概念集可以作为搜索查询或可以从其提取概念的其他字符串被接收,也可以经由API接收,或者其他示例。
流程进展到操作304,其中基于概念集来生成原型。在示例中,原型是从领域内和/或领域外知识语料库生成的,可以从领域外数据源(例如,图1中的域外数据源110)访问,或者由领域内数据存储库((例如,域内数据存储库114))或领域外数据存储库(例如,域外数据存储库116)存储。可以使用一种或多种信息检索技术来从知识语料库生成原型,诸如关键字搜索、精确或不精确匹配技术,或者本体图数据库的图搜索技术,或者其他示例。
在一些示例中,操作304包括从语料集确定知识语料库。例如,第一语料库可以从领域内语料集选择,而第二语料库可以从领域外语料集选择。该确定可以基于与概念集相关联的预定上下文或基于对概念集的分析,以标识相关联的领域内和/或领域外知识语料库。作为另一示例,可以从多个语料生成原型集,使得操作304还包括从原型集选择原型。例如,该选择可以基于根据与概念集或原型长度的相似性对原型集进行排序,或者其他示例。
在操作306中,概念集和生成的原型被视为编码器-解码器模型的输入并相应地被编码。例如,操作306的方面可以由编码器执行,诸如图2中的编码器208。如上所述,操作306可以包括利用多个编码器层,其中每个编码器层可以由自注意力网络和前馈网络组成。另外,每个编码器层还可以包括自注意力网络和前馈网络之间的编码器-解码器注意力机制。例如,可以为每个输入令牌生成初始表示或嵌入。然后,使用自注意力,可以聚合来自所有其他输入令牌的信息,并用于生成由整个上下文提供的每个输入令牌的新表示。在一些示例中,该技术对所有输入令牌重复多次,依次生成新的表示或嵌入。
流程进展到操作308,编码器输出基于概念集和生成的原型进行缩放。在示例中,操作308的方面由缩放引擎(诸如,图2中的缩放引擎210)执行。例如,如果原型输入令牌可能有助于生成(例如,可以确定原型输入令牌是否与概念相同或相似),则与原型输入令牌相关联的编码器输出状态的范数可以在操作308中增大。相反,当原型输入令牌与概念输入令牌之间存在冲突时,相关联的编码器输出状态的范数可能会减小。在一些示例中,操作308还包括执行编码器分类任务,在该任务确定哪些经编码的令牌可能出现在模型输出中,如上所述。所确定的经编码的令牌可以被优先处理并相应地缩放。在示例中,对编码器的每一层迭代地执行操作306和308。
流程进展到生成位置指示符的操作310。在示例中,操作310的方面由位置指示符生成器执行,诸如图2中的位置指示符生成器212。如上所述,可以为概念输入令牌和原型输入令牌生成位置指示符。给定令牌的位置指示符可以根据其与概念输入令牌的接近度来确定。概念输入令牌可以被分配“0”的位置指示符,而原型令牌可以接收“1”或更多的值。例如,如果原型输入令牌与概念输入令牌相同或相似,则可以使用“1”的指示符值,这样其他输入令牌的指示符值可以随着距离的增加而相应地增大。将理解的是,虽然示例被描述为随着与接近输入令牌(与概念输入令牌相同或相似)的距离的增加而线性增大位置指示符,但是可以使用其他技术。例如,位置指示符可以相乘或指数缩放,或根据其各种数学公式中的任何公式缩放。
在操作312处,根据生成的位置指示符对经缩放的编码输出进行解码。在示例中,操作312的方面由解码器执行,例如图2中的解码器214。如上所述,解码器可以包括一个或多个解码器层,其中每个解码器层可以包括自注意力网络和前馈网络。例如,可以逐词,同时参考由编码器结合生成的位置指示符生成的缩放表示,生成模型输出。例如,模型输出可以一次生成一个词(例如,从左到右)。
流程进展到操作314,其中提供生成的模型输出。在示例中,通过API提供模型输出,使得另一应用、进程和/或计算设备可以相应地使用模型输出。例如,与仅使用搜索查询相比,模型输出随后可以用作描述性查询,以便更好地标识内容(和/或目标内容)。作为另一示例,操作314可以包括存储生成的模型输出(例如,作为与目标内容相关联的描述性总结或标题)。因此,将理解的是,生成的模型输出可以用于各种场景中的任何场景。方法300终止于操作314。
虽然方法300被示出为顺序发生,将理解的是,这些方面不需要按照方法300所示的顺序执行,并且在一些示例中可以同时执行。作为示例,操作310不需要在操作306和308之后执行,但是在一些示例中,可以相反地与操作306和308中的至少一个同时发生。
图4-图7和相关联的描述提供了对可以在其中实践本公开的方面的各种操作环境的讨论。然而,所述设备和关于图4-图7所示和所讨论的系统是出于示例和说明的目的,并且不限制可以用于实践本文中所描述的本公开的方面的大量计算设备配置。
图4是示出计算设备400的物理组件(例如,硬件)的框图,可以用其实践本公开的方面。下面描述的计算设备组件可以适用于上面描述的计算设备,包括图1中的设备102、104和106。在基本配置中,计算设备400可以包括至少一个处理单元402和系统存储器404。根据计算设备的配置和类型,系统存储器404可以包括但不限于易失性存储器(例如,随机读写存储器)、非易失性存储器(例如,只读存储器)、闪存、或此类存储器的任何组合。
系统存储器404可以包括操作系统405和适合运行软件应用420的一个或多个程序模块406,诸如本文中所描述的系统支持的一个或多个组件。作为示例,系统存储器404可以包括缩放引擎424和位置指示符生成器426。例如,操作系统405可以适用于控制计算设备400的操作。
此外,本公开的实施例可以与图形库、其他操作系统或任何其他应用程序一起被实践,并且不限于任何特定的应用或系统。该基本配置在图4中由虚线408内的那些组件示出。计算设备400可以具有附加的特征或功能。例如,计算设备400还可以包括附加的数据存储设备(可移动的和/或非可移动的)(例如,磁盘、光盘或磁带)。这样的附加存储器在图4中由可移动存储设备409和非可移动存储设备410示出。
如上所述,多个程序模块和数据文件可以被存储在系统存储器404中。在处理单元402上执行时,程序模块406(例如,应用420)可以执行包括但不限于本文中所描述的方面的处理。可以根据本公开的方面使用的其他程序模块可以包括电子邮件和联系人应用、文字处理应用、电子表格应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。
此外,本公开的实施例可以在包括分立电子元件、包含逻辑门的封装或集成电子芯片、利用微处理器的电路的电路中实践,或者在包含电子元件或微处理器的单个芯片上实践。例如,本发明的实施例可以经由片上系统(SOC)来实践,其中图4中所示的每个或许多组件可以集成到单个集成电路上。这样的SOC器件可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元和各种应用功能,所有这些都作为单个集成电路集成(或“刻录”)到芯片衬底上。当通过SOC操作时,本文中所描述的与客户端切换协议的性能有关的功能可以通过与单个集成电路(芯片)上的计算设备400的其他组件集成的特定应用逻辑来操作。本公开的实施例也可以使用能够执行逻辑操作(例如,AND、OR和NOT)的其他技术来实现,包括但不限于机械、光学、流体和量子技术。此外,本发明的实施例可以在通用计算机或任何其他电路或系统中实践。
计算设备400还可以具有一个或多个输入设备412,诸如键盘、鼠标、笔、声音或语音输入设备、触摸或滑动输入设备等。也可以包括(多个)输出设备414,诸如显示器、扬声器、打印机等。上述设备是示例,也可以使用其它设备。计算设备400可以包括允许与其他计算设备450通信的一个或多个通信连接416。合适的通信连接416的示例包括但不限于射频(RF)发送器、接收器和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。
本文中所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括易失性和非易失性、可移动和非可移动介质,这些介质以任何用于存储信息的方法或技术实现,诸如计算机可读指令、数据结构或程序模块。系统存储器404、可移动存储设备409和非可移动存储设备410均为计算机存储介质示例(例如,存储器存储装置)。计算机存储介质可以包括RAM、ROM、可电擦只读存储器(EEPROM)、闪存或其他存储技术,CD-ROM、数字通用磁盘(DVD)或其他光学存储器、磁盒、磁带、磁盘存储器或其他磁性存储设备,或任何其他可用于存储信息并可由计算设备400访问的制造品。任何这样的计算机存储介质都可以是计算设备400的一部分。计算机存储介质不包括载波或其他传播或调制的数据信号。
通信介质可以通过计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据来具体实施,诸如载波或其他传输机制,并且包括任何信息递送介质。术语“调制数据信号”可以描述具有以这样的方式设置或改变的一个或多个特征以便在信号中编码信息的信号。通过示例而非限制的方式,通信介质可以包括有线介质,如有线网络或直接有线连接,以及无线介质,诸如声学、射频(RF)、红外和其他无线介质。
图5A和图5B示出了移动计算设备500,例如,移动电话、智能电话、可穿戴计算机(诸如,智能手表)、平板电脑、笔记本电脑等,可用于实践本公开的实施例。在一些方面,客户端可以是移动计算设备。参照图5A,示出了用于实现方面的移动计算设备500的一个方面。在基本配置中,移动计算设备500是同时具有输入元素和输出元素的手持计算机。移动计算设备500通常包括允许用户向移动计算设备500输入信息的显示器505和一个或多个输入按钮510。移动计算设备500的显示器505还可以用作输入设备(例如,触摸屏显示器)。
如果包括可选的侧输入元件515,其允许进一步的用户输入。侧输入元件515可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选方面,移动计算设备500可以包含更多或更少的输入元件。例如,显示器505在一些实施例中可以不是触摸屏。
在又一备选实施例中,移动计算设备500是便携式电话系统,诸如蜂窝电话。移动计算设备500还可以包括可选键盘535。可选键盘535可以是物理键盘或在触摸屏显示器上生成的“软”键盘。
在各种实施例中,输出元件包括用于显示图形用户界面(GUI)的显示器505、视觉指示器520(例如,发光二极管)和/或音频换能器525(例如,扬声器)。在一些方面,移动计算设备500包含用于向用户提供触觉反馈的振动传感器。在另一方面,移动计算设备500包含输入和/或输出端口,例如用于向外部设备发送信号或从外部设备接收信号的音频输入(例如,麦克风插孔)、音频输出(例如,耳机插孔和视频输出(例如,HDMI端口)。
图5B是示出移动计算设备的一个方面的架构的框图。即,移动计算设备500可以并入系统(例如,体系结构)502以实现一些方面。在一个实施例中,系统502被实现为能够运行一个或多个应用(例如,浏览器、电子邮件、日历、联系人管理器、消息客户端、游戏和媒体客户端/播放器)的“智能电话”。在一些方面,将系统502集成为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
可以将一个或多个应用程序566加载到存储器562中并在操作系统564上运行或与操作系统564相关联。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、因特网浏览器程序、消息传递程序等。系统502还包括存储器562内的非易失性存储区域568。非易失性存储区域568可以用于存储在系统502断电时不应丢失的持久信息。应用程序566可以在非易失性存储区域568中使用和存储信息,诸如电子邮件或由电子邮件应用使用的其他消息,等等。同步应用(未示出)也驻留在系统502上,并被编程为与驻留在主机上的对应的同步应用交互,以使存储在非易失性存储区域568中的信息与存储在主机上的相应信息保持同步。应理解的是,其他应用可以加载到存储器562中,并在本文中所描述的移动计算设备500上运行(例如,搜索引擎、提取器模块、相关性排序模块、答案评分模块等)。
系统502具有电源570,其可以被实现为一个或多个电池。电源570还可以包括外部电源,诸如用于对电池进行补充或充电的AC适配器或动力坞座。
系统502还可以包括无线电接口层572,其执行传输和接收射频通信的功能。无线电接口层572经由通信载波或服务提供方促进系统502与“外部世界”之间的无线连接。进出无线电接口层572的传输是在操作系统564的控制下进行的。换言之,无线电接口层572接收到的通信可以经由操作系统564传播给应用程序566,反之亦然。
视觉指示器520可以用于提供视觉通知,和/或音频接口574可以用于经由音频换能器525产生声音通知。在所示实施例中,视觉指示器520为发光二极管(LED),音频传感器525为扬声器。这些设备可以直接耦合到电源570,以便在激活时,它们在通知机制规定的持续时间内保持开启状态,即使处理器560和其他组件可以为了节省电池电量而关闭。LED可以被编程为无限期地保持开启,直到用户采取行动指示设备的上电状态。音频接口574用于向用户提供声音信号并接收来自用户的声音信号。例如,除了耦合到音频换能器525以外,音频接口574还可以耦合到麦克风以接收声音输入,诸如便于电话交谈。根据本公开的实施例,麦克风还可以用作音频传感器,以便于对通知的控制,如下所述。系统502还可以包括视频接口576,该视频接口576使得车载相机530的操作能够记录静止图像、视频流等。
实现系统502的移动计算设备500可以具有附加的特征或功能。例如,移动计算设备500还可以包括额外的数据存储设备(可移动和/或非可移动),诸如磁盘、光盘或磁带。这种附加存储器在图5B中由非易失性存储区域568示出。
由移动计算设备500生成或捕获的和通过系统502存储的数据/信息可以存储在本地移动计算设备500上,如上所述,或数据可以存储在任意数目的存储介质上,该存储介质可以由设备通过无线电接口层572或通过移动计算设备500和与移动计算设备500相关联的单独的计算设备之间的有线连接访问,例如,分布式计算网络中的服务器计算机,该分布式计算网络诸如互联网。应理解的是,可以通过无线电接口层572或通过分布式计算网络通过移动计算设备500访问此类数据/信息。相似地,根据众所周知的数据/信息传输和存储手段,包括电子邮件和协作数据/信息共享系统,可以容易地在计算设备之间传输此类数据/信息以进行存储和使用。
图6示出用于处理在计算系统上从远程源接收的数据的系统体系结构的一个方面,如上所述,远程源诸如个人计算机604、平板电脑计算设备606或移动计算设备608。在服务器设备602上显示的内容可以存储在不同的通信通道或其他存储类型中。例如,各种文档可以使用目录服务622、门户网站624、邮箱服务626、即时消息存储库628或社交网站630来存储。
与服务器设备602通信的客户端可以使用原型生成引擎620(例如,执行与图3中方法300的操作304类似的方面),并且/或生成式推理引擎621可以由服务器设备602使用。服务器设备602可以通过网络615向客户端计算设备诸如个人计算机604、平板电脑计算设备606和/或移动计算设备608(例如,智能手机)提供数据和从客户端计算设备提供数据。作为示例,上述计算机系统可以实施在个人计算机604、平板计算设备606和/或移动计算设备608(例如,智能电话)中。除接收图形数据外,计算设备的任何这些实施例都可以从存储器616获取内容,该图形数据可在图形源系统上进行预处理,或在接收计算系统上进行后处理。
图7示出了可以执行本文公开的一个或多个方面的示例性平板计算设备700。此外,本文中所描述的方面和功能可以在分布式系统(例如,基于云的计算系统)上运行,其中应用程序功能、存储器、数据存储和检索以及各种处理功能可以通过分布式计算网络(诸如,互联网或内部网)彼此远程操作。各种类型的用户界面和信息可以通过车载计算设备显示器或通过与一个或多个计算设备相关联的远程显示单元来显示。例如,可以在投射到其上的各种类型的用户界面和信息的壁面上显示各种类型的用户界面和信息并与之交互。与可用于实践本发明实施例的众多计算系统的交互包括按键输入、触摸屏输入、语音或其他音频输入、手势输入,其中相关计算设备配备了用于捕获和解释用于控制计算设备功能的用户手势的检测(例如,相机)功能,等等。
本公开涉及用于根据至少在下面的节段中提供的示例基于概念集来生成模型输出的系统和方法:
(A1)在一个方面,一些实施例包括一种系统(例如,400、500),所述系统包括:至少一个处理器(例如,402、560、561);以及存储器(例如,404、562),所述存储器存储指令,所述指令在由所述至少一个处理器执行时,使所述系统执行操作集(例如,图3),所述操作集包括:接收(例如,302)包括来自计算设备(例如,104、106)的搜索查询(例如,202)的指示;基于知识语料库(例如,110、114、116)获得(例如,304)针对与所述搜索查询相关联的概念集(例如,216)的原型(例如,218);基于所述概念集和所获得的所述原型对输入进行编码(例如,208、306),所述输入包括针对所述概念集的一个或多个概念输入令牌和针对所获得的所述原型的一个或多个原型输入令牌;缩放(例如,210、308)经编码的所述输入以减小针对第一原型输入令牌的经编码额输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似;针对所述输入的输入令牌生成(例如,212、310)位置指示符集;基于所述位置指示符集对经缩放的、经编码的所述输出进行解码(例如,214、312),以生成模型输出;基于所生成的所述模型输出(例如,204、314)来标识目标内容;以及响应于所接收的所述指示向所述计算设备提供(例如,314)所标识的所述目标内容。
(A2)在A1的一些实施例中,所述概念集(例如,216)的所述原型(例如,218)基于响应于所接收的所述搜索查询的搜索结果而被获得(例如,302)。
(A3)在A1-A2的一些实施例中,生成(例如,212、310)所述位置指示符集包括:针对每个输入令牌:当所述输入令牌为概念输入令牌(例如,216)时,生成第一值的位置指示符;当所述输入令牌为与概念输入令牌相似的原型输入令牌(例如,218)时,生成第二值的位置指示符,所述第二值大于所述第一值;以及当所述输入令牌为与概念输入令牌不相似的原型输入令牌时,生成第三值的位置指示符,所述第三值大于与概念输入令牌相似的最接近的原型输入令牌的位置指示符值。
(A4)在A1-A3的一些实施例中,所述第三值基于与所述概念输入令牌相似的所述最接近的原型输入令牌的距离被线性地确定。
(A5)在A1-A4的一些实施例中,响应于所接收的所述搜索查询的所述搜索结果从所述知识语料库(例如,110、114、116)被取回(例如,304)。
(A6)在A1-A5的一些实施例中,所述知识语料库基于所接收的所述搜索查询从知识语料集(例如,110、114、116)被确定。
(A7)在A1-A6的一些实施例中,所述知识语料库是领域内知识语料库(例如,114)或领域外知识语料库(例如,110、116)中的一者。
(B1)在另一方面,一些实施例包括一种系统(例如,400、500),所述系统包括:至少一个处理器(例如,402、560、561);以及存储器(例如,404、562),所述存储器存储指令,所述指令在由所述至少一个处理器执行时,使所述系统执行操作集(例如,图3),所述操作集包括:接收(例如,302)包括概念集(例如,216)的请求(例如,202);基于知识语料库(例如,110、114、116)针对所述概念集生成(例如,304)原型(例如,218);对包括输入令牌集的输入进行编码(例如,208、306),其中所述输入令牌集包括所述概念集的概念输入令牌和所述原型的原型输入令牌;针对所述输入的输入令牌生成(例如,212、310)位置指示符集,其中每个位置指示符指示输入令牌到与概念输入令牌相似的最接近的输入令牌的相对距离;基于所述位置指示符集对经编码的所述输出进行解码(例如,214、312),以生成模型输出(例如,204);以及响应于所述请求,提供(例如,314)所生成的所述模型输出。
(B2)在B1的一些实施例中,所述操作集还包括:缩放(210、308)经编码的所述输入以减小针对第一原型输入令牌的经编码的输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似。
(B3)在B1-B2的一些实施例中,所述知识语料库是领域内知识语料库或领域外知识语料库中的一者。
在进一步的方面,一些实施例包括一种用于基于概念集(例如,202)来生成模型输出(例如,204)的方法(例如,图3),所述方法包括:基于知识语料库(例如,110、114、116)针对概念集(例如,216)生成(例如,304)原型(例如,218);对包括输入令牌集的输入进行编码(例如,208、306),其中所述输入令牌集包括所述概念集的概念输入令牌和所述原型的原型输入令牌;缩放(例如,210、308)经编码的所述输入以减小针对第一原型输入令牌的经编码的输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似;针对所述输入的输入令牌生成(例如,212、310)位置指示符集;以及基于所述位置指示符集对经缩放的、经编码的输出进行解码(例如,214、312),以生成模型输出。
(C2)在C1的一些实施例中,所述方法还包括:接收(202、302)包括来自计算设备的搜索查询的指示;基于所述搜索查询来生成(302)所述概念集(例如,216);以及基于所生成的所述模型输出(204、314)来标识目标内容;以及响应于所述指示,提供(例如,314)所标识的所述目标内容。
(C3)在C1-C2的一些实施例中,所述方法还包括:从计算设备接收(202,302)作为与目标内容相关联的关键词的概念集;以及将所述模型输出(例如,204、314)存储为与所述目标内容相关联的描述性标题或描述性总结中的一者。
(C4)在C1-C3的一些实施例中,所述知识语料库(例如,110、114、116)是领域内知识语料库(例如,114)或领域外知识语料库(例如,110、116)中的一者。
(C5)在C1-C4的一些实施例中,知识语料库从基于所述概念集的知识语料集(例如,110、114、116)被确定。
例如,根据本公开的方面,参照方法、系统和计算机程序产品的框图和/或操作说明,上文描述了本公开的方面。在框图中所述的功能/动作可以不按任何流程图中所示的顺序发生。例如,根据所涉及的功能/行为,连续显示的两个框实际上可能基本上同时执行,或者这些框有时可能以相反的顺序执行。
本申请中提供的对一个或多个方面的描述和说明并不旨在以任何方式限制或约束如所要求保护的公开的范围。本申请中提供的方面、实施例和细节被认为足以传达所有权,并使得他人能够生产和使用所要求保护的公开的最佳模式。所要求保护的公开不应被解释为局限于本申请中提供的任何方面、示例或细节。无论组合还是单独地示出和描述,各种特征(结构上和方法上的)都旨在选择性地包括或省略,以产生具有特定特征集的实施例。在提供了本申请的描述和说明之后,本领域技术人员可以设想落在本申请中所体现的一般发明概念的更广泛方面的精神范围内的变化、修改和备选方面,这些方面不偏离所要求保护的公开的更广泛范围。

Claims (15)

1.一种系统,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,所述指令在由所述至少一个处理器执行时,使所述系统执行操作集,所述操作集包括:
接收包括来自计算设备的搜索查询的指示;
基于知识语料库,获得针对与所述搜索查询相关联的概念集的原型;
基于所述概念集和所获得的所述原型,对输入进行编码,所述输入包括针对所述概念集的一个或多个概念输入令牌和针对所获得的所述原型的一个或多个原型输入令牌;
缩放经编码的所述输入以减小针对第一原型输入令牌的经编码的输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似;
针对所述输入的输入令牌生成位置指示符集;
基于所述位置指示符集,对经缩放的、经编码的所述输出进行解码以生成模型输出;
基于所生成的所述模型输出,标识目标内容;以及
响应于所接收的所述指示,向所述计算设备提供所标识的所述目标内容。
2.根据权利要求1所述的系统,其中针对所述概念集的所述原型基于响应于所接收的所述搜索查询的搜索结果而被获得。
3.根据权利要求1所述的系统,其中生成所述位置指示符集包括:
针对每个输入令牌:
当所述输入令牌为概念输入令牌时,生成第一值的位置指示符;
当所述输入令牌为与概念输入令牌相似的原型输入令牌时,生成第二值的位置指示符,所述第二值大于所述第一值;以及
当所述输入令牌为与概念输入令牌不相似的原型输入令牌时,生成第三值的位置指示符,所述第三值大于与概念输入令牌相似的最接近的原型输入令牌的位置指示符值。
4.根据权利要求3所述的系统,其中所述第三值基于到与所述概念输入令牌相似的所述最接近的原型输入令牌的距离而被线性地确定。
5.根据权利要求2所述的系统,其中响应于所接收的所述搜索查询的所述搜索结果从所述知识语料库被取回。
6.根据权利要求5所述的系统,其中所述知识语料库基于所接收的所述搜索查询从知识语料集被确定。
7.根据权利要求1所述的系统,其中所述知识语料库是领域内知识语料库或领域外知识语料库中的一者。
8.一种系统,包括:
至少一个处理器;以及
存储器,所述存储器存储指令,所述指令在由所述至少一个处理器执行时,使所述系统执行操作集,所述操作集包括:
接收包括概念集的请求;
基于知识语料库,生成针对所述概念集的原型;
对包括输入令牌集的输入进行编码,其中所述输入令牌集包括所述概念集的概念输入令牌和所述原型的原型输入令牌;
针对所述输入的输入令牌生成位置指示符集,其中每个位置指示符指示输入令牌到与概念输入令牌相似的最接近的输入令牌的相对距离;
基于所述位置指示符集,对经编码的所述输出进行解码以生成模型输出;以及
响应于所述请求,提供所生成的所述模型输出。
9.根据权利要求8所述的系统,其中所述操作集还包括:
缩放经编码的所述输入以减小第一原型输入令牌的经编码的输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似。
10.根据权利要求8所述的系统,其中所述知识语料库是领域内知识语料库或领域外知识语料库中的一者。
11.一种用于基于概念集来生成模型输出的方法,包括:
基于知识语料库,生成针对概念集的原型;
对包括输入令牌集的输入进行编码,其中所述输入令牌集包括所述概念集的概念输入令牌和所述原型的原型输入令牌;
缩放经编码的所述输入以减小第一原型输入令牌的经编码的输出状态的第一范数,所述第一原型输入令牌与所述概念输入令牌的第一概念输入令牌相似;
针对所述输入的输入令牌生成位置指示符集;以及
基于所述位置指示符集,对经缩放的、经编码的所述输出进行解码以生成模型输出。
12.根据权利要求11所述的方法,还包括:
接收包括来自计算设备的搜索查询的指示;
基于所述搜索查询,生成所述概念集;以及
基于所生成的所述模型输出,标识目标内容;以及
响应于所述指示,提供所标识的所述目标内容。
13.根据权利要求11所述的方法,还包括:
从计算设备接收概念集作为与目标内容相关联的关键词;以及
将所述模型输出存储为与所述目标内容相关联的描述性标题或描述性总结中的一者。
14.根据权利要求11所述的方法,其中所述知识语料库是领域内知识语料库或领域外知识语料库中的一者。
15.根据权利要求14所述的方法,其中知识语料库从基于所述概念集的知识语料集而被确定。
CN202080107084.2A 2020-11-12 2020-11-12 生成式常识推理的知识注入模型 Pending CN116438529A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2020/128481 WO2022099566A1 (en) 2020-11-12 2020-11-12 Knowledge injection model for generative commonsense reasoning

Publications (1)

Publication Number Publication Date
CN116438529A true CN116438529A (zh) 2023-07-14

Family

ID=81601987

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080107084.2A Pending CN116438529A (zh) 2020-11-12 2020-11-12 生成式常识推理的知识注入模型

Country Status (4)

Country Link
US (1) US20230394333A1 (zh)
EP (1) EP4244738A4 (zh)
CN (1) CN116438529A (zh)
WO (1) WO2022099566A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230036352A1 (en) * 2021-07-22 2023-02-02 Qatar Foundation For Education, Science And Community Development Cross-domain label-adaptive stance detection

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7917528B1 (en) * 2007-04-02 2011-03-29 Google Inc. Contextual display of query refinements
US20140358964A1 (en) * 2013-05-28 2014-12-04 International Business Machines Corporation Natural language processing (NLP) query formulation engine for a computing device
US20190287012A1 (en) * 2018-03-16 2019-09-19 Microsoft Technology Licensing, Llc Encoder-decoder network with intercommunicating encoder agents
US11232154B2 (en) * 2019-03-28 2022-01-25 Microsoft Technology Licensing, Llc Neural related search query generation
US10970278B2 (en) * 2019-03-29 2021-04-06 Microsoft Technology Licensing, Llc Querying knowledge graph with natural language input
US11520971B2 (en) * 2019-03-30 2022-12-06 The Regents Of The University Of California System and method for artificial intelligence story generation allowing content introduction

Also Published As

Publication number Publication date
WO2022099566A1 (en) 2022-05-19
EP4244738A4 (en) 2024-08-07
EP4244738A1 (en) 2023-09-20
US20230394333A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
JP6850877B2 (ja) オンデバイスモデルを使用するスマートリプライ
US20210134173A1 (en) Neural models for key phrase detection and question generation
JP6701206B2 (ja) ユーザーエクスペリエンスを向上させるためにあいまいな表現を弁別すること
US11200269B2 (en) Method and system for highlighting answer phrases
US11580350B2 (en) Systems and methods for an emotionally intelligent chat bot
US11250839B2 (en) Natural language processing models for conversational computing
US9965465B2 (en) Distributed server system for language understanding
CN110168575B (zh) 用于信息检索评分的动态张量注意力
US20180060728A1 (en) Deep Embedding Forest: Forest-based Serving with Deep Embedding Features
US11556548B2 (en) Intelligent query system for attachments
US20180203851A1 (en) Systems and methods for automated haiku chatting
CN107590153B (zh) 使用卷积神经网络的对话相关性建模
US20180143978A1 (en) Query Rewriting and Interactive Inquiry Framework
CN111386686B (zh) 用于回答与文档相关的查询的机器阅读理解系统
CN111247778A (zh) 使用web智能的对话式/多回合的问题理解
US20140379323A1 (en) Active learning using different knowledge sources
KR20160127810A (ko) 온스크린 아이템 선택 및 명확화를 위한 모델 기반 방식
US11829374B2 (en) Document body vectorization and noise-contrastive training
US20230306205A1 (en) System and method for personalized conversational agents travelling through space and time
US20160335261A1 (en) Ranking for efficient factual question answering
WO2016171993A1 (en) Identifying experts and areas of expertise in an organization
WO2021086573A1 (en) Intelligent e-mail subject line suggestions and reformulation
CN116438529A (zh) 生成式常识推理的知识注入模型
US20240119099A1 (en) Document re-finding system
WO2022119702A1 (en) Document body vectorization and noise-contrastive training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination