CN114830148A - 可控制有基准的文本生成 - Google Patents
可控制有基准的文本生成 Download PDFInfo
- Publication number
- CN114830148A CN114830148A CN202080088072.XA CN202080088072A CN114830148A CN 114830148 A CN114830148 A CN 114830148A CN 202080088072 A CN202080088072 A CN 202080088072A CN 114830148 A CN114830148 A CN 114830148A
- Authority
- CN
- China
- Prior art keywords
- text
- machine learning
- learning model
- computer
- reference source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/02—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail using automatic reactions or user delegation, e.g. automatic replies or chatbot-generated messages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/42—Mailbox-related aspects, e.g. synchronisation of mailboxes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
一种可控制基准响应生成框架包括机器学习模型、基准接口和控制接口。机器学习模型被训练为基于输入文本输出计算机生成的文本。基准接口由机器学习模型可使用来访问包括与输入文本相关的信息的基准源。控制接口可由机器学习模型用来识别控制信号。机器学习模型被配置为将来自基准源的信息包括在计算机生成的文本中,并且基于控制信号聚焦计算机生成的文本。
Description
背景技术
利用机器学习或其他人工智能技术的计算系统可以被训练以成生成文本。然而,生成与人类说话者/作者难以区分的文本是一个极其困难的问题。最近关于大规模神经生成模型(诸如广义扰动理论-2(GPT-2)模型)的工作在生成风格和连贯性(flow)与源自人类说话者/作者的文本更近似的文本方面已经展示出一些前景。然而,当更仔细地检查时,由这种神经模型生成的文本经常包括无意义的陈述和/或上下文错误的事实。
发明内容
一种可控制有基准的响应生成(controllable grounded response generation)框架包括机器学习模型、基准接口(grounding interface)和控制接口。机器学习模型被训练为基于输入文本输出计算机生成的文本。基准接口由机器学习模型可使用以访问包括与输入文本相关的信息的基准源(grounding source)。控制接口由机器学习模型可使用以识别控制信号。机器学习模型被配置为将来自基准源的信息包括在计算机生成的文本中,并且基于控制信号聚焦计算机生成的文本。
提供本发明内容是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用来限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。
附图说明
图1示意性地示出了实现机器学习模型的示例文本生成计算系统。
图2示出了由不同训练的机器学习模型生成的不同示例会话响应。
图3示意性地示出了示例可控制有基准的响应生成框架。
图4A-图4D示出了一个示例场景,其中可控制有基准的响应框架的控制接口接收来自用户的输入,并且将接收到的输入用作用于聚焦计算机生成的文本的控制信号。
图5示意性地示出了不同的示例机器学习模型。
图6-图9示出了指示使用不同机器学习模型执行的实验的结果的不同的表。
图10示出了绘制由两个不同的机器学习模型提供的潜在响应的符号级概率的曲线图。
图11示出了指示控制和基准(grounding)对机器学习模型的文本生成的影响的不同示例曲线图。
图12示出了指示控制引导机器学习模型产生具有不同语义的自然语言响应的方式的表。
图13是用于响应于来自用户的输入而提供计算机生成的文本的示例方法的流程图。
图14示意性地示出了示例计算系统。
具体实施方式
文本生成计算系统允许计算机模仿人类的语音和写作能力,并且可以被配置为生成用于任何数目的不同目的的文本。作为一个示例,人类用户可以与计算机进行会话(例如,经由合成语音和/或书面文本),并且文本生成计算系统可以生成会话的计算机的“侧”,该会话可以以合成语音和/或显示文字的形式被呈现给人类用户。作为另一示例,文本生成计算系统可以被配置为在给定种子文本的情况下编写新文本(例如,如果提供了种子短语“美国”,则起草关于美国的新文章)。作为又一示例,文本生成计算系统可以被配置为重新编写由人类用户先前起草的完成或部分完成的作品(例如,用更好的语法、拼写和连贯性来重新编写先前起草的关于美国的文章)。本文所描述的文本生成计算系统通过协作地集成基准和控制来对现有方法进行改进,使得计算机生成的文本事实上准确、上下文相关并且针对人类用户的兴趣定制。
图1示意性地示出了实现机器学习模型102的示例文本生成计算系统100。文本生成计算系统可以具有任何合适的硬件配置和形状因素。作为非限制性示例,文本生成计算系统可以是膝上型计算机、台式计算机、智能电话、平板电脑、媒体中心、智能扬声器设备、智能手表、虚拟/混合现实设备或物联网(IoT)设备(例如,智能恒温器、光控制器、安全相机)。在一些示例中,文本生成计算系统可以被实现为以下关于图14描述的计算系统1400。
在图1的示例中,人类用户104提供输入文本(在本文中也称为人类或用户提供的文本或文本种子)106:“美国(The United States)”。作为非限制性示例,用户提供的文本106可以对计算机化的个人助理说出,并且随后经由语音识别机器被翻译成文本。作为另一示例,用户提供的文本106可以被键入到计算机应用中,诸如文字处理器、电子邮件应用、聊天应用、或者被配置为识别键入的文本的其他应用。更一般地,用户提供的文本可以使用与任何合适的对应软件协作的任何合适的输入硬件(例如,麦克风和/或键盘)来输入。用户提供的文本可以使用文本字符串数据结构或任何其他合适的计算机可读数据格式来表示。用户提供的文本在本文中可以被称为人类提供的文本种子,因为机器学习模型可以使用人类提供的文本种子作为用于生成文本以帮助用户的起点。
文本生成计算系统可以被配置为生成用于各种不同目的的文本和/或执行其他合适的动作来帮助用户。使用图1的示例,在人类用户104输入用户提供的文本106之后,文本生成计算系统使用机器学习模型102来输出计算机生成的文本108,这将在下面参考图3和图14更详细的描述。计算机生成的文本108在用户提供的文本106的“美国”主题上展开,从而自动编写关于用户提供的文本106的短段落。
图1示出了通信耦合到网络110的文本生成计算系统100,网络110可以是任何合适的计算机网络(例如,局域网(LAN)和/或互联网)。也耦合到网络110是是被配置为训练机器学习模型102的训练系统112。在不脱离本公开的范围的情况下,可以使用任何合适的训练过程和/或策略。机器学习模型102可以在训练系统112上被训练,并且然后被部署到文本生成计算系统100和/或服务器124。在一些示例中,机器学习模型102在训练系统112上被训练,然后被部署到文本生成计算系统100,在文本生成计算系统100中,机器学习模型本地执行并且输出计算机生成的文本。在一些示例中,机器学习模型在训练系统112上被训练,并且然后被部署到服务器102。服务器102可以被配置为经由网络110从一个或多个远程设备接收文本生成请求,并且服务器102可以被配置为使用机器学习模型102向(多个)请求设备输出计算机生成的文本。应该注意,文本生成计算系统和训练系统不需要是连接了网络的。例如,机器学习模型的训练可以离线进行。一旦模型进行了足够训练,机器学习模型就可以被复制到不同的系统—例如,个人助理计算系统或网络可访问服务器。
机器学习模型102可以包括被训练为输出计算机生成的文本的任何合适的模型。在一些实现中,机器学习模型102可以包括端到端的人工神经网络。在一些实现中,机器学习模型102可以包括基于变换器的语言模型。在一些实现中,机器学习模型102被配置为使用自注意力。广义扰动理论(GPT)、GPT-2和GPT-3模型是使用自注意力的合适的基于变换器的语言模型的非限制性示例。在一些实现中,可以使用基于变换器的双向编码器表示(BERT)。
用于开放域响应生成的端到端神经模型能够生成流畅且上下文适当的会话响应。尽管最早的神经生成模型的特点是平淡且模棱两可的响应,但令人惊讶的是,可以使用最近的多样性增强策略和大规模GPT-2/GPT-3风格模型来生成类似人类的对话。虽然平淡可能不再是一个挑战,但是仍有倾向于“错觉”或“虚假”输出的缺点,如图2的场景I所示的那种,在该场景I中,用户说“告诉我更多关于它的信息”,模型响应说“我不确定……可能是一部超级英雄电影……”。
有基准的响应生成方法可以抑制事实的错觉。然而,在没有以控制和语义目标对准(semantic targeting)的情况下单独基准(例如,图2的场景II中关于“爱乐之城”的维基百科页面)可能导致输出准确但模糊或不相关,诸如当模型在图2的场景II中通过说“它是一部2016年的电影……”来响应时。另一方面,可控制文本生成提供了一定程度的语义控制,其可以将解码器引导向相关输出,但是在缺乏基准的情况下,控制短语不能与正确的事实相关联(例如,图2中的场景III,在场景III中,模型通过说“它由达米恩·查泽雷主演……”来响应)。然而,本文公开的文本生成框架结合了基准知识和词汇控制两者,以生成具有可靠的、上下文适当的信息的类似人类的文本(例如,图2中的场景IV,在场景IV中,模型通过说“它是一部由达米恩·查泽雷导演的音乐电影,并且瑞恩·高斯林也在里面!”来响应)。
图3示意性地示出了可控制有基准的响应生成框架(CGRG)300。图1的机器学习模型102、图14的计算系统和/或任何其他合适的文本生成计算系统可以利用框架300。如本文所使用的,“响应”与文本同义,并且因此包括不是会话响应的文本(例如,原始文档或原始电子邮件消息)。
如图3所示,可控制有基准的响应生成框架300使用机器学习模型102,以基于1)人类提供的文本106、2)基准302和3)控制304输出计算机生成的文本108。这样,可控制有基准的响应生成框架包括由机器学习模型可使用以访问包括与人类提供的文本相关的信息的基准源的基准接口,以及由机器学习模型可使用以识别控制信号的控制接口。基准接口和/或控制接口可以包括应用编程接口(API)、应用二进制接口(ABI)、网络协议、文件系统协议、助手应用、数据库接口、和/或用于将信息和/或信号输入机器学习模型中的任何其他合适的通信通道。在一些实现中,基准接口和/或控制接口可以利用存储子系统1404、输入子系统1408和/或通信接口1410的计算机硬件,如下面参考图14所讨论的。使用这些接口,机器学习模型被配置为从(多个)基准源获取信息,并且基于控制信号聚焦计算机生成的文本。通过使用基准302和控制304两者,相信计算机生成的文本108比仅利用基准或控制的情况下生成的文本具有更高的质量(例如,更高的上下文相关性、更高的事实准确性、更聚焦用户的兴趣)。
人类提供的文本106可以包括文本字符串数据结构(例如,从键入的输入或者语音到文本机器的输出推导出)、语义向量、和/或其他机器可识别的数据。在一些情况下,人类提供的文本是与自动化助理的会话的一部分。在一些情况下,人类提供的文本是由人类用户创作的部分完成或全部完成的作品。此外,应该理解,人类提供的文本的一些到全部文本不需要总是源自人类用户。作为示例,会话场景中的人类提供的文本也可以包括先前的计算机生成的话语和/或其他上下文信息。在一些情况下,“文本”数据从另一形式的信息中推导出。例如,机器学习模型102可以被配置为基于照片来生成文本,并且因此可以利用一个或多个先前训练的分类器,这些分类器被配置为向机器学习模型供应与照片相对应的文本描述符(例如,基于西雅图太空针塔的照片向机器学习模型102供应文本描述符—西雅图、太空针塔、白天、云)。在一些场景中,人类提供的文本是一种控制304。
基准302可以包括在一个或多个机器可访问的数据库和/或其他信息存储库中所收集的领域不可知的和/或领域特定的信息。在一些示例中,基准302可以利用通用或专用搜索引擎,例如通过向搜索引擎供应人类提供的文本106的全部或子集、和/或(例如,由先前训练的语义检测模型)从人类提供的文本推导出的语义向量。在一些示例中,所有基准信息可以本地存储。在一些示例中,基准302可以由一个或多个远程源(例如,经由应用编程接口(API)查询的远程数据库)提供。作为一个非限制性示例,语义检测模型可以对人类提供的文本106进行操作,以评估人类提供的文本的最可能的主题,并且经由搜索API针对最可能的主题而检索到的文章可以被用作基准302(例如,由维基百科API提供的维基百科文章是对准由必应搜索API提供的必应搜索结果的)。
控制304可以包括人类提供的控制和/或从内容规划器或其他自动化系统自动提取的控制。例如,在人类用户使用文字处理器来创作文档的场景中,文字处理器可以被配置为接收来自用户的输入,以及将接收到的输入用作用于聚焦计算机生成的文本的控制信号。词汇控制不仅强化响应特异性,还可以过滤冗长、不相关和/或不合逻辑的基准。计算机生成的文本的词汇控制在编辑助理中具有帮助人们编写文档、电子邮件和/或其他写作的应用,因为用户提供的控制可以将写作的内容聚焦在人们发现最有趣和/或最适当的基准事实上。
例如,图4A示出了一种场景,其中用户将人类提供的文本406“美国”键入到文字处理器400中,并且文字处理器使用利用一个或多个基准源(例如,图3的基准302—例如,关于美国的维基百科文章)的机器学习模型(例如,图1和图3的机器学习模型102)来显示计算机生成的文本408。
图4B继续图4A的示例,并且示出用户已经键入字母“gd”作为计算机生成的文本408的延续。响应于识别出“gd”,文字处理器示出由“gd”控制信号控制的从“美国”基准源获取的显著事实410。在图示的示例中,文字处理器呈现了三个可能的显著事实,并且用户选择了第一个呈现的事实—“按人均GDP第8”。所选择的“按人均GDP第8”作为控制信号被提供给机器学习模型。图4C示出了更新的计算机生成的文本408′,其中基于GDP控制信号添加的段是粗体和斜体的形式。
图4D描绘了另一示例,其中一个人键入关键字来指示他们的语义意图,并且机器学习模型使用控制来输出计算机生成的文本。具体地,机器学习模型充当响应编辑助理,其根据会话历史、用户的部分输入(“达米恩(Damien)”)和基准知识来为用户A建议候选响应。
图4A-图4D的示例不是限制性的。可以向用户提供各种不同的用户接口,以用于向机器学习模型提供人类提供的文本种子和/或控制信号。此外,在一些场景中,控制信号可能不直接和/或专门来自用户。例如,在用户正在参与与计算机化个人助理的会话的场景中,向用户询问可用于聚焦计算机化个人助理的会话话语的控制信息可能会干扰会话的连贯性。在这样的示例中,可以自动生成控制信号,例如,如下面参考内容规划器所描述的。此外,应该理解,在至少一些实现中,用户提供的文本被认为是初始控制信号。
除了生成文本和/或作为生成文本的一部分之外,图1的文本生成计算系统100、和/或图3的可控制有基准的响应生成框架300可以执行计算、控制其他计算机和/或硬件设备(例如,通过调用API)、通过网络通信(例如,以调用远程计算设备的API)、和/或执行其他计算动作。这些动作的其他非限制性示例包括控制电子设备(例如,打开/关闭用户家中的灯、调节恒温器、和/或经由显示器/扬声器播放多媒体内容),与商业服务和/或其他服务交互(例如,调用API以经由叫车服务调度乘车和/或经由递送服务订购食物/包裹),和/或与其他计算机系统进行交互(例如,从网站或数据库访问信息、发送电子邮件、和/或在日历程序中访问用户的日程)。
上面介绍的可控制有基准的响应生成框架300和机器学习模型102可以被不同地配置,而不脱离本公开的范围。取决于期望的应用,不同的机器学习模型、不同的助手机器(例如,语音到文本机器、语义检测机器、或图像分类器机器)、不同的基准源和/或不同的控制接口可能是适当的。下面提供了如何组合控制和基准以提供更高质量的计算机生成的文本的非限制性示例的更详细讨论。然而,应该理解,许多变化都在本公开的精神之内。
可控制有基准的响应生成框架的概念可以被形式化如下:给定对话上下文X,p个词汇控制短语C=(C1,…,Cp)和q个基准句子G=(G1,…,Gq),生成包含由C引导的语义信息的响应R=(r1,···,rm)。控制可以由用户直接提供,或者可以从内容规划器自动推导出。为了区分,经验证的或用户提供的控制被表示为C,并且由内容规划器提供的控制被表示为C~。
可控制有基准的响应生成可选地可以在与有基准的会话数据集的协作中使用。在下面的示例中,假设每个数据实例包括对话上下文、基准知识和参考响应。为了分析这个框架,提供了针对每个实例定义一个或多个控制短语的控制机制。为了更加聚焦基准,用户控制是与目标响应和基准知识的某些部分两者都相关的词汇短语。因为让人类注释所有控制短语可能是昂贵的和/或不可缩放的,所以使用词汇匹配,其中控制短语是在基准和参考响应两者中都出现的信息n元语法(n-gram)。
如上所述,机器学习模型可以包括GPT-2机器学习模型或从GPT-2机器学习模型被推导出。GPT-2是在大规模Web数据上被训练的基于变换器的语言模型并且使用自注意力,其中每个符号(token)都注意其左边的符号。训练它的目的是在给定已定义的上下文窗口内的所有先前词语的情况下,预测下一个词语。
为了在CGRG内应用GPT-2,X、C(和/或C~)和GC被串联为输入序列,如图5(上部)所示。给定串联的输入序列(表示为S)和R中先前的响应符号,该模型预测下一个响应词语。GC是与C相关的G的子集。例如,在这项工作中,包含C中任何短语的基准句子被表示为GC。为了区分输入元素,在X中的每个对话话语的结束处插入文本结束符号<eos>,在C中的每个控制短语的结束处插入<c>符号,在GC中的每个句子的结束处插入<s>符号。
输入序列S和响应序列R首先被串联成长文本。源序列被表示为S=(w1,…,wn),其用于生成目标句子R。P(R|S)的条件概率可以写作条件概率的积:
其中rm+1是指示生成结束的附加的文本结束符号。
默认情况下,GPT-2将连续的文本序列作为输入。使用上述方法,X、C、GC的每个输入元素是分段的格式,并且这些分段不一定是强连接的。因此,简单地将所有东西串联成GPT-2模型可能引起噪声。
通过在C与GC之间注入预先建立的结构信息,可以移除每个数据示例的潜在无信息的注意力链接。例如,在图5中(下部),C可以包括C1、C2、C3,并且GC可以包括G1和G2。如果已知C1仅在G1中找到,那么应该仅保留C1与G1之间的注意力链接,而不是C1和任何其他基准句子之间的注意力链接。因为相信GC是来自G的分段句子集,所以在GC符号内所有的跨句子链接都被移除。类似地,非完全相同的短语之间的所有链接都被移除。因此,每个数据示例的注意力链接由C与GC之间的结构信息预先确定。为了实现这一点,在每个变换器层中,应用注意力屏蔽,其中所移除的注意力链接和到未来符号的链接的值为0,而其他的值为1。这种预先计算的注意可以被称为归纳注意力(inductive attention)。每个响应符号仍然注意所有输入符号及其左边的其他响应符号。
然后,针对每个变换器头,堆叠矩阵Q、K和V可以表示每个示例序列(串联的S和T)。注意力(Attention)计算如下(d是模型尺寸):
当没有提供黄金约束(即,由用户提供的经验证的约束)时,可以通过用两个内容规划器进行实验来评估本文公开的模型的有效性。第一个内容规划器是简单的基于检索的管线,其中,针对每个测试对话上下文,(i)G中的句子通过IDF加权的词语与X重叠来排序;(ii)提取前50个句子中的统计短语;以及(iii)在50个句子中最频繁出现的两个统计短语被用作C~。为简单起见,仅使用名词短语。
BERT QA形成了第二个内容规划器的基础。以X作为查询、G作为文档、以及C作为答案,BERT QA模型可以在训练示例上被微调。然后经微调的模型可以用于预测关于测试示例的答案。前两个答案可以作为预测的控制短语C~,并且如果字符串与第一个答案重叠,则可以丢弃第二个答案。
实现细节:类型和位置嵌入:在上述GPT-2基线和归纳注意力(GPT2IA)模型中,针对每个输入符号,既有类型嵌入又有位置嵌入。X、GC中的每个句子、C中的每个短语、以及响应R可以被视为单独的分段。GC中句子的最大数目可以被设置为20,并且C中短语的最大数目可以被设置为10,因此产生针对X的“0”;针对GC的“1-20”;针对C的“21-30”,以及针对R符号的“31”,作为类型嵌入。此外,针对输入中的每个分段,每个符号的位置嵌入是其在该分段中的位置。
训练:在一个示例场景中,可以使用具有117M参数的小型GPT-2,其中输入或目标响应序列的最大长度为512。遵循GPT-2协议,可以使用BPE符号化。该模型和所有其他基于GPT-2的基线可以在DialoGPT之上被训练,DialoGPT是基于GPT-2在147M Reddit评论链上被训练的会话响应生成模型。DialoGPT的Reddit训练或验证示例都没有与测试示例重叠。可以使用批量大小32,并且可以在有效集上调谐学习速率和预热步骤。
推理:贪婪搜索可以用作GPT-2和GPT2IA设置的解码策略。然而,实验设置也可以应用网格波束搜索(GBS)来与词汇约束的解码和/或其他解码方法进行比较。与GBS的比较可以提供关于它是否有助于在训练和推理两者期间将约束编码成隐藏状态的深入了解,因为GBS仅在推理期间使用词汇约束。
数据集:可以使用以关于覆盖178个子版块(subreddit)的网页(例如,新闻故事和维基百科文章)的Reddit会话为特征的有基准的Reddit会话数据集。为了使该数据集支持可控制文本生成,参考响应中的每个n元语法(n≤5)可以被匹配到每个基准句子。为了确保控制短语的某些信息性,针对一元语法(unigram)的IDF阈值(例如,8.5)可以被设置。当两个n元语法除了添加的功能词或标点之外完全相同时,仅使用较短的版本。此外,在对话上下文中出现的匹配的n元语法可以被移除,因为相信新词语更有信息性。针对每个数据实例,剩余的(多个)匹配的n元语法是控制短语。在给定对话上下文的情况下,众包工作者可以用于注释所提取的控制短语是否是参考响应的中心。例如,可以由多个评委(例如,三个评委)对每个响应评级(例如,1-6级),并且可以使用平均得分来评估响应。在2000个带注释的示例的示例测试中,中值得分为4.33,并且67.4%的示例的得分超过4。仅保留能够找到至少一个匹配短语的示例。目标响应与基准之间的这种严格的词汇匹配被相信增加了保留的示例具有高比率的基准利用率的可能性,这促进了在响应生成中利用基准。在处理之后,训练、开发和测试的话语数目被减少(例如,训练从2.36M减少到390K;开发从0.12M减少到6.7K;测试从0.34M减少到21K)。在测试中,所有参考响应的平均长度从大约18.5增加到26.5;C中用于训练、开发和测试的短语的平均数目分别为1.32、1.27和1.38;GC中用于训练、开发和测试的句子的平均数目分别为4.37、4.32和4.25。在实验中使用了多达3轮对话。
实验设置:评估系统:进行实验以从不同响应生成模型和输入设置的比较中汲取深入了解。根据以下设置对模型进行评估:
X:这是用于不可控制响应生成的标准设置,其中仅给定对话上下文(即没有基准,没有控制)。使用最新一代模型GPT-2进行了实验。
X+G:这是用于有基准的响应生成的标准设置(即没有控制)。比较了两个模型:CMR和GPT-2。CMR是组合了MRC模型和LSTM解码器的最新有基准的响应生成模型。针对该设置的GPT-2将X和G串联作为其输入。注意,由于两个模型都有输入序列长度限制,因此仅随机选择的基准句子子集被馈送到每个模型中。
X+C:这是可控制响应生成设置(即没有基准)。通过串联X和C来使用GPT-2进行实验
X+GC:这个设置衡量了只有与C相关的基准、但是当C没有被显式地提供时,只有与C相关的基准如何帮助响应生成。通过串联X和GC作为输入来使用GPT-2进行实验。
X+C+GC:这个设置衡量了有基准的控制如何帮助响应生成。通过连接X、GC和C作为输入来使用GPT-2和GPT2IA进行实验。
X+C+G:该设置与诸如网格波束搜索(GBS)的其他受约束的生成方法相比较,在GBS中,词汇控制短语仅在解码阶段中被添加而不影响训练。使用GPT-2进行实验,其中X和G是仅有的编码输入,并且C仅应用于利用GBS的解码。
为了提供对实验得分的更多深入了解,人类响应也作为“系统”被评估。这是可能的,因为使用了具有3.3k个独特测试对话上下文的多参考测试集。针对每个测试对话上下文,多达6个参考被重新训练,并且一个被留出用于评估,因此“人类响应”可以针对自动评估的剩余参考被评估。为了确保可比性,所有系统都针对相同的5个参考被评估。针对每个评估度量,5个参考之中的最高得分被报告。
评估:实验包括用户可控制的(即“黄金”用户提供的控制短语)和自动的(即来自内容规划器的控制短语)响应生成。由于不同的参考响应并入不同的黄金控制短语,因此针对用户可控制的设置使用单参考评估。预测的控制短语独立于参考响应,因此多参考评估可以在自动生成设置中使用。
针对自动评估,生成的响应的总体相关性利用包括BLEU-4、ME-TEOR和NIST-4的度量来衡量。NIST是BLEU的一种变体,其通过n元语法匹配的信息增益对n元语法匹配进行加权,这惩罚了无信息的n元语法。生成的响应中n元语法的多样性利用作为n元语法类型数目与n元语法总数之间的比率的Distinct-n来衡量。还使用了人类评估,如下文更详细描述的。
为了给出对控制短语如何帮助加强针对生成的特异性水平的理解,在用户可控制设置中,控制短语包括率被报告,控制短语包括率是几乎不被包括在生成的响应中的黄金控制短语的百分比。然而,较低的包括率不一定指示在满足用户的控制请求方面性能较差,因为词汇控制短语在生成时被视为软语义引导,而不是硬约束。
结果和分析:用户可控制响应生成:使用单参考评估来分析用户可控制有基准的响应生成框架。在图6的表中,第1-3行不是可控制设置,并且没有控制短语作为输入,而第4-8行显示地或隐式地具有控制短语作为输入。第(1-3)行与第(4-8)行之间巨大的性能差距指示了添加控制的价值。此外,通过比较图6的表中的各行,可以得出以下结论:(i)1对3:简单地将基准添加到模型输入在有限程度上改进了性能;(ii)2对3:GPT-2总体上比最新有基准的模型CMR执行得更好,这指示了预先训练和具有基于变换器的解码器的组合有助于改进文本生成;(iii)4对7-8:与具有所有基准相比,提供约束敏感型基准提升了性能;(iv)5对7-8:以显式方式提供控制短语是重要的;(v)6对7-8:在隐藏状态中应用控制有助于模型相比仅在解码时应用控制生成更好质量的响应;以及(vi)7对8:归纳注意力有助于减少噪声和改进GPT-2的性能。
尽管第6行与第7-8行之间的比较表明,在隐藏状态下应用控制比在解码时应用严格约束更有效,但是在训练和解码阶段的控制可以潜在地是互补的。
自动响应生成:在全自动会话场景中,可以使用内容规划器来预测控制短语,以便利用本文公开的用于自动响应生成的框架。图7中的表示出了提取控制短语的两种简单方式(如上所述)可以提升生成性能。
图7的表的第一部分比较了没有向模型提供控制或预测控制短语(C~)的设置。可以看出,基于检索和基于BERT QA的内容规划器两者都达成了良好的结果。
图7的表的第二部分示出了通过对黄金控制短语设置和切割出的人类响应进行评估的上限。针对每个测试对话上下文,从多达5个参考中随机选择一个参考,并且使用相对应的黄金控制短语来进行生成以及针对这5个参考进行评估。图7的表的最后一行示出了对人类响应的评估结果。应该注意,在多参考设置中,利用GPT2IA的X+C+GC仍然给出了最佳性能。图6和图7中用于黄金控制设置的表之间的差异反映了如下事实:预计如NIST和BLEU的度量在多参考评估中比在单参考评估中更高。
作为内容规划器的中间评估,图8的表报告了C~和G中的符号相对于参考响应的精确度和召回率(移除针对停用词和标点的计数)。针对每个测试对话上下文,计算给出最高F1得分的参考响应的值,并且报告针对每个度量的所有测试示例之中的平均值。应当注意,基于检索的内容规划器预测的短语质量略好于BERT QA,但仍然与黄金控制短语差距很大。
通过比较图8的表的上半部分和下半部分,可以看出,使用设计更好的内容规划器可以潜在地引起模型生成更好质量的响应。
人类评估:人类评估是使用众包工作者进行的。在图9的表中给出了针对与先前对话的相关性和适当性以及与背景文本的一致性(作为事实正确性的度量)的结果。将来自每个系统的成对的随机化输出呈现给评委。提供文档标题、文档的一小段以及多达两轮会话作为上下文。根据五点李克特量表(five-point Likert scale)进行判断,并且平局(tie)是允许的。三到四名评委评估每个对,并施加度量以阻止表现不佳的评委。评分者之间的一致意见是“公平的”,其中Krippendorff的α系数为0.32。X+C+GC+GPT2IA优于其他系统,在一致性的情况下除外,在该情况下X+C+GC+GPT2IA和X+C+GC+GPT2之间没有统计差异,两者都是有基准的系统。
定性分析:图10示出了基准知识如何通过绘制X+C和X+C+GC系统的符号级概率来帮助进行生成。选择了关于不常见实体的示例,以消除知识在预先训练中被捕获的可能性。图10示出了给定以下项的情况下的潜在响应的符号级概率:对话上下文“你知道新教员的教育背景吗,萨姆?”、控制短语“多伦多大学”和“神经网络”、以及基准句子“萨姆在中国科技大学获得了他的物理学学士学位。他在日本东京大学做了6个月的访问学生,当时他是从2010到2012年香港大学计算机科学的硕士生。并且他于2017年在加拿大多伦多大学完成了他的博士学位,研究重点是关于文本生成的神经网络的可解释性”。有基准的模型将较高的概率分配给来自基准的上下文词语,诸如“毕业”和“论文”,以及事实正确的实体符号,如“2017”。有基准的模型将较低的概率分配给事实不正确的符号,诸如“经济学”。这些事实表明,基准知识可能有助于可控制生成:(1)将控制短语上下文化;以及(ii)区分正确的和不正确的事实。
图11进一步示出了控制和基准对文本生成的影响。图11列出了在给定相同对话上下文和基准、以及控制短语“加拿大”的情况下在部分响应之后的前6个符号。没有基准且不可控制的模型依据“大学”给出了通常所知的美国州名的平均分布概率。添加基准有助于模型基于背景知识来将位置排序。进一步添加控制有助于模型定位到正确的或预期的答案。
可以利用显式控制短语来剖析生成过程。图12的表示出了控制如何引导或干扰GPT2IA模型以产生具有不同语义的响应。
CGRG框架允许用户将软语义控制注入文本生成过程。CGRG框架并入了将用户的语义意图上下文化以及提升信息可靠性的基准。可以添加归纳注意力机制,以提升基于自注意力的生成模型(如GPT-2)的性能。CGRG框架可以配置为使用内容规划器来自动提供控制,而无需显式的用户控制。
注意,本文描述的概念可以广泛地适用于任何合适的预先训练的文本生成模型。在一些实现中,这样的预先训练的文本生成模型可以包括基于变换器的模型,诸如GPT-1、GPT-2、GPT-3、BERT以及来自变换器的鲁棒双向编码器表示(RoBERTa)。在其他一些实现中,预先训练的文本生成模型可以被配置为与不同种类的底层架构(诸如长短期记忆(LSTM)神经网络模型)一起工作。
图13示出了用于响应于来自用户的输入来提供计算机生成的文本的示例方法1300。例如,该方法可以由计算系统来执行,该计算系统被配置为利用机器学习模型来训练和/或执行可控制有基准的响应生成框架(CGRG)300,如上所述。
在1302,方法1300包括接收人类提供的文本作为机器学习模型的输入。
在1304,方法1300包括经机器学习模型可使用的基准接口来访问包括与人类提供的文本相关的信息的基准源。在一些示例中,基准源可以是网络可访问的基准源,并且基准接口可以被配置为经由网络从基准源检索信息。
在1306,方法1300包括利用由机器学习模型可使用的控制接口来识别控制信号。在一些示例中,控制信号可以是人类提供的。在其他一些示例中,控制信号可以是计算机自动生成的,诸如由内容规划器自动生成。
在1308,方法1300包括基于人类提供的文本来输出计算机生成的文本,其中计算机生成的文本包括来自基准源的信息,并且其中计算机生成的文本基于控制信号被聚焦。
本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。具体地,这样的方法和过程可以被实现为可执行的计算机应用、网络可访问的计算服务、应用编程接口(API)、库、或者上述和/或其他计算资源的组合。
图14示意性地示出了计算系统1400的简化表示,计算系统1400被配置为提供本文描述的计算功能性中的任何到所有计算功能性。计算系统1400可以被配置为利用机器学习模型来训练和/或执行可控制有基准的响应生成框架(CGRG)300,如上所述。计算系统1400可以采取以下形式:一个或多个个人计算机、网络可访问的服务器计算机、平板计算机、家庭娱乐计算机、游戏设备、移动计算设备、移动通信设备(例如,智能电话)、虚拟/增强/混合现实计算设备、可穿戴计算设备、物联网(IoT)设备、嵌入式计算设备、和/或其他计算设备。
计算系统1400包括逻辑子系统1402和存储子系统1404。计算系统1400可以可选地包括显示子系统1406、输入子系统1408、通信子系统1410、和/或图14中未示出的其他子系统。
逻辑子系统1402包括被配置为执行指令的一个或多个物理设备。例如,逻辑子系统可以被配置为执行作为一个或多个应用、服务或其他逻辑构造的一部分的指令。逻辑子系统可以包括被配置为执行软件指令的一个或多个硬件处理器。附加地或备选地,逻辑子系统可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件设备。逻辑子系统的处理器可以是单核或多核的,并且在其上执行的指令可以被配置用于顺序、并行、和/或分布式的处理。逻辑子系统的个体组件可选地可以分布在两个或更多个单独的设备之中,这些设备可以位于远程和/或被配置用于协同处理。逻辑子系统的各方面可以被虚拟化,并由在云计算配置中配置的可远程访问的联网计算设备来执行。
存储子系统1404包括被配置为临时和/或永久保存计算机信息(诸如由逻辑子系统可执行的数据和指令)的一个或多个物理设备。当存储子系统包括两个或更多个设备时,这些设备可以并置和/或远程定位。存储子系统1404可以包括易失性、非易失性、动态、静态、读取/写入、只读、随机存取、顺序存取、位置可寻址、文件可寻址、和/或内容可寻址的设备。存储子系统1404可以包括可移除和/或内置的设备。当逻辑子系统执行指令时,存储子系统1404的状态可以被变换—例如,以保存不同的数据。
逻辑子系统1402和存储子系统1404的各方面可以一起集成到一个或多个硬件逻辑组件中。例如,这样的硬件逻辑组件可以包括程序专用和应用专用的集成电路(PASIC/ASIC)、程序专用和应用专用的标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑器件(CPLD)。
逻辑子系统和存储子系统可以协作以实例化一个或多个逻辑机器。如本文所使用的,术语“机器”用来统称硬件、固件、软件、指令和/或协作提供计算机功能性的任何其他组件的组合。换句话说,“机器”从来都不是抽象的概念,且总是具有有形的形式。机器可以由单个计算设备实例化,或者机器可以包括由两个或更多个不同计算设备实例化的两个或更多个子组件。在一些实现中,机器包括与远程组件(例如,由服务器计算机的网络提供的云计算服务)协作的本地组件(例如,由计算机处理器执行的软件应用)。给予特定机器其功能性的软件和/或其他指令可以可选地作为一个或多个未执行的模块而保存在一个或多个合适的存储设备上。
机器可以使用最新的和/或未来的机器学习(ML)、人工智能(AI)和/或自然语言处理(NLP)技术的任何合适组合来实现。可以并入一个或多个机器的实现中的技术的非限制性示例包括支持向量机、多层神经网络、卷积神经网络(例如,包括用于处理图像和/或视频的空间卷积网络、用于处理音频信号和/或自然语言句子的时间卷积神经网络、和/或被配置为跨一个或多个时间和/或空间维度卷积和池化特征的任何其他合适的卷积神经网络)、递归神经网络(例如,长短期记忆网络)、关联存储器(例如,查找表、哈希表、布隆过滤器、神经图灵机、和/或神经随机存取存储器)、词语嵌入模型(例如,GloVe或Word2Vec)、无监督的空间和/或聚类方法(例如,最近邻算法、拓扑数据分析、和/或k均值聚类)、图模型(例如,(隐)马尔可夫模型、马尔可夫随机场、(隐)条件随机场、和/或AI知识库)、和/或自然语言处理技术(例如,符号化、词干化、成分和/或依赖性解析、和/或意图识别、分段模型、和/或超分段模型(例如,隐动态模型))。
在一些示例中,本文描述的方法和过程可以使用一个或多个可微函数来实现,其中可微函数的梯度可以关于可微函数的输入和/或输出(例如,关于训练数据,和/或关于目标函数)来计算和/或估计。这种方法和过程可以至少部分地由可训练参数集来确定。相应地,可以通过任何合适的训练程序来调整用于特定方法或过程的可训练参数,以便持续改进该方法或过程的功能。
用于调整可训练参数的训练程序的非限制性示例包括监督训练(例如,使用梯度下降或任何其他合适的优化方法)、零样本(zero-shot)、小样本、无监督学习方法(例如,基于从无监督聚类方法推导出的类别的分类)、强化学习(例如,基于反馈的深度Q学习)、和/或生成对抗神经网络训练方法、信念传播、RANSAC(随机样本共识)、上下文赌博机(contextual bandit)方法、最大似然方法、和/或期望最大化。在一些示例中,本文描述的系统的多个方法、过程和/或组件可以关于衡量多个组件的集体功能的性能的目标函数(例如,关于强化反馈和/或关于带标记的训练数据)被同时训练。同时训练多个方法、过程和/或组件可以改进这样的集体功能。在一些示例中,一个或多个方法、过程和/或组件可以独立于其他组件被训练(例如,在历史数据上的离线训练)。
语言模型可以利用词汇表特征来引导对用于语音识别的词语的采样/搜索。例如,语言模型可以至少部分地由词语或其他词汇表特征的统计分布来定义。例如,语言模型可以由n元语法的统计分布来定义,根据词汇表统计来定义候选词语之间的转移概率。语言模型还可以基于任何其他适当的统计特征、和/或利用一个或多个机器学习和/或统计算法处理统计特征的结果(例如,从这样的处理得到的置信度值)。在一些示例中,统计模型可以(例如,基于音频信号中的词语来自特定词汇表的假设)约束针对音频信号哪些词语可以被识别。
备选地或附加地,语言模型可以基于一个或多个神经网络,该神经网络先前被训练为表示共享潜在空间中的音频输入和词语,例如,由一个或多个音频和/或词语模型(例如,wav2letter和/或word2vec)学习的向量空间。相应地,寻找候选词语可以包括基于由针对音频输入的音频模型编码的向量来搜索共享潜在空间,以便找到用于利用词语模型来解码的候选词语向量。共享潜在空间可以用于针对一个或多个候选词语来评估候选词语在语音音频中出现的置信度。
语言模型可以与声学模型结合使用,该声学模型被配置为基于词语的声学特征(例如,梅尔频率倒谱系数、共振峰等)针对候选词语和音频信号评估候选词语被包括在音频信号的语音音频中的置信度。可选地,在一些示例中,语言模型可以并入声学模型(例如,语言模型的评估和/或训练可以基于声学模型)。声学模型(例如,基于带标记的语音音频)定义声学信号与基本声音单元(诸如音素)之间的映射。声学模型可以基于最新的或未来的机器学习(ML)和/或人工智能(AI)模型的任何合适组合,例如:深度神经网络(例如,长短期记忆、时间卷积神经网络、受限玻尔兹曼机、深度信念网络)、隐马尔可夫模型(HMM)、条件随机场(CRF)和/或马尔可夫随机场、高斯混合模型、和/或其他图模型(例如,深度贝叶斯网络)。要利用声学模型来处理的音频信号可以以任何合适的方式被预处理,例如,以任何合适的采样率编码、傅立叶变换、带通滤波等。声学模型可以被训练为基于利用带标记的音频数据的训练来识别声学信号与声音单元之间的映射。例如,可以基于包括语音音频和经校正文本的带标记的音频数据来训练声学模型,以便学习语音音频信号与经校正文本所表示的声音单元之间的映射。对应地,声学模型可以持续改进,以改进其正确识别语音音频的效用。
在一些示例中,除了统计模型、神经网络和/或声学模型之外,语言模型还可以并入任何合适的图模型,例如,隐马尔可夫模型(HMM)或条件随机场(CRF)。在给定语音音频和/或迄已识别的其他词语的情况下,图模型可以利用统计特征(例如,转移概率)和/或置信度值来确定识别词语的概率。对应地,图模型可以利用统计特征、先前训练的机器学习模型、和/或声学模型来定义图模型中表示的状态之间的转移概率。
当被包括时,显示子系统1406可以用于呈现由存储子系统1404保存的数据的视觉表示。这种视觉表示可以采取图形用户接口(GUI)的形式。显示子系统1406可以包括利用几乎任何类型技术的一个或多个显示设备。在一些实现中,显示子系统1406可以包括一个或多个虚拟、增强或混合现实显示器。
当被包括时,输入子系统1408可以包括一个或多个输入设备或者与之对接。输入设备可以包括传感器设备或用户输入设备。用户输入设备的示例包括键盘、鼠标、触摸屏或游戏控制器。在一些实施例中,输入子系统可以包括选定的自然用户输入(NUI)元件或与之对接。这样的元件可以是集成的或外围的,并且输入动作的转导和/或处理可以在板上或板外被处理。示例NUI元件可以包括用于语音和/或声音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪。输入子系统1408可以用于提供控制(例如,图3的控制302)和/或人类提供的文本(例如,图1和图3的人类提供的文本106)。
当被包括时,通信子系统1410可以被配置为将计算系统1400与一个或多个其他计算设备通信地耦合。通信子系统1410可以包括与一个或多个不同的通信协议兼容的有线和/或无线通信设备。通信子系统可以被配置为经由个人网络、局域网和/或广域网通信。通信子系统1410可以用于访问来自远程源的基准(例如,图3的基准302)。通信子系统1410还可以用于在协作但位于远程的计算系统之间传输对于文本生成和/或生成的文本的请求。
本公开通过示例并参考相关附图来呈现。在一个或多个附图中可能基本相同的组件、过程步骤和其他元素被协同地标识,并以最小的重复进行描述。然而,应该注意,协同地标识的元素也可能在某种程度上不同。还应注意,一些附图可能是示意性的,并未按比例绘制。图中所示的各种绘图比例、纵横比和组件数目可能被故意扭曲,以使某些特征或关系更容易看到。
在一个示例中,存储子系统保存指令,该指令由逻辑子系统可执行以实例化可控制基准响应生成框架的指令。该框架包括:被训练为基于输入文本来输出计算机生成的文本的机器学习模型、由机器学习模型可使用来访问包括与输入文本相关的信息的基准源的基准接口、以及由机器学习模型可使用来识别控制信号的控制接口,其中机器学习模型被配置为将来自基准源的信息包括在计算机生成的文本中,并基于控制信号来聚焦计算机生成的文本。在该示例和/或其他一些示例中,指令可以是文字处理应用的一部分,并且文字处理应用可以使用该框架来基于输入文本、基准源和控制信号自动编写和/或重新编写针对人类用户的文档。在该示例和/或其他一些示例中,指令可以是电子邮件应用的一部分,并且电子邮件应用可以使用该框架来基于输入文本、基准源和控制信号自动编写和/或重新编写针对人类用户的电子邮件消息。在该示例和/或其他一些示例中,输入文本可以是会话文本,指令可以是个人助理应用的一部分,并且个人助理应用可以使用框架来基于会话文本、基准源和控制信号自动生成用于响应人类用户的会话文本的会话话语。在该示例和/或其他一些示例中,可以经由用户接口接收控制信号。在该示例和/或其他一些示例中,控制信号可以包括使用自动化系统所生成的控制短语。在该示例和/或其他一些示例中,基准源可以是网络可访问的基准源,并且基准接口可以被配置为经由网络从基准源检索信息。在该示例和/或其他一些示例中,机器学习模型可以包括基于变换器的语言模型。在该示例和/或其他一些示例中,机器学习模型可以使用自注意力。在该示例和/或其他一些示例中,机器学习模型可以使用归纳注意力。
在一个示例中,存储子系统保存指令,该指令由逻辑子系统可执行以实例化文字处理应用的指令,文字处理应用包括被配置为接收输入文本种子和包括用户输入的控制信号的用户接口、被训练为基于输入文本种子来输出计算机生成的文本的机器学习模型、由机器学习模型可使用来访问包括与输入文本种子相关的信息的基准源的基准接口、以及由机器学习模型可使用来识别控制信号的控制接口,其中机器学习模型被配置为:将来自基准源的信息包括在计算机生成的文本中,以及基于控制信号来聚焦计算机生成的文本。在该示例和/或其他一些示例中,文字处理应用可以被配置为基于输入文本种子、基准源、和控制信号自动编写和/或重新编写针对人类用户的文档。在该示例和/或其他一些示例中,文字处理应用可以是电子邮件应用,其被配置为基于输入文本种子、基准源和控制信号自动编写和/或重新编写针对人类用户的电子邮件消息。在该示例和/或其他示例中,用户接口可以包括音频输入接口,并且输入文本种子可以是人类用户说出的会话文本。在该示例和/或其他一些示例中,用户接口可以包括音频输入接口,并且控制信号是会话文本。在该示例和/或其他一些示例中,机器学习模型可以包括基于变换器的语言模型。在该示例和/或其他一些示例中,基准源可以是网络可访问的基准源,并且基准接口可以被配置为经由网络从基准源检索信息。在该示例和/或其他一些示例中,机器学习模型可以使用自注意力。在该示例和/或其他一些示例中,机器学习模型可以使用归纳注意力。
在一个示例中,计算机实现的方法由机器学习模型来执行。该方法包括:接收输入文本作为对机器学习模型的输入,经由机器学习模型可使用的基准接口访问包括与输入文本相关的信息的基准源,利用由机器学习模型可使用的控制接口来识别控制信号,以及基于输入文本来输出计算机生成的文本,其中计算机生成的文本包括来自基准源的信息,并且其中计算机生成的文本基于控制信号被聚焦。
应该理解,本文描述的配置和/或方法本质上是示例性的,并且这些具体实施例或示例不应被认为是限制性的,因为许多变化是可能的。本文描述的特定例程或方法可以表示任何数目的处理策略中的一个或多个。这样,所示出和/或描述的各种动作可以以所示出和/或描述的顺序、以其他顺序、并行执行或者被省略。同样,上述过程的顺序可以改变。
本公开的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合,以及在此公开的其他特征、功能、动作和/或属性,及其任何和所有等同物。
Claims (15)
1.一种存储子系统,其保存指令,所述指令由逻辑子系统可执行以实例化可控制基准响应生成框架,所述框架包括:
机器学习模型,被训练成基于输入文本来输出计算机生成的文本;
基准接口,由所述机器学习模型可使用来访问基准源,所述基准源包括与所述输入文本相关的信息;以及
控制接口,由所述机器学习模型可使用来识别控制信号;
其中所述机器学习模型被配置为:将来自所述基准源的信息包括在所述计算机生成的文本中,以及基于所述控制信号来聚焦所述计算机生成的文本。
2.根据权利要求1所述的存储子系统,其中所述指令是文字处理应用的一部分,并且所述框架由所述文字处理应用用来基于所述输入文本、所述基准源、和所述控制信号来自动编写和/或重新编写针对人类用户的文档。
3.根据权利要求1所述的存储子系统,其中所述指令是电子邮件应用的一部分,并且所述框架由所述电子邮件应用用来基于所述输入文本、所述基准源、和所述控制信号来自动编写和/或重新编写针对人类用户的电子邮件消息。
4.根据权利要求1所述的存储子系统,其中所述输入文本是会话文本,所述指令是个人助理应用的一部分,并且所述框架由所述个人助理应用用来基于所述会话文本、所述基准源、和所述控制信号来自动生成用于响应人类用户的所述会话文本的会话话语。
5.根据权利要求1所述的存储子系统,其中所述控制信号是经由用户接口被接收的。
6.根据权利要求1所述的存储子系统,其中所述控制信号包括使用自动化系统所生成的控制短语。
7.根据权利要求1所述的存储子系统,其中所述基准源是网络可访问的基准源,并且其中所述基准接口被配置为经由网络从所述基准源检索信息。
8.根据权利要求1所述的存储子系统,其中所述机器学习模型包括基于变换器的语言模型。
9.根据权利要求1所述的存储子系统,其中所述机器学习模型使用自注意力。
10.根据权利要求1所述的存储子系统,其中所述机器学习模型使用归纳注意力。
11.一种计算机实现的方法,其由机器学习模型执行,所述方法包括:
接收输入文本作为对所述机器学习模型的输入;
经由所述机器学习模型可使用的基准接口,访问基准源,所述基准源包括与所述输入文本相关的信息;
利用所述机器学习模型可使用的控制接口来识别控制信号;以及
基于所述输入文本输出计算机生成的文本,其中所述计算机生成的文本包括来自所述基准源的信息,并且其中所述计算机生成的文本基于所述控制信号被聚焦。
12.根据权利要求11所述的计算机实现的方法,其中所述控制信号是经由用户接口被接收的。
13.根据权利要求11所述的计算机实现的方法,其中所述控制信号包括使用自动化系统所生成的控制短语。
14.根据权利要求11所述的计算机实现的方法,其中所述基准源是网络可访问的基准源,并且其中所述基准接口被配置为经由网络从所述基准源检索信息。
15.根据权利要求11所述的计算机实现的方法,其中所述机器学习模型包括基于变换器的语言模型。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962950009P | 2019-12-18 | 2019-12-18 | |
US62/950,009 | 2019-12-18 | ||
US16/817,124 | 2020-03-12 | ||
US16/817,124 US11741306B2 (en) | 2019-12-18 | 2020-03-12 | Controllable grounded text generation |
PCT/US2020/058995 WO2021126388A1 (en) | 2019-12-18 | 2020-11-05 | Controllable grounded text generation |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114830148A true CN114830148A (zh) | 2022-07-29 |
Family
ID=76438252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080088072.XA Pending CN114830148A (zh) | 2019-12-18 | 2020-11-05 | 可控制有基准的文本生成 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11741306B2 (zh) |
EP (1) | EP4078472A1 (zh) |
CN (1) | CN114830148A (zh) |
WO (1) | WO2021126388A1 (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021207768A1 (en) * | 2020-04-10 | 2021-10-14 | Square Panda Inc. | Custom text generation based on skill profile |
CN111709248B (zh) * | 2020-05-28 | 2023-07-11 | 北京百度网讯科技有限公司 | 文本生成模型的训练方法、装置及电子设备 |
US11356389B2 (en) * | 2020-06-22 | 2022-06-07 | Capital One Services, Llc | Systems and methods for a two-tier machine learning model for generating conversational responses |
US20220058444A1 (en) * | 2020-08-19 | 2022-02-24 | Capital One Services, Llc | Asymmetric adversarial learning framework for multi-turn dialogue response generation |
US20220094713A1 (en) * | 2020-09-21 | 2022-03-24 | Sophos Limited | Malicious message detection |
US11405337B2 (en) * | 2020-09-23 | 2022-08-02 | Capital One Services, Llc | Systems and methods for generating dynamic conversational responses using ensemble prediction based on a plurality of machine learning models |
US20220091713A1 (en) * | 2020-09-23 | 2022-03-24 | Capital One Services, Llc | Systems and methods for generating dynamic interface options using machine learning models |
US11621930B2 (en) * | 2020-09-23 | 2023-04-04 | Capital One Services, Llc | Systems and methods for generating dynamic conversational responses using trained machine learning models |
US11854540B2 (en) * | 2021-01-08 | 2023-12-26 | Accenture Global Solutions Limited | Utilizing machine learning models to generate automated empathetic conversations |
US11748555B2 (en) * | 2021-01-22 | 2023-09-05 | Bao Tran | Systems and methods for machine content generation |
US20220261551A1 (en) * | 2021-02-05 | 2022-08-18 | Nec Laboratories America, Inc. | Multi-faceted knowledge-driven pre-training for product representation learning |
US11507757B2 (en) * | 2021-04-16 | 2022-11-22 | Capital One Services, Llc | Systems and methods for generating dynamic conversational responses based on historical and dynamically updated information |
US11475211B1 (en) * | 2021-07-12 | 2022-10-18 | International Business Machines Corporation | Elucidated natural language artifact recombination with contextual awareness |
US20230026945A1 (en) * | 2021-07-21 | 2023-01-26 | Wellspoken, Inc. | Virtual Conversational Agent |
US20230079879A1 (en) * | 2021-09-13 | 2023-03-16 | International Business Machines Corporation | Conversation generation using summary-grounded conversation generators |
US12032917B2 (en) * | 2021-09-27 | 2024-07-09 | Capital One Services, Llc | Sincerity-aware artificial intelligence-based conversational agents |
US12056452B2 (en) | 2021-12-16 | 2024-08-06 | Capital One Services, Llc | Self-disclosing artificial intelligence-based conversational agents |
US11941373B2 (en) | 2021-12-17 | 2024-03-26 | Microsoft Technology Licensing, Llc. | Code generation through reinforcement learning using code-quality rewards |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
US12079587B1 (en) * | 2023-04-18 | 2024-09-03 | OpenAI Opco, LLC | Multi-task automatic speech recognition system |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922494B2 (en) * | 2018-12-11 | 2021-02-16 | Mitel Networks Corporation | Electronic communication system with drafting assistant and method of using same |
US11442992B1 (en) * | 2019-06-28 | 2022-09-13 | Meta Platforms Technologies, Llc | Conversational reasoning with knowledge graph paths for assistant systems |
-
2020
- 2020-03-12 US US16/817,124 patent/US11741306B2/en active Active
- 2020-11-05 EP EP20816053.1A patent/EP4078472A1/en active Pending
- 2020-11-05 WO PCT/US2020/058995 patent/WO2021126388A1/en unknown
- 2020-11-05 CN CN202080088072.XA patent/CN114830148A/zh active Pending
-
2023
- 2023-06-13 US US18/334,065 patent/US20230325603A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210192140A1 (en) | 2021-06-24 |
US11741306B2 (en) | 2023-08-29 |
WO2021126388A1 (en) | 2021-06-24 |
EP4078472A1 (en) | 2022-10-26 |
US20230325603A1 (en) | 2023-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11741306B2 (en) | Controllable grounded text generation | |
US11145291B2 (en) | Training natural language system with generated dialogues | |
US10978056B1 (en) | Grammaticality classification for natural language generation in assistant systems | |
US11379736B2 (en) | Machine comprehension of unstructured text | |
US20240112008A1 (en) | Active Federated Learning for Assistant Systems | |
US10878808B1 (en) | Speech processing dialog management | |
US11562744B1 (en) | Stylizing text-to-speech (TTS) voice response for assistant systems | |
US11861315B2 (en) | Continuous learning for natural-language understanding models for assistant systems | |
KR20210158344A (ko) | 디지털 어시스턴트를 위한 머신 러닝 시스템 | |
US11133001B2 (en) | Generating dialogue events for natural language system | |
US10861440B2 (en) | Utterance annotation user interface | |
Sankar et al. | Deep reinforcement learning for modeling chit-chat dialog with discrete attributes | |
US20230245654A1 (en) | Systems and Methods for Implementing Smart Assistant Systems | |
US11257484B2 (en) | Data-driven and rule-based speech recognition output enhancement | |
CN114830139A (zh) | 使用模型提供的候选动作训练模型 | |
JP2023531346A (ja) | 補助システムにおけるマルチパーソンコーリングのための単一の要求の使用 | |
US11809480B1 (en) | Generating dynamic knowledge graph of media contents for assistant systems | |
US20230214579A1 (en) | Intelligent character correction and search in documents | |
Qian et al. | Spoken language understanding of human-machine conversations for language learning applications | |
Andra et al. | Contextual keyword spotting in lecture video with deep convolutional neural network | |
He et al. | The SYSU system for CCPR 2016 multimodal emotion recognition challenge | |
US20240144049A1 (en) | Computerized question answering based on evidence chains | |
US20240078379A1 (en) | Attention neural networks with n-grammer layers | |
Inaba et al. | Backchanneling via twitter data for conversational dialogue systems | |
San | Improving Access to Untranscribed Speech Corpora Using AI |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |