CN115398436A - 用于自然语言处理的噪声数据扩充 - Google Patents

用于自然语言处理的噪声数据扩充 Download PDF

Info

Publication number
CN115398436A
CN115398436A CN202080099408.2A CN202080099408A CN115398436A CN 115398436 A CN115398436 A CN 115398436A CN 202080099408 A CN202080099408 A CN 202080099408A CN 115398436 A CN115398436 A CN 115398436A
Authority
CN
China
Prior art keywords
text
utterance
utterances
robot
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080099408.2A
Other languages
English (en)
Inventor
E·L·贾拉勒丁
V·比什诺伊
M·E·约翰逊
T·L·杜翁
洪宇衡
B·S·文纳科塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of CN115398436A publication Critical patent/CN115398436A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Abstract

用于在自然语言处理中训练聊天机器人系统的噪声数据扩充技术。在一个特定方面,提供了一种方法,所述方法包括:接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;用噪声文本扩充所述训练话语集以生成已扩充的训练话语集;以及使用所述已扩充的训练话语集来训练所述意图分类器。所述扩充包括:从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语。

Description

用于自然语言处理的噪声数据扩充
优先权要求
本申请是于2020年3月30日提交的名称为“NOISE DATA AUGMENTATION FORNATURAL LANGUAGE PROCESSING[用于自然语言处理的噪声数据扩充]”的美国临时申请号63/002,066的非临时申请并且根据35U.S.C.119(e)要求所述美国临时申请的权益和优先权。出于所有目的,前述申请的全部内容通过援引以其全文并入本文。
技术领域
本公开总体上涉及聊天机器人系统,并且更具体地涉及用于在自然语言处理中训练聊天机器人系统的噪声数据扩充技术。
背景技术
为了获得即时反应,世界各地的许多用户使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说会是非常昂贵的。已经开始开发聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过最终用户已经安装并使用的消息传递应用程序与机器人交流。智能机器人(通常通过人工智能(AI)提供动力)可以在实时会话中更智能地且根据上下文进行交流并且因此可以允许机器人与最终用户之间进行更加自然的会话以改善会话体验。不是最终用户去学习机器人知道如何作出回应的固定的一组关键词或命令,而是智能机器人可以能够基于自然语言的用户话语理解最终用户的意图并且相应地作出回应。
然而,聊天机器人很难构建,因为这些自动化解决方案需要某些领域中的特定知识和可能只在专业开发人员的能力范围内的某些技术的应用。作为构建这种聊天机器人的一部分,开发人员可以首先了解企业和最终用户的需求。开发人员然后可以分析并作出与例如以下各项有关的决策:选择要用于分析的数据集;准备用于分析的输入数据集(例如,在分析之前清理数据、提取、格式化和/或变换数据、执行数据特征工程等);识别用于执行分析的适当的(多种)机器学习(ML)技术或(多个)模型;以及改善技术或模型以基于反馈改善结果/效果。识别适当的模型的任务可以包括开发多个模型(可能并行地)、迭代地对这些模型进行测试和实验、之后识别特定的模型(或多个模型)以供使用。进一步地,基于监督式学习的解决方案通常涉及训练阶段、随后是应用(即,推断)阶段和介于训练阶段与应用阶段之间的迭代循环。开发人员可以负责仔细地实施并监测这些阶段,以实现最佳解决方案。例如,为了训练(多种)ML技术或(多个)模型,需要精确的训练数据以使算法能够理解和学习某些模式或特征(例如,对于聊天机器人——需要意图提取和仔细的句法分析,而不仅仅是原始语言处理),(这些)ML技术或模型将使用这些模式或特征来预测期望的结果(例如,从话语中推断出意图)。为了确保(多种)ML技术或(多个)模型正确学习这些模式和特征,开发人员可以负责针对(这些)ML技术或模型来选择、丰富和优化训练数据集。
发明内容
本文所公开的技术总体上涉及聊天机器人。更具体且非限制性地,本文公开的技术涉及用于在自然语言处理中训练聊天机器人系统的训练数据集的噪声数据扩充的技术。聊天机器人可以将用户话语分类为不同的类别,如用户的预定义意图。聊天机器人的分类器可以包括经训练的ML模型,该模型基于输入(例如,用户话语)生成输出(例如,意图)。当用于训练经训练的ML模型的训练数据不足时,聊天机器人可能会更频繁地确定错误的意图。本文公开的技术可以提供用于训练ML模型的噪声扩充的数据集,使得ML模型对无关的上下文更具弹性并更准确地学习意图的模式或边界。
在各种实施例中,提供了一种计算机实施的方法,所述计算机实施的方法包括:在数据处理系统处接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;由所述数据处理系统用噪声文本扩充所述训练话语集,以生成已扩充的训练话语集,其中,所述扩充包括:从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语;以及由所述数据处理系统使用所述已扩充的训练话语集来训练所述意图分类器。
在一些实施例中,所述噪声文本以1:0.5至1:5的预定义扩充比通过下述方式设置:(i)在所述话语中的原始文本的前面,(ii)在所述话语的原始文本的后面,(iii)在所述话语的原始文本的两侧,(iv)整合在所述话语的原始文本中,(v)或前述方式的组合。
在一些实施例中,所述噪声文本是从停用词列表自动生成的随机文本字符串。
在一些实施例中,所述噪声文本是从语料库中自动逐字复制的文本句子。
在一些实施例中,所述噪声文本是从语料库自动生成的随机文本字符串。
在一些实施例中,所述噪声文本是从字典自动生成的随机文本字符串,其中不考虑为所述随机文本字符串选择的单词或字符的频率。
在一些实施例中,所述噪声文本是从字典自动生成的随机文本字符串,其中考虑了为所述随机文本字符串选择的单词或字符的频率。
在各种实施例中,提供了一种计算机实施的方法,所述计算机实施的方法包括:由聊天机器人系统接收由与所述聊天机器人系统交互的用户生成的话语;使用部署在所述聊天机器人系统内的意图分类器将所述话语分类为与意图相对应的意图类别,其中,所述意图分类器包括使用训练数据识别的多个模型参数,所述训练数据包括:已扩充的训练话语集,用于训练所述意图分类器以识别一个或多个话语的一个或多个意图,其中,所述已扩充的训练话语集被人工生成以包括来自训练话语集的已扩充话语,其中,噪声文本相对于所述话语中的原始文本以预定义扩充比合并在来自所述训练话语集的话语中以生成所述已扩充话语,并且其中,所述多个模型参数是基于使损失函数最小化使用所述训练数据来识别的;以及使用所述意图分类器基于所述分类来输出所述意图。
在各种实施例中,提供了一种系统,所述系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质,所述指令当在所述一个或多个数据处理器上执行时使所述一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部。
在各种实施例中,提供了一种计算机程序产品,所述计算机程序产品有形地体现在非暂态机器可读存储介质中并且包括被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部的指令。
本公开的一些实施例包括一种系统,所述系统包括一个或多个数据处理器。在一些实施例中,所述系统包括包含指令的非暂态计算机可读存储介质,所述指令当在所述一个或多个数据处理器上执行时使所述一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部。本公开的一些实施例包括一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,所述计算机程序产品包括被配置成使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部的指令。
可以用多种方式并且在多种上下文中实施上文和下文所描述的技术。如下文更详细地描述的,参考以下附图提供了几种示例实施方式和上下文。然而,以下实施方式和上下文仅是许多实施方式和上下文中的一些。
附图说明
图1是并入了示例性实施例的分布式环境的简化框图。
图2是根据某些实施例的实施主机器人的计算系统的简化框图。
图3是根据某些实施例的实施技能机器人的计算系统的简化框图。
图4是根据各种实施例的聊天机器人训练和部署系统的简化框图。
图5图示了根据各种实施例的用噪声来扩充训练数据集的过程流程。
图6描绘了用于实施各种实施例的分布式系统的简化图。
图7是根据各种实施例的系统环境的一个或多个部件的简化框图,通过所述系统环境,由实施例系统的一个或多个部件提供的服务可以作为云服务提供。
图8图示了可以用于实施各种实施例的示例计算机系统。
具体实施方式
在以下描述中,出于解释的目的,阐述了具体细节以便提供对某些实施例的透彻理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践各个实施例。附图和描述不旨在是限制性的。词语“示例性”在本文中用来意指“用作示例、实例或说明”。在本文中被描述为“示例性”的任何实施例或设计不必被解释为比其他实施例或设计更优选或有利。
引言
数字助理是帮助用户在自然语言会话中完成各种任务的人工智能驱动接口。针对每个数字助理,客户可以组装一个或多个技能。技能(在本文中也描述为聊天机器人、机器人或技能机器人)是聚焦于如跟踪库存、提交时间卡和创建费用报告等特定类型的任务的单独机器人。当最终用户与数字助理接洽时,数字助理评估最终用户输入并且将会话路由到适当的聊天机器人并从适当的聊天机器人路由会话。可以通过如
Figure BDA0003873916010000041
Messenger(即时通)、SKYPE
Figure BDA0003873916010000042
messenger或短消息服务(SMS)等各种通道使数字助理对最终用户可用。通道使得聊天通过各种消息传递平台在最终用户与数字助理及其各聊天机器人之间来回地传送。通道还可以支持用户代理升级、事件发起的会话和测试。
意图允许聊天机器人理解用户想要聊天机器人做什么。意图包括典型的用户请求和陈述的排列,这也可以称为话语(例如,获得账户余额、进行购物等)。如本文所使用的,话语或消息可以指代在与聊天机器人的会话期间交换的一组词(例如,一个或多个句子)。意图可以通过提供说明某个用户行动(例如,订披萨)的名称并编译通常与触发该行动相关联的一组现实生活用户陈述或话语来创建。因为聊天机器人的认知是源自这些意图,所以每个意图可以从稳健并且变化的数据集(一至两打话语)创建,使得聊天机器人可以解释不明确的用户输入。一组丰富的话语使聊天机器人能够理解在其接收到如“Forget thisorder!(忽略此订单!)”或“Cancel delivery!(取消派送!)”等消息(意指相同的事情但以不同的方式表达的消息)时用户想要什么。意图和属于意图的话语共同构成聊天机器人的训练语料库。通过用语料库训练模型,客户基本上可以将所述模型变成用于将最终用户输入解析成单个意图的参考工具。客户可以通过多轮意图测试和意图训练来提高聊天机器人的认知的敏锐度。
然而,构建可以基于用户话语确定最终用户的意图的聊天机器人在某种程度上是有挑战性的任务,这部分地是由于自然语言的微妙性和不明确性以及输入空间的维度(例如,可能的用户话语)和输出空间的大小(意图的数目)。这样,为了改善聊天机器人的性能和与聊天机器人的用户体验,可能需要训练、监测、调试和再训练聊天机器人。在传统系统中,提供了训练系统以用于在口语理解(SLU)和自然语言处理(NLP)中训练和再训练数字助理或聊天机器人的机器学习模型。传统上,用于聊天机器人系统的模型在NLP中使用针对任何意图“制造”的话语进行训练。例如,话语“Do you do price changes?(你做价格变动吗?)”可以用于训练聊天机器人系统的分类器模型,以将这种类型的话语分类为意图——“Do you offer a price match(你提供价格匹配吗)”。使用制造的话语来训练模型有助于最初训练聊天机器人系统以提供服务,然后一旦聊天机器人系统被部署并开始从用户那里获得真实话语,就可以重新训练聊天机器人系统。
传统上,文本分类模型的训练从预先标记的数据开始。获得标记数据的选项之一是通过手动读取每个文本并对文本进行归类(例如,将话语归类为意图)来亲自标注所有数据。另一种选项是将这种标记外包给自由职业者或致力于数据标记的公司。任何一种选项在时间和金钱方面都是昂贵的。为了在诸如图像分析等类似技术空间克服这个问题,数据扩充已被用于增加图像分类任务的图像数据集大小并加速标记过程。虽然对于图像,有自然的扩充原语,如旋转、小的平移移位和加性高斯噪声,但对于文本数据来说,类似的原语并没有开发得那么好。例如,在基于文本的数据扩充中,应在保持分类标签不变的同时更改输入数据。如果扩充方法显著改变了话语(例如,句子或阶段)的含义,则原始分类标签可能不再有效。由于长句或短语的单词比短句多,因此这些类型的文本可以在保持其原始分类标签的同时吸收更多的噪声。因此,为文本开发的传统扩充原语专注于每个句子中存在的单词(例如,同义词替换、同义词随机插入、随机交换、随机删除等)以及句子或短语的长度,以保持句子或短语的原始分类标签。然而,这些方法对于使用许多聊天机器人系统的企业系统可能难以实施,这些系统使用多种语言针对许多不同的任务进行训练并且针对每个任务接收各种各样的话语(许多是非常短的话语)。在使用诸如这种的聊天机器人的系统中,需要以合成不可知的方式自动应用扩充,以便为许多不同的聊天机器人快速高效地生成多种语言的大量训练数据语料库。
因此,需要不同的方法来解决这些问题。在各种实施例中,提供了一种方法,所述方法包括:接收用于话语或消息的训练文本数据集;以及用噪声文本扩充训练文本数据集以获得已扩充的训练文本数据集。所述扩充包括:(i)从单词列表、文本语料库、出版物、字典或其任何组合中获得与话语或消息无关的噪声文本,以及(ii)相对于所述话语或消息以预定义扩充比将噪声文本合并到训练文本数据集中。所述计算机实施的方法进一步包括使用已扩充的训练文本数据集来训练预测模型,以确定话语或消息代表技能机器人被配置为执行的任务的可能性或将话语或消息与和技能机器人相关联的意图相匹配。
机器人和分析系统
机器人(也称为技能、聊天机器人、交谈机器人或谈话机器人)是可以执行与最终用户的会话的计算机程序。机器人通常可以通过使用自然语言消息的消息传递应用程序(application)对自然语言消息(例如,问题或评论)作出回应。企业可以使用一个或多个机器人系统通过消息传递应用程序与最终用户交流。消息传递应用程序(所述消息传递应用程序可以被称为通道)可以是最终用户已经安装并且熟悉的最终用户优选的消息传递应用程序。因此,为了与机器人系统聊天,最终用户不需要下载并安装新的应用程序。消息传递应用程序可以包括例如过顶(OTT)消息传递通道(如Facebook Messenger、FacebookWhatsApp、微信、Line、Kik、Telegram、Talk、Skype、Slack或SMS)、虚拟私人助理(如AmazonDot、Echo或Show、Google Home、Apple HomePod等)、本地或混合扩展的移动和web应用程序扩展/具有聊天功能的响应式移动应用程序或web应用程序、或基于声音的输入(如具有使用Siri、微软小娜(Cortana)、谷歌之音(Google Voice)或用于交互的其他语音输入的设备或应用程序)。
在一些示例中,机器人系统可以与统一资源标识符(URI)相关联。URI可以使用一串字符标识机器人系统。URI可以用作一个或多个消息传递应用程序系统的webhook(网络挂接)。URI可以包括例如统一资源定位符(URL)或统一资源名称(URN)。机器人系统可以被设计成从消息传递应用程序系统接收消息(例如,超文本传送协议(HTTP)post调用消息)。HTTP post调用消息可以针对来自消息传递应用程序系统的URI。在一些实施例中,消息可以不同于HTTP post调用消息。例如,机器人系统可以从短消息服务(SMS)接收消息。虽然本文的讨论可以将机器人系统接收到的通信称作消息,但是应理解,消息可以是HTTP post调用消息、SMS消息或两个系统之间的任何其他类型的通信。
最终用户可以通过会话式交互(有时称为会话式用户接口(UI))与机器人系统交互,正如人之间的交互那样。在一些情况下,交互可以包括最终用户对机器人说“Hello(你好)”以及机器人用“Hi(嗨)”回应并询问最终用户机器人可以如何提供帮助。在一些情况下,交互还可以是与例如银行业机器人的交易式交互,如将钱从一个账户转移到另一个账户;与例如HR机器人的信息式交互,如检查假期结余;或与例如零售机器人的交互,如讨论退回已购商品或寻求技术支持。
在一些实施例中,机器人系统可以在没有与机器人系统的管理员或开发人员交互的情况下智能地处置最终用户交互。例如,最终用户可以向机器人系统发送一个或多个消息以便实现期望的目标。消息可以包括某种内容,如文本、表情符号、音频、图像、视频或传达消息的其他方法。在一些实施例中,机器人系统可以将内容转换成标准化形式(例如,利用适当的参数针对企业服务的表述性状态转移(REST)调用)并且生成自然语言回应。机器人系统还可以提示最终用户输入另外的输入参数或请求其他另外的信息。在一些实施例中,机器人系统还可以发起与最终用户的交流,而不是被动地回应最终用户话语。本文所描述的是用于识别机器人系统的显式调用并确定被调用的机器人系统的输入的各种技术。在某些实施例中,显式调用分析是由主机器人基于检测到话语中的调用名称而执行的。响应于检测到调用名称,话语可以细化以供输入到与调用名称相关联的技能机器人。
与机器人的会话可以遵循包括多个状态的特定会话流。所述流可以基于输入来定义接下来会发生什么。在一些实施例中,可以使用包括用户定义的状态(例如,最终用户意图)和在状态中或状态之间要采取的动作的状态机来实施机器人系统。会话可以基于最终用户输入来采用不同的路径,这可能会影响机器人针对流作出的决定。例如,在每个状态下,基于最终用户输入或话语,机器人可以确定最终用户的意图以便确定要采取的下一个适当动作。如本文所使用的且在话语的上下文中,术语“意图”是指提供话语的用户的意图。例如,用户可以打算让机器人参与用于订购披萨的会话,使得用户的意图可以通过话语“Order pizza(订购披萨)”来表示。用户意图可以涉及用户希望聊天机器人代表用户执行的特定任务。因此,话语可以表达为反映用户的意图的问题、命令、请求等。意图可以包括最终用户想要完成的目标。
在聊天机器人的配置的上下中,本文所使用的术语“意图”是指用于将用户的话语映射到聊天机器人可以执行的特定任务/动作或特定种类的任务/动作的配置信息。为了区分话语的意图(即,用户意图)与聊天机器人的意图,本文中有时将后者称为“机器人意图”。机器人意图可以包括与意图相关联的一组一个或多个话语。例如,订购披萨的意图可以具有表达下订单购买披萨的期望的话语的各种排列。这些相关联的话语可以用于训练聊天机器人的意图分类器以使意图分类器能够随后确定来自用户的输入话语是否与订购披萨意图相匹配。机器人意图可以与用于启动与用户在某个状态中的会话的一个或多个对话流相关联。例如,针对订购披萨意图的第一消息可以是问题“What kind of pizza would youlike?(你想要哪种披萨?)”。除了相关联的话语之外,机器人意图可以进一步包括与意图有关的命名实体。例如,订购披萨意图可以包括用于执行订购披萨的任务的变量或参数,例如浇头1、浇头2、披萨类型、披萨大小、披萨数量等。实体的值通常是通过与用户交谈获得的。
图1是结合了根据某些实施例的聊天机器人系统的环境100的简化框图。环境100包括数字助理构建器平台(DABP)102,所述DABP使得DABP 102的用户能够创建并部署数字助理或聊天机器人系统。DABP 102可以用于创建一个或多个数字助理(或DA)或聊天机器人系统。例如,如图1所示,代表特定企业的用户104可以使用DABP 102来创建并部署用于特定企业的用户的数字助理106。例如,DABP 102可以被银行用来创建供银行的客户使用的一个或多个数字助理。多个企业可以使用同一个DABP 102平台来创建数字助理。作为另一示例,餐馆(例如,披萨店)的所有者可以使用DABP 102来创建并部署使餐馆的客户能够订购食物(例如,订购披萨)的数字助理。
出于本公开的目的,“数字助理”是通过自然语言会话帮助数字助理的用户完成各种任务的实体。可以仅使用软件(例如,数字助理是使用可由一个或多个处理器执行的程序、代码或指令实施的数字实体)、使用硬件、或使用硬件和软件的组合来实施数字助理。数字助理可以在如计算机、移动电话、手表、器具、车辆等各种物理系统或设备中体现或实施。数字助理有时也称为聊天机器人系统。因此,出于本公开的目的,术语数字助理和聊天机器人系统是可互换的。
数字助理(如使用DABP 102构建的数字助理106)可以用于经由数字助理与其用户108之间基于自然语言的会话来执行各种任务。作为会话的一部分,用户可以向数字助理106提供一个或多个用户输入110并从数字助理106获得返回的回应112。会话可以包括输入110和回应112中的一个或多个。经由这些会话,用户可以请求由数字助理执行一个或多个任务,并且作为回应,数字助理被配置为执行用户请求的任务并以适当的回应来回应用户。
用户输入110通常呈自然语言的形式并且被称为话语。用户话语110可以是文本形式,如当用户键入句子、问题、文本片段或甚至单个单词并将其作为输入提供给数字助理106时。在一些实施例中,用户话语110可以是音频输入或语音的形式,如当用户讲出或说出某些内容作为输入提供给数字助理106时。话语通常呈用户108说出的语言的形式。例如,话语可以是英语或某种其他语言。当话语呈语音形式时,将语音输入转换成该特定语言的文本形式的话语,并且然后由数字助理106来处理文本话语。可以使用各种语音到文本处理技术将语音或音频输入转换成文本话语,所述文本话语然后由数字助理106来处理。在一些实施例中,语音到文本的转换可以由数字助理106自身完成。
话语(其可以是文本话语或语音话语)可以是片段、一个句子、多个句子、一个或多个单词、一个或多个问题、上述类型的组合等。数字助理106被配置为将自然语言理解(NLU)技术应用于话语以理解用户输入的含义。作为针对话语的NLU处理的一部分,数字助理106被配置成执行用于理解话语的含义的处理,所述处理涉及识别对应于话语的一个或多个意图和一个或多个实体。在理解话语的含义后,数字助理106可以响应于理解的含义或意图来执行一个或多个动作或操作。出于本公开的目的,假设这些话语是已经由数字助理106的用户108直接提供的文本话语,或者是将输入语音话语转换为文本形式的结果。然而,这并不旨在以任何方式进行限制或约束。
例如,用户108的输入可以通过提供如“I want to order a pizza(我想要订购披萨)”的话语来请求订购披萨。在接收到这种话语之后,数字助理106被配置为理解话语的含义并采取适当的动作。适当的动作可以涉及例如以请求关于用户期望订购的披萨的类型、披萨的大小、披萨的任何浇头等用户输入的问题来回应用户。由数字助理106提供的回应也可以是自然语言形式,并且通常以与输入话语相同的语言。作为生成这些回应的一部分,数字助理106可以执行自然语言生成(NLG)。为了用户能够经由用户与数字助理106之间的会话来订购披萨,数字助理可以引导用户提供用于披萨订购的所有必要信息,并且然后在会话结束时使披萨被订购。数字助理106可以通过向用户输出指示已经订购披萨的信息来结束会话。
在概念层级上,数字助理106响应于从用户接收的话语执行各种处理。在一些实施例中,该处理涉及一系列处理步骤或处理步骤流水线,包括例如理解输入话语的含义(有时称为自然语言理解(NLU)、确定响应于话语而要执行的动作、在适当的情况下使动作被执行、响应于用户话语生成要输出到用户的回应、向用户输出回应等。NLU处理可以包括对所接收的输入话语进行语法分析以理解话语的结构和含义、细化并重新形成所述话语以开发出所述话语的更好的可理解形式(例如,逻辑形式)或结构。生成回应可以包括使用NLG技术。
数字助理(如数字助理106)执行的NLU处理可以包括如句子语法分析(例如,标记化、按屈折变化形式进行归类、识别句子的词性标签、识别句子中的命名实体、生成依存树来表示句子结构、将句子分成子句、分析单独的子句、解析指代、执行组块等)等各种NLP有关处理。在某些实施例中,NLU处理或其部分是由数字助理106自身执行的。在一些其他实施例中,数字助理106可以使用其他资源来执行NLU处理的部分。例如,可以通过使用语法分析器、词性标记器和/或命名实体识别器处理句子来识别输入话语句子的句法和结构。在一种实施方式中,针对英语语言,使用由斯坦福自然语言处理(NLP)小组提供的语法分析器、词性标记器和命名实体识别器来分析句子结构和句法。这些是作为斯坦福CoreNLP工具包的一部分提供的。
虽然本公开中提供的各个示例示出了英语语言的话语,但是这仅意味着作为示例。在某些实施例中,数字助理106还能够处置除英语以外的语言的话语。数字助理106可以提供被配置用于针对不同语言执行处理的子系统(例如,实施NLU功能的部件)。这些子系统可以实施为可以使用服务调用从NLU核心服务器调用的可插单元。这使NLU处理对于每种语言而言是灵活且可扩展的,包括允许不同的处理顺序。可以为单独的语言提供语言包,其中,语言包可以登记可以从NLU核心服务器提供服务的子系统的列表。
可以通过各种不同的通道(如但不限于经由某些应用程序、经由社交媒体平台、经由各种消息传递服务和应用程序、以及其他应用程序或通道)使数字助理(如图1中描绘的数字助理106)对其用户108而言是可用的或可访问的。单个数字助理可以为自身配置几个通道,使得单个数字助理可以同时在不同的服务上运行并通过不同的服务进行访问。
数字助理或聊天机器人系统通常包含一个或多个技能或与一个或多个技能相关联。在某些实施例中,这些技能是被配置为与用户交互并完成特定类型的任务(如跟踪库存、提交时间卡、创建费用报告、订购食物、查询银行账户、进行预约、购买小部件等)的单独的聊天机器人(称为技能机器人)。例如,针对图1所描绘的实施例,数字助理或聊天机器人系统106包括技能116-1、116-2等。出于本公开的目的,术语“技能(skill)”和“技能(skills)”分别与术语“技能机器人(skill bot)”和“技能机器人(skill bots)”同义地使用。
与数字助理相关联的每个技能通过与用户的会话帮助数字助理的用户完成任务,其中,所述会话可以包括由用户提供的文本或音频输入与由技能机器人提供的回应的组合。这些回应可以呈以下形式:给用户的文本或音频消息和/或使用呈现给用户以供用户进行选择的简单的用户界面元素(例如,选择列表)。
存在各种方法可以将技能或技能机器人与数字助理相关联或将其添加到数字助理。在一些实例中,可以由企业开发技能机器人,并且然后将其添加到使用DABP 102的数字助理。在其他实例中,可以使用DABP 102开发并创建技能机器人,并且然后将其添加到使用DABP 102创建的数字助理。在又其他实例中,DABP 102提供在线数字商店(称为“技能商店”),所述在线数字商店提供涉及各种各样的任务的多个技能。通过技能商店提供的技能还可以公开(expose)各种云服务。为了将技能添加到使用DABP 102生成的数字助理,DABP102的用户可以经由DABP 102访问技能商店、选择所需的技能、并指示将所选技能添加到使用DABP 102创建的数字助理。来自技能商店的技能可以按原样或以修改的形式添加到数字助理(例如,DABP 102的用户可以选择并复制技能商店提供的特定技能机器人、对所选技能机器人进行定制或修改并且然后将修改后的技能机器人添加到使用DABP 102创建的数字助理)。
可以使用各种不同的架构来实施数字助理或聊天机器人系统。例如,在某些实施例中,使用DABP 102创建并部署的数字助理可以使用主机器人/次(或子)机器人范式或架构来实施。根据该范式,数字助理被实施为与是技能机器人的一个或多个次机器人交互的主机器人。例如,在图1所描绘的实施例中,数字助理106包括主机器人114和是主机器人114的次机器人的技能机器人116-1、116-2等。在某些实施例中,数字助理106自身被认为充当主机器人。
根据主-次机器人架构实施的数字助理使数字助理的用户能够通过统一用户接口(即,经由主机器人)与多个技能交互。当用户与数字助理接洽时,主机器人会接收到用户输入。然后,主机器人执行用于确定用户输入话语的含义的处理。然后,主机器人确定用户的话语中所请求的任务是否可以由主机器人自身来处置,否则,主机器人选择用于处置用户请求的适当技能机器人并将会话路由到所选技能机器人。这使用户能够通过公共的单个接口与数字助理进行会话,并且仍然有能力使用被配置为执行特定任务的几个技能机器人。例如,针对为企业开发的数字助理,数字助理的主机器人可以与具有特定功能的技能机器人接口连接,这些技能机器人比如用于执行与客户关系管理(CRM)有关的功能的CRM机器人、用于执行与企业资源规划(ERP)有关的功能的ERP机器人、用于执行与人力资本管理(HCM)有关的功能的HCM机器人等。这样,数字助理的最终用户或消费者只需要知道如何通过公共的主机器人接口访问数字助理,而在后台提供了多个技能机器人来处置用户请求。
在某些实施例中,在主机器人/次机器人基础设施中,主机器人被配置为了解可用技能机器人的列表。主机器人可以访问识别了各种可用技能机器人的元数据,并且针对每个技能机器人,技能机器人的能力包括可以由技能机器人执行的任务。在接收到话语形式的用户请求之后,主机器人被配置为从多个可用技能机器人中识别或预测可以最好地服务或处置用户请求的特定技能机器人。然后,主机器人将话语(或话语的一部分)路由到该特定的技能机器人以进行进一步的处置。因此,控制从主机器人流动到技能机器人。主机器人可以支持多个输入通道和输出通道。
虽然图1的实施例示出了数字助理106包括主机器人114以及技能机器人116-1、116-2和116-3,但这并不旨在是限制性的。数字助理可以包括提供数字助理的功能的各种其他部件(例如,其他系统和子系统)。这些系统和子系统可以仅以软件(例如,存储在计算机可读介质上并且可由一个或多个处理器执行的代码、指令)、仅以硬件或在使用软件和硬件的组合的实施方式中实施。
DABP 102提供了使DABP 102的用户能够创建数字助理(包括与数字助理相关联的一个或多个技能机器人)的基础设施以及各种服务和特征。在一些实例中,可以通过克隆现有技能机器人来创建技能机器人,例如,克隆由技能商店提供的技能机器人。如前所述,DABP 102提供技能商店或技能目录,所述技能商店或技能目录提供了用于执行各种任务的多个技能机器人。DABP 102的用户可以从技能商店克隆技能机器人。根据需要,可以对克隆的技能机器人进行修改或定制。在一些其他实例中,DABP 102的用户使用由DABP 102提供的工具和服务从头开始创建技能机器人。如前所述,DABP 102所提供的技能商店或技能目录提供了用于执行各种任务的多个技能机器人。
在某些实施例中,在高层级上,创建或定制技能机器人涉及以下步骤:
(1)为新技能机器人配置设置
(2)为技能机器人配置一个或多个意图
(3)针对一个或多个意图配置一个或多个实体
(4)训练技能机器人
(5)为技能机器人创建对话流
(6)根据需要将自定义部件添加到技能机器人
(7)测试并部署技能机器人
下文简要描述了上述每个步骤。
(1)为新技能机器人配置设置——可以针对技能机器人配置各种设置。例如,技能机器人设计者可以为正在创建的技能机器人指定一个或多个调用名称。然后,这些调用名称可以被数字助理的用户用来显式调用技能机器人。例如,用户可以在用户话语中输入调用名称,以显式调用对应的技能机器人。
(2)为技能机器人配置一个或多个意图和相关联的示例话语——技能机器人设计者为正在创建的技能机器人指定一个或多个意图(也称为机器人意图)。然后基于这些指定的意图来训练技能机器人。这些意图代表技能机器人被训练以针对输入话语推断出的类别或分类。在接收到话语之后,经训练的技能机器人会推断出所述话语的意图,其中,所推断出的意图是从用于训练技能机器人的预定义的意图集中选择的。然后,技能机器人基于针对该话语推断出的意图采取适当的动作以对话语作出回应。在一些实例中,技能机器人的意图代表技能机器人可以为数字助理的用户执行的任务。每个意图被赋予一个意图标识符或意图名称。例如,对于针对银行训练的技能机器人,为所述技能机器人指定的意图可以包括“CheckBalance(查询余额)”、“TransferMoney(转账)”、“DepositCheck(存款查询)”等。
对于为技能机器人定义的每个意图,技能机器人设计者还可以提供一个或多个示例话语,这些示例话语代表并说明了意图。这些示例话语旨在表示用户可以针对该意图向技能机器人输入的话语。例如,针对CheckBalance意图,示例话语可以包括“What's mysavings account balance?(我的储蓄账户余额是多少?)”、“How much is in mychecking account?(我的活期存款账户里有多少钱?)”、“How much money do I have inmy account(我的账户里有多少钱)”等。因此,可以将典型的用户话语的各种排列指定为意图的示例话语。
这些意图及其相关联的示例话语用作用于训练技能机器人的训练数据。可以使用各种不同的训练技术。作为该训练的结果,生成预测模型,所述预测模型被配置为将话语作为输入并输出所述预测模型针对所述话语推断出的意图。在一些实例中,将输入话语提供给意图分析引擎,所述意图分析引擎被配置为使用经训练的模型来预测或推断输入话语的意图。然后,技能机器人可以基于推断出的意图采取一个或多个动作。
(3)针对技能机器人的一个或多个意图配置实体——在一些实例中,可能需要另外的上下文来使技能机器人能够适当地回应用户话语。例如,可能存在其中用户输入话语解析成技能机器人中的相同意图的情况。例如,在以上示例中,话语“What’s my savingsaccount balance?”和“How much is in my checking account?”均解析成相同的CheckBalance意图,但是这些话语是请求不同事情的不同请求。为了阐明这种请求,将一个或多个实体添加到意图。以银行业技能机器人作为示例,被称为账户类型(AccountType)的实体(所述实体定义了被称为“checking(活期存款)”和“saving(储蓄)”的值)可以使技能机器人能够对用户请求进行语法分析并适当地作出回应。在上面的示例中,虽然这些话语解析为相同的意图,但是这两个话语的与AccountType实体相关联的值是不同的。这使技能机器人能够针对这两个话语执行可能不同的动作,尽管这两个话语解析为相同的意图。可以针对为技能机器人配置的某些意图指定一个或多个实体。因此,实体用于将上下文添加到意图自身。实体帮助更充分地描述意图并使技能机器人能够完成用户请求。
在某些实施例中,有两种类型的实体:(a)DABP 102提供的内置实体;以及(2)可以由技能机器人设计者指定的自定义实体。内置实体是可以与各种机器人一起使用的通用实体。内置实体的示例包括但不限于与时间、日期、地址、数字、电子邮件地址、持续时间、循环时间段、货币、电话号码、URL等有关的实体。自定义实体用于更加定制的应用程序。例如,针对银行业技能,AccountType实体可以被技能机器人设计者定义为通过检查用户输入的关键词(如活期存款、储蓄、信用卡等)来实现各种银行业交易。
(4)训练技能机器人——技能机器人被配置成接收呈话语形式的用户输入,语法分析或以其他方式处理接收到的输入并且识别或选择与接收到的用户输入相关的意图。如以上所指示的,为此,必须对技能机器人进行训练。在某些实施例中,基于为技能机器人配置的意图和与意图相关联的示例话语(统称为训练数据)来训练技能机器人,使得技能机器人可以将用户输入话语解析成其所配置的意图中的一个意图。在某些实施例中,技能机器人使用预测模型,所述预测模型是使用训练数据训练的并且允许技能机器人辨别用户说出(或者在一些情况下,正试图说出)的内容。DABP 102提供可以被技能机器人设计者用于训练技能机器人的各种不同的训练技术,包括各种基于机器学习的训练技术、基于规则的训练技术和/或其组合。在某些实施例中,训练数据的一部分(例如,80%)用于训练技能机器人模型并且另一部分(例如,其余20%)用于测试或验证模型。一旦进行了训练,经训练的模型(有时也称为经训练的技能机器人)便可以用于处置用户的话语并对用户的话语作出回应。在某些情况下,用户的话语可以是仅需要单一的回答并且无需另外的会话的问题。为了处置这种情况,可以为技能机器人定义Q&A(问与答)意图。这使技能机器人能够在不必更新对话框定义的情况下输出对用户请求的回复。Q&A意图是以与常规意图类似的方式创建的。用于Q&A意图的对话流可能与用于常规意图的对话流不同。
(5)为技能机器人创建对话流——为技能机器人指定的对话流描述了在响应于接收到的用户输入来解析技能机器人的不同意图时,技能机器人如何反应。对话流定义了技能机器人将采取的操作或动作,例如,技能机器人如何回应用户话语、技能机器人如何提示用户进行输入、技能机器人如何返回数据。对话流像技能机器人所遵循的流程图一样。技能机器人设计者使用如markdown语言等语言指定对话流。在某些实施例中,可以使用被称为OBotML的YAML版本来指定技能机器人的对话流。针对技能机器人的对话流定义充当会话自身的模型,所述模型是使技能机器人设计者精心策划技能机器人与技能机器人所服务的用户之间的交互的模型。
在某些实施例中,技能机器人的对话流定义包含以下三个部分:
(a)上下文部分
(b)默认转变部分
(c)状态部分
上下文部分——技能机器人设计者可以在上下文部分中定义会话流中使用的变量。可以在上下文部分中命名的其他变量包括但不限于:针对错误处置的变量、针对内置实体或自定义实体的变量、使技能机器人能够识别并保存用户偏好的用户变量等。
默认转变部分——技能机器人的转变可以在对话流状态部分中或在默认转变部分中定义。在默认转变部分中定义的转变充当后备并且当状态内没有定义适用的转变或触发状态转变所需的条件无法得到满足时被触发。默认转变部分可以用于定义允许技能机器人得体地处置出乎意料的用户动作的路由。
状态部分——对话流及其有关操作被定义为管理对话流内的逻辑的暂时状态的序列。对话流定义内的每个状态节点都命名一个部件,所述部件提供所述对话中的那个时候所需的功能。因此,状态是围绕部件构建的。状态包含特定于部件的性质并且定义了在部件执行之后被触发的向其他状态的转变。
特殊情况场景可以使用状态部分来处置。例如,您有时可能想要为用户提供用于暂时让用户与之接洽的第一技能进行数字助理内的第二技能中的事情的选项。例如,如果用户忙于与购物技能进行会话(例如,用户已做出一些购买选择),则用户可能想要跳转至银行业技能(例如,用户可能想要确保他/她有足够的钱用于购买)并且然后返回到购物技能以完成用户的订单。为了解决这一点,第一技能中的动作可以被配置成发起与相同数字助理中的第二不同技能的交互并且然后返回到原始流。
(6)将自定义部件添加到技能机器人——如上文所描述的,技能机器人的对话流中指定的状态对对应于状态提供所需的功能的部件进行了命名。部件使技能机器人能够执行功能。在某些实施例中,DABP 102提供了用于执行各种各样的功能的一组预先配置的部件。技能机器人设计者可以选择这些预先配置的部件中的一个或多个并且将其与技能机器人的对话流中的状态相关联。技能机器人设计者还可以使用DABP 102提供的工具创建自定义部件或新的部件并且将自定义部件与技能机器人的对话流中的一个或多个状态相关联。
(7)测试并部署技能机器人——DABP 102提供了使技能机器人设计者能够测试正在开发的技能机器人的几个特征。然后,可以将技能机器人部署并包括在数字助理中。
虽然以上描述描述了如何创建技能机器人,但是还可以使用类似的技术来创建数字助理(或主机器人)。在主机器人或数字助理层级,可以为数字助理配置内置系统意图。这些内置系统意图用于识别在不调用与数字助理相关联的技能机器人的情况下数字助理自身(即,主机器人)可以处置的一般任务。针对主机器人定义的系统意图的示例包括:(1)Exit(退出):当用户发出想要退出数字助理中的当前会话或上下文的信号时适用;(2)Help(帮助):当用户请求帮助或定向时适用;以及(3)UnresolvedIntent(未解析意图):适用于与退出意图和帮助意图不太匹配的用户输入。数字助理还存储关于与数字助理相关联的一个或多个技能机器人的信息。该信息使主机器人能够选择用于处置话语的特定技能机器人。
在主机器人或数字助理层级,当用户向数字助理输入短语或话语时,数字助理被配置为执行用于确定如何路由话语和相关会话的处理。数字助理使用路由模型来确定这一点,所述路由模型可以是基于规则的、基于AI的或其组合。数字助理使用路由模型来确定对应于用户输入话语的会话是要被路由到特定技能以进行处置、要由数字助理或主机器人自身按照内置系统意图进行处置、还是要被处置为当前会话流中的不同状态。
在某些实施例中,作为此处理的一部分,数字助理确定用户输入话语是否使用其调用名称显式地识别技能机器人。如果调用名称存在于用户输入中,则可将其视为对与调用名称相对应的技能机器人的显式调用。在这种场景下,数字助理可以将用户输入路由到显式调用的技能机器人以进行进一步处置。在某些实施例中,如果不存在特定调用或显式调用,则数字助理评估接收到的用户输入话语并针对与数字助理相关联的系统意图和技能机器人计算置信度得分。针对技能机器人或系统意图计算的得分表示用户输入代表技能机器人被配置为执行的任务或代表系统意图的可能性有多大。选择相关联的计算的置信度得分超过阈值(例如,置信度阈值路由参数)的任何系统意图或技能机器人作为候选以进行进一步的评估。然后,数字助理从所识别的候选中选择特定的系统意图或技能机器人用于对用户输入话语进行进一步的处置。在某些实施例中,在一个或多个技能机器人被识别为候选之后,对与那些候选技能相关联的意图进行评估(根据每个技能的意图模型)并且针对每个意图确定置信度得分。置信度得分超过阈值(例如,70%)的任何意图通常均被视为候选意图。如果选择了特定技能机器人,则将用户话语路由到该技能机器人以进行进一步的处理。如果选择了系统意图,则由主机器人自身根据所选系统意图执行一个或多个动作。
图2是根据某些实施例的主机器人(MB)系统200的简化框图。MB系统200可以仅以软件、仅以硬件、或以硬件和软件的组合实施。MB系统200包括预处理子系统210、多意图子系统(MIS)220、显式调用子系统(EIS)230、技能机器人调用器240和数据存储250。图2所描绘的MB系统200仅仅是主机器人中的部件布置的示例。本领域普通技术人员将认识到许多可能的变型、替代方案和修改。例如,在一些实施方式中,MB系统200可以具有比图2所示的那些系统或部件更多或更少的系统或部件,可以组合两个或更多个子系统,或者可以具有不同的子系统配置或布置。
预处理子系统210从用户接收话语“A”202并通过语言检测器212和语言语法分析器214来处理话语。如上所述,可以以包括音频或文本的各种方式来提供话语。话语202可以是句子片段、完整句子、多个句子等。话语202可以包括标点符号。例如,如果话语202作为音频提供,则预处理子系统210可以使用将标点符号(例如,逗号、分号、句号等)插入到结果文本中的语音文本转换器(未示出)来将音频转换为文本。
语言检测器212基于话语202的文本来检测话语202的语言。话语202的处置方式取决于语言,因为每种语言都有其自己的语法和语义。在分析话语的句法和结构时,会考虑语言之间的差异。
语言语法分析器214对话语202进行语法分析以提取话语202中各个语言单元(例如,单词)的词性(POS)标签。POS标签包括例如名词(NN)、代词(PN)、动词(VB)等。语言语法分析器214还可以对话语202的语言单位进行标记化(例如,将每个单词转换为单独的记号)并对单词按屈折变化形式进行归类。词元是如在字典中表示的一组单词的主要形式(例如,“run”是run、runs、ran、running等的词元)。语言语法分析器214可以执行的其他类型的预处理包括复合表达式的组块,例如,将“credit”和“card”组合成单个表达式“credit_card”。语言语法分析器214还可以识别话语202中的单词之间的关系。例如,在一些实施例中,语言语法分析器214生成依存树,所述依存树指示话语的哪一部分(例如,特定名词)是直接宾语、话语的哪一部分是介词等。由语言语法分析器214执行的处理的结果形成提取的信息205,并与话语202本身一起作为输入提供给MIS 220。
如上所述,话语202可以包括多于一个句子。为了检测多个意图和显式调用的目的,话语202可以被视为单个单元,即使它包括多个句子。然而,在某些实施例中,预处理可以例如由预处理子系统210执行,以识别多个句子中的单个句子以用于多个意图分析和显式调用分析。通常,无论话语202是在单个句子的级别上处理还是作为包括多个句子的单个单元处理,MIS 220和EIS 230产生的结果都基本相同。
MIS 220确定话语202是否表示多个意图。尽管MIS 220可以检测到话语202中存在多个意图,但MIS 220执行的处理不涉及确定话语202的意图是否与已为机器人配置的任何意图相匹配。相反,确定话语202的意图是否与机器人意图相匹配的处理可以由MB系统200的意图分类器242或(例如,如图3的实施例中所示的)技能机器人的意图分类器执行。MIS220执行的处理假设存在可以处置话语202的机器人(例如,特定技能机器人或主机器人本身)。因此,由MIS 220执行的处理不需要知道聊天机器人系统中有哪些机器人(例如,向主机器人注册的技能机器人的身份),也不需要知道已经为特定机器人配置了什么意图。
为了确定话语202包括多个意图,MIS 220应用数据存储250中的一组规则252中的一个或多个规则。应用于话语202的规则取决于话语202的语言并且可以包括指示存在多个意图的句子模式。例如,句子模式可以包括连接句子的两个部分(例如,连词)的并列连接词,其中这两个部分对应于不同的意图。如果话语202与句子模式相匹配,则可以推断出话语202表示多个意图。应该注意的是,具有多个意图的话语不一定具有不同的意图(例如,涉及不同机器人的意图或同一机器人内的不同意图)。相反,话语可以有相同意图的不同实例,例如“Place a pizza order using payment account X,then place apizza orderusing payment account Y(使用支付账户X下披萨订单,然后使用支付账户Y下披萨订单)”。
作为确定话语202表示多个意图的一部分,MIS 220还确定话语202的哪些部分与每个意图相关联。MIS 220针对包含多个意图的话语中表示的每个意图构建用于单独处理的新话语来代替原始话语,例如,如图2中所描绘的话语“B”206和话语“C”208。因此,原始话语202可以被分成两个或更多个单独的话语,每次处置一个。MIS 220使用提取的信息205和/或根据对话语202本身的分析来确定应该首先处置两个或更多个话语中的哪一个。例如,MIS 220可以确定话语202包含指示应该首先处置特定意图的标记词。与该特定意图相对应的新形成的话语(例如,话语206或话语208中的一个)将首先被发送以供EIS 230进一步处理。在由第一个话语触发的会话已经结束(或已被暂时暂停)之后,然后可以将下一个最高优先级的话语(例如,话语206或话语208中的另一个话语)发送到EIS 230进行处理。
EIS 230确定其接收的话语(例如,话语206或话语208)是否包含技能机器人的调用名称。在某些实施例中,聊天机器人系统中的每个技能机器人被指派唯一的调用名称,所述调用名称将技能机器人与聊天机器人系统中的其他技能机器人区分开来。调用名称列表可以作为技能机器人信息254的一部分保存在数据存储250中。当话语包含与调用名称相匹配的单词时,话语被视为显式调用。如果机器人未被显式调用,则EIS 230接收到的话语被视为是非显式调用话语234并且被输入到主机器人的意图分类器(例如,意图分类器242)以确定使用哪个机器人来处置话语。在一些实例中,意图分类器242将确定主机器人应该处置非显式调用话语。在其他实例中,意图分类器242将确定将话语路由到以进行处置的技能机器人。
EIS 230所提供的显式调用功能有几个优点。它可以减少主机器人不得不执行的处理量。例如,当存在显式调用时,主机器人可能不必(例如,使用意图分类器242)进行任何意图分类分析,或者可能不得不进行简化的意图分类分析以选择技能机器人。因此,显式调用分析可以在不借助意图分类分析的情况下实现对特定技能机器人的选择。
而且,可能存在多个技能机器人之间的功能重叠的情况。例如,如果两个技能机器人处置的意图重叠或彼此非常接近,则可能会发生这种情况。在这种情况下,主机器人可能难以仅基于意图分类分析来识别要选择多个技能机器人中的哪一个。在这种场景下,显式调用使得对于要使用的特定技能机器人没有歧义。
除了确定话语是显式调用之外,EIS 230还负责确定是否应该将话语的任何部分用作对被显式调用的技能机器人的输入。具体地,EIS 230可以确定话语的一部分是否与调用无关。EIS 230可以通过分析话语和/或分析提取的信息205来执行该确定。EIS 230可以将与调用无关的话语部分发送到被调用的技能机器人,而不是发送EIS 230所接收到的整个话语。在一些实例中,被调用的技能机器人的输入简单地通过删除与调用相关联的任何话语部分来形成。例如,“I want to order pizza using Pizza Bot(我想使用披萨机器人来订购披萨)”可以缩短为“I want to order pizza”,因为“using Pizza Bot”与披萨机器人的调用相关,但与要由披萨机器人执行的任何处理无关。在一些实例中,EIS 230可以重新格式化要发送到被调用机器人的部分,例如,以形成完整的句子。因此,EIS 230不仅确定存在显式调用,而且当存在显式调用时确定向技能机器人发送什么。在一些实例中,可能没有任何文本可以输入到被调用的机器人中。例如,如果话语是“Pizza Bot”,则EIS 230可以确定披萨机器人正在被调用,但没有要由披萨机器人处理的文本。在这样的场景下,EIS230可以向技能机器人调用器240指示没有要发送的内容。
技能机器人调用器240以各种方式调用技能机器人。例如,技能机器人调用器240可以响应于接收到作为显式调用的结果已经选择特定技能机器人的指示235来调用机器人。指示235可以由EIS 230连同显式调用的技能机器人的输入一起发送。在这种场景下,技能机器人调用器240会将会话的控制权交给显式调用的技能机器人。显式调用的技能机器人将通过将输入视为独立话语来确定对来自EIS 230的输入的适当回应。例如,回应可以是执行特定动作或在特定状态下开始新会话,其中新会话的初始状态取决于从EIS 230发送的输入。
技能机器人调用器240可以调用技能机器人的另一种方式是通过使用意图分类器242进行隐式调用。可以使用机器学习和/或基于规则的训练技术来训练意图分类器242,以确定话语代表特定技能机器人被配置为执行的任务的可能性。意图分类器242在不同的分类上进行训练,每个技能机器人一个分类。例如,每当向主机器人注册新技能机器人时,与新技能机器人相关联的示例话语列表可以用于训练意图分类器242以确定特定话语代表新技能机器人可以执行的任务的可能性。作为该训练的结果产生的参数(例如,机器学习模型的一组参数值)可以存储为技能机器人信息254的一部分。
在某些实施例中,意图分类器242是使用机器学习模型实施的,如本文进一步详细描述的。机器学习模型的训练可以涉及输入来自与各种技能机器人相关联的示例话语的至少一个话语子集,以生成关于哪个机器人是用于处置任何特定训练话语的正确机器人的推断作为机器学习模型的输出。对于每个训练话语,可以提供用于训练话语的正确机器人的指示作为基本事实(ground truth)信息。然后可以适配机器学习模型的行为(例如,通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。
在某些实施例中,意图分类器242针对向主机器人注册的每个技能机器人确定指示技能机器人可以处置话语(例如,从EIS 230接收的非显式调用话语234)的可能性的置信度得分。意图分类器242还可以确定已配置的每个系统级意图(例如,帮助、退出)的置信度得分。如果特定置信度得分满足一个或多个条件,则技能机器人调用器240将调用与该特定置信度得分相关联的机器人。例如,可能需要满足阈值置信度得分值。因此,意图分类器242的输出245是对系统意图的识别或对特定技能机器人的识别。在一些实施例中,除了满足阈值置信度得分值之外,置信度得分必须超过下一个最高置信度得分一定的裕量。当多个技能机器人的置信度得分均超过阈值置信度得分值时,施加这样的条件将能够路由到特定技能机器人。
在基于置信度得分的评估识别出机器人之后,技能机器人调用器240将处理移交给所识别的机器人。在系统意图的情况下,所识别的机器人是主机器人。否则,所识别的机器人是技能机器人。进一步地,技能机器人调用器240将确定提供什么作为所识别的机器人的输入247。如上所述,在显式调用的情况下,输入247可以基于与调用无关的话语部分,或者输入247可以是什么都没有(例如,空字符串)。在隐式调用的情况下,输入247可以是整个话语。
数据存储250包括一个或多个计算设备,其存储由主机器人系统200的各种子系统使用的数据。如以上所解释的数据存储250包括规则252和技能机器人信息254。规则252包括例如用于由MIS 220确定话语何时表示多个意图以及如何分割表示多个意图的话语的规则。规则252进一步包括用于由EIS 230确定要将显式调用技能机器人的话语的哪些部分发送到技能机器人的规则。技能机器人信息254包括聊天机器人系统中的技能机器人的调用名称,例如,向特定主机器人注册的所有技能机器人的调用名称列表。技能机器人信息254还可以包括意图分类器242用来确定聊天机器人系统中每个技能机器人的置信度得分的信息,例如机器学习模型的参数。
图3是根据某些实施例的技能机器人系统300的简化框图。技能机器人系统300是可以仅以软件实施、仅以硬件实施、或以硬件和软件的组合实施的计算系统。在某些实施例中,如图1所描绘的实施例中,技能机器人系统300可以用于在数字助理内实施一个或多个技能机器人。
技能机器人系统300包括MIS 310、意图分类器320和会话管理器330。MIS 310类似于图2中的MIS 220并提供类似的功能,包括可操作地使用数据存储350中的规则352来确定:(1)话语是否代表多个意图,以及如果是,(2)如何将话语拆分为针对多个意图中的每个意图的单独话语。在某些实施例中,由MIS 310应用的用于检测多个意图和用于分割话语的规则与MIS 220所应用的规则相同。MIS 310接收话语302和提取的信息304。提取的信息304类似于图1中的提取的信息205,并且可以使用语言语法分析器214或技能机器人系统300本地的语言语法分析器来生成。
意图分类器320可以以与以上结合图2的实施例讨论的意图分类器242类似的方式被训练,并在此进一步详细描述。例如,在某些实施例中,意图分类器320是使用机器学习模型来实施的。针对特定技能机器人,使用与该特定技能机器人相关联的示例话语的至少一个子集作为训练话语来训练意图分类器320的机器学习模型。每个训练话语的基本事实将是与训练话语相关联的特定机器人意图。
话语302可以直接从用户接收或通过主机器人提供。当通过主机器人提供话语302时,例如,作为通过图2中描绘的实施例中的MIS 220和EIS 230处理的结果,可以绕过MIS310以避免重复已经由MIS 220执行的处理。然而,如果直接从用户接收到话语302,例如,在路由到技能机器人之后发生的会话期间,则MIS 310可以处理话语302以确定话语302是否代表多个意图。如果是,则MIS 310应用一个或多个规则以将话语302拆分为针对每个意图的单独话语,例如话语“D”306和话语“E”308。如果话语302不代表多个意图,则MIS 310将话语302转发到意图分类器320以进行意图分类,而不拆分话语302。
意图分类器320被配置为将接收到的话语(例如,话语306或308)与和技能机器人系统300相关联的意图相匹配。如以上所解释的,技能机器人可以配置有一个或多个意图,每个意图包括与该意图相关联并用于训练分类器的至少一个示例话语。在图2的实施例中,主机器人系统200的意图分类器242被训练以确定各个技能机器人的置信度得分和针对系统意图的置信度得分。类似地,可以训练意图分类器320以确定针对与技能机器人系统300相关联的每个意图的置信度得分。由意图分类器242执行的分类是在机器人级别,而由意图分类器320执行的分类是在意图级别并且因此更细粒度。意图分类器320可以访问意图信息354。对于与技能机器人系统300相关联的每个意图,意图信息354包括代表意图并说明意图的含义并且通常与可由该意图执行的任务相关联的话语列表。意图信息354可以进一步包括作为在该话语列表上进行训练的结果而产生的参数。
会话管理器330接收特定意图的指示322作为意图分类器320的输出,所述指示由意图分类器320识别为与输入到意图分类器320的话语最佳匹配。在一些实例中,意图分类器320不能确定任何匹配。例如,如果话语涉及系统意图或不同技能机器人的意图,则由意图分类器320计算的置信度得分可能低于阈值置信度得分值。当这种情况发生时,技能机器人系统300可以将话语提交给主机器人以进行处置,例如,以路由到不同的技能机器人。然而,如果意图分类器320成功地识别技能机器人内的意图,则会话管理器330将发起与用户的会话。
由会话管理器330发起的会话是特定于由意图分类器320识别的意图的会话。例如,会话管理器330可以使用被配置为针对所识别的意图执行对话流的状态机来实施。状态机可以包括默认起始状态(例如,当在没有任何附加输入的情况下调用意图时)和一个或多个附加状态,其中每个状态与将由技能机器人执行的动作(例如,执行购买交易)和/或要呈现给用户的对话(例如,问题、回应)相关联。因此,会话管理器330可以在接收到识别到意图的指示322时确定动作/对话335,并且可以响应于在会话期间接收到的后续话语来确定附加动作或对话。
数据存储350包括一个或多个计算设备,其存储由技能机器人系统300的各种子系统使用的数据。如图3中所描绘的,数据存储350可以包括规则352和意图信息354。在某些实施例中,数据存储350可以集成到主机器人或数字助理的数据存储中,例如图2中的数据存储250。
噪声数据扩充
已经发现,用于将话语分类为意图的模型在包含无关上下文的文本上提供了较差的结果(例如,真实话语很多时候都具有与用户提出的问题或用户遇到的问题无关的上下文或无关的信息)。为了克服这个问题,各种实施例涉及用噪声来扩充训练数据的技术(例如,在原始数据周围添加无关的单词),以使模型对无关的上下文更具弹性。通过在原始示例周围用随机词扩充训练数据,模型变得更好地在示例的最重要部分上进行磨炼,以将它们与它们的分类联系起来。意外地发现,这也有助于提高在不包含无关上下文的较短测试话语上的训练性能。在已扩充的文本数据上训练的模型可以在聊天机器人系统中实施,如关于图1、图2和图3所描述的。有利地,这些模型和聊天机器人在具有无关上下文和常规话语(没有太多无关上下文)的话语上表现更好,因为模型能够更好地在话语的重要部分上进行磨炼。此外,由于扩充是以合成不可知的方式自动应用的,因此客户或客户端无需关心在训练数据中添加无关上下文。
图4示出了说明被配置为基于文本数据405来训练和利用分类器(例如,关于图2和图3描述的意图分类器242或320)的聊天机器人系统400的方面的框图。如图4所示,由该示例中的聊天机器人系统400执行的文本分类包括各个阶段:预测模型训练阶段410;技能机器人调用阶段415,用于确定话语代表特定技能机器人被配置为执行的任务的可能性;以及意图预测阶段420,用于将话语分类为一个或多个意图。预测模型训练阶段410建立和训练供其他阶段使用的一个或多个预测模型425a-425n(‘n’表示任何自然数)(所述预测模型在本文中可单独称为预测模型425或统称为预测模型425)。例如,预测模型425可以包括用于确定话语代表特定技能机器人被配置为执行的任务的可能性的模型、用于根据第一类型技能机器人的话语来预测意图的另一个模型、以及根据第二类型技能机器人的话语来预测意图的另一个模型。在根据本公开的其他示例中可以实施其他类型的预测模型。
预测模型425可以是机器学习(“ML”)模型,如卷积神经网络(“CNN”),例如,初始神经网络、残差神经网络(“Resnet”);或递归神经网络,例如长短期记忆(“LSTM”)模型或门控递归单元(“GRU”)模型;深度神经网络(“DNN”)的其他变型网络(例如,用于单意图分类的多标签n分DNN分类器或多类DNN分类器。预测模型425也可以是为自然语言处理而训练的任何其他合适的ML模型,如朴素贝叶斯分类器、线性分类器、支持向量机、如随机森林模型的装袋模型(Bagging Model)、提升模型(Boosting Model)、浅层神经网络、或这些技术中的一种或多种的组合——例如,CNN-HMM或MCNN(多尺度卷积神经网络)。聊天机器人系统400可以采用相同类型的预测模型或不同类型的预测模型来确定特定技能机器人被配置为执行的任务的可能性,根据第一类型技能机器人的话语来预测意图,以及根据第二类型技能机器人的话语来预测意图。在根据本公开的其他示例中可以实施其他类型的预测模型。
为了训练各种预测模型425,训练阶段410由三个主要部分构成:数据集准备430、特征工程435和模型训练440。数据集准备430包括加载数据资产445、将数据资产445拆分成训练集和验证集445a-n使得系统可以训练和测试预测模型425、以及执行基本预处理的过程。数据资产445可以至少包括来自与各种技能机器人相关联的示例话语的话语子集。如上所述,可以以包括音频或文本的各种方式来提供话语。话语可以是句子片段、完整句子、多个句子等。例如,如果话语作为音频提供,则数据准备430可以使用将标点符号(例如,逗号、分号、句号等)插入到结果文本中的语音文本转换器(未示出)来将音频转换为文本。在一些实例中,示例话语由客户端或客户提供。在其他实例中,示例话语是从先前的话语库中自动生成的(例如,从库中识别特定于聊天机器人要学习的技能的话语)。预测模型425的数据资产445可以包括输入文本或音频(或者文本或音频帧的输入特征)和与输入文本或音频(或输入特征)相对应的作为矩阵或值表的标签450。例如,对于每个训练话语,可以提供用于训练话语的正确机器人的指示作为标签450的基本事实信息。然后可以适配预测模型425的行为(例如,通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。可替代地,针对特定技能机器人,可以使用与该特定技能机器人相关联的示例话语的至少一个子集作为训练话语来训练预测模型425。每个训练话语的标签450的基本事实信息将是与该训练话语相关联的特定机器人意图。
在各种实施例中,数据准备430包括对数据资产445进行噪声扩充455以包括噪声(例如,在原始数据周围添加无关的单词),以使预测模型425对无关的上下文更具弹性。通过在原始示例周围用随机词来扩充数据资产445,预测模型425变得更好地在示例的最重要部分上进行磨炼,即,将它们与它们的分类联系起来。扩充455是使用噪声扩充技术来实施的,以用于将无关文本(噪声文本)合并到数据资产445的原始文本中。噪声扩充技术通常包括五个操作:(i)从单词列表、文本语料库(例如,大型的结构化文本集)、出版物或字典中获得与原始文本无关的噪声文本(换言之,所获得的噪声文本不依赖于或不基于原始文本),以及(ii)相对于原始文本以预定义扩充比将噪声文本合并在每个数据资产445中。例如,噪声文本可以以1:0.5到1:5的扩充比(例如1:1.2或1:2——原始文本:噪声文本)设置在原始文本的前面、在原始文本的后面、在原始文本的两侧、或者以与原始文本整合。扩充比被选择为保持句子或短语的原始分类标签。
可以使用的一种噪声扩充操作是用从停用词列表生成的随机文本字符串来扩充原始文本。停用词是任何语言中的一组常用词。例如,在英语中,“the”、“is”和“and”可以作为停用词。在NLP和文本挖掘应用程序中,停用词通常会被删除,从而使算法能够专注于重要的词。然而,在这种实例中,停用词被引入到原始文本中以创建噪声或无关的文本,如表1所示。
表1:停用词扩充示例:
Figure BDA0003873916010000261
在某些实例中,这种噪声扩充操作用于域内意图(即,在特定于特定垂直方向(比如订购披萨)的意图集合或组内),并且对域内意图使用停用词意味着在这些意图中导致误报的可能性更低。
可以使用的另一种噪声扩充操作是用语料库中的(逐字复制的)句子来扩充原始文本。语料库可能包含单一语言的文本(单语言语料库)或多种语言的文本数据(多语言语料库)。在一些实例中,语料库会使用附加信息进行注释,比如词性标记,其中关于每个单词的词性(动词、名词、形容词等)的信息以标记的形式添加到语料库中。将语料库中的句子逐字(与原始使用的单词完全相同)引入原始文本以创建噪声或无关的文本,如表2所示。
表2:语料库(逐字)扩充示例:
Figure BDA0003873916010000262
这种噪声扩充操作保留了真实句子的结构并提供了更稳健的训练,因为它类似于模型在部署期间将接收为输入的内容。
可以使用的另一种噪声扩充操作是用语料库中的(打乱(shuffled)复制的)句子来扩充原始文本。来自语料库的句子被打乱(随机或使用算法)引入到原始文本中,以创建噪声或无关的文本,如表3所示。
表3:语料库(打乱)扩充示例:
Figure BDA0003873916010000271
这种噪声扩充操作保留了真实句子中单词的分布,并且噪声的非结构化性质可能意味着更难发生误报。
可以使用的另一种噪声扩充操作是用从字典生成的随机字符串来扩充原始文本。在不考虑频率(即,不考虑随机字符串中单词的重复或出现次数)的情况下将字典中的句子引入原始文本,以创建噪声或无关的文本,如表4所示。
表4:字典(不考虑频率)扩充示例:
Figure BDA0003873916010000272
在这种噪声扩充操作中,数据很容易获得,并且噪声的非结构化性质可能意味着更难发生误报。
可以使用的另一种噪声扩充操作是用从字典生成的随机字符串来扩充原始文本。在考虑频率(即,考虑随机字符串中单词的重复或出现次数)的情况下将字典中的句子引入原始文本,以创建噪声或无关的文本,如表5所示。
表5:字典(考虑频率)扩充示例:
Figure BDA0003873916010000281
在这种噪声扩充操作中,数据很容易获得,所生成的字符串中的单词分布更真实,并且噪声的非结构化性质可能意味着更难发生误报。
随着噪声扩充技术的引入,预测模型425在具有无关上下文和常规话语(没有太多无关上下文)的话语上表现更好,因为预测模型425能够更好地在话语的重要部分上进行磨炼。此外,由于噪声扩充是以合成不可知的方式自动应用的,因此客户或客户端无需关心在训练数据中添加无关上下文。如表6所示,基线多类模型(不使用噪声扩充)要么返回不正确的排名靠前的意图,要么返回置信度得分低于支持阈值(例如,0.7或70%)的排名靠前的意图,而噪声扩充模型能够返回正确的排名靠前的意图并将其与其他意图区分开来(>0.7或70%的置信度得分)。
表6:
Figure BDA0003873916010000291
Figure BDA0003873916010000301
如表7和表8所示,平均而言,与基线模型相比,噪声扩充模型中最高返回意图的置信度得分更高。
表7:
Figure BDA0003873916010000311
表8:
Figure BDA0003873916010000312
在一些实例中,可以将附加扩充应用到数据资产445(使用噪声扩充)。例如,简单数据扩充(EDA)技术可以用于提高文本分类任务的性能。EDA包括四个操作:同义词替换、随机插入、随机交换和随机删除,这些操作能够防止过拟合并帮助训练更稳健的模型。注意,与噪声扩充相比,EDA操作通常:(i)从原始文本中获得词,并且(ii)相对于原始文本将这些词合并到每个数据资产445中。例如,同义词替换操作包括从原始句子(例如,话语)中随机选择n个不是停用词的词,并将这些词中的每一个替换为其随机选择的同义词之一。随机插入操作包括——n次——找到原始句子中不是停用词的随机词的随机同义词,并将该同义词插入句子中的随机位置。随机交换操作包括——n次——随机选择句子中的两个词并交换它们的位置。随机删除操作包括以概率p随机删除句子中的每个单词。
在各种实施例中,特征工程435包括将数据资产445(使用噪声扩充)变换成特征向量和/或创建将使用数据资产445(使用噪声扩充)创建的新特征。特征向量可以包括计数向量作为特征,术语频率(term frequency)-逆文档频率(TF-IDF)向量作为特征(如单词级别、n元级别或字符级别)、单词嵌入作为特征、文本/NLP作为特征、主题模型作为特征、或其组合。计数向量是数据资产445的矩阵符号,其中每一行代表一个话语,每一列代表来自话语的一个术语,并且每个单元格代表特定术语在话语中的频率计数。TF-IDF得分代表术语在话语中的相对重要性。单词嵌入是一种使用密集向量表示来表示单词和话语的形式。向量空间中单词的位置是从文本中学习的,并且基于使用该单词时围绕该单词的单词。基于文本/NLP的特征可以包括话语中的单词数、话语中的字符数、平均单词密度、标点符号数、大写字母数、标题单词数、词性标签(例如,名词和动词)的频率分布、或其任何组合。主题建模是一种从包含集合中的最佳信息的话语集合中识别词组(称为主题)的技术。
在各种实施例中,模型训练440包括使用在特征工程435中创建的特征向量和/或新特征来训练分类器。在一些实例中,训练过程包括迭代操作以找到预测模型425的一组参数,该组参数最小化预测模型425的损失或误差函数。每次迭代可以涉及找到预测模型425的一组参数,使得使用该组参数的损失或误差函数的值小于在先前迭代中使用另一组参数的损失或误差函数的值。可以构建损失或误差函数以衡量使用预测模型425预测的输出与数据资产445中包含的标签450之间的差异。一旦识别出该组参数,预测模型425就已经被训练并且可以根据设计用于预测。
除了数据资产445、标签450、特征向量和/或新特征之外,还可以采用其他技术和信息来细化预测模型425的训练过程。例如,可以将特征向量和/或新特征组合在一起以帮助提高分类器或模型的准确度。另外或可替代地,可以调整或优化超参数,例如,可以微调诸如树长度、叶、网络参数等多个参数以获得最佳拟合模型。尽管本文描述的训练机制主要集中于训练预测模型425。这些训练机制还可以用于微调从其他数据资产训练的现有预测模型425。例如,在一些情况下,预测模型425可能已经使用特定于另一个技能机器人的话语进行了预训练。在这些情况下,可以如本文所讨论的使用数据资产445(使用噪声扩充)来再训练预测模型425。
预测模型训练阶段410输出经训练的预测模型425,包括任务预测模型460和意图预测模型465。任务预测模型460可以在技能机器人调用阶段415使用以确定话语代表特定技能机器人被配置为执行470的任务的可能性,并且意图预测模型465可以在意图预测阶段420使用以将话语分类为一个或多个意图475。在一些实例中,技能机器人调用阶段415和意图预测阶段420可以在一些示例中通过单独的模型独立地进行。例如,经训练的意图预测模型465可以在意图预测阶段420中用于预测技能机器人的意图,而无需首先在技能机器人调用阶段415中识别技能机器人。类似地,任务预测模型460可以在技能机器人调用阶段415中用于预测针对话语要使用的任务或技能机器人,而无需在意图预测阶段420中识别话语的意图。
可替代地,技能机器人调用阶段415和意图预测阶段420可以顺序进行,其中一个阶段使用另一个阶段的输出作为输入,或者针对特定技能机器人,一个阶段基于另一个阶段的输出以特定方式被调用。例如,对于给定的文本数据405,技能机器人调用器可以使用技能机器人调用阶段415和任务预测模型460通过隐式调用来调用技能机器人。可以使用机器学习和/或基于规则的训练技术来训练任务预测模型460,以确定话语代表特定技能机器人470被配置为执行的任务的可能性。然后对于识别或调用的技能机器人和给定文本数据405,意图预测阶段420和意图预测模型465可以用于将接收到的话语(例如,给定数据资产445内的话语)与和技能机器人相关联的意图475相匹配。如本文所解释的,技能机器人可以配置有一个或多个意图,每个意图包括与所述意图相关联并用于训练分类器的至少一个示例话语。在一些实施例中,技能机器人调用阶段415和在主机器人系统中使用的任务预测模型460被训练以确定各个技能机器人的置信度得分和系统意图的置信度得分。类似地,意图预测阶段420和意图预测模型465可以被训练以确定与技能机器人系统相关联的每个意图的置信度得分。由技能机器人调用阶段415和任务预测模型460执行的分类是在机器人级别,而由意图预测阶段420和意图预测模型465执行的分类是在意图级别并且因此更细粒度。
用于噪声数据扩充和话语分类的技术
图5是图示根据某些实施例的用噪声扩充训练数据集的过程500的流程图。图5所描绘的处理可以以由相应系统的一个或多个处理单元(例如,处理器、核)执行的软件(例如,代码、指令、程序)、硬件或其组合实施。软件可以存储在非暂态存储介质上(例如,存储器设备上)。图5所呈现的且下文所描述的方法旨在是说明性的而非限制性的。尽管图5描绘了以特定序列或顺序发生的各个处理步骤,但这并不旨在是限制性的。在某些替代性实施例中,步骤可以以某种不同的顺序执行或者一些步骤还可以并行地执行。在某些实施例中,如图1至图4中描绘的实施例中,图5中描绘的处理可以由预处理子系统(例如,预处理子系统210或预测模型训练阶段410)执行以生成噪声扩充的数据集,以用于由一个或多个预测模型(例如,意图分类器242或320或预测模型425)进行训练。
在505处,数据处理系统(例如,关于图4描述的聊天机器人系统400)接收训练话语集。在某些实例中,训练话语集用于训练意图分类器以识别一个或多个话语的一个或多个意图。在510处,训练话语集由数据处理系统用噪声文本扩充以获得已扩充的训练话语集。在各种实施例中,所述扩充包括:(i)从单词列表、文本语料库、出版物、字典或其任何组合中获得与训练话语集的话语中的原始文本无关的噪声文本,并(ii)相对于训练话语集的话语中的原始文本以预定义扩充比将噪声文本合并到话语内以生成已扩充话语。噪声文本可以以1:0.5至1:5的预定义扩充比以下述方式设置:(i)在话语中的原始文本的前面,(ii)在话语的原始文本的后面,(iii)在话语的原始文本的两侧,(iv)整合在话语的原始文本中,(v)或前述方式的组合。噪声文本可以是从停用词列表自动生成的随机文本字符串。噪声文本可以是从语料库中自动逐字复制的文本句子。噪声文本可以是从语料库自动生成的随机文本字符串。噪声文本可以是从字典自动生成的随机文本字符串,其中不考虑为随机文本字符串选择的单词或字符的频率。噪声文本可以是从字典自动生成的随机文本字符串,其中考虑了为随机文本字符串选择的单词或字符的频率。
在515处,使用已扩充的训练文本数据集来训练预测模型,以确定话语或消息代表技能机器人被配置为执行的任务的可能性或将话语或消息与和技能机器人相关联的意图相匹配。此后,在520处,经训练的预测模型可以部署在聊天机器人系统内(例如,作为技能机器人的一部分),以确定话语或消息代表技能机器人被配置为执行的任务的可能性或将话语或消息与和技能机器人相关联的意图相匹配。例如,可以接收话语,可以分析话语以确定话语是否包含技能机器人的调用名称。如果未找到调用名称,则该话语被视为非显式调用,并且该过程使用意图分类器(如经训练模型)继续。如果确定存在调用名称,则该话语被视为显式调用,并且该过程继续确定该话语的哪些部分与该调用名称相关联。
在调用经训练模型的实例中,将接收到的整个话语作为输入提供给意图分类器。接收话语的意图分类器可以是主机器人的意图分类器(例如,图2中的意图分类器242)。意图分类器可以是基于机器学习或基于规则的分类器,其使用噪声扩充的数据进行训练以确定话语的意图是否与系统意图(例如,退出、帮助)或特定技能机器人相匹配。如本文所解释的,由主机器人执行的意图分析可以限于与特定技能机器人相匹配,而无需确定特定技能机器人内的哪个意图是话语的最佳匹配。因此,接收话语的意图分类器可以识别要调用的特定技能机器人。可替代地,如果话语代表特定的系统意图(例如,话语包含单词“退出”或“帮助”),那么接收话语的意图分类器可以识别特定系统意图,以基于为该特定系统意图配置的对话流来触发主机器人与用户之间的会话。
在存在调用名称的实例中,应用一个或多个显式调用规则来确定话语的哪些部分与调用名称相关联。该确定可以基于使用POS标签、依存信息和/或与话语一起接收的其他提取的信息对话语的句子结构的分析。例如,与调用名相关联的部分可以是包括调用名称的名词短语或与调用名称相对应的介词宾语。如基于处理确定的与调用名称相关联的任何部分都将被删除。也可以删除话语中传达话语的含义所不需要的其他部分(例如,介词)。删除话语的某些部分会为与调用名称相关联的技能机器人产生输入。如果在删除之后仍然剩余接收到的话语的任何部分,则剩余部分形成新的话语以输入到技能机器人,例如,作为文本字符串。否则,如果接收到的话语被完全删除,则输入可以是空字符串。
此后,调用与调用名称相关联的技能机器人,并向技能机器人提供所产生的输入。在接收到所产生的输入后,被调用的技能机器人将处置输入,例如,通过使用利用噪声扩充的数据训练的技能机器人的意图分类器来执行意图分析,以识别与输入中表示的用户意图相匹配的机器人意图。匹配的机器人意图的识别可以导致技能机器人根据与匹配的机器人意图相关联的对话流来执行特定动作或开始与用户的会话。例如,如果输入是空字符串,则可以在为对话流定义的默认状态下开始会话,例如欢迎消息。可替代地,如果输入不是空字符串,则会话可以在某个中间状态下开始,例如,因为输入包含实体的值或一些其他信息,技能机器人由于已接收到该信息作为输入的一部分而不再需要向用户询问这些其他信息。作为另一个示例,技能机器人可能决定它不能处置输入(例如,因为为技能机器人配置的每个机器人意图的置信度得分低于某个阈值)。在这种情况下,技能机器人可以将输入返回给主机器人进行处置(例如,使用主机器人的意图分类器进行意图分析),或者技能机器人可以提示用户进行澄清。
在各种实施例中,在聊天机器人系统内部署和使用意图分类器包括由聊天机器人系统接收由与聊天机器人系统交互的用户生成的话语;使用部署在聊天机器人系统内的意图分类器,将话语分类为与意图相对应的意图类别;以及使用所述意图分类器基于所述分类来输出所述意图。意图分类器包括使用训练数据识别的多个模型参数,所述训练数据包括:已扩充的训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图,其中,所述已扩充的训练话语集被人工生成以包括来自训练话语集的已扩充话语,其中,噪声文本相对于话语中的原始文本以预定义扩充比合并在来自训练话语集的话语中以生成已扩充话语。所述多个模型参数是基于使损失函数最小化使用训练数据来识别的。
说明性系统
图6描绘了分布式系统600的简化图。在图示的示例中,分布式系统600包括经由一个或多个通信网络610耦接到服务器612的一个或多个客户端计算设备602、604、606和608。客户端计算设备602、604、606和608可以被配置为执行一个或多个应用程序。
在各种示例中,服务器612可以被适配成运行实现本公开所描述的一个或多个实施例的一个或多个服务或软件应用程序。在某些示例中,服务器612还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用程序。在一些示例中,这些服务可以作为基于web的服务或云服务(如在软件即服务(SaaS)模型下)提供给客户端计算设备602、604、606和/或608的用户。操作客户端计算设备602、604、606和/或608的用户进而可以利用一个或多个客户端应用程序来与服务器612交互以利用这些部件所提供的服务。
在图6所描绘的配置中,服务器612可以包括实施由服务器612执行的功能的一个或多个部件618、620和622。这些部件可以包括可以由一个或多个处理器、硬件部件或其组合执行的软件部件。应了解,可以与分布式系统600不同的各种不同系统配置是可能的。因此,图6所示出的示例是用于实施示例系统的分布式系统的一个示例并且不旨在是限制性的。
用户可以使用客户端计算设备602、604、606和/或608来执行一个或多个应用程序、模型或聊天机器人,所述一个或多个应用程序、模型或聊天机器人可以生成然后可以根据本公开的传授内容实施或服务的一个或多个事件或模型。客户端设备可以提供使客户端设备的用户能够与客户端设备交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图6描绘了仅四个客户端计算设备,但是可以支持任何数量的客户端计算设备。
客户端设备可以包括各种类型的计算系统,如便携式手持设备、如个人计算机和膝上型计算机等通用计算机、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息传递设备、传感器或其他感测设备等。这些计算设备可以运行各种类型和版本的软件应用程序和操作系统(例如,Microsoft
Figure BDA0003873916010000371
Apple
Figure BDA0003873916010000372
或类UNIX操作系统、Linux或类Linux操作系统(如Google ChromeTM OS)),包括各种移动操作系统(例如,Microsoft Windows
Figure BDA0003873916010000373
Windows
Figure BDA0003873916010000374
AndroidTM
Figure BDA0003873916010000375
Palm
Figure BDA0003873916010000376
)。便携式手持设备可以包括蜂窝电话、智能电话(例如,
Figure BDA0003873916010000377
)、平板计算机(例如,
Figure BDA0003873916010000378
)、个人数字助理(PDA)等。可穿戴设备可以包括Google
Figure BDA0003873916010000379
头戴式显示器以及其他设备。游戏系统可以包括各种手持游戏设备、支持因特网的游戏设备(例如,有或没有
Figure BDA00038739160100003710
姿势输入设备的Microsoft
Figure BDA00038739160100003711
游戏控制台、Sony Play
Figure BDA00038739160100003712
系统、由
Figure BDA00038739160100003713
提供的各种游戏系统、以及其他)等。客户端设备可以能够执行各种不同的应用程序,如各种因特网相关应用程序、通信应用程序(例如,电子邮件应用程序、短消息服务(SMS)应用程序)并可以使用各种通信协议。
(多个)网络610可以是本领域技术人员所熟悉的可以使用各种可用协议中的任何一种支持数据通信的任何类型的网络,所述可用协议包括但不限于TCP/IP(传输控制协议/因特网协议)、SNA(系统网络架构)、IPX(因特网分组交换)、
Figure BDA00038739160100003714
等。仅通过示例的方式,(多个)网络610可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟私人网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外线网、无线网(例如,根据电气与电子协会(IEEE)1002.11协议套件、
Figure BDA00038739160100003715
和/或任何其他无线协议中的任一种协议操作的网络)和/或这些网络和/或其他网络的任何组合。
服务器612可以由以下各项构成:一个或多个通用计算机、专用服务器计算机(通过示例的方式包括PC(个人计算机)服务器、
Figure BDA0003873916010000381
服务器、中档服务器、大型计算机、机架式服务器等)、服务器群、服务器集群、或任何其他适当的布置和/或组合。服务器612可以包括运行虚拟操作系统的一个或多个虚拟机或涉及虚拟化的其他计算架构,比如逻辑存储设备的可以被虚拟化以维护服务器的虚拟存储设备的一个或多个灵活池。在各种示例中,服务器612可以被适配成运行提供前述公开内容所描述的功能的一个或多个服务或软件应用程序。
服务器612中的计算系统可以运行一个或多个操作系统,所述一个或多个操作系统包括以上所讨论的那些操作系统中的任何一个操作系统以及任何可商购获得的服务器操作系统。服务器612也可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一种应用程序,包括HTTP(超文本运输协议)服务器、FTP(文件传送协议)服务器、CGI(通用网关接口)服务器、
Figure BDA0003873916010000382
服务器、数据库服务器等。示例性数据库服务器包括但不限于可从
Figure BDA0003873916010000383
(国际商业机器公司)等商购获得的那些数据库服务器。
在一些实施方式中,服务器612可以包括一个或多个应用程序以分析并合并从客户端计算设备602、604、606和608的用户接收的数据馈送和/或事件更新。作为示例,数据馈送和/或事件更新可以包括但不限于
Figure BDA0003873916010000384
馈送、
Figure BDA0003873916010000385
更新或从一个或多个第三方信息源和连续数据流接收的实时更新,所述实时更新可以包括与传感器数据应用程序、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等相关的实时事件。服务器612还可以包括一个或多个应用程序以经由客户端计算设备602、604、606和608的一个或多个显示设备来显示数据馈送和/或实时事件。
分布式系统600还可以包括一个或多个数据储存库614、616。在某些示例中,这些数据储存库可以用于存储数据和其他信息。例如,数据储存库614、616中的一个或多个可以用于存储信息(如与聊天机器人性能或生成的模型有关的信息)以供服务器612在执行根据各种实施例的各种功能时使用的聊天机器人使用。数据储存库614、616可以驻留在各种位置。例如,服务器612所使用的数据储存库可以在服务器612本地或者可以远离服务器612并经由基于网络的或专用的连接与服务器612通信。数据储存库614、616可以是不同类型。在某些示例中,服务器612所使用的数据储存库可以是数据库,例如关系数据库,如由Oracle
Figure BDA0003873916010000386
和其他供应商提供的数据库。这些数据库中的一个或多个数据库可以被适配成响应于SQL格式的命令来实现数据到以及从数据库的存储、更新和取得。
在某些示例中,数据储存库614、616中的一个或多个数据储存库还可以被应用程序用来存储应用程序数据。应用程序所使用的数据储存库可以是不同类型,如例如键值存储储存库、对象存储储存库或由文件系统支持的通用存储储存库。
在某些示例中,本公开所描述的功能可以经由云环境作为服务提供。图7是根据某些示例的各种服务在其中可以作为云服务提供的基于云的系统环境的简化框图。在图7所描绘的示例中,云基础设施系统702可以提供可以由用户使用一个或多个客户端计算设备704、706和708请求的一个或多个云服务。云基础设施系统702可以包括一个或多个计算机和/或服务器,所述一个或多个计算机和/或服务器可以包括以上针对服务器612所描述的那些计算机和/或服务器。云基础设施系统702中的计算机可以被组织成通用计算机、专用服务器计算机、服务器群、服务器集群或任何其他适当的布置和/或组合。
(多个)网络710可以促进客户端704、706和708与云基础设施系统702之间的数据通信和交换。(多个)网络710可以包括一个或多个网络。网络可以是相同或不同的类型。(多个)网络710可以支持一个或多个通信协议(包括有线和/或无线协议)以促进通信。
图7所描绘的示例仅是云基础设施系统的一个示例并且不旨在是限制性的。应了解,在一些其他示例中,云基础设施系统702可以具有比图7所描绘的那些部件更多或更少的部件、可以组合两个或更多个部件或者可以具有不同的部件配置或布置。例如,尽管图7描绘了三个客户端计算设备,但是在替代性示例中,可以支持任何数量的客户端计算设备。
术语云服务通常用于指代通过服务提供商的系统(例如,云基础设施系统702)按需且经由如因特网等通信网络变得可用于用户的服务。通常,在公共云环境中,构成云服务提供商的系统的服务器和系统与客户自身的室内服务器和系统不同。云服务提供商的系统由云服务提供商管理。因此,客户可以使自身利用由云服务提供商提供的云服务,而不必针对服务购买单独的许可证、支持或硬件和软件资源。例如,云服务提供商的系统可以托管应用程序,并且用户可以经由因特网按需订购并使用应用程序,而用户不必购买用于执行应用程序的基础设施资源。云服务被设计成提供对应用程序、资源和服务的容易的、可伸缩的访问。数个提供商提供云服务。例如,由加利福尼亚州红木海岸(Redwood Shores,California)的Oracle
Figure BDA0003873916010000401
提供如中间件服务、数据库服务、Java云服务以及其他服务等几种云服务。
在某些示例中,云基础设施系统702可以使用不同的模型(如在软件即服务(SaaS)模型、平台即服务(PaaS)模型、基础设施即服务(IaaS)模型和其他模型(包括混合服务模型)下)提供一个或多个云服务。云基础设施系统702可以包括实现对各种云服务的供给的一套应用程序、中间件、数据库和其他资源。
SaaS模型使应用程序或软件能够作为服务通过如因特网等通信网络输送给客户,而客户不必购买底层应用程序的硬件或软件。例如,可以使用SaaS模型为客户提供对由云基础设施系统702托管的按需应用程序的访问。Oracle
Figure BDA0003873916010000402
提供的SaaS服务的示例包括但不限于用于人力资源/资本管理、客户关系管理(CRM)、企业资源规划(ERP)、供应链管理(SCM)、企业绩效管理(EPM)、分析服务、社交应用程序以及其他等的各种服务。
IaaS模型通常用于将基础设施资源(例如,服务器、存储、硬件和联网资源)作为云服务提供给客户以提供弹性计算和存储能力。由Oracle
Figure BDA0003873916010000403
提供各种IaaS服务。
PaaS模型通常用于提供使客户能够开发、运行并管理应用程序和服务而客户不必采购、构建或维护这种资源的平台和环境资源作为服务。由Oracle
Figure BDA0003873916010000404
提供的PaaS服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)、数据管理云服务、各种应用程序开发解决方案服务、以及其他服务。
云服务通常是以按需自助服务基础、基于订阅、可弹性伸缩、可靠、高度可用且安全的方式提供的。例如,客户可以经由订阅订单来订购由云基础设施系统702提供的一个或多个服务。然后,云基础设施系统702执行处理以提供客户的订阅订单中请求的服务。例如,用户可以使用话语来请求云基础设施系统采取如上文所描述的某个动作(例如,意图)和/或为如本文所描述的聊天机器人系统提供服务。云基础设施系统702可以被配置为提供一个或甚至多个云服务。
云基础设施系统702可以经由不同的部署模型提供云服务。在公共云模型中,云基础设施系统702可以由第三方云服务提供商拥有,并且云服务被提供给任何一般的公众客户,其中,所述客户可以是个人或企业。在某些其他示例中,在私有云模型下,云基础设施系统702可以在组织内(例如,在企业组织内)操作并且服务被提供给组织内的客户。例如,客户可以是如人力资源部门、薪资部门等企业的各个部门或甚至是企业内的个人。在某些其他示例中,在社区云模型下,云基础设施系统702和所提供的服务可以由有关的社区中的几个组织共享。也可以使用如以上所提到的模型的混合等各种其他模型。
客户端计算设备704、706和708可以是不同类型的(如图6所描绘的客户端计算设备602、604、606和608)并且可以能够操作一个或多个客户端应用程序。用户可以使用客户端设备与云基础设施系统702交互,如请求由云基础设施系统702提供的服务。例如,用户可以使用客户端设备从如本公开所描述的聊天机器人请求信息或动作。
在一些示例中,由云基础设施系统702执行的用于提供服务的处理可以涉及模型训练和部署。此分析可以涉及使用、分析并操纵数据集来训练并部署一个或多个模型。该分析可以由一个或多个处理器执行,从而可能并行地处理数据、使用数据执行模拟等。例如,大数据分析可以由云基础设施系统702执行以用于针对聊天机器人系统生成并训练一个或多个模型。用于该分析的数据可以包括结构化数据(例如,存储在数据库中或根据结构化模型结构化的数据)和/或非结构化数据(例如,数据块(二进制大对象))。
如图7中的示例所描绘的,云基础设施系统702可以包括被用于促进供给由云基础设施系统702提供的各种云服务的基础设施资源730。基础设施资源730可以包括例如处理资源、存储或存储器资源、联网资源等。在某些示例中,可用于服务从应用程序请求的存储的存储虚拟机可以是云基础设施系统702的一部分。在其他示例中,存储虚拟机可以是不同系统的一部分。
在某些示例中,为了促进这些资源的高效供给以支持由云基础设施系统702为不同客户提供的各种云服务,资源可以绑定到资源组或资源模块(也称为“群(pod)”)中。每个资源模块或群可以包括一种或多种类型的资源的预先集成且优化的组合。在某些示例中,可以针对不同类型的云服务预先供给不同的群。例如,可以针对数据库服务供给第一组群、可以针对Java服务供给第二组群(所述第二组群可以包括与第一组群中的群不同的资源组合)等。对于一些服务,被分配用于供给服务的资源可以在服务之间共享。
云基础设施系统702自身可以在内部使用由云基础设施系统702的不同部件共享并且促进云基础设施系统702供给服务的服务732。这些内部共享服务可以包括但不限于安全和身份服务、整合服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高度可用性、备份和恢复服务、用于实现云支持的服务、电子邮件服务、通知服务、文件传送服务等。
云基础设施系统702可以包括多个子系统。这些子系统可以以软件或硬件或其组合实施。如图7所描绘的,子系统可以包括使得云基础设施系统702的用户或客户能够与云基础设施系统702交互的用户接口子系统712。用户接口子系统712可以包括各种不同的接口,如web接口714、在线商店接口716(其中,广告并且客户可购买由云基础设施系统702提供的云服务)和其他接口718。例如,客户可以使用客户端设备请求(服务请求734)由云基础设施系统702使用接口714、716和718中的一个或多个接口提供的一个或多个服务。例如,客户可以访问在线商店、浏览由云基础设施系统702提供的云服务并且针对客户希望订阅的由云基础设施系统702提供的一个或多个服务下订阅订单。服务请求可以包括标识客户和客户期望订阅的一个或多个服务的信息。例如,客户可以针对由云基础设施系统702提供的服务下订阅订单。作为订单的一部分,客户可以提供识别服务要针对其提供的聊天机器人系统的信息并且可选地提供针对聊天机器人系统的一个或多个凭证。
在某些示例(如图7所描绘的示例)中,云基础设施系统702可以包括被配置成处理新订单的订单管理子系统(OMS)720。作为该处理的一部分,OMS 720可以被配置为:为客户创建账户(如果尚未创建的话);从客户接收账单和/或计费信息,这些信息将用于向客户开具账单以向客户提供所请求的服务;验证客户信息;在验证之后,为客户预订订单;并且策划各种工作流程来准备订单以进行供给。
一旦被正确地验证,那么,OMS 720就可以调用被配置成为订单供给资源(包括处理资源、存储器资源和联网资源)的订单供给子系统(OPS)724。供给可以包括为订单分配资源并配置资源以促进客户订单所请求的服务。为订单供给资源的方式和所供给的资源的类型可以取决于客户已经订购的云服务的类型。例如,根据一个工作流程,OPS724可以被配置为确定正在请求的特定云服务并且识别可能已经为所述特定云服务预先配置的群的数量。为订单分配的群的数量可以取决于所请求服务的大小/量/层级/范围。例如,要分配的群的数量可以基于服务所要支持的用户的数量、正在请求的服务的持续时间等来确定。然后,可以为特定的请求客户定制分配的群以用于提供所请求服务。
在某些示例中,如上文所描述的设置阶段处理可以作为供给过程的一部分由云基础设施系统702来执行。云基础设施系统702可以生成应用程序ID并从云基础设施系统702自身所提供的存储虚拟机中或从除云基础设施系统702以外的其他系统所提供的存储虚拟机中为应用程序选择存储虚拟机。
云基础设施系统702可以向请求客户发送回应或通知744,以指示何时所请求服务现在已准备好使用。在一些实例中,可以向客户发送使客户能够开始使用和利用所请求服务的益处的信息(例如,链接)。在某些示例中,对于请求服务的客户,回应可以包括由云基础设施系统702生成的聊天机器人系统ID和识别由云基础设施系统702对应于聊天机器人系统ID为聊天机器人系统选择的聊天机器人系统的信息。
云基础设施系统702可以向多个客户提供服务。对于每个客户,云基础设施系统702负责管理与从客户接收的一个或多个订阅订单有关的信息、维护与订单相关的客户数据并且向客户提供所请求服务。云基础设施系统702还可以收集关于客户使用所订阅服务的使用情况统计数据。例如,可以收集所使用的存储量、所传送的数据量、用户的数量以及系统开机时间量和系统停机时间量等的统计数据。可以使用该使用情况信息向客户开具账单。可以例如以月为周期完成开具账单。
云基础设施系统702可以并行地向多个客户提供服务。云基础设施系统702可以存储这些客户的信息(可能包括专有信息)。在某些示例中,云基础设施系统702包括被配置成管理客户信息并提供对所管理信息的分离使得与一个客户有关的信息不能被另一个客户访问的身份管理子系统(IMS)728。IMS 728可以被配置为提供如身份服务等各种安全有关服务,如信息访问管理、认证和授权服务、用于管理客户身份和角色以及相关功能的服务等。
图8图示了计算机系统800的示例。在一些示例中,计算机系统800可以用于实施分布式环境内的任何数字助理或聊天机器人系统以及上文所描述的各种服务器和计算机系统。如图8所示,计算机系统800包括各种子系统,包括经由总线子系统802与多个其他子系统通信的处理子系统804。这些其他子系统可以包括处理加速单元806、I/O子系统808、存储子系统818和通信子系统824。存储子系统818可以包括非暂态计算机可读存储介质,包括存储介质822和系统存储器810。
总线子系统802提供用于允许计算机系统800的各个部件和子系统按预期彼此通信的机构。虽然总线子系统802被示意性地示出为单个总线,但是总线子系统的替代性示例可以利用多个总线。总线子系统802可以是包括存储器总线或存储器控制器、外围总线、使用各种总线架构中的任何一种的局部总线等的若干种类型的总线结构中的任何一种。例如,这种架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围部件互连(PCI)总线(所述PCI总线可以被实施为被制造成IEEE P1386.1标准的夹层(Mezzanine)总线)等。
处理子系统804控制计算机系统800的操作并且可以包括一个或多个处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。处理器可以包括单核处理器或多核处理器。计算机系统800的处理资源可以被组织成一个或多个处理单元832、834等。处理单元可以包括一个或多个处理器、来自相同或不同处理器的一个或多个核、核和处理器的组合或核和处理器的其他组合。在一些示例中,处理子系统804可以包括如图形处理器、数字信号处理器(DSP)等一个或多个专用协处理器。在一些示例中,处理子系统804的处理单元中的一些或全部可以使用如专用集成电路(ASIC)或现场可编程门阵列(FPGA)等定制电路来实施。
在一些示例中,处理子系统804中的处理单元可以执行存储在系统存储器810内或计算机可读存储介质822上的指令。在各种示例中,处理单元可以执行各种程序或代码指令并且可以维护多个同时执行的程序或过程。在任何给定时间,要执行的程序代码中的一些或全部可以驻留在系统存储器810中和/或计算机可读存储介质822上(潜在地包括驻留在一个或多个存储设备上)。通过适合的编程,处理子系统804可以提供上文所描述的各种功能。在计算机系统800在执行一个或多个虚拟机的实例中,可以向每个虚拟机分配一个或多个处理单元。
在某些示例中,可以可选地提供处理加速单元806以用于执行定制处理或用于卸载处理子系统804所执行的处理中的一些处理,从而加速计算机系统800所执行的总体处理。
I/O子系统808可以包括用于向计算机系统800输入信息和/或用于从或经由计算机系统800输出信息的设备和机构。通常,使用术语输入设备旨在包括用于向计算机系统800输入信息的所有可能类型的设备和机构。用户接口输入设备可以包括例如键盘、如鼠标或轨迹球等指向设备、合并到显示器中的触摸板或触摸屏、滚轮、点击轮、拨号盘、按钮、开关、小键盘、具有话音命令识别系统的音频输入设备、麦克风以及其他类型的输入设备。用户接口输入设备还可以包括运动感测和/或姿势识别设备,如使用户能够控制输入设备并与输入设备交互的Microsoft
Figure BDA0003873916010000441
运动传感器、Microsoft
Figure BDA0003873916010000442
360游戏控制器、提供用于使用姿势和口述命令接收输入的界面的设备。用户接口输入设备还可以包括眼部姿势识别设备,如检测来自用户的眼部活动(例如,在拍照和/或进行菜单选择时“眨眼”)并将眼部姿势转化为到输入设备(如Google
Figure BDA0003873916010000443
)的输入的Google
Figure BDA0003873916010000444
眨眼检测器。另外,用户接口输入设备可以包括使用户能够通过声音命令与声音识别系统(例如,
Figure BDA0003873916010000445
导航器)交互的声音识别感测设备。
用户接口输入设备的其他示例包括但不限于三维(3D)鼠标、操纵杆或指向杆、游戏手柄和图形板、以及音频/视觉设备(如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像机、图像扫描仪、指纹扫描仪、条形码读取器3D扫描仪、3D打印机、激光测距仪、眼睛注视跟踪设备)。另外,用户接口输入设备可以包括例如医学成像输入设备,如计算机断层扫描、磁共振成像、正电子发射断层扫描和医学超声检查设备。用户接口输入设备还可以包括例如音频输入设备,如MIDI键盘、数码乐器等。
通常,使用术语输出设备旨在包括用于从计算机系统800向用户或其他计算机输出信息的所有可能类型的设备和机构。用户接口输出设备可以包括显示子系统、指示灯或如音频输出设备等非视觉显示器。显示子系统可以是阴极射线管(CRT)、平板设备(如使用液晶显示器(LCD)或等离子显示器的平板设备)、投影设备、触摸屏等。例如,用户接口输出设备可以包括但不限于在视觉上传达文本、图形和音频/视频信息的各种显示设备,如监视器、打印机、扬声器、头戴式耳机、汽车导航系统、绘图仪、话音输出设备和调制解调器。
存储子系统818提供用于存储计算机系统800所使用的信息和数据的储存库或数据存储。存储子系统818提供用于存储提供一些示例的功能的基本编程和数据构造的有形非暂态计算机可读存储介质。存储子系统818可以存储当由处理子系统804执行时提供以上所描述的功能的软件(例如,程序、代码模块、指令)。软件可以由处理子系统804的一个或多个处理单元执行。存储子系统818还可以根据本公开的传授内容提供认证。
存储子系统818可以包括一个或多个非暂态存储器设备,所述一个或多个非暂态存储器设备包括易失性存储器设备和非易失性存储器设备。如图8所示,存储子系统818包括系统存储器810和计算机可读存储介质822。系统存储器810可以包括多个存储器,包括用于在程序执行期间存储指令和数据的易失性主随机存取存储器(RAM)和其中存储有固定指令的非易失性只读存储器(ROM)或闪速存储器。在一些实施方式中,包含在启动期间帮助计算机系统800内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以存储在ROM中。RAM通常包含目前由处理子系统804操作并执行的数据和/或程序模块。在一些实施方式中,系统存储器810可以包括如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等多种不同类型的存储器。
通过示例而非限制的方式,如图8所描绘的,系统存储器810可以加载正在执行的应用程序812(所述应用程序可以包括如Web浏览器、中间层应用程序、关系数据库管理系统(RDBMS)等各种应用程序)、程序数据814和操作系统816。通过示例的方式,操作系统816可以包括各种版本的Microsoft
Figure BDA0003873916010000451
Apple
Figure BDA0003873916010000452
和/或Linux操作系统、各种可商购获得的
Figure BDA0003873916010000453
或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google
Figure BDA0003873916010000461
OS等)和/或如iOS、
Figure BDA0003873916010000462
电话、
Figure BDA0003873916010000463
OS、
Figure BDA0003873916010000464
OS、
Figure BDA0003873916010000465
OS操作系统等移动操作系统、以及其他操作系统。
计算机可读存储介质822可以存储提供一些示例的功能的编程和数据构造。计算机可读介质822可以为计算机系统800提供对计算机可读指令、数据结构、程序模块和其他数据的存储。当由处理子系统804执行时提供以上所描述的功能的软件(程序、代码模块、指令)可以存储在存储子系统818中。通过示例的方式,计算机可读存储介质822可以包括如硬盘驱动器、磁盘驱动器、光盘驱动器(如CD ROM、DVD、
Figure BDA0003873916010000466
盘或其他光学介质)等非易失性存储器。计算机可读存储介质822可以包括但不限于
Figure BDA0003873916010000467
驱动器、闪速存储器卡、通用串行总线(USB)闪速存储器驱动器、安全数字(SD)卡、DVD盘、数字录像带等。计算机可读存储介质822还可以包括如基于闪速存储器的固态驱动器(SSD)、企业级闪速存储器驱动器、固态ROM等基于非易失性存储器的SSD、基于如固态RAM、动态RAM、静态RAM等易失性存储器的SSD、基于DRAM的SSD、磁阻RAM(MRAM)SSD以及使用DRAM和基于闪速存储器的SSD的组合的混合SSD。
在某些示例中,存储子系统818还可以包括可以进一步连接到计算机可读存储介质822的计算机可读存储介质读取器820。读取器820可以从如盘、闪速存储器驱动器等存储器设备接收数据并且被配置为从所述存储器设备读取数据。
在某些示例中,计算机系统800可以支持虚拟化技术,包括但不限于对处理和存储器资源的虚拟化。例如,计算机系统800可以提供对执行一个或多个虚拟机的支持。在某些示例中,计算机系统800可以执行如促进对虚拟机的配置和管理的管理程序等程序。每个虚拟机可以分配有存储器、计算(例如,处理器、核)、I/O和联网资源。每个虚拟机通常独立于其他虚拟机运行。虚拟机通常运行其自身的操作系统,所述操作系统可以与由计算机系统800所执行的其他虚拟机执行的操作系统相同或不同。因此,多个操作系统可以潜在地由计算机系统800同时运行。
通信子系统824提供到其他计算机系统和网络的接口。通信子系统824用作用于从其他系统接收数据并且从计算机系统800向其他系统传输数据的接口。例如,通信子系统824可以使得计算机系统800能够经由因特网构建到一个或多个客户端设备的通信通道以用于从客户端设备接收信息并向客户端设备发送信息。例如,当计算机系统800用于实施图1所描绘的机器人系统120时,通信子系统可以用于与针对应用程序选择的聊天机器人系统通信。
通信子系统824可以支持有线通信协议和/或无线通信协议两者。在某些示例中,通信子系统824可以包括用于访问无线声音和/或数据网络的射频(RF)收发器部件(例如,使用蜂窝电话技术、如3G、4G或EDGE(全球演进增强型数据速率)等先进的数据网络技术、WiFi(IEEE 802.XX家庭标准、或其他移动通信技术、或其任何组合)、全球定位系统(GPS)接收器部件和/或其他部件。在一些示例中,除了无线接口之外或替代无线接口,通信子系统824可以提供有线网络连接性(例如,以太网)。
通信子系统824可以接收并发射各种形式的数据。在一些示例中,除了其他形式之外,通信子系统824还可以接收结构化和/或非结构化数据馈送826、事件流828、事件更新830等形式的输入通信。例如,通信子系统824可以被配置成从社交媒体网络和/或其他通信服务的用户实时地接收(或发送)数据馈送826,如
Figure BDA0003873916010000471
馈送、
Figure BDA0003873916010000472
更新、web馈送(如丰富站点摘要(RSS)馈送)和/或来自一个或多个第三方信息源的实时更新。
在某些示例中,通信子系统824可以被配置成接收连续数据流形式的数据,所述连续数据流可以包括(可以没有显式结束的本质上连续的或无界的)实时事件的事件流828和/或事件更新830。生成连续数据的应用程序的示例可以包括例如传感器数据应用程序、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等。
通信子系统824还可以被配置为将数据从计算机系统800传送到其他计算机系统或网络。可以将数据以如结构化和/或非结构化数据馈送826、事件流828、事件更新830等各种不同的形式传送到可以与耦接至计算机系统800的一个或多个流数据源计算机通信的一个或多个数据库。
计算机系统800可以是各种类型中的一种,包括手持便携式设备(例如,
Figure BDA0003873916010000473
蜂窝电话、
Figure BDA0003873916010000474
计算平板计算机、PDA)、可穿戴设备(例如,Google
Figure BDA0003873916010000475
头戴式显示器)、个人计算机、工作站、主机、自助服务终端(kiosk)、服务器机架、或任何其他数据处理系统。由于计算机和网络的不断变化的性质,对图8所描绘的计算机系统800的描述旨在仅作为具体示例。具有比图8所描绘的系统更多或更少的部件的许多其他配置是可能的。基于本公开和本文所提供的传授内容,应了解,有其他方式和/或方法来实施各种示例。
虽然已经描述了具体示例,但是各种修改、更改、替代性构造和等同物是可能的。示例不局限于在某些具体数据处理环境中的操作,而是自由地在多个数据处理环境中操作。另外,尽管已经使用特定系列的事务和步骤描述了某些示例,但是对于本领域技术人员而言应当显而易见的是,这不旨在是限制性的。虽然一些流程图将操作描述为顺序过程,但是许多操作可以并行地或同时地执行。另外,可以重新布置操作的顺序。过程可以具有图中未包括的另外的步骤。可以单独地或联合地使用上文所描述的示例的各种特征和方面。
进一步地,虽然已经使用硬件和软件的特定组合描述了某些示例,但是应当认识到,硬件和软件的其他组合也是可能的。某些示例可以仅以硬件或仅以软件或使用其组合实施。本文所描述的各种过程可以在相同处理器或不同处理器上以任何组合实施。
在将设备、系统、部件或模块描述为被配置成执行某些操作或功能的情况下,这种配置可以例如通过将电子电路设计成执行操作、通过对可编程电子电路(如微处理器)进行编程以执行操作(如通过执行计算机指令或代码)或通过被编程成执行存储在非暂态存储器介质上的代码或指令的处理器或核或其任何组合来完成。过程可以使用包括但不限于用于过程间通信的传统技术的各种技术进行通信,并且不同的过程对可以使用不同的技术,或者相同的过程对可以在不同的时间使用不同的技术。
本公开中给出了具体细节以提供对示例的透彻理解。然而,可以在没有这些具体细节的情况下实践示例。例如,已经示出了公知的电路、过程、算法、结构和技术,而没有不必要的细节,以避免模糊示例。此描述仅提供了示例性示例并且不旨在限制其他示例的范围、适用性或配置。而是,先前对示例的描述将为本领域技术人员提供用于实施各种示例的使能描述。可以对元件的功能和布置作出各种改变。
因此,应当从说明性而非限制性意义上看待本说明书和附图。然而,将明显的是,在不脱离权利要求中阐述的更广泛的精神和范围的情况下,可以对其作出添加、减少、删除以及其他修改和改变。因此,虽然已经描述了具体示例,但是这些示例不旨在是限制性的。各种修改和等同物均在以下权利要求的范围内。
在前述说明书中,参考本公开的具体示例描述了本公开的各方面,但是本领域技术人员将认识到,本公开并不限于此。可以单独地或联合地使用上文所描述的公开的各种特征和方面。进一步地,在不脱离说明书的更广泛的精神和范围的情况下,可以在除了本文所描述的那些环境和应用程序外的任何数量的环境和应用环境中利用示例。因此,说明书和附图应被视为说明性的而非限制性的。
在前述描述中,出于说明的目的,以特定顺序描述了方法。应当了解,在替代性示例中,可以以与所描述的顺序不同的顺序来执行方法。还应当了解,上文所描述的方法可以由硬件部件执行或者可以体现在机器可执行指令的序列中,所述指令可以用于使机器(如用所述指令编程的通用或专用处理器或逻辑电路)执行所述方法。这些机器可执行指令可以存储在一个或多个机器可读介质上,如CD-ROM或其他类型的光盘、软盘、ROM、RAM、EPROM、EEPROM、磁卡或光卡、闪速存储器或适合于存储电子指令的其他类型的机器可读介质。可替代地,方法可以由硬件和软件的组合来执行。
在将部件描述为被配置成执行某些操作的情况下,这种配置可以例如通过设计用于执行操作的电子电路或其他硬件、通过对用于执行操作的可编程电子电路(例如,微处理器或其他适合的电子电路)进行编程或其任何组合来完成。
尽管本文已经详细描述了本申请的说明性示例,但是应当理解,可以以其他方式不同地体现并采用本发明概念,并且所附权利要求旨在被解释为包括这种变化,受现有技术限制的情况除外。

Claims (21)

1.一种方法,包括:
在数据处理系统处接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;
由所述数据处理系统用噪声文本扩充所述训练话语集,以生成已扩充的训练话语集,其中,所述扩充包括:
从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并
相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语;以及
由所述数据处理系统使用所述已扩充的训练话语集来训练所述意图分类器。
2.如权利要求1所述的方法,其中,所述噪声文本以1:0.5至1:5的预定义扩充比以下述方式设置:(i)在所述话语中的原始文本的前面,(ii)在所述话语的原始文本的后面,(iii)在所述话语的原始文本的两侧,(iv)整合在所述话语的原始文本中,(v)或前述方式的组合。
3.如权利要求1所述的方法,其中,所述噪声文本是从停用词列表自动生成的随机文本字符串。
4.如权利要求1所述的方法,其中,所述噪声文本是从语料库中自动逐字复制的文本句子。
5.如权利要求1所述的方法,其中,所述噪声文本是从语料库自动生成的随机文本字符串。
6.如权利要求1所述的方法,其中,所述噪声文本是从字典自动生成的随机文本字符串,其中不考虑为所述随机文本字符串选择的单词或字符的频率。
7.如权利要求1所述的方法,其中,所述噪声文本是从字典自动生成的随机文本字符串,其中考虑了为所述随机文本字符串选择的单词或字符的频率。
8.一种系统,包括:
一个或多个数据处理器;以及
包含指令的非暂态计算机可读存储介质,所述指令当在所述一个或多个数据处理器上执行时,使所述一个或多个数据处理器执行包括以下各项的动作:
接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;
用噪声文本扩充所述训练话语集,以生成已扩充的训练话语集,其中,所述扩充包括:
从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并
相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语;以及
使用所述已扩充的训练话语集来训练所述意图分类器。
9.如权利要求8所述的系统,其中,所述噪声文本以1:0.5至1:5的预定义扩充比以下述方式设置:(i)在所述话语中的原始文本的前面,(ii)在所述话语的原始文本的后面,(iii)在所述话语的原始文本的两侧,(iv)整合在所述话语的原始文本中,(v)或前述方式的组合。
10.如权利要求8所述的系统,其中,所述噪声文本是从停用词列表自动生成的随机文本字符串。
11.如权利要求8所述的系统,其中,所述噪声文本是从语料库中自动逐字复制的文本句子。
12.如权利要求8所述的系统,其中,所述噪声文本是从语料库自动生成的随机文本字符串。
13.如权利要求8所述的系统,其中,所述噪声文本是从字典自动生成的随机文本字符串,其中不考虑为所述随机文本字符串选择的单词或字符的频率。
14.如权利要求8所述的系统,其中,所述噪声文本是从字典自动生成的随机文本字符串,其中考虑了为所述随机文本字符串选择的单词或字符的频率。
15.一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,所述计算机程序产品包括被配置为使一个或多个数据处理器执行包括以下各项的动作的指令:
接收训练话语集,用于训练意图分类器以识别一个或多个话语的一个或多个意图;
用噪声文本扩充所述训练话语集,以生成已扩充的训练话语集,其中,所述扩充包括:
从单词列表、文本语料库、出版物、字典或其任何组合中获得与所述训练话语集的话语中的原始文本无关的噪声文本,并
相对于所述训练话语集的话语中的原始文本以预定义扩充比将所述噪声文本合并到所述话语内以生成已扩充话语;以及
使用所述已扩充的训练话语集来训练所述意图分类器。
16.如权利要求15所述的计算机程序产品,其中,所述噪声文本以1:0.5至1:5的预定义扩充比以下述方式设置:(i)在所述话语中的原始文本的前面,(ii)在所述话语的原始文本的后面,(iii)在所述话语的原始文本的两侧,(iv)整合在所述话语的原始文本中,(v)或前述方式的组合。
17.如权利要求15所述的计算机程序产品,其中,所述噪声文本是从停用词列表自动生成的随机文本字符串。
18.如权利要求15所述的计算机程序产品,其中,所述噪声文本是从语料库中自动逐字复制的文本句子。
19.如权利要求15所述的计算机程序产品,其中,所述噪声文本是从语料库自动生成的随机文本字符串。
20.如权利要求15所述的计算机程序产品,其中,所述噪声文本是从字典自动生成的随机文本字符串,其中不考虑为所述随机文本字符串选择的单词或字符的频率;或者所述噪声文本是从字典自动生成的随机文本字符串,其中考虑了为所述随机文本字符串选择的单词或字符的频率。
21.一种用于从话语中确定意图的方法,所述方法包括:
由聊天机器人系统接收由与所述聊天机器人系统交互的用户生成的话语;
使用部署在所述聊天机器人系统内的意图分类器将所述话语分类为与意图相对应的意图类别,其中,所述意图分类器包括使用训练数据识别的多个模型参数,所述训练数据包括:
已扩充的训练话语集,用于训练所述意图分类器以识别一个或多个话语的一个或多个意图,其中,所述已扩充的训练话语集被人工生成以包括来自训练话语集的已扩充话语,其中,噪声文本相对于所述话语中的原始文本以预定义扩充比合并在来自所述训练话语集的话语中以生成所述已扩充话语,并且
其中,所述多个模型参数是基于使损失函数最小化使用所述训练数据来识别的;以及
使用所述意图分类器基于所述分类来输出所述意图。
CN202080099408.2A 2020-03-30 2020-09-11 用于自然语言处理的噪声数据扩充 Pending CN115398436A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063002066P 2020-03-30 2020-03-30
US63/002,066 2020-03-30
PCT/US2020/050342 WO2021201907A1 (en) 2020-03-30 2020-09-11 Noise data augmentation for natural language processing

Publications (1)

Publication Number Publication Date
CN115398436A true CN115398436A (zh) 2022-11-25

Family

ID=72659890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080099408.2A Pending CN115398436A (zh) 2020-03-30 2020-09-11 用于自然语言处理的噪声数据扩充

Country Status (5)

Country Link
US (1) US11538457B2 (zh)
EP (1) EP4128010A1 (zh)
JP (1) JP2023519713A (zh)
CN (1) CN115398436A (zh)
WO (1) WO2021201907A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020040753A1 (en) * 2018-08-21 2020-02-27 Google Llc Automated assistant invocation of second interactive module using supplemental data provided by first interactive module
US11556788B2 (en) * 2020-06-15 2023-01-17 International Business Machines Corporation Text-based response environment action selection
US11599721B2 (en) * 2020-08-25 2023-03-07 Salesforce, Inc. Intelligent training set augmentation for natural language processing tasks
US20230004727A1 (en) * 2021-06-30 2023-01-05 Microsoft Technology Licensing, Llc Task-action prediction engine for a task management system
US20230008868A1 (en) * 2021-07-08 2023-01-12 Nippon Telegraph And Telephone Corporation User authentication device, user authentication method, and user authentication computer program
CN115909354B (zh) * 2022-11-11 2023-11-10 北京百度网讯科技有限公司 文本生成模型的训练方法、文本获取方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160055240A1 (en) 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
WO2016055240A1 (en) * 2014-10-06 2016-04-14 Zentrum Mikroelektronik Dresden Ag Pulsed linear power converter
US10510336B2 (en) * 2017-06-12 2019-12-17 International Business Machines Corporation Method, apparatus, and system for conflict detection and resolution for competing intent classifiers in modular conversation system
CN107515857B (zh) 2017-08-31 2020-08-18 科大讯飞股份有限公司 基于定制技能的语义理解方法及系统
US11093707B2 (en) * 2019-01-15 2021-08-17 International Business Machines Corporation Adversarial training data augmentation data for text classifiers

Also Published As

Publication number Publication date
US20230169955A1 (en) 2023-06-01
WO2021201907A1 (en) 2021-10-07
JP2023519713A (ja) 2023-05-12
EP4128010A1 (en) 2023-02-08
US20210304733A1 (en) 2021-09-30
US11538457B2 (en) 2022-12-27

Similar Documents

Publication Publication Date Title
US11651768B2 (en) Stop word data augmentation for natural language processing
US11763092B2 (en) Techniques for out-of-domain (OOD) detection
US11868727B2 (en) Context tag integration with named entity recognition models
US11538457B2 (en) Noise data augmentation for natural language processing
CN115917553A (zh) 在聊天机器人中实现稳健命名实体识别的实体级数据扩充
US20220171930A1 (en) Keyword data augmentation tool for natural language processing
US20220171938A1 (en) Out-of-domain data augmentation for natural language processing
CN116583837A (zh) 用于自然语言处理的基于距离的logit值
US20230376700A1 (en) Training data generation to facilitate fine-tuning embedding models
US20230153688A1 (en) Data augmentation and batch balancing methods to enhance negation and fairness
US11972755B2 (en) Noise data augmentation for natural language processing
US20240062112A1 (en) Adaptive training data augmentation to facilitate training named entity recognition models
US20230153687A1 (en) Named entity bias detection and mitigation techniques for sentence sentiment analysis
US20230325599A1 (en) Training data augmentation using gazetteers and perturbations to facilitate training named entity recognition models
US20230206125A1 (en) Lexical dropout for natural language processing
US20230136965A1 (en) Prohibiting inconsistent named entity recognition tag sequences
US20230419052A1 (en) Techniques for positive entity aware augmentation using two-stage augmentation
WO2024044491A1 (en) Adaptive training data augmentation to facilitate training named entity recognition models
CN116547676A (zh) 用于自然语言处理的增强型logit

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination