CN116724305A - 上下文标签与命名实体识别模型的集成 - Google Patents
上下文标签与命名实体识别模型的集成 Download PDFInfo
- Publication number
- CN116724305A CN116724305A CN202280010945.4A CN202280010945A CN116724305A CN 116724305 A CN116724305 A CN 116724305A CN 202280010945 A CN202280010945 A CN 202280010945A CN 116724305 A CN116724305 A CN 116724305A
- Authority
- CN
- China
- Prior art keywords
- utterance
- robot
- chat
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010354 integration Effects 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000009826 distribution Methods 0.000 claims abstract description 42
- 230000004044 response Effects 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 39
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 description 72
- 238000012549 training Methods 0.000 description 63
- 235000013550 pizza Nutrition 0.000 description 42
- 230000008569 process Effects 0.000 description 37
- 238000004891 communication Methods 0.000 description 32
- 230000009471 action Effects 0.000 description 24
- 230000003993 interaction Effects 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 20
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 15
- 238000007726 management method Methods 0.000 description 14
- 238000001514 detection method Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000007704 transition Effects 0.000 description 9
- 238000003058 natural language processing Methods 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000012546 transfer Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010224 classification analysis Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000010367 cloning Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000009118 appropriate response Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013068 supply chain management Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 240000005020 Acaciella glauca Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 241001020574 Gigantactis ios Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 241001122315 Polites Species 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000037211 monthly cycles Effects 0.000 description 1
- 238000002600 positron emission tomography Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 235000003499 redwood Nutrition 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Abstract
提供了在命名实体识别(NER)模型中使用上下文标签的技术。在一个特定方面,提供了一种方法,该方法包括:接收话语;生成针对话语的词的嵌入;生成针对话语的正则表达式和地名词典特征向量;生成针对话语的上下文标签分布特征向量;将嵌入与正则表达式和地名词典特征向量以及上下文标签分布特征向量进行串连或插值以生成一组特征向量;基于该组特征向量生成话语的编码形式;基于话语的编码形式生成对数概率;以及识别针对话语的一个或多个约束。
Description
相关申请的交叉引用
本申请要求于2021年1月20日提交的美国临时申请号63/139,569的权益和优先权,该美国临时申请的全部内容出于所有目的通过引用并入本文。
技术领域
本公开总体上涉及聊天机器人系统,并且更具体地涉及用于将上下文标签添加到命名实体识别(NER)模型的技术。
背景技术
为了获得即时反应,世界各地的人们使用即时消息传递或聊天平台。组织经常使用这些即时消息传递或聊天平台与客户(或最终用户)进行实时会话。然而,雇用服务人员与客户或最终用户进行实时交流对于组织来说可能是非常昂贵的。已经开发了聊天机器人或机器人来模拟与最终用户的会话,尤其是通过因特网。最终用户可以通过消息传递应用程序与这种机器人交流。智能机器人(通常通过人工智能(AI)提供动力的机器人)可以在与最终用户的实时会话中智能地且根据上下文进行交流,这允许会话更加自然并改善会话体验。智能机器人不再依赖于一组固定的关键词或命令,而是可以能够接收最终用户以自然语言表达的话语,理解他们的意图,并做出相应的响应。
然而,聊天机器人很难构建,因为它们需要可能只在专业开发人员的能力范围内的某些领域中的特定知识和某些技术的应用。为了构建这些聊天机器人,开发人员寻求了解最终用户的需要,并构建适合他们需要的一种或多种机器学习(ML)模型。构建一种或多种ML模型的任务通常涉及使用基于无监督和/或监督学习的解决方案来开发和测试多个模型。在一些情况下,构建ML模型涉及训练阶段、应用(即,推理)阶段、以及介于训练阶段与应用阶段之间的迭代循环。在一些情况下,需要精确的训练数据来使算法能够理解和学习某些模式或特征,以便经训练的一种或多种ML模型可以预测出期望的结果(例如,从话语中推断出意图)。
发明内容
公开了用于将上下文标签添加到NER模型的技术。
在各种实施例中,一种计算机实施的方法包括:在包括处理器的聊天机器人系统处接收包括一个或多个词的至少一个话语;由聊天机器人系统的基于transformer的模型针对该至少一个话语的一个或多个词生成多个嵌入;由聊天机器人系统的第一向量化器针对该至少一个话语生成至少一个正则表达式和地名词典特征向量;由聊天机器人系统的第二向量化器针对该至少一个话语生成至少一个上下文标签分布特征向量;将该多个嵌入与该至少一个正则表达式和地名词典特征向量以及至少一个上下文标签分布特征向量进行串连或插值以生成第一组特征向量;由聊天机器人系统的主序列模型基于第一组特征向量生成该至少一个话语的编码形式;由聊天机器人系统的判别模型基于该至少一个话语的编码形式生成候选实体的多个对数概率;以及使用该多个对数概率基于候选实体来识别针对该至少一个话语的一个或多个约束。
在一些实施例中,至少一个话语包括以下中的至少一项:聊天机器人系统的一个或多个查询、由用户输入到聊天机器人系统的一个或多个查询、由用户响应于聊天机器人系统的一个或多个查询而提供的一个或多个响应、或其组合。
在一些实施例中,聊天机器人系统的基于transformer的模型包括transformer的双向编码器表示模型。
在一些实施例中,第一向量化器基于一个或多个正则表达式模式和一个或多个地名词典来生成至少一个正则表达式和地名词典特征向量。
在一些实施例中,其中,第二向量化器基于以下中的至少一项的上下文来生成至少一个上下文标签分布特征向量:聊天机器人系统的一个或多个查询、由用户输入到聊天机器人系统的一个或多个查询、由用户响应于聊天机器人系统的一个或多个查询而提供的一个或多个响应、或其组合。
在一些实施例中,聊天机器人系统的主序列模型包括组合的卷积神经网络/双向长短期记忆模型。
在一些实施例中,聊天机器人系统的判别模型包括条件随机场模型。
本公开的一些实施例包括一种系统,该系统包括一个或多个数据处理器和包含指令的非暂态计算机可读存储介质,该指令当在一个或多个数据处理器上执行时使该一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部。
本公开的一些实施例包括一种有形地体现在非暂态机器可读存储介质中的计算机程序产品,该计算机程序产品包括被配置为使一个或多个数据处理器执行本文所公开的一种或多种方法的部分或全部和/或一个或多个过程的部分或全部的指令。
可以用多种方式并且在多种上下文中实施上文和下文所描述的技术。如下文更详细地描述的,参考以下附图提供了多种示例实施方式和上下文。然而,以下实施方式和上下文仅是许多实施方式和上下文中的一些。
附图说明
图1是并入了示例性实施例的分布式环境的简化框图。
图2是根据某些实施例的实施主机器人的计算系统的简化框图。
图3是根据某些实施例的实施技能机器人的计算系统的简化框图。
图4A是根据各种实施例的聊天机器人训练和部署系统的简化框图。
图4B是根据各种实施例的命名实体识别(NER)架构的简化框图。
图5图示了根据各种实施例的考虑上下文来进行实体识别的过程流程。
图6描绘了用于实施各种实施例的分布式系统的简化图。
图7是根据各种实施例的系统环境的一个或多个部件的简化框图,通过该系统环境,由实施例系统的一个或多个部件提供的服务可以作为云服务被提供。
图8图示了可以用于实施各种实施例的示例计算机系统。
具体实施方式
在以下描述中,出于解释的目的,阐述了具体细节以便提供对某些实施例的透彻理解。然而,将显而易见的是,可以在没有这些具体细节的情况下实践各个实施例。附图和描述不旨在是限制性的。词语“示例性”在本文中用来意指“用作示例、实例或说明”。在本文中被描述为“示例性”的任何实施例或设计不必被解释为比其他实施例或设计更优选或有利。
引言
数字助理是帮助用户在自然语言会话中完成各种任务的人工智能驱动接口。针对每个数字助理,客户可以组装一个或多个技能。技能(在本文中也描述为聊天机器人、机器人或技能机器人)是聚焦于如跟踪库存、提交时间卡和创建费用报告等特定类型的任务的单独机器人。当最终用户与数字助理接洽时,数字助理评估最终用户输入并且将会话路由到适当的聊天机器人并从适当的聊天机器人路由会话。可以通过如Messenger(即时通)、SKYPE/>messenger或短消息服务(SMS)等各种通道使数字助理对最终用户可用。通道将聊天在各种消息传递平台上的最终用户与数字助理及其各中聊天机器人之间来回地传送。通道还可以支持用户代理升级、事件发起的会话和测试。
意图允许聊天机器人理解用户想要聊天机器人做什么。意图是用户经由用户请求和陈述传达给聊天机器人的意图,该请求和陈述也称为话语(例如,获得账户余额、进行购物等)。如本文所使用的,话语或消息可以指代在与聊天机器人的会话期间交换的一组词(例如,一个或多个句子)。可以通过提供说明某个用户行动的名称(例如,订购披萨)并编译通常与触发行动相关联的一组现实生活用户陈述或话语来创建意图。因为聊天机器人的认知是源自这些意图,所以每个意图可以从稳健的数据集(一至两打话语)创建并且变化,使得聊天机器人可以解释不明确的用户输入。一组丰富的话语使聊天机器人能够理解在其接收到如“Forget this order!(忽略此订单!)”或“Cancel delivery!(取消派送!)”等消息(意指相同的事情但以不同的方式表达的消息)时用户想要什么。总之,意图和属于意图的话语构成聊天机器人的训练语料库。通过利用语料库训练算法,客户将该算法变成用作用于将一个或多个最终用户输入解析成单个意图的参考工具的模型。客户可以通过多轮意图测试和意图训练来提高聊天机器人的认知的敏锐度。
然而,构建可以基于最终用户的话语确定最终用户的意图的聊天机器人是有挑战性的任务,这至少是由于自然语言的微妙性和不明确性以及输入/输出空间的维度(例如,可能的用户话语、意图的数量等)。这种困难的说明性示例来自自然语言的特性,比如采用委婉语、同义词或不合语法的语音来表达意图。例如,话语可能表达了订购披萨的意图,而没有提及词:披萨、订购或派送。自然语言的这些特性会产生不确定性,并导致聊天机器人使用置信度作为预测用户意图的参数。这样,为了改善聊天机器人的性能和与聊天机器人的用户体验,可能需要训练、监测、调试和再训练聊天机器人。在传统的口语理解(SLU)和自然语言处理(NLP)系统中,提供训练机制以用于训练和再训练其中包括的数字助理或聊天机器人的机器学习算法。传统上,这些算法是利用为任何意图“制造”的话语进行训练的。例如,话语“Do you do price changes?(你会改变价格吗?)”可以用于训练聊天机器人系统的分类算法,以将这种类型的话语分类为意图——“Do you offer a price match(你提供价格匹配吗)”。利用制造的话语来训练算法有助于最初训练聊天机器人系统以提供服务,并且一旦部署聊天机器人系统并且从用户接收话语,便再训练聊天机器人系统。
用户话语可以包含命名实体。除了意图之外,命名实体进一步允许聊天机器人理解用户话语的含义。命名实体修改一个或多个意图。例如,如果用户键入“show meyesterday's financial news(显示昨天的财经新闻)”,则命名实体“yesterday(昨天)”和“financial(财经)”帮助聊天机器人理解用户的请求。实体可以根据它们所表示的内容进行归类。例如,“yesterday(昨天)”可以被归类为“dateTime(日期时间)”,并且“financial(财经)”可以被归类为“newsType(新闻类型)”。实体有时称为槽(slot)。命名实体识别(NER)是聊天机器人系统用来自动识别和提取实体的工具。NER通常涉及命名实体解析和命名实体消歧。命名实体解析涉及识别词序列中的命名实体,并且命名实体消歧涉及识别词序列中每个命名实体的确切所指对象。例如,关于地名:“Paris(巴黎)”。由于法国的城市巴黎是广为人知的,因此,人们将通常假设该实体的所指对象是法国的城市巴黎。然而,对于地名“巴黎”还有其他可能的所指对象(例如,所指对象可以包括美国德克萨斯州巴黎;加拿大安大略省巴黎;巴拿马巴黎;多哥巴黎等)。另外,所指对象可以包括名为Paris的人或名为Paris的商务实体或商业企业。由于命名实体的所指对象可能并不总是对应于明显或流行的所指对象,因此,识别预期的所指对象是具有挑战性的。
为了克服这些挑战和其他挑战以正确识别特定命名实体的预期所指对象,本文描述的方法考虑了预期所指对象的上下文。在各种实施例中,提供了一种方法,该方法包括:接收至少一个话语;针对至少一个话语的一个或多个词生成嵌入;针对至少一个话语生成至少一个正则表达式和地名词典特征向量;针对至少一个话语生成至少一个上下文标签分布特征向量;将嵌入与至少一个正则表达式和地名词典特征向量以及至少一个上下文标签分布特征向量进行串连或插值以生成第一组特征向量;基于第一组特征向量生成至少一个话语的编码形式;基于至少一个话语的编码形式生成候选实体的多个对数概率;以及使用多个对数概率基于候选实体来识别针对至少一个话语的一个或多个约束。各种实施例的其他特征和优点在本公开中是显而易见的。
机器人系统
机器人(也称为技能、聊天机器人、交谈机器人或谈话机器人)是可以执行与最终用户的会话的计算机程序。机器人通常可以通过使用自然语言消息的消息传递应用程序对自然语言消息(例如,问题或评论)作出响应。企业可以使用一个或多个机器人通过消息传递应用程序与最终用户交流。消息传递应用程序可以包括例如过顶(OTT)消息传递通道(如Facebook Messenger、Facebook WhatsApp、微信、Line、Kik、Telegram、Talk、Skype、Slack或SMS)、虚拟私人助理(如Amazon Dot、Echo或Show、Google Home、Apple HomePod等)、本地或混合扩展的移动和web应用程序扩展/具有聊天功能的响应式移动应用程序或web应用程序、或基于话音的输入(如具有使用Siri、微软小娜(Cortana)、谷歌之音(Google Voice)或用于交互的其他语音输入的接口的设备或应用程序)。
在一些示例中,机器人可以与统一资源标识符(URI)相关联。URI可以使用一串字符标识机器人。URI可以用作一个或多个消息传递应用程序系统的webhook(网络挂接)。URI可以包括例如统一资源定位符(URL)或统一资源名称(URN)。机器人系统可以被设计成从消息传递应用程序系统接收消息(例如,超文本传送协议(HTTP)post调用消息)。HTTP post调用消息可以指向来自消息传递应用程序系统的URI。在一些示例中,消息可以不同于HTTPpost调用消息。例如,机器人可以从短消息服务(SMS)接收消息。虽然本文的讨论将机器人接收到的通信称作消息,但是应理解,消息可以是HTTP post调用消息、SMS消息或两个系统之间的任何其他类型的通信。
最终用户通过会话式交互(有时称为会话式用户接口(UI))与机器人交互,正如最终用户与其他人交互那样。在一些情况下,会话式交互可以包括最终用户对机器人说“Hello(你好)”以及机器人用“Hi(嗨)”响应并询问最终用户机器人可以如何提供帮助。最终用户还通过其他类型的交互与机器人进行交互,比如交易交互(例如,与至少被训练为将资金从一个账户转移到另一个账户的银行业务机器人的交易交互)、信息交互(例如,与至少被训练为检查用户的剩余假期时间的人力资源机器人的信息交互)和/或零售交互(例如,与至少被训练成讨论退回所购商品或寻求技术支持的零售机器人的零售交互)。
在一些示例中,机器人可以在没有机器人的管理员或开发人员的干预的情况下智能地处理最终用户交互。例如,最终用户可以向机器人发送一个或多个消息以便实现期望的目标。消息可以包括某种内容,如文本、表情符号、音频、图像、视频或传达消息的其他方法。在一些示例中,机器人可以自动将内容转换成标准化形式并且生成自然语言响应。机器人还可以自动针对另外的输入参数提示最终用户或请求其他另外的信息。在一些示例中,机器人还可以发起与最终用户的交流,而不是被动地响应最终用户话语。
与机器人的会话可以遵循包括多个状态的特定会话流。该流可以基于输入来定义接下来将发生什么。在一些示例中,可以使用包括用户定义的状态(例如,最终用户意图)和在状态中或状态之间要采取的动作的状态机来实施机器人。会话可以基于最终用户输入来采用不同的路径,这可能会影响机器人针对该流作出的决定。例如,在每个状态下,基于最终用户输入或话语,机器人可以确定最终用户的意图以便确定要采取的下一个适当动作。如本文所使用的且在话语的上下文中,术语“意图”是指提供话语的用户的意图。例如,用户可以打算让机器人参与用于订购披萨的会话,其中,用户的意图将通过话语“Order pizza(订购披萨)”来表示。用户意图可以指向用户希望机器人代表用户执行的特定任务。因此,反应用户的意图的话语可以表达为问题、命令、请求等。
在机器人的配置的上下文中,本文所使用的术语“意图”还指用于将用户的话语映射到机器人可以执行的特定任务/动作或特定种类的任务/动作的配置信息。为了区分话语的意图(即,用户意图)与机器人的意图,本文中有时将后者称为“机器人意图”。机器人意图可以包括与意图相关联的一组一个或多个话语。例如,订购披萨的意图可以具有表达下订单购买披萨的期望的话语的各种排列。这些相关联的话语可以用于训练机器人的意图分类器以使意图分类器能够随后确定来自用户的输入话语是否与订购披萨意图相匹配。机器人意图可以与用于启动与用户的会话并且在某个状态下的一个或多个对话流相关联。例如,针对订购披萨意图的第一消息可以是问题“What kind of pizza would you like?(你想要哪种披萨?)”。除了相关联的话语之外,机器人意图可以进一步包括与意图有关的命名实体。例如,订购披萨意图可以包括用于执行订购披萨的任务的变量或参数,例如馅料1、馅料2、披萨类型、披萨大小、披萨数量等。实体的值通常是通过与用户交谈获得的。
图1是根据某些实施例的并入聊天机器人系统的环境100的简化框图。环境100包括数字助理构建器平台(DABP)102,所述DABP使得DABP 102的用户104能够创建并部署数字助理或聊天机器人系统。DABP 102可以用于创建一个或多个数字助理(或DA)或聊天机器人系统。例如,如图1所示,表示特定企业的用户104可以使用DABP 102来创建并部署用于特定企业的用户的数字助理106。例如,DABP 102可以被银行用来创建供银行的客户使用的一个或多个数字助理。多个企业可以使用同一个DABP 102平台来创建数字助理。作为另一示例,餐馆(例如,披萨店)的所有者可以使用DABP 102来创建并部署使餐馆的客户能够订购食物(例如,订购披萨)的数字助理。
出于本公开的目的,“数字助理”是通过自然语言会话帮助数字助理的用户完成各种任务的工具。可以仅使用软件(例如,数字助理是使用可由一个或多个处理器执行的程序、代码或指令实施的数字实体)、使用硬件、或使用硬件和软件的组合来实施数字助理。数字助理可以在如计算机、移动电话、手表、器具、车辆等各种物理系统或设备中体现或实施。数字助理有时也称为聊天机器人系统。因此,出于本公开的目的,术语数字助理和聊天机器人系统是可互换的。
数字助理(如使用DABP 102构建的数字助理106)可以用于经由数字助理与其用户108之间基于自然语言的会话来执行各种任务。作为会话的一部分,用户可以向数字助理106提供一个或多个用户输入110并从数字助理106获得返回的响应112。会话可以包括输入110和响应112中的一个或多个。经由这些会话,用户可以请求将由数字助理执行的一个或多个任务,并且作为响应,数字助理被配置为执行用户请求的任务并以适当的响应来响应用户。
用户输入110通常呈自然语言的形式并且被称为话语。用户话语110可以是文本形式,如当用户键入句子、问题、文本片段或甚至单个词并将其作为输入提供给数字助理106时。在一些示例中,用户话语110可以是音频输入或语音的形式,如当用户讲出或说出作为输入提供给数字助理106的某些内容时。话语通常呈用户说出的语言的形式。例如,话语可以是英语或某种其他语言。当话语呈语音形式时,将语音输入转换成该特定语言的文本形式的话语,并且然后由数字助理106来处理文本话语。可以使用各种语音到文本处理技术将语音或音频输入转换成文本话语,然后由数字助理106来处理该文本话语。在一些示例中,语音到文本的转换可以由数字助理106自身完成。
话语(其可以是文本话语或语音话语)可以是片段、一个句子、多个句子、一个或多个词、一个或多个问题、上述类型的组合等。数字助理106被配置为将自然语言理解(NLU)技术应用于话语以理解用户输入的含义。作为针对话语的NLU处理的一部分,数字助理106被配置为执行用于理解话语的含义的处理,该处理涉及识别对应于话语的一个或多个意图和一个或多个实体。在理解话语的含义后,数字助理106可以响应于理解的含义或意图来执行一个或多个动作或操作。出于本公开的目的,假设这些话语是已经由数字助理106的用户直接提供的文本话语,或者是将输入语音话语转换为文本形式的结果。然而,这并不旨在以任何方式进行限制或约束。
例如,用户输入可以通过提供如“I want to order a pizza(我想要订购披萨)”的话语来请求订购披萨。在接收到这种话语之后,数字助理106被配置为理解话语的含义并采取适当的动作。适当的动作可以涉及例如以请求关于用户期望订购的披萨的类型、披萨的大小、披萨的任何浇头的用户输入的问题来响应用户。由数字助理106提供的响应也可以是自然语言形式,并且通常以与输入话语相同的语言。作为生成这些响应的一部分,数字助理106可以执行自然语言生成(NLG)。为了用户经由用户与数字助理106之间的会话来订购披萨,数字助理可以引导用户提供用于披萨订购的所有必要信息,并且然后在会话结束时使披萨被订购。数字助理106可以通过向用户输出指示已经订购披萨的信息来结束会话。
在概念层级上,数字助理106响应于从用户接收的话语执行各种处理。在一些示例中,该处理涉及一系列处理步骤或处理步骤流水线,包括例如理解输入话语的含义、确定响应于话语而要执行的动作、在适当的情况下使动作被执行、响应于用户话语生成要输出到用户的响应、向用户输出响应等。NLU处理可以包括对所接收的输入话语进行语法分析以理解话语的结构和含义、细化并重新形成该话语以开发出针对该话语的更好的可理解形式(例如,逻辑形式)或结构。生成响应可以包括使用NLG技术。
数字助理(如数字助理106)执行的NLU处理可以包括如句子语法分析(例如,标记化、按屈折变化形式进行归类、识别句子的词性标签、识别句子中的命名实体、生成依存树来表示句子结构、将句子分成子句、分析单独的子句、解析指代、执行组块等)等各种NLP有关任务。在某些示例中,NLU处理是由数字助理106自身执行的。在一些其他示例中,数字助理106可以使用其他资源来执行NLU处理的部分。例如,可以通过使用语法分析器、词性标记器和/或NER处理句子来识别输入话语句子的句法和结构。在一种实施方式中,针对英语语言,使用如由斯坦福NLP小组提供的语法分析器、词性标记器和命名实体识别器来分析句子结构和句法。这些是作为斯坦福CoreNLP工具包的一部分被提供的。
虽然本公开中提供的各个示例示出了英语语言的话语,但是这仅意味着作为示例。在某些示例中,数字助理106还能够处理除英语以外的语言的话语。数字助理106可以提供被配置用于针对不同语言执行处理的子系统(例如,实施NLU功能的部件)。这些子系统可以实施为可以使用服务调用从NLU核心服务器调用的可插单元。这使NLU处理对于每种语言而言是灵活且可扩展的,包括允许不同的处理顺序。可以为单独的语言提供语言包,其中,语言包可以登记可以从NLU核心服务器提供服务的子系统的列表。
可以通过各种不同的通道(例如但不限于经由某些应用程序、经由社交媒体平台、经由各种消息传递服务和应用程序、以及其他应用程序或通道)使数字助理(如图1中描绘的数字助理106)对其用户108而言是可用的或可访问的。单个数字助理可以为自身配置多个通道,使得单个数字助理可以同时在不同的服务上运行并通过不同的服务进行访问。
数字助理或聊天机器人系统通常包含一个或多个技能或与一个或多个技能相关联。在某些实施例中,这些技能是被配置为与用户交互并完成特定类型的任务(如跟踪库存、提交时间卡、创建费用报告、订购食物、查询银行账户、进行预约、购买小部件等)的单独的聊天机器人(称为技能机器人)。例如,针对图1所描绘的实施例,数字助理或聊天机器人系统106包括技能116-1、116-2、116-3等。出于本公开的目的,术语“一个技能”和“多个技能”分别与术语“一个技能机器人”和“多个技能机器人”同义地使用。
与数字助理相关联的每个技能通过与用户的会话帮助数字助理的用户完成任务,其中,会话可以包括由用户提供的文本或音频输入与由技能机器人提供的响应的组合。这些响应可以呈以下形式:给用户的文本或音频消息和/或使用呈现给用户以供用户进行选择的简单的用户界面元素(例如,选择列表)。
存在各种方法可以将技能或技能机器人与数字助理相关联或将其添加到数字助理。在一些实例中,可以由企业开发技能机器人,并且然后将其添加到使用DABP 102的数字助理。在其他实例中,可以使用DABP 102开发并创建技能机器人,并且然后将其添加到使用DABP 102创建的数字助理。在又一些其他实例中,DABP 102提供在线数字商店(称为“技能商店”),该在线数字商店提供指向各种各样的任务的多个技能。通过技能商店提供的技能还可以公开(expose)各种云服务。为了将技能添加到正使用DABP 102生成的数字助理,DABP 102的用户可以经由DABP 102访问技能商店、选择所需的技能、并指示将所选技能添加到使用DABP 102创建的数字助理。来自技能商店的技能可以按原样或以修改的形式添加到数字助理(例如,DABP 102的用户可以选择并复制技能商店提供的特定技能机器人、对所选技能机器人进行定制或修改并且然后将修改后的技能机器人添加到使用DABP 102创建的数字助理)。
可以使用各种不同的架构来实施数字助理或聊天机器人系统。例如,在某些实施例中,使用DABP 102创建并部署的数字助理可以使用主机器人/次(或子)机器人范式或架构来实施。根据该范式,数字助理被实施为与作为技能机器人的一个或多个次机器人交互的主机器人。例如,在图1所描绘的实施例中,数字助理106包括主机器人114和作为主机器人114的次机器人的技能机器人116-1、116-2等。在某些示例中,数字助理106自身被认为充当主机器人。
根据主-次机器人架构实施的数字助理使得数字助理的用户能够通过统一用户接口(即,经由主机器人)与多个技能交互。当用户与数字助理接洽时,主机器人接收到用户输入。然后,主机器人执行用于确定用户输入话语的含义的处理。然后,主机器人确定用户在话语中所请求的任务是否可以由主机器人自身处理,否则主机器人选择适当的技能机器人来处理用户请求并将会话路由到所选择的技能机器人。这使得用户能够通过公共的单个接口与数字助理进行会话,并且仍然提供使用被配置为执行特定任务的多个技能机器人的能力。例如,针对为企业开发的数字助理,数字助理的主机器人可以与具有特定功能的技能机器人接口连接,例如,用于执行与客户关系管理有关的功能的客户关系管理(CRM)机器人、用于执行与企业资源规划有关的功能的企业资源规划(ERP)机器人、用于执行与人力资本管理有关的功能的人力资本管理(HCM)机器人等。这样,数字助理的最终用户或消费者只需要知道如何通过公共的主机器人接口访问数字助理,并且在后台提供了多个技能机器人来处理用户请求。
在某些示例中,在主机器人/次机器人基础设施中,主机器人被配置为了解可用的技能机器人的列表。主机器人可以访问标识各种可用技能机器人的元数据,并且对于每个技能机器人,访问包括可以由技能机器人执行的任务的技能机器人的能力。在接收到话语形式的用户请求时,主机器人被配置为从多个可用技能机器人中识别或预测可以最好地服务或处理用户请求的特定技能机器人。然后,主机器人将话语(或话语的一部分)路由到该特定技能机器人以进行进一步的处理。因此,控制从主机器人流动到技能机器人。主机器人可以支持多个输入通道和输出通道。在某些示例中,可以借助于由一个或多个可用技能机器人执行的处理来执行路由。例如,如下文所讨论的,可以训练技能机器人以推断出话语的意图,并确定所推断出的意图是否与针对技能机器人所配置的意图相匹配。因此,由主机器人执行的路由可以涉及技能机器人向主机器人传送技能机器人是否已经配置有适合于处理话语的意图的指示处理。
虽然图1的实施例示出了数字助理106包括主机器人114以及技能机器人116-1、116-2和116-3,但这并不旨在是限制性的。数字助理可以包括提供数字助理的功能的各种其他部件(例如,其他系统和子系统)。这些系统和子系统可以仅以软件(例如,存储在计算机可读介质上并且可由一个或多个处理器执行的代码、指令)、仅以硬件或在使用软件和硬件的组合的实施方式中实施。
DABP 102提供了使DABP 102的用户能够创建数字助理(包括与数字助理相关联的一个或多个技能机器人)的基础设施以及各种服务和特征。在一些实例中,可以通过克隆现有技能机器人来创建技能机器人,例如,克隆由技能商店提供的技能机器人。如前所述,DABP 102提供技能商店或技能目录,该技能商店或技能目录提供用于执行各种任务的多个技能机器人。DABP 102的用户可以从技能商店克隆技能机器人。根据需要,可以对克隆技能机器人进行修改或定制。在一些其他实例中,DABP 102的用户使用由DABP 102提供的工具和服务从头开始创建技能机器人。如前所述,DABP 102所提供的技能商店或技能目录可以提供用于执行各种任务的多个技能机器人。
在某些示例中,在高层级上,创建或定制技能机器人涉及以下步骤:
(1)为新技能机器人配置设置
(2)为技能机器人配置一个或多个意图
(3)针对一个或多个意图配置一个或多个实体
(4)训练技能机器人
(5)为技能机器人创建对话流
(6)根据需要将自定义部件添加到技能机器人
(7)测试并部署技能机器人
下文简要描述了上述每个步骤。
(1)为新技能机器人配置设置——可以为技能机器人配置各种设置。例如,技能机器人设计者可以为正在创建的技能机器人指定一个或多个调用名称。然后,这些调用名称可以被数字助理的用户用来显式调用技能机器人。例如,用户可以在用户话语中输入调用名称,以显式调用对应的技能机器人。
(2)为技能机器人配置一个或多个意图和相关联的示例话语——技能机器人设计者为正在创建的技能机器人指定一个或多个意图(也称为机器人意图)。然后基于这些指定的意图来训练技能机器人。这些意图表示技能机器人被训练为针对输入话语推断出的类别或分类。在接收到话语时,经训练的技能机器人推断该话语的意图,其中,所推断出的意图是从用于训练技能机器人的预定义意图集中选择的。然后,技能机器人基于为话语推断的意图来采取对该话语做出响应的适当动作。在一些实例中,技能机器人的意图表示技能机器人可以为数字助理的用户执行的任务。每个意图被赋予意图标识符或意图名称。例如,对于针对银行训练的技能机器人,为该技能机器人指定的意图可以包括“CheckBalance(查询余额)”、“TransferMoney(转账)”、“DepositCheck(存款查询)”等。
对于为技能机器人定义的每个意图,技能机器人设计者还可以提供表示并说明意图的一个或多个示例话语。这些示例话语旨在表示用户可以针对该意图向技能机器人输入的话语。例如,针对CheckBalance意图,示例话语可以包括“What's my savings accountbalance?(我的储蓄账户余额是多少?)”、“How much is in my checking account?(我的活期存款账户里有多少钱?)”、“How much money do I have in my account(我的账户里有多少钱)”等。因此,可以将典型的用户话语的各种排列指定为针对意图的示例话语。
这些意图及其相关联的示例话语用作用于训练技能机器人的训练数据。可以使用各种不同的训练技术。作为该训练的结果,生成预测模型,该预测模型被配置为将话语作为输入并输出由预测模型针对该话语推断出的意图。在一些实例中,将输入话语提供给意图分析引擎,该意图分析引擎被配置为使用经训练的模型来预测或推断输入话语的意图。然后,技能机器人可以基于推断出的意图采取一个或多个动作。
(3)针对技能机器人的一个或多个意图配置实体——在一些实例中,可能需要另外的上下文来使技能机器人能够适当地响应用户话语。例如,可能存在其中用户输入话语解析成技能机器人中的相同意图的情况。例如,在以上示例中,话语“What’s my savingsaccount balance?”和“How much is in my checking account?”均解析成相同的CheckBalance意图,但是这些话语是请求不同事情的不同请求。为了阐明这种请求,将一个或多个实体添加到意图。使用银行业技能机器人的示例,被称为账户类型(AccountType)的实体(该实体定义了被称为“checking(活期存款)”和“saving(储蓄)”的值)可以使技能机器人能够对用户请求进行语法分析并适当地作出响应。在上面的示例中,虽然这些话语解析为相同的意图,但是这两个话语的与AccountType实体相关联的值是不同的。这使技能机器人能够针对这两个话语执行可能不同的动作,尽管这两个话语解析为相同的意图。可以针对为技能机器人配置的某些意图指定一个或多个实体。因此,实体用于向意图本身添加上下文。实体帮助更充分地描述意图并使技能机器人能够完成用户请求。
在某些示例中,有两种类型的实体:(a)DABP 102提供的内置实体;以及(2)可以由技能机器人设计者指定的自定义实体。内置实体是可以与各种机器人一起使用的通用实体。内置实体的示例包括但不限于与时间、日期、地址、数字、电子邮件地址、持续时间、循环时间段、货币、电话号码、URL等有关的实体。自定义实体用于更多定制的应用程序。例如,针对银行业技能,AccountType实体可以被技能机器人设计者定义为通过检查用户对关键词(如活期存款、储蓄、信用卡等)的输入来实现各种银行业交易。
(4)训练技能机器人——技能机器人被配置为接收呈话语形式的用户输入,语法分析或以其他方式处理接收到的输入并且识别或选择与接收到的用户输入相关的意图。如上文所指示的,必须为此对技能机器人进行训练。在某些实施例中,基于为技能机器人配置的意图和与意图相关联的示例话语(统称为训练数据)来训练技能机器人,使得技能机器人可以将用户输入话语解析成其所配置的意图中的一个意图。在某些示例中,技能机器人使用预测模型,该预测模型是使用训练数据训练的并且允许技能机器人辨别用户说出(或者在一些情况下,正试图说出)的内容。DABP 102提供可以被技能机器人设计者用于训练技能机器人的各种不同的训练技术,包括各种基于机器学习的训练技术、基于规则的训练技术和/或其组合。在某些示例中,训练数据的一部分(例如,80%)用于训练技能机器人模型并且另一部分(例如,其余20%)用于测试或验证模型。一旦被训练,经训练的模型(有时也称为经训练的技能机器人)便可以用于处理用户的话语并对用户的话语作出响应。在某些情况下,用户的话语可以是仅需要单一的回答并且无需另外的会话的问题。为了处理这种情况,可以为技能机器人定义Q&A(问与答)意图。这使技能机器人能够在不必更新对话定义的情况下输出对用户请求的回复。以与常规意图类似的方式创建Q&A意图。用于Q&A意图的对话流可以与用于常规意图的对话流不同。
(5)为技能机器人创建对话流——为技能机器人指定的对话流描述了在响应于接收到的用户输入来解析技能机器人的不同意图时,技能机器人如何反应。对话流定义了技能机器人将采取的操作或动作,例如,技能机器人如何响应用户话语、技能机器人如何提示用户进行输入、技能机器人如何返回数据。对话流像技能机器人所遵循的流程图。技能机器人设计者使用一种语言(如markdown语言)指定对话流。在某些实施例中,可以使用被称为OBotML的YAML版本来指定技能机器人的对话流。用于技能机器人的对话流定义充当会话本身的模型,该模型是使技能机器人设计者编排技能机器人与技能机器人所服务的用户之间的交互的模型。
在某些示例中,技能机器人的对话流定义包含三个部分:
(a)上下文部分
(b)默认转变部分
(c)状态部分
上下文部分——技能机器人设计者可以在上下文部分中定义会话流中使用的变量。可以在上下文部分中命名的其他变量包括但不限于:针对错误处理的变量、针对内置实体或自定义实体的变量、使技能机器人能够识别并保存用户偏好的用户变量等。
默认转变部分——技能机器人的转变可以在对话流状态部分中或在默认转变部分中定义。在默认转变部分中定义的转变充当后备,并且当状态内没有定义适用的转变或触发状态转变所需的条件无法得到满足时被触发。默认转变部分可以用于定义允许技能机器人得体地处理非预期用户动作的路由。
状态部分——对话流及其有关操作被定义为管理对话流内的逻辑的暂时状态的序列。对话流定义内的每个状态节点都命名提供对话中该点处所需的功能的部件。因此,状态是围绕部件构建的。状态包含特定于部件的性质并且定义了在部件执行之后被触发的向其他状态的转变。
可以使用状态部分来处理特殊情况场景。例如,您有时可能想要为用户提供用于暂时让用户与其接洽的第一技能进行数字助理内的第二技能中的事情的选项。例如,如果用户忙于与购物技能进行会话(例如,用户已做出针对购买的一些选择),则用户可能想要跳转至银行业技能(例如,用户可能想要确保他/她有足够的钱用于购买)并且然后返回到购物技能以完成用户的订单。为了解决这一点,第一技能中的动作可以被配置为发起与相同数字助理中的不同的第二技能的交互并且然后返回到原始流。
(6)将自定义部件添加到技能机器人——如上文所描述的,技能机器人的对话流中指定的状态对对应于状态提供所需的功能的部件进行了命名。部件使技能机器人能够执行功能。在某些实施例中,DABP 102提供用于执行各种各样的功能的一组预先配置的部件。技能机器人设计者可以选择这些预配置的部件中的一个或多个并且将它们与技能机器人的对话流中的状态相关联。技能机器人设计者还可以使用DABP 102提供的工具创建定制的或新的部件并且将定制部件与技能机器人的对话流中的一个或多个状态相关联。
(7)测试并部署技能机器人——DABP 102提供使技能机器人设计者能够测试正在开发的技能机器人的几个特征。然后,可以将技能机器人部署并包括在数字助理中。
虽然以上描述描述了如何创建技能机器人,但是还可以使用类似的技术来创建数字助理(或主机器人)。在主机器人或数字助理水平,可以为数字助理配置内置系统意图。这些内置系统意图用于识别在不调用与数字助理相关联的技能机器人的情况下数字助理自身(即,主机器人)可以处理的一般任务。针对主机器人定义的系统意图的示例包括:(1)Exit(退出):当用户发出期望退出数字助理中的当前会话或上下文的信号时适用;(2)Help(帮助):当用户请求帮助或定向时适用;以及(3)Unresolved Intent(未解析意图):适用于与退出意图和帮助意图不太匹配的用户输入。数字助理还存储关于与数字助理相关联的一个或多个技能机器人的信息。该信息使主机器人能够选择用于处理话语的特定技能机器人。
在主机器人或数字助理水平,当用户向数字助理输入短语或话语时,数字助理被配置为执行处理以确定如何路由话语和相关会话。数字助理使用路由模型来确定这一点,该路由模型可以是基于规则的、基于AI的或其组合。数字助理使用路由模型来确定对应于用户输入话语的会话是要被路由到特定技能以进行处理、要由数字助理或主机器人自身按照内置系统意图进行处理、还是要被处理为当前会话流中的不同状态。
在某些实施例中,作为此处理的一部分,数字助理确定用户输入话语是否使用其调用名称显式地识别技能机器人。如果调用名称存在于用户输入中,则调用名称被视为对应于调用名称的对技能机器人的显式调用。在这种场景下,数字助理可以将用户输入路由到显式调用的技能机器人以进行进一步处理。在某些实施例中,如果不存在特定调用或显式调用,则数字助理评估接收到的用户输入话语并针对与数字助理相关联的系统意图和技能机器人计算置信度得分。针对技能机器人或系统意图计算的得分表示用户输入表示技能机器人被配置为执行的任务或表示系统意图的可能性有多大。选择相关联的计算的置信度得分超过阈值(例如,置信度阈值路由参数)的任何系统意图或技能机器人作为候选以进行进一步的评估。然后,数字助理从所识别的候选中选择特定的系统意图或技能机器人用于对用户输入话语的进一步处理。在某些实施例中,在一个或多个技能机器人被识别为候选之后,对与那些候选技能相关联的意图进行评估(根据针对每个技能的意图模型),并且确定针对每个意图的置信度得分。通常,置信度得分超过阈值(例如,70%)的任何意图被视为候选意图。如果选择了特定技能机器人,则将用户话语路由到该技能机器人以进行进一步处理。如果选择了系统意图,则由主机器人自身根据所选的系统意图执行一个或多个动作。
图2是根据某些实施例的主机器人(MB)系统200的简化框图。MB系统200可以仅以软件、仅以硬件、或以硬件和软件的组合实施。MB系统200包括预处理子系统210、多个意图子系统(MIS)220、显式调用子系统(EIS)230、技能机器人调用器240和数据存储250。图2中描绘的MB系统200仅仅是主机器人中的部件布置的示例。本领域技术人员将认识到许多可能的变化、替代方案和修改。例如,在一些实施方式中,MB系统200可以具有比图2所示的那些系统或部件更多或更少的系统或部件,可以组合两个或更多个子系统,或者可以具有不同的子系统配置或布置。
预处理子系统210从用户接收话语“A”202,并通过语言检测器212和语言语法分析器214来处理话语。如上文所指示的,可以以包括音频或文本的各种方式来提供话语。话语202可以是句子片段、完整句子、多个句子等。话语202可以包括标点符号。例如,如果话语202作为音频提供,则预处理子系统210可以使用将标点符号(例如,逗号、分号、句号等)插入到结果文本中的语音文本转换器(未示出)来将音频转换为文本。
语言检测器212基于话语202的文本来检测话语202的语言。处理话语202的方式取决于语言,因为每种语言都有其自己的语法和语义。在分析话语的句法和结构时,会考虑语言之间的差异。
语言语法分析器214对话语202进行语法分析以提取话语202中各个语言单元(例如,词)的词性(POS)标签。POS标签包括例如名词(NN)、代词(PN)、动词(VB)等。语言语法分析器214还可以对话语202的语言单位进行标记化(例如,将每个词转换为单独的记号)并对词按屈折变化形式进行归类。词元是如在字典中表示的一组词的主要形式(例如,“run”是run、runs、ran、running等的词元)。语言语法分析器214可以执行的其他类型的预处理包括复合表达式的组块,例如,将“credit”和“card”组合成单个表达式“credit_card”。语言语法分析器214还可以识别话语202中的词之间的关系。例如,在一些实施例中,语言语法分析器214生成依存树,所述依存树指示话语的哪一部分(例如,特定名词)是直接宾语、话语的哪一部分是介词等。由语言语法分析器214执行的处理的结果形成提取的信息205,并与话语202本身一起作为输入提供给MIS 220。
如以上所指示的,话语202可以包括多于一个句子。出于检测多个意图和显式调用的目的,话语202可以被视为单个单元,即使它包括多个句子。然而,在某些实施例中,预处理可以例如由预处理子系统210执行,以识别多个句子中的单个句子以用于多个意图分析和显式调用分析。通常,无论话语202是在单个句子的水平上处理还是作为包括多个句子的单个单元处理,MIS 220和EIS 230产生的结果都基本相同。
MIS 220确定话语202是否表示多个意图。尽管MIS 220可以检测到话语202中存在的多个意图,但由MIS 220执行的处理不涉及确定话语202的意图是否与已为机器人配置的任何意图相匹配。替代地,确定话语202的意图是否与机器人意图相匹配的处理可以由MB系统200的意图分类器242或由技能机器人的意图分类器(例如,如图3所示)执行。MIS 220执行的处理假设存在可以处理话语202的机器人(例如,特定技能机器人或主机器人本身)。因此,由MIS 220执行的处理不需要知道聊天机器人系统中有哪些机器人(例如,与主机器人注册的技能机器人的身份),也不需要知道已经为特定机器人配置了什么意图。
为了确定话语202包括多个意图,MIS 220应用数据存储250中的一组规则252中的一个或多个规则。应用于话语202的规则取决于话语202的语言并且可以包括指示存在多个意图的句子模式。例如,句子模式可以包括连接句子的两个部分(例如,连词)的并列连接词,其中,这两个部分对应于不同的意图。如果话语202与句子模式相匹配,则可以推断出话语202表示多个意图。应该注意的是,具有多个意图的话语不一定具有不同的意图(例如,指向不同机器人或指向同一机器人内的不同意图的意图)。相反,话语可以有相同意图的不同实例,例如“Place a pizza order using payment account X,then place a pizzaorder using payment account Y(使用支付账户X下披萨订单,然后使用支付账户Y下披萨订单)”。
作为确定话语202表示多个意图的一部分,MIS 220还确定话语202的哪部分与每个意图相关联。MIS 220为包含多个意图的话语中所表示的每个意图构建用于单独处理的新话语来代替原始话语(例如,话语“B”206和话语“C”208,如图2描绘的)。因此,原始话语202可以被拆分成一次处理一个的两个或更多个单独话语。MIS 220使用提取的信息205和/或根据对话语202本身的分析来确定应该首先处理两个或更多个话语中的哪一个。例如,MIS 220可以确定话语202包含指示应该首先处理特定意图的标记词。与该特定意图相对应的新形成的话语(例如,话语206或话语208中的一个)将首先被发送以供EIS 230进一步处理。在由第一个话语触发的会话已经结束(或已被暂时暂停)之后,然后可以将下一个最高优先级的话语(例如,话语206或话语208中的另一个话语)发送到EIS 230进行处理。
EIS 230确定其接收的话语(例如,话语206或话语208)是否包含技能机器人的调用名称。在某些实施例中,聊天机器人系统中的每个技能机器人被指派有将该技能机器人与聊天机器人系统中的其他技能机器人区分开的唯一调用名称。调用名称列表可以作为技能机器人信息254的一部分保存在数据存储250中。当话语包含与调用名称相匹配的词时,话语被视为显式调用。如果机器人未被显式调用,则EIS 230接收到的话语被视为是非显式调用话语234并且被输入到主机器人的意图分类器(例如,意图分类器242)以确定使用哪个机器人来处理话语。在一些实例中,意图分类器342将确定主机器人应该处理非显式调用话语。在其他实例中,意图分类器242将确定将话语路由到其以进行处理的技能机器人。
EIS 230所提供的显式调用功能具有多个优点。它可以减少主机器人必须执行的处理量。例如,当存在显式调用时,主机器人可以不必(例如,使用意图分类器242)进行任何意图分类分析,或者可以不得不进行简化的意图分类分析以选择技能机器人。因此,显式调用分析可以使得能够选择特定技能机器人而无需求助于意图分类分析。
而且,可能存在多个技能机器人之间的功能重叠的情况。例如,如果两个技能机器人处理的意图重叠或彼此非常接近,则可能会发生这种情况。在这种情况下,主机器人可能难以仅基于意图分类分析来识别要选择多个技能机器人中的哪一个。在这种场景下,显式调用使得对于要使用的特定技能机器人没有歧义。
除了确定话语是显式调用之外,EIS 230还负责确定是否应该将话语的任何部分用作对被显式调用的技能机器人的输入。具体地,EIS 230可以确定话语的一部分是否与调用无关。EIS 230可以通过分析话语和/或分析提取的信息205来执行该确定。EIS 230可以将话语的与调用无关的部分发送到被调用的技能机器人,而不是发送EIS 230接收到的整个话语。在一些实例中,被调用的技能机器人的输入简单地通过删除话语的与调用相关联的任何部分来形成。例如,“I want to order pizza using Pizza Bot(我想要使用披萨机器人订购披萨)”可以缩短为“I want to order pizza(我想要订购披萨)”,因为“usingPizza Bot(使用披萨机器人)”与调用披萨机器人有关,但与要由披萨机器人执行的任何处理无关。在一些实例中,EIS 230可以重新格式化要发送给被调用的机器人的部分,例如,以形成完整的句子。因此,EIS 230不仅确定存在显式调用,而且当存在显式调用时确定要向技能机器人发送什么。在一些实例中,可能没有任何文本要输入到被调用的机器人。例如,如果话语是“Pizza Bot(披萨机器人)”,则EIS 230可以确定披萨机器人正在被调用,但没有文本要由披萨机器人处理。在这样的场景中,EIS 230可以向技能机器人调用器240指示没有要发送的内容。
技能机器人调用器240以各种方式调用技能机器人。例如,技能机器人调用器240可以响应于接收到作为显式调用的结果已经选择特定技能机器人的指示235来调用机器人。指示235可以由EIS 230连同显式调用的技能机器人的输入一起发送。在这种场景下,技能机器人调用器240将对会话的控制交给显式调用的技能机器人。显式调用的技能机器人将通过将输入视为独立话语来确定对来自EIS 230的输入的适当响应。例如,响应可以是执行特定动作或在特定状态下开始新会话,其中新会话的初始状态取决于从EIS 230发送的输入。
技能机器人调用器240可以调用技能机器人的另一种方式是通过使用意图分类器242进行隐式调用。可以使用机器学习和/或基于规则的训练技术来训练意图分类器242,以确定话语表示特定技能机器人被配置为执行的任务的可能性。意图分类器242在不同类别上进行训练,每个技能机器人一个类别。例如,每当向主机器人注册新技能机器人时,与新技能机器人相关联的示例话语列表可以用于训练意图分类器242以确定特定话语表示新技能机器人可以执行的任务的可能性。作为该训练的结果产生的参数(例如,机器学习模型的一组参数值)可以存储为技能机器人信息254的一部分。
在某些实施例中,意图分类器242是使用机器学习模型实施的,如本文进一步详细描述的。对机器学习模型的训练可以涉及输入来自与各种技能机器人相关联的示例话语的至少一个话语子集,以生成关于哪个机器人是用于处理任何特定训练话语的正确机器人的推断作为机器学习模型的输出。对于每个训练话语,可以提供对用于训练话语的正确机器人的指示作为基本事实信息。然后可以适配机器学习模型的行为(例如,通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。
在某些实施例中,意图分类器242对于向主机器人注册的每个技能机器人确定指示技能机器人可以处理话语(例如,从EIS 230接收的非显式调用话语234)的可能性的置信度得分。意图分类器242还可以确定已配置的每个系统水平意图(例如,帮助、退出)的置信度得分。如果特定置信度得分满足一个或多个条件,则技能机器人调用器240将调用与该特定置信度得分相关联的机器人。例如,可能需要满足阈值置信度得分值。因此,意图分类器242的输出245是对系统意图的识别或对特定技能机器人的识别。在一些实施例中,除了满足阈值置信度得分值之外,置信度得分必须超过下一个最高置信度得分一定的赢裕量。当多个技能机器人的置信度得分各自超过阈值置信度得分值时,施加这样的条件将能够路由到特定技能机器人。
在基于对置信度得分的评估来识别机器人之后,技能机器人调用器240将处理移交给所识别的机器人。在系统意图的情况下,所识别的机器人是主机器人。否则,所识别的机器人是技能机器人。进一步地,技能机器人调用器240将确定要提供什么作为所识别的机器人的输入247。如以上所指示的,在显式调用的情况下,输入247可以基于话语的不与调用相关联的一部分,或输入247可以是什么都没有(例如,空字符串)。在隐式调用的情况下,输入247可以是整个话语。
数据存储250包括一个或多个计算设备,该一个或多个计算设备存储由主机器人系统200的各种子系统使用的数据。如以上所解释的,数据存储250包括规则252和技能机器人信息254。规则252包括例如用于由MIS 220确定话语何时表示多个意图以及如何拆分表示多个意图的话语的规则。规则252进一步包括用于由EIS 230确定明确地调用技能机器人的话语的哪些部分要发送给技能机器人的规则。技能机器人信息254包括聊天机器人系统中的技能机器人的调用名称,例如,向特定主机器人注册的所有技能机器人的调用名称的列表。技能机器人信息254还可以包括由意图分类器242用于确定聊天机器人系统中的每个技能机器人的置信度得分的信息,例如,机器学习模型的参数。
图3是根据某些实施例的技能机器人系统300的简化框图。技能机器人系统300是可以仅以软件实施、仅以硬件实施、或以硬件和软件的组合实施的计算系统。在如图1中所描绘的实施例的某些实施例中,技能机器人系统300可以用于在数字助理内实施一个或多个技能机器人。
技能机器人系统300包括MIS 310、意图分类器320和会话管理器330。MIS 310类似于图2中的MIS 220并提供类似的功能,包括可操作地使用数据存储350中的规则352来确定:(1)话语是否表示多个意图,并且如果是,则(2)如何将话语拆分成针对多个意图中的每个意图的单独话语。在某些实施例中,由MIS 310应用的用于检测多个意图和用于拆分话语的规则与MIS 220所应用的规则相同。MIS 310接收话语302和提取的信息304。提取的信息304类似于图1中的提取的信息205,并且可以使用语言语法分析器214或技能机器人系统300本地的语言语法分析器来生成。
意图分类器320可以以与以上结合图2的实施例所讨论的意图分类器242类似的方式被训练,并在此进一步详细描述。例如,在某些实施例中,意图分类器320是使用机器学习模型来实施的。针对特定技能机器人,使用与该特定技能机器人相关联的示例话语的至少一个子集作为训练话语来训练意图分类器320的机器学习模型。每个训练话语的基本事实将是与训练话语相关联的特定机器人意图。
话语302可以直接从用户接收或通过主机器人供应。当通过主机器人供应话语302时(例如,作为通过图2中描绘的实施例中的MIS 220和EIS 230处理的结果),可以绕过MIS310以避免重复已经由MIS 220执行的处理。然而,如果直接从用户接收话语302(例如,在路由到技能机器人之后发生的会话期间),则MIS 310可以处理话语302以确定话语302是否代表多个意图。如果是,则MIS 310应用一个或多个规则以将话语302拆分为针对每个意图的单独话语,例如话语“D”306和话语“E”308。如果话语302不表示多个意图,则MIS 310将话语302转发到意图分类器320以进行意图分类,而不拆分话语302。
意图分类器320被配置为将接收到的话语(例如,话语306或308)和与技能机器人系统300相关联的意图相匹配。如以上所解释的,技能机器人可以被配置有一个或多个意图,每个意图包括与该意图相关联并用于训练分类器的至少一个示例话语。在图2的实施例中,主机器人系统200的意图分类器242被训练来确定各个技能机器人的置信度得分和针对系统意图的置信度得分。类似地,可以训练意图分类器320来确定针对与技能机器人系统300相关联的每个意图的置信度得分。由意图分类器242执行的分类是在机器人水平,而由意图分类器320执行的分类是在意图水平并且因此更细粒度。意图分类器320可以访问意图信息354。对于与技能机器人系统300相关联的每个意图,意图信息354包括表示意图并说明意图的含义并且通常与可由该意图执行的任务相关联的话语列表。意图信息354可以进一步包括作为在该话语列表上进行训练的结果而产生的参数。
会话管理器330接收对特定意图的指示322作为意图分类器320的输出,该指示由意图分类器320识别为与输入到意图分类器320的话语最佳匹配。在一些实例中,意图分类器320不能确定任何匹配。例如,如果话语指向系统意图或不同技能机器人的意图,则由意图分类器320计算的置信度得分可能降到阈值置信度得分值以下。当发生这种情况时,技能机器人系统300可以将话语转交给主机器人进行处理,例如,路由到不同技能机器人。然而,如果意图分类器320在识别技能机器人内的意图方面是成功的,则会话管理器330将发起与用户的会话。
由会话管理器330发起的会话是特定于由意图分类器320识别的意图的会话。例如,会话管理器330可以使用被配置为针对所识别的意图执行对话流的状态机来实施。状态机可以包括默认起始状态(例如,当在没有任何附加输入的情况下调用意图时)和一个或多个附加状态,其中每个状态与将由技能机器人执行的动作(例如,执行购买交易)和/或要呈现给用户的对话(例如,问题、响应)相关联。因此,会话管理器330可以在接收到识别到意图的指示322时确定动作/对话335,并且可以响应于在会话期间接收到的后续话语来确定附加动作或对话。
数据存储350包括一个或多个计算设备,该一个或多个计算设备存储由技能机器人系统300的各种子系统使用的数据。如图3所描绘的,数据存储350可以包括规则352和意图信息354。在某些实施例中,数据存储350可以集成到主机器人或数字助理的数据存储中,例如图2中的数据存储250。
上下文标签集成
作为自然语言处理的两个主要组成部分的意图预测和实体提取有助于聊天机器人系统理解与给定服务或服务集的领域相关的用户查询和用户话语。意图预测确定用户查询或话语的目的(即,意图)。实体提取确定用户查询或话语的一个或多个约束(如果有的话)。例如,对于关于“the weather on Wednesday in the Poconos(波科诺斯星期三的天气)”的用户询问,意图预测确定用户的意图是了解“weather(天气)”,并且实体提取确定“Wednesday(星期三)”和“Poconos(波科诺斯)”是将用户的意图聚焦到特定日期和地理位置的约束。实体提取可以涉及匹配,其中,通过将词与预定义实体列表进行匹配来将用户查询中的词确认为实体。然而,由于实体的主题可能并不总是对应于明显或流行的所指对象,因此,匹配通常无法识别用户期望的所指对象。当用户的话语限于每个话语一或两个词或者当用户的话语包含多于必要的信息时,匹配就更具挑战性。例如,在有限话语的情况下,仅涉及词“2020”的用户话语可能指代特定的日历年、物品的特定成本、物品的数量等,这取决于与用户的话语相关联的其他用户话语或系统查询的上下文。在具有附加信息的用户话语的情况下,叙述“it is 2020for 20people costing2000(2020年20个人的成本是2000)”的用户话语可能对应也可能不对应于年份实体、成本实体或数量实体,这取决于用户话语的上下文。从上面的示例可以看出,除非考虑上下文,否则无法准确地确定用户在话语中期望的所指对象。如本文所描述的,本公开的特征通过评估与系统查询或用户的一个或多个话语相关联的一组实体内的上下文标签分布来克服这些挑战。
图4A示出了图示被配置为训练和利用意图分类器(例如,图2的意图分类器242或图3的意图分类器320)内的NER模型的聊天机器人系统400的各方面的框图。如图4A所示,聊天机器人系统400可以包括预测模型训练阶段410、被配置为确定话语代表特定技能机器人被配置为执行的任务的可能性的技能机器人调用阶段415、被配置为将话语分类为一个或多个意图的意图预测阶段420、以及被配置为确定话语的一个或多个约束480的实体检测阶段422。预测模型训练阶段410可以被配置为构建和训练将由其他阶段使用的一个或多个预测模型425a-425n(其在本文中可以单独称为预测模型或统称为预测模型)。在一些示例中,预测模型可以包括用于确定话语表示特定技能机器人被配置为执行的任务的可能性的模型、用于针对第一类型的技能机器人根据话语来预测意图的模型、用于针对第二类型的技能机器人根据话语来预测意图的模型、以及用于识别文本中提到的概念实体并根据一组给定类别对其进行分类的模型。在根据本公开的其他示例中可以实施其他类型的预测模型。
预测模型可以是机器学习(ML)模型,比如卷积神经网络(CNN)(例如,inception神经网络、残差神经网络(Resnet))、或循环神经网络(例如,长短期记忆(LSTM)模型、双向LSTM(BiLSTM)或门控循环单元(GRU)模型),深度神经网络(DNN)的其他变体。预测模型还可以是被训练用于自然语言处理的任何其他合适的ML模型,比如transformer的双向编码器表示(BERT)模型、朴素贝叶斯分类器、线性分类器、支持向量机、条件随机场模型、随机森林模型、提升模型、浅层神经网络、或这样的技术(例如,CNN-HMM或MCNN)中的一种或多种的组合。聊天机器人系统400可以采用相同类型的预测模型或不同类型的预测模型来确定特定技能机器人被配置为执行的任务的可能性、针对第一类型的技能机器人根据话语来预测意图、针对第二类型的技能机器人根据话语来预测意图、以及识别文本中提到的概念实体并根据一组给定类别对其进行分类。在根据本公开的其他示例中可以实施其他类型的预测模型。
如图4A进一步所示,预测模型训练阶段410可以包括数据集准备430、特征工程435和模型训练440。数据集准备430可以被配置为针对每个预测模型将输入数据资产445处理成单独的训练和验证集445a-n。数据资产445可以至少包括来自与各种技能机器人相关联的示例话语的话语子集。如前所述,话语可以以包括音频或文本在内的各种方式来提供。话语可以是句子片段、完整句子、多个句子等。例如,如果话语是作为音频提供的,则数据准备430可以使用将标点符号(例如,逗号、分号、句号等)插入到所得文本中的语音文本转换器(未示出)来将音频转换为文本。在一些实例中,示例话语由客户端或客户提供。在其他实例中,示例话语是从先前的话语库中自动生成的(例如,从库中识别特定于聊天机器人要学习的技能的话语)。在一些示例中,用于预测模型的数据资产445可以包括输入文本或音频(或者文本或音频帧的输入特征)以及输入文本或音频(或输入特征)的作为矩阵或值表的对应标签450。例如,对于每个训练话语,可以提供对用于训练话语的正确机器人的指示作为标签450的基本事实信息。然后可以适配相应的预测模型的行为(例如,通过反向传播)以最小化所生成的推断与基本事实信息之间的差异。可替代地,可以针对特定技能机器人至少使用与该特定技能机器人相关联的示例话语的子集作为训练话语来训练预测模型。针对每个训练话语的标签450的基本事实信息将是与训练话语相关联的特定机器人意图。可替代地,可以针对特定技能机器人至少使用与该特定技能机器人相关联的示例话语的子集作为训练话语来训练预测模型。针对每个训练话语的标签450的基本事实信息将是与训练话语相关联的特定机器人意图。
在一些实例中,可以将扩充应用到数据资产445。例如,简单数据扩充(EDA)技术可以用于提高文本分类任务的性能。EDA包括四个操作:同义词替换、随机插入、随机交换和随机删除,这些操作防止过拟合并帮助训练更稳健的模型。注意,EDA操作通常:(i)从原始文本中获得词,并且(ii)相对于原始文本将词合并到每个数据资产445中。例如,同义词替换操作包括从原始句子(例如,话语)中随机选择n个不是停用词的词,并将这些词中的每一个替换为其随机选择的同义词之一。随机插入操作包括——n次——找到原始句子中不是停用词的随机词的随机同义词,并将该同义词插入句子中的随机位置。随机交换操作包括——n次——随机选择句子中的两个词并交换它们的位置。随机删除操作包括以概率p随机移除句子中的每个词。
在一些示例中,特征工程435可以包括将数据资产445变换成特征向量和/或创建将使用数据资产445创建的新特征。特征向量可以包括计数向量作为特征,TF-IDF向量作为特征(如词级别、n元级别或字符级别)、词嵌入作为特征、文本/NLP作为特征、主题模型作为特征、或其组合。计数向量是数据资产445的矩阵符号,其中,每一行表示一个话语,每一列表示来自话语的一个词,并且每个单元格表示特定词在话语中的频率计数。TF-IDF得分表示某个词在话语中的相对重要性。词嵌入是一种使用密集向量表示来表示词和话语的形式。向量空间内词的位置是从文本中学习的,并且基于使用该词时围绕该词的词。基于文本/NLP的特征可以包括话语中的词数、话语中的字符数、平均词密度、标点符号数、大写字母数、标题词数、词性标签(例如,名词和动词)的频率分布、或其任何组合。主题建模是一种从包含话语集合中的最佳信息的该话语集合中识别词组(称为主题)的技术。
在一些示例中,模型训练440可以包括使用在特征工程435中创建的特征向量和/或新特征来训练分类器。在一些实例中,训练过程包括迭代操作以找到预测模型的一组参数,该组参数使预测模型的损失或误差函数最小化。每次迭代可以涉及找到预测模型的一组参数,使得使用该组参数的损失或误差函数的值小于在先前迭代中使用另一组参数的损失或误差函数的值。可以构建损失或误差函数以衡量使用预测模型预测的输出与数据资产445中包含的标签450之间的差异。一旦识别出该组参数,预测模型就已经被训练并且可以根据设计用于预测。
除了数据资产445、标签450、特征向量和/或新特征之外,还可以采用其他技术和信息来细化预测模型的训练过程。例如,可以将特征向量和/或新特征组合在一起以帮助提高分类器或模型的准确度。另外或可替代地,可以调整或优化超参数,例如,可以微调诸如树长度、叶、网络参数等多个参数以获得最佳拟合模型。尽管本文描述的训练机制主要集中于训练预测模型。这些训练机制还可以用于微调从其他数据资产训练的现有预测模型。例如,在一些情况下,可能已经使用特定于另一个技能机器人的话语对预测模型进行了预训练。在这些情况下,可以使用数据资产445来再训练预测模型,如本文所讨论的。
在一些示例中,预测模型训练阶段410可以输出经训练的预测模型,包括任务预测模型460、意图预测模型465和实体提取模型467。任务预测模型460可以在技能机器人调用阶段415中使用以确定话语表示特定技能机器人被配置为执行的任务470的可能性,意图预测模型465可以在意图预测阶段420中使用以将话语分类为一个或多个意图475,并且实体提取模型467可以在实体检测阶段422中使用以提取实体并将其分类为一个或多个约束480。在一些实例中,技能机器人调用阶段415、意图预测阶段420和实体检测阶段422可以在一些示例中利用单独的模型独立地进行。例如,经训练的意图预测模型465可以在意图预测阶段420中使用以预测技能机器人的意图,并且/或者经训练的实体提取模型467可以在实体检测阶段422中使用以提取技能机器人的实体并对其进行分类,而无需首先在技能机器人调用阶段415中识别技能机器人。类似地,任务预测模型460可以在技能机器人调用阶段415中使用以预测要用于话语的任务或技能机器人,而无需在意图预测阶段420和/或实体检测阶段422中识别话语的意图和/或实体。
可替代地,技能机器人调用阶段415、意图预测阶段420和实体检测阶段422可以顺序地进行,其中,一个阶段使用另一个阶段的输出作为输入,或者针对特定技能机器人,一个阶段基于另一个阶段的输出以特定方式被调用。例如,对于给定的文本数据405,技能机器人调用器可以使用技能机器人调用阶段415和任务预测模型460通过隐式调用来调用技能机器人。可以使用机器学习和/或基于规则的训练技术来训练任务预测模型460,以确定话语表示特定技能机器人470被配置为执行的任务的可能性。然后对于识别出或调用的技能机器人和给定文本数据405,意图预测阶段420和意图预测模型465、和/或实体检测阶段422和实体提取模型467可以用于将接收到的话语(例如,给定数据资产445内的话语)与和技能机器人相关联的意图475相匹配。如本文所解释的,技能机器人可以配置有一个或多个意图,每个意图包括与该意图相关联并用于训练分类器的至少一个示例话语。在一些实施例中,技能机器人调用阶段415、主机器人系统的任务预测模型460和实体提取模型467被训练用于确定各个技能机器人的置信度得分和系统意图的置信度得分。类似地,意图预测阶段420和意图预测模型465、和/或实体检测阶段422和实体提取模型467可以被训练用于确定与技能机器人系统相关联的每个意图的置信度得分。由技能机器人调用阶段415、任务预测模型460和实体提取模型467执行的分类是在机器人级别,而由意图预测阶段420和意图预测模型465、和/或实体检测阶段422和实体提取模型467执行的分类是在意图级别并且因此是更细粒度的。
在一些示例中,与实体提取模型467相关联的实体被包括在由地名词典定义的一组实体中。对于利用特定技能训练的机器人,针对该技能的地名词典包括与该技能有关的一组实体。例如,对于利用银行业务技能训练的机器人,针对该技能的地名词典可以包括一组实体,该组实体包括数字实体(数字标签)、日期和时间实体(日期和时间标签)、货币实体(货币标签)、人员实体(人员标签)和位置实体(位置标签)。在另一个示例中,对于利用食品订购技能训练的机器人,针对该技能的地名词典包括一组实体,该组实体包括数量实体(数量标签)、食品类型实体(食品类型标签)、时间实体(时间标签)、人员实体(人员标签)和位置实体(位置标签)。在一些实施例中,实体检测阶段422识别机器人的特定技能,从一个或多个地名词典中提取与该特定技能相关的一组或多组实体,在一个或多个系统查询和/或一个或多个用户话语中检测一组或多组实体内的实体,利用一个或多个上下文标签来标记检测到的实体,确定每个上下文标签的置信度得分(上下文标签分布),并基于一组或多组实体的上下文标签分布来识别一个或多个约束480。
在一些示例中,上下文标签分布是基于一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文来确定的。在一些示例中,基于一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文,检测到的实体的上下文标签可以被赋予相对于该组实体内的其他实体较高的置信度得分或者相对于该组实体内的其他实体较低的置信度得分。在一些示例中,如果机器人关于一个或多个特定实体向用户查询,则用户的一个或多个响应话语中与机器人所查询的一个或多个特定实体相关的一个或多个实体将被赋予相对于在用户的一个或多个响应话语中检测到的其他实体较高的置信度得分。例如,与特定技能(例如,银行业务)相关的机器人可以关于与该特定技能相对应的一组实体(例如,数量、日期和时间、位置、人员和交易类型)中的特定实体(例如,数量)向用户查询。用户的一个或多个响应话语可以包括包含特定实体的一个或多个检测到的实体。在这种情况下,用户的一个或多个响应话语中检测到的数量实体(即,数量标签)将被赋予高置信度得分,并且针对该特定技能的该组实体内的其他检测到的实体(例如,日期和时间、位置、人员和交易类型)将被赋予较低的置信度得分。类似地,如果在机器人的查询和/或用户的一个或多个话语中检测到同一实体的多次出现,则该实体将被赋予相对于为其他检测到的实体(即,出现频率较低的实体)赋予的置信度得分而言较高的置信度得分。
在一些场合下,所有检测到的实体将被赋予相同的置信度得分。例如,如果机器人不关于特定实体向用户查询,并且用户的一个或多个响应话语包括不同的实体,则用户的一个或多个响应话语中的每个检测到的实体可以被赋予相同的置信度得分。类似地,如果机器人的查询和/或用户的一个或多个响应话语不包括同一实体的多次出现,则每个检测到的实体可以被赋予相同的置信度得分。在一些情况下,该组实体中的一个或多个检测到的实体可以被赋予第一置信度得分,该组实体中的一个或多个检测到的实体可以被赋予与第一置信度得分不同的第二置信度得分,并且该组实体中的一个或多个检测到的实体可以被赋予与第一置信度得分和第二置信度得分不同的第三置信度得分。前述讨论仅是示例性的并且不限于基于特定实体包含和实体出现频率来确定置信度得分。用于确定一组实体中的哪些检测到的实体是上下文相关的其他指标。例如,一组实体中的一个或多个检测到的实体可以被机器人认为比该组实体中的一个或多个其他检测到的实体更具有上下文相关性。
在一些示例中,机器人的查询和/或用户的一个或多个话语中的检测到的实体的置信度得分形成上下文标签分布。在一些示例中,上下文标签分布是针对机器人的查询和/或用户的一个或多个话语的一组实体内的所有检测到的实体的置信度得分向量。因此,通过考虑一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文,本公开的特征确定一组实体内的一个或多个检测到的实体可以与系统查询和/或用户的一个或多个话语的上下文相关程度。
在一些示例中,实体检测阶段422包括基于上下文标签分布来预测一个或多个约束480的基线模型。在一些示例中,基线模型可以进行预训练。可替代地,在一些示例中,基线模型可以被初始训练和更新。在一些示例中,可以基于众包数据集来训练基线模型。在一些示例中,可以基于计算自然语言学习会议(CoNLL)数据集来训练基线模型。在一些示例中,基线模型4000被配置为如图4B所示。如图4B所示,基线模型4000配置有基于transformer的模型(比如transformer的双向编码器表示(BERT)模型4400)、正则表达式(RX)/地名词典(GZ)向量化器4500、上下文标签向量化器4600、序列处理模型(比如组合的卷积神经网络/双向长短期记忆(CNN/BiLSTM)模型4700)、以及判别模型(比如条件随机场(CRF)模型4800)。
BERT模型4400是一种预训练算法,该预训练算法接受来自一个或多个用户话语或一个或多个系统查询的一个或多个词序列作为输入,并针对一个或多个词序列中的一个或多个词中的每个词生成一个或多个特征向量(词嵌入)。例如,如图4B所示,对于输入词序列“I would like to pay Merchant$10(我想向商家支付10美元)”,BERT模型4400为序列中的每个单独词生成单独的词嵌入(“I”、“would”、“like”、“to”、“pay”、“Merchant”和“$10”)。在一些示例中,BERT模型4400包括用于接收输入词序列的至少一个transformer层。在一些示例中,至少一个transformer层包括多个编码器。在一些示例中,每个编码器包括多个注意力机制和多个前馈网络。在一些示例中,对输入词序列进行标记化以生成多个词记号。在一些示例中,多个注意力机制直接对输入词序列中的词进行操作。在一些示例中,多个注意力机制对多个词记号进行操作。在一些示例中,多个注意力机制针对输入词序列中的每个词或多个词记号中的每个词记号生成注意力得分。在一些示例中,输入词序列(或多个词记号)和注意力得分被输入到多个前馈网络中。在一些示例中,多个前馈网络将输入词序列(或多个词记号)编码成多个词嵌入。
RX/GZ向量化器4500基于输入词序列中与一个或多个已知地名词典中的一个或多个已知正则表达式模式相匹配的一个或多个词来生成一个或多个特征向量。例如,如图4B所示,对于输入词序列“I would like to pay Merchant$10”,RX/GZ向量化器4500确定输入词序列中与一个或多个地名词典中列出的词的一个或多个正则表达式模式(例如,商家、十美元)相匹配的一个或多个词(“Merchant”、“$10”),并为一个或多个匹配词中的每一个提取预定义的向量。在一些示例中,一个或多个地名词典是基于聊天机器人的技能自动选择的。在一些示例中,一个或多个地名词典是由聊天机器人的用户选择的。在一些示例中,一个或多个地名词典是由包括聊天机器人的数字助理的用户选择的。在一些示例中,针对多个聊天机器人技能中的每个技能的一组实体由一个或多个地名词典进行定义。例如,对于利用银行业务技能训练的聊天机器人,针对该聊天机器人技能的地名词典包括一组实体,该组实体包括数字实体(数字标签)、日期和时间实体(日期和时间标签)、货币实体(货币标签)、人员实体(人员标签)和位置实体(位置标签)。在另一个示例中,对于利用披萨订购技能训练的聊天机器人,针对该聊天机器人技能的地名词典包括一组实体,该组实体包括数量实体(数量标签)、类型实体(类型标签)、馅料实体(馅料标签)、地址实体(地址标签)和成本实体(成本标签)。在一些示例中,由与聊天机器人的特定技能相关的一个或多个地名词典定义的一组实体内的实体与输入词序列中的一个或多个词匹配。在一些示例中,正则表达式算法将输入词序列中的一个或多个词的正则模式与一个或多个地名词典中列出的一组或多组实体中的一个或多个实体的正则表达式模式进行匹配。在一些示例中,一个或多个地名词典包括每个实体的预定义向量及其相关联的正则表达式模式。在一些示例中,针对每个匹配的实体和匹配的正则表达式模式,提取预定义的向量。例如,对于输入序列“I would like to pay Merchant$10”,RX/GZ向量化器4500提取针对商家实体的预定义向量以及针对$10实体的预定义向量。在一些示例中,从BERT模型4400输出的多个词嵌入与从RX/GZ向量化器4500提取的一个或多个预定义向量进行串连和/或插值,以生成一组串连和/或插值的向量。
上下文标签向量化器4600基于输入词序列的上下文标签分布来生成一个或多个向量。用于确定一个或多个系统查询和/或一个或多个用户话语的上下文标签分布的过程已在上文描述,在此不再重复。然而,为了说明,如图4B所示,针对输入词序列“I wouldlike to pay Merchant$10”,对于在针对聊天机器人的特定技能的地名词典中列出的一组实体内的检测到的实体,上下文标签分布可以被确定为0.5、0.0、0.0、0.0、0.8、0.8、0.8。在一些示例中,上下文标签向量化器4600将上下文标签分布变换成一个或多个向量。在一些示例中,由上下文标签向量化器4600生成的一个或多个向量与该组串连和/或插值的向量进行串连和/或插值,以生成第一组向量表示。在一些实施例中,如下所述,由上下文标签向量化器4600生成的一个或多个向量与由CNN/BiLSTM模型4700生成的一个或多个句子级向量表示进行串连和/或插值。
在一些示例中,第一组向量表示被输入到CNN/BiLSTM模型4700中。基于第一组向量表示,CNN/BiLSTM模型4700的CNN针对输入词序列中的每个词的每个字符生成一个或多个字符级向量表示。然后,将一个或多个字符级向量表示与第一组向量表示进行串连和/或插值,并输入到BiLSTM网络中,以生成针对输入词序列的一个或多个句子级向量表示。在一些示例中,一个或多个句子级向量表示代表命名实体标签得分。在一些示例中,由上下文标签向量化器4600生成的一个或多个向量与由CNN/BiLSTM模型4700生成的一个或多个句子级向量表示进行串连和/或插值,以生成第二组向量表示。在一些示例中,第二组向量表示代表命名实体标签得分。在一些示例中,使用CRF模型4800将命名实体标签得分解码为命名实体。例如,如图4B所示,CRF模型4800基于输入序列词的一个或多个句子级向量表示和/或第二组向量表示来将“Business(业务)”和“Currency(货币)”识别为输入词序列“I wouldlike to pay Merchant$10”的两个命名实体。
图5是图示了根据某些实施例的用于考虑上下文来进行实体识别(实体提取和分类)的过程500的流程图。图5所描绘的处理可以以由相应系统的一个或多个处理单元(例如,处理器、核)执行的软件(例如,代码、指令、程序)、硬件或其组合实施。软件可以存储在非暂态存储介质上(例如,存储器设备上)。图5所呈现的且下文所描述的方法旨在是说明性的而非限制性的。尽管图5描绘了以特定序列或顺序发生的各个处理步骤,但这并不旨在是限制性的。在某些可替代实施例中,步骤可以以某种不同的顺序执行或者一些步骤还可以并行地执行。在某些实施例中,如图1至图4B中描绘的实施例中,图5中描绘的处理可以由预处理子系统(例如,预处理子系统210或预测模型训练阶段410)执行以生成具有上下文标签的训练集,以用于由一个或多个预测模型(例如,实体提取模型467)进行训练。
在步骤505中,聊天机器人系统400(图4)接收话语。在一些示例中,可以响应于系统查询来接收话语。在一些示例中,话语对应于响应于一个或多个系统查询的一个或多个用户话语。在一些示例中,话语对应于与聊天机器人的一个或多个用户交互。在一些示例中,话语对应于输入词序列。
在步骤510中,生成针对话语的词的嵌入。在一些示例中,针对话语的每个词生成嵌入。在一些示例中,嵌入是使用基于transformer的模型(例如图4B的BERT模型4400)生成的。BERT模型4400的特征和操作已在上文描述,在此不再重复。
在步骤515中,生成RX/GZ特征向量,并将其与嵌入进行串连和/或插值以生成一组串连和/或插值的向量。在一些示例中,RX/GZ特征向量是使用图4B的RX/GZ向量化器4500生成的。在一些示例中,RX/GZ向量化器4500基于输入词序列中与一个或多个已知地名词典中的一个或多个已知正则表达式模式相匹配的一个或多个词来生成一个或多个特征向量。在一些示例中,一个或多个地名词典是基于聊天机器人的技能自动选择的。在一些示例中,一个或多个地名词典是由聊天机器人的用户选择的。在一些示例中,一个或多个地名词典是由包括聊天机器人的数字助理的用户选择的。在一些示例中,针对多个聊天机器人技能中的每个技能的一组实体由一个或多个地名词典定义。在一些示例中,由与聊天机器人的特定技能相关的一个或多个地名词典定义的一组实体内的实体与输入词序列中的一个或多个词匹配。在一些示例中,正则表达式算法将输入词序列中的一个或多个词的正则模式与一个或多个地名词典中列出的一组或多组实体中的一个或多个实体的正则表达式模式匹配。在一些示例中,一个或多个地名词典包括针对每个实体的预定义向量及其相关联的正则表达式模式。在一些示例中,针对每个匹配的实体和匹配的正则表达式模式,提取预定义的向量。RX/GZ向量化器4500的其他特征和操作已在上文描述,在此不再重复。在一些示例中,从BERT模型4400输出的多个词嵌入与从RX/GZ向量化器4500提取的RX/GZ特征向量进行串连和/或插值,以生成一组串连和/或插值的向量。
在可选步骤520中,针对接收到的话语生成上下文标签分布特征向量,并将其与串连和/或插值的RX/GZ特征向量和嵌入进行串连和/或插值以形成第一组特征向量。在一些示例中,上下文标签分布特征向量是使用图4B的上下文标签向量化器4600生成的。在一些示例中,上下文标签分布是基于一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文来确定的。在一些示例中,基于一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文,检测到的实体的上下文标签可以被赋予相对于该组实体内的其他实体较高的置信度得分或者相对于该组实体内的其他实体较低的置信度得分。在一些示例中,如果机器人关于一个或多个特定实体向用户查询,则用户的一个或多个响应话语中与机器人所查询的一个或多个特定实体相关的一个或多个实体将被赋予相对于在用户的一个或多个响应话语中检测到的其他实体较高的置信度得分。类似地,如果在机器人的查询和/或用户的一个或多个话语中检测到同一实体的多次出现,则该实体将被赋予相对于为其他检测到的实体(即,出现频率较低的实体)赋予的置信度得分而言较高的置信度得分。在一些场合下,所有检测到的实体将被赋予相同的置信度得分。例如,如果机器人不关于特定实体向用户查询,并且用户的一个或多个响应话语包括不同的实体,则用户的一个或多个响应话语中的每个检测到的实体可以被赋予相同的置信度得分。类似地,如果机器人的查询和/或用户的一个或多个响应话语不包括同一实体的多次出现,则每个检测到的实体可以被赋予相同的置信度得分。在一些情况下,该组实体中的一个或多个检测到的实体可以被赋予第一置信度得分,该组实体中的一个或多个检测到的实体可以被赋予与第一置信度得分不同的第二置信度得分,并且该组实体中的一个或多个检测到的实体可以被赋予与第一置信度得分和第二置信度得分不同的第三置信度得分。
前述讨论仅是示例性的并且不限于基于特定实体包含和实体出现频率来确定置信度得分。用于确定一组实体中哪些检测到的实体是上下文相关的其他指标。例如,一组实体中的一个或多个检测到的实体可以被机器人认为比该组实体中的一个或多个其他检测到的实体更具有上下文相关性。在一些示例中,机器人的查询和/或用户的一个或多个话语中检测到的实体的置信度得分形成上下文标签分布。在一些示例中,上下文标签分布是针对机器人的查询和/或用户的一个或多个话语的一组实体内的所有检测到的实体的置信度得分向量。在一些示例中,上下文标签向量化器4600基于上下文标签分布生成一个或多个向量。在一些示例中,上下文标签向量化器4600将上下文标签分布变换成一个或多个上下文标签分布向量。在一些示例中,由上下文标签向量化器4600生成的上下文标签分布向量与该组串连和/或插值的向量进行串连和/或插值,以生成第一组特征向量。在一些实施例中,如下所述,由上下文标签向量化器4600生成的上下文标签分布向量与由CNN/BiLSTM模型4700生成的话语的编码形式进行串连和/或插值。
在步骤525中,基于该组串连和/或插值的向量生成话语的编码形式。在一些示例中,如果包括可选步骤520,则话语的编码形式是基于第一组特征向量生成的。话语的编码形式是使用诸如图4B的CNN/BiLSTM模型4700等序列处理模型生成的。在一些示例中,该组串连和/或插值的向量和/或第一组特征向量被输入到CNN/BiLSTM模型4700中。基于输入的向量,CNN/BiLSTM模型4700的CNN为话语的每个词的每个字符生成一个或多个字符级向量表示。然后将一个或多个字符级向量表示与该组串连和/或插值的向量和/或第一组特征向量进行串连和/或插值,并输入到BiLSTM网络中以生成话语的一个或多个句子级向量表示。在一些示例中,话语的编码形式包括一个或多个句子级向量表示。在一些示例中,话语的编码形式代表命名实体标签得分。
在可选步骤530中,针对接收到的话语生成上下文标签分布特征向量,并将其与话语的编码形式进行串连和/或插值。在一些示例中,上下文标签分布特征向量是使用图4B的上下文标签向量化器4600生成的。上下文标签向量化器4600和上下文标签分布特征向量生成的特征和操作已经在上文描述,在此不再重复。在一些示例中,与上下文标签分布特征向量串连和/或插值的话语的编码形式代表命名实体标签得分。
在步骤535中,基于话语的编码形式生成候选实体的对数概率。可以使用诸如图4B的CRF模型4800等判别模型来生成候选实体的对数概率。在一些示例中,由CRF模型4800将对数概率解码成命名实体。
在步骤540中,对数概率用于识别针对接收到的话语的一个或多个约束480。在一些示例中,实体检测阶段422(图4A)使用解码的命名实体来识别针对接收到的话语的一个或多个约束480。
在可选步骤545中,将一个或多个约束480和由意图预测阶段420(图4A)针对接收到的话语生成的一个或多个意图预测和与技能机器人相关联的意图475(图4A)进行匹配。
本公开的特征改进了与数字助理和/或聊天机器人系统的用户交互。例如,用户可以与如图1所示的数字助理/聊天机器人系统106交互以进行银行业务交易。可以在技能机器人调用阶段415调用与银行业务交易相关的技能机器人(例如,如图1所示的技能机器人#1 116-1)。该交互包括一个或多个用户话语和一个或多个系统查询。对于银行业务交易,技能机器人可以向用户询问关于用户希望由技能机器人和/或数字助理执行的特定银行业务任务,比如查询余额、查询存款、转账等。作为响应,用户可以说出与用户的银行业务意图相关的一个或多个话语。在一个示例中,用户可以说出“please deposit 20in my account20(请在我的账户20中存入20)”。基于本文提供的系统、方法和示例,如图1至图5以及通篇所述,数字助理和/或聊天机器人系统将能够正确地将“deposit 20(存款20)”识别为与用户希望存入的金额相关,并且将“账户20”识别为与用户希望存款的账户相关,连同识别用户将钱存入用户账户的意图。如通篇所讨论的,通过考虑一个或多个系统查询、一个或多个用户话语和/或系统与用户之间的整个交互的上下文,本公开的特征确定一组实体内的一个或多个检测到的实体可以与系统查询和/或用户的一个或多个话语的上下文相关程度,本公开的特征能够正确地识别特定命名实体的预期所指对象并改善与数字助理和/或聊天机器人系统的用户交互。
说明性系统
图6描绘了分布式系统600的简化图。在图示的示例中,分布式系统600包括经由一个或多个通信网络610耦接到服务器612的一个或多个客户端计算设备602、604、606和608。客户端计算设备602、604、606和608可以被配置为执行一个或多个应用程序。
在各种示例中,服务器612可以被适配成运行实现本公开所描述的一个或多个实施例的一个或多个服务或软件应用程序。在某些示例中,服务器612还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用程序。在一些示例中,这些服务可以作为基于web的服务或云服务(如在软件即服务(SaaS)模型下)提供给客户端计算设备602、604、606和/或608的用户。操作客户端计算设备602、604、606和/或608的用户进而可以利用一个或多个客户端应用程序来与服务器612交互以利用这些部件所提供的服务。
在图6所描绘的配置中,服务器612可以包括实施由服务器612执行的功能的一个或多个部件618、620和622。这些部件可以包括可以由一个或多个处理器、硬件部件或其组合执行的软件部件。应理解,可以与分布式系统600不同的各种不同系统配置是可能的。因此,图6所示出的示例是用于实施示例系统的分布式系统的一个示例并且不旨在是限制性的。
用户可以使用客户端计算设备602、604、606和/或608来执行一个或多个应用程序、模型或聊天机器人,该一个或多个应用程序、模型或聊天机器人可以生成然后可以根据本公开的教导实施或服务的一个或多个事件或模型。客户端设备可以提供使客户端设备的用户能够与客户端设备交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图6描绘了仅四个客户端计算设备,但是可以支持任何数量的客户端计算设备。
客户端设备可以包括各种类型的计算系统,例如便携式手持设备、诸如个人计算机和膝上型计算机等通用计算机、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息传递设备、传感器或其他感测设备等。这些计算设备可以运行各种类型和版本的软件应用程序和操作系统(例如,MicrosoftApple/> 或类UNIX操作系统、Linux或类Linux操作系统(如Google ChromeTMOS)),包括各种移动操作系统(例如,Microsoft Windows/> Windows/>AndroidTM、/>Palm/>)。便携式手持设备可以包括蜂窝电话、智能电话(例如,/>)、平板计算机(例如,/>)、个人数字助理(PDA)等。可穿戴设备可以包括Google/>头戴式显示器以及其他设备。游戏系统可以包括各种手持游戏设备、支持因特网的游戏设备(例如,有或没有/>姿势输入设备的Microsoft/>游戏控制台、Sony Play/>系统、由/>提供的各种游戏系统以及其他)等。客户端设备可以能够执行各种不同的应用程序,如各种因特网相关应用程序、通信应用程序(例如,电子邮件应用程序、短消息服务(SMS)应用程序),并可以使用各种通信协议。
一个或多个网络610可以是本领域技术人员所熟悉的可以使用各种可用协议中的任何一种支持数据通信的任何类型的网络,可用协议包括但不限于TCP/IP(传输控制协议/因特网协议)、SNA(系统网络架构)、IPX(因特网分组交换)、等。仅通过示例的方式,一个或多个网络610可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟私人网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外线网、无线网(例如,根据电气与电子协会(IEEE)1002.11协议套件、/>和/或任何其他无线协议中的任一种协议操作的网络)和/或这些网络和/或其他网络的任何组合。
服务器612可以由以下各项构成:一个或多个通用计算机、专用服务器计算机(通过示例的方式包括PC(个人计算机)服务器、服务器、中档服务器、大型计算机、机架式服务器等)、服务器群、服务器集群或任何其他适当的布置和/或组合。服务器612可以包括运行虚拟操作系统的一个或多个虚拟机或涉及虚拟化的其他计算架构,例如逻辑存储设备的可以被虚拟化以维护服务器的虚拟存储设备的一个或多个灵活池。在各种示例中,服务器612可以被适配成运行提供前述公开内容中所描述的功能的一个或多个服务或软件应用程序。
服务器612中的计算系统可以运行一个或多个操作系统,该一个或多个操作系统包括以上所讨论的那些操作系统中的任何一个操作系统以及任何可商购获得的服务器操作系统。服务器612还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一种应用程序,包括HTTP(超文本运输协议)服务器、FTP(文件传送协议)服务器、CGI(通用网关接口)服务器、服务器、数据库服务器等。示例性数据库服务器包括但不限于可从(国际商业机器公司)等商购获得的那些数据库服务器。
在一些实施方式中,服务器612可以包括一个或多个应用程序以分析并合并从客户端计算设备602、604、606和608的用户接收的数据馈送和/或事件更新。作为示例,数据馈送和/或事件更新可以包括但不限于馈送、/>更新或从一个或多个第三方信息源和连续数据流接收的实时更新,实时更新可以包括与传感器数据应用程序、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等相关的实时事件。服务器612还可以包括一个或多个应用程序以经由客户端计算设备602、604、606和608的一个或多个显示设备来显示数据馈送和/或实时事件。
分布式系统600还可以包括一个或多个数据储存库614、616。在某些示例中,这些数据储存库可以用于存储数据和其他信息。例如,数据储存库614、616中的一个或多个可以用于存储信息(如与聊天机器人性能或生成的模型有关的信息)以供服务器612在执行根据各种实施例的各种功能时使用的聊天机器人使用。数据储存库614、616可以驻留在各种位置中。例如,服务器612所使用的数据储存库可以在服务器612本地或者可以远离服务器612并经由基于网络的或专用的连接与服务器612通信。数据储存库614、616可以是不同类型。在某些示例中,服务器612所使用的数据储存库可以是数据库,例如,诸如由Oracle和其他供应商提供的数据库等关系数据库。这些数据库中的一个或多个数据库可以被适配成响应于SQL格式的命令来实现数据到数据库的存储、更新和取得以及来自数据库的数据的存储、更新和取得。
在某些示例中,数据储存库614、616中的一个或多个数据储存库还可以被应用程序用来存储应用程序数据。应用程序所使用的数据储存库可以是不同类型,例如键值存储储存库、对象存储储存库或由文件系统支持的通用存储储存库。
在某些示例中,本公开所描述的功能可以经由云环境作为服务提供。图7是根据某些示例的各种服务在其中可以作为云服务被提供的基于云的系统环境的简化框图。在图7所描绘的示例中,云基础设施系统702可以提供可以由用户使用一个或多个客户端计算设备704、706和708请求的一个或多个云服务。云基础设施系统702可以包括一个或多个计算机和/或服务器,该一个或多个计算机和/或服务器可以包括以上针对服务器612所描述的那些计算机和/或服务器。云基础设施系统702中的计算机可以被组织作为通用计算机、专用服务器计算机、服务器群、服务器集群或任何其他适当的布置和/或组合。
一个或多个网络710可以促进客户端704、706和708与云基础设施系统702之间的数据通信和交换。一个或多个网络710可以包括一个或多个网络。网络可以是相同或不同的类型。一个或多个网络710可以支持一个或多个通信协议(包括有线和/或无线协议)以促进通信。
图7所描绘的示例仅是云基础设施系统的一个示例并且不旨在是限制性的。应理解,在一些其他示例中,云基础设施系统702可以具有比图7中所描绘的那些部件更多或更少的部件、可以组合两个或更多个部件或者可以具有不同的部件配置或布置。例如,尽管图7描绘了三个客户端计算设备,但是在替代性示例中,可以支持任何数量的客户端计算设备。
术语云服务通常用于指代通过服务提供商的系统(例如,云基础设施系统702)按需且经由如因特网等通信网络变得可用于用户的服务。通常,在公共云环境中,构成云服务提供商的系统的服务器和系统与客户自身的预置服务器和系统不同。云服务提供商的系统由云服务提供商管理。因此,客户可以使自身利用由云服务提供商提供的云服务,而不必针对服务购买单独的许可证、支持或硬件和软件资源。例如,云服务提供商的系统可以托管应用程序,并且用户可以经由因特网按需订购并使用应用程序,而用户不必购买用于执行应用程序的基础设施资源。云服务被设计成提供对应用程序、资源和服务容易的、可伸缩的访问。多个提供商提供云服务。例如,由加利福尼亚州红木海岸(Redwood Shores,California)的Oracle提供如中间件服务、数据库服务、Java云服务以及其他服务等多种云服务。
在某些示例中,云基础设施系统702可以使用不同模型(如在软件即服务(SaaS)模型、平台即服务(PaaS)模型、基础设施即服务(IaaS)模型和其他模型(包括混合服务模型)下)提供一个或多个云服务。云基础设施系统702可以包括实现对各种云服务的供给的一套应用程序、中间件、数据库和其他资源。
SaaS模型使应用程序或软件能够作为服务通过如因特网等通信网络输送给客户,而客户不必购买针对底层应用程序的硬件或软件。例如,可以使用SaaS模型为客户提供对由云基础设施系统702托管的按需应用程序的访问。Oracle提供的SaaS服务的示例包括但不限于用于人力资源/资本管理、客户关系管理(CRM)、企业资源规划(ERP)、供应链管理(SCM)、企业绩效管理(EPM)、分析服务、社交应用程序等的各种服务。
IaaS模型通常用于将基础设施资源(例如,服务器、存储、硬件和联网资源)作为云服务提供给客户以提供弹性计算和存储能力。由Oracle提供各种IaaS服务。
PaaS模型通常用于提供使客户能够开发、运行并管理应用程序和服务而客户不必采购、构建或维护这种资源的平台和环境资源作为服务。由Oracle提供的PaaS服务的示例包括但不限于Oracle Java云服务(JCS)、Oracle数据库云服务(DBCS)、数据管理云服务、各种应用程序开发解决方案服务等。
云服务通常是以按需自助服务基础、基于订阅、可弹性伸缩、可靠、高度可用且安全的方式提供的。例如,客户可以经由订阅订单来订购由云基础设施系统702提供的一个或多个服务。然后,云基础设施系统702执行处理以提供客户的订阅订单中请求的服务。例如,用户可以使用话语来请求云基础设施系统采取如上文所描述的某个行动(例如,意图)和/或为如本文所描述的聊天机器人系统提供服务。云基础设施系统702可以被配置为提供一个或甚至多个云服务。
云基础设施系统702可以经由不同的部署模型提供云服务。在公共云模型中,云基础设施系统702可以由第三方云服务提供商拥有,并且云服务被提供给任何一般的公众客户,其中,该客户可以是个人或企业。在某些其他示例中,在私有云模型下,云基础设施系统702可以在组织内(例如,在企业组织内)操作并且服务被提供给组织内的客户。例如,客户可以是如人力资源部门、薪资部门等企业的各个部门或者甚至是企业内的个人。在某些其他示例中,在社区云模型下,云基础设施系统702和所提供的服务可以由有关社区中的多个组织共享。也可以使用各种其他模型,例如以上所提到的模型的混合。
客户端计算设备704、706和708可以是不同类型的(如图6中所描绘的客户端计算设备602、604、606和608)并且可以能够操作一个或多个客户端应用程序。用户可以使用客户端设备与云基础设施系统702交互,如请求由云基础设施系统702提供的服务。例如,用户可以使用客户端设备从如本公开所描述的聊天机器人请求信息或动作。
在一些示例中,由云基础设施系统702执行的用于提供服务的处理可以涉及模型训练和部署。此分析可以涉及使用、分析并操纵数据集来训练并部署一个或多个模型。该分析可以由一个或多个处理器执行,从而可能并行地处理数据、使用数据执行模拟等。例如,大数据分析可以由云基础设施系统702执行以用于针对聊天机器人系统生成并训练一个或多个模型。用于该分析的数据可以包括结构化数据(例如,存储在数据库中或根据结构化模型结构化的数据)和/或非结构化数据(例如,数据块(二进制大对象))。
如图7中的示例所描绘的,云基础设施系统702可以包括被用于促进供给由云基础设施系统702提供的各种云服务的基础设施资源730。基础设施资源730可以包括例如处理资源、存储或存储器资源、联网资源等。在某些示例中,可用于服务从应用程序请求的存储的存储虚拟机可以是云基础设施系统702的一部分。在其他示例中,存储虚拟机可以是不同系统的一部分。
在某些示例中,为了促进这些资源的高效供给以支持由云基础设施系统702为不同客户提供的各种云服务,可以将资源绑定到资源组或资源模块(也称为“群(pod)”)中。每个资源模块或群可以包括一种或多种类型的资源的预先集成且优化的组合。在某些示例中,可以针对不同类型的云服务预先供给不同的群。例如,可以针对数据库服务供给第一组群、可以针对Java服务供给第二组群(该第二组群可以包括与第一组群中的群不同的资源组合)等。对于一些服务,被分配用于供给服务的资源可以在服务之间共享。
云基础设施系统702自身可以在内部使用由云基础设施系统702的不同部件共享并且促进云基础设施系统702供给服务的服务732。这些内部共享服务可以包括但不限于安全和身份服务、整合服务、企业储存库服务、企业管理器服务、病毒扫描和白名单服务、高度可用性、备份和恢复服务、用于实现云支持的服务、电子邮件服务、通知服务、文件传送服务等。
云基础设施系统702可以包括多个子系统。这些子系统可以以软件或硬件或其组合实施。如图7所描绘的,子系统可以包括使得云基础设施系统702的用户或客户能够与云基础设施系统702交互的用户接口子系统712。用户接口子系统712可以包括各种不同的接口,如web接口714、在线商店接口716(其中,广告并且客户可购买由云基础设施系统702提供的云服务)和其他接口718。例如,客户可以使用客户端设备请求(服务请求734)由云基础设施系统702使用接口714、716和718中的一个或多个接口提供的一个或多个服务。例如,客户可以访问在线商店、浏览由云基础设施系统702提供的云服务并且针对由云基础设施系统702提供的、客户希望订阅的一个或多个服务下订阅订单。服务请求可以包括标识客户和客户期望订阅的一个或多个服务的信息。例如,客户可以针对由云基础设施系统702提供的服务下订阅订单。作为订单的一部分,客户可以提供识别要针对其提供服务的聊天机器人系统的信息并且可选地提供针对聊天机器人系统的一个或多个凭证。
在某些示例(如图7所描绘的示例)中,云基础设施系统702可以包括被配置成处理新订单的订单管理子系统(OMS)720。作为该处理的一部分,OMS 720可以被配置为:为客户创建账户(如果尚未创建的话);从客户接收要用于向客户开具账单的账单和/或计费信息以用于向客户提供所请求的服务;验证客户信息;在验证之后,为客户预订订单;并且策划各种工作流程来准备订单以进行供给。
一旦被正确地验证,那么,OMS 720就可以调用被配置成为订单供给资源(包括处理资源、存储器资源和联网资源)的订单供给子系统(OPS)724。供给可以包括为订单分配资源并配置资源以促进客户订单所请求的服务。为订单供给资源的方式和所供给的资源的类型可以取决于客户已经订购的云服务的类型。例如,根据一个工作流程,OPS 724可以被配置为确定正被请求的特定云服务并且识别可能已经为该特定云服务预先配置的群的数量。为订单分配的群的数量可以取决于所请求服务的大小/量/层级/范围。例如,可以基于服务所支持的用户的数量、正在请求的服务的持续时间等来确定要分配的群的数量。然后,可以为特定的请求客户定制分配的群以用于提供所请求服务。
在某些示例中,如上文所描述的设置阶段处理可以作为供给过程的一部分由云基础设施系统702来执行。云基础设施系统702可以生成应用程序ID并从云基础设施系统702自身提供的存储虚拟机中或从除云基础设施系统702以外的其他系统提供的存储虚拟机中为应用程序选择存储虚拟机。
云基础设施系统702可以向请求客户发送响应或通知744,以指示何时所请求服务现在已准备好使用。在一些实例中,可以向客户发送使客户能够开始使用和利用所请求服务的益处的信息(例如,链接)。在某些示例中,对于请求服务的客户,响应可以包括由云基础设施系统702生成的聊天机器人系统ID和识别由云基础设施系统702为对应于聊天机器人系统ID的聊天机器人系统选择的聊天机器人系统的信息。
云基础设施系统702可以向多个客户提供服务。对于每个客户,云基础设施系统702负责管理与从客户接收的一个或多个订阅订单有关的信息、维护与订单相关的客户数据并且向客户提供所请求服务。云基础设施系统702还可以收集关于客户使用所订阅服务的使用统计数据。例如,可以收集针对所使用的存储量、所传送的数据量、用户的数量以及系统开机时间量和系统停机时间量等的统计数据。可以使用该使用信息向客户开具账单。可以例如以月为周期完成开具账单。
云基础设施系统702可以并行地向多个客户提供服务。云基础设施系统702可以存储针对这些客户的信息(可能包括专有信息)。在某些示例中,云基础设施系统702包括被配置成管理客户信息并提供对所管理信息的分离使得与一个客户有关的信息不能被另一个客户访问的身份管理子系统(IMS)728。IMS 728可以被配置为提供如身份服务等各种安全有关服务,如信息访问管理、认证和授权服务、用于管理客户身份和角色以及相关功能的服务等。
图8图示了计算机系统800的示例。在一些示例中,计算机系统800可以用于实施分布式环境内的任何数字助理或聊天机器人系统以及上文所描述的各种服务器和计算机系统。如图8所示,计算机系统800包括各种子系统,该子系统包括经由总线子系统802与多个其他子系统通信的处理子系统804。这些其他子系统可以包括处理加速单元806、I/O子系统808、存储子系统818和通信子系统824。存储子系统818可以包括非暂态计算机可读存储介质,该非暂态计算机可读存储介质包括存储介质822和系统存储器810。
总线子系统802提供用于使计算机系统800的各个部件和子系统按预期彼此通信的机构。虽然总线子系统802被示意性地示出为单个总线,但是总线子系统的替代性示例可以利用多个总线。总线子系统802可以是包括存储器总线或存储器控制器、外围总线、使用各种总线架构中的任何一种的局部总线等的多种类型的总线结构中的任何一种。例如,这种架构可以包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围部件互连(PCI)总线(该PCI总线可以被实施为被制造成IEEE P1386.1标准的夹层(Mezzanine)总线)等。
处理子系统804控制计算机系统800的操作并且可以包括一个或多个处理器、专用集成电路(ASIC)或现场可编程门阵列(FPGA)。处理器可以包括单核处理器或多核处理器。计算机系统800的处理资源可以被组织成一个或多个处理单元832、834等。处理单元可以包括一个或多个处理器、来自相同或不同处理器的一个或多个核、核与处理器的组合或核与处理器的其他组合。在一些示例中,处理子系统804可以包括如图形处理器、数字信号处理器(DSP)等一个或多个专用协处理器。在一些示例中,处理子系统804的处理单元中的一些或全部可以使用如专用集成电路(ASIC)或现场可编程门阵列(FPGA)等定制电路来实施。
在一些示例中,处理子系统804中的处理单元可以执行存储在系统存储器810中或存储在计算机可读存储介质822上的指令。在各种示例中,处理单元可以执行各种程序或代码指令并且可以维护多个同时执行的程序或过程。在任何给定时间,要执行的程序代码中的一些或全部可以驻留在系统存储器810中和/或计算机可读存储介质822上(潜在地包括驻留在一个或多个存储设备上)。通过适合的编程,处理子系统804可以提供上文所描述的各种功能。在计算机系统800在执行一个或多个虚拟机的实例中,可以向每个虚拟机分配一个或多个处理单元。
在某些示例中,可以可选地提供处理加速单元806以用于执行定制处理或用于卸载处理子系统804所执行的处理中的一些处理,从而加速计算机系统800所执行的总体处理。
I/O子系统808可以包括用于向计算机系统800输入信息和/或用于从或经由计算机系统800输出信息的设备和机构。通常,使用术语输入设备旨在包括用于向计算机系统800输入信息的所有可能类型的设备和机构。用户接口输入设备可以包括例如键盘、如鼠标或轨迹球等指向设备、合并到显示器中的触摸板或触摸屏、滚轮、点击轮、拨号盘、按钮、开关、小键盘、具有话音命令识别系统的音频输入设备、麦克风以及其他类型的输入设备。用户接口输入设备还可以包括运动感测和/或姿势识别设备,如使得用户能够控制输入设备并与输入设备交互的Microsoft运动传感器、Microsoft/>360游戏控制器、提供用于使用姿势和口述命令接收输入的接口的设备。用户接口输入设备还可以包括眼部姿势识别设备,如检测来自用户的眼部活动(例如,在拍照和/或进行菜单选择时的“眨眼”)并将眼部姿势变换为到输入设备(如Google/>)的输入的Google/>眨眼检测器。另外,用户接口输入设备可以包括使得用户能够通过话音命令与话音识别系统(例如,/>导航器)交互的话音识别感测设备。
用户接口输入设备的其他示例包括但不限于三维(3D)鼠标、操纵杆或指向杆、游戏手柄和图形板、以及音频/视觉设备(如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像机、图像扫描仪、指纹扫描仪、条形码读取器3D扫描仪、3D打印机、激光测距仪、以及眼睛注视跟踪设备)。另外,用户接口输入设备可以包括例如医学成像输入设备,如计算机断层扫描、磁共振成像、正电子发射断层扫描和医学超声检查设备。用户接口输入设备还可以包括例如音频输入设备,如MIDI键盘、数码乐器等。
通常,使用术语输出设备旨在包括用于从计算机系统800向用户或其他计算机输出信息的所有可能类型的设备和机构。用户接口输出设备可以包括显示子系统、指示灯或如音频输出设备等非视觉显示器。显示子系统可以是阴极射线管(CRT)、平板设备(如使用液晶显示器(LCD)或等离子显示器的平板设备)、投影设备、触摸屏等。例如,用户接口输出设备可以包括但不限于在视觉上传达文本、图形和音频/视频信息的各种显示设备,如监视器、打印机、扬声器、头戴式耳机、汽车导航系统、绘图仪、话音输出设备和调制解调器。
存储子系统818提供用于存储计算机系统800使用的信息和数据的储存库或数据存储。存储子系统818提供用于存储提供一些示例的功能的基本编程和数据构造的有形非暂态计算机可读存储介质。存储子系统818可以存储当由处理子系统804执行时提供以上所描述的功能的软件(例如,程序、代码模块、指令)。软件可以由处理子系统804的一个或多个处理单元执行。存储子系统818还可以根据本公开的教导提供认证。
存储子系统818可以包括一个或多个非暂态存储器设备,该一个或多个非暂态存储器设备包括易失性存储器设备和非易失性存储器设备。如图8所示,存储子系统818包括系统存储器810和计算机可读存储介质822。系统存储器810可以包括多个存储器,该多个存储器包括用于在程序执行期间存储指令和数据的易失性主随机存取存储器(RAM)和其中存储有固定指令的非易失性只读存储器(ROM)或闪速存储器。在一些实施方式中,包含诸如在启动期间帮助在计算机系统800内的元件之间传送信息的基本例程的基本输入/输出系统(BIOS)通常可以存储在ROM中。RAM通常包含目前正由处理子系统804操作并执行的数据和/或程序模块。在一些实施方式中,系统存储器810可以包括如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)等多种不同类型的存储器。
通过示例而非限制的方式,如图8所描绘的,系统存储器810可以加载正在执行的应用程序812(该应用程序可以包括如Web浏览器、中间层应用程序、关系数据库管理系统(RDBMS)等各种应用程序)、程序数据814和操作系统816。通过示例的方式,操作系统816可以包括各种版本的MicrosoftApple/>和/或Linux操作系统、各种可商购获得的/>或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、GoogleOS等)和/或如iOS、/>电话、/>OS、/>OS、/>OS操作系统等移动操作系统等。
计算机可读存储介质822可以存储提供一些示例的功能的编程和数据构造。计算机可读介质822可以为计算机系统800提供对计算机可读指令、数据结构、程序模块和其他数据的存储。当由处理子系统804执行时提供以上所描述的功能的软件(程序、代码模块、指令)可以存储在存储子系统818中。通过示例的方式,计算机可读存储介质822可以包括如硬盘驱动器、磁盘驱动器、光盘驱动器(如CD ROM、DVD、盘或其他光学介质)等非易失性存储器。计算机可读存储介质822可以包括但不限于/>驱动器、闪速存储器卡、通用串行总线(USB)闪速存储器驱动器、安全数字(SD)卡、DVD盘、数字录像带等。计算机可读存储介质822还可以包括基于非易失性存储器的固态驱动器(SSD)(例如基于闪速存储器的SSD、企业级闪速存储器驱动器、固态ROM等)、基于如固态RAM、动态RAM、静态RAM等易失性存储器的SSD、基于DRAM的SSD、磁阻RAM(MRAM)SSD以及使用DRAM和基于闪速存储器的SSD的组合的混合SSD。
在某些示例中,存储子系统818还可以包括可以进一步连接到计算机可读存储介质822的计算机可读存储介质读取器820。读取器820可以从如盘、闪速存储器驱动器等存储器设备接收数据并且被配置为从该存储器设备读取数据。
在某些示例中,计算机系统800可以支持虚拟化技术,包括但不限于对处理和存储器资源的虚拟化。例如,计算机系统800可以提供对执行一个或多个虚拟机的支持。在某些示例中,计算机系统800可以执行如促进对虚拟机的配置和管理的管理程序等程序。每个虚拟机可以分配有存储器、计算(例如,处理器、核)、I/O和联网资源。每个虚拟机通常独立于其他虚拟机运行。虚拟机通常运行其自身的操作系统,该操作系统可以与由计算机系统800执行的其他虚拟机执行的操作系统相同或不同。因此,多个操作系统可以潜在地由计算机系统800同时运行。
通信子系统824提供到其他计算机系统和网络的接口。通信子系统824用作用于从其他系统接收数据并且从计算机系统800向其他系统传输数据的接口。例如,通信子系统824可以使得计算机系统800能够经由因特网构建到一个或多个客户端设备的通信通道以用于从客户端设备接收信息并向客户端设备发送信息。例如,当计算机系统800用于实施图1所描绘的机器人系统120时,通信子系统可以用于与针对应用程序选择的聊天机器人系统通信。
通信子系统824可以支持有线通信协议和/或无线通信协议两者。在某些示例中,通信子系统824可以包括用于访问无线声音和/或数据网络的射频(RF)收发器部件(例如,使用蜂窝电话技术、如3G、4G或EDGE(全球演进增强型数据速率)等先进的数据网络技术、Wi-Fi(IEEE 802.XX家庭标准)、或其他移动通信技术、或其任何组合)、全球定位系统(GPS)接收器部件和/或其他部件。在一些示例中,除了无线接口之外或替代无线接口,通信子系统824可以提供有线网络连接性(例如,以太网)。
通信子系统824可以接收并传输各种形式的数据。在一些示例中,除了其他形式之外,通信子系统824可以接收结构化和/或非结构化数据馈送826、事件流828、事件更新830等形式的输入通信。例如,通信子系统824可以被配置为从社交媒体网络和/或其他通信服务的用户实时地接收(或发送)数据馈送826,如馈送、/>更新、web馈送(如丰富站点摘要(RSS)馈送)和/或来自一个或多个第三方信息源的实时更新。
在某些示例中,通信子系统824可以被配置成接收连续数据流形式的数据,该连续数据流可以包括(可以没有显式结束的本质上连续的或无界的)实时事件的事件流828和/或事件更新830。生成连续数据的应用程序的示例可以包括例如传感器数据应用程序、财务收报机、网络性能测量工具(例如,网络监测和流量管理应用程序)、点击流分析工具、汽车交通监测等。
通信子系统824还可以被配置为将数据从计算机系统800传送到其他计算机系统或网络。可以将数据以如结构化和/或非结构化数据馈送826、事件流828、事件更新830等各种不同的形式传送到可以与耦接至计算机系统800的一个或多个流数据源计算机通信的一个或多个数据库。
计算机系统800可以是各种类型中的一种,包括手持便携式设备(例如,蜂窝电话、/>计算平板计算机、PDA)、可穿戴设备(例如,Google/>头戴式显示器)、个人计算机、工作站、主机、自助服务终端、服务器机架、或任何其他数据处理系统。由于计算机和网络的不断变化的性质,对图8所描绘的计算机系统800的描述旨在仅作为特定示例。具有比图8所描绘的系统更多或更少的部件的许多其他配置是可能的。基于本公开和本文所提供的教导,应理解,有其他方式和/或方法来实施各种示例。
虽然已经描述了特定示例,但是各种修改、更改、替代性构造和等同物是可能的。示例不局限于在某些特定数据处理环境内的操作,而是自由地在多个数据处理环境内操作。另外,尽管已经使用特定系列的事务和步骤描述了某些示例,但是对于本领域技术人员而言应当显而易见的是,这不旨在是限制性的。虽然一些流程图将操作描述为顺序过程,但是许多操作可以并行地或同时地执行。另外,可以重新布置操作的顺序。过程可以具有图中未包括的另外的步骤。可以单独地或联合地使用上文所描述的示例的各种特征和方面。
进一步地,虽然已经使用硬件和软件的特定组合描述了某些示例,但是应当认识到,硬件和软件的其他组合也是可能的。某些示例可以仅以硬件或仅以软件或使用其组合实施。本文所描述的各种过程可以在相同处理器或不同处理器上以任何组合实施。
在将设备、系统、部件或模块描述为被配置成执行某些操作或功能的情况下,这种配置可以例如通过将电子电路设计成执行操作、通过对可编程电子电路(如微处理器)进行编程以执行操作(例如通过执行计算机指令或代码)或通过被编程为执行存储在非暂态存储器介质上的代码或指令的处理器或核或其任何组合来完成。过程可以使用包括但不限于用于过程间通信的传统技术的各种技术进行通信,并且不同的过程对可以使用不同的技术,或者相同的过程对可以在不同的时间使用不同的技术。
本公开中给出了具体细节以提供对示例的透彻理解。然而,可以在没有这些具体细节的情况下实践示例。例如,已经示出了公知的电路、过程、算法、结构和技术,而没有不必要的细节,以避免模糊示例。此描述仅提供了示例性示例并且不旨在限制其他示例的范围、适用性或配置。而是,先前对示例的描述将为本领域技术人员提供用于实施各种示例的使能描述。可以对元件的功能和布置作出各种改变。
因此,应当从说明性而非限制性意义上看待本说明书和附图。然而,将明显的是,在不脱离权利要求中阐述的更广泛的精神和范围的情况下,可以对其作出添加、减少、删除以及其他修改和改变。因此,虽然已经描述了具体示例,但是这些示例不旨在是限制性的。各种修改和等同物均在所附权利要求的范围内。
在前述说明书中,参考本公开的具体示例描述了本公开的各方面,但是本领域技术人员将认识到,本公开并不限于此。可以单独地或联合地使用上文所描述的公开的各种特征和方面。进一步地,在不脱离说明书的更广泛的精神和范围的情况下,可以在本文所描述的那些环境和应用程序之外的任何数量的环境和应用环境中利用示例。因此,说明书和附图被视为是说明性的而非限制性的。
在前述描述中,出于说明的目的,以特定顺序描述了方法。应当理解,在替代性示例中,可以以与所描述的顺序不同的顺序来执行方法。还应当理解,上文所描述的方法可以由硬件部件执行或者可以体现在机器可执行指令的序列中,该机器可执行指令可以用于使机器(例如,利用指令编程的通用或专用处理器或逻辑电路)执行该方法。这些机器可执行指令可以存储在一个或多个机器可读介质(例如CD-ROM或其他类型的光盘、软盘、ROM、RAM、EPROM、EEPROM、磁卡或光卡、闪速存储器或适合于存储电子指令的其他类型的机器可读介质)上。可替代地,方法可以由硬件和软件的组合来执行。
在将部件描述为被配置成执行某些操作的情况下,这种配置可以例如通过设计用于执行该操作的电子电路或其他硬件、通过对用于执行该操作的可编程电子电路(例如,微处理器或其他适合的电子电路)进行编程或其任何组合来完成。
尽管本文已经详细描述了本申请的说明性示例,但是应当理解,可以以其他方式不同地体现并采用本发明概念,并且所附权利要求旨在被解释为包括这种变化,受现有技术限制的情况除外。
Claims (20)
1.一种方法,包括:
在包括处理器的聊天机器人系统处接收包括一个或多个词的至少一个话语;
由所述聊天机器人系统的基于transformer的模型生成针对所述至少一个话语的所述一个或多个词的多个嵌入;
由所述聊天机器人系统的第一向量化器生成针对所述至少一个话语的至少一个正则表达式和地名词典特征向量;
由所述聊天机器人系统的第二向量化器生成针对所述至少一个话语的至少一个上下文标签分布特征向量;
将所述多个嵌入与所述至少一个正则表达式和地名词典特征向量以及所述至少一个上下文标签分布特征向量进行串连或插值以生成第一组特征向量;
由所述聊天机器人系统的主序列模型基于所述第一组特征向量生成所述至少一个话语的编码形式;
由所述聊天机器人系统的判别模型基于所述至少一个话语的所述编码形式生成候选实体的多个对数概率;以及
使用所述多个对数概率基于所述候选实体来识别针对所述至少一个话语的一个或多个约束。
2.如权利要求1所述的方法,其中,所述至少一个话语包括以下中的至少一项:所述聊天机器人系统的一个或多个查询、由用户输入到所述聊天机器人系统的一个或多个查询、由所述用户响应于所述聊天机器人系统的所述一个或多个查询而提供的一个或多个响应、或其组合。
3.如权利要求1所述的方法,其中,所述聊天机器人系统的所述基于transformer的模型包括transformer的双向编码器表示模型。
4.如权利要求1所述的方法,其中,所述第一向量化器基于一个或多个正则表达式模式和一个或多个地名词典来生成所述至少一个正则表达式和地名词典特征向量。
5.如权利要求1所述的方法,其中,所述第二向量化器基于以下中的至少一项的上下文来生成所述至少一个上下文标签分布特征向量:所述聊天机器人系统的一个或多个查询、由用户输入到所述聊天机器人系统的一个或多个查询、由所述用户响应于所述聊天机器人系统的所述一个或多个查询而提供的一个或多个响应、或其组合。
6.如权利要求1所述的方法,其中,所述聊天机器人系统的所述主序列模型包括组合的卷积神经网络/双向长短期记忆模型。
7.如权利要求1所述的方法,其中,所述聊天机器人系统的所述判别模型包括条件随机场模型。
8.一种聊天机器人系统,包括:
一个或多个处理器;以及
耦接至所述一个或多个处理器的存储器,所述存储器存储有能够由所述一个或多个处理器执行的多个指令,所述多个指令包括当由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令:
在所述聊天机器人系统处接收包括一个或多个词的至少一个话语;
利用基于transformer的模型生成针对所述至少一个话语的所述一个或多个词的多个嵌入;
利用第一向量化器生成针对所述至少一个话语的至少一个正则表达式和地名词典特征向量;
利用第二向量化器生成针对所述至少一个话语的至少一个上下文标签分布特征向量;
将所述多个嵌入与所述至少一个正则表达式和地名词典特征向量以及所述至少一个上下文标签分布特征向量进行串连或插值以生成第一组特征向量;
利用主序列模型基于所述第一组特征向量生成所述至少一个话语的编码形式;
利用判别模型基于所述至少一个话语的所述编码形式生成候选实体的多个对数概率;以及
使用所述多个对数概率基于所述候选实体来识别针对所述至少一个话语的一个或多个约束。
9.如权利要求8所述的聊天机器人系统,其中,所述至少一个话语包括以下中的至少一项:所述聊天机器人系统的一个或多个查询、由用户输入到所述聊天机器人系统的一个或多个查询、由所述用户响应于所述聊天机器人系统的所述一个或多个查询而提供的一个或多个响应、或其组合。
10.如权利要求8所述的聊天机器人系统,其中,所述基于transformer的模型包括transformer的双向编码器表示模型。
11.如权利要求8所述的聊天机器人系统,其中,所述第一向量化器基于一个或多个正则表达式模式和一个或多个地名词典来生成所述至少一个正则表达式和地名词典特征向量。
12.如权利要求8所述的聊天机器人系统,其中,所述第二向量化器基于以下中的至少一项的上下文来生成所述至少一个上下文标签分布特征向量:所述聊天机器人系统的一个或多个查询、由用户输入到所述聊天机器人系统的一个或多个查询、由所述用户响应于所述聊天机器人系统的所述一个或多个查询而提供的一个或多个响应、或其组合。
13.如权利要求8所述的聊天机器人系统,其中,所述主序列模型包括组合的卷积神经网络/双向长短期记忆模型。
14.如权利要求8所述的聊天机器人系统,其中,所述判别模型包括条件随机场模型。
15.一种非暂态计算机可读存储器,所述非暂态计算机可读存储器存储有能够由一个或多个处理器执行的多个指令,所述多个指令包括当由所述一个或多个处理器执行时使所述一个或多个处理器执行以下操作的指令:
在聊天机器人系统处接收包括一个或多个词的至少一个话语;
利用所述聊天机器人系统的基于transformer的模型生成针对所述至少一个话语的所述一个或多个词的多个嵌入;
利用所述聊天机器人系统的第一向量化器生成针对所述至少一个话语的至少一个正则表达式和地名词典特征向量;
利用所述聊天机器人系统的第二向量化器输出针对所述至少一个话语的至少一个上下文标签分布特征向量;
将所述多个嵌入与所述至少一个正则表达式和地名词典特征向量以及所述至少一个上下文标签分布特征向量进行串连或插值以生成第一组特征向量;
利用所述聊天机器人系统的主序列模型基于所述第一组特征向量生成所述至少一个话语的编码形式;
利用所述聊天机器人系统的判别模型基于所述至少一个话语的所述编码形式生成候选实体的多个对数概率;以及
使用所述多个对数概率基于所述候选实体来识别针对所述至少一个话语的一个或多个约束。
16.如权利要求15所述的非暂态计算机可读存储器,其中,所述聊天机器人系统的所述基于transformer的模型包括transformer的双向编码器表示模型。
17.如权利要求15所述的非暂态计算机可读存储器,其中,所述聊天机器人系统的所述第一向量化器基于一个或多个正则表达式模式和一个或多个地名词典来生成所述至少一个正则表达式和地名词典特征向量。
18.如权利要求15所述的非暂态计算机可读存储器,其中,所述聊天机器人系统的所述第二向量化器基于以下中的至少一项的上下文来生成所述至少一个上下文标签分布特征向量:所述聊天机器人系统的一个或多个查询、由用户输入到所述聊天机器人系统的一个或多个查询、由所述用户响应于所述聊天机器人系统的所述一个或多个查询而提供的一个或多个响应、或其组合。
19.如权利要求15所述的非暂态计算机可读存储器,其中,所述聊天机器人系统的所述主序列模型包括组合的卷积神经网络/双向长短期记忆模型。
20.如权利要求15所述的非暂态计算机可读存储器,其中,所述聊天机器人系统的所述判别模型包括条件随机场模型。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163139569P | 2021-01-20 | 2021-01-20 | |
US63/139,569 | 2021-01-20 | ||
PCT/US2022/012972 WO2022159485A1 (en) | 2021-01-20 | 2022-01-19 | Context tag integration with named entity recognition models |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116724305A true CN116724305A (zh) | 2023-09-08 |
Family
ID=82406295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280010945.4A Pending CN116724305A (zh) | 2021-01-20 | 2022-01-19 | 上下文标签与命名实体识别模型的集成 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11868727B2 (zh) |
JP (1) | JP2024503518A (zh) |
CN (1) | CN116724305A (zh) |
WO (1) | WO2022159485A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298043B (zh) * | 2019-07-03 | 2023-04-07 | 吉林大学 | 一种车辆命名实体识别方法及系统 |
US11868727B2 (en) * | 2021-01-20 | 2024-01-09 | Oracle International Corporation | Context tag integration with named entity recognition models |
US20220277142A1 (en) * | 2021-02-27 | 2022-09-01 | Walmart Apollo, Llc | Methods and apparatus for natural language understanding in conversational systems using machine learning processes |
US11875128B2 (en) * | 2021-06-28 | 2024-01-16 | Ada Support Inc. | Method and system for generating an intent classifier |
US20230161962A1 (en) * | 2021-11-23 | 2023-05-25 | Microsoft Technology Licensing, Llc | System for automatically augmenting a message based on context extracted from the message |
US20230367961A1 (en) * | 2022-05-12 | 2023-11-16 | Dell Products L.P. | Automated address data determinations using artificial intelligence techniques |
CN115129826B (zh) * | 2022-09-01 | 2022-11-22 | 国网智能电网研究院有限公司 | 电力领域模型预训练方法、精调方法、装置及设备 |
WO2024067981A1 (en) * | 2022-09-29 | 2024-04-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Dialog system and method with improved human-machine dialog concepts |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2011037A1 (en) * | 2006-04-11 | 2009-01-07 | ITI Scotland Limited | Information extraction methods and apparatus including a computer-user interface |
US20080281827A1 (en) * | 2007-05-10 | 2008-11-13 | Microsoft Corporation | Using structured database for webpage information extraction |
EP2210192A1 (en) * | 2007-10-10 | 2010-07-28 | ITI Scotland Limited | Information extraction apparatus and methods |
EP2218023A2 (en) * | 2007-10-17 | 2010-08-18 | ITI Scotland Limited | Computer-implemented methods |
US9501467B2 (en) * | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
JP2011513810A (ja) * | 2008-02-20 | 2011-04-28 | アイティーアイ・スコットランド・リミテッド | 用語識別方法および装置 |
US20090249182A1 (en) * | 2008-03-31 | 2009-10-01 | Iti Scotland Limited | Named entity recognition methods and apparatus |
SG174588A1 (en) * | 2009-03-27 | 2011-10-28 | Agency Science Tech & Res | A method of obtaining a correspondence between a protein and a set of instances of mutations of the protein |
CA2760260A1 (en) * | 2010-12-03 | 2012-06-03 | Innovatia Inc. | Method for population of object property assertions |
US9152623B2 (en) * | 2012-11-02 | 2015-10-06 | Fido Labs, Inc. | Natural language processing system and method |
US10224030B1 (en) * | 2013-03-14 | 2019-03-05 | Amazon Technologies, Inc. | Dynamic gazetteers for personalized entity recognition |
US10223445B2 (en) * | 2013-09-19 | 2019-03-05 | Maluuba Inc. | Hybrid natural language processor |
US10529031B2 (en) * | 2014-09-25 | 2020-01-07 | Sai Suresh Ganesamoorthi | Method and systems of implementing a ranked health-content article feed |
US10304444B2 (en) * | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
US10769387B2 (en) * | 2017-09-21 | 2020-09-08 | Mz Ip Holdings, Llc | System and method for translating chat messages |
US11086913B2 (en) * | 2018-01-02 | 2021-08-10 | Freshworks Inc. | Named entity recognition from short unstructured text |
US11194842B2 (en) * | 2018-01-18 | 2021-12-07 | Samsung Electronics Company, Ltd. | Methods and systems for interacting with mobile device |
US10540446B2 (en) * | 2018-01-31 | 2020-01-21 | Jungle Disk, L.L.C. | Natural language generation using pinned text and multiple discriminators |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
US10860629B1 (en) * | 2018-04-02 | 2020-12-08 | Amazon Technologies, Inc. | Task-oriented dialog systems utilizing combined supervised and reinforcement learning |
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
US20210064821A1 (en) * | 2019-08-27 | 2021-03-04 | Ushur, Inc. | System and method to extract customized information in natural language text |
US11868727B2 (en) * | 2021-01-20 | 2024-01-09 | Oracle International Corporation | Context tag integration with named entity recognition models |
US20230205999A1 (en) * | 2021-12-23 | 2023-06-29 | Oracle International Corporation | Gazetteer integration for neural named entity recognition |
-
2022
- 2022-01-19 US US17/648,376 patent/US11868727B2/en active Active
- 2022-01-19 JP JP2023543401A patent/JP2024503518A/ja active Pending
- 2022-01-19 CN CN202280010945.4A patent/CN116724305A/zh active Pending
- 2022-01-19 WO PCT/US2022/012972 patent/WO2022159485A1/en active Application Filing
-
2023
- 2023-11-28 US US18/521,805 patent/US20240095454A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2024503518A (ja) | 2024-01-25 |
WO2022159485A1 (en) | 2022-07-28 |
US20240095454A1 (en) | 2024-03-21 |
US11868727B2 (en) | 2024-01-09 |
US20220229993A1 (en) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11763092B2 (en) | Techniques for out-of-domain (OOD) detection | |
CN114424185A (zh) | 用于自然语言处理的停用词数据扩充 | |
US11868727B2 (en) | Context tag integration with named entity recognition models | |
CN112487157A (zh) | 用于聊天机器人的基于模板的意图分类 | |
JP2023530423A (ja) | 堅牢な固有表現認識のためのチャットボットにおけるエンティティレベルデータ拡張 | |
CN115398436A (zh) | 用于自然语言处理的噪声数据扩充 | |
US20220230000A1 (en) | Multi-factor modelling for natural language processing | |
US20230100508A1 (en) | Fusion of word embeddings and word scores for text classification | |
CN116583837A (zh) | 用于自然语言处理的基于距离的logit值 | |
CN116635862A (zh) | 用于自然语言处理的域外数据扩充 | |
CN116615727A (zh) | 用于自然语言处理的关键词数据扩充工具 | |
US20230205999A1 (en) | Gazetteer integration for neural named entity recognition | |
CN116547676A (zh) | 用于自然语言处理的增强型logit | |
CN116490879A (zh) | 用于神经网络中过度预测的方法和系统 | |
CN116235164A (zh) | 聊天机器人的范围外自动转变 | |
US20230376700A1 (en) | Training data generation to facilitate fine-tuning embedding models | |
US20230153688A1 (en) | Data augmentation and batch balancing methods to enhance negation and fairness | |
US20220229991A1 (en) | Multi-feature balancing for natural language processors | |
US20240062112A1 (en) | Adaptive training data augmentation to facilitate training named entity recognition models | |
US20230153687A1 (en) | Named entity bias detection and mitigation techniques for sentence sentiment analysis | |
US20240061832A1 (en) | Techniques for converting a natural language utterance to an intermediate database query representation | |
US20240061834A1 (en) | Detecting out-of-domain, out-of-scope, and confusion-span (oocs) input for a natural language to logical form model | |
US20230325599A1 (en) | Training data augmentation using gazetteers and perturbations to facilitate training named entity recognition models | |
US20240062108A1 (en) | Techniques for training and deploying a named entity recognition model | |
US20230161963A1 (en) | System and techniques for handling long text for pre-trained language models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |