CN116324792A

CN116324792A - 与通过从自然语言会话挖掘意图来进行机器人创作相关的系统和方法

Info

Publication number: CN116324792A
Application number: CN202180065819.4A
Authority: CN
Inventors: B·乔治; R·桑达拉姆
Original assignee: Guinness Cloud Services Ltd
Current assignee: Guinness Cloud Services Ltd
Priority date: 2020-09-25
Filing date: 2021-09-27
Publication date: 2023-06-23
Also published as: WO2022067149A1; EP4217908A1; US20220101838A1; CA3193583A1; AU2021350115A1; EP4217907A1; US20220101839A1; WO2022067148A1; US11514897B2; US11798539B2; JP2023543032A; CA3193586A1; CN116235177A; AU2021347371A1; JP2023545947A

Abstract

本发明公开了一种用于意图挖掘的方法，该方法包括：接收会话数据；使用意图挖掘算法来从该会话数据自动挖掘意图；以及将所挖掘的意图上传到会话机器人中。该意图挖掘算法可包括：分析该会话数据的话语以识别带有意图的话语；分析所识别的带有意图的话语以识别候选意图；从这些候选意图中选择显著意图；根据语义相似度将所选择的显著意图分组为显著意图组；对于显著意图组中的每个显著意图组，选择这些显著意图中的一个显著意图作为意图标记以及指定其他显著意图作为意图替代；以及经由确定存在于这些带有意图的话语中的这些候选意图与每个组内的这些意图替代之间的语义相似度来将这些带有意图的话语与这些显著意图组相关联。

Description

与通过从自然语言会话挖掘意图来进行机器人创作相关的系统和方法

相关专利申请的交叉引用

本申请要求2020年9月25日在美国专利商标局提交的名称为“SYSTEMS ANDMETHODS RELATING TO BOT AUTHORING AND/OR AUTOMATING THE MINING OF INTENTSFROM NATURAL LANGUAGE CONVERSATIONS”的美国临时专利申请号63/083,561的权益，该专利申请被转换成2021年3月31日提交的名称为“SYSTEMS AND METHODS RELATING TO BOTAUTHORING BY MINING INTENTS FROM NATURAL LANGUAGE CONVERSATIONS”的未决美国专利申请17/218426。

背景技术

本发明整体涉及客户关系管理领域的电信系统，包括经由基于互联网的服务选项的客户协助。更具体地，但不作为限制，本发明涉及用于自动化机器人创作工作流和/或实现用于从自然语言会话数据挖掘意图和相关联话语的意图挖掘过程的系统和方法。

发明内容

本发明包括用于创作会话机器人的计算机实现的方法，并且提供了意图挖掘。该方法可包括：接收会话数据，其中该会话数据包括从客户与客户服务代表之间的会话导出的文本；使用意图挖掘算法来从会话数据自动挖掘意图，所挖掘的意图中的每个所挖掘的意图包括意图标记、意图替代和相关联话语；以及将所挖掘的意图上传到会话机器人中，并使用会话机器人来与其他客户进行自动会话。该意图挖掘算法可包括：分析在会话数据的会话内出现的话语以识别带有意图的话语，其中这些话语各自包括会话内的回合，由此客户以客户话语的形式或客户服务代表以客户服务代表话语的形式正在进行通信，并且带有意图的话语被定义为话语中被确定有更大可能表达意图的话语；分析所识别的带有意图的话语以识别候选意图，其中这些候选意图各自被识别为在带有意图的话语中的一句带有意图的话语内出现的文本短语，该文本短语具有两个部分：动作和对象，该动作可包括描述目的或任务的字词或短语，该对象可包括描述动作所作用的对象或事物的字词或短语；根据一个或多个标准从候选意图中选择显著意图；根据显著意图之间的语义相似度，将所选择的显著意图分组为显著意图组；对于显著意图组中的每个显著意图组，选择显著意图中的一个显著意图作为意图标记以及指定显著意图中的其他显著意图作为意图替代；以及经由确定存在于带有意图的话语中的候选意图与显著意图组中的每个显著意图组内的意图替代之间的语义相似度来将带有意图的话语与显著意图组相关联。

当结合附图和所附权利要求书阅读示例性实施方案的以下详细描述时，本申请的这些和其他特征将变得更加显而易见。

附图说明

当结合附图考虑，通过参考以下详细描述而更好地理解本发明时，本发明的更完整的认识将变得更加显而易见，其中类似的参考符号指示类似的部件，在附图中：

图1示出了根据本发明的示例性实施方案和/或利用其可启用或实践本发明的示例性实施方案的计算设备的示意性框图；

图2示出了根据本发明的示例性实施方案和/或可利用其启用或实践本发明的示例性实施方案的通信基础结构或联络中心的示意性框图；

图3是示出根据本发明的实施方案的作为聊天系统的一部分操作的聊天服务器的进一步细节的示意性框图；

图4是根据本发明的实施方案的聊天模块的示意性框图；

图5是根据本发明的实施方案的示例性客户聊天界面；

图6是根据本发明的实施方案的客户自动化系统的框图；

图7是根据本发明的实施方案的用于代表客户将交互自动化的方法的流程图；

图8是用于创作会话机器人的工作流；

图9是根据本发明的意图挖掘的示例性流程图；并且

图10是根据本发明的经由播种意图进行意图挖掘的示例性流程图。

具体实施方式

为了促进理解本发明原理的目的，现在将参考附图中示出的示例性实施方案，并且将使用特定语言来描述这些实施方案。然而，对于本领域的普通技术人员将显而易见的是，在示例中提供的详细材料可能不是实践本发明所必需的。在其他情况下，为了避免混淆本发明，未详细描述众所周知的材料或方法。另外，如本领域的技术人员通常会想到的，如本文中所呈现的，可以设想所提供的示例中的进一步修改或本发明原理的应用。

如本文所用，指定非限制性示例和说明的语言包括“例如(e.g./for example/forinstance)”、“即”等。此外，本说明书通篇提及的“实施方案”、“一个实施方案”、“本发明的实施方案”、“示例性实施方案”、“某些实施方案”等意指结合给定示例所述的特定特征、结构或特性可包括在本发明的至少一个实施方案中。因此，短语“实施方案”、“一个实施方案”、“本发明的实施方案”、“示例性实施方案”、“某些实施方案”等的出现不一定是指同一实施方案或示例。此外，在一个或多个实施方案或示例中，特定特征、结构或特性可以任何合适的组合和/或子组合进行组合。

本领域技术人员将从本公开认识到，各种实施方案可以是使用许多不同类型的数据处理设备来实现的计算机，其中实施方案被实现为装置、方法或计算机程序产品。因此，示例性实施方案可采用完全硬件实施方案、完全软件实施方案或结合了软件和硬件方面的实施方案的形式。示例性实施方案还可以采用由任何有形表达介质中的计算机可用程序代码体现的计算机程序产品的形式。在每种情况下，示例性实施方案一般可被称为“模块”、“系统”或“方法”。

附图中提供的流程图和框图示出了根据本发明的示例性实施方案的系统、方法和计算机程序产品的可能具体实施的架构、功能和操作。就这一点而言，应当理解，流程图和/或框图中的每个框或这些框的组合可表示具有用于实现指定逻辑功能的一个或多个可执行指令的程序代码的模块、段或部分。类似地，应当理解，流程图和/或框图中的每个框或这些框的组合可以由基于专用硬件的系统或专用硬件与执行指定动作或功能的计算机指令的组合来实现。此类计算机程序指令也可存储在计算机可读介质中，该计算机可读介质可指示计算机或其他可编程数据处理装置以特定方式运行，使得计算机可读介质中的程序指令产生包括指令的制品，该指令实现流程图和/或框图中的每个框或这些框的组合中指定的功能或动作。

计算设备

应当理解，本发明的系统和方法可以是使用执行适当软件程序的许多不同形式的数据处理设备(例如，数字微处理器和相关联的存储器)来实现的计算机。考虑到背景因素，图1示出了根据本发明的实施方案和/或利用其可启用或实践那些实施方案的示例性计算设备100的示意性框图。应当理解，图1作为非限制性示例提供。

计算设备100例如可经由固件(例如，专用集成电路)、硬件或者软件、固件与硬件的组合来实现。应当理解，下图中的服务器、控制器、交换机、网关、引擎和/或模块(其可统称为服务器或模块)中的每一者可经由计算设备100中的一者或多者来实现。例如，各种服务器可以是在一个或多个计算设备100的一个或多个处理器上运行的进程，该进程可执行计算机程序指令并与其他系统或模块进行交互以便执行本文所述的各种功能。除非另有明确限制，否则关于多个计算设备描述的功能可集成到单个计算设备中，或者关于单个计算设备描述的各种功能可分布在若干计算设备上。此外，关于下图所述的计算系统诸如例如图2的联络中心系统200、各种服务器及其计算机设备可位于本地计算设备100上(即，现场或在与联络中心座席相同的物理位置处)、远程计算设备100上(即，场外或在云计算环境中，例如，在经由网络连接到联络中心的远程数据中心中)或它们的某种组合。由位于场外的计算设备上的服务器提供的功能可通过虚拟专用网络(VPN)来访问和提供，就像此类服务器在现场一样，或者可使用软件即服务(SaaS)(其使用各种协议通过互联网来访问)来提供功能，诸如通过经由可扩展标记语言(XML)、JSON等来交换数据。

如例示的示例所示，计算设备100可包括中央处理单元(CPU)或处理器105和主存储器110。计算设备100还可包括存储设备115、可移除媒体接口120、网络接口125、I/O控制器130和一个或多个输入/输出(I/O)设备135，如图所示，其可包括显示设备135A、键盘135B和指向设备135C。计算设备100还可包括另外的元件，诸如存储器端口140、桥接器145、I/O端口、一个或多个另外的输入/输出设备135D、135E、135F以及与处理器105通信的高速缓存存储器150。

处理器105可以是响应并处理从主存储器110获取的指令的任何逻辑电路。例如，过程105可由集成电路(例如，微处理器、微控制器或图形处理单元)实现或在现场可编程门阵列或专用集成电路中实现。如图所示，处理器105可经由辅助总线或背面总线与高速缓存存储器150直接通信。高速缓存存储器150通常具有比主存储器110更快的响应时间。主存储器110可以是能够存储数据并允许中央处理单元105直接访问存储数据的一个或多个存储器芯片。存储设备115可以为控制调度任务和控制对系统资源的访问的操作系统以及其他软件提供存储。除非另有限制，否则计算设备100可包括能够执行本文描述的功能的操作系统和软件。

如所示示例中所描绘的，计算设备100可包括各种I/O设备135，其中的一个或多个I/O设备可经由I/O控制器130连接。输入设备例如可包括键盘135B和指向设备135C，例如鼠标或光电笔。例如，输出设备可包括视频显示设备、扬声器和打印机。I/O设备135和/或I/O控制器130可包括用于启用多个显示设备的合适的硬件和/或软件。计算设备100还可支持一个或多个可移除媒体接口120，诸如磁盘驱动器、USB端口或适用于从计算机可读介质读取数据或将数据写入计算机可读介质的任何其他设备。更一般地，I/O设备135可包括用于执行本文描述的功能的任何常规设备。

计算设备100可以是任何工作站、台式计算机、膝上型计算机或笔记本计算机、服务器机器、虚拟化机器、移动或智能电话、便携式电信设备、媒体播放设备、游戏系统、移动计算设备，或能够(但不限于)执行本文所述的操作的任何其他类型的计算、电信或媒体设备。计算设备100包括由网络连接或经由网络连接到其他系统和资源的多个设备。如本文所用，网络包括一个或多个计算设备、机器、客户端、客户端节点、客户端机器、客户端计算机、客户端设备、端点或端点节点，其与一个或多个其他计算设备、机器、客户端、客户端节点、客户端机器、客户端计算机、客户端设备、端点或端点节点通信。例如，网络可以是专用或公共交换电话网络(PSTN)、无线运营商网络、局域网(LAN)、专用广域网(WAN)、公共WAN诸如因特网等，其中使用适当的通信协议来建立连接。更一般地，应当理解，除非另外限制，计算设备100可使用任何常规通信协议经由任何类型的网络与其他计算设备100通信。此外，网络可以是虚拟网络环境，其中各种网络部件均被虚拟化。例如，各种机器可以是被实现为在物理机器上运行的基于软件的计算机的虚拟机，或者可使用“管理程序”类型的虚拟化，其中多个虚拟机在同一主机物理机上运行。也可设想其他类型的虚拟化。

联络中心

现在参考图2，示出了根据本发明的示例性实施方案和/或利用其可启用或实践本发明的示例性实施方案的通信基础结构或联络中心系统200。应当理解，术语“联络中心系统”在本文用来指图2所示的系统和/或其部件，而术语“联络中心”更一般地用来指联络中心系统、操作那些系统的客户服务提供商和/或与其相关联的组织或企业。因此，除非另有明确限制，否则术语“联络中心”一般是指联络中心系统(诸如联络中心系统200)，相关联的客户服务提供商(诸如通过联络中心系统200提供客户服务的特定客户服务提供商)以及代表其提供那些客户服务的组织或企业。

就后台而言，客户服务提供商一般通过联络中心提供多种类型的服务。此类联络中心可配备员工或客户服务座席(或简称为“座席”)，其中座席充当公司、企业、政府机构或组织(在下文可互换地称为“组织”或“企业”)与个人诸如用户、个体或客户(在下文可互换地称为“个体”或“客户”)之间的中介。例如，联络中心处的座席可协助客户作出购买决定、接收订单，或者解决已接收到的产品或服务的问题。在联络中心内，联络中心座席与外部实体或客户之间的此类交互可在各种通信渠道上进行，诸如例如经由语音(例如，电话呼叫或IP语音或VoIP呼叫)、视频(例如，视频会议)、文本(例如，电子邮件和文本聊天)、屏幕共享、共同浏览等进行。

在操作上，联络中心一般努力为客户提供高质量的服务，同时使成本最小化。例如，联络中心操作的一种方式是处理每个客户与实时座席的交互。虽然这种方法在服务质量方面可能评分良好，但由于座席劳动力的成本高，它也可能也会非常昂贵。因此，大多数联络中心利用某种程度的自动化过程来代替实时座席，诸如例如交互式语音应答(IVR)系统、交互式媒体应答(IMR)系统、互联网机器人或“机器人”、自动聊天模块或“聊天机器人”等。在许多情况下，这已被证明是一种成功的策略，因为自动化过程可非常高效地处理某些类型的交互，并有效地减少对实时座席的需求。此类自动化允许联络中心针对更困难的客户交互使用人工座席，而自动化过程处理更重复或例行的任务。此外，可以优化效率并促进可重复性的方式构建自动化过程。虽然人工座席或实时座席可能忘记询问某些问题或跟进特定细节，但通常可通过使用自动化过程来避免此类错误。虽然客户服务提供商越来越依赖于自动化过程来与客户进行交互，但客户对此类技术的使用仍然少得多。因此，虽然IVR系统、IMR系统和/或机器人用于在交互的联络中心侧自动执行部分交互，但客户侧的动作仍由客户手动执行。

具体参考图2，客户服务提供商可使用联络中心系统200来向客户提供各种类型的服务。例如，联络中心系统200可用于参与和管理自动化过程(或机器人)或人工座席与客户通信的交互。应当理解，联络中心系统200可以是业务或企业的内部设施，用于相对于通过企业可用的产品和服务执行销售和客户服务的功能。在另一方面，联络中心系统200可由签约为另一组织提供服务的第三方服务提供商操作。此外，联络中心系统200可被部署在专用于企业或第三方服务提供方的装备上，和/或部署在远程计算环境中，诸如例如具有用于为多个企业支持多个联络中心的基础结构的私有或公共云环境。联络中心系统200可包括软件应用程序或程序，其可在现场或在远程或以它们的某种组合执行。还应当理解，联络中心系统200的各种部件可分布在各种地理位置上，并且不一定包含在单个位置或计算环境中。

还应当理解，除非另有明确限制，否则本发明的计算元件中的任一个计算元件也可在基于云的或云计算环境中实现。如本文所用，“云计算”(或简称“云”)被定义为一种模型，用于实现对可配置计算资源(例如，网络、服务器、存储装置、应用程序和服务)的共享池的无处不在、方便的按需网络访问，其可经由虚拟化快速配置，并以最少的管理工作或服务提供商交互来发布，然后相应地进行扩展。云计算可由各种特征(例如，按需自助服务、广泛的网络访问、资源池、快速弹性、可计量的服务等)、服务模型(例如，软件即服务(“SaaS”)、平台即服务(“PaaS”)、基础结构即服务(“IaaS”)和部署模型(例如，私有云、社区云、公共云、混合云等)构成。云执行模型通常被称为“无服务器架构”，其通常包括动态地管理远程服务器的分配和配置以实现所需功能的服务提供商。

根据图2所示的示例，联络中心系统200的部件或模块可包括：多个客户设备205A、205B、205C；通信网络(或简称为“网络”)210；交换机/媒体网关212；呼叫控制器214；交互式媒体应答(IMR)服务器216；路由服务器218；存储设备220；统计(或“stat”)服务器226；分别包括工作区232A、232B、232C的多个座席设备230A、230B、230C；多媒体/社交媒体服务器234；耦接到知识系统238的知识管理服务器236；聊天服务器240；web服务器242；交互(或“iXn”)服务器244；通用联络服务器(或“UCS”)246；报告服务器248；媒体服务服务器249；和分析模块250。应当理解，相对于图2或在任何以下附图中描述的计算机实现的部件、模块或服务器中的任一者都可经由各种类型的计算设备(诸如例如图1的计算设备100)来实现。如将所见的，联络中心系统200一般管理资源(例如，人员、计算机、电信装备等)以使得能够经由电话、电子邮件、聊天或其他通信机制递送服务。此类服务可取决于联络中心的类型而变化，并且例如可包括客户服务、帮助台功能、紧急应答、远程营销、接订单等。

期望从联络中心系统200接收服务的客户可经由客户设备205发起到联络中心系统200的入站通信(例如，电话呼叫、电子邮件、聊天等)。虽然图2示出了三个此类客户设备，即，客户设备205A、205B和205C，但应当理解，可存在任何数量的此类客户设备。客户设备205例如可为通信设备，诸如电话、智能电话、计算机、平板电脑或膝上型电脑。根据本文所述的功能，客户一般可使用客户设备205来发起、管理和进行与联络中心系统200的通信，诸如电话呼叫、电子邮件、聊天、文本消息、网页浏览会话和其他多媒体交易。

来自和通向客户设备205的入站通信和出站通信可遍历网络210，其中网络的性质通常取决于所使用的客户设备的类型和通信的形式。例如，网络210可包括电话、蜂窝和/或数据服务的通信网络。网络210可以是专用或公共交换电话网络(PSTN)、局域网(LAN)、专用广域网(WAN)和/或公共WAN诸如互联网。此外，网络210可包括无线运营商网络，该无线运营商网络包括码分多址(CDMA)网络、全球移动通信系统(GSM)网络或本领域中常规的任何无线网络/技术，包括但不限于3G、4G、LTE、5G等。

关于交换机/媒体网关212，该交换机/媒体网关可耦接到网络210，以用于在客户和联络中心系统200之间接收和传输电话呼叫。交换机/媒体网关212可包括电话交换机或通信交换机，该电话交换机或通信交换机被配置为用作用于中心内的座席级别路由的中心交换机。交换机可以是硬件交换系统或经由软件实现。例如，交换机215可以包括自动呼叫分配器、专用交换分机(PBX)、基于IP的软件交换机和/或具有专用硬件和软件的任何其他交换机，该专用硬件和软件被配置为从客户接收互联网来源的交互和/或电话网络来源的交互，并且将那些交互路由到例如座席设备230中的一个座席设备。因此，一般来讲，交换机/媒体网关212通过在客户设备205与座席设备230之间建立连接来在客户与座席之间建立语音连接。

如进一步所示，交换机/媒体网关212可耦接到呼叫控制器214，该呼叫控制器例如用作交换机与联络中心系统200的其他路由、监视和通信处理部件之间的适配器或接口。呼叫控制器214可被配置为处理PSTN呼叫、VoIP呼叫等。例如，呼叫控制器214可包括用于与交换机/媒体网关和其他部件接合的计算机电话集成(CTI)软件。呼叫控制器214可包括用于处理SIP呼叫的会话发起协议(SIP)服务器。呼叫控制器214还可提取关于传入交互的数据，诸如客户的电话号码、IP地址或电子邮件地址，然后在处理交互时将这些数据与其他联络中心部件进行通信。

关于交互式媒体应答(IMR)服务器216，其可被配置为启用自助或虚拟助理功能。具体地，IMR服务器216可类似于交互式语音应答(IVR)服务器，不同的是IMR服务器216不限于语音并且还可覆盖各种媒体渠道。在示出语音的示例中，IMR服务器216可被配置有IMR脚本以用于向客户询问其需求。例如，银行的联络中心可经由IMR脚本告知客户如果他们希望检索其账户余额，则“按下1”。通过与IMR服务器216继续交互，客户可接收服务而无需与座席说话。IMR服务器216还可被配置为查明客户为何联系联络中心，使得可将通信路由到适当的资源。

关于路由服务器218，其可用于路由传入交互。例如，一旦确定入站通信应该由人工座席处理，路由服务器218内的功能就可选择最适当的座席并向其路由通信。该座席选择可基于哪个可用座席最适合于处理通信。更具体地，适当座席的选择可基于由路由服务器218实现的路由策略或算法。这样做时，路由服务器218可查询与传入交互相关的数据，例如与特定客户、可用座席和交互类型相关的数据，如下文更详细描述的，这些数据可存储在特定数据库中。一旦选择了座席，路由服务器218就可与呼叫控制器214进行交互以将传入交互路由(即，连接)到对应的座席设备230。作为该连接的一部分，关于客户的信息可经由其座席设备230提供给所选择的座席。该信息旨在增强座席能够向客户提供的服务。

关于数据存储，联络中心系统200可包括一个或多个大容量存储设备(一般由存储设备220表示)，该一个或多个大容量存储设备用于将数据存储在与联络中心的功能相关的一个或多个数据库中。例如，存储设备220可存储保持在客户数据库222中的客户数据。此类客户数据可包括客户配置文件、联系人信息、服务级别协议(SLA)和交互历史(例如，与特定客户的先前交互的细节，包括先前交互的性质、处置数据、等待时间、处理时间和联络中心为解决客户问题而采取的行动)。又如，存储设备220可将座席数据存储在座席数据库223中。由联络中心系统200维护的座席数据可包括座席可用性和座席配置文件、计划表、技能、处理时间等。又如，存储设备220可将交互数据存储在交互数据库224中。交互数据可包括与客户和联络中心之间的许多过往交互相关的数据。更一般地，应当理解，除非另外指明，否则存储设备220可被配置为包括数据库和/或存储与本文所述的任何类型的信息相关的数据，其中这些数据库和/或数据能够以促进本文所述的功能的方式被联络中心系统200的其他模块或服务器访问。例如，联络中心系统200的服务器或模块可查询此类数据库以检索存储在其中的数据或向其中传输数据以供存储。例如，存储设备220可采取任何常规存储介质的形式，并且可本地容纳或从远程位置操作。例如，数据库可以是Cassandra数据库、NoSQL数据库或SQL数据库，并且由数据库管理系统(诸如Oracle、IBM DB2、Microsoft SQL服务器、Microsoft Access、PostgreSQL)管理。

关于stat服务器226，其可被配置为记录和聚合与联络中心系统200的性能和操作方面相关的数据。此类信息可由stat服务器226编译并且可供其他服务器和模块(诸如报告服务器248)使用，该其他服务器和模块然后可使用该数据来产生报告，该报告用于管理联络中心的操作方面并根据本文所述的功能来执行自动化动作。此类数据可涉及联络中心资源的状态，例如，平均等待时间、放弃率、座席占用率以及如本文描述的功能所需的其他数据。

联络中心200的座席设备230可以是通信设备，其被配置为以促进本文所述的功能的方式与联络中心系统200的各种部件和模块进行交互。例如，座席设备230可包括适用于常规电话呼叫或VoIP呼叫的电话。座席设备230还可包括计算设备，该计算设备被配置为根据本文所述的功能与联络中心系统200的服务器通信，执行与操作相关联的数据处理，并且经由语音、聊天、电子邮件和其他多媒体通信机制与客户进行交互。虽然图2示出了三个此类座席设备，即座席设备230A、230B和230C，但应当理解，可存在任何数量的座席设备。

关于多媒体/社交媒体服务器234，其可被配置为促进与客户设备205和/或服务器242的媒体交互(语音除外)。此类媒体交互可与例如电子邮件、语音邮件、聊天、视频、文本消息收发、网络、社交媒体、共同浏览等相关。多媒体/社交媒体服务器234可采用本领域中常规的具有用于接收、处理和转发多媒体事件和通信的专用硬件和软件的任何IP路由器的形式。

关于知识管理服务器234，其可被配置为促进客户与知识系统238之间的交互。一般来讲，知识系统238可为能够接收问题或查询并作为响应提供答案的计算机系统。知识系统238可被包括作为联络中心系统200的一部分或由第三方远程操作。知识系统238可包括人工智能计算机系统，该人工智能计算机系统能够通过从诸如百科全书、词典、新闻专线文章、文学作品或作为参考材料提交给知识系统238的其他文档等信息源检索信息来回答以自然语言提出的问题，如本领域所知的。例如，知识系统238可体现为IBM Watson或类似系统。

关于聊天服务器240，其可被配置为进行、编排和管理与客户的电子聊天通信。一般来讲，聊天服务器240被配置为实现和保持聊天会话并生成聊天转录。此类聊天通信可由聊天服务器240以客户与自动聊天机器人、人工座席或两者通信的方式进行。在示例性实施方案中，聊天服务器240可用作聊天编排服务器，该聊天编排服务器在聊天机器人和可用人工座席之间调度聊天会话。在此类情况下，聊天服务器240的处理逻辑可由规则驱动，以便利用可用聊天资源之间的智能工作负载分布。聊天服务器240还可以实现、管理和促进与聊天特征相关联的用户界面(也称为UI)，包括在客户设备205或座席设备230处生成的那些UI。聊天服务器240可被配置为在自动化资源和人力资源之间在单个聊天会话内转移聊天，使得例如聊天会话从聊天机器人转移到人工座席或从人工座席转移到聊天机器人。聊天服务器240还可耦接到知识管理服务器234和知识系统238，以用于接收对客户在聊天期间提出的查询的建议和回答，使得例如可提供到相关文章的链接。

关于web服务器242，可包括此类服务器来为客户订阅的各种社交交互站点(诸如Facebook、Twitter、Instgraph等)提供站点主机。尽管被描绘为联络中心系统200的一部分，但应当理解，web服务器242可由第三方提供和/或远程维护。web服务器242还可为正由联络中心系统200支持的企业或组织提供网页。例如，客户可浏览网页并接收关于特定企业的产品和服务的信息。在此类企业网页内，可提供用于例如经由网络聊天、语音或电子邮件发起与联络中心系统200的交互的机制。此类机制的示例是可部署在web服务器242上托管的网页或网站上的小组件。如本文所用，小组件是指执行特定功能的用户界面部件。在一些具体实施中，小组件可包括图形用户界面控件，该图形用户界面控件可覆盖在经由互联网向客户显示的网页上。小组件可诸如在窗口或文本框中显示信息，或者包括允许客户访问某些功能诸如共享或打开文件或发起通信的按钮或其他控件。在一些具体实施中，小组件包括用户界面部件，该用户界面部件具有代码的可移植部分，该可移植部分可在单独的网页内安装和执行而无需编译。一些小组件可包括对应的或附加的用户界面，并且可被配置为经由网络(例如，即时消息、电子邮件或社交网络更新)访问多种本地资源(例如，客户设备上的日历或联系人信息)或远程资源。

关于交互(iXn)服务器244，其可被配置为管理联络中心的可延期活动及其到人工座席的路由以完成。如本文所用，可延期活动包括可离线执行的后台工作，例如回复电子邮件、参加培训以及不需要与客户实时通信的其他活动。例如，交互(iXn)服务器244可被配置为与路由服务器218进行交互以用于选择适当的座席来处理可延期活动中的每个可延期活动。一旦分配给特定座席，就将可延期活动推送到该座席，使得其出现在所选择座席的座席设备230上。可延期活动可作为所选择座席完成的任务出现在工作区232中。工作区232的功能可经由任何常规数据结构诸如例如链表、数组等来实现。座席设备230中的每个座席设备可包括工作区232，其中工作区232A、232B和232C分别保持在座席设备230A、230B和230C中。作为示例，工作区232可以被保持在对应座席设备230的缓冲存储器中。

关于通用联络服务器(UCS)246，其可被配置为检索存储在客户数据库222中的信息和/或向其传输信息以便存储在其中。例如，UCS 246可用作聊天特征的一部分以便于维护关于如何处理与特定客户的聊天的历史，然后可将其用作对应如何处理未来聊天的参考。更一般地，UCS 246可被配置为便于维护客户偏好的历史，诸如优选媒体渠道和最佳联系时间。为此，UCS 246可被配置为识别与每个客户的交互历史相关的数据，诸如例如与来自座席的评论、客户通信历史等相关的数据。然后，可将这些数据类型中的每种数据类型存储在客户数据库222中或存储在其他模块上，并根据本文描述的功能需要进行检索。

关于报告服务器248，其可被配置为从由统计服务器226或其他来源编译和聚合的数据生成报告。此类报告可包括近实时报告或历史报告，并且涉及联络中心资源的状态和性能特征，诸如例如平均等待时间、放弃率、座席占用率。报告可自动生成或响应于来自请求者(例如，座席、管理员、联络中心应用程序等)的特定请求而生成。然后，这些报告可用于根据本文描述的功能来管理联络中心操作。

关于媒体服务服务器249，其可被配置为提供音频和/或视频服务以支持联络中心特征。根据本文描述的功能，此类特征可包括对IVR或IMR系统的提示(例如，音频文件的回放)、保持音乐、语音邮件/单方记录、多方记录(例如，音频和/或视频呼叫的多方记录)、语音识别、双音多频(DTMF)识别、传真、音频和视频转码、安全实时传输协议(SRTP)、音频会议、视频会议、教程(例如，支持教练收听客户和座席之间的交互以及支持教练在客户未听到评论的情况下向座席提供评论)、呼叫分析、关键字定位等。

关于分析模块250，其可被配置为提供用于对从多个不同数据源所接收的数据执行分析的系统和方法，如本文所述的功能可能需要的。根据示例性实施方案，分析模块250还可基于所收集的数据(诸如例如，客户数据、座席数据和交互数据)生成、更新、训练和修改预测器或模型252。模型252可包括客户或座席的行为模型。行为模型可用于在各种情况下预测例如客户或座席的行为，从而允许本发明的实施方案基于此类预测来定制交互或分配资源以准备未来交互的预测特性，从而改善联络中心的总体性能和客户体验。应当理解，虽然分析模块250被描绘为联络中心的一部分，但此类行为模型也可在客户系统上(或者，也如本文所用，在交互的“客户侧”上)实现并用于客户利益。

根据示例性实施方案，分析模块250可访问存储在存储设备220中的数据，包括客户数据库222和座席数据库223。分析模块250还可访问交互数据库224，该交互数据库存储与交互和交互内容相关的数据(例如，其中检测到的交互和事件的转录)、交互元数据(例如，客户标识符、座席标识符、交互媒体、交互时长、交互开始和结束时间、部门、带标签的类别)以及应用程序设置(例如，通过联络中心的交互路径)。此外，如下文更详细讨论的，分析模块250可被配置为检索存储在存储设备220内的数据，以用于例如通过应用机器学习技术来开发和训练算法和模型252。

所包括的模型252中的一个或多个模型可被配置为预测客户或座席行为和/或与联络中心操作和性能相关的方面。此外，模型252中的一个或多个模型可用于自然语言处理，并且例如包括意图识别等。模型252可基于以下各项来开发：1)已知的描述系统的第一原理公式；2)数据，产生经验模型；或3)已知的第一原理公式和数据的组合。在开发与本发明的实施方案一起使用的模型时，由于第一原理公式通常是不可用的或不容易导出的，因此通常可能优选的是基于收集和存储的数据来构建经验模型。为了正确地捕获复杂系统的操纵/干扰变量与受控变量之间的关系，可能优选的是模型252是非线性的。这是因为非线性模型可表示操纵/干扰变量与控制变量之间的曲线关系而不是直线关系，这对于复杂系统诸如本文所讨论的那些是常见的。鉴于前述要求，基于机器学习或神经网络的方法目前是用于实现模型252的优选实施方案。例如，可使用高级回归算法基于经验数据来开发神经网络。

分析模块250还可包括优化器254。应当理解，可使用优化器来使受制于一组约束的“成本函数”最小化，其中成本函数是期望目标或系统操作的数学表示。由于模型252可以是非线性的，因此优化器254可以是非线性编程优化器。然而，可以设想的是，本发明可通过单独地或组合地使用多种不同类型的优化方法来实现，包括但不限于线性编程、二次编程、混合整数非线性编程、随机编程、全局非线性编程、遗传算法、粒子/群技术等。

根据示例性实施方案，模型252和优化器254可在优化系统255内一起使用。例如，分析模块250可利用优化系统255作为优化过程的一部分，通过优化过程优化或至少增强联络中心性能和操作的各方面。例如，这可包括与客户体验、座席体验、交互路由、自然语言处理、意图识别相关的方面或与自动化过程相关的其他功能。

图2(以及本文包括的其他图)的各个部件、模块和/或服务器可各自包括一个或多个处理器，该处理器执行计算机程序指令并且与其他系统部件交互以执行本文描述的各种功能。此类计算机程序指令可存储在使用标准存储设备(诸如例如随机存取存储器(RAM))实现的存储器中，或存储在其他非暂态计算机可读介质(诸如例如CD-ROM、闪存驱动器等)中。尽管每个服务器的功能被描述为由特定服务器提供，但本领域的技术人员应当认识到，在不脱离本发明的范围的情况下，各种服务器的功能可被组合或集成到单个服务器中，或者特定服务器的功能可分布在一个或多个其他服务器上。此外，术语“交互”和“通信”可互换使用，并且一般是指使用任何通信渠道的任何实时和非实时交互，包括但不限于电话呼叫(PSTN或VoIP呼叫)、电子邮件、语音邮件、视频、聊天、屏幕共享、文本消息、社交媒体消息、WebRTC呼叫等。可通过可在客户设备205和/或座席设备230上生成的用户界面(UI)来影响对联络系统200的部件的访问和控制。如已经指出，联络中心系统200可作为混合系统操作，其中远程托管一些或所有部件，诸如在基于云的或云计算环境中。

聊天系统

转到图3、图4和图5，示出了聊天系统和聊天机器人的各个方面。如将所见的，本发明的实施方案可包括此类聊天特征或可由此类聊天特征启用，一般来讲，此类聊天特征启用文本消息在不同方之间的交换。这些方可包括现场人员，诸如客户和座席，以及自动化过程，诸如机器人或聊天机器人。

就后台而言，机器人(也称为“互联网机器人”)是一种通过互联网运行自动化任务或脚本的软件应用程序。通常，机器人执行既简单又具有结构重复性的任务，其执行速度远高于个人。聊天机器人是一种特定类型的机器人，并且如本文所用，被定义为通过听觉或文本方法进行会话的软件和/或硬件。应当理解，聊天机器人通常被设计为令人信服地模拟人类作为会话伙伴的行为方式。聊天机器人通常用于对话系统中，以用于各种实际目的，包括客户服务或信息采集。一些聊天机器人使用复杂的自然语言处理系统，而更简单的聊天机器人会扫描输入中的关键字，然后基于匹配的关键字或措辞模式从数据库中选择回复。

在进一步描述本发明之前，将提供关于引用系统部件(例如，模块、服务器和其他部件)的解释说明，这些部件已在任何先前的图中引入。无论后续引用是否包括在先前附图中使用的对应数字标识符，应当理解，该引用结合了先前附图中描述的示例，并且除非另有明确限制，否则可根据该示例或能够实现所需功能的其他常规技术来实现，如本领域普通技术人员将理解的。因此，例如，对“联络中心系统”的后续提及应被理解为是指图2的示例性“联络中心系统200”和/或用于实现联络中心系统的其他常规技术。作为附加示例，下文对“客户设备”、“座席设备”、“聊天服务器”或“计算设备”的后续提及应理解为分别是指图1至图2的示例性“客户设备205”、“座席设备230”、“聊天服务器240”或“计算设备200”以及用于实现相同功能的常规技术。

现在将参考图3、图4和图5中分别描绘的聊天服务器、聊天机器人和聊天界面的示例性实施方案更具体地讨论聊天特征和聊天机器人。虽然这些示例是相对于在联络中心侧上实现的聊天系统提供的，但此类聊天系统可在交互的客户端上使用。因此，应当理解，图3、图4和图5的示例性聊天系统可针对类似的客户侧具体实施进行修改，包括使用客户侧聊天机器人，该客户侧聊天机器人被配置为代表客户与联络中心的座席和聊天机器人进行交互。还应当理解，语音通信可通过经由将文本到语音和/或语音到文本进行转换来利用聊天特征。

现在具体参考图3，提供了可用于实现聊天系统和特征的聊天服务器240的更详细框图。聊天服务器240可通过数据通信网络210耦接到由客户操作的客户设备205(即，与其进行电子通信)。例如，聊天服务器240可由企业作为联络中心的一部分操作，以用于实现和协调与客户的聊天会话，包括自动聊天和与人工座席的聊天。关于自动聊天，聊天服务器240可以托管聊天自动化模块或聊天机器人260A-260C(统称为260)，该聊天自动化模块或聊天机器人被配置有用于参与聊天会话的计算机程序指令。因此，一般来讲，聊天服务器240实现聊天功能，包括客户设备205与座席设备230或聊天机器人260之间的基于文本或聊天通信的交换。如下文更详细地讨论，聊天服务器240可包括客户界面模块265和座席界面模块266，该客户界面模块和该座席界面模块分别用于在客户设备205和座席设备230处生成促进聊天功能的特定UI。

关于聊天机器人260，各自可作为根据需求启动的可执行程序来操作。例如，聊天服务器240可作为聊天机器人260的执行引擎操作，类似于将VoiceXML文件加载到媒体服务器以用于交互式语音应答(IVR)功能。加载和卸载可以由聊天服务器240控制，类似于在交互式语音应答的情景中如何控制VoiceXML脚本。聊天服务器240还可提供用于以统一方式捕获和收集客户数据的装置，类似于在IVR情景中的客户数据捕获。无论是使用相同的聊天机器人、不同的聊天机器人、座席聊天，甚至是不同的媒体类型，此类数据都可在后续会话中存储、共享和使用。在示例性实施方案中，聊天服务器240被配置为在交互从一个聊天机器人转移或转变到另一个聊天机器人或从一个聊天机器人转移或转变到人工座席时协调各种聊天机器人260之间的数据共享。在与特定聊天机器人交互期间捕获的数据可与调用第二聊天机器人或人工座席的请求一起传输。

在示例性实施方案中，聊天机器人260的数量可根据聊天服务器240的设计和功能而变化，并且不限于图3所示的数量。此外，可创建不同的聊天机器人以具有不同的配置文件，然后可在这些配置文件之间进行选择以匹配特定聊天或特定客户的主题。例如，特定聊天机器人的配置文件可包括在特定主题或针对特定客户偏好的通信风格上帮助客户的专业知识。更具体地，一个聊天机器人可被设计成参与第一通信话题(例如，在企业开设新账户)，而另一个聊天机器人可被设计成参与第二通信话题(对企业提供的产品或服务的技术支持)。或者，聊天机器人可被配置为使用不同的方言或俚语，或具有不同的个性特征或特性。使用具有迎合特定类型客户的配置文件的聊天机器人可实现更有效的沟通和结果。可基于关于另一方的已知信息(诸如人口统计信息、交互历史或社交媒体上可用的数据)来选择聊天机器人配置文件。聊天服务器240可托管默认聊天机器人，如果关于客户的信息不足以调用更专业的聊天机器人，则调用该默认聊天机器人。任选地，不同的聊天机器人可以是客户可选择的。在示例性实施方案中，聊天机器人260的配置文件可存储在存储设备220中托管的配置文件数据库中。此类配置文件可包括聊天机器人的个性、人口统计、专业知识领域等。

客户界面模块265和座席界面模块266可被配置为生成用于在客户设备205上显示的用户界面(UI)，该UI促进客户与聊天机器人260或人工座席之间的聊天通信。同样，座席界面模块266可在座席设备230上生成特定UI，该特定UI有利于操作座席设备230的座席与客户之间的聊天通信。座席界面模块266还可在座席设备230上生成UI，该UI允许座席监视聊天260和客户之间正在进行的聊天的各方面。例如，客户界面模块265可在聊天会话期间向客户设备205传输信号，该信号被配置为在客户设备205上生成特定UI，其可包括显示从聊天机器人260或人工座席发送的文本消息以及意图伴随文本消息的其他非文本图形，诸如表情符号或动画。类似地，座席界面模块266可在聊天会话期间向座席设备230传输被配置为在座席设备230上生成UI的信号。此类UI可包括便于座席选择非文本图形以便将传出的文本消息附带给客户的界面。

在示例性实施方案中，聊天服务器240可在分层架构中实现，该分层架构具有媒体层、媒体控制层和通过IMR服务器216执行的聊天机器人(类似于在IVR媒体服务器上执行VoiceXML)。如上所述，聊天服务器240可被配置为与知识管理服务器234进行交互以向服务器查询知识信息。查询例如可基于在聊天期间从客户接收的问题。然后，可将从知识管理服务器234接收的应答作为聊天应答的一部分提供给客户。

现在具体参考图4，提供了示例性聊天自动化模块或聊天机器人260的框图。如图所示，聊天机器人260可包括若干模块，包括文本分析模块270、对话管理器272和输出发生器274。应当理解，在对聊天机器人可操作性的更详细讨论中，可描述其他子系统或模块，包括例如与意图识别相关的模块、文本到语音或语音到文本模块，以及根据存储在座席或客户配置文件中的信息与脚本存储、检索和数据字段处理相关的模块。然而，在本公开的其他领域(例如，相对于图6和图7)更全面地涵盖此类主题，因此在此将不再重复。然而，应当理解，在这些领域中作出的公开内容可根据本文描述的功能以类似的方式用于实现聊天机器人的可操作性。

文本分析模块270可被配置为分析和理解自然语言。就这一点而言，文本分析模块可配置有语言词典、句法/语义解析器和语法规则，用于将由客户设备205提供的短语分解成内部句法和语义表示。文本分析模块的配置取决于与聊天机器人关联的特定配置文件。例如，某些字词可包括在一个聊天机器人的词典中，但另一个聊天机器人的词典排除在外。

对话管理器272从文本分析模块270接收句法和语义表示，并且基于一组决策规则管理会话的一般流。就这一点而言，对话管理器272维护会话的历史和状态，并且基于这些，生成出站通信。通信可遵循由对话管理器272选择的特定会话路径的脚本。如下文进一步详细描述的，可基于对会话的特定目的或话题的理解来选择会话路径。会话路径的脚本可使用本领域常规的各种语言和框架中的任一种来生成，诸如例如人工智能标记语言(AIML)、SCXML等。

在聊天会话期间，对话管理器272选择在会话流/脚本的特定点处被认为合适的应答并将应答输出到输出发生器274。在示例性实施方案中，对话管理器272还可被配置为计算所选择的应答的置信度水平并将该置信度水平提供给座席设备230。聊天通信中的每个片段、步骤或输入都可具有对应的可能应答列表。可基于话题(使用合适的文本分析和话题检测方案确定)对应答进行分类，并分配建议的接下来的动作。动作可包括例如具有答案的应答、附加问题、转移到人工座席以进行辅助等。置信度水平可用于帮助系统决定对客户输入的检测、分析和应答是否合适，或者是否应该涉及人工座席。例如，可基于一个或多个业务规则分配阈值置信度水平以调用人工座席干预。在示例性实施方案中，可基于客户反馈来确定置信度水平。如上所述，对话管理器272选择的应答可包括知识管理服务器234提供的信息。

在示例性实施方案中，输出发生器274采用对话管理器272提供的应答的语义表示，将应答映射到聊天机器人配置文件或个性(例如，通过根据聊天机器人的方言、词汇或个性调整应答的语言)，并且输出要在客户设备205处显示的输出文本。输出文本可被有意地呈现，使得与聊天机器人交互的客户不知道其正与自动化过程交互，而不是与人工座席交互。如将所见的，根据其他实施方案，输出文本可与集成到客户的用户界面中的视觉表示(诸如表情符号或动画)链接。

现在将参考图5，其中呈现了具有聊天特征282的示例性具体实施的网页280。例如，网页280可与企业网站相关联，并且旨在发起访问该网页的潜在客户或当前客户与和该企业相关联的联络中心之间的交互。应当理解，聊天特征282可在任何类型的客户设备205上生成，包括个人计算设备，诸如膝上型电脑、平板设备或智能电话。此外，聊天特征282可生成为网页内的窗口或实现为全屏界面。如在所示的示例中，聊天特征282可包含在网页280的限定部分内，并且例如可经由上述系统和部件和/或任何其他常规装置实现为小组件。一般来讲，聊天特征282可包括客户输入文本消息以递送到联络中心的示例性方式。

例如，网页280可由客户经由客户设备(诸如提供用于与聊天机器人或实时座席进行聊天的通信信道的客户设备)来访问。在示例性实施方案中，如图所示，聊天特征282包括在客户设备的显示器上生成用户界面，该用户界面在本文被称为客户聊天界面284。例如，客户聊天界面284可由聊天服务器(诸如，如已经描述的聊天服务器)的客户界面模块生成。如所描述的，客户界面模块265可向客户设备205发送信号，该信号被配置为例如根据由聊天源发布的聊天消息的内容来生成期望的客户聊天界面284，在该示例中，该聊天源是名为“Kate”的聊天器人或座席。客户聊天界面284可被包含在指定的区域或窗口中，该窗口覆盖网页280的指定部分。客户聊天界面284还可包括文本显示区域286，该文本显示区域是专用于按时间显示接收和发送的文本消息的区域。客户聊天界面284还包括文本输入区域288，该文本输入区域是客户在其中输入其下一消息的文本的指定区域。应当理解，其他配置也是可能的。

客户自动化系统

本发明的实施方案包括用于在与客户服务提供商或联络中心进行交互的各个阶段期间使客户动作自动化并增强客户动作的系统和方法。如将所见的，交互的那些各个阶段可被分类为接触前阶段、接触中阶段和接触后阶段(或分别为交互前阶段、交互中阶段和交互后阶段)。现在具体参考图6，示出了可与本发明的实施方案一起使用的示例性客户自动化系统300。为了更好地解释客户自动化系统300如何运作，还将参考图7，图7提供了用于在例如客户与联络中心交互时使客户动作自动化的示例性方法的流程图350。与客户自动化相关的附加信息在以下专利申请中提供：2018年10月4日提交的名称为“用于客户体验自动化的系统和方法(System and Method for Customer Experience Automationn)”的美国申请序列号16/151,362，该专利申请的内容以引用方式并入本文。

图6的客户自动化系统300表示一般可用于客户侧自动化的系统，如本文所用，客户侧自动化是指代表客户在与客户服务提供商或联络中心进行交互时采取的动作的自动化。此类交互也可称为“客户-联络中心交互”或简称为“客户交互”。此外，在讨论此类客户-联络中心互动时，应当理解，对“联络中心”或“客户服务提供商”的提及一般是指与组织或企业相关联的任何客户服务部门或其他服务提供商(诸如例如公司、政府机构、非营利组织、学校等)，用户或客户与他们有业务、交易、事务或其他利益关系。

在示例性实施方案中，客户自动化系统300可实现为在移动设备或其他计算设备、云计算设备(例如，通过网络连接到客户端设备205的计算机服务器)或其组合上运行的软件程序或应用程序(例如，系统的一些模块在本地应用程序中实现，而其他模块在云中实现)。为方便起见，主要在具体实施的上下文中经由在客户端设备205上运行的应用程序来描述实施方案。然而，应当理解，本发明的实施方案并不限于此。

客户自动化系统300可包括若干部件或模块。在图6的所示示例中，客户自动化系统300包括用户界面305、自然语言处理(NLP)模块310、意图推断模块315、脚本存储模块320、脚本处理模块325、客户配置文件数据库或模块(或简称“客户配置文件”)330、通信管理器模块335、文本到语音模块340、语音到文本模块342和应用编程接口(API)345，这些模块中的每一者也将参考图7的流程图350更具体地描述。应当理解，与客户自动化系统300相关联的部件和功能中的一些可与上文相对于图3、图4和图5所述的聊天机器人系统重叠。在客户自动化系统300和此类聊天机器人系统作为客户侧具体实施的一部分一起使用的情况下，此类重叠可包括两个系统之间的资源共享。

在操作的示例中，现在具体参考图7的流程图350，客户自动化系统300可在初始步骤或操作355处接收输入。此类输入可来自若干来源。例如，输入的主要来源可以是客户，其中此类输入是经由客户设备接收的。输入还可包括从其他方，尤其是通过客户设备与客户交互的方所接收的数据。例如，从联络中心发送到客户的信息或通信可提供输入的各方面。在任一种情况下，输入可以自由语音或文本的形式提供(例如，非结构化的自然语言输入)。输入还可包括在客户设备上接收或存储的其他形式的数据。

继续流程图350，在操作360处，客户自动化系统300使用NLP模块310解析输入的自然语言，并由此使用意图推断模块315推断意图。例如，在输入作为来自客户的语音提供的情况下，语音可由语音到文本系统(诸如大词汇连续语音识别或LVCSR系统)转录为文本，作为NLP模块310分析的一部分。转录可在客户设备205上本地执行，或者语音可通过网络传输以便由基于云的服务器转换为文本。在某些实施方案中，例如，意图推断模块315可使用人工智能或机器学习技术从所提供的输入的文本自动推断客户的意图。此类人工智能技术可包括例如从客户输入中识别一个或多个关键字，并搜索对应于给定关键字的潜在意图的数据库。可从历史交互记录的集合中自动挖掘潜在意图和对应于该意图的关键字的数据库。在客户自动化系统300无法从输入理解意图的情况下，可在用户界面305中向客户提供对若干意图的选择。然后，客户可通过选择其中一种替代方案来阐明其意图，或者可请求提供其他替代方案。

在确定客户意图之后，流程图350前进到操作365，在该操作中，客户自动化系统300加载与给定意图相关联的脚本。例如，可从脚本存储模块320存储和检索此类脚本。此类脚本可包括一组命令或操作、预先写入的语音或文本和/或参数或数据的字段(也称为“数据字段”)，这些字段表示客户自动化动作所需的数据。例如，脚本可包括为了解决客户意图所指定的问题将需要的命令、文本和数据字段。脚本可特定于特定联络中心并且被定制为解决特定问题。脚本可以多种方式组织，例如以分层方式组织，诸如其中与特定组织有关的所有脚本都来源于定义共同特征的共同“父”脚本。脚本可经由从先前客户交互中挖掘数据、动作和对话来产生。具体地，可从客户和客户服务提供商之间的历史交互的集合中自动挖掘在请求解决特定问题期间所做的陈述的序列。如从联络中心座席侧所述，可用于自动挖掘陈述和评论的有效序列的系统和方法在以下美国专利申请中有所描述：2014年1月12日在美国专利商标局提交的美国专利申请号14/153,049“通过使用实时语音分析和实时桌面分析计算呼叫座席电话呼叫中的建议动作(Computing Suggested Actions in CallerAgent Phone Calls By Using Real-Time Speech Analytics and Real-Time DesktopAnalytics)”，其全部公开内容以引用方式并入本文。

在检索了脚本的情况下，流程图350前进到操作370，在该操作中，客户自动化系统300处理或“加载”脚本。该动作可由脚本处理模块325执行，该脚本处理模块通过用与客户有关的适当数据填充脚本的数据字段来执行该动作。更具体地，脚本处理模块325可提取与预期交互相关的客户数据，该相关性由被选择为对应于客户意图的脚本预先确定。脚本内许多数据字段的数据可自动加载从存储在客户配置文件330内的数据检索到的数据。应当理解，客户配置文件330可存储与客户相关的特定数据，例如，客户的姓名、出生日期、地址、账号、认证信息以及与客户服务交互相关的其他类型的信息。被选择用于存储在客户配置文件330内的数据可基于客户在先前交互中使用的数据和/或包括客户直接获得的数据值。在关于数据字段或脚本内缺失信息的任何歧义的情况下，脚本处理模块325可包括提示并允许客户手动输入所需信息的功能。

再次参考流程图350，在操作375处，可将加载的脚本传输到客户服务提供商或联络中心。如下文更详细讨论的，加载的脚本可包括使代表客户与联络中心进行的交互的至少一部分自动化所必需的命令和客户数据。在示例性实施方案中，API 345用于直接与联络中心交互。联络中心可定义用于向其系统发出普通请求的协议，API 345被配置为执行该协议。此类API可通过各种标准协议来实现，诸如使用可扩展标记语言(XML)的简单对象访问协议(SOAP)、使用XML或JavaScript对象表示法(JSON)格式化消息的表述性状态转移(REST)API等。因此，客户自动化系统300可根据用于与联络中心通信的定义协议自动生成格式化消息，其中该消息在格式化消息的适当部分中包含由脚本指定的信息。

使用意图挖掘自动化的机器人创作

近年来，随着人工智能(AI)和计算技术的若干项突破，对应用程序、自动化系统、聊天机器人或能够参与与人类的自然语言会话的机器人的兴趣已经增加。近年来，对可与人类自然地对话并以自助方式执行多种任务的AI使能的聊天机器人和虚拟助手的应用有着巨大增长。这种会话机器人通过首先分析用户的输入，然后尝试理解该输入的含义来工作。这被称为自然语言理解(或“NLU”)，并且通常涉及对用户的意向或“意图”以及用户的输入话语中的某些关键词或“实体”的识别。一旦确定了意图和实体，机器人就可用适当的后续动作来响应用户。

使用各种机器学习算法来训练NLU模型。训练通常涉及教导系统识别自然语言输入中存在的模式并将这些模式与一组预定义意图相关联。训练数据的质量是确定模型性能的关键因素。在输入话语中具有足够的多样性的足够大的数据集对于建立良好的NLU模型是至关重要的。

如本文所用，术语“机器人创作”指的是创建具有NLU能力的会话机器人或聊天机器人的过程。该过程通常涉及定义意图、识别实体、公式化话语、训练NLU模型、测试机器人并最终发布该机器人。这通常主要是手动过程，可能花费数周或数月来完成。通常，该时间大部分用于识别意图和公式化话语。尽管组织可能已经拥有其客户与客户支持职员(诸如联络中心座席)之间的大量聊天会话，但是手动地遍历这些原始聊天记录以识别意图和话语的过程既费时又费钱。

如本文所用，意图挖掘引擎或过程(其可被一般地称为“意图挖掘过程”)是使得机器人创作工作流更高效的系统或方法。如将看到的，本发明的意图挖掘过程通过从成千上万个会话挖掘意图来发挥作用并且找到属于每个会话的一组稳健且多样的话语。此外，意图挖掘过程通过提供会话分析来帮助获得对会话的深刻理解。该过程还向机器人创作者提供了分析意图并作出修改的机会。最后，这些意图和话语可被导出到多种多样的聊天机器人创作平台，诸如在Genesys对话引擎、Google的Dialogflow和Amazon Lex中可商购获得的那些。如将看到的，这产生显著减少总开发时间的灵活且高效的机器人创作工作流。

现在参考图8，使用本意图挖掘过程(或简称为“当前意图挖掘过程”)示出了机器人创作工作流400的各个阶段或步骤。为了发起工作流400，会话或会话数据可被导入以用于挖掘。此类会话数据可由座席与客户之间先前发生的交互组成。此类会话数据可以是由多个来回消息传送回合组成的自然语言会话。例如，会话可能已经由聊天界面、通过文本或经由语音呼叫发生。在后者的情况下，可在挖掘开始之前经由语音识别将会话转录成文本。

在初始步骤405处，机器人创作工作流400可包括导入会话数据(即，会话文本数据)以供在意图挖掘过程中使用。这可以几种方式来进行。例如，可经由包含要挖掘的会话的文本文件(呈支持的格式，如JSON)来导入会话数据。会话数据也可从云存储导入。

在步骤410处，机器人创作工作流400可包括从会话数据挖掘意图。如以下相对于图9和图10所讨论的，可根据意图挖掘算法来挖掘意图。

在步骤415处，机器人创作工作流400可包括测试所挖掘的意图。这可包括与意图挖掘过程的输出交互。即，在工作流的这一阶段，机器人创作者与所挖掘的输出交互以进行编辑，这可包括在将其导出到机器人中以用于训练之前微调和修整意图以及相关联话语。机器人创作者可对所挖掘的输出执行各种动作，诸如例如：选择意图和属于该意图的话语；将两个或更多个意图合并为单个意图，这可导致他们所选择的话语的合并；将意图分割成多个意图，这导致对应话语的分割；以及对意图标记进行重命名。在该业务逻辑驱动过程结束时，产生随后可用于训练聊天机器人的一组经修改的意图和相关联话语。

在步骤420处，机器人创作工作流400可包括将所挖掘的意图和话语导入机器人中。例如，所挖掘的意图可被上传到会话机器人中，并且会话机器人可用于与客户进行自动会话。本意图挖掘过程可提供多种方式来向机器人添加所挖掘或经修改的意图和话语。数据可以CSV格式下载以便于查看。该数据还可被导出为多种机器人格式，从而提供对更多种会话AI聊天机器人服务诸如Genesys会话引擎、Google的Dialogflow或Amazon Lex的支持。

机器人创作过程还可包括附加步骤。根据某些实施方案，本意图挖掘过程可显著地涉及上文已经描述的步骤，而更少涉及后面的开发阶段。这些后面的步骤可包括可选的编辑步骤、机器人设计步骤以及最后的最终测试和发布步骤。

现在参考图9，现在将讨论用于实现本意图挖掘引擎或过程500的示例性算法。如将看到的，该算法可被大概分解为若干步骤，在本文将被称为：1)识别带有意图的话语；2)生成候选意图；3)识别显著意图；4)对意图进行语义分组；5)意图标记；以及6)话语意图关联。其他步骤可包括掩蔽话语中的个人可识别信息。另一附加步骤可包括意图分析的计算。现在将讨论这些步骤。如将看到的，将相对于导入的会话数据(例如，包括与客户服务代表或座席交互的客户之间的自然语言会话的数据)来描述这些步骤，但应当理解，该过程也可应用于涉及其他类型的用户和会话类型的其他上下文。

根据第一步骤505，本意图挖掘过程处理会话数据以识别带有意图的回合或话语。如本文所用，带有意图的话语是被确定为很可能包括或描述客户意图的那些话语。因此，本意图挖掘过程中的该初始步骤是从给定会话中识别带有意图的话语。例如，会话通常由来自多方诸如座席(其可包括自动化系统或机器人或人类座席)和顾客的多个消息回合或话语组成。

例如，机器人生成的消息可能看起来像这样：“您好，谢谢您联系我们。为了质量和训练的目的，可监视或记录所有的聊天。我们将很快与您一起帮助您解决您的请求”。这种机器人生成的消息可被安全地丢弃，因为它们往往是通用的并且不阐明在会话中发现的意图。实际的会话开始于座席或客户发送实质性通信或消息。例如，在交互期间，客户可解释联系客户服务的原因或“意图”。随后的座席-客户会话回合基于由客户表达的该意图而发生。

根据对真实世界客户-座席会话的分析，本发明包括用于识别带有意图的话语的若干启发法或策略。例如，已经观察到，带有意图的回合通常在会话的客户方开始时发生。因此，通常仅需要处理几个初始客户话语来识别意图，并且可丢弃其余会话。这进一步帮助减少系统的等待时间和存储器占用空间。此外，可使用字数约束来丢弃不太可能包括客户意图的其他话语。

例如，对带有意图的话语的识别可包括以下内容。选择会话中的一组连续的客户话语。该组可包括在会话开始时出现的客户话语。另外，可使用字数约束来使该初始组内的一些客户话语不合格。即，为了合格，每一回合中的字数必须大于最小阈值。这样的字数或长度约束有助于丢弃与意图挖掘目的不相关的一些客户回合，诸如习惯性问候，如“您好”、“嘿，您好”、“您好吗？”等。例如，该最小字数阈值可被设置在2至5之间。

本意图挖掘过程可将来自带有意图的回合中的连续客户回合的话语串接成单个组合话语。在这样做之前，可基于最大长度阈值来修整客户回合中的每个客户回合，因为较长的句子往往不连贯或产生有干扰的结果。例如，每句话语的最大字数可被设置为50个字。因此，在该步骤结束时，从很可能包含由客户表达的意图的每个会话获得组合话语。如果会话不包含满足上述标准的消息回合，则可将其丢弃而不从其获得组合话语。由于本意图挖掘过程用于从几百或甚至几千个会话中获得主要意图，因此可有把握地假设客户意图跨多个会话重复。因此，为了意图识别中的更大稳健性，未能满足以上启发式标准的会话可被丢弃而不影响系统的功能性。

根据第二步骤510，基于对组合话语的分析来生成候选意图。即，一旦从会话中获得并组合来自带有意图的回合的话语，则下一任务包括识别可能的或很可能的意图，其在本文中将被称为“候选意图”。如本文所用，候选意图是由以下两个部分组成的文本短语：1)动作，其是表示有形目的、任务或活动的字词或短语，以及2)对象，其表示动作将实施或作用于的那些字词或短语。

存在从话语中获得这些动作-对象对的不同方式。应当理解，该选择可取决于语言模型和可用于特定语言的资源。典型地，例如，使用句法依存解析器来分析话语的语法结构，并且获得“中心”词与“语元(token)”或修饰那些中心的字词之间的关系。话语的语元和它们的中心之间的这些关系以及它们的词性(POS)标签被用于识别给定话语的潜在或候选意图。

例如，获得此类动作-对象对的过程可包括以下内容。首先，可使用依存解析器来获得话语中的所有语元和中心对。根据这些内容，选择语元和其相关联的中心的POS标签分别是名词和动词的对。通用POS标签的使用有助于使系统语言不可知并因此可扩展到多个语言学领域。

“动作”部分通常是具有作为相关联的POS标签的“动词”的语元。如果语元是具有“小品词”语元的“基本动词”，则该语元形成话语的“短语动词”。相关联的“小品词”语元也包括在动词语元中。因此，整个短语动词成为候选意图的动作部分。“对象”部分通常是具有作为相关联的POS标签的“名词”的语元。如果语元是所有组成语元具有“名词”POS标签的“复合词”的一部分，则整个复合词被视为对象。相似地，如果语元是形容词修饰词短语的一部分，则将整个短语作为对象。如果语元与同位修饰词相关联，则构成后者的所有语元被附加到当前语元以形成候选意图的对象部分。如果只有通用POS标签可用于语言而不是通用依存关系，则分别将“动词”和“名词”语元当做动作和对象部分。作为下一步骤，动作-对象有序对可被词形还原，以将候选意图转换成更标准的形式。为了进一步归一化，可降低词形还原对的情况。

因此，可从每句话语获得一个或多个归一化的动作-对象对，其一起形成会话的候选意图。如果没有获得此类对，则丢弃该话语。考虑到这一点，考虑第一示例性话语：“我想联系该课程的讲师。你可以提供他的电子邮件吗？”。在这种情况下，候选意图可包括“联络讲师”和“提供电子邮件”。考虑第二示例性话语：“我昨天刚刚在我的账户上完成了我的学士课程，它说你必须完成毕业申请，但当我点击它时进入了一个写着消息的页面，上面只显示了潜在的奖学金，我该怎么做？”在这种情况下，候选意图可包括“完成课程”、“完成毕业申请”、“写着消息”和“显示潜在的奖学金”。

根据第三步骤515，识别显著意图。如本文所用，术语“显著意图”是指来自前一步骤中识别的候选意图的缩小的意图列表，其中该缩小基于例如相关性、显著性、确定性和/或显而易见性。因此，在该组候选意图中，描述顾客的实际意向的那些意图被识别为显著意图。应当理解，该任务并不总是直接的。在一些情况下，客户的意向本质上可以是隐含的。然而，在其他情况下，可能存在关于顾客的实际意向的不同意见，尤其是在包含多个候选意图的那些话语中。

考虑上文所提供的示例。就第一话语示例而言，可认为“联络讲师”和“提供电子邮件”两者都描述了顾客的意向。并且，就第二话语示例而言，客户已经完成他/她的学士课程并且在完成毕业申请时遇到了问题。虽然该意向是更隐含的，但是最接近的明确近似意图可以是候选意图“完成毕业申请”。关于“联络讲师”还是“提供电子邮件”应当被选择选择作为第一话语的意图或者甚至“完成课程”还是“完成毕业申请”应当被选择作为第二话语的意图的决策可最好由业务逻辑而非任何算法公式来确定。即，机器人创作者可应用适当的业务逻辑来作出关于此类意图的最终决策。机器人创作者还可选择保留多个意图或者甚至描述意图的层次结构，以实现特定业务领域内的适当业务目标或目的。

由于目标是使机器人创作过程更高效，因此本意图挖掘过程可将候选意图的列表缩小成最显著的候选意图，然后机器人创作者可查看这些最显著的候选意图是否合适。在这种情况下，可基于不同的标准以多种方式定义显著性。例如，根据示例性实施方案，整组话语中的候选意图的频率可以是显著性的指标，即，候选意图的数量越多，相关性越高。根据本发明的其他实施方案，可使用基于潜在语义分析(LSA)的标准来找到显著意图。LSA是在自然语言理解(NLU)任务中使用的主题建模技术。为此，在候选意图动作-对象对方面描述的每句话语被认为是文档。LSA然后通过产生与这些文档和它们所包括的术语(即，动作-对象对)相关的一组概念来分析这些文档和那些所包括的术语之间的关系。每个概念是在具有相关联权重的候选意图方面描述的。这些权重提供了对每个概念组内的候选意图的相对显著性的深刻理解。

例如，根据本发明，识别显著意图的过程可包括以下内容。首先，将LSA应用于在候选意图动作-对象对方面描述的话语，其中LSA部件的数量被设置为预先确定的限制，例如50。然后将每个概念组的候选意图相对于其权重以降序排序，并且选择最前面的候选意图，例如前5个。然后对从每个概念组获得的所选择候选意图进行校对，并将其相对于其权重以降序排列。然后丢弃重复条目，保留具有较高权重的条目。然后，预先确定数量的这些意图可被认为是显著候选意图或简称为“显著意图”。预先确定数量可基于需要挖掘的最大意图数量。例如，该最大意图数量可通过本意图挖掘过程基于真实世界联络中心交互模式来确定，或者由机器人创作者基于适当的业务逻辑和使用情况来选择。

根据第四步骤520，在语义上对显著意图进行分组。如将理解的，因为仅话语的句法结构被用于生成候选意图，所以有可能由系统识别的许多显著意图在意义上是相似的。因此，可将语义上相似的显著意图分组在一起以获得最佳下游功能。本意图挖掘过程的输出可用于训练自然语言理解(NLU)模型，该NLU模型然后有效地形成自然语言聊天机器人的“大脑”。为了使这些模型识别出与不同话语相关联的意图，NLU模型必须通过句法上不同但语义上相似的话语来训练。因此，机器人创作过程必须使得能够创建与具有足够多样性的话语相关联的意图。对语义上相似的显著意图的分组有助于产生所挖掘的意图的这种多样性。

该步骤通常包括计算显著意图之间的语义相似性，例如，该步骤可如下完成。首先，计算与显著意图的文本相关联的嵌入或词嵌入。应当理解，此类嵌入表示主题文本，例如字词、短语或句子，使得语义上相似的文本具有相似的嵌入。此类词嵌入通常包括经由编码过程将文本数据转换成数字格式，并且可使用各种常规编码技术来从文本数据中提取此类词嵌入。然后可高效地比较嵌入以确定文本之间的语义相似性的度量。例如，全局向量(或“GloVe”)是可用于获得字词的向量表示的算法。例如，GloVe模型可具有300个维度。在示例性实施方案中，可使用组成语元的GloVe嵌入的逆文档频率(IDF)加权平均来计算显著意图的词嵌入。应当理解，IDF是反映关于术语在给定文档语料库中是常见还是稀有的度量的数值统计。以这种方式使用，所有候选意图或显著意图的集合在这里可被认为是用于IDF计算的文档语料库。

一旦获得了显著意图的文本的词嵌入，该词嵌入就可用于计算显著意图对之间的语义相似性。例如，余弦相似性可用于提供更高维空间中的词嵌入之间的语义接近度的度量。在获得词嵌入的情况下，可根据具有大于预先确定的相似性阈值的嵌入的余弦相似性的那些对来对显著意图进行分组，该预先确定的相似性阈值可被设置在0至1的范围之间。应当理解，该阈值越高，越不显著的意图被分组在一起，从而产生同质性更高的组，而更低的阈值将导致在语义上更多样的意图被分组在一起，从而产生同质性更低的组。如就选择上述最大意图而言，该同质性值可以是在由机器人创作者选择的系统中预设的(例如，为0.8)。就后者而言，机器人创作者将能够查看多个输出意图和话语组合并且选择适合最优机器人结果的值。

根据第五步骤525，识别意图标记。分组的显著意图(或“显著意图组”)中的每个显著意图最终可以是被挖掘的意图(或“所挖掘的意图”)。因此，针对这些显著意图组中的每个显著意图组，挑选意图标记以用作所挖掘的意图的标记或标识符。根据示例性实施方案，该标记可通过计算给定显著意图组内的显著意图中的每个显著意图的IDF来完成。对于该计算，在候选意图方面描述的话语被视为文档，并且被视为单个单元的动作-对象对被视为组成语元。然后将每个组的具有最高计算的IDF的显著意图作为该组的意图范例或“意图标记”，而该组内的其他显著意图被称为“意图替代”。

根据第六步骤530，将话语与所挖掘的意图(此时由意图标记反映的所挖掘的意图和相应显著意图组中的每个所挖掘的意图)相关联。应当理解，该下一步骤确定与所挖掘的意图中的每个所挖掘的意图相关联的话语。与前一步骤类似，这里也可采用使用嵌入的语义相似性技术。例如，计算从带有意图的话语中的每句带有意图的话语导出的候选意图与给定显著意图组内的每个显著意图之间的语义相似性。如果话语的组成候选意图中的任一者与该给定显著意图组(其也可被称为所挖掘的意图或简称为意图)的显著意图的相似性最高并且还被确定为高于最小阈值(例如，0.8)，则该话语与该显著意图组相关联。此外，对于显著意图组中的每个显著意图组，带有意图的话语的与每个特定显著意图组产生最高相似性的候选意图可被纳入该特定显著意图组作为“意图辅助”。同样，也可要求最小阈值。因此，在该步骤内，特定的带有意图的话语与显著意图组中的一个显著意图组相关联，而该特定的带有意图的话语的组成候选意图与作为意图辅助的相应显著意图组相关联。因此，每个所挖掘的意图可包括如前所述的意图标记，以及一个或多个意图替代和/或一个或多个意图辅助。应当理解，这样的公式并不阻止有单句带有意图的话语变成与多个意图组相关联的可能性。这是因为单句带有意图的话语可具有多个候选意图，这些候选意图作为意图辅助被添加到跨多个所挖掘的意图的不同意图组。这在下游功能中引入了更大的灵活性和稳健性。机器人创作者可选择保留或丢弃来自一个或多个组的此类话语。已经观察到，跨多个意图重复话语有助于就存在于这些话语中的内在混淆来教导NLU模型，并且因此有助于构建更真实且稳健的模型。

根据另一步骤(未图示)，话语中的个人可识别信息被移除或掩蔽。为了确保顾客的隐私，存在于相关联话语中的所有个人可识别信息被掩蔽。当然，如果输入会话在被提供给当前意图挖掘过程之前被匿名化，则该步骤可被省略。此类个人可识别信息可包括顾客姓名、电话号码、电子邮件地址、社会保险等。除此之外，作为附加的预防措施，与地理位置、日期和数字相关的实体可被掩蔽。例如，考虑该话语：“嗨，我要订一张John Honai 8月15日从华盛顿飞往迈阿密的机票”。在掩蔽之后，话语可变成：“嗨，我要订一张<人><人><日期><日期>从<地理位置><地理位置>飞往<地理位置>的机票”。除了保护隐私之外，此类掩蔽可允许机器人创作者快速识别存在于意图的话语中的不同实体。这可帮助机器人创作者创建相似的话语，但这些实体的槽值不同。这导致话语的多样性更大，这进一步有助于创建更好的NLU模型。

根据另一可能步骤(未图示)，可计算意图分析。即，除了挖掘意图和相关联话语之外，本意图挖掘过程还可产生与协助企业识别客户交互模式的会话数据有关的分析和度量。如下是两个此类度量。

第一分析是意图体积分析，其是关于会话处理特定意图的程度的分析。该分析也可用百分比来表示。意图体积分析可基于其在会话数据中出现的频率来协助理解意图的相对重要性。由于从每个会话中仅取出单句话语，因此该度量基本上变成属于每个意图的话语的数量。

第二分析是意图持续时间分析，其是关于处理特定意图的会话的持续时间的分析。该分析也可用百分比来表示。应当理解，该度量有助于基于与意图相关联的总会话时间来比较意图。会话所花费的时间被计算为最后一个和第一个客户/座席回合时间戳之间的差。属于意图的各个会话的持续时间的总和给出了该意图的持续时间。应当理解，这种类型的分析可协助机器人创作者和企业更好地理解客户和联络中心人员配置。

现在将讨论用于创作会话机器人和意图挖掘的方法的示例。该方法可包括：接收会话数据，其中该会话数据包括从客户与客户服务代表之间的会话导出的文本；使用意图挖掘算法来从会话数据自动挖掘意图，所挖掘的意图中的每个所挖掘的意图包括意图标记、意图替代和相关联话语；以及将所挖掘的意图上传到会话机器人中，并使用会话机器人来与其他客户进行自动会话。

根据示例性实施方案，意图挖掘算法可包括分析在会话数据的会话内出现的话语以识别带有意图的话语。这些话语各自可包括会话内的回合，由此客户以客户话语的形式或客户服务代表以客户服务代表话语的形式正在进行通信。并且，带有意图的话语被定义为话语中被确定有更大可能表达意图的话语。意图挖掘算法还可包括分析所识别的带有意图的话语以识别候选意图。候选意图可各自被识别为在带有意图的话语中的一句带有意图的话语内出现的文本短语，该文本短语具有两个部分：动作和对象，该动作可包括描述目的或任务的字词或短语，该对象可包括描述动作所作用的对象或事物的字词或短语。意图挖掘算法还可包括根据一个或多个标准从候选意图中选择显著意图。意图挖掘算法还可包括：根据显著意图之间的语义相似度，将所选择的显著意图分组为显著意图组。意图挖掘算法还可包括：对于显著意图组中的每个显著意图组，选择显著意图中的一个显著意图作为意图标记以及指定显著意图中的其他显著意图作为意图替代。意图挖掘算法还可包括：经由确定存在于带有意图的话语中的候选意图与显著意图组中的每个显著意图组内的意图替代之间的语义相似度来将带有意图的话语与显著意图组相关联。所挖掘的意图可各自包括显著意图组中的给定显著意图组，这些显著意图组中的每个显著意图组由以下定义：显著意图中被选择作为意图标记的显著意图以及显著意图中被指定作为替代意图的其他显著意图；以及与显著意图组中的给定显著意图组相关联的带有意图的话语。

根据示例性实施方案，识别带有意图的话语的步骤可包括：选择客户话语的第一部分作为带有意图的话语，以及丢弃会话数据内的客户话语的第二部分。客户话语的第一部分可被定义为在会话中的每个会话开始时出现的预先确定数量的连续客户话语，并且第二部分可被定义为会话中的每个会话的剩余部分。

根据示例性实施方案，识别带有意图的话语的步骤还可包括丢弃客户话语的第一部分中未能满足字数约束的客户话语。字数约束可包括：最小字数约束，其中丢弃客户话语的第一部分中具有比最小字数约束更少的字词的客户话语；和/或最大字数约束，其中丢弃客户话语的第一部分中具有比最大字数约束更多的字词的客户话语。最小字数约束可包括在2个至5个字词之间的值。最大字数约束可包括在40个至50个字词之间的值。

根据示例性实施方案，识别带有意图的话语的步骤可包括：将在会话中的每个会话的第一部分内出现的客户话语串接成组合客户话语。

根据示例性实施方案，识别候选意图的步骤可包括：使用句法依存解析器来分析带有意图的话语的语法结构，以识别中心-语元对，每个中心-语元对包括由语元词修饰的中心词；以及使用词性(下文中称为“POS”)标签来对带有意图的话语的词性加标签，并且将中心-语元对识别为候选意图，其中中心词的POS标签可包括名词标签，并且语元词的POS标签可包括动词标签。

根据示例性实施方案，从候选意图中选择显著意图的步骤可包括选择候选意图中被确定为比候选意图中的其他候选意图更频繁地出现在带有意图的话语中的候选意图。从候选意图中选择显著意图的一个或多个标准可包括基于潜在语义分析(LSA)的标准。从候选意图中选择显著意图的步骤可包括：生成具有与候选意图中的相应候选意图对应的文档的一组文档，其中文档中的每个文档涵盖由候选意图中的对应候选意图所定义的动作-对象对；基于在该组文档中包含的动作-对象对中出现的项来生成概念组；针对概念组中的每个概念组计算候选意图中的每个候选意图的权重值，该权重值衡量文档中的给定文档的候选意图与概念组中的给定概念组之间的相关性程度；以及基于预先确定数量的候选意图产生指示更高相关性程度的权重值而在概念组中的每个概念组中选择预先确定数量的候选意图作为显著意图。

根据示例性实施方案，根据语义相似度对显著意图进行分组的步骤可包括：针对显著意图中的每个显著意图计算嵌入，其中嵌入可包括文本的编码表示，其中语义上相似的文本具有相似的编码表示；比较所计算的嵌入以确定显著意图的对之间的语义相似度；以及对具有高于预先确定的阈值的语义相似度的显著意图进行分组。嵌入可被计算为显著意图的组成中心-语元对的全局向量嵌入的逆文档频率(IDF)平均值。比较所计算的嵌入可包括余弦相似性。

根据示例性实施方案，用意图标识符标记显著意图组中的每个显著意图组的步骤可包括选择显著意图组中的每个显著意图组内的显著意图中的代表性显著意图。

根据示例性实施方案，将来自会话数据的话语与显著意图组相关联的步骤可包括重复地执行第一过程以涵盖与显著意图组中的每个显著意图组有关的带有意图的话语中的每句带有意图的话语。如果相对于涉及第一显著意图组和第二显著意图组以及包含第一候选意图和第二候选意图的第一带有意图的话语的示例性第一种情况进行描述，则第一过程可包括：计算第一候选意图和第二候选意图中的每一者与第一显著意图组中的意图替代中的每一者之间的语义相似度；计算第一候选意图和第二候选意图中的每一者与第二显著意图组中的意图替代中的每一者之间的语义相似度；确定哪些意图替代产生最高计算的语义相似度；以及将第一带有意图的话语与第一显著意图组和第二显著意图组中包含被确定为产生最高计算的语义相似度的意图替代的一者相关联。将来自会话数据的话语与显著意图组相关联的步骤还可包括仅在还发现最高计算的语义相似度超过预先确定的相似性阈值的情况下才关联产生最高计算的语义相似度的意图替代。

现在参考图10，示出了另选机器人创作工作流的各个阶段，其中上文相对于图9所公开的意图挖掘方法扩充有意图播种过程。下面将在简要介绍之后讨论使用意图播种过程的意图挖掘过程。为了易于区分参考，使用意图播种的意图挖掘过程在下文中将称为“通过播种进行意图挖掘的过程”或简称为“通过播种进行的意图挖掘”，而先前所讨论的上文相对于图9所公开的意图挖掘过程(即，没有播种的意图挖掘)在下文中将称为“一般意图挖掘过程”或简称为“一般意图挖掘”。

在正常操作模式下，一般意图挖掘从会话数据(诸如座席-客户会话的集合)挖掘意图，即与意图相关联的意图标记和话语两者。如已经讨论的，该过程依据会话的语法结构和语义内容来指导。例如，句法依存性和POS标签可用于从会话内的带有意图的话语中找到候选意图，而方法如潜在语义分析(LSA)可用于缩小话语中的显著意图。然后通过关联语义上相似的显著意图来获得意图标记、意图替代和意图辅助，这继而帮助将话语链接到特定意图。如已经公开的，机器人创作者可使用经由一般意图挖掘所挖掘的数据来训练NLU模型，然后这些NLU模型驱动会话机器人。

应当理解，意图挖掘的该一般框架从以下假设出发：机器人创作者不知道通常存在于会话数据中的意图，以及/或者尚未相对于会话的集合或相似会话领域开发NLU模型。因此，一般意图挖掘过程(例如，采用上文所公开的意图挖掘引擎的过程)基本上在没有先验领域知识的情况下开始，并且仅基于数据的会话内容来推导或挖掘意图。

然而，很多时候，这种假设不适用。即，机器人创作者可能已经知道特定领域中的意图。在这种情况下，机器人创作者可理解通常存在于某些会话中或预期存在于特定会话领域中的意图。例如，这一点在银行或旅行领域中可能是正确的。此外，在许多情况下，NLU模型可能已经被训练，并且机器人如旅游或银行机器人已经被机器人创作者发布。在此类场景中，现有的领域知识可用于通过使用意图播种过程来指导意图挖掘过程挖掘特定意图。如将看到的，作为通过播种进行的意图挖掘的一部分，现有的领域知识以种子意图数据的形式馈送到挖掘过程中。此类种子意图数据可由意图标记(其可称为“种子意图”或“种子意图标记”)和与每一者相关联的样本话语组成。然后，本意图挖掘过程使用该种子意图数据来针对种子意图中的每个种子意图从会话数据挖掘更多话语，同时还针对可在会话数据中找到的任何其他显著意图找到话语。如上所述，该挖掘过程在本文中称为“通过播种进行意图挖掘的过程”或简称为“通过播种进行的意图挖掘”。

如将看到的，通过播种进行的意图挖掘可协助机器人创作者快速识别属于种子意图的更多话语，这些话语可用于训练或改进NLU模型。由于此类系统可挖掘除了给定种子意图之外的其他显著意图，因此该过程可有助于机器人创作者识别针对不同时间范围而变化的客户意图。

与上文所讨论的一般意图挖掘方法一样，利用播种意图进行意图挖掘的过程可经由导入会话数据来发起。一般而言，本通过播种进行的意图挖掘的其他步骤可与上文相对于一般意图挖掘所公开的那些步骤相同或相似。因此，为了简洁说明，将主要关注通过播种进行的意图挖掘不同于上文相对于图9所呈现的一般意图挖掘过程的那些地方。

根据本发明，通过播种进行的意图挖掘使用种子意图数据。如本文所用，种子意图数据包括一个或多个种子意图以及针对该一个或多个种子意图中的每个种子意图的一组相关联样本话语。然后，通过播种进行的意图挖掘用会话数据处理种子意图数据以获得意图替代和/或用于与种子意图相关联的其他话语。此类意图替代以与上面的部分中给出的生成候选意图的方式大致相同的方式来获得。在这种情况下，种子意图和相关联的样本话语被认为是会话数据内由客户提供的带有意图的话语。从这些话语获得的归一化的动作-对象对构成每个种子意图的意图替代。

一旦针对每个种子意图获得了意图替代，就从由会话数据导出的该组候选意图中识别种子意图辅助，如上文关于图9的讨论中所提供的。关于找到种子意图辅助以及将话语和种子意图相关联的步骤，通过播种进行意图挖掘的过程可与上文所述的一般意图挖掘过程相同或相似。如在前一部分中，这里也可采用使用嵌入的语义相似性技术。可计算带有意图的话语中的每句带有意图的话语的候选意图与每个种子意图的意图替代之间的相似性。带有意图的话语与种子意图相关联，前提条件是：a)带有意图的话语的组成候选意图中的任一者与该种子意图的意图替代的语义相似性是最高的；以及b)语义相似性被确定为高于最小阈值(例如，高于0.8的得分)。此外，如前所述，相对于种子意图中的一个种子意图产生最高相似性得分的候选意图作为“意图辅助”或更具体地作为“种子意图辅助”被纳入种子意图中。

通过播种进行的意图挖掘还可包括导出在会话数据内发现的与在种子意图数据中识别的那些意图不同的其他显著意图。关于识别此类显著意图，通过播种进行意图挖掘的过程可与上文所述的一般意图挖掘过程相同或相似。即，识别候选意图，然后相对于权重对概念组内的那些候选意图进行排序，其中来自该组的预先确定数量的较高权重候选意图被选择。在这些锁选择的候选意图中，重复条目被丢弃，具有较高权重的那些条目是被保留的条目。在完成该步骤时，通过播种进行意图挖掘的过程可包括来自上文相对于一般意图挖掘所公开的过程的附加过程。具体地，该附加过程包括丢弃已经被识别为种子意图辅助的任何所识别的候选意图。

下一步骤是找出与所挖掘的意图相关联的话语。与前一部分类似，这里采用使用嵌入的语义相似性技术。计算话语的候选意图与所有组的意图之间的相似性。如果话语的组成候选意图中的任一者与意图组的意图的相似性最高并且高于最小阈值(例如，0.8)，则该话语与该意图组相关联。产生最高相似性的候选意图被纳入该组中并且称为“意图辅助”。已经被识别为种子意图辅助的候选意图从该练习中被丢弃。

应当理解，给定上文关于没有播种的意图挖掘(即，相对于图9所讨论的一般意图挖掘过程)和有播种的意图挖掘(即，相对于图10所讨论的通过播种进行意图挖掘的过程)所讨论的功能，若干不同使用情况或应用是可能的。在第一种情况下，在没有播种的情况下执行意图挖掘。这可用于从给定的会话数据挖掘显著意图和与该显著意图相关联的话语。第二种情况涉及执行一般意图挖掘和通过播种进行的意图挖掘的混合情况。应当理解，这种情况可用于给定的会话数据，以挖掘显著意图和相关联话语两者以及用于与一组给定种子意图相关联的更多话语。在第三种情况下，使用有播种的意图挖掘来提供对预先确定的一组意图种子的集中挖掘。该最后一种情况可用于挖掘用于与预先确定组内的种子意图中的每个种子意图相关联的附加话语。

具体参考图10，提供了用于使用意图种子进行意图挖掘的方法600。在示例性实施方案中，方法600包括接收种子意图的初始步骤605。种子意图中的每个种子意图包括意图标记和样本带有意图的话语。在步骤610处，从会话数据中识别带有意图的话语。在步骤615处，从带有意图的话语中选择候选意图。在步骤620处，从样本带有意图的话语中识别种子意图替代。然后，在步骤625处，将新话语与种子意图相关联。现在将在以下示例中更详细地讨论这些步骤。

根据示例性实施方案，提供了用于创作会话机器人和使用意图播种进行意图挖掘的计算机实现的方法。该方法可包括：接收会话数据，该会话数据包括从会话导出的文本，其中这些会话中的每个会话是客户与客户服务代表之间的；接收可包括种子意图的种子意图数据，种子意图中的每个种子意图包括种子意图标记和与种子意图相关联的样本带有意图的话语；使用意图挖掘算法来自动挖掘会话数据以确定要与种子意图相关联的新话语；扩充种子意图数据以包括与种子意图相关联的所挖掘的新话语；以及将所扩充的种子意图数据上传到会话机器人中，并使用会话机器人来与其他客户进行自动会话。

就利用种子意图进行挖掘而言，意图挖掘算法可包括分析在会话数据的会话内出现的话语以识别带有意图的话语。这些话语各自可包括会话内的回合，由此客户以客户话语的形式或客户服务代表以客户服务代表话语的形式正在进行通信。带有意图的话语可被定义为话语中被确定有更大可能表达意图的话语。意图挖掘算法还可包括分析所识别的带有意图的话语以识别候选意图。候选意图各自被识别为在带有意图的话语中的一句带有意图的话语内出现的文本短语，该文本短语具有两个部分：动作和对象，该动作可包括描述目的或任务的字词或短语，该对象可包括描述动作所作用的对象或事物的词或短语。意图挖掘算法还可包括：对于种子意图中的每个种子意图，从与该种子意图相关联的样本带有意图的话语中识别种子意图替代。种子意图替代被识别为在样本带有意图的话语中的一句样本带有意图的话语内出现的文本短语，该文本短语可包括两个部分：动作和对象，该动作可包括描述目的或任务的字词或短语，该对象可包括描述动作所作用的对象或事物的词或短语。意图挖掘算法还可包括：经由确定存在于带有意图的话语中的候选意图与属于种子意图标记中的每个种子意图标记的种子意图替代之间的语义相似度来将来自会话数据的带有意图的话语与种子意图相关联。

根据示例性实施方案，识别带有意图的话语的步骤可包括：选择客户话语的第一部分作为带有意图的话语，以及丢弃会话数据内的客户话语的第二部分。客户话语的第一部分可被定义为在会话中的每个会话开始时出现的预先确定数量的连续客户话语，并且第二部分可被定义为会话中的每个会话的剩余部分。识别带有意图的话语的步骤还可包括丢弃客户话语的第一部分中未能满足字数约束的客户话语。字数约束可包括：最小字数约束，其中丢弃客户话语的第一部分中具有比最小字数约束更少的字词的客户话语；和/或最大字数约束，其中丢弃客户话语的第一部分中具有比最大字数约束更多的字词的客户话语。

根据示例性实施方案，识别种子意图替代的步骤可包括：使用句法依存解析器来分析样本带有意图的话语的语法结构，以识别中心-语元对，每个中心-语元对包括由语元词修饰的中心词；以及使用词性(下文中为“POS”)标签来对样本带有意图的话语的词性加标签，并且将中心-语元对识别为候选意图，其中中心词的POS标签可包括名词标签，并且语元词的POS标签可包括动词标签。

根据示例性实施方案，将来自会话数据的带有意图的话语与种子意图相关联的步骤可包括重复地执行第一过程以涵盖与种子意图中的每个种子意图有关的带有意图的话语中的每句带有意图的话语，其中，如果相对于涉及第一显著意图组和第二显著意图组以及包含第一候选意图和第二候选意图的第一带有意图的话语的示例性第一种情况进行描述，则第一过程可包括：计算第一候选意图和第二候选意图中的每一者与第一种子意图中的意图替代中的每一者之间的语义相似度；计算第一候选意图和第二候选意图中的每一者与第二种子意图中的意图替代中的每一者之间的语义相似度；确定哪些意图替代产生最高计算的语义相似度；以及将第一带有意图的话语与第一种子意图和第二种子意图中包含被确定为产生最高计算的语义相似度的意图替代的一者相关联。

在另选使用情况中，本发明的方法包括使用意图挖掘算法来自动挖掘新意图以及挖掘用于与一组给定种子意图相关联的新话语。在此类情况下，该方法可包括扩充种子意图数据以包括所挖掘的新意图。在这种情况下，意图挖掘算法还可包括：根据一个或多个标准，从存在于带有意图的话语中的尚未与种子意图中的一个种子意图相关联的候选意图(下文中为“不相关联的带有意图的话语”)中选择显著意图；根据显著意图之间的语义相似度，将所选择的显著意图分组为显著意图组；对于显著意图组中的每个显著意图组，选择显著意图中的一个显著意图作为意图标记以及指定其他显著意图作为意图替代；以及经由确定存在于不相关联的带有意图的话语中的候选意图与显著意图组中的每个显著意图组内的意图替代之间的语义相似度来将来自会话数据的不相关联的带有意图的话语与显著意图组相关联。所挖掘的新意图可各自包括显著意图组中的给定显著意图组，这些显著意图组中的每个显著意图组由以下定义：显著意图中被选择作为意图标记的显著意图以及显著意图中被指定作为替代意图的其他显著意图；以及变成与显著意图组中的给定显著意图组相关联的不相关联的带有意图的话语。

根据示例性实施方案，从候选意图中选择显著意图的一个或多个标准可包括基于潜在语义分析(LSA)的标准。从候选意图中选择显著意图的步骤可包括：生成具有与候选意图中的相应候选意图对应的文档的一组文档，其中文档中的每个文档涵盖由候选意图中的对应候选意图所定义的动作-对象对；基于在该组文档中包含的动作-对象对中出现的项来生成概念组；针对概念组中的每个概念组计算候选意图中的每个候选意图的权重值，该权重值衡量文档中的给定文档的候选意图与概念组中的给定概念组之间的相关性程度；以及基于预先确定数量的候选意图产生指示更高相关性程度的权重值而在概念组中的每个概念组中选择预先确定数量的候选意图作为显著意图。

根据示例性实施方案，根据语义相似度对显著意图进行分组的步骤可包括：针对显著意图中的每个显著意图计算嵌入，其中嵌入可包括文本的编码表示，其中语义上相似的文本具有相似的编码表示；比较所计算的嵌入以确定显著意图的对之间的语义相似度；以及对具有高于预先确定的阈值的语义相似度的显著意图进行分组。嵌入被计算为显著意图的组成中心-语元对的全局向量嵌入的逆文档频率(IDF)平均值。比较所计算的嵌入可包括余弦相似性。

根据示例性实施方案，将来自会话数据的不相关联的带有意图的话语与显著意图组相关联的步骤可包括重复地执行第一过程以涵盖与显著意图组中的每个显著意图组有关的不相关联的带有意图的话语中的每句带有意图的话语。如果相对于涉及第一显著意图组和第二显著意图组以及包含第一候选意图和第二候选意图的第一不相关联的带有意图的话语的示例性第一种情况进行描述，则第一过程可包括：计算第一候选意图和第二候选意图中的每一者与第一显著意图组中的意图替代中的每一者之间的语义相似度；计算第一候选意图和第二候选意图中的每一者与第二显著意图组中的意图替代中的每一者之间的语义相似度；确定哪些意图替代产生最高计算的语义相似度；以及将第一不相关联的带有意图的话语与第一显著意图组和第二显著意图组中包含被确定为产生最高计算的语义相似度的意图替代的一者相关联。

本领域的技术人员将理解，可进一步选择性地应用上文结合若干示例性实施方案所述的许多不同特征和配置，以形成本发明的其他可能的实施方案。为简洁起见并考虑到本领域普通技术人员的能力，未提供或详细讨论可能迭代中的每个可能迭代，但以下几项权利要求或以其他方式所包含的所有组合和可能的实施方案旨在成为本申请的一部分。此外，通过以上对本发明的若干示例性实施方案的描述，本领域的技术人员将会想到改进、改变和修改。本领域的技术范围内的此类改进、改变和修改也旨在由所附权利要求涵盖。此外，应当显而易见的是，前述内容仅涉及本申请的所述实施方案，并且在不脱离以下权利要求书及其等同物所限定的本申请的实质和范围的情况下，可在本文中作出许多改变和修改。

Claims

1.一种用于创作会话机器人的计算机实现的方法，所述计算机实现的方法包括：

接收会话数据，所述会话数据包括从会话导出的文本，其中所述会话中的每个会话是客户与客户服务代表之间的；

使用意图挖掘算法来从所述会话数据自动挖掘意图，所挖掘的意图中的每个所挖掘的意图包括意图标记、意图替代和相关联话语；

将所挖掘的意图上传到所述会话机器人中，并使用所述会话机器人来与其他客户进行自动会话；

其中所述意图挖掘算法包括：

分析在所述会话数据的所述会话内出现的话语以识别带有意图的话语，其中：

所述话语各自包括所述会话内的回合，由此所述客户以客户话语的形式或所述客户服务代表以客户服务代表话语的形式正在进行通信；并且

带有意图的话语被定义为所述话语中被确定有更大可能表达意图的话语；

分析所识别的带有意图的话语以识别候选意图，其中所述候选意图各自被识别为在所述带有意图的话语中的一句带有意图的话语内出现的文本短语，所述文本短语具有两个部分：动作和对象，所述动作包括描述目的或任务的字词或短语，所述对象包括描述所述动作所作用的对象或事物的字词或短语；

根据一个或多个标准从所述候选意图中选择显著意图；

根据所述显著意图之间的语义相似度，将所选择的显著意图分组为显著意图组；

对于所述显著意图组中的每个显著意图组，选择所述显著意图中的一个显著意图作为所述意图标记以及指定所述显著意图中的其他显著意图作为所述意图替代；以及

经由确定以下两者之间的语义相似度来将所述带有意图的话语与所述显著意图组相关联：存在于所述带有意图的话语中的所述候选意图；和所述显著意图组中的每个显著意图组内的所述意图替代。

2.根据权利要求1所述的方法，其中所挖掘的意图各自包括：

所述显著意图组中的给定显著意图组，所述显著意图组中的每个显著意图组由以下定义：

所述显著意图中被选择作为所述意图标记的所述显著意图；和

所述显著意图中被指定作为所述替代意图的所述其他显著意图；和

与所述显著意图组中的所述给定显著意图组相关联的所述带有意图的话语。

3.根据权利要求2所述的方法，其中所述识别所述带有意图的话语包括：选择所述客户话语的第一部分作为所述带有意图的话语，以及丢弃所述会话数据内的所述客户话语的第二部分；并且

其中所述客户话语的所述第一部分被定义为在所述会话中的每个会话开始时出现的预先确定数量的连续客户话语，并且所述第二部分被定义为所述会话中的每个会话的剩余部分。

4.根据权利要求3所述的方法，其中所述识别所述带有意图的话语还包括：丢弃所述客户话语的所述第一部分中未能满足字数约束的所述客户话语；并且

其中所述字数约束包括以下中的至少一者：

最小字数约束，其中丢弃所述客户话语的所述第一部分中具有比所述最小字数约束更少的字词的客户话语；和

最大字数约束，其中丢弃所述客户话语的所述第一部分中具有比所述最大字数约束更多的字词的所述客户话语。

5.根据权利要求4所述的方法，其中所述识别带有意图的话语的步骤包括：将在所述会话中的每个会话的所述第一部分内出现的所述客户话语串接成组合客户话语；并且

其中：

所述最小字数约束包括在2个至5个字词之间的值；并且

所述最大字数约束包括在40个至50个字词之间的值。

6.根据权利要求2所述的方法，其中所述识别候选意图的步骤包括：

使用句法依存解析器来分析所述带有意图的话语的语法结构，以识别中心-语元对，每个中心-语元对包括由语元词修饰的中心词；

使用词性(下文中称为“POS”)标签来对所述带有意图的话语的词性加标签，并且将所述中心-语元对识别为所述候选意图，其中所述中心词的所述POS标签包括名词标签，并且所述语元词的所述POS标签包括动词标签。

7.根据权利要求6所述的方法，其中所述从所述候选意图中选择所述显著意图包括选择所述候选意图中被确定为比所述候选意图中的其他候选意图更频繁地出现在所述带有意图的话语中的候选意图。

8.根据权利要求6所述的方法，其中从所述候选意图中选择所述显著意图的所述一个或多个标准包括基于潜在语义分析的标准。

9.根据权利要求6所述的方法，其中所述从所述候选意图中选择所述显著意图包括：

生成具有与所述候选意图中的相应候选意图对应的文档的一组文档，其中所述文档中的每个文档涵盖由所述候选意图中的所述对应候选意图所定义的动作-对象对；

基于在所述一组文档中包含的所述动作-对象对中出现的项来生成概念组；

针对所述概念组中的每个概念组计算所述候选意图中的每个候选意图的权重值，所述权重值衡量所述文档中的给定文档的所述候选意图与所述概念组中的给定概念组之间的相关性程度；以及

基于预先确定数量的所述候选意图产生指示更高相关性程度的权重值而在所述概念组中的每个概念组中选择所述预先确定数量的所述候选意图作为所述显著意图。

10.根据权利要求9所述的方法，其中所述根据所述语义相似度对所述显著意图进行分组包括：

针对所述显著意图中的每个显著意图计算嵌入，其中嵌入包括文本的编码表示，其中语义上相似的文本具有相似的编码表示；

比较所计算的嵌入以确定所述显著意图的对之间的所述语义相似度；以及

对具有高于预先确定的阈值的语义相似度的所述显著意图进行分组。

11.根据权利要求10所述的方法，其中所述嵌入被计算为所述显著意图的所述组成中心-语元对的全局向量嵌入的逆文档频率平均值；

其中所述比较所计算的嵌入包括余弦相似性；并且

其中所述用所述意图标识符标记所述显著意图组中的每个显著意图组包括选择所述显著意图组中的每个显著意图组内的所述显著意图中的代表性显著意图。

12.根据权利要求6所述的方法，其中所述将来自所述会话数据的所述话语与所述显著意图组相关联包括重复地执行第一过程以涵盖与所述显著意图组中的每个显著意图组有关的所述带有意图的话语中的每句带有意图的话语，其中，如果相对于涉及第一显著意图组和第二显著意图组以及包含第一候选意图和第二候选意图的第一带有意图的话语的示例性第一种情况进行描述，则所述第一过程包括：

计算所述第一候选意图和所述第二候选意图中的每一者与所述第一显著意图组中的所述意图替代中的每一者之间的语义相似度；

计算所述第一候选意图和所述第二候选意图中的每一者与所述第二显著意图组中的所述意图替代中的每一者之间的语义相似度；

确定哪些所述意图替代产生最高计算的语义相似度；以及

将所述第一带有意图的话语与所述第一显著意图组和所述第二显著意图组中包含被确定为产生所述最高计算的语义相似度的所述意图替代的一者相关联。

13.根据权利要求12所述的方法，其中所述将来自所述会话数据的所述话语与所述显著意图组相关联包括仅在还发现所述最高计算的语义相似度超过预先确定的相似性阈值的情况下才关联产生所述最高计算的语义相似度的所述意图替代。

14.一种用于自动化创作会话机器人的方面的系统，所述系统包括：

处理器；和

存储器，其中所述存储器存储指令，所述指令在由所述处理器执行时使所述处理器执行以下操作：

使用意图挖掘算法来从所述会话数据自动挖掘意图，所挖掘的意图中的每个所挖掘的意图包括意图标记、意图替代和相关联话语；以及

其中所述意图挖掘算法包括：

根据一个或多个标准从所述候选意图中选择显著意图；

15.根据权利要求14所述的系统，其中所挖掘的意图各自包括：

16.根据权利要求15所述的系统，其中所述识别所述带有意图的话语包括：选择所述客户话语的第一部分作为所述带有意图的话语，以及丢弃所述会话数据内的所述客户话语的第二部分；并且

17.根据权利要求16所述的系统，其中所述识别所述带有意图的话语还包括：丢弃所述客户话语的所述第一部分中未能满足字数约束的所述客户话语；并且

其中所述字数约束包括以下中的至少一者：

18.根据权利要求15所述的系统，其中所述识别带有意图的话语的步骤包括：将在所述会话中的每个会话的所述第一部分内出现的所述客户话语串接成组合客户话语；并且

其中：

所述最小字数约束包括在2个至5个字词之间的值；并且

所述最大字数约束包括在40个至50个字词之间的值。

19.根据权利要求15所述的系统，其中所述识别候选意图的步骤包括：

20.根据权利要求19所述的系统，其中所述从所述候选意图中选择所述显著意图包括选择所述候选意图中被确定为比所述候选意图中的其他候选意图更频繁地出现在所述带有意图的话语中的候选意图。

21.根据权利要求19所述的系统，其中从所述候选意图中选择所述显著意图的所述一个或多个标准包括基于潜在语义分析的标准。

22.根据权利要求19所述的系统，其中所述从所述候选意图中选择所述显著意图包括：

23.根据权利要求22所述的系统，其中所述根据所述语义相似度对所述显著意图进行分组包括：

24.根据权利要求23所述的系统，其中所述嵌入被计算为所述显著意图的所述组成中心-语元对的全局向量嵌入的逆文档频率平均值；

其中所述比较所计算的嵌入包括余弦相似性；并且

25.根据权利要求19所述的系统，其中所述将来自所述会话数据的所述话语与所述显著意图组相关联包括重复地执行第一过程以涵盖与所述显著意图组中的每个显著意图组有关的所述带有意图的话语中的每句带有意图的话语，其中，如果相对于涉及第一显著意图组和第二显著意图组以及包含第一候选意图和第二候选意图的第一带有意图的话语的示例性第一种情况进行描述，则所述第一过程包括：

确定哪些所述意图替代产生最高计算的语义相似度；以及

26.根据权利要求25所述的系统，其中所述将来自所述会话数据的所述话语与所述显著意图组相关联包括仅在还发现所述最高计算的语义相似度超过预先确定的相似性阈值的情况下才关联产生所述最高计算的语义相似度的所述意图替代。