CN115062627A

CN115062627A - 用于基于人工智能的计算机辅助说服系统的方法和装置

Info

Publication number: CN115062627A
Application number: CN202210236447.3A
Authority: CN
Inventors: 黃宏灿; 李明桦
Original assignee: Rocos Technology Beijing Co ltd
Current assignee: Rockstar Holdings Ltd
Priority date: 2021-05-27
Filing date: 2022-03-11
Publication date: 2022-09-16
Anticipated expiration: 2042-03-11
Also published as: CN115062627B

Abstract

本发明提供了用于基于AI的计算机辅助说服系统(CAPS)的方法和系统。CAPS从目标和代理两者获得针对对象的输入，基于对输入的分析动态地生成说服参考。CAPS通过使用递归网络(RNN)模型分析代理音频流和目标音频流来获得内容输出，基于卷积神经网络(CNN LSTM)模型获得情绪分类器，更新对话矩阵，并且基于所更新的对话矩阵生成说服参考。说服参考是基于使用RNN模型从对话矩阵生成的接受可能性结果。CAPS还使用具有目标大数据的输入的DNN(深度神经网络)来生成目标简档，其中目标简档包括一个或多个对象，以及其中基于所生成的简档和一个或多个所选择的对象来选择代理。

Description

用于基于人工智能的计算机辅助说服系统的方法和装置

技术领域

本发明总体涉及一种说服系统，更具体地，涉及一种计算机辅助说服系统。

背景技术

说服是在不使用强制或欺骗的情况下尝试改变他人态度或行为或两者。在设计有效的市场和销售活动时，已经对消费者行为进行了大量的说服研究。随着计算机技术的快速发展，说服的心理理论被应用到计算机技术中。传统上，说服被分类为三个类别，即，人际说服、计算机介导的说服和人机说服。当人们彼此交互时，发生人际说服。人际交流包括口头和非口头形式的行为、个人反馈、行为的一致性和改变其他人的态度和/或行为的意图。计算机技术的发展提供了其它说服方法。人们可以通过电子邮件、即时消息或其他计算机技术来说服其他人。这被称为计算机介导的说服。这样的示例是某人阅读博客并被该博客中呈现的论点所说服。随着人机交互技术的发展，说服技术也随之发展。它被定义为当与计算机技术交互时如何说服人们的研究。这在这里被称为人机说服。具体而言，说服技术被定义为一类被有意地设计为改变他人态度或行为的技术。它也被称为“计算机说服学(captology)”，是由斯坦福大学的一名教授Fogg创造的术语。它集中于“正在被开发以改变人们的态度或行为的计算产品的设计、研究和分析”。另一方面，说服系统是计算机化的软件，被设计为在没有任何强制或欺骗的情况下增强、改变或塑造态度或行为或两者。

这三种说服方式之间的主要区别在于说服者的来源或起源。在人际说服和计算机介导的说服中，说服者是发起想要说服另一人的过程的人。人机说服与这两种说服不同，因为不总是可能知道实际的说服者是谁。计算机技术没有它们自己的意图。然而，创建、分发或采用该技术的人具有影响某人的态度或行为的意图和动机。在某种意义上，总是有计算机技术背后的“人”。与人际交互和交流的基于AI的社交机器人技术的最近发展高度表明类似于社交交流的交互在人机交互中是可能的。例如，半仿人机器人可以辅助银行中的客户。其他社交机器人被证明在帮助儿童自闭症方面是有效的。个性化Web代理或聊天机器人(Chatbot)与用户之间的交互可以被认为是有说服力的交流。从纯粹的人际说服到计算机介导的说服，到人机说服，计算机智能扮演了越来越重要的角色。然而，社交机器人技术受到物理硬件(即机器人)的限制。当前的技术缺乏说服者、目标(即，被说服者)、对象(即，说服主题)和计算机系统之间的交互式集成。当前计算机系统中交互式集成的缺乏大大降低了说服技术的有效性。需要将新的基于AI的技术集成到说服系统中，以提高系统的准确性和效率。

需要改进和增强说服计算机系统。

发明内容

本发明提供了用于基于AI的计算机辅助说服系统(CAPS)的方法和系统。基于AI的CAPS在说服对话期间获得并监控来自目标和代理两者的针对对象的输入。CAPS基于对输入的分析动态地生成说服参考。在一个实施例中，CAPS通过使用基于递归网络(RNN)深度学习模型的自动语音识别(ASR)分析代理音频流和目标音频流来获得代理内容输出和目标内容输出，获得针对代理音频流的代理情绪分类器和针对目标音频流的目标情绪分类器，其中每个情绪分类器从由对应的音频流的卷积神经网络(CNN LSTM)模型分析所产生的情感分类器导出，基于先前的和当前的内容输出以及针对代理和目标的情绪分类器来更新包括先前的和当前的音频流分析的对话矩阵，以及基于所更新的对话矩阵来生成说服参考。在另一实施例中，说服参考是基于使用RNN模型从对话矩阵生成的接受可能性结果。在一个实施例中，说服参考包括一个或多个指导，该一个或多个指导包括：第一对象的参考资料、第一对象的指导资料、针对代理的声音情绪改变的建议、以及一个或多个建议的新对象。在另一实施例中，对说服参考中的一个或多个指导进行排名。在一个实施例中，所述一个或多个建议的新对象是使用具有来自与所述第一对象相关联的主题大数据的输入的DNN(深度神经网络)来生成的。在又一实施例中，说服参考还基于一个或多个先前的说服参考来生成。在一个实施例中，对话矩阵指示没有遵循关于一个或多个先前的说服参考的一系列指导。在另一实施例中，情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及情绪分类器选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。在又一实施例中，CAPS还使用具有目标大数据的输入的DNN来生成目标简档，其中目标简档包括一个或多个对象，以及其中基于所生成的简档和一个或多个所选择的对象来选择代理。

在一个新颖方面，规范分析系统被提供用于基于更新后的对话矩阵获得一个或多个偏离主题项。当代理正在与目标关于目标主题进行对话时，该系统从目标获得目标音频流，并通过使用递归网络(RNN)模型分析目标音频流来获得目标内容输出，使用对应的情感分类器检测目标内容输出中的一个或多个偏离主题项，基于先前的和当前的目标内容输出和针对目标内容输出的情绪分类器来更新包含先前的和当前的目标音频流分析的对话矩阵，并且基于更新后的对话矩阵生成针对一个或多个偏离主题项的规范分析结果。在一个实施例中，基于规范分析结果生成说服参考，该规范分析结果包括具有对应的成功可能性的一个或多个偏离主题项。使用RNN模型从对话矩阵生成对应的偏离主题项的每个成功可能性。在另一实施例中，说服参考包括关注于目标主题的推销指导(exploitationguidance)和关于一个或多个偏离主题项的探索指导(exploration guidance)。

其它实施例和优点在以下详细描述中描述。本发明内容并不旨在限定本发明。本发明由权利要求书限定。

附图说明

附图示出本发明的实施例，其中相同的附图标记表示相同的组件。

图1示出根据本发明的实施例的包括基于AI的计算机辅助说服系统(CAPS)的不同计算机说服系统的示例性示图。

图2示出根据本发明的实施例的基于AI的计算机辅助说服系统的示例性示图。

图3示出根据本发明的实施例的基于输入音频流的语音情绪分类器生成的示例性示图。

图4示出根据本发明的实施例的使用直接映射基于音频流的语音情感分类器来获得用于音频流的情绪分类器的示例性示图。

图5示出根据本发明的实施例的基于AI的计算机辅助说服系统的示例性系统示图。

图6示出根据本发明的实施例的使用基于AI的计算机辅助说服系统在至少代理、目标、对象和尝试之间执行n元匹配的示例性示图。

图7示出根据本发明的实施例的执行基于AI的计算机辅助说服的采取计算机系统形式的机器的示例性框图。

图8示出根据本发明的实施例的用于基于AI的计算机辅助说服系统的示例性流程图。

图9示出根据本发明的实施例的顶级规范分析过程的示例图。

图10示出根据本发明的实施例的规范分析引擎的有限状态机(FSM)的示例图。

图11示出根据本发明的实施例的规范分析过程的示例性流程图。

具体实施例

现在将详细参考本发明的一些实施例，其示例在附图中示出。

图1示出根据本发明的实施例的包括基于AI的计算机辅助说服系统(CAPS)的不同计算机说服系统的示例性示图。在典型的说服通信中，存在三个主要组件，诸如代理102之类的说服者、诸如目标103之类的被说服者和诸如对象104之类的说服主题。目标103是指说服尝试想要针对的实体或实体组，例如消费者、学生或投票者。代理102指的是负责设计和构建对象的说服尝试的实体，例如负责广告活动的公司、个人销售人员或教师。对象104是诸如产品、服务、投票、学习概念或技能之类的说服主题。说服尝试是指代理在呈现被设计为影响目标的信念、态度、决策或动作的信息时的策略性行为。尝试是说服传递模态。例如，尝试可以是亲自或通过电话或使用虚拟会议的一对一会议。这些年来开发了不同的说服模型。人际说服112使用代理102与目标103之间的直接的人对人交流。随着技术的发展，诸如计算机系统101之类的计算机系统被开发用于说服交流。人机说服者113使用目标103与计算机系统101之间的直接的人机交流。“背后有人”计算机系统101创建算法和内容以与目标103交流。如果诸如产品和服务选择之类的对象104比较简单，则人机说服113是有效的。例如，使用有效的聊天机器人直接与目标103交流。然而，存在比较复杂以致消费者花费大量时间和努力来浏览和分类信息的产品，尤其是服务。对于这样的服务和产品，在线与聊天机器人对话是低效的，并且可能给目标103增加挫折感。例如，考虑订阅新的健康计划、购买新的人寿保险、决定新的金融产品、购买新的房子、干预患者的行为改变、向学生教授新的主题等。所有这些情况使得作为产品或服务的说服者的人“中介”成为消费者所必需的。然后，说服变成传统意义上的人际说服的问题。计算机系统在计算机介导的说服114中起作用，代理102指示计算机系统101与目标103交流。计算机介导的说服114用于在线商店。诸如在线购物者之类的目标103直接与计算机系统交互，而代理102在后端更新内容。计算机介导的说服114缺乏人际交互。近来，存在消费者正寻求只能由另一人服务的离线服务的活动。另外，当前的说服计算机系统缺少最新的技术，例如基于AI的简档分析和语音情绪分类。

在一个新颖方面，计算机系统101是基于AI的计算机辅助说服系统。计算机辅助说服111具有代理102与目标103之间的直接交流路径，其具有由计算机系统101提供的集成服务，该计算机系统101是计算机辅助说服系统(CAPS)。CAPS 101基于对目标、代理、对象和一次或多个尝试之间的n元关系的分析，给代理102提供说服参考。为CAPS 101实现AI技术，例如数据挖掘/深度学习。目标是针对整个过程的焦点。基于目标简档、他们已经获取或购买的对象以及代理在特定领域的尝试中的简档来开发领域特定深度学习模型。例如，考虑典型的人寿保险销售过程。目标是人寿保险产品的消费者。对象是不同类型的人寿保险产品。代理是人寿保险销售代理。尝试是目标与代理之间的1对1销售会议。

图2示出根据本发明的实施例的基于AI的计算机辅助说服系统的示例性示图。在一个新颖的方面，在CAPS中使用特定领域的深度学习模型。深度学习模块201识别针对目标的对象的集合、可以针对所识别的对象最佳地服务目标组的代理的集合、以及最佳尝试/传递模态，其中代理可以使成功最大化。领域特定的深度学习模块201生成领域特定的数据库的集合，包括对象知识库(KOY)211、尝试知识库(KOM)212、目标知识库(KOT)213和代理知识库(KOA)214。获得针对每个特定领域的大数据，以开发和训练关于目标、对象、代理和尝试的深度学习模型201。在一个实施例中，在步骤221，给定潜在的目标，深度学习模块201识别参考尝试模态、一个或多个对象以及一个或多个匹配的代理，以最大化说服的成功。深度学习模块201支持其他类型的查询。在另一实施例中，给定一个或多个对象，深度学习模块201识别潜在目标组、参考尝试模态和一个或多个匹配代理，以最大化说服的成功。在一个实施例中，对所识别的对象、目标和/或代理进行排序。

基于AI的计算机辅助系统包括动态说服指导子系统230。动态说服指导子系统230包括说服指导生成器231、动态内容生成器235、语音分析模块236和说服尝试模块237。CAPS生成说服内容和指导并传递到代理。在一个实施例中，通过内容流将说服内容和指导传递到代理。在另一实施例中，内容流被传递到代理的移动设备。在另一实施例中，类似于音频增强现实(AAR)，音频内容流被传递到代理的头戴式耳机。在一个实施例中，说服尝试模块237获得用于说服对话的代理和目标的音频流。在其他实施例中，通过说服尝试模块237获得一个或多个说服尝试的记录，例如视频流或其他说服交换的手段。语音分析模块236分析来自说服尝试模块237的音频流或目标与代理之间的其他形式的交换。来自分析模块236的分析结果被发送到说服生成器231。说服生成器237基于分析的输入来动态地更新说服参考和/或说服指导。

在一个实施例中，说服交换是音频流。针对内容交换和伴随的情绪分类器，分析来自目标和代理的音频流。针对内容以及针对并发情感和/或情绪分析每个音频流。增强的语音分析使得CAPS能够更好地模拟人际交互场景，以提高对话的内容的准确性。

图3示出根据本发明的实施例的基于输入音频流的语音情绪分类器生成的示例性示图。在一个新颖方面中，除了对音频流或作为音频流的一部分的音频剪辑的内容评估之外，基于音频流/音频剪辑的情感分类器来生成并发情绪分类器。一般而言，情绪分类器生成300包括音频捕获系统301、语音情感分类器处理311、结果情感分类器312和结果情绪分类器350。

音频捕获系统301接收输入音频流，例如目标音频流或与说服对话的一部分对应的代理音频流。音频捕获系统301将所识别的音频流发送到语音情感分类器处理311。语音情感分类器处理311使用语音情感识别过程来识别针对音频流/剪辑的情情感分类器。语音情感识别基于采取两个步骤的机器学习模型。第一步是特征提取。第二步是建模。特征提取具有不同的方法。一种方法是直接从原始声音样本中检测显著特征。另一种方法仅使用声音文件的一个特定的特征作为学习模型的输入。后一种方法本质上是使用手工的特征声音文件的有监督的机器学习模型。有监督的学习模型产生更好的准确性。然而，它更昂贵，并且它需要专家或专业知识。一旦提取了特征，就可以开发、训练、评估和微调分类器模型。已经提出了许多数据挖掘模型，包括支持向量机(SVM)、逻辑回归、隐藏马尔可夫模型和诸如卷积神经网络(CNN)和深度神经网络(DNN)之类的神经网络。存在基于所使用的不同模型的不同的情感分类器。一旦针对对应的音频流/剪辑生成情感分类器312，则生成情绪分类器350。在一个实施例中，使用直接映射来基于预定义的规则将每个情感分类器映射到预定义的情绪分类器的集合。

在一个实施例中，使用1维(1D)CNN LSTM 320来生成语音情感分类器。针对对应的对话捕获音频剪辑文件302。1D CNN LSTM 321处理音频剪辑。1D CNN LSTM从音频剪辑的原始数据中识别语音情感。经处理的数据被发送到分类器322，以生成情感分类器结果处理器323。结果处理323为音频流/剪辑生成预定义的情感分类器。所生成的语音情感分类器351被映射到情绪分类器352。

在另一实施例中，使用2维(2D)CNN LSTM 330来生成情感分类器。针对说服对话的所识别的对应部分产生音频流/剪辑303。2D CNN LSTM 331处理音频流。2D CNN LSTM从手工特征中学习全局上下文信息。经处理的数据被发送到分类器332以生成情感分类器结果处理器333。结果处理333为音频剪辑生成预定义的情感分类器。所生成的情感分类器351被映射到情绪分类器352。

可以使用不同的语音情感识别方法来从音频流获得语音情感分类器。在一个实施例中，语音情感分类器用于生成与音频流的内容输出相关的情绪分类器。

图4示出根据本发明的实施例的用于使用直接映射基于音频流的情感分类器来获得针对音频流的情绪分类器的示例性示图。情绪分类器生成器400包括映射规则403、情感分类器401和情绪分类器402。使用诸如1D CNN LSTM和2D CNN LSTM之类的语音情感识别方法来获得针对音频剪辑的情感分类器401。在一个实施例中，限定七个不同的情感分类器，以识别音频剪辑的情感结果。表410的列1示出七个情感分类器的示例，包括激动、快乐、中性、悲伤、沮丧、愤怒和惊讶。在一个实施例中，使用每个情感分类器到情绪分类器的映射。映射规则403用于映射过程。表410示出七个情感分类器到对应的情绪分类器的示例性映射。情绪分类器与其对应的相同的音频剪辑的评估结果一起使用。映射规则403是预定义或预配置的。映射规则403也可以动态地改变。表410中示出映射的示例。例如，情感分类器“激动”被映射到情绪分类器“极端积极”。类似地，“快乐”被映射到“积极”，“中性”被映射到“中性”，“悲伤”被映射到“消极”，“沮丧”被映射到“消极”，“愤怒”被映射到“极端消极”，以及“惊讶”被映射到“惊讶”。

图5示出根据本发明的实施例的基于AI的计算机辅助说服系统的示例性系统示图。基于AI的CAPS 500包括：音频输入模块510，用于当代理与目标进行对话时从目标获得目标音频流并且从代理获得代理音频流，对话是针对第一对象的说服尝试；内容输出模块520，用于通过使用递归网络(RNN)模型分析代理音频流和目标音频流来获得代理内容输出和目标内容输出；语音分类器模块530，用于获得针对代理音频流的代理情绪分类器和针对目标音频流的目标情绪分类器，每个情感分类器是从由对应的音频流的卷积神经网络(CNN)模型分析产生的情感分类器导出的；对话处理模块550，用于基于先前的和当前的内容输出以及针对代理和目标的情绪分类器来更新包括先前的和当前的音频流分析的对话矩阵；以及说服参考模块560，用于基于所更新的对话矩阵来生成说服参考。在一个实施例中，基于AI的CAPS 500还包括简档模块580，该简档模块580使用具有目标大数据的输入的DNN来生成目标简档，目标简档包括一个或多个对象，以及基于所生成的简档和一个或多个所选择的对象来选择代理。

音频输入模块510获得两个音频流，一个来自代理501，一个来自目标502。代理音频流输入511从代理501捕获音频流，并且将其传递到语音分析器540。目标音频流输入521从目标502捕获音频流，并且将其传递到语音分析器540。语音分析器540包括内容输出模块520和语音分类器模块530。

在一个新颖的方面，CAPS 500分析目标音频流和代理音频流两者。在步骤521，内容输出模块520执行基于RNN的自动语音识别(ASR)。RNN(NLP/NLU)模型522分析并分类文本。在步骤523，内容输出模块520基于对应的音频流(例如目标音频流和代理音频流)来执行评估。内容输出模块520生成代理内容输出551和目标内容输出552。语音情感分类器530还分析目标音频流代理音频流两者。语音分类器530针对对应的音频流生成代理情绪分类器553和目标情绪分类器554。语音分析器540识别尝试中的若干主要发现，即，(1)目标感兴趣的新对象，(2)目标的一般的和特定于某些对象的情感，和(3)代理的情感。对目标的语音情感分析指示兴趣的等级。可以基于目标的兴趣等级来即时添加新的对象内容。对目标的语音情感分析还提供指导以帮助代理参与目标。如果兴趣的等级低，则代理可以丢弃该主题并移到另一主题。如果兴趣的等级是中性的，则代理可以尝试不同的策略，以更积极地推动它或者和缓地推动它，这取决于目标的简档。该策略指导也被动态创建，并且可由代理访问。

在一个实施例中，使用语音分析器540的输出来更新对话矩阵。对话矩阵维持说服对话的分析结果的历史的输出。CAPS 500使用对话矩阵550来生成说服参考560。基于输入和对来自目标和代理的输入的分析来动态地更新说服参考560。在一个实施例中，在尝试期间，动态对象内容和指导被流传输到代理的设备。可以以若干方式实现指导。例如，脚本可以显示在代理应用的UI上，设备上的UI可以是彩色编码的，或者可以将表情符号添加到UI。另外，如果技术上可能，则通过代理的耳机的声音指导可以实时同步动态对象内容，类似于音频增强现实(AAR)技术。在另一实施例中，还基于一个或多个先前的说服参考561来生成说服参考560。在一个实施例中，CAPS 500基于音频流输入来确定代理没有遵循先前的说服参考和/或说服指导。CAPS 500基于对先前的说服参考的分析和来自代理和/或目标的输入来生成针对代理的更新后的说服参考。在另一实施例中，先前说服参考561被维持为对话矩阵560的部分。在一个实施例中，对话矩阵560包括针对对应的条目的时间戳。

在一个实施例中，CAPS 500还包括生成和匹配代理简档581和目标简档582的简档模块580。简档模块580使用大数据来匹配说服者、代理、被说服者、目标、说服主题和对象。在以下段落中进一步说明三个一组匹配。

图6示出根据本发明的实施例的使用基于AI的计算机辅助说服系统，在至少代理、目标、对象和尝试之间执行n元匹配的示例性示图。传统的说服系统不提供有效的方式来进行用于说服过程的n元匹配。CAPS通过训练和获得至少目标、对象、代理和尝试的简档来执行n元匹配。领域特定深度学习模块601基于目标大数据611生成目标简档621。在一个实施例中，基于对象大数据612，领域特定深度学习模块601生成相关联的潜在对象622。从代理池631中选择一个或多个代理。每个所选择的代理具有与目标简档621和潜在对象622相匹配的代理简档。由于目标大数据611和对象大数据612随着越来越多的数据变得可用而动态地更新，所以在至少目标、对象和代理之间的n元匹配是更新且更准确的。说服过程更有效。在另一实施例中，使用尝试大数据来生成传递模态/尝试参考(未示出)。使用传递模态参考来更准确地选择代理。例如，基于代理简档，从候选代理池中选择在与目标和/或对象相关联的参考列表上的一种类型的模态中更熟练的代理。

图7示出根据本发明的实施例的执行基于AI的计算机辅助说服的采取计算机系统形式的机器的示例性框图。在一个实施例中，装置/设备700具有指令集，该指令集使得设备执行用于面试问题的语音情感识别的任何一种或多种方法。在另一实施例中，该设备作为独立设备操作或者可以通过网络连接到其他设备。采取计算机系统形式的装置700包括一个或多个处理器701、主存储器702、以及静态存储器单元703，通过总线711与其他组件通信。网络接口712将装置700连接到网络720。装置700还包括用户接口和I/O组件713、控制器731、驱动器单元732以及信号和/或传感器单元733。驱动器单元732包括机器可读介质，在其上存储一个或多个指令集和数据结构，例如由一种或多种方法实现或利用的用于语音情感识别功能的软件。软件在执行期间还可以完全或部分地驻留在主存储器702、一个或多个处理器701内。在一个实施例中，一个或多个处理器701被配置为：当代理正在与目标进行对话时，从目标获得目标音频流并且从代理获得代理音频流，其中对话是针对第一对象的说服尝试；通过使用递归网络(RNN)模型分析代理音频流和目标音频流来获得代理内容输出和目标内容输出；获得针对代理音频流的代理情绪分类器和针对目标音频流的目标情绪分类器，其中每个情感分类器是从由对应的音频流的卷积神经网络(CNN LSTM)模型分析产生的情感分类器导出的；基于先前的和当前的内容输出以及针对代理和目标的情绪分类器来更新包括先前的和当前的音频流分析的对话矩阵；以及基于所更新的对话矩阵生成说服参考。在一个实施例中，运行一个或多个处理器701的软件组件在不同的联网设备上运行，并且经由预定义的网络消息彼此通信。在另一实施例中，这些功能可以采取软件、固件、硬件或任意组合来实现。

图8示出根据本发明的实施例的基于AI的计算机辅助说服系统的示例性流程图。在步骤801，当代理正在与目标进行对话时，CAPS从目标获得目标音频流并且从代理获得代理音频流，其中对话是针对第一对象的说服尝试。在步骤802，CAPS通过使用递归网络(RNN)模型分析代理音频流和目标音频流来获得代理内容输出和目标内容输出。在步骤803，CAPS获得针对代理音频流的代理情绪分类器和针对目标音频流的目标情绪分类器，其中每个情绪分类器是从由对应音频流的卷积神经网络(CNN LSTM)模型分析产生的情感分类器导出的。在步骤804，CAPS基于先前和当前的内容输出以及针对代理和目标的情绪分类器来更新包括先前和当前的音频流分析的对话矩阵。在步骤805，CAPS基于所更新的对话矩阵来生成说服参考。

在一个新颖方面，规范分析系统被提供用于基于更新后的对话矩阵获得一个或多个偏离主题(新主题)项。CAPS分析来自代理和目标的音频流以生成说服参考。在目标-代理对话期间，目标可能偏离主题。偏离主题对话提供关于目标的另外的信息，并且可以是开发规范参考的价值信息。

如果描述分析告诉你发生了什么并且预测分析告诉你可能发生什么，则规范分析告诉你应该做什么。理想地，规范分析(PA)是为了最大化给定系统的最优性能。更重要的是，PA需要提供原因作为决策的基础；用户可以了解规范的原因。换句话说，PA成为决策的合理性。对于PA，基本上有两种主要的途径，即，数据驱动和领域专家驱动。数据驱动途径类似于预测分析，其包括机器学习算法、统计分析、和概率建模，但是其提供了进一步包括数学建模、模拟、和基于逻辑的建模的一个步骤。PA中的数据驱动的主要障碍是预测分析中的相同原因，即，如果不是不可能的话，也难以获得大量的有意义的规范数据集来训练模型。为了补偿大数据集的缺乏，使用模拟来创建足够大的随机数据集以用于模型训练。但是，保险销售的复杂决策的模拟并不总是很有效。另外，机器学习模型和模拟是黑箱。它们是无法解释的。另一方面，基于逻辑的PA具有许多优点；它不需要大的数据集(大的数据集是有帮助的，但不是先决条件)。

图9示出根据本发明的实施例的顶级规范分析过程的示例图。当代理正在与目标关于目标主题进行对话时，对话音频流过程911从目标获得目标音频流。在一个实施例中，过程911在目标主题的对话期间从代理获得代理音频流。内容输出模块920通过使用递归网络(RNN)模型分析目标音频流来获得目标内容输出。在一个实施例中，模块920还使用RNN模型来获得代理内容输出。语音分类器模块930获得用于音频流的对应的情绪分类器。每个情绪分类器从情感分类器导出，该情感分类器由对应的音频流的卷积神经网络(CNN LSTM)模型的分析得到。对话处理模块950基于先前的和当前的目标内容输出以及针对目标内容输出的情绪分类器来更新包含先前的和当前的目标音频流分析的对话矩阵。规范分析模块901基于更新后的对话矩阵生成针对一个或多个偏离主题项的规范分析结果902。

在一个新颖方面，在目标内容输出中检测一个或多个偏离主题项。偏离主题项包括不是原始对话/问答的主题内容的一部分的内容。使用RNN模型检测/识别偏离主题项。在一个实施例中，规范分析引擎901将所识别的偏离主题项与客户/目标可能感兴趣的规范对象相关联。在一个实施例中，规范药分析引擎901基于主题和内容972生成针对这些所识别的偏离项的说服参考。在一个实施例中，规范分析结果包括具有对应的成功可能性的一个或多个偏离主题项。使用RNN模型从对话矩阵生成的对应的偏离主题项的每个成功可能性。说服参考902包括关注于目标主题的推销指导和关于一个或多个偏离主题项的探索指导。在说服过程中，有两种主要的方法，即，推销和探索。推销是关注于当前主题，即，关于主题的(on-topic)，而非漫无方向。探索是尝试新的主题，即，偏离主题的(off-topic)，探索新的方向，可能会引导我们的处境好转。在一个实施例中，基于规范分析结果生成不同的策略，例如贪婪策略和增殖策略。贪婪策略关注于在短期内最大化奖励或成功。例如，如果目标显示出主题的极端积极情感，则策略将优先化和分配资源以支持该主题，而不管是关于主题的还是偏离主题的。另一方面，增殖策略考虑了长期的总回报或成功。目的是播下种子并快速发展潜在的主题。当代理开始与目标对话时，初始主题可能仅仅是用于破冰。代理可以从一个主题快速移动到另一主题，使其可以探索和识别吸引目标的主题。这构建了主题的通道并动态地推进过程。表1示出具有关于主题和偏离主题条目的示例性对话矩阵。

表1：具有偏离主题条目的对话矩阵

表1示出目标和代理之间关于目标主题的示例性对话/问答#1。带注释的对话表明主题A是由代理发起的对话主题，因此其被称为关于主题或目标主题。目标对对话主题的响应可以具有许多变化。例如，在此示例中，目标对主题A是中性的。然而，目标却带着不同的情感提出了主题B和主题C。主题B和C被称为偏离主题的，因为它们不是由代理发起的当前目标主题的主题。存在目标可能对相同的对话中的主题具有不同反应的情况。在这种情况下，带注释的对话将使用最近的响应。规范分析引擎901将采用该带注释的对话、包括先前的规范分析结果的先前输出971以及主题和内容972作为输入以规范下一个规范分析结果902。在一个实施例中，对话矩阵还包括先前的和当前的代理音频流分析，该先前的和当前的代理音频流分析基于使用RNN模型生成的先前的和当前的代理内容输出和针对代理内容输出的情绪分类器。规范分析引擎901基于规范分析结果902和针对代理的输出生成说服参考902。

在一个实施例中，规范分析引擎是作为有限状态机(FSM)的模型，其中，情感作为状态以及说服策略作为行动计划，以在FSM中过渡。

图10示出根据本发明的实施例的用于规范分析引擎的有限状态机(FSM)的示例图。对话矩阵1001被识别为FSM中的状态1070中的一个，包括极端积极1071积极1072、中性1073、消极1074、非常消极1075、极端消极1076、和惊讶1077。它们实质上是由语音情感分类器对代理和目标之间的对话而识别的情感。惊讶1077可以是积极的或消极的。因此，需要过程评估(1087)来确定其性质，例如，通过简单的后续问题。FSM状态对应于情绪分类器，情绪分类器是从由对应的音频流的卷积神经网络(CNN LSTM)模型分析产生的对应的情感分类器导出的。情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感、和惊讶的情感在内的情感群组。对于每个状态，为代理规范策略1080，该策略1080包括策略-1 1081、策略-2 1082、策略-3 1083、策略-4 1084、策略-5 1085、策略-6 1086和评估1087。当代理执行该策略时，对话被捕获、分析、并被添加至对话矩阵。在步骤1010，实施并检查策略，以确定策略是否成功。当说服成功时，状态转变结束。如果步骤1010确定“是”，则FSM进入1020“完成”。如果步骤1010确定“否”，则FSM返回到1001以进行新的迭代。

规范引擎将实施该状态图。规范引擎可以由电路、软件、固件、或其组合来实现。在其他实施例中，规范引擎可以在通过信号消息或互联网通信进行通信的一个处理器或多个设备上实现。规范引擎的FSM图在以下决策表(表2)中呈现，例如在IF-Then-ELSE语句的迭代循环中。

表2：针对规范分析的决策表

代理目标：G-贪婪；P-增殖.

目标情感：E-激动；H-快乐；N-中性；S-悲伤；F-沮丧；A-愤怒。

代理语调：C+E-核心+热情；C-核心；C+Em-核心+共情。

代理态度：A-自信；A+BR-自信+瞬间建立亲和关系；CM+RM-有同情心+瞬间建立亲和关系

决策表具有两个部分。顶部“条件”部分描述包括考虑中的策略计划、代理的目标、和当前目标的情感的条件。下方的“行动”部分指示推荐的行动。基于来自对话的目标的情感为状态中的每个设计策略。代理的目标是代理是否想要获得快速的短期奖励(即，贪婪)，或者代理是否正在努力以最大化其长期奖励(即，增殖途径)。

行动包括两个主要推荐组成：游戏计划和执行计划。游戏计划本质上是推销和探索之间的努力和资源分配的平衡。执行计划建议代理应该如何与目标进行沟通。例如，当目标对当前话题感到兴奋时考虑策略1。游戏计划是分配98％的推销时间和2％的探索时间。也就是说，如果会话进行三十分钟，则代理应当花费二十九分钟在推销当前主题上，希望这样做会成功，并且通过基于关联、购物篮、或其他数据挖掘推荐引入偏离主题项来花费一分钟探索。规范引擎将与内容和主题数据集对接以动态地生成关于主题或潜在的偏离主题的说服内容。对于声音的语调，存在所有代理人都遵守的语音的一般核心语调，即，耐心、尊重、和关怀。其它的语调是热情和共情。此外，在说服目标时，代理的态度很重要。在推荐中使用了三种一般的态度。自信态度是指“正式的、信息性的、可信赖的、严肃的、和专业的”态度。瞬间建立亲和关系是指代理通过共享体验或观点、通过在普通中找到事物、通过共享个人体验使其快乐或悲伤来建立与目标的情感连接的态度。瞬间建立亲和关系是为了形成代理和目标之间的结合。有同情心是“一起受苦”。“富有同情心”是让代理分担目标的痛苦、悲伤、和沮丧，并找到解决办法来克服它。例如，当目标表现出关于当前主题的悲伤时，考虑策略4。贪婪途径的游戏计划将80％关注于探索并将20％关注于推销。声音的语调采用具有共情的核心语调。执行计划是富有同情心和瞬间建立亲和关系。行动是建立信任和融洽。表2中的行动计划是经验研究的结果，并且不是用于其他说服项目的一般和明确的方案。在其他实施例中，规范分析引擎获得大数据集并且使用机器学习来生成行动计划。在另一实施例中，领域专家系统被用于限定规则以生成行动计划。

图11示出根据本发明的实施例的规范分析过程的示例性流程图。在步骤1101，当代理正在与目标关于目标主题进行对话时，系统从目标获得目标音频流。在步骤1102，系统通过使用递归网络(RNN)模型分析目标音频流来获得目标内容输出。在步骤1103，使用对应的情绪分类器检测目标内容输出中的一个或多个偏离主题项。在步骤1104，系统基于先前的和当前的目标内容输出和针对目标内容输出的情绪分类器来更新包含先前的和当前的目标音频流分析的对话矩阵。在步骤1105，系统基于更新后的对话矩阵生成针对一个或多个偏离主题项的规范分析结果。

尽管出于指导的目的已经结合某些特定实施例描述了本发明，但是本发明不限于此。因此，在不偏离根据权利要求书中所阐述的本发明的范围的情况下，可以实践所描述的实施例的各种特征的各种修改、适配和组合。

Claims

1.一种方法，包括：

当代理正在与目标关于目标主题进行对话时，由计算机系统从所述目标获得目标音频流，其中所述计算机系统具有与至少一个存储器单元耦接的一个或多个处理器；

通过使用递归网络(RNN)模型分析所述目标音频流来获得目标内容输出；

使用对应的情绪分类器检测所述目标内容输出中的一个或多个偏离主题项；

基于先前的和当前的目标内容输出和针对所述目标内容输出的情绪分类器来更新包含先前的和当前的目标音频流分析的对话矩阵；以及

基于更新后的对话矩阵生成针对所述一个或多个偏离主题项的规范分析结果。

2.根据权利要求1所述的方法，其中，所述规范分析结果包括具有对应的成功可能性的所述一个或多个偏离主题项。

3.根据权利要求2所述的方法，其中，使用所述RNN模型从所述对话矩阵生成对应的偏离主题项的每个成功可能性。

4.根据权利要求3所述的方法，还包括：基于所述规范分析结果来生成说服参考。

5.根据权利要求4所述的方法，其中，所述说服参考包括关注于所述目标主题的推销指导和关于所述一个或多个偏离主题项的探索指导。

6.根据权利要求5所述的方法，其中，基于所述规范分析结果为所述探索指导分配时间百分比。

7.根据权利要求1所述的方法，其中，所述对话矩阵还包括先前的和当前的代理音频流分析，所述先前的和当前的代理音频流分析基于使用所述RNN模型生成的先前的和当前的代理内容输出和针对所述代理内容输出的情绪分类器。

8.根据权利要求1所述的方法，其中，每个情绪分类器是从由对应的音频流的卷积神经网络(CNN LSTM)模型分析得到的情感分类器导出的。

9.根据权利要求8所述的方法，其中所述情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及所述情绪分类器选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。

10.根据权利要求9所述的方法，其中，每个情绪分类器规范由所述代理通过后续对话传递的对应策略，所述对应策略使用来自所述后续对话的新的音频流来更新所述对话矩阵。

11.一种系统，包括：

音频输入模块，当代理正在与目标关于目标主题进行对话时，所述音频输入模块从所述目标获得目标音频流；

内容输出模块，所述内容输出模块通过使用语音到文本模块并随后使用递归网络(RNN)模型分析音频流来学习文本内容获得代理和目标内容输出；

偏离主题模块，所述偏离主题模块使用对应的情绪分类器检测所述目标内容输出中的一个或多个偏离主题项；

对话处理模块，所述对话处理模块基于先前的和当前的内容输出以及针对所述目标内容输出的情绪分类器来更新包括先前的和当前的目标音频流分析的对话矩阵；以及

规范分析模块，所述规范分析模块基于更新后的对话矩阵生成针对所述一个或多个偏离主题项的规范分析结果。

12.根据权利要求11所述的系统，其中，所述规范分析结果包括具有对应的成功可能性的所述一个或多个偏离主题项。

13.根据权利要求12所述的系统，其中，使用所述RNN模型从所述对话矩阵生成对应的偏离主题项的每个成功可能性。

14.根据权利要求13所述的系统，还包括：基于所述规范分析结果来生成说服参考。

15.根据权利要求14所述的系统，其中，所述说服参考包括关注于所述目标主题的推销指导和关于所述一个或多个偏离主题项的探索指导。

16.根据权利要求15所述的系统，其中，基于所述规范分析结果为所述探索指导分配时间百分比。

17.根据权利要求11所述的系统，其中，所述对话矩阵还包括先前的和当前的代理音频流分析，所述先前的和当前的代理音频流分析基于使用所述RNN模型生成的先前的和当前的代理内容输出和针对所述代理内容输出的情绪分类器。

18.根据权利要求11所述的系统，其中，每个情绪分类器是从由对应的音频流的卷积神经网络(CNN LSTM)模型分析产生的情感分类器导出的。

19.根据权利要求18所述的系统，其中，所述情感分类器选自包括愤怒的情感、激动的情感、沮丧的情感、快乐的情感、中性的情感、悲伤的情感和惊讶的情感在内的情感群组，以及所述情绪分类器选自包括极端积极、积极、中性、消极、极端消极和惊讶在内的情绪群组。

20.根据权利要求19所述的系统，其中，每个情绪分类器规范由所述代理通过后续对话传递的对应策略，所述对应策略使用来自所述后续对话的新的音频流来更新所述对话矩阵。