CN116806339A - 虚拟对话系统性能评估与丰富 - Google Patents

虚拟对话系统性能评估与丰富 Download PDF

Info

Publication number
CN116806339A
CN116806339A CN202280010890.7A CN202280010890A CN116806339A CN 116806339 A CN116806339 A CN 116806339A CN 202280010890 A CN202280010890 A CN 202280010890A CN 116806339 A CN116806339 A CN 116806339A
Authority
CN
China
Prior art keywords
computer
query
log
virtual
disambiguation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280010890.7A
Other languages
English (en)
Inventor
R·马亨德鲁
A·库马尔
A·曼达尔
D·罗苏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN116806339A publication Critical patent/CN116806339A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2178Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor
    • G06F18/2185Validation; Performance evaluation; Active pattern learning techniques based on feedback of a supervisor the supervisor being an automated module, e.g. intelligent oracle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了涉及用于改进采用自动虚拟对话代理的虚拟对话代理系统的性能的计算机系统、计算机程序产品和计算机实现的方法的实施例。实施例涉及从用户的知识库生成地面实况(GT),以及利用GT来评估虚拟对话代理使用GT执行的情况。评估测量多轮虚拟对话的质量,以及生成针对虚拟对话代理的算法改进的补救计划。

Description

虚拟对话系统性能评估与丰富
背景技术
本发明实施例中的一个或多个实施例涉及一种采用自动虚拟对话代理(诸如,聊天机器人(chatbot))的虚拟对话系统以及相关的计算机程序产品和计算机实现的方法。在特定示例性实施例中,评估并选择性地解析对应的自动虚拟对话代理交互的质量标准,该解析针对将一个或多个补救动作选择性地应用于自动虚拟对话代理,例如,以改进关于自然语言(NL)对话事件的性能。
自动虚拟对话代理使用人工智能(AI)作为平台来进行自动虚拟对话代理与通常诸如消费者或客户端之类的用户或甚至另一对话代理之间的NL交互。交互可涉及产品销售、客户服务、信息获取或其他类型的交互或事务。聊天机器人通过对话与用户交互,对话通常是文本的(例如,在线的或者通过文本的)或者是听觉的(例如,通过电话)。本领域已知聊天机器人充当用户和AI平台之间的问题-答案组件。问题(或查询)和答案(或响应)的质量从问题理解、问题转换和答案解析的质量来导出。通常在请求相应响应的不适当或低效率的问题生成中发现未达到质量标准的常见原因。这可能是由于缺乏将问题有效转换成映射到答案的等效知识表示的知识,或者它可能是由于AI平台或聊天机器人内的低效率。例如,缺少同义词或概念关系可限制AI平台确定由客户或客户端输入的问题等效于或相关于数据集或数据库内可得到答案的已知问题的能力。
企业可对虚拟协助提出期望在虚拟系统的商业部署之前被满足的特定要求,如准确度或交互质量。例如,对于支持代理用户库(base),虚拟系统可能具有例如50%准确度的最小性能要求,或者对于最终用户库,具有例如90%准确度的最小性能要求。因此,希望在部署之前使对话系统经历基准测试或质量测试。
发明内容
实施例包括用于改进对话系统的性能的系统、计算机程序产品和方法。提供本“发明内容”以便以简化形式介绍在以下“具体实施方式”中进一步描述的代表性概念的选择。本“发明内容”并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于以任何方式限制所要求保护的主题的范围。
在一个方面中,提供一种计算机系统,其具有在操作上耦接到存储器的处理器和在操作上耦接到所述处理器的人工智能(AI)平台。所述AI平台包括用于改进虚拟对话代理的性能的一个或多个工具。所述工具包括地面实况(GT)管理器、模拟器、评估管理器以及补救管理器。所述GT管理器被配置为从知识源自动生成GT。所述模拟器被配置为使用所述虚拟对话代理来模拟NL对话交互。更具体地,所述模拟器被配置为利用所述GT来驱动所模拟的NL对话所生成的输出,并且创建对应的模拟日志。所述评估管理器被配置为在考虑所述GT的情况下评估所述虚拟对话代理关于所述模拟日志的性能。所述补救管理器被配置为在考虑性能阈值的情况下识别并选择性地实现对所述对话系统的一个或多个补救动作。
在另一个方面中,提供一种计算机程序产品,其具有计算机可读存储介质以及存储在所述计算机可读存储介质上的程序代码。所述程序代码能够由计算机处理器执行以提高虚拟对话代理的性能。提供程序代码以从知识源自动生成地面实况(GT)。还提供程序代码以使用所述虚拟对话代理来模拟NL对话交互。所述模拟利用所述GT来驱动所模拟的NL对话所生成的输出,以及创建对应的模拟日志。提供程序代码以在考虑所述GT的情况下评估所述虚拟对话代理关于所述模拟日志的性能,以及在考虑性能阈值的情况下识别并选择性地实现对所述对话系统的一个或多个补救动作。
在又一个方面中,提供了一种用于改进虚拟对话代理的性能的计算机实现的方法。所述方法被配置为从知识源自动生成地面实况(GT)。NL对话交互经历使用所述虚拟对话代理的模拟。所述模拟利用所述GT来驱动所模拟的NL对话交互所生成的输出,以及创建对应的模拟日志。在考虑所述GT的情况下评估所述虚拟对话代理关于所述模拟日志的性能。在考虑性能阈值的情况下识别并选择性地实现对所述对话系统的一个或多个补救动作。
通过结合附图进行的当前示例性实施例的以下详细描述,这些和其他特征和优点将变得显而易见。
附图说明
在此参考的附图形成说明书的一部分并且通过引用结合在此。除非另外指明,否则附图中所示的特征仅意味着对一些实施例的说明,而不是对所有实施例的说明。
图1描绘了示出网络环境中的人工智能平台计算系统的系统图。
图2描绘了示出如图1所示和所描述的人工智能平台工具及其相关联的应用程序接口的框图。
图3描绘了示出从对应的知识源自动生成地面实况的方法的实施例的流程图。
图4描绘了示出生成基于使用的GT的方法的实施例的流程图。
图5描绘了示出生成基于监管(curation)的GT的方法的实施例的流程图。
图6描绘了示出模拟与对话系统的交互的方法的实施例的流程图。
图7描绘了示出进行虚拟对话系统性能评估的方法的实施例的流程图。
图8描绘了示出基于云的支持系统的计算机系统/服务器的示例的框图,该计算机系统/服务器用于实现以上关于图1-7描述的系统和过程。
图9描绘了示出云计算机环境的框图。
图10描绘了示出由云计算环境提供的一组功能抽象模型层的框图。
具体实施方式
将容易理解的是,可以以各种不同配置布置和设计在本文的附图中一般地描述和图示的本发明实施例的组件。由此,附图中所呈现的装置、系统、方法和计算机程序产品的示例性实施例的以下详细描述并不旨在限制所要求保护的实施例的范围,而是仅表示所选择的实施例。
贯穿本说明书提及“选择的实施例”、“一个实施例”、“示例性实施例”、或“实施例”是指结合该实施例所描述的特定特征、结构、或特性被包括在至少一个实施例中。因此,在整个本说明书中的各个位置出现的短语“选择的实施例”、“在一个实施例中”、“在示例性实施例中”或“在实施例中”不一定是指同一个实施例。在此描述的实施例可以被彼此组合并且被修改为包括彼此的特征。此外,各种实施例的所描述的特征、结构或特性可以任何合适的方式被组合和修改。
通过参考附图,将最好地理解示出的实施例,其中,相同的部分在全文中以相同的标号表示。以下描述仅旨在作为示例,并且简单地说明了与本文所要求保护的实施例一致的设备、系统、产品和过程的特定选择的实施例。
在人工智能计算机系统领域中,自然语言系统(诸如IBM 人工智能计算机系统或其他自然语言系统)基于由系统获取的知识来处理自然语言。为了处理自然语言,可以用从数据库或知识语料库导出的数据来训练系统,但是由于多种原因,结果结果可能是不正确的或不准确的。
机器学习(ML)(其是人工智能(AI)的子集)利用算法从数据中学习并基于此数据创建远景。AI指的是当机器基于信息能够做出决策时的智能,这使得在给定主题中成功的机会最大化。更具体地,AI能够从数据集学习以解决问题并提供相关推荐。认知计算是计算机科学和认知科学的混合。认知计算利用使用数据最小值、视觉识别和自然语言处理的自学习算法来解决问题并优化人类过程。
AI和相关推理的核心在于相似性的概念。理解自然语言和对象的过程需要从可能具有挑战性的关系角度进行推理。结构(包括静态结构和动态结构)规定了针对给定确定输入的确定输出或动作。更具体地,所确定的输出或动作基于结构内的明确或固有关系。这种安排对于选择的情况和条件可以是令人满意的。然而,应当理解,动态结构固有地经历改变,并且输出或动作可以相应地经历改变。用于有效地识别对象和理解自然语言以及处理对识别和理解的内容响应以及对结构的改变的现有解决方案在实际水平极为困难。
自动虚拟代理(在本文中称为聊天机器人)是人工智能(AI)程序,其通过使用预先计算的短语和听觉或基于文本的信号来模拟交互式人类会话。聊天机器人越来越多地在用于客户服务支持的电子平台中使用。在一个实施例中,聊天机器人可以用作智能虚拟代理。每个聊天机器人体验包括一组通信,该组通信包括用户动作和对话系统动作,其中体验具有区别性行为模式。本领域中应当理解,可评估聊天机器人对话并对聊天机器人对话进行诊断以确定聊天机器人的要素,这些要素可保证改变以改进未来的聊天机器人体验。
一种系统、计算机程序产品和方法,其通过从知识库自动生成基准数据(在本文中也称为地面实况(GT))来评估自动虚拟对话代理的性能,并且在示例性实施例中,评估多轮对话系统的性能,以评估自动虚拟对话代理。在示例性实施例中,GT是从用户的知识库自动生成的,而不是从标准或通用数据集自动生成的。基准数据生成用作提取知识库范围内的GT的场所。与GT所支持的自动虚拟对话代理进行模拟对话交互。如本文中示出和描述的,自动虚拟对话代理经历性能评估,该性能评估涉及在考虑GT的情况下比较对应的模拟日志。用于测量自动虚拟对话代理的评估的度量包括例如确定自动虚拟对话代理的响应的正确性、自动虚拟对话代理询问的消歧或后续问题的相关性、自动虚拟对话代理询问的消歧或后续问题的数量,和/或自动虚拟对话代理询问的消歧或后续问题的顺序。
自动虚拟对话代理(在本文中也称为聊天机器人平台或聊天机器人)用作AI交互接口。如本文中示出和描述的,聊天机器人平台经历基于与GT的模拟交互的比较的评估。地面实况(在本文中也称为GT)是用于机器学习中的术语,该术语指通过直接观察(例如经验证据)提供的信息,与由推断提供的信息相反。如下文更详细解释的,GT数据包括例如基于内容的信息(诸如知识图或知识库的信息)、使用日志(尤其具有关于这些日志的反馈信息)、主题专家(SME)记录或它们的任意组合。
参考图1,描绘了人工智能(AI)平台和对应的系统(100)的示意图。如所示出的,提供了跨网络连接(例如计算机网络(105))与多个计算设备(180)、(182)、(184)、(186)、(188)和(190)通信的服务器(110)。服务器(110)被配置有跨总线与存储器通信的处理单元(例如处理器)。服务器(110)被示为具有AI平台(150),AI平台(150)在操作上耦接到对话系统(160)、对应的虚拟代理(162)(例如,聊天机器人)、以及相关联的知识库(170)(例如,数据源)。计算设备(180)、(182)、(184)、(186)、(188)和(190)可具备视觉显示器、音频接口、音频-视频接口或被配置以允许用户与虚拟代理(例如,聊天机器人)(162)的表示对接的其他类型的接口。
AI平台(150)在操作上耦接到网络(105)以支持从计算设备(180)、(182)、(184)、(186)、(188)和(190)中的一个或多个与虚拟对话代理(162)的交互。更具体地说,计算设备(180)、(182)、(184)、(186)、(188)和(190)经由一个或多个有线和/或无线数据通信链路彼此通信和与其他设备或组件通信,其中每个通信链路可包括导线、路由器、交换机、发射机、接收机等中的一个或多个。在该联网布置中,服务器(110)和网络连接(105)实现通信检测、识别和解析。服务器(110)的其他实施例可以与除了本文描绘的那些之外的组件、系统、子系统和/或设备一起使用。
AI平台(150)在此也被示为在操作上耦接到知识库(170)(在此也称为信息语料库)。如图所示,知识库(170)配置有多个库,在此作为示例被示为库A(172A)和库B(172B)。虽然在图1中示出了两个库,但是应当理解,知识库(170)可以包括更少或更多的库。此外,多个库(例如,库A(172A)和库B(172B))可以被组合在一起。多个库(库A(172A)和库B(172B))可跨多个知识域(包括知识库(170)和其他知识域(未示出))存在。每个库填充有结构化或非结构化形式的数据。例如,在一个示例性实施例中,结构化数据可以采取知识图的形式。通过示例的方式,库A(172A)填充有表示为知识图(KGs)的结构化知识域,知识图(KGs)在图1中被示为KG0(172A,0)、KG1(172A,1)和KG2(172A,2)。
AI平台(150)在此被示为具有多个工具以支持评估、基准测试、以及改进对话系统(160)和对应的自动虚拟代理(例如,聊天机器人)(162)体验的性能。这些工具包括GT管理器(152)、模拟器(154)、评估管理器(156)和补救管理器(在本文中也被称为导向器)(158)。
GT管理器(152)被配置为从一个或多个知识源(例如知识域,在此通过示例的方式被示为在库A(172A)中)自动生成GT。所生成的GT可以是基于内容的、基于使用的和/或基于监管的。通过利用对应的结构化数据集以基于症状、问题变体和图遍历生成问题并获得症状的相关实体,来自动生成基于内容的GT。在一个示例性实施例中,症状是描述系统或系统的任何组件的一些问题或事项的短语。在图3中示出和描述了基于内容的GT生成的细节。基于使用的GT针对来自使用日志的GT生成,该使用日志采取作为查询文本的工作流的所收集数据的记录的形式。在图4中示出和描述了基于使用的GT生成的细节。基于监管的GT针对由主题专家(SME)手动生成的数据。在该实施例中,SME为来自知识库的选择选项提供辅助以生成测试数据。图5中示出和描述了基于监管的GT生成的细节。相应地,基于内容、基于使用以及基于监管的GT各自利用结构化或非结构化格式的对应知识域来支持并实现GT的自动生成。
每个库填充有被表示为结构化知识的一个或多个知识域,例如,经历GT管理器(152)的处理的知识图。如通过示例示出的,第一知识域被表示为第一知识图(KG)(在图1中被示为KG0(172A,0)),并且被示出具有对应的基于内容的GT(GT0,0(1740,0))、基于使用的GT(GT0,1(1740,1))、以及基于监管的GT0,2(1740,2)。类似地,第二知识域被表示为第二KG(在图1中被示为KG1(172A,1)),并且被示出具有基于内容的GT(GT1,0(1741,0))、基于使用的GT(GT1,1(1741,1))、以及基于监管的GT1,2(1741,2),以及第三知识域被表示为第三KG(在图1中被示为KG2(172A,2)),并且被示出具有基于内容的GT(GT2,0(1742,0))、基于使用的GT(GT2,1(1742,1))、以及基于监管的GT2,2(1742,2)。本文所示的GT的三个类别(例如,内容、使用和监管)可以服务于用于虚拟代理的评估的不同角色。在一个示例性实施例中,GT的三个类别的任何组合可以被用于虚拟代理评估。本文所示的GT类别的数量不应认为是限制性的。在一个示例性实施例中,类别的数量可以包括类别的子集、类别的组合或新的类别。
与聊天机器人(162)的交互采取查询和对应的响应以及后续消歧问题及其响应的序列的形式。这样的交互以及具体地与交互关联的数据被记录和填充在知识库(170)的一个或多个库中。在一个或多个实施例中,在考虑对应的结构化知识(例如KG)的情况下生成一个初始NL查询和一个结果。在一个或多个其他实施例中,生成初始NL查询,并且作为多轮或多步会话或交互的一部分,生成一个或多个后续NL查询以获得NL结果。例如,在对初始NL查询的初始响应未提供满意响应的情况下(无论是由于初始响应中的歧义还是由于另一个原因),一个或多个后续查询的生成是特别有用的。在这样的情况下,在考虑对应的结构化知识(例如KG)的情况下生成第一后续或消歧查询。在第一后续查询未提供满意响应的情况下,在考虑对应的结构化知识的情况下生成第二后续查询或消歧查询。此多轮会话可以一直继续,直到令人满意地解决消歧为止。为了说明的目的,以上仅描述了第一组后续查询和第二组后续查询。然而,应当理解,作为多轮会话或交互的一部分,可以生成附加的(例如,第三、第四等)后续查询。因此,由GT管理器(152)生成基于内容的GT,基于内容的GT采取所生成的问题(其基于症状、问题变体和知识图遍历以获得症状的相关条目)的形式。
除了基于内容的GT之外,GT管理器(152)生成基于使用的GT和基于监管的GT。基于使用的GT在本文中被示为GT0,1(1740,1)、GT1,1(1741,1)和GT2,1(1742,1)。基于使用的GT包括日志和反馈数据。如通过示例示出的,基于使用的GT(GT0,1(1740,1))被示出为具有日志0,1(1760,1)和反馈0,1(1780,1),基于使用的GT(GT1,1(1740,1))被示出为具有日志1,1(1761,1)和反馈1,1(1781,1),以及基于使用的GT(GT2,1(1742,1))被示出为具有日志2,1(1762,1)和反馈2,1(1782,1)。类似地,基于监管的GT(GT0,2(1740,2))填充有监管数据,在此被称为c_数据0,2(1780,2),基于监管的GT(GT1,2(1741,2))被示为具有c_数据1,2(1781,2),以及基于监管的GT(GT2,2(1742,2))被示为具有c_数据2,2(1782,2)。相应地,GT管理器(152)生成多个类别的GT,每个类别的GT与对应的知识域相关联并且被存储在知识库(170)中。
对话系统(160)是交互式AI接口,该交互式AI接口被配置为支持虚拟代理与非虚拟代理(诸如用户(例如,终端用户),其可以是人或软件,以及潜在地是AI虚拟代理)之间的通信。所发生的交互生成所谓的会话或对话交互,其具有用户与虚拟代理之间的这种会话或对话交互的内容。
AI平台(150)在此被示为在操作上耦接到对话系统(160)及对话系统(160)的虚拟对话代理(162),对话系统(160)被配置为跨越网络(105)从不同源接收输入(102)。例如,对话系统(160)可以跨越网络(105)接收输入并且利用知识域之一和对应的GT来创建输出或响应内容。所创建的输出或响应内容可以作为输出(104)跨越计算机网络(105)被返回给同一个源和/或另外的一个或多个源。
与网络(105)通信的不同计算设备(180)、(182)、(184)、(186)、(188)和(190)可包括到对话系统(160)的接入点。在不同实施例中,网络(105)可以包括本地网络连接和远程连接,以使得AI平台(150)可以在任何大小的环境(包括本地和全球,例如互联网)中操作。此外,AI平台(150)充当可以使从文档、网络可访问源和/或结构化数据源中提取或表示的各种知识可用的后端系统。以这种方式,一些处理填充AI平台(150),其中AI平台(150)还包括用于接收请求并相应地响应的输入接口。
如图所示,用户可以经由到网络(105)的网络连接或互联网连接来访问AI平台(150)和在操作上耦接的对话系统(160),并且可以向对话系统(160)提交自然语言(NL)输入,AI平台(150)可以通过利用在操作上耦接的知识库(170)和包括AI平台(150)的工具,来从该自然语言(NL)输入中有效地确定与输入相关的输出响应。
模拟器(154)与对话系统(160)对接,以使用对话系统(160)的自动虚拟对话代理(162)模拟一个或多个NL对话交互。在一个示例性实施例中,模拟器(154)利用在操作上耦接的模拟器应用(154A)来进行与聊天机器人(162)的模拟交互。图6中示出并描述了模拟的细节。模拟定义测试查询集合,该测试查询集合具有存在于对应的知识域中的相应答案,该知识域在一个示例性实施例中被表示为知识图。来自模拟的输出在本文中被称为模拟数据并且包括所有查询和对应的响应的日志,其在一个示例性实施例中包括解或一个或多个消歧选项。第二库(库B(172B))被填充在知识库(170)中,并进一步被填充有模拟数据(在本文中被称为s_数据)。如在本文中通过示例示出的,s_数据0(1540)表示用于利用知识域(172A,0)的聊天机器人(162)的模拟的模拟数据,s_数据1(1541)表示用于利用知识域(172A,1)的聊天机器人(162)的模拟的模拟数据,以及s_数据2(1542)表示用于利用知识域(172A,2)的聊天机器人(162)的模拟的模拟数据。尽管仅一组模拟数据被示为与每个知识域相关联,但是应理解,知识域中的任一个知识域可被用于聊天机器人(162)的模拟,其中每个模拟生成单独的或附加的模拟数据。类似地,尽管每个知识域被示为具有模拟数据,但是应理解,在一个示例性实施例中,并非所有的知识域已经被用于聊天机器人(162)的模拟,并且因此将不会具有对应的模拟数据。因此,对于由交互模拟器(154)所利用的每个知识域,产生采取模拟数据的形式的输出并且将该输出与对应的知识域相关联。
如本文所示,在操作上耦接至模拟器(154)的评估管理器(156)被配置为评估自动虚拟对话代理(162)的性能。评估管理器(156)将被表示为模拟数据的模拟交互与用于对应的知识域的GT进行比较。比较中采用的GT可以包括一种或多种GT类型,包括基于内容、使用和监管的GT。在图7中示出并描述了模拟交互评估的细节。来自评估管理器的输出是多维的,包括所询问的消歧问题的数量和关于测试数据的差别、问题是否以特定次序被询问、以及所呈现的解是否与预期的解相匹配。如本文通过示例所示,输出0(1560)表示利用知识域(172A,0)的模拟数据(1540)的评估的多维输出,输出1(1561)表示利用知识域(172A,1)的模拟数据(1541)的评估的多维输出,以及输出2(1562)表示利用知识域(172A,2)的模拟数据(1542)的评估的多维输出。相应地,评估管理器(156)对聊天机器人(162)进行评估,并以对应的输出数据的形式记录评估。
输出数据包括基于所收集的不同度量的洞察和推荐。业务目标可根据度量和对应的度量测量(诸如聊天机器人的预期准确度)以及可接受的误差范围而被预先定义。此类度量的示例包括但不限于准确度、交互开销、交互长度、后续问题的质量以及响应时间。在一个示例性实施例中,可以对度量进行优先级排序,例如为精确度分配优先级以代替响应时间。与所收集的度量相对应的推荐是针对已定义或预先定义的业务目标与反映一个或多个对应的补救动作的性能和识别的实际度量的自动比较。如本文所示,在操作上耦接到评估管理器(156)的补救管理器(158)用于基于对应的输出来识别一个或多个补救动作以应用于对话系统(160)。例如,在一个实施例中,当虚拟对话代理(162)的性能评估未能满足性能阈值时,可识别一个或多个补救动作。在一个示例性实施例中,在本文中也被称为推荐计划的推荐动作(多个)旨在改进交互开销,这可以通过收集附加的实时数据并且减少交互长度来实现。在一个实施例中,可以实现其他推荐,并且因此,在此所提供的示例不应被认为是限制性的。相应地,补救管理器(158)被配置为实施一个或多个补救动作,以改进自动虚拟对话代理(162)的性能。
由对话系统(160)创建或启用的对话事件可由IBM 服务器(110)和对应的AI平台(150)处理。GT管理器(152)从用户的知识库生成GT,并促进和启用对所生成的GT所支持的对话系统(160)的评估。在一些说明性实施例中,服务器(110)可以是可从纽约阿蒙克的国际商业机器公司获得的IBM />系统,该系统被用下文描述的说明性实施例的机制进行增强。
GT管理器(152)、模拟器(154)、评估管理器(156)和补救管理器(158)(下文中统称为AI工具)被示为包含在服务器(110)的AI平台(150)中或集成在服务器(110)的AI平台(150)内。AI工具可以在跨网络(105)连接到服务器(110)的单独的计算系统(例如,190)中实现。无论在何处实施,AI工具都用于评估对话事件、从请求和响应中提取行为特征、以及选择性地识别和应用一个或多个对应的补救动作以改进对话系统(160)的性能。
可以利用人工智能平台(150)的信息处理系统的类型范围从诸如手持式计算机/移动电话(180)之类的小型手持式设备到诸如大型计算机(182)之类的大型机系统。手持式计算机(180)的示例包括个人数字助理(PDA)、诸如MP4播放器、便携式电视和光盘播放器的个人娱乐设备。信息处理系统的其他示例包括笔或平板计算机(184)、膝上型或笔记本计算机(186)、个人计算机系统(188)和服务器(190)。如图所示,可使用计算机网络(105)将不同信息处理系统联网在一起。可以用于互连不同信息处理系统的计算机网络(105)的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其他无线网络和可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储器,诸如硬盘驱动器和/或非易失性存储器。一些信息处理系统可使用单独的非易失性数据存储器,例如,服务器(190)利用非易失性数据存储器(190A),大型计算机(182)利用非易失性数据存储器(182A)。非易失性数据存储器(182A)可以是在不同信息处理系统外部或可以在信息处理系统之一内部的组件。
用于支持AI平台(150)的信息处理系统可以采取许多形式,其中一些在图1中示出。例如,信息处理系统可以采取台式机、服务器、便携式、膝上型、笔记本或其他形状因数计算机或数据处理系统的形式。此外,信息处理系统可以采取其他形状因数,例如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或包括处理器和存储器的其他设备。
应用程序接口(API)在本领域中被理解为在两个或更多个应用之间的软件中介。关于图1中示出和描述的人工智能平台(150),一个或多个API可用于支持工具(152)、(154)、(156)和(158)中的一个或多个及其相关联的功能。参考图2,提供了示出工具(152)、(154)、(156)和(158)及其相关联的API的框图(200)。如图所示,多个工具被嵌入在AI平台(205)内,这些工具包括与API0(212)相关联的GT管理器(252)、与API1(222)相关联的模拟器(254)、与API2(232)相关联的评估管理器(256)、以及与API3(242)相关联的补救管理器(258)。每个API可以用一种或多种语言和接口规范来实现。API0(212)提供功能支持以从知识源自动生成GT;API1(222)提供功能支持以通过利用GT的自动虚拟代理来模拟NL对话;API2(232)提供功能支持以基于模拟来评估自动虚拟对话代理的性能;以及API3(242)提供功能支持以选择性地识别和实现旨在改进对话系统的性能的一个或多个补救动作。如图所示,API(212)、(222)、(232)和(242)中的每一个在操作上耦接到API编排器(260),API编排器(270)另外被称为编排层,其在本领域中被理解为充当抽象层以将单独的API透明地串接在一起。在一个实施例中,单独的API的功能可以被接合或组合。因此,本文所示的API的配置不应被认为是限制性的。相应地,如本文所示,这些工具的功能可以由它们相应的API来体现或支持。
参考图3,提供了示出用于从对应的知识源自动生成地面实况(GT)的过程的流程图(300)。如示出和描述的,知识源可以是结构化形式(诸如知识图)或非结构化形式。出于描述的目的,GT生成过程是相对于结构化知识源来描述的,尽管这样的结构化格式不应被认为是限制性的。识别相关知识源并从该知识源获得一组症状(302)。在一个示例性实施例中,使用一个或多个选择标准来识别症状子集。对于每个症状,生成自然语言查询(304),其在一个示例性实施例中采用方差(variance)生成和添加或移除实体。在一个实施例中,方差生成是短语的自然语言等效物,并且在此用于通过识别可比较的或等效的术语来扩展查询的范围。搜索知识图(例如,知识域的结构化表示)以寻找与症状匹配的查询文本(306)。在一个示例性实施例中,在步骤(306)利用文本匹配技术,诸如通用句子编码。从步骤(306)处的搜索生成形式为匹配症状(在此也称为匹配)的输出(308)。每个匹配症状具有对应的得分或权重。在一个示例性实施例中,两个或更多个短语或句子的近似匹配是自然语言处理中的常见操作。对来自步骤(308)的该组匹配症状进行阈值评估,在一个示例性实施例中,该阈值评估针对匹配症状的质量。每个匹配症状具有约束。针对每个匹配症状提取约束节点和连接到该约束节点的节点(310)。约束节点不连接到另一个约束节点。步骤(310)处的提取涉及识别约束节点(多个)和连接到约束节点(多个)的所有其他节点两者。例如,针对症状“充电时的电池问题”的解和针对这种症状的具体解可以由特定硬件型号和系列来限制。相应地,约束节点(多个)连接至图中的所有相关节点,作为约束的指示符。
变量XTotal被分配给约束的数量(312),并且对应的约束计数变量X被初始化(314)。基于约束(例如,约束X)生成具有答案选项的一组消歧问题(316)。在一个示例性实施例中,多个约束表示多步会话,并且在每个步骤处生成消歧问题和答案选项,并且该过程一直重复,直到不需要消歧为止。在步骤(316)之后,使约束计数变量X递增(318),并且确定每个约束是否已经被处理(320)。对确定的否定响应之后是返回步骤(316),并且肯定响应结束问题和答案生成。因此,针对每个约束和每个消歧选择路径的一个或多个消歧问题和一个或多个对应的答案选项被记录并被保存为GT。
如图3中所示和所描述的,通过利用知识图生成问题和图遍历以识别一个或多个对应答案的一个或多个相关实体,来自动生成基于内容的GT。如图1所示,生成两种其他形式的GT,包括基于使用和监管的GT。参考图4,提供流程图(400)以说明用于生成基于使用的GT的过程。提供使用日志,该使用日志记录或已记录向用户呈现的原始查询文本和所有后续问题以及用户利用最终解或动作计划作出的选择(402)。使用日志包括关于查询文本中表示的查询是否被满意地回答的反馈。变量XTotal被分配给使用日志中的具有指示至少满意解决的反馈的查询的数量(404)。初始化对应的查询计数变量X(406)。对于查询X,从使用日志获得查询文本(408),还从使用日志获得针对查询X的后续问题(410),以及获得用户选择(412)。在用户与聊天机器人之间的交互中,聊天机器人可以向用户提供后续问题和可选选项作为答案。该交互(包括对选项的选择答案)在步骤(408)-(412)被收集或获得。然后确定是否已经达到查询的解(414)。系统知道它正在发送给用户的信息是后续问题,并且还知道什么信息是对用户问题的解。当系统已发送解而不是下一后续问题时,则确定已达到查询的解。对步骤(414)处的确定的否定响应之后是查询计数变量的递增(416),并且返回步骤(408)。相反地,对步骤(414)处的确定的肯定响应之后是用户选择被识别为解(418)。分别在步骤(408)-(412)和(418)处获得的查询文本、后续问题和用户选择被记录为工作流,并且在本文中被称为基于使用的GT。相应地,评估使用日志以识别与查询文本相对应的一个或多个问题和用户选择并将与查询文本相对应的一个或多个问题和用户选择记录为基于使用的GT。
参考图5,提供了流程图(500)以说明用于生成基于监管的GT的过程。在一个示例性实施例中,基于监管的GT由一个或多个主题专家(SME)手动地生成。如图所示,向SME提供知识库中的症状列表以供参考(502)。SME编写一个或多个文本查询(504),并且为了参考,向SME提供查询的一个或多个潜在答案和每个问题的相关实体(例如,约束)(506)。SME选择查询的优选答案并可选地选择优选后续问题序列以用于消歧(508)。在消歧问题的情况下,执行一致性检查以验证消歧选项是否与对应的知识库一致,并且可以可选地更新知识库以使表示一致(510)。文本查询和对应答案的流以及在一个示例性实施例中用于消歧的一个或多个后续问题被记录并被保存为GT。相应地,在SME的协助下提供了基于监管的GT的记录。
如图1中所示和描述的,提供模拟器(154)以支持NL对话交互的模拟。参考图6,提供流程图(600)以说明用于模拟与对话系统(160)的交互的过程。初始化消歧选择路径计数变量N(602),利用GT数据作为源以驱动与虚拟对话代理的交互,以及使用在操作上耦接的模拟器应用生成查询(例如查询N)并将其发送到自动虚拟代理(604)。查询被记录在对应的模拟日志中(606)。自动虚拟代理用解或一组消歧选项来对查询做出响应(608)。如果响应是解,则在对应日志中记录解(610),而如果响应是一组消歧问题,则递增消歧选择路径计数变量N(612),随后查阅GT以找到GT中针对该查询的消歧问题(614)。在一个示例性实施例中,如果在GT中未找到针对该查询的消歧问题,则取决于配置,该过程可以停止、选择“任何”(如果被提供作为选项)、或者随机选择所提供的选项中的一个。如果选择了问题,则过程返回步骤(606)。在步骤(610)之后,消歧选择路径的数量被分配给变量Ntotal(616)。此后,在模拟日志中记录从模拟获得或识别的问题和答案的日志(618)。相应地,模拟器应用创建记录了从相应的GT接收的输入和生成的输出的模拟交互日志。
对话系统(160)和对应的自动虚拟代理(162)通过利用GT和对应的模拟日志来经历性能评估。参考图7,提供流程图(700)以说明用于进行虚拟对话系统性能评估的过程。如图所示,变量Ntotal被分配给在模拟日志中记录的查询-响应的数量(702),并且对应的计数变量N被初始化(704)。对于每个查询-响应N,找到GT中的对应条目(706)。将模拟日志中的查询-响应与GT中的查询-响应进行比较(708)。根据步骤(708)处的比较生成多维输出,包括:1.实际询问的消歧问题的数量以及GT中的数量之间的差,2.是否以相同顺序询问问题,以及3.模拟日志中所呈现的解与GT解是否匹配。基于针对多个维度中的每个维度生成的输出,生成洞察和推荐(710)。在一个示例性实施例中,一个或多个附加维度可被添加到评估,或者相反地,减少数量的维度可被用于评估。相应地,如本文所示,模拟日志与GT的比较提供对对话系统(160)的性能的洞察。
步骤(710)处的输出数据包括基于所收集的不同度量的洞察和推荐。业务目标可根据度量和对应的度量测量(诸如聊天机器人的预期准确度)以及可接受的误差范围而被预先定义。此类度量的示例包括但不限于准确度、交互开销、交互长度、后续问题的质量以及响应时间。在一个示例性实施例中,可以对度量进行优先级排序,例如为精确度分配优先级以代替响应时间。与所收集的度量相对应的推荐是针对已定义或预先定义的业务目标与反映一个或多个对应的补救动作的性能和识别的实际度量的自动比较。如本文所示,基于相应的输出来识别(712)并选择性地实施(714)用于应用到对话系统(160)的一个或多个补救动作。例如,在一个实施例中,当虚拟对话代理(162)的性能评估未能满足性能阈值时,可识别一个或多个补救动作。在一个示例性实施例中,在本文中也被称为推荐计划的推荐(多个)旨在改进交互开销,这可以通过收集附加的实时数据并且减少交互长度来实现。在一个实施例中,可以实现其他推荐,并且因此,在此所提供的示例不应被认为是限制性的。相应地,补救动作涉及改进对话系统(160)和对应的自动虚拟对话代理(162)的性能。
如在图1-7中所示和所描述的,提供了用于使用来自在操作上耦接的知识源的自动生成的GT来评估多轮自动虚拟代理的性能的计算机系统、程序产品和方法。使用自动虚拟代理并利用GT驱动对应的对话,来进行NL对话的模拟。创建日志以记录模拟。通过将模拟日志与对应的GT进行比较来评估自动虚拟代理的性能。基于模拟和模拟日志性能评估来识别和选择性地实施旨在改进自动虚拟代理的性能的一个或多个补救动作。
本文所示和描述的实施例可以采取计算机系统的形式,该计算机系统与智能计算机平台一起使用,以改进对话系统和对应的自动虚拟代理的性能。工具(152)、(154)、(156)和(158)的方面及其相关联的功能可以体现在单个位置中的计算机系统/服务器中,或者在一个实施例中,可以被配置在共享计算资源的基于云的系统中。参考图8,提供了说明计算机系统/服务器(802)的示例的框图(800),计算机系统/服务器(802)在下文中被称为与基于云的支持系统(810)通信的主机(802),以实现以上图1至图7中描述的系统、工具和过程。在一个实施例中,主机(802)是云计算环境的节点。主机(802)可与许多其他通用或专用计算系统环境或配置一起操作。适于与主机(802)一起使用的公知的计算系统、环境和/或配置的示例包括但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、大型计算机系统和包括以上系统、设备及其等同物中的任一者的文件系统(例如,分布式存储环境和分布式云计算环境)。
可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述主机(802)。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。主机(802)可以在分布式云计算环境中操作,其中任务由通过通信网络链接的远程处理设备执行。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
如图8所示,主机(802)以通用计算设备的形式示出。主机(802)的组件可以包括但不限于一个或多个处理器或处理单元(804)(例如,硬件处理器)、系统存储器(806)、以及将包括系统存储器(806)的不同系统组件耦接至处理器(804)的总线(808)。总线(808)表示若干类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,此类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线以及外围组件互连(PCI)总线。主机(802)通常包括各种计算机系统可读介质。这样的介质可以是可由主机(802)访问的任何可用介质,并且其包括易失性和非易失性介质、可移动和不可移动介质。
系统存储器(806)可包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)(830)和/或高速缓冲存储器(832)。仅作为示例,存储系统(834)可被提供用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)进行读取和写入。尽管未示出,可以提供用于从可移动非易失性磁盘(例如,“软盘”)读取或向其写入的磁盘驱动器,以及用于从可移动非易失性光盘(如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下,每一者可以通过一个或多个数据介质接口连接到总线(808)。
具有一组(至少一个)程序模块(842)的程序/实用程序(840)以及(作为示例而非限制)操作系统、一个或多个应用程序、其他程序模块和程序数据可以被存储在系统存储器(806)中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一个或它们的一些组合可以包括联网环境的实施方式。程序模块(842)一般执行实施例的功能和/或方法以动态地解释和理解请求和动作描述,并有效地扩充对应的域知识。例如,该组程序模块(842)可包括如图1所示的工具(152)、(154)、(156)和(158)。
主机(802)还可以与一个或多个外部设备(814)(例如键盘、指向设备等)、显示器(824)、使得用户能够与主机(802)交互的一个或多个设备、和/或使得主机(802)能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)通信。此类通信可经由输入/输出(I/O)接口(822)发生。此外,主机(802)可以经由网络适配器(820)与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)之类的一个或多个网络通信。如所描绘的,网络适配器(820)经由总线(808)与主机(802)的其他组件通信。在一个实施例中,分布式文件系统(未示出)的多个节点经由I/O接口(822)或经由网络适配器(820)与主机(802)通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与主机(802)结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器和数据归档存储系统等。
在本文档中,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”用于泛指诸如主存储器(806)(包括RAM(830))、高速缓存(832)和存储系统(834)(诸如可移动存储驱动器和安装在硬盘驱动器中的硬盘)之类的介质。
计算机程序(也称为计算机控制逻辑)被存储在存储器(806)中。计算机程序还可以经由通信接口(诸如网络适配器(820))来接收。这样的计算机程序在运行时使得计算机系统能够执行如本文所讨论的本发明实施例的特征。具体地,计算机程序在运行时使得处理单元(804)能够执行计算机系统的特征。因此,这样的计算机程序表示计算机系统的控制器。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下项:便携式计算机盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、磁存储设备、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置、以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码,这些编程语言包括面向对象的编程语言(如Java、Smalltalk、C++等)和常规过程编程语言(如“C”编程语言或类似编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器或服务器集群上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者可连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明实施例的各方面。
本说明书中描述的功能工具已经被标记为管理器。管理器可以在诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等的可编程硬件设备中实现。管理器还可以在软件中实现以用于由不同类型的处理器处理。所识别的可执行代码的管理器可以例如包括计算机指令的一个或多个物理或逻辑块,这些计算机指令的一个或多个物理或逻辑块可以例如被组织为对象、过程、函数或其他构造。然而,所识别的管理器的可执行文件不需要在物理上位于一起,而是可以包括存储在不同位置中的不同指令,这些不同指令在被逻辑地结合在一起时包括管理器并且实现管理器的所声明的目的。
实际上,可执行代码的管理器可以是单个指令或许多指令,并且甚至可以分布在几个不同的代码段上、在不同的应用之间、以及跨多个存储设备。类似地,操作数据可以在管理器内在此被识别和示出,并且可以以任何合适的形式体现和组织在任何合适类型的数据结构内。操作数据可以作为单个数据集来收集,或者可以分布在不同位置上(包括在不同的存储设备上),并且可以至少部分地作为电子信号存在于系统或网络上。
现在参见图9,说明性云计算网络(900)。如图所示,云计算网络(900)包括具有一个或多个云计算节点(910)的云计算环境(950),云消费者使用的本地计算设备可以与云计算节点通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(954A)、台式计算机(954B)、膝上型计算机(954C)、和/或汽车计算机系统(954N)。节点(910)内的个体节点可以进一步彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境(900)提供基础架构即服务、平台即服务和/或软件即服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图9中所示的计算设备(954A-N)的类型旨在仅是说明性的,并且云计算环境(950)可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化设备通信。
现在参见图10,示出了由图9的云计算网络提供的一组功能抽象层(1000)。应提前理解,图10中所示的组件、层和功能仅旨在是说明性的,并且实施例不限于此。如所描绘的,提供以下层和对应功能:硬件和软件层(1010)、虚拟化层(1020)、管理层(1030)和工作负载层(1040)。
硬件和软件层(1010)包括硬件和软件组件。硬件组件的实例包括大型机,在一个示例中为系统;基于RISC(精简指令集计算机)架构的服务器,在一个示例中为IBM />系统;IBM />系统;IBM />系统;存储设备;网络和联网组件。软件组件的示例包括网络应用服务器软件,在一个示例中为IBM应用服务器软件;以及数据库软件,在一个示例中为IBM />数据库软件。(IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphere和DB2是国际商业机器公司在全球许多司法辖区中注册的商标)。
虚拟化层(1020)提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器;虚拟存储装置;虚拟网络,包括虚拟专用网络;虚拟应用和操作系统;以及虚拟客户端。
在一个示例中,管理层(1030)可以提供以下功能:资源供应、计量和定价、用户门户、服务层管理、以及SLA规划和履行。资源供应提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价随着资源在云计算环境内被利用而提供成本跟踪,并且为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户为消费者和系统管理员提供对云计算环境的访问。服务层管理提供云计算资源分配和管理,使得满足所需的服务层。服务层协议(SLA)规划和履行提供云计算资源的预安排和采购,根据SLA来预期针对云计算资源的未来要求。
工作负载层(1040)提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括但不限于:地图和导航;软件开发和生命周期管理;虚拟教室教育递送;数据分析处理;交易处理;以及虚拟对话系统评估和丰富。
虽然已经示出和描述了本发明实施例的特定实施例,但是对于本领域技术人员来说将显而易见的是,基于本文的教导,在不脱离实施例及其更广泛的方面的情况下可以做出改变和修改。因此,所附权利要求在其范围内包括在实施例的真实精神和范围内的所有这样的改变和修改。此外,应当理解,实施例仅由所附权利要求限定。本领域技术人员将理解,如果预期具体数目的所引入的权利要求元素,则这样的意图将在权利要求中明确叙述,并且在没有这样的叙述的情况下,不存在这样的限制。作为非限制性示例,为了帮助理解,以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”来引入权利要求元素。然而,这种短语的使用不应解释为暗示通过不定冠词“一个(a)”或“一种(an)”引入权利要求元素将包含这种引入的权利要求元素的任何特定权利要求限制为仅包含一个这种元素的实施例,即使当同一个权利要求包括引入性短语“一个或多个”或“至少一个”以及不定冠词诸如“一个(a)”或“一种(an)”时;这同样适用于定冠词在权利要求中的使用。如本文所使用的,术语“和/或”意指任一个或两者(或一个或任何组合或所有术语,或所指的表达)。
本发明实施例可以是系统、方法和/或计算机程序产品。此外,本发明实施例的所选择的方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或者组合软件和/或硬件方面的实施例的形式,其在本文中可以统称为“电路”、“模块”或“系统”。此外,本发明实施例的方面可以采取计算机程序产品的形式,该计算机程序产品体现在其上具有用于使处理器执行本发明实施例的各方面的计算机可读程序指令的计算机可读存储介质中。因此,所公开的系统、方法和/或计算机程序产品可操作以支持虚拟对话系统评估和改进。
本文参考根据实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图来描述本发明实施例的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合可以由计算机可读程序指令实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明实施例的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,尽管为了说明的目的在此已经描述了特定实施例,但是在不脱离实施例的精神和范围的情况下可以进行各种修改。因此,实施例的保护范围仅由所附权利要求及其等同物限定。

Claims (18)

1.一种计算机系统,包括:
处理器,其在操作上耦接到存储器;以及人工智能AI平台,其在操作上耦接到所述处理器,所述AI平台包括用于与虚拟对话代理对接的一个或多个工具,所述工具进一步包括:
地面实况GT管理器,其被配置为从知识源自动生成GT;
模拟器,其被配置为使用所述虚拟对话代理来模拟NL对话交互,所述模拟器被配置为利用所述GT来驱动所模拟的NL对话所生成的输出,并且创建对应的模拟日志;
评估管理器,其被配置为在考虑所述GT的情况下评估所述虚拟对话代理关于所创建的模拟日志的性能;以及
补救管理器,其被配置为:
响应于所评估的性能未能满足性能阈值,识别对所述虚拟对话代理的一个或多个补救动作;以及
选择性地实施所识别的补救动作中的一个或多个补救动作。
2.根据权利要求1所述的计算机系统,其中,所述GT数据包括使用日志以及与所述使用日志相对应的反馈、结构化数据、由主题专家生成的记录、或它们的任意组合。
3.根据权利要求1所述的计算机系统,其中,所述评估管理器被配置为将所述GT中的查询-响应对与所述模拟日志中的对应的查询-响应对进行比较。
4.根据权利要求1所述的计算机系统,其中,所述GT管理器进一步被配置为编辑第一消歧选择路径,所述编辑包括:
生成NL查询和至少一个消歧NL查询;
响应于所述至少一个消歧NL查询,生成NL结果;以及
记录用于所述第一消歧选择路径的第一日志。
5.根据权利要求4所述的计算机系统,其中,所述模拟器进一步被配置为编辑第二消歧选择路径,所述编辑包括:
生成测试NL查询和至少一个测试消歧NL查询;
生成对所述至少一个测试消歧NL查询的测试NL响应;以及
记录所述第二消歧选择路径的第二日志。
6.根据权利要求5所述的计算机系统,其中,所述评估管理器进一步被配置为将所记录的第一日志与所记录的第二日志进行比较。
7.一种用于改进虚拟对话代理的性能的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质;以及
程序代码,其存储在所述计算机可读存储介质上并且能够由计算机处理器执行以执行以下操作:
从知识源自动生成地面实况GT数据;
使用所述虚拟对话代理来模拟NL对话交互,包括:利用所述GT来驱动所模拟的NL对话所生成的输出,以及创建相对应的模拟日志;
在考虑所述GT的情况下评估所述虚拟对话代理关于所创建的模拟日志的性能;以及
响应于所评估的性能未能满足性能阈值,识别对所述对话系统的一个或多个补救动作;以及
选择性地实施所述一个或多个补救动作。
8.根据权利要求7所述的计算机程序产品,其中,所述GT数据包括使用日志以及与所述使用日志相对应的反馈、知识图、由主题专家生成的记录、或它们的任意组合。
9.根据权利要求7所述的计算机程序产品,其中,能够由所述计算机处理器执行以评估性能的所述程序代码包括:能够由所述计算机处理器执行以将所述GT中的查询-响应对与所述模拟日志中的对应的查询-响应对进行比较的计算机代码。
10.根据权利要求7所述的计算机程序产品,其中,能够由所述计算机处理器执行以利用所述GT数据的所述程序代码包括:能够由所述计算机处理器执行以编辑第一消歧选择路径的程序代码,所述编辑包括:
生成NL查询和至少一个消歧NL查询;
响应于所述至少一个消歧NL查询,生成NL结果;以及
记录用于所述第一消歧选择路径的第一日志。
11.根据权利要求10所述的计算机程序产品,其中,能够由所述计算机处理器执行以进行模拟的所述程序代码进一步包括:能够由所述计算机处理器执行以编辑第二消歧选择路径的程序代码,所述编辑包括:
生成测试NL查询和至少一个测试消歧NL查询;
生成对所述至少一个测试消歧NL查询的测试NL响应;以及
记录所述第二消歧选择路径的第二日志。
12.根据权利要求11所述的计算机程序产品,其中,能够由所述计算机处理器执行以评估自动虚拟对话代理的性能的所述程序代码进一步包括:能够由计算机处理器执行以将所记录的第一日志与所记录的第二日志进行比较的程序代码。
13.一种涉及改进虚拟对话代理系统的性能的计算机实现的方法,所述方法包括:
由计算机处理器从知识源自动生成地面实况GT;
由所述计算机处理器使用所述虚拟对话代理来模拟NL对话交互,包括:利用所述GT来驱动所模拟的NL对话交互所生成的输出,以及创建对应的模拟日志;
由所述计算机处理器在考虑所述GT的情况下评估所述虚拟对话代理关于所创建的模拟日志的性能;
由所述计算机处理器响应于所评估的性能未能满足性能阈值,识别对所述对话系统的一个或多个补救动作;以及
由所述计算机处理器选择性地实施所识别的补救动作中的一个或多个补救动作。
14.根据权利要求13所述的计算机实现的方法,其中,所述GT数据包括使用日志以及与所述使用日志相对应的反馈、结构化数据、由主题专家生成的记录、或它们的任意组合。
15.根据权利要求13所述的计算机实现的方法,其中,所述评估包括:将所述GT中的查询-响应对与所述模拟日志中的对应的查询-响应对进行比较。
16.根据权利要求13所述的计算机实现的方法,其中,利用所述GT数据包括由所述计算机处理器编辑第一消歧选择路径,所述编辑包括:
生成NL查询和至少一个消歧NL查询;
响应于所述至少一个消歧NL查询,生成NL结果;以及
记录用于所述第一消歧选择路径的第一日志。
17.根据权利要求16所述的计算机实现的方法,其中,所述模拟进一步包括由所述计算机处理器编辑第二消歧选择路径,所述编辑包括:
生成测试NL查询和至少一个测试消歧NL查询;
生成对所述至少一个测试消歧NL查询的测试NL响应;以及
记录用于所述第二消歧选择路径的第二日志。
18.根据权利要求17所述的计算机实现的方法,其中,评估所述自动虚拟对话代理的性能进一步包括:将所记录的第一日志与所记录的第二日志进行比较。
CN202280010890.7A 2021-01-29 2022-01-04 虚拟对话系统性能评估与丰富 Pending CN116806339A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/161,794 US11714855B2 (en) 2021-01-29 2021-01-29 Virtual dialog system performance assessment and enrichment
US17/161,794 2021-01-29
PCT/EP2022/050097 WO2022161745A1 (en) 2021-01-29 2022-01-04 Virtual dialog system performance assessment and enrichment

Publications (1)

Publication Number Publication Date
CN116806339A true CN116806339A (zh) 2023-09-26

Family

ID=80001610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280010890.7A Pending CN116806339A (zh) 2021-01-29 2022-01-04 虚拟对话系统性能评估与丰富

Country Status (5)

Country Link
US (1) US11714855B2 (zh)
EP (1) EP4285275A1 (zh)
JP (1) JP2024506519A (zh)
CN (1) CN116806339A (zh)
WO (1) WO2022161745A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12032917B2 (en) * 2021-09-27 2024-07-09 Capital One Services, Llc Sincerity-aware artificial intelligence-based conversational agents
US12056452B2 (en) 2021-12-16 2024-08-06 Capital One Services, Llc Self-disclosing artificial intelligence-based conversational agents

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6259969B1 (en) 1997-06-04 2001-07-10 Nativeminds, Inc. System and method for automatically verifying the performance of a virtual robot
US7003079B1 (en) * 2001-03-05 2006-02-21 Bbnt Solutions Llc Apparatus and method for monitoring performance of an automated response system
US8738739B2 (en) 2008-05-21 2014-05-27 The Delfin Project, Inc. Automatic message selection with a chatbot
US9137183B2 (en) 2009-12-22 2015-09-15 Cyara Solutions Pty Ltd System and method for automated chat testing
US9454767B2 (en) 2013-03-13 2016-09-27 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing a related command with a predictive query interface
US9424298B2 (en) * 2014-10-07 2016-08-23 International Business Machines Corporation Preserving conceptual distance within unstructured documents
US9665831B2 (en) * 2014-10-24 2017-05-30 International Business Machines Corporation Interactive learning
US10657385B2 (en) 2015-03-25 2020-05-19 CARNEGIE MELLON UNIVERSITY, a Pennsylvania Non-Pro fit Corporation System and method for adaptive, rapidly deployable, human-intelligent sensor feeds
US11176463B2 (en) * 2016-12-05 2021-11-16 International Business Machines Corporation Automating table-based groundtruth generation
US10706086B1 (en) * 2018-03-12 2020-07-07 Amazon Technologies, Inc. Collaborative-filtering based user simulation for dialog systems
US10657962B2 (en) 2018-05-02 2020-05-19 International Business Machines Corporation Modeling multiparty conversation dynamics: speaker, response, addressee selection using a novel deep learning approach
US10832002B2 (en) 2018-05-08 2020-11-10 International Business Machines Corporation System and method for scoring performance of chatbots
US11636376B2 (en) * 2018-06-03 2023-04-25 International Business Machines Corporation Active learning for concept disambiguation
CN112689843B (zh) * 2018-07-12 2023-11-17 泰立戴恩菲力尔商业系统公司 闭环自动数据集创建系统和方法
US11216739B2 (en) * 2018-07-25 2022-01-04 International Business Machines Corporation System and method for automated analysis of ground truth using confidence model to prioritize correction options
US11012381B2 (en) * 2018-10-31 2021-05-18 Bryght Ai, Llc Computing performance scores of conversational artificial intelligence agents
US11075862B2 (en) * 2019-01-22 2021-07-27 International Business Machines Corporation Evaluating retraining recommendations for an automated conversational service
US11294752B2 (en) * 2019-05-31 2022-04-05 Kyndryl, Inc. Virtual agent corrections via log analysis

Also Published As

Publication number Publication date
US20220245199A1 (en) 2022-08-04
EP4285275A1 (en) 2023-12-06
WO2022161745A1 (en) 2022-08-04
US11714855B2 (en) 2023-08-01
JP2024506519A (ja) 2024-02-14

Similar Documents

Publication Publication Date Title
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
US11645288B2 (en) Reassigning gamer clusters based on engagement
US11188193B2 (en) Method and system for generating a prioritized list
US11095601B1 (en) Connection tier structure defining for control of multi-tier propagation of social network content
US20200042643A1 (en) Heuristic q&a system
CN116806339A (zh) 虚拟对话系统性能评估与丰富
US10977247B2 (en) Cognitive online meeting assistant facility
KR20220103147A (ko) 대조적인 시간 패턴들에 대한 가상 에이전트 대화 시스템의 대화 로그들 검색
WO2022018676A1 (en) Natural language enrichment using action explanations
TWI814394B (zh) 電子系統、電腦實施方法及電腦程式產品
JP2023002475A (ja) コンピュータシステム、コンピュータプログラムおよびコンピュータで実装される方法(因果関係知識の識別および抽出)
US11288322B2 (en) Conversational agents over domain structured knowledge
US11144727B2 (en) Evaluation framework for intent authoring processes
US10970490B2 (en) Automatic evaluation of artificial intelligence-based processes
CN116956901A (zh) 虚拟对话系统动态上下文收集
US20210073664A1 (en) Smart proficiency analysis for adaptive learning platforms
TW202324186A (zh) 對話代理反事實模擬
US11182155B2 (en) Defect description generation for a software product
CN112131484A (zh) 一种多人会话建立方法、装置、设备和存储介质
US11928010B2 (en) Extracting and selecting feature values from conversation logs of dialogue systems using predictive machine learning models
US20230316101A1 (en) Knowledge Graph Driven Content Generation
US11106875B2 (en) Evaluation framework for intent authoring processes
US20220300852A1 (en) Method and System for Automating Scenario Planning
US20210004246A1 (en) Automated cognitive analysis and specialized skills capture

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination