CN111837116B

CN111837116B - 自动构建或更新对话式ai系统的对话流管理模型的方法

Info

Publication number: CN111837116B
Application number: CN201880081991.7A
Authority: CN
Inventors: 薛宰浩; 张世映
Original assignee: Mingmang Technology Co ltd
Current assignee: Mingmang Technology Co ltd
Priority date: 2017-12-18
Filing date: 2018-04-27
Publication date: 2024-04-09
Anticipated expiration: 2038-04-27
Also published as: WO2019124647A1; KR101881744B1; US20200335097A1; CN111837116A

Abstract

提供一种用于自动构建或更新由对话式AI代理系统执行的对话流管理模型的方法。本发明的方法，包括：收集跟预设的域名服务相关的多个对话日志的步骤，域名服务包括多个意图组，每个对话日志则包括多个话语记录；根据预设标准，将每个话语记录分类为多个意图组中的一个意图组的步骤；对应于每个意图组，将以每个对应的意图组分类的话语记录进行分组的步骤；基于每个对话日志中的话语记录的顺序流，获取意图组之间时间序列顺序流的概率分布的步骤；以及构建或更新与服务相关的对话流管理模型的步骤，以便包括获取的意图组之间时间序列顺序流的概率分布。

Description

自动构建或更新对话式AI系统的对话流管理模型的方法

技术领域

本发明涉及一种对话式AI代理系统，更具体地，涉及一种用于自动生成对话式AI代理系统的分层对话流管理模型的方法等。

背景技术

最近，随着人工智能领域尤其是对自然语言理解这一领域的技术发展，对话式AI代理系统的开发和应用逐渐增加，其从基于传统的以机器为中心的命令式输入/输出方式的机器操作中摆脱出来，使得用户通过更亲和的方式，例如以语音及/或者文本形式的自然语言为媒介的对话方式来操作机器，且能够通过机器获得所希望的服务。由此，包括在线咨询中心或在线购物中心等在内的(但不局限于此，更多)各种领域，用户可通过提供语音及/或者文本形式的自然语言对话的对话式AI代理系统获得所需的服务。

特别是，最近，取代了现有的仅基于固定场景来提供简单问答形式的对话服务的对话式AI代理系统，对基于自由话语方式的语音输入来提供更加复杂的域名服务的对话式AI代理系统的需求逐渐增加。为了基于自由话语方式的语音输入来提供更加复杂的域名服务，有必要构建和管理对话式AI代理系统的分层对话流管理模型，从而使其包括充分的对话管理知识，例如，用于提供相关服务的有顺序地对话流模式。

发明内容

[解决的技术问题]

构建和管理用于对话式AI代理系统的对话流管理模型，其通常是基于专家的随意判断和手工操作的数据分类等来进行的。然而，随着庞大的对话日志的积累，且为反映这些对话日志而需要生成和更新对话流管理模型的必要性的增加，靠人工来构建和管理对话流管理模型已变得可信度和效率低的事情。为此，需要一种用于构建及/或者管理分层对话流管理模型的有效且可信度高的方法，以便能够反映从庞大的对话日志中所获取的知识，从而得以提供复杂的域名服务。

[技术方案]

根据本发明的一个特征，其提供一种用于自动构建或更新由对话式AI代理系统执行的对话流管理模型的方法。根据本发明的方法，其包括：收集跟预设的域名服务相关的多个对话日志的步骤，域名服务包括多个意图组，每个对话日志则包括多个话语记录；根据预设标准，将每个话语记录分类为多个意图组中的一个意图组的步骤；对应于每个意图组，将以每个对应的意图组分类的话语记录进行分组的步骤；基于每个对话日志中的话语记录的顺序流，获取意图组之间时间序列顺序流的概率分布的步骤；以及构建或更新与服务相关的对话流管理模型的步骤，以便包括获取的意图组之间时间序列顺序流的概率分布。

根据本发明的一个实施例，获取概率分布的步骤，可以基于统计方法或神经网络方法来执行。

根据本发明的一个实施例，每个意图组与一个以上的关键词相关联，将每个话语记录分类为多个意图组中的一个意图组的步骤，其可以包括：对每个话语记录，判定是否包括与每个意图组相关联的一个以上的关键词的步骤；以及基于判定，将每个话语记录分类为多个意图组中的一个意图组的步骤。

根据本发明的一个实施例，构建或更新与服务相关的对话流管理模型的步骤，使对话流管理模型包括对应于每个意图组而分组的话语记录。

根据本发明的一个实施例，获取意图组之间时间序列顺序流的概率分布的步骤，还可以包括：掌握可能在意图组之间出现的所有顺序流的步骤；以及由每个对话日志来判定所有顺序流中的意图组之间出现每个顺序流概率的步骤。

根据本发明的一个实施例，获取意图组之间时间序列顺序流的概率分布的步骤，其除了在意图组之间的每个顺序流中的出现概率小于阈值的顺序流以外，可以包括：获取意图组之间时间序列顺序流的概率分布的步骤。

根据本发明的另一个特征，其作为包括一个以上指令的计算机可读存储介质，提供一种计算机可读存储介质，当一个以上的指令通过计算机执行时，使得计算机执行前述的方法中的任意一种方法。

根据本发明的另一个特征，提供一种用于自动构建或更新由对话式AI代理系统执行的对话流管理模型的计算机装置。本发明的计算机装置，其包括：构建/更新对话流管理模型单元；以及对话日志收集单元，用于收集和存储与预设的服务相关的多个对话日志，域名服务包括多个意图组，每个对话日志则包括多个话语记录。本发明的构建/更新对话流管理模型单元，其包括：接收由对话日志收集单元的多个对话日志；根据预设标准，将每个话语记录分类为多个意图组中的一个意图组；对应于每个意图组，对以每个对应的意图组分类的话语记录进行分组；基于每个对话日志中的话语记录的顺序流，获取意图组之间的时间序列顺序流的概率分布；构建或更新与服务相关的对话流管理模型，以便包括获取的意图组之间时间序列顺序流的概率分布。

[发明的效果]

提供一种有效的构建分层对话流管理模型的方法，即构建与提供服务相关的分层对话流模式的方法，用于自动分析庞大的对话日志，并据此提供复杂的域名服务。因此，可以减少用于构建和更新分层对话流管理模型的时间和成本，并且可以更容易地构建用于新的域名服务的分层对话流管理模型。另外，自动生成并提供用于提供特定服务的顺序对话流的概率分布，从而可以实现更有效的对话管理。

附图说明

图1是根据本发明一个实施例的能够实现对话式AI代理系统的系统环境简略图；

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图；

图3是根据本发明一个实施例的简略示出图1的对话式AI代理服务器106的功能结构的功能框图；

图4是根据本发明一个实施例的简略示出图3的对话/任务处理单元304的功能结构的功能框图；

图5是根据本发明一个实施例的通过图3的构建/更新对话流管理模型单元306执行的示例性动作流程图；

图6是示例性示出根据本发明一个实施例组成的服务的各意图组的顺序流概率图的一部分。

具体实施方式

下面，参照附图，对本发明的实施例进行详细说明。在下面的说明中，当判断对已公开的功能以及结构的具体说明混淆本发明的主旨时，则省略其详细说明。另外，在下面说明的内容，其仅仅是本发明的一个实施例，因此理应理解为本公开不限于此。

在本公开中使用的术语只是为了说明特定的实施例，而并非用来限定本发明。例如，以单数来表述的构成要素，如果在上下文中没有明确表示其指单数，就应当理解为包括复数的含义。在本公开中使用的“及/或者”这一术语，应当理解为包括被列举的项目中的任意一个以上的所有组合。在本公开中使用的“包括”或者“具有”等术语，对其理应理解为只是想指定在本公开中所记载的特征、数字、步骤、动作、构成要素和零部件或者指定由这些来组合的存在物，而并不是通过这种术语的使用来排除一个或其以上的其它特征、数字、步骤、动作、构成要素和零部件或者由这些来组合的存在物或者其它可能性。

在本发明的实施例中，“模块”或“单元”是指，执行至少一个功能或动作的功能部，其可以由硬件或软件来实现，或者以硬件和软件的组合来实现。另外，多个“模块”或“单元”，其除了需要用特定的硬件来实现的“模块”或“单元”以外，可以以至少一个软件模块来集成且由至少一个处理器实现。

在本发明的实施例中，“对话式AI代理系统”可以是指任意信息处理系统，也就是说，其与用户之间通过以语音及/或者文本形式的自然语言为媒介的对话式交互来接收来自于用户输入的自然语言(例如，以自然语言呈现的来自于用户的指令、陈述、请求和提问等)输入并进行分析，以掌握用户的意图(intent)并基于已掌握的用户意图执行所需的动作，即能够提供适当的对话应答及/或者任务执行，但并不限于特定形式。在本发明的实施例中，对话式AI代理系统，其用于提供预设的域名服务，此时，域名服务可以包括子意图组(例如，购买商品的域名服务可以包括商品咨询、品牌咨询、设计咨询、价格咨询和退货咨询等子意图组)。在本发明的实施例中，通过“对话式AI代理系统”执行的动作，可以是在用于提供预设服务的子意图组的顺序流中，根据用户的意图分别实现的对话应答及/或者任务的执行。

在本发明的实施例中，通过“对话式AI代理系统”提供的对话应答，对此理应理解为，其可以以视觉、听觉及/或者触觉形式(例如，其可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供。在本发明的实施例中，通过“对话式AI代理系统”执行的任务，例如，其可以包括检索信息、进行审批、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但这些仅是示例，并不仅限于此)。

在本发明的实施例中，“对话式AI代理系统”，其可以包括，基于聊天软件(messenger)平台的聊天机器人(chatbot)系统，即，例如在聊天软件上与用户交流信息，以提供用户所需的各种信息或者执行任务的聊天机器人系统，但理应理解为，本发明不仅仅局限于此。

此外，除非另有定义，在本公开中使用的包括技术术语或科学术语在内的所有术语，其具有与本公开所属领域的技术人员通常理解的等同的含义。在词典中已定义的常用的术语，对此理应解释为，其具有与相关技术的上下文中的含义等同的意思，因此，在本公开中除非对此单独作出定义，不应被过度限制或过度放大来解释。

下面，参照附图，对本发明的实施例进行详细说明。

图1是根据本发明一个实施例的能够实现对话式AI代理系统的系统环境100简略图。根据图示，系统环境100包括：多个用户终端102a-102n、通信网络104、对话式AI代理服务器106以及外部服务服务器108。

根据本发明的一个实施例，多个用户终端102a-102n可以分别为具有有线或无线通信功能的用户任意的电子装置。各用户终端102a-102n可以分别为包括智能手机、平板电脑、音乐播放器、智能扬声器、台式电脑、笔记本电脑，掌上电脑(PDA)、主机游戏、数字TV、机顶盒等在内的各种有线或无线通信终端，但对此理应理解为它不限于特定形式。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与对话式AI代理服务器106进行通信，即发送和接收必要的信息。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与外部服务服务器108进行通信，即发送和接收必要的信息。根据本发明的一个实施例，各用户终端102a-102n分别可以从外部接收语音及/或者文本形式的用户输入，并将通过通信网络104的对话式AI代理服务器106及/或者通过与外部服务服务器108的通信(及/或者用户终端102a-102n内的处理)获取的、与上述的用户输入对应的动作结果(例如，提供特定的对话应答及/或者执行特定的任务等)提供给用户。

根据本发明的一个实施例，通过用户终端102a-102n提供的作为对应于用户输入的动作结果的对话应答，例如，其在预设的域名服务内，可以是在用于提供相关服务的子意图组的顺序流中，根据对应于当时的用户输入的子意图组对话流模式提供的对话应答。根据本发明的实施例中，每个用户终端102a-102n，可以分别将对话应答，即作为用户输入相对应的动作结果，通过视觉、听觉及/或者触觉形式(例如，可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供给用户。在本发明的实施例中，作为对应于用户输入的动作的任务执行，例如，其可以包括检索信息、进行审批、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但这些仅是示例，并不仅限于此)执行。

根据本发明的一个实施例，通信网络104，可以包括：有线或无线的任意通信网络，例如，TCP/IP通信网络。根据本发明的一个实施例，通信网络104，可以包括：例如，Wi-fi网络、LAN网络、WAN网络以及互联网网络等，本发明不限于此。根据本发明的一个实施例，通信网络104，可以使用例如以太网、GSM、增强数据GSM环境(EDGE，Enhanced Data GSMEnvironment)、CDMA、TDMA、OFDM、,蓝牙、VoIP、Wi-MAX、Wibro其他任意的各种有线或无线通信协议来实现。

根据本发明的一个实施例，对话式AI代理服务器106，可以通过通信网络104与用户终端102a-102n通信。根据本发明的一个实施例，对话式AI代理服务器106通过通信网络104与用户终端102a-102n发送/接收必要的信息，并据此可做出动作，向用户提供与由用户终端102a-102n接收到的用户输入相对应的动作结果，即提供符合用户意图的动作结果。根据本发明的一个实施例，对话式AI代理服务器106，例如，其可以通过通信网络104从用户终端102a-102n接收以语音及/或者文本形式的用户的自然语言输入，并且基于预先准备的知识模型来处理该接收到的自然语言输入，以此确定用户的意图(intent)。根据本发明的一个实施例，对话式AI代理服务器106，可以基于预先准备的对话流管理模型来执行对应于上述所确定的用户意图的动作。根据本发明的一个实施例，通过对话式AI代理服务器106执行的每个动作，例如，其可以是在用于提供预设服务的，即在相关域名服务的子意图组的顺序流中，对应于每个用户的意图进行的对话应答及/或者任务执行。

根据本发明的一个实施例，对话式AI代理服务器106，例如，其可以生成符合用户意图的特定的对话应答，并将其传送至用户终端102a-102n。根据本发明的一个实施例，对话式AI代理服务器106，其可以基于上述以被确定的用户意图，将与之对应的对话应答以语音及/或者文本形式生成，并且将生成的应答通过通信网络104传送至用户终端102a-102n。根据本发明的一个实施例，通过对话式AI代理服务器106生成的对话应答，可以包括前述的语音及/或者文本形式的自然语言应答，同时可以包括图像、视频、符号、表情符号等其他视觉要素，或者声音等其他听觉要素，或者其他别的触觉要素等。

根据本发明的一个实施例，可根据由用户终端102a-102n接收的用户输入的形式(例如，是语音输入还是文本输入)，可以在对话式AI代理服务器106上生成相同形式的应答(例如，如果提供语音输入，就生成语音应答，而如果提供文本输入，则生成文本应答)，但本发明不限于此。根据本发明的另一个实施例，理应理解为，其可以生成并提供语音及/或者文本形式的应答，而与用户输入的形式无关。

根据本发明的一个实施例，对话式AI代理服务器106，如上所述，其可以通过通信网络104与外部服务服务器108通信。外部服务服务器108，例如，其可以是消息服务服务器、在线咨询中心服务器、在线购物中心服务器、信息检索服务器、地图服务服务器、导航服务服务器等，本公开不限于此。根据本发明的一个实施例，由对话式AI代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，对此理应理解为，其可以包括如由外部服务服务器108检索以及由此获取的数据内容。

在本附图中虽然示出，对话式AI代理服务器106，其为通过通信网络104可与外部服务服务器108通信的单独的物理服务器，但本公开并不局限于此。根据本发明的另外一个实施例，对话式AI代理服务器106，对此理应理解为，例如，其可以作为在线咨询中心服务器或在线购物中心服务器等各种服务服务器中的一部分来构成。

根据本发明的一个实施例，对话式AI代理服务器106，其通过各种路径收集对话日志(例如，可以包括多个用户及/或者系统话语记录)，并且自动对收集到的对话日志进行分析，从而可以根据分析结果生成及/或者更新对话流管理模型。根据本发明的一个实施例，对话式AI代理服务器106，例如，通过对与特定的域名服务相关联而收集的对话日志进行关键词分析，以此来将每个话语记录分类为预设的意图组中的一个意图组，并且可以对每个意图组之间的顺序流分布进行概率分析。

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图。根据图示，用户终端102，其包括：接收用户输入模块202、传感器模块204、程序存储模块206、处理模块208、通信模块210以及应答输出模块212。

根据本发明的一个实施例，接收用户输入模块202，其可以接收来自用户的各种形式的输入，例如，语音输入及/或者文本输入等的自然语言输入(以及附加的触摸输入等其他形式的输入)。根据本发明的一个实施例，接收用户输入模块202，例如，其可以包括麦克风以及音频电路，并且通过麦克风获取用户语音输入信号，并可以将获取的信号转换为音频数据。根据本发明的一个实施例，接收用户输入模块202，其可以包括，如鼠标、操纵杆、轨迹球等各种定点装置和键盘、触摸板、触摸屏和触笔等各种形式的输入装置，并且通过这些输入装置，可以获取由用户输入的文本输入及/或者触摸输入信号。根据本发明的一个实施例，由接收用户输入模块202接收的用户输入，其可以与执行预设任务相关联，例如，执行预设的应用程序或检索预设的信息等，但是本发明不限于此。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是仅需要简单的对话应答，而与预设的应用程序执行或信息检索等无关。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是用于单方面传达意思的简单陈述。

根据本发明的一个实施例，传感器模块204，其包括一个以上的彼此不同类型的传感器，并且通过这些传感器可以获取用户终端102的状态信息，例如，相关的用户终端102的物理状态、软件及/或者硬件状态、或与用户终端102周围环境状态相关的信息。根据本发明的一个实施例，传感器模块204，例如，其可以包括光传感器，通过光传感器检测相关用户终端102周围的光状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括移动传感器，通过移动传感器检测相关用户终端102是否移动的状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括速度传感器和GPS传感器，通过这些传感器检测相关用户终端102的位置及/或者背向状态。根据本发明的另一个实施例，传感器模块204，对此理应理解为，其可以包括温度传感器、图像传感器、压力传感器和触摸传感器等在内的各种形式的其他传感器。

根据本发明的一个实施例，程序存储模块206，其可以是存储能够在用户终端102上执行的各种程序，例如，各种应用程序以及相关数据等的任意存储介质。根据本发明的一个实施例，程序存储模块206，其可以存储，例如拨号应用程序、电子邮件应用程序、即时消息应用程序、照相机应用程序、音乐播放应用程序、视频播放应用程序、图像管理应用程序、地图应用程序和浏览器应用程序等在内的各种应用程序和与这些程序的执行有关的数据。根据本发明的一个实施例，程序存储模块206，其可以被配置为包括DRAM、SRAM、DDRRAM、ROM、磁盘、光盘和快闪存储器等各种形式的易失性或非易失性存储器。

根据本发明的一个实施例，处理模块208，其与用户终端102的各组件模块通信，并且可以在用户终端102上执行各种运算。根据本发明的一个实施例，处理模块208，其可以驱动并执行程序存储模块206上的各种应用程序。根据本发明的一个实施例，处理模块208，其在必要时，可以接收由接收用户输入模块202和传感器模块204获取的信号，并且对这些信号执行适当的处理。根据本发明的一个实施例，处理模块208，其在必要时，可以对通过通信模块210由外部接收到的信号进行适当的处理。

根据本发明的一个实施例，通信模块210，其使得用户终端102能够通过图1的通信网络104与对话式AI代理服务器106及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块210，例如，其可以根据预设协议通过通信网络104将由接收用户输入模块202及传感器模块204中获取的信号传送至对话式AI代理服务器106及/或者外部服务服务器108。根据本发明的一个实施例，通信模块210，例如，其可以通过通信网络104接收由对话式AI代理服务器106及/或者外部服务服务器108接收的各种信号，例如，接收包括语音及/或者文本形式的自然语言应答在内的应答信号或者各种控制信号，并且根据预设协议执行适当的处理。

根据本发明的一个实施例，应答输出模块212，其可以将与用户输入相对应的应答以视觉、听觉及/或者触觉等各种形式输出。根据本发明的一个实施例，应答输出模块212，其可以包括基于LCD、LED、OLED和QLED等技术的触摸屏等的各种显示装置，并通过这些显示装置向用户呈现与用户输入对应的视觉应答，例如文本、符号、视频、图像、超级链接、动画和各种通知等。根据本发明的一个实施例，应答输出模块212，可以包括，如扬声器或耳麦，并且通过扬声器或耳麦向用户提供与用户输入相对应的听觉应答，例如语音及/或者声音应答。根据本发明的一个实施例，应答输出模块212，其可以包括动作/触觉反馈生成部，并且通过其向用户提供触觉应答，例如动作/触觉反馈。根据本发明的一个实施例，应答输出模块212，对此理应理解为，可以同时提供在与用户输入相对应的文本应答、语音应答以及动作/触觉反馈中的任意两个以上的组合。

图3是根据本发明一个实施例的简略示出图1的对话式AI代理服务器106的功能结构的功能框图。根据图示，对话式AI代理服务器106，其包括：通信模块302、对话/任务处理单元304、构建/更新对话流管理模型单元306以及对话日志收集单元308。

根据本发明的一个实施例，通信模块302，其根据预设的有线或无线通信协议通过通信网络104使得对话式AI代理服务器106与用户终端102及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块302，其可以通过通信网络104接收由用户终端102传送的来自用户的语音输入及/或者文本输入等。根据本发明的一个实施例，通信模块302，其可以通过通信网络104在接收由用户终端102传送的来自用户的语音输入及/或者文本输入的同时，或者与之单独地通过通信网络104接收由用户终端102传送的用户终端102的状态信息。根据本发明的一个实施例，状态信息，例如，其可以是用户在输入语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、用户终端102的软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。根据本发明的一个实施例，通信模块302，还可以为通过通信网络104向用户终端102传送由对话式AI代理服务器106生成的、以对应于上述接收的用户输入的对话应答(例如，语音及/或者文本形式的自然语言对话应答等)及/或者控制信号，采取所需的适当措施。

根据本发明的一个实施例，对话/任务处理单元304，其通过通信模块302接收来自于用户终端102a-102n的用户的自然语言输入，并基于预先准备的预设的知识模型对此进行处理，从而确定对应于用户自然语言输入的用户意图(intent)。根据本发明的一个实施例，对话/任务处理单元304，还可以提供与所确定的用户意图匹配的动作，例如，可以提供适当的对话应答及/或者任务执行。根据本发明的一个实施例，由对话/任务处理单元304执行的每个动作，例如，其可以是在预设的域名服务内，用于提供相关服务的子意图组的顺序流中，对应于每个用户的意图进行的对话应答及/或者任务执行。例如，在购买商品的域名服务下，对话/任务处理单元304确定所接收到的用户输入属于价格咨询的意图组，并且根据该价格咨询的意图组的任务流及/或者对话流模式执行适当的任务及/或者执行对话应答的提供。

根据本发明的一个实施例，构建/更新对话流管理模型单元306，可以自动对通过任意的各种方式收集的对话日志收集单元308上的每个对话日志进行关键词分析，并且将每个话语记录分类为预设的子意图组之一，从而将话语记录按相同子意图组进行分组。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其可以以概率分布来掌握每个组之间，即每个子意图组之间的顺序流。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其可以以概率图形式组成域名服务上的子意图组之间的顺序流。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其可以掌握可能在每个子意图组之间发生的所有的顺序流，以及由所述收集的每个对话日志来判定所有顺序流中的每个意图组之间的顺序流的出现概率，从中可以获取前述的子意图组之间的每个顺序流的概率分布。

图4是根据本发明一个实施例的简略示出图3的对话/任务处理单元304的功能结构的功能框图。根据图示，对话/任务处理单元304，其包括：语音转文本(Speech-To-Text；STT)模块402、自然语言理解(Natural Language Understanding；NLU)模块404、用户数据库406、理解对话知识库408、对话管理模块410、对话流管理模型412、对话生成模块414以及语音合成(Text-To-Speech；TTS)模块416。

根据本发明的一个实施例，STT模块402，其可以接收由通信模块302接收的用户输入中的语音输入，并且基于模式匹配等将接收到的语音输入转换为文本数据。根据本发明的一个实施例，STT模块402，其可以通过从用户的语音输入中提取其特征来生成特征列向量。根据本发明的一个实施例，STT模块402，其基于DTW(Dynamic Time Warping)方式或HMM模型(Hidden Markov Model)、GMM模型(Gaussian-Mixture Mode)、深层神经网络模型、n-gram模型等的各种统计模型，可以生成文本识别结果，如词汇序列。根据本发明的一个实施例，STT模块402，其基于模式匹配将接收到的语音输入转换为文本数据时，可以参照后述的用户数据库406中的每个用户的特征数据。

根据本发明的一个实施例，NLU模块404，其可以接收由通信模块302或STT模块402的文本输入。根据本发明的一个实施例，由NLU模块404接收的文本输入，其可以是，例如，在通信模块302中通过通信网络104由用户终端102接收到的用户的文本输入，或者是STT模块402对由通信模块302接收的用户语音输入所生成的如词汇序列等文本识别结果。根据本发明的一个实施例，NLU模块404，其可以接收文本输入的同时，抑或是在其之后接收与该用户相关联的状态信息，例如该用户输入当时的用户终端102的状态信息等。如前所述，状态信息，例如，其可以是在用户终端102用户语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。

根据本发明的一个实施例，NLU模块404，其可以基于理解对话知识库408，将上述接收到的文本输入对应于一个以上的用户意图(intent)上。在这里，用户意图，其与根据该用户意图通过对话式AI代理服务器106获得理解和执行的一系列动作(复数)相关联。根据本发明的一个实施例，NLU模块404，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照前述的状态信息。根据本发明的一个实施例，NLU模块404，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照后述的用户数据库406的每个用户的特征数据。

根据本发明的一个实施例，用户数据库406，其可以是用于存储及管理每个用户的特征数据的数据库。根据本发明的一个实施例，用户数据库406，例如，其可以包括：针对每个用户的相关用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录以及用户的其他各种特征性信息。

根据本发明的一个实施例，如上所述，STT模块402，其将语音输入转换为文本数据时，由于参照用户数据库406的每个用户的特征数据，如每个用户的发音特征，从而可以获取更准确的文本数据。根据本发明的一个实施例，NLU模块404，其在确定用户的意图时，由于参照用户数据库406的每个用户的特征数据，例如每个用户的特征或语境，从而可以确定更准确的用户意图。

在本附图中示出，用于存储及管理每个用户的特征数据的用户数据库406，其配置在对话式AI代理服务器106上，但是本发明不限于此。根据本发明的另一个实施例，用于存储及管理每个用户的特征数据的用户数据库，对此理应理解为，例如，其可以配置在用户终端102上，也可以将其分散配置在用户终端102以及对话式AI代理服务器106上。

根据本发明的一个实施例，对话管理模块410，其可以根据由NLU模块404确定的用户意图，生成对应于它的一系列动作流程。根据本发明的一个实施例，对话管理模块410，例如，其可以基于对话流管理模型412，确定对应于由NLU模块404接收的用户意图执行怎样的动作，例如是否执行怎样的对话应答及/或者任务执行，并且据此生成具体的动作流程。

根据本发明的一个实施例，理解对话知识库408，例如，其可以包括预先定义的本体模型。根据本发明的一个实施例，本体模型，例如，其可以由节点之间的分层结构来呈现，各节点可以是与用户的意图对应的“意图”节点或者链接到“意图”节点的子“属性”节点(直接链接到“意图”节点或间接链接到“意图”节点”的“属性”节点的子“属性”节点)中的之一。根据本发明的一个实施例，“意图”节点和直接或间接链接到其“意图”节点的“属性”节点可以构成一个域名，而本体可以是这些域名的集成。根据本发明的一个实施例，理解对话知识库408，例如，其可以包括分别对应于所有意图的域名，这里的意图是指被对话式AI代理系统理解并且能够执行相应动作的意图。根据本发明的一个实施例，理应对本体模型理解为，其可以通过添加或删除节点，或者通过修改节点之间的关系等来动态地进行变更。

根据本发明的一个实施例，本体模型中的每个域名的意图节点及属性节点，其可以分别与对应于每个域名的用户意图或属性相关的词及/或者句子相关联。根据本发明的一个实施例，理解对话知识库408，可以将本体模型以由分层结构节点和按各节点相关联的词及/或者句子的集成如词典形式(未具体示出)呈现，并且NLU模块404，其可以基于以这种词典形式呈现的本体模型来确定用户的意图。例如，根据本发明的一个实施例，NLU模块404，当接收文本输入或词汇序列时，可以确定该序列内的每个词汇与本体模型中的哪个域名的哪个节点相关联，并且基于这一确定来判断对应的域名即用户的意图。

根据本发明的一个实施例，对话流管理模型412，其可以包括：概率分布模型，其为多个子意图组之间的顺序流的概率分布模型，从而可以提供已设定的域名服务有关的服务。根据本发明的一个实施例，对话流管理模型412，例如，其可以将属于相关域名服务的每个子意图组之间的顺序流以概率图的形式包括在其中。根据本发明的一个实施例，对话流管理模型412，例如，其可以包括在每个子意图组之间可能发生的各种顺序流上获取的每个意图组的概率分布。根据本发明的一个实施例，尽管没有具体示出，但是对话流管理模型412，还可以包括：属于每个意图组的对话模式的文库。

根据本发明的一个实施例，对话生成模块414，可以基于对话管理模块410生成的动作流程来生成所需的对话应答。根据本发明的一个实施例，对话生成模块414，当生成对话应答时，例如，可以参照前述的用户数据库406的用户特征数据(例如：用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录以及按每个用户管理的相关用户的以前的对话记录等)。

根据本发明的一个实施例，TTS模块416，其可以接收由对话生成模块414生成的对话应答，以便传送至用户终端102。由TTS模块416接收的对话应答，可以是具有文本形式的自然语言或词汇序列。根据本发明的一个实施例，TTS模块416，其可以根据各种形式的算法将上述接收到的文本形式的输入转换成语音形式。

参考图1至图4，在前述的本发明的实施例中，虽然将对话式AI代理系统表述为用户终端102和对话式AI代理服务器106之间的客户端-服务器模型，特别是，其客户端，仅提供用户输入/输出功能，而除此之外的对话式AI代理系统的其他所有功能则分配给了服务器，即基于所谓的“瘦客户端-服务器模型”来体现，但是本发明并不局限于此。根据本发明的另一个实施例，对话式AI代理系统，对此理应理解为，该功能可以在用户终端和服务器之间分配来体现，或者与之不同，可以通过安装在用户终端上的独立应用程序来体现。另外，根据本发明的一个实施例，对话式AI代理系统，将其功能通过在用户终端和服务器之间分配来体现时，对对话式AI代理系统的各功能在客户端和服务器之间的分配，理应理解为，可以在每个实施例中以不同的分配来体现。另外，在前述的参考图1至图4记载的本发明的实施例中，为了便于说明，将特定模块记载为其执行预设的动作，但是本发明不限于此。根据本发明的另一个实施例，对上述的说明中记载的通过某个特定模块来执行的动作，对这些动作理应理解为，其可以分别通过与该模块不同的其它模块来执行。

图5是根据本发明一个实施例的通过图3的构建/更新对话流管理模型单元306执行的示例性动作流程图。

在步骤502中，构建/更新对话流管理模型单元306，其可以对与域名服务有关的以任意的各种方式收集的对话日志，根据预设的标准，将对话日志上的每个话语记录进行分类并标记为预先设定的意图组之一。根据本发明的一个实施例，上述话语记录，例如，其可以是通过用户或预设的系统生成及提供的记录。根据本发明的一个实施例，预先设定的意图组，例如，其可以是属于指定的域名服务的各个子意图组。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其执行将每个话语记录分类及标记为属于购买商品域名服务的子意图组如商品咨询、品牌咨询、设计咨询、价格咨询及退货咨询中的任何一个。根据本发明的一个实施例，构建/更新对话流管理模型单元306，其可以预先选定与每个意图组相关的关键词，并基于所选定的关键词来将每个话语记录分类为特定意图组。

在步骤504中，构建/更新对话流管理模型单元306，对分类及标记为多个意图组中任何一个的话语记录，可以按相同意图组的话语记录进行分组。根据本发明的一个实施例，按相同意图组分类的每个话语记录，可以将其以该意图组的对话模式纳入对话流管理模型中。

在步骤506中，构建/更新对话流管理模型单元306，其基于按每个意图组来分组的各话语记录的对话日志上的顺序流，可以获取每个意图组之间的时间序列顺序流的概率分布。根据本发明的一个实施例，例如，购买商品的域名服务，假设列入该域名的子意图组分别有商品咨询、品牌咨询、设计咨询、价格咨询、退货咨询时，可以将每个意图组按顺序流的概率分布来进行分层，例如，按最先发生的意图组的概率分布，可能依次出现，商品咨询占70％、品牌咨询占20％、设计咨询占5％、价格咨询占3％以及退货咨询占2％，当咨询了商品之后，可能出现的概率分布依次是，品牌咨询占65％、设计咨询占21％、价格咨询占13％以及退货咨询1％。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其可以以概率图的形式组成域名服务上的子意图组之间的顺序流。根据本发明的一个实施例，构建/更新对话流管理模型单元306，例如，其可以掌握可能在每个子意图组之间发生的所有的顺序流，以及通过对话日志来判定该所有顺序流中的每个意图组之间的顺序流的出现概率，从中可以获取每个子意图组之间的各顺序流的概率分布。根据本发明的一个实施例，关于意图组之间各顺序流的概率分布，对此理应理解为，可以基于统计方法或神经网络方法来获取。

在步骤508中，构建/更新对话流管理模型单元306，通过对各意图组之间的时间序列的概率分布分析的结果，各意图组之间的时间序列的顺序流的出现概率小于阈值时，可以将该顺序流从上述已获取的概率分布中删除掉。例如，如果将阈值出现概率选择为2％时，在购买商品的域名服务中，如果在商品咨询以后有关退货咨询出现的概率为1％，那么可以将在商品咨询以后退货咨询发生的顺序流从上述所生成的意图组之间的顺序流中删除。

在步骤510中，构建/更新对话流管理模型单元306，可以通过意图组之间的顺序流(例如，意图组之间的顺序流概率分布)和按不同的意图组划分的每个话语记录来生成及/或者更新对话流管理模型412。根据本发明的一个实施例，当对话式AI代理系统将要提供新服务时，构建/更新对话流管理模型单元306可以收集与新服务相关的各种对话日志，并且基于收集到的对话日志重新构建与该服务相关的对话流管理模型。根据本发明的一个实施例，对话式AI代理系统在基于预设的对话流管理模型来提供预设的服务的过程中，可以持续收集与提供该服务相关的对话日志，并且构建/更新对话流管理模型单元306，可以基于收集到的对话日志持续地更新上述对话流管理模型。

图6是示例性示出根据本发明一个实施例组成的服务的各意图组的顺序流概率图的一部分。本附图6，其目的在于只是部分示例性地示出与图5相关的购买商品域名服务的各子意图组的顺序流的概率分布，其仅仅是为了有助于理解本发明而示出的，故对此理应理解为，其没有任何的限制本发明的意图。

本领域技术人员应该知道，本发明并不局限于本说明书中所记载的示例，在不脱离本发明范畴的范围内，可以对本发明进行各种变更、重新组成以及替换。本说明书中所记载的各种技术，对此理应理解为，其可以通过硬件或软件或者硬件和软件的组合来实现。

根据本发明的一个实施例的计算机程序，其通过计算机处理器等以可读存储介质，例如，包括EPROM、EEPROM、快闪存储器等非易失性存储器、内置硬盘和可拆卸磁盘等磁盘、磁光盘以及CDROM磁盘等的各种类型的存储介质存储的形式来体现。另外，程序代码(复数)可以以汇编程序语言或机器语言来体现。属于本发明的真正的思想及其范畴的所有变形和变更，通过下面的权利要求范围来将其纳入其中。

Claims

1.一种用于自动构建或更新对话式AI代理系统的对话流管理模型的方法，所述方法通过计算机装置执行，其特征在于，包括：

收集与预设的域名服务相关的多个对话日志的步骤，所述域名服务包括多个意图组，并且每个所述对话日志包括多个话语记录；

根据预设标准，将每个所述话语记录分类为所述多个意图组中的一个意图组的步骤；

对应于每个所述意图组，将以每个对应的意图组分类的所述话语记录进行分组的步骤；

基于每个所述对话日志中的所述话语记录的顺序流，获取所述意图组之间的时间序列顺序流的概率分布的步骤；以及

构建或更新与所述域名服务相关的对话流管理模型的步骤，以便包括所述获取的所述意图组之间时间序列顺序流的概率分布。

2.根据权利要求1所述的方法，其特征在于，

获取所述概率分布的步骤，其基于统计方法或神经网络方法来执行。

3.根据权利要求1所述的方法，其特征在于，

每个所述意图组与一个以上的关键词相关联，将每个所述话语记录分类为所述多个意图组中的一个意图组的步骤，其包括：对每个所述话语记录，判定是否包括与每个所述意图组相关联的所述一个以上的关键词的步骤；以及基于所述判定，将每个所述话语记录分类为所述多个意图组中的一个意图组的步骤。

4.根据权利要求1所述的方法，其特征在于，

构建或更新与所述域名服务相关的对话流管理模型的步骤，使所述对话流管理模型包括对应于每个所述意图组而分组的所述话语记录。

5.根据权利要求1所述的方法，其特征在于，获取所述意图组之间时间序列顺序流的概率分布的步骤，还包括：

掌握可能在所述意图组之间出现的所有顺序流的步骤；以及

由每个所述对话日志来判定所述所有顺序流中的所述意图组之间出现每个顺序流概率的步骤。

6.根据权利要求5所述的方法，其特征在于，

获取所述意图组之间时间序列顺序流的概率分布的步骤，其除了在所述意图组之间的每个顺序流中的出现概率小于阈值的所述顺序流以外，包括：获取所述意图组之间时间序列顺序流的概率分布的步骤。

7.一种包括一个以上指令的计算机可读存储介质，其特征在于，

所述一个以上的指令通过计算机执行时，使得所述计算机执行权利要求1至6中的任何一项方法。

8.一种用于自动构建或更新对话式AI代理系统的对话流管理模型的装置，所述装置为计算机装置，其特征在于，包括：

构建/更新对话流管理模型单元；以及

对话日志收集单元，用于收集和存储与预设的域名服务相关的多个对话日志，所述域名服务包括多个意图组，每个所述对话日志包括多个话语记录，

所述构建/更新对话流管理模型单元，其包括：

接收由所述对话日志收集单元的所述多个对话日志；

根据预设标准，将每个所述话语记录分类为所述多个意图组中的一个意图组；

对应于每个所述意图组，将以每个对应的意图组分类的所述话语记录进行分组；

基于每个所述对话日志中的所述话语记录的顺序流，获取所述意图组之间的时间序列顺序流的概率分布；

构建或更新与所述域名服务相关的对话流管理模型，以便包括所述获取的所述意图组之间时间序列顺序流的概率分布。