CN111557001B

CN111557001B - 提供自然语言对话的方法、计算机装置及计算机可读存储介质

Info

Publication number: CN111557001B
Application number: CN201880085412.6A
Authority: CN
Inventors: 卨再濩; 张世荣; 尹都尚
Original assignee: Mingmang Technology Co ltd
Current assignee: Mingmang Technology Co ltd
Priority date: 2017-11-03
Filing date: 2018-05-25
Publication date: 2023-12-29
Anticipated expiration: 2038-05-25
Also published as: WO2019088383A1; CN111557001A; US20200364271A1; KR101891489B1; US11481443B2

Abstract

本发明，提供一种通过对话式代理系统来实现的提供自然语言对话的方法。根据本发明的提供自然语言对话的方法，包括：接收自然语言输入的步骤；处理输入的自然语言并基于输入的自然语言以确定用户意图的步骤；以及基于输入的自然语言及确定的用户意图中的至少一个来提供对应于输入的自然语言的自然语言应答。本发明的提供自然语言应答的步骤，包括：判定是否满足预设的第一条件的步骤；当满足第一条件时，提供属于实质性回答范畴的自然语言应答的步骤；当不满足于第一条件时，则判定是否满足预设的第二条件的步骤；以及当满足第二条件时，提供属于应答性语言范畴的自然语言应答的步骤。

Description

提供自然语言对话的方法、计算机装置及计算机可读存储介质

技术领域

本发明涉及一种对话式代理系统，更具体地，涉及一种能够提供更加类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统。

背景技术

最近，随着人工智能领域尤其是对自然语言理解这一领域的技术发展，对话式代理系统的开发和应用逐渐增加，其从基于传统的以机器为中心的命令式输入/输出方式的机器操作中摆脱出来，使得用户通过更亲和的方式，例如以语音及/或者文本形式的自然语言为媒介的对话方式来操作机器，且能够通过机器获得所希望的服务。由此，包括在线咨询中心或在线购物中心等在内的(但不局限于此，更多)各种领域，用户通过语音及/或者文本形式的自然语言对话，向对话式代理系统提出所需的服务，且由此得以获得所希望的结果。

随着对话式代理系统逐渐在更多的领域中得到应用，现在，已不再局限于简单地解释用户的意图并提供符合其意图的结果的程度，而是对能够提供更类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统的需求逐渐增加。另外，随着物联网的出现以及由此带来的人机之间对话式交互必要性的增加，使得对能够提供带情感和自然地对话的对话式代理系统的需求进一步增加。

发明内容

[解决的技术问题]

对话式代理系统，其在与用户进行自然语言的过程中，当接收用户输入的一个句子时，通常即时对其提供实质性的回答。然而，即便用户输入了一个句子，但由于尚未包含足够的信息，因此如果在此时提供回答时，反而破坏自然地对话的情况居多。另外，通过人与人之间进行的实际对话不难发现，通常在对话的过程中，一方与其固守如对话式代理系统的针对一次输入的句子进行一次实质性回答的形式，宁可判断是否在对话中到了可以实质性回答的合适时间，因此在到达该合适的时间之前，一直一言不发，保持等待，以便让对方继续说出一句或者更多的话，或者仅仅说出简单的应答性语言，以表示正在倾听对方的话。

因此，当接收用户输入的一个句子时，就即时对此提供实质性回答的现有的对话式代理系统，其相比于人与人之间的实际对话，存在不够自然的一面。

[技术方案]

根据本发明的一个特征，提供通过对话式代理系统来实现的提供自然语言对话的方法。根据本发明的提供自然语言对话的方法，包括：接收自然语言输入的步骤；处理输入的所述自然语言并基于输入的自然语言以确定用户意图(intent)的步骤；以及基于输入的所述自然语言及确定的所述用户意图中的至少一个来提供对应于输入的所述自然语言的自然语言应答的步骤。本发明的提供自然语言应答的步骤，包括：判定是否满足预设的第一条件的步骤；当满足所述第一条件时，提供属于实质性回答范畴的自然语言应答的步骤；当不满足于所述第一条件时，则判定是否满足预设的第二条件的步骤；以及当满足所述第二条件时，提供属于应答性语言范畴的自然语言应答的步骤。

根据本发明的一个实施例，确定的所述用户意图与下列各项中的至少一项相关联：特定任务的执行、特定信息的提供以及简单陈述，属于所述实质性回答范畴的自然语言应答，可以包括：告知与确定的用户意图相关联的特定任务的执行的完成，或提供基于输入的所述自然语言来获取的新内容，以告知对用户意图的理解，或者至少与确定的所述用户意图相关联的特定信息的一部分。

根据本发明的一个实施例，属于应答性语言范畴的自然语言应答，其为基于预设的应答性语言数据库被选定的应答性语言，可以包括：不属于实质性回答范畴的简单的响应或应答表达、感叹词、声音、图像、符号以及表情符号中的至少一个。

根据本发明的一个实施例，本发明的方法，还可以包括：在判定是否满足第一条件的步骤之前，判定是否满足预设的第三条件的步骤；以及当不满足第三条件时，在预设时间不提供自然语言应答，以等待输入补充信息，当经过预设时间仍没有补充信息的输入时，提供自然语言应答，以请求补充信息的步骤。

根据本发明的一个实施例，确定的所述用户意图与下列各项中的至少一项相关联：特定任务的执行、特定信息的提供以及简单陈述，是否满足第三条件，其可以基于无需请求信息补充，且通过下述进行判断：输入的自然语言，是否能够获取用于与确定的用户意图相关联的特定任务的执行、特定信息的提供或简单陈述中所需的所有信息。

根据本发明的一个实施例，是否满足第一条件，其可以基于下列各项中的至少一项来进行判定，确定的所述用户意图是否与特定任务的执行或特定信息的提供相关联，输入的所述自然语言句子类型和输入的所述自然语言是否基于之前的对话记录，以及输入的所述自然语言是否包括预设的常用句。

根据本发明的一个实施例，是否满足第一条件，其可以下述进行判定，基于神经网络学习方法来确定输入的自然语言是否为结束对话。

根据本发明的一个实施例，是否满足第二条件，其可以基于用户使用的应答性语言的频率来进行确定。

根据本发明的一个实施例，是否满足第二条件，其可以基于下述进行判定，基于属于实质性回答范畴的自然语言的应答、属于应答性语言范畴的自然语言应答以及请求信息补充的自然语言应答中，在最近的自然语言应答后是否经过了预设时间。

根据本发明的一个实施例，是否满足第二条件，其可以在基于下述进行判定，在没有提供以下任何一项——基于属于实质性回答范畴的自然语言的应答、属于应答性语言范畴的自然语言应答以及请求信息补充的自然语言应答中——的期间内，所输入的来自该用户的自然语言输入的数量、来自该用户的自然语言输入的输入词汇数量或来自该用户的自然语言输入的标点符号的数量。

根据本发明的一个实施例，应答性语言数据库，可以包括用户数据库和词汇数据库中的至少一个，其中：按用户存储用户特征数据的用户数据库，各用户特征数据库，可以包括以下各项中的至少一项：该用户之前的对话记录、发音特征、用词喜好度、所在地、设置语言、应答性语言的使用频率、喜欢使用的应答性语言以及喜欢使用的常用句；以及词汇数据库，词汇数据库可以包括以下各项中的至少一项：在根据说话人的性别、年龄段、出生地以及性格中的任意一个标准来预先设定的使用词汇、缩写、流行语以及非标准语。

根据本发明的另一个特征，提供一种计算机可读存储介质，所述计算机可读存储介质包括一个以上的指令，当一个以上的指令通过计算机执行时，使得计算机执行前述的方法中的任何一项方法。

根据本发明的另一个特征，提供一种计算机装置，其作为用于提供自然语言对话的计算机装置，包括：接收用户输入模块，用于接收自然语言的输入；分析输入模块，处理输入的自然语言，并基于输入的自然语言以确定用户意图(intent)；以及提供应答模块，基于输入的自然语言及确定的用户意图中的至少一个来提供对应于输入的自然语言的自然语言应答。本发明的提供应答模块，包括：对是否满足预设的第一条件进行判定，当输入的所述自然语言满足第一条件时，提供属于实质性回答范畴的自然语言应答，当输入的所述自然语言不满足于第一条件时，则对输入的所述自然语言是否满足预设的第二条件进行判定，以及当输入的所述自然语言满足第二条件时，提供属于应答性语言范畴的自然语言应答。

根据本发明的一个实施例，计算机装置可以包括用户终端或与用户终端连接的用于通信的服务器。

[发明的效果]

能够提供更加类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统。

附图说明

图1是根据本发明一个实施例的能够实现对话式代理系统的系统环境示意图；

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图；

图3是根据本发明一个实施例的简略示出图1的对话式代理服务器106的功能结构的功能框图；

图4是根据本发明一个实施例的简略示出对话式代理系统的功能结构的功能框图；

图5是根据本发明一个实施例示出通过对话式代理系统执行的示例性动作流程的流程图；

图6是根据本发明一个实施例示出用户与对话式代理系统之间对话示例的图。

具体实施方式

下面，参照附图，对本发明的实施例进行详细说明。在下面的说明中，当判断对已公开的功能以及结构的具体说明混淆本发明的主旨时，则省略其详细说明。另外，在下面说明的内容，其仅仅是本发明的一个实施例，因此理应理解为本公开不限于此。

在本公开中使用的术语只是为了说明特定的实施例，而并非用来限定本发明。例如，以单数来表述的组件，如果在上下文中没有明确表示其指单数，就应当理解为包括复数的含义。在本公开中使用的“及/或者”这一术语，应当理解为包括被列举的项目中的任意一个以上的所有组合。在本公开中使用的“包括”或者“具有”等术语，对其理应理解为只是想指定在本公开中所记载的特征、数字、步骤、动作、组件和零部件或者指定由这些来组合的存在物，而并不是通过这种术语的使用来排除一个或其以上的其它特征、数字、步骤、动作、组件和零部件或者由这些来组合的存在物或者其它可能性。

在本发明的实施例中，“模块”或“单元”是指，执行至少一个功能或动作的功能单元，其可以由硬件或软件来实现，或者以硬件和软件的组合来实现。另外，多个“模块”或“单元”，其除了需要用特定的硬件来实现的“模块”或“单元”以外，可以以至少一个软件模块来集成且由至少一个处理器实现。

在本发明的实施例中，“对话式代理系统”可以是指任意信息处理系统，也就是说，其与用户之间通过以语音及/或者文本形式的自然语言为媒介的对话式交互来接收来自于用户输入的自然语言(例如，以自然语言呈现的来自于用户的命令、陈述、请求和提问等)输入并进行分析，以掌握用户的意图(intent)并基于已掌握的用户意图执行适当的必要动作，但并不限于特定形式。在本发明的实施例中，通过“对话式代理系统”执行的动作，例如，可以包括提供对话应答。在本发明的实施例中，通过“对话式代理系统”执行的动作，例如，还可以包括任务的执行。在本发明的实施例中，通过“对话式代理系统”提供的对话应答，对此理应理解为，其可以以视觉、听觉及/或者触觉形式(例如，其可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供。在本发明的实施例中，通过“对话式代理系统”执行的任务，例如，其可以包括检索信息、购买物品、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但这些仅是示例，并不仅限于此)。

在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是“实质性回答”。在本发明的实施例中，通过“对话式代理系统”提供的“实质性回答”可以是告知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户输入来获取的新内容，以便告知已经理解了用户的意图(例如，提供基于以前的对话内容中推断出的内容)，或至少包含符合用户意图的有意义信息(例如，实质性的数据内容等)中的部分实质性内容的回答。在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是“补充信息的请求”。在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是简单的“应答性语言”，而不是包含上述的有意义信息的“实质性回答”或“补充信息的请求”。在本发明的实施例中，通过“对话式代理系统”提供的“应答性语言”可以包括，为持续更自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)以及感叹词、各种声音、图像、符号和表情符号等其他。

在本发明的实施例中，“对话式代理系统”，其可以包括，基于聊天软件平台(messenger)的聊天机器人(chatbot)系统，即，例如在聊天软件上与用户交流信息，以提供用户所需的各种信息或者执行任务的聊天机器人系统，但理应理解为，本发明不仅仅局限于此。

此外，除非另有定义，在本公开中使用的包括技术术语或科学术语在内的所有术语，其具有与本公开所属领域的技术人员通常理解的等同的含义。在词典中已定义的常用的术语，对此理应解释为，其具有与相关技术的上下文中的含义等同的意思，因此，在本公开中除非对此单独作出定义，不应被过度限制或过度放大来解释。

下面，参照附图，对本发明的实施例进行详细说明。

图1是根据本发明一个实施例的能够实现对话式代理系统的系统环境100示意图。根据图示，系统环境100包括：多个用户终端102a-102n、通信网络104、对话式代理服务器106以及外部服务服务器108。

根据本发明的一个实施例，多个用户终端102a-102n可以分别为具有有线或无线通信功能的用户任意电子装置。各用户终端102a-102n可以分别为包括智能手机、平板电脑、音乐播放器、智能扬声器、台式电脑、笔记本电脑，掌上电脑PDA、主机游戏、数字TV、机顶盒等在内的各种有线或无线通信终端，但对此理应理解为它不限于特定形式。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与对话式代理服务器106进行通信，即发送和接收必要的信息。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与外部服务服务器108进行通信，即发送和接收必要的信息。根据本发明的一个实施例，各用户终端102a-102n分别可以从外部接收语音及/或者文本形式的用户输入，并将通过通信网络104的对话式代理服务器106及/或者通过与外部服务服务器108的通信(及/或者用户终端102a-102n内的处理)获取的、与上述的用户输入对应的动作结果(例如，提供特定的对话应答及/或者执行特定的任务等)提供给用户。

在本发明的实施例中，任务执行，即与用户输入相对应的动作，其可以包括：检索信息、购买物品、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但不仅限于此)。根据本发明的一个实施例，对话应答，即通过用户终端102a-102n提供的与用户输入相对应的动作结果，例如，其可以是告知已完成符合用户意图的作业(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便告知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性回答。根据本发明的一个实施例，通过用户终端102a-102n提供的与用户输入相对应的对话应答，例如，其可以是为了明确把握前述的用户意图的后续提问或者补充信息的请求。根据本发明的一个实施例，通过用户终端102a-102n提供的与用户输入相对应的对话应答，对此理应理解为，例如，其可以不是前述的实质性回答或补充信息的请求，而可以是为持续更加自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)、感叹词、各种声音或图像、符号和表情符号等其他简单的应答性语言。根据本发明的一个实施例，各用户终端102a-102n可以分别将对话应答，即与用户输入相对应的动作结果，通过视觉、听觉及/或者触觉形式(例如，可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供给用户。

根据本发明的一个实施例，通信网络104，可以包括：有线或无线的任意通信网络，例如，TCP/IP通信网络。根据本发明的一个实施例，通信网络104，可以包括：例如，Wi-fi网络、LAN网络、WAN网络以及互联网网络等，本发明不限于此。根据本发明的一个实施例，通信网络104，可以使用例如以太网、GSM、增强数据GSM环境(Enhanced Data GSMEnvironment)、CDMA、TDMA、OFDM、,蓝牙、VoIP、Wi-MAX、Wibro其他任意的各种有线或无线通信协议来实现。

根据本发明的一个实施例，对话式代理服务器106，可以通过通信网络104与用户终端102a-102n通信。根据本发明的一个实施例，对话式代理服务器106通过通信网络104与用户终端102a-102n发送/接收必要的信息，并据此可做出动作，向用户提供与由用户终端102a-102n接收到的用户输入相对应的动作结果，即提供符合用户意图的动作结果。根据本发明的一个实施例，对话式代理服务器106，例如，其可以通过通信网络104从用户终端102a-102n接收以语音及/或者文本形式的用户的自然语言输入，并且基于预先准备的模型处理该接收到的自然语言输入，以此确定用户的意图(intent)。根据本发明的一个实施例，对话式代理服务器106，可以基于上述所确定的用户意图来执行与之对应的动作。根据本发明的一个实施例，对话式代理服务器106，其基于上述被确定的用户意图，执行与之对应的动作。根据本发明的一个实施例，对话式代理服务器106，例如，其可以生成特定的控制信号，并传送至该用户终端102a-102n，以执行符合用户意图的特定的任务。根据本发明的一个实施例，对话式代理服务器106，例如，其为了使用户终端102a-102n执行符合用户意图的特定的任务，可以通过通信网络104访问外部服务服务器108。

根据本发明的一个实施例，对话式代理服务器106，例如，其可以生成符合用户意图的特定的对话应答，并将其传送至用户终端102a-102n。根据本发明的一个实施例，对话式代理服务器106，其可以基于上述以被确定的用户意图，将与之对应的对话应答以语音及/或者文本形式生成，并且将生成的应答通过通信网络104传送至用户终端102a-102n。根据本发明的一个实施例，通过对话式代理服务器106生成的对话应答，可以包括前述的语音及/或者文本形式的自然语言应答，同时可以包括图像、视频、符号、表情符号等其他视觉要素，或者声音等其他听觉要素，或者其他别的触觉要素等。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以是包括，告知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便告知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性回答。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以是为了明确掌握前述的用户意图的后续提问或者补充信息的请求。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以不是前述的实质性回答或补充信息的请求，而可以是为持续更加自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)、感叹词、各种声音或图像、符号和表情符号等其他简单的应答性语言。根据本发明的一个实施例，可根据由用户终端102a-102n接收的用户输入的形式(例如，是语音输入还是文本输入)，可以在对话式代理服务器106上生成相同形式的应答(例如，如果给出语音输入，就生成语音应答，而如果给出文本输入，则生成文本应答)，但本发明不限于此。根据本发明的另一个实施例，理应理解为，其可以生成并提供语音及/或者文本形式的应答，而与用户输入的形式无关。

根据本发明的一个实施例，对话式代理服务器106，如上所述，其可以通过通信网络104与外部服务服务器108通信。外部服务服务器108，例如，其可以是消息服务服务器、在线咨询中心服务器、在线购物中心服务器、信息检索服务器、地图服务服务器、导航服务服务器等，本公开不限于此。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，对此理应理解为，其可以包括如由外部服务服务器108检索以及由此获取的数据内容。

在该图中虽然示出，对话式代理服务器106，其为通过通信网络104可与外部服务服务器108通信的单独的物理服务器，但本公开并不局限于此。根据本发明的另外一个实施例，对话式代理服务器106，对此理应理解为，例如，其可以作为在线咨询中心服务器或在线购物中心服务器等各种服务的服务器的一部分来构成。

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图。根据图示，用户终端102，其包括：接收用户输入模块202、传感器模块204、程序存储模块206、处理模块208、通信模块210以及应答输出模块212。

根据本发明的一个实施例，接收用户输入模块202，其可以接收来自用户的各种类型的输入，例如，语音输入及/或者文本输入等的自然语言输入(以及附加的触摸输入等其他形式的输入)。根据本发明的一个实施例，接收用户输入模块202，例如，其可以包括麦克风以及音频电路，并且通过麦克风获取用户语音输入信号，并将获取的信号转换为音频数据。根据本发明的一个实施例，接收用户输入模块202，其可以包括，如鼠标、操纵杆、轨迹球等各种定点装置和键盘、触摸板、触摸屏和触笔等各种类型的输入装置，并且通过这些输入装置，可以获取由用户输入的文本输入及/或者触摸输入信号。根据本发明的一个实施例，由接收用户输入模块202接收的用户输入，其可以与执行预设任务相关联，例如，执行预设的应用程序或检索预设的信息等，但是本发明不限于此。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是仅需要简单的对话应答，而与预设的应用程序执行或信息检索等无关。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是用于单方面传达意思的简单陈述。

根据本发明的一个实施例，传感器模块204，其包括一个以上的彼此不同类型的传感器，并且通过这些传感器可以获取用户终端102的状态信息，例如，相关的用户终端102的物理状态、软件及/或者硬件状态、或与用户终端102周围环境状态相关的信息等。根据本发明的一个实施例，传感器模块204，例如，其可以包括光传感器，并且通过光传感器检测相关用户终端102周围的光状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括移动传感器，并且通过移动传感器检测相关用户终端102是否移动的状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括速度传感器和GPS传感器，并且通过这些传感器检测相关用户终端102的位置及/或者背向状态。根据本发明的另一个实施例，传感器模块204，对此理应理解为，其可以包括温度传感器、图像传感器、压力传感器和触摸传感器等在内的各种形式的其他传感器。

根据本发明的一个实施例，程序存储模块206，其可以是存储能够在用户终端102上执行的各种程序，例如，各种应用程序以及相关数据等的任意存储介质。根据本发明的一个实施例，程序存储模块206，其可以存储，例如拨号应用程序、电子邮件应用程序、即时消息应用程序、照相机应用程序、音乐播放应用程序、视频播放应用程序、图像管理应用程序、地图应用程序和浏览器应用程序等在内的各种应用程序和与这些程序的执行有关的数据。根据本发明的一个实施例，程序存储模块206，其可以被配置为包括DRAM、SRAM、DDRRAM、ROM、磁盘、光盘和快闪存储器等各种类型的易失性或非易失性存储器。

根据本发明的一个实施例，处理模块208，其与用户终端102的各组件模块通信，并且可以在用户终端102上执行各种运算。根据本发明的一个实施例，处理模块208，其可以驱动并执行程序存储模块206上的各种应用程序。根据本发明的一个实施例，处理模块208，其在必要时，可以接收由接收用户输入模块202和传感器模块204获取的信号，并且对这些信号执行适当的处理。根据本发明的一个实施例，处理模块208，其在必要时，可以对通过通信模块210由外部接收到的信号进行适当的处理。

根据本发明的一个实施例，通信模块210，其使得用户终端102能够通过图1的通信网络104与对话式代理服务器106及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块212，例如，其可以根据预设协议通过通信网络104将由接收用户输入模块202及传感器模块204中获取的信号传送至对话式代理服务器106及/或者外部服务服务器108。根据本发明的一个实施例，通信模块210，例如，其可以通过通信网络104接收由对话式代理服务器106及/或者外部服务服务器108接收的各种信号，例如，接收包括语音及/或者文本形式的自然语言应答在内的应答信号或者各种控制信号，并且根据预设协议执行适当的处理。

根据本发明的一个实施例，应答输出模块212，其可以将与用户输入相对应的应答以视觉、听觉及/或者触觉等各种形式输出。根据本发明的一个实施例，应答输出模块212，其可以包括基于LCD、LED、OLED和QLED等技术的触摸屏等的各种显示装置，并通过这些显示装置向用户呈现与用户输入对应的视觉应答，例如文本、符号、视频、图像、超级链接、动画和各种通知等。根据本发明的一个实施例，应答输出模块212，可以包括，如扬声器或耳麦，并且通过扬声器或耳麦向用户提供与用户输入相对应的听觉应答，例如语音及/或者声音应答。根据本发明的一个实施例，应答输出模块212，其可以包括动作/触觉反馈生成部，并且通过其向用户提供触觉应答，例如动作/触觉反馈。根据本发明的一个实施例，应答输出模块212，对此理应理解为，可以同时提供在与用户输入相对应的文本应答、语音应答以及动作/触觉反馈中的任意两个以上的组合。

图3是根据本发明一个实施例的简略示出图1的对话式代理服务器106的功能结构的功能框图。根据图示，对话式代理服务器106，其包括：通信模块302、语音转文本(Speech-To-Text；STT)模块304、自然语言理解(Natural Language Understanding；NLU)模块306、用户数据库308、动作管理模块310、任务处理模块312、对话管理模块314、词汇集316以及语音合成(Text-To-Speech；TTS)模块318。

根据本发明的一个实施例，通信模块302，其根据预设的有线或无线通信协议通过通信网络104使得对话式代理服务器106与用户终端102及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块302，其可以通过通信网络104接收由用户终端102传送的来自用户的语音输入及/或者文本输入等。根据本发明的一个实施例，通信模块302，其可以通过通信网络104在接收由用户终端102传送的来自用户的语音输入及/或者文本输入的同时，或者与之单独地通过通信网络104接收由用户终端102传送的用户终端102的状态信息。根据本发明的一个实施例，状态信息，例如，其可以是用户在输入语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、用户终端102的软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。根据本发明的一个实施例，通信模块302，还可以为通过通信网络104向用户终端102传送由对话式代理服务器106生成的、以对应于上述接收的用户输入的对话应答(例如，语音及/或者文本形式的自然语言对话应答等)及/或者控制信号，采取所需的适当措施。

根据本发明的一个实施例，STT模块304，其可以接收由通信模块302接收的用户输入中的语音输入，并且基于模式匹配等将接收到的语音输入转换为文本数据。根据本发明的一个实施例，STT模块304，其可以通过从用户的语音输入中提取其特征来生成特征列向量。根据本发明的一个实施例，STT模块304，其基于DTW(Dynamic Time Warping)方式或HMM模型(Hidden Markov Model)、GMM模型(Gaussian-Mixture Mode)、深层神经网络模型、n-gram模型等的各种统计模型，可以生成文本识别结果，如词汇序列。根据本发明的一个实施例，STT模块304，其基于模式匹配将接收到的语音输入转换为文本数据时，可以参照后述的用户数据库308中的每个用户的特征性数据。

根据本发明的一个实施例，NLU模块306，其可以接收由通信模块302或STT模块304的文本输入。根据本发明的一个实施例，由NLU模块306接收的文本输入，其可以是，例如，在通信模块302中通过通信网络104由用户终端102接收到的用户的文本输入，或者是STT模块304对由通信模块302接收的用户语音输入所生成的如词语序列等文本识别结果。根据本发明的一个实施例，NLU模块306，其可以接收文本输入的同时，抑或是在其之后接收与该用户相关联的状态信息，例如该用户输入当时的用户终端102的状态信息等。如前所述，状态信息，例如，其可以是在用户终端102用户语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。

根据本发明的一个实施例，NLU模块306，其可以将接收到的文本输入对应于一个以上的用户意图(intent)上。在这里，用户意图，其与根据该用户意图通过对话式代理服务器106获得理解和执行的一系列动作(复数)相关联。根据本发明的一个实施例，NLU模块306，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照前述的状态信息。根据本发明的一个实施例，NLU模块306，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照后述的用户数据库308的每个用户的特征性数据。

根据本发明的一个实施例，NLU模块306，例如，其可以基于预先定义的本体模型来动作。根据本发明的一个实施例，本体模型，例如，其可以由节点之间的分层结构来呈现，各节点可以是与用户的意图对应的“意图”节点或者链接到“意图”节点的子“属性”节点(直接链接到“意图”节点或间接链接到“意图”节点”的“属性”节点的子“属性”节点)中的之一。根据本发明的一个实施例，“意图”节点和直接或间接链接到其“意图”节点的“属性”节点可以构成一个域名，而本体可以是这些域名的集成。根据本发明的一个实施例，用于NLU模块306中的本体模型，例如，其可以包括分别对应于被对话式代理系统理解且执行相应动作的所有意图的域名来构成。根据本发明的一个实施例，理应对本体模型理解为，其可以通过添加或删除节点，或者通过修改节点之间的关系等来动态地进行变更。

根据本发明的一个实施例，本体模型中的每个域名的意图节点及属性节点，其可以分别与对应于每个域名的用户意图或属性相关的词及/或者句子相关联。根据本发明的一个实施例，NLU模块306，可以将本体模型以由分层结构节点和按各节点相关联的词及/或者句子的集成如词典形式(未具体示出)呈现，并且NLU模块306，其可以基于以这种词典形式呈现的本体模型来确定用户的意图。例如，根据本发明的一个实施例，NLU模块306，当接收文本输入或词语序列时，可以确定该序列内的每个词语与本体模型中的哪个域名的哪个节点相关联，并且基于这一确定来判断对应的域名即用户的意图。根据本发明的一个实施例，NLU模块306，当其确定用户的意图时，可以生成提问，以便根据所确定的用户的意图实施动作。

根据本发明的一个实施例，用户数据库308，其可以是用于存储及管理每个用户的特征数据的数据库。根据本发明的一个实施例，用户数据库308，例如，其可以包括：针对每个用户的相关用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录以及用户的其他各种特征性信息。根据本发明的一个实施例，用户数据库308，例如，其可以包括针对每个用户的相关用户之前的对话记录中获取的用户特征性信息，包括：该用户的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的应答性语言或者其他常用句的种类等。

根据本发明的一个实施例，如上所述，STT模块304，其将语音输入转换为文本数据时，由于参照用户数据库308的每个用户的特征数据，如每个用户的发音特征，从而可以获取更准确的文本数据。根据本发明的一个实施例，NLU模块306，其在确定用户的意图时，由于参照用户数据库308的每个用户的特征数据，例如每个用户的特征或语境，从而可以确定更准确的用户意图。根据本发明的一个实施例，如后述的一样，对话管理模块314，其在生成对话应答时，例如生成实质性回答、选择应答性语言以及请求补充信息的提问的选择等，可以参照用户数据库308的用户特征数据。

在本附图中示出，用于存储及管理每个用户的特征数据的用户数据库308，其配置在对话式代理服务器106上，但是本发明不限于此。根据本发明的另一个实施例，用于存储及管理每个用户的特征数据的用户数据库308，对此理应理解为，例如，其可以存在于用户终端102上，也可以将其分散配置在用户终端102以及对话式代理服务器106上。

根据本发明的一个实施例，动作管理模块310，其可以接收由NLU模块306生成的提问，并且根据预设的动作管理模型(未示出)，生成基于上述接收到的提问的一系列动作流程。根据本发明的一个实施例，动作管理模块310，例如，其可以对由NLU模块306接收的提问是否为明确表达用户意图具有足够的信息(例如，是否都包括了构成句子所需的基本词类，是否有足够的信息而无需补充信息来即可执行对应于用户意图的任务或者提供对话应答等)进行判定。根据本发明的一个实施例，当判定由NLU模块306接收到的提问具有足够的信息来明确表达用户的意图时，动作管理模块310，其可以生成为执行符合该提问的任务及/或者提供对话应答等的具体的动作流程。根据本发明的一个实施例，当判定由NLU模块306接收到的提问尚未具有足够的信息来明确表达用户的意图时，动作管理模块310，其可以等待预设时间，以等待用户的补充输入，或者生成用于请求补充信息/补充提问程序的具体动作流程，以获取不足的信息。根据本发明的一个实施例，动作管理模块310，其可以与任务处理模块312及/或者对话管理模块314实现相互作用，以实施所生成的动作流程。

根据本发明的一个实施例，如上所述，任务处理模块312，其可以与动作管理模块310相互作用，以获取关于动作流程的通知，从而执行符合提问的预设的任务。根据本发明的一个实施例，任务处理模块312，其可以处理接收到的动作流程，从而完成符合用户意图的任务。根据本发明的一个实施例，任务处理模块312，其可以通过通信模块302和通信网络104与用户终端102及/或者外部服务服务器108通信，以处理接收到的动作流程。根据本发明的一个实施例，任务处理模块312，例如，其可以生成用于用户终端102的预设的控制信号，并且通过通信模块302和通信网络104传送至用户终端102。根据本发明的一个实施例，任务处理模块312，例如，其可以访问外部服务服务器108并从中请求及接收必要的服务。

根据本发明的一个实施例，如上所述，对话管理模块314，其与动作管理模块310相互作用，以获取关于动作流程的通知，从而向用户提供对话应答等。根据本发明的一个实施例，对话管理模块314，例如，其可以由动作管理模块310获取关于动作流程的通知，以提供符合用户意图的实质性回答及/或者应答性语言等，并据此执行必要的程序。根据本发明的一个实施例，对话管理模块314，例如，其可以对是否需要符合用户意图的实质性回答，如果需要，则执行以下程序，生成适当的回答，并通过通信模块302和通信网络104，将所生成的实质性回答提供给用户终端102。

根据本发明的一个实施例，当判定不需要实质性回答时，对话管理模块314，例如，其可以判定是否需要应答性语言，如果需要，则执行以下程序，选择适当的应答性语言，并将该被选择的应答性语言通过通信模块302和通信网络104提供至用户终端102。根据本发明的一个实施例，对话管理模块314，例如，其由动作管理模块310接收关于动作流程的通知，以请求补充信息或补充提问，并据此执行所需的程序。根据本发明的一个实施例，对话管理模块314，例如，其可以执行以下程序，选择为获取必要信息的必要的补充提问，并且将上述被选择的补充提问通过通信模块302和通信网络104提供至用户终端102，且接收对应于补充提问的用户补充性应答。

根据本发明的一个实施例，对话管理模块314，其生成对话应答时，例如，在生成实质性回答、选择应答性语言及选择补充提问等时，可以参照前述的用户数据库308的用户特征数据(例如，用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录，针对每个用户的相关用户之前的对话记录中获取的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的应答性语言或者其他常用句的种类等)。根据本发明的一个实施例，对话管理模块314，其生成对话应答时，例如生成实质性回答、选择应答性语言及选择补充提问等时，可以参照词汇集316。根据本发明的一个实施例，词汇集316，其可以是对话式代理系统的各用户模型(persona)，例如根据性别、年龄段、出生地和设置的性格，予以配置的包括词汇、缩写词、流行词、非标准词等的预设的词汇数据库。根据本发明的一个实施例，可以持续地对词汇集316进行更新，以反映当时的流行或话题等。

根据本发明的一个实施例，前述的一系列动作，例如，接收用户输入、确定用户意图、生成符合于被确定的用户意图的提问以及生成和处理符合于提问的动作流程，对此理应理解为，为了达到用户的最终目的，可以重复/连续数次实施。

根据本发明的一个实施例，TTS模块318，其可以接收被选择的对话应答，以便通过对话管理模块314传送至用户终端102。由TTS模块318接收的对话应答，可以是具有文本形式的自然语言或词语序列。根据本发明的一个实施例，TTS模块318，其可以根据各种形式的算法将上述接收到的文本形式的输入转换成语音形式。

参考图1至图3，在前述的本发明的实施例中，虽然将对话式代理系统表述为用户终端102和对话式代理服务器106之间的客户端-服务器模型，特别是，其客户端，仅提供用户输入/输出功能，而除此之外的对话式代理系统的其他所有功能则分配给了服务器，即基于所谓的“瘦客户端-服务器模型”来体现，但是本发明并不局限于此。根据本发明的另一个实施例，对话式代理系统，对此理应理解为，该功能可以在用户终端和服务器之间分配来体现，或者与之不同，可以通过安装在用户终端上的独立应用程序来体现。另外，根据本发明的一个实施例，对话式代理系统，将其功能通过在用户终端和服务器之间分配来体现时，对对话式代理系统的各功能在客户端和服务器之间的分配，理应理解为，可以在每个实施例中以不同的分配来体现。另外，在前述的参考图1至图3记载的本发明的实施例中，为了便于说明，将特定模块记载其为执行预设的动作，但是本发明不限于此。根据本发明的另一个实施例，对上述的说明中记载的通过某个特定模块来执行的动作，对这些动作理应理解为，其可以分别通过与该模块不同的其它模块来执行。

图4是根据本发明一个实施例的简略示出对话式代理系统400的功能结构的功能框图。如上所述，对话式代理服务器400，其可以在客户端和服务器之间，例如图1的用户终端102和对话式代理服务器106之间将其功能分配来体现，因此对本附图理应理解为，其从功能的观点简略示出了对话式代理系统的结构，而与各功能体现于客户端和服务器中的哪一个上无关。如图所示，对话式代理系统400，其包括：接收用户输入模块402、传感器模块404、输入/输出接口406、语音识别/输入分析模块408、用户数据库410、词汇集412、任务执行/应答提供模块414以及应答输出模块416。

根据本发明的另一个实施例，接收用户输入模块402，其可以接收来自于用户的各种形式的输入，例如语音输入及/或者文本输入等的自然语言输入(及附加的触摸输入等的其他形式的输入)。根据本发明的一个实施例，由接收用户输入模块402接收的用户输入，其可以与执行预设任务相关联，例如，执行预设的应用程序或检索信息等，但是本发明不限于此。根据本发明的另一个实施例，由接收用户输入模块402接收的用户输入，其可以是仅需要简单对话应答的输入，而与预设的应用程序执行或信息检索等无关。根据本发明的另一个实施例，由接收用户输入模块402接收的用户输入，其可以是用于单方面传达意思的简单陈述。

根据本发明的一个实施例，传感器模块404，其可以获取用户终端的状态信息，例如，相关用户终端的物理状态、软件及/或者硬件状态或与用户终端周围环境状态相关的信息等。根据本发明的一个实施例，传感器模块404，其包括一个以上的不同类型的传感器，并且通过这些传感器可以检测用户终端的状态信息。

根据本发明的一个实施例，输入/输出接口406，其可以对由接收用户输入模块402接收到的用户输入和由传感器模块404获取到的装置状态信息进行控制，使得其在对话式代理系统400中的其他模块中得到使用。根据本发明的一个实施例，输入/输出接口406，其可以对后述的应答输出模块416进行控制，使得向应答输出模块提供通过对话式代理系统400中的其他模块中生成的对话应答等。

根据本发明的一个实施例，语音识别/输入分析模块408，其根据预设模型，例如，当从外部接收到语音输入时，可以处理及识别该语音输入，并且对该输入进行分析。根据本发明的一个实施例，语音识别/输入分析模块408，另外，当从外部接收到文本输入时，根据预设的模型，可以对输入的该文本输入进行分析。根据本发明的一个实施例，通过语音识别/输入分析模块408对用户输入进行的分析结果，例如，其可以包括确定用户意图或生成与预设的对话应答及/或者特定任务执行有关的提问。

根据本发明的一个实施例，用户数据库410，其可以是存储及管理每个用户的特征数据的数据库。根据本发明的一个实施例，用户数据库410，例如，其可以包括：针对每个用户的相关用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录以及用户的其他各种特征性信息。根据本发明的一个实施例，用户数据库410，例如，其可以包括：针对每个用户的相关用户之前的对话记录中获取的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的应答性语言或者其他常用句的种类等的用户特征性信息。根据本发明的一个实施例，语音识别/输入分析模块408，其可以参照用户数据库410，执行为语音识别或用户输入分析所需的动作。

根据本发明的一个实施例，词汇集412，其可以是对话式代理系统的各用户模型(persona)，例如根据性别、年龄段、出生地和设置的性格，予以配置的包括词汇、缩写词、流行词、非标准词等的预设的词汇数据库。根据本发明的一个实施例，可以持续地对词汇集412进行更新，以反映当时的流行或话题等。

根据本发明的一个实施例，任务执行/应答提供模块414，其可以基于来自于语音识别/输入分析模块408的用户意图及/或者提问等，执行与用户输入对应的特定任务执行及/或者对话应答提供程序。根据本发明的一个实施例，任务执行/应答提供模块414，例如，其可以对是否获取足够的信息而无需补充信息也能够基于上述提问执行对应于用户意图的任务或提供对话应答进行判定，当判定已获取充分的信息时，其可以执行相关提问，也就是符合用户输入的任务执行及应答提供程序。根据本发明的一个实施例，任务执行/应答提供模块414，其提供符合用户输入的对话应答，例如，基于预设的标准来判定是否需要提供实质性回答，当判定为需要提供实质性回答时，就可以通过参照用户数据库410及词汇集412来生成适当的实质性回答。根据本发明的一个实施例，任务执行/应答提供模块414，其提供符合用户输入的对话应答，例如，当判定为无需提供实质性回答时，就基于预设的标准，判定是否需要提供应答性语言，当判定为需要提供应答性语言时，就可以通过参照用户数据库410及词汇集412来选择适当的应答性语言。

根据本发明的一个实施例，当判定通过提问尚未获取足够的信息来执行对应于用户输入的任务或者提供对话应答时，任务执行/应答提供模块414，其可以等待预设时间，以等待用户的补充输入，或者执行补充提问的程序，已获取不足的信息。根据本发明的一个实施例，任务执行/应答提供模块414，其生成对话应答时，例如生成实质性回答、选择应答性语言及选择补充提问等时，可以参照用户数据库410及词汇集412。

根据本发明的一个实施例，应答输出模块416，其可以将与用户输入相对应的应答以视觉、听觉及/或者触觉等各种形式输出。根据本发明的一个实施例，应答输出模块416，例如，其可以包括各种显示装置，并通过这些显示装置向用户呈现与用户输入对应的视觉应答，例如文本、符号、视频、图像、超级链接、动画和各种通知等。根据本发明的一个实施例，应答输出模块416，例如，其可以包括扬声器或耳麦，并且通过扬声器或耳麦向用户提供与用户输入相对应的听觉应答，例如语音及/或者声音应答。根据本发明的一个实施例，应答输出模块416，其可以包括动作/触觉反馈生成部，并且通过其向用户提供触觉应答，例如动作/触觉反馈。根据本发明的一个实施例，应答输出模块416，对此理应理解为，其可以同时提供在与用户输入相对应的文本应答、语音应答以及动作/触觉反馈中的任意两个以上的组合。

图5是根据本发明一个实施例示出通过对话式代理系统执行的示例性动作流程的流程图。

在步骤502中，对话式代理系统，其可以接收用户的输入，包括由一个以上词语组成的自然语言输入。根据本发明的一个实施例，自然语言输入，例如，其可以是通过麦克风接收的语音输入。根据本发明的另一个实施例，自然语言输入，其可以是通过键盘或触摸板等接收的文本输入。

在步骤504中，可以将在步骤502中接收的用户输入中包括的语音输入转换为文本。如果在步骤502中接收到的用户输入仅是文本输入，而不是语音输入，那么就可以跳过步骤504。接着，在步骤506中，可以对用户输入的文本或对用户输入的语音输入通过转换而获取的文本执行对自然语言的理解处理，从而确定与其相符的用户意图。关于对语音输入的文本转换、对自然语言的理解处理以及据此确定用户意图等，在上面已进行说明，因此在此将省略详细说明。

在步骤508中，其可以对是否获取足够的信息而无需补充信息也能够执行对应于用户意图的任务或提供对话应答进行判定。根据本发明的一个实施例，例如，其生成的提问，可以是与预订外卖订单有关的提问(例如，提出预订两只炸鸡的需求)，在步骤508中，当判定已经从用户输入中获取了对该需求足够的信息(例如，预订外卖订单所需的产品名称、地址、数量等各种信息)时，程序将进行步骤510，从而对该提问其为要求执行特定任务进行判定。在步骤510中，当判定其需要执行特定任务(例如，受理外卖订单申请)时，程序将进行步骤512，从而可以完成该特定任务的执行。在步骤512中完成对特定任务的执行之后，或者在步骤510中判定无需执行特定任务时，程序将进行步骤514。

在步骤514中，可以根据预设标准来判定是否需要向用户提供实质性回答。根据本发明的一个实施例，实质性回答可以是通知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户输入来获取的新内容，以便通知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性内容的回答。

根据本发明的一个实施例，例如，可以根据与输入的提问有关的句子类别来判定是否需要提供实质性回答。例如，对于如“你叫什么名字”之类的疑问句或者如“告诉我今天的天气”之类的命令句时，通常应提供实质性回答(例如，“我的名字叫000”，或“今天天气晴朗，风多、湿度低”等)。例如，当执行预订炸鸡订单任务时，应当提供实质性回答(例如，“完成炸鸡订单了”等)，以通知该任务的完成。还有，当与输入提问有关的句子其基于以前对话的内容时，例如“昨天吃的夜宵真好吃”，那么对话式代理系统可能有必要参照对应于以前的对话内容提供响应用户输入的实质性回答，例如，可以提供“薄皮披萨那么好吃吗？”这样的新的内容(并未在用户输入中直接包含的新内容)来告知已经理解用户的意图。根据本发明的一个实施例，当与输入提问有关的句子其包含特定的常用句时(例如，包含需要适当地响应表达的如“好天气”、“真冷”等常用句，或者包含有必要确认对话结束的特定的常用句，例如“要睡觉了”、“稍后见”、“今天真谢谢你”时)，有必要提供与之对应的常用句式的回答(例如，“天气真的很好”、“真的很冷”等或“晚安”、“下次见”、“再叫我”等)。

根据本发明的另一个实施例，当判断与输入提问有关的句子为终止当前对话的输入时，有必要提供实质性回答(例如，“还有什么需要的吗？”，“现在是不是都好了？”等)，从而对结束此对话的意图进行确认。根据本发明的一个实施例，关于与输入提问有关的句子其是否为结束当前的对话，可以基于神经网络学习来做出体现。

另外，当与输入提问有关的句子，例如，“我有想吃的东西”或“我的名字叫”等简单的陈述，或“啊，真好”等简单的感叹句时，通常不会立即提供实质性回答。在这里，理应理解为，前面记载的用于确定是否需要向用户提供实质性回答的条件，其仅仅是示例，因此可以对此考虑各种标准。在步骤514中，当判定需要提供实质性回答时，对话式代理系统，其可以在步骤516中生成适当的实质性回答并将其提供给用户终端102。

在步骤514中，当判定无需提供实质性回答时，程序将进行步骤518，对话式代理系统，则根据预设的标准，判定是否需要提供应答性语言。根据本发明的一个实施例，应答性语言可以包括，为持续更加自然和流畅的对话的简单响应/应答表达、感叹词、各种声音或图像、符号和表情符号等。根据本发明的一个实施例，是否需要提供应答性语言，可以基于用户特征数据，如从用户的以前对话记录中导出的信息(例如，相关用户的应答性语言的使用频率)来进行确定。根据本发明的一个实施例，是否需要提供应答性语言，例如，其可以基于在通过对话式代理系统未提供对话应答(例如，实质性回答、应答性语言或者请求补充信息等)的情况下，持续输入的用户输入句子的数量、输入的词汇数量、文本输入中的标点符号数量等是否达到了预设标准以上，或者基于在通过对话式代理系统未提供对话应答的情况下，自用户输入后是否经过了预设的时间以此来进行确定。在这里，理应理解为，前面记载的用于确定是否需要向用户提供应答性语言的条件仅仅是示例，对此可以考虑各种标准。

在步骤518中，当判定根据预设的标准需要提供应答性语言时，程序将进行步骤520，并且可以选择适当的应答性语言，并将其提供给用户终端102。根据本发明的一个实施例，应答性语言的选择，其可以基于用户特征数据，例如从相关用户的以前对话记录中导出的信息(例如，相关用户根据情况或者对话氛围经常使用的应答性语言)来进行确定。其根据本发明的一个实施例，可以基于对给出的对话的实时情绪分析来选择与气氛(例如，积极/消极/中立)相符的应答性语言。根据本发明的一个实施例，可以根据对话式代理系统的个性化，例如，对话式代理系统的用户模型(persona)，即根据如性别、年龄段、出生地等分别选择不同的应答性语言。

在步骤518中，当判定无需提供应答性语言时，程序可以进行步骤522。根据本发明的一个实施例，对话式代理系统，其可以在步骤522中在预设时间内等待补充信息的输入。

返回步骤508，当判定为与用户意图对应的提问而所需的信息并没有全部获取时，程序进行步骤522，对话式代理系统可以等待预设时间，以等待补充信息的输入。根据本发明的一个实施例，例如，所生成的提问为与预订外卖订单有关，当与提问有关的输入句子以“我要点炸鸡”来简单结束，而没有包含必要的信息，例如产品名称、地址、数量等的预订外卖订单所必要的各个信息时，则可以判定它没有包含充分的信息。

在步骤524，其判定是否有由用户输入的补充信息，当有补充信息的输入时，程序可以返回到步骤508。而与其不同，在步骤524中，当判定尚未有由用户输入的补充信息时，则程序进行步骤526，并且对话式代理系统可以选择为获取补充信息的提问或为请求信息的适当的句子，并将其提供给用户终端102。根据本发明的一个实施例，如上所述，当输入简单的“我要点炸鸡”后，经过预设时间还没有输入补充信息时，对话式代理系统，其可以生成如“您要点什么产品？”等补充提问，并将其提供给用户终端102。而与其不同，当输入“我要点炸鸡”后，在经过预设时间这一过程中，如“把乔村的两只纯肉炸鸡送到我们家”等输入补充信息时，程序进行步骤508，并将进行后续程序。

图6是根据本发明一个实施例示出用户与对话式代理系统之间对话示例的图。所示出的对话，对此理应理解为，其仅仅是为了说明本发明的一个实施例而所包括的内容，因此本发明并不局限于这些示例。

根据图示，可以看到，首先接收到由用户的“啊，买了准备在万圣节派对时穿的衣服，可是太小了哦”这一简单陈述。根据本发明的一个实施例，在这种情况下，对话式代理系统将会判断，该陈述虽然包含了充分的信息，但是无需进行实质性回答。根据本发明的一个实施例，另外，对话式代理系统可以判断，虽然无需进行实质性回答，但是在经过预设时间后有必要提供应答性语言。根据该图所示，可以看到对话式代理系统，其提供了一个从数据库中选择的“怎么办”这一应答性语言。

本领域技术人员可以知道，本发明并不局限于本说明书中所记载的示例，在不脱离本发明范畴的范围内，可以对本发明进行各种变更、重新构成以及替换。本说明书中所记载的各种技术，对此理应理解为，其可以通过硬件或软件或者硬件和软件的组合来实现。

根据本发明的一个实施例的计算机程序，其通过计算机处理器等以可读存储介质，例如，包括EPROM、EEPROM、快闪存储器等非易失性存储器、内置硬盘和可拆卸磁盘等磁盘、磁光盘以及CDROM磁盘等的各种类型的存储介质存储的形式来体现。另外，程序代码(复数)可以以汇编程序语言或机器语言来体现。通过下面的权利要求范围，将包括属于本发明的真正的思想及其范畴的所有变形和变更。

Claims

1.一种通过对话式代理系统实现的提供自然语言对话的方法，其特征在于，包括：

接收自然语言输入的步骤；

处理输入的所述自然语言并基于输入的自然语言以确定用户意图的步骤；以及

基于输入的所述自然语言及确定的所述用户意图中的至少一个来提供对应于输入的所述自然语言的自然语言应答的步骤，

提供所述自然语言应答的步骤，包括：

判定是否满足预设的第一条件的步骤；

当满足所述第一条件时，提供属于实质性回答范畴的自然语言应答的步骤；

当不满足所述第一条件时，则判定是否满足预设的第二条件的步骤；以及

当满足所述第二条件时，提供属于应答性语言范畴的自然语言应答的步骤，

其中，是否满足所述第二条件，其基于用户使用的应答性语言的频率来进行确定。

2.根据权利要求1所述的提供自然语言对话的方法，其特征在于，

确定的所述用户意图与下列各项中的至少一项相关联：特定任务的执行、特定信息的提供以及简单陈述，

属于所述实质性回答范畴的自然语言应答，包括：告知与确定的所述用户意图相关联的所述特定任务的执行的完成，或提供基于输入的所述自然语言来获取的新内容，以告知对用户意图的理解，或者至少与确定的所述用户意图相关联的所述特定信息的一部分。

3.根据权利要求1所述的提供自然语言对话的方法，其特征在于，

所述属于应答性语言范畴的自然语言应答，其为基于预设的应答性语言数据库被选定的应答性语言，包括：不属于所述实质性回答范畴的简单的响应或应答表达、感叹词、声音、图像、以及符号中的至少一个。

4.根据权利要求1所述的提供自然语言对话的方法，其特征在于，包括：

在判定是否满足所述第一条件的步骤之前，判定是否满足预设的第三条件的步骤；以及

当不满足所述第三条件时，在预设时间不提供自然语言应答，以等待输入补充信息，当经过所述预设时间仍没有所述补充信息的输入时，提供自然语言应答，以请求所述补充信息的步骤。

5.根据权利要求4所述的提供自然语言对话的方法，其特征在于，

是否满足所述第三条件，其基于无需请求信息补充，且通过下述进行判断：输入的自然语言，是否能够获取用于与确定的所述用户意图相关联的特定任务的执行、特定信息的提供或简单陈述中所需的所有信息。

6.根据权利要求1所述的提供自然语言对话的方法，其特征在于，

是否满足所述第一条件，其基于下列各项中的至少一项来进行判定，确定的所述用户意图是否与特定任务的执行或特定信息的提供相关联，输入的所述自然语言句子类型和输入的所述自然语言是否基于之前的对话记录，以及输入的所述自然语言是否包括预设的常用句。

7.根据权利要求1所述的提供自然语言对话的方法，其特征在于，

是否满足所述第一条件，其基于下述进行判定，基于神经网络学习方法来确定输入的所述自然语言是否为结束对话。

8.根据权利要求4所述的提供自然语言对话的方法，其特征在于，

是否满足所述第二条件，还基于下述进行判定，基于属于所述实质性回答范畴的自然语言的应答、属于所述应答性语言范畴的自然语言应答以及所述请求信息补充的自然语言应答中，在最近的自然语言应答后是否经过了预设时间。

9.根据权利要求4所述的提供自然语言对话的方法，其特征在于，

是否满足所述第二条件，还基于下述进行判定，在没有提供以下任何一项——基于属于所述实质性回答范畴的自然语言的应答、属于所述应答性语言范畴的自然语言应答以及所述请求信息补充的自然语言应答中——的期间内，所输入的、来自该用户的自然语言输入的数量、来自所述用户的自然语言输入的输入词汇数量或来自所述用户的自然语言输入的标点符号的数量。

10.根据权利要求3所述的提供自然语言对话的方法，其特征在于，所述应答性语言数据库，包括用户数据库和词汇数据库中的至少一个，其中：

按用户存储用户特征数据的用户数据库，包括以下各项中的至少一项：该用户之前的对话记录、发音特征、用词喜好度、所在地、设置语言、应答性语言的使用频率、喜欢使用的应答性语言以及喜欢使用的常用句；所述词汇数据库，包括以下各项中的至少一项：在根据说话人的性别、年龄段、出生地以及性格中的任意一个标准来预先设定的使用词汇、缩写、流行语以及非标准语。

11.一种计算机可读存储介质，所述计算机可读存储介质包括一个以上的指令，其特征在于，

所述一个以上的指令通过计算机执行时，使得计算机执行权利要求1至权利要求10中的任何一项方法。

12.一种提供自然语言对话的计算机装置，其特征在于，包括：

接收用户输入模块，用于接收自然语言的输入；

分析输入模块，处理输入的所述自然语言，并基于输入的所述自然语言以确定用户意图；以及

提供应答模块，基于输入的所述自然语言及所述确定的所述用户意图中的至少一个来提供对应于输入的所述自然语言的自然语言应答，

其中，

所述提供应答模块，用于：

对输入的所述自然语言是否满足预设的第一条件进行判定，

当输入的所述自然语言满足所述第一条件时，提供属于实质性回答范畴的自然语言应答，

当输入的所述自然语言不满足所述第一条件时，则对输入的所述自然语言是否满足预设的第二条件进行判定，

当输入的所述自然语言满足所述第二条件时，提供属于应答性语言范畴的自然语言应答，

13.根据权利要求12所述的计算机装置，其特征在于，所述计算机装置，包括：

用户终端或与所述用户终端连接的用于通信的服务器。