CN112148939A

CN112148939A - 数据处理方法、装置及电子设备

Info

Publication number: CN112148939A
Application number: CN201910580045.3A
Authority: CN
Inventors: 董保华
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29

Abstract

本申请实施例公开了数据处理方法、装置及电子设备，所述方法包括：在与目标用户进行对话的过程中，根据已完成对话中的提问信息或答案数据，对新一轮对话中的提问意图进行预测；接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。通过本申请实施例，能够提高数据处理效率，使得用户更高效地通过多轮对话的方式，获得最终所需的数据。

Description

数据处理方法、装置及电子设备

技术领域

本申请涉及数据处理技术领域，特别是涉及数据处理方法、装置及电子设备。

背景技术

在很多大型的信息服务系统，尤其是集团化的信息系统中，通常会存在大量的数据。这些数据通常会从一定程度上反映出实际运营过程中可能存在的问题，因此，系统中通常会有专门的数据分析系统定期(例如，每周或者每个月等)地对一些数据进行分析，给出数据报表，以供系统中的运营人员、各级主管等用户进行查看，从中发现问题，或者分析问题存在的原因，以进一步提升系统性能或者业务流程，等等。

但是，在实际应用中，经常会存在临时产生的数据分析等需求。例如，某商品对象信息服务系统中某部门/业务主管在临出差前，需要查看自己负责的某个业务域最近一个月的收入情况，等等。针对这种情况，在现有技术中，该部门/业务主管只能通过电话、邮件等方式要求数据分析师帮忙，分析师则需要从对应业务域的数据库中调取出相关的数据，再利用一些相关的数据分析工具等进行分析后，给出相应的报表，再返回给部门/业务主管。上述过程可能会需要经历比较长的时间，而部门/业务主管在收到报表后，还可能会在此基础上继续产生更多的需求，例如，之前要求分析师帮忙查询了最近一周的数据，看到结果后，发现这些数据可能不足以反映出某个问题，于是想要再查询最近一个月的数据，此时，该部门/业务主管则需要再找到数据分析师，重新提需求，分析师再重新重复上述操作，才能够将最近一个月的答案数据给到部门/业务主管。或者，部门/业务主管收到报表之后，发现某部分数据存在异常，则同样需要再找分析师帮忙进行分析，期间可能会需要耽搁比较长的时间。

因此，如何更快捷地满足用户关于数据分析等方面的需求，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了数据处理方法、装置及电子设备，能够提高数据处理效率，使得用户更高效地通过多轮对话的方式，获得最终所需的数据。

本申请提供了如下方案：

一种数据处理方法，包括：

在与目标用户进行对话的过程中，根据已完成对话中的提问信息或答案数据，对新一轮对话中的提问意图进行预测；

根据预测结果提供对应的候选词；

接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

一种数据处理方法，包括：

接收提问信息，所述提问信息与目标范围内的数据库相关；

根据所述提问信息对语义槽位进行填充，以识别用户的提问意图；

根据所识别出的意图，从所述数据库中获得答案数据；

输出所述答案数据，并根据所述提问信息或答案数据，对新一轮对话中的提问意图进行预测，根据预测结果提供对应的候选词；

一种数据处理装置，包括：

意图预测单元，用于在与目标用户进行对话的过程中，根据已完成对话中的提问信息或答案数据，对新一轮对话中的提问意图进行预测；

候选词提供单元，用于根据预测结果提供对应的候选词；

意图确定单元，用于接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

一种数据处理装置，包括：

提问信息接收单元，用于接收提问信息，所述提问信息与目标范围内的数据库相关；

意图确定单元，用于根据所述提问信息对语义槽位进行填充，以识别用户的提问意图；

答案数据获得单元，用于根据所识别出的意图，从所述数据库中获得答案数据；

候选词提供单元，用于输出所述答案数据，并根据所述提问信息和/或答案数据，对新一轮对话中的提问意图进行预测，根据预测结果提供对应的候选词；

目标候选词接收单元，用于接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行如下操作：

根据预测结果提供对应的候选词；

一种电子设备，包括：

一个或多个处理器；以及

接收提问信息，所述提问信息与目标范围内的数据库相关；

根据所识别出的意图，从所述数据库中获得答案数据；

输出所述答案数据，并根据所述提问信息和/或答案数据，对新一轮对话中的提问意图进行预测，根据预测结果提供对应的候选词；

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，在用户发起一轮对话后，根据用户的提问信息提供答案数据的过程中，还可以对用户下一轮对话中可能提问的对新一轮对话中的提问意图进行预测，并根据预测结果提供对应的候选词，这样，用户在新一轮对话中，可以直接选择候选词，而不再需要输入完整的提问信息，因此，可以提高数据处理效率，使得用户更高效地通过多轮对话的方式，获得最终所需的数据。

在可选的实施方式中，在对新一轮对话中的提问意图进行预测，数据处理装置则可以根据被选择的候选词以及上一轮对话中的槽位填充结果，确定出用户在新一轮对话中的提问意图，并进而给出对应的答案数据。通过这种方式，使得用户可以通过人机对话的方式随时发起与数据库查询、分析等相关的提问，以便快速获得对应的答案数据。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的系统架构的示意图；

图2是本申请实施例提供的第一方法的流程图；

图3-1至3-3是本申请实施例提供的用户界面的示意图；

图4是本申请实施例提供的第二方法的流程图；

图5是本申请实施例提供的第一装置的示意图；

图6是本申请实施例提供的第二装置的示意图；

图7是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

首先需要说明的是，为了达到便捷响应用户数据分析等方面的需求的目的，可以通过人机交互的方式来实现，传统的人机交互系统中，需要用户输入具体的机器指令，然后才能获得对应的数据。例如，在需要查询数据库中的数据时，则需要输入sql等各式的查询语句进行查询。这对于专业的数据分析师可能并不是难事，但是，对于部门/业务主管、运营人员等非专业人士而言，则是比较难实现的，这种用户更希望通过人类所能理解的自然语言的方式来表达自己的需求。为此，可以通过“数据处理装置”来满足上述要求，这种数据处理装置通常可以通过软件的形式实现，可以具有以下功能：首先，能够理解人类的自然语言，从中确定出用户的意图；其次，能够接入所需的数据库，并根据用户的意图执行数据查询、分析等操作，以便为用户提供其所需要的数据。如果能够实现具有上述功能的数据处理装置，则在用户需要获得与数据分析相关的信息时，则只需要用自然语言的方式来表达其需求，该数据处理装置则可以通过分析用户的意图，调用相关的接口等方式，为用户返回相应的数据。相对于通过线下联系分析师为其进行数据查询或者分析而言，可以更快速的获得所需的结果。

本申请发明人在实现本申请的过程中发现，现有技术中存在一些相对高级的人机交互系统，这种系统中人机交流的内容主要是人类习惯的自然交流语言，交流方式也是人类习惯的自然语言交流方式。这样，用户只需要输入(键盘或者语音等)通过自然语言表达的问题，则数据处理装置则可以做出响应，返回用户所需的数据。但是，本申请发明人还发现，现有技术中，对于任务型的人机交互系统而言，数据处理装置完全是站在当前问题为用户提供答案，无法将前后不同的问题之间的关系联系起来，因此，也无法从整体上思考用户的真实意图是什么。例如，在前文所述的例子中，假设某用户需要查询某业务域最近一周的收入情况，用户可以输入“某业务域最近一周的收入”，相应的，数据处理装置可以返回对应的数据查询结果。之后，如果用户又想查看最近一个月的情况，则只能重新输入“某业务域最近一个月的收入”，相应的，数据处理装置再返回对应的数据查询结果。

可见，在上述现有技术的方案中，虽然数据处理装置能够理解人类的自然语言，但是，只能提供“一问一答”的实现方式。而在数据分析相关的应用领域，用户通常是采用探索的方式向数据处理装置进行提问，在一次提问之后，根据实际返回的结果，通常会引发后续一系列更多的提问。例如，在一次提问后，发现问题中的时间区间信息需要修改，或者发现其中某项数据存在异常，需要分析异常原因，或者，还可能需要预测未来的数据趋势，等等，这都会再次进行提问。而在现有技术中，每一次都需要重新编辑自己的问题。例如，每次提问分别输入的问题可能是“某业务域最近一周的收入”，“某业务域最近一个月的收入”，“某业务域最近一个月的收入数据产生的异常数据的原因是什么”，等等。可见，需要用户重复输入的信息会非常多。

为此，在本申请实施例中，提供了相应的解决方案。在该方案中，主要提供了针对数据分析领域的人机对话系统。在该人机对话系统中，由于主要针对数据分析领域，而在该领域中，用户的意图通常可以通过以下几个方面的关键信息体现出来，例如，业务域、指标、维度、时间等，只要能够明确上述要素中的部分或全部，则可以确定出用户的意图。为此，在本申请实施例中，可以根据上述特点设计语义槽位，这样，可以将用户表达的自然语句进行分词，并通过语义分析等方式，将具体的词语填充到对应的槽位上，即可将用户输入的自然语言表达的语句识别为结构化的信息，这种结构化的信息就可以是机器可理解的信息，也即，数据处理装置可以根据这种结构化的信息，理解用户的意图，并给出相应的答案数据。其中，语义槽位是意图识别过程中常用的概念，意图识别通常可以使用分类的方法将句子分为相应的意图种类，而槽位填充则可以看做是序列标注问题，即对于给定的句子中的每个词分别打上相应的标签。在上述槽位信息的基础上，由于用户在前后相邻的多次提问中，问题之间通常会具有一定的关联性，例如，某个问题相对于前一个问题而言，只是某个关键词发生了变化，或者，需要前一个问题基础上进行进一步的分析，也即，具体所需的数据主体不变，但是意图的类型发生了变化，例如之前只是需要数据查询，后来又需要进行异常分析，等等。因此，在本申请实施例中，在根据用户输入的通过自然语言表达的提问信息，并进行意图识别后，不仅可以返回相应的答案数据，同时，还可以对用户接下来可能需要继续提问的意图进行预测，并提供可选的用于表达新的意图的候选词。这样，用户便可以直接通过选择上述候选词的方式来继续发起提问，而不再需要重新输入完整的问题信息。

具体实现时，可以通过多种方式提供人机交互的操作入口。例如，参见图1，可以在关联的即时通信(IM)系统客户端的界面中，提供用于人机交互的选项，或者，将“数据处理装置”添加到用户的“好友”列表中，用户可以选择与该“数据处理装置”进行对话。“数据处理装置”可以是运行在某系统服务器中的程序或者功能模块，能够将多种数据库接入到该功能模块。例如，某集团内部提供上述“数据处理装置”功能，则该集团内部的全部数据库都可以接入进来，以便通过该“数据处理装置”实现对数据的查询、分析等处理。

下面对本申请实施例提供的具体实现方案进行详细介绍。

实施例一

首先，该实施例一从前述数据处理装置的角度，提供了一种数据处理方法，参见图2，该方法具体可以包括：

S201：接收提问信息，所述提问信息与目标范围内的数据库相关；

具体实现时，如果是以即时通信客户端作为人机交互的入口，则用户可以通过这种即时通信客户端发起发起人机交互请求，此时，即时通信服务端可以在用户客户端与“数据处理装置”之间建立起通信连接。之后，用户便可以通过即时通信客户端提交具体的提问问题，其中，具体的提问问题可以以自然语言的方式进行描述。具体的，在本申请实施例中，具体提问的问题可以是与目标范围内的数据库相关的。

其中，所谓的目标范围，可以是指某个企业或者集团范围内，等等，在本申请实施例中，数据处理装置所能够访问的数据库所构成的范围，即可称为目标范围。具体实现时，具体的数据处理装置模块能够访问哪些数据库，可以是通过预先配置等方式来确定的。例如，某集团能够提供商品对象信息服务、支付服务、物流服务等多种服务能力，可能会通过多个不同的系统来实现，每个系统中都会产生并维护各自的多个数据库。对于集团内的运营或者管理人员，或者具体的商家用户等，都有可能会具有随时查询数据、分析数据的需求，因此，可以将这些数据库都接入进来，使得各种用户可以通过数据处理装置发起提问，并获得相应的答案信息。

需要说明的是，本申请实施例所述的提问信息可以对应用户输入的问题文本，由于本申请实施例中在针对一个提问返回答案信息的同时，还可以提供对下次可能继续发起的提问的预测信息，以便于用户通过选择的方式发起下次提问，因此，为了便于区分第一次输入的提问信息，以及后续需要继续提问的提问信息，这里区别为提问信息以及对新一轮对话中的提问意图进行预测。可以理解的是，对于对新一轮对话中的提问意图进行预测，在本申请实施例中，通常并不需要用户完整输入问题文本，对此，后文中会有详细介绍。

S202：根据所述提问信息对语义槽位进行填充，以识别用户的提问意图；

在接收到具体的提问信息后，数据处理装置首先可以对用户的提问意图进行识别。其中，具体进行识别时，可以通过槽位填充的方式来实现。具体的，语义槽位可以是预先配置好的，可以根据与数据库处理相关的提问信息中，所涉及到到能够表明用户意图的关键元素进行配置。例如，具体可以包括业务域、时间、指标、维度、意图类型，等等。这样，在接收到具体的提问信息后，可以首先进行分词等处理，然后可以通过语义识别等方式，确定出具体的词语对应的槽位，并进行槽位填充，这样便可以使得数据处理装置能够理解用户通过自然语言表达的提问信息，并进而识别出用户意图。

具体实现时，可以预先离线训练好词向量、textcnn等意图分类模型、命名实体识别模型，等等。在接收到用户的提问信息后，可以对用户输入的提问信息进行分词、去停用词、同义词转换等处理，然后，可以进行向量化，得到句向量。例如，可以将提问信息对应的一句话，转化成多维向量(例如，100维，则每个具体的提问信息都可以转化为100维的向量，以便于进行向量间计算)。其中，每个维度上对应的元素的取值标识，对应的词语在这句话中是否出现，以及在出现时，该词语在语句中用于表达用户意图的重要性。之后，可以以前述多维向量为输入，调用textcnn意图预测模型，进行意图类型预测，判断用户此时的意图类型。其中，由于本申请实施例主要针对数据库处理这个范围内的人机交互，因此，用户的意图类型通常会有相对比较固定的几种，例如，可以包括数据查询，因子分析(发现某数据发生变化等异常时，对原因进行分析)，异常检测，数据走向趋势预测等。因此，可以预先通过训练数据集以及对应的意图类型标签，对textcnn等模型进行训练，这样，在将当前用户具体提交的提问信息转化为句向量之后，便可以通过将其输入到textcnn模型的方式，对具体的意图类型进行预测。例如，可以预测出到底是数据查询还是因子分析或者其他的意图类型。在明确了用户意图类型后，可以对用户输入的提问信息进行命名实体识别，识别出时间、业务域、指标、维度等槽位信息并对槽位进行填充。

S203：根据所识别出的意图，从所述数据库中获得答案数据；

在识别出用户的意图后，则可以从具体的数据库中获得答案数据。其中，具体实现时，根据具体识别出的意图类型的不同，可以采用不同的方式来获得具体的答案数据。例如，如前文所述，所述意图类型可以包括数据查询，原因分析，异常检测或数据走向趋势预测。其中，如果所识别出的意图类型是数据查询，则具体的数据处理装置可以根据槽位填充结果确定目标数据库，并生成查询语句(例如，sql语句等)，然后，利用所述查询语句对所述目标数据库查询，获得答案数据。如果所识别出的意图类型是原因分析，异常检测或数据走向趋势预测，则可以通过调用对应的智能分析接口，获得对应的答案数据。其中，具体的接口可以是预先实现好的，具体在识别出用户的意图类型，并完成槽位填充后，可以根据具体槽位填充的结果，确定调用接口时所需的参数，例如，包括业务域、时间、指标、维度信息，等等，然后，通过对具体接口的调用，便可以获得对应的答案数据。

需要说明的是，在具体实现时，还可以基于用户历史输入情况，判断此时是否存在多轮交互的情况，之后，还可以结合用户单轮、多轮的交互信息对槽位进行更新。对于需要多轮交互的情况，后续可以进行对接下来的可能提问的问题进行预测的操作。当然，在实际应用中，也可以跳过来判断的步骤，直接进行预测。

S204：输出所述答案数据，并根据所述提问信息或答案数据，对新一轮对话中的提问意图进行预测，根据预测结果提供对应的候选词；

在根据接收到的提问信息识别出用户的意图，并给出相应的答案数据时，还可以对用户可能需要继续提问的对新一轮对话中的提问意图进行预测。也就是说，由于对于数据库相关的信息进行提问的场景，用户通常可能需要通过多轮的提问才能够获得最终想要的答案，而由于前后的问题通常是具有关联性的，因此，本申请实施例就可以基于上述特点，对用户接下来可能会需要问的问题进行预测。并且，在本申请实施例中，具体的预测结果并不是具体完整的对新一轮对话中的提问意图进行预测，而可以是以候选词的形式存在。也就是说，为用户提供的预测结果信息，并不是完整的一句话，而是一些词语，用户只需要对其中一个词语进行选择，则可以发起下一次提问。

其中，这种候选词具体可以通过多种方式确定。例如，其中一种方式下，由于在数据库相关的信息询问场景中，用户在问了一个问题之后，接下来有可能是需要改变上一个问题中的某个关键词，例如，可能是需要修改日期，或者具体的指标、维度等。因此，具体的候选词可以是与具体槽位上的信息相关联的信息。例如，假设上一个问题是“业务域A最近一周的收入情况”，则提供的候选词可以包括“一个月”(时间槽位)，“支出”(指标槽位)，等等。这样，如果用户接下来想要查询业务域A最近一个月的收入情况，则直接从候选词中选择“一个月”即可；如果接下来想要查询业务域A最近一周的支出情况，则从候选词中选择“支出”即可。相应的，机器人则可以直接将该被选择的词语与上一个问题中其他槽位上的信息相结合，从而识别出用户的上述意图。

例如，如图3-1所示，假设某用户输入的提问信息是：“近30天超级小蜜的服务解决率”，具体的业务域是“超级小蜜”，时间是“近30天”，指标是“服务解决率”，具体识别出的意图类型可以是数据查询。则具体的数据机器人返回的答案数据可以包括具体查询到的服务解决率数值，另外还可以通过调用对应的可视化信息展示接口等方式，生成具体的可视化图表，以这种图表的形式提供更详细的信息。同时，提供相关的候选词，以供下次提问时进行选择。例如，图3-1所示的候选词中，可以包括“相关指标：对话轮次”，该候选词就可以是根据提问信息中的槽位填充结果进行预测的。其中，为了完成上述预测，可以预先保存各个业务域下，具体槽位上经常出现的词语，例如，对于前述“超级小蜜”业务域，由于其主要功能就是提供人机交互服务，因此，“时间”槽位上，可能经常出现一个月、一周、今天，等等；“指标”槽位上可能经常出现服务解决率，对话轮次等指标。另外，还可以对同一用户在历史提问过程中，针对同一业务域经常会关注的时间、指标等信息，对具体下一轮对话中可能修改的槽位进行预测，并给出具体的候选词。

又如，如图3-2所示，上一轮对话中输入的提问信息是“4月10号超级小蜜的服务解决率变化的原因”，则给出的候选词可以包括“维度列表”，“返回指标卡片”等。其中，点击“维度列表”后，可以再进一步给出具体可选的维度信息。

另外，由于用户接下来需要提问的问题也有可能是在上一个问题的基础上改变意图类型，因此，具体推荐出的候选词还可以是与上一个问题中分析出的用户意图类型相关联的意图类型信息。例如，如图3-1所示，上一个问题中用户的意图类型是“数据查询”，则接下来用户可能需要在该数据查询结果基础上执行“异常检测”，或者“因子分析”，或者“数据走向趋势预测”，等等。此时，可以将上述关键词作为候选词进行展示，如果用户需要上述信息，则同样只需要从上述候选词中选择即可，不再需要进行手动输入。而对于机器人而言，则可以将该意图类型信息自动与上一问题中具体槽位上的信息相结合，确定出用户的意图，并通过调用对应的接口，返回对应的答案数据即可。

S205：接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

在提供候选词的情况下，用户在发起下一轮提问时，如果候选词中存在其所需的词，则直接对候选词进行选择即可。之后，数据处理装置则可以将该被选择的目标候选词与上一轮对话中的提问信息相结合，确定出用户在新一轮对话中的提问意图，进而就可以重新获得答案数据并输出。其中，如果所述被选择的目标候选词是所述目标关键词，则数据处理装置可以将该目标关键词替换到所述提问信息对应的槽位填充结果中，以便将替换后的槽位填充结果识别为继续提问的意图。或者，如果被选择的目标候选词是目标意图类型信息，则可以将所述提问信息对应的槽位填充结果中的意图类型信息替换为所述目标意图类型，以便将替换后的槽位填充结果识别为继续提问的意图，并进而提供对应的答案数据。

这里需要说明的是，具体实现时，由于用户可以通过即时通信客户端发起向数据处理装置的询问，因此，机器人模块所返回的答案数据，以及所提供的候选词信息等，也都可以通过即时通信客户端的对话框界面进行输出。当然，在其他实现方式下，也可以为数据处理装置提供专门的客户端程序，使得用户可以通过该专用的客户端程序与机器人模块进行对话，等等。

另外需要说明的是，在本申请实施例中，用户与数据处理装置之间的一问一答称为一轮对话，多问多答则称为多轮对话，本申请实施例就是在上述多轮交互过程中，通过前一轮的提问信息，对新一轮对话中用户可能会用到的关键词进行预测，并将这种关键词以候选词的方式进行展示，以方便用户更快捷的发起新一轮对话。

可见，在本申请实施例中，在用户发起一轮对话后，数据处理装置根据用户的提问信息提供答案数据的过程中，还可以对用户下一轮对话中可能提问的对新一轮对话中的提问意图进行预测，并根据预测结果提供对应的候选词，这样，用户在新一轮对话中，可以直接选择候选词，而不再需要输入完整的对新一轮对话中的提问意图进行预测，数据处理装置则可以自动根据被选择的候选词以及上一轮对话中的槽位填充结果，确定出用户在新一轮对话中的提问意图，并进而给出对应的答案数据。通过这种方式，使得用户可以通过人机对话的方式随时发起与数据库查询、分析等相关的提问，以便快速获得对应的答案数据；同时，由于数据处理装置能够提供基于前一轮对话中的提问信息，对新一轮对话中可能会用到的候选词进行展示，使得用户可以通过选择候选词的方式来发起新一轮对话，因此，也可以提高人机对话效率，使得用户更高效地通过多轮对话的方式，获得最终所需的数据。

其中，具体实现时，还可能出现以下情况：用户在发起第一轮对话时，可能不太明确具体的问题应该如何用自然语言进行描述，此时，可能仅输入一个关键词或者少数几个，以至于槽位填充结果不完整，机器人模块可能无法识别出用户的意图。在这种情况下，现有技术中的人机交互系统可能只能给出该关键词对应的搜索结果，这种搜索结果可能以链接等形式存在。但是，在本申请实施例中，由于已知用户发起的提问信息是针对数据库发起的，因此，如果所述提问信息对应的槽位填充结果不完整，则还可以根据尚未完善的槽位提供候选词信息，以便根据被选中的候选词对槽位填充结果进行补全，并识别用户的提问意图。其中，这种候选词信息可以是根据具体针对数据库发起的提问信息中，经常会用到的一些词语。例如，如图3-3所示，假设用户输入的提问信息为“店小蜜”，此时，由于只有业务域这个槽位上的信息，具体的指标、维度等都不明确，因此，无法确定用户的意图。此时，就可以列出该业务域下经常用到的指标等信息，例如，活跃商家，解决率，全自动活跃商家，全网接待UV等。在用户对其中某个候选词进行选择后，数据处理装置则可以自动将用户实际的提问信息进行补全。例如，用户选择了“全网接待UV”，则可以将问题信息补全为“店小蜜全网接待UV”，等等。然后，再在补全后的提问信息基础上，提供对应的答案数据。

另外，具体实现时，还可以结合目标用户的个性化信息，对新一轮对话中的提问意图进行预测。具体的，这里的个性化信息可以包括目标用户的用户标识(例如ID、账户名等用以唯一标识一个用户的信息)，此时，可以根据已完成对话中的提问信息或答案数据，以及目标用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。也就是说，同一个用户经常关注的指标等可能会具有特异性，因此，可以根据一个用户过去提问过程中经常关注的问题，尤其是在提问完上一个问题后，接下来经常会问到的问题，对用户下一轮提问的提问意图进行预测。

或者，另一种方式下，用户的个性化信息还可以是用户的身份类型信息。这里的身份类型信息可以是指用户所在的组织机构内部的职位信息，如，部门/业务主管、运营人员等；或者，还可以是在同一个系统内部注册时选择的身份类别，例如，在商品对象信息系统中，包括买家、卖家、小二，等等。此时，可以根据已完成对话中的提问信息或答案数据，以及同一身份类型的多个用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。也就是说，同一身份类型的用户，其所关注的问题可能具有相似性，此时，便可以根据同一身份类别的用户普遍所关注的问题，或者在提问完一个问题后，经常会问到的下一个问题等统计信息，对当前目标用户下一轮对话中的提问意图进行预测。

上述结合用户的个性化信息进行预测的方案，通常更适合于前述上一轮对话中的问题信息描述的比较简略，使得槽位填充不完整的情况。例如，在前述图3-3所示的例子中，用户上一轮描述的问题只是简单的“店小蜜”，没有更多信息。此时，在进行用户意图预测时，便可以结合用户的个性化信息，以避免提供太多无效的候选项，影响方案的实现效果。

需要说明的是，前文所述的方案中，主要是针对“to B”的场景进行了介绍，也即，面向的用户主要可以是组织机构内部的工作人员等，主要处理的数据也是组织机构内部的相关数据库中的数据。而在其他的应用场景中，也可以实现“to C”，也即，可以为普通的用户提供相关的数据处理功能。此时，可以借助于一些具有屏幕的IOT(物联网)设备，例如，智能音箱、智能汽车等，在这种IOT设备中安装或者实现相关的数据处理功能，使得用户可以通过与这种IOT设备对话的方式，获得所需的信息，并且可以实现与IOT设备之间的多轮对话，在新一轮对话中提问时，可以在前一轮对话的提问信息的基础上，通过修改关键词等方式来发起进一步的提问，而不需要输入完整的提问语句，从而提高交互效率。

实施例二

该实施例二从数据处理装置的另一个角度，提供了一种数据处理方法，在该方法中，可以不必对具体某一轮对话中的问题数据的提供方式进行限定，也即，也可以采用其他的方式对提供问题数据。但无论具体采用何种方式进行问题数据的提供，在多轮对话的场景下，都可以在完成一个轮次的对话后，同时对新一轮对话中可能继续提问的提问意图进行预测，并提供对应的候选词，以便于用户发起新一轮对话，而不必键入或者用语音的方式输入完整的提问内容。具体的，参见图4，该方法具体可以包括：

S401：在与目标用户进行对话的过程中，根据已完成对话中的提问信息或答案数据，对新一轮对话中的提问意图进行预测；

具体实现时，所述提问信息可以是通过自然语言进行描述。另外，具体的提问信息可以是与目标范围内的数据库相关，不同轮次的对话中的提问信息通常具有相关性。

具体实现时，为了对所述新一轮对话中的提问意图进行预测，可以预先执行以下准备工作：针对与所述目标范围内的数据库相关的提问信息样本，确定对用户进行提问意图识别时所需的关键要素信息，并保存多项关键要素上对应的常用关键词信息(由于仅限于数据库相关的问答系统，因此，具体所需的关键要素数量，以及每个要素上的常用关键词数量都是有限的，基本可以通过穷举的方式进行保存)；这样，可以根据所述已完成对话中的提问信息和/或答案数据，以及所述保存的信息，对新一轮对话中所需替换的关键词进行预测；然后，根据所预测出的目标关键词信息，提供所述候选词。

其中，具体的关键要素可以包括业务域，时间，指标和/或维度；此时，可以以业务域为单位，分别对时间，指标和/或维度上的常用关键词进行保存；由于在同一个用户与机器人进行多轮对话的过程中，具体所需关注的业务域通常可能不会发生变化，因此，在对新一轮对话中所需替换的关键词进行预测时，可以根据所述已完成对话中的提问信息中所涉及到的目标业务域信息，对该目标业务域在时间，指标和/或维度上的常用关键词，确定为所述新一轮对话中所需替换的关键词。

或者，另一种方式下，也可以针对与所述目标范围内的数据库相关的提问信息样本，确定多种可能的提问意图类型(同样，由于仅限于数据库相关的问答系统，因此，实际可能的提问意图类型的数量也是有限的，可以通过穷举等方式进行保存)，并进行保存；这样，可以根据所述已完成对话中的提问信息和/或答案数据，对新一轮对话中所需替换的提问意图类型进行预测；根据所预测出的目标提问意图类型，提供所述候选词。

另外，具体实现时，还可以根据已完成对话中的提问信息或答案数据，以及目标用户的个性化信息，对新一轮对话中的提问意图进行预测。

其中，所述个性化信息包括所述目标用户的用户标识；此时，可以根据已完成对话中的提问信息或答案数据，以及目标用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。

或者，所述个性化信息包括所述目标用户的身份类型信息；此时，可以根据已完成对话中的提问信息或答案数据，以及同一身份类型的多个用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。

S402：根据预测结果提供对应的候选词；

S403：接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

关于该实施例二中的未详述部分，可以参见前述实施例一中的记载，这里不再赘述。

与前述实施例一提供的人机对话方法相对应，本申请实施例还提供了一种人机对话装置，参见图5，该装置具体可以包括：

提问信息接收单元501，用于接收提问信息，所述提问信息与目标范围内的数据库相关；

意图预测单元502，用于根据所述提问信息对语义槽位进行填充，以识别用户的提问意图；

答案数据获得单元503，用于根据所识别出的意图，从所述数据库中获得答案数据；

候选词提供单元504，用于输出所述答案数据，并根据所述提问信息或答案数据，对新一轮对话中的提问意图进行预测，根据预测结果提供对应的候选词；

目标候选词接收单元505，用于接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

具体实现时，所述候选词提供单元具体可以用于：

根据所述提问信息对应的各语义槽位上的关键词信息，确定所述新一轮对话中进行提问时可能所需的目标关键词信息，以便根据所述目标关键词提供所述候选词。

目标候选词接收单元具体可以用于，如果所述被选择的目标候选词是所述目标关键词，则将该目标关键词替换到所述提问信息对应的槽位填充结果中，以便将替换后的槽位填充结果识别为继续提问的意图。

或者，另一种方式下，候选词提供单元具体可以用于，根据所述提问信息对应的意图识别结果中确定出的意图类型信息，确定新一轮对话中进行提问时可能所需的目标意图类型，根据所述目标意图类型提供所述候选词。

此时，目标候选词接收单元具体可以用于，如果所述被选择的目标候选词是所述目标意图类型信息，则将所述提问信息对应的槽位填充结果中的意图类型信息替换为所述目标意图类型，以便将替换后的槽位填充结果识别为继续提问的意图。

另外，具体实现时，该装置还可以包括：

补全单元，用于如果所述提问信息对应的槽位填充结果不完整，则根据尚未完善的槽位提供候选词信息，以便根据被选中的候选词对槽位填充结果进行补全，并识别用户的提问意图。

具体实现时，所述候选词提供单元具体可以用于：根据所述提问信息以及所述用户对应的数据分析相关的提问日志信息，对用户所需继续提问的对新一轮对话中的提问意图进行预测。

其中，所述语义槽位包括业务域，时间，指标，维度和/或意图类型。

所述意图类型包括数据查询，原因分析，数据对比，异常检测或数据走向趋势预测。

具体的，答案数据获得单元具体可以包括：

查询语句生成子单元，用于如果所识别出的意图类型是数据查询，则根据槽位填充结果确定目标数据库，并生成查询语句；

查询子单元，用于利用所述查询语句对所述目标数据库查询，获得答案数据。

或者，所述具体的，答案数据获得单元具体可以用于：

如果所识别出的意图类型是原因分析，异常检测，数据对比，或数据走向趋势预测，则通过调用对应的智能分析接口，获得对应的答案数据。

与实施例二相对应，本申请实施例还提供了一种人机对话装置，参见图6，该装置具体可以包括：

意图预测单元601，用于在与目标用户进行对话的过程中，根据已完成对话中的提问信息或答案数据，对新一轮对话中的提问意图进行预测；

候选词提供单元602，用于根据预测结果提供对应的候选词；

意图确定单元603，用于接收到对其中一目标候选词进行选择的消息后，根据所述提问信息以及所述目标候选词确定用户在新一轮对话中的提问意图，以获得所述确定出的新一轮对话中的提问意图对应的答案数据并输出。

具体实现时，不同轮次对话中的提问信息可以具有相关性。

其中，所述提问信息与目标范围内的数据库信息查询相关。

具体的，该装置还可以包括：

第一保存单元，用于针对与所述目标范围内的数据库相关的提问信息样本，确定对用户进行提问意图识别时所需的关键要素信息，并保存多项关键要素上对应的常用关键词信息；

所述意图预测单元具体可以用于：

根据所述已完成对话中的提问信息和/或答案数据，以及所述保存的信息，对新一轮对话中所需替换的关键词进行预测；

所述候选词提供单元具体可以用于：

根据所预测出的目标关键词信息，提供所述候选词。

其中，所述关键要素包括业务域，时间，指标和/或维度；

所述保存的信息中包括：以业务域为单位，分别对时间，指标和/或维度上的常用关键词进行保存；

所述意图预测单元具体可以用于：

根据所述已完成对话中的提问信息中所涉及到的目标业务域信息，对该目标业务域在时间，指标和/或维度上的常用关键词，确定为所述新一轮对话中所需替换的关键词。

另一种方式下，该装置还可以包括：

第二保存单元，用于针对与所述目标范围内的数据库相关的提问信息样本，确定多种可能的提问意图类型，并进行保存；

所述意图预测单元具体可以用于：

根据所述已完成对话中的提问信息和/或答案数据，对新一轮对话中所需替换的提问意图类型进行预测；

所述候选词提供单元具体可以用于：

根据所预测出的目标提问意图类型，提供所述候选词。

具体实现时，所述需求预测单元具体可以用于：

根据已完成对话中的提问信息或答案数据，以及目标用户的个性化信息，对新一轮对话中的提问意图进行预测。

其中，所述个性化信息包括所述目标用户的用户标识；

此时，所述意图预测单元具体可以用于：

根据已完成对话中的提问信息或答案数据，以及目标用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。

或者，所述个性化信息包括所述目标用户的身份类型信息；

此时，所述意图预测单元具体可以用于：

根据已完成对话中的提问信息或答案数据，以及同一身份类型的多个用户的历史提问记录信息，对新一轮对话中的提问意图进行预测。

另外，本申请实施例还提供了一种电子设备，其特征在于，包括：

一个或多个处理器；以及

接收提问信息，所述提问信息与目标范围内的数据库相关；

根据所识别出的意图，从所述数据库中获得答案数据；

或者，

在与目标用户进行对话的过程中，根据已完成对话中的提问信息和/或答案数据，对新一轮对话中的提问意图进行预测；

根据预测结果提供对应的候选词；

其中，图7示例性的展示出了电子设备的架构，具体可以包括处理器710，视频显示适配器711，磁盘驱动器712，输入/输出接口713，网络接口714，以及存储器720。上述处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720之间可以通过通信总线730进行通信连接。

其中，处理器710可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器720可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器720可以存储用于控制电子设备700运行的操作系统721，用于控制电子设备700的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器723，数据存储管理系统724，以及人机对话处理系统725等等。上述人机对话处理系统725就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行。

输入/输出接口713用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口714用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线730包括一通路，在设备的各个组件(例如处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，与存储器720)之间传输信息。

另外，该电子设备700还可以从虚拟资源对象领取条件信息数据库741中获得具体领取条件的信息，以用于进行条件判断，等等。

需要说明的是，尽管上述设备仅示出了处理器710、视频显示适配器711、磁盘驱动器712、输入/输出接口713、网络接口714，存储器720，总线730等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的数据处理方法、装置及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种数据处理方法，其特征在于，包括：

根据预测结果提供对应的候选词；

2.根据权利要求1所述的方法，其特征在于，

不同轮次对话中的提问信息具有相关性。

3.根据权利要求1所述的方法，其特征在于，

所述提问信息与目标范围内的数据库信息查询相关。

4.根据权利要求3所述的方法，其特征在于，还包括：

针对与所述目标范围内的数据库相关的提问信息样本，确定对用户进行提问意图识别时所需的关键要素信息，并保存多项关键要素上对应的常用关键词信息；

所述对新一轮对话中的提问意图进行预测，包括：

根据所述已完成对话中的提问信息或答案数据，以及所述保存的信息，对新一轮对话中所需替换的关键词进行预测；

所述根据预测结果提供对应的候选词，包括：

根据所预测出的目标关键词信息，提供所述候选词。

5.根据权利要求4所述的方法，其特征在于，

所述关键要素包括业务域，时间，指标和/或维度；

所述对新一轮对话中所需替换的关键词进行预测，包括：

6.根据权利要求3所述的方法，其特征在于，还包括：

针对与所述目标范围内的数据库相关的提问信息样本，确定多种可能的提问意图类型，并进行保存；

所述对新一轮对话中的提问意图进行预测，包括：

根据所述已完成对话中的提问信息或答案数据，对新一轮对话中所需替换的提问意图类型进行预测；

所述根据预测结果提供对应的候选词，包括：

根据所预测出的目标提问意图类型，提供所述候选词。

7.根据权利要求3所述的方法，其特征在于，

所述对新一轮对话中的提问意图进行预测，包括：

8.根据权利要求7所述的方法，其特征在于，

所述个性化信息包括所述目标用户的用户标识；

所述根据已完成对话中的提问信息或答案数据，以及目标用户的个性化信息，对新一轮对话中的提问意图进行预测，包括：

9.根据权利要求7所述的方法，其特征在于，

所述个性化信息包括所述目标用户的身份类型信息；

10.一种数据处理方法，其特征在于，包括：

接收提问信息，所述提问信息与目标范围内的数据库相关；

根据所识别出的意图，从所述数据库中获得答案数据；

11.根据权利要求10所述的方法，其特征在于，

所述根据所述提问信息或答案数据，对新一轮对话中的提问意图进行预测，包括：

12.根据权利要求11所述的方法，其特征在于，

所述根据所述提问信息以及所述目标候选词识别用户意图识别，包括：

如果所述被选择的目标候选词是所述目标关键词，则将该目标关键词替换到所述提问信息对应的槽位填充结果中，以便将替换后的槽位填充结果识别为继续提问的意图。

13.根据权利要求10所述的方法，其特征在于，

根据所述提问信息对应的意图识别结果中确定出的意图类型信息，确定新一轮对话中进行提问时可能所需的目标意图类型，根据所述目标意图类型提供所述候选词。

14.根据权利要求13所述的方法，其特征在于，

如果所述被选择的目标候选词是所述目标意图类型信息，则将所述提问信息对应的槽位填充结果中的意图类型信息替换为所述目标意图类型，以便将替换后的槽位填充结果识别为继续提问的意图。

15.根据权利要求10所述的方法，其特征在于，还包括：

如果所述提问信息对应的槽位填充结果不完整，则根据尚未完善的槽位提供候选词信息，以便根据被选中的候选词对槽位填充结果进行补全，并识别用户的提问意图。

16.根据权利要求10至15任一项所述的方法，其特征在于，

根据所述提问信息以及所述用户对应的数据分析相关的提问日志信息，对用户所需继续提问的对新一轮对话中的提问意图进行预测。

17.根据权利要求10至15任一项所述的方法，其特征在于，

所述语义槽位包括业务域，时间，指标，维度和/或意图类型。

18.根据权利要求17所述的方法，其特征在于，

19.根据权利要求18所述的方法，其特征在于，

所述根据所识别出的意图，从所述数据库中获得答案数据，包括：

如果所识别出的意图类型是数据查询，则根据槽位填充结果确定目标数据库，并生成查询语句；

利用所述查询语句对所述目标数据库查询，获得答案数据。

20.根据权利要求18所述的方法，其特征在于，

21.一种数据处理装置，其特征在于，包括：

候选词提供单元，用于根据预测结果提供对应的候选词；

22.一种数据处理装置，其特征在于，包括：

23.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

根据预测结果提供对应的候选词；

24.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

接收提问信息，所述提问信息与目标范围内的数据库相关；

根据所识别出的意图，从所述数据库中获得答案数据；