CN110020010A

CN110020010A - 数据处理方法、装置及电子设备

Info

Publication number: CN110020010A
Application number: CN201710936227.0A
Authority: CN
Inventors: 李生; 吴晨; 夏江南
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2019-07-16
Also published as: US20190108273A1; WO2019074975A3; TW201935279A; WO2019074975A2

Abstract

本发明实施例提供了一种数据处理方法、装置及电子设备，其中方法包括：获取针对应用环境的问题；将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案；基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。本发明实施例通过综合利用知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个模型来生成答案，实现了多种模型的优势互补，克服了由单一模型导致的片面性和误差，提升了答案的准确率及全面性。

Description

数据处理方法、装置及电子设备

技术领域

本发明实施例涉及一种数据处理方法、装置及电子设备，属于计算机技术领域。

背景技术

在目前的自动问答技术中，较常见的是FAQ(Frequently Asked Question，常见问题解答)技术，其通过问答对的检索方式，获取同目标问题相似的候选问题，并将候选问题的答案作为目标问题的答案进行输出。对于问答对的检索方式而言，一方面问答对需要人工进行提炼和归纳总结，非常繁琐，例如需要将新闻、百科、业务文档中的提问点进行逐个罗列，然后人工编写回答；另一方面人工往往只能列举高频问题，对长尾问答对无法很好覆盖。

随着知识库的兴起和结构化查询技术的推出，基于知识图谱的问答检索方式也逐渐应用到自动问答技术中。基于知识图谱而自动构建的问答，首先需要进行一整套知识工程方法，例如包括实体检测、实体链接、属性填充等，从文本中构建出结构化的知识图谱，并在知识图谱基础上进行问答，整个过程较为繁琐。

近年来，随着深度学习在NLP(Nature Language Processing，自然语言处理)的应用，机器阅读理解同样作为自动问答技术的一种技术被逐步采用。机器阅读理解在一定程度降低了前期的人工提取或整理工作，借助端到端的训练也降低了多阶段处理引入的误差，但对于用于回答问题的篇章定位，及长篇章带来的性能影响也会大大降低准确率。

综上所述，现有技术中，上述三种自动问答技术均有各自的优缺点，无法满足日益复杂的自动问答环境的需求。

发明内容

本发明实施例提供了一种数据处理方法、装置及电子设备，有效结合多个自动问答模型的特点，实现优势互补，以应对复杂的自动问答环境。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供了一种数据处理方法，包括：

获取针对应用环境的问题；

将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据，所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；

基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。

第二方面，提供了一种数据处理方法，包括：

获取所述应用环境中的第一文本数据，并对所述第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；

将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

第三方面，提供了一种数据处理装置，包括：

问题获取模块，用于获取针对应用环境的问题；

模型处理模块，用于将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据，所述模型数据来自于对所述应用环境的第一文本数据的提取和加工，所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；答案输出模块，用于基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。

第四方面，提供了一种数据处理装置，包括：

环境文本获取模块，用于获取所述应用环境中的第一文本数据，并对所述第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；

模型数据生成模块，用于将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

第五方面，提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取针对应用环境的问题；

第六方面，提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

本发明实施例的数据处理方法、装置及电子设备，通过综合利用多个问答模型来生成答案，实现了多种模型的优势互补，克服了由单一模型导致的片面性和误差，提升了答案的准确率及全面性上。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本发明实施例的数据处理系统的结构示意图。

图2为本发明实施例的数据处理方法的流程图之一。

图3为本发明实施例的数据处理方法的流程图之二。

图4为本发明实施例的数据处理装置的结构示意图之一。

图5为本发明实施例的数据处理装置的结构示意图之二。

图6为本发明实施例的电子设备的结构示意图之一。

图7为本发明实施例的电子设备的结构示意图之二。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

术语解释：

FAQ：Frequently Asked Question常见问题解答

自动问答技术：自动问答是自然语言处理领域的一个重要方向，旨在让用户直接用自然语言提问并获得答案。

机器阅读理解：一种自动问答技术，旨在让机器阅读文本，在理解文本内在含义的基础上进行自动问答。

知识图谱：由知识点相互连接而成的语义网络，常用来进行知识推理和自动问答。

本发明实施例的技术原理在于将知识图谱模型、FAQ模型以及机器阅读理解模型进行有机结合，使各个模型分别处理能发挥其优势的结构化数据、半结构化数据以及非结构化数据，并通过一定的策略对各个模型输出的中间答案进行筛选或者评估，选择出较为优选的中间答案进行输出，使得各个模型之间构成优势互补，从而能够应对更加复杂的应用环境，也提升了答案的准确率及全面性。

如图1所示，其为本发明实施例的数据处理系统的结构示意图。该系统作为实际的一个示例，其包括云端的服务器以及第一终端和第二终端。自动问答的数据处理部分可以设置于云端的服务器中，该服务器与第一终端和第二终端对接，其中第一终端用于向服务器输入问题，第二终端用于向服务器中输入与应用环境相关的第一文本数据，当然在实际应用中，第一终端和第二终端也可以是同一终端。这里所说的应用环境是指一个自动问答所针对的信息范畴，比如应用环境可以一次大会，其中该大会的数据涉及大会的议程、参与人员、大会内容等信息，再例如，应用环境可以是某个历史古迹的相关信息等，针对这样的应用环境来构建自动问答的数据处理系统，从而服务于针对这些应用环境进行提问的用户。当然，上述的应用环境也可以涉及更广的信息范围，相应地，在构建该数据处理系统的过程中，输入更多的与应用环境相关的第一文本数据即可。

在服务器中，数据处理系统包括两方面的数据处理功能，具体如下：

第一方面：模型数据的准备工作(图中从下向上的数据过程)

第二终端向云端的服务器输入与应用环境相关的第一文本数据，服务器中的数据处理系统对应用环境中的第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据。

然后，将上述三类数据分别按照适合的问答模型的数据形式要求进行加工，在本发明实施例中，具体可以分配到知识图谱模型，FAQ模型和机器阅读理解模型中进行加工处理，生成与各个模型的模型数据，这些模型数据会存储在于各个模型对应的数据库中。这些模型数据就是支持后续自动问答的数据基础。

第二方面：针对输入的问题生成答案(图中从上向下的过程)

用户通过第一终端向云端的服务器输入与应用场景相关的问题。服务器中的数据处理系统将输入的问题进行归一化处理后，分别输入到上述的适合处理结构化数据、半结构化数据以及非结构化数据的问答模型中，在本发明实施例中可以输入到知识图谱模型，FAQ模型和机器阅读理解模型这三类模型中。这里所说的归一化处理是指不影响语义情况下的一种文字过滤处理，例如将输入问题的文本进行去空格，繁体变简体、英文大小写改变、去掉无意义字符等，使之具有统一规范的格式，能够适应上述三类模型中。

然后，上述三类模型分别对输入的问题进行问题搜索和处理，输出各自的答案，在本发明实施例中，将各个模型输出的答案称为中间答案。数据处理系统根据预设的答案输出策略，对获得各个模型输出的中间答案进行筛选、评估或者融合等处理，以获得最终答案，并通过第一终端提供给用户。上面提到的预设的答案输出策略可以采用如下三种策略：

贪心策略：所有模型输出的答案全部作为最终答案输出。

最优策略：对各个模型输出的答案进行基于可信度的评分，输出分数最高的答案。

集成策略：选择返回答案的文本中覆盖率最高的部分，作为最终的答案输出，也就是说将各个答案中，重复率最高的部分(相互内容重叠度最高的内容)提取出来形成最终答案。

通过上述的三种策略，可以根据不同的需要来提供符合用户需求的最终答案。

通过本实施例的数据处理系统，综合利用了知识图谱模型、FAQ模型以及机器阅读理解模型来分别基于结构化数据、半结构化数据以及非结构化数据进行针对自动问答的数据处理，充分发挥了各个模型的针对不同类型的数据上的处理优势，获取到各个模型产生的中间答案，然后再根据预设的策略，对各个中间答案进行筛选、评估或者融合等处理，从而获得更为优选的最终答案进行输出。这样的处理系统，克服了现有技术中由单一模型导致的片面性和误差，提升了答案的准确率及全面性上。

需要说明的是，在本发明的实施例中，也可以采用知识图谱模型、FAQ模型以及机器阅读理解模型中的任意两个模型来进行综合处理，其效果相对现有技术而言也是具有积极的技术效果的。为了便于说明，在后续的实施例中，更多是以同时采用三个模型为例对本发明的技术方案进行说明。

实施例一

如图2所示，其为本发明实施例的数据处理方法的流程图之一，图中所示的数据处理方法主要涉及前面提到的模型数据的准备工作，其包括：

S101：获取应用环境中的第一文本数据，并对第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据。

如前面所介绍的，这里应用环境实际上是一种信息范畴，自动问答技术往往会针对一个具体的应用环境进行配置和数据处理。以大会的会议手册这样的第一文本数据为例，其中的表格类数据(如大会议程等表格)为结构化数据。会议手册中的常见问题解答(FAQ)为半结构化数据，FAQ数据表现为问题和答案的问题/答案对的形式，问题和答案均由自然语言描述。会议手册中的描述性文字(如大会简介、来宾简介等)为非结构化数据。

在这样的应用场景中，会议手册作为应用环境的第一文本数据输入，然后将会议手册中的内容进行分类提取，形成上述的结构化数据、半结构化数据以及非结构化数据。

再例如，在博物馆、艺术馆以及旅游区等场景，参观游客通常对场馆本身、艺术品以及旅游区的历史文化等产生许多问题。在针对博物馆、艺术馆以及旅游区这类信息中，有部分历史积累的常见问题，例如，门票多少钱、如何购买门票、开关门时间等，这些属于FAQ数据。同时有很多结构化信息，例如艺术品本身的名称、年代、作者等，古建筑物的名称、建造年代等，这些属于结构化数据。此外，还会搭配描述性文字，例如场馆整体介绍、旅游区的历史等，这些属于非结构化数据。

针对博物馆、艺术馆以及旅游区等综合性场景，也可以借助本发明实施例的混合模型，可将以上三类数据进行统一加工处理，并综合三种问答模型为游客提供自动问答服务。

S102：将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，在本实施例中，具体可以将上述的任意多个数据按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

其中，对于不同类型的数据，三种模型会进行不同的加工处理，具体如下：

1)针对结构化数据，按照知识图谱模型的数据形式要求可以进行如下处理：

将结构化数据加工为基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构。这里的三元组是指实体、属性以及属性值，图谱结构相当于知识库的索引。通过构建以知识库为基础配合图谱结构的模型数据，在后续的针对问题的搜索时，能够快速查找到相应的知识点(也就是上述的三元组中的实体)。

2)针对半结构化数据，按照FAQ模型的数据形式要求可以进行如下处理：

对半结构化数据中的答案进行文本聚类，获取半结构化数据中问题的多种表达方式，并基于该问题构建倒排索引，生成具有基于问题构建的倒排索引的问题/答案对。在后续的应用中，可以基于输入问题利用该倒排索引，确定出与该问题相关的全部答案。

3)针对非结构化数据，按照机器阅读理解模型的数据形式要求可以进行如下处理：

按照主题和/或段落将非结构化数据划分为多个第二文本数据，并按照主题和/或段落建立索引。通过事先将非结构化数据(例如长篇幅的说明描述性文字)划分为多个小的文本部分(也就是上述的第二文本数据)，这样在后续针对问题的搜索时，可以先通过主题和/或段落索引，先将答案的范围缩小到第二文本数据，然后再通过机器阅读理解来进一步获取精确的答案，这样处理能够明显提高答案生成效率。

通过本实施例的数据处理方法，将应用环境中的第一文本数据按照结构化数据、半结构化数据以及非结构化数据进行分类提取，然后按照知识图谱模型，FAQ模型以及机器阅读理解模型的数据形式要求进行了预处理，为后续的基于综合这三种模型的自动问答处理提供了数据基础。

实施例二

如图3所示，其为本发明实施例的数据处理方法的流程图之二，图中所示的数据处理方法主要涉及用户输入问题后的数据处理过程，该方法可以是基于上述实施例一所构建的模型数据的基础上进行自动问答的数据处理，该处理过程具体包括：

S201：获取针对应用环境的问题。仍然以大会为例，针对一次大会，其中会涉及大量的用户对大会内容及大会周边相关进行咨询。例如“大会如何购票？”、“某个演讲人的演讲主题是什么？”、“阿里云在国内有几个数据中心？”(例如该大会的内容是涉及云技术的会议)等等。

在获取到问题之后，还可以对问题进行归一化处理，使得问题能够适应知识图谱模型、FAQ模型以及机器阅读理解模型中任意多个模型的输入格式要求。

S202：将问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中多个不同类型的问答模型分别具有符合各自数据形式的模型数据，模型数据可以如实施例一所介绍的，来自于对应用环境的第一文本数据的提取和加工。上述的模型数据可以为结构化数据、半结构化数据以及非结构化数据中的任意多个。

在本实施例中，上述的多个不同类型的问答模型可以具体为知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，知识图谱模型的模型数据为结构化数据，FAQ模型的模型数据为半结构化数据，机器阅读理解模型的模型数据为非结构化数据。

用户所询问的问题的答案一般都在前面提到的会议手册，自动问答技术的应用在于能够自动高效地找到答案并且输出给用户。基于实施例一中针对会议手册中的内容所进行的分类加工处理，在本实施例中，可以利用不同数据模型的优势，获取到更加准确的答案。

例如，“大会如何购票？”这个问题的答案一般会存在会议手册的FAQ中，因此，FAQ模型输出的答案会更加准确；针对“某个演讲人的演讲主题是什么？”这样的问题，由于各个演讲人以及演讲主题都会以会议议程的形式存储于表格中，因此，该部分内容会由知识图谱覆盖，所以，基于知识图谱模型输出的答案会更加准确；而“阿里云在国内有几个数据中心？”这样的问题，其答案一般会记录在会议手册中的详细说明中，例如会存在于会议手册中对于阿里云的详细介绍中，针对这样的问题，机器阅读理解模型输出的答案会更加准确。

需要说明的是，上述每个模型都可能会存在答案，并且都可能会输出答案，只不过由于对于不同的问题，可能只有部分模型输出的答案更加准确，置信度更高。在本发明实施例中，初始输入的问题会被输入到各个模型中，然后在汇总各个模型输出的中间答案后，再确定最终输出的答案。

具体地，各个模型基于输入问题而产生中间答案的处理可以采用如下几种方式：

1)知识图谱模型的处理过程

如前面所说明的，知识图谱模型的模型数据包括基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构。相应地，其产生中间答案的处理过程如下：

将对问题进行结构化处理，抽取出实体或属性信息，输入到知识图谱模型中的问题结构化的搜索引擎进行搜索，获取与实体对应的属性或与属性信息对应的属性值，并确定与该属性或该属性值对应的知识点作为该知识图谱模型输出的中间答案。

2)FAQ模型的处理过程

如前面所说明的，FAQ模型的模型数据包括具有基于问题构建的倒排索引的问题/答案对。相应地，其产生中间答案的处理过程如下：

将问题输入到FAQ模型进行处理，生成基于FAQ模型的答案包括：将问题输入到FAQ模型中的FAQ问题搜索引擎进行答案搜索，生成相似问题的答案排序，选择排名最高的相似问题的答案作为该FAQ模型输出的中间答案。

3)机器阅读理解模型的处理过程

如前面所说明的，机器阅读理解模型的模型数据包括具有按照主题和/或段落进行索引的多个第二文本数据。相应地，其产生中间答案的处理过程如下：

将问题输入到机器阅读理解模型中的文档搜索引擎进行搜索，通过主题和/或分段的索引确定与问题相关的第二文本数据，然后将问题作为机器阅读理解处理的输入，对该第二文本数据执行机器阅读处理，生成该机器阅读理解模型输出的中间答案。

S203：基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。如前面所提到的，答案输出策略可以采用如下三种策略任意一种或者多种：

贪心策略：将各个模型生成的多个中间答案直接作为最终答案输出，这样的输出策略能够给用户提供丰富和全面的答案。

最优策略：对各个模型生成的中间答案进行基于置信度的打分，选择分数最高的中间答案作为最终答案进行输出，这样的输出策略能够给用户提供准确率较高的答案，减少冗余信息。

集成策略：对各个模型生成的中间答案的文本内容进行覆盖率分析，选择覆盖率最高的文本内容作为最终答案进行输出。这样的输出策略能够最大限度的综合利用各个模型输出的中间答案。

通过本实施例的数据处理方法，综合利用了知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个模型来生成答案，实现了多种模型的优势互补，最后再通过答案输出的预设策略，对各个模型输出的答案进行筛选、评估或者融合等处理，从而获得更为优选的最终答案进行输出，从而克服了现有技术中由单一模型导致的片面性和误差，提升了答案的准确率及全面性上。

实施例三

如图4所示，其为本发明实施例的数据处理装置的结构示意图之一，本实施例的装置涉及模型数据的准备工作的处理，其包括：

环境文本获取模块41，用于获取应用环境中的第一文本数据，并对第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；

模型数据生成模块42，用于将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。具体可以为将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

关于本实施例的数据处理装置所涉及的各个功能模块的详细功能说明以及技术效果等内容在前述实施例中已经进行了充分描述，其内容仍然适用于本实施例，在此不再赘述。

实施例四

如图5所示，其为本发明实施例的数据处理装置的结构示意图之二，本实施例的装置涉及用户输入问题后在生成答案方面的数据处理，其包括：

问题获取模块51，用于获取针对应用环境的问题；

模型处理模块52，用于将问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中多个不同类型的问答模型分别具有符合各自数据形式的模型数据，模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；其中，多个不同类型的问答模型可以包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，具体地，知识图谱模型的模型数据为结构化数据，FAQ模型的模型数据为半结构化数据，机器阅读理解模型的模型数据为非结构化数据；

答案输出模块53，用于基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。

实施例五

前面实施例三描述了发明实施例的数据处理装置的在模型数据的准备工作方面的功能结构，该装置的功能可借助一种电子设备实现完成，如图6所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器610和处理器620。

存储器610，用于存储程序。

除上述程序之外，存储器610还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器610可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器620，耦合至存储器610，用于执行存储器610中的程序，以用于：

获取应用环境中的第一文本数据，并对第一文本数据进行分类处理，提取出结构化数据、半结构化数据以及非结构化数据中的任意多个数据；

将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

其中，将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工可以包括：将结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工。

此外，上述实施例三中的其他功能也可以以程序的形式存储于存储器610中并被处理器620读取执行。详细的控制处理在实施例三中已经进行详细说明，其同样适用于本实施例，在此不再赘述。

进一步，如图6所示，电子设备还可以包括：通信组件630、电源组件640、音频组件650、显示器660等其它组件。图6中仅示意性给出部分组件，并不意味着电子设备只包括图6所示组件。

通信组件630被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件630经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件630还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件640，为电子设备的各种组件提供电力。电源组件640可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件650被配置为输出和/或输入音频信号。例如，音频组件650包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器610或经由通信组件630发送。在一些实施例中，音频组件650还包括一个扬声器，用于输出音频信号。

显示器660包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

实施例七

前面实施例四描述了发明实施例的数据处理装置的用户输入问题后在生成答案方面的数据处理的功能结构，该装置的功能可借助一种电子设备实现完成，如图7所示，其为本发明实施例的电子设备的结构示意图，具体包括：存储器710和处理器720。

存储器710，用于存储程序。

除上述程序之外，存储器710还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器710可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器720，耦合至存储器710，用于执行存储器710中的程序，以用于：

获取针对应用环境的问题；

将问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中多个不同类型的问答模型分别具有符合各自数据形式的模型数据，模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个，其中，多个不同类型的问答模型可以包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，知识图谱模型的模型数据为结构化数据，FAQ模型的模型数据为半结构化数据，机器阅读理解模型的模型数据为非结构化数据。

此外，上述实施例四中的其他功能也可以以程序的形式存储于存储器710中并被处理器720读取执行。详细的控制处理在实施例四中已经进行详细说明，其同样适用于本实施例，在此不再赘述。

进一步，如图7所示，电子设备还可以包括：通信组件730、电源组件740、音频组件750、显示器760等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。

通信组件730被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件730经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件730还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件740，为电子设备的各种组件提供电力。电源组件740可以包括电源管理系统，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件750被配置为输出和/或输入音频信号。例如，音频组件750包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器710或经由通信组件730发送。在一些实施例中，音频组件750还包括一个扬声器，用于输出音频信号。

显示器760包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取针对应用环境的问题；

2.根据权利要求1所述的方法，其特征在于，所述多个不同类型的问答模型包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，所述知识图谱模型的模型数据为结构化数据，所述FAQ模型的模型数据为半结构化数据，所述机器阅读理解模型的模型数据为非结构化数据。

3.根据权利要求2所述的方法，其特征在于，

所述知识图谱模型的模型数据包括基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构，

将所述问题输入到知识图谱模型进行处理，生成与该知识图谱模型对应的中间答案包括：将对所述问题进行结构化处理，抽取出实体或属性信息，输入到知识图谱模型中的问题结构化的搜索引擎进行搜索，获取与所述实体对应的属性或与所述属性信息对应的属性值，并确定与该属性或该属性值对应的知识点作为该知识图谱模型输出的中间答案；

和/或，

所述FAQ模型的模型数据包括具有基于问题构建的倒排索引的问题/答案对，

将所述问题输入到FAQ模型进行处理，生成与所述FAQ模型对应的答案包括：将所述问题输入到FAQ模型中的FAQ问题搜索引擎进行答案搜索，生成相似问题的答案排序，选择排名最高的相似问题的答案作为该FAQ模型输出的中间答案；

和/或，

所述机器阅读理解模型的模型数据包括具有按照主题和/或段落进行索引的多个第二文本数据，

将所述问题输入到机器阅读理解模型进行处理，生成与所述机器阅读理解模型对应的答案包括：

将所述问题输入到机器阅读理解模型中的文档搜索引擎进行搜索，通过所述主题和/或分段的索引确定与所述问题相关的第二文本数据，然后将所述问题作为机器阅读理解处理的输入，对该第二文本数据执行机器阅读处理，生成该机器阅读理解模型输出的中间答案。

4.根据权利要求2所述的方法，其特征在于，基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出包括：

将各个模型生成的多个中间答案直接作为最终答案输出；

或者，

对各个模型生成的中间答案进行基于置信度的打分，选择分数最高的中间答案作为最终答案进行输出；

或者，

对各个模型生成的中间答案的文本内容进行覆盖率分析，选择覆盖率最高的文本内容作为最终答案进行输出。

5.根据权利要求2所述的方法，其特征在于，在获取针对应用环境的问题后，还包括：

对所述问题进行归一化处理，使得所述问题能够适应所述知识图谱模型、FAQ模型以及机器阅读理解模型中任意多个模型的输入格式要求。

6.根据权利要求2所述的方法，其特征在于，在获取针对应用环境的问题之前还包括：

将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工，生成各个模型的模型数据并进行存储。

7.根据权利要求6所述的方法，其特征在于，

将所述结构化数据按照所述知识图谱模型的数据形式要求进行加工，生成该知识图谱模型的模型数据包括：

将所述结构化数据加工为基于三元组格式构建的知识库以及基于属性建立实体间关系而形成的图谱结构；

和/或，

将所述半结构化数据按照所述FAQ模型的数据形式要求进行加工，生成该FAQ模型的模型数据包括：

对所述半结构化数据中的答案进行文本聚类，获取所述半结构化数据中问题的多种表达方式，并基于该问题构建倒排索引，生成具有基于问题构建的倒排索引的问题/答案对；

和/或，

将所述非结构化数据按照所述机器阅读理解模型的数据形式要求进行加工，生成该机器阅读理解模型的模型数据包括：按照主题和/或段落将所述非结构化数据划分为多个第二文本数据，并按照主题和/或段落建立索引。

8.根据权利要求1所述的方法，其特征在于，

所述模型数据来自于对所述应用环境的第一文本数据的提取和加工。

9.一种数据处理方法，其特征在于，包括：

10.根据权利要求9所述的方法，其特征在于，所述将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工包括：

11.根据权利要求10所述的方法，其特征在于，

和/或，

12.一种数据处理装置，其特征在于，包括：

问题获取模块，用于获取针对应用环境的问题；

模型处理模块，用于将所述问题分别输入到多个不同类型的问答模型中进行处理，生成与各个模型对应的中间答案，其中所述多个不同类型的问答模型分别具有符合各自数据形式的模型数据，所述模型数据来自于对所述应用环境的第一文本数据的提取和加工，所述模型数据为结构化数据、半结构化数据以及非结构化数据中的任意多个；

答案输出模块，用于基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出。

13.根据权利要求12所述的装置，其特征在于，所述多个不同类型的问答模型包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，所述知识图谱模型的模型数据为结构化数据，所述FAQ模型的模型数据为半结构化数据，所述机器阅读理解模型的模型数据为非结构化数据。

14.根据权利要求13所述的装置，其特征在于，基于预设的答案输出策略，对各个模型生成的中间答案进行处理，生成最终答案并进行输出包括：

将各个模型生成的多个中间答案直接作为最终答案输出；

或者，

15.一种数据处理装置，其特征在于，包括：

16.根据权利要求15所述的装置，其特征在于，所述将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工包括：

17.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

获取针对应用环境的问题；

18.根据权利要求17所述的电子设备，其特征在于，包括：

所述多个不同类型的问答模型包括知识图谱模型、FAQ模型以及机器阅读理解模型中的任意多个，所述知识图谱模型的模型数据为结构化数据，所述FAQ模型的模型数据为半结构化数据，所述机器阅读理解模型的模型数据为非结构化数据。

19.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，耦合至所述存储器，用于执行所述程序，以用于：

20.根据权利要求19所述的电子设备，其特征在于，包括：

所述将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照适合的问答模型的数据形式要求进行加工包括：

将所述结构化数据、半结构化数据以及非结构化数据中的任意多个数据分别按照知识图谱模型，FAQ模型以及机器阅读理解模型中的任意多个模型的数据形式要求进行加工。