CN114090620B

CN114090620B - 查询请求的处理方法及装置

Info

Publication number: CN114090620B
Application number: CN202210058333.4A
Authority: CN
Inventors: 张荣华; 田有朋; 李俊; 黄亚东; 王小卫
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-09-27
Anticipated expiration: 2042-01-19
Also published as: WO2023138378A1; CN114090620A; CN115794857A

Abstract

本说明书实施例提供一种查询请求的处理方法，包括：获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别；根据所述实体类别，将所述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据相关；通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；对所述若干要素组合进行语义分析，得到若干查询对象；基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

Description

查询请求的处理方法及装置

技术领域

本说明书一个或多个实施例涉及数据处理技术领域，尤其涉及一种查询请求的处理方法及装置。

背景技术

随着大数据时代的来临，数据分析技术被广泛用于挖掘数据价值、发挥数据效能，已成为当下的研究热点。

然而，目前数据分析存在较高门槛，通常需要专业的分析师根据业务人员提出的数据需求，编写数据查询脚本，如结构化查询语言（Structured Query Language，简称SQL）脚本，来实现对数据的查询分析，导致数据分析的时效低，存在严重的滞后性。因数据分析的需求量不断增大、灵活性不断增加，传统的数据分析流程愈发难以满足实际应用需求。

因此，迫切需要一种方案，能够有效降低数据分析门槛，使得用户的数据需求能够快速、便捷、准确地得到满足。

发明内容

本说明书一个或多个实施例描述了一种查询请求的处理方法及装置，通过将自然语言文本形式的用户查询请求可控地、可解释地逐步翻译为查询用编程语言，实现即时的数据查询，从而有效降低数据分析门槛，同时保证数据分析结果的准确性和高时效性。

根据第一方面，提供一种查询请求的处理方法，包括：获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别；根据所述实体类别，将所述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据相关；通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；对所述若干要素组合进行语义分析，得到若干查询对象；基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

在一个实施例中，所述自然语言文本基于用户输入的语音片段进行转换而得到。

在一个实施例中，对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别，包括：获取预先构建的对应于多个实体类别的多个词典；通过将所述自然语言文本与所述多个词典进行匹配，得到各个分词和其实体类别。

在一个实施例中，根据所述实体类别，将所述多个分词对应转换为多个查询要素，包括：针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素。

在一个具体的实施例中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：若所述第一分词的实体类别为维度名称或度量单元，则基于所述目标数据中与该第一分词匹配的字段名称，形成所述第一查询要素。

在另一个具体的实施例中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：若所述第一分词的实体类别为维值，则基于所述目标数据中与该第一分词匹配的字段值，形成所述第一查询要素。

在又一个具体的实施例中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：若所述第一分词的实体类别为时间类，则将第一分词转换为符合预设格式的时间数据，作为所述第一查询要素。

在还一个具体的实施例中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：若所述第一分词的实体类别为数据操作符类，则确定该第一分词对应的操作符，作为所述第一查询要素。

在再一个具体的实施例中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：若所述第一分词的实体类别为意图类，则确定所述第一分词对应的函数名，作为所述第一查询要素。

在一个实施例中，通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合，包括：对所述多个分词进行语法分析，得到若干分词词组；根据所述若干分词词组，对所述多个查询要素进行组合处理，得到所述若干要素组合。

在一个实施例中，对所述若干要素组合进行语义分析，得到若干查询对象，包括：针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象。

在一个具体的实施例中，针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的第一查询对象，包括：若所述第一要素组合涉及的实体类别包括度量单元且不包括意图类，则获取与所述度量单元对应查询要素所对应的默认函数名；基于所述默认函数名和所述第一要素组合，形成所述第一查询对象。

在一个实施例中，基于所述若干查询对象，构建数据查询脚本，包括：确定与各个查询对象的对应的查询关键字；基于所述查询关键字和各个查询对象，形成所述数据查询脚本。

在一个具体的实施例中，确定与各个查询对象的对应的查询关键字，包括：针对所述各个查询对象，基于其涉及的实体类别，以及预先建立的实体类别与查询关键字之间的映射关系，确定该查询对象对应的查询关键字。

在一个实施例中，在构建数据查询脚本之后，所述方法还包括：利用所述数据查询脚本对所述目标数据执行所述查询操作，得到查询内容；根据所述查询内容生成对应的图表，作为所述查询结果。

根据第二方面，提供一种查询请求的处理装置，包括：文本获取单元，配置为获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；实体识别单元，配置为对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别；转换单元，配置为根据所述实体类别，将所述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据相关；语法分析单元，配置为通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；语义分析单元，配置为对所述若干要素组合进行语义分析，得到若干查询对象；脚本构建单元，配置为基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

根据第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

根据第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，该处理器执行所述可执行代码时，实现第一方面的方法。

采用本说明书实施例提供的方法和装置，通过执行实体识别、语法分析、语义分析、脚本转换等核心步骤，将自然语言文本形式的查询请求完全可控地、可解释地逐步翻译成数据查询脚本，再利用该数据查询脚本执行数据查询，从而保证数据查询结果的准确性，同时，有效降低数据分析门槛，使得不具备编程能力的非数据技术人员能够进行自助式取数分析，从而使得大量的高灵活性的数据需求都能够被即时满足。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出根据一个实施例的处理查询请求的实施流程图；

图2示出根据一个实施例的查询请求的处理方法流程图；

图3示出根据一个示例的处理查询请求的实施过程示例图；

图4示出根据一个示例的数据分析工具的交互界面示意图；

图5示出根据一个实施例的数据分析的实施架构图；

图6示出根据一个实施例的查询请求的处理装置结构图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

承前所述，目前许多领域中的数据分析需求（或简称数据需求）具有量大和灵活性高的特点，而传统的数据分析产品（如报表工具等）主要面向具有编程能力的技术人员/数据人员，而非大量有数据分析需求的一线业务人员，导致工作流程只能按照：业务人员提需求→数据人员排期→需求交付业务人员来进行，导致数据支撑在时间上存在严重的滞后性，而难以实现以分钟或小时为响应时间。

基于此，提出设计一种数据分析工具，支持用户（例如上述一线业务人员）以自然语言（Natural Language）的形式发起查询请求，该工具将自然语言翻译成数据查询脚本后，再执行数据查询。目前，提出利用深度学习（Deep Learning）算法直接将自然语言翻译为数据查询脚本，然而，DP算法是概率性的，由于自然语言跟查询编程语言之间的差别太大，利用DL算法只能实现简单语义的查询，准确率低，比如主流的seq2seq (Sequence toSequence)算法，仅支持单表单层聚合下的80%左右的准确性，无法支持企业内部真实场景下的各类复杂数据分析要求，准确率低、覆盖范围窄，而在实际取数时要求完全准确。此外，DP算法是黑盒的，预测结果不可控，出错不可解释，还需要构建丰富的训练样本，训练时间非常长，经常需要再训练，用户一直需要等待，因此，采用DP算法进行自然语言翻译的方案难以实现大规模应用。

进一步，本申请发明人提出一种方案，参见图1，通过实体识别、语法分析、语义分析、查询脚本转换等核心步骤，将自然语言可控地、可解释地逐步翻译成查询编程语言，从而使得非数据技术人员能够自助取数分析，得到高时效性和高准确性的数据分析结果。

下面结合具体的实施例，描述上述方案的实现步骤。图2示出根据一个实施例的查询请求的处理方法流程图，所述方法的执行主体可以为任何具有计算、处理能力的装置、平台或设备集群等，例如，上述数据分析工具。如图2所示，所述方法包括以下步骤：

步骤S210，获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；步骤S220，对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别；步骤S230，根据所述实体类别，将所述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据相关；步骤S240，通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；步骤S250，对所述若干要素组合进行语义分析，得到若干查询对象；步骤S260，基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

对以上步骤的展开介绍如下：

首先，在步骤S210，获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本。需说明，目标数据又可以称为候选数据、备选数据或备用数据，其对应的存储方式有多种，例如，可以存储在数据库中、Excel表格或搜索引擎中，等等。此外，自然语言通常是指一种自然地随文化演化的语言，例如，汉语、英语、日语等都属于自然语言，以下主要以中文自然语言为例进行说明。

在本步骤中，接收用户基于其终端发起的查询请求。在一个实施例中，可以获取用户基于其终端界面中的输入框输入的自然语言文本，作为所述查询请求。在另一个实施例中，可以获取用户基于其终端输入的语音片段，从而利用语音识别技术将该语音片段转换为对应的自然语言文本，作为所述查询请求。

根据一个示例，参见图3，其中示出获取的自然语言文本为“本周上海性别不为男性的支付金额”。根据另一个示例，查询请求对应的自然语言文本可以是：本月支付金额前十。

以上，可以获取自然语言文本形式的查询请求。

接着，在步骤S220，对上述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别。需理解，得到的有用分词通常为具有特定意义的词语，还可以被换称为实体。

在一个典型的实施例中，可以获取预先构建的对应于多个实体类别的多个词典，通过将上述自然语言文本与多个词典进行匹配，得到各个分词和其实体类别。需理解，该多个实体类别和多个词典，可以根据实际需求进行设定和调整。进一步，在一个具体的实施例中，可以根据上述多个词典，采用基于词典的分词算法，如正向最大匹配算法、逆向最大匹配算法或全二分最大匹配算法等，确定自然语言文本中包含的各个分词，并根据各个分词所属的词典，确定对应的实体类别。

另一方面，在一个实施例中，可以边确定自然语言文本中包含的分词，边确定该分词对应的实体类别。在另一个实施例中，可以先确定自然语言文本中包括的多个分词，再确定该多个分词中各个分词对应的实体类别。又一方面，在一个实施例中，分词的确定可以采用基于统计的分词算法，例如，基于互信息的概率统计算法、N-Gram算法或基于组合度的汉语分词决策算法等。在一个实施例中，可以基于预先建立的分词与实体类别之间的映射关系，确定自然语言文本中各个分词对应的实体类别。

需说明，对于无法确定出实体类别的分词，例如，“的”、“了”等，可以判定其为无意义分词或停用词，并对其进行抛弃处理，从而将保留下来的分词作为上述多个分词。

根据一个示例，图2示出对自然语言文本“本周上海性别不为男性的支付金额”，对其进行实体识别得到的多个分词包括“本周”、“上海”、“性别”、“不为”、“男性”和“支付金额”，对应的实体类别为“Time”、“Dim_value”、“Dim_Name”、“Operate”、“Dim_value”和“Measure”，这些字母记法的实体类别还可以被记作时间、维值、维度名、操作符、维值和度量单元。

由上，可以得到自然语言文本包含的多个分词，以及其中各个分词对应的实体类别。然后，在步骤S230，根据该实体类别，将上述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据（MetaData）相关。

需说明，元数据通常指定义数据结构的数据。在一个典型的场景中，目标数据被存储在数据库中，相应，数据库的元数据是指定义数据库中各类数据对象结构的数据，例如，包括数据库中的表名、列名（字段名）等。此外，上述多个查询要素还可能与目标数据的数据内容相关，例如，数据库的数据内容包括表中的记录或字段值等。

进一步，与上述目标数据中元数据或数据内容相关的查询要素可以是某个元数据，如数据库中的用户表，或者某项数据内容，如性别字段下的字段值男；或者，还可以是针对元数据或数据内容的操作符，如不等于（op.NE）、求和（op.SUM），等等。在本步骤中，针对上述多个分词中任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素。

在一个实施例中，若第一分词的实体类别为维度名称或度量单元，则定位目标数据中与该第一分词匹配的字段，并基于该字段的名称和该字段所在表格的名称，形成第一查询要素。在一个具体的实施例中，其中匹配可以指完全相同。在另一个具体的实施例中，其中匹配还可以指与第一分词与字段的别名完全相同，例如，假定第一分词是支付数额，则可以确定出支付数额是支付金额的别名，并将支付金额确定为与第一分词匹配的字段。

根据一个示例，假定第一分词是图2中示出的“性别”，其实体类别为维度名称（图2中记作Dim_name），由此，可以确定出目标数据中与之匹配的字段sex以及字段sex所在的表格u，形成第一查询要素u.sex。根据另一个示例，假定第一分词是图2中示出的“支付金额”，其实体类别为度量单元（图2中记作Measure），由此，可以确定出与之匹配的字段amt以及字段amt所在的表格p，形成第一查询要素p.amt。

在另一个实施例中，若第一分词的实体类别为维值，则定位目标数据中与该第一分词匹配的字段值，并基于该字段值所在字段的名称和该字段所在表格的名称，形成第一查询要素。在一个具体的实施例中，其中匹配可以指完全相同。在另一个具体的实施例中，其中匹配还可以指与第一分词与字段值的别名完全相同，例如，假定第一分词是上海，则可以确定出上海是上海市的别名，并将上海市确定为与第一分词匹配的字段值。

根据一个示例，假定第一分词是图2中示出的“男性”，其实体类别为维值（图2中记作Dim_value），由此，可以确定出目标数据中与之匹配的字段值“男”，从而基于该字段值“男”，以及对应的字段名称sex和表格名称u，形成第一查询要素u.sex=男。根据另一个示例，假定第一分词是图2中示出的“上海”，其实体类别为维值（图2中记作Dim_value），由此，由此，可以确定出目标数据中与之匹配的字段值“上海市”，从而基于该字段值“上海市”，以及对应的字段名称city和表格名称c，形成第一查询要素c.city=上海市。

在又一个实施例中，若第一分词的实体类别为时间类，则对第一分词进行时间渲染处理，或者说，将第一分词转换为符合预设格式的时间数据，作为第一查询要素。根据一个示例，假定第一分词是图2中示出的“本周”，其实体类别为时间类（图2中记作Time），由此，可以对其进行时间渲染处理，得到第一查询要素：2020.5.21-2020.5.27。

在还一个实施例中，若第一分词的实体类别为数据操作符类，则确定该第一分词对应的操作符，作为所述第一查询要素。在一个具体的实施例中，根据预先建立的分词与操作符之间的映射关系，确定第一分词对应的操作符。根据一个示例，假定第一分词是图2中示出的“不为”，其实体类别为数据操作符类（图2中记作Operate），由此，可以将其对应的操作符“＜＞”作为第一查询要素。

在又一个实施例中，若第一分词的实体类别为意图类，则确定第一分词对应的函数名称，作为所述第一查询要素。在一个具体的实施例中，根据预先建立的分词与函数名之间的映射关系，确定第一分词对应的函数名。根据一个示例，假定第一分词是“平均值”，其实体类别为意图类（例如可以记作intent），由此，可以将其对应的函数名称“Average”作为第一查询要素。

上述以分词的实体类别为维度名称、度量单元、维值、时间类、数据操作符类或意图类为示例，对查询要素的转换方式进行说明。需理解，实体类别还可以包括其他类别，并且，类别的划分和名称的设定，以及类别对应的转换规则都是可以根据实际需求或实际的业务反馈进行调整的。

由上，可以确定多个分词对应的多个查询要素。然后，在步骤S240，通过对该多个分词进行语法分析，得到基于该多个查询要素形成的若干要素组合。需说明，语法分析也称句法分析或语法解析，是通过遵循正式语法规则来分析自然语言的过程，其中语法规则适用于单词和词组，语法分析主要为文本分配语义结构。此外，文中的若干指代一个或多个。

在本步骤中，可以先对多个分词进行语法分析，得到若干分词词组。需说明，语法分析可以采用已有方式实现，例如构建语法树等；此外，得到的各个分词词组中，可能包括两个或以上的分词，也可能包括单个分词。根据一个示例，图2中示出的若干分词词组包括：“本周”、“上海”、“性别不为男性”和“支付金额”，其中词组“性别不为男性”由“性别”、“不为”、“男性”三个分词组成。

进一步，根据上述若干分词词组，对多个查询要素进行组合处理，得到若干要素组合。具体，可以根据各个分词词组中各个分词的组合方式，将其中该各个分词对应的查询要素对应进行组合。根据一个示例，针对图2中示出的分词词组“性别不为男性”，可以对其中包括的分词“性别”、“不为”、“男性”所对应的查询要素u.sex、＜＞、u.sex=男，进行组合，从而得到对应的要素组合：u.sex＜＞男。根据另一个示例，图2中还示出分词词组“本周”、“上海”和“支付金额”，由此可以确定对应的要素组合分别为：2020.5.21-2020.5.27、c.city=上海、p.amt。

由上，通过语法分析，可以根据多个查询要素形成若干要素组合。接着，在步骤S250，对该若干要素组合进行语义分析，得到若干查询对象。需理解，语义分析是理解查询要素的含义的过程，理解的结果体现为对应的查询对象；另外，也可以将查询对象理解为编程语言中的查询组件，在查询组件的基础上施加查询操作，可以准确定位到目标数据中的需求数据。

在本步骤中，针对上述若干查询要素中任意的第一要素组合，可以基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象。需理解，语义处理规则可以由工作人员根据实际应用需求进行设定和调整。

在一个实施例中，第一要素组合涉及的实体类别包括度量单元和意图类，此时，可以直接将第一要素组合确定为对应的第一查询对象。根据一个示例，第一要素组合为Average(p.amt)，其所对应分词“平均值”和“支付金额”所对应的实体类别分别为意图类和度量单元，此时，可以直接将Average(p.amt)确定为对应的查询对象。

在另一个实施例中，第一要素组合涉及的实体类别包括度量单元且不包括意图类，此时，可以获取与度量单元对应的查询要素所对应的默认函数名，从而基于默认函数名和第一要素组合，形成第一查询对象。根据一个示例，第一要素组合为p.amt，其涉及的实体类别不包括意图类，此时，可以获取与p.amt对应的默认函数名SUM，从而形成第一查询对象SUM(p.amt)。

在又一个实施例中，第一要素组合涉及的实体类别包括且仅包括时间类，此时，可以根据上述多个查询要素中对应度量单元的查询要素所涉及的表名，确定该表名中的时间字段，再根据该表名、时间字段名和第一要素组合，形成时间选择对象，作为第一查询对象。根据一个示例，第一要素组合为2020.5.21-2020.5.27，此时，可以根据p.amt对应的表名p，确定其中的时间字段名pay_date，从而形成时间选择对象p. pay_date between2020.5.21 and 2020.5.27，作为第一查询对象。

在还一个实施例中，第一要素组合涉及的实体类别包括维值，此时，可以直接将第一要素组合确定为对应的第一查询对象。根据一个示例，对于图2中示出的要素组合c.city=上海、u.sex＜＞男，可以直接确定对应的查询对象分别为c.city=上海、u.sex＜＞男。

由上，通过语义分析，可以得到若干查询对象。然后，在步骤S260，基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。需理解，数据查询脚本的脚本语言与目标数据的存储方式相对应，比如，若目标数据存储在数据库中，则脚本语言可以是SQL语言，又比如，若目标数据存储在excel表格中，则脚本语言可以是Python语言。

本步骤中，可以先确定与上述若干查询对象中各个查询对象在上述脚本语言中对应的查询关键字。在一个实施例中，针对所述各个查询对象，基于其涉及的实体类别，以及预先建立的实体类别与查询关键字之间的映射关系，确定该查询对象对应的查询关键字。需理解，其中映射关系可以是工作人员根据经验和实际反馈进行设定和调整而得到的。示例性地，假定上述脚本语言为SQL语言，则此映射关系中可以包括下表1中示出的内容。

表1

实体类别	SQL关键字
		度量单元	Select
维值、时间类	Where
		时间类	Group by

基于表1中的映射关系，在一个例子中，如图2所示，查询对象“p. pay_datebetween 2020.5.21 and 2020.5.27”涉及时间类，由此可以确定其对应的SQL关键字包括Where和Group by；查询对象“c.city=上海”涉及维值，由此可以确定其对应的SQL关键字包括Where；查询对象“u.sex＜＞男” 涉及维值，由此可以确定其对应的SQL关键字包括Where；查询对象“SUM(p.amt)” 涉及度量单元，由此可以确定其对应的SQL关键字包括Select。

以上，可以确定出各个查询对象对应的查询关键字，进一步，可以基于此查询关键字和各个查询对象，形成上述数据查询脚本。需理解，查询脚本语言具有其语法规范，由此，在一个实施例中，可以根据其语法规范，对确定出的查询关键字和各个查询对象进行预定顺序的拼接，得到数据查询脚本。在另一个实施例中，可以获取根据语法规范预先编写好的查询脚本语句的模板，此模板中包括必选的查询关键字和可选的查询关键字，从而根据各个查询对象与查询关键字的对应关系，以及查询关键字的填写规范等，将该各个查询对象涉及的内容填充至该模板中，得到与上述自然语言文本对应的数据查询脚本。

根据一个示例，假定SQL语句模板包括：

Select （必填） as （选填） from （必填）

Join （选填） on（选填）=（选填）

Where （选填）

Group by（选填）

进一步，基于图2中示出的各个查询对象对应的SQL关键字，对该SQL语句模板进行填充，可以得到以下SQL脚本：

Select SUM(p.amt) as 支付金额 from p

Join u on u.user_id=p.user_id

Join c on c.city=p.city

Where p.pay_date between '2020.5.21'and '2020.5.27' and u.sex＜＞'男性' and c.city='上海市'

Group by p.pay_date

以上，可以通过先确定各个查询对象对应的查询关键字，在根据各个查询对象和其对应的查询关键字，构建出对应的数据查询脚本。在另一个实施例中，基于预先设定的查询脚本语言模板，可以边确定查询对象对应的查询关键字，边利用查询对象填充SQL模板，从而得到上述数据查询脚本。另一方面，在一个实施例中，可以先基于若干查询对象，构建与数据分析中间语言对应的分析语句，再将此分析语句转换为对应的查询脚本语句，形成上述数据查询脚本。需说明，中间语言的语法规则，以及其与查询对象、查询脚本语句之间的转换关系，可根据实际需求进行设计。

由上，可以基于若干查询对象，构建出数据查询脚本，从而实现将上述自然语言文本翻译成数据查询脚本。

根据另一方面的实施例，在上述步骤S260之后，所述方法还可以包括：利用构建出的数据查询脚本对目标数据执行查询操作，得到查询内容。进一步，在一个具体的实施例中，可以将该查询内容作为查询结果，展示给用户。在另一个具体的实施例中，还可以根据查询内容生成对应的图表，再将此图表作为查询结果展示给用户。根据一个示例，图4中示出与自然语言查询文本“昨天各城市女性的交易金额”对应的饼状图形式的查询结果。如此，可以将查询结果直观展示给用户。

综上，采用本说明书实施例披露的查询请求的处理方法，通过执行实体识别、语法分析、语义分析、脚本转换等核心步骤，将自然语言文本形式的查询请求完全可控地、可解释地逐步翻译成数据查询脚本，再利用该数据查询脚本执行数据查询，从而保证数据查询结果的准确性，并且，有效降低数据分析门槛，使得不具备编程能力的非数据技术人员能够进行自助式取数分析，从而使得大量的高灵活性的数据需求都能够被即时满足。

为便于对发明人提出的数据分析方案进行全局理解，下面结合一个实施例，对方案实现的各个环节进行描述。图5示出根据一个实施例的数据分析的实施架构图，如图5所示，实施过程涉及对多个模块的使用，包括词典能力模块，智能提示模块，自然语言翻译模块、查询模块、图表推荐模块和反馈自学习模块，其中词典能力模块具有词搜索、词典构建和生命周期管理等子模块，被用作智能提示模块和自然语言翻译模块的支撑模块。

进一步，智能提示模块具有补全、推荐、排序等功能，其可以辅助用户完成自然语言形式的查询请求的输入；自然语言翻译模块从智能提示模块获取到用户输入的自然语言文本“今日线下交易笔数”，再对此文本进行实体识别、语法分析和语义分析，得到若干查询对象，并输送至查询模块；查询模块根据接收的若干查询对象，生成数据查询脚本，并将数据查询脚本提交至目标数据的数据存储系统，并将得到的结果进行组装，输出给图表推荐模块；图表推荐模块根据查询结果推断适用的图表形式，或者，根据用户对多种模式的切换选取结果，生成对应的图表，最终展示给用户，例如，以文本形式告知用户“今日线下交易笔数为5.5亿”。另外，图5中示出的反馈自学习模块，可以从上述各个环节收集数据，用于统计分析以及对各个模块的优化。

以上结合图5，对数据分析方案进行全局介绍。

根据另一方面的实施例，本说明书还披露一种查询请求的处理装置，图6示出根据一个实施例的查询请求的处理装置结构图。如图6所示，所述装置600包括以下组成单元：

文本获取单元610，配置为获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；实体识别单元620，配置为对所述自然语言文本进行实体识别，得到多个分词和其中各个分词对应的实体类别；转换单元630，配置为根据所述实体类别，将所述多个分词对应转换为多个查询要素，该多个查询要素与所述目标数据的元数据相关；语法分析单元640，配置为通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；语义分析单元650，配置为对所述若干要素组合进行语义分析，得到若干查询对象；脚本构建单元660，配置为基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

在一个实施例中，上述自然语言文本基于用户输入的语音片段进行转换而得到。

在一个实施例中，实体识别单元620具体配置为：获取预先构建的对应于多个实体类别的多个词典；通过将所述自然语言文本与所述多个词典进行匹配，得到各个分词和其实体类别。

在一个实施例中，转换单元630具体配置为针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素。

进一步，在一个具体的实施例中，转换单元630进一步配置为：若所述第一分词的实体类别为维度名称或度量单元，则基于所述目标数据中与该第一分词匹配的字段名称，形成所述第一查询要素。

在另一个具体的实施例中，转换单元630进一步配置为：若所述第一分词的实体类别为维值，则基于所述目标数据中与该第一分词匹配的字段值，形成所述第一查询要素。

在又一个具体的实施例中，转换单元630进一步配置为：若所述第一分词的实体类别为时间类，则将第一分词转换为符合预设格式的时间数据，作为所述第一查询要素。

在还一个具体的实施例中，转换单元630进一步配置为：若所述第一分词的实体类别为数据操作符类，则确定该第一分词对应的操作符，作为所述第一查询要素。

在再一个具体的实施例中，转换单元630进一步配置为：若所述第一分词的实体类别为意图类，则确定所述第一分词对应的函数名，作为所述第一查询要素。

在一个实施例中，语法分析单元640具体配置为：对所述多个分词进行语法分析，得到若干分词词组；根据所述若干分词词组，对所述多个查询要素进行组合处理，得到所述若干要素组合。

在一个实施例中，语义分析单元650具体配置为：针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象。

在一个具体的实施例中，语义分析单元650进一步配置为：若所述第一要素组合涉及的实体类别包括度量单元且不包括意图类，则获取与所述度量单元对应查询要素所对应的默认函数名；基于所述默认函数名和所述第一要素组合，形成所述第一查询对象。

在一个实施例中，脚本构建单元660具体配置为：确定与各个查询对象的对应的查询关键字；基于所述查询关键字和各个查询对象，形成所述数据查询脚本。

在一个具体的实施例中，脚本构建单元660进一步配置为：针对所述各个查询对象，基于其涉及的实体类别，以及预先建立的实体类别与查询关键字之间的映射关系，确定该查询对象对应的查询关键字。

在一个实施例中，所述装置600还包括查询单元670，配置为利用所述数据查询脚本对所述目标数据执行所述查询操作，得到查询内容；根据所述查询内容生成对应的图表，作为所述查询结果。

综上，采用本说明书实施例披露的查询请求的处理装置，通过执行实体识别、语法分析、语义分析、脚本转换等核心步骤，将自然语言文本形式的查询请求完全可控地、可解释地逐步翻译成数据查询脚本，再利用该数据查询脚本执行数据查询，从而保证数据查询结果的准确性，并且，有效降低数据分析门槛，使得不具备编程能力的非数据技术人员能够进行自助式取数分析，从而使得大量的高灵活性的数据需求都能够被即时满足。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所描述的方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种查询请求的处理方法，包括：

获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；

将所述自然语言文本与对应于多个实体类别的多个词典进行匹配，得到所述自然语言文本中除停用词以外的多个分词中各个分词所对应的实体类别；所述多个词典包括：维度名称词典、维值词典、度量单元词典、时间类词典、数据操作符类词典、意图类词典；

针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，得到所述多个分词对应的多个查询要素，该多个查询要素与所述目标数据的元数据相关；

通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；

针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象，得到所述若干要素组合对应的若干查询对象；

基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

2.根据权利要求1所述的方法，其中，所述自然语言文本基于用户输入的语音片段进行转换而得到。

3.根据权利要求1所述的方法，其中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：

若所述第一分词的实体类别为维度名称或度量单元，则基于所述目标数据中与该第一分词匹配的字段名称，形成所述第一查询要素。

4.根据权利要求1所述的方法，其中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：

若所述第一分词的实体类别为维值，则基于所述目标数据中与该第一分词匹配的字段值，形成所述第一查询要素。

5.根据权利要求1所述的方法，其中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：

若所述第一分词的实体类别为时间类，则将第一分词转换为符合预设格式的时间数据，作为所述第一查询要素。

6.根据权利要求1所述的方法，其中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：

若所述第一分词的实体类别为数据操作符类，则确定该第一分词对应的操作符，作为所述第一查询要素。

7.根据权利要求1所述的方法，其中，针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，包括：

若所述第一分词的实体类别为意图类，则确定所述第一分词对应的函数名，作为所述第一查询要素。

8.根据权利要求1所述的方法，其中，通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合，包括：

对所述多个分词进行语法分析，得到若干分词词组；

根据所述若干分词词组，对所述多个查询要素进行组合处理，得到所述若干要素组合。

9.根据权利要求1所述的方法，其中，针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象，包括：

若所述第一要素组合涉及的实体类别包括度量单元且不包括意图类，则获取与所述度量单元对应查询要素所对应的默认函数名；

基于所述默认函数名和所述第一要素组合，形成所述查询对象。

10.根据权利要求1所述的方法，其中，基于所述若干查询对象，构建数据查询脚本，包括：

确定与各个查询对象的对应的查询关键字；

基于所述查询关键字和各个查询对象，形成所述数据查询脚本。

11.根据权利要求10所述的方法，其中，确定与各个查询对象的对应的查询关键字，包括：

针对所述各个查询对象，基于其涉及的实体类别，以及预先建立的实体类别与查询关键字之间的映射关系，确定该查询对象对应的查询关键字。

12.根据权利要求1所述的方法，其中，在构建数据查询脚本之后，所述方法还包括：

利用所述数据查询脚本对所述目标数据执行所述查询操作，得到查询内容；

根据所述查询内容生成对应的图表，作为所述查询结果。

13.一种查询请求的处理装置，包括：

文本获取单元，配置为获取针对目标数据的查询请求，所述查询请求的形式为自然语言文本；

实体识别单元，配置为将所述自然语言文本与对应于多个实体类别的多个词典进行匹配，得到所述自然语言文本中除停用词以外的多个分词中各个分词对应的实体类别；所述多个词典包括：维度名称词典、维值词典、度量单元词典、时间类词典、数据操作符类词典、意图类词典；

转换单元，配置为针对任意的第一分词，基于其实体类别对应的转换规则，将其转换为第一查询要素，得到所述多个分词对应的多个查询要素，该多个查询要素与所述目标数据的元数据相关；

语法分析单元，配置为通过对所述多个分词进行语法分析，得到基于所述多个查询要素形成的若干要素组合；

语义分析单元，配置为针对任意的第一要素组合，基于其涉及的实体类别所对应的语义处理规则，将其处理为对应的查询对象，得到所述若干要素组合对应的若干查询对象；

脚本构建单元，配置为基于所述若干查询对象，构建数据查询脚本，用于执行对所述目标数据的查询操作，得到与所述查询请求对应的查询结果。

14.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-12中任一项所述的方法。

15.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-12中任一项所述的方法。