CN112800201A

CN112800201A - 自然语言的处理方法、装置及电子设备

Info

Publication number: CN112800201A
Application number: CN202110119937.0A
Authority: CN
Inventors: 王碧波; 孙闯
Original assignee: Hangzhou Huishu Zhitong Technology Co ltd
Current assignee: Hangzhou Huishu Zhitong Technology Co ltd
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-14
Anticipated expiration: 2041-01-28
Also published as: CN112800201B

Abstract

本申请提供了一种自然语言查询语句的处理方法、装置及电子设备，方法包括：获取用户的自然语言查询语句；根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合，即多个目标词及每个目标词对应的属性标识和位置标识；根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；将目标查询语句转换为数据库执行语言，以便进行信息查询。本申请能够通过目标词提取和基于规则的文本重构过程，将用户的自然语言查询语句转换为目标查询语句，然后再将目标查询语句转换为数据库执行语言，通过两次转换可以大大提高信息查询的准确度。

Description

自然语言的处理方法、装置及电子设备

技术领域

本申请涉及自然语言处理技术领域，尤其是涉及一种自然语言的处理方法、装置及电子设备。

背景技术

在基于用户输入的自然语言进行信息搜索的过程中，现有的处理思路往往是通过某种算法建立一个直接从纯自然语言到数据库(如：SQL)执行语言的映射关系，通过该映射关系就可以将自然语言直接转化为数据库执行语言，从而完成信息搜索。然而这种方式只需要进行一次转换过程，往往会存在转换精确度不够的问题，即可能导致转换后的数据库执行语言存在偏差，进而导致信息的搜索结果不够精准。

发明内容

本申请的目的在于提供一种自然语言的处理方法、装置及电子设备，能够通过目标词提取和基于规则的文本重构过程，将用户的自然语言查询语句转换为目标查询语句，然后再将目标查询语句转换为数据库执行语言，通过两次转换可以大大提高信息查询的准确度。

第一方面，本申请实施例提供一种自然语言查询语句的处理方法，方法应用于服务器，服务器中存储有预设数据表、预设关键词表和多个文本重构规则；方法包括：获取用户的自然语言查询语句；根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识；属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置；根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；将目标查询语句转换为数据库执行语言，以便进行信息查询。

进一步的，上述根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取和标识标注，得到目标词组合的步骤，包括：对自然语言查询语句进行预处理，得到多个目标分词；如果多个目标分词中存在阿拉伯数字，将阿拉伯数字作为一个目标词；从预设数据表和预设关键词表中，查找与多个目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词；为每个目标词标注对应的属性标识和位置标识，得到目标词组合。

进一步的，上述对自然语言查询语句进行预处理，得到多个目标分词的步骤，包括：对自然语言查询语句进行分词处理，得到多个分词；对多个分词进行预设处理，得到多个目标分词；预设处理包括以下至少一项：特殊词替换、停用词剔除和中文数字转换；其中，特殊词替换用于将分词替换为系统可识别的目标分词；停用词剔除用于删除无意义的分词；中文数字转换用于将中文数字转换为阿拉伯数字。

进一步的，上述预设数据表包括列名和列中值；从预设数据表和预设关键词表中，查找与多个目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词的步骤，包括：将每个目标分词作为当前分词，均执行以下步骤：通过模糊搜索，从预设数据表和关键词表中查找与当前分词模糊匹配的列名、列中值和/或关键词；计算当前分词和其模糊匹配的列名、列中值和/或关键词的相似度，将最大相似度对应的列名、列中值和/或关键词，确定为目标词。

进一步的，上述每个列名对应有列类型标识；为每个目标词标注对应的属性标识的步骤，包括：如果目标词为关键词，为目标词标注关键词标识；如果目标词为列名或列中值，为目标词标注相应的列类型标识；如果目标词为阿拉伯数字，为目标词标注相应的数字相关标识；数字相关标识包括以下至少之一：数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。

进一步的，上述每个文本重构规则包括：基于关键词的至少一个文本重构格式；根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句的步骤，包括：根据多个目标词对应的属性标识，从多个文本重构规则中查找目标词组合对应的目标文本重构格式；根据目标文本重构格式和多个目标词，进行文本补全；根据多个目标词对应的位置标识，将文本补全后的多个词进行排序，确定目标查询语句。

进一步的，上述根据多个目标词对应的属性标识，从多个文本重构规则中查找目标词组合对应的目标文本重构格式的步骤，包括：以属性标识为关键词标识的目标词为索引，从基于关键词的多个文本重构格式中查找对应的文本重构格式；基于查找到的文本重构格式，确定目标词组合对应的目标文本重构格式。

进一步的，上述基于查找到的文本重构格式，确定目标词组合对应的目标文本重构格式的步骤，包括：如果查找到的文本重构格式为一个，则将文本重构格式作为目标词组合对应的目标文本重构格式；如果查找到的文本重构格式为多个，则计算多个目标词在每个文本重构格式下的得分，将得分最高的文本重构格式作为目标词组合对应的目标文本重构格式。

进一步的，上述计算多个目标词在每个文本重构格式下的得分的步骤，包括：通过下式计算多个目标词在文本重构格式下的得分：

score＝a/d*10⁶+b/c*10⁵+d*10³+e*10+f；

其中，score表示目标词在文本重构格式下的得分；a表示占位符匹配到的数量；b表示星标文本匹配到的数量；c表示星标文本总数量；d表示占位符总数量；e表示普通文本匹配到的数量；f表示正则匹配到的数量。

进一步的，上述文本重构格式中包括关键词和属性标识的排列组合；根据目标文本重构格式和多个目标词，进行文本补全的步骤，包括：利用目标文本重构格式中的属性标识对应的目标词，替换目标文本重构格式中的属性标识，得到目标词与关键词的排列组合结果。

进一步的，上述预设关键词表的类型包括以下中的多项：筛选关键词、排序关键词、数值计算关键词、日期关键词、时间关键词、字符串关键词、增长关键词、分组关键词、vs关键词、地理空间关键词、逻辑计算关键词、页码关键词。

进一步的，上述将目标查询语句转换为数据库执行语言的步骤，包括：通过预先训练好的语句转换模型将目标查询语句转换为数据库执行语言。

第二方面，本申请实施例还提供一种自然语言查询语句的处理装置，装置应用于服务器，服务器中存储有预设数据表、预设关键词表和多个文本重构规则；装置包括：语句获取模块，用于获取用户的自然语言查询语句；词提取标注模块，用于根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识；属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置；文本重构模块，用于根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；语句转换模块，用于将目标查询语句转换为数据库执行语言，以便进行信息查询。

第三方面，本申请实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机可执行指令，处理器执行计算机可执行指令以实现上述第一方面所述的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现上述第一方面所述的方法。

本申请实施例提供的自然语言查询语句的处理方法、装置及电子设备，方法应用于存储有预设数据表、预设关键词表和多个文本重构规则的服务器；首先服务器获取用户的自然语言查询语句；然后根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；该目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识；其中，属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置；然后根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；最后将目标查询语句转换为数据库执行语言，以便进行信息查询。本申请实施例通过目标词提取和基于规则的文本重构过程，将用户的自然语言查询语句转换为目标查询语句，然后再将目标查询语句转换为数据库执行语言，通过两次转换可以大大提高信息查询的准确度。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种自然语言查询语句的处理方法的流程图；

图2为本申请实施例提供的一种的自然语言查询语句的处理流程示意图；

图3为本申请实施例提供的一种目标词组合确定方法的流程图；

图4为本申请实施例提供的一种文本重构方法的流程图；

图5为本申请实施例提供的一种自然语言查询语句的处理装置的结构框图；

图6为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合实施例对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

基于此，本申请实施例提供一种自然语言查询语句的处理方法、装置及电子设备，通过目标词提取和基于规则的文本重构过程，将用户的自然语言查询语句转换为目标查询语句，然后再将目标查询语句转换为数据库执行语言，通过两次转换可以大大提高信息查询的准确度。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种自然语言查询语句的处理方法进行详细介绍。

本申请实施例提供的一种自然语言查询语句的处理方法，该方法应用于服务器，服务器中存储有预设数据表、预设关键词表和多个文本重构规则；其中，预设数据表为用户提供的用于数据查询的信息表，包括列名和列中值；预设关键词表包括多种类型的关键词，每种类型的关键词表中除了包括关键词，还可以包括：对关键词的描述和用例内容。

表1示出了本申请实施例提供的一种预设数据表-销售信息表，内容如下：

表1

表2示出了本申请实施例提供的一种预设关键词表，筛选关键词表，内容如下：

表2

本申请实施例中，上述预设关键词表的类型包括以下中的多项：筛选关键词、排序关键词、数值计算关键词、日期关键词、时间关键词、字符串关键词、增长关键词、分组关键词、vs关键词、地理空间关键词、逻辑计算关键词、页码关键词，如表2示出的是筛选关键词表，其它的表不再一一示出。

本申请实施例中，服务器还预存有多种文本重构规则，例如有以下规则：

其中，pattern:表示符合规则的关键词格式；

text_for_match:用于在分词结果中搜索的文本；

priority:关键词的优先级水平；

/text/表示正则表达式；

*text*表示text非常具有特异性；

*单独星号表示只要占位符可以被填满。

上述规则仅仅为一个"select"规则示例，还可以包括如"sort"规则、"aggregation"规则等，在此不做具体限定。

图1示出了本申请实施例提供的自然语言查询语句的处理方法的流程图，该方法具体包括以下步骤：

步骤S102，获取用户的自然语言查询语句。

实际应用中，如果用户采用直接在输入框中输入自然语言查询语句的方式进行查询，则服务器可以直接获取到该自然语言查询语句，如果用户是通过语音方式进行查询的，服务器则可以对用户的语音信息进行识别，以获取用户的自然语言查询语句。参见图2所示，用户输入的自然语言查询语句为“我想知道销量最好的产品是什么”。

步骤S104，根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识。

其中，属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置。根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取，可以包括多种方式，比如，通过将自然语言查询语句和预设数据表、预设关键词表中的词进行比对的方式，找到能够匹配的词，或者通过计算相似度的方式从上述表中查找匹配的词，将查找到的词或匹配到的词作为目标词，并根据目标词的词类型，为其标注对应属性标识和位置标识。

在一种优选实施方式中，可以对自然语言查询语句先进行一些预处理，排除一些无用的词或对某些特殊词进行转换等，方便更快更准确地提取目标词。具体的提取方式会在后续进行详细说明。

如图2所示，自然语言查询语句“我想知道销量最好的产品是什么”在目标词提取和标识标注后，得到的目标词组合为：(销售数量,nume_column_name,4)、(排名最前,key,6)、(产品,cate_column_name,12)。其中，销售数量、排名最前和产品均为目标词，nume_column_name、key、cate_column_name均为上述目标词分别对应的属性标识；4、6、12均为上述目标词分别对应的位置标识。

步骤S106，根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句。

服务器中预存有多种文本重构规则，首先根据目标词组合中的关键词确定出该目标词组合对应的目标文本重构规则，然后基于目标词和目标文本重构规则进行文本补全，最后按照目标词的位置标识进行排序，得到文本重构后的目标查询语句，具体的过程可参见后续详细阐述。

参见图2所示，在对上述目标词组合(销售数量,nume_column_name,4)、(排名最前,key,6)、(产品,cate_column_name,12)进行文本重构后，得到的目标查询语句为“排名最前的销售数量的总和产品”。

步骤S108，将目标查询语句转换为数据库执行语言，以便进行信息查询。

具体的，可以通过预先训练好的语句转换模型将目标查询语句“排名最前的销售数量的总和产品”转换为数据库执行语言，以便进行准确地信息查询。

本申请实施例提供的自然语言查询语句的处理方法，应用于存储有预设数据表、预设关键词表和多个文本重构规则的服务器；首先服务器获取用户的自然语言查询语句；然后根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；该目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识；其中，属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置；然后根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；最后将目标查询语句转换为数据库执行语言，以便进行信息查询。本申请实施例通过目标词提取和基于规则的文本重构过程，将用户的自然语言查询语句转换为目标查询语句，然后再将目标查询语句转换为数据库执行语言，通过两次转换可以大大提高信息查询的准确度。

上述步骤S104，根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取和标识标注，得到目标词组合的步骤可以通过以下方式实现，参见图3所示的流程图：

步骤S302，对自然语言查询语句进行预处理，得到多个目标分词。

该步骤中，可以首先对自然语言查询语句进行分词处理，得到多个分词；然后对多个分词进行预设处理，得到多个目标分词；上述预设处理包括以下至少一项：特殊词替换、停用词剔除和中文数字转换；其中，特殊词替换用于将分词替换为系统可识别的目标分词；停用词剔除用于删除无意义的分词；中文数字转换用于将中文数字转换为阿拉伯数字。

比如自然语言查询语句为“销售量超过10的产品有哪些”，分词处理后，得到“销售量”、“超过”、“10”、“的”“产品”、“有哪些”；在上述6个分词中，“超过”为特殊词，替换为系统可识别的目标分词“大于”；“的”和“有哪些”为无意义的词，即停用词，删除掉即可；经过上述预设处理后，得到的多个目标分词为：“销售量”、“大于”、“10”、“产品”。

步骤S304，如果多个目标分词中存在阿拉伯数字，将阿拉伯数字作为一个目标词。

如上述多个目标分词：“销售量”、“大于”、“10”、“产品”中，“10”为阿拉伯数字，则将“10”作为一个目标词。

步骤S306，从预设数据表和预设关键词表中，查找与多个目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词。

上述预设数据表包括列名和列中值；如上述销售信息表中列名包括“销售数量”和“产品”。上述销售信息表中除了列名之外的词均为列中值。具体的词匹配过程如下：

将每个目标分词作为当前分词，均执行以下步骤：通过模糊搜索，从预设数据表和关键词表中查找与当前分词模糊匹配的列名、列中值和/或关键词；计算当前分词和其模糊匹配的列名、列中值和/或关键词的相似度，将最大相似度对应的列名、列中值和/或关键词，确定为目标词。

1.用bert-service(一个开源的词向量计算服务)将目标分词和信息表转成词向量模式；

2.利用FuzzyWuzzy(一个开源的模糊字符串匹配工具包)进行模糊搜索：FuzzyWuzzy依据Levenshtein Distance算法计算两个序列之间的差异。LevenshteinDistance算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。通过上述模糊匹配可能会对同一个目标分词匹配到多个词结果。

3.计算余弦相似度(余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度)，提取相似度最大的词，作为该目标分词对应的目标词。

通过上述模糊匹配和相似度计算两种方式，可以从预设数据表和预设关键词表中，快速查找到与多个目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词。

比如，目标分词“大于”可以从预设关键词表中查找到，即完全匹配，因此，将“大于”作为一个目标词；目标分词“销售量”在预设数据表和预设关键词表中均未查找到，通过计算相似度的方式，可以确定在销售信息表中存在与之匹配的列名“销售数量”，则将“销售数量”作为一个目标词；目标分词“产品”在销售信息表中可以查找到，即完全匹配，因此，将“产品”作为一个目标词。

通过上述分析，自然语言查询语句“销售量超过10的产品有哪些”对应的目标词包括：“销售数量”、“大于”、“10”和“产品”。

步骤S308，为每个目标词标注对应的属性标识和位置标识，得到目标词组合。

在上述确定目标词的过程中，就会识别出该目标词的词类型，以及该目标词在原查询语句中的位置，因而可以为每个目标词标注上对应的属性标识和位置标识。

上述每个列名对应有列类型标识；为每个目标词标注对应的属性标识的步骤，包括：如果目标词为关键词，为目标词标注关键词标识；如果目标词为列名或列中值，为目标词标注相应的列类型标识；如果目标词为阿拉伯数字，为目标词标注相应的数字相关标识；数字相关标识包括以下至少之一：数字标识(number)、日期标识(date)、时间长度标识、排名标识、页码标识和分组标识。

本实施例中，上述列类型标识包括但不限于如下几种：

column_name：未定义类型的列。不会出现在Tokenizer中，只会在配置文件中作为所有列类型的缩写，表示任何列类型均可。

cate_column_name：表示文本型，不含全部由数字组成的列中值。此类列的含义大多可以解释为类别。

nume_column_name：表示数值型。可以进行数值运算的列。

time_column_name：表示日期，可以进行时间相关运算的列(适用于增长类关键词)。

bool_column_name：布尔类型。

other_column_name：其他类，一般不进行特殊运算操作。

以及其他扩展定义。

需要说明的是，上述分词处理、预设处理、提取阿拉伯数字、词语匹配和标识标注几个过程并没有特定的先后顺序，根据实际情况可以适应性调整执行顺序。

下面列举一个具体的应用实例，说明上述目标词提取过程：

还以上述销售信息表为例进行说明，用户输入的自然语言查询语句为“请问十月份销售量最好的产品是什么”。

1.替换特殊词

将“最好”替换为“排名最前”；

上述语句变为“请问十月份销售量排名最前的产品是什么”；

2.提取列名

(产品,cate_column_name)，“产品”为上述销售信息表中的列名，cate_column_name为产品的属性标识。

3.中文数字转为阿拉伯数字

将“十”转换为“10”，上述语句变为“请问10月份销售量排名最前的产品是什么”；

4.提取数字

(10,month)，其中，month为“10”的属性标识，即数字标识。

5.分词

将上述“请问10月份销售量排名最前的产品是什么”分词，并对上述提取出的目标词进行替换得到：

“请问”、“(10,month)”、“销售量”、“排名最前的”、“(产品,cate_column_name)”、“是什么”。

6.判断关键词和停用词

“排名最前的”是排名类的关键词；“请问”和“是什么”都是停用词；

得到目标词组合：

(10,month,2)(销售量,unknown,5)(排名最前的,key,8)(产品,cate_column_name,16)

7.计算相似度

'销售量'经过计算,和列名'销售数量'相似,替换为(销售数量,nume_column_name,5)，标记completed

'排名最前的'是排名类的关键词,完全匹配，标记completed

'产品'是数据表的列,完全匹配，标记completed

8.标注位置标识，输出最终的目标词组合

(10,month,2)(销售数量,nume_column_name,5)(排名最前的,key,8)(产品,cate_column_name,16)。

下面详细阐述文本重构过程，即根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句的步骤，参见图4所示的流程图实现：

步骤S402，根据多个目标词对应的属性标识，从多个文本重构规则中查找目标词组合对应的目标文本重构格式。

上述每个文本重构规则包括：基于关键词的至少一个文本重构格式；以属性标识为关键词标识的目标词为索引，从基于关键词的多个文本重构格式中查找对应的文本重构格式；基于查找到的文本重构格式，确定目标词组合对应的目标文本重构格式。具体的，如果查找到的文本重构格式为一个，则将文本重构格式作为目标词组合对应的目标文本重构格式；如果查找到的文本重构格式为多个，则计算多个目标词在每个文本重构格式下的得分，将得分最高的文本重构格式作为目标词组合对应的目标文本重构格式。得分的计算方式有多种，包括但不限于本申请实施例提供的下述计算方式：

通过下式计算多个目标词在文本重构格式下的得分：

score＝a/d*10⁶+b/c*10⁵+d*10³+e*10+f；

还以上述例子为例进行说明，自然语言查询语句为“请问十月份销售量最好的产品是什么”。其对应的目标词组合为：(10,month,2)(销售数量,nume_column_name,5)(排名最前的,key,8)(产品,cate_column_name,16)。

然后以上述关键词“排名最前的”为索引，在多个文本重构规则中进行查找，查找到的目标文本重构规则如下：

步骤S404，根据目标文本重构格式和多个目标词，进行文本补全。

具体实施时，利用目标文本重构格式中的属性标识对应的目标词，替换目标文本重构格式中的属性标识，得到目标词与关键词的排列组合结果。

上述规则中，目标文本重构格式包括："pattern":"<month>月"和"pattern":"排名最前的<nume_column_name>的总和"。

与"pattern":"<month>月"匹配的目标词为(10,month,2)，利用10替换<month>，得到“10月”。

与"pattern":"排名最前的<nume_column_name>的总和"匹配的目标词为(销售数量,nume_column_name,5)和(排名最前的,key,8)，替换后得到“排名最前的销售数量的总和”。

(产品,cate_column_name,16)这个目标词并没有匹配到对应的规则，直接原样输出得到“产品”。

步骤S406，根据多个目标词对应的位置标识，将文本补全后的多个词进行排序，确定目标查询语句。

根据原始的index，即目标词对应的位置标识，组合上述结果得到目标查询语句：“10月排名最前的销售数量的总和产品”。

下面列举一个完整的实施例，以说明上述目标词提取和文本重构过程：

比如，自然语言查询语句为“销售量超过1加5排名3到6的销售额的产品有哪些”。

一、目标词提取

1.替换特殊词

“超过”替换为“大于”、“加“替换为“+”，即，自然语言查询语句变为“销售量大于1+5并且排名3到6的销售额的产品有哪些”。

2.提取列名

(产品,cate_column_name)

3.中文数字转为阿拉伯数字

无

4.提取数字

(1,number)、(5,number)、(3,number)、(6,number)

5.分词

“销售量”、“大于”、“(1,number)”、“(+,key)”、“(5,number)”、“(排名,key)”、“(3,number)”、“到”、“(6,number)”、“销售额”、“(产品,cate_column_name)”、“有哪些”。

6.判断关键词和停用词

“大于”是关键词；“+”是关键词；“排名”是关键词；“到”是关键词；“有哪些”是停用词；得到分词结果：

(销售量,unknown,0)(大于,key,3)(1,number,5)(+,key,6)(5,number,7)(排名,key,8)(3,number,11)(到,key,12)(6,number,13)(销售额,unknown,19)(产品,cate_column_name,27)。

7.计算相似度

“销售量”经过计算,和列名“销售数量”相似，替换为(销售数量,nume_column_name,0)，标记completed；

“销售额”经过计算,和列名“销售金额”相似，替换为(销售金额,nume_column_name,19)，标记completed；

“大于”是比较类的关键词,完全匹配，标记completed；

“产品”是数据表的列,完全匹配，标记completed；

8.输出目标词组合结果

(销售数量,nume_column_name,0)(大于,key,3)(1,number,5)(+,key,6)(5,number,7)(排名,key,8)(3,number,11)(到,key,12)(6,number,13)(销售金额,nume_column_name,19)(产品,cate_column_name,27)

二、文本重构

解析四则运算:

(1,number,5)(+,key,6)(5,number,7)->(1+5,number)

分词为completed而且有以下规则适配关键词。

匹配并补全:

1.解析“大于”

"pattern":"<nume_column_name>大于<number>"(销售数量,nume_column_name,0)(大于,key,3)(1,number,5)(+,key,6)(5,number,7)得到'销售数量大于(1+5)'

2.解析排名

(排名前,key,8)有两个pattern匹配：

pattern1:"排名第<rank>的<nume_column_name>"

pattern2:"排名第<rank>到<rank>的<nume_column_name>"

计算得分：

a)占位符匹配到的数量a：a1＝2,a2＝3；

b)星标文本匹配到的数量b：b1＝0,b2＝0；

c)星标文本总数量c：c1＝0,c2＝0；

d)占位符总数量d：d1＝2,d2＝3；

e)普通文本匹配到的数量e：e1＝1,e2＝1；

f)正则匹配到的数量f：f1＝0,f2＝0；

得分计算：(10X表示10的X次方)

score1＝a/d*106+b/c*105+d*103+e*10+f＝106+2*103+10

score2＝a/d*106+b/c*105+d*103+e*10+f＝106+3*103+10

排序的得分类pattern，取分数高的pattern2并填充补全：

pattern2:"排名第<rank>到<rank>的<nume_column_name>"(排名,key,8)(3,number,11)(到,key,12)(6,number,13)(销售金额,nume_column_name,19)得到"排名第3到6的销售金额"

(产品,cate_column_name,27)原样输出得到'产品'

根据原始的index组合规则匹配结果得到目标查询语句为：

“销售数量大于(1+5)排名第3到6的销售金额产品”。

从上述例子可以看出，本申请实施例提供的还可以进行逻辑运算，如：(1,number,5)(+,key,6)(5,number,7)->(1+5,number)；本申请实施例中，通过目标词提取和文本重构过程，可以将用户输入的自然语言查询语句转换成富有逻辑性、语法结构清晰，并且基于有限目标词的语句，进而通过预先训练好的语句转换模型将目标查询语句转换为数据库执行语言，能够提高信息查询的准确度。

上述通过预先训练好的语句转换模型将目标查询语句转换为数据库执行语言的过程如下：

将上述通过目标词提取和文本重构得到的目标查询语句输入到语句转换模型中，即可得到自然语言查询语句对应的数据库执行语言。

上述语句转换模型的训练过程如下：

获取训练样本集，该训练样本集中包括大量的查询语句及其对应的数据库执行语言；将上述训练样本集输入到特定的神经网络模型中，进行强化训练，得到查询语句到数据库执行语言的语句转换模型。

基于上述方法实施例，本申请实施例还提供一种自然语言查询语句的处理装置，装置应用于服务器，服务器中存储有预设数据表、预设关键词表和多个文本重构规则；参见图5所示，该装置包括：

语句获取模块52，用于获取用户的自然语言查询语句；词提取标注模块54，用于根据预设数据表和预设关键词表，对自然语言查询语句进行目标词提取及标识标注，得到目标词组合；目标词组合包括：多个目标词及每个目标词对应的属性标识和位置标识；属性标识用于表征目标词的词类型；位置标识用于表征目标词在自然语言查询语句中的位置；文本重构模块56，用于根据多个目标词分别对应的属性标识和位置标识，利用目标词组合对应的目标文本重构规则对多个目标词进行文本重构，得到目标查询语句；语句转换模块58，用于将目标查询语句转换为数据库执行语言，以便进行信息查询。

进一步的，上述词提取标注模块54还用于：对自然语言查询语句进行预处理，得到多个目标分词；如果多个目标分词中存在阿拉伯数字，将阿拉伯数字作为一个目标词；从预设数据表和预设关键词表中，查找与多个目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词；为每个目标词标注对应的属性标识和位置标识，得到目标词组合。

进一步的，上述词提取标注模块54还用于：对自然语言查询语句进行分词处理，得到多个分词；对多个分词进行预设处理，得到多个目标分词；预设处理包括以下至少一项：特殊词替换、停用词剔除和中文数字转换；其中，特殊词替换用于将分词替换为系统可识别的目标分词；停用词剔除用于删除无意义的分词；中文数字转换用于将中文数字转换为阿拉伯数字。

进一步的，上述词提取标注模块54还用于：将每个目标分词作为当前分词，均执行以下步骤：通过模糊搜索，从预设数据表和关键词表中查找与当前分词模糊匹配的列名、列中值和/或关键词；计算当前分词和其模糊匹配的列名、列中值和/或关键词的相似度，将最大相似度对应的列名、列中值和/或关键词，确定为目标词。

进一步的，上述每个列名对应有列类型标识；上述词提取标注模块54还用于：如果目标词为关键词，为目标词标注关键词标识；如果目标词为列名或列中值，为目标词标注相应的列类型标识；如果目标词为阿拉伯数字，为目标词标注相应的数字相关标识；数字相关标识包括以下至少之一：数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。

进一步的，上述每个文本重构规则包括：基于关键词的至少一个文本重构格式；上述文本重构模块56还用于：根据多个目标词对应的属性标识，从多个文本重构规则中查找目标词组合对应的目标文本重构格式；根据目标文本重构格式和多个目标词，进行文本补全；根据多个目标词对应的位置标识，将文本补全后的多个词进行排序，确定目标查询语句。

进一步的，上述根据多个目标词对应的属性标识，上述文本重构模块56还用于：以属性标识为关键词标识的目标词为索引，从基于关键词的多个文本重构格式中查找对应的文本重构格式；基于查找到的文本重构格式，确定目标词组合对应的目标文本重构格式。

进一步的，上述文本重构模块56还用于：如果查找到的文本重构格式为一个，则将文本重构格式作为目标词组合对应的目标文本重构格式；如果查找到的文本重构格式为多个，则计算多个目标词在每个文本重构格式下的得分，将得分最高的文本重构格式作为目标词组合对应的目标文本重构格式。

进一步的，上述文本重构模块56还用于：通过下式计算多个目标词在文本重构格式下的得分：

score＝a/d*10⁶+b/c*10⁵+d*10³+e*10+f；

进一步的，上述文本重构格式中包括关键词和属性标识的排列组合；上述文本重构模块56还用于：利用目标文本重构格式中的属性标识对应的目标词，替换目标文本重构格式中的属性标识，得到目标词与关键词的排列组合结果。

进一步的，上述语句转换模块58还用于：通过预先训练好的语句转换模型将目标查询语句转换为数据库执行语言。

本申请实施例提供的自然语言查询语句的处理装置，其实现原理及产生的技术效果和前述自然语言查询语句的处理方法实施例相同，为简要描述，自然语言查询语句的处理装置的实施例部分未提及之处，可参考前述自然语言查询语句的处理方法实施例中相应内容。

本申请实施例还提供了一种电子设备，如图6所示，为该电子设备的结构示意图，其中，该电子设备包括处理器61和存储器60，该存储器60存储有能够被该处理器61执行的计算机可执行指令，该处理器61执行该计算机可执行指令以实现上述方法。

在图6示出的实施方式中，该电子设备还包括总线62和通信接口63，其中，处理器61、通信接口63和存储器60通过总线62连接。

其中，存储器60可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线62可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线62可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

处理器61可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessor，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器61读取存储器中的信息，结合其硬件完成前述实施例的方法的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令在被处理器调用和执行时，该计算机可执行指令促使处理器实现上述方法，具体实现可参见前述方法实施例，在此不再赘述。

本申请实施例所提供的自然语言查询语句的处理方法、装置和电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种自然语言查询语句的处理方法，其特征在于，所述方法应用于服务器，所述服务器中存储有预设数据表、预设关键词表和多个文本重构规则；所述方法包括：

获取用户的自然语言查询语句；

根据所述预设数据表和所述预设关键词表，对所述自然语言查询语句进行目标词提取及标识标注，得到目标词组合；所述目标词组合包括：多个目标词及每个所述目标词对应的属性标识和位置标识；所述属性标识用于表征目标词的词类型；所述位置标识用于表征目标词在所述自然语言查询语句中的位置；

根据多个所述目标词分别对应的属性标识和位置标识，利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构，得到目标查询语句；

将所述目标查询语句转换为数据库执行语言，以便进行信息查询。

2.根据权利要求1所述的方法，其特征在于，根据所述预设数据表和所述预设关键词表，对所述自然语言查询语句进行目标词提取和标识标注，得到目标词组合的步骤，包括：

对所述自然语言查询语句进行预处理，得到多个目标分词；

如果多个所述目标分词中存在阿拉伯数字，将所述阿拉伯数字作为一个目标词；

从所述预设数据表和所述预设关键词表中，查找与多个所述目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词；

为每个所述目标词标注对应的属性标识和位置标识，得到目标词组合。

3.根据权利要求2所述的方法，其特征在于，对所述自然语言查询语句进行预处理，得到多个目标分词的步骤，包括：

对所述自然语言查询语句进行分词处理，得到多个分词；

对多个所述分词进行预设处理，得到多个目标分词；所述预设处理包括以下至少一项：特殊词替换、停用词剔除和中文数字转换；

其中，所述特殊词替换用于将所述分词替换为系统可识别的目标分词；所述停用词剔除用于删除无意义的分词；所述中文数字转换用于将中文数字转换为阿拉伯数字。

4.根据权利要求2所述的方法，其特征在于，所述预设数据表包括列名和列中值；

从所述预设数据表和所述预设关键词表中，查找与多个所述目标分词分别匹配的关键词、列名和/或列中值，将匹配到的词作为目标词的步骤，包括：

将每个所述目标分词作为当前分词，均执行以下步骤：

通过模糊搜索，从所述预设数据表和所述关键词表中查找与所述当前分词模糊匹配的列名、列中值和/或关键词；

计算所述当前分词和其模糊匹配的列名、列中值和/或关键词的相似度，将最大相似度对应的列名、列中值和/或关键词，确定为目标词。

5.根据权利要求2所述的方法，其特征在于，每个列名对应有列类型标识；

为每个所述目标词标注对应的属性标识的步骤，包括：

如果所述目标词为关键词，为所述目标词标注关键词标识；

如果所述目标词为列名或列中值，为所述目标词标注相应的列类型标识；

如果所述目标词为阿拉伯数字，为所述目标词标注相应的数字相关标识；所述数字相关标识包括以下至少之一：数字标识、日期标识、时间长度标识、排名标识、页码标识和分组标识。

6.根据权利要求1所述的方法，其特征在于，每个所述文本重构规则包括：基于关键词的至少一个文本重构格式；

根据多个所述目标词分别对应的属性标识和位置标识，利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构，得到目标查询语句的步骤，包括：

根据多个所述目标词对应的属性标识，从多个所述文本重构规则中查找所述目标词组合对应的目标文本重构格式；

根据所述目标文本重构格式和多个所述目标词，进行文本补全；

根据多个所述目标词对应的位置标识，将文本补全后的多个词进行排序，确定目标查询语句。

7.根据权利要求6所述的方法，其特征在于，根据多个所述目标词对应的属性标识，从多个所述文本重构规则中查找所述目标词组合对应的目标文本重构格式的步骤，包括：

以属性标识为关键词标识的目标词为索引，从基于关键词的多个文本重构格式中查找对应的文本重构格式；

基于查找到的文本重构格式，确定所述目标词组合对应的目标文本重构格式。

8.根据权利要求7所述的方法，其特征在于，基于查找到的文本重构格式，确定所述目标词组合对应的目标文本重构格式的步骤，包括：

如果查找到的文本重构格式为一个，则将所述文本重构格式作为所述目标词组合对应的目标文本重构格式；

如果查找到的文本重构格式为多个，则计算多个所述目标词在每个文本重构格式下的得分，将得分最高的文本重构格式作为所述目标词组合对应的目标文本重构格式。

9.根据权利要求8所述的方法，其特征在于，计算多个所述目标词在每个文本重构格式下的得分的步骤，包括：

通过下式计算多个目标词在文本重构格式下的得分：

score＝a/d*10⁶+b/c*10⁵+d*10³+e*10+f；

10.根据权利要求6所述的方法，其特征在于，所述文本重构格式中包括关键词和属性标识的排列组合；

根据所述目标文本重构格式和多个所述目标词，进行文本补全的步骤，包括：

利用所述目标文本重构格式中的属性标识对应的目标词，替换所述目标文本重构格式中的属性标识，得到目标词与关键词的排列组合结果。

11.根据权利要求1所述的方法，其特征在于，所述预设关键词表的类型包括以下中的多项：筛选关键词、排序关键词、数值计算关键词、日期关键词、时间关键词、字符串关键词、增长关键词、分组关键词、vs关键词、地理空间关键词、逻辑计算关键词、页码关键词。

12.根据权利要求1所述方法，其特征在于，将所述目标查询语句转换为数据库执行语言的步骤，包括：

通过预先训练好的语句转换模型将所述目标查询语句转换为数据库执行语言。

13.一种自然语言查询语句的处理装置，其特征在于，所述装置应用于服务器，所述服务器中存储有预设数据表、预设关键词表和多个文本重构规则；所述装置包括：

语句获取模块，用于获取用户的自然语言查询语句；

词提取标注模块，用于根据所述预设数据表和所述预设关键词表，对所述自然语言查询语句进行目标词提取及标识标注，得到目标词组合；所述目标词组合包括：多个目标词及每个所述目标词对应的属性标识和位置标识；所述属性标识用于表征目标词的词类型；所述位置标识用于表征目标词在所述自然语言查询语句中的位置；

文本重构模块，用于根据多个所述目标词分别对应的属性标识和位置标识，利用所述目标词组合对应的目标文本重构规则对多个所述目标词进行文本重构，得到目标查询语句；

语句转换模块，用于将所述目标查询语句转换为数据库执行语言，以便进行信息查询。

14.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机可执行指令，所述处理器执行所述计算机可执行指令以实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，计算机可执行指令促使处理器实现权利要求1至12任一项所述的方法。