CN114048312A

CN114048312A - 一种自然语言查询任务的模型输入信息处理方法及装置

Info

Publication number: CN114048312A
Application number: CN202111319866.5A
Authority: CN
Inventors: 不公告发明人
Original assignee: PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER
Current assignee: PEOPLE'S BANK OF CHINA NATIONAL CLEARING CENTER
Priority date: 2021-11-09
Filing date: 2021-11-09
Publication date: 2022-02-15
Anticipated expiration: 2041-11-09
Also published as: CN114048312B

Abstract

本发明提供一种自然语言查询任务的模型输入信息处理方法及装置，所述方法包括：对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。所述装置用于执行上述方法。本发明实施例提供的自然语言查询任务的模型输入信息处理方法及装置，提高了自然语言问题处理的可靠性。

Description

一种自然语言查询任务的模型输入信息处理方法及装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种自然语言查询任务的模型输入信息处理方法及装置。

背景技术

自然语言查询任务是自然语言处理中语义解析领域的一个重要方向，主要方法是将自然语言问题和相关数据库模式信息作为模型的输入，获得对应的结构化查询语言(Structured Query Language，简称SQL)查询语句，再通过SQL查询语句查询获得自然语言问题的答案。

为了获得自然语言问题的相关数据库模式，需要使用自然语言问题查询数据库表，将自然语言问题转换为SQL查询语句的查询输入，通常是从数据库表中识别出自然语言问题所涉及的表名和字段名，与自然语言问题一并转换为SQL查询语言的查询输入。但是，由于数据库表的数量很多，并且每个数据库表又包括很多的字段，通常获得的SQL查询语句的查询输入超出了SQL语句查询模型所允许的长度，导致无法进行SQL查询语句的查询。

发明内容

针对现有技术中的问题，本发明实施例提供一种自然语言查询任务的模型输入信息处理方法及装置，能够至少部分地解决现有技术中存在的问题。

一方面，本发明提出一种自然语言查询任务的模型输入信息处理方法，包括：

对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；

根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；

将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

另一方面，本发明提供一种自然语言查询任务的模型输入信息处理装置，包括：

第一分类单元，用于对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；

第二分类单元，用于根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；

获得单元，用于将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

再一方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一实施例所述自然语言查询任务的模型输入信息处理方法的步骤。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一实施例所述自然语言查询任务的模型输入信息处理方法的步骤。

本发明实施例提供的自然语言查询任务的模型输入信息处理方法及装置，能够对自然语言问题进行一级分类，获得一级分类结果，根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息，能够识别出自然语言问题相关的数据库表和字段，减少了自然语言查询任务的模型输入信息，提高了自然语言问题处理的可靠性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明第一实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图。

图2是本发明第二实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图。

图3是本发明第三实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图。

图4是本发明第四实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图。

图5是本发明第五实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图。

图6是本发明第六实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图。

图7是本发明第七实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图。

图8是本发明第八实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图。

图9是本发明第九实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图。

图10是本发明第十实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

下面以服务器作为执行主体为例，来说明本发明实施例提供的自然语言查询任务的模型输入信息处理方法的实现过程。

图1是本发明第一实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图，如图1所示，本发明实施例提供的自然语言查询任务的模型输入信息处理方法，包括：

S101、对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；

具体地，服务器可以对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表。其中，所述第一数据库表是从数据库中的多个数据库表中获得的与所述自然语言问题相关的数据库表。所述数据库是预设的，存储有多个数据库表。

例如，客户可以通过客户端输入自然语言问题，所述客户端将所述自然语言问题发送给所述服务器，所述服务器对接收到的自然语言问题进行一级分类。

S102、根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；

具体地，所述服务器在获得所述一级分类结果之后，可以根据所述一级分类结果中每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果。所述二级分类结果包括少一个所述第一数据库表的保留字段，所述保留字段是与所述自然语言问题相关的字段。

S103、将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

具体地，所述服务器获取每个保留字段以及每个保留字段所属的第一数据库表，所述保留字段所属的第一数据库表即为具有保留字段的第一数据库表。所述服务器将所述自然语言问题，具有保留字段的每个第一数据库表，以及具有保留字段的每个第一数据库表对应的保留字段作为所述自然语言问题对应的模型输入信息。

本发明实施例提供的自然语言查询任务的模型输入信息处理方法，能够对自然语言问题进行一级分类，获得一级分类结果，根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息，能够识别出自然语言问题相关的数据库表和字段，减少了自然语言查询任务的模型输入信息，提高了自然语言问题处理的可靠性。

图2是本发明第二实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图，如图2所示，在上述各实施例的基础上，进一步地，所述对自然语言问题进行一级分类，获得一级分类结果包括：

S201、根据所述自然语言问题和分类模型，获得所述自然语言问题与数据库中每个数据库表的关系得分；其中，所述分类模型是预先训练获得的；

具体地，所述服务器将所述自然语言问题输入到分类模型中，经过所述分类模型的处理可以输出所述自然语言问题与数据库中每个数据库表的关系得分，关系得分越高表明所述自然语言问题与关系得分对应的数据库表的相关性越高。其中，所述分类模型是预先训练获得的。

例如，训练分类模型的过程包括：构造分类训练数据，分类训练数据包括预设数量的自然语言问题以及每个自然语言问题对应的数据库表名称，分类训练数据中的所有自然语言问题对应的数据库表名称所对应的数据库表构成了所述数据库。根据所述分类训练数据和基于BERT的神经网络模型，进行模型训练，可以训练获得所述分类模型，训练获得的分类模型可以对输入的自然语言问题与数据库中的每个数据库表名称进行打分，获得自然语言问题与每个数据库表的关系得分。其中，数据库表与数据库表名称一一对应。所述预设数量根据实际需要进行设置，本发明实施例不做限定。

S202、若判断获知所述自然语言问题与所述数据库表的关系得分大于第一阈值，则将所述数据库表作为所述第一数据库表。

具体地，对于所述自然语言问题与每个数据库表的关系得分，所述服务器将所述自然语言问题与所述数据库表的关系得分与第一阈值进行比较，如果上述关系得分大于所述第一阈值，那么将上述关系得分对应的数据库表作为所述第一数据库表。如果上述关系得分小于等于所述第一阈值，那么不会将对应的数据库表作为所述第一数据库表。

图3是本发明第三实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图，如图3所示，在上述各实施例的基础上，进一步地，所述根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果包括：

S301、根据所述第一数据库表包括的字段以及字段映射知识库，获得所述第一数据库表中每个字段对应的文字块；

具体地，所述服务器可以获取所述第一数据库表中的每个字段，然后根据所述第一数据库表中的每个字段在字段映射知识库查询每个字段对应的文字块。其中，所述字段映射知识库是预设的，存储各个字段对应的文字块。所述文字块是有意义的词或词组，比如为公司的全称、地名的全称、人名的全称等，根据实际需要进行设置，本发明实施例不做限定。

S302、对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体；

具体地，所述服务器可以通过命名实体识别(Named Entity Recognition，简称NER)方法对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体，所述自然语言问题对应的命名实体中可以包括一个命名实体，也可以包括两个或两个以上的命名实体。

例如，可以训练命名实体提取模型，构建命名实体训练数据，命名实体训练数据可以包括设定数量的自然语言问题以及每个自然语言问题对应的命名实体，根据上述命名实体训练数据和初始模型，进行模型训练，可以训练获得命名实体提取模型，命名实体模型用于从自然语言问题中提取出自然语言问题对应的命名实体。将自然语言问题作为命名实体提取模型的输入，经过命名实体提取模型的处理，可以输出自然语言问题对应的命名实体。其中，所述设定数量根据实际需要进行设置，本发明实施例不做限定。所述初始模型可以采用神经网络模型，根据实际需要进行选择，本发明实施例不做限定。

S303、计算所述第一数据库表中每个字段对应的文字块与所述自然语言问题对应的每个命名实体的余弦相似度得分；

具体地，所述服务器可以通过word2vec方法计算第一数据库表中每个字段对应的文字块与所述自然语言问题对应的每个命名实体的余弦相似度得分，余弦相似度得用于确定文字块和命名实体之间的相似性。

例如，通过word2vec方法将第一数据库表中每个字段对应的文字块和所述自然语言问题对应的每个命名实体转化为各自对应的词嵌入，计算每个文字块的词嵌入与每个命名实体的词嵌入之间的余弦相似度得分作为每个字段对应的文字块与每个命名实体的余弦相似度得分。

S304、获取余弦相似度得分大于第二阈值的余弦相似度得分所对应的字段作为所述第一数据库表的保留字段。

具体地，所述服务器会计算获得的每个余弦相似度得分与第二阈值进行比较，如果所述余弦相似度得分大于所述第二阈值，那么将该余弦相似度得分对应的字段作为所述第一数据库表的保留字段。如果所述余弦相似度得分小于等于所述第二阈值，那么不会将该余弦相似度得分对应的字段作为所述第一数据库表的保留字段。余弦相似度得分对应的字段，即余弦相似度得分对应的文字块所对应的字段。

下面以一个具体的实施例，来说本发明实施例提供的自然语言查询任务的模型输入信息处理方法具体实现过程。

所述服务器接收到自然语言问题：what are the name and results of thebattles that is leaded by‘Boril’，然后将上述自然语言问题输入到分类模型中，获得上述自然语言问题与数据库表battle的关系得分a，上述自然语言问题与数据库表ship的关系得分b，上述自然语言问题与数据库表death的关系得分c。所述服务器将关系得分a、关系得分b和关系得分c分别与所述第一阈值进行比较，关系得分a大于所述第一阈值，关系得分b和关系得分c都小于所述第一阈值，那么上述自然语言问题的一级分类结果包括数据库表battle。

所述服务器从数据库表battle中可以获得Id、name、date、Bulgarian_commander、latin_commander和result这六个字段，通过预设的字段映射知识库，可以获得上述六个字段各自对应的文字块。所述服务器对上述自然语言问题what are the name and resultsof the battles that is leaded by‘Boril’进行命名实体提取，可以获得name、results和‘Boril’三个命名实体。所述服务器可以通过word2vec方法计算出上述六个字段中每个字段对应的文字块与上述三个命名实体中每个命名实体的余弦相似度，然后将每个余弦相似度与第二阈值进行比较，将余弦相似度得分大于第二阈值的余弦相似度得分所对应的字段作为数据库表battle的保留字段，最终得到数据库表battle的保留字段为name、Bulgarian_commander和result。

在上述各实施例的基础上，进一步地，本发明实施例提供的自然语言查询任务的模型输入信息处理方法还包括：

基于所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果，所述补充分类结果包括至少一个第二数据库表以及对应的保留字段；其中，所述剩余数据库表是数据库中除了所述一级分类结果包括的第一数据库表以外的数据库表；相应地，所述方法还包括：

将所述自然语言问题，具有保留字段的每个第一数据库表以及对应的保留字段，以及具有保留字段的每个第二数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

具体地，所述服务器在获得所述一级分类结果之后，可以将所述数据库中除了所述一级分类结果包括的第一数据库表以外的数据库表作为剩余数据库表。所述服务器根据所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果，所述补充分类结果包括至少一个第二数据库表以及第二数据库表对应的保留字段。

所述服务器在获得所述补充分类结果之后，所述保留字段所属的第二数据库表即为具有保留字段的第二数据库表。所述服务器可以将所述自然语言问题，具有保留字段的每个第一数据库表以及对应的保留字段，以及具有保留字段的每个第二数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

步骤S101至S103是先确定与自然语言问题相关的数据库表，再筛选出与自然语言问题相关的字段，而本发明实施例中利用剩余数据库表确定与自然语言问题相关的字段，并将上述字段所在的数据库表作为自然语言问题相关的数据库表，进一步提高了自然语言问题处理的可靠性。

图4是本发明第四实施例提供的自然语言查询任务的模型输入信息处理方法的流程示意图，如图4所示，在上述各实施例的基础上，进一步地，所述基于所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果包括：

S401、获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分；

具体地，所述服务器可以获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分。

例如，在步骤S201中能够获得所述自然语言问题与数据库中每个数据库表的关系得分，从中所述服务器可以取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分。

例如，所述服务器将所述自然语言问题输入到分类模型中，经过所述分类模型的处理可以输出所述自然语言问题与数据库中每个数据库表的关系得分，从中获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分。

S402、根据所述剩余数据库表中每个数据库表包括的字段以及字段映射知识库，获得所述剩余数据库表中每个数据库表包括的每个字段对应的文字块；

具体地，所述服务器可以获取所述剩余数据库表中每个数据库表中的字段，然后根据所述剩余数据库表中每个数据库表中的字段中的每个字段在字段映射知识库查询每个字段对应的文字块。其中，所述字段映射知识库是预设的，存储各个字段对应的文字块。本步骤的具体实现过程与步骤S301类似，此处不进行赘述。

S403、对所述自然语言问题进行实体提取，获得所述自然语言问题对应的实体；

具体地，所述服务器可以通过NER方法对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体，所述自然语言问题对应的命名实体中可以包括一个命名实体，也可以包括两个或两个以上的命名实体。其中，本步骤的具体实现过程与步骤S302类似，此处不进行赘述。

S404、计算所述剩余数据库表中每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分；

具体地，所述服务器可以通过word2vec方法所述剩余数据库表中每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，余弦相似度得用于确定文字块和命名实体之间的相似性。其中，本步骤的具体实现过程与步骤S303类似，此处不进行赘述。

S405、根据所述剩余数据库表中每个数据库表与所述自然语言问题的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分；

具体地，所述服务器在获得所述剩余数据库表中每个数据库表与所述自然语言问题的关系得分e以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分f，可以根据关系得分e和余弦相似度得分f计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分。

S406、获取相关度得分大于第三阈值的相关度得分所对应的字段作为所述第二数据库表的保留字段。

具体地，所述服务器将所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分与第三阈值进行比较，可以获得相关度得分大于所述第三阈值的相关度得分所对应的字段，将相关度得分大于第三阈值的相关度得分所对应的字段作为所述第二数据库表的保留字段。其中，所述第三阈值根据实际需要进行设置，本发明实施例不做限定。

在上述各实施例的基础上，进一步地，所述根据所述剩余数据库表中每个数据库表的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分包括：

根据公式w＝αc+βm计算字段对应的相关度得分w，m表示字段对应的文字块与所述自然语言问题对应的一个实体的余弦相似度得分，c表示字段所属的数据库表与所述自然语言问题的关系得分，α和β为权重。

具体地，对于所述剩余数据库表中每个数据库表中的每个字段，所述服务器可以将字段对应的文字块与所述自然语言问题对应的一个实体的余弦相似度得分m，字段所属的数据库表与所述自然语言问题的关系得分c带入到公式w＝αc+βm中，能够计算获得字段对应的相关度得分w，α为余弦相似度对应的权重，β为关系得分对应的权重，α和β相加等于1，α和β根据实际需要进行设置，本发明实施例不做限定。

在上述各实施例的基础上，进一步地，所述将具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息包括：

若判断获知所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段的总长度小于等于长度阈值，则将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

具体地，由于自然语言查询任务的模型的输入在实际应用中是有长度限制的，所述服务器可以统计获得的所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段的总长度，然后将上述总长度与长度阈值进行比较，如果上述总长度小于等于长度阈值，那么将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。其中，所述长度阈值根据实际情况进行设置，本发明实施例不做限定。

可理解的是，如果上述总长度大于所述长度阈值，那么可以对具有保留字段的每个第一数据库表以及对应的保留字段进一步进行筛选，以减小上述总长度，比如提高所述第一阈值和/或所述第二阈值，以减少第一数据库表和/或保留字段，使最终获得的所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段的总长度能够满足模型输入的限制。

同理，所述服务器可以统计获得所述自然语言问题，具有保留字段的每个第一数据库表以及对应的保留字段，以及具有保留字段的每个第二数据库表以及对应的保留字段的总长度，然后将上述总长度与所述长度阈值进行比较，如果上述总长度小于等于所述长度阈值，那么将所述自然语言问题，具有保留字段的每个第一数据库表以及对应的保留字段，以及具有保留字段的每个第二数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

如果上述总长度大于所述长度阈值，那么可以具有保留字段的每个第一数据库表以及对应的保留字段，具有保留字段的每个第二数据库表以及对应的保留字段进一步进行筛选，比如提高第一阈值、所述第二阈值和第三阈值中的至少一个，以减少获得的具有保留字段的每个第一数据库表以及对应的保留字段，具有保留字段的每个第二数据库表以及对应的保留字段的文本长度，使最终获得的所述自然语言问题，具有保留字段的每个第一数据库表以及对应的保留字段，以及具有保留字段的每个第二数据库表以及对应的保留字段的总长度能够满足模型输入的限制。

图5是本发明第五实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图，如图5所示，本发明实施例提供的自然语言查询任务的模型输入信息处理装置包括第一分类单元501、第二分类单元502和获得单元503，其中：

第一分类单元501用于对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；第二分类单元502用于根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；获得单元503用于将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

具体地，第一分类单元501可以对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表。其中，所述第一数据库表是从数据库中的多个数据库表中获得的与所述自然语言问题相关的数据库表。所述数据库是预设的，存储有多个数据库表。

在获得所述一级分类结果之后，第二分类单元502可以根据所述一级分类结果中每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果。所述二级分类结果包括少一个所述第一数据库表的保留字段，所述保留字段是与所述自然语言问题相关的字段。

获得单元503获取每个保留字段以及每个保留字段所属的第一数据库表，所述保留字段所属的第一数据库表即为具有保留字段的第一数据库表。所述服务器将所述自然语言问题，具有保留字段的每个第一数据库表，以及具有保留字段的每个第一数据库表对应的保留字段作为所述自然语言问题对应的模型输入信息。

本发明实施例提供的自然语言查询任务的模型输入信息处理装置，能够对自然语言问题进行一级分类，获得一级分类结果，根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息，能够识别出自然语言问题相关的数据库表和字段，减少了自然语言查询任务的模型输入信息，提高了自然语言问题处理的可靠性。

图6是本发明第六实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图，如图6所示，在上述各实施例的基础上，进一步地，本发明实施例提供的自然语言查询任务的模型输入信息处理装置还包括补充分类单元504，其中：

补充分类单元504用于基于所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果，所述补充分类结果包括至少一个第二数据库表以及对应的保留字段；其中，所述剩余数据库表是数据库中除了所述一级分类结果包括的第一数据库表以外的数据库表；相应地，获得单元503还用于：

图7是本发明第七实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图，如图7所示，在上述各实施例的基础上，进一步地，补充分类单元504包括获取子单元5041、第一获得子单元5042、第一提取子单元5043、第一计算子单元5044、第二计算子单元5045和第一比较子单元5046，其中：

获取子单元5041用于获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分；第一获得子单元5042用于根据所述剩余数据库表中每个数据库表包括的字段以及字段映射知识库，获得所述剩余数据库表中每个数据库表包括的每个字段对应的文字块；第一提取子单元5043用于对所述自然语言问题进行实体提取，获得所述自然语言问题对应的实体；第一计算子单元5044用于计算所述剩余数据库表中每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分；第二计算子单元5045用于根据所述剩余数据库表中每个数据库表与所述自然语言问题的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分；第一比较子单元5046用于获取相关度得分大于第三阈值的相关度得分所对应的字段作为所述第二数据库表的保留字段。

在上述各实施例的基础上，进一步地，第二计算子单元5045具体用于：

图8是本发明第八实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图，如图8所示，在上述各实施例的基础上，进一步地，第一分类单元501包括第二获得子单元5011和判断子单元5012，其中：

第二获得子单元5011用于根据所述自然语言问题和分类模型，获得所述自然语言问题与数据库中每个数据库表的关系得分；其中，所述分类模型是预先训练获得的；判断子单元5012用于在判断获知所述自然语言问题与所述数据库表的关系得分大于第一阈值之后，将所述数据库表作为所述第一数据库表。

图9是本发明第九实施例提供的自然语言查询任务的模型输入信息处理装置的结构示意图，如图9所示，在上述各实施例的基础上，进一步地，第二分类单元502包括第三获得子单元5021、第二提取子单元5022、第三计算子单元5023和第二比较子单元5024，其中：

第三获得子单元5021用于根据所述第一数据库表包括的字段以及字段映射知识库，获得所述第一数据库表中每个字段对应的文字块；第二提取子单元5022用于对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体；第三计算子单元5023用于计算所述第一数据库表中每个字段对应的文字块与所述自然语言问题对应的每个命名实体的余弦相似度得分；第二比较子单元5024用于获取余弦相似度得分大于第二阈值的余弦相似度得分所对应的字段作为所述第一数据库表的保留字段。

在上述各实施例的基础上，进一步地，获得单元503具体用于：

本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图10是本发明第十实施例提供的电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1001、通信接口(Communications Interface)1002、存储器(memory)1003和通信总线1004，其中，处理器1001，通信接口1002，存储器1003通过通信总线1004完成相互间的通信。处理器1001可以调用存储器1003中的逻辑指令，以执行如下方法：对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

此外，上述的存储器1003中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

本实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述各方法实施例所提供的方法，例如包括：对自然语言问题进行一级分类，获得一级分类结果，所述一级分类结果包括至少一个第一数据库表；根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果，所述二级分类结果包括至少一个所述第一数据库表的保留字段；将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在本说明书的描述中，参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言查询任务的模型输入信息处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果包括：

获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分；

根据所述剩余数据库表中每个数据库表包括的字段以及字段映射知识库，获得所述剩余数据库表中每个数据库表包括的每个字段对应的文字块；

对所述自然语言问题进行实体提取，获得所述自然语言问题对应的实体；

计算所述剩余数据库表中每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分；

根据所述剩余数据库表中每个数据库表与所述自然语言问题的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分；

获取相关度得分大于第三阈值的相关度得分所对应的字段作为所述第二数据库表的保留字段。

4.根据权利要求3所述的方法，其特征在于，所述根据所述剩余数据库表中每个数据库表的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分包括：

5.根据权利要求1所述的方法，其特征在于，所述对自然语言问题进行一级分类，获得一级分类结果包括：

根据所述自然语言问题和分类模型，获得所述自然语言问题与数据库中每个数据库表的关系得分；其中，所述分类模型是预先训练获得的；

若判断获知所述自然语言问题与所述数据库表的关系得分大于第一阈值，则将所述数据库表作为所述第一数据库表。

6.根据权利要求1所述的方法，其特征在于，所述根据每个第一数据库表包括的字段对所述自然语言问题进行二级分类，获得二级分类结果包括：

根据所述第一数据库表包括的字段以及字段映射知识库，获得所述第一数据库表中每个字段对应的文字块；

对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体；

计算所述第一数据库表中每个字段对应的文字块与所述自然语言问题对应的每个命名实体的余弦相似度得分；

获取余弦相似度得分大于第二阈值的余弦相似度得分所对应的字段作为所述第一数据库表的保留字段。

7.根据权利要求1至6任一项所述的方法，其特征在于，将所述自然语言问题、具有保留字段的每个第一数据库表以及对应的保留字段作为所述自然语言问题对应的模型输入信息包括：

8.一种自然语言查询任务的模型输入信息处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，还包括：

补充分类单元，用于基于所述自然语言问题、剩余数据库表以及所述剩余数据库表中的字段，获得补充分类结果，所述补充分类结果包括至少一个第二数据库表以及对应的保留字段；其中，所述剩余数据库表是数据库中除了所述一级分类结果包括的第一数据库表以外的数据库表；相应地，所述获得单元还用于：

10.根据权利要求9所述的装置，其特征在于，所述补充分类单元包括：

获取子单元，用于获取所述自然语言问题与所述剩余数据库表中每个数据库表的关系得分；

第一获得子单元，用于根据所述剩余数据库表中每个数据库表包括的字段以及字段映射知识库，获得所述剩余数据库表中每个数据库表包括的每个字段对应的文字块；

第一提取子单元，用于对所述自然语言问题进行实体提取，获得所述自然语言问题对应的实体；

第一计算子单元，用于计算所述剩余数据库表中每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分；

第二计算子单元，用于根据所述剩余数据库表中每个数据库表与所述自然语言问题的关系得分以及每个数据库表包括的每个字段对应的文字块与所述自然语言问题对应的每个实体的余弦相似度得分，计算获得所述剩余数据库表中每个数据库表包括的每个字段对应的相关度得分；

第一比较子单元，用于获取相关度得分大于第三阈值的相关度得分所对应的字段作为所述第二数据库表的保留字段。

11.根据权利要求10所述的装置，其特征在于，所述第二计算子单元具体用于：

12.根据权利要求8所述的装置，其特征在于，所述第一分类单元包括：

第二获得子单元，用于根据所述自然语言问题和分类模型，获得所述自然语言问题与数据库中每个数据库表的关系得分；其中，所述分类模型是预先训练获得的；

判断子单元，用于在判断获知所述自然语言问题与所述数据库表的关系得分大于第一阈值之后，将所述数据库表作为所述第一数据库表。

13.根据权利要求8所述的装置，其特征在于，所述第二分类单元包括：

第三获得子单元，用于根据所述第一数据库表包括的字段以及字段映射知识库，获得所述第一数据库表中每个字段对应的文字块；

第二提取子单元，用于对所述自然语言问题进行命名实体提取，获得所述自然语言问题对应的命名实体；

第三计算子单元，用于计算所述第一数据库表中每个字段对应的文字块与所述自然语言问题对应的每个命名实体的余弦相似度得分；

第二比较子单元，用于获取余弦相似度得分大于第二阈值的余弦相似度得分所对应的字段作为所述第一数据库表的保留字段。

14.根据权利要求8至13任一项所述的装置，其特征在于，所述获得单元具体用于：

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。