CN114281957A

CN114281957A - 自然语言数据查询方法、装置、电子设备及存储介质

Info

Publication number: CN114281957A
Application number: CN202111162158.5A
Authority: CN
Inventors: 王泽元; 张倩汶; 闫昭
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-04-05

Abstract

本申请提供了一种自然语言数据查询方法、装置、电子设备及存储介质，应用于云技术、人工智能、智慧交通和车载等各种场景。方法包括：根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合；通过构建目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到每个目标实体对应的映射列值；基于目标实体集合、每个目标实体对应的映射列值与预设数据表中的列名，对自然语言查询文本进行结构化查询语句预测，得到待查询语句；根据待查询语句在预设数据表中进行查询，得到自然语言文本对应的查询结果。通过本申请，能够提高使用自然语言进行数据查询的准确性。

Description

自然语言数据查询方法、装置、电子设备及存储介质

技术领域

本申请涉及人工智能技术，尤其涉及一种自然语言数据查询方法、装置、电子设备及存储介质。

背景技术

自然语言转结构化查询语句(Natural Language to SQL，NL2SQL)是语义解析任务的一种类型，旨在将用户输入的自然语言问题转成可与数据库操作的结构化查询语句(Structured Query Language，SQL)，从而实现通过自然语言完成与数据库的交互，以及获得数据库中的信息。相关技术的NL2SQL方法通常是基于对自然语言的语义识别，通过数据表的列名从自然语言中抽取列值，生成SQL语句。然而NL2SQL技术的应用场景通常在特殊领域，如金融、教育等，在将NL2SQL技术向通用领域如TableQA、DuSQL等进行迁移时，可能会由于在新的领域中的语义识别效果不佳，导致相关技术基于语义识别进行列值抽取的准确性较差，从而降低了根据自然语言生成SQL语句的准确性，进而降低了使用SQL语句进行数据查询的准确性。

发明内容

本申请实施例提供一种自然语言数据查询方法、装置、电子设备及存储介质，能够提高自然语言数据查询的准确性。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种自然语言数据查询方法，包括：

根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合；

通过构建所述目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到所述每个目标实体对应的映射列值；

基于所述目标实体集合、所述每个目标实体对应的映射列值与所述预设数据表中的列名，对所述自然语言查询文本进行结构化查询语句预测，得到待查询语句；

根据所述待查询语句在所述预设数据表中进行查询，得到所述自然语言文本对应的查询结果。

本申请实施例提供一种自然语言数据查询装置，包括：

提取模块，用于根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合；

映射模块，用于通过构建所述目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到所述每个目标实体对应的映射列值；

预测模块，用于基于所述目标实体集合、所述每个目标实体对应的映射列值与所述预设数据表中的列名，对所述自然语言查询文本进行结构化查询语句预测，得到待查询语句；

查询模块，用于根据所述待查询语句在所述预设数据表中进行查询，得到所述自然语言文本对应的查询结果。

上述装置中，所述预设实体资源包括：预设实体库与预设实体识别模型中的至少之一；所述预设实体识别模型为利用所述预设目标领域中的实体数据训练得到的网络模型；所述提取模块，还用于将所述预设实体库中的实体在所述自然语言查询文本中进行匹配，在所述自然语言查询文本中存在所述实体的情况下，将所述实体作为目标实体，从而得到目标实体集合；和/或，通过所述预设实体识别模型，对所述自然语言查询文本进行实体识别与提取，得到所述目标实体集合。

上述装置中，所述映射模块，还用于对于从所述预设实体库中得到的目标实体，根据预设的实体与列值之间的对应关系，得到所述每个目标实体对应的映射列值；所述预设的实体与列值之间的对应关系为预先构建的所述预设实体库中的每个实体与所述预设数据表中列值的对应关系；

对于根据所述预设实体识别模型得到的目标实体，计算所述每个目标实体与所述预设数据表中的每个列值之间的第一相似度，并基于所述第一相似度得到所述每个目标实体对应的映射列值。

上述装置中，所述预测模块，还用于通过对所述自然语言查询文本与所述每个目标实体进行语义编解码处理，得到所述自然语言查询文本对应的语句向量表示，以及所述每个目标实体的实体向量表示；从所述预设数据表的每列数据中选取目标列值，并对所述每列数据的列名与所述目标列值分别进行语义编解码处理，得到列名向量表示与目标列值向量表示；结合所述列名向量表示与所述目标列值向量表示，得到所述每列数据的列向量表示；根据所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值对所述自然语言查询文本进行结构化查询语句预测，得到所述待查询语句。

上述装置中，所述预测模块，还用于基于所述语句向量表示与所述每列数据的列向量表示，进行所述结构化查询语句预测中的查询字段预测，得到查询字段预测结果；基于所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值，进行所述结构化查询语句预测中的条件字段预测，得到条件字段预测结果；结合所述查询字段预测结果与所述条件字段预测结果，得到所述待查询语句。

上述装置中，所述预测模块，还用于对所述语句向量表示进行至少一种预设查询数量的分类预测，得到所述语句向量表示对应于每种预设查询数量的第一概率；将最高的第一概率对应的预设查询数量，作为所述结构化查询语句对应的查询字段数量；根据所述列向量表示，对所述预设数据表中的每列数据进行查询目标预测，得到所述每列数据为查询目标的第二概率；根据所述第二概率从高到低的次序，从所述每列数据中选取前查询字段数量个列数据作为目标列数据，并将目标列数据的列名作为目标查询字段，得到目标查询字段集合；基于所述目标查询字段集合，得到所述查询字段预测结果。

上述装置中，所述预测模块，还用于对所述目标查询字段集合中每个目标查询字段对应的列向量表示进行至少一种预设聚合函数的分类预测，得到所述每个目标查询字段对应于每种预设聚合函数的第三概率；将最高的第三概率对应的预设聚合函数，作为所述每个目标查询字段对应的目标聚合函数；根据所述每个目标查询字段对应的目标聚合函数，对所述每个目标查询字段进行结合，得到所述查询字段预测结果。

上述装置中，所述预测模块，还用于对所述语句向量表示进行至少一种预设条件数量的分类预测，得到所述语句向量表示对应于每种预设条件数量的第四概率；将最高的第四概率对应的预设条件数量，作为所述待查询语句对应的条件字段数量；根据所述条件字段数量，从通过对所述每个目标实体的实体向量表示与所述列向量表示进行匹配得到的对应关系中，得到目标实体与列数据的匹配关系；根据所述每个目标实体对应的映射列值，对所述匹配关系中的目标实体进行更新，得到列数据与映射列值的条件匹配关系；针对所述条件匹配关系，进行至少一种预设条件操作符预测，得到条件匹配关系对应的目标条件操作符；基于所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

上述装置中，所述预测模块，还用于将所述每列数据的列向量表示与所述每个目标实体的实体向量表示进行相似度计算，得到所述每列数据与所述每个目标实体之间的第二相似度；对于所述每个目标实体，将最大第二相似度对应的列数据，作为所述每个目标实体对应的列数据，得到所述每个目标实体与列数据的对应关系；从所述每个目标实体与列数据的对应关系中，选取出第二相似度高的前条件字段数量个对应关系，作为所述目标实体与列数据的匹配关系。

上述装置中，所述预测模块，还用于基于所述语句向量表示，对所述条件匹配关系进行连接关系预测，得到条件匹配关系之间的连接关系；结合所述连接关系、所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的自然语言数据查询方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的自然语言数据查询方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时，实现本申请实施例提供的自然语言数据查询方法。

本申请实施例具有以下有益效果：

通过预设目标领域的预设实体资源进行目标实体的提取，能利用与领域强相关的预设实体资源，极大提高从自然语言中提取到的目标实体准确性；并且，通过建立目标实体与所要查询的预设数据表中的列值的映射关系，得到映射列值集合，结合映射列值集合进行待查询语句的生成，可以利用预设数据表的列值信息对待查询语句中的列值信息进行有效的修正，从而提高预测得到的待查询语句的准确性，进而根据待查询语句进行自然语言数据查询的准确性。

附图说明

图1是目前相关技术的自然语言数据查询方法的流程示意图；

图2是本申请实施例提供的自然语言数据查询系统架构的一个可选的结构示意图；

图3是本申请实施例提供的自然语言数据查询装置的一个可选的结构示意图；

图4是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图；

图5是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图；

图6是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图；

图7是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图；

图8是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图；

图9是本申请实施例提供的自然语言数据查询方法中结构化查询语言预测过程的一个可选的模块流程示意图；

图10是本申请实施例提供的自然语言数据查询方法应用于实际场景的智能分析助手的一种应用过程示意图；

图11是本申请实施例提供的智能分析助手的自然语言处理与智能分析的过程的一种模块化流程示意图；

图12是本申请实施例提供的一种查询结果展示形式的效果示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence,AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境，获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。也就是说，人工智能是计算机科学的一个综合技术，用于获取智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。另外，人工智能还用于研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。此外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言数据查询技术以及机器学习(Machine Learning，ML)/深度学习等几大方向。

2)自然语言处理(Nature Language processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向；是指研究能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法。因此，自然语言数据查询是一门融语言学、计算机科学和数学于一体的科学；从而，自然语言数据查询领域的研究将涉及自然语言，即人们日常使用的语言，所以自然语言数据查询与语言学的研究有着密切的联系。自然语言数据查询技术通常包括机器阅读理解(Machine Reading Comprehension，MRC)、文本处理、语义理解、机器翻译、机器人问答和知识图谱等技术。

3)机器学习，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科；用于研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，机器学习的应用遍及人工智能的各个领域，机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习和式教学习等技术。

4)实体识别(Named Entity Recognition，NER)，也称为命名实体识别、实体分块和实体提取，用于将文本中的命名实体定位并分类为预先定义的类别，如人员、组织、位置、时间表达式、数量、货币值、百分比等；通常，命名实体识别的任务是识别出待处理文本中三大类(实体类、时间类和数字类)和七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在本申请实施例中，通过命名实体识别，获取预设实体类型的实体，比如，人名和地名类型的实体。

5)双向编码器表示的转换模型(Bidirectional Encoder Representations fromTransformers，BERT)：用于NLP的预训练技术。BERT模型的目标是利用大规模无标注语料训练、获得文本的包含丰富语义信息的语义表示(representation)，然后将文本的语义表示在特定NLP任务中作微调，最终应用于该NLP任务。

6)领域适应性：指神经网络模型在不同应用领域，如金融领域、教育领域等的快速适应能力。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明:

目前，如图1所示，相关技术在进行NL2SQL任务时，通常是将SQL语句的预测任务转换成Select和Where两部分预测任务，Select预测任务可以包括Select列选择和Select列对应的聚合函数等；Where预测任务可以包括Where 列选择、自然语言中的列值抽取以及列值与列的关系(OP操作符关系)预测等。相关技术在进行自然语言中的列值抽取过程时，通常是以列名作为索引，从原始的自然语言中抽取实体，这种方式往往无法得到合适的实体边界，在领域迁移情况下尤为明显。此外，通过列名的情况进行完成上述的任务，完全依赖语义结果，模型的正确性很难得到保证。由此可见，目前的NL2SQL技术在应用于领域迁移的场景时，难以提升模型的领域适应能力，从而降低了模型在新领域中进行NL2SQL转换所得到的SQL语句的准确性，进而降低了根据SQL语句进行数据查询的准确性。

本申请实施例提供一种自然语言数据查询方法、装置、电子设备及存储介质，能够提高自然语言数据查询的效率和准确性。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为智能手机、智能手表、笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)、智能语音交互设备、智能家电和车载终端等各种类型的用户终端，也可以实施为服务器。下面，将说明电子设备实施为服务器时示例性应用。

参见图2，图2是本申请实施例提供的自然语言数据查询系统100的一个可选的架构示意图，终端400通过网络300连接服务器200，网络300可以是广域网或者局域网，又或者是二者的组合。

其中，终端400上运行有网页客户端或应用程序410，用于通过网页客户端或应用程序接收用户通过语音或文本输入的自然语言，得到自然语言对应的自然语言查询文本，并将自然语言查询文本发送至服务器200。

服务器200用于根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合；通过构建目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到每个目标实体对应的映射列值；预设数据表可以存储在数据库500中；基于目标实体集合、每个目标实体对应的映射列值与预设数据表中的列名，对自然语言查询文本进行结构化查询语句预测，得到待查询语句；根据待查询语句在预设数据表中进行查询，得到自然语言文本对应的查询结果。进而，服务器200可以将数据查询结果推送给终端400，在终端400的网页客户端或应用程序410中进行显示。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端 400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电和车载终端等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

参见图3，图3是本申请实施例提供的服务器200的结构示意图，图3所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口2 20和用户接口230。服务器200中的各个组件通过总线系统240耦合在一起。可理解，总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统251，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置23 1(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图3 示出了存储在存储器250中的自然语言数据查询装置255，其可以是程序和插件等形式的软件，包括以下软件模块：提取模块2551、映射模块2552、预测模块2553和查询模块2554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。

将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的装置可以采用硬件方式实现，作为示例，本申请实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的自然语言数据查询方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Applicati on Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable GateArray)或其他电子元件。

在一些实施例中，终端或服务器可以通过运行计算机程序来实现本申请实施例提供的自然语言数据查询方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地(Native)应用程序(APP，Application)，即需要在操作系统中安装才能运行的程序，如社交应用APP或者消息分享AP P；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序或者网页客户端程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的自然语言数据查询方法。以及，本申请实施例提供的自然语言数据查询方法可应用于云技术、人工智能、智慧交通和车载等各种场景。

参见图4，图4是本申请实施例提供的自然语言数据查询方法的一个可选的流程示意图，将结合图4示出的步骤进行说明。

S101、根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合。

本申请实施例提供的自然语言数据查询方法可以应用于使用自然语言在预设目标领域的数据库中进行数据查询的场景，示例性地，用户与基于人工智能的电子客服进行人机对话，基于表格的智能问答或对话系统，等等，具体的根据实际情况进行选择，本申请实施例不作限定。

本申请实施例中，预设目标领域为数据查询对应的应用领域，预设目标领域的预设实体资源可以是根据预设目标领域中的相关应用数据构建的实体数据资源。

在一些实施例中，预设实体资源可以包括：预设实体库。示例性地，预设目标领域为多媒体领域，则对应的预设实体库可以是多媒体类型的实体库，其中包含有多个多媒体类型的实体，或者，还可以包含实体对应的别名信息。

本申请实施例中，在预设实体资源为预设实体库的情况下，服务器可以将预设实体库中的每个实体在自然语言查询文本中进行匹配，在自然语言查询文本中存在该实体的情况下，确定匹配成功，并在匹配成功的情况下，将该实体作为目标实体，从而得到目标实体集合。

在一些实施例中，服务器可以预先构建并训练基于实体库的实体匹配抽取模型，进而可以利用实体匹配抽取模型，根据预设实体库中的实体，对自然语言查询文本进行实体匹配，并抽取出匹配成功的实体，得到目标实体集合。

在一些实施例中，预设实体资源可以包括：在预设目标领域中预训练得到的预设实体识别模型。这里，预设实体识别模型是利用预设目标领域的实体数据训练得到的，能够利用学习到的预设目标领域的实体的特征表示或语义表示，从自然语言查询文本中识别出相应的目标实体。

在一些实施例中，上述的实体匹配抽取模型与预设实体识别模型均可以利用序列到序列(Sequence-to-Sequence，Seq2Seq)架构的神经网络来实现。示例性地，对于预设实体识别模型，可以通过构建字符级卷积神经网络(Char-W ord Union ConvolutionalNeural Network，CWCNN)；或者，构建长短期记忆网络(Long Short-Term Memory，LSTM)结合条件随机场(Conditional Rand om Field，CRF)模型，或其他Seq2Seq类型的神经网络模型来实现，具体的根据实际情况进行选择，本申请实施例不作限定。

本申请实施例中，服务器可以利用预设实体库对自然语言查询文本进行实体提取，得到目标实体集合；也可以利用预设实体识别模型对自然语言查询文本进行实体提取，得到目标实体集合，还可以结合预设实体库与预设实体识别模型的提取结果，示例性地，合并预设实体库与预设实体识别模型的提取结果，得到目标实体集合，具体的根据实际情况进行选择，本申请实施例不作限定。

可以理解，由于本申请实施例是利用预设目标领域的预设实体资源对自然语言查询文本进行提取的，相比于相关技术中使用数据表的列名来进行列值的提取，本申请实施例的方法所得到的目标实体集合的领域相关性更强，从而有助于提升领域适应能力，提高产品的适配性。

S102、通过构建目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到每个目标实体对应的映射列值。

本申请实施例中，服务器在得到目标实体集合的情况下，可以通过将自然语言中包含的每个目标实体向预设数据表中包含的列值进行映射，得到每个目标实体在预设数据表中对应的列值，作为每个目标实体对应的映射列值，从而得到目标实体集合对应的映射列值集合，构建出自然语言中的目标实体与预设数据表中的列值之间的映射关系。

在一些实施例中，服务器可以预先构建实体库中的每个实体与预设数据表中列值的对应关系，得到实体库中的每个实体在预设数据表中对应的列值。示例性地，可以通过BM25算法实现，也可以通过其他文本相似性算法实现，具体的根据实际情况进行选择，本申请实施例不作限定。这样，对于目标实体集合中，通过预设实体库提取得到的目标实体，服务器可以根据预设的实体与列值的对应关系，得到每个目标实体对应的映射列值。

在一些实施例中，服务器也可以预先构建并训练得到预设相似度模型，示例性地，预设相似度模型可以是BERT模型或基于文本特征进行判别的分类模型，可用于推理得到目标实体与预设数据表中各个列值的相似度，作为第一相似度。这样，服务器可以基于第一相似度，得到每个目标实体对应的映射列值。示例性地，服务器可以将预设数据表中，与目标实体之间的第一相似度最高的列值作为目标列值；或者，服务器也可以根据预设相似度阈值，将大于或等于预设相似度阈值的列值作为目标实体对应的映射列值；或者，服务器也可以结合最高相似度与预设相似度阈值得到映射列值，具体的根据实际情况进行选择，本申请实施例不做限定。

S103、基于目标实体集合、每个目标实体对应的映射列值与预设数据表中的列名，对自然语言查询文本进行结构化查询语句预测，得到待查询语句。

本申请实施例中，这里，目标实体集合表征从用户的自然语言查询文本中提取得到的，与预设目标领域的预设数据表强相关的待查询信息，服务器可以根据目标实体集合中的每个目标实体，结合每个目标实体对应的映射列值，与预设数据表中的列名进行匹配，以确定待查询信息对应的列名与列值，并且，通过多个分类预测任务，预测出列名之间的查询关系，以及列名与列值之间条件关系，组合多个任务的输出结果构成SQL语句，从而实现对自然语言查询文本的结构化查询语句预测，得到待查询语句。

在一些实施例中，服务器可以对目标实体集合与预设数据表中的列名进行语义特征的提取，如进行语义编解码处理，得到每个目标实体与每个列名的语义表示。示例性地，语义表示可以是向量形式的embedding信息。这样，服务器可以基于每个目标实体与每列列名的语义表示，预测对自然语言查询文本需要针对于预设数据表中的哪些列进行数据查询，示例性地，预测SQL语句中的 Select语句部分，包括预测Select列选择和预测Select列对应的聚合函数等等。服务器也可以基于每个目标实体与每列列名的语义表示，结合每个目标实体对应的映射列值，对自然语言查询文本中包含的查询条件，即列名与列值之间的查询条件，以及各个查询条件之间的关系进行预测。示例性地，进行SQL语句中的Where语句部分预测，可以包括Where列选择、Where条件中列和列值的关系(op关系)，多个Where条件之间的连接关系等预测。服务器可以结合Se lect语句部分预测与Where语句部分预测的预测结果，得到完整的结构化查询语句，作为待查询语句。

示例性地，用户输入的自然语言查询文本可以是“一大附中化学老师的数量”，预设数据表可以是教师数据表，如下方表1所示，列名包括“学校名称”、“年份”、“所属学区”、“性别”、“教学科目”和“教师编号”，如下：

学校名称	年份	所属学区	性别	教学科目	教师编号
						第一大学附属中学	2020	学区A	男	化学	001
第二中学	2019	学区B	男	化学	002
						第三中学	2021	学区B	女	生物	003
第四中学	2020	学区C	女	数学	004
						第五中学	2018	学区A	男	英语	005
第六中学	2020	学区D	女	化学	006

表1

服务器在获取到自然语言查询文本的情况下，可以通过上述S101的过程，从自然语言查询文本中提取出“一大附中”、“化学老师”与“数量”等目标实体，并通过上述S102的过程，得到“一大附中”对应的映射列值“第一大学附属中学”，从而将自然语言中的实体映射为预设数据表中的列值，解决别名问题。并将“第一大学附属中学”、“化学老师”与“数量”等作为提取出的列值，将 SQL语句预测分解成多个任务，通过预先训练得到的至少一种分类预测网络进行结构化查询语句的预测。示例性地，服务器可以通过数量分类预测网络，进行SQL语句中Select字段数量与Where字段数量的预测，得到select数量为1， where数量为2的数量预测结果；并且，通过二分类预测网络，得到表1中各列Select选择的概率依次为[1，0，0，0]，Where选择的概率依次为[0，0.5，0. 5，0]，其中各列Where操作符(op)选择为[None,＝,＝,None]的预测结果；通过多分类预测网络，得到表1中各列对应的Select聚合函数的预测结果为[C ount,None,None,None]，以及Where各个条件字段间的关系为“AND”的预测结果；进而通过拼接多个任务的预测结果，得到最终SQL语句“Select Cou nt(教师id)where学校名称＝第一大学附属中学and教学科目＝化学”，作为待查询语句。

S104、根据待查询语句在预设数据表中进行查询，得到自然语言文本对应的查询结果。

本申请实施例中，服务器可以使用待查询语句在预设数据表中进行查询，得到SQL语句的查询结果，作为自然语言文本对应的查询结果。

可以理解的是，通过预设目标领域的预设实体资源进行目标实体的提取，能利用与领域强相关的预设实体资源，极大提高从自然语言中提取到的目标实体准确性；并且，通过建立目标实体与所要查询的预设数据表中的列值的映射关系，得到映射列值集合，结合映射列值集合进行待查询语句的生成，可以利用预设数据表的列值信息对待查询语句中的列值信息进行有效的修正，从而提高预测得到的待查询语句的准确性，进而根据待查询语句进行自然语言数据查询的准确性。

在一些实施例中，基于图4，参见图5，图4中的S103可以通过S201-S20 4来实现，将结合各步骤进行说明。

S201、通过对自然语言查询文本与每个目标实体进行语义编解码处理，得到自然语言查询文本对应的语句向量表示，以及每个目标实体的实体向量表示。

本申请实施例中，服务器可以对自然语言查询文本进行语义编码与解码处理，得到自然语义查询文本的整体对应的向量形式的语义表示，作为语句向量标识。服务器可以对目标实体集合中每个目标实体进行语义编码与解码处理，得到每个目标实体对应的语义向量表示，作为每个目标实体对应的实体向量表示。

在一些实施例中，服务器可以通过包含编码器与解码器结构的神经网络模型，如Transformer模型，或BERT模型等等，实现对自然语言查询文本与目标实体的语义编解码处理，也可以通过语义编解码的相关算法来实现，具体的根据实际情况进行选择，本申请实施例不作限定。

S202、从预设数据表的每列数据中选取目标列值，并对每列数据的列名与目标列值分别进行语义编解码处理，得到列名向量表示与目标列值向量表示。

本申请实施例中，服务器可以以随机选取的方式，从预设数据表的每列数据中选取目标列值，也可以根据历史查询，选择每列数据中历史查询频率高的列值作为目标列值，或者基于其他选择策略对每列数据进行目标列值的选取，具体的根据实际情况进行选择，本申请实施例不作限定。

本申请实施例中，目标列值的数量可以是一个或多个，具体可依据设备的处理能力、资源占用情况、以及对于时延的限制等因素进行设定，对此本申请实施例不做限制。

本申请实施例中，服务器可以对每列列名与每列数据中对应选中的目标列值分别进行语义编解码处理，得到每个列名对应的列名向量表示，与目标列值对应的目标列值向量表示。

S203、结合列名向量表示与目标列值向量表示，得到预设数据表中每一列数据的列向量表示。

本申请实施例中，服务器可以将结合列名向量表示与目标列值向量表示，从而利用每列数据中的列值，对该列数据的语义表示进行增强，得到预设数据表中每一列数据的列向量表示。

在一些实施例中，服务器可以将列名向量表示与目标列值向量表示的平均值，作为每一列数据的列向量表示。或者，服务器也可以根据预设的权重，对列名向量表示与目标列值向量表示进行加权处理，得到每一列数据的列向量表示，具体的根据实际情况进行选择，本申请实施例不作限定。

S204、根据语句向量表示、每个目标实体的实体向量表示、以及每列数据的列向量表示，结合每个目标实体对应的映射列值对自然语言查询文本进行结构化查询语句预测，得到待查询语句。

本申请实施例中，服务器可以根据上述过程中得到的语句向量表示、每个目标实体的实体向量表示、以及每一列数据的列向量表示，结合每个目标实体对应的映射列值进行多种查询任务预测，从而实现对自然语言查询文本进行结构化查询语句预测，得到待查询语句。

在一些实施例中，S204可以通过S2041-S2043来实现，将结合各步骤进行说明。

S2041、基于语句向量表示与每列数据的列向量表示，进行结构化查询语句预测中的查询字段预测，得到查询字段预测结果。

本申请实施例中，服务器可以基于语句向量表示与每列数据的列向量表示，对自然语言查询文本针对预设数据表中的哪些列数据查询进行预测，即进行结构化查询语句预测中的查询字段预测，得到查询字段预测结果。

在一些实施例中，查询字段预测结果可以是SQL语句中的Select语句部分。

S2042、基于语句向量表示、每个目标实体的实体向量表示、以及每列数据的列向量表示，结合每个目标实体对应的映射列值，进行结构化查询语句预测中的条件字段预测，得到条件字段预测结果。

本申请实施例中，服务器可以基于语句向量表示、每个目标实体的实体向量表示、以及每列数据的列向量表示，结合每个目标实体对应的映射列值，对自然语言查询文本中包含的查询条件，以及各个查询条件之间的关系进行预测，也即进行结构化查询语句预测中的条件字段预测，得到条件字段预测结果。

在一些实施例中，条件字段预测结果可以是SQL语句中的Where语句部分。

S2043、结合查询字段预测结果与条件字段预测结果，得到待查询语句。

本申请实施例中，服务器可以以拼接或连接等方式，将查询字段预测结果与条件字段预测结果进行结合，得到待查询语句。

可以理解的是，通过从每列数据中选取目标列值，结合目标列值与列名的语义表示共同作为列数据的语义表示，可以大大提高列向量表示的准确性，从而提高基于列向量表示进行待查询语句预测的准确性。并且，相较于现有技术中通过列名对列进行表示，本申请实施例中的方法可以极大提高表格的泛化能力，在应用于新的领域，尤其是专业性较强的领域时，能够保证根据列向量表示从自然语言中进行查询字段与条件字段抽取的准确性，提高模型的领域适应能力。并且，结合本申请实施例中在语义编码阶段所加入的预设目标领域的实体信息，能够进一步提高模型的领域迁移能力。

在一些实施例中，如图6所示，上述的S2041可以通过S301-S305来实现，将结合各步骤进行说明。

S301、对语句向量表示进行至少一种预设查询数量的分类预测，得到语句向量表示对应于每种预设查询数量的第一概率。

S302、将最高的第一概率对应的预设查询数量，作为结构化查询语句对应的查询字段数量。

本申请实施例中，服务器对表征自然语音查询文本整体语义表示的语句向量表示进行至少一种预设查询数量的分类预测，以预测自然语音查询文本中包含的查询字段的数量，得到语句向量表示对应于至少一种预设查询数量中每种预设查询数量的概率，作为第一概率；进而，服务器将最高的第一概率对应的预设查询数量，作为结构化查询语句对应的查询字段数量。

在一些实施例中，服务器可以利用数量多分类预测网络进行查询数量的分类预测，这里，数量多分类预测网络对应的至少一种预设查询数量，可以表征多分类网络所能预测的预设类别个数以及最大类别数。示例性地，至少一种预设查询数量可以包括：2、3、5等等可表征SQL语句中Select字段数量的数值。语句向量表示可以是自然语言查询文本通过BERT模型输出的[CLS]位置的emb edding。服务器利用数量多分类预测网络，对[CLS]位置的embedding进行预测，将输出的预测结果中，最大概率的预设查询数量作为SQL语句中Select num部分的预测值，也即查询字段数量。

S303、根据列向量表示，对预设数据表中的每一列数据进行查询目标预测，得到每一列数据为查询目标的第二概率。

本申请实施例中，服务器可以根据结合了列名与目标列值的列向量表示，对预设数据表中的每一列数据是否为自然语言查询文本对应的查询目标进行预测，得到每一列数据为查询目标的概率，作为第二概率。

在一些实施例中，服务器可以利用预先训练的二分类网络，根据列向量表示，预测每列数据被选中为查询目标的概率，即进行二分类预测。在二分类网络的训练阶段，服务器可以获取训练数据表，其中训练数据标的各个列数据中对应有该列被选中为查询目标的标注概率。示例性地，对于，Select部分包含两个列，则训练数据表中对应选中列数据的标注概率分别为0.5和0.5，其他列数据的标注概率为0。服务器可以使用训练数据表，通过KL(Kullback–Leible r divergence)散度或交叉熵损失等损失函数，对初始二分类网络进行模型拟合与模型训练，直至满足预设训练条件的情况下，得到训练完成的二分类网络。

如此，服务器可以利用训练完成的二分类网络，对预设数据表中的每一列数据是否为自然语言查询文本对应的查询目标进行预测，得到每一列数据为查询目标为第二概率。

S304、根据第二概率从高到低的次序，从每一列数据中选取前查询字段数量个列数据作为目标列数据，并将目标列数据的列名作为目标查询字段，得到目标查询字段集合。

在一些实施例中，服务器可以根据Select num的预测值K，选取前K个第二概率最高的列作为Select选择的列。示例性地，在K＝2的情况下，表征Sele ct部分包含两个列，服务器可以从每一列数据对应的第二概率中，选择前2个概率最高的列，将该两列数据对应的列名作为目标查询字段，得到两个目标查询字段。

这里，目标查询字段集合中包含有查询字段数量个目标查询字段。

S305、基于目标查询字段集合，得到查询字段预测结果。

本申请实施例中，服务器可以根据得到的目标查询字段集合，实现对待查询语句中查询字段操作部分的预测，得到查询字段预测结果，如SQL语句中S elect部分的预测结果。

在一些实施例中，在目标查询字段集合的查询字段数量个目标查询字段之间存在聚合关系的情况下，基于图6，如图7所示，S305可以通过S3051-S305 3来实现，将结合各步骤进行说明。

S3051、对目标查询字段集合中每个目标查询字段对应的列向量表示进行至少一种预设聚合函数的分类预测，得到每个目标查询字段对应于每种预设聚合函数的第三概率。

S3052、将最高的第三概率对应的预设聚合函数，作为每个目标查询字段对应的目标聚合函数。

本申请实施例中，服务器可以利用用于对至少一种预设聚合函数进行分类预测的多分类网络，根据目标查询字段对应的列向量表示，预测每个目标查询字段属于每种预设聚合函数的概率，作为每个目标查询字段对应于每种预设聚合函数的第三概率。进而，将最高的第三概率对应的预设聚合函数，作为每个目标查询字段对应的目标聚合函数。

S3053、根据每个目标查询字段对应的目标聚合函数，对每个目标查询字段进行结合，得到查询字段预测结果。

本申请实施例中，服务器可以根据每个目标查询字段对应的目标聚合函数，对查询字段数量个目标查询字段进行组合或拼接，得到查询字段预测结果。示例性地，查询字段预测结果可以是SQL语句中包含的Select语句部分。

在一些实施例中，至少一种预设聚合函数可以包括“”、“AND”、“MAX”、“MIN”、“COUNT”、“SUM”六种类型，服务器可以针对每个目标查询字段对应的列向量表示构建6分类任务，选取六个类别中最大的为当前目标查询字段的聚合函数，并结合Select列的预测结果完成Select部分的完整预测。

在一些实施例中，如图8所示，上述的S2042可以通过S401-S406来实现，将结合各步骤进行说明。

S401、对语句向量表示进行至少一种预设条件数量的分类预测，得到语句向量表示对应于每种预设条件数量的第四概率。

S402、将最高的第四概率对应的预设条件数量，作为待查询语句对应的条件字段数量。

本申请实施例中，服务器可以对语句向量表示包含的条件关系类型的字段进行分类预测，得到语句向量表示对应于至少一种预设条件数量中每种预设条件数量的概率，作为语句向量表示对应于每种预设条件数量的第四概率。

在一些实施例中，条件数量的分类预测表征对SQL语句中的Where num 部分的预测。服务器可以同样采用数量多分类网络，并预先定义条件类别的个数，即最大条件数量也有上限，使用数量多分类网络对语句向量表示，如BER T输出的[CLS]位置的embedding进行预测，采用最大概率的预设条件数量作为 Where num的预测值。

S403、根据条件字段数量，从通过对每个目标实体的实体向量表示与列向量表示进行匹配得到的对应关系中，得到目标实体与列数据的匹配关系。

本申请实施例中，服务器可以以相似度计算的方式，根据每个列向量表示与每个目标实体的实体向量表示得到每列数据与每个目标实体的匹配程度，从而确定出与每个目标实体匹配度最高的列数据，每个目标实体对应一列数据，得到目标实体与列数据的对应关系。

在一些实施例中，服务器可以将每列数据的列向量表示与每个目标实体的实体向量表示进行相似度计算，得到每列数据与每个目标实体之间的第二相似度；对于每个目标实体，将最大第二相似度对应的列数据，作为每个目标实体对应的列数据，得到每个目标实体与列数据的对应关系；从每个目标实体与列数据的对应关系中，选取出第二相似度高的前条件字段数量个对应关系，作为目标实体与列数据的匹配关系。也即，匹配关系的数量可以为条件字段数量个。

示例性地，服务器可以通过向量距离计算方式，如余弦距离计算，计算列向量表示的embedding和每个实体向量表示的embedding的差值，得到每一列数据与每个目标实体对应的第二相似度。进而，对于每一个目标实体，将该目标实体与每列数据之间的第二相似度中，最大的第二相似度所对应的列数据，作为该目标实体对应的列数据，从而得到每个目标实体与列数据的对应关系。服务器再根据第二相似度从高到底的次序，从每个目标实体与列数据的对应关系中，选取出前条件字段数量个第二相似度最高的对应关系，作为目标实体与列数据的匹配关系。

S404、根据每个目标实体对应的映射列值，对匹配关系中的目标实体进行更新，得到列数据与映射列值的条件匹配关系。

本申请实施例中，服务器可以根据S102中构建的每个目标实体与预设数据表中的列值的映射关系，使用每个目标实体对应的映射列值，对匹配关系中的目标实体进行更新，示例性地，将目标实体“一大附中”根据其对应的映射值更新为“第一大学附属中学”，从而实现根据数据表中的真实列值，对自然语言的列值提取结果，即目标实体进行修正，得到列数据与映射列值的条件匹配关系。

这里，由于映射列值本身即为预设数据表中的真实列值，因此，根据映射列值对目标实体与列数据的匹配关系进行更新后，可以大大提高使用更新后的匹配关系，即条件匹配关系进行查询语句预测的准确性。

S405、针对条件匹配关系，进行至少一种预设条件操作符预测，得到条件匹配关系对应的目标条件操作符。

本申请实施例中，服务器可以针对得到的条件匹配关系，进行至少一种预设条件操作符预测，从而预测得到每个列数据和匹配到的映射列值之间的条件连接关系，得到每个条件匹配关系对应的目标条件操作符。

在一些实施例中，至少一种预设条件操作符可以包括：“>”、“<”、“＝”、“！＝”、“”五种，服务器可以同样利用多分类网络进行条件操作符预测，选择概率最大的预设条件操作符作为每个条件匹配关系对应的目标条件操作符。

S406、基于目标条件操作符与条件匹配关系，得到条件字段预测结果。

本申请实施例中，服务器可以根据目标条件操作符，对每个条件匹配关系中的列数据的列名与映射列值进行组合，得到条件字段预测结果。示例性地，条件字段预测结果可以是SQL语句中的Where语句部分。

在一些实施例中，服务器还可以基于语句向量表示，如BERT输出的[CLS] 位置的embedding，采用多分类网络对条件匹配关系进行连接关系预测，得到条件匹配关系之间的连接关系；示例性地，预设的连接关系可以包括AND和O R两个类别，服务器可以将最大概率的类别作为Where条件关系的预测值。进而，服务器可以通过结合连接关系、目标条件操作符与条件匹配关系，得到条件字段预测结果。

在一些实施例中，基于上述的图5-图8中的方法，本申请实施例中的结构化查询语句预测过程可以如图9所示，如下：

服务器可以利用BERT模型，分别对自然语言查询文本、候选值集合中的候选值1、候选值2与候选值3，以及每一列数据的列名，如列名1、从该列数据中选取的目标列值，如列值1进行语义编解码。这里，候选值集合为上述的目标实体集合，候选值1、候选值2与候选值3为目标实体集合中的每个目标实体。服务器将BERT模型针对自然语言查询文本在CLS位置输出的embeddi ng作为语句向量表示，以及，根据候选值1、候选值2与候选值3分别在自然语言查询文本中的位置，计算自然语言经过BERT后对应位置的token Embedd ing的平均值对应得到候选值1、候选值2与候选值3各自对应的候选值向量表示，以及列名1与列值1、列名2与列值2(图示未示出)等每一列数据的列名与对应的目标列值的列名向量表示与列值向量表示。服务器将列名向量表示与列值向量表示的平均值作为列数据的列向量表示。进而服务器可以基于语句向量表示与每一列数据的列向量表示，进行结构化查询语句预测中的查询字段预测，得到查询字段预测结果。

如图9所示，服务器可以根据每一列数据的列向量表示与每个候选值对应的候选值向量表示，将每一列数据分别与候选值1、候选值2与候选值3进行列值匹配，选取与该列数据的相似度最高的候选值作为该列数据对应的候选值，从而得到列数据与候选值的匹配关系。进而，服务器利用预先构建的候选值与预设数据表中真实列值的对应关系，对列数据与候选值的匹配关系进行修正，得到列数据与真实列值的条件匹配关系。服务器基于条件匹配关系进行至少一种预设条件操作符预测，得到每个条件匹配关系对应的目标条件操作符，并基于目标条件操作符与条件匹配关系，得到条件字段预测结果。服务器可以根据得到的查询字段预测结果与条件字段预测结果，组合得到待查询语句。

可以理解的是，本申请实施例中，通过真实的映射列值对从自然语言中提取到的目标实体进行列值抽取结果的修正，可以大大提高列值抽取结果的准确性，从而提高根据列值抽取结果预测待查询语句的准确性，进而提高根据待查询语句进行自然语言数据查询的准确性。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

图10提供了本申请实施例中的方法应用于智能人机问答场景中的智能分析助手的一种示例性应用，如图10所示，智能分析助手可以是实现了基于数据表的智能人机问答的应用，能够通过语音识别、自然语言处理、智能分析等过程，得到数据结论，也即查询结果。本申请实施例提供的自然语言数据查询方法可以应用于智能分析助手的自然语言处理与智能分析过程中。用户可以通过在终端上启动智能分析助手，进入如图10所示的问答对话界面，智能分析助手可以先向用户的终端发送一条欢迎语，如“您好，智能分析助手为您服务”；用户可以通过语音输入的方式，将想要查询的内容，如“2020年一大附中有多少教师”以语音形式通过问答对话界面的对话框发送至智能分析助手，智能分析助手通过语音识别过程，将待查询语音转换为自然语言查询文本，进而通过本申请实施例中的方法，对自然语言查询文本进行自然语言处理与智能分析，得到查询结果，即数据结论并以对话形式反馈至用户终端进行显示。例如，在对话框中显示用户想要查询的问题以及问题对应的答案，如图10中的区域600 所示。在一些实施例中，还可以显示用户对答案的满意度评价控件601，以收集用户对搜索结果的满意程度，从而对模型性能进行进一步改进。

这里，上述自然语言处理与智能分析的过程可以如图11所示的模块化流程来实现。其中，智能分析助手可以将自然语言查询文本与数据表的表格信息输入自然语言理解模块，这里，自然语言理解模块可以是用于实现上述的S101-S 102过程的功能模块，通过自然语言理解模块得到候选值集合，其中，候选值集合中的每个候选值即目标实体，在数据表中对应有预先建立映射关系的映射列值。进而，基于候选值集合、结合自然语言查询文本与数据表的表格信息，通过NL2SQL模块，示例性地，NL2SQL模块的实现可以如上述的图9所示，进行结构化查询语句预测，得到SQL语句，即待查询语句。示例性地，对于自然语言查询文本“2020年一大附中有多少教师”可以得到如“select count(教师编号)from教师数据表where年份＝2020and学校名称＝一大附中”的S QL语句。进而，智能分析助手可以使用SQL语句在数据表中进行数据查询操作，得到数据结论。

在一些实施例中，智能分析助手还可以将查询结果以图表等形式进行展示。如将针对于自然语言查询文本“查询XX市各区的专职教师分布”得到的查询结果显示为如图12中所示的图表120，以提高查询结果展示方法的丰富程度。

可以理解的是，本申请实施例中，通过构建自然语言理解模块，结合自然语言与表格信息得到候选值集合，进而利用候选值集合进行NL2SQL的预测任务，得到SQL语句，这样，在针对某个特定领域构建的对话系统新增表格问答模块时，只需要针对目标领域构建相应的自然语言理解模块，其他的模块均可复用通用领域训练得到的结果，从而可以快速构建目标领域的基于表格的问答模块，并提高模型的领域适应能力，增强NL2SQL技术在不同场景的落地能力，提升产品的适配性。

下面继续说明本申请实施例提供的自然语言数据查询装置255的实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器250的自然语言数据查询装置255中的软件模块可以包括：

提取模块2551，用于根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合；

映射模块2552，用于通过构建所述目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到所述每个目标实体对应的映射列值；

预测模块2553，用于基于所述目标实体集合、所述每个目标实体对应的映射列值与所述预设数据表中的列名，对所述自然语言查询文本进行结构化查询语句预测，得到待查询语句；

查询模块2554，用于根据所述待查询语句在所述预设数据表中进行查询，得到所述自然语言文本对应的查询结果。

在一些实施例中，所述预设实体资源包括：预设实体库与预设实体识别模型中的至少之一；所述预设实体识别模型为利用所述预设目标领域中的实体数据训练得到的网络模型；所述提取模块2551，用于将所述预设实体库中的实体在所述自然语言查询文本中进行匹配，在所述自然语言查询文本中存在所述实体的情况下，将所述实体作为目标实体，从而得到目标实体集合；和/或，通过所述预设实体识别模型，对所述自然语言查询文本进行实体识别与提取，得到所述目标实体集合。

在一些实施例中，所述映射模块2552，用于对于从所述预设实体库中得到的目标实体，根据预设的实体与列值之间的对应关系，得到所述每个目标实体对应的映射列值；所述预设的实体与列值之间的对应关系为预先构建的所述预设实体库中的每个实体与所述预设数据表中列值的对应关系；对于根据所述预设实体识别模型得到的目标实体，计算所述每个目标实体与所述预设数据表中的每个列值之间的第一相似度，并基于所述第一相似度得到所述每个目标实体对应的映射列值。

在一些实施例中，所述预测模块2553，还用于通过对所述自然语言查询文本与所述每个目标实体进行语义编解码处理，得到所述自然语言查询文本对应的语句向量表示，以及所述每个目标实体的实体向量表示；从所述预设数据表的每列数据中选取目标列值，并对所述每列数据的列名与所述目标列值分别进行语义编解码处理，得到列名向量表示与目标列值向量表示；结合所述列名向量表示与所述目标列值向量表示，得到所述每列数据的列向量表示；根据所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值对所述自然语言查询文本进行结构化查询语句预测，得到所述待查询语句。

在一些实施例中，所述预测模块2553，还用于基于所述语句向量表示与所述每列数据的列向量表示，进行所述结构化查询语句预测中的查询字段预测，得到查询字段预测结果；基于所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值，进行所述结构化查询语句预测中的条件字段预测，得到条件字段预测结果；结合所述查询字段预测结果与所述条件字段预测结果，得到所述待查询语句。

在一些实施例中，所述预测模块2553，还用于对所述语句向量表示进行至少一种预设查询数量的分类预测，得到所述语句向量表示对应于每种预设查询数量的第一概率；将最高的第一概率对应的预设查询数量，作为所述结构化查询语句对应的查询字段数量；根据所述列向量表示，对所述预设数据表中的每列数据进行查询目标预测，得到所述每列数据为查询目标的第二概率；根据所述第二概率从高到低的次序，从所述每列数据中选取前查询字段数量个列数据作为目标列数据，并将目标列数据的列名作为目标查询字段，得到目标查询字段集合；基于所述目标查询字段集合，得到所述查询字段预测结果。

在一些实施例中，所述预测模块2553，还用于对所述目标查询字段集合中每个目标查询字段对应的列向量表示进行至少一种预设聚合函数的分类预测，得到所述每个目标查询字段对应于每种预设聚合函数的第三概率；将最高的第三概率对应的预设聚合函数，作为所述每个目标查询字段对应的目标聚合函数；根据所述每个目标查询字段对应的目标聚合函数，对所述每个目标查询字段进行结合，得到所述查询字段预测结果。

在一些实施例中，所述预测模块2553，还用于对所述语句向量表示进行至少一种预设条件数量的分类预测，得到所述语句向量表示对应于每种预设条件数量的第四概率；将最高的第四概率对应的预设条件数量，作为所述待查询语句对应的条件字段数量；根据所述条件字段数量，从通过对所述每个目标实体的实体向量表示与所述列向量表示进行匹配得到的对应关系中，得到目标实体与列数据的匹配关系；根据所述每个目标实体对应的映射列值，对所述匹配关系中的目标实体进行更新，得到列数据与映射列值的条件匹配关系；针对所述条件匹配关系，进行至少一种预设条件操作符预测，得到条件匹配关系对应的目标条件操作符；基于所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

在一些实施例中，所述预测模块2553，还用于将所述每列数据的列向量表示与所述每个目标实体的实体向量表示进行相似度计算，得到所述每列数据与所述每个目标实体之间的第二相似度；对于所述每个目标实体，将最大第二相似度对应的列数据，作为所述每个目标实体对应的列数据，得到所述每个目标实体与列数据的对应关系；从所述每个目标实体与列数据的对应关系中，选取出第二相似度高的前条件字段数量个对应关系，作为所述目标实体与列数据的匹配关系。

在一些实施例中，所述预测模块2553，还用于基于所述语句向量表示，对所述条件匹配关系进行连接关系预测，得到条件匹配关系之间的连接关系；结合所述连接关系、所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

需要说明的是，以上装置实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图4-8中示出的方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HT ML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，本申请实施例，通过预设目标领域的预设实体资源进行目标实体的提取，能利用与领域强相关的预设实体资源，极大提高从自然语言中提取到的目标实体准确性；并且，通过建立目标实体与所要查询的预设数据表中的列值的映射关系，得到映射列值集合，结合映射列值集合进行待查询语句的生成，可以利用预设数据表的列值信息对待查询语句中的列值信息进行有效的修正，从而提高预测得到的待查询语句的准确性，进而根据待查询语句进行自然语言数据查询的准确性。并且通过从每列数据中选取目标列值，结合目标列值与列名的语义表示共同作为列数据的语义表示，可以大大提高列向量表示的准确性，从而提高基于列向量表示进行待查询语句预测的准确性。并且，相较于现有技术中通过列名对列进行表示，本申请实施例中的方法可以极大提高表格的泛化能力，在应用于新的领域，尤其是专业性较强的领域时，能够保证根据列向量表示从自然语言中进行查询字段与条件字段抽取的准确性，提高模型的领域适应能力。并且，结合本申请实施例中在语义编码阶段所加入的预设目标领域的实体信息，能够进一步提高模型的领域迁移能力。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种自然语言数据查询方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设实体资源包括：预设实体库与预设实体识别模型中的至少之一；所述预设实体识别模型为利用所述预设目标领域中的实体数据训练得到的网络模型；所述根据预设目标领域的预设实体资源，对自然语言查询文本进行实体提取，得到目标实体集合，包括以下至少之一：

将所述预设实体库中的实体在所述自然语言查询文本中进行匹配，在所述自然语言查询文本中存在所述实体的情况下，将所述实体作为目标实体，从而得到目标实体集合；

通过所述预设实体识别模型，对所述自然语言查询文本进行实体识别与提取，得到所述目标实体集合。

3.根据权利要求2所述的方法，其特征在于，所述通过构建所述目标实体集合中每个目标实体与预设数据表中列值的映射关系，得到所述每个目标实体对应的映射列值，包括以下至少之一：

对于从所述预设实体库中得到的目标实体，根据预设的实体与列值之间的对应关系，得到所述每个目标实体对应的映射列值；所述预设的实体与列值之间的对应关系为预先构建的所述预设实体库中的每个实体与所述预设数据表中列值的对应关系；

4.根据权利要求1-3任一项所述方法，其特征在于，所述基于所述目标实体集合、所述每个目标实体对应的映射列值与所述预设数据表中的列名，对所述自然语言查询文本进行结构化查询语句预测，得到待查询语句，包括：

通过对所述自然语言查询文本与所述每个目标实体进行语义编解码处理，得到所述自然语言查询文本对应的语句向量表示，以及所述每个目标实体的实体向量表示；

从所述预设数据表的每列数据中选取目标列值，并对所述每列数据的列名与所述目标列值分别进行语义编解码处理，得到列名向量表示与目标列值向量表示；

结合所述列名向量表示与所述目标列值向量表示，得到所述每列数据的列向量表示；

根据所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值对所述自然语言查询文本进行结构化查询语句预测，得到所述待查询语句。

5.根据权利要求4所述的方法，其特征在于，所述根据所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值对所述自然语言查询文本进行结构化查询语句预测，得到所述待查询语句，包括：

基于所述语句向量表示与所述每列数据的列向量表示，进行所述结构化查询语句预测中的查询字段预测，得到查询字段预测结果；

基于所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值，进行所述结构化查询语句预测中的条件字段预测，得到条件字段预测结果；

结合所述查询字段预测结果与所述条件字段预测结果，得到所述待查询语句。

6.根据权利要求5所述的方法，其特征在于，所述基于所述语句向量表示与所述每列数据的列向量表示，进行所述结构化查询语句预测中的查询字段预测，得到查询字段预测结果，包括：

对所述语句向量表示进行至少一种预设查询数量的分类预测，得到所述语句向量表示对应于每种预设查询数量的第一概率；

将最高的第一概率对应的预设查询数量，作为所述结构化查询语句对应的查询字段数量；

根据所述列向量表示，对所述预设数据表中的每列数据进行查询目标预测，得到所述每列数据为查询目标的第二概率；

根据所述第二概率从高到低的次序，从所述每列数据中选取前查询字段数量个列数据作为目标列数据，并将目标列数据的列名作为目标查询字段，得到目标查询字段集合；

基于所述目标查询字段集合，得到所述查询字段预测结果。

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标查询字段集合，得到所述查询字段预测结果，包括：

对所述目标查询字段集合中每个目标查询字段对应的列向量表示进行至少一种预设聚合函数的分类预测，得到所述每个目标查询字段对应于每种预设聚合函数的第三概率；

将最高的第三概率对应的预设聚合函数，作为所述每个目标查询字段对应的目标聚合函数；

根据所述每个目标查询字段对应的目标聚合函数，对所述每个目标查询字段进行结合，得到所述查询字段预测结果。

8.根据权利要求5所述的方法，其特征在于，所述基于所述语句向量表示、所述每个目标实体的实体向量表示、以及所述每列数据的列向量表示，结合所述每个目标实体对应的映射列值，进行所述结构化查询语句预测中的条件字段预测，得到条件字段预测结果，包括：

对所述语句向量表示进行至少一种预设条件数量的分类预测，得到所述语句向量表示对应于每种预设条件数量的第四概率；

将最高的第四概率对应的预设条件数量，作为所述待查询语句对应的条件字段数量；

根据所述条件字段数量，从通过对所述每个目标实体的实体向量表示与所述列向量表示进行匹配得到的对应关系中，得到目标实体与列数据的匹配关系；

根据所述每个目标实体对应的映射列值，对所述匹配关系中的目标实体进行更新，得到列数据与映射列值的条件匹配关系；

针对所述条件匹配关系，进行至少一种预设条件操作符预测，得到条件匹配关系对应的目标条件操作符；

基于所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

9.根据权利要求8所述的方法，其特征在于，所述根据所述条件字段数量，从通过对所述每个目标实体的实体向量表示与所述列向量表示进行匹配得到的对应关系中，得到目标实体与列数据的匹配关系，包括：

将所述每列数据的列向量表示与所述每个目标实体的实体向量表示进行相似度计算，得到所述每列数据与所述每个目标实体之间的第二相似度；

对于所述每个目标实体，将最大第二相似度对应的列数据，作为所述每个目标实体对应的列数据，得到所述每个目标实体与列数据的对应关系；

从所述每个目标实体与列数据的对应关系中，选取出第二相似度高的前条件字段数量个对应关系，作为所述目标实体与列数据的匹配关系。

10.根据权利要求8或9所述的方法，其特征在于，所述基于所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果，包括：

基于所述语句向量表示，对所述条件匹配关系进行连接关系预测，得到条件匹配关系之间的连接关系；

结合所述连接关系、所述目标条件操作符与所述条件匹配关系，得到所述条件字段预测结果。

11.一种自然语言数据查询装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至10任一项所述的方法。

14.一种计算机程序产品，包括计算机程序或指令，其特征在于，所述计算机程序或指令被处理器执行时实现权利要求1至10任一项所述的方法。