CN112559690A

CN112559690A - 一种自然语言智能数据建模技术

Info

Publication number: CN112559690A
Application number: CN202011523491.XA
Authority: CN
Inventors: 谭鑫; 曹莉琼; 陈建长; 李月; 于远波; 黄鹏波
Original assignee: Guangdong Zhujiang Chilink Information Technology Co ltd
Current assignee: Guangdong Zhujiang Chilink Information Technology Co ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2021-03-26

Abstract

本发明公开了一种自然语言智能数据建模技术，涉及智能数据建模技术领域。本发明包括第一NL2SQL、Bert算法、SQL、NLP、第二NL2SQL、Bert框架，第一NL2SQL包括：根据自然语言找到数据库中对应的表、将文本与表结构作为参数，传给已经训练好的model1、model2，得到SQL1、SQL2、将SQL1、SQL2拼接成一个完整的SQL、将SQL传给数据库引擎处理。本发明通过第一NL2SQL(NLPLanguageToSQL)是自然语言处理的新兴研究热点，是将用户输入的自然语言转为可执行的SQL语句，业界关于Text‑to‑SQL、NLIDB研究的核心内容是与第一NL2SQL相类似的，第一NL2SQL是能充当数据库的智能接口，降低数据库查询的门槛，让非专业用户在不需要学习和掌握数据库编程语言的前提下，自由地按需查询数据，比如说话就行。

Description

一种自然语言智能数据建模技术

技术领域

本发明属于智能数据建模技术领域，特别是涉及一种自然语言智能数据建模技术。

背景技术

在互联网高速发展的当下，大数据分析已是潮流，各行各业中都在引用，通过分析能够获取很多智能的、深入的、价值的信息，然而，在日常工作生活中，大数据分析驱动业务增长同样伴随着存在着诸多现实瓶颈，诸如业务发展瓶颈、IT中心瓶颈、大数据应用瓶颈，现代的自助式、探索式BI工具已成趋势，越来越多的企业采购开始偏好现代的、以业务用户为中心的自服务数据分析平台，传统的以IT为主导的，高度集中化的工具正面临替换市场已经从“IT主导的报表模式”往“业务主导的自服务分析模式”转折。

现有的智能数据建模技术，大多查询的门槛较高，不利于非专业用户使用，不能对自然语言进行处理。

发明内容

本发明的目的在于提供一种自然语言智能数据建模技术，通过第一 NL2SQL(NLPLanguageToSQL)是自然语言处理的新兴研究热点，是将用户输入的自然语言转为可执行的SQL语句，业界关于Text-to-SQL、NLIDB研究的核心内容是与第一NL2SQL相类似的，第一NL2SQL是能充当数据库的智能接口，降低数据库查询的门槛，让非专业用户在不需要学习和掌握数据库编程语言的前提下，自由地按需查询数据，比如说话就行，解决了上述现有技术中存在的问题。

为达上述目的，本发明是通过以下技术方案实现的：

一种自然语言智能数据建模技术，包括第一NL2SQL、Bert算法、SQL、 NLP、第二NL2SQL、Bert框架；

第一NL2SQL包括：根据自然语言找到数据库中对应的表、将文本与表结构作为参数，传给已经训练好的model1、model2，得到SQL1、SQL2、将 SQL1、SQL2拼接成一个完整的SQL、将SQL传给数据库引擎处理；

Bert算法包括：读取数据集、数据预处理、模型建模、模型保存。

可选的，根据自然语言找到数据库中对应的表包括：首先根据问题进行中文分词，并将其转为词向量、计算词向量的平均向量作为语句向量S、计算数据库，每张表的向量值T_i、计算S与T_i的相似度，取相似度值最高的作为表。

可选的，读取数据集包括：训练集、测试集、验证集，数据预处理包括：分词、词向量填充、乱序、将词语转为词向量，Embedding操作。

可选的，模型建模包括：将数据预处理中的词向量分别传入Bert1， Bert2进行训练，得到模型1、模型2。

可选的，模型建模包括：model1负责预测表中字段的分类以及表连接条件，cond_conn_op：SQL语句中where后的连接条件{0：””，1：”and”， 2：”or”}，agg：字段聚合分类{0：””，1：”AVG”，2：”MAX”，3：”MIN”，4：”COUNT”，5：”SUM”}、conds_op：负责找到表中哪些字段被选择，model2，负责where后面条件运算符的筛选：op_sql_dict＝{0：”＞”，1：”＜”，2：”＝＝”，3：”！＝”}以及条件值的抽取conds_vals。

可选的，模型保存包括：将模型分别存入hdfs，供调用。

可选的，NLP包括：序列标注、分类任务、句子关系判断、生成任务，第二NL2SQL为NLP技术的一个分支，用NLP的分类任务、句子关系判断技术，第二NL2SQL包括：确定SQL结构、预测字段值，Bert框架包括：句子分类、实体抽取、语言问答。

可选的，序列标注包括：中文分词、词性标注、命名实体识别、语义角色标注，分类任务包括：文本分类、情感计算，句子关系判断包括： Entailment、QA、语义改写，自然语言推理任务，生成任务包括：机器翻译、文本摘要、写诗造句、看图说话。

可选的，第二NL2SQL包括：确定SQL结构：确定SQL的“结构”、预测字段值：根据自然语言问题，选用适当的算法预测出字段、聚合条件、以及where条件连接值(OP)。

可选的，Bert框架包括：句子分类、实体抽取、语言问答。

本发明的实施例具有以下有益效果：

本发明的一个实施例通过第一NL2SQL(NLPLanguageToSQL)是自然语言处理的新兴研究热点，是将用户输入的自然语言转为可执行的SQL语句，业界关于Text-to-SQL、NLIDB研究的核心内容是与第一NL2SQL相类似的，第一NL2SQL是能充当数据库的智能接口，降低数据库查询的门槛，让非专业用户在不需要学习和掌握数据库编程语言的前提下，自由地按需查询数据，比如说话就行。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明一实施例的Bert框架流程结构示意图；

图2为本发明一实施例的Bert算法流程结构示意图；

图3为本发明一实施例的Bert算法训练流程结构示意图；

图4为本发明一实施例的SQL结构示意图；

图5为本发明一实施例的自然语言流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

为了保持本发明实施例的以下说明清楚且简明，本发明省略了已知功能和已知部件的详细说明。

请参阅图1-5所示，在本实施例中提供了一种自然语言智能数据建模技术，包括：第一NL2SQL、Bert算法、SQL、NLP、第二NL2SQL、Bert框架；

本实施例一个方面的应用为：训练数据集有两种json文件，一种为描述表内容文件，一种描述描述“自然语言问题”与SQL映射的文件，根据“自然语言问题”进行与数据库表进行交互，利用“自然语言问题”与表字段进行相似度计算，进而完成“找表”的过程，采用Bert算法，其预训练(pre-training)，调优(fine-tuning)训练模式，使模型具有较高的准确率，将NL2SQL预测SQL的划分为2个子任务，一个任务负责预测字段、 where连接条件、聚合函数，一个任务负责预测where后条件值，将两个模型预测结果最后拼接成一个完整的SQL语句，采用此方法的好处是有利于提高模型的准确率，将NL2SQL与大数据技术融合，训练数据集、以及模型保存至HDFS，便于集群资源文件的统一管理以及模型的调用。

通过第一NL2SQL(NLPLanguageToSQL)是自然语言处理的新兴研究热点，是将用户输入的自然语言转为可执行的SQL语句，业界关于 Text-to-SQL、NLIDB研究的核心内容是与第一NL2SQL相类似的，第一 NL2SQL是能充当数据库的智能接口，降低数据库查询的门槛，让非专业用户在不需要学习和掌握数据库编程语言的前提下，自由地按需查询数据，比如说话就行。

本实施例的根据自然语言找到数据库中对应的表包括：首先根据问题进行中文分词，并将其转为词向量、计算词向量的平均向量作为语句向量S、计算数据库，每张表的向量值T_i、计算S与T_i的相似度，取相似度值最高的作为表。

本实施例的读取数据集包括：训练集、测试集、验证集，数据预处理包括：分词、词向量填充、乱序、将词语转为词向量，Embedding操作。

本实施例的模型建模包括：将数据预处理中的词向量分别传入Bert1， Bert2进行训练，得到模型1、模型2。

本实施例的模型建模包括：model1负责预测表中字段的分类以及表连接条件，cond_conn_op：SQL语句中where后的连接条件{0：””，1：” and”，2：”or”}，agg：字段聚合分类{0：””，1：”AVG”，2：”MAX”， 3：”MIN”，4：”COUNT”，5：”SUM”}、conds_op：负责找到表中哪些字段被选择，model2，负责where后面条件运算符的筛选：op_sql_dict＝{0：”＞”，1：”＜”，2：”＝＝”，3：”！＝”}以及条件值的抽取conds_vals。

本实施例的模型保存包括：将模型分别存入hdfs，供调用。

本实施例的NLP包括：序列标注、分类任务、句子关系判断、生成任务，第二NL2SQL为NLP技术的一个分支，用NLP的分类任务、句子关系判断技术，第二NL2SQL包括：确定SQL结构、预测字段值，Bert框架包括：句子分类、实体抽取、语言问答。

本实施例的序列标注包括：中文分词、词性标注、命名实体识别、语义角色标注，分类任务包括：文本分类、情感计算，句子关系判断包括： Entailment、QA、语义改写，自然语言推理任务，生成任务包括：机器翻译、文本摘要、写诗造句、看图说话。

本实施例的第二NL2SQL包括：确定SQL结构：确定SQL的“结构”、预测字段值：根据自然语言问题，选用适当的算法预测出字段、聚合条件、以及where条件连接值(OP)。

本实施例的Bert框架包括：句子分类、实体抽取、语言问答。

技术特点

训练数据集有两种json文件，一种为描述表内容文件，一种描述描述“自然语言问题”与SQL映射的文件；

根据“自然语言问题”进行与数据库表进行交互，利用“自然语言问题”与表字段进行相似度计算，进而完成“找表”的过程；

采用Bert算法，其预训练(pre-training)，调优(fine-tuning) 训练模式，使模型具有较高的准确率；

将NL2SQL预测SQL的划分为2个子任务，一个任务负责预测字段、where 连接条件、聚合函数，一个任务负责预测where后条件值，将两个模型预测结果最后拼接成一个完整的SQL语句。采用此方法的好处是有利于提高模型的准确率；

将NL2SQL与大数据技术融合，训练数据集、以及模型保存至HDFS，便于集群资源文件的统一管理以及模型的调用。

在AI、区块链、IoT、AR等高新技术飞速发展的当下，数据库这一宝库似乎被大家遗忘在了角落。数据库存储了大量的个人或者企业的生产运营数据，我们每天都会和数据库产生或多或少的交互。通常，查询数据库中的数据需要通过像SQL这样的程序式查询语言来进行交互，这就需要懂SQL语言的专业技术人员来执行这一操作。为了让非专业用户也可以按需查询数据库，当前流行的技术方案设计了基于条件筛选的专门界面，用户可以通过点选不同的条件来查询数据库。

现状分析

(一)业务发展的瓶颈：

1、数据分析需求得不到及时响应，公司发展仿佛在一片漆黑中前行。缺乏对业务现状的准确把握，报表固定且老化，数据利用率低；市场占有率、用户画像、服务质量、营销ROI等难以量化。

2、缺乏对业务背后逻辑的洞察。数据关联性差，难以多维度观察；季节性波动、竞争格局演变、结构性调整、用户流失等难以捉摸。

3、缺乏对业务未来的可见与预测。缺乏全量数据分析和利用，难以全局判断周期性规划，战略目标制定、业务增长点预测、消费结构升级等难以预测。

(二)IT中心的瓶颈：

1、IT集权下的疲于应对。公司项目需求多，响应慢，IT人员需要经常熬夜加班，身心疲惫；

2、放权下的数据管理混乱。IT中心对外权限开放，会导致数据准确性降低，安全性差；同时会导致内部数据壁垒多。

大数据应用瓶颈：不利用时心慌，利用时迷茫，如何走好“最后一公里”为应对大数据的快速增长时，硬件不断升级，架构不断扩展，但没有最后一公里的充分应用就无法产生价值。

以上瓶颈是一串连锁反应，问题的根源是缺乏有效的工具支撑。实现数据驱动业务增长的理想蓝图，企业需要强有力的BI工具的支撑。

目前数据库依然是企业存储数据的主要方式，尽管有着各色的数据库，但访问和操作数据库的SQL是通用的，人性化的编程语言SQL为开发者在工作中访问数据库提供了便利，但同时也极大地限定了非专业用户按需查询数据库的场景和查询界限，随着人工智能在机器视觉领域取得突破进展，结合了人工智能与NLP的NL2SQL为非专业用户查询数据库提供了新的思路。

上述实施例可以相互结合。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施方式能够以除了在这里图示或描述的那些以外的顺序实施。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制；方位词“内、外”是指相对于各部件本身的轮廓的内外。

Claims

1.一种自然语言智能数据建模技术，其包括：第一NL2SQL、Bert算法、SQL、NLP、第二NL2SQL、Bert框架；

第一NL2SQL包括：根据自然语言找到数据库中对应的表、将文本与表结构作为参数，传给已经训练好的model1、model2，得到SQL1、SQL2、将SQL1、SQL2拼接成一个完整的SQL、将SQL传给数据库引擎处理；

2.如权利要求1所述的一种自然语言智能数据建模技术，其特征在于，根据自然语言找到数据库中对应的表包括：首先根据问题进行中文分词，并将其转为词向量、计算词向量的平均向量作为语句向量S、计算数据库，每张表的向量值T_i、计算S与T_i的相似度，取相似度值最高的作为表。

3.如权利要求1所述的一种自然语言智能数据建模技术，其特征在于，读取数据集包括：训练集、测试集、验证集，数据预处理包括：分词、词向量填充、乱序、将词语转为词向量，Embedding操作。

4.如权利要求3所述的一种自然语言智能数据建模技术，其特征在于，模型建模包括：将数据预处理中的词向量分别传入Bert1，Bert2进行训练，得到模型1、模型2。

5.如权利要求4所述的一种自然语言智能数据建模技术，其特征在于，模型建模包括：model1负责预测表中字段的分类以及表连接条件，cond_conn_op：SQL语句中where后的连接条件conds_op：负责找到表中哪些字段被选择，model2，负责where后面条件运算符的筛选以及条件值的抽取conds_vals。

6.如权利要求5所述的一种自然语言智能数据建模技术，其特征在于，模型保存包括：将模型分别存入hdfs，供调用。

7.如权利要求1所述的一种自然语言智能数据建模技术，其特征在于，NLP包括：序列标注、分类任务、句子关系判断、生成任务，第二NL2SQL为NLP技术的一个分支，用NLP的分类任务、句子关系判断技术，第二NL2SQL包括：确定SQL结构、预测字段值，Bert框架包括：句子分类、实体抽取、语言问答。

8.如权利要求7所述的一种自然语言智能数据建模技术，其特征在于，序列标注包括：中文分词、词性标注、命名实体识别、语义角色标注，分类任务包括：文本分类、情感计算，句子关系判断包括：Entailment、QA、语义改写，自然语言推理任务，生成任务包括：机器翻译、文本摘要、写诗造句、看图说话。

9.如权利要求8所述的一种自然语言智能数据建模技术，其特征在于，第二NL2SQL包括：确定SQL结构：确定SQL的“结构”、预测字段值：根据自然语言问题，选用适当的算法预测出字段、聚合条件、以及where条件连接值。

10.如权利要求9所述的一种自然语言智能数据建模技术，其特征在于，Bert框架包括：句子分类、实体抽取、语言问答。