CN115062070A

CN115062070A - 一种基于问答的文本表格数据查询方法

Info

Publication number: CN115062070A
Application number: CN202210603556.4A
Authority: CN
Inventors: 雋兆波; 杨露; 何健军; 李春豹; 代翔; 崔莹
Original assignee: CETC 10 Research Institute
Current assignee: CETC 10 Research Institute
Priority date: 2022-05-30
Filing date: 2022-05-30
Publication date: 2022-09-16

Abstract

本发明公开了一种基于问答的文本表格数据查询方法，该方法包括准备训练需要的表格数据，根据表格数据构建关键信息的Es数据库，训练构建的Bert语义相似匹配模型，基于ES数据库和Bert语义相似匹配模型，获取答案候选表格，构建Text‑to‑sql模型，预测sql查询语句。本发明针对结构化的文本表格数据，通过表格检索模块实现对答案候选表格的确定，基于Text‑to‑sql模型将用户问题转化为结构化sql语句，最终根据sql语句从答案候选表格中获取精确答案，可以完成用户问题类型为单属性、最大、最小、平均、统计的精确查询，提升总体模型的准确率，同时统计型的问题答案可以深度挖掘表格数据中的隐藏信息，提高用户对数据分析研判的准确性。

Description

一种基于问答的文本表格数据查询方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及到一种基于问答的文本表格数据查询方法。

背景技术

在自然语言处理分析上，用户积累了大量的结构化文本数据，以数据库表格形式存储。目前主要通过传统检索方式，利用关键字段对库表进行信息检索，返回的信息数量大，需要人工进一步筛选，而面对海量数据“信息过载、结构复杂、多源异构”等特性，导致对非专业用户从选表到查表知识获取效率低、难以及时掌握关键信息，从而信息流通滞后、延误数据分析判断等。因此，本发明为解决关键信息获取效率不高等问题，提出了基于问答的文本表格问答技术，通过问答方式，能够实现单属性、最大、最小、平均、统计等类型问题的精准理解、答案快速获取，大幅提高用户信息获取效率，加速文本数据增值赋能。

问答作为信息获取方式之一，通过对用户问题进行语义分析，转化为查询语句从文本中获取答案。基于问答的表格知识获取模型一般分为两步，第一步是问题到表格的匹配，第二步是问题到答案的精确查询，目前Text-to-sql模型对单属性查询准确率可以满足用户需求，但问题类型为统计、平均、最大、最小查询时，现有的问答模型获取正确答案的准确率较低，同时表格数量增加、种类繁杂，问题到表格的匹配再到答案的精确获取，其存在的累积误差也会导致整体的模型性能降低，所以如何建立问题到复杂表知识的高效准确获取是一个急需解决的问题。

发明内容

本发明的主要目的在于提供一种基于问答的文本表格数据查询方法，旨在解决目前现有的问答模型获取正确答案的准确率较低，同时表格数量增加、种类繁杂，问题到表格的匹配再到答案的精确获取，其存在的累积误差也会导致整体的模型性能降低的技术问题。

为实现上述目的，本发明提供一种基于问答的文本表格数据查询方法，所述方法包括以下步骤：

S1：准备训练需要的表格数据；

S2：根据表格数据构建关键信息的Es数据库；

S3：训练构建的Bert语义相似匹配模型；

S4：基于ES数据库和Bert语义相似匹配模型，获取答案候选表格；

S5：构建Text-to-sql模型，预测sql查询语句。

可选的，所述步骤S1具体为：将文本结构化表格数据库作为问答的基础训练数据N；其中，N包含有m种类型的表格数据，每个表格存在k个问题。

可选的，所述步骤S3中，所述Bert语义相似匹配模型的输入为问题加表格表头字段的集合，输出为0或者1，结果越接近1表示问题和该表格信息最为相似。

可选的，所述Bert语义相似匹配模型采用基于注意力机制-LSTM网络的Bert微调模型；其中：

所述模型的输入层将问题P＝{p₁,…,p_n}和表列名Q＝{q₁,…,q_n}按X＝{[CLS],p₁,…,p_n,[SEP],q₁,…,q_n,[SEP]}的方式进行拼接；

所述模型的编码层将拼接的X输入到Bert模型中进行编码，得到该序列的上下文编码向量：Bert(X)＝L＝{l₁,l₂,…,l_m}，h∈R^m*d，m输入X的长度，l_i为第i个字符的上下文表示；

所述模型的聚合层将Bert输出的上下文编码向量和注意力机制获取的信息进行连接，输入到双向的LSTM中进行训练，再经过池化之后得到固定长度的文本向量；

所述模型的输出层将Bert层输出的关系向量L和聚合层输出的关系向量R进行拼接，基于softmax函数计算文本相似性。

可选的，所述文本相似性的表达式为：

r＝[R；L]

P＝Softmax[w*r+b]

其中，P为预测的概率分布，越接近1表示两者越相似，r为输入，w为权重参数，b为偏置参数，R为聚合层输出的向量，L为Bert层输出的向量。

可选的，所述步骤S4，具体包括：

基于ES检索在ES数据库中筛选出和问题相似的top_k个候选表格；

基于Bert语义相似匹配模型获取答案候选表格。

可选的，所述Text-to-sql模型包括：

对sql语句中的sel、agg、cond_conn_op、以及conds中的cond_col和cond_op进行预测的第一模型；以及

对sql语句中的cond_val进行预测的第二模型；

其中，sel表示问题所选择的列索引，agg表示sql的聚合操作，cond_conn_op表示条件关系，conds表示答案的查询约束条件，cond_col表示条件列，cond_op表示条件运算符，cond_val表示条件值。

可选的，所述第一模型的输入为：

X₁＝{[CLS],p₁,…,p_n,[SEP][NUM],q₁,…,q_n,[SEP][STR],q₁,…,q_n[SEP]}；

所述第一模型的输入经过编码层Bert编码后，获得输入数据的编码向量，并根据所述编码向量对sql语句中的sel、agg、cond_conn_op、以及conds中的cond_col和cond_op进行预测。

可选的，所述第二模型的输入为：

X₂＝{[CLS],p₁,…,p_n,[SEP],q₁,…,q_n,[SEP]}。

所述第二模型的输入经过编码层Bert编码后，将[CLS]对应的编码向量经过2层全连接层进行二分类，判断候选组合是否和问题匹配，对sql语句中的conds进行预测。

可选的，在步骤S5中，在获得第一模型预测的子语句和第二模型预测的子语句之后，将获得的子语句进行组合，得到完整的sql语句。

本发明实施例提出的一种基于问答的文本表格数据查询方法，该方法包括准备训练需要的表格数据，根据表格数据构建关键信息的Es数据库，训练构建的Bert语义相似匹配模型，基于ES数据库和Bert语义相似匹配模型，获取答案候选表格，构建Text-to-sql模型，预测sql查询语句。本发明针对结构化的文本表格数据，通过表格检索模块实现对答案候选表格的确定，基于Text-to-sql模型将用户问题转化为结构化sql语句，最终根据sql语句从答案候选表格中获取精确答案，可以完成用户问题类型为单属性、最大、最小、平均、统计的精确查询，从选表、用户问题的解析到答案的精确获取，可以提升总体模型的准确率，同时统计型的问题答案可以深度挖掘表格数据中的隐藏信息，提高用户对数据分析研判的准确性。

附图说明

图1为本发明一种基于问答的文本表格数据查询方法的流程示意图.

图2为本发明基于问答的表格数据知识获取流程示意图。

图3为本发明Bert文本语义相似匹配模型示意图。

图4为本发明Text-to-sql模型1示意图。

图5为本发明Text-to-sql模型2示意图。

图6为本发明完整Text-to-sql模型示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

目前，在相关技术领域，现有的问答模型获取正确答案的准确率较低，同时表格数量增加、种类繁杂，问题到表格的匹配再到答案的精确获取，其存在的累积误差也会导致整体的模型性能降低。

为了解决这一问题，提出本发明的基于问答的文本表格数据查询方法的各个实施例。本发明提供的基于问答的文本表格数据查询方法针对结构化的文本表格数据，通过表格检索模块实现对答案候选表格的确定，基于Text-to-sql模型将用户问题转化为结构化sql语句，最终根据sql语句从答案候选表格中获取精确答案，可以完成用户问题类型为单属性、最大、最小、平均、统计的精确查询，从选表、用户问题的解析到答案的精确获取，可以提升总体模型的准确率，同时统计型的问题答案可以深度挖掘表格数据中的隐藏信息，提高用户对数据分析研判的准确性。

本发明实施例提供了一种基于问答的文本表格数据查询方法，参照图1，图1为本发明基于问答的文本表格数据查询方法实施例的流程示意图。

本实施例中，所述基于问答的文本表格数据查询方法包括以下步骤：

S1：准备训练需要的表格数据；

S2：根据表格数据构建关键信息的Es数据库；

S3：训练构建的Bert语义相似匹配模型；

S5：构建Text-to-sql模型，预测sql查询语句。

具体而言，本实施例提供如下详细步骤：

步骤1：数据准备。

将文本结构化表格数据库作为问答的基础训练数据N,N中包含有m种类型的表格数据，其中每个表格存在k个问题，其训练数据可以表示为：

其中，“table_id”表示问题对应表格序号id。“question”表示针对该表格的问题。“sql”表示问题转化为sql语句的结构化子语句。“sel”表示问题所选择的列索引。“agg”表示sql的聚合操作，分别是单属性查询、平均(avg)、最大(max)、最小(min)、总数(count)、求和(sum)，其标签用0、1、2、3、4、5表示。“cond_conn_op”表示条件关系，分别是无关系、和(and)、或(or)，其标签分别用0、1、2表示。“conds”表示答案的查询约束条件，其形式为[cond_col(条件列)，cond_op(条件运算符(>、<、＝＝、！＝))、cond_val(条件值)]。根据上述SQL语句可完成问答到表格的信息查询。

步骤2：表格关键信息的Elasticsearch数据库建立。

基于问答的文本表格数据获取中，为了实现答案候选表格的精确匹配，采用ES检索+Bert语义相似模型。首先基于文本表格数据建立关键信息的Elasticsearch数据库，其ES检索数据库可表示为：

其中，“_index”表示es库名，“_type”表示es表名，“table_name”表示对应表格的表名，“table_header”表示对应表格的表头信息，“table_rows”表示对应表格的关键信息内容。基于上述建立的Es库，可通过Es检索获取和问题相关的前k个表格数据，缩小答案候选表格的查找范围。

步骤3：Bert语义相似匹配模型的建模。

为解决问题到表的精确匹配，采用ES检索+Bert语义相似匹配的方法。Bert语义相似匹配模型的输入为问题加表格表头字段的集合，输出为0或者1,结果越接近1表示问题和该表格信息最为相似。语义相似匹配模型采用基于注意力机制-LSTM网络的Bert微调模型。

输入层上将问题P＝{p₁,…,p_n}和表列名Q＝{q₁,…,q_n}按如下方式进行拼接。

X＝{[CLS],p₁,…,p_n,[SEP],q₁,…,q_n,[SEP]}

编码层上将拼接的X输入到Bert模型中进行编码，得到该序列的上下文编码向量：

Bert(X)＝L＝{l₁,l₂,…,l_m}

其中h∈R^n*,m输入X的长度，l_i为第i个字符的上下文表示。

聚合层上将Bert输出的上下文编码向量和注意力机制获取的信息进行连接，输入到双向的LSTM中进行训练，再经过池化之后得到固定长度的文本向量。

输出层上为了考虑Bert层输出学习到的关系向量，同时考虑聚合层训练学习到的关系向量，将Bert层输出的关系向量L和聚合层输出的关系向量R进行拼接，基于softmax函数计算文本相似性，公式如下：

r＝[R；L]

P＝Softmax[w*r+b]

其中P为预测的概率分布，越接近1表示两者越相似。

步骤4：候选答案表格的获取。

基于上述建立的ES检索+Bert语义相似匹配模型，首先基于ES检索，筛选出和问题相似的top_k个候选表格，再基于Bert语义相似匹配模型获取答案所对应的表格。

步骤5：Text-to-SQL模型的建模。

上述步骤完成了问题到表格检索模块的任务，为了提高对问题转SQL查询语句的准确率，本模型将Text-to-SQL任务解耦成多个子任务的方式，设计了基于预训练模型Bert的Text-to-SQL模型，模型的输入为问题和标签(Table)的形式，模型的输出结果为SQL语句的结构化表示。

借鉴X-SQL的思路，模型1主要预测SQL语句中sel、agg、cond_conn_op、以及conds中的条件列(cond_col)和条件运算符(cond_op)，其输入为问题、表格列名的顺序拼接，在列名之前添加NUM或者STR，其代表当前列的字段属性为数字型还是字符串型，其输入可表示为：

X₁＝{[CLS],p₁,…,p_n,[SEP][NUM],q₁,…,q_n,[SEP][STR],q₁,…,q_n[SEP]}

其中，p代表问题，q代表表列名。

X₁经过编码层Bert编码后，得到上述输入方式的一系列编码向量，接下来分别对SQL语句中的各个子项进行预测，其中[CLS]对应的是问题的句向量，而Bert为双向的预训练模型，所以[NUM][STR]包含了列名和问题左右两边的信息，[CLS]的编码向量可实现对cond_conn_op的预测，列名和问题的编码向量实现对sel、agg、conds的预测。其中conds包含[cond_col,cond_op,cond_val]三部分，预测较为复杂，同时问题中会出现泛化的问答方式，为了提高conds的预测准确率，conds部分基于两个模型分别去预测，模型1预测其中的cond_col、cond_op，模型2预测cond_val。

模型2预测conds中的cond_val，实现方式为将模型1中预测的cond_col、cond_op与所有cond_val形成候选组合，再将这些组合转化成一个二分类问题。其输入为问题加[cond_col、cond_op、cond_val]候选组合的顺序拼接，输入方式可表示为：

X₂＝{[CLS],p₁,…,p_n,[SEP],q₁,…,q_n,[SEP]}

其中，p代表问题，q代表[cond_col、cond_op、cond_val]候选组合。

X₂经过编码层Bert编码后，将[CLS]对应的编码向量经过2层全连接层进行二分类，判断候选组合是否和问题匹配，概率接近1的作为conds的组合，最后将模型1、2的子语句进行组合，得到完整的SQL语句。

步骤6：精确答案的获取。

基于上述算法模型，实现问答方式的文本表格数据的信息查询。在候选答案表格获取模块中，Es检索获取top k个候选表格，基于Bert的语义相似匹配模型从k个表格中获取答案候选表格，最后基于Text-to-SQL预测sql查询语句：{sel,agg,cond_conn_op,conds}，实现问题到答案的查询。

本实施例提供一种基于问答的文本表格数据查询方法，针对结构化的文本表格数据，通过表格检索模块实现对答案候选表格的确定，基于Text-to-sql模型将用户问题转化为结构化sql语句，最终根据sql语句从答案候选表格中获取精确答案，可以完成用户问题类型为单属性、最大、最小、平均、统计的精确查询，从选表、用户问题的解析到答案的精确获取，可以提升总体模型的准确率，同时统计型的问题答案可以深度挖掘表格数据中的隐藏信息，提高用户对数据分析研判的准确性。

为了更清楚的解释本申请，提出一种基于问答的文本表格数据查询方法的具体实例。

参阅图2，图2为基于问答的表格数据知识获取全流程示意图，其主要分为两个过程：首先用户输入问答问题，根据构建的Elasticsearch数据库，基于问题通过Es检索获取前top k个表格数据，将问题与获取的前top k个表格列名顺序拼接输入bert语义相似匹配模型，从而获取答案候选表格；根据获取的答案候选表格，将问题与表列名顺序拼接输入Text-to-SQL模型，预测出SQL查询语句，获取准确答案，下面结合具体实例一一阐述。

Es检索top k个候选表格的获取。

参见表1、表2、表3，以表1深圳土地出让比较、表2近期信托融资利率、表3北京土地出让比较表格素材数据为例。例如用户问题为{question：“2011至2012年深圳土地成交总价为多少？”}，首先基于Es检索在构建的Elasticsearch数据库中，基于问题筛选出前top 2个表格，其结果为{“表1深圳土地出让比较”、“表3北京土地出让比较”}。

表1深圳土地出让比较

年份	成交时间	土地面积	建筑面积	成交总价	开发商
						2011年	2011年8月18日	0.41	4.14	11839.0	深圳市海王星辰实业
2012年	2012年2月1日	0.29	3.96	9261.0	中建钢构

表2近期信托融资利率

年份	时间	初始融资规模上限(亿)	年利率	公司
					2011年	2011.4	5.0	15％	深圳市海王星辰实业
2012年	2011.5	15.5	15％	中建钢构

表3北京土地出让比较

年份	成交时间	建筑面积	成交总价	开发商
					2011年	2011年8月10日	4.43	15219.0	中南建设
2012年	2012年3月5日	3.31	10261.0	阳光城

答案候选表格的获取。

基于Es筛选出的候选表格数据，将问题question与候选表格的列名按顺序拼接输入Bert语义相似匹配模型，其输入形式为：

[CLS 2011至2012年深圳土地成交总价为多少？SEP成交时间SEP土地面积SEP建筑面积SEP成交总价SEP开发商SEP]

[CLS 2011至2012年北京土地成交总价为多少？SEP成交时间SEP建筑面积SEP成交总价SEP开发商SEP]

参见图3为Bert语义相似匹配模型，将上述行形式的文本数据输入至训练完成的Bert语义相似匹配模型中，输出和问题最为相似的答案候选表格，其结果为{“表1深圳土地出让比较”}。

SQL查询语句的预测。

基于Es检索+Bert语义相似匹配模型实现了对答案候选表格的获取，下一步基于答案候选表格和Text-to-sql模型实现对SQL语句的预测，其中对SQL子语句的预测分为两个模型，图4Text-to-sql模型1实现对sel、agg、cond_conn_op、以及conds中的条件列(cond_col)和条件运算符(cond_op)的预测，图5Text-to-sql模型2实现对conds中的条件值(cond_val)进行预测。

Text-to-sql模型1的输入为问题question、候选答案表格的列名按顺序拼接，其输入形式为：“[CLS 2011至2012年深圳土地成交总价为多少？SEP STR年份SEP STR时间SEPSTR土地面积SEP NUM建筑面积SEP NUM成交总价SEP STR开发商SEP]”，其输出结果为：{sel:[4]，agg:[5]，cond_conn_op:1，conds:[[0，2，‘’]]}。

基于Text-to-sql模型1的输出结果，需要将问题question、模型1输出conds中的[cond_col、cond_op]、答案候选表格中的对应列的内容按顺序拼接，作为图3Text-to-sql模型2的输入，其输入形式为：“[2011至2012年深圳土地成交总价为多少？SEP年份等于2011年SEP年份等于2012年SEP]”，其输出结果为：{“2011年”，“2012年”}。

通过Text-to-sql模型1和2分别预测出来问题question所对应的SQL查询子语句，其完整的SQL查询语句为：{sel:[4]，agg:[5]，cond_conn_op:1，conds:[[0，2，‘2011年’]，[0，2，‘2012年’]]}。

基于SQL语句的答案获取。

如图6所示，根据Text-to-SQL模型预测出的SQL语句，组合起来可实现对问题{question:“2011至2012年深圳土地成交总价为多少？”}答案的查询。

SQL查询语句为“select sum(舰船目标)from表1where年份＝2011年and年份＝2012”，答案为“21100”。

本施例基于统计求和问题进行了方法说明，同时本发明也可以实现对单属性、最大、最下、平均、求和问题类型的问答。

以上仅为发明的优选实施例，并非因此限制发明的专利范围，凡是利用发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在发明的专利保护范围内。

Claims

1.一种基于问答的文本表格数据查询方法，其特征在于，所述方法包括以下步骤：

S1：准备训练需要的表格数据；

S2：根据表格数据构建关键信息的Es数据库；

S3：训练构建的Bert语义相似匹配模型；

S5：构建Text-to-sql模型，预测sql查询语句。

2.如权利要求1所述的基于问答的文本表格数据查询方法，其特征在于，所述步骤S1具体为：将文本结构化表格数据库作为问答的基础训练数据N；其中，N包含有m种类型的表格数据，每个表格存在k个问题。

3.如权利要求1所述的基于问答的文本表格数据查询方法，其特征在于，所述步骤S3中，所述Bert语义相似匹配模型的输入为问题加表格表头字段的集合，输出为0或者1，结果越接近1表示问题和该表格信息最为相似。

4.如权利要求3所述的基于问答的文本表格数据查询方法，其特征在于，所述Bert语义相似匹配模型采用基于注意力机制-LSTM网络的Bert微调模型；其中：

5.如权利要求4所述的基于问答的文本表格数据查询方法，其特征在于，所述文本相似性的表达式为：

r＝[R；L]

P＝Softmax[w*r+b]

6.如权利要求5所述的基于问答的文本表格数据查询方法，其特征在于，所述步骤S4，具体包括：

基于Bert语义相似匹配模型获取答案候选表格。

7.如权利要求6所述的基于问答的文本表格数据查询方法，其特征在于，所述Text-to-sql模型包括：

对sql语句中的sel、agg、cond_conn_op、以及conds中的cond_col和cond_op进行预测的第一模型；以及对sql语句中的cond_val进行预测的第二模型；

8.如权利要求7所述的基于问答的文本表格数据查询方法，其特征在于，所述第一模型的输入为：

9.如权利要求8所述的基于问答的文本表格数据查询方法，其特征在于，所述第二模型的输入为：

X₂＝{[CLS],p₁,…,p_n,[SEP],q₁,…,q_n,[SEP]}。

10.如权利要求9所述的基于问答的文本表格数据查询方法，其特征在于，在步骤S5中，在获得第一模型预测的子语句和第二模型预测的子语句之后，将获得的子语句进行组合，得到完整的sql语句。