CN117033469B

CN117033469B - 一种基于表格语义注释的数据库检索方法、装置以及设备

Info

Publication number: CN117033469B
Application number: CN202311285986.7A
Authority: CN
Inventors: 李坤; 王永恒; 王芷霖; 王佳玮; 金雄男; 邵研; 段曼妮; 田品; 魏旺旺
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-10-07
Filing date: 2023-10-07
Publication date: 2024-01-16
Anticipated expiration: 2043-10-07
Also published as: CN117033469A

Abstract

在本说明书公开了一种基于表格语义注释的数据库检索方法、装置以及设备，根据训练完成的表格语义注释模型对数据库中各原始表格进行语义注释，得到第二语义注释表格，即确定原始表格中各实体单元格的语义以及该表格中各列的列类型。然后响应于用户的检索指令，对用户的检索指令进行文本预处理，并计算经过文本预处理后的检索指令与第二语义注释表格计算相似度，按照相似度从大到小的顺序筛选语义注释后的表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。使得数据库检索可根据表格的语义信息进行相似度匹配，提高了数据库检索的召回率和准确率。

Description

一种基于表格语义注释的数据库检索方法、装置以及设备

技术领域

本说明书涉及数据分析领域，尤其涉及一种基于表格语义注释的数据库检索方法、装置以及设备。

背景技术

随着大数据的发展，数据库常被应用于各个领域。为实现对数据库中数据的检索，现有技术常将数据转换位表格的形式，即将数据检索转化为表格检索。

现有技术在对数据库中表格进行检索时，将用户的检索命令转化为数据库查询语句，通过判断该查询语句在各表格中的命中率，判断该表格是否为目标表格，实现对数据库中表格数据进行检索。

但是，现有技术在对数据库中的表格数据进行检索时，忽略了表格本身的语义信息，即当用户的检索指令为表格内容的概括的文本语句时，计算机无法将用户的检索指令对应的表格数据，也就无法实现对表格的检索。因此，如何在数据库中快速检索出与用户检索内容关联性最大的表格数据成为一个亟待解决的问题。基于此，本说明书提供一种基于表格语义注释的数据库检索方法。

发明内容

本说明书提供一种基于表格语义注释的数据库检索方法、介质及设备，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种基于表格语义注释的数据库检索方法，包括：

获取数据库中各表格数据，作为原始表格；

将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义以及该表格中各列的列类型，确定各第一语义注释表格；

针对每个原始表格，根据该原始表格的数据，对该原始表格对应的第一语义注释表格合并，确定该原始表格对应的第二语义注释表格；

响应于用户输入的检索指令，对所述检索指令进行文本预处理；

计算所述预处理后的检索指令分别与各第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

可选地，获取数据库中各表格数据，作为原始表格，具体包括：

获取数据库中各表格数据；

针对每个表格数据，确定该表格数据中的重要数据，根据确定出的重要数据对该表格数据进行缺失值处理，对该表格数据进行删除和/或填补；

针对每个表格数据，确定该表格数据中的脏数据，并进行脏数据处理。

可选地，计算所述预处理后的检索指令分别与各第二语义注释表格的相似度之前，所述方法还包括：

对第二语义注释表格进行随机横向采样，然后对横向采样后的第二语义注释表格在纵向上进行随机采样，确定语义注释子表；其中，所述语义注释子表为每次采样后采样得到的表格；

对所述语义注释子表进行列数据增强，再将增强后的语义注释子表与所述第二语义注释表格合并，确定数据增强后的第二语义注释表格；

计算所述预处理后的检索指令分别与各第二语义注释表格的相似度，具体包括：

计算所述预处理后的检索指令分别与各数据增强后的第二语义注释表格的相似度。

可选地，所述数据增强包括：增加同义词、词向量替换以及反向翻译中至少一种。

可选地，对所述语义注释子表进行列数据增强，再将增强后的语义注释子表与所述第二语义注释表格合并，确定数据增强后的第二语义注释表格，具体包括：

针对所述语义注释子表的每个单元格，确定该单元格在第二语义注释表格中对应的单元格，将两个单元格中的数据进行文本合并，确定数据增强后的第二语义注释表格。

可选地，响应于用户输入的检索指令，对所述检索指令进行文本预处理，具体包括：

响应于用户输入的检索指令，对所述检索指令进行文本分词处理，确定各分词；

对各分词进行词性还原或去除无用词中至少一种处理，得到预处理后的检索指令。

可选地，根据所述预处理后的检索指令和所述各第二语义注释表格计算相似度，具体包括：

基于所述预处理后的检索指令和所述各第二语义注释表格，确定所述检索指令与所述第二语义注释表格之间的双语互译质量评估分数、哈希值或余弦相似度至少两种；

根据所述双语互译质量评估分数、哈希值或余弦相似度至少两种，计算所述检索指令与所述第二语义注释表格的相似度。

本说明书提供一种基于表格语义注释的数据库检索装置，所述装置包括：

获取模块，获取数据库中各表格数据，作为原始表格；

语义注释模块，将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义以及该表格中各列的列类型，确定各第一语义注释表格；

合并模块，针对每个原始表格，根据该原始表格的数据，对该原始表格对应的第一语义注释表格合并，确定该原始表格对应的第二语义注释表格；

接收模块，响应于用户输入的检索指令，对所述检索指令进行文本预处理；

检索模块，计算所述预处理后的检索指令分别与各第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于表格语义注释的数据库检索方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于表格语义注释的数据库检索方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的一种基于表格语义注释的数据库检索方法中，服务器根据训练完成的表格语义注释模型对数据库中各原始表格进行语义注释，得到第二语义注释表格，即确定原始表格中各实体单元格的语义以及该表格中各列的列类型。然后服务器响应于用户的检索指令，对用户的检索指令进行文本预处理，并计算经过文本预处理后的检索指令与第二语义注释表格计算相似度，按照相似度从大到小的顺序筛选语义注释后的表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

从上述方法可以看出，服务器通过对表格数据进行语义注释，补充表格的语义信息，再通过计算检索指令和语义注释后的表格之间的相似度，确定检索结果。使得数据库检索可根据表格的语义信息进行相似度匹配，提高了数据库检索的召回率和准确率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书实施例提供的一种基于表格语义注释的数据库检索方法的流程示意图；

图2为本说明书实施例提供的一种表格数据合并的方法的示意图；

图3为本说明书实施例提供的一种一次采样后的表格和采样后的表格和采样前的表格数据合并方法的示意图；

图4为本说明书实施例提供的一种基于表格语义注释的数据库检索装置的示意图；

图5为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种基于表格语义注释的数据库检索方法的流程示意图，具体包括以下步骤：

S100：获取数据库中各表格数据，作为原始表格。

在本说明书一个或多个实施例中，不限制具体由何种设备实行该数据库检索方法，例如，个人电脑、移动终端以及服务器等。但由于后续步骤涉及到模型输入、响应指令以及计算相似度等操作，而这种对计算资源的要求较高的操作一般都由服务器来执行，因此本说明书后续也以服务器执行该数据库检索过程为例进行描述。其中，该服务器可以是单独的一台设备，或者由多台设备组成，例如，分布式服务器，本说明书对此不做限制。

具体的，在本说明书一个或多个实施例中，该服务器获取数据库中的数据，由于数据库中数据的储存方式多样，除了以表格的形式存储外，还可能是以文本或矩阵等形式存储在数据库中。因此，为通过对数据库中的表格数据进行表格语义注释，实现对数据库的检索，可将以非表格形式存储的数据输入进空白的表格中，再进行后续的数据库检索。

进一步的，在服务器对数据库中的数据进行检索前，为了完善各表格的信息，可对表格进行缺失值处理。具体的，可通过填补法和删除法进行缺失值的预处理。一般的，对于缺失值少的行或列采用填补法，对于缺失值多的行或列采用删除法。还可以根据缺失值所在行或列在全表的重要程度选择填补法或删除法，对于重要程度高的行或列的缺失值，选择填补法，即使该行或列缺失值多也不能删除，而对于重要程度低的行或列的缺失值，可采用删除法删除该行或该列。

为了统一待匹配表格的数据格式，服务器可以对表格进行脏数据预处理，对单元格中杂乱数据进行格式统一，如对表格数据单位的统一、小数保留位数的统一和日期格式的统一等。

基于上述内容，在本说明书一个或多个实施例中，该服务器在获取数据库中表格内容后，对表格数据进行完善，以完善后的各表格作为各原始表格。

S102：将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义以及该表格中各列的列类型，确定各第一语义注释表格。

由于服务器无法识别人类语言，在对数据库进行检索时，无法识别表格数据包含的语义信息，基于此，在本说明书一个或多个实施例中，服务器将该表格输入训练完成的语义注释模型，确定表格中各实体单元格的语义以及该表格中各列的列类型，补充表格数据的语义信息，使得表格数据的语义信息在进行相似度匹配时可以被识别。

具体的，通过语义注释模型对原始表格中各实体单元格进行单元格实体注释（Cell-Entity Annotation ，CEA），即对各实体单元格进行特征提取，确定各实体单元格对应的语义特征，根据各实体单元格在知识图谱中对应的实体特征，对各语义特征进行特征识别，确定各实体单元格的语义确定该单元格的语义。

另外，通过将表格输入语义注释模型对原始表格中各列进行列类型注释（ColumnType Annotation ，CTA），确定各列的列类型。语义注释模型根据知识图谱，对表格各列的列类型进行预测，将每列分类到对应的语义类型，如“国家名称”、“人口”、“生日”等，并输出各列属于各种列类型的概率，将该列对应的概率最大的列类型作为该列的列类型。

更进一步的，该语义注释模型可通过大量经过标注各实体单元格的实体和各列的列类型的表格样本进行训练。即将标注样本输入预训练的语义注释模型中，得到模型输出的各实体单元格的实体和各列的列类型预测结果，以该预测结果和样本标注中的实体和列类型的误差最小为目标，调整模型参数直到模型收敛，能够输出期望精度的实体单元格的实体和列类型。当然，也可采用无监督学习方式对模型进行预训练，通过获取样本本身性质调整参数，达到期望精度。

由于样本信息量大，分类任务复杂，可能导致语义注释模型的训练难以达到收敛的情况。为了达到更好的收敛效果，可以将语义注释模型分为实体注释模型、列注释模型来分别进行训练。另外，可以通过为模型设置两个不同的输出层，使列注释模型可同时输出列类型和列关系。

具体的，实体注释模型可选用表征学习表注释（Table Understanding throughRepresentation Learning，TURL）模型。即将实体单元格对应到知识图谱中的实体，确定各实体单元格对应的语义。列注释模型可以选用多任务学习框架（multi-task learningframework），如Dodou模型，根据知识图谱，对表格各列的列类型进行预测，将每列分类到对应的语义类型。

需要说明的是，也可选用其他的模型来进行表格的CEA和CTA操作，如，基于树的通用结构化表格预训练变压器（Tree-based Transformers for Generally StructuredTable Pre-training，TUTA）模型、通过预训练的弱监督表解析（Weakly Supervised TableParsing via Pre-training，TAPAS）模型等，本说明书不做具体限定。

基于此，在本说明书一个或多个实施例中，该语义注释模型包括实体注释模型和列注释模型。在原始表格输入进该语义注释模型后，该模型的输出结果为实体注释后的表格和列注释之后的表格。在本说明书中上述注释后的表格统称为原始表格的各第一语义注释表格。

S104：针对每个原始表格，根据该原始表格的数据，对该原始表格对应的第一语义注释表格合并，确定该原始表格对应的第二语义注释表格。

根据步骤S102可知，在本说明书一个或多个实施例中，服务器通过语义注释模型对各表格所包含的语义信息进行解析，实现对各表格数据进行语义信息的注释时，该模型的输出结果为该原始表格的各第一语义注释表格。为方便后续相似度计算，本说明书将两个表格中的数据进行合并，即对应单元格中的数据合并到一起，确定第二语义注释表格。

如图2所示。图2为本说明书实施例提供的表格数据合并方法的示意图。具体的，表1和表2为待合并的表格，根据每个单元格在原表格中的所处的行和列，确定相对应的单元格。将对应的单元格中的内容合并，若有相同的数据，如表1和表2中第一行第一列的单元格，由于内容都为“所属科目”，因此在进行合并时，合并后的单元格仅包含一个“所属科目”。若存在不同的数据，则将不同的数据同时存储在该单元格中。因此，表3为表1和表2合并后的结果。

S106：响应于用户输入的检索指令，对所述检索指令进行文本预处理。

在本说明书一个或多个实施例中，用户输入的检索指令区别于数据库查询命令（SQL），并不是一串代码，而是一段文本。然而服务器无法直接理解用户输入的文本检索指令，为提高检索的召回率和准确率，在本说明书一个或多个实施例中，服务器对用户输入的检索指令进行预处理，使用户的检索指令以便后续根据检索指令和第二语义注释表格进行相似度计算。

具体地，服务器响应到用户输入检索指令后，对所述检索指令进行文本分词处理，根据检索指令的复杂程度，判断是否还需要进行其他预处理。当检索指令为一个或少量关键词时，则可直接进行下一步的相似度计算。若检索指令为一句话时，对分词处理后的检索指令进行文本预处理，包括：词性还原、去除无用词等至少一种。需要说明的是，用户的检索指令可以是中文、英文、法文等不同语言的文本语句，因此，文本预处理还可以包括：小写转换、拼写纠正等步骤中至少一种。

S108：计算所述预处理后的检索指令分别与各第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

由于，仅根据一种特征进行相似度计算，会忽略表格语义信息的一部分内容，例如，若仅根据检索指令和第二语义注释表格之间的双语互译质量评估分数（BLEU分数），进行相似度匹配，只考虑了表面上的相似度，而忽略了生成文本的语法和语义等其他方面。

基于此，在本说明书一个或多个实施例中，服务器可根据检索指令和第二语义注释表格计算BLEU分数、哈希值(Simhash)以及余弦相似度（cosine similarity），基于预设公式：

计算检索指令和第二语义注释表格之间的相似度。其中，α、β、γ、可根据实际需要设置，α、β、γ至少两个不为零且满足α+β+γ=1，/>为非零值，例如为5，S为检索指令和第二语义注释表格之间的相似度。

根据得到的相似度，按照由大到小的顺序，输出预设数量的原始表格，作为检索结果。

基于图1所示的一种基于表格语义注释的数据库检索方法，服务器根据训练完成的表格语义注释模型对数据库中各原始表格进行语义注释，得到第二语义注释表格，即确定原始表格中各实体单元格的语义以及该表格中各列的列类型。然后服务器响应于用户的检索指令，对用户的检索指令进行文本预处理，并计算经过文本预处理后的检索指令与第二语义注释表格计算相似度，按照相似度从大到小的顺序筛选语义注释后的表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

在步骤S100中，服务器在对待匹配的两个表格进行进一步处理之前，为了完善表格信息，并统一待匹配表格的数据格式，可对表格数据进行预处理。为完善表格信息，可对表格进行缺失值预处理。具体的，可通过填补法和删除法进行缺失值的预处理。一般的，对于缺失值少的行或列采用填补法，对于缺失值多的行或列采用删除法。还可以根据缺失值所在行或列在全表的重要程度选择填补法或删除法，对于重要程度高的行或列的缺失值，选择填补法，即使该行或列缺失值多也不能删除，而对于重要程度低的行或列的缺失值，可采用删除法删除该行或该列。

为统一待匹配表格的数据格式，服务器可以对表格进行脏数据预处理，对单元格中杂乱数据进行格式统一，如对表格数据单位的统一、小数保留位数的统一和日期格式的统一等。

另外，该表格的表格结构除了可以表征表格中的实体单元格外，还可表征表格的标题行和主题列。

具体的，服务器可根据预设的标题行识别规则，对该表格的每行进行识别，确定该表格中的标题行，以及根据预设的主题列识别规则，对该表格的每列进行识别，确定该表格中的主题列。

其中，标题行识别规则可设置为：表格前几行一般是标题行、标题行的数据类型集合应该和其余行数据类型集合存在较大差异以及标题行的文本要么很长要么很短，服务器根据此识别规则对表格的每行进行识别，确定出满足此三条标题行识别规则的最优行，作为该表格的标题行。

类似的，主题列识别规则可设置为：一列中多行的内容都为实体单元格则该列大概率为主题列、主题列的单元格内容长度均值在5~100区间范围内以及主题列的缺失值应该较少，服务器根据此识别规则对表格的每列进行识别，确定出满足此三条主题列识别规则的最优列，作为该表格的主题列。

一般的，标题行为表格整体内容的概括，主题列为表格整体内容的表达角度。当然，也会有表格本身没有标题行的情况，此时主题列也可作为表格整体内容的概况。根据识别出的各实体单元格、所述标题行以及所述主题列，确定该表格的表格结构，这样就可以对表格中除标题行和主题列以外的实体单元格进行进一步的语义注释，以用于表格间的匹配。

当然，针对标题行和主题列的识别规则也可以根据具体应用情况设置，本说明书不做具体限定。

在步骤S102中，当列注释模型为Dodou模型时，表格语义注释模型还可同时对表格进行CTA操作和列关系注释（Columns-Property Annotation，CPA）操作，输出表格各列的列类型和各列之间的列关系。Dodou模型可以根据各列实体单元格在知识图谱中对应的实体之间的关系，将各列实体间对应的关系确定为列关系，以此对表格进行各列之间关系的预测。例如，输入的列对中，一列是电影中角色的名称，另一列是演员的名字，则根据列属性注释模型可确定，该列对的列关系为出演的关系，进一步的丰富表格的语义信息。在步骤S102和S104中，由于原始表格输入进语义注释模型后，增加了原始表格中各实体单元格的语义，以及表格中各列的列类型，为提高数据库检索的召回率和准确率，还可对第二语义注释表格中的数据进行进一步的增强，即进一步丰富第二语义注释表格的语义信息。

具体的，针对每个第二语义注释表格，对该第二语义注释表格的列名信息进行增强，如用相同词性的同义词丰富原始文本中的单词从而增加词汇的多样性。例如，原本列名信息为“年龄”，则可增加“年纪”、“岁数”等词汇到该列名中。

可选地，也可以将原本的列名信息输入进训练好的文本嵌入模型中，使用嵌入空间中相邻的单词替换列名信息中某些单词，现有技术中文本嵌入模型种类繁多，可以是Word2Vec 模型、skip-gram（跳字）模型、也可以是sentence-transformers/all-MiniLM-L6-v2模型，因此在本说明书一个或多个实施例中，不对具体的模型进行限定。

可选地，还可以将列名信息反向翻译。以列名信息为中文为例，将列名信息翻译为其他语言，再将翻译后的文本翻译成中文，若该中文结果与列名信息不一致，则将该中文结果加入到列名信息中。

需要说明的是，上述对列名信息进行数据增强的方法可以同时进行，也可以根据某一种方法得到的数据增强后的结果再进行数据增强，具体可根据表格数据的实际情况选择。同时，除上述列名信息数据增强方法，还可以用其他的方法进行数据增强，本说明书不一一列举。

更进一步的，由于数据库中数据量较大，对所有表格数据都进行数据增强计算量较大，会导致检索速度较慢，对服务器算力需求也较高，基于此，在本说明书一个或多个实施例中，还可以对第二语义注释表格进行采样，确定一个或多个语义注释子表，对各语义注释子表进行数据增强。再将数据增强后的语义注释子表与第二语义注释表格合并，确定数据增强后的第二语义注释表格。

具体地，对第二语义注释表格进行随机横向采样，然后对横向采样后的第二语义注释表格在纵向上进行随机采样。每次采样后，记录采样得到的单元格在原第二语义注释表格中的位置，该位置的单元格作为数据增强后的单元格对应的单元格。然后将采样得到的行和列拼接为一个表格，即为语义注释子表。需要说明的是，无论是横向采样还是纵向采样，每次采样的行或列的数量是随机的，采样规则也是随机的，对采样次数可根据表格实际大小确定。对于不包含列名信息的表格，为了方便对该表格进行数据增强，可在对列进行采样的同时，提取数据类型为字符串的内容提取关键词，以该关键词为该列的列名信息。

对采样后得到的各语义注释子表通过上述的数据增强方法，确定数据增强后的语义注释子表，针对每个增强后的语义注释子表的每个单元格，确定该单元格在第二语义注释表格中对应的单元格，将两个单元格中的数据进行文本合并确定该第二语义注释表格对应的数据增强后的第二语义注释表格。

如图3所示，图3本说明书实施例提供的一次采样后的表格和采样后的表格和采样前的表格数据合并方法的示意图。

其中，表4为一个待抽样表格，表4中横线填充的行和列为一次抽样中，选中的行和列，基于此次采样，可获得四个单元格，将其拼接为一个表格得到表5。记录表5中各单元格在表4中的位置，例如，表5第一行第一列的单元格对应于表4的第二行第二列的单元格。对表5中的各单元格进行数据增强，在本示意图中获取了该单元格内数据的大写形式，获得表6。将表6与表4合并，即将对应的单元格中的内容基于图3所述的合并方法进行合并。得到数据增强后的表7。

可选地，由于原始表格和第二语义注释表格大小相同，因此还可以在进行数据增强前，对原始表格进行采样。每次采样后，记录采样得到的单元格在第二语义注释表格中的位置，该位置的单元格作为数据增强后的单元格对应的单元格。然后将采样得到的行和列拼接为一个表格，得到语义注释子表。再对采样后得到的各语义注释子表通过上述的数据增强方法，确定数据增强后的语义注释子表，针对每个增强后的语义注释子表的每个单元格，确定该单元格在第二语义注释表格中对应的单元格，将两个单元格中的数据进行文本合并确定该第二语义注释表格对应的数据增强后的第二语义注释表格。

本说明书还提供了相应的基于表格语义注释的数据库检索的装置，如图4所示。

图4为本说明书提供的一种基于表格语义注释的数据库检索的装置示意图，具体包括：

获取模块200，获取数据库中各表格数据，作为原始表格。

语义注释模块201，将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义以及该表格中各列的列类型，确定各第一语义注释表格。

合并模块202，针对每个原始表格，根据该原始表格的数据，对该原始表格对应的第一语义注释表格合并，确定该原始表格对应的第二语义注释表格。

接收模块203，响应于用户输入的检索指令，对所述检索指令进行文本预处理。

检索模块204，计算所述预处理后的检索指令分别与各第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

可选地，所述获取模块200，具体用于，获取数据库中各表格数据；对每个表格数据，确定该表格数据中的重要数据，根据确定出的重要数据对该表格数据进行缺失值处理，对该表格数据进行删除和/或填补；针对每个表格数据，确定该表格数据中的脏数据，并进行脏数据处理。

可选地，所述接收模块203具体用于响应于用户输入的检索指令，对所述检索指令进行文本分词处理，确定各分词；对各分词进行词性还原或去除无用词中至少一种处理，得到预处理后的检索指令。

可选地，所述检索模块204具体用于，基于所述预处理后的检索指令和所述各第二语义注释表格，确定所述检索指令与所述第二语义注释表格之间的双语互译质量评估分数、哈希值或余弦相似度至少两种；根据所述双语互译质量评估分数、哈希值或余弦相似度至少两种，计算所述检索指令与所述第二语义注释表格的相似度。

可选地，所述装置除上述模块外还包括数据增强模块205，具体用于，在计算所述预处理后的检索指令分别与各第二语义注释表格的相似度之前，对第二语义注释表格进行随机横向采样，然后对横向采样后的第二语义注释表格在纵向上进行随机采样，确定语义注释子表；其中，所述语义注释子表为每次采样后采样得到的表格；对所述语义注释子表进行列数据增强，所述数据增强包括：增加同义词、词向量替换以及反向翻译中至少一种。再将增强后的语义注释子表与所述第二语义注释表格合并，针对所述语义注释子表的每个单元格，确定该单元格在第二语义注释表格中对应的单元格，将两个单元格中的数据进行文本合并，确定数据增强后的第二语义注释表格；算所述预处理后的检索指令分别与各第二语义注释表格的相似度，具体包括：计算所述预处理后的检索指令分别与各数据增强后的第二语义注释表格的相似度。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的基于表格语义注释的数据库检索方法。

本说明书还提供了图5示的电子设备的示意结构图。如图5所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的基于表格语义注释的数据库检索方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进（例如，对二极管、晶体管、开关等电路结构的改进）还是软件上的改进（对于方法流程的改进）。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件（Programmable Logic Device, PLD）（例如现场可编程门阵列（Field Programmable GateArray，FPGA））就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器（logic compiler）”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言（Hardware Description Language，HDL），而HDL也并非仅有一种，而是有许多种，如ABEL（Advanced Boolean Expression Language）、AHDL（Altera Hardware DescriptionLanguage）、Confluence、CUPL（Cornell University Programming Language）、HDCal、JHDL（Java Hardware Description Language）、Lava、Lola、MyHDL、PALASM、RHDL（RubyHardware Description Language）等，目前最普遍使用的是VHDL（Very-High-SpeedIntegrated Circuit Hardware Description Language）与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该（微）处理器执行的计算机可读程序代码（例如软件或固件）的计算机可读介质、逻辑门、开关、专用集成电路（Application Specific Integrated Circuit，ASIC）、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于表格语义注释的数据库检索方法，其特征在于，包括：

获取数据库中各表格数据，作为原始表格；

将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义、以及该表格中各列的列类型或该表格中各列之间的列关系中至少一种，确定各第一语义注释表格；

针对每个原始表格，将该原始表格对应的第一语义注释表格中各单元格中的各实体单元格的语义、以及该表格中各列的列类型或该表格中各列之间的列关系中至少一种，与原始表格对应单元格中的内容合并，确定该原始表格对应的第二语义注释表格；

对所述语义注释子表进行列数据增强，再将增强后的语义注释子表与所述第二语义注释表格合并，确定数据增强后的第二语义注释表格，其中，所述数据增强包括：增加同义词、词向量替换以及反向翻译中至少一种；

计算所述预处理后的检索指令分别与各数据增强后的第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

2.如权利要求1所述方法，其特征在于，获取数据库中各表格数据，作为原始表格，具体包括：

获取数据库中各表格数据；

3.如权利要求1所述方法，其特征在于，对所述语义注释子表进行列数据增强，再将增强后的语义注释子表与所述第二语义注释表格合并，确定数据增强后的第二语义注释表格，具体包括：

4.如权利要求1所述方法，其特征在于，响应于用户输入的检索指令，对所述检索指令进行文本预处理，具体包括：

5.如权利要求1所述方法，其特征在于，根据所述预处理后的检索指令和所述各第二语义注释表格计算相似度，具体包括：

6.一种基于表格语义注释的数据库检索装置，其特征在于，包括：

获取模块，获取数据库中各表格数据，作为原始表格；

语义注释模块，将各原始表格输入训练完成的语义注释模型，确定各原始表格中各实体单元格的语义、以及该表格中各列的列类型或该表格中各列之间的列关系中至少一种，确定各第一语义注释表格；

合并模块，针对每个原始表格，将该原始表格对应的第一语义注释表格中各单元格中的各实体单元格的语义、以及该表格中各列的列类型或该表格中各列之间的列关系中至少一种，与原始表格对应单元格中的内容合并，确定该原始表格对应的第二语义注释表格；

采样模块，用于对第二语义注释表格进行随机横向采样，然后对横向采样后的第二语义注释表格在纵向上进行随机采样，确定语义注释子表；其中，所述语义注释子表为每次采样后采样得到的表格；

增强模块，用于对所述语义注释子表进行列数据增强，再将增强后的语义注释子表与所述第二语义注释表格合并，确定数据增强后的第二语义注释表格，其中，所述数据增强包括：增加同义词、词向量替换以及反向翻译中至少一种；

检索模块，计算所述预处理后的检索指令分别与各数据增强后的第二语义注释表格的相似度，按照相似度从大到小的顺序，筛选预设数量的第二语义注释表格，将筛选出的第二语义注释表格对应的原始表格作为检索结果。

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1~5任一项所述的方法。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1~5任一项所述的方法。