CN109299094A

CN109299094A - 数据表处理方法、装置、计算机设备和存储介质

Info

Publication number: CN109299094A
Application number: CN201811090036.8A
Authority: CN
Inventors: 柳明辉; 徐国强; 黄北辰; 杨镭; 付晓
Original assignee: OneConnect Smart Technology Co Ltd
Current assignee: OneConnect Smart Technology Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-01
Also published as: WO2020057021A1

Abstract

本申请涉及一种数据表处理方法、装置、计算机设备和存储介质。本申请涉及数据分析技术领域，所述数据表处理方法具体包括：获取用户上传的数据表；对数据表进行解析，得到数据表的表结构信息；通过已训练的标注模型对表结构信息进行识别，输出表结构信息中各个字段名的标注结果；标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；将标注结果与数据表对应存储。采用本方法能够提高对数据表进行标注的效率。

Description

数据表处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据表处理方法、装置、计算机设备和存储介质。

背景技术

目前，市场上针对各行各业都配备有相应的大数据平台，这些数据平台可以基于用户的输入获取数据并进行统计，还可以报表的形式将统计的结果可视化地呈现给用户，满足用户的数据分析需求。

为了能够获取与用户的输入相匹配的数据，通常需要对数据源库中的数据进行预处理，然而，现有的数据平台通常只能对数据源库中的数据进行简单的规范字段名等处理，而在需要对字段名标注是否可作为维度或范围时，通常都是依赖于人工处理，需要人工执行大量的重复工作，导致处理效率十分低下。

发明内容

基于此，有必要针对上述技术问题，提供一种能够自动对数据源库中的数据表进行标注，从而提高标注效率的数据表处理方法、装置、计算机设备和存储介质。

一种数据表处理方法，所述方法包括：

获取用户上传的数据表；

对所述数据表进行解析，得到所述数据表的表结构信息；

通过已训练的标注模型对所述表结构信息进行识别，输出所述表结构信息中各个字段名的标注结果；所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；

将所述标注结果与所述数据表对应存储。

在其中一个实施例中，还包括：

获取用户输入的检索词条；

识别所述检索词条对应的检索范围和检索维度；

获取数据源库中各数据表对应的标注结果；

根据所述标注结果，从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据。

在其中一个实施例中，所述根据所述标注结果，从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据包括：

将所述检索范围与所述标注结果中可作为检索范围的字段名进行匹配；

将所述检索维度与所述标注结果中可作为检索维度的字段名进行匹配；

按照匹配的字段名，从所述数据库源中筛选出报表数据。

在其中一个实施例中，所述表结构信息包括字段名和字段值类型；所述对所述数据表进行解析，得到所述数据表的表结构信息包括：

提取所述数据表的表头所包括的字段名；

统计各所述字段名对应的枚举值；

将各所述字段名对应的字段值的字符类型作为所述字段名的字段值类型；

根据所述字段名以及相应的枚举值、字段值类型确定所述数据表的表结构信息。

在其中一个实施例中，所述通过已训练的标注模型对所述表结构信息进行识别，输出所述数据表中各个字段名的标注结果包括：

获取用户选定的业务场景类别；

将所述表结构信息输入至已训练的与所述业务场景类别对应的标注模型中，通过所述标注模型根据所述表结构信息得到所述数据表中各字段名对应的特征向量；

对各所述字段名对应的特征向量进行变换，输出所述数据表中各个字段名对应的标注结果。

在其中一个实施例中，所述标注模型的训练步骤包括：

获取训练样本语料和测试样本语料；

获取所述训练样本语料中各个训练样本、所述测试样本语料中各个测试样本对应的标注结果；

循环执行将标注好的当前训练样本输入至机器学习模型中，输出当前训练样本对应的预测结果，将当前训练样本输出的预测结果与相应的标注结果进行比较，在差异不符合预设条件时，调整所述机器学习模型的模型参数，在差异符合预设条件时，接受前次调整的模型参数的步骤，直至所述训练样本语料训练完毕；

将所述测试样本语料中的各个测试样本输入至训练完毕的机器学习模型中，输出各个测试样本对应的预测结果；

基于各个测试样本对应的预测结果与相应的标注结果之间的差异，统计所述机器学习模型的准确率；

当统计的所述准确率符合训练停止条件时，得到训练好的标注模型。

在其中一个实施例中，还包括：

展示各个字段名及相应的标注结果；

获取用户从展示的所述字段名中选取输入的至少两个字段名；

获取用户输入的与所述至少两个字段名相关联的中间字段名；

将所述中间字段名与所述数据表对应存储；所述中间字段名的标注结果与所述选取输入的至少两个字段名相同。

一种数据表处理装置，所述装置包括：

获取模块，用于获取用户上传的数据表；

解析模块，用于对所述数据表进行解析，得到所述数据表的表结构信息；

标注模块，用于通过已训练的标注模型对所述表结构信息进行识别，输出所述数据表中各个字段名的标注结果；所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；

存储模块，用于将所述标注结果与所述数据表对应存储。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取用户上传的数据表；

对所述数据表进行解析，得到所述数据表的表结构信息；

通过已训练的标注模型对所述表结构信息进行识别，输出所述数据表中各个字段名的标注结果；所述标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；

将所述标注结果与所述数据表对应存储。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取用户上传的数据表；

对所述数据表进行解析，得到所述数据表的表结构信息；

将所述标注结果与所述数据表对应存储。

上述数据表处理方法、装置、计算机设备和存储介质，在获取到用户上传的数据表时，就对数据表进行解析，得到数据表的表结构信息，表结构信息可以反映出数据表所包括的内容和字段名，然后通过已训练的标注模型对表结构信息进行识别，可自动输出数据表中各个字段名对应的标注结果，标注结果能够确定数据表中的字段名能否作为检索范围或检索维度，这样，就实现了对用户上传的数据表中的字段名进行自动标注，相比于人工标注，大大地提高了对数据表进行标注的效率，并且，将标注结果与该数据表对应存储，能够便于从数据表中获取与用户的检索词条匹配的数据。

附图说明

图1为一个实施例中数据表处理方法的应用场景图；

图2为一个实施例中数据表处理方法的流程示意图；

图3为一个实施例中根据标注结果筛选报表数据的步骤的流程示意图；

图4为一个具体的实施例中数据表处理方法的流程示意图；

图5为一个实施例中数据表处理装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据表处理方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。终端102可获取用户上传的数据表，并对数据表进行解析，得到数据表的表结构信息，终端120还可以通过已训练的标注模型对表结构信息进行识别，输出数据表中各个字段名的标注结果，标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；终端102还可将得到的标注结果与数据表对应存储，对应存储在服务器中。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现，还可以是提供云服务、云数据库、云存储等基础云计算服务的云服务器。

需要说明的是，上述的应用环境只是一个示例，在一些实施例中，终端102还可将获取的表结构信息发送至服务器104，由服务器104通过已训练的标注模型对表结构信息进行识别，得到与数据表中各个字段名对应的标注结果，由服务器120标注结果与数据表对应存储，终端102可从服务器获取该数据表对应的标注结果。

在一个实施例中，如图2所示，提供了一种数据表处理方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

步骤202，获取用户上传的数据表。

其中，数据表是一种结构化的数据表格，比如可以是CSV(逗号分隔值，Comma-Separated Values)格式的表格，CSV数据表以纯文本形式存储表格数据，存储的表格数据包括数值型和字符型。具体地，可提供网页界面，用户通过该网页界面上传数据表，终端就可获取用户上传的数据表。在一个实施例中，每个用户需按预设的文件格式或表格模板生成包含报表数据的数据表，以便终端可解析出上传的数据表的表结构信息。

如下表1所示，为一个实施例中上传的CSV格式的数据表的示意图。

表1

从上表1中可以看出，该数据表中每一行的元素之间用逗号分隔开，第一行的元素用于表示这一列的列名，也叫数据表的表头或字段名，相应的该列中的元素为字段名对应的字段值，一个字段名对应了多个字段值。

步骤204，对数据表进行解析，得到数据表的表结构信息。

其中，表结构信息是能够表示数据表所包括的内容的信息。具体地，终端可约束用户上传的数据表的格式或形式，用户上传的数据表是符合固定格式的，这样，终端就可按照该预设的格式或形式对数据表进行解析，得到数据表的表结构信息。

在一个实施例中，表结构信息包括字段名和字段值类型；步骤S204，对数据表进行解析，得到数据表的表结构信息具体包括：提取数据表的表头所包括的字段名；统计各字段名对应的枚举值；将各字段名对应的字段值的字符类型作为字段名的字段值类型；根据字段名以及相应的枚举值、字段值类型确定数据表的表结构信息。

具体地，终端可提取当前用户上传的数据表的表头所包括的各个字段名，得到所有的字段名。终端还可统计各个字段名对应的字段值，将字段值分类，有多少类就代表该字段名有多少个枚举值。比如，在前文展示的表1中提取到字段名为“性别”对应的字段值只有“男”和“女”两种类别，那么字段名“性别”对应的枚举值包括“男、女”，类似地，在表1中，字段名“学历”对应的枚举值包括“大专、本科、硕士”。

可以理解，对于无法穷举字段值的字段名或者是字段值的类别超过预设数量(比如20)的字段名而言，由于字段值是非常分散的，则终端可判断该字段名没有枚举值。比如，对于表1中的字段名“姓名”而言，统计它的枚举值是没有意义的，每一行都不一样，又比如，对于字段名“贷款金额”而言，不同地区、不同性别、不同学历的贷款金额都不一样，因此该字段名也没有枚举值。终端可将不存在枚举值的字段名对应的枚举值记为“无”。

字段值类型是字段值的字符类型，包括字符型和数值型。比如，在上表1中，姓名、性别、学历、地区的字段值类型是字符型，年龄、贷款金额、贷款时间、身份证号码是纯数值型的，对应的字段值类型为数值型。

终端对用户上传的数据表进行解析，可得到每个字段名，对于存在枚举值的字段名还可获得相应的枚举值，以及相应的字段值类型，这样，终端就获取了能够表达整个数据表所包括内容的表结构信息。

步骤206，通过已训练的标注模型对表结构信息进行识别，输出表结构信息中各个字段名的标注结果；标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种。

具体地，终端可通过已训练的机器学习模型对输入的表结构信息进行识别，输出数据表中各个字段名的标注结果。其中，标注结果是通过标注模型自动对数据表中的各个字段名进行标注得到的结果，包括该字段名仅能作为检索范围、仅能作为检索维度以及既可以作为检索范围又可以作为检索维度中的一种。

检索范围可作为从数据源库存储的大量的数据中进行数据筛选的条件，终端可从数据源库中按照检索范围筛选出生成报表所需的报表数据；检索维度可作为对筛选出的数据进行展示的展示维度。若该字段名能作为检索范围，在从数据源库中筛选报表数据时，终端可以从可作为检索范围的字段名对应的字段值中进行筛选；类似地，若该字段名能作为检索维度，在从数据源库中筛选报表数据时，终端可以从可作为检索维度的字段名对应的字段值中进行筛选，能够提高筛选的数据与用户输入的检索词条之间的匹配度。

在一个实施例中，步骤206，通过已训练的标注模型对表结构信息进行识别，输出数据表中各个字段名的标注结果包括：获取用户选定的业务场景类别；将表结构信息输入至已训练的与业务场景类别对应的标注模型中，通过标注模型根据表结构信息得到数据表中各字段名对应的特征向量；对各字段名对应的特征向量进行变换，输出数据表中各个字段名对应的标注结果。

其中，业务场景类别用于区分不同的业务场景，不同的业务场景对应不同的数据源库，也对应不同的标注模型。业务场景包括贷款业务、保险业务、理财业务、银行业务等，这些不同的业务场景所涉及到的数据源库的数据是不一样的，在训练标注模型时，所采用的训练语料也不一样，也就是，不同的业务场景需要用不同的标注模型对表结构信息进行识别。

具体地，在用户进入检索平台时，终端可提供业务场景类别供用户选择，用户选定了业务场景类别后，上传数据表，终端对数据表进行解析得到表结构信息，终端可调取与该业务场景类别对应的标注模型，根据解析得到的表结构信息得到各个字段名对应的特征向量，然后通过标注模型的隐藏层的模型参数与得到的特征向量进行变换，输出各个字段名是否可作为检索范围或检索维度的标注结果。

在一个实施例中，终端在获得了数据表的表结构信息后，可根据字段名、该字段名对应的枚举值、该字段名对应的字段值类型确定各个字段名对应的特征向量。具体地，可将数据表中各个字段名向量化，得到各个字段名的向量化表示，并获取各个字段名相应的枚举值的词向量，根据字段名、是否存在枚举值、枚举值的个数、字段值类型等特征生成各个字段名对应的特征向量。也就是，字段名的特征向量所表达的信息包括了与该字段名关联的多种表结果特征。

步骤208，将标注结果与数据表对应存储。

具体地，终端可将识别出的标注结果与数据表对应存储下来，以便根据用户输入的检索词条从数据源库中存储的大量的数据表中筛选出生成报表所需的报表数据。

在一个实施例中，终端可为用户上传的数据表生成相应的数据表标识，数据表标识用于唯一标识一个数据表，数据表标识可至少包括字符、数字以及符号中任意一种。终端可获取在步骤204中提取的数据表的表结构信息中包括的各个字段名，并获取通过步骤203得到的各个字段名的标注结果，将数据表标识与该数据表中各个字段名的标注结果对应存储。

这样，终端可在获取到检索词条时，从数据源库中遍历各个数据表标识对应的数据表，根据数据表标识获取对应的标注结果，根据标注结果从数据表中筛选出生成报表所需的、与检索词条匹配的报表数据。如图3所示，在一个实施例中，上述数据表处理方法还包括根据标注结果筛选报表数据的步骤：

步骤302，获取用户输入的检索词条。

具体地，检索平台中包括可供用户输入检索词条的搜索框，终端可在监测到报表检索事件时，获取用户在搜索框中输入的内容，作为检索词条。比如用户输入“上海男性借款人的学历如何分布？”，并在用户点击了检索图标时触发终端获取该检索词条。

步骤304，识别检索词条对应的检索范围和检索维度。

具体地，终端可通过已训练的意图识别模型对检索词条进行识别，得到与检索词条对应的检索范围和检索维度。终端可对获取的检索词条进行向量化处理，得到检索词条向量，然后将检索词条向量输入至意图识别模型中，用过意图识别模型的隐藏层对检索词条向量进行编码、变换后输出与检索词条对应的检索范围和检索维度。

步骤306，获取数据源库中各数据表对应的标注结果。

其中，数据源库是存储大量数据表的数据库，数据源库中存储的数据可与业务场景类别对应，不同的业务场景对应了存储不同类型数据的数据源库。在需要从数据源库中筛选出报表数据时，终端可先获取存储的各个数据表对应的标注结果。

步骤308，根据标注结果，从数据源库中筛选出与检索范围和检索维度匹配的报表数据。

具体地，终端在识别出检索词条对应的检索范围和检索维度，并获取了各个数据表对应的标注结果后，可根据标注结果、检索范围和检索维度从数据源库中的数据表中筛选出生成报表所需的报表数据。

在一个实施例中，步骤308，根据标注结果，从数据源库中筛选出与检索范围和检索维度匹配的报表数据具体包括：将检索范围与标注结果中可作为检索范围的字段名进行匹配；将检索维度与标注结果中可作为检索维度的字段名进行匹配；按照匹配的字段名，从数据库源中筛选出报表数据。

具体地，终端可获取数据源库中各数据表对应的标注结果，将根据检索词条识别出的检索范围与标注结果中可作为检索范围的字段名进行匹配，将根据检索词条识别出的检索维度与标注结果中可作为检索维度的字段名进行匹配，若能匹配上，则按照匹配上的字段名从数据源库中筛选出报表数据，若不能匹配上，则说明数据源库中不存储与检索词条匹配的报表数据。在一个实施例中，终端还可根据检索词条识别出检索意图，并进一步对筛选出的报表数据进行统计汇总，得到用于生成报表的统计数据，按照检索维度、检索意图绘制报表，以展示统计数据。

上述数据表处理方法，在获取到用户上传的数据表时，就对数据表进行解析，得到数据表的表结构信息，表结构信息可以反映出数据表所包括的内容和字段名，然后通过已训练的标注模型对表结构信息进行识别，可自动输出数据表中各个字段名对应的标注结果，标注结果能够确定数据表中的字段名能否作为检索范围或检索维度，这样，就实现了对用户上传的数据表中的字段名进行自动标注，相比于人工标注，大大地提高了对数据表的标注效率，并且，将标注结果与该数据表对应存储，能够便于从数据表中获取与用户的检索词条匹配的数据。

在一个实施例中，标注模型的训练步骤包括：获取训练样本语料和测试样本语料；获取训练样本语料中各个训练样本、测试样本语料中各个测试样本对应的标注结果；循环执行将标注好的当前训练样本输入至机器学习模型中，输出当前训练样本对应的预测结果，将当前训练样本输出的预测结果与相应的标注结果进行比较，在差异不符合预设条件时，调整机器学习模型的模型参数，在差异符合预设条件时，接受前次调整的模型参数的步骤，直至训练样本语料训练完毕；将测试样本语料中的各个测试样本输入至训练完毕的机器学习模型中，输出各个测试样本对应的预测结果；基于各个测试样本对应的预测结果与相应的标注结果之间的差异，统计机器学习模型的准确率；当统计的准确率符合训练停止条件时，得到训练好的标注模型。

其中，训练样本语料是用于对模型进行训练的语料，测试样本语料是用于对模型进行测试的语料。在一个实施例中，在对机器学习模型进行训练时，需要区分业务场景类别，对于不同的业务场景类别，获取与该业务场景类别相应的训练样本语料和测试样本语料，对机器学习模型进行训练，得到与该业务场景类别相应的标注模型，这样在用户上传数据表并选取输入了业务场景类别后，可通过与选定的业务场景类别对应的标注模型对上传的数据表进行自动标注。

具体地，为了对模型进行训练，获取的训练样本语料和测试样本语料的标注结果可以是人工标注的，标注结果准确，有利于得到标注准确率较高的标注模型。在训练的过程中，可依次将标注好的当前训练样本输入至机器学习模型中，输出当前训练样本对应的预测结果，将当前训练样本输出的预测结果与相应的标注结果进行比较，当预测结果与相应的标注结果之间的差异不符合预设条件时，调整机器学习模型的模型参数，当差异符合预设条件时，接受前次调整的模型参数，重复上述训练的过程，将下一个训练样本输入至机器学习模型中，直至训练样本语料中的训练样本训练完毕。

接着，将测试样本语料中的测试样本输入至训练完毕的模型中，统计对测试样本语料中的测试样本进行预测的准确率，当统计的准确率符合训练停止条件时，得到训练好的标注模型。

当统计的准确率不符合训练停止条件时，可根据上述的训练样本语料和测试样本语料继续新一轮的对该机器学习模型进行训练的步骤，直至统计的准确率符合训练停止条件，得到训练好的标注模型。

在本实施例中，可通过人工标注样本语料对机器学习模型进行不断训练，得到标注的准确率满足预设条件的标注模型，才能实现对用户上传的数据表进行自动标注。

在一个实施例中，上述的数据表处理方法还包括以下步骤：展示各个字段名及相应的标注结果；获取用户从展示的字段名中选取输入的至少两个字段名；获取用户输入的与至少两个字段名相关联的中间字段名；将中间字段名与数据表对应存储；中间字段名的标注结果与选取输入的至少两个字段名相同。

终端还可将识别出的标注结果展示给上传数据表的用户，以便用户根据展示的标注结果自定义中间字段名。具体地，终端可获取用户从展示的字段名中选取输入的至少两个字段名，选取输入的该至少两个字段名是用户上传的数据表中的原始字段名，是出现在数据表中的，中间字段名不是数据表中的原始字段名，而是根据原始字段名定义的中间字段名。用户可输入中间字段名，并将选取输入的至少两个原始字段名与中间字段名关联，终端就可以获取中间字段名与这至少两个字段名之间的联系，并将该中间字段名与该数据表对应存储，且该中间字段名的标注结果与与选取输入的至少两个字段名的标注结果相同。

举例说明，在用户上传的数据表中，包括原始的字段名“逾期金额”、“逾期本金”，且标注的结果是既可以作为检索范围又可以作为检索维度，那么用户可自定义中间字段名“逾期率”，且“逾期率＝逾期金额/逾期本金”，则终端可将中间字段名“逾期率”与该数据表对应存储，且对应的标注结果也是既可以作为检索范围又可以作为检索维度。那么在用户输入的检索词条“上海和北京的逾期率之间的差异”时，可通过意图识别模型识别出检索维度为“逾期率”，那么可从数据源库中按照检索维度“逾期率＝逾期金额/逾期本金”中的“逾期金额、逾期本金”筛选出报表数据，并统计出“逾期率”，得到生成报表所需的统计数据。

在本实施例中，通过展示标注结果，用户可根据原始的字段名自定义中间维度并存储下来，使得可匹配用户输入的检索词条的字段名更为丰富、多样，这样即便从用户输入的检索词条识别出的检索范围或检索维度不存在数据表的原始字段名中，也可筛选出与检索词条匹配的报表数据，提高了匹配的准确率。

如图4所示，在一个具体的实施例中，数据表处理方法具体包括以下步骤：

步骤402，获取用户上传的数据表；

步骤404，提取数据表的表头所包括的字段名；

步骤406，统计各字段名对应的枚举值；

步骤408，将各字段名对应的字段值的字符类型作为字段名的字段值类型；

步骤410，根据字段名以及相应的枚举值、字段值类型确定数据表的表结构信息；

步骤412，获取用户选定的业务场景类别；

步骤414，将表结构信息输入至已训练的与业务场景类别对应的标注模型中，通过标注模型根据表结构信息得到数据表中各字段名对应的特征向量；

步骤416，对各字段名对应的特征向量进行变换，输出数据表中各个字段名对应的标注结果；标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种；

步骤418，展示各个字段名及相应的标注结果；

步骤420，获取用户从展示的字段名中选取输入的至少两个字段名；

步骤422，获取用户输入的与至少两个字段名相关联的中间字段名；

步骤424，将中间字段名与数据表对应存储；中间字段名的标注结果与选取输入的至少两个字段名相同；

步骤426，将标注结果与数据表对应存储；

步骤428，获取用户输入的检索词条；

步骤430，识别检索词条对应的检索范围和检索维度；

步骤432，获取数据源库中各数据表对应的标注结果；

步骤434，将检索范围与标注结果中可作为检索范围的字段名进行匹配；

步骤436，将检索维度与标注结果中可作为检索维度的字段名进行匹配；

步骤438，按照匹配的字段名，从数据库源中筛选出报表数据。

应该理解的是，虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种数据表处理装置500，包括：获取模块502、解析模块504、标注模块506和存储模块508，其中：

获取模块502，用于获取用户上传的数据表。

解析模块504，用于对数据表进行解析，得到数据表的表结构信息。

标注模块506，用于通过已训练的标注模型对表结构信息进行识别，输出数据表中各个字段名的标注结果；标注结果包括仅为检索范围、仅为检索维度以及既为检索范围又为检索维度中的一种。

存储模块508，用于将标注结果与数据表对应存储。

在一个实施例中，数据表处理装置500还包括检索词条获取模块、识别模块、标注结果获取模块和报表数据筛选模块；检索词条获取模块用于获取用户输入的检索词条；识别模块用于识别检索词条对应的检索范围和检索维度；标注结果获取模块用于获取数据源库中各数据表对应的标注结果；报表数据筛选模块用于根据标注结果，从数据源库中筛选出与检索范围和检索维度匹配的报表数据。

在一个实施例中，报表数据筛选模块还用于将检索范围与标注结果中可作为检索范围的字段名进行匹配；将检索维度与标注结果中可作为检索维度的字段名进行匹配；按照匹配的字段名，从数据库源中筛选出报表数据。

在一个实施例中，表结构信息包括字段名和字段值类型；解析模块还用于提取数据表的表头所包括的字段名；统计各字段名对应的枚举值；将各字段名对应的字段值的字符类型作为字段名的字段值类型；根据字段名以及相应的枚举值、字段值类型确定数据表的表结构信息。

在一个实施例中，标注模块还用于获取用户选定的业务场景类别；将表结构信息输入至已训练的与业务场景类别对应的标注模型中，通过标注模型根据表结构信息得到数据表中各字段名对应的特征向量；对各字段名对应的特征向量进行变换，输出数据表中各个字段名对应的标注结果。

在一个实施例中，数据表处理装置500还包括训练模块，用于获取训练样本语料和测试样本语料；获取训练样本语料中各个训练样本、测试样本语料中各个测试样本对应的标注结果；循环执行将标注好的当前训练样本输入至机器学习模型中，输出当前训练样本对应的预测结果，将当前训练样本输出的预测结果与相应的标注结果进行比较，在差异不符合预设条件时，调整机器学习模型的模型参数，在差异符合预设条件时，接受前次调整的模型参数的步骤，直至训练样本语料训练完毕；将测试样本语料中的各个测试样本输入至训练完毕的机器学习模型中，输出各个测试样本对应的预测结果；基于各个测试样本对应的预测结果与相应的标注结果之间的差异，统计机器学习模型的准确率；当统计的准确率符合训练停止条件时，得到训练好的标注模型。

在一个实施例中，数据表处理装置500还包括标注结果展示模块、字段名获取模块、中间字段名定义模块以及中间字段名存储模块；标注结果展示模块用于展示各个字段名及相应的标注结果；字段名获取模块用于获取用户从展示的字段名中选取输入的至少两个字段名；中间字段名定义模块用于获取用户输入的与至少两个字段名相关联的中间字段名；中间字段名存储模块用于将中间字段名与数据表对应存储；中间字段名的标注结果与选取输入的至少两个字段名相同。

上述数据表处理装置500，在获取到用户上传的数据表时，就对数据表进行解析，得到数据表的表结构信息，表结构信息可以反映出数据表所包括的内容和字段名，然后通过已训练的标注模型对表结构信息进行识别，可自动输出数据表中各个字段名对应的标注结果，标注结果能够确定数据表中的字段名能否作为检索范围或检索维度，这样，就实现了对用户上传的数据表中的字段名进行自动标注，相比于人工标注，大大地提高了对数据表的标注效率，并且，将标注结果与该数据表对应存储，能够便于从数据表中获取与用户的检索词条匹配的数据。

关于数据表处理装置500的具体限定可以参见上文中对于数据表处理方法的限定，在此不再赘述。上述数据表处理装置500中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据表处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的数据表处理装置500可以实现为一种计算机程序的形式，计算机程序可在如图6所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据表处理装置500的各个程序模块，比如，图5所示的获取模块502、解析模块504、标注模块506和存储模块508。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据表处理方法中的步骤。

例如，图6所示的计算机设备可以通过如图5所示的数据表处理装置500中的获取模块502执行步骤S202。计算机设备可通过解析模块504执行步骤S204。计算机设备可通过标注模块506执行步骤S206。计算机设备可通过存储模块508执行步骤S208。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述数据表处理方法的步骤。此处数据表处理方法的步骤可以是上述各个实施例的数据表处理方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述数据表处理方法的步骤。此处数据表处理方法的步骤可以是上述各个实施例的数据表处理方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据表处理方法，所述方法包括：

获取用户上传的数据表；

对所述数据表进行解析，得到所述数据表的表结构信息；

将所述标注结果与所述数据表对应存储。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户输入的检索词条；

识别所述检索词条对应的检索范围和检索维度；

获取数据源库中各数据表对应的标注结果；

3.根据权利要求2所述的方法，其特征在于，所述根据所述标注结果，从所述数据源库中筛选出与所述检索范围和所述检索维度匹配的报表数据包括：

按照匹配的字段名，从所述数据库源中筛选出报表数据。

4.根据权利要求1所述的方法，其特征在于，所述表结构信息包括字段名和字段值类型；所述对所述数据表进行解析，得到所述数据表的表结构信息包括：

提取所述数据表的表头所包括的字段名；

统计各所述字段名对应的枚举值；

5.根据权利要求1所述的方法，其特征在于，所述通过已训练的标注模型对所述表结构信息进行识别，输出所述数据表中各个字段名的标注结果包括：

获取用户选定的业务场景类别；

6.根据权利要求1所述的方法，其特征在于，所述标注模型的训练步骤包括：

获取训练样本语料和测试样本语料；

7.根据权利要求1至6任一项所述的方法，其特征在于，所述方法还包括：

展示各个字段名及相应的标注结果；

8.一种数据表处理装置，其特征在于，所述装置包括：

获取模块，用于获取用户上传的数据表；

存储模块，用于将所述标注结果与所述数据表对应存储。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。