CN107527070A

CN107527070A - 维度数据和指标数据的识别方法、存储介质及服务器

Info

Publication number: CN107527070A
Application number: CN201710741349.4A
Authority: CN
Inventors: 邢加和
Original assignee: Jiangsu Sai Rui Information Polytron Technologies Inc
Current assignee: Nanjing Xiaorui Software Co., Ltd.
Priority date: 2017-08-25
Filing date: 2017-08-25
Publication date: 2017-12-29
Anticipated expiration: 2037-08-25
Also published as: CN107527070B

Abstract

本发明公开了一种维度数据和指标数据的识别方法、存储介质及服务器，通过接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；根据机器自学习结果，生成数据识别模型；利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据；达到了自动识别二维数据表中的维度数据和指标数据的有益效果，提高了数据识别的效率，节约了人力劳动。

Description

维度数据和指标数据的识别方法、存储介质及服务器

技术领域

本发明涉及数据处理技术领域，特别涉及一种维度数据和指标数据的识别方法、存储介质及服务器。

背景技术

随着信息技术的不断发展进步，需要进行数据处理的表格越来越多，数据处理量也越来越大。目前，针对数据处理系统中的二维数据表，在对维度数据和指标数据进行分析时，通常需要人工手动将上述维度数据和指标数据分类挑选出来，然后再进行对应的数据分析。这种人工手动挑选的处理方式，效率低且出错率高，已然不能满足对海量数据的处理要求。

发明内容

本发明提供一种维度数据和指标数据的识别方法、存储介质及服务器，旨在达到自动识别数据表中的维度数据和指标数据的目的。

本发明提供了一种维度数据和指标数据的识别方法，所述维度数据和指标数据的识别方法包括：

接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；

根据机器自学习结果，生成数据识别模型；

利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据。

优选地，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，包括：

根据所述维度标签数据和指标标签数据，利用监督学习法，在机器学习过程中提供对错指示；

根据提供的对错指示，控制机器进行自学习，并将识别的对错结果反馈至机器。

优选地，所述根据机器自学习结果，生成数据识别模型，包括：

获取机器识别结果的准确率，识别所述准确率是否达到预设阈值；

若所述准确率达到预设阈值，则根据机器自学习结果，按照预设规则生成数据识别模型；

若所述准确率未达到预设阈值，则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练；或者，加入新的维度标签数据和新的指标标签数据，对机器的自学习进行训练。

优选地，所述准确率未达到预设阈值时，利用非监督学习法对机器的自学习进行训练，通过循环和递减运算减小数据识别误差，直至所述准确率达到所述预设阈值。

优选地，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，包括：

对待识别的二维数据表中的各列数据进行分析，判断所述数据表中各列数据所分别对应的数据类型；

若该列数据为日期类型，则识别出该列数据为维度数据，并将识别出的该列维度数据标记为日期；

若该列数据为数值类型，则识别出该列数据为指标数据，并对该整列数据进行去重处理，且该列数据标记为连续性数据；

若该列数据为文本类型，则利用如下数据识别模型进行数据分析：

其中，f(θ)＝(1-θ)/(1+θ)，θ为文本相似度；Ti表示文本i，Tq表示文本q,n表示文本的数目，link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值，二者互为邻居；Ei为文本Ti与其他文本的共同邻居数量值；

选取max(Ei)为最优类别，抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素，直至max(Ei)的值为1；将所有抽取的数据元素及max(Ei)的值为1所对应的文本，组成所述预设维度下的所有指标数据。

对应于以上实施例所描述的一种维度数据和指标数据的识别方法，本发明还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于由处理器加载并执行：

根据机器自学习结果，生成数据识别模型；

对应于以上实施例所描述的一种维度数据和指标数据的识别方法及存储介质，本发明还提供了一种服务器，所述服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统，所述维度数据和指标数据的识别系统被所述处理器执行时实现如下步骤：

根据机器自学习结果，生成数据识别模型；

优选地，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：

优选地，所述根据机器自学习结果，生成数据识别模型，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：

若所述准确率未达到预设阈值，则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练；或者，加入新的维度标签数据和新的指标标签数据，对机器的自学习进行训练；

其中，所述准确率未达到预设阈值时，利用非监督学习法对机器的自学习进行训练，通过循环和递减运算减小数据识别误差，直至所述准确率达到所述预设阈值。

优选地，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：

本发明一种维度数据和指标数据的识别方法、存储介质及服务器可以达到如下有益效果：

通过接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；根据机器自学习结果，生成数据识别模型；利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据；达到了自动识别二维数据表中的维度数据和指标数据的有益效果，提高了数据识别的效率，节约了人力劳动。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种维度数据和指标数据的识别方法的一种实施方式的流程示意图；

图2是本发明一种服务器的一种实施方式的功能模块示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供了一种维度数据和指标数据的识别方法、存储介质及服务器，用以针对数据表中的维度数据和指标数据进行自动识别。本发明下述实施例中，所描述的维度数据可以理解为：可指定不同值的对象的描述性属性或者特征所对应的数据；例如，地理位置的维度可以包括“纬度”、“经度”或“城市名称”；“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”；上述维度的值所对应的数据即可以理解为维度数据。所描述的指标数据可以理解为：可以按总数或比值衡量的具体维度元素所对应的数据；例如，维度数据“城市”可以关联指标数据“人口”，其指标“人口”的值为具体城市的居民总数，对应了相应的指标数据。

如图1所示，图1是本发明一种维度数据和指标数据的识别方法的一种实施方式的流程示意图；本发明一种维度数据和指标数据的识别方法可以实施为如下描述的步骤S10-S30：

步骤S10、接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；

本发明实施例中，先对已知的维度数据和指标数据进行标识，得到对应的维度标签数据和指标标签数据；也可以理解为，给已知数据类型的维度数据和指标数据打上标签。对已知数据类型的维度数据和指标数据打标签时，可以采用人工的方式进行标注；也可以控制机器对上述已知数据类型的维度数据和指标数据添加上对应的标识信息，得到对应的已标识的维度标签数据和指标标签数据。

维度数据和指标数据的识别系统(以下简称“识别系统”)接收已标识的维度标签数据和指标标签数据，利用上述维度标签数据和指标标签数据对机器进行训练，控制机器进行自学习。即利用人工智能的方式，使机器具备一定的学习能力，从而根据自学习掌握一定的数据识别技能。

在本发明一优选的实施例中，识别系统将维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，可以采用如下方式：

识别系统根据所述维度标签数据和指标标签数据，利用监督学习法，在机器学习过程中提供对错指示；并根据提供的对错指示，控制机器进行自学习，且将机器进行识别的对错结果反馈至机器。例如，可以采用回归分析和统计分类等监督学习算法来控制机器进行自学习；也可以采用卷积神经网络(Convolutional Neural Networks)的监督机器学习模型，来控制机器进行自学习。

步骤S20、根据机器自学习结果，生成数据识别模型；

识别系统根据机器自学习的结果，按照预先设定的模型规则，生成针对维度数据和指标数据进行识别的数据识别模型。

本发明实施例中，由于二维数据表中的维度数据和指标数据的具体内容多种多样，因此，可以根据不同的数据内容，设定针对该数据内容所对应的模型生成规则，进而根据相应的模型生成规则，生成针对上述数据内容中的维度数据和指标数据进行识别的数据识别模型。故，本实施例对识别系统根据机器自学习结果所生成的具体的数据识别模型，不进行具体的限定。

在本发明一优选的实施例中，识别系统根据机器自学习结果，生成数据识别模型，可以采用如下方式：

识别系统获取机器识别结果的准确率，识别所述准确率是否达到预设阈值；该预设阈值的设定可以根据：对维度数据和指标数据的具体识别精度来设定；若对维度数据和指标数据的具体识别精度要求较高，则可以设置该预设阈值的具体数值稍大些，例如设置为99％；若对维度数据和指标数据的具体识别精度要求一般，则可以适当设置该预设阈值的具体数值，例如设置为80％等。本发明实施例对上述准确率所要求达到的预设阈值的具体数值不进行限定。

若识别系统识别出所述准确率达到预设阈值，则根据机器自学习结果，按照预设规则生成数据识别模型；若识别系统识别出所述准确率未达到预设阈值，则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练；或者，识别系统加入新的维度标签数据和新的指标标签数据，对机器的自学习进行训练。

针对识别系统利用加入的新的维度标签数据和新的指标标签数据，其加入方式包括但不限于：识别系统发送新标签数据加入请求至对应的监控终端，由人工基于监控终端添加新标签数据，进而由监控终端将加入的新的维度标签数据和新的指标标签数据反馈至识别识别系统；或者，识别系统预先存储备用的维度标签数据和指标标签数据，以供后续需要时直接调用。

进一步地，在本发明一优选的实施例中，针对识别系统识别出所述准确率达到预设阈值的情况，识别系统利用非监督学习法对机器的自学习进行训练，通过循环和递减运算减小数据识别误差，直至所述准确率达到所述预设阈值。其中，所描述的非监督学习法包括但不限于：利用深度置信网(Deep Belief Networks)的非监督机器学习模型，来控制机器进行自学习。

步骤S30、利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据。

识别系统利用生成的上述数据识别模型，对需要识别的二维数据表中的数据进行数据类型的自动识别，从而识别出该数据表中的维度数据和指标数据。

本发明实施例中，由于识别系统根据二维数据表中不同的数据内容，生成针对上述数据内容中的维度数据和指标数据进行识别的数据识别模型，因此若生成了不止一个数据识别模型，则识别系统可以针对待识别的数据表进行数据分析，根据数据分析结果选取相匹配的数据识别模型，进而利用相匹配的数据识别模型对待识别的数据表进行数据类型识别，从而识别出该数据表中对应的维度数据和指标数据。

在本发明一优选的实施例中，识别系统利用生成的数据识别模型对数据表中的数据进行识别时，可以采取如下方式：

识别系统利用生成的所述数据识别模型，对待识别数据表中的每一列数据进行数据分析；判断每一列数据四舍五入后得到的数据是否存在与原始数据相同的数据元素；若存在与原始数据相同的数据元素，则判断该列数据为连续数据，识别出该列数据为指标数据；若不存在与原始数据相同的数据元素，则判断该列数据为离散数据，识别出该列数据为维度数据。

在本发明一优选的实施例中，识别系统利用生成的数据识别模型对数据表中的数据进行识别时，还可以采取如下方式：

对待识别的二维数据表中的各列数据进行分析，判断所述数据表中各列数据所分别对应的数据类型；本发明实施例中，针对待识别的二维数据表，其数据类型通常包括以下三种：日期类型、文本类型以及数值类型。

若识别系统识别出该列数据为日期类型，则不进行维度解析，直接识别出该列数据为维度数据，并将识别出的该列维度数据标记为日期。

若识别系统识别出该列数据为数值类型，则将该列数据标记为连续性数据，即识别出该列数据为指标数据。识别系统对该整列数据进行去重处理，即获得该列的所有指标数据。进一步地，在后续的数据处理中，若识别系统选择将该列数据作为维度数据，则对应的该列对应的指标数据为维度选项；若识别系统不将该列数据作为维度数据，则直接进行对应的数值计算即可。

设各文本分别为T1、T2……Tn，若两个文本相似度大于或者等于预设相似阈值(比如，80％)，则将这两个文本标记为邻居，并标记link(Ti,Tq)为文本Ti与文本Tq的共同邻居数量，设Ei为文本Ti与其他文本的共同邻居数据的值，则Ei的计算公式为如下描述的数学表达式：

其中，f(θ)＝(1-θ)/(1+θ)，θ为文本相似度；在不同的应用场景中，θ可以根据具体需求进行设定；例如，设置θ的取值为0.8。

对于Ei，选取max(Ei)为最优类别，选中max(Ei)后，抽取所有与max(Ei)有关的文本组成该维度下的一个数据元素，同时，将剩余的文本重复上述操作，直至max(Ei)的值为1时停止；则所有抽取的数据元素及max(Ei)的值为1所对应的文本构成一个维度下的所有指标数据。对应于其他文本，均采用上述算法识别并获取对应的指标数据。

本发明维度数据和指标数据的识别方法通过接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；根据机器自学习结果，生成数据识别模型；利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据；达到了自动识别二维数据表中的维度数据和指标数据的有益效果，提高了数据识别的效率，节约了人力劳动。

根据机器自学习结果，生成数据识别模型；

在本发明一优选的实施例中，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，包括：

在本发明一优选的实施例中，所述根据机器自学习结果，生成数据识别模型，包括：

在本发明一优选的实施例中，所述准确率未达到预设阈值时，利用非监督学习法对机器的自学习进行训练，通过循环和递减运算减小数据识别误差，直至所述准确率达到所述预设阈值。

在本发明一优选的实施例中，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，包括：

本发明一种存储介质通过其存储的所述指令适用于由处理器加载并执行：接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；根据机器自学习结果，生成数据识别模型；利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据；达到了自动识别二维数据表中的维度数据和指标数据的有益效果，提高了数据识别的效率，节约了人力劳动。

对应于以上实施例所描述的一种维度数据和指标数据的识别方法及存储介质，本发明还提供了一种服务器，如图2所示，图2是本发明一种服务器的一种实施方式的功能模块示意图；图2所示的服务器包括存储介质100、处理器200及存储在所述存储介质100上并可在所述处理器200上运行的维度数据和指标数据的识别系统300，所述维度数据和指标数据的识别系统300被所述处理器200执行时实现如下步骤：

根据机器自学习结果，生成数据识别模型；

在本发明一优选的实施例中，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，所述处理器200还用于执行所述维度数据和指标数据的识别系统300，以实现如下步骤：

在本发明一优选的实施例中，所述根据机器自学习结果，生成数据识别模型，所述处理器200还用于执行所述维度数据和指标数据的识别系统300，以实现如下步骤：

在本发明一优选的实施例中，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，所述处理器200还用于执行所述维度数据和指标数据的识别系统300，以实现如下步骤：

本发明服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统，通过利用所述处理器执行所述维度数据和指标数据的识别系统，以实现：接收已标识的维度标签数据和指标标签数据，将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习；根据机器自学习结果，生成数据识别模型；利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据；达到了自动识别二维数据表中的维度数据和指标数据的有益效果，提高了数据识别的效率，节约了人力劳动。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种维度数据和指标数据的识别方法，其特征在于，所述方法包括：

根据机器自学习结果，生成数据识别模型；

2.如权利要求1所述的维度数据和指标数据的识别方法，其特征在于，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，包括：

3.如权利要求1所述的维度数据和指标数据的识别方法，其特征在于，所述根据机器自学习结果，生成数据识别模型，包括：

4.如权利要求3所述的维度数据和指标数据的识别方法，其特征在于，所述准确率未达到预设阈值时，利用非监督学习法对机器的自学习进行训练，通过循环和递减运算减小数据识别误差，直至所述准确率达到所述预设阈值。

5.如权利要求1至4任一项所述的维度数据和指标数据的识别方法，其特征在于，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，包括：

<mrow> <mi>E</mi> <mi>i</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>T</mi> <mi>i</mi> <mo>*</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> </mrow> <mi>k</mi> </munderover> <mfrac> <mrow> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> <mo>)</mo> </mrow> </mrow> <msup> <mi>n</mi> <mrow> <mn>1</mn> <mo>+</mo> <mn>2</mn> <mi>f</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> </mfrac> <mo>;</mo> </mrow>

6.一种存储介质，所述存储介质存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行：

根据机器自学习结果，生成数据识别模型；

7.一种服务器，其特征在于，所述服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统，所述维度数据和指标数据的识别系统被所述处理器执行时实现如下步骤：

根据机器自学习结果，生成数据识别模型；

8.如权利要求7所述的服务器，其特征在于，所述将所述维度标签数据和指标标签数据作为训练数据，控制机器进行自学习，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：

9.如权利要求7所述的服务器，其特征在于，所述根据机器自学习结果，生成数据识别模型，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：

10.如权利要求7或8或9所述的服务器，其特征在于，所述利用生成的所述数据识别模型，对待识别的数据表进行数据分析，识别出所述数据表中的维度数据和指标数据，所述处理器还用于执行所述维度数据和指标数据的识别系统，以实现如下步骤：