CN111144092A

CN111144092A - 数据拆分方法、装置、计算机可读存储介质和计算机设备

Info

Publication number: CN111144092A
Application number: CN201911295003.1A
Authority: CN
Inventors: 林琳
Original assignee: Shenzhen Kingdee Tianyanyun Computing Co Ltd
Current assignee: Shenzhen Kingdee Tianyanyun Computing Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2020-05-12
Anticipated expiration: 2039-12-16
Also published as: CN111144092B

Abstract

本申请涉及一种数据拆分方法、装置、计算机可读存储介质和计算机设备，所述方法包括：从数据集中提取待拆分行的行数据；获取所述行数据中的关键维度数据和度量数据；利用文本分割算法对所述关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对所述度量数据进行拆分，得到目标度量数据；分别将各所述目标关键维度数据与对应的所述目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取所述行数据后的数据集。本申请提供的方案可以提高数据拆分效率。

Description

数据拆分方法、装置、计算机可读存储介质和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种数据拆分方法、装置、计算机可读存储介质和计算机设备。

背景技术

在对海量数据进行分析时，当数据实体的中一些维度的维度数据是多个并列的描述内容，且该描述内容包含了在维度空间的多个实例时，若在对该数据实体进行分析之前，未对该维度数据进行处理，会导致分析结果不准确。

传统方案中，对数据实体进行分析之前，通常是人工将多个并列的描述内容进行拆分，然而这种人工拆分的方式导致数据拆分的准确率和效率均较低。

发明内容

基于此，有必要针对数据拆分的准确率和效率较低的技术问题，提供一种数据拆分方法、装置、计算机可读存储介质和计算机设备。

一种数据拆分方法，包括：

从数据集中提取待拆分行的行数据；

获取所述行数据中的关键维度数据和度量数据；

利用文本分割算法对所述关键维度数据进行拆分，得到目标关键维度数据；

利用数值分布算法对所述度量数据进行拆分，得到目标度量数据；

分别将各所述目标关键维度数据与对应的所述目标度量数据进行拼接；

将拼接所得的目标关键维度数据和目标度量数据，添加至提取所述行数据后的数据集。

在一个实施例中，所述从数据集中提取待拆分行的行数据，包括：

获取异常判定条件；

按照所述异常判定条件对数据集进行扫描，得到异常数据；

将所述异常数据所在的数据行确定为待拆分行；

提取所述待拆分行对应的行数据。

在一个实施例中，所述按照所述异常判定条件对源数据表进行扫描，得到异常数据，包括：

获取各维度对应的维度空间；

判断各所述维度对应的维度数据是否均属于对应的所述维度空间；

将不属于所述维度空间的数据确定为异常数据。

在一个实施例中，所述利用文本分割算法对所述关键维度数据进行拆分，得到目标关键维度数据，包括：

对所述关键维度数据进行分词，得到分词词组；

从所述分词词组中选择与关键词库匹配的目标分词词组；

对所述目标分词词组进行拆分，将拆分后所得的目标分词词组作为目标关键维度数据。

在一个实施例中，所述利用数值分布算法对所述度量数据进行拆分，得到目标度量数据，包括：

获取所述目标关键维度数据的数据条目；

获取数据分析的目标需求，根据所述目标需求确定对所述度量数据进行拆分的拆分方式；

利用数值分布算法，按照所述数据条目和所述拆分方式对所述度量数据进行拆分，得到目标度量数据。

在一个实施例中，所述拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，所述根据所述目标需求确定对所述度量数据进行拆分的拆分方式，包括：

当所述目标需求为分析等量目标度量数据时，则确定对所述度量数据的拆分方式为等量拆分；

当所述目标需求为分析不同权重的目标关键维度数据对应的目标度量数据时，则确定对所述度量数据的拆分方式为权重拆分；

当所述目标需求为分析特定维度的目标度量数据时，则确定对所述度量数据的拆分方式为概率拆分；

当所述目标需求为分析与提取行数据后的数据集相关的目标度量数据时，则确定对所述度量数据的拆分方式为预测模型拆分。

在一个实施例中，所述利用数值分布算法对所述度量数据进行拆分，得到目标度量数据，还包括：

获取所述目标关键维度数据的数据条目；

根据所述目标关键维度数据获取对应的基础度量数据；

利用数值分布算法，根据所述基础度量数据和所述数据条目对所述度量数据进行拆分，得到目标度量数据。

在一个实施例中，所述分别将各所述目标关键维度数据与对应的所述目标度量数据进行拼接，包括：

在属于相同用户的目标关键维度数据中，选取属于相同产品的目标关键维度数据；

将所述属于相同产品的目标关键维度数据合并，得到合并后目标关键维度数据；

将所述属于相同产品的目标关键维度数据所对应的目标度量数据相加；

将相加所得的结果与所述合并后目标关键维度数据进行拼接。

在一个实施例中，所述方法还包括：

确定所述待拆分行中的非关键维度数据；

将所述非关键维度数据，输入至添加有所述目标关键维度数据和所述目标度量数据的数据集。

一种数据拆分装置，所述装置包括：

行数据提取模块，用于从数据集中提取待拆分行的行数据；

关键维度数据获取模块，用于获取所述行数据中的关键维度数据和度量数据；

关键维度数据拆分模块，用于利用文本分割算法对所述关键维度数据进行拆分，得到目标关键维度数据；

度量数据拆分模块，用于利用数值分布算法对所述度量数据进行拆分，得到目标度量数据；

拼接模块，用于分别将各所述目标关键维度数据与对应的所述目标度量数据进行拼接；

数据集添加模块，用于将拼接所得的目标关键维度数据和目标度量数据，添加至提取所述行数据后的数据集。

在一个实施例中，所述行数据提取模块，还用于：

获取异常判定条件；

按照所述异常判定条件对源数据表进行扫描，得到异常数据；

将所述异常数据所在的数据行确定为待拆分行；

提取所述待拆分行对应的行数据。

在一个实施例中，所述行数据提取模块，还用于：

获取各维度对应的维度空间；

将不属于所述维度空间的数据确定为异常数据。

在一个实施例中，所述关键维度数据拆分模块，还用于：

对所述关键维度数据进行分词，得到分词词组；

从所述分词词组中选择与关键词库匹配的目标分词词组；

在一个实施例中，所述度量数据拆分模块，还用于：

获取所述目标关键维度数据的数据条目；

在一个实施例中，所述拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，所述度量数据拆分模块，还用于：

在一个实施例中，所述度量数据拆分模块，还用于：

获取所述目标关键维度数据的数据条目；

根据所述目标关键维度数据获取对应的基础度量数据；

在一个实施例中，所述拼接模块，还用于：

在一个实施例中，所述装置还包括：

非关键维度数据确定模块，用于确定所述待拆分行中的非关键维度数据；

非关键维度数据输入模块，用于将所述非关键维度数据，输入至添加有所述目标关键维度数据和所述目标度量数据的数据集。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述任一项方法的步骤。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行上所述任一项方法的步骤。

上述数据拆分方法、装置、计算机可读存储介质和计算机设备，当数据实体的中一些维度的内容是多个并列的描述内容，且该描述内容包含了在维度空间的多个实例时，通过从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集，从而在保证数据拆分准确的同时，提高了数据拆分的效率，不需要人工拆分，降低人工成本；此外，在对拆分后的数据进行分析时，进一步提高了数据分析的准确度。

附图说明

图1为一个实施例中数据拆分方法的应用环境图；

图2为一个实施例中数据拆分方法的流程示意图；

图3为一个实施例中关键维度数据拆分步骤的流程示意图；

图4为一个实施例中度量数据拆分步骤的流程示意图；

图5为一个实施例中数据拆分方法的流程示意图；

图6为另一个实施例中数据拆分方法的流程示意图；

图7为一个实施例中数据拆分装置的结构框图；

图8为另一个实施例中数据拆分装置的结构框图；

图9为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

首先，对本申请实施例涉及的若干个名词进行解释：

数据集：结构化数据的集合，同一个数据集中的数据有统一的特征属性，数据集可以以数据表的形式呈现。

维度：数据集中可区分数据文本类别的列。

维度数据：每个维度所对应的文本数据。

维度空间：每个维度所对应的数据集合。

度量：数据集中可区分数值型数据的列。

度量数据：每个度量所对应的数值型数据。

例如，表1所示的数据集X中维度有ID维度、销售员维度、产品维度和日期维度，ID维度的维度空间为[AX00109，AX00110，AX00111]，销售员维度的维度空间为[张某，李某，王某]，产品维度的维度空间为[A1，A2，A3]，日期维度的维度空间为[20XX0510，20XX0511，20XX0512]；表1所示的数据集X中度量为金额度量。ID维度数据为“AX00109”、“AX00110”和“AX00111”；销售员维度数据为“张某”、“李某”和“王某”；产品维度数据为“A1”、“A1/A2”和“A3”；日期维度“20XX0510”、“20XX0511”和“20XX0512”；金额度量数据为“12800”、“64000”和“32198”。

表1.数据集X

ID	销售员	金额	产品	日期
					AX00109	张某	12800	A1	20XX0510
AX00110	李某	64000	A1/A2	20XX0511
					AX00111	王某	32198	A3	20XX0512

图1为一个实施例中数据拆分方法的应用环境图。参照图1，该数据拆分方法应用于数据拆分系统。该数据拆分系统包括终端110和服务器120。终端110和服务器120通过网络连接。该数据拆分方法可以应用于终端110或服务器120，以应用于终端110为例，终端110从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种数据拆分方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2，该数据拆分方法具体包括如下步骤：

S202，从数据集中提取待拆分行的行数据。

其中，待拆分行的行数据为：数据集中异常的维度数据所在行的行数据，异常的维度数据简称异常数据。异常的维度数据为不属于对应维度空间的数据，例如，表1所示的数据集X中，产品维度数据“A1/A2”不等于产品维度空间[A1，A2，A3]中“A1”、“A2”或“A3”中的任何一个值，则认为产品维度数据“A1/A2”不属于产品维度空间[A1，A2，A3]，即产品维度数据“A1/A2”为异常数据。

在一个实施例中，终端对数据集进行扫描，确定数据集中的异常数据，并将异常数据所在行确定为待拆分行，并提取待拆分行对应的行数据。

在一个实施例中，终端在对数据集进行扫描之前，获取异常判定条件，并按照异常判定条件对数据集进行扫描，得到扫描结果，然后根据扫描结果确定数据集中异常数据所在的位置，将异常数据所在的数据行确定为待拆分行，并提取出该待拆分行对应的行数据。

在一个实施例中，异常判定条件为，若维度数据不属于对应维度的维度空间内，则该维度数据为异常数据。终端在获取到该异常判定条件之后，获取数据集中各维度对应的维度空间，然后判断数据集中各维度数据是否属于对应的维度空间，并将不属于维度数据确定为异常数据。

例如，表1所示的数据集X中，产品维度空间为[A1，A2，A3]，ID维度数据“AX00109”和“AX00111”分别所对应的产品维度数据“A1”和“A3”，均属于产品维度空间，而D维度数据“AX00110”所对应的产品维度数据“A1/A2”，不等于产品维度空间[A1，A2，A3]中“A1”、“A2”或“A3”中的任何一个值，则认为产品维度数据“A1/A2”不属于产品维度空间[A1，A2，A3]，确定产品维度数据“A1/A2”为异常数据，并将产品维度数据“A1/A2”所在行确定为待拆分行，并提取对应的行数据“AX00110，李某，64000，A1/A2，20XX0511”。

S204，获取行数据中的关键维度数据和度量数据。

其中，关键维度数据为异常数据，度量数据为与关键维度数据对应的数值型数据。例如，表1所示的数据集X对应的产品维度数据“A1/A2”为异常数据，则行数据中的关键维度数据即为产品维度数据“A1/A2”，则产品维度数据“A1/A2”对应的度量数据即为金额度量数据“64000”。

在一个实施例中，终端从数据集中提取出待拆分行的行数据之后，确定行数据中的关键维度数据和度量数据，以便采用对应的算法对关键维度数据和度量进行拆分。

S206，利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据。

其中，文本分割算法用于对文本类数据进行拆分。

在一个实施例中，终端在获取到关键维度数据之后，从关键维度数据的内容中提取出关键词，并利用文本分割算法对所提取的关键词进行拆分，并将拆分后的关键词作为目标关键维度数据，并确定所提取出的关键词的个数为目标关键维度数据的数据条目。

在一个实施例汇总，终端在获取到关键维度数据之后，利用文本分割算法对关键维度数据进行拆分，得到拆分后的词组，然后从拆分所得的词组中提取出关键词，并将提取出的关键词作为目标关键维度数据，并确定所提取出的关键词的个数为目标关键维度数据的数据条目。例如，数据集X中，对于关键维度数据“A1/A2”，按照分隔符“，”对关键维度数据“A1/A2”进行拆分，并提取关键词，从而得到目标关键维度数据“A1，A2”，确定目标关键维度数据的数据条目为2。

在一个实施例中，终端利用文本分割算法D(x)，对关键维度数据Q进行拆分，拆分过程即为D(Q)，得到目标关键维度数据“Q₁，Q₂……Q_m”，目标关键维度数据的数据条目为m。

S208，利用数值分布算法对度量数据进行拆分，得到目标度量数据。

其中，数值分布算法用于对数值类数据进行拆分，得到的目标度量数据的总和等于拆分前的度量数据。终端获取到的度量数据有多个，对于其中任意一个度量数据i_k，基于目标关键维度数据的数据条目m，利用数值分布算法F_k(i_k,m)对度量数据i_k进行拆分，得到目标度量数据“i_k1，i_k2……i_km”。终端根据数据分析的目标需求确定利用数值分布算法对度量数据进行拆分的拆分方式，拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，当目标需求为分析等量目标度量数据时，则确定对度量数据的拆分方式为等量拆分；当目标需求为分析不同权重的目标关键维度数据对应的目标度量数据时，则确定对度量数据的拆分方式为权重拆分；当目标需求为分析特定维度的目标度量数据时，则确定对度量数据的拆分方式为概率拆分；当目标需求为分析与提取行数据后的数据集相关的目标度量数据时，则确定对度量数据的拆分方式为预测模型拆分。

在一个实施例中，终端在获取到度量数据之后，获取目标关键维度数据的数据条目，并基于目标关键维度数据的数据条目，利用数值分布算法对度量数据进行等量划分，得到目标度量数据。例如，数据集X中，金额度量数据“64000”，对应的目标关键维度数据的数据条目为2，将金额度量数据“64000”，按照数据条目为2进行等量划分，得到目标度量数据为“32000”和“32000”。

在一个实施例中，终端在获到度量数据之后，获取各个目标关键维度数据的权重和目标关键维度数据的数据条目，并基于目标关键维度数据的权重和数据条目，利用数值分布算法对度量数据拆分，得到目标度量数据。例如，数据集X中，金额度量数据“64000”，目标关键维度数据“A1”的权重为0.2，目标关键维度数据“A2”的权重为0.8，目标关键维度数据的数据条目为2，则将金额度量数据“64000”进行拆分，得到目标度量数据为“12800”和“51200”。

在一个实施例中，终端根据数据分析的目标需求确定利用概率分布算法对度量数据进行拆分，例如，若数据分析的目标仅与拆分的数据条目相关，则根据目标关键维度数据的数据条目，利用概率分布算法对度量数据进行随机拆分，得到目标度量数据；若数据分析的目标偏向于特定维度，则根据目标关键维度数据的数据条目，利用概率分布算法对度量数据进行拆分，得到服从t分布或正态分布的目标度量数据。

在一个实施例中，终端在对度量数据进行拆分之前，根据提取行数据后的数据集训练预测模型，并通过该训练后的预测模型预测目标关键维度数据对应的度量数据，得到各预测度量数据，然后基于度量数据，对各预测度量数据的总和进行归一化处理，得到各目标度量数据。

如此根据数据分析的目标需求，确定对度量数据进行拆分的方式，可使后续数据分析更准确。

S210，分别将各目标关键维度数据与对应的目标度量数据进行拼接。

S212，将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

在一个实施例中，终端在得到目标关键维度数据和目标度量数据之后，将各个目标关键维度数据和对应的目标度量数据进行拼接，并将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集中。

在一个实施例中，终端确定待拆分行中的非关键维度数据，并将非关键维度数据数值添加到有目标关键维度数据和目标度量数据的数据集。

例如，终端从表1所示的数据集X中，提取出待拆分行数据“AX00110李某，64000，A1/A2，20XX0511”，确定关键维度数据为“A1/A2”，度量数据为“64000”，非关键维度数据为“AX00110”、“李某”和“20XX0511”，对其中的关键维度数据“A1/A2”和度量数据“64000”分别进行拆分，得到目标关键维度数据“A1”和“A2”，目标度量数据“12800”和“51200”，然后将目标关键维度数据“A1”、“A2”，与目标度量数据“12800”、“51200”进行拼接，并将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集中，之后再将非关键维度数据数值添加有目标关键维度数据和目标度量数据的额数据集，从而得到如表2所示的数据集X'。

表1.数据集X'

ID	销售员	金额	产品	日期
					AX00109	张某	12800	A1	20XX0510
AX00110	李某	12800	A1	20XX0511
					AX00110	李某	51200	A2	20XX0511
AX00111	王某	32198	A3	20XX0512

上述实施例中，终端通过从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集，从而在保证数据拆分准确的同时，提高了数据拆分的效率，不需要人工拆分，降低人工成本；此外，在对拆分后的数据进行分析时，进一步提高了数据分析的准确度。

在一个实施例中，如图3所示，S206具体包括以下步骤：

S302，对关键维度数据进行分词，得到分词词组。

在一个实施例中，终端通过分词模型对维度数据进行分词，具体将为待分词的关键维度数据与分词词库进行对比，通过分词模型确定关键维度数据中最大概率的词组，从而得到分词词组。其中分词模型是指可以将一段文字或一句话分成单个词语的模型。

S304，从分词词组中选择与关键词库匹配的目标分词词组。

其中，关键词库可以是基于NLP(关键词提取)算法生成的维度空间上的关键词列表。具体地，关键词库可以是关键维度数据所对应的维度空间，或者，关键词库中至少包括有关键维度数据所对应的维度空间中的元素。例如，对于关键维度数据“A1/A2”，其所对应的产品维度空间为[A1，A2，A3]，则可以将[A1，A2，A3]作为关键词库，或者将维度空间中的“A1”、“A2”和“A3”作为关键词库中的关键词。

S306，对目标分词词组进行拆分，将拆分后所得的目标分词词组作为目标关键维度数据。

上述实施例中，终端通过对关键维度数据进行分词，根据关键词库确定用于拆分的目标分词词组，对目标分词词组进行拆分，将拆分后所得的目标分词词组作为目标关键维度数据，从而在保证对关键维度数据拆分准确的同时，提高了对关键维度数据拆分的效率。

在一个实施例中，如图4所示，S208具体包括以下步骤：

S402，获取目标关键维度数据的数据条目。

S404，根据目标关键维度数据获取对应的基础度量数据。

其中，基础度量数据可以是由目标关键维度数据的基本属性所决定的度量数据。例如，目标关键维度数据为产品B1、产品B2和产品B3，则产品B1、产品B2和产品B3对应的单价、重量以及生产效率等都可以是对应的基础度量数据。

在一个实施例中，终端根据获取到的度量数据，确定要获取的基础度量数据，之后根据目标关键维度数据获取对应的基础度量数据。例如，终端获取到的度量数据为金额度量数据，目标关键维度数据为产品B1、产品B2和产品B3，则终端根据目标关键维度数据分别获取产品B1、产品B2和产品B3的单价，即产品B1、产品B2和产品B3的单价即为要获取的基础度量数据。

S406，利用数值分布算法，根据基础度量数据和数据条目对度量数据进行拆分，得到目标度量数据。

在一个实施例中，终端根据目标关键维度数据获取对应的基础度量数据之后，利用数值分布算法，根据基础度量数据和目标关键维度数据的数据条目确定度量数据的分布，从而对度量数据进行拆分，得到目标度量数据。

上述实施例中，终端通过获取目标关键维度数据的数据条目和对应的基础度量数据，使得度量数据的拆分与关键维度数据的拆分保持一致，从而在保证度量数据拆分准确的同时，提高了对度量数据拆分的效率。

在一个实施例中，如图5所示，上述数据拆分方法还包括以下步骤：

S502，在属于相同用户的目标关键维度数据中，选取属于相同产品的目标关键维度数据。

S504，将属于相同产品的目标关键维度数据合并，得到合并后目标关键维度数据。

S506，将属于相同产品的目标关键维度数据所对应的目标度量数据相加。

S508，将相加所得的结果与合并后目标关键维度数据进行拼接。

作为一个示例对上述实施例进行说明。假设待拆分数据行为“AX00112赵某76800A1/A1/A2 20XX0515”，关键维度数据为“A1/A1/A2”，对应的度量维度为“76800”，对关键维度数据拆分后所得的目标关键维度数据为“A1”、“A1”和“A2”，对度量数据拆分后所得的目标度量数据为“12800”、“12800”和“51200”，则选取相同两个的目标关键维度数据“A1”合并，并将两个目标关键维度数据“A1”对应的度量数据“12800”进行相加，得到相加后的目标度量数据为“25600”，将合并后的目标关键维度数据“A1”与相加后的目标度量数据为“25600”进行拼接。

上述实施例中，终端通过合并相同的目标关键维度数据，以及将相同的目标关键维度数据所对应的目标度量数据相加，并将相加所得的结果与合并后目标关键维度数据进行拼接，从而使得对关键维度数据和对应的度量数据的拆分效率更高，更能满足后续对其进行数据分析的需求。

在一个实施例中，还提供了一种数据拆分方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图6，该数据拆分方法具体包括如下步骤：

S602，获取异常判定条件。

S604，获取各维度对应的维度空间。

S606，判断各维度对应的维度数据是否均属于对应的维度空间。

S608，将不属于维度空间的数据确定为异常数据。

S610，将异常数据所在的数据行确定为待拆分行。

S612，提取待拆分行对应的行数据。

S614，获取行数据中的关键维度数据和度量数据。

S616，利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据。

S618，利用数值分布算法对度量数据进行拆分，得到目标度量数据。

S620，分别将各目标关键维度数据与对应的目标度量数据进行拼接。

S622，将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

S624，确定待拆分行中的非关键维度数据。

S626，将非关键维度数据，输入至添加有目标关键维度数据和目标度量数据的数据集。

图2-6为一个实施例中数据拆分方法的流程示意图。应该理解的是，虽然图2-6的流程图中的各步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种数据拆分装置，该装置包括：行数据提取模块702，关键维度数据获取模块704，关键维度数据拆分模块706，度量数据拆分模块708，拼接模块710和数据集添加模块712；其中：

行数据提取模块702，用于从数据集中提取待拆分行的行数据；

关键维度数据获取模块704，用于获取行数据中的关键维度数据和度量数据；

关键维度数据拆分模块706，用于利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；

度量数据拆分模块708，用于利用数值分布算法对度量数据进行拆分，得到目标度量数据；

拼接模块710，用于分别将各目标关键维度数据与对应的目标度量数据进行拼接；

数据集添加模块712，用于将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

在一个实施例中，如图8所示，装置还包括：非关键维度数据确定模块714和非关键维度数据输入模块716；其中：

非关键维度数据确定模块714，用于确定待拆分行中的非关键维度数据；

非关键维度数据输入模块716，用于将非关键维度数据，输入至添加有目标关键维度数据和目标度量数据的数据集。

端通过从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集，从而在保证数据拆分准确的同时，提高了数据拆分的效率；此外，在对拆分后的数据进行分析时，进一步提高了数据分析的准确度。

在一个实施例中，行数据提取模块702，还用于：

获取异常判定条件；

按照异常判定条件对源数据表进行扫描，得到异常数据；

将异常数据所在的数据行确定为待拆分行；

提取待拆分行对应的行数据。

在一个实施例中，行数据提取模块702，还用于：

获取各维度对应的维度空间；

判断各维度对应的维度数据是否均属于对应的维度空间；

将不属于维度空间的数据确定为异常数据。

在一个实施例中，关键维度数据拆分模块706，还用于：

对关键维度数据进行分词，得到分词词组；

从分词词组中选择与关键词库匹配的目标分词词组；

对目标分词词组进行拆分，将拆分后所得的目标分词词组作为目标关键维度数据。

在一个实施例中，度量数据拆分模块708，还用于：

获取目标关键维度数据的数据条目；

获取数据分析的目标需求，根据目标需求确定对度量数据进行拆分的拆分方式；

利用数值分布算法，按照数据条目和拆分方式对度量数据进行拆分，得到目标度量数据。

在一个实施例中，拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，度量数据拆分模块，还用于：

当目标需求为分析等量目标度量数据时，则确定对度量数据的拆分方式为等量拆分；

当目标需求为分析不同权重的目标关键维度数据对应的目标度量数据时，则确定对度量数据的拆分方式为权重拆分；

当目标需求为分析特定维度的目标度量数据时，则确定对度量数据的拆分方式为概率拆分；

当目标需求为分析与提取行数据后的数据集相关的目标度量数据时，则确定对度量数据的拆分方式为预测模型拆分。

在一个实施例中，度量数据拆分模块708，还用于：

获取目标关键维度数据的数据条目；

根据目标关键维度数据获取对应的基础度量数据；

利用数值分布算法，根据基础度量数据和数据条目对度量数据进行拆分，得到目标度量数据。

在一个实施例中，拼接模块710，还用于：

将属于相同产品的目标关键维度数据合并，得到合并后目标关键维度数据；

将属于相同产品的目标关键维度数据所对应的目标度量数据相加；

将相加所得的结果与合并后目标关键维度数据进行拼接。

图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图9所示，该计算机设备包括该计算机设备包括处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据拆分方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据拆分方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的数据拆分装置可以实现为一种计算机程序的形式，计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据拆分装置的各程序模块，比如，图7所示的行数据提取模块702，关键维度数据获取模块704，关键维度数据拆分模块706，度量数据拆分模块708，拼接模块710和数据集添加模块712。各程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各实施例的数据拆分方法中的步骤。

例如，图9所示的计算机设备可以通过如图7所示的数据拆分装置中的行数据提取模块702执行S202。计算机设备可通过关键维度数据获取模块704执行S204。计算机设备可通过关键维度数据拆分模块706执行S206。计算机设备可通过度量数据拆分模块708执行S208。计算机设备可通过拼接模块710执行S210。计算机设备可通过数据集添加模块712执行S212。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

在一个实施例中，计算机程序被处理器执行从数据集中提取待拆分行的行数据的步骤时，使得处理器具体执行以下步骤：获取异常判定条件；按照异常判定条件对数据集进行扫描，得到异常数据；将异常数据所在的数据行确定为待拆分行；提取待拆分行对应的行数据。

在一个实施例中，计算机程序被处理器执行按照异常判定条件对源数据表进行扫描，得到异常数据的步骤时，使得处理器具体执行以下步骤：获取各维度对应的维度空间；判断各维度对应的维度数据是否均属于对应的维度空间；将不属于维度空间的数据确定为异常数据。

在一个实施例中，计算机程序被处理器执行利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据的步骤时，使得处理器具体执行以下步骤：对关键维度数据进行分词，得到分词词组；从分词词组中选择与关键词库匹配的目标分词词组；对目标分词词组进行拆分，将拆分后所得的目标分词词组作为目标关键维度数据。

在一个实施例中，计算机程序被处理器执行利用数值分布算法对度量数据进行拆分，得到目标度量数据的步骤时，使得处理器具体执行以下步骤：获取目标关键维度数据的数据条目；获取数据分析的目标需求，根据所述目标需求确定对所述度量数据进行拆分的拆分方式；利用数值分布算法，按照数据条目和拆分方式对度量数据进行拆分，得到目标度量数据。

在一个实施例中，拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，计算机程序被处理器执行根据目标需求确定对度量数据进行拆分的拆分方式的步骤时，使得处理器具体执行以下步骤：当目标需求为分析等量目标度量数据时，则确定对度量数据的拆分方式为等量拆分；当目标需求为分析不同权重的目标关键维度数据对应的目标度量数据时，则确定对度量数据的拆分方式为权重拆分；当目标需求为分析特定维度的目标度量数据时，则确定对度量数据的拆分方式为概率拆分；当目标需求为分析与提取行数据后的数据集相关的目标度量数据时，则确定对度量数据的拆分方式为预测模型拆分。

在一个实施例中，计算机程序被处理器执行利用数值分布算法对度量数据进行拆分，得到目标度量数据的步骤时，使得处理器具体执行以下步骤：获取目标关键维度数据的数据条目；根据目标关键维度数据获取对应的基础度量数据；利用数值分布算法，根据基础度量数据和数据条目对度量数据进行拆分，得到目标度量数据。

在一个实施例中，计算机程序被处理器执行分别将各目标关键维度数据与对应的目标度量数据进行拼接的步骤时，使得处理器具体执行以下步骤：在属于相同用户的目标关键维度数据中，选取属于相同产品的目标关键维度数据；将属于相同产品的目标关键维度数据合并，得到合并后目标关键维度数据；将属于相同产品的目标关键维度数据所对应的目标度量数据相加；将相加所得的结果与合并后目标关键维度数据进行拼接。

在一个实施例中，计算机程序被处理器执行时，使得处理器还执行以下步骤：确定待拆分行中的非关键维度数据；将非关键维度数据，输入至添加有目标关键维度数据和目标度量数据的数据集。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，

使得处理器执行以下步骤：从数据集中提取待拆分行的行数据；获取行数据中的关键维度数据和度量数据；利用文本分割算法对关键维度数据进行拆分，得到目标关键维度数据；利用数值分布算法对度量数据进行拆分，得到目标度量数据；分别将各目标关键维度数据与对应的目标度量数据进行拼接；将拼接所得的目标关键维度数据和目标度量数据，添加至提取行数据后的数据集。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据拆分方法，包括：

从数据集中提取待拆分行的行数据；

获取所述行数据中的关键维度数据和度量数据；

2.根据权利要求1所述的方法，其特征在于，所述从数据集中提取待拆分行的行数据，包括：

获取异常判定条件；

按照所述异常判定条件对数据集进行扫描，得到异常数据；

将所述异常数据所在的数据行确定为待拆分行；

提取所述待拆分行对应的行数据。

3.根据权利要求2所述方法，其特征在于，所述按照所述异常判定条件对源数据表进行扫描，得到异常数据，包括：

获取各维度对应的维度空间；

将不属于所述维度空间的数据确定为异常数据。

4.根据权利要求1所述的方法，其特征在于，所述利用文本分割算法对所述关键维度数据进行拆分，得到目标关键维度数据，包括：

对所述关键维度数据进行分词，得到分词词组；

从所述分词词组中选择与关键词库匹配的目标分词词组；

5.根据权利要求1所述的方法，其特征在于，所述利用数值分布算法对所述度量数据进行拆分，得到目标度量数据，包括：

获取所述目标关键维度数据的数据条目；

6.根据权利要求5所述的方法，其特征在于，所述拆分方式包括等量拆分、权重拆分、概率拆分、预测模型拆分，所述根据所述目标需求确定对所述度量数据进行拆分的拆分方式，包括：

7.根据权利要求1所述的方法，其特征在于，所述利用数值分布算法对所述度量数据进行拆分，得到目标度量数据，还包括：

获取所述目标关键维度数据的数据条目；

根据所述目标关键维度数据获取对应的基础度量数据；

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述分别将各所述目标关键维度数据与对应的所述目标度量数据进行拼接，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

确定所述待拆分行中的非关键维度数据；

10.一种数据拆分装置，其特征在于，所述装置包括：

行数据提取模块，用于从数据集中提取待拆分行的行数据；

11.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。