CN108717461B

CN108717461B - 海量数据结构化方法、装置、计算机设备及存储介质

Info

Publication number: CN108717461B
Application number: CN201810515743.0A
Authority: CN
Inventors: 黄度新; 张川; 金鑫; 王翼
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2021-03-26
Anticipated expiration: 2038-05-25
Also published as: CN108717461A; WO2019223153A1

Abstract

本申请实施例公开了一种海量数据结构化方法、装置、计算机设备及存储介质。该方法包括：将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。该方法实现由聚类算法将海量的非结构化数据做聚类，每个簇对应生成一个正则表达式并应用到该簇的所有数据，这样海量非结构化数据都能快速转化为结构化数据，能快速的满足深度学习所需训练数据的需求。

Description

海量数据结构化方法、装置、计算机设备及存储介质

技术领域

本申请涉及数据结构化技术领域，尤其涉及一种海量数据结构化方法、装置、计算机设备及存储介质。

背景技术

目前，深度学习的训练需要依靠大量标注好的数据或结构化数据，但是将非结构化数据变成结构化数据需要投入大量的人力成本以通过手动转化的方式来进行数据结构化处理，这就导致获取深度学习所需训练数据的效率低下。

发明内容

本申请提供了一种海量数据结构化方法、装置、计算机设备及存储介质，旨在解决现有技术中将非结构化数据变成结构化数据需要投入大量的人力成本以通过手动转化的方式来进行数据结构化处理，导致获取深度学习所需训练数据的效率低下的问题。

第一方面，本申请提供了一种海量数据结构化方法，其包括：

将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；

在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；

将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

第二方面，本申请提供了一种海量数据结构化装置，其包括：

聚类单元，用于将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；

正则表达式获取单元，用于在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；

数据结构化单元，用于将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

第三方面，本申请又提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请提供的任一项所述的海量数据结构化方法。

第四方面，本申请还提供了一种存储介质，其中所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行本申请提供的任一项所述的海量数据结构化方法。

本申请提供一种海量数据结构化方法、装置、计算机设备及存储介质。该方法通过将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。该方法实现由聚类算法将海量的非结构化数据做聚类，每个簇对应生成一个正则表达式并应用到该簇的所有数据，这样海量非结构化数据都能快速转化为结构化数据，能快速的满足深度学习所需训练数据的需求。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种海量数据结构化方法的示意流程图；

图2为本申请实施例提供的一种海量数据结构化方法的另一示意流程图；

图3是本申请实施例提供的一种海量数据结构化方法的子流程示意图；

图4为本申请实施例提供的一种海量数据结构化方法的另一子流程示意图；

图5为本申请实施例提供的一种海量数据结构化方法的另一子流程示意图；

图6为本申请实施例提供的一种海量数据结构化装置的示意性框图；

图7为本申请实施例提供的一种海量数据结构化装置的另一示意性框图；

图8为本申请实施例提供的一种海量数据结构化装置的子单元示意性框图；

图9为本申请实施例提供的一种海量数据结构化装置的另一子单元示意性框图；

图10为本申请实施例提供的一种海量数据结构化装置的另一子单元示意性框图；

图11为本申请实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1是本申请实施例提供的一种海量数据结构化方法的示意流程图。该方法应用于台式电脑、手提电脑、平板电脑等终端中。如图1所示，该方法包括步骤S101～S103。

S101、将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号。

在本实施例中，对非结构化数据进行聚类，是为了将具有相同或相似特征的非结构化数据归为一类。通过聚类进行分类后，能更加具有针对性的对每一聚类生成正则表达式，以实现后续的数据结构化处理。而且，对每一簇的聚类一一对应的ID编号是为了后续根据该ID编号对应建数据表格以存储所生成的结构化数据。

在一实施例中，如图3所示，所述步骤S101包括：

S1011、在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据，将所选取的非结构化数据作为每一簇的初始聚类中心；

S1012、根据多个非结构化数据与各初始聚类中心的相异值，将多个非结构化数据进行划分，得到初始聚类结果；

S1013、根据初始聚类结果，获取每一簇的调整后聚类中心；

S1014、根据调整后聚类中心，将多个非结构化数据进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类结果。

在本实施例中，对非结构化数据进行聚类时采用k-means算法进行，具体如下：

11)从n个非结构化数据中任意选取k个非结构化数据，并作为k个簇的初始聚类中心；

其中，非结构化数据的初始总个数为n，从其中任意选择k个数据(k<n，k是用户指定的参数，即所期望的簇的个数，也即预设的聚类簇数)，将初始选择的k个数据作为初始聚类中心。

12)分别计算剩下的非结构化数据到k个簇初始聚类中心的相异度，将剩下的非结构化数据分别划归到相异度最低的簇，得到初始聚类结果；

即是剩下的每一非结构化数据选择距其距离最近的初始聚类中心，并与该初始聚类中心归为一类；这样就以初始选择的初始聚类中心将海量的非结构化数据划分为k簇，每一簇数据都有一个初始聚类中心。

13)根据初始聚类结果，重新计算k个簇各自的聚类中心；

具体计算方法是取每一簇中所有非结构化数据的各自维度的算术平均数，例如每一的非结构化数据具有3个维度，分别是商品编码，品牌，型号，就针对每一簇分别计算这三个维度的聚类中心，选择一个三个维度都符合算数平均值的非结构化数据作为新的聚类中心，重新选择该簇数据中更优的聚类中心。

14)将n个非结构化数据中全部元素按照新的中心重新聚类；

15)重复第14)步，直到聚类结果不再变化，得到与预设的聚类簇数对应的聚类结果。

在完成了聚类分类之后，再对每一最终聚类结果一一设置ID编号，即可实现快速的将海量的非结构化数据进行分组。

S102、在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式。

在本实施例中，在聚类结果中每一簇的聚类中均获取一非结构化数据时，可以是随机从每一簇聚类中获取一非结构化数据，也可以直接选择该簇聚类的聚类中心所对应的非结构化数据(例如k个簇的聚类则需要从每一簇聚类中都选择一个，一共选择k个非结构化数据)。完成对每一簇的聚类中均获取一非结构化数据时，则将所选中的k个非结构化数据均转化为正则表达式。

在一实施例中，如图4所示，所述步骤S102包括：

S1021、将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；

S1022、根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；

S1023、将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

例如，有一非结构化的初始数据如下：

8471701000固态硬盘品牌:Crucial|型号:CT1024M550SSD1|容量:1TB无缓存|无转速|用于计算机，非移动硬盘,接口类型：SATAIII，传输速率：6Gbps

将非结构化的数据进行字符串进行划分后，再对每个字符串依次生成子正则表达式，将子正则表达式串接，得到与与该非结构化的数据对应的正则表达式；

例如，可以根据ABC生成对应的正则表达式\bABC\b；

可以根据ABC123生成对应的正则表达式\bABc\b\d{3}；

根据ABC123-生成对应的正则表达式\bABC\b\d{3}-；

根据ABC123-1生成对应的正则表达式\bABC\b\d{3}-\d；

根据ABC123-1-生成对应的正则表达式\bABC\b\d{3}-\d-；

根据ABC121-1-1生成对应的正则表达式\bABC\b\d{3}-\d-\d；

根据ABC-1生成对应的正则表达式\bABC\b-\d。

上述举例的示例，包括以下步骤：

21)通过自动识别将非结构化的数据中的字符以字符类型(如数字类字符划为第一类、字母类字符划为第二类、符号类字符划分为第三类)将该示例划分为多段字符串；例如，将ABC121-1-1进行划分时，A、B、C是三个字母，C后面是1则是数字，此时作自动划分时则在C和1之间划分开；同样的，121中最后一位的1和第一个-之间划分开，第一个-与之后的第一个1之间划分开，第一个-与之后的第一个1与第二个-之间划分开，第二个-与最后一位1之间划分开，即按字符类型进行划分后得到了以下几段ABC、121、-、1、-、1；

22)选取非结构化数据划分得到的多段字符串中的每一段，并对应生成正则表达式。

通过上述转化，使得每一簇的聚类均得到一个正则表达式，通过该正则表达式的替换、检索等功能，将非结构化数据转化为结构化数据，实现了对海量的非结构化数据批量转化处理，提高了转化效率。

S103、将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

在本实施例中，由于每一聚类中被选出的非结构化数据都生成了对应的正则表达式，再根据正则表达式将每一聚类中剩余的非结构化数据进行转化，生成结构化数据。例如上述示例中所列举的非结构化数据与正则表达式匹配后，即可对应标准化为结构化数据，其格式如下：

商品名称：固态硬盘

商品编码：8471701000

品牌：Crucial

型号:CT1024M550SSD1

用途：用于计算机

功能：存储器功能

容量:1TB。

通过正则表达式将海量的非结构化数据转化为结构化数据，提供数据规范化效率，节约开发时间。

在一实施例中，所述步骤S103包括：

获取每一簇的聚类所对应的正则表达式所包括的多个子正则表达式，将每一簇的聚类中所包括的非结构化数据均与该聚类对应的多个子正则表达式进行转化，得到与每一非结构化数据对应的多个初始转化结果；

将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据。

在本实施例中，由于每一簇的聚类所对应的正则表达式均是包括多个子正则表达式，故该簇聚类对应的非结构化数据均可以根据该簇聚类对应的正则表达式所包括多个子正则表达式分段进行匹配和转化，得到与每一非结构化数据对应的多个初始转化结果。此时，再与由子正则表达式串接形成正则表达式过程一样，同样通过串接的方式将同一非结构化数据对应的多个初始转化结果进行处理，得到该非结构化数据对应的结构化数据。通过分段转化的方式，能确保转化结果更加准确。

在一实施例中，将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据中，是将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，得到该非结构化数据对应的结构化数据。

在本实施例中，通过对同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，使得在后续的存储阶段，更容易的识别结构化数据的字段，一一对应建立数据表格的字段。

在一实施例中，如图2所示，所述步骤S103之后，还包括：

S104、将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

在一实施例中，如图5所示，所述步骤S104包括：

S1041、根据每一簇的聚类的ID编号，一一对应建立数据表格；

S1042、根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；

S1043、将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

在本实施例中，由于将非结构化的数据通过正则表达式转化后，需填充至数据库中的数据表格中进行存储，具体可以如下：

41)根据每一聚类的ID编号对应建立数据表格；

例如有N个聚类的ID编号，则对应建立N个数据表格，每一数据表格是相应的根据其中一个聚类的ID编号建立；

42)根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；

例如，在ID编号为1的聚类中，选定的结构化数据如：

商品名称：固态硬盘

商品编码：8471701000

品牌：Crucial

型号:CT1024M550SSD1

用途：用于计算机

功能：存储器功能

容量:1TB。

则在ID编号为1对应的数据表格中建立商品名称、商品编码、品牌、型号、用途、功能、容量的字段。

43)将聚类的ID编号所对应的每一条结构化数据按Fasttext文本分类算法填充至数据表格的对应字段中；

其中，Fasttext文本分类算法的模型如下：

其中，<x_n,y_n>是一条训练样本，y_n是训练目标，x_n是normalized bag offeatures。矩阵参数A是基于word的look-up table，也就是A是词的embedding向量。Ax_n矩阵运算的数学意义是将word的embedding向量找到后相加或者取平均，得到hidden向量。矩阵参数B是函数f的参数，函数f是一个多分类问题，所以f(BAx_n)是一个多分类的线性函数。优化目标是使的这个多分类问题的似然越大越好。

也即，通过Fasttext文本分类算法可以将每一结构化数据所包括的多个字段的数据对应填充至数据表中的对应字段中。

可见，该方法实现由聚类算法将海量的非结构化数据做聚类，每个簇对应生成一个正则表达式并应用到该簇的所有数据，这样海量非结构化数据都能快速转化为结构化数据，能快速的满足深度学习所需训练数据的需求。

本申请实施例还提供一种海量数据结构化装置，该海量数据结构化装置用于执行前述海量数据结构化方法的任一实施例。具体地，请参阅图6，图6是本申请实施例提供的一种海量数据结构化装置的示意性框图。海量数据结构化装置100可以配置于台式电脑、平板电脑、手提电脑、等终端中。

如图6所示，海量数据结构化装置100包括聚类单元101、正则表达式获取单元102、数据结构化单元103。

模型获取单元101，用于将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号。

在本实施例中，对非结构化数据进行聚类，是为了将具有相同或相似特征的非结构化数据归为一类。通过聚类进行分类后，能更加具有针对性的对每一聚类生成正则表达式，以实现后续的数据结构化处理。

在一实施例中，如图8所示，所述模型获取单元101包括：

初始中心选择单元1011，用于在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据，将所选取的非结构化数据作为每一簇的初始聚类中心；

初始聚类单元1012，用于根据多个非结构化数据与各初始聚类中心的相异值，将多个非结构化数据进行划分，得到初始聚类结果；

聚类中心调整单元1013，用于根据初始聚类结果，获取每一簇的调整后聚类中心；

聚类调整单元1014，用于根据调整后聚类中心，将多个非结构化数据进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类结果。

13)根据初始聚类结果，重新计算k个簇各自的聚类中心；

14)将n个非结构化数据中全部元素按照新的中心重新聚类；

正则表达式获取单元102，用于在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式。

在一实施例中，如图9所示，所述正则表达式获取单元102包括：

字符串划分单元1021，用于将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；

分段生成单元1022，用于根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；

串接单元1023，用于将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

例如，有一非结构化的初始数据如下：

例如，可以根据ABC生成对应的正则表达式\bABC\b；

可以根据ABC123生成对应的正则表达式\bABc\b\d{3}；

根据ABC123-生成对应的正则表达式\bABC\b\d{3}-；

根据ABC123-1生成对应的正则表达式\bABC\b\d{3}-\d；

根据ABC123-1-生成对应的正则表达式\bABC\b\d{3}-\d-；

根据ABC121-1-1生成对应的正则表达式\bABC\b\d{3}-\d-\d；

根据ABC-1生成对应的正则表达式\bABC\b-\d。

上述举例的示例，包括以下步骤：

数据结构化单元103，用于将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

商品名称：固态硬盘

商品编码：8471701000

品牌：Crucial

型号:CT1024M550SSD1

用途：用于计算机

功能：存储器功能

容量:1TB。

在一实施例中，所述数据结构化单元103包括：

初始转化结果获取单元，用于获取每一簇的聚类所对应的正则表达式所包括的多个子正则表达式，将每一簇的聚类中所包括的非结构化数据均与该聚类对应的多个子正则表达式进行转化，得到与每一非结构化数据对应的多个初始转化结果；

初始转化结果串接单元，用于将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据。

在一实施例中，在初始转化结果串接单元中，是将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，得到该非结构化数据对应的结构化数据。

在一实施例中，如图7所示，所述海量数据结构化装置100，还包括：

分类存储单元104，用于将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

在一实施例中，如图10所示，所述分类存储单元104包括：

表格建立单元1041，用于根据每一簇的聚类的ID编号，一一对应建立数据表格；

字段建立单元1042，用于根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；

分类填充单元1043，用于将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

41)根据每一聚类的ID编号对应建立数据表格；

例如，在ID编号为1的聚类中，选定的结构化数据如：

商品名称：固态硬盘

商品编码：8471701000

品牌：Crucial

型号:CT1024M550SSD1

用途：用于计算机

功能：存储器功能

容量:1TB。

其中，Fasttext文本分类算法的模型如下：

可见，该装置实现由聚类算法将海量的非结构化数据做聚类，每个簇对应生成一个正则表达式并应用到该簇的所有数据，这样海量非结构化数据都能快速转化为结构化数据，能快速的满足深度学习所需训练数据的需求。

上述海量数据结构化装置可以实现为一种计算机程序的形式，该计算机程序可以在如图11所示的计算机设备上运行。

请参阅图11，图11是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500设备可以是终端。该终端可以是平板电脑、笔记本电脑、台式电脑、个人数字助理等电子设备。

参阅图11，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种海量数据结构化方法。

该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种海量数据结构化方法。

该网络接口505用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下功能：将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

在一实施例中，处理器502还执行如下操作：将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

在一实施例中，处理器502还执行如下操作：在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据，将所选取的非结构化数据作为每一簇的初始聚类中心；根据多个非结构化数据与各初始聚类中心的相异值，将多个非结构化数据进行划分，得到初始聚类结果；根据初始聚类结果，获取每一簇的调整后聚类中心；根据调整后聚类中心，将多个非结构化数据进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类结果。

在一实施例中，处理器502还执行如下操作：将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

在一实施例中，处理器502还执行如下操作：根据每一簇的聚类的ID编号，一一对应建立数据表格；根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

在一实施例中，处理器502还执行如下操作：获取每一簇的聚类所对应的正则表达式所包括的多个子正则表达式，将每一簇的聚类中所包括的非结构化数据均与该聚类对应的多个子正则表达式进行转化，得到与每一非结构化数据对应的多个初始转化结果；将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据。

在一实施例中，处理器502还执行如下操作：将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，得到该非结构化数据对应的结构化数据。

本领域技术人员可以理解，图11中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图11所示实施例一致，在此不再赘述。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本申请的另一实施例中提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序，其中计算机程序包括程序指令。该程序指令被处理器执行时实现：将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，并设置与每一簇的聚类一一对应的ID编号；在聚类结果中每一簇的聚类中均获取一非结构化数据，并将所获取的非结构化数据对应转化为正则表达式；将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据。

在一实施例中，该程序指令被处理器执行时实现：将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

在一实施例中，该程序指令被处理器执行时实现：在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据，将所选取的非结构化数据作为每一簇的初始聚类中心；根据多个非结构化数据与各初始聚类中心的相异值，将多个非结构化数据进行划分，得到初始聚类结果；根据初始聚类结果，获取每一簇的调整后聚类中心；根据调整后聚类中心，将多个非结构化数据进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类结果。

在一实施例中，该程序指令被处理器执行时实现：将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

在一实施例中，该程序指令被处理器执行时实现：根据每一簇的聚类的ID编号，一一对应建立数据表格；根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

在一实施例中，该程序指令被处理器执行时实现：获取每一簇的聚类所对应的正则表达式所包括的多个子正则表达式，将每一簇的聚类中所包括的非结构化数据均与该聚类对应的多个子正则表达式进行转化，得到与每一非结构化数据对应的多个初始转化结果；将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据。

在一实施例中，该程序指令被处理器执行时实现：将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，得到该非结构化数据对应的结构化数据。

所述存储介质可以是前述设备的内部存储单元，例如设备的硬盘或内存。所述存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种海量数据结构化方法，其特征在于，包括：

将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据；

所述将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据，包括：

将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据；

所述将所获取的非结构化数据对应转化为正则表达式，包括：

将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；

根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；

将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

2.根据权利要求1所述的海量数据结构化方法，其特征在于，所述将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据之后，还包括：

将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储。

3.根据权利要求1所述的海量数据结构化方法，其特征在于，所述将非结构化数据进行聚类，得到与预设的聚类簇数对应的聚类结果，包括：

在多个非结构化数据中选取与预设的聚类簇数相同个数的非结构化数据，将所选取的非结构化数据作为每一簇的初始聚类中心；

根据多个非结构化数据与各初始聚类中心的相异值，将多个非结构化数据进行划分，得到初始聚类结果；

根据初始聚类结果，获取每一簇的调整后聚类中心；

根据调整后聚类中心，将多个非结构化数据进行划分，直至聚类结果保持相同的次数多于预设的次数，得到与预设的聚类簇数对应的聚类结果。

4.根据权利要求2所述海量数据结构化方法，其特征在于，所述将每一簇的聚类中的每一结构化数据根据文本分类算法填充至该聚类对应的数据表格中进行存储，包括：

根据每一簇的聚类的ID编号，一一对应建立数据表格；

根据每一簇的聚类中所选定结构化数据的字段，一一对应建立数据表格的字段；

将每一簇的聚类中所包括结构化数据根据Fasttext文本分类算法填充至该聚类对应的数据表格的对应字段中。

5.根据权利要求1所述海量数据结构化方法，其特征在于，所述将同一非结构化数据对应的初始转化结果进行串接，得到该非结构化数据对应的结构化数据，包括：

将同一非结构化数据对应的多个初始转化结果尾部均增加一转行符后再进行串接，得到该非结构化数据对应的结构化数据。

6.一种海量数据结构化装置，其特征在于，包括：

数据结构化单元，用于将每一簇的聚类中所包括的非结构化数据均根据该聚类对应的正则表达式进行转化，得到结构化数据；

所述数据结构化单元包括：

初始转化结果串接单元，用于将同一非结构化数据对应的多个初始转化结果进行串接，得到该非结构化数据对应的结构化数据；

所述正则表达式获取单元包括：

字符串划分单元，用于将所获取的与每一簇的聚类一一对应的非结构化数据根据字符类型进行划分，得到与所获取的非结构化数据一一对应的划分结果；其中，每一划分结果均包括多个子字符串；

分段生成单元，用于根据每一划分结果所包括子字符串，生成与每一划分结果对应的多个子正则表达式；

串接单元，用于将同一划分结果内对应的多个子正则表达式串接，得到该划分结果对应的正则表达式。

7.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的海量数据结构化方法。

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-5任一项所述的海量数据结构化方法。