CN113157788A

CN113157788A - 大数据挖掘方法及系统

Info

Publication number: CN113157788A
Application number: CN202110393460.5A
Authority: CN
Inventors: 李秋缘
Original assignee: Fuzhou College of Foreign Studies and Trade
Current assignee: Fuzhou College of Foreign Studies and Trade
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-23
Anticipated expiration: 2041-04-13
Also published as: CN113157788B

Abstract

本申请涉及一种大数据挖掘方法及系统，所述方法包括获取与待挖掘数据库对接成功的的数据库对接完成指令；根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；基于预设的规则识别确定各待提取数据的数据列类型；根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘。本发明提高了大数据挖掘过程中的数据处理效率。

Description

大数据挖掘方法及系统

技术领域

本申请涉及计算机技术领域，特别是涉及一种大数据挖掘方法及系统。

背景技术

大数据(big data)，IT行业术语，是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”

目前，针对大数据挖掘具有重要意义，其中，数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统、依靠过去的经验法则和模式识别等诸多方法来实现上述目标。

然而，目前市面上的大数据挖掘的方法需要花费大量的时间，存在数据处理效率低下的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高数据处理效率的大数据挖掘方法及系统。

本发明技术方案如下：

一种大数据挖掘方法，所述方法包括：

步骤S100：获取与待挖掘数据库对接成功的的数据库对接完成指令；

步骤S200：根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；

步骤S300：基于预设的规则识别确定各待提取数据的数据列类型，其中，所述数据列类型包括数值型数据以及文本型数据；

步骤S400：根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；

步骤S500：根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘。

具体地，步骤S400：根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；之前还包括：

步骤S041：按照预设的规则抽取至少一个通过矩阵数据识别模型识别确定的数据标签；

步骤S042：判断所述识别确定的数据标签是否准确；

步骤S043：当判断识别确定的数据标签不准确时，修改所述数据标签，并根据修改后的数据标签优化所述矩阵数据识别模型。

具体地，步骤S200：根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；之后还包括：

步骤S201：根据待提取数据构造数据特征校验矩阵；

步骤S201：针对构造好的所述数据特征校验矩阵中的每个四环，执行第一预设处理或第二预设处理，得到预设处理后的数据特征校验矩阵；

步骤S201：判断所述预设处理后的数据特征校验矩阵中是否出现新的四环；其中，若所述预设处理后的数据特征校验矩阵中出现新的四环，则针对每个新的四环，返回执行第一预设处理或第二预设处理的步骤；若所述预设处理后的数据特征校验矩阵中没有出现新的四环，则将所述预设处理后的数据特征校验矩阵作为消四环处理后的数据特征校验矩阵。

具体地，步骤S201中执行第一预设处理的步骤，具体包括：

将该四环上的任意一个1改为0，将所述任意一个1所在的列中、除所述任意一个1的位置之外的任意一个0改为1。

具体地，步骤S201中执行第二预设处理的步骤，具体包括：

步骤S2011：判断该四环对应的两列中是否存在满足预设条件的0；

步骤S2012：若存在，则将满足预设条件的任意一个0改为1，并将所述任意一个0所在的列中、位于该四环上的任意一个1改为0；

步骤S2013：若不存在，则对该四环执行所述第一预设处理；其中，所述预设条件包括：所述0与左右相邻的两个1的间隔均不小于所述预设间隔范围的最小值。

具体地，一种大数据挖掘系统，所述系统包括：

对接完成指令获取模块，用于获取与待挖掘数据库对接成功的的数据库对接完成指令；

待提取数据提取模块，用于根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；

数据列类型识别模块，用于基于预设的规则识别确定各待提取数据的数据列类型，其中，所述数据列类型包括数值型数据以及文本型数据；

数据标签确定模块，用于根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；

大数据挖掘模块，用于根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘。

具体地，所述装置还包括：

抽取数据识别模块，用于按照预设的规则抽取至少一个通过矩阵数据识别模型识别确定的数据标签；

数据判断模块，用于判断所述识别确定的数据标签是否准确；

数据标签优化模块，用于当判断识别确定的数据标签不准确时，修改所述数据标签，并根据修改后的数据标签优化所述矩阵数据识别模型。

具体地，所述装置还包括：

特征校验矩阵构造模块，用于根据待提取数据构造数据特征校验矩阵；

预设处理模块，用于针对构造好的所述数据特征校验矩阵中的每个四环，执行第一预设处理或第二预设处理，得到预设处理后的数据特征校验矩阵；

消四环处理模块，用于判断所述预设处理后的数据特征校验矩阵中是否出现新的四环；其中，若所述预设处理后的数据特征校验矩阵中出现新的四环，则针对每个新的四环，返回执行第一预设处理或第二预设处理的步骤；若所述预设处理后的数据特征校验矩阵中没有出现新的四环，则将所述预设处理后的数据特征校验矩阵作为消四环处理后的数据特征校验矩阵。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述大数据挖掘方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述大数据挖掘方法所述的步骤。

本发明实现技术效果如下：

上述大数据挖掘方法及系统，先通过获取与待挖掘数据库对接成功的的数据库对接完成指令；根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；基于预设的规则识别确定各待提取数据的数据列类型，其中，所述数据列类型包括数值型数据以及文本型数据；根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘，进而提高了大数据挖掘过程中的数据处理效率。

附图说明

图1为一个实施例中大数据挖掘方法的流程示意图；

图2为一个实施例中大数据挖掘系统的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

在一个实施例中，如图1所示，提供了一种大数据挖掘方法，所述方法包括：

进一步地，本实施例中为从待挖掘数据库中挖掘数据，故需要先与待挖掘数据库对接，只有对接完成后方可实现数据挖掘，故需要先获取与待挖掘数据库对接成功的的数据库对接完成指令。

当获取与待挖掘数据库对接成功的的数据库对接完成指令后，即为待挖掘数据库对接成功，此时可以提取数据，因此可以根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据。

进一步地，所述提取待提取数据为所述待挖掘数据库中可以挖掘的数据。

更进一步地，在所述根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据的步骤之前，还包括以下步骤：

根据获取的所述数据库对接完成指令从所述待挖掘数据库中删除冗余存储数据，其中，所述冗余存储数据为在所述待挖掘数据库中已经存储超过特定时间段的数据。具体地，所述特定时间段由本领域技术人员预先设置，如设置为一年，可以理解，当所述待挖掘数据库中超过一年以上的数据，即为所述冗余存储数据。对于互联网大数据来说，数据更新迭代速度快，当超过一定时间后，数据的价值已然不高，故通过从所述待挖掘数据库中删除冗余存储数据，提升从大数据中挖掘的数据的有效性，间接提升数据挖掘效率和真实可用性。

本步骤中的规则预先设置，并用于确定各待提取数据的数据列类型，通过确定各待提取数据的数据列类型，实现能够根据不同的数据类型进行针对性地数据挖掘，进而提升数据挖掘效率。

具体地，所述第一特征类型提取模型用于作列特征向量提取，一个数据列类型预先通过训练生成一个矩阵数据识别模型。

所述矩阵数据识别模型由大量矩阵样本训练生成，使得最终确定出的矩阵的标签结果更加准确，相比于现有的矩阵识别方法，在保证准确率的同时，大大降低了矩阵计算量，尤其是针对矩阵量大的政务矩阵，矩阵分类的效率大大提高，进而提升大数据挖掘效率和准确性。

进一步地，所述数据标签可以是网络直播数据、外卖销售记录、当地销售 GDP变化趋势数据等内容。

本发明先通过获取与待挖掘数据库对接成功的的数据库对接完成指令；根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；基于预设的规则识别确定各待提取数据的数据列类型，其中，所述数据列类型包括数值型数据以及文本型数据；根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘，进而提高了大数据挖掘过程中的数据处理效率。

在一个实施例中，步骤S400：根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；之前还包括：

具体地，通过抽取至少一个通过矩阵数据识别模型，首先数据获取的可靠性和随机性。

步骤S042：判断所述识别确定的数据标签是否准确；

通过判断所述识别确定的数据标签是否准确，进而判断所述矩阵数据识别模型是否需要修改。

本步骤中，当判断识别确定的数据标签不准确时，表明矩阵数据识别模型优化尚未完全，存在一定误差，因此需要对矩阵数据识别模型进行优化，因此，通过将所述数据标签修改为正确标签，能够反向对矩阵数据识别模型进行优化，进一步提高了矩阵数据识别模型的准确率，提升大数据识别的准确率。

在一个实施例中，步骤S200：根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；之后还包括：

步骤S201：根据待提取数据构造数据特征校验矩阵；

具体地，为了提高待提取数据后续要进行的大数据提取的高效率和准确性，需对待提取数据进行校验。本步骤中，通过构造数据特征校验矩阵的方式。

在构造数据特征校验矩阵，需要对所述待提取数据编码，即对所述待提取数据进行编码后，生成已编码待提取数据，再根据所述已编码待提取数据构造所述数据特征校验矩阵。当所述数据特征校验矩阵中存在四环时，说明待提取数据数据的译码性能不强，进而反映所述待提取数据的数据结构不稳定，故本步骤中，通过根据待提取数据构造数据特征校验矩阵，为后续数据分析作数据支撑。

具体地，所述第一预设处理或第二预设处理为预先设置的数据处理步骤，通过所述第一预设处理或第二预设处理，可以得到预设处理后的数据特征校验矩阵。本实施例中，所述第一预设处理或第二预设处理还可以去除四环。

进一步地，判断所述预设处理后的数据特征校验矩阵中是否出现新的四环是为了判断数据结构是否稳定，当判断所述预设处理后的数据特征校验矩阵中出现新的四环，说明此时数据的结构不稳定，此时为了后续结构处理的稳定性，故需要将四环去除，而去除四环的方法即为预设的第一预设处理或第二预设处理的步骤，故若所述预设处理后的数据特征校验矩阵中出现新的四环，则针对每个新的四环，返回执行第一预设处理或第二预设处理的步骤。

处理完后，继续判断所述预设处理后的数据特征校验矩阵中是否出现新的四环，若所述预设处理后的数据特征校验矩阵中出现新的四环，则针对每个新的四环，再返回执行第一预设处理或第二预设处理的步骤，直至四环消失。

另一种情况，所述预设处理后的数据特征校验矩阵中没有出现新的四环，那么则将所述预设处理后的数据特征校验矩阵作为消四环处理后的数据特征校验矩阵。

在一个实施例中，步骤S201中执行第一预设处理的步骤，具体包括：

具体地，步骤S201中执行第二预设处理的步骤，具体包括：

本步骤中，若存在，即为判断该四环对应的两列中存在满足预设条件的0，此时则将满足预设条件的任意一个0改为1，并将所述任意一个0所在的列中、位于该四环上的任意一个1改为0。

具体地，若不存在，即为判断该四环对应的两列中不存在满足预设条件的0，故对该四环执行所述第一预设处理。

进一步地，所述第一预设处理和所述第二预设处理中，均是将四环对应的两列中的某一列上的、位于该四环上的任意一个1改为0，并将同一列上的某一个0改为1，这种在同一列中调整1的位置来消四环的方式没有改变数据特征校验矩阵中任何一列的列重，使各列的列重仍然是均匀的。

考虑到在四环的同一列中调整1的位置时，将该列的某一个0修改为1后，可能会导致该修改后的1与左或右相邻的1的间隔小于预设间隔范围的最小值，进而导致无法降低符号间出现码间串扰现象带来的影响。因而在第二预设处理中，可以将四环对应的两列中的、与左右相邻的1的间隔均不小于预设间隔范围的最小值的0改为1，不仅消除了四环，而且仍然可以降低码间串扰带来的影响。

在一个实施例中，所述大数据挖掘方法中的步骤S500：根据确定的各待提取数据的数据标签分别使用预设的大数据挖掘模型对各待提取数据作大数据挖掘之后，还包括：

步骤S610：获取使用预设的大数据挖掘模型对各待提取数据作大数据挖掘之后得到的高价值目标数据；

具体地，通过获取使用预设的大数据挖掘模型对各待提取数据作大数据挖掘之后得到的高价值目标数据，使能够对高价值目标数据作存储、分解以及利用等数据处理，提升数据的使用率。

步骤S620：对所述高价值目标数据进行数据子集合拆分，得到目标子集合数据；

具体地，本步骤中利用深度学习网络对目标数据进行识别和标记，按照深度学习网络的标记对目标数据进行分解；或者可以按照预设格式对目标数据进行分解。

步骤S630：将所述目标子集合数据与预设的元数据存储区中的标准元数据进行匹配，确定所述目标子集合数据对应的标准目标元数据；

进一步地，元数据的具体形式本实施例不做限定，例如可以为普通的数据；或者可以为某些信息元素组成的信息，更进一步地，可以将目标子集合数据与元数据存储区中的每个元数据进行匹配，并确定每次匹配的置信度，当某一元数据对应的置信度大于置信度阈值时，例如当大于99％时，将该元数据确定为标准目标元数据。

步骤S640：获取所述目标子集合数据对应的标准目标元数据信息和所目标子集合数据的实际属性信息；

具体地，每个标准目标元数据对应一个标准目标元数据信息，因此会有多个标准目标元数据信息。目标数据的属性信息包括目标数据的标识信息，例如 id信息或编号信息，还包括位置信息，位置信息用于表示目标子集合数据在目标数据中的位置，也可以被称为映射因子，即目标子集合数据在目标数据中的映射位置。

步骤S650：基于所述实际属性信息和所述标准目标元数据信息组成所述目标数据的组合数据信息，并存储所述组合数据信息。

进一步地，本步骤中，将标准目标元数据对应的标准目标元数据信息和目标数据的属性信息进行组合并存储，即相当于将目标数据存储了起来。该数据存储方法无需存储大量相近或相同的数据，仅需存储目标数据对应的组合信息，因此减少了存储单元的浪费，提高了存储单元的复用率，提高了存储效率，同时还降低了存储成本。

在一个实施例中，如图2所示，一种大数据挖掘系统，所述系统包括：

在一个实施例中，所述装置还包括：

在一个实施例中，所述消四环处理模块还用于将该四环上的任意一个1改为0，将所述任意一个1所在的列中、除所述任意一个1的位置之外的任意一个 0改为1；判断该四环对应的两列中是否存在满足预设条件的0；若存在，则将满足预设条件的任意一个0改为1，并将所述任意一个0所在的列中、位于该四环上的任意一个1改为0；若不存在，则对该四环执行所述第一预设处理；其中，所述预设条件包括：所述0与左右相邻的两个1的间隔均不小于所述预设间隔范围的最小值。

在一个实施例中，如图3，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述大数据挖掘方法所述的步骤。

如图3所示，提供一种服务器700，服务器700包括中央处理单元701、包括随机存取存储器702和只读存储器703的系统存储器704，以及连接系统存储器704和中央处理单元701的系统总线705。服务器700还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)706，和用于存储操作系统713、应用程序714和其他程序模块715的大容量存储设备707。

基本输入/输出系统706包括有用于显示信息的显示器708和用于用户输入信息的诸如鼠标、键盘之类的输入设备709。其中显示器708和输入设备709都通过连接到系统总线705的输入输出控制器710连接到中央处理单元701。基本输入/输出系统706还可以包括输入输出控制器710以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器710 还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备707通过连接到系统总线705的大容量存储控制器(未示出) 连接到中央处理单元701。大容量存储设备707及其相关联的计算机可读介质为服务器700提供非易失性存储。也就是说，大容量存储设备707可以包括诸如硬盘或者CD-ROM(CompactDiscRead-Only Memory，紧凑型光盘只读储存器)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory，可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory，带电可擦可编程只读存储器)、闪存或其他固态存储其技术， CD-ROM、DVD(Digital Versatile Disc，数字多功能光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器704和大容量存储设备707 可以统称为存储器。

根据本发明的各种实施例，服务器700还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器700可以通过连接在系统总线705上的网络接口单元711连接到网络712，或者说，也可以使用网络接口单元711来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种大数据挖掘方法，其特征在于，所述方法包括：

2.根据权利要求1所述的大数据挖掘方法，其特征在于，步骤S400：根据预设的第一特征类型提取模型提取对数值型数据或文本型数据的所述待提取数据作列特征向量提取，并基于各数据列类型采用与所述数据列类型对应的预先通过训练生成的矩阵数据识别模型对各列特征向量进行识别，并确定各待提取数据的数据标签；之前还包括：

步骤S042：判断所述识别确定的数据标签是否准确；

3.根据权利要求1或2所述的大数据挖掘方法，其特征在于，步骤S200：根据获取的所述数据库对接完成指令从所述待挖掘数据库中提取待提取数据；之后还包括：

步骤S201：根据待提取数据构造数据特征校验矩阵；

4.根据权利要求1-3任一项所述的大数据挖掘方法，其特征在于，步骤S201中执行第一预设处理的步骤，具体包括：

5.根据权利要求3所述的大数据挖掘方法，其特征在于，步骤S201中执行第二预设处理的步骤，具体包括：

6.一种大数据挖掘系统，其特征在于，所述系统包括：

7.根据权利要求6所述的大数据挖掘系统，其特征在于，所述装置还包括：

8.根据权利要求6所述的大数据挖掘系统，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。