CN112800112A

CN112800112A - 一种数据处理系统及数据挖掘方法

Info

Publication number: CN112800112A
Application number: CN202110120920.7A
Authority: CN
Inventors: 王怡婷; 刘军
Original assignee: Wenzhou University
Current assignee: Wenzhou University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-14

Abstract

本发明公开了一种数据处理系统及数据挖掘方法，本发明属于数据处理领域，用于解决现有数据处理与挖掘系统需要挖掘数据庞杂，耗费时间长，缺乏一种关联处理的技术的问题；通过获取二进制字串符，并将二进制字串符内关键词进行提取，并将关键词标记为定义问题；与大数据平台建立数据联系，并以定义问题为关键词进行搜索，并将搜索结果标记为数据库；当不同数据库内出现数据相同情况时，将数据库所对应的定义问题标记为关联组题；对关联组题进行数据挖掘，使得本发明在数据处理过程中，可以实现关联，减少数据挖掘所需要得时间，同时数据挖掘得关键词均来自于数据处理系统，进而大大减轻了关键词标准化的时间，进而缩短挖掘时间。

Description

一种数据处理系统及数据挖掘方法

技术领域

本发明属于数据处理领域，涉及数据处理与挖掘技术，具体是一种数据处理系统及数据挖掘方法。

背景技术

数据分析指用适当的统计、分析方法对收集来的大量数据进行分析，将它们加以汇总和理解并消化，以求最大化地开发数据的功能，发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据也称为观测值，是实验、测量、观察、调查等的结果。数据分析中所处理的数据分为定性数据和定量数据。只能归入某一类而不能用数值进行测度的数据称为定性数据。定性数据中表现为类别，但不区分顺序的，是定类数据，如性别、品牌等；定性数据中表现为类别，但区分顺序的，是定序数据，如学历、商品的质量等级等；

目前，随着大数据技术普及，在很多行业运营过程中，积累大量的文本和结构化数据，现在没有技术处理和挖掘长文本数据，精准预测用户行为，识别和挖掘用户的需求，提升用户体验和提高客户价值，缩短用户办理时间，但现有数据处理与挖掘系统需要挖掘数据庞杂，耗费时间长，缺乏一种关联处理的技术。

发明内容

本发明的目的在于提供一种数据处理系统及数据挖掘方法，用于解决现有数据处理与挖掘系统需要挖掘数据庞杂，耗费时间长，缺乏一种关联处理的技术的问题。

本发明的目的可以通过以下技术方案实现：

一种数据处理系统，所述数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块；

其中，所述数据预处理模块包括数据预处理与数据匹配处理；所述分配模块用于将数据进行分配打包派送；所述融合模块用于对数据进行融合处理；所述主处理模块用于对融合后的数据进行处理；

所述数据预处理模块包括数据预处理与数据匹配处理，具体为:

步骤一：获取需要处理的数据，并通过标准转化模块将需要处理的数据转化为标准字串符；

步骤二：将标准字串符与模块内存储的预设字符串进行对比，并得出对比值；

步骤三：当对比值大于等于95％时，获取预设字符串所对应的预设处理流程，将预设处理流程发送至辅助处理模块进行处理；

步骤四：当对比值小于95％时，将标准字串符发送至主处理模块进行处理；

其中，所述通过标准转化模块将需要处理的数据转化为标准字串符具体为，获取需要处理的数据，对数据进行识别，当数据能转化为文本信息时，将数据转化为文本信，并将文本内的文字依次转化为二进制字串符，所述二进制字串符即为标准字串符；

将标准字串符与模块内存储的预设字符串进行对比，并得出对比值，具体为，获取二进制字串符中的关键字符，并与预设字符串内关键字符进行匹配，并选取关键词匹配成功最多的预设字符串为匹配字串符，比较匹配字串符与二进制字串符进行对比，并获得对比值；

其中，当二进制字串符字符数与匹配字串符字符数不相同时，则选取最后一个相匹配的关键词为结束词；

当结束词出现在二进制字串符内时，将结束词后续二进制字串符与预设字符串再次进行匹配，并将匹配成功的预设字符串标记为第二接尾字符串，重复操作，将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串，直至结束词后续二进制字串符内没有关键词与预设字符串相同时，则匹配结束；

此时将匹配字串符与匹配字串符、第三接尾字符串、第四接尾字符串以及第N接尾字符串进行相连，得到组合匹配字串符，匹配字串符内字符与二进制字串符内字符进行匹配，其中，匹配成功字符数与二进制字串符字符数的比值即为对比值。

进一步地，所述分配模块用于将对比值小于95％的标准字串符进行关键词对比，并根据对比关键词进行分配，具体为：

提取标准字串符内关键词，并与标准字串符内存储的关键词进行匹配，并将匹配结果相同的标准字串符分配至相对应的数据篮内完成分配；

其中，数据篮具体由若干个存储单元组成，其中，每个不同数据篮与不同主处理模块相连接，且每个数据篮都之与单个主处理模块相连接。

进一步地，所述数据篮与主处理模块之间还连接有融合模块；

其中，融合模块将数据篮内标准字串符进行数据融合，具体为，获取数据篮内标准字串符，并提取标准字串符内关键词，并依照关键词将不同标准字串符进行拼接融合，具体为，获取标准字串符内关键词，并将关键词相同的标准字串符进行匹配，并将匹配成功的标准字串符进行数据融合。

进一步地，所述将关键词相同的标准字串符进行匹配，并将匹配成功的标准字串符进行数据融合具体为，获取不同标准字串符中的关键值，从而获取标准字串符的类型及其关键值；基于不同标准字串符的类型及其关键值，将每种标准字串符进行融合；

其中，所述获取不同标准字串符中的关键值，具体为：将标准字串符进行分类，并将关键值和所述类型的标准字串符关联；所述类型为一个或者多个；

将每种标准字串符进行融合，具体为：将同种类型的标准字串符进行融合，并为所述同种类型的标准字串符设置关键值；保留同种类型标准字串符中关键值较高的数据，并剔除关键值较低的数据，并为所述保留的数据设置所述较高的关键值。

进一步地，所述主处理模块用于对融合后的数据进行处理，具体为，获取融合后的标准字串符，并将标准字串符进行解码，并将解码后的标准字串符所表示数据内容进行处理，同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。

进一步地，所述将标准字串符进行解码具体为，获取标准字串符的关键值以及字符数值，根据反推关系得到输出内容。

进一步地，所述辅助处理模块将处理得到的结果与所对应得标准字串符进行存储，并提取标准字串符以及标准字串符内关键词，并将关键词进行标注，同时将处理得到的结果标注为标准字串符的预设处理流程，并进行存储；

其中，所述提取标准字串符以及标准字串符内关键词，并将关键词进行标注时，所述关键词包括新增关键词。

进一步地，所述辅助处理模块用于将预设处理流程进行输出。

一种数据挖掘方法，所述数据挖掘方法包括以下步骤：

A1:获取二进制字串符，并将二进制字串符内关键词进行提取，并将关键词标记为定义问题；

A2:与大数据平台建立数据联系，并以定义问题为关键词进行搜索，并将搜索结果标记为数据库；

A3:当不同数据库内出现数据相同情况时，将数据库所对应的定义问题标记为关联组题；

A4:对关联组题进行数据挖掘。

进一步地，其中，当两个不同数据库出现35％数据相同时，既认定出现数据相同情况。

与现有技术相比，本发明的有益效果是：

(1)通过数据预处理模块获取需要处理的数据，并通过标准转化模块将需要处理的数据转化为标准字串符，将标准字串符与模块内存储的预设字符串进行对比，并得出对比值，将标准字串符与模块内存储的预设字符串进行对比，并得出对比值，将标准字串符与模块内存储的预设字符串进行对比，并得出对比值，使得数据在预处理时，便会智能识别需要匹配程度高的预设流程进行处理，减轻复杂问题处理的流程，同时通过当结束词出现在二进制字串符内时，将结束词后续二进制字串符与预设字符串再次进行匹配，并将匹配成功的预设字符串标记为第二接尾字符串，重复操作，将后续匹配成功的预设字符串标记为第三接尾字符串、第四接尾字符串、……、第N接尾字符串，直至结束词后续二进制字串符内没有关键词与预设字符串相同时，则匹配结束，使得本发明可以对需要处理的问题进行分隔与拼接，从而使得组合式问题也可以被筛选，从而使得预处理更加智能；

(2)通过辅助处理模块将处理得到的结果与所对应得标准字串符进行存储，并提取标准字串符以及标准字串符内关键词，并将关键词进行标注，同时将处理得到的结果标注为标准字串符的预设处理流程，并进行存储，使得非预设处理流程被处理流程进行记录，使得本发明具有一定的智能学习能力，进而在不断积累中，逐步实现完全智能化；

(3)通过获取二进制字串符，并将二进制字串符内关键词进行提取，并将关键词标记为定义问题；与大数据平台建立数据联系，并以定义问题为关键词进行搜索，并将搜索结果标记为数据库；当不同数据库内出现数据相同情况时，将数据库所对应的定义问题标记为关联组题；对关联组题进行数据挖掘，使得本发明在数据处理过程中，可以实现关联，减少数据挖掘所需要得时间，同时数据挖掘得关键词均来自于数据处理系统，进而大大减轻了关键词标准化的时间，进而缩短挖掘时间；

(4)同时该数据分析挖掘方法，通过通过大数据检索对各类数据的抽象组织，确定数据库需管辖的范围、数据的组织形式等直至转化成现实的数据库，通过建立众多数据库，并将数据库与关键词进行映射，分析建立数据库实体以及各实体之间关系，然后通过数据整合把在不同数据源的数据收集、整理、清洗，转换后加载存储，便于人们对分析结果的探究以及在使用时无需重新建立数据库，节省挖掘时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明原理框图；

图2为本发明方法框图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

因此，在下述附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。

如图1所示，一种数据处理系统，数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块；

其中，数据预处理模块包括数据预处理与数据匹配处理；分配模块用于将数据进行分配打包派送；融合模块用于对数据进行融合处理；主处理模块用于对融合后的数据进行处理；辅助处理模块用于将预设处理流程进行输出。

在本发明具体实施中，上述模块均以处理器为载体，其中，处理器为一种集成电路芯片，具有信号的处理能力。在实现过程中，数据处理与数据挖掘的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DigitalSignal Processing，简称DSP)、专用集成电路(Application Specific IntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施方式中的发明的各方法以及步骤。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施方式所发明的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。

具体的在本发明具体实施时，数据预处理模块包括数据预处理与数据匹配处理，具体为，获取需要处理的数据，并通过标准转化模块将需要处理的数据转化为标准字串符；将标准字串符与模块内存储的预设字符串进行对比，并得出对比值；当对比值大于等于95％时，获取预设字符串所对应的预设处理流程，将预设处理流程发送至辅助处理模块进行处理；

辅助处理模块将处理得到的结果与所对应得标准字串符进行存储，并提取标准字串符以及标准字串符内关键词，并将关键词进行标注，同时将处理得到的结果标注为标准字串符的预设处理流程，并进行存储；

具体的，提取标准字串符以及标准字串符内关键词，并将关键词进行标注时，关键词包括新增关键词；

需要注意的是，上述关键词选用需要满足如下要求，对数据进行分析，找出中心内容和主题概念的词汇与重要词语；参考有关标准中的词表中的对应规范的词汇，尽量选取规范词汇作为重要的词；剔除意义不明确、无专指性、无检索价值的词，删减同义词和近义词；冠词、代词、介词、连词、感叹词和某些动词(联系动词、情感动词)等不用；理论、报告、实验、学习、方法、问题、对策、途径、特点、目的、概念、发展等没有专指性概念性词汇，评价词，非公知公用的词不用；数学式和化学式可选取为重要的词；材料、设备、方法的专业代码、人名、地名可以作为关键词；当对比值小于95％时，将标准字串符发送至主处理模块进行处理；

其中，通过标准转化模块将需要处理的数据转化为标准字串符具体为，获取需要处理的数据，对数据进行识别，当数据能转化为文本信息时，将数据转化为文本信，并将文本内的文字依次转化为二进制字串符，二进制字串符即为标准字串符；

在本发明具体实施时，依次转化为二进制字串符具体为，获取转化文字位于现代汉语常用字表内的位数，将位数转化为二进制，如汉字“一”的二进制位数为0001；

在进一步地，分配模块用于将对比值小于95％的标准字串符进行关键词对比，并根据对比关键词进行分配，具体的，提取标准字串符内关键词，并与标准字串符内存储的关键词进行匹配，并将匹配结果相同的标准字串符分配至相对应的数据篮内完成分配，更进一步，数据篮具体由若干个存储单元组成，其中，每个不同数据篮与不同主处理模块相连接，且每个数据篮都之与单个主处理模块相连接。

更进一步的，数据篮与主处理模块之间还连接有融合模块；融合模块将数据篮内标准字串符进行数据融合，具体的，获取数据篮内标准字串符，并提取标准字串符内关键词，并依照关键词将不同标准字串符进行拼接融合，具体为，获取标准字串符内关键词，并将关键词相同的标准字串符进行匹配，并将匹配成功的标准字串符进行数据融合；

更进一步的，获取不同标准字串符中的关键值，从而获取标准字串符的类型及其关键值；基于不同标准字串符的类型及其关键值，将每种标准字串符进行融合；

其中，获取不同标准字串符中的关键值，具体为：将标准字串符进行分类，并将关键值和类型相同的标准字串符关联；类型为一个或者多个；

在本发明具体实施时，类型相同指合同标的物本身的性质和特点一致。比如都是支付金钱，或者交付同样的种类物。品质相同，指标的物的质量、规格、等级无差别，比如都是一级天津大米。债务种类品质不相同，原则上不允许抵销。如果给付的种类、品质不同，一是债务各有其不同的经济目的,抵销很可能使之落空，二是债务互异其经济价值,抵销难以公平。

将每种标准字串符进行融合，具体为：将同种类型的标准字串符进行融合，并为同种类型的标准字串符设置关键值；保留同种类型标准字串符中关键值较高的数据，并剔除关键值较低的数据，并为保留的数据设置较高的关键值。

更进一步的，主处理模块用于对融合后的数据进行处理，具体的，获取融合后的标准字串符，并将标准字串符进行解码，并将解码后的标准字串符所表示数据内容进行处理，同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。

在本发明具体实施中，获取标准字串符的关键值以及字符数值，根据反推关系得到输出内容；

其中，本发明在具体实施时，各模块之间进行数据连接可以包括有线通信组件或无线通信组件；其中，有线通信组件可以为传输线、USB接口；无线通信组件可以包括蓝牙模块、wifi模块、3G/4G/5G模块等。

如图2所示，在本发明中还涉及到一种数据挖掘方法，具体的，获取二进制字串符，并将二进制字串符内关键词进行提取，并将关键词标记为定义问题；与大数据平台建立数据联系，并以定义问题为关键词进行搜索，并将搜索结果标记为数据库；当不同数据库内出现数据相同情况时，将数据库所对应的定义问题标记为关联组题；对关联组题进行数据挖掘。

其中，当两个不同数据库出现35％数据相同时，既认定出现数据相同情况；

上述方法中，设有存储器，即机器可读存储介质，用于存储一条或多条计算机指令，一条或多条计算机指令被处理器执行，以实现上述车况检测方法的步骤，在此不进行限制，其中，存储器可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。其中，总线可以是ISA总线、PCI总线或EISA总线等，总线可以分为地址总线、数据总线、控制总线等。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

在本发明所提供的实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式；所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方法的目的。

另对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方法而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方法进行修改或等同替换，而不脱离本发明技术方法的精神和范围。

Claims

1.一种数据处理系统，其特征在于，所述数据处理系统包括数据预处理模块、分配模块、融合模块、辅助处理模块以及主处理模块；

2.根据权利要求1所述的一种数据处理系统，其特征在于，所述分配模块用于将对比值小于95％的标准字串符进行关键词对比，并根据对比关键词进行分配，具体为：

3.根据权利要求2所述的一种数据处理系统，其特征在于，所述数据篮与主处理模块之间还连接有融合模块；

4.根据权利要求3所述的一种数据处理系统，其特征在于，所述将关键词相同的标准字串符进行匹配，并将匹配成功的标准字串符进行数据融合具体为，获取不同标准字串符中的关键值，从而获取标准字串符的类型及其关键值；基于不同标准字串符的类型及其关键值，将每种标准字串符进行融合；

5.根据权利要求4所述的一种数据处理系统，其特征在于，所述主处理模块用于对融合后的数据进行处理，具体为，获取融合后的标准字串符，并将标准字串符进行解码，并将解码后的标准字串符所表示数据内容进行处理，同时将处理得到的结果与所对应得标准字串符发送至辅助处理模块。

6.根据权利要求5所述的一种数据处理系统，其特征在于，所述将标准字串符进行解码具体为，获取标准字串符的关键值以及字符数值，根据反推关系得到输出内容。

7.根据权利要求6所述的一种数据处理系统，其特征在于，所述辅助处理模块将处理得到的结果与所对应得标准字串符进行存储，并提取标准字串符以及标准字串符内关键词，并将关键词进行标注，同时将处理得到的结果标注为标准字串符的预设处理流程，并进行存储；

8.根据权利要求7所述的一种数据处理系统及数据挖掘方法，其特征在于，所述辅助处理模块用于将预设处理流程进行输出。

9.一种数据挖掘方法，其特征在于，所述数据挖掘方法包括以下步骤：

A4:对关联组题进行数据挖掘。

10.根据权利要求9所述的一种数据挖掘方法，其特征在于，其中，当两个不同数据库出现35％数据相同时，既认定出现数据相同情况。