CN105930465A

CN105930465A - 一种数据挖掘处理方法

Info

Publication number: CN105930465A
Application number: CN201610256831.4A
Authority: CN
Inventors: 范东来; 何宏靖
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-07

Abstract

本发明涉及互联网信息处理技术领域，特别涉及一种数据挖掘处理方法，通过设置字段等过滤条件，对原始数据中每篇文档中的关键信息单元进行提取，并形成相应的数据记录，并将各个数据记录存储存储于数据库中，在此基础上，根据不同数据记录中所包含的相同信息单元，扩展出目标信息的关联信息和对应的关联路径。本发明可以在海量互联网信息中，根据需要分析出海量目标信息背后隐含的关联关系。本发明方法为数据信息的深度挖掘和应用提供了一种十分可靠便捷的途径，目标背景分析，市场推广，市场细分，风险预测和防控等提供了有效技术支撑。

Description

一种数据挖掘处理方法

技术领域

本发明涉及本发明涉及互联网技术领域，特别涉及一种数据挖掘处理方法。

背景技术

随着社会的发展和科技的进步，个体或者团体之间的联系变得更加紧密，紧密的联系促进了信息的快速传播和增长，而当今世界早就进入了信息时代，随着信息的爆发式增长和积累，大数据时代已近来临，大数据的基本特征可以用4个“V”来描述，即数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity)；作为其中最重要的特点：数据量大和价值密度低却是困扰如此海量数据信息挖掘利用的难题，在海量的数据里面，如何精确的获得人们关心的信息，就如同海底捞针困难重重；与此同时面对海量的信息，如何去分析某类信息之间的相关性，并以此分析出信息背后隐含价值，大数据中关联关系比因果关系更加重要，关联关系在很多领域有着重要的应用，比如目标背景分析，但是面对如此海量的数据，想要快速准确的分析出数据之间的关联关系，十分困难。

针对特定的信息目标，如何分析该目标与其他目标之间的关联关系在很多领域具有更加实际的意义，因为具有关联关系的目标在进行各种活动时往往比单独的简单个体具有更大的影响面；而且具有关联关系的目标在对外建立各种活动时，受到内部的关联关系的相互牵制或者支持，会比简单目标的活动轨迹更加复杂。而在现实生活中，原始的信息数量规模庞大，信息目标之间的关联关系非常复杂，而且一般是隐藏的，人们并不能通过表面活动或者表面信息察觉到，更加不易找出该目标是否和其他目标具有关联关系，或者是何种关联关系。在这样的情况下，这些隐含的关联关系会对人们的社会经济活动带来很多潜在的价值或者风险。

发明内容

本发明的目的在于克服现有技术中所存在的不足，提供一种数据挖掘处理方法，在数据库的基础数据中根据需要设置字段，将不同信息文档中的对应信息提取出来，形成相应的数据记录；然后利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联信息和关联路径；本发明方法系统可以在海量互联网信息中，根据需要设置分析目标，进而分析出与目标具有隐含联系的关联情况(关联信息和关联路径)，信息简明精确。通过这样的数据分析处理，为目标背景分析，市场推广，市场细分，风险预测和防控等提供了一种新型的有效途径。

为实现上述目的，本发明提供一种数据挖掘处理方法：根据不同数据记录中所包含相同的信息单元，扩展出目标信息的N度关联信息。

具体的，所述发明方法包含以下实现步骤：

(1)从原始数据中的每条基础数据中，根据设置的字段提取信息，形成相应的数据记录；

(2)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息；在第二数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息；将所述第三信息扩展成第一信息的二度关联信息，并且扩展出所述第一信息经第二信息到第三信息的关联路径；

(3)在第三数据记录中包含第四信息和第三信息，其中所述第四信息为第三信息的一度关联信息，将所述第四信息扩展成第一信息的三度关联信息，并且展出第一信息经第二信息到第三信息到第四信息的关联路径；

依次类推，扩展出以第一信息为起点的N度关联信息，及对应的关联路径，其中N≥1。

其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容，不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置)，逐级查找出与目标相关联的N度信息和对应的关联路径。此外用户根据扩展出的关联路径，可以简单清楚的分析出关联关系的来源和内容，为相关的问题追踪、分析和解决提供了清晰的依据。

本发明中的原始数据存储于数据库中，所述原始数据的来源可以是从互联中根据需要爬取的数据，互联中包含广泛丰富的信息来源，从互联网中根据需要爬取相关信息，并将获取的信息进行深度处理，为信息的精细化处理，和深度应用提供一种全新的途径。

进一步的，所述N度关联关系中的计算过程，均以一度关联关系为基础，即是上述关联信息的追踪(计算)过程中，第N度关联信息为第N-1度关联信息的一度关联信息。这样逐级追踪关联信息的计算，计算逻辑清晰，运行过程简单，保证了运算结果的准确率。

进一步的，所述步骤(1)中提取出来的数据信息可以先通过清洗进行数据预处理。

进一步的，所述步骤(1)中的各条数据记录按照统一的格式进行存储，保证各条数据结构的一致性，便于进行一度关联关系构建时的数据提取和计算。

进一步的，将所述步骤(1)中提取出的数据信息的字段和内容作为键值对：其中字段作为“键”，而字段对应的内容为“值”；根据分析需要可选择其中一个字段对应的内容作为关联信息追踪的起点(被关联信息)，而将每条数据记录中的其他字段对应的内容作为被关联信息的一度关联信息，从而完成一度关联关系的计算。一度关联信息的计算是后续N度关联信息计算的基础。

进一步的，所述步骤(2)中形成的二度关联信息按照：一度关联数据、二度关联数据的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记，通过相应的标记，将属于不同关联度的信息区别开来，关联度数的标记方便关联信息逐级计算时的数据提取和区分。

进一步的，所述N度关联信息，按照关联度依次增加的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记。作为一种优选，所述数据记录以及N度关联信息以数据表的形式进行存储，以数据表形式存储的数据，存储结构规范，便于查询和进一步计算。

进一步的，所述数据记录以及N度关联信息存储于非关系型数据库中，比如说Hbase、Cassandra、CouchDB、Mongodb等。；本发明中涉及的数据格式的结构化程度不高，多为半结构或者无结构的数据，更加适合存储于非关系型数据库中。同时与传统的关系型数据库相比，非关系型数据库具有操作简单、源码公开、随时下载、应用成本低等特点；并且在面对体量急剧增加的多维度无结构数据时，比如说音频数据、视频数据，传统的非关系型数据库的存储已经不能满足需求。

进一步的，所述关联信息和关联路径数据存储于于非关系型数据库的分布式文件系统中(比如HDFS)，HDFS作为云计算平台Hadoop下面的分布式文件系统，具有高度容错性，适合部署在廉价的机器上，运行和维护成本较低。同时HDFS非常适合用于大规模数据集；采用HDFS来存储待处理数据可以满足海量数据存储，高容错性的需要，并且为采用Hadoop的其他处理方式提供了便利。

进一步的，本发明中所形成的每条关联路径可以数据表或者关系图谱(有向或者无向关系图谱)的形式进行存储和显示。当用数据表进行显示或者存储时，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符进行连接：例如A-B-C-E。当采用关系图谱进行关联路径显示或者存储时，每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，关联信息节点之间用连接符进行连接。这种关联路径的显示方法，简洁明了路径清晰。

进一步的，所述关联路径可以有向关系图谱的方式予以存储或者显示。其中以有向图的方式能够更好的展示出关联数据的关联方式和逻辑。

进一步的，在所述方法的基础上提供一种目标背景信息分析方法，上述基于云计算平台的大数据分析处理方法尤其适合用于目标背景情况分析，用户根据需要设置分析字段从相关的网页中提取数据，形成相应的数据记录在形成数据记录的基础上，采用本发明方法，逐级搜索和扩展出目标信息的N度关联方信息，形成目标信息的关联背景数据，挖掘目标的背景信息，为相关商业投资，风险防控提供可靠参考。

与现有技术相比，本发明的有益效果：本发明的一种数据挖掘处理方法，从海量的基础数据中，根据需要设置字段，提取出需要进行分析的关键信息；在此基础上利用不同数据记录中相同的信息单元，将具有隐含联系的相关信息逐级挖掘出来，根据关联的度数将信息之间的关联远近程度进行量化，为相关问题追踪和背景查找提供了一种快速可靠的通道；而且根据关联路径，可以简单清楚的分析出关联关系的来源和内容，为相关的问题追踪、分析和解决提供了清晰的依据。本发明方法为海量数据信息的深度挖掘和应用提供了一种全新的处理分析方式，为目标信息背景分析，市场推广，市场细分，风险预测和风险防控等提供了有效技术支撑，在目标背景分析等信息挖掘领域有广泛的应用。

附图说明：

图1是本数据挖掘处理方法的流程示意简图。

图2是本数据挖掘处理方法的实现流程示意图。

图3是本数据挖掘处理方法的关联算法示意图。

图4是实施例1中的步骤(1)中提取出的3条数据记录示意图。

图5是实施例1中的步骤(2)中形成一度关联关系数据表存储结构示意图。

图6是实施例1中的步骤(3)中形成的二度关联关系数据表存储结构示意图。

图7是实施例1中三度关联关系数据表存储结构示意图。

图8是实施例1中以目标以A为起点的一度关联关系路径示意图。

图9是实施例1中以目标以C为起点的一度关联关系路径示意图。

图10是实施例1中以目标以H为起点的一度关联关系路径示意图。

图11是实施例1中以目标以A为起点的二度关联关系路径示意图。

图12是实施例1中以目标以C为起点的二度关联关系路径示意图。

图13是实施例1中以目标以H为起点的二度关联关系路径示意图。

图14是实施例1中以目标以A为起点的三度关联关系路径示意图。

图15是实施例1中以目标以C为起点的三度关联关系路径示意图。

图16是实施例1中以目标以H为起点的三度关联关系路径示意图。

应该理解本发明附图均为示意性的，不代表具体的步骤和路径。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供一种数据挖掘处理方法，在数据库的基础数据中根据需要设置字段，将不同信息文档中的对应信息提取出来，形成相应的数据记录；然后利用不同数据记录中相同的信息单元分析出海量目标信息之间的关联信息和关联路径；本发明方法系统可以在海量互联网信息中，根据需要设置分析目标，进而分析出与目标具有隐含联系的关联情况(关联信息和关联路径)，信息简明精确。通过这样的数据分析处理，为目标背景分析，市场推广，市场细分，风险预测和防控等提供了一种新型的有效途径。

为实现上述目的，本发明提供数据挖掘处理方法一种数据挖掘处理方法：如图1过程所示：通过设置字段等过滤条件，对原始数据每篇文档中的关键信息单元进行提取，将提取出的关键信息单元按照设定的顺序排列成一条数据记录，并将各条数据记录存储于数据库中(通常为非关系型数据库)，在此基础上，根据不同数据记录中所包含相同的信息单元，逐级扩展出信息单元之间的关联关系(包括关联信息和对应关联路径)。

具体的，所述发明方法包含如图2所示的实现步骤：

(1)从原始数据中的每条基础数据中，根据设置的字段提取出对应的信息，形成相应的数据记录；

(2)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息；在第二数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息；将所述第三信息扩展成第一信息的二度关联信息；并且扩展出所述第一信息经第二信息到第三信息的关联路径；

依次类推，扩展出以第一信息为起点的N度关联信息，其中N≥1。关联信息的计算过程如图3所示；

其中所述第一信息、第二信息、第三信息以及第四信息是指信息的内容，不代表信息的顺序。通过本发明方法可以目标信息为起点(起点的选择根据分析需要来设置)，逐级查找出与目标相关联的其他信息和关联度数。

进一步的，所述步骤(1)中提取出来的数据信息可以先通过清洗进行数据预处理，从基础数据中根据字段提取出来的数据信息一般为JSON型，其数据的相关性不强，而且可能存在一些数据结构不规范，数据清洁程度不够(包含一些不相关、无用或者错误的数据)的情况，即是所谓的弱结构；想要将这些弱结构数据信息扩展成一度关联信息，需要先将这些数据进行相应的整理，这个整理的过程就是数据预处理过程，所述数据预处理可采用包括字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和记录排序等方法，对数据预处理可以解决数据中的缺值、冗余和数据不一致等问题；总之所述数据清洗就是根据分析的需要对基础数据实现ETL(提取-转换-加载)的过程。

进一步的，所述步骤(1)中形成的数据记录以统一的格式进行存储，比如说按照第一字段内容，第二字段内容，第三字段内容......的顺序进行存储，统一的存储格式，保证了数据结构的稳定和一致性，便于通过SQL语句来查找相关信息，便于设置分析目标计算一度关联关系。

进一步的，将所述步骤(2)中形成的一度关联信息按照设定的结构顺序，进行存储。将一度关联信息按照设定的结构和顺序进行存储，使得不同目标所形成的一度关联信息数据存储格式统一，便于后续步骤的数据处理。

进一步的，所述步骤(2)中形成的一度关联信息，可以按照目标(起点信息)、一度关联信息、关系标签的结构顺序进行存储。所述关联标签是对该一度关联信息与目标信息之间的关联关系的描述，可以为关联数据的查询提供简洁直观的描述。

进一步的，所述步骤2)中形成的二度关联信息按照：一度关联数据、二度关联数据的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记，一度关联关系和二度关联关系的内部的数据存储结构与上一步结构相同；通过相应的标记，可以很方便的将属于不同关联度的信息区别开来，方便关联信息逐级计算时的数据提取和区分。

进一步的，所述N度关联信息，按照关联度依次增加的顺序结构进行存储；并将属于不同关联度的信息单元打上对应的标记。

作为一种优选，所述数据记录以及N度关联信息以数据表的形式进行存储，以数据表形式存储的数据，存储结构规范，便于查询和进一步计算。

进一步的，所述数据记录以及N度关联信息存储于非关系型数据库中，比如说Hbase、CouchDB、Cassandra、Mongodb等非关系型数据库中。与传统的关系型数据库相比，非关系型数据库具有操作简单、完全免费、源码公开、随时下载、应用成本低等特点；并且在面对体量急剧增加的多维度无结构数据时，比如说音频数据、视频数据，传统的非关系型数据库的存储已经不能满足需求。

进一步的，所述步骤(2)、(3)中形成的关联关系存储于于非关系型数据库的分布式文件系统中(比如HDFS)，HDFS作为Hadoop下面的分布式文件系统，具有高度容错性，对部署机器要求不高，运行和维护成本较低。同时HDFS非常适合用于大规模数据集；采用HDFS来存储待处理数据可以满足海量数据存储，高容错性的需要，并且为采用Hadoop的其他处理方式提供了便利。

进一步的，本发明中所形成的每条关联路径可以数据表或者关系图谱的形式进行存储和显示。当用数据表进行显示或者存储时，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符进行连接：例如A-B-C-E。当采用关系图谱进行关联路径显示或者存储时，每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，关联信息节点之间用连接符进行连接。这种关联路径的显示方法，简洁明了路径清晰。

实施例1

下面以其中3条数据作为一个小示例，说明关联关系的分析过程。假设在原始数据中经过字段(设置的字段包括：第一字段、第二字段、第三字段以及第四字段)提取，提取出来的数据中包含如图4所示的3条数据记录，其中第一数据记录包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：A、B、D以及E；第二条数据记录中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：C、B、F以及G；第三条信息中包含的第一字段、第二字段、第三字段以及第四字段所对应的信息内容依次为：H、F、I。假设将第一字段对应的内容作为关联分析的起点，则第一数据记录可形成：A-B、A-D、A-E的一度关联关系，其中B、D、E均为A的一度关联信息，同时A也为B、D、E的一度关联信息；第二数据记录可形成C-B、C-F、C-G的一度关联关系，其中B、F、G均为C的一度关联信息，同时C也为B、F、G的一度关联信息；第三数据记录可形成：H-F、H-I的一度关联关系，其中F、I为H的一度关联信息，同时H也为F、I的一度关联信息。将一度关联关系以表结构的存储格式进行存储，则可形成如图5所述的结构化的两列。

在上述一度关联的基础上，根据A-B和C-B的一度关联关系中相同的信息单元B，将C扩展成A的二度关联信息，以A为起点，形成A-B-C的关联路径。根据C-B和A-B的一度关联关系中相同的信息单元B，将A扩展成C的二度关联信息，以C为起点，形成C-B-A的关联路径。根据C-F和H-F的一度关联关系中相同的信息单元F，将H扩展成C的二度关联信息；以C为起点，形成C-F-H的关联路径。根据H-F和C-F的一度关联关系中相同的信息单元F，将C扩展成H的二度关联信息；以H为起点，形成H-F-C的关联路径。形成二度关联关系的关联数据存储以数据表形式可采用如图6所示的存储结构。

进一步的，在上述二度关联以及一度关联关系的基础上，以A为起点根据A的二度关联信息C的一度关联信息，可扩展出A-B-C-F，A-B-C-G的关联路径，其中F和G为A的三度关联信息。以C为起点，根据C的二度关联信息A和H的一度关联信息，可扩展出，C-B-A-E，C-B-A-D，C-F-H-I的关联路径，其中D、E、I为C的三度关联信息。同样以H为起点，根据其二度关联信息C的一度关联信息，可形成H-F-C-B，H-F-C-G的关联路径，其中B和G为H的三度关联信息。三度关联信息的存储数据表如图7所示；本实施例中的以A、C、H为起点的一度关联路径关系图谱分别如图8、图9、图10所示；2度关联路径关系图谱如图11、图12、图13所示；3度关联关系关系图谱如图14、图15、图16所示，由以上关联路径示意图可以清晰的显示出具有关联关系的信息的具体关联渠道为相关问题追踪的分析提供参考。

值得注意的是在关联信息计算过程中需要去除闭合路径，以此来避免计算中的错误循环。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化时显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种数据挖掘处理方法，其特征在于，包含以下实现过程：

(2)在一条数据记录中包含第一信息和第二信息，其中第二信息为第一信息的一度关联信息；在另一条数据记录中包括第二信息和第三信息，其中第三信息是第二信息的一度关联信息；将所述第三信息扩展成第一信息的二度关联信息，并且扩展出第一信息经第二信息到第三信息的关联路径；

2.如权利要求1所述的数据挖掘处理方法，其特征在于，所述关联信息的扩展过程中，所述第一信息的第N度关联信息为第N-1度关联信息的一度关联信息。

3.如权利要求1或2所述的数据挖掘处理方法，其特征在于，所述数据记录通过字段过滤、字段派生、空值处理、数据抽样记录筛选、记录汇总、记录附加、记录合并和，或记录排序方式进行预处理。

4.如权利要求3所述的数据挖掘处理方法，其特征在于，所述步骤(1)中，数据记录以统一的格式进行存储。

5.如权利要求4所述的数据挖掘处理方法，其特征在于，所述关联信息按照关联度依次增加的顺序结构进行存储，并将属于不同关联度的信息打上对应的标记。

6.如权利要求5所述的数据挖掘处理方法，其特征在于，将N度关联数据分别存储于不同的数据库的分布式文件系统中。

7.如权利要求6所述的数据挖掘处理方法，其特征在于，所述关联路径以数据表的形式进行存储或显示。

8.如权利要求7所述的数据挖掘处理方法，其特征在于，所述关联路径的展示顺序为：以目标信息为起点，关联信息按照关联度数依次增加的顺序进行排列，关联信息之间用连接符依次进行连接。

9.如权利要求1或2所述的数据挖掘处理方法，其特征在于，所述关联路径以无向或者有向关系图谱的形式进行显示。

10.如权利要求9所述的数据挖掘处理方法，其特征在于，所述每条关联路径的展示顺序为：以目标信息为起始节点，关联信息节点按照关联度数依次增加的顺序进行排列，节点之间用无向或者有向连接符依次进行连接。

11.一种目标背景信息分析方法，其特征在于，采用如权利要求1-10之一所述的方法来实现目标背景分析。