CN114676796A

CN114676796A - 一种基于大数据的聚类采集与识别的系统

Info

Publication number: CN114676796A
Application number: CN202210587620.4A
Authority: CN
Inventors: 朱家养; 杨宗毅; 杨逸; 郑阳; 郑经楷; 朱红燕
Original assignee: Zhejiang Qingda Technology Co ltd
Current assignee: Zhejiang Qingda Technology Co ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-06-28
Anticipated expiration: 2042-05-27
Also published as: CN114676796B

Abstract

本发明涉及一种基于大数据的聚类采集与识别的系统，包括控制模块、采集模块、储存模块、处理模块。本发明通过对大数据采集主体的预设限定，提高采集时对某一主体的采集精确度，亦可以上一个采集主体的条件作为下一次采集的主体作为预设限定进行采集，而后对采集到的数据进行聚类分析，包括对分析出的聚类簇的属性权重、属性值权重、占比率经过多次纵向对比，分析出对当前预设主体的聚类信息，方便人工对其进行深入研究得出其数据背后的隐藏信息。

Description

一种基于大数据的聚类采集与识别的系统

技术领域

本发明涉及大数据的聚类分析技术领域，尤其涉及一种基于大数据的聚类采集与识别的系统。

背景技术

基于大数据的聚类分析一般指将抽象对象的集合分组为由类似的对象组成的多个类的分析过程，目的就是在相似的基础上收集数据来分类，在大数据领域，更多的目的在于帮助人们对巨量数据中具有代表性的若干数据进行标注，方便人们深度挖掘数据背后代表的隐藏信息。

在某搭建的大数据平台下，其平台的整体系统主要包括数据采集、数据存储、数据处理，而在大数据平台中，数据源的特点决定了整个大数据平台，针对其数据源的特点，才有了共性与差异性的特征，而共性与差异性才是聚类分析的根本。由此可见，如果不从数据源的共性与差异性出发，将数据源的特点聚类作为采集条件，通过识别其采集条件是否与数据的共性与差异性相匹配，就不能确定采集到的聚类数据是否一致。

中国专利公开号：CN1204156403B。公开了一种基于聚类的大数据常态模式提取方法及系统。此发明通过降维挖掘大数据，对大数据中提取的若干样本数据进行聚类分析，将所得“簇”作为已知的分类标准（标签），提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标，再使用全新的常态模式提取方法获取“常态模式”，并给出常态模式的命名方法；

由此可见，此方法存在以下问题：所述大数据已经形成了维数大、规模大、复杂性大的大数据形态，此发明提取的样本数据主体的不明确，导致数据特点的不明确，所以不能以此数据主体得出的常态模式为依据筛选出有用信息。

发明内容

为此，本发明提供一种基于大数据的聚类采集与识别的系统，用以克服现有技术中，无法对大数据平台进行有效聚类采集和识别的问题。

为实现上述目的，本发明提供一种基于大数据的聚类采集与识别的系统，包括；

控制模块，其包含有聚类分析操作单元，所述聚类分析操作单元设置有输入界面，所述聚类分析操作单元用以控制对外部大数据平台的数据或内部大数据平台的数据进行采集和聚类的工作；

采集模块，其包含有搜索引擎单元，用以对外部大数据平台的数据或内部大数据平台的数据进行聚类采集的工作；

存储模块，其用以储存采集模块从外部大数据平台的数据或内部大数据平台的数据聚类采集所得到的数据的模块；

处理模块，其包含有比对单元，用以对所述采集模块从外部大数据平台的数据或内部大数据平台的数据中聚类采集到的数据进行分析识别；

在控制模块设置的聚类分析操作单元里，输入一个采集的主体，聚类分析操作单元将输入的采集主体发送至采集模块，采集模块根据输入的采集主体对外部大数据平台的数据或内部大数据平台的数据进行对所有于主体特征有关联性的数据抓取工作。

所述采集模块对每次采集工作的结束节点进行设定：

若关键词采集工作的结束节点设定为数量，则所述采集模块从采集工作的开始时刻为起点，以时间为轴，并在时间轴向后的方向，采集所有与关键词有关且满足数量要求的数据；

若关键词采集工作结束时，结束节点与开始节点内数量的时间跨度并不能满足分析结果的最低分析要求，则所述采集模块对关键词采集工作的结束节点设定为时间量，所述采集模块从采集工作的开始时刻为起点，以时间为轴，并在时间轴向后的方向，采集所有与关键词有关且满足时间量要求的数据；

所述采集模块对关键词采集工作的开始节点和结束节点进行设定，以时间为轴，采集历史时间中某一段时间内与关键词有关的所有数据；

所述控制模块内设置的聚类分析操作单元将采集模块内设置的搜索引擎单元采集到的关键词特征有关联性的数据存储到所述存储模块并标记主体原数据、数据量、时间点，并将所有与关键词特征有关联性的数据发送至所述处理模块进行处理识别，得出基于关键词特征的聚类分析结果存储至所述存储模块。

但基于大数据维数大、规模大、复杂性大的形态特点以及大数据平台每时每刻更新增加数据的增长性特点，聚类分析操作单元对现有大数据平台的每次抓取输入的主体数据的数量或者时间点进行限制，预设默认数据限制数量，或设置两个时间点，即从开始抓取的时刻开始针对输入的主体数据进行时刻向前抓取，直到抓取到的拥有输入主体的所有数据总量等于预设的默认数量，或者由用户设置两个时间点，对两个时间点内所有关于输入主体的数据进行抓取；聚类分析操作单元将采集到的关于输入主体的数据存储到存储模块并标记主体原数据、数据量、时间点，并将所有关于主体的数据发送至处理模块进行处理识别，最后得出关于输入主体的聚类分析结果存储至存储模块，以供用户深入研究其背后的隐藏信息。

在聚类分析操作单元里设置有输入主体界面，可以对想要获取的某一信息数据主体进行限制，以确保在大数据平台可以精确采集到关于输入主体的所有相关信息数据，并确保在后期对该输入主体的深层分析中不会遗漏相关限制条件，影响后期对预设主体的条件判断。

控制模块设定输入的关键词为A，设定采集工作采集到的与关键词A有关联性的数据的上限数量为a，a为正整数，设定采集到的与关键词A有关联性的数据分别为A1，A2，A3,……，Aa，设定所有与关键词A有关联性的数据为数据组AN，AN的数量为a，AN=A1，A2，A3,……，Aa，设定Ai为AN内的任一数据，i=1,2,3，……，a，所述处理模块对所述采集模块采集到总量为a的关键词A的所有数据AN进行特性词分析，所述处理模块对所有数据AN中同一特性词出现的次数进行判定。

控制模块设定所述数据A1中的所有词语为特性词A1W1，A1W2，A1W3，……，A1Wr，r为正整数，设定任一特性词为A1WR，R=1,2,3，……r；

设定特性词A1W1在数据A2中出现的次数为A1W1A2，设定特性词A1W1在数据A3中出现的次数为A1W1A3，设定特性词A1W1在数据A4中出现的次数为A1W1A4，……，设定特性词A1W1在数据Aa中出现的次数为A1W1Aa；

设定特性词A1W2在数据A2中出现的次数为A1W2A2，设定特性词A1W2在数据A3中出现的次数为A1W2A3，设定特性词A1W2在数据A4中出现的次数为A1W2A4，……，设定特性词A1W2在数据Aa中出现的次数为A1W2Aa；

设定特性词A1W3在数据A2中出现的次数为A1W3A2，设定特性词A1W3在数据A3中出现的次数为A1W3A3，设定特性词A1W3在数据A4中出现的次数为A1W3A4，……，设定特性词A1W3在数据Aa中出现的次数为A1W3Aa；

……，

设定特性词A1Wr在数据A2中出现的次数为A1WrA2，设定特性词A1Wr在数据A3中出现的次数为A1WrA3，设定特性词A1Wr在数据A4中出现的次数为A1WrA4，……，设定特性词A1Wr在数据Aa中出现的次数为A1WrAa；

设定数据A2中的所有词语为特性词A2W1，A2W2，A2W3，……，A2Wt，r为正整数，设定数据A2任一特性词为A2WT，T=1,2,3，……t；

设定特性词A2W1在数据A1中出现的次数为A2W1A1，设定特性词A2W1在数据A3中出现的次数为A2W1A3，设定特性词A2W1在数据A4中出现的次数为A2W1A4，……，设定特性词A2W1在数据Aa中出现的次数为A2W1Aa；

设定特性词A2W2在数据A1中出现的次数为A2W2A1，设定特性词A2W2在数据A3中出现的次数为A2W2A3，设定特性词A2W2在数据A4中出现的次数为A2W2A4，……，设定特性词A2W2在数据Aa中出现的次数为A2W2Aa；

设定特性词A2W3在数据A1中出现的次数为A2W3A1，设定特性词A2W3在数据A3中出现的次数为A2W3A3，设定特性词A2W3在数据A4中出现的次数为A2W3A4，……，设定特性词A2W3在数据Aa中出现的次数为A2W3Aa；

……，

设定特性词A2Wr在数据A1中出现的次数为A2WrA1，设定特性词A2Wr在数据A3中出现的次数为A2WrA3，设定特性词A2Wr在数据A4中出现的次数为A2WrA4，……，设定特性词A2Wr在数据Aa中出现的次数为A2WrAa；

……，

设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi，

当AiWRAi=1时，则所述处理模块判定该特性词AiWR′无法成为聚类簇；

当AiWRAi＞1时，则所述处理模块判定该特性词AiWR′′成为聚类簇。

处理模块对所有数据中成为聚类簇的特性词进行筛选，若任意多个不同数据的特性词相同，则只保留相同特性词中的一个，并将筛选后的特性词设定为聚类簇，处理模块设定所有经过筛选的特性词后的聚类簇为AT1，AT2，AT3，……，ATn，n为正整数，设定主体A的任一聚类簇为ATu，u=1,2,3，……，n，所述处理模块采用杰卡德系数（Jaccard index）对所有聚类簇进行距离计算，得到任一聚类簇到另外任一聚类簇的相对距离，设定聚类簇AT1与AT2的相对距离为ATM1M2，设定聚类簇AT1与AT3的相对距离为ATM1M3，设定聚类簇AT1与AT4的相对距离为ATM1M4，……，设定聚类簇AT1与ATn的相对距离为ATM1Mn，设定聚类簇AT2与AT3的相对距离为ATM2M3，设定聚类簇AT2与AT4的相对距离为ATM2M4，设定聚类簇AT2与AT5的相对距离为ATM2M5，……，设定聚类簇AT2与ATn的相对距离为ATM2Mn，……，设定聚类簇AT（n-1）与ATn的相对距离为ATM（n-1）Mn，设定任一聚类簇与另外任一聚类簇的相对距离为ATMuMu′，设定聚类簇距离数值权重参数为x1，设定聚类簇距离数值权重标准分值为y1，

控制模块对任一聚类簇距离计算聚类簇距离数值权重分值，即ATM1M2×x1，ATM1M3×x1，ATM1M4×x1，……，ATM（n-1）Mn×x1，将聚类簇距离数值权重分值与数值标准分值y1进行对比，计算聚类簇距离数值权重分值与数值标准分值y1的百分比，即

，该值取小数点后四位，并按其百分比从大到小的顺序进行排列，设定

为N1~2，设定

为N1~3，设定

为N1~4，……设定

为Nn-1~n，设定

为Nu~u′，其计算大小并排序的过程为；

若N1~2-N1~3为负时，则处理模块判定N1~2＜N1~3，按从大到小排列为N1~3，N1~2；

若N1~2-N1~3为正时，则处理模块判定N1~2＞N1~3，按从大到小排列为N1~2，N1~3；

若N1~2-N1~3为零时，则处理模块判定N1~2＝N1~3，按从大到小排列为N1~2、N1~3；

若N1~2-N1~3为负，且N1~3-N1~4为负时，则处理模块判定N1~2＜N1~3＜N1~4，按从大到小排列为N1~4，N1~3，N1~2；

若N1~2-N1~3为负，且N1~3-N1~4为正，且N1~2-N1~4为正时，则处理模块判定N1~3＞N1~2＞N1~4，按从大到小排列为N1~3，N1~2，N1~4；

若N1~2-N1~3为负，且N1~3-N1~4为正，且N1~2-N1~4为负时，则处理模块判定N1~3＞N1~4＞N1~2，按从大到小排列为N1~3，N1~4，N1~2；

若N1~2-N1~3为负，且N1~3-N1~4为正，且N1~2-N1~4为零时，则处理模块判定N1~3＞N1~2＝N1~4，按从大到小排列为N1~3，N1~2、N1~4；

若N1~2-N1~3为负，且N1~3-N1~4为负，且N1~2-N1~4为负时，则处理模块判定N1~4＞N1~3＞N1~2，按从大到小排列为N1~4，N1~3，N1~2；

若N1~2-N1~3为正，且N1~3-N1~4为负，且N1~2-N1~4为负时，则处理模块判定N1~4＞N1~2＞N1~3，按从大到小排列为N1~4，N1~2，N1~3；

若N1~2-N1~3为正，且N1~3-N1~4为正，且N1~2-N1~4为正时，则处理模块判定N1~2＞N1~3＞N1~4，按从大到小排列为N1~2，N1~3，N1~4；

若N1~2-N1~3为正，且N1~3-N1~4为负，且N1~2-N1~4为正时，则处理模块判定N1~2＞N1~4＞N1~3，按从大到小排列为N1~2，N1~4，N1~3；

若N1~2-N1~3为正，且N1~3-N1~4为零，且N1~2-N1~4为正时，则处理模块判定N1~2＞N1~3＝N1~4，按从大到小排列为N1~2，N1~3、N1~4；

若N1~2-N1~3为正，且N1~3-N1~4为零时，则处理模块判定N1~2＜N1~3＝N1~4，按从大到小排列为N1~2、N1~3，N1~4；

若N1~2-N1~3为零，且N1~3-N1~4为负，且N1~2-N1~4为负时，则处理模块判定N1~4＞N1~2＝N1~3，按从大到小排列为N1~4，N1~2、N1~3；

若N1~2-N1~3为零，且N1~3-N1~4为零，且N1~2-N1~4为零时，则处理模块判定N1~2＝N1~3＝N1~4，按从大到小排列为N1~2、N1~3、N1~4；

……

依此对比，依次对N1~2，N1~3，N1~4，……，Nn-1~n逐一按从大到小的顺序进行排序，设定在所得排列中聚类簇距离数值权重分值最高的聚类簇距离为U1，聚类簇距离数值权重分值第二高的聚类簇距离为U2，聚类簇距离数值权重分值第三高的聚类簇距离为U3，……，聚类簇距离数值权重分值最低的聚类簇为Ud，d为正整数；聚类簇距离数值权重分值按大小排列的顺序为：U1，U2，U3，……，Ud，设定任一聚类簇距离数值权重分值为U′；进一步地，处理模块计算聚类簇距离的属性权重分值并将所有聚类簇距离属性权重分值对聚类簇距离属性权重标准分值的比进行排列，设定聚类簇距离的属性权重参数为x2，设定聚类簇距离数值权重标准分值为y2；

控制模块对任一对聚类簇距离的数值计算聚类簇距离属性权重分值，即ATM1M2×x2，ATM1M3×x2，ATM1M4×x2，……，ATM（n-1）Mn×x2，将聚类簇距离属性权重分值与距离属性标准分值y2进行对比，计算聚类簇距离属性权重分值与距离属性标准分值y2的百分比，即

，该值取小数点后四位，并按其百分比从大到小的顺序排列，设定

为H1~2，设定

为H1~3，设定

为H1~4，……，设定

为Hn-1~n，设定

为Hn~u′，其计算大小并排序的过程为；

若H1~2-H1~3为负时，则处理模块判定H1~2＜H1~3，按从大到小排列为H1~3，H1~2；

若H1~2-H1~3为正时，则处理模块判定H1~2＞H1~3，按从大到小排列为H1~2，H1~3；

若H1~2-H1~3为零时，则处理模块判定H1~2＝H1~3，按从大到小排列为H1~2、H1~3；

若H1~2-H1~3为负，且H1~3-H1~4为负时，则处理模块判定H1~2＜H1~3＜H1~4，按从大到小排列为H1~4，H1~3，H1~2；

若H1~2-H1~3为负，且H1~3-H1~4为正，且H1~2-H1~4为正时，则处理模块判定H1~3＞H1~2＞H1~4，按从大到小排列为H1~3，H1~2，H1~4；

若H1~2-H1~3为负，且H1~3-H1~4为正，且H1~2-H1~4为负时，则处理模块判定H1~3＞H1~4＞H1~2，按从大到小排列为H1~3，H1~4，H1~2；

若H1~2-H1~3为负，且H1~3-H1~4为正，且H1~2-H1~4为零时，则处理模块判定H1~3＞H1~2＝H1~4，按从大到小排列为H1~3，H1~2、H1~4；

若H1~2-H1~3为负，且H1~3-H1~4为负，且H1~2-H1~4为负时，则处理模块判定H1~4＞H1~3＞H1~2，按从大到小排列为H1~4，H1~3，H1~2；

若H1~2-H1~3为正，且H1~3-H1~4为负，且H1~2-H1~4为负时，则处理模块判定H1~4＞H1~2＞H1~3，按从大到小排列为H1~4，H1~2，H1~3；

若H1~2-H1~3为正，且H1~3-H1~4为正，且H1~2-H1~4为正时，则处理模块判定H1~2＞H1~3＞H1~4，按从大到小排列为H1~2，H1~3，H1~4；

若H1~2-H1~3为正，且H1~3-H1~4为负，且H1~2-H1~4为正时，则处理模块判定H1~2＞H1~4＞H1~3，按从大到小排列为H1~2，H1~4，H1~3；

若H1~2-H1~3为正，且H1~3-H1~4为零，且H1~2-H1~4为正时，则处理模块判定H1~2＞H1~3＝H1~4，按从大到小排列为H1~2，H1~3、H1~4；

若H1~2-H1~3为正，且H1~3-H1~4为零时，则处理模块判定H1~2＜H1~3＝H1~4，按从大到小排列为H1~2、H1~3，H1~4；

若H1~2-H1~3为零，且H1~3-H1~4为负，且H1~2-H1~4为负时，则处理模块判定H1~4＞H1~2＝H1~3，按从大到小排列为H1~4，H1~2、H1~3；

若H1~2-H1~3为零，且H1~3-H1~4为零，且H1~2-H1~4为零时，则处理模块判定H1~2＝H1~3＝H1~4，按从大到小排列为H1~2、H1~3、H1~4；

……

依此对比，依次对H1~2，H1~3，H1~4，……，Hn-1~n逐一按从大到小的顺序进行排序，设定在所得排列中聚类簇距离属性权重分值最高的聚类簇距离为K1，设定聚类簇距离属性权重分值第二高的聚类簇距离为K2，设定聚类簇距离属性权重分值第三高的聚类簇距离为K3，……，设定聚类簇距离属性权重分值最低的聚类簇距离为Kd；聚类簇距离属性权重分值按大小排列的顺序为：K1，K2，K3，……，Kd；设定任一聚类簇距离属性权重分值为K′，进一步地，处理模块将聚类簇距离数值权重分值按大小排列的顺序U1，U2，U3，……，Ud，与聚类簇距离属性权重分值按大小排列的顺序K1，K2，K3，……，Kd，做对比，计算聚类簇综合性距离权重并按聚类簇综合性距离权重值的大小对聚类簇距离按从大到小的顺序进行排序，即设定

为V′，该值取小数点后四位，并按其百分比大小排列，设定

为V1，设定

为V2，设定

为V3，……设定

为Vd，其计算大小并排序的过程为；

若V1-V2为负时，则处理模块判定V1＜V2，按从大到小排列为V2，V1；

若V1-V2为正时，则处理模块判定V1＞V2，按从大到小排列为V1，V2；

若V1-V2为零时，则处理模块判定V1＝V2，按从大到小排列为V1、V2；

若V1-V2为负，且V2-V3为负时，则处理模块判定V1＜V2＜V3，按从大到小排列为V3，V2，V1；

若V1-V2为负，且V2-V3为正，且V1-V3为正时，则处理模块判定V2＞V1＞V3，按从大到小排列为V2，V1，V3；

若V1-V2为负，且V2-V3为正，且V1-V3为负时，则处理模块判定V2＞V3＞V1，按从大到小排列为V2，V3，V1；

若V1-V2为负，且V2-V3为正，且V1-V3为零时，则处理模块判定V2＞V1＝V3，按从大到小排列为V2，V1、V3；

若V1-V2为负，且V2-V3为负，且V1-V3为负时，则处理模块判定V3＞V2＞V1，按从大到小排列为V3，V2，V1；

若V1-V2为正，且V2-V3为负，且V1-V3为负时，则处理模块判定V3＞V1＞V2，按从大到小排列为V3，V1，V2；

若V1-V2为正，且V2-V3为正，且V1-V3为正时，则处理模块判定V1＞V2＞V3，按从大到小排列为V1，V2，V3；

若V1-V2为正，且V2-V3为负，且V1-V3为正时，则处理模块判定V1＞V3＞V2，按从大到小排列为V1，V3，V2；

若V1-V2为正，且V2-V3为零，且V1-V3为正时，则处理模块判定V1＞V2＝V3，按从大到小排列为V1，V2、V3；

若V1-V2为正，且V2-V3为零时，则处理模块判定V1＜V2＝V3，按从大到小排列为V1、V2，V3；

若V1-V2为零，且V2-V3为负，且V1-V3为负时，则处理模块判定V3＞V1＝V2，按从大到小排列为V3，V1、V2；

若V1-V2为零，且V2-V3为零，且V1-V3为零时，则处理模块判定V1＝V2＝V3，按从大到小排列为V1、V2、V3；

……

依此对比，依次对V1，V2，V3，……，Vd逐一按从大到小的顺序进行排序，设定主体A的聚类簇中各簇内条目数量为AT1S1，AT2S2，AT3S3，……，ATnSe，e为正整数，设定主体A的聚类簇中任一聚类簇ATu的簇内条目数量为ATuSE，E=1,2,3，……，e；主体A的聚类簇总样本条目数量为Fa，设定聚类簇相对距离ATM1M2的聚类簇AT1与AT2内条目数量为AT1S1+AT2S2，设定聚类簇相对距离ATM1M3的聚类簇AT1与AT3内条目数量为AT1S1+AT3S3，设定聚类簇相对距离ATM1M4的聚类簇AT1与AT4内条目数量为AT1S1+AT4S4，设定聚类簇相对距离ATM（n-1）Mn的聚类簇AT（n-1）与ATn内条目数量为AT（n-1）S（e-1）+ATnSe，设定聚类簇相对距离为ATMuMu′的任一聚类簇ATu与ATu′内条目数量数量为ATuSE+ATuSE′；进一步地，当处理模块判定任意若干个V′相等时，根据聚类簇相对距离ATMuMu′中聚类簇综合性距离权重值V′相等的条目数量ATuSE+ATu′SE′的大小，按从大到小的顺序排序；将聚类簇距离不相等的两对聚类簇，但综合性距离权重值相等的V′簇按从大到小的顺序进行排序并设定，设定综合性距离权重值相等组里最大的V′组为第一相等V′簇，设定综合性距离权重值相等组里第二大的V′组为第二相等V′簇，设定综合性距离权重值相等组里第三大的V′组为第三相等V′簇，设定综合性距离权重值相等组里最小的V′组为第G相等V′簇，G为正整数；

设定第一组相等V′簇为AV′A，设定AV′A内有同簇聚类的距离AV′A1，AV′A2，AV′A3，……AV′Ag1，g1为正整数，设定第一组相等V′里任一距离为AV′Aq1，q=1,2,3，……，g；设定AV′A1距离的条目数量为AV′A1（ATuSE+ATu′SE′），设定AV′A2距离的条目数量为AV′A2（ATuSE+ATu′SE′），设定AV′A3距离的条目数量为AV′A3（ATuSE+ATu′SE′），……，设定AV′Ag距离的条目数量为AV′Ag（ATuSE+ATu′SE′）；

设定第二组相等V′簇为AV′B，设定AV′B内有同簇聚类的距离AV′B1，AV′B2，AV′B3，……AV′Bg2，g2为正整数，设定第二组相等V′里任一距离为AV′Bq2，q2=1,2,3，……，g2；设定AV′B1距离的条目数量为AV′B1（ATuSE+ATu′SE′），设定AV′B2距离的条目数量为AV′B2（ATuSE+ATu′SE′），设定AV′B3距离的条目数量为AV′B3（ATuSE+ATu′SE′），……，设定AV′Bg2距离的条目数量为AV′Bg2（ATuSE+ATu′SE′）；

设定第三组相等V′簇为AV′C，设定AV′C内有同簇聚类的距离AV′C1，AV′C2，AV′C3，……AV′Cg3，g3为正整数，设定第三组相等V′里任一距离为AV′Cq3，q3=1,2,3，……，g3；设定AV′C1距离的条目数量为AV′C1（ATuSE+ATu′SE′），设定AV′C2距离的条目数量为AV′C2（ATuSE+ATu′SE′），设定AV′C3距离的条目数量为AV′C3（ATuSE+ATu′SE′），……，设定AV′Cg2距离的条目数量为AV′Cg2（ATuSE+ATu′SE′）；

设定第G组相等V′簇为AV′Z，设定AV′Z内有同簇的聚类距离AV′Z1，AV′Z2，AV′Z3，……AV′Zgn，gn为正整数，设定第G组相等V′里任一距离为AV′Zqn，qn=1,2,3，……，gn；设定AV′Z1距离的条目数量为AV′Z1（ATuSE+ATu′SE′），设定AV′Z2距离的条目数量为AV′Z2（ATuSE+ATu′SE′），设定AV′Z3距离的条目数量为AV′Z3（ATuSE+ATu′SE′），……，设定AV′Zg2距离的条目数量为AV′Zg2（ATuSE+ATu′SE′）；

处理模块判断相等V′簇的某一簇内各不同距离簇的条目数量大小并按从大到小的顺序进行排列的过程为；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负时，则处理模块判定VA1Sa1＜AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A2（ATuSE+ATu′SE′），VA1Sa1；

若VA1Sa1-AV′A2（ATuSE+ATu′SE′）为正时，则处理模块判定VA1Sa1＞AV′A2（ATuSE+ATu′SE′），按从大到小排列为VA1Sa1，AV′A2（ATuSE+ATu′SE′）；

若VA1Sa1-AV′A2（ATuSE+ATu′SE′）为零时，则处理模块判定VA1Sa1＝AV′A2（ATuSE+ATu′SE′），按从大到小排列为VA1Sa1、AV′A2（ATuSE+ATu′SE′）；

若VA1Sa1-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-VA3Sa3为负时，则处理模块判定VA1Sa1＜AV′A2（ATuSE+ATu′SE′）＜VA3Sa3，按从大到小排列为VA3Sa3，AV′A2（ATuSE+ATu′SE′），VA1Sa1；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＜AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A2（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为零时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＝AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′）、AV′A2（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＜AV′A2（ATuSE+ATu′SE′）＜AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A3（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正时，则处理模块判定AV′A2（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′）＞AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A2（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A2（ATuSE+ATu′SE′）＞AV′A3（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′），按从大到小排列为AV′A2（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为零时，则处理模块判定AV′A2（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′）＝AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A2（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）、AV′A3（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为负，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A3（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′），按从大到小排列为AV′A3（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A3（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A3（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′）＞AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＞AV′A3（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为零，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为正时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＞AV′A2（ATuSE+ATu′SE′）＝AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′）、AV′A3（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为正，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为零时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＜AV′A2（ATuSE+ATu′SE′）＝AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′）、AV′A2（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为零，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为负时，则处理模块判定AV′A3（ATuSE+ATu′SE′）＞AV′A1（ATuSE+ATu′SE′）＝AV′A2（ATuSE+ATu′SE′），按从大到小排列为AV′A3（ATuSE+ATu′SE′），AV′A1（ATuSE+ATu′SE′）、AV′A2（ATuSE+ATu′SE′）；

若AV′A1（ATuSE+ATu′SE′）-AV′A2（ATuSE+ATu′SE′）为零，且AV′A2（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为零，且AV′A1（ATuSE+ATu′SE′）-AV′A3（ATuSE+ATu′SE′）为零时，则处理模块判定AV′A1（ATuSE+ATu′SE′）＝AV′A2（ATuSE+ATu′SE′）＝AV′A3（ATuSE+ATu′SE′），按从大到小排列为AV′A1（ATuSE+ATu′SE′）、AV′A2（ATuSE+ATu′SE′）、AV′A3（ATuSE+ATu′SE′）；

……

依此对比，依次分别对第一组V′簇AV′A1（ATuSE+ATu′SE′），AV′A2（ATuSE+ATu′SE′），AV′A3（ATuSE+ATu′SE′），……，AV′Ag（ATuSE+ATu′SE′）、第二组V′簇AV′B1（ATuSE+ATu′SE′），AV′B2（ATuSE+ATu′SE′），AV′B3（ATuSE+ATu′SE′），……，AV′Bg2（ATuSE+ATu′SE′）、第三组V′簇AV′C1（ATuSE+ATu′SE′），AV′C2（ATuSE+ATu′SE′），AV′C3（ATuSE+ATu′SE′），……，AV′Cg2（ATuSE+ATu′SE′）和第G组V′簇AV′Z1（ATuSE+ATu′SE′），AV′Z2（ATuSE+ATu′SE′），AV′Z3（ATuSE+ATu′SE′），……，AV′Zg2（ATuSE+ATu′SE′）逐一按从大到小的顺序进行排序，并将顺序排列结果与V1，V2，V3，……，Vd顺序排列进行合并，得到聚类簇距离综合性权重值的精确排列V1′，V2′，V3′，……，Vd′，处理模块根据聚类簇距离综合性权重值的精确排列V1′，V2′，V3′，……，Vd′逆推至主体A聚类簇中聚类簇相对距离ATM1M2，ATM1M3，ATM1M4，……，ATM（n-1）Mn，并得出所有ATMuMu′的排名情况，其处理模块根据ATMuMu′的排名情况和主体A聚类簇距离条目数量AT1S1+AT2S2、AT1S1+AT3S3、AT1S1+AT4S4、……、AT（n-1）S（e-1）+ATnSe判断出主体A聚类簇距离和距离条目数量的最终排名情况。

处理模块对主体A的任一聚类簇距离ATMuMu′中的任一聚类簇ATu与另外任一聚类簇ATu′的条目数量占比进行计算，并将主体A每一聚类簇按排名将该聚类簇的条目数量占总条目数量a的百分比显示到操作系统内，即“聚类簇：AT1，其在总样本中的占比率为（

）”、“聚类簇：AT2，其在总样本中的占比率为（

）”、“聚类簇：AT3，其在总样本中的占比率为（

）”、……、“聚类簇：ATn，其在总样本中的占比率为（

）”的显示方式显示。

与现有技术相比，本发明的有益效果在于，对大数据采集主体的预设限定，提高其对某一主体的采集精确度，亦可以使用上一个采集主体的条件作为下一次采集的主体作为预设限定进行采集，而后对采集到的数据进行聚类分析，包括对分析出的聚类簇的距离属性权重、距离属性值权重、数量占比率经过多次纵向对比，分析出对当前预设主体的聚类信息，方便人工对其进行深入研究得出其数据背后的隐藏信息。对于采集主体的数量限定或者是时间限定，可以对同样采集主体在不同数量级下或者是时间段下的数据进行对比分析，使之更有参考意义。

附图说明

图1为本发明所述基于大数据的聚类采集与识别的系统的结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1所示，其为本发明实施例基于大数据的聚类采集与识别的系统的结构示意图，本实施例系统包括；

所述采集模块对每次采集工作的结束节点进行设定：

……，

设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi，

为N1~2，设定

为N1~3，设定

为N1~4，……设定

为Nn-1~n，设定

为Nu~u′，其计算大小并排序的过程为；

……

为H1~2，设定

为H1~3，设定

为H1~4，……，设定

为Hn-1~n，设定

为Hn~u′，其计算大小并排序的过程为；

……

为V′，该值取小数点后四位，并按其百分比大小排列，设定

为V1，设定

为V2，设定

为V3，……设定

为Vd，其计算大小并排序的过程为；

……

）”、“聚类簇：AT2，其在总样本中的占比率为（

）”、“聚类簇：AT3，其在总样本中的占比率为（

）”、……、“聚类簇：ATn，其在总样本中的占比率为（

）”的显示方式显示。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的聚类采集与识别的系统，其特征在于，包括：

控制模块，其包括聚类分析操作单元，所述聚类分析操作单元设有输入界面，所述聚类分析操作单元用以控制对外部大数据平台的数据或内部大数据平台的数据进行采集和聚类；

采集模块，其包括搜索引擎单元，用以对外部大数据平台的数据或内部大数据平台的数据进行聚类采集；

存储模块，其用以储存采集模块从外部大数据平台的数据或内部大数据平台的数据聚类采集所得到的数据；

处理模块，其包括比对单元，用以对所述采集模块从外部大数据平台的数据或内部大数据平台的数据中聚类采集到的数据进行分析识别；

所述聚类分析操作单元获取需采集数据的关键词，并将输入的采集关键词发送至所述采集模块，所述采集模块根据输入的采集关键词对外部大数据平台的数据或内部大数据平台的数据对关键词特征有关联性的数据进行抓取。

2.根据权利要求1所述的基于大数据的聚类采集与识别的系统，其特征在于，所述采集模块对每次采集工作的结束节点进行设定：

3.根据权利要求2所述的基于大数据的聚类采集与识别的系统，其特征在于，所述控制模块设定输入的关键词为A，设定采集工作采集到的与关键词A有关联性的数据的上限数量为a，a为正整数，设定采集到的与关键词A有关联性的数据分别为A1，A2，A3,……，Aa，设定所有与关键词A有关联性的数据为数据组AN，AN的数量为a，AN=A1，A2，A3,……，Aa，设定Ai为AN内的任一数据，i=1,2,3，……，a，所述处理模块对所述采集模块采集到总量为a的关键词A的所有数据AN进行特性词分析，所述处理模块对所有数据AN中同一特性词出现的次数进行判定。

4.根据权利要求3所述的基于大数据的聚类采集与识别的系统，其特征在于，所述控制模块将所述数据Ai中的所有词语定义为特性词，设定任一特性词为A1WR，R=1,2,3，……r，所述处理模块分别将所有特性词在所有数据中出现的次数进行统计，设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi，

5.根据权利要求4所述的基于大数据的聚类采集与识别的系统，其特征在于，所述处理模块对所有数据中成为聚类簇的特性词进行筛选，筛除掉无法成为聚类簇的AiWR′，并将可以成为聚类簇的AiWR′′设定为聚类簇，所述处理模块设定所有成为聚类簇的AiWR′′为AT1，AT2，AT3，……，ATn，n为正整数，设定关键词A的任一聚类簇为ATu，u=1,2,3，……，n，所述处理模块采用杰卡德系数对所有聚类簇进行距离计算，得到任一聚类簇到另外任一聚类簇的相对距离，设定聚类簇AT1与AT2的相对距离为X1.2，设定聚类簇AT1与AT3的相对距离为X1.3，设定聚类簇AT1与AT4的相对距离为X1.4，……，设定聚类簇AT1与ATn的相对距离为X1.n，设定聚类簇AT2与AT3的相对距离为X2.3，设定聚类簇AT2与AT4的相对距离为X2.4，设定聚类簇AT2与AT5的相对距离为X2.5，……，设定聚类簇AT2与ATn的相对距离为X2.n，……，设定聚类簇AT（n-1）与ATn的相对距离为Xn-1.n，设定任一聚类簇与另外任一聚类簇的相对距离为Xu.u′，设定聚类簇距离数值权重参数为x₁，设定聚类簇距离数值权重的标准分值为y₁。

6.根据权利要求5所述的基于大数据的聚类采集与识别的系统，其特征在于，所述控制模块对任一聚类簇距离计算聚类簇距离数值权重分值X1.2×x₁，X1.3×x₁，X1.4×x₁，……，Xn-1.n×x₁，将聚类簇距离数值权重分值与数值标准分值y₁进行对比，计算聚类簇距离数值权重分值与数值标准分值y₁的百分比

为N1~2，设定

为N1~3，设定

为N1~4，……设定

为Nn-1~n，设定

为Nu~u′，并将N1~2，N1~3，N1~4，……，Nn-1~n逐一按从大到小的顺序进行排序，设定在所得排列中聚类簇距离数值权重分值最高的聚类簇距离为U1，聚类簇距离数值权重分值第二高的聚类簇距离为U2，聚类簇距离数值权重分值第三高的聚类簇距离为U3，……，聚类簇距离数值权重分值最低的聚类簇为Ud，d为正整数，聚类簇距离数值权重分值按大小排列的顺序为：U1，U2，U3，……，Ud，设定任一聚类簇距离数值权重分值为U′。

7.根据权利要求6所述的基于大数据的聚类采集与识别的系统，其特征在于，所述处理模块设定聚类簇距离的属性权重参数为x₂，设定聚类簇距离数值权重标准分值为y₂，所述控制模块设定根据关键词本身属性对聚类簇相似性影响的指标为聚类簇距离属性权重分值，所述控制模块对任一对聚类簇距离的数值计算聚类簇距离属性权重分值X1.2×x₂，X1.3×x₂，X1.4×x₂，……，Xn-1.n×x₂，将聚类簇距离属性权重分值与距离属性标准分值y₂进行对比，计算聚类簇距离属性权重分值与距离属性标准分值y₂的百分比

为H1~2，设定

为H1~3，设定

为H1~4，……，设定

为Hn-1~n，设定

为Hn~u′，所述处理模块计算聚类簇距离属性权重分值与距离属性标准分值y₂百分比的大小，并将H1~2，H1~3，H1~4，……，Hn-1~n逐一按从大到小的顺序进行排序，设定聚类簇距离属性权重分值按大小排列的顺序为：K1，K2，K3，……，Kd，设定任一聚类簇距离属性权重分值为K′。

8.根据权利要求7所述的基于大数据的聚类采集与识别的系统，其特征在于，所述处理模块将聚类簇距离数值权重分值按大小排列的顺序U1，U2，U3，……，Ud，与聚类簇距离属性权重分值按大小排列的顺序K1，K2，K3，……，Kd，做对比，计算聚类簇综合性距离权重并按聚类簇综合性距离权重值的大小对聚类簇距离按从大到小的顺序进行排序，设定

为V′，该值取小数点后四位，并按其百分比大小排列，设定

为V1，设定

为V2，设定

为V3，……设定

为Vd，所述处理模块对V1，V2，V3，……，Vd逐一按从大到小的顺序进行排序，得到聚类簇距离综合性权重值的精确排列V1′，V2′，V3′，……，Vd′。

9.根据权利要求8所述的基于大数据的聚类采集与识别的系统，其特征在于，所述处理模块根据聚类簇距离综合性权重值的精确排列V1′，V2′，V3′，……，Vd′逆推至关键词A聚类簇中聚类簇相对距离，并得出所有Xu.u′的排名情况，其所述处理模块根据Xu.u′的排名情况和关键词A聚类簇距离条目数量判断出关键词A聚类簇距离和距离条目数量的最终排名情况。

10.根据权利要求9所述的基于大数据的聚类采集与识别的系统，其特征在于，所述处理模块对关键词A的任一聚类簇距离Xu.u′中的任一聚类簇ATu与另外任一聚类簇ATu′的条目数量占比进行计算，并将关键词A每一聚类簇按排名将该聚类簇的条目数量占总条目数量a的百分比显示到操作系统内。