CN114676796A - 一种基于大数据的聚类采集与识别的系统 - Google Patents

一种基于大数据的聚类采集与识别的系统 Download PDF

Info

Publication number
CN114676796A
CN114676796A CN202210587620.4A CN202210587620A CN114676796A CN 114676796 A CN114676796 A CN 114676796A CN 202210587620 A CN202210587620 A CN 202210587620A CN 114676796 A CN114676796 A CN 114676796A
Authority
CN
China
Prior art keywords
cluster
distance
atu
data
atuse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210587620.4A
Other languages
English (en)
Other versions
CN114676796B (zh
Inventor
朱家养
杨宗毅
杨逸
郑阳
郑经楷
朱红燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Qingda Technology Co ltd
Original Assignee
Zhejiang Qingda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Qingda Technology Co ltd filed Critical Zhejiang Qingda Technology Co ltd
Priority to CN202210587620.4A priority Critical patent/CN114676796B/zh
Publication of CN114676796A publication Critical patent/CN114676796A/zh
Application granted granted Critical
Publication of CN114676796B publication Critical patent/CN114676796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的聚类采集与识别的系统,包括控制模块、采集模块、储存模块、处理模块。本发明通过对大数据采集主体的预设限定,提高采集时对某一主体的采集精确度,亦可以上一个采集主体的条件作为下一次采集的主体作为预设限定进行采集,而后对采集到的数据进行聚类分析,包括对分析出的聚类簇的属性权重、属性值权重、占比率经过多次纵向对比,分析出对当前预设主体的聚类信息,方便人工对其进行深入研究得出其数据背后的隐藏信息。

Description

一种基于大数据的聚类采集与识别的系统
技术领域
本发明涉及大数据的聚类分析技术领域,尤其涉及一种基于大数据的聚类采集与识别的系统。
背景技术
基于大数据的聚类分析一般指将抽象对象的集合分组为由类似的对象组成的多个类的分析过程,目的就是在相似的基础上收集数据来分类,在大数据领域,更多的目的在于帮助人们对巨量数据中具有代表性的若干数据进行标注,方便人们深度挖掘数据背后代表的隐藏信息。
在某搭建的大数据平台下,其平台的整体系统主要包括数据采集、数据存储、数据处理,而在大数据平台中,数据源的特点决定了整个大数据平台,针对其数据源的特点,才有了共性与差异性的特征,而共性与差异性才是聚类分析的根本。由此可见,如果不从数据源的共性与差异性出发,将数据源的特点聚类作为采集条件,通过识别其采集条件是否与数据的共性与差异性相匹配,就不能确定采集到的聚类数据是否一致。
中国专利公开号:CN1204156403B。公开了一种基于聚类的大数据常态模式提取方法及系统。此发明通过降维挖掘大数据,对大数据中提取的若干样本数据进行聚类分析,将所得“簇”作为已知的分类标准(标签),提取属性值辨识度、属性辨识度、属性值重要性、属性重要性等“属性对相似性的影响力”的四项指标,再使用全新的常态模式提取方法获取“常态模式”,并给出常态模式的命名方法;
由此可见,此方法存在以下问题:所述大数据已经形成了维数大、规模大、复杂性大的大数据形态,此发明提取的样本数据主体的不明确,导致数据特点的不明确,所以不能以此数据主体得出的常态模式为依据筛选出有用信息。
发明内容
为此,本发明提供一种基于大数据的聚类采集与识别的系统,用以克服现有技术中,无法对大数据平台进行有效聚类采集和识别的问题。
为实现上述目的,本发明提供一种基于大数据的聚类采集与识别的系统,包括;
控制模块,其包含有聚类分析操作单元,所述聚类分析操作单元设置有输入界面,所述聚类分析操作单元用以控制对外部大数据平台的数据或内部大数据平台的数据进行采集和聚类的工作;
采集模块,其包含有搜索引擎单元,用以对外部大数据平台的数据或内部大数据平台的数据进行聚类采集的工作;
存储模块,其用以储存采集模块从外部大数据平台的数据或内部大数据平台的数据聚类采集所得到的数据的模块;
处理模块,其包含有比对单元,用以对所述采集模块从外部大数据平台的数据或内部大数据平台的数据中聚类采集到的数据进行分析识别;
在控制模块设置的聚类分析操作单元里,输入一个采集的主体,聚类分析操作单元将输入的采集主体发送至采集模块,采集模块根据输入的采集主体对外部大数据平台的数据或内部大数据平台的数据进行对所有于主体特征有关联性的数据抓取工作。
所述采集模块对每次采集工作的结束节点进行设定:
若关键词采集工作的结束节点设定为数量,则所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足数量要求的数据;
若关键词采集工作结束时,结束节点与开始节点内数量的时间跨度并不能满足分析结果的最低分析要求,则所述采集模块对关键词采集工作的结束节点设定为时间量,所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足时间量要求的数据;
所述采集模块对关键词采集工作的开始节点和结束节点进行设定,以时间为轴,采集历史时间中某一段时间内与关键词有关的所有数据;
所述控制模块内设置的聚类分析操作单元将采集模块内设置的搜索引擎单元采集到的关键词特征有关联性的数据存储到所述存储模块并标记主体原数据、数据量、时间点,并将所有与关键词特征有关联性的数据发送至所述处理模块进行处理识别,得出基于关键词特征的聚类分析结果存储至所述存储模块。
但基于大数据维数大、规模大、复杂性大的形态特点以及大数据平台每时每刻更新增加数据的增长性特点,聚类分析操作单元对现有大数据平台的每次抓取输入的主体数据的数量或者时间点进行限制,预设默认数据限制数量,或设置两个时间点,即从开始抓取的时刻开始针对输入的主体数据进行时刻向前抓取,直到抓取到的拥有输入主体的所有数据总量等于预设的默认数量,或者由用户设置两个时间点,对两个时间点内所有关于输入主体的数据进行抓取;聚类分析操作单元将采集到的关于输入主体的数据存储到存储模块并标记主体原数据、数据量、时间点,并将所有关于主体的数据发送至处理模块进行处理识别,最后得出关于输入主体的聚类分析结果存储至存储模块,以供用户深入研究其背后的隐藏信息。
在聚类分析操作单元里设置有输入主体界面,可以对想要获取的某一信息数据主体进行限制,以确保在大数据平台可以精确采集到关于输入主体的所有相关信息数据,并确保在后期对该输入主体的深层分析中不会遗漏相关限制条件,影响后期对预设主体的条件判断。
控制模块设定输入的关键词为A,设定采集工作采集到的与关键词A有关联性的数据的上限数量为a,a为正整数,设定采集到的与关键词A有关联性的数据分别为A1,A2,A3,……,Aa,设定所有与关键词A有关联性的数据为数据组AN,AN的数量为a,AN=A1,A2,A3,……,Aa,设定Ai为AN内的任一数据,i=1,2,3,……,a,所述处理模块对所述采集模块采集到总量为a的关键词A的所有数据AN进行特性词分析,所述处理模块对所有数据AN中同一特性词出现的次数进行判定。
控制模块设定所述数据A1中的所有词语为特性词A1W1,A1W2,A1W3,……,A1Wr,r为正整数,设定任一特性词为A1WR,R=1,2,3,……r;
设定特性词A1W1在数据A2中出现的次数为A1W1A2,设定特性词A1W1在数据A3中出现的次数为A1W1A3,设定特性词A1W1在数据A4中出现的次数为A1W1A4,……,设定特性词A1W1在数据Aa中出现的次数为A1W1Aa;
设定特性词A1W2在数据A2中出现的次数为A1W2A2,设定特性词A1W2在数据A3中出现的次数为A1W2A3,设定特性词A1W2在数据A4中出现的次数为A1W2A4,……,设定特性词A1W2在数据Aa中出现的次数为A1W2Aa;
设定特性词A1W3在数据A2中出现的次数为A1W3A2,设定特性词A1W3在数据A3中出现的次数为A1W3A3,设定特性词A1W3在数据A4中出现的次数为A1W3A4,……,设定特性词A1W3在数据Aa中出现的次数为A1W3Aa;
……,
设定特性词A1Wr在数据A2中出现的次数为A1WrA2,设定特性词A1Wr在数据A3中出现的次数为A1WrA3,设定特性词A1Wr在数据A4中出现的次数为A1WrA4,……,设定特性词A1Wr在数据Aa中出现的次数为A1WrAa;
设定数据A2中的所有词语为特性词A2W1,A2W2,A2W3,……,A2Wt,r为正整数,设定数据A2任一特性词为A2WT,T=1,2,3,……t;
设定特性词A2W1在数据A1中出现的次数为A2W1A1,设定特性词A2W1在数据A3中出现的次数为A2W1A3,设定特性词A2W1在数据A4中出现的次数为A2W1A4,……,设定特性词A2W1在数据Aa中出现的次数为A2W1Aa;
设定特性词A2W2在数据A1中出现的次数为A2W2A1,设定特性词A2W2在数据A3中出现的次数为A2W2A3,设定特性词A2W2在数据A4中出现的次数为A2W2A4,……,设定特性词A2W2在数据Aa中出现的次数为A2W2Aa;
设定特性词A2W3在数据A1中出现的次数为A2W3A1,设定特性词A2W3在数据A3中出现的次数为A2W3A3,设定特性词A2W3在数据A4中出现的次数为A2W3A4,……,设定特性词A2W3在数据Aa中出现的次数为A2W3Aa;
……,
设定特性词A2Wr在数据A1中出现的次数为A2WrA1,设定特性词A2Wr在数据A3中出现的次数为A2WrA3,设定特性词A2Wr在数据A4中出现的次数为A2WrA4,……,设定特性词A2Wr在数据Aa中出现的次数为A2WrAa;
……,
设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi,
当AiWRAi=1时,则所述处理模块判定该特性词AiWR′无法成为聚类簇;
当AiWRAi>1时,则所述处理模块判定该特性词AiWR′′成为聚类簇。
处理模块对所有数据中成为聚类簇的特性词进行筛选,若任意多个不同数据的特性词相同,则只保留相同特性词中的一个,并将筛选后的特性词设定为聚类簇,处理模块设定所有经过筛选的特性词后的聚类簇为AT1,AT2,AT3,……,ATn,n为正整数,设定主体A的任一聚类簇为ATu,u=1,2,3,……,n,所述处理模块采用杰卡德系数(Jaccard index)对所有聚类簇进行距离计算,得到任一聚类簇到另外任一聚类簇的相对距离,设定聚类簇AT1与AT2的相对距离为ATM1M2,设定聚类簇AT1与AT3的相对距离为ATM1M3,设定聚类簇AT1与AT4的相对距离为ATM1M4,……,设定聚类簇AT1与ATn的相对距离为ATM1Mn,设定聚类簇AT2与AT3的相对距离为ATM2M3,设定聚类簇AT2与AT4的相对距离为ATM2M4,设定聚类簇AT2与AT5的相对距离为ATM2M5,……,设定聚类簇AT2与ATn的相对距离为ATM2Mn,……,设定聚类簇AT(n-1)与ATn的相对距离为ATM(n-1)Mn,设定任一聚类簇与另外任一聚类簇的相对距离为ATMuMu′,设定聚类簇距离数值权重参数为x1,设定聚类簇距离数值权重标准分值为y1,
控制模块对任一聚类簇距离计算聚类簇距离数值权重分值,即ATM1M2×x1,ATM1M3×x1,ATM1M4×x1,……,ATM(n-1)Mn×x1,将聚类簇距离数值权重分值与数值标准分值y1进行对比,计算聚类簇距离数值权重分值与数值标准分值y1的百分比,即
Figure 93920DEST_PATH_IMAGE001
,该值取小数点后四位,并按其百分比从大到小的顺序进行排列,设定
Figure 579259DEST_PATH_IMAGE002
为N1~2,设定
Figure 873974DEST_PATH_IMAGE003
为N1~3,设定
Figure 380042DEST_PATH_IMAGE004
为N1~4,……设定
Figure 2784DEST_PATH_IMAGE005
为Nn-1~n,设定
Figure 619710DEST_PATH_IMAGE006
为Nu~u′,其计算大小并排序的过程为;
若N1~2-N1~3为负时,则处理模块判定N1~2<N1~3,按从大到小排列为N1~3,N1~2;
若N1~2-N1~3为正时,则处理模块判定N1~2>N1~3,按从大到小排列为N1~2,N1~3;
若N1~2-N1~3为零时,则处理模块判定N1~2=N1~3,按从大到小排列为N1~2、N1~3;
若N1~2-N1~3为负,且N1~3-N1~4为负时,则处理模块判定N1~2<N1~3<N1~4,按从大到小排列为N1~4,N1~3,N1~2;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为正时,则处理模块判定N1~3>N1~2>N1~4,按从大到小排列为N1~3,N1~2,N1~4;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为负时,则处理模块判定N1~3>N1~4>N1~2,按从大到小排列为N1~3,N1~4,N1~2;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为零时,则处理模块判定N1~3>N1~2=N1~4,按从大到小排列为N1~3,N1~2、N1~4;
若N1~2-N1~3为负,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~3>N1~2,按从大到小排列为N1~4,N1~3,N1~2;
若N1~2-N1~3为正,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~2>N1~3,按从大到小排列为N1~4,N1~2,N1~3;
若N1~2-N1~3为正,且N1~3-N1~4为正,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~3>N1~4,按从大到小排列为N1~2,N1~3,N1~4;
若N1~2-N1~3为正,且N1~3-N1~4为负,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~4>N1~3,按从大到小排列为N1~2,N1~4,N1~3;
若N1~2-N1~3为正,且N1~3-N1~4为零,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~3=N1~4,按从大到小排列为N1~2,N1~3、N1~4;
若N1~2-N1~3为正,且N1~3-N1~4为零时,则处理模块判定N1~2<N1~3=N1~4,按从大到小排列为N1~2、N1~3,N1~4;
若N1~2-N1~3为零,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~2=N1~3,按从大到小排列为N1~4,N1~2、N1~3;
若N1~2-N1~3为零,且N1~3-N1~4为零,且N1~2-N1~4为零时,则处理模块判定N1~2=N1~3=N1~4,按从大到小排列为N1~2、N1~3、N1~4;
……
依此对比,依次对N1~2,N1~3,N1~4,……,Nn-1~n逐一按从大到小的顺序进行排序,设定在所得排列中聚类簇距离数值权重分值最高的聚类簇距离为U1,聚类簇距离数值权重分值第二高的聚类簇距离为U2,聚类簇距离数值权重分值第三高的聚类簇距离为U3,……,聚类簇距离数值权重分值最低的聚类簇为Ud,d为正整数;聚类簇距离数值权重分值按大小排列的顺序为:U1,U2,U3,……,Ud,设定任一聚类簇距离数值权重分值为U′;进一步地,处理模块计算聚类簇距离的属性权重分值并将所有聚类簇距离属性权重分值对聚类簇距离属性权重标准分值的比进行排列,设定聚类簇距离的属性权重参数为x2,设定聚类簇距离数值权重标准分值为y2;
控制模块对任一对聚类簇距离的数值计算聚类簇距离属性权重分值,即ATM1M2×x2,ATM1M3×x2,ATM1M4×x2,……,ATM(n-1)Mn×x2,将聚类簇距离属性权重分值与距离属性标准分值y2进行对比,计算聚类簇距离属性权重分值与距离属性标准分值y2的百分比,即
Figure 768932DEST_PATH_IMAGE007
,该值取小数点后四位,并按其百分比从大到小的顺序排列,设定
Figure 445901DEST_PATH_IMAGE008
为H1~2,设定
Figure 555939DEST_PATH_IMAGE009
为H1~3,设定
Figure 710977DEST_PATH_IMAGE010
为H1~4,……,设定
Figure 980285DEST_PATH_IMAGE011
为Hn-1~n,设定
Figure 828155DEST_PATH_IMAGE012
为Hn~u′,其计算大小并排序的过程为;
若H1~2-H1~3为负时,则处理模块判定H1~2<H1~3,按从大到小排列为H1~3,H1~2;
若H1~2-H1~3为正时,则处理模块判定H1~2>H1~3,按从大到小排列为H1~2,H1~3;
若H1~2-H1~3为零时,则处理模块判定H1~2=H1~3,按从大到小排列为H1~2、H1~3;
若H1~2-H1~3为负,且H1~3-H1~4为负时,则处理模块判定H1~2<H1~3<H1~4,按从大到小排列为H1~4,H1~3,H1~2;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为正时,则处理模块判定H1~3>H1~2>H1~4,按从大到小排列为H1~3,H1~2,H1~4;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为负时,则处理模块判定H1~3>H1~4>H1~2,按从大到小排列为H1~3,H1~4,H1~2;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为零时,则处理模块判定H1~3>H1~2=H1~4,按从大到小排列为H1~3,H1~2、H1~4;
若H1~2-H1~3为负,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~3>H1~2,按从大到小排列为H1~4,H1~3,H1~2;
若H1~2-H1~3为正,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~2>H1~3,按从大到小排列为H1~4,H1~2,H1~3;
若H1~2-H1~3为正,且H1~3-H1~4为正,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~3>H1~4,按从大到小排列为H1~2,H1~3,H1~4;
若H1~2-H1~3为正,且H1~3-H1~4为负,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~4>H1~3,按从大到小排列为H1~2,H1~4,H1~3;
若H1~2-H1~3为正,且H1~3-H1~4为零,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~3=H1~4,按从大到小排列为H1~2,H1~3、H1~4;
若H1~2-H1~3为正,且H1~3-H1~4为零时,则处理模块判定H1~2<H1~3=H1~4,按从大到小排列为H1~2、H1~3,H1~4;
若H1~2-H1~3为零,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~2=H1~3,按从大到小排列为H1~4,H1~2、H1~3;
若H1~2-H1~3为零,且H1~3-H1~4为零,且H1~2-H1~4为零时,则处理模块判定H1~2=H1~3=H1~4,按从大到小排列为H1~2、H1~3、H1~4;
……
依此对比,依次对H1~2,H1~3,H1~4,……,Hn-1~n逐一按从大到小的顺序进行排序,设定在所得排列中聚类簇距离属性权重分值最高的聚类簇距离为K1,设定聚类簇距离属性权重分值第二高的聚类簇距离为K2,设定聚类簇距离属性权重分值第三高的聚类簇距离为K3,……,设定聚类簇距离属性权重分值最低的聚类簇距离为Kd;聚类簇距离属性权重分值按大小排列的顺序为:K1,K2,K3,……,Kd;设定任一聚类簇距离属性权重分值为K′,进一步地,处理模块将聚类簇距离数值权重分值按大小排列的顺序U1,U2,U3,……,Ud,与聚类簇距离属性权重分值按大小排列的顺序K1,K2,K3,……,Kd,做对比,计算聚类簇综合性距离权重并按聚类簇综合性距离权重值的大小对聚类簇距离按从大到小的顺序进行排序,即设定
Figure 425489DEST_PATH_IMAGE013
为V′,该值取小数点后四位,并按其百分比大小排列,设定
Figure 384218DEST_PATH_IMAGE014
为V1,设定
Figure 242453DEST_PATH_IMAGE015
为V2,设定
Figure 261224DEST_PATH_IMAGE016
为V3,……设定
Figure 345855DEST_PATH_IMAGE017
为Vd,其计算大小并排序的过程为;
若V1-V2为负时,则处理模块判定V1<V2,按从大到小排列为V2,V1;
若V1-V2为正时,则处理模块判定V1>V2,按从大到小排列为V1,V2;
若V1-V2为零时,则处理模块判定V1=V2,按从大到小排列为V1、V2;
若V1-V2为负,且V2-V3为负时,则处理模块判定V1<V2<V3,按从大到小排列为V3,V2,V1;
若V1-V2为负,且V2-V3为正,且V1-V3为正时,则处理模块判定V2>V1>V3,按从大到小排列为V2,V1,V3;
若V1-V2为负,且V2-V3为正,且V1-V3为负时,则处理模块判定V2>V3>V1,按从大到小排列为V2,V3,V1;
若V1-V2为负,且V2-V3为正,且V1-V3为零时,则处理模块判定V2>V1=V3,按从大到小排列为V2,V1、V3;
若V1-V2为负,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V2>V1,按从大到小排列为V3,V2,V1;
若V1-V2为正,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V1>V2,按从大到小排列为V3,V1,V2;
若V1-V2为正,且V2-V3为正,且V1-V3为正时,则处理模块判定V1>V2>V3,按从大到小排列为V1,V2,V3;
若V1-V2为正,且V2-V3为负,且V1-V3为正时,则处理模块判定V1>V3>V2,按从大到小排列为V1,V3,V2;
若V1-V2为正,且V2-V3为零,且V1-V3为正时,则处理模块判定V1>V2=V3,按从大到小排列为V1,V2、V3;
若V1-V2为正,且V2-V3为零时,则处理模块判定V1<V2=V3,按从大到小排列为V1、V2,V3;
若V1-V2为零,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V1=V2,按从大到小排列为V3,V1、V2;
若V1-V2为零,且V2-V3为零,且V1-V3为零时,则处理模块判定V1=V2=V3,按从大到小排列为V1、V2、V3;
……
依此对比,依次对V1,V2,V3,……,Vd逐一按从大到小的顺序进行排序,设定主体A的聚类簇中各簇内条目数量为AT1S1,AT2S2,AT3S3,……,ATnSe,e为正整数,设定主体A的聚类簇中任一聚类簇ATu的簇内条目数量为ATuSE,E=1,2,3,……,e;主体A的聚类簇总样本条目数量为Fa,设定聚类簇相对距离ATM1M2的聚类簇AT1与AT2内条目数量为AT1S1+AT2S2,设定聚类簇相对距离ATM1M3的聚类簇AT1与AT3内条目数量为AT1S1+AT3S3,设定聚类簇相对距离ATM1M4的聚类簇AT1与AT4内条目数量为AT1S1+AT4S4,设定聚类簇相对距离ATM(n-1)Mn的聚类簇AT(n-1)与ATn内条目数量为AT(n-1)S(e-1)+ATnSe,设定聚类簇相对距离为ATMuMu′的任一聚类簇ATu与ATu′内条目数量数量为ATuSE+ATuSE′;进一步地,当处理模块判定任意若干个V′相等时,根据聚类簇相对距离ATMuMu′中聚类簇综合性距离权重值V′相等的条目数量ATuSE+ATu′SE′的大小,按从大到小的顺序排序;将聚类簇距离不相等的两对聚类簇,但综合性距离权重值相等的V′簇按从大到小的顺序进行排序并设定,设定综合性距离权重值相等组里最大的V′组为第一相等V′簇,设定综合性距离权重值相等组里第二大的V′组为第二相等V′簇,设定综合性距离权重值相等组里第三大的V′组为第三相等V′簇,设定综合性距离权重值相等组里最小的V′组为第G相等V′簇,G为正整数;
设定第一组相等V′簇为AV′A,设定AV′A内有同簇聚类的距离AV′A1,AV′A2,AV′A3,……AV′Ag1,g1为正整数,设定第一组相等V′里任一距离为AV′Aq1,q=1,2,3,……,g;设定AV′A1距离的条目数量为AV′A1(ATuSE+ATu′SE′),设定AV′A2距离的条目数量为AV′A2(ATuSE+ATu′SE′),设定AV′A3距离的条目数量为AV′A3(ATuSE+ATu′SE′),……,设定AV′Ag距离的条目数量为AV′Ag(ATuSE+ATu′SE′);
设定第二组相等V′簇为AV′B,设定AV′B内有同簇聚类的距离AV′B1,AV′B2,AV′B3,……AV′Bg2,g2为正整数,设定第二组相等V′里任一距离为AV′Bq2,q2=1,2,3,……,g2;设定AV′B1距离的条目数量为AV′B1(ATuSE+ATu′SE′),设定AV′B2距离的条目数量为AV′B2(ATuSE+ATu′SE′),设定AV′B3距离的条目数量为AV′B3(ATuSE+ATu′SE′),……,设定AV′Bg2距离的条目数量为AV′Bg2(ATuSE+ATu′SE′);
设定第三组相等V′簇为AV′C,设定AV′C内有同簇聚类的距离AV′C1,AV′C2,AV′C3,……AV′Cg3,g3为正整数,设定第三组相等V′里任一距离为AV′Cq3,q3=1,2,3,……,g3;设定AV′C1距离的条目数量为AV′C1(ATuSE+ATu′SE′),设定AV′C2距离的条目数量为AV′C2(ATuSE+ATu′SE′),设定AV′C3距离的条目数量为AV′C3(ATuSE+ATu′SE′),……,设定AV′Cg2距离的条目数量为AV′Cg2(ATuSE+ATu′SE′);
设定第G组相等V′簇为AV′Z,设定AV′Z内有同簇的聚类距离AV′Z1,AV′Z2,AV′Z3,……AV′Zgn,gn为正整数,设定第G组相等V′里任一距离为AV′Zqn,qn=1,2,3,……,gn;设定AV′Z1距离的条目数量为AV′Z1(ATuSE+ATu′SE′),设定AV′Z2距离的条目数量为AV′Z2(ATuSE+ATu′SE′),设定AV′Z3距离的条目数量为AV′Z3(ATuSE+ATu′SE′),……,设定AV′Zg2距离的条目数量为AV′Zg2(ATuSE+ATu′SE′);
处理模块判断相等V′簇的某一簇内各不同距离簇的条目数量大小并按从大到小的顺序进行排列的过程为;
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负时,则处理模块判定VA1Sa1<AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),VA1Sa1;
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为正时,则处理模块判定VA1Sa1>AV′A2(ATuSE+ATu′SE′),按从大到小排列为VA1Sa1,AV′A2(ATuSE+ATu′SE′);
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为零时,则处理模块判定VA1Sa1=AV′A2(ATuSE+ATu′SE′),按从大到小排列为VA1Sa1、AV′A2(ATuSE+ATu′SE′);
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-VA3Sa3为负时,则处理模块判定VA1Sa1<AV′A2(ATuSE+ATu′SE′)<VA3Sa3,按从大到小排列为VA3Sa3,AV′A2(ATuSE+ATu′SE′),VA1Sa1;
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′)<AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
……
依此对比,依次分别对第一组V′簇AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),……,AV′Ag(ATuSE+ATu′SE′)、第二组V′簇AV′B1(ATuSE+ATu′SE′),AV′B2(ATuSE+ATu′SE′),AV′B3(ATuSE+ATu′SE′),……,AV′Bg2(ATuSE+ATu′SE′)、第三组V′簇AV′C1(ATuSE+ATu′SE′),AV′C2(ATuSE+ATu′SE′),AV′C3(ATuSE+ATu′SE′),……,AV′Cg2(ATuSE+ATu′SE′)和第G组V′簇AV′Z1(ATuSE+ATu′SE′),AV′Z2(ATuSE+ATu′SE′),AV′Z3(ATuSE+ATu′SE′),……,AV′Zg2(ATuSE+ATu′SE′)逐一按从大到小的顺序进行排序,并将顺序排列结果与V1,V2,V3,……,Vd顺序排列进行合并,得到聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′,处理模块根据聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′逆推至主体A聚类簇中聚类簇相对距离ATM1M2,ATM1M3,ATM1M4,……,ATM(n-1)Mn,并得出所有ATMuMu′的排名情况,其处理模块根据ATMuMu′的排名情况和主体A聚类簇距离条目数量AT1S1+AT2S2、AT1S1+AT3S3、AT1S1+AT4S4、……、AT(n-1)S(e-1)+ATnSe判断出主体A聚类簇距离和距离条目数量的最终排名情况。
处理模块对主体A的任一聚类簇距离ATMuMu′中的任一聚类簇ATu与另外任一聚类簇ATu′的条目数量占比进行计算,并将主体A每一聚类簇按排名将该聚类簇的条目数量占总条目数量a的百分比显示到操作系统内,即“聚类簇:AT1,其在总样本中的占比率为(
Figure 108275DEST_PATH_IMAGE018
)”、“聚类簇:AT2,其在总样本中的占比率为(
Figure 86595DEST_PATH_IMAGE019
)”、“聚类簇:AT3,其在总样本中的占比率为(
Figure 682793DEST_PATH_IMAGE020
)”、……、“聚类簇:ATn,其在总样本中的占比率为(
Figure 317036DEST_PATH_IMAGE021
)”的显示方式显示。
与现有技术相比,本发明的有益效果在于,对大数据采集主体的预设限定,提高其对某一主体的采集精确度,亦可以使用上一个采集主体的条件作为下一次采集的主体作为预设限定进行采集,而后对采集到的数据进行聚类分析,包括对分析出的聚类簇的距离属性权重、距离属性值权重、数量占比率经过多次纵向对比,分析出对当前预设主体的聚类信息,方便人工对其进行深入研究得出其数据背后的隐藏信息。对于采集主体的数量限定或者是时间限定,可以对同样采集主体在不同数量级下或者是时间段下的数据进行对比分析,使之更有参考意义。
附图说明
图1为本发明所述基于大数据的聚类采集与识别的系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明实施例基于大数据的聚类采集与识别的系统的结构示意图,本实施例系统包括;
控制模块,其包含有聚类分析操作单元,所述聚类分析操作单元设置有输入界面,所述聚类分析操作单元用以控制对外部大数据平台的数据或内部大数据平台的数据进行采集和聚类的工作;
采集模块,其包含有搜索引擎单元,用以对外部大数据平台的数据或内部大数据平台的数据进行聚类采集的工作;
存储模块,其用以储存采集模块从外部大数据平台的数据或内部大数据平台的数据聚类采集所得到的数据的模块;
处理模块,其包含有比对单元,用以对所述采集模块从外部大数据平台的数据或内部大数据平台的数据中聚类采集到的数据进行分析识别;
在控制模块设置的聚类分析操作单元里,输入一个采集的主体,聚类分析操作单元将输入的采集主体发送至采集模块,采集模块根据输入的采集主体对外部大数据平台的数据或内部大数据平台的数据进行对所有于主体特征有关联性的数据抓取工作。
所述采集模块对每次采集工作的结束节点进行设定:
若关键词采集工作的结束节点设定为数量,则所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足数量要求的数据;
若关键词采集工作结束时,结束节点与开始节点内数量的时间跨度并不能满足分析结果的最低分析要求,则所述采集模块对关键词采集工作的结束节点设定为时间量,所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足时间量要求的数据;
所述采集模块对关键词采集工作的开始节点和结束节点进行设定,以时间为轴,采集历史时间中某一段时间内与关键词有关的所有数据;
所述控制模块内设置的聚类分析操作单元将采集模块内设置的搜索引擎单元采集到的关键词特征有关联性的数据存储到所述存储模块并标记主体原数据、数据量、时间点,并将所有与关键词特征有关联性的数据发送至所述处理模块进行处理识别,得出基于关键词特征的聚类分析结果存储至所述存储模块。
但基于大数据维数大、规模大、复杂性大的形态特点以及大数据平台每时每刻更新增加数据的增长性特点,聚类分析操作单元对现有大数据平台的每次抓取输入的主体数据的数量或者时间点进行限制,预设默认数据限制数量,或设置两个时间点,即从开始抓取的时刻开始针对输入的主体数据进行时刻向前抓取,直到抓取到的拥有输入主体的所有数据总量等于预设的默认数量,或者由用户设置两个时间点,对两个时间点内所有关于输入主体的数据进行抓取;聚类分析操作单元将采集到的关于输入主体的数据存储到存储模块并标记主体原数据、数据量、时间点,并将所有关于主体的数据发送至处理模块进行处理识别,最后得出关于输入主体的聚类分析结果存储至存储模块,以供用户深入研究其背后的隐藏信息。
在聚类分析操作单元里设置有输入主体界面,可以对想要获取的某一信息数据主体进行限制,以确保在大数据平台可以精确采集到关于输入主体的所有相关信息数据,并确保在后期对该输入主体的深层分析中不会遗漏相关限制条件,影响后期对预设主体的条件判断。
控制模块设定输入的关键词为A,设定采集工作采集到的与关键词A有关联性的数据的上限数量为a,a为正整数,设定采集到的与关键词A有关联性的数据分别为A1,A2,A3,……,Aa,设定所有与关键词A有关联性的数据为数据组AN,AN的数量为a,AN=A1,A2,A3,……,Aa,设定Ai为AN内的任一数据,i=1,2,3,……,a,所述处理模块对所述采集模块采集到总量为a的关键词A的所有数据AN进行特性词分析,所述处理模块对所有数据AN中同一特性词出现的次数进行判定。
控制模块设定所述数据A1中的所有词语为特性词A1W1,A1W2,A1W3,……,A1Wr,r为正整数,设定任一特性词为A1WR,R=1,2,3,……r;
设定特性词A1W1在数据A2中出现的次数为A1W1A2,设定特性词A1W1在数据A3中出现的次数为A1W1A3,设定特性词A1W1在数据A4中出现的次数为A1W1A4,……,设定特性词A1W1在数据Aa中出现的次数为A1W1Aa;
设定特性词A1W2在数据A2中出现的次数为A1W2A2,设定特性词A1W2在数据A3中出现的次数为A1W2A3,设定特性词A1W2在数据A4中出现的次数为A1W2A4,……,设定特性词A1W2在数据Aa中出现的次数为A1W2Aa;
设定特性词A1W3在数据A2中出现的次数为A1W3A2,设定特性词A1W3在数据A3中出现的次数为A1W3A3,设定特性词A1W3在数据A4中出现的次数为A1W3A4,……,设定特性词A1W3在数据Aa中出现的次数为A1W3Aa;
……,
设定特性词A1Wr在数据A2中出现的次数为A1WrA2,设定特性词A1Wr在数据A3中出现的次数为A1WrA3,设定特性词A1Wr在数据A4中出现的次数为A1WrA4,……,设定特性词A1Wr在数据Aa中出现的次数为A1WrAa;
设定数据A2中的所有词语为特性词A2W1,A2W2,A2W3,……,A2Wt,r为正整数,设定数据A2任一特性词为A2WT,T=1,2,3,……t;
设定特性词A2W1在数据A1中出现的次数为A2W1A1,设定特性词A2W1在数据A3中出现的次数为A2W1A3,设定特性词A2W1在数据A4中出现的次数为A2W1A4,……,设定特性词A2W1在数据Aa中出现的次数为A2W1Aa;
设定特性词A2W2在数据A1中出现的次数为A2W2A1,设定特性词A2W2在数据A3中出现的次数为A2W2A3,设定特性词A2W2在数据A4中出现的次数为A2W2A4,……,设定特性词A2W2在数据Aa中出现的次数为A2W2Aa;
设定特性词A2W3在数据A1中出现的次数为A2W3A1,设定特性词A2W3在数据A3中出现的次数为A2W3A3,设定特性词A2W3在数据A4中出现的次数为A2W3A4,……,设定特性词A2W3在数据Aa中出现的次数为A2W3Aa;
……,
设定特性词A2Wr在数据A1中出现的次数为A2WrA1,设定特性词A2Wr在数据A3中出现的次数为A2WrA3,设定特性词A2Wr在数据A4中出现的次数为A2WrA4,……,设定特性词A2Wr在数据Aa中出现的次数为A2WrAa;
……,
设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi,
当AiWRAi=1时,则所述处理模块判定该特性词AiWR′无法成为聚类簇;
当AiWRAi>1时,则所述处理模块判定该特性词AiWR′′成为聚类簇。
处理模块对所有数据中成为聚类簇的特性词进行筛选,若任意多个不同数据的特性词相同,则只保留相同特性词中的一个,并将筛选后的特性词设定为聚类簇,处理模块设定所有经过筛选的特性词后的聚类簇为AT1,AT2,AT3,……,ATn,n为正整数,设定主体A的任一聚类簇为ATu,u=1,2,3,……,n,所述处理模块采用杰卡德系数(Jaccard index)对所有聚类簇进行距离计算,得到任一聚类簇到另外任一聚类簇的相对距离,设定聚类簇AT1与AT2的相对距离为ATM1M2,设定聚类簇AT1与AT3的相对距离为ATM1M3,设定聚类簇AT1与AT4的相对距离为ATM1M4,……,设定聚类簇AT1与ATn的相对距离为ATM1Mn,设定聚类簇AT2与AT3的相对距离为ATM2M3,设定聚类簇AT2与AT4的相对距离为ATM2M4,设定聚类簇AT2与AT5的相对距离为ATM2M5,……,设定聚类簇AT2与ATn的相对距离为ATM2Mn,……,设定聚类簇AT(n-1)与ATn的相对距离为ATM(n-1)Mn,设定任一聚类簇与另外任一聚类簇的相对距离为ATMuMu′,设定聚类簇距离数值权重参数为x1,设定聚类簇距离数值权重标准分值为y1,
控制模块对任一聚类簇距离计算聚类簇距离数值权重分值,即ATM1M2×x1,ATM1M3×x1,ATM1M4×x1,……,ATM(n-1)Mn×x1,将聚类簇距离数值权重分值与数值标准分值y1进行对比,计算聚类簇距离数值权重分值与数值标准分值y1的百分比,即
Figure 679884DEST_PATH_IMAGE022
,该值取小数点后四位,并按其百分比从大到小的顺序进行排列,设定
Figure 715974DEST_PATH_IMAGE023
为N1~2,设定
Figure 748652DEST_PATH_IMAGE024
为N1~3,设定
Figure 870191DEST_PATH_IMAGE025
为N1~4,……设定
Figure 36731DEST_PATH_IMAGE026
为Nn-1~n,设定
Figure 661747DEST_PATH_IMAGE027
为Nu~u′,其计算大小并排序的过程为;
若N1~2-N1~3为负时,则处理模块判定N1~2<N1~3,按从大到小排列为N1~3,N1~2;
若N1~2-N1~3为正时,则处理模块判定N1~2>N1~3,按从大到小排列为N1~2,N1~3;
若N1~2-N1~3为零时,则处理模块判定N1~2=N1~3,按从大到小排列为N1~2、N1~3;
若N1~2-N1~3为负,且N1~3-N1~4为负时,则处理模块判定N1~2<N1~3<N1~4,按从大到小排列为N1~4,N1~3,N1~2;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为正时,则处理模块判定N1~3>N1~2>N1~4,按从大到小排列为N1~3,N1~2,N1~4;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为负时,则处理模块判定N1~3>N1~4>N1~2,按从大到小排列为N1~3,N1~4,N1~2;
若N1~2-N1~3为负,且N1~3-N1~4为正,且N1~2-N1~4为零时,则处理模块判定N1~3>N1~2=N1~4,按从大到小排列为N1~3,N1~2、N1~4;
若N1~2-N1~3为负,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~3>N1~2,按从大到小排列为N1~4,N1~3,N1~2;
若N1~2-N1~3为正,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~2>N1~3,按从大到小排列为N1~4,N1~2,N1~3;
若N1~2-N1~3为正,且N1~3-N1~4为正,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~3>N1~4,按从大到小排列为N1~2,N1~3,N1~4;
若N1~2-N1~3为正,且N1~3-N1~4为负,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~4>N1~3,按从大到小排列为N1~2,N1~4,N1~3;
若N1~2-N1~3为正,且N1~3-N1~4为零,且N1~2-N1~4为正时,则处理模块判定N1~2>N1~3=N1~4,按从大到小排列为N1~2,N1~3、N1~4;
若N1~2-N1~3为正,且N1~3-N1~4为零时,则处理模块判定N1~2<N1~3=N1~4,按从大到小排列为N1~2、N1~3,N1~4;
若N1~2-N1~3为零,且N1~3-N1~4为负,且N1~2-N1~4为负时,则处理模块判定N1~4>N1~2=N1~3,按从大到小排列为N1~4,N1~2、N1~3;
若N1~2-N1~3为零,且N1~3-N1~4为零,且N1~2-N1~4为零时,则处理模块判定N1~2=N1~3=N1~4,按从大到小排列为N1~2、N1~3、N1~4;
……
依此对比,依次对N1~2,N1~3,N1~4,……,Nn-1~n逐一按从大到小的顺序进行排序,设定在所得排列中聚类簇距离数值权重分值最高的聚类簇距离为U1,聚类簇距离数值权重分值第二高的聚类簇距离为U2,聚类簇距离数值权重分值第三高的聚类簇距离为U3,……,聚类簇距离数值权重分值最低的聚类簇为Ud,d为正整数;聚类簇距离数值权重分值按大小排列的顺序为:U1,U2,U3,……,Ud,设定任一聚类簇距离数值权重分值为U′;进一步地,处理模块计算聚类簇距离的属性权重分值并将所有聚类簇距离属性权重分值对聚类簇距离属性权重标准分值的比进行排列,设定聚类簇距离的属性权重参数为x2,设定聚类簇距离数值权重标准分值为y2;
控制模块对任一对聚类簇距离的数值计算聚类簇距离属性权重分值,即ATM1M2×x2,ATM1M3×x2,ATM1M4×x2,……,ATM(n-1)Mn×x2,将聚类簇距离属性权重分值与距离属性标准分值y2进行对比,计算聚类簇距离属性权重分值与距离属性标准分值y2的百分比,即
Figure 458054DEST_PATH_IMAGE028
,该值取小数点后四位,并按其百分比从大到小的顺序排列,设定
Figure 801311DEST_PATH_IMAGE029
为H1~2,设定
Figure 771541DEST_PATH_IMAGE030
为H1~3,设定
Figure 516643DEST_PATH_IMAGE031
为H1~4,……,设定
Figure 156703DEST_PATH_IMAGE032
为Hn-1~n,设定
Figure 987255DEST_PATH_IMAGE033
为Hn~u′,其计算大小并排序的过程为;
若H1~2-H1~3为负时,则处理模块判定H1~2<H1~3,按从大到小排列为H1~3,H1~2;
若H1~2-H1~3为正时,则处理模块判定H1~2>H1~3,按从大到小排列为H1~2,H1~3;
若H1~2-H1~3为零时,则处理模块判定H1~2=H1~3,按从大到小排列为H1~2、H1~3;
若H1~2-H1~3为负,且H1~3-H1~4为负时,则处理模块判定H1~2<H1~3<H1~4,按从大到小排列为H1~4,H1~3,H1~2;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为正时,则处理模块判定H1~3>H1~2>H1~4,按从大到小排列为H1~3,H1~2,H1~4;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为负时,则处理模块判定H1~3>H1~4>H1~2,按从大到小排列为H1~3,H1~4,H1~2;
若H1~2-H1~3为负,且H1~3-H1~4为正,且H1~2-H1~4为零时,则处理模块判定H1~3>H1~2=H1~4,按从大到小排列为H1~3,H1~2、H1~4;
若H1~2-H1~3为负,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~3>H1~2,按从大到小排列为H1~4,H1~3,H1~2;
若H1~2-H1~3为正,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~2>H1~3,按从大到小排列为H1~4,H1~2,H1~3;
若H1~2-H1~3为正,且H1~3-H1~4为正,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~3>H1~4,按从大到小排列为H1~2,H1~3,H1~4;
若H1~2-H1~3为正,且H1~3-H1~4为负,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~4>H1~3,按从大到小排列为H1~2,H1~4,H1~3;
若H1~2-H1~3为正,且H1~3-H1~4为零,且H1~2-H1~4为正时,则处理模块判定H1~2>H1~3=H1~4,按从大到小排列为H1~2,H1~3、H1~4;
若H1~2-H1~3为正,且H1~3-H1~4为零时,则处理模块判定H1~2<H1~3=H1~4,按从大到小排列为H1~2、H1~3,H1~4;
若H1~2-H1~3为零,且H1~3-H1~4为负,且H1~2-H1~4为负时,则处理模块判定H1~4>H1~2=H1~3,按从大到小排列为H1~4,H1~2、H1~3;
若H1~2-H1~3为零,且H1~3-H1~4为零,且H1~2-H1~4为零时,则处理模块判定H1~2=H1~3=H1~4,按从大到小排列为H1~2、H1~3、H1~4;
……
依此对比,依次对H1~2,H1~3,H1~4,……,Hn-1~n逐一按从大到小的顺序进行排序,设定在所得排列中聚类簇距离属性权重分值最高的聚类簇距离为K1,设定聚类簇距离属性权重分值第二高的聚类簇距离为K2,设定聚类簇距离属性权重分值第三高的聚类簇距离为K3,……,设定聚类簇距离属性权重分值最低的聚类簇距离为Kd;聚类簇距离属性权重分值按大小排列的顺序为:K1,K2,K3,……,Kd;设定任一聚类簇距离属性权重分值为K′,进一步地,处理模块将聚类簇距离数值权重分值按大小排列的顺序U1,U2,U3,……,Ud,与聚类簇距离属性权重分值按大小排列的顺序K1,K2,K3,……,Kd,做对比,计算聚类簇综合性距离权重并按聚类簇综合性距离权重值的大小对聚类簇距离按从大到小的顺序进行排序,即设定
Figure 495597DEST_PATH_IMAGE034
为V′,该值取小数点后四位,并按其百分比大小排列,设定
Figure 95206DEST_PATH_IMAGE035
为V1,设定
Figure 906167DEST_PATH_IMAGE036
为V2,设定
Figure 224016DEST_PATH_IMAGE037
为V3,……设定
Figure 270469DEST_PATH_IMAGE038
为Vd,其计算大小并排序的过程为;
若V1-V2为负时,则处理模块判定V1<V2,按从大到小排列为V2,V1;
若V1-V2为正时,则处理模块判定V1>V2,按从大到小排列为V1,V2;
若V1-V2为零时,则处理模块判定V1=V2,按从大到小排列为V1、V2;
若V1-V2为负,且V2-V3为负时,则处理模块判定V1<V2<V3,按从大到小排列为V3,V2,V1;
若V1-V2为负,且V2-V3为正,且V1-V3为正时,则处理模块判定V2>V1>V3,按从大到小排列为V2,V1,V3;
若V1-V2为负,且V2-V3为正,且V1-V3为负时,则处理模块判定V2>V3>V1,按从大到小排列为V2,V3,V1;
若V1-V2为负,且V2-V3为正,且V1-V3为零时,则处理模块判定V2>V1=V3,按从大到小排列为V2,V1、V3;
若V1-V2为负,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V2>V1,按从大到小排列为V3,V2,V1;
若V1-V2为正,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V1>V2,按从大到小排列为V3,V1,V2;
若V1-V2为正,且V2-V3为正,且V1-V3为正时,则处理模块判定V1>V2>V3,按从大到小排列为V1,V2,V3;
若V1-V2为正,且V2-V3为负,且V1-V3为正时,则处理模块判定V1>V3>V2,按从大到小排列为V1,V3,V2;
若V1-V2为正,且V2-V3为零,且V1-V3为正时,则处理模块判定V1>V2=V3,按从大到小排列为V1,V2、V3;
若V1-V2为正,且V2-V3为零时,则处理模块判定V1<V2=V3,按从大到小排列为V1、V2,V3;
若V1-V2为零,且V2-V3为负,且V1-V3为负时,则处理模块判定V3>V1=V2,按从大到小排列为V3,V1、V2;
若V1-V2为零,且V2-V3为零,且V1-V3为零时,则处理模块判定V1=V2=V3,按从大到小排列为V1、V2、V3;
……
依此对比,依次对V1,V2,V3,……,Vd逐一按从大到小的顺序进行排序,设定主体A的聚类簇中各簇内条目数量为AT1S1,AT2S2,AT3S3,……,ATnSe,e为正整数,设定主体A的聚类簇中任一聚类簇ATu的簇内条目数量为ATuSE,E=1,2,3,……,e;主体A的聚类簇总样本条目数量为Fa,设定聚类簇相对距离ATM1M2的聚类簇AT1与AT2内条目数量为AT1S1+AT2S2,设定聚类簇相对距离ATM1M3的聚类簇AT1与AT3内条目数量为AT1S1+AT3S3,设定聚类簇相对距离ATM1M4的聚类簇AT1与AT4内条目数量为AT1S1+AT4S4,设定聚类簇相对距离ATM(n-1)Mn的聚类簇AT(n-1)与ATn内条目数量为AT(n-1)S(e-1)+ATnSe,设定聚类簇相对距离为ATMuMu′的任一聚类簇ATu与ATu′内条目数量数量为ATuSE+ATuSE′;进一步地,当处理模块判定任意若干个V′相等时,根据聚类簇相对距离ATMuMu′中聚类簇综合性距离权重值V′相等的条目数量ATuSE+ATu′SE′的大小,按从大到小的顺序排序;将聚类簇距离不相等的两对聚类簇,但综合性距离权重值相等的V′簇按从大到小的顺序进行排序并设定,设定综合性距离权重值相等组里最大的V′组为第一相等V′簇,设定综合性距离权重值相等组里第二大的V′组为第二相等V′簇,设定综合性距离权重值相等组里第三大的V′组为第三相等V′簇,设定综合性距离权重值相等组里最小的V′组为第G相等V′簇,G为正整数;
设定第一组相等V′簇为AV′A,设定AV′A内有同簇聚类的距离AV′A1,AV′A2,AV′A3,……AV′Ag1,g1为正整数,设定第一组相等V′里任一距离为AV′Aq1,q=1,2,3,……,g;设定AV′A1距离的条目数量为AV′A1(ATuSE+ATu′SE′),设定AV′A2距离的条目数量为AV′A2(ATuSE+ATu′SE′),设定AV′A3距离的条目数量为AV′A3(ATuSE+ATu′SE′),……,设定AV′Ag距离的条目数量为AV′Ag(ATuSE+ATu′SE′);
设定第二组相等V′簇为AV′B,设定AV′B内有同簇聚类的距离AV′B1,AV′B2,AV′B3,……AV′Bg2,g2为正整数,设定第二组相等V′里任一距离为AV′Bq2,q2=1,2,3,……,g2;设定AV′B1距离的条目数量为AV′B1(ATuSE+ATu′SE′),设定AV′B2距离的条目数量为AV′B2(ATuSE+ATu′SE′),设定AV′B3距离的条目数量为AV′B3(ATuSE+ATu′SE′),……,设定AV′Bg2距离的条目数量为AV′Bg2(ATuSE+ATu′SE′);
设定第三组相等V′簇为AV′C,设定AV′C内有同簇聚类的距离AV′C1,AV′C2,AV′C3,……AV′Cg3,g3为正整数,设定第三组相等V′里任一距离为AV′Cq3,q3=1,2,3,……,g3;设定AV′C1距离的条目数量为AV′C1(ATuSE+ATu′SE′),设定AV′C2距离的条目数量为AV′C2(ATuSE+ATu′SE′),设定AV′C3距离的条目数量为AV′C3(ATuSE+ATu′SE′),……,设定AV′Cg2距离的条目数量为AV′Cg2(ATuSE+ATu′SE′);
设定第G组相等V′簇为AV′Z,设定AV′Z内有同簇的聚类距离AV′Z1,AV′Z2,AV′Z3,……AV′Zgn,gn为正整数,设定第G组相等V′里任一距离为AV′Zqn,qn=1,2,3,……,gn;设定AV′Z1距离的条目数量为AV′Z1(ATuSE+ATu′SE′),设定AV′Z2距离的条目数量为AV′Z2(ATuSE+ATu′SE′),设定AV′Z3距离的条目数量为AV′Z3(ATuSE+ATu′SE′),……,设定AV′Zg2距离的条目数量为AV′Zg2(ATuSE+ATu′SE′);
处理模块判断相等V′簇的某一簇内各不同距离簇的条目数量大小并按从大到小的顺序进行排列的过程为;
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负时,则处理模块判定VA1Sa1<AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),VA1Sa1;
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为正时,则处理模块判定VA1Sa1>AV′A2(ATuSE+ATu′SE′),按从大到小排列为VA1Sa1,AV′A2(ATuSE+ATu′SE′);
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为零时,则处理模块判定VA1Sa1=AV′A2(ATuSE+ATu′SE′),按从大到小排列为VA1Sa1、AV′A2(ATuSE+ATu′SE′);
若VA1Sa1-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-VA3Sa3为负时,则处理模块判定VA1Sa1<AV′A2(ATuSE+ATu′SE′)<VA3Sa3,按从大到小排列为VA3Sa3,AV′A2(ATuSE+ATu′SE′),VA1Sa1;
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′)<AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为负,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A3(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为正时,则处理模块判定AV′A1(ATuSE+ATu′SE′)>AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为正,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)<AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为负时,则处理模块判定AV′A3(ATuSE+ATu′SE′)>AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′),按从大到小排列为AV′A3(ATuSE+ATu′SE′),AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′);
若AV′A1(ATuSE+ATu′SE′)-AV′A2(ATuSE+ATu′SE′)为零,且AV′A2(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零,且AV′A1(ATuSE+ATu′SE′)-AV′A3(ATuSE+ATu′SE′)为零时,则处理模块判定AV′A1(ATuSE+ATu′SE′)=AV′A2(ATuSE+ATu′SE′)=AV′A3(ATuSE+ATu′SE′),按从大到小排列为AV′A1(ATuSE+ATu′SE′)、AV′A2(ATuSE+ATu′SE′)、AV′A3(ATuSE+ATu′SE′);
……
依此对比,依次分别对第一组V′簇AV′A1(ATuSE+ATu′SE′),AV′A2(ATuSE+ATu′SE′),AV′A3(ATuSE+ATu′SE′),……,AV′Ag(ATuSE+ATu′SE′)、第二组V′簇AV′B1(ATuSE+ATu′SE′),AV′B2(ATuSE+ATu′SE′),AV′B3(ATuSE+ATu′SE′),……,AV′Bg2(ATuSE+ATu′SE′)、第三组V′簇AV′C1(ATuSE+ATu′SE′),AV′C2(ATuSE+ATu′SE′),AV′C3(ATuSE+ATu′SE′),……,AV′Cg2(ATuSE+ATu′SE′)和第G组V′簇AV′Z1(ATuSE+ATu′SE′),AV′Z2(ATuSE+ATu′SE′),AV′Z3(ATuSE+ATu′SE′),……,AV′Zg2(ATuSE+ATu′SE′)逐一按从大到小的顺序进行排序,并将顺序排列结果与V1,V2,V3,……,Vd顺序排列进行合并,得到聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′,处理模块根据聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′逆推至主体A聚类簇中聚类簇相对距离ATM1M2,ATM1M3,ATM1M4,……,ATM(n-1)Mn,并得出所有ATMuMu′的排名情况,其处理模块根据ATMuMu′的排名情况和主体A聚类簇距离条目数量AT1S1+AT2S2、AT1S1+AT3S3、AT1S1+AT4S4、……、AT(n-1)S(e-1)+ATnSe判断出主体A聚类簇距离和距离条目数量的最终排名情况。
处理模块对主体A的任一聚类簇距离ATMuMu′中的任一聚类簇ATu与另外任一聚类簇ATu′的条目数量占比进行计算,并将主体A每一聚类簇按排名将该聚类簇的条目数量占总条目数量a的百分比显示到操作系统内,即“聚类簇:AT1,其在总样本中的占比率为(
Figure 990164DEST_PATH_IMAGE039
)”、“聚类簇:AT2,其在总样本中的占比率为(
Figure 972026DEST_PATH_IMAGE040
)”、“聚类簇:AT3,其在总样本中的占比率为(
Figure 777171DEST_PATH_IMAGE041
)”、……、“聚类簇:ATn,其在总样本中的占比率为(
Figure 627315DEST_PATH_IMAGE042
)”的显示方式显示。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的聚类采集与识别的系统,其特征在于,包括:
控制模块,其包括聚类分析操作单元,所述聚类分析操作单元设有输入界面,所述聚类分析操作单元用以控制对外部大数据平台的数据或内部大数据平台的数据进行采集和聚类;
采集模块,其包括搜索引擎单元,用以对外部大数据平台的数据或内部大数据平台的数据进行聚类采集;
存储模块,其用以储存采集模块从外部大数据平台的数据或内部大数据平台的数据聚类采集所得到的数据;
处理模块,其包括比对单元,用以对所述采集模块从外部大数据平台的数据或内部大数据平台的数据中聚类采集到的数据进行分析识别;
所述聚类分析操作单元获取需采集数据的关键词,并将输入的采集关键词发送至所述采集模块,所述采集模块根据输入的采集关键词对外部大数据平台的数据或内部大数据平台的数据对关键词特征有关联性的数据进行抓取。
2.根据权利要求1所述的基于大数据的聚类采集与识别的系统,其特征在于,所述采集模块对每次采集工作的结束节点进行设定:
若关键词采集工作的结束节点设定为数量,则所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足数量要求的数据;
若关键词采集工作结束时,结束节点与开始节点内数量的时间跨度并不能满足分析结果的最低分析要求,则所述采集模块对关键词采集工作的结束节点设定为时间量,所述采集模块从采集工作的开始时刻为起点,以时间为轴,并在时间轴向后的方向,采集所有与关键词有关且满足时间量要求的数据;
所述采集模块对关键词采集工作的开始节点和结束节点进行设定,以时间为轴,采集历史时间中某一段时间内与关键词有关的所有数据;
所述控制模块内设置的聚类分析操作单元将采集模块内设置的搜索引擎单元采集到的关键词特征有关联性的数据存储到所述存储模块并标记主体原数据、数据量、时间点,并将所有与关键词特征有关联性的数据发送至所述处理模块进行处理识别,得出基于关键词特征的聚类分析结果存储至所述存储模块。
3.根据权利要求2所述的基于大数据的聚类采集与识别的系统,其特征在于,所述控制模块设定输入的关键词为A,设定采集工作采集到的与关键词A有关联性的数据的上限数量为a,a为正整数,设定采集到的与关键词A有关联性的数据分别为A1,A2,A3,……,Aa,设定所有与关键词A有关联性的数据为数据组AN,AN的数量为a,AN=A1,A2,A3,……,Aa,设定Ai为AN内的任一数据,i=1,2,3,……,a,所述处理模块对所述采集模块采集到总量为a的关键词A的所有数据AN进行特性词分析,所述处理模块对所有数据AN中同一特性词出现的次数进行判定。
4.根据权利要求3所述的基于大数据的聚类采集与识别的系统,其特征在于,所述控制模块将所述数据Ai中的所有词语定义为特性词,设定任一特性词为A1WR,R=1,2,3,……r,所述处理模块分别将所有特性词在所有数据中出现的次数进行统计,设定任一特性词AiWR在任一数据Ai中出现的次数为AiWRAi,
当AiWRAi=1时,则所述处理模块判定该特性词AiWR′无法成为聚类簇;
当AiWRAi>1时,则所述处理模块判定该特性词AiWR′′成为聚类簇。
5.根据权利要求4所述的基于大数据的聚类采集与识别的系统,其特征在于,所述处理模块对所有数据中成为聚类簇的特性词进行筛选,筛除掉无法成为聚类簇的AiWR′,并将可以成为聚类簇的AiWR′′设定为聚类簇,所述处理模块设定所有成为聚类簇的AiWR′′为AT1,AT2,AT3,……,ATn,n为正整数,设定关键词A的任一聚类簇为ATu,u=1,2,3,……,n,所述处理模块采用杰卡德系数对所有聚类簇进行距离计算,得到任一聚类簇到另外任一聚类簇的相对距离,设定聚类簇AT1与AT2的相对距离为X1.2,设定聚类簇AT1与AT3的相对距离为X1.3,设定聚类簇AT1与AT4的相对距离为X1.4,……,设定聚类簇AT1与ATn的相对距离为X1.n,设定聚类簇AT2与AT3的相对距离为X2.3,设定聚类簇AT2与AT4的相对距离为X2.4,设定聚类簇AT2与AT5的相对距离为X2.5,……,设定聚类簇AT2与ATn的相对距离为X2.n,……,设定聚类簇AT(n-1)与ATn的相对距离为Xn-1.n,设定任一聚类簇与另外任一聚类簇的相对距离为Xu.u′,设定聚类簇距离数值权重参数为x1,设定聚类簇距离数值权重的标准分值为y1
6.根据权利要求5所述的基于大数据的聚类采集与识别的系统,其特征在于,所述控制模块对任一聚类簇距离计算聚类簇距离数值权重分值X1.2×x1,X1.3×x1,X1.4×x1,……,Xn-1.n×x1,将聚类簇距离数值权重分值与数值标准分值y1进行对比,计算聚类簇距离数值权重分值与数值标准分值y1的百分比
Figure 628639DEST_PATH_IMAGE001
,该值取小数点后四位,并按其百分比从大到小的顺序进行排列,设定
Figure 80480DEST_PATH_IMAGE002
为N1~2,设定
Figure 210110DEST_PATH_IMAGE003
为N1~3,设定
Figure 821220DEST_PATH_IMAGE004
为N1~4,……设定
Figure 378103DEST_PATH_IMAGE005
为Nn-1~n,设定
Figure 317240DEST_PATH_IMAGE006
为Nu~u′,并将N1~2,N1~3,N1~4,……,Nn-1~n逐一按从大到小的顺序进行排序,设定在所得排列中聚类簇距离数值权重分值最高的聚类簇距离为U1,聚类簇距离数值权重分值第二高的聚类簇距离为U2,聚类簇距离数值权重分值第三高的聚类簇距离为U3,……,聚类簇距离数值权重分值最低的聚类簇为Ud,d为正整数,聚类簇距离数值权重分值按大小排列的顺序为:U1,U2,U3,……,Ud,设定任一聚类簇距离数值权重分值为U′。
7.根据权利要求6所述的基于大数据的聚类采集与识别的系统,其特征在于,所述处理模块设定聚类簇距离的属性权重参数为x2,设定聚类簇距离数值权重标准分值为y2,所述控制模块设定根据关键词本身属性对聚类簇相似性影响的指标为聚类簇距离属性权重分值,所述控制模块对任一对聚类簇距离的数值计算聚类簇距离属性权重分值X1.2×x2,X1.3×x2,X1.4×x2,……,Xn-1.n×x2,将聚类簇距离属性权重分值与距离属性标准分值y2进行对比,计算聚类簇距离属性权重分值与距离属性标准分值y2的百分比
Figure 250561DEST_PATH_IMAGE007
,该值取小数点后四位,并按其百分比从大到小的顺序排列,设定
Figure 716178DEST_PATH_IMAGE008
为H1~2,设定
Figure 443962DEST_PATH_IMAGE009
为H1~3,设定
Figure 870395DEST_PATH_IMAGE010
为H1~4,……,设定
Figure 341828DEST_PATH_IMAGE011
为Hn-1~n,设定
Figure 661951DEST_PATH_IMAGE012
为Hn~u′,所述处理模块计算聚类簇距离属性权重分值与距离属性标准分值y2百分比的大小,并将H1~2,H1~3,H1~4,……,Hn-1~n逐一按从大到小的顺序进行排序,设定聚类簇距离属性权重分值按大小排列的顺序为:K1,K2,K3,……,Kd,设定任一聚类簇距离属性权重分值为K′。
8.根据权利要求7所述的基于大数据的聚类采集与识别的系统,其特征在于,所述处理模块将聚类簇距离数值权重分值按大小排列的顺序U1,U2,U3,……,Ud,与聚类簇距离属性权重分值按大小排列的顺序K1,K2,K3,……,Kd,做对比,计算聚类簇综合性距离权重并按聚类簇综合性距离权重值的大小对聚类簇距离按从大到小的顺序进行排序,设定
Figure 826216DEST_PATH_IMAGE013
为V′,该值取小数点后四位,并按其百分比大小排列,设定
Figure 739945DEST_PATH_IMAGE014
为V1,设定
Figure 749490DEST_PATH_IMAGE015
为V2,设定
Figure 189698DEST_PATH_IMAGE016
为V3,……设定
Figure 259286DEST_PATH_IMAGE017
为Vd,所述处理模块对V1,V2,V3,……,Vd逐一按从大到小的顺序进行排序,得到聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′。
9.根据权利要求8所述的基于大数据的聚类采集与识别的系统,其特征在于,所述处理模块根据聚类簇距离综合性权重值的精确排列V1′,V2′,V3′,……,Vd′逆推至关键词A聚类簇中聚类簇相对距离,并得出所有Xu.u′的排名情况,其所述处理模块根据Xu.u′的排名情况和关键词A聚类簇距离条目数量判断出关键词A聚类簇距离和距离条目数量的最终排名情况。
10.根据权利要求9所述的基于大数据的聚类采集与识别的系统,其特征在于,所述处理模块对关键词A的任一聚类簇距离Xu.u′中的任一聚类簇ATu与另外任一聚类簇ATu′的条目数量占比进行计算,并将关键词A每一聚类簇按排名将该聚类簇的条目数量占总条目数量a的百分比显示到操作系统内。
CN202210587620.4A 2022-05-27 2022-05-27 一种基于大数据的聚类采集与识别的系统 Active CN114676796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210587620.4A CN114676796B (zh) 2022-05-27 2022-05-27 一种基于大数据的聚类采集与识别的系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210587620.4A CN114676796B (zh) 2022-05-27 2022-05-27 一种基于大数据的聚类采集与识别的系统

Publications (2)

Publication Number Publication Date
CN114676796A true CN114676796A (zh) 2022-06-28
CN114676796B CN114676796B (zh) 2022-09-06

Family

ID=82079224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210587620.4A Active CN114676796B (zh) 2022-05-27 2022-05-27 一种基于大数据的聚类采集与识别的系统

Country Status (1)

Country Link
CN (1) CN114676796B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174119A1 (en) * 2001-03-23 2002-11-21 International Business Machines Corporation Clustering data including those with asymmetric relationships
JP2011159125A (ja) * 2010-02-01 2011-08-18 Nec Corp イベントクラスタリングシステム、そのコンピュータプログラムおよびデータ処理方法
JP2014174797A (ja) * 2013-03-11 2014-09-22 Nec Corp 階層クラスタリング装置、階層クラスタリング再構成方法およびプログラム
CN104123466A (zh) * 2014-07-24 2014-10-29 中国软件与技术服务股份有限公司 一种基于常态模式的大数据态势分析预警方法及系统
CN104156403A (zh) * 2014-07-24 2014-11-19 中国软件与技术服务股份有限公司 一种基于聚类的大数据常态模式提取方法及系统
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN109063184A (zh) * 2018-08-24 2018-12-21 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
CN112732914A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN112733966A (zh) * 2021-02-26 2021-04-30 浙江清大科技有限公司 一种聚类采集与识别方法、系统及存储介质
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN113204642A (zh) * 2021-04-13 2021-08-03 北京嘀嘀无限科技发展有限公司 文本聚类方法、装置、存储介质和电子设备
CN114048318A (zh) * 2021-11-29 2022-02-15 中国平安人寿保险股份有限公司 基于密度半径的聚类方法、系统、设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020174119A1 (en) * 2001-03-23 2002-11-21 International Business Machines Corporation Clustering data including those with asymmetric relationships
JP2011159125A (ja) * 2010-02-01 2011-08-18 Nec Corp イベントクラスタリングシステム、そのコンピュータプログラムおよびデータ処理方法
JP2014174797A (ja) * 2013-03-11 2014-09-22 Nec Corp 階層クラスタリング装置、階層クラスタリング再構成方法およびプログラム
CN104123466A (zh) * 2014-07-24 2014-10-29 中国软件与技术服务股份有限公司 一种基于常态模式的大数据态势分析预警方法及系统
CN104156403A (zh) * 2014-07-24 2014-11-19 中国软件与技术服务股份有限公司 一种基于聚类的大数据常态模式提取方法及系统
CN104881401A (zh) * 2015-05-27 2015-09-02 大连理工大学 一种专利文献聚类方法
CN107180075A (zh) * 2017-04-17 2017-09-19 浙江工商大学 文本分类集成层次聚类分析的标签自动生成方法
CN109063184A (zh) * 2018-08-24 2018-12-21 广东外语外贸大学 多语言新闻文本聚类方法、存储介质及终端设备
CN112732914A (zh) * 2020-12-30 2021-04-30 深圳市网联安瑞网络科技有限公司 基于关键词匹配的文本聚类方法、系统、储存介质及终端
CN112733966A (zh) * 2021-02-26 2021-04-30 浙江清大科技有限公司 一种聚类采集与识别方法、系统及存储介质
CN113094567A (zh) * 2021-03-31 2021-07-09 四川新网银行股份有限公司 一种基于文本聚类的恶意投诉识别方法及系统
CN113204642A (zh) * 2021-04-13 2021-08-03 北京嘀嘀无限科技发展有限公司 文本聚类方法、装置、存储介质和电子设备
CN114048318A (zh) * 2021-11-29 2022-02-15 中国平安人寿保险股份有限公司 基于密度半径的聚类方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHAN LIU ETAL.: "A clustering analysis of news text based on co-occurrence matrix", 《2017 3RD IEEE INTERNATIONAL CONFERENCE ON COMPUTER AND COMMUNICATIONS (ICCC)》 *
盖璇: "基于聚类分析算法的垃圾邮件识别", 《计算机与现代化》 *

Also Published As

Publication number Publication date
CN114676796B (zh) 2022-09-06

Similar Documents

Publication Publication Date Title
US7349899B2 (en) Document clustering device, document searching system, and FAQ preparing system
CN105893597B (zh) 一种相似病历检索方法及系统
US20070282900A1 (en) Registration and maintenance of address data for each service point in a territory
US20030097375A1 (en) System for information discovery
CN106933883A (zh) 基于检索日志的兴趣点常用检索词分类方法、装置
CN106599138A (zh) 一种用电器种类识别方法
CN109614484A (zh) 一种基于分类效用的文本聚类方法及其系统
CN111599486A (zh) 一种基于数据匹配的中医处方推荐排序方法
CN106897740A (zh) 基于惯性传感器的人体行为识别系统下eemd‑dfa特征提取方法
CN111597416A (zh) 一种基于大数据处理的匹配推送系统
CN114676796B (zh) 一种基于大数据的聚类采集与识别的系统
CN109471934A (zh) 基于互联网的金融风险线索发掘方法
CN110990384B (zh) 一种大数据平台bi分析方法
CN113282641A (zh) 基于用户行为深度分析的网页搜索数据信息智能分类管理方法、系统及计算机存储介质
JP3651550B2 (ja) 属性圧縮装置および方法
CN114718861A (zh) 基于深度学习的螺杆泵井工况智能诊断方法
CN110110583B (zh) 一种实时在线一体化桥梁模态自动识别系统
CN113779402B (zh) 一种新的体系能力需求生成方法
JP2002215647A (ja) テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
CN110675927A (zh) 一种基于大数据的病情检索方法
CN112800118B (zh) 基于多维度分析的业务数据集成系统及其数据分析方法
Huang et al. Apply Data Mining Techniques to Library Circulation Records and Usage Patterns Analysis
CN114916928B (zh) 一种人体姿态多通道卷积神经网络检测方法
Nazareth et al. Visualizing attribute interdependencies using mutual information, hierarchical clustering, multidimensional scaling, and self-organizing maps
CN115995282B (zh) 一种基于知识图谱的呼气流量数据处理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant