CN112733966A - 一种聚类采集与识别方法、系统及存储介质 - Google Patents

一种聚类采集与识别方法、系统及存储介质 Download PDF

Info

Publication number
CN112733966A
CN112733966A CN202110217831.4A CN202110217831A CN112733966A CN 112733966 A CN112733966 A CN 112733966A CN 202110217831 A CN202110217831 A CN 202110217831A CN 112733966 A CN112733966 A CN 112733966A
Authority
CN
China
Prior art keywords
data
divided
file
clustered
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110217831.4A
Other languages
English (en)
Inventor
朱家养
郑阳
郑经楷
朱清女
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chonghong Technology Co ltd
Original Assignee
Zhejiang Qingda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Qingda Technology Co ltd filed Critical Zhejiang Qingda Technology Co ltd
Priority to CN202110217831.4A priority Critical patent/CN112733966A/zh
Publication of CN112733966A publication Critical patent/CN112733966A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及聚类采集与识别方法、系统及存储介质,所述方法执行以下步骤:步骤1:政务终端运行过程中实时采集数据,将采集到的数据写入一个文件中,得到数据文件;步骤2:针对数据发文件进行聚类采集,完成数据的聚类划分;步骤3:针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件。其将政务终端采集到的数据写入文件,然后进行聚类分类,再对调用这些数据进行双重验证,提升了数据调用的效率,同时提升了数据调用的安全性。

Description

一种聚类采集与识别方法、系统及存储介质
技术领域
本发明属于数据处理技术领域,具体涉及一种聚类采集与识别方法、系统及存储介质。
背景技术
聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,处在同一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
发明内容
本发明的主要目的在于提供一种聚类采集与识别方法、系统及存储介质,其将政务终端采集到的数据写入文件,然后进行聚类分类,再对调用这些数据进行双重验证,提升了数据调用的效率,同时提升了数据调用的安全性。
为达到上述目的,本发明的技术方案是这样实现的:
聚类采集与识别方法,方法执行以下步骤:步骤1:政务终端运行过程中实时采集数据,对实时采集的数据首先进行数据空间映射,对数据进行初步的空间映射划分,再根据空间映射划分的结果,分别将采集到的数据写入一个文件中,得到数据文件;步骤2:针对数据文件进行聚类采集,完成数据的聚类划分;步骤3:针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件。
进一步的,步骤1:对实时采集的数据首先进行数据空间映射,对数据进行初步的 空间映射划分的方法包括:步骤1.1:将实时采集到的数据随机分成5组,求取每一组数据的 平均值、方差和中位数;步骤1.2:针对每一组数据中的每一个数据值,求取其与该组数据对 应的平均值、方差和中位数之间的差值,若求取得到的差值在设定的阈值范围内,则不进行 空间映射,若超过设定的阈值范围,则将该数据值按照空间映射概率进行空间映射;空间映 射概率使用如下公式表示:
Figure 391877DEST_PATH_IMAGE001
其中m代表映射空间的标号,取值 视映射空间的个数而定,i表示第i个映射空间的标号;
Figure 602410DEST_PATH_IMAGE002
为数据值与平均值的差值,
Figure 770480DEST_PATH_IMAGE003
为数 据值与方差的差值,
Figure 990239DEST_PATH_IMAGE004
为数据值与中位数的差值;进行数据空间映射时,将数据值与空间映 射概率相乘,得到空间映射的结果。
进一步的,步骤2:针对数据发文件进行聚类采集,完成数据的聚类划分的方法执行以下步骤:
步骤2.1:静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据;
步骤2.2:比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中。
进一步的,步骤2.2:比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的方法还包括:
对划分出的每个类中的数据文件进行二次聚类划分;针对所划分的同一类别中的数据文件,二次聚类划分具体包括:
静态分析每个数据文件的二进制数据,分析出数据文件的节数据;
采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值;
比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中。
进一步的,步骤3:针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件的方法执行以下步骤:
步骤3.1:在聚类划分后的数据中,随机抽取部分数据,记为N,抽取的部分数据在聚类划分后的数据的占比范围为:5%~10%;
步骤3.2:在随机抽取的部分数据N,使用高斯和算子Sj进行扩张计算,算出扩张域K上的任意一点的随机抽取的部分数据N的多个基底数N=Sj(N);扩张域K是将有限域Fp扩张2阶得到的代数扩张域;
步骤3.3:根据如下公式,计算出多个离散对数
Figure 425900DEST_PATH_IMAGE005
Figure 633765DEST_PATH_IMAGE006
;其中,e为自 然对数的底,
Figure 787666DEST_PATH_IMAGE007
是大于等于1且小于等于100的整数,
Figure 607854DEST_PATH_IMAGE008
是离散对数,其值为大于等于N且小于 等于100的整数,
Figure 898021DEST_PATH_IMAGE004
为离散对数的幂数,取值范围为:2~5;将计算出的离散对数
Figure 482980DEST_PATH_IMAGE005
作为双重共 识识别验证机制;
步骤3.4:在调用聚类划分后的数据时,通过计算出的离散对数
Figure 73579DEST_PATH_IMAGE009
,识别聚类划分后 的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证 机制设定的条件。
进一步的,步骤2.2还包括:将第一个数据文件作为一个新类的中心文件;将下一数据文件的结构数据依次与各类的中心文件的结构数据进行比较,如果该数据文件与某类中心文件的结构数据符合指定相似度,则将该数据文件划分到该类中;如果该数据文件与各类中心文件的结构数据相比都不符合指定相似度,则将该数据文件作为一个新类的中心文件;判断是否还有下一个数据文件,如果有则返回执行;否则结束本流程。
进一步的,扩张域K根据如下公式计算得到:
Figure 40003DEST_PATH_IMAGE010
;其中,i是大 于等于1且小于等于50的整数;
Figure 450255DEST_PATH_IMAGE011
为域半径,取值范围为:1~10;
Figure 999923DEST_PATH_IMAGE012
为域直径,
Figure 862837DEST_PATH_IMAGE012
=2
Figure 24828DEST_PATH_IMAGE011
进一步的,步骤2中聚类采集的过程包括:将数据文件中的数据归并成若干个互不交叉、互不重复的集合,每个得到的集合作为子数据群;然后以子数据群为抽样单位抽取样本,得到抽样样本集合。
进一步的,步骤2中聚类划分的过程包括:对抽样样本集合中进行聚类分析,得到聚类分析结果,该聚类分析结果作为数据文件的聚类分析结果。
聚类采集与识别系统,所述系统运行前述所述方法。
一种存储介质,存储有实现上述方法的计算机可读指令。
本发明的聚类采集与识别方法及存储介质,具有如下有益效果:其将政务终端采集到的数据写入文件,然后进行聚类分类,再对调用这些数据进行双重验证,提升了数据调用的效率,同时提升了数据调用的安全性。主要通过以下过程实现:1.数据的聚类划分:本发明通过静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据;比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中;这样可以将政务终端采集到的数据根据类别进行划分,划分后的数据在调用过程中,可以针对需要的类别,直接调用,而不用再进行数据的二次采集和分类,提升了数据采集的效率;2.二次聚类划分:本发明静态分析每个数据文件的二进制数据,分析出数据文件的节数据;采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值;比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中;这个过程可以使得划分后的数据再次进行细分,进一步提升数据调用的效率;同时,在该过程中,数据文件之间节数据块的哈希值将作为连接数据块的纽带,再次进一步提升数据利用的效率;3.双重共识识别验证机制的设定,该过程使用双重共识,基于扩张域,生成多个离散对数,将该离散对数作为最终的验证值,提升了数据的安全性。
附图说明
图1为本发明的实施例提供的聚类采集与识别方法的方法流程示意图;
图2为本发明的实施例提供的聚类采集与识别方法的步骤2流程示意图;
图3为本发明的实施例提供的聚类采集与识别方法及存储介质的聚类划分的原理示意图;
图4为本发明的实施例提供的聚类采集与识别方法及存储介质的划分数据文件的原理示意图;
图5为本发明的实施例提供的聚类采集与识别方法及存储介质的数据调用效率的实验效果示意图与现有技术的对比实验效果示意图;
图6为本发明的实施例提供的聚类采集与识别方法及存储介质的数据安全性的实验效果示意图与现有技术的对比实验效果示意图。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1和图4所示,聚类采集与识别方法,方法执行以下步骤:步骤1:政务终端运行过程中实时采集数据,将采集到的数据写入一个文件中,得到数据文件;步骤2:针对数据发文件进行聚类采集,完成数据的聚类划分;步骤3:针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件;步骤2:针对数据发文件进行聚类采集,完成数据的聚类划分的方法执行以下步骤:步骤2.1:静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据;步骤2.2:比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中。
具体的,其将政务终端采集到的数据写入文件,然后进行聚类分类,再对调用这些数据进行双重验证,提升了数据调用的效率,同时提升了数据调用的安全性。主要通过以下过程实现:1.数据的聚类划分:本发明通过静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据;比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中;这样可以将政务终端采集到的数据根据类别进行划分,划分后的数据在调用过程中,可以针对需要的类别,直接调用,而不用再进行数据的二次采集和分类,提升了数据采集的效率;2.二次聚类划分:本发明静态分析每个数据文件的二进制数据,分析出数据文件的节数据;采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值;比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中;这个过程可以使得划分后的数据再次进行细分,进一步提升数据调用的效率;同时,在该过程中,数据文件之间节数据块的哈希值将作为连接数据块的纽带,再次进一步提升数据利用的效率;3.双重共识识别验证机制的设定,该过程使用双重共识,基于扩张域,生成多个离散对数,将该离散对数作为最终的验证值,提升了数据的安全性。
实施例2
在上一实施例的基础上,步骤1:对实时采集的数据首先进行数据空间映射,对数 据进行初步的空间映射划分的方法包括:步骤1.1:将实时采集到的数据随机分成5组,求取 每一组数据的平均值、方差和中位数;步骤1.2:针对每一组数据中的每一个数据值,求取其 与该组数据对应的平均值、方差和中位数之间的差值,若求取得到的差值在设定的阈值范 围内,则不进行空间映射,若超过设定的阈值范围;则将该数据值按照空间映射概率进行空 间映射;空间映射概率使用如下公式表示:
Figure 24008DEST_PATH_IMAGE001
其中m代表映射空 间的标号,取值视映射空间的个数而定,i表示第i个映射空间的标号;
Figure 747507DEST_PATH_IMAGE002
为数据值与平均值 的差值,
Figure 97717DEST_PATH_IMAGE003
为数据值与方差的差值,
Figure 63399DEST_PATH_IMAGE004
为数据值与中位数的差值;进行数据空间映射时,将数 据值与空间映射概率相乘,得到空间映射的结果。
具体的,通过空间映射,可以将数据组中的异常数据进行映射,使得其数据值回归到正常值,以便提升后续聚类划分的准确率。
实施例3
参考图2,在上一实施例的基础上,步骤2.2:比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的方法还包括:对划分出的每个类中的数据文件进行二次聚类划分;针对所划分的同一类别中的数据文件,二次聚类划分具体包括:静态分析每个数据文件的二进制数据,分析出数据文件的节数据;采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值;比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中。
具体的,一般的线性表,树中,记录在结构中的相对位置是随机的,即和记录的关键字之间不存在确定的关系,因此,在结构中查找记录时需进行一系列和关键字的比较。这一类查找方法建立在“比较”的基础上,查找的效率依赖于查找过程中所进行的比较次数。理想的情况是能直接找到需要的记录,因此必须在记录的存储位置和它的关键字之间建立一个确定的对应关系f,使每个关键字和结构中一个唯一的存储位置相对应。
实施例4
参考图3,在上一实施例的基础上,步骤3:针对聚类划分后的数据,添加双重共识 识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后 的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证 机制设定的条件的方法执行以下步骤:步骤3.1:在聚类划分后的数据中,随机抽取部分数 据,记为N,抽取的部分数据在聚类划分后的数据的占比范围为:5%~10%;步骤3.2:在随机抽 取的部分数据N,使用高斯和算子Sj进行扩张计算,算出扩张域K上的任意一点的随机抽取 的部分数据N的多个基底数N=Sj(N);扩张域K是将有限域Fp扩张2阶得到的代数扩张域;步 骤3.3:根据如下公式,计算出多个离散对数
Figure 182664DEST_PATH_IMAGE005
Figure 808555DEST_PATH_IMAGE013
;其中,e为自然对数的 底,
Figure 646061DEST_PATH_IMAGE007
是大于等于1且小于等于100的整数,
Figure 149855DEST_PATH_IMAGE008
是离散对数,其值为大于等于N且小于等于100 的整数,
Figure 123627DEST_PATH_IMAGE004
为离散对数的幂数,取值范围为:2~5;将计算出的离散对数
Figure 188929DEST_PATH_IMAGE005
作为双重共识识别验 证机制;步骤3.4:在调用聚类划分后的数据时,通过计算出的离散对数
Figure 248152DEST_PATH_IMAGE009
,识别聚类划分后 的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证 机制设定的条件。
具体的,在整数中,离散对数(英语:Discrete logarithm)是一种基于同余运算和原根的一种对数运算。而在实数中对数的定义 log b a是指对于给定的ab,有一个数x,使得b x=a。相同地在任何群G中可为所有整数k定义一个幂数为b K ,而离散对数log b a是指使得b K =a的整数k
实施例5
在上一实施例的基础上,步骤2.2还包括:将第一个数据文件作为一个新类的中心文件;将下一数据文件的结构数据依次与各类的中心文件的结构数据进行比较,如果该数据文件与某类中心文件的结构数据符合指定相似度,则将该数据文件划分到该类中;如果该数据文件与各类中心文件的结构数据相比都不符合指定相似度,则将该数据文件作为一个新类的中心文件;判断是否还有下一个数据文件,如果有则返回执行;否则结束本流程。
参考图4,图4中的
Figure 555636DEST_PATH_IMAGE014
Figure 383915DEST_PATH_IMAGE015
Figure 617188DEST_PATH_IMAGE016
均表示各类的中心,而半径为制定相似度,在制定相 似度的范围内,则将该数据文件划分到该类中;如果该数据文件与各类中心文件的结构数 据相比都不符合指定相似度,则将该数据文件作为一个新类的中心文件。
实施例6
在上一实施例的基础上,扩张域K根据如下公式计算得到:
Figure 163707DEST_PATH_IMAGE010
; 其中,i是大于等于1且小于等于50的整数;
Figure 274882DEST_PATH_IMAGE011
为域半径,取值范围为:1~10;
Figure 223247DEST_PATH_IMAGE012
为域直径,
Figure 71162DEST_PATH_IMAGE012
=2
Figure 777081DEST_PATH_IMAGE011
实施例7
一种存储介质,包括:在政务终端运行过程中实时采集数据,将采集到的数据写入一个文件中,得到数据文件的代码段;针对数据发文件进行聚类采集,完成数据的聚类划分的代码段;针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件的代码段;针对数据发文件进行聚类采集,完成数据的聚类划分的代码段包括:静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据的子代码段;比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的子代码段。
实施例8
在上一实施例的基础上,比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的子代码段还包括:对划分出的每个类中的数据文件进行二次聚类划分的代码段;针对所划分的同一类别中的数据文件,二次聚类划分的代码段具体包括:静态分析每个数据文件的二进制数据,分析出数据文件的节数据的代码段;采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值的代码段;比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中的代码段。
实施例9
在上一实施例的基础上,针对聚类划分后的数据,添加双重共识识别验证机制,在 调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同 时,聚类划分后的数据识别调用请求的来源是否符合双重共识识别验证机制设定的条件的 代码段包括:针对聚类划分后的数据,添加双重共识识别验证机制,在调用聚类划分后的数 据时,通过双重共识识别验证机制,识别聚类划分后的数据的类别,同时,聚类划分后的数 据识别调用请求的来源是否符合双重共识识别验证机制设定的条件的方法执行以下步骤: 步骤3.1:在聚类划分后的数据中,随机抽取部分数据,记为N,抽取的部分数据在聚类划分 后的数据的占比范围为:5%~10%;步骤3.2:在随机抽取的部分数据N,使用高斯和算子Sj进 行扩张计算,算出扩张域K上的任意一点的随机抽取的部分数据N的多个基底数N=Sj(N);扩 张域K是将有限域Fp扩张2阶得到的代数扩张域;步骤3.3:根据如下公式,计算出多个离散 对数
Figure 927833DEST_PATH_IMAGE005
Figure 730704DEST_PATH_IMAGE006
;其中,e为自然对数的底,
Figure 603982DEST_PATH_IMAGE007
是大于等于1且小于等于100的整 数,
Figure 328355DEST_PATH_IMAGE008
是离散对数,其值为大于等于N且小于等于100的整数,
Figure 312492DEST_PATH_IMAGE004
为离散对数的幂数,取值范围 为:2~5;将计算出的离散对数
Figure 733984DEST_PATH_IMAGE005
作为双重共识识别验证机制;步骤3.4:在调用聚类划分后的 数据时,通过计算出的离散对数
Figure 981425DEST_PATH_IMAGE009
,识别聚类划分后的数据的类别,同时,聚类划分后的数 据识别调用请求的来源是否符合双重共识识别验证机制设定的条件。
实施例10
在上一实施例的基础上,比较待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的子代码段还包括:将第一个数据文件作为一个新类的中心文件的代码段;将下一数据文件的结构数据依次与各类的中心文件的结构数据进行比较,如果该数据文件与某类中心文件的结构数据符合指定相似度,则将该数据文件划分到该类中的代码段;如果该数据文件与各类中心文件的结构数据相比都不符合指定相似度,则将该数据文件作为一个新类的中心文件的代码段;判断是否还有下一个数据文件,如果有则返回执行;否则结束本流程的代码段。
参考图5,划分数据文件的方式通过设定中心来实现。基于该中心,设定边界点,核心店和噪声点,可以将散落的数据更好的划分,噪声点的数据为偏离中心超过设定阈值的点,这些点在调用的过程中,优先度低。
实施例11
在上一实施例的基础上,扩张域K根据如下公式计算得到:
Figure 989833DEST_PATH_IMAGE017
; 其中,i是大于等于1且小于等于50的整数;
Figure 980922DEST_PATH_IMAGE011
为域半径,取值范围为:1~10;
Figure 259850DEST_PATH_IMAGE012
为域直径,
Figure 678193DEST_PATH_IMAGE012
=2
Figure 908318DEST_PATH_IMAGE011
参考图6,现有技术中,聚类算法一般分为:结构性或者分散性。结构性算法利用以前成功使用过的聚类器进行分类,而分散型算法则是一次确定所有分类。结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始,不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类,然后逐渐分小。
分布式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从下至上聚类算法。
基于密度的聚类算法,是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。DBSCAN和OPTICS是两个典型的算法。
但现有算法由于其仅仅针对数据进行聚类,缺乏针对聚类的控制,同时,在进行聚类过程中,也缺乏针对聚类划分数据的多次相似度界定,以及针对分类后数据的共识验证。导致其在数据利用率和数据安全性上远低于要求。
许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。除非事先准备好一个合适的值,否则必须决定一个大概值,关于这个问题已经有一些现成的技术。
以上仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种聚类采集与识别方法,其特征在于,所述方法执行以下步骤:步骤1:政务终端运 行过程中实时采集数据,对实时采集的数据首先进行数据空间映射,对数据进行初步的空 间映射划分,再根据空间映射划分的结果,分别将采集到的数据写入一个文件中,得到数据 文件;步骤2:针对数据文件进行聚类采集,完成数据的聚类划分;步骤3:针对聚类划分后的 数据,添加双重共识认证验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机 制,识别聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合 双重共识识别验证机制设定的条件;所述步骤1:对实时采集的数据首先进行数据空间映 射,对数据进行初步的空间映射划分的方法包括:步骤1.1:将实时采集到的数据随机分成5 组,求取每一组数据的平均值、方差和中位数;步骤1.2:针对每一组数据中的每一个数据 值,求取其与该组数据对应的平均值、方差和中位数之间的差值,若求取得到的差值在设定 的阈值范围内,则不进行空间映射,若超过设定的阈值范围;则将该数据值按照空间映射概 率进行空间映射;所述空间映射概率使用如下公式表示:
Figure 370159DEST_PATH_IMAGE001
其中m代 表映射空间的标号,取值视映射空间的个数而定,i表示第i个映射空间的标号;
Figure 195289DEST_PATH_IMAGE002
为数据值 与平均值的差值,
Figure 912710DEST_PATH_IMAGE003
为数据值与方差的差值,
Figure 42340DEST_PATH_IMAGE004
为数据值与中位数的差值;进行数据空间映射 时,将数据值与空间映射概率相乘,得到空间映射的结果。
2.如权利要求1所述的方法,其特征在于,所述步骤2:针对数据发文件进行聚类采集,完成数据的聚类划分的方法执行以下步骤:步骤2.1:静态分析待划分数据文件的二进制数据,从中分析出数据文件的可移植可执行结构数据;步骤2.2:比较所述待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中。
3.如权利要求2所述的方法,其特征在于,所述步骤2.2:比较所述待划分数据文件的结构数据,将结构数据符合指定相似度的数据文件划分到同一类别中的方法还包括:对划分出的每个类中的数据文件进行二次聚类划分;针对所划分的同一类别中的数据文件,所述二次聚类划分具体包括:静态分析每个数据文件的二进制数据,分析出数据文件的节数据;采用相同的分块方式对每个数据文件的节数据进行分块处理,计算每个节数据块的哈希值;比较数据文件之间节数据块的哈希值,将节数据块哈希值符合指定的哈希相似度的数据文件划分到一个二级类中。
4.如权利要求3所述的方法,其特征在于,所述步骤3:针对聚类划分后的数据,添加双 重共识识别验证机制,在调用聚类划分后的数据时,通过双重共识识别验证机制,识别聚类 划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共识识 别验证机制设定的条件的方法执行以下步骤:步骤3.1:在聚类划分后的数据中,随机抽取 部分数据,记为N,所述抽取的部分数据在聚类划分后的数据的占比范围为:5%~10%;步骤 3.2:在随机抽取的部分数据N,使用高斯和算子Sj进行扩张计算,算出扩张域K上的任意一 点的随机抽取的部分数据N的多个基底数N=Sj(N);所述扩张域K是将有限域Fp扩张2阶得到 的代数扩张域;步骤3.3:根据如下公式,计算出多个离散对数,
Figure 256338DEST_PATH_IMAGE006
;其中,e 为自然对数的底,
Figure 461054DEST_PATH_IMAGE007
是大于等于1且小于等于100的整数,
Figure 863217DEST_PATH_IMAGE008
是离散对数,其值为大于等于N且 小于等于100的整数,
Figure 469779DEST_PATH_IMAGE004
为离散对数的幂数,取值范围为:2~5;将计算出的离散对数作为双重 共识识别验证机制;步骤3.4:在调用聚类划分后的数据时,通过计算出的离散对数,识别 聚类划分后的数据的类别,同时,聚类划分后的数据识别调用请求的来源是否符合双重共 识识别验证机制设定的条件。
5.如权利要求4所述的方法,其特征在于,所述步骤2.2还包括:将第一个数据文件作为一个新类的中心文件;将下一数据文件的结构数据依次与各类的中心文件的结构数据进行比较,如果该数据文件与某类中心文件的结构数据符合指定相似度,则将该数据文件划分到该类中;如果该数据文件与各类中心文件的结构数据相比都不符合指定相似度,则将该数据文件作为一个新类的中心文件;判断是否还有下一个数据文件,如果有则返回执行;否则结束本流程。
6.如权利要求5所述的方法,其特征在于,所述扩张域K根据如下公式计算得到:
Figure 268998DEST_PATH_IMAGE009
;其中,i是大于等于1且小于等于50的整数;
Figure 730066DEST_PATH_IMAGE010
为域半径,取值范围为:1~ 10;
Figure 596129DEST_PATH_IMAGE011
为域直径,
Figure 603135DEST_PATH_IMAGE011
=2
Figure 815942DEST_PATH_IMAGE010
7.如权利要求1所述的方法,其特征在于,所述步骤2中聚类采集的过程包括:将数据文件中的数据归并成若干个互不交叉、互不重复的集合,每个得到的集合作为子数据群;然后以子数据群为抽样单位抽取样本,得到抽样样本集合。
8.如权利要求1所述的方法,其特征在于,所述步骤2中聚类划分的过程包括:对抽样样本集合中进行聚类分析,得到聚类分析结果,该聚类分析结果作为数据文件的聚类分析结果。
9.一种聚类采集与识别系统,其特征在于,所述系统运行权利要求1-8任一项所述方法。
10.一种存储介质,存储有实现权利要求1至5任一项所述方法的计算机可读指令。
CN202110217831.4A 2021-02-26 2021-02-26 一种聚类采集与识别方法、系统及存储介质 Pending CN112733966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110217831.4A CN112733966A (zh) 2021-02-26 2021-02-26 一种聚类采集与识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110217831.4A CN112733966A (zh) 2021-02-26 2021-02-26 一种聚类采集与识别方法、系统及存储介质

Publications (1)

Publication Number Publication Date
CN112733966A true CN112733966A (zh) 2021-04-30

Family

ID=75597055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110217831.4A Pending CN112733966A (zh) 2021-02-26 2021-02-26 一种聚类采集与识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112733966A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676796A (zh) * 2022-05-27 2022-06-28 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676796A (zh) * 2022-05-27 2022-06-28 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统
CN114676796B (zh) * 2022-05-27 2022-09-06 浙江清大科技有限公司 一种基于大数据的聚类采集与识别的系统

Similar Documents

Publication Publication Date Title
US11449673B2 (en) ESG-based company evaluation device and an operation method thereof
Leibe et al. Efficient clustering and matching for object class recognition.
Du et al. Computer-aided plant species identification (CAPSI) based on leaf shape matching technique
US7809718B2 (en) Method and apparatus for incorporating metadata in data clustering
JP4233836B2 (ja) 文書自動分類システム、不要語判定方法、文書自動分類方法、およびプログラム
CN106469181B (zh) 一种用户行为模式分析方法及装置
US20100287160A1 (en) Method and system for clustering datasets
Nguyen et al. SparseHC: a memory-efficient online hierarchical clustering algorithm
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
CN112035620A (zh) 医疗查询系统的问答管理方法、装置、设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
JP5585472B2 (ja) 情報照合装置、情報照合方法および情報照合プログラム
CN109286622B (zh) 一种基于学习规则集的网络入侵检测方法
CN112733966A (zh) 一种聚类采集与识别方法、系统及存储介质
CN113869398A (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN114943285B (zh) 互联网新闻内容数据智能审核系统
CN115858219A (zh) 一种基于令牌转换的多序列日志解析方法和系统
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN112613562B (zh) 基于多中心云计算的数据分析系统及方法
Gonzales et al. Distance Metric Recommendation for k-Means Clustering: A Meta-Learning Approach
CN109947933B (zh) 用于对日志进行分类的方法及装置
CN110609901B (zh) 一种基于向量化特征的用户网络行为预测方法
Bezerra et al. A hierarchical immune network applied to gene expression data
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN113064597B (zh) 一种冗余代码的识别方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20221010

Address after: 310000 room 1904, No. 480, Jiangnan Avenue, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Hangzhou Chonghong Technology Co.,Ltd.

Address before: Room 701, 7th floor, incubator building 1, Wenzhou National University Science and Technology Park, No. 50, Dongfang South Road, Ouhai Economic Development Zone, Wenzhou City, Zhejiang Province, 325000

Applicant before: ZHEJIANG QINGDA TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right