CN106156078A - 数据分析方法与装置 - Google Patents

数据分析方法与装置 Download PDF

Info

Publication number
CN106156078A
CN106156078A CN201510149673.8A CN201510149673A CN106156078A CN 106156078 A CN106156078 A CN 106156078A CN 201510149673 A CN201510149673 A CN 201510149673A CN 106156078 A CN106156078 A CN 106156078A
Authority
CN
China
Prior art keywords
matching characteristic
sequence
characteristic
matching
original series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510149673.8A
Other languages
English (en)
Inventor
林冠洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to CN201510149673.8A priority Critical patent/CN106156078A/zh
Publication of CN106156078A publication Critical patent/CN106156078A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)

Abstract

一种数据分析方法和装置。所述方法包括:根据各原始序列获取第一序列组,所述第一序列组中包括第一长度的各个第一匹配特征以及各所述第一匹配特征在相应待确定序列中的第一位置,所述第一匹配特征对应的支持度大于或等于第一预设支持度,所述待确定序列为在所述第一位置具有所述第一匹配特征的原始序列,所述原始序列是采用预设协议的多个序列,所述原始序列包含多个匹配特征,各匹配特征对应的支持度为所述匹配特征在所述多个原始序列的同一位置出现的次数(S1);根据所述第一序列组获取第二序列组,所述第二序列组中包括第二长度的各个第二匹配特征以及所述第二匹配特征在相应所述待确定序列中的第二位置,所述第二匹配特征是通过组合所述第一匹配特征获取的,且所述第二匹配特征对应的支持度大于或等于第二预设支持度(S2);根据第二序列组从所述待确定序列中获取包含所述第二匹配特征的第三序列,并依次从第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将所述原始序列更新为第四序列,返回重复执行前述步骤。

Description

数据分析方法与装置
技术领域
本发明涉及无线通信领域,特别是一种数据分析方法与装置。
背景技术
随着互联网技术的飞速发展,大数据已经成为不可逆转的时代潮流。随着数据存储设备成本的不断降低,以及数据采集方式和渠道的多样化,越来越多的公司和组织构建了自己的数据库,用于存储海量的用户数据。然而,数据的快速积累带来了信息超载的问题,企业和用户真正感兴趣的信息被湮没在大量纷繁复杂的数据当中,有用的信息难以被有效的挖掘。数据挖掘技术则被认为是当前解决信息超载问题的有效工具之一。通过对海量数据的分析和挖掘,可以从中获取大量有价值的信息,使大数据更好的为用户服务。
目前,序列模式挖掘做为一种对数据分析的方式,已经逐渐被广泛应用。序列模式挖掘目的在于寻找海量数据库中频繁出现的序列模式。现有的技术需求中,需要对大量的网络传输数据报文进行分类,以标记各个传输数据流对应的网络协议。而采用同一协议传输的数据,其在数据的特定位置会出现相同的特征值。当前对于特定位置和特征值的寻找主要依靠人工专家判定的方式,这样会花费大量的人力物力。
发明内容
有鉴于此,本发明提出了一种数据分析方法与装置,用以避免人工对网络传输数据进行分类所花费的大量的人力物力。
本发明一个方面提供一种数据分析方法。该方法包括:根据各原始序列获取第一序列组,所述第一序列组中包括第一长度的各个第一匹配特征以及各所述第一匹配特征在相应待确定序列中的第一位置,所述第一特征匹配特征对应的支持度大于或等于第一预设支持度,所述待确定序列为在所述第一位置具有所述第一特征匹配特征的原始序列(S1),所述原始序列是采用预设协议的多个序列,所述原始序列包含多个匹配特征,各匹配特征对应的支持度为所述匹配特征在所述多个原始序列的同一位置出现的次数;
根据所述第一序列组获取第二序列组,所述第二序列组中包括第二长度的各个第二匹配特征以及所述第二匹配特征在相应所述待确定序列中的第二位置,所述第二匹配特征是通过组合所述第一匹配特征获取的,且所述第二匹配特征对应的支持度大于或等于第二预设支持度(S2);
根据第二序列组从所述待确定序列中获取包含所述第二匹配特征的各第三序列,并依次从各所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将所述原始序列更新为第四序列,返回重复执行前述步骤,直至执行次数达到预设次数(S3);
根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库(S4);和
根据所述投影数据库获取所述预设协议的协议特征(S5)。
如上所述的数据分析方法,可选地,所述根据所述第一序列组获取第二序列组包括:根据所述第一序列组中的各第一匹配特征获取第二匹配特征,各所述第二匹配特征包括多个第一匹配特征的组合;和根据所述第二匹配特征值和所述第二位置确定第二序列组。
如上所述的数据分析方法,可选地,所述依次从各所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,进一步包括:步骤a:获取未遍历的一个第三序列;步骤b:遍历步骤a中获取的第三序列,若获取到所述第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历所述步骤a中获取的第三序列的操作;步骤c:将所述步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
如上所述的数据分析方法,可选地,所述根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库包括:将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;和根据各第一序列组、各第二序列组和各整合匹配特征获取所述投影数据库。
如上所述的数据分析方法,可选地,在所述根据所获取的各所述第一序列组和各所述第二序列组获取获取所述预设协议的协议特征之后,还包括:获取待分析序列;和将所述待分析序列与所述协议特征进行匹配,若两者匹配,则确定所述待分析序列是所述预设协议进行传输的。
如上所述的数据分析方法,可选地,所述第一长度为1,所述第二长度为2。
如上所述的数据分析方法,可选地,直至执行根据各所述原始序列获取长度为1的第一序列组的步骤的次数达到预设次数包括:直至不能获取到第二序列组。
本发明另一个方面提供一种数据分析装置,包括:
第一获取模块,用于根据各原始序列获取第一序列组,所述第一序列组中包括第一长度的各个第一匹配特征以及各所述第一匹配特征在相应待确定序列中的第一位置,所述第一特征匹配特征对应的支持度大于或等于第一预设支持度,所述待确定序列为在所述第一位置具有所述第一特征匹配特征的原始序列,所述原始序列是采用预设协议的多个序列,所述原始序列包含多个匹配特征,各匹配特征对应的支持度为所述匹配特征在所述多个原始序列的同一位置出现的次数;
第二获取模块,用于根据所述第一序列组获取第二序列组,所述第二序列组中包括第二长度的各个第二匹配特征以及所述第二匹配特征在相应所述待确定序列中的第二位置,所述第二匹配特征是通过组合所述第一匹配特征获取的,且所述第二匹配特征对应的支持度大于或等于第二预设支持度;
去除模块,用于根据第二序列组从所述待确定序列中获取包含所述第二匹配特征的各第三序列,并依次从各所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将所述原始序列更新为第四序列,触发所述第一获取模块,直至触发所述第一获取模块达到预设次数;
第三获取模块,用于根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库;
第四获取模块,用于根据所述投影数据库获取所述预设协议的协议特征。
如上所述的数据分析装置,可选地,所述第一获取模块具体用于:
根据所述第一序列组中的各第一匹配特征获取第二匹配特征,各所述第二匹配特征包括多个第一匹配特征的组合;
根据所述第二匹配特征值和所述第二位置确定第二序列组。
如上所述的数据分析装置,可选地,所述去除模块具体用于执行下述步骤:
步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到所述第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历所述步骤a中获取的第三序列的操作;
步骤c:将所述步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
如上所述的数据分析装置,可选地,所述第三获取模块具体用于:
将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取所述投影数据库。
如上所述的数据分析装置,可选地,还包括:
匹配模块,用于获取待分析序列,并将所述待分析序列与所述协议特征进行匹配,若两者匹配,则确定所述待分析序列是所述预设协议进行传输的。
如上所述的数据分析装置,可选地,所述第一长度为1,所述第二长度为2。
如上所述的数据分析装置,可选地,所述去除模块用于直至触发所述第一获取模块达到预设次数时,具体包括:
直至不能获取到第二序列组。
从上述方案中可以看出,由于本发明在获取各匹配特征时记录了位置这一属性,可以排除掉未在同一位置出现次数超过门限值的匹配特征,因此建立投影特征库的运算过程较简单,所耗费的时间较短,进而能够较快的对数据进行分析。
附图说明
下面将通过参照附图详细描述本发明的优选实施例,使本领域的普通技术人员更清楚本发明的上述及其它特征和优点,附图中:
图1为根据本发明一实施例的数据分析方法的流程示意图。
图2为根据本发明另一实施例的数据分析方法的流程示意图。
图3为根据本发明再一实施例的数据分析装置的结构示意图;
图4为根据本发明又一实施例的数据分析装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下举实施例对本发明进一步详细说明。
实施例一
本实施例提供一种数据分析方法,用于对网络中传输的数据进行分析。本实施例的执行主体是数据分析装置。如图1所示,为根据本实施例的数据分析方法的流程示意图。
步骤101,根据各原始序列获取的第一序列组,第一序列组中包括各第一长度的各个第一匹配特征以及各第一匹配特征在相应待确定序列中的第一位置,第一特征匹配特征对应的支持度大于或等于第一预设支持度,待确定序列为在第一位置具有第一特征匹配特征的原始序列,原始序列是采用预设协议的多个序列,原始序列包含多个匹配特征,各匹配特征对应的支持度为匹配特征在多个原始序列的同一位置出现的次数。
获取采用预设协议的多个初始的原始序列,原始序列包含多个匹配特征,各匹配特征对应的支持度为匹配特征在不同原始序列的同一位置出现的次数。
本实施例中,数据分析装置先获取网络中采用已知的某一种协议进行传输的数据,由于数据都是以多个长度为1字节的二进制数据进行传输,这些长度为1字节的二进制数据即为匹配特征,每匹配特征在原始序列中的位置,可以采用编号来表示。例如,原始序列依次包括的长度为1的各匹配特征分别是00、01、06、75,则00的位置为1,01的位置为2,06的位置为3,75的位置为4,长度为2的各匹配特征为0001、0106和0675,其中,0001的位置为1,0106的位置为2,0675的位置为3。长度为2或者更长的各匹配特征的位置,是按照第一个字节的位置进行定位的。一个报文所对应的数据可以为一个原始序列。本实施例中将根据报文携带的数据获取的数列作为原始序列,即需要进行分析的序列。
支持度即在不同原始序列中同一位置出现的次数。对于支持度的计算,举例来说,例如,某一匹配特征在不同序列中的位置5出现了30次,则该匹配特征对应的支持度为30,或者某一匹配特征在不同序列中的位置1出现了5次,则该匹配特征对应的支持度为5。
第一序列组中的各匹配特征的长度为第一长度。该第一长度可以根据实际需要进行设定,例如1。
该步骤可以包括:
根据第一序列组中的各第一匹配特征获取第二匹配特征,各第二匹配特征包括多个第一匹配特征的组合;
根据第二匹配特征值和第二位置确定第二序列组。
步骤102,根据第一序列组获取的第二序列组,第二序列组中包括各第二长度的各个第二匹配特征以及第二匹配特征在相应待确定序列中的第二位置,第二匹配特征是通过组合第一匹配特征获取的且第二匹配特征对应的支持度大于或等于第二预设支持度。
本实施例的第二匹配特征可以包括任意几个第一匹配特征的组合,需指出的是,多个第一长度的第一匹配特征组合后的长度为第二长度,例如,两个长度为1的第一匹配特征组合成长度为2的第二匹配特征。多个第一匹配特征的组合顺序并不限定。第二匹配特征对应的支持度大于或等于第二预设支持度表示的是,即该第二匹配特征在不同待确定序列中同一位置出现的次数大于或等于第二预设支持度。
步骤103,根据第二序列组从待确定序列中获取包含第二匹配特征的各第三序列,并依次从各第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将原始序列更新为第四序列,返回重复执行前述步骤,直至重复次数达到预设次数。
若获取到第二匹配特征,则可以遍历待确定序列,并根据第二序列组从待确定序列中获取包含第二匹配特征的待确定序列作为第三序列,即,第三序列中的第二匹配特征的位置是记录在第二序列组中的位置。将第三序列的第二匹配特征以及第二匹配特征之前的各匹配特征去掉之后,获取相应的第四序列。将第四序列作为新的原始序列,并重复步骤101至步骤103,直至不能再获取到相应的第二序列组。
具体地:步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历步骤a中获取的第三序列的操作;
步骤c:将步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
可选地,对于上述步骤a至步骤c,直至所有的第三序列均被遍历完成,当然,也可以根据实际需要遍历预设个数的第三序列,以减少遍历时间,进而减少分析数据的时间。
本实施例的直至执行根据各原始序列获取长度为1的第一序列组的步骤的次数达到预设次数包括:
直至不能获取到第二序列组。
需指出的是,这里不能获取到第二序列组至少包含以下情况:
第一种情况:无法获取到第一序列组。即最新的原始序列中不包括所对应的支持度大于或等于第一预设支持度的第一匹配特征,由于不能获取到第一序列组,相应地也不能获取到第二序列组。
第二种情况:无法获取到第二序列组。即第二序列组中没有对应的支持度大于或等于第二预设支持度的第二匹配特征。
步骤104,根据所获取的各第一序列组和各第二序列组获取投影数据库。
在重复执行步骤101-步骤103的过程中,能够获取多个第一序列组和第二序列组,根据各第一序列组和第二序列组获取预设协议的协议特征。
该步骤的具体实现方式有很多种,例如,投影数据库中包括全部的第一序列组和第二序列组;或者
将第一序列组和第二序列组中的各匹配特征进行整合,进而投影数据库中的各匹配特征还包括根据第一序列组和第二序列组进行整合的匹配特征,具体地:该步骤可以包括:
将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第一匹配特征、第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取投影数据库。
每次生成的整合匹配特征可能有多个,获取其中长度最长的整合匹配特征用于再次生成整合匹配特征时。
将各第一匹配特征和第二匹配特征进行组合生成各整合匹配特征,并根据各第一序列组、各第二序列组和各整合匹配特征获取投影数据库。整合匹配特征可包括多个第一匹配特征、第二匹配特征的组合。需指出的是,该整合匹配特征可以包括按照顺序依次组合的最新生成的长度最长的整合匹配特征和最新获取到的第一匹配特征、以及最新生成的长度最长的整合匹配特征和最新获取到的第二匹配特征,例如,初次获取的第一匹配特征包括06、08和10,第二匹配特征包括0610,第二次获取的第一匹配特征为01,第二次获取的第二匹配特征为23ef,则整合匹配包括061001和0610323ef。
需指出的是,整合匹配特征的位置时按照第一个字节的位置确定的。
步骤105,根据投影数据库获取预设协议的协议特征。
投影数据库中包括多个匹配特征,从中选择出一个或多个匹配特征作为预设协议的协议特征。例如,可以通过人工选择出其中一个作为协议特征,或者从中选择出符合预定长度的匹配特征作为协议特征,具体可以根据实际需要设定,在此不再赘述。
可选地,在步骤105之后,本实施例中还包括:
将待分析序列与协议特征进行匹配,若两者匹配,则确定待分析序列是预设协议进行传输的。
本实施例中的第一长度为可以1,相应地第二长度可以为2,采用这样的组合可以获取长度较完整的投影数据库。
根据本实施例的数据分析方法,由于在获取各匹配特征时记录了位置这一属性,可以排除掉未在同一位置出现次数超过门限值的匹配特征,因此建立投影特征库的运算过程较简单,所耗费的时间较短,进而能够较快的对数据进行分析。
实施例二
本实施例对实施例一的数据分析方法做进一步补充说明。如图2所示,为根据本实施例的数据分析方法的流程示意图。本实施例以第一长度为1,第二长度为2为例进行说明。
步骤201,获取采用预设协议的多个初始的原始序列。
本实施例中,可以采用I={i1,i2,i3,…,in}来表示包括各原始序列的原始序列组,其中,in表示各原始序列,n为正整数。本实施例的各原始序列是均采用同一个已知协议进行传输的。
举例来说,根据数据所获取到的多个原始序列为:
原始序列1:{00 E7 89 7E 00 a1 E7 a1}
原始序列2:{a1 7E E7 00 E7 we 81 82}
原始序列3:{00 E7 E7 81 82 a1 08 00}
原始序列4:{00 E7 22 81 82 a1 63 22}
需指出的是,各原始序列的长度可以相等,也可以不相等,长度可以是任何长度,本实施例仅示出长度为8的且长度相等的四个原始序列,即各原始序列中包括8个长度为1的匹配特征。
步骤202,遍历原始序列,并获取在不同的原始序列中出现次数大于或等于最小预设阈值的待确定第一匹配特征,待确定第一匹配特征的长度为1。
首先,从原始序列中挑选出在不同原始序列中出现次数大于或等于最小预设阈值的待确定第一匹配特征。需指出的是,同一匹配特征在同一原始序列中出现多次,也仅记为在该原始序列中出现一次。
步骤203,从待确定第一匹配特征中选取在不同序列中同一位置出现的次数大于或等于第一预设支持度的第一匹配特征,第一序列组中包括第一长度的各个第一匹配特征,该同一位置即第一匹配特征对应的第一位置。
举例来说,对于原始序列1中的匹配特征00,即使该匹配特征00在原始序列1中出现两次,针对原始序列1记录该匹配特征00对应的出现次数也仅为1,同时记录该匹配特征00在原始序列1中的位置1和7;遍历原始序列2,也有匹配特征00,则匹配特征00对应的次数加1,变为2,同时记录该匹配特征00在原始序列2中的位置4,遍历原始序列3,即使匹配特征00出现两次,也仅记录1次,即该匹配特征00对应的次数加1,变为3,同时记录该匹配特征00在原始序列1中的位置1和8;遍历原始序列4,也有匹配特征00,则匹配特征00对应的次数加1,变为4,同时记录该匹配特征00在原始序列4中的位置1。
其它各匹配特征依次类推,获取各匹配特征在不同原始序列中出现的次数。
对于上述原始序列,假设最小预设阈值为2,获取在不同序列中出现的次数大于或等于该预设阈值的匹配特征作为待确定第一匹配特征,本实施例中,从上述四个原始序列中确定出的待确定第一匹配特征包括:00、a1、E7、7E、81和82。
第一序列组可以采用以下公式表示:
Q1={<E1,T1>,<E2,T2>,…,<Ep,Tp>},其中Q1代表第一序列组,Ep代表第一匹配特征,Tp代表第一匹配特征在序列中出现的位置。其中p≤n且p为正整数。
假设,第一预设支持度为3,则上述原始序列中的第一匹配特征为00、E7和a1。
包含对应的支持度大于或等于第一预设支持度的各第一匹配特征的待确定序列为原始序列1、原始序列3和原始序列4。第一序列组Q1={<00,1>,<E7,2>,<a1,6>}。
实施例一中的步骤102可以包括本实施例的步骤201和202。
步骤204,根据第一序列组中各第一匹配特征获取待确定第二匹配特征。
其中,第二匹配特征的长度为2,由两个第一匹配特征进行组合而成。各待确定第二匹配特征包括多个第一匹配特征的组合。根据原始序列1、原始序列2、原始序列3和原始序列4,第一匹配特征为00、E7和a1,则待确定第二匹配特征包括0000、00E7、00a1、E700、E7E7、E7a1、a100、a1E7以及a1a1。
遍历待确定序列,即原始序列1、原始序列3和原始序列4,获取对应的支持度大于或等于第二预设支持度的第二匹配特征。
步骤205,根据第二匹配特征值和第二位置确定第二序列组。
第二序列组Q2={P1,P2,…,Pr},其中Pr代表第二匹配特征,即Pr={<Tt,<EiEj>>},其中1≤t≤r,Ei∈O1,Ej∈O1。
假设,本实施例中的第二预设支持度为2,则可以获取到最终的第二匹配特征为00E7,第二序列组Q2为{<00E7,1>}。
步骤206,根据第二序列组从待确定序列中获取包含第二匹配特征的各第三序列。
根据第二序列组Q2为{<00E7,1>},第三序列为原始序列1、原始序列3和原始序列4。
步骤207,依次从各第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,根据去除第二匹配特征后的各第三序列获取第四序列,将原始序列更新为第四序列,返回执行步骤202,直至未获取到第二序列组。
该步骤包括以下步骤:
步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历步骤a中获取的第三序列的操作;
步骤c:将步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
假设,获取的第三序列为原始序列1,首先获取到位置为1的第二匹配特征00E7,去除位置为1的第二匹配特征00E7,接下来,获取到位置为4的第二匹配特征00E7,去除该位置为4的第二匹配特征00E7,原始序列1遍历完毕。根据原始序列1未获取到第四序列。
接下来,获取的第三序列为原始序列3,首先获取到位置为1的第二匹配特征00E7,去除位置为1的第二匹配特征00E7,接下来,未遍历到第二匹配特征,则根据原始序列3获取到的第四序列1为:{E7 81 82 a1 08 00}。
接下来,获取的第三序列为原始序列4,首先获取到位置为1的第二匹配特征00E7,去除位置为1的第二匹配特征00E7,接下来,未遍历到第二匹配特征,则根据原始序列4获取到的第四序列2为:{22 81 82 a1 63 22}。
需注意的是,各第四序列中的各匹配特征的位置发生改变,第四序列1为:{E7,81,82,a1,08,00}中的匹配特征E7,在初始的原始序列中的位置为3,在第四序列中的位置为1。
接着,由于第四序列仅为2个,一定获取不到对应的支持度大于或等于第一预设支持度的第一匹配特征,接着,继续执行步骤208。
步骤208,根据获取的各第一序列组和各第二序列组获取投影数据库。
该步骤包括:将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取投影数据库。
步骤209,根据投影数据库中确定出预设协议的协议特征。
如何确定该协议特征可以根据实际需要设定,例如采用人工根据经验选择的方式,在此不再赘述。
步骤210,获取待分析序列,并将待分析序列与协议特征进行匹配,若两者匹配,则确定待分析序列是预设协议进行传输的。
获取某一待分析序列,根据预先获取的协议特征进行匹配,若在该待分析序列中在与协议特征相应的位置匹配到该协议特征时,则说明该待分析序列就是采用该预设协议进行分析的。各协议特征以及对应的位置均可以记录在协议特征库中。例如,协议特征库中有<00E7,1>,其中,协议特征为00E7,1表示该匹配特征00E7在序列中的位置。本实施例获取到的特征数据库中包括该<00E7,1>,则表示该特征数据库采用的是第一协议。
根据检测,本实施例的数据分析方法最终的分析数据如表1所示:
表1
该表1中的偏移表示匹配特征的位置,长度即为协议的序列的长度。从表1中可以看出,本实施例的数据分析方法错判率为不超过4%,误判率不超过3%,可靠率非常高。这表明本实施例的数据分析方法的结果非常准确。本实施例的误判率为将某一协议错误的判断成另外一协议的概率,漏判率为遗漏了某组数据没有判断出来。
根据本实施例,获取投影特征库的过程计算比较简单,耗费时间短,因此能够很快的对数据进行分析,进而能够较快地得到结论。
实施例三
本实施例提供一种数据分析装置,用于执行上述实施例中的数据分析方法。本实施例的数据分析装置可以是任一终端,例如手机、电脑、服务器等。
如图3所示,为根据本实施例的数据分析装置的结构示意图。本实施例的数据分析装置包括:第一获取模块301、第二获取模块302、去除模块303、第三获取模块304和分析模块305。
其中,第一获取模块301用于根据各原始序列获取第一序列组,第一序列组中包括第一长度的各个第一匹配特征以及各第一匹配特征在相应待确定序列中的第一位置,第一特征匹配特征对应的支持度大于或等于第一预设支持度,待确定序列为在第一位置具有第一特征匹配特征的原始序列,原始序列是采用预设协议的多个序列,原始序列包含多个匹配特征,各匹配特征对应的支持度为匹配特征在多个原始序列的同一位置出现的次数;第二获取模块302用于根据第一序列组获取第二序列组,第二序列组中包括第二长度的各个第二匹配特征以及第二匹配特征在相应待确定序列中的第二位置,第二匹配特征是通过组合第一匹配特征获取的,且第二匹配特征对应的支持度大于或等于第二预设支持度;去除模块303用于根据第二序列组从待确定序列中获取包含第二匹配特征的各第三序列,并依次从各第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将原始序列更新为第四序列,触发第一获取模块301,直至触发第一获取模块301达到预设次数;第三获取模块304用于根据所获取的各第一序列组和各第二序列组获取投影数据库;第四获取模块305用于根据投影数据库获取预设协议的协议特征。
本实施例的数据分析装置的操作方法与实施例一一致,在此不再赘述。
根据本实施例的数据分析装置,由于在获取各匹配特征时记录了位置这一属性,可以排除掉未在同一位置出现多次的匹配特征,因此建立投影特征库的运算过程较简单,所耗费的时间较短,进而能够较快的对数据进行分析。
实施例四
本实施例对上述实施例的数据分析装置做进一步补充说明。
如图4所示,本实施例的数据分析装置的第一获取模块301具体用于:
根据第一序列组中的各第一匹配特征获取第二匹配特征,各第二匹配特征包括多个第一匹配特征的组合;
根据第二匹配特征值和第二位置确定第二序列组。
可选地,本实施例的去除模块303具体用于执行下述步骤:
步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历步骤a中获取的第三序列的操作;
步骤c:将步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
可选地,本实施例的第三获取模块304具体用于:
将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取投影数据库。
可选地,如图4所示,本实施例的数据分析装置还包括匹配模块401。该匹配模块401用于获取待分析序列,并将待分析序列与协议特征进行匹配,若两者匹配,则确定待分析序列是预设协议进行传输的。
可选地,本实施例的第一长度为1,第二长度为2。
可选地,本实施例的去除模块303用于直至触发第一获取模块301达到预设次数时,具体包括:
直至不能获取到第二序列组。
本实施例的数据分析装置的具体操作方式与上述实施例一致,在此不再赘述。
根据本实施例,获取投影特征库的过程计算比较简单,耗费时间短,因此能够很快的对数据进行分析,进而能够较快地得到结论。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据分析方法,其特征在于,包括:
根据各原始序列获取第一序列组,所述第一序列组中包括第一长度的各个第一匹配特征以及各所述第一匹配特征在相应待确定序列中的第一位置,所述第一匹配特征对应的支持度大于或等于第一预设支持度,所述待确定序列为在所述第一位置具有所述第一匹配特征的原始序列,所述原始序列是采用预设协议的多个序列,所述原始序列包含多个匹配特征,各匹配特征对应的支持度为所述匹配特征在所述多个原始序列的同一位置出现的次数(S1);
根据所述第一序列组获取第二序列组,所述第二序列组中包括第二长度的各个第二匹配特征以及所述第二匹配特征在相应所述待确定序列中的第二位置,所述第二匹配特征是通过组合所述第一匹配特征获取的,且所述第二匹配特征对应的支持度大于或等于第二预设支持度(S2);
根据第二序列组从所述待确定序列中获取包含所述第二匹配特征的第三序列,并依次从所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将所述原始序列更新为第四序列,返回重复执行前述步骤,直至执行次数达到预设次数(S3);
根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库(S4);和
根据所述投影数据库获取所述预设协议的协议特征(S5)。
2.根据权利要求1所述的数据分析方法,其特征在于,所述根据所述第一序列组获取第二序列组包括:
根据所述第一序列组中的各第一匹配特征获取第二匹配特征,各所述第二匹配特征包括多个第一匹配特征的组合;
根据所述第二匹配特征值和所述第二位置确定第二序列组。
3.根据权利要求1所述的数据分析方法,其特征在于,所述依次从各所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,进一步包括:
步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到所述第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历所述步骤a中获取的第三序列的操作;
步骤c:将所述步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
4.根据权利要求1所述的数据分析方法,其特征在于,所述根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库包括:
将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取所述投影数据库。
5.根据权利要求1所述的数据分析方法,其特征在于,在所述根据所获取的各所述第一序列组和各所述第二序列组获取获取所述预设协议的协议特征之后,还包括:
获取待分析序列;
将所述待分析序列与所述协议特征进行匹配,若两者匹配,则确定所述待分析序列是所述预设协议进行传输的。
6.根据权利要求1所述的数据分析方法,其特征在于,所述第一长度为1,所述第二长度为2。
7.根据权利要求1-6中任一项所述的数据分析方法,其特征在于,直至执行根据各所述原始序列获取长度为1的第一序列组的步骤的次数达到预设次数包括:
直至不能获取到第二序列组。
8.一种数据分析装置,其特征在于,包括:
第一获取模块,用于根据各原始序列获取第一序列组,所述第一序列组中包括第一长度的各个第一匹配特征以及各所述第一匹配特征在相应待确定序列中的第一位置,所述第一特征匹配特征对应的支持度大于或等于第一预设支持度,所述待确定序列为在所述第一位置具有所述第一特征匹配特征的原始序列,所述原始序列是采用预设协议的多个序列,所述原始序列包含多个匹配特征,各匹配特征对应的支持度为所述匹配特征在所述多个原始序列的同一位置出现的次数;
第二获取模块,用于根据所述第一序列组获取第二序列组,所述第二序列组中包括第二长度的各个第二匹配特征以及所述第二匹配特征在相应所述待确定序列中的第二位置,所述第二匹配特征是通过组合所述第一匹配特征获取的,且所述第二匹配特征对应的支持度大于或等于第二预设支持度;
去除模块,用于根据第二序列组从所述待确定序列中获取包含所述第二匹配特征的各第三序列,并依次从各所述第三序列中去除相应的第二匹配特征以及第二匹配特征之前的各匹配特征,形成第四序列,将所述原始序列更新为第四序列,触发所述第一获取模块,直至触发所述第一获取模块达到预设次数;
第三获取模块,用于根据所获取的各所述第一序列组和各所述第二序列组获取投影数据库;和
第四获取模块,用于根据所述投影数据库获取所述预设协议的协议特征。
9.根据权利要求8所述的数据分析装置,其特征在于,所述第一获取模块具体用于:
根据所述第一序列组中的各第一匹配特征获取第二匹配特征,各所述第二匹配特征包括多个第一匹配特征的组合;
根据所述第二匹配特征值和所述第二位置确定第二序列组。
10.根据权利要求8所述的数据分析装置,其特征在于,所述去除模块具体用于执行下述步骤:
步骤a:获取未遍历的一个第三序列;
步骤b:遍历步骤a中获取的第三序列,若获取到所述第二匹配特征,则去除所获取的第二匹配特征以及所获取的第二匹配特征之前的各匹配特征,并继续遍历操作,直至完成遍历所述步骤a中获取的第三序列的操作;
步骤c:将所述步骤b中的第三序列中未去除的各匹配特征组成的序列作为第四序列,返回执行步骤a。
11.根据权利要求8所述的数据分析装置,其特征在于,所述第三获取模块具体用于:
将获取到的第一匹配特征和第二匹配特征与最新生成的长度最长的整合匹配特征组合生成新的整合匹配特征,初始的整合匹配特征是初次获取的各第二匹配特征分别与第二次获取的第一匹配特征和第二匹配特征组合生成的;
根据各第一序列组、各第二序列组和各整合匹配特征获取所述投影数据库。
12.根据权利要求8所述的数据分析装置,其特征在于,还包括:
匹配模块,用于获取待分析序列,并将所述待分析序列与所述协议特征进行匹配,若两者匹配,则确定所述待分析序列是所述预设协议进行传输的。
13.根据权利要求8所述的数据分析装置,其特征在于,所述第一长度为1,所述第二长度为2。
14.根据权利要求8-13中任一项所述的数据分析装置,其特征在于,所述去除模块用于直至触发所述第一获取模块达到预设次数时,具体包括:
直至不能获取到第二序列组。
CN201510149673.8A 2015-03-31 2015-03-31 数据分析方法与装置 Pending CN106156078A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510149673.8A CN106156078A (zh) 2015-03-31 2015-03-31 数据分析方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510149673.8A CN106156078A (zh) 2015-03-31 2015-03-31 数据分析方法与装置

Publications (1)

Publication Number Publication Date
CN106156078A true CN106156078A (zh) 2016-11-23

Family

ID=57338825

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510149673.8A Pending CN106156078A (zh) 2015-03-31 2015-03-31 数据分析方法与装置

Country Status (1)

Country Link
CN (1) CN106156078A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109464199A (zh) * 2017-09-07 2019-03-15 西门子医疗有限公司 确定用于调整检查协议的分类数据的方法和数据处理单元
CN110896388A (zh) * 2018-09-12 2020-03-20 西门子(中国)有限公司 网络流量分析方法、装置、计算机可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252578A (zh) * 2008-04-02 2008-08-27 电子科技大学 基于固有子序列模式分解的主机入侵检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252578A (zh) * 2008-04-02 2008-08-27 电子科技大学 基于固有子序列模式分解的主机入侵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIN GUANZHOU: "An improved prefixsan-based signatures mining algorithm with offset constraint", 《PROCEEDINGS OF THE 2ND INTERNATIONAL WORKSHOP ON INTELLIGENT SYSTEMS AND APPLICATIONS》 *
林冠洲: "网络流量识别关键技术研究", 《中国博士学位论文全文数据库》 *
栗彪 等: "基于PrefixSpan的网络流量识别特征自动提取算法", 《信息工程大学学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109464199A (zh) * 2017-09-07 2019-03-15 西门子医疗有限公司 确定用于调整检查协议的分类数据的方法和数据处理单元
CN110896388A (zh) * 2018-09-12 2020-03-20 西门子(中国)有限公司 网络流量分析方法、装置、计算机可读介质

Similar Documents

Publication Publication Date Title
CN104142984B (zh) 一种基于粗细粒度的视频指纹检索方法
Ko et al. Incremental lossless graph summarization
CN109033186A (zh) 数据一致性检测方法、装置、存储介质及电子设备
US10592327B2 (en) Apparatus, system, and method for analyzing logs
CN106250424A (zh) 一种日志上下文内容的搜索方法、装置及系统
Bernstein et al. Incremental topological sort and cycle detection in expected total time
CN109274593B (zh) 一种信息存储方法及装置
CN103678531A (zh) 好友推荐方法和装置
CN114637989A (zh) 基于分布式系统的apt攻击追溯方法、系统及存储介质
CN110475124A (zh) 视频卡顿检测方法及装置
CN114328566A (zh) 关系图谱的更新方法、装置、介质、设备及生成方法
CN110096646A (zh) 品类关联信息的生成及其视频推送方法和相关设备
CN114841789A (zh) 基于区块链的审计审价故障数据在线编辑方法及系统
KR20200019741A (ko) 데이터 분석 지원 시스템 및 데이터 분석 지원 방법
CN106156078A (zh) 数据分析方法与装置
CN106126634A (zh) 一种基于直播行业的主数据去重处理方法及系统
CN110472019A (zh) 舆情搜索方法及装置
CN102137414B (zh) 一种移动视频业务时延的评估方法和装置
CN106790130B (zh) 一种报文匹配方法及装置
CN111628888B (zh) 一种故障诊断方法、装置、设备及计算机存储介质
CN113204716A (zh) 可疑洗钱用户交易关系确定方法及装置
CN110288666A (zh) 一种数据压缩方法及装置
CN104166653B (zh) 网站的三元组挖掘方法以及三元组挖掘装置
CN116228447A (zh) 一种互联网信息传播用户角色识别方法及计算机可读介质
Pan et al. CGStream: continuous correlated graph query for data streams

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123

RJ01 Rejection of invention patent application after publication