CN103049516A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN103049516A
CN103049516A CN2012105465970A CN201210546597A CN103049516A CN 103049516 A CN103049516 A CN 103049516A CN 2012105465970 A CN2012105465970 A CN 2012105465970A CN 201210546597 A CN201210546597 A CN 201210546597A CN 103049516 A CN103049516 A CN 103049516A
Authority
CN
China
Prior art keywords
attribute
leaf node
decision tree
rule
specified dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105465970A
Other languages
English (en)
Other versions
CN103049516B (zh
Inventor
徐洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHAOSHANG BANK CO Ltd
NSFOCUS Information Technology Co Ltd
China Merchants Bank Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Original Assignee
ZHAOSHANG BANK CO Ltd
NSFOCUS Information Technology Co Ltd
Beijing NSFocus Information Security Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHAOSHANG BANK CO Ltd, NSFOCUS Information Technology Co Ltd, Beijing NSFocus Information Security Technology Co Ltd filed Critical ZHAOSHANG BANK CO Ltd
Priority to CN201210546597.0A priority Critical patent/CN103049516B/zh
Publication of CN103049516A publication Critical patent/CN103049516A/zh
Application granted granted Critical
Publication of CN103049516B publication Critical patent/CN103049516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种数据处理方法及装置,预先将数据的一个属性需要进行匹配的规则,利用指纹函数映射到第一指纹数字区间,从而可以利用每个规则对应的第一数字映射区间,将该属性需要进行匹配的规则通过平衡二叉树方法聚合为一棵判断树,使得可以利用该判断树每个叶子节点对应的第二指纹数字区间,判断接收到的数据的该属性的指纹信息属于哪个叶子节点,从而确定该数据的该属性匹配的规则子集。针对该数据的每个指定属性均做上述处理,即可确定该数据对应的规则集,实现将数据属性与该数据属性对应的每条规则进行规则匹配,保证了对数据属性的全面准确的判断,且通过判断树来匹配规则子集,还可以有效提高数据属性规则匹配的效率。

Description

一种数据处理方法及装置
技术领域
本发明涉及通信领域,尤其涉及一种数据处理方法及装置。
背景技术
在通信领域,为了保证数据的安全性,在进行数据处理时,需要将数据各维度的属性与预先定义的规则进行比对,即进行规则匹配,并根据数据属性满足的规则,确定对数据执行的操作。在对应用层数据进行规则匹配时,至少需要满足以下两方面要求:
1、针对每个数据属性,需要将数据属性与该数据属性对应的每条规则进行规则匹配,以实现对数据属性的全面准确的判断;
2、由于预先定义的规则数量较多,一般在“千”级别,因此需要实现数据属性高效的规则匹配。
目前常用的规则匹配算法包括IDS常用规则匹配算法和FW规则匹配算法。IDS常用规则匹配算法和FW规则匹配算法主要针对网络层数据,只针对ip,协议,端口等网络数据维度,同时FW规则匹配算法采取匹配即跳出的模式,不能对当前规则进行全匹配。
因此,目前的FW规则匹配算法无法保证将数据属性与该数据属性对应的每条规则进行规则匹配,同时,IDS常用规则匹配算法和FW规则匹配算法主要针对网络层数据,且规则匹配的效率均较低,无法保证数据属性高效的规则匹配,不适用于对应用层数据的规则匹配。
发明内容
本发明实施例提供一种数据处理方法及装置,用于提高数据属性规则匹配的效率,并将数据属性与该数据属性对应的每条规则进行规则匹配,保证对数据属性的全面准确的判断。
一种数据处理方法,所述方法包括:
提取接收到的数据的每个指定维度的属性;
针对每个指定维度的属性,按照预先定义的指纹函数,确定该属性的指纹信息;
确定每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,该叶子节点对应的第二指纹数字区间包括该属性的指纹信息;
针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间;
将每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集;
其中,每个指定维度的属性对应的判断树,通过以下方式确定:
确定该指定维度的属性需要进行匹配的规则;
根据所述预先定义的指纹函数,将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间;
根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间。
一种数据处理装置,所述装置包括:
提取单元,用于提取接收到的数据的每个指定维度的属性;
映射单元,用于针对提取单元提取出的每个指定维度的属性,按照预先定义的指纹函数,确定该属性的指纹信息;
存储单元,用于存储每个指定维度的属性对应的预先确定出的判断树,其中,每个指定维度的属性对应的判断树,通过以下方式确定:确定该指定维度的属性需要进行匹配的规则;根据所述预先定义的指纹函数,将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间;根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间;
匹配单元,用于确定存储单元存储的每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,该叶子节点对应的第二指纹数字区间包括该属性的指纹信息;针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间;
确定单元,用于将匹配单元确定出的每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集。
根据本发明实施例提供的方案,可以预先将数据的一个属性需要进行匹配的规则,利用指纹函数映射到第一指纹数字区间,从而可以利用每个规则对应的第一数字映射区间,将该属性需要进行匹配的规则通过平衡二叉树方法聚合为一棵判断树,使得可以利用该判断树每个叶子节点对应的第二指纹数字区间,判断接收到的数据的该属性的指纹信息属于哪个叶子节点,从而确定该数据的该属性匹配的规则子集。针对该数据的每个指定属性均做上述处理,即可确定该数据对应的规则集,实现将数据属性与该数据属性对应的每条规则进行规则匹配,保证了对数据属性的全面准确的判断,且通过判断树来匹配规则子集,还可以有效提高数据属性规则匹配的效率。
附图说明
图1为本发明实施例一提供的数据处理方法的步骤流程图;
图2为本发明实施例一提供的判断树示意图;
图3为本发明实施例四提供的数据处理装置的结构示意图。
具体实施方式
针对现有技术中无法保证将数据属性与该数据属性对应的每条规则进行规则匹配,且规则匹配的效率均较低的问题,本发明实施例提出,可以将一个属性需要进行匹配的规则映射到第一指纹数字区间,根据规则映射到的第一指纹数字区间,将该属性需要进行匹配的规则聚合为判断树。在对接收到的数据的该属性进行规则匹配时,即可以将该属性映射到的指纹信息与判断树的叶子节点对应的第二指纹数字区间进行匹配,并可以利用匹配出的第二指纹数字区间确定该属性匹配的规则子集,从而实现将数据属性与该数据属性对应的每条规则进行规则匹配,并提高规则匹配的效率。
为了进一步提高规则匹配效率,本发明实施例提出还可以调整判断树中每个叶子节点的位置,从而进一步加速利用判断树确定属性匹配的叶子节点的速度。同时,还可以设置判断树的优先级,按优先级顺序依次确定接收到的数据每个数据属性匹配的规则子集,在部分数据属性匹配的规则子集没有交集时,即可以确定该数据没有匹配的规则,无需确定该数据的其他数据属性对应的规则子集,进一步提高数据属性规则匹配的效率。
下面通过说明书附图和各实施例对本发明方案进行说明。需要说明的是,本发明各实施例中涉及的“数据”可以但不限于理解为“应用层数据”,即利用本发明实施例提供的方法和装置可以实现对应用层数据的处理。
实施例一、
本发明实施例一提供一种数据处理方法,该方法的步骤流程可以如图1所示,包括:
步骤101、提取属性。
在需要判断一个数据对应的规则集,从而确定对该数据执行的操作时,可以对该数据的每个指定维度的属性匹配规则子集,并可以将每个指定维度的属性对应的规则子集的交集,确定为该数据对应的规则集。
因此,在本步骤中,可以提取接收到的数据(该数据即为需要进行规则匹配的数据)的每个指定维度的属性。
步骤102、确定属性的指纹信息。
在本步骤中,针对每个提取出的指定维度的属性,可以利用预先定义的指纹函数,确定该属性的指纹信息。较优的,该指纹信息可以为整数。预先定义的指纹函数的类型可以但不限于为“enumerate”“time”“Ipv4”和“Ipv6”类型。
步骤103、匹配叶子节点。
在本步骤中,可以根据每个提取出的指定维度的属性对应的预先确定出的判断树,来确定该判断树中与该属性的指纹信息匹配的叶子节点。
具体的,每个提取出的指定维度的属性对应的预先确定出的判断树,可以通过以下方式确定:
确定该指定维度的属性需要进行匹配的规则;
根据所述预先定义的指纹函数(该指纹函数即为用于确定接收到的数据的属性的指纹信息的指纹函数),将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间,较优的,第一指纹数字区间为整数区间,即该区间中的每个数值均为整数;
根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间。
在图2中,假设确定一个指定维度的属性需要进行匹配的规则为三条,分别为Rule1,Rule2和Rule3。根据预先定义的指纹函数,Rule1映射到的第一指纹数字区间为【10;15~20】,Rule2映射到的第一指纹数字区间为【15~20;25】,Rule3映射到的第一指纹数字区间为【10;17~30】。根据平衡二叉树方法,提取每个第一指纹数字区间的边界值10、15、17、20、25和30,利用提取出的边界值将三个第一指纹数字区间划分为六个第二指纹数字区间,第二指纹数字区间分别为【10】、【15~16】、【17~20】、【21~24】、【25】和【26~30】,两两第二指纹数字区间无重叠数值。将每个第二指纹数字区间作为判断树的一个叶子节点,聚合出该指定维度的属性对应的判断树可以如图2中右侧树图所示。
在匹配叶子节点时,针对如图2所示的判断树对应的数据属性,可以从第一级叶子节点开始,逐级判断接收到的数据的该属性的指纹信息属于该判断树哪个叶子节点对应的第二指纹数字区间,将对应的第二指纹数字区间包括该属性的指纹信息的叶子节点确定为与该属性的指纹信息匹配的叶子节点。
一旦确定出与该属性的指纹信息匹配的叶子节点,无需继续进行匹配,即可以通过该叶子节点确定与该属性匹配的全部规则,因此,利用判断树来确定数据属性匹配的规则,可以有效提高规则匹配的效率。且可以确定出该属性匹配的全部规则,提高了数据属性判断的准确性和全面性。
步骤104、匹配规则子集。
在本步骤中,可以针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间。
例如,利用如图2所示的判断树匹配叶子节点时,如果与属性的指纹信息匹配的叶子节点为【21~24】,则可以确定与该属性匹配的规则子集包括Rule3;如果与属性的指纹信息匹配的叶子节点为【10】,则可以确定与该属性匹配的规则子集包括Rule1和Rule3。
步骤105、确定数据匹配的规则集。
在本步骤中,可以将接收到的数据每个指定维度的属性匹配的规则子集的交集,确定为该数据匹配的规则集。
在确定出该数据匹配的规则集之后,即可以根据该数据匹配的规则集,确定需要对该数据执行的操作。
根据本发明实施例一提供的方案,不仅可以提高数据属性规则匹配的效率,保证对数据属性的全面准确的判断,由于为每个数据属性预先确定一棵判断树,利用该判断树确定该属性匹配的规则子集,还有利用数据属性的扩展,如增加数据的属性或者更新数据的属性。在需要对扩展的数据属性确定规则子集时,只需要重新确定该属性对应的判断树,即可以确定该属性匹配的规则子集,从而确定数据匹配的规则集。进一步解决了现有的IDS常用规则匹配算法和FW规则匹配算法,往往是以插件的形式存在,不能方便简单地进行修改规则配置来扩展,也不能适用到应用层复杂的数据维度和复杂的业务规则需求的问题。
进一步的,由于在利用判断树确定属性匹配的叶子节点时,是利用逐级判断属性的指纹信息属于该判断树哪个叶子节点对应的第二指纹数字区间的方法,因此,本发明实施例提出还可以调整判断树中每个叶子节点的位置,从而使得后续利用该判断树确定属性匹配的叶子节点时,进一步加速利用判断树确定属性匹配的叶子节点的速度。
实施例二、
在本发明实施例一提供的数据处理方法的基础上,本发明实施例二提供一种数据处理方法,如图1所示,在步骤103之后,该方法可以进一步包括步骤103’,步骤103’与步骤104、步骤105的执行可以不分先后:
步骤103’、调整叶子节点的权重系数。
确定一个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点之后,针对该指定维度的属性对应的预先确定出的判断树,可以增大与该属性的指纹信息匹配的叶子节点的权重系数(初始确定出的判断树(尚未用于确定属性匹配的叶子节点)中每个叶子节点的权重系数相同)。针对一棵预先确定出的判断树,在利用该判断树确定与属性的指纹信息匹配的叶子节点的次数到达指定次数时,利用该判断树的匹配路径最短原则,从该判断树的最底层叶子节点开始,根据一个叶子节点及其相关叶子节点的权重系数来判断是否进行叶子节点间的位置调整,并将需要调整的叶子节点按照加权平衡二叉树的算法进行相应的位置调整,并依次上溯判断调整至根节点(第一级叶子节点)。
例如,如图2所示,可以认为初始确定出的判断树中每个叶子节点的权重系数相同,均为1,在进行一次属性与叶子节点的匹配后,如果属性匹配的叶子节点为【15~16】,则可以增大该叶子节点的权重系数,例如,将该叶子节点的权重系数设置为2。在进行指定次数(指定次数可以为1次,即每利用判断树进行一次属性与叶子节点的匹配,即更新一次该判断树的叶子节点的位置,指定次数也可以为多次,如100次,即每利用判断树进行100次属性与叶子节点的匹配,即更新一次该判断树的叶子节点的位置,从而后续可以利用更新叶子节点位置后的判断树进行属性与叶子节点的匹配)的属性与叶子节点的匹配后,利用该判断树的匹配路径最短原则,从该判断树的最底层叶子节点开始,根据一个叶子节点及其相关叶子节点的权重系数来判断是否进行叶子节点间的位置调整,并将需要调整的叶子节点按照加权平衡二叉树的算法进行相应的位置调整,并依次上溯判断调整至根节点。从而在后续利用调整叶子节点后的判断树,进行属性与叶子节点的匹配时,可以更快地获得与属性匹配的叶子节点,加快匹配速度,提高匹配效率。
更进一步的,由于每个属性匹配的规则子集的交集为数据匹配的规则集,因此,如果任意两个规则子集的交集为空,即可以确定该数据匹配的规则集为空,根据这一原理,在任意两个规则子集的交集为空时,可以无需确定其他的规则子集,进一步加快确定数据匹配的规则集的速度。
实施例三、
在本发明实施例一提供的数据处理方法的基础上,本发明实施例三提供一种数据处理方法,在实施例一的步骤103中,在匹配叶子节点时:
可以确定每个指定维度的属性对应的判断树的优先级,按照判断树的优先级由高到低的顺序(也可以理解为每棵判断树的优先级相同,每次随机选择一棵判断树),依次确定每棵判断树对应的指定维度的属性的指纹信息匹配的叶子节点。
在实施例一的步骤104中,在匹配规则子集时:
可以在每次确定出一个属性的指纹信息匹配的叶子节点时,确定该属性对应的规则子集。
则在实施例一的步骤105中,在确定规则集时:
可以在每次确定出一个规则子集时,将该规则子集与在确定出该规则子集之前确定出的规则子集取交集,在该交集为空时,指示停止确定叶子节点,否则,指示继续确定叶子节点。并可以将确定出的每个规则子集的交集确定为所述数据匹配的规则集。
从而可以按顺序依次确定规则子集,在确定出两个规则子集的交集为空时,无需再确定其他属性对应的规则子集,提高规则匹配的效率。
较优的,每棵判断树的优先级可以通过以下方式确定:
确定本次数据处理之前,利用每个指定维度的属性对应的判断树确定出的规则子集中规则的数量,按照确定出的规则子集中规则的数量由少到多的顺序,确定判断树由高到低的优先级。
即可以根据每棵判断树产生的与属性匹配的规则子集中规则的数量,调整判断树的优先级,由于优先确定出的规则子集中规则的数量较少,该规则子集与其他规则子集产生空集的可能性较高,而一旦产生空集,即无需确定其他属性对应的规则子集,因此,可以进一步提高规则匹配的效率。
与本发明实施例一~实施例三基于同一发明构思,提供以下的装置。
实施例四、
本发明实施例四提供一种数据处理装置,该装置的结构可以如图3所示,包括:
提取单元11用于提取接收到的数据的每个指定维度的属性;映射单元12用于针对提取单元提取出的每个指定维度的属性,按照预先定义的指纹函数,确定该属性的指纹信息;存储单元13用于存储每个指定维度的属性对应的预先确定出的判断树,其中,每个指定维度的属性对应的判断树,通过以下方式确定:确定该指定维度的属性需要进行匹配的规则;根据所述预先定义的指纹函数,将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间;根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间;匹配单元14用于确定存储单元存储的每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,该叶子节点对应的第二指纹数字区间包括该属性的指纹信息;针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间;确定单元15用于将匹配单元确定出的每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集。
所述匹配单元14具体用于确定存储单元存储的每个指定维度的属性对应的判断树的优先级,按照判断树的优先级由高到低的顺序,依次确定每棵判断树对应的指定维度的属性的指纹信息匹配的叶子节点;在每次确定出一个属性的指纹信息匹配的叶子节点时,确定该属性对应的规则子集;
所述确定单元15具体用于在匹配单元每次确定出一个规则子集时,将该规则子集与匹配单元在确定出该规则子集之前确定出的规则子集取交集,在该交集为空时,指示匹配单元停止确定叶子节点,否则,指示匹配单元继续确定叶子节点;将匹配单元确定出的每个规则子集的交集确定为所述数据匹配的规则集。
所述匹配单元14用于确定存储单元存储的每个指定维度的属性对应的判断树的优先级,具体为,确定本次数据处理之前,利用每个指定维度的属性对应的判断树确定出的规则子集中规则的数量,按照确定出的规则子集中规则的数量由少到多的顺序,确定判断树由高到低的优先级。
所述装置还包括调整单元16:
所述调整单元16用于在匹配单元确定存储单元存储的每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点之后,针对存储单元存储的每个指定维度的属性对应的预先确定出的判断树,增大与该属性的指纹信息匹配的叶子节点的权重系数;以及,针对存储单元存储的每棵预先确定出的判断树,在利用该判断树确定与属性的指纹信息匹配的叶子节点的次数到达指定次数时,利用该判断树的匹配路径最短原则,从该判断树的最底层叶子节点开始,根据一个叶子节点及其相关叶子节点的权重系数来判断是否进行叶子节点间的位置调整,并将需要调整的叶子节点按照加权平衡二叉树的算法进行相应的位置调整,并依次上溯判断调整至根节点。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
提取接收到的数据的每个指定维度的属性;
针对每个指定维度的属性,按照预先定义的指纹函数,确定该属性的指纹信息;
确定每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,该叶子节点对应的第二指纹数字区间包括该属性的指纹信息;
针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间;
将每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集;
其中,每个指定维度的属性对应的判断树,通过以下方式确定:
确定该指定维度的属性需要进行匹配的规则;
根据所述预先定义的指纹函数,将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间;
根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间。
2.如权利要求1所述的方法,其特征在于,确定每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,具体包括:
确定每个指定维度的属性对应的判断树的优先级;
按照判断树的优先级由高到低的顺序,依次确定每棵判断树对应的指定维度的属性的指纹信息匹配的叶子节点;
针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,具体包括:
在每次确定出一个属性的指纹信息匹配的叶子节点时,确定该属性对应的规则子集;
将每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集,具体包括:
在每次确定出一个规则子集时,将该规则子集与在确定出该规则子集之前确定出的规则子集取交集,在该交集为空时,指示停止确定叶子节点,否则,指示继续确定叶子节点;
将确定出的每个规则子集的交集确定为所述数据匹配的规则集。
3.如权利要求2所述的方法,其特征在于,确定每个指定维度的属性对应的判断树的优先级,具体包括:
确定本次数据处理之前,利用每个指定维度的属性对应的判断树确定出的规则子集中规则的数量;
按照确定出的规则子集中规则的数量由少到多的顺序,确定判断树由高到低的优先级。
4.如权利要求1~3任一所述的方法,其特征在于,确定每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点之后,所述方法还包括:
针对每个指定维度的属性对应的预先确定出的判断树,增大与该属性的指纹信息匹配的叶子节点的权重系数;以及,
针对每棵预先确定出的判断树,在利用该判断树确定与属性的指纹信息匹配的叶子节点的次数到达指定次数时,利用该判断树的匹配路径最短原则,从该判断树的最底层叶子节点开始,根据一个叶子节点及其相关叶子节点的权重系数来判断是否进行叶子节点间的位置调整,并将需要调整的叶子节点按照加权平衡二叉树的算法进行相应的位置调整,并依次上溯判断调整至根节点。
5.一种数据处理装置,其特征在于,所述装置包括:
提取单元,用于提取接收到的数据的每个指定维度的属性;
映射单元,用于针对提取单元提取出的每个指定维度的属性,按照预先定义的指纹函数,确定该属性的指纹信息;
存储单元,用于存储每个指定维度的属性对应的预先确定出的判断树,其中,每个指定维度的属性对应的判断树,通过以下方式确定:确定该指定维度的属性需要进行匹配的规则;根据所述预先定义的指纹函数,将每个该指定维度的属性需要进行匹配的规则映射到第一指纹数字区间;根据所述第一指纹数字区间,利用平衡二叉树方法,将该指定维度的属性对应的规则聚合为一棵判断树,该判断树的每个叶子节点对应一个第二指纹数字区间;
匹配单元,用于确定存储单元存储的每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点,该叶子节点对应的第二指纹数字区间包括该属性的指纹信息;针对每个指定维度的属性,根据与该属性的指纹信息匹配的叶子节点,确定与该属性匹配的规则子集,该规则子集包括的每个规则映射到的第一指纹数字区间,均包括该叶子节点对应的第二指纹数字区间;
确定单元,用于将匹配单元确定出的每个指定维度的属性匹配的规则子集的交集,确定为所述数据匹配的规则集。
6.如权利要求5所述的装置,其特征在于,所述匹配单元,具体用于确定存储单元存储的每个指定维度的属性对应的判断树的优先级,按照判断树的优先级由高到低的顺序,依次确定每棵判断树对应的指定维度的属性的指纹信息匹配的叶子节点;在每次确定出一个属性的指纹信息匹配的叶子节点时,确定该属性对应的规则子集;
所述确定单元,具体用于在匹配单元每次确定出一个规则子集时,将该规则子集与匹配单元在确定出该规则子集之前确定出的规则子集取交集,在该交集为空时,指示匹配单元停止确定叶子节点,否则,指示匹配单元继续确定叶子节点;将匹配单元确定出的每个规则子集的交集确定为所述数据匹配的规则集。
7.如权利要求6所述的装置,其特征在于,所述匹配单元,用于确定存储单元存储的每个指定维度的属性对应的判断树的优先级,具体为,确定本次数据处理之前,利用每个指定维度的属性对应的判断树确定出的规则子集中规则的数量,按照确定出的规则子集中规则的数量由少到多的顺序,确定判断树由高到低的优先级。
8.如权利要求5~7任一所述的装置,其特征在于,所述装置还包括调整单元:
所述调整单元,用于在匹配单元确定存储单元存储的每个指定维度的属性对应的预先确定出的判断树中,与该属性的指纹信息匹配的叶子节点之后,针对存储单元存储的每个指定维度的属性对应的预先确定出的判断树,增大与该属性的指纹信息匹配的叶子节点的权重系数;以及,针对每棵预先确定出的判断树,在利用该判断树确定与属性的指纹信息匹配的叶子节点的次数到达指定次数时,利用该判断树的匹配路径最短原则,从该判断树的最底层叶子节点开始,根据一个叶子节点及其相关叶子节点的权重系数来判断是否进行叶子节点间的位置调整,并将需要调整的叶子节点按照加权平衡二叉树的算法进行相应的位置调整,并依次上溯判断调整至根节点。
CN201210546597.0A 2012-12-14 2012-12-14 一种数据处理方法及装置 Active CN103049516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210546597.0A CN103049516B (zh) 2012-12-14 2012-12-14 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210546597.0A CN103049516B (zh) 2012-12-14 2012-12-14 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN103049516A true CN103049516A (zh) 2013-04-17
CN103049516B CN103049516B (zh) 2016-01-20

Family

ID=48062157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210546597.0A Active CN103049516B (zh) 2012-12-14 2012-12-14 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN103049516B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845990A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 一种规则处理方法和设备
CN108460038A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 规则匹配方法及其设备
CN110019400A (zh) * 2017-12-25 2019-07-16 深圳云天励飞技术有限公司 数据存储方法、电子设备及存储介质
CN110807092A (zh) * 2019-10-24 2020-02-18 深圳市元征科技股份有限公司 数据处理方法及装置
CN110825846A (zh) * 2019-10-24 2020-02-21 深圳市元征科技股份有限公司 数据处理方法及装置
CN112287219A (zh) * 2020-10-28 2021-01-29 帮帮有信(北京)科技有限公司 服务需求方与服务提供方匹配方法及装置
CN112686559A (zh) * 2021-01-06 2021-04-20 郑州铁路职业技术学院 基于大数据和人工智能的成果转化在线供需匹配方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527648A (zh) * 2008-03-07 2009-09-09 北京启明星辰信息技术股份有限公司 一种能够完成整数匹配的状态树匹配方法
US20090300062A1 (en) * 2008-06-03 2009-12-03 Francois Joguet Method for mapping an X500 data model onto a relational database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527648A (zh) * 2008-03-07 2009-09-09 北京启明星辰信息技术股份有限公司 一种能够完成整数匹配的状态树匹配方法
US20090300062A1 (en) * 2008-06-03 2009-12-03 Francois Joguet Method for mapping an X500 data model onto a relational database

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张慧颖,曲著伟: "《基于子树匹配的交互式Web 数据抽取方法》", 《计算机工程》, vol. 32, no. 9, 31 May 2006 (2006-05-31), pages 78 - 80 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845990A (zh) * 2015-12-03 2017-06-13 阿里巴巴集团控股有限公司 一种规则处理方法和设备
CN106845990B (zh) * 2015-12-03 2020-09-18 阿里巴巴集团控股有限公司 一种规则处理方法和设备
CN108460038A (zh) * 2017-02-20 2018-08-28 阿里巴巴集团控股有限公司 规则匹配方法及其设备
CN110019400A (zh) * 2017-12-25 2019-07-16 深圳云天励飞技术有限公司 数据存储方法、电子设备及存储介质
CN110019400B (zh) * 2017-12-25 2021-01-12 深圳云天励飞技术有限公司 数据存储方法、电子设备及存储介质
CN110807092A (zh) * 2019-10-24 2020-02-18 深圳市元征科技股份有限公司 数据处理方法及装置
CN110825846A (zh) * 2019-10-24 2020-02-21 深圳市元征科技股份有限公司 数据处理方法及装置
CN110825846B (zh) * 2019-10-24 2023-10-20 深圳市元征科技股份有限公司 数据处理方法及装置
CN110807092B (zh) * 2019-10-24 2023-10-20 深圳市元征科技股份有限公司 数据处理方法及装置
CN112287219A (zh) * 2020-10-28 2021-01-29 帮帮有信(北京)科技有限公司 服务需求方与服务提供方匹配方法及装置
CN112686559A (zh) * 2021-01-06 2021-04-20 郑州铁路职业技术学院 基于大数据和人工智能的成果转化在线供需匹配方法
CN112686559B (zh) * 2021-01-06 2023-05-19 郑州铁路职业技术学院 基于大数据和人工智能的成果转化在线供需匹配方法

Also Published As

Publication number Publication date
CN103049516B (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN103049516A (zh) 一种数据处理方法及装置
US20190080271A1 (en) Coordinated Production and Transportation Scheduling Method and System Based on Improved Tabu Search Algorithm
CN102184205B (zh) 基于可扩展精度混沌哈希的多模式串匹配方法
CN103744724A (zh) 定时任务集群方法及其装置
CN106897103B (zh) 一种移动端网络游戏版本快速热更新的方法
CN106294421A (zh) 一种数据写入、读取方法及装置
CN109299222A (zh) 数据核对方法及装置
CN104915717A (zh) 数据处理方法、知识库推理方法及相关装置
CN110399387A (zh) 基于表关联关系动态生成查询sql的方法及装置
CN102984737B (zh) 一种无线网络的参数统一配置方法及装置
CN105447296A (zh) 扑克牌牌型序列和牌序序列的数据处理系统、装置和方法
CN114281793A (zh) 数据校验方法、装置和系统
CN114462577A (zh) 一种联邦学习系统、方法、计算机设备及存储介质
CN110020333A (zh) 数据分析方法及装置、电子设备、存储介质
CN107977504A (zh) 一种非对称堆芯燃料管理计算方法、装置及终端设备
CN109857806A (zh) 数据库表的同步验证方法及装置
CN110532267A (zh) 字段的确定方法、装置、存储介质及电子装置
CN114511330B (zh) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及系统
CN113704252B (zh) 规则引擎决策树实现方法、装置、计算机设备及计算机可读存储介质
US9665668B2 (en) Configuring a dispatching rule for execution in a simulation
CN104182534A (zh) 一种数据搜索的方法及装置
CN103678545A (zh) 进行网络资源聚类的方法及装置
CN108763381A (zh) 基于一致性哈希算法的分表方法及设备
CN105095239A (zh) 一种不确定图查询方法及装置
CN114020640A (zh) 自动化测试方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant