CN106055690A

CN106055690A - 一种基于属性匹配的快速检索与获取数据特征方法

Info

Publication number: CN106055690A
Application number: CN201610405545.XA
Authority: CN
Inventors: 张伟鹏; 曾虹; 王哲; 潘李凡
Original assignee: Hangzhou Dianzi University
Current assignee: Nanjing Changyuan Information Technology Co ltd
Priority date: 2016-06-08
Filing date: 2016-06-08
Publication date: 2016-10-26
Anticipated expiration: 2036-06-08
Also published as: CN106055690B

Abstract

本发明公开了一种基于属性匹配的快速检索与获取数据特征方法。本发明包括步骤1.搭建属性匹配的模型。步骤2.基于属性匹配的模型进行快速检索。本发明是在一个获取拥有某种属性用户的项目基础上抽象出来的一个方法。该方法使用了内存快速运算与快速选择和多阶缓存技术。使用该方法以快速获取匹配结果，增强匹配结果的重用性。引入了内存数据库对检索数据进行缓存和使用内存数据库进行中间结果的计算，缩小了传统检索方法在硬盘上的瓶颈，提高了数据输出速度与数量。

Description

一种基于属性匹配的快速检索与获取数据特征方法

技术领域

本发明属于计算机应用技术领域，涉及一种基于属性匹配的快速检索与获取数据特征方法。

背景技术

目前的业务系统越来越负责，但在软件设计的过程中，大家都是使用面向对象的方法设计与开发平台，如学校或者公司管理系统中的个人信息可能多张表格信息。同时这些信息都通过独立的表存放。该设计方法是符合软件设计的，而且可以让软件更灵活，但在数据查询的过程中就会出现问题；因为上述信息都是存放在不同的表中，因此需要通过表关联的方法关联所有信息。而关联会造成结果数据量快速增加，笛卡尔积增加的越快。因此在一些高频的查询业务中，该方法可能无法满足系统的并发要求，或者响应效率很低。

本发明在传统的关系数据库直接检索的基础上进行改进，引入了内存数据库对检索数据进行缓存和使用内存数据库进行中间结果的计算，缩小了传统检索方法在硬盘上的瓶颈，提高了数据输出速度与数量。

发明内容

本发明的目的是针对现有技术的不足，提供一种基于属性匹配的快速检索与获取数据特征方法。

本发明解决其技术问题所采用的技术方案如下：

一种基于属性匹配的快速检索与获取数据特征方法，具体包括如下步骤：

步骤1.搭建属性匹配的模型。

1-1.对m个属性进行归类，具体的：将m个属性中属于互斥的两种或多种属性归位一类；如果其中一个或多个属性不存在互斥的两种或多种属性，则其单个属性归位一类，例如将m个属性总共分成了C₀,C₁,C₂,C₃…C_c-1这么几类，我们称这些类为属性类。m个属性形成的集合称为属性总集。

1-2.对m个属性进行属性编号，编号原则：同一个类中的属性编号相邻，例如(M₀,M₁)C₀,(M₂,M₃,M₄)C₁,(M₅)_c2,(M₆,M₇)C₂…(M_m-1)C_c-1；

单个属性均视为一个只包含自身的属性总集的子集,所有只包含单个属性的属性集合生成各自的long类型序列码并添加到控制器中。

将所有属性个数超过1的属性类生成long类型序列码并添加到控制器中。由属性个数超过1的属性类生成的序列码称为互斥序列码。

所述的long类型的序列码的生成规则如下：

输入一个属性总集的子集,系统会为其声明一个值为0的long类型整数k；如果输入的属性集合中有某一个编号为n的属性M_n，就将k进行如下运算：k＝k|1<<n,表明拥有M_n这个属性；反复执行上面的移位置位的步骤，直到输入属性集合中所有属性都被标记到k中，输出序列码。

1-3.对每个属性建立一组关系数据库表，关系数据库表的数量为n；每组中每张关系数据库表均用来存储拥有对应属性的个体的id，而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个属性关系数据库表组中id的映射规则相同，例如映射规则为id与n的余数；将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群，一阶表群由m*n个表组成。

1-4.在内存数据库中创建一阶表群，然后将现有的所有个体id，根据其个体拥有的属性逐条添加到各自属性的关系数据库表组和内存数据库表组中；将每个个体拥有的属性集合生成各自的long类型的序列码并添加到控制程序中。由个体属性集合生成的long类型序列码称为个体序列码。

1-5.将每个类与其他类分别进行笛卡尔积，形成的每个有序对中元素属性编号小的为左投影，编号大的为右投影，从而生成二阶关系属性。例如：步骤1-2中C3和C0进行笛卡尔积，其结果为(M0,M6),(M0,M7)，(M1,M6)，(M1,M7)，已然排除重复出现的有序对。二阶关系属性均视为一个包含两个属性的属性总集的子集,所有二阶关系属性生成各自的long类型序列码并添加到控制器中。

1-6.为每一个二阶关系属性建立属性表组，属性表组的数量为n；每个二阶关系属性表组中的每张关系数据库表均用来存储拥有对应二阶关系属性的个体的id，而拥有对应二阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个二阶关系属性表组中id的映射规则相同，例如映射规则为id与n的余数；将由二阶关系属性建立的所有关系数据库表组的集合称为二阶表群。二阶表群中表的数量范围是

1-7.在内存数据库中创建二阶表群，然后通过内存数据库中自带的相交函数，运算每个二阶关系属性的个体id；并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中。

所述的个体的增加：新增个体的属性集合生成long类型的序列码；将新增个体的序列码与系统中所有关系序列码进行比较，当某个关系序列码新增个体序列码相交大于0，并且小于新增个体序列码时，将关系序列码中该序列码对应的属性表组添加进新增个体id。然后同步关系数据库与内存数据库。

所述的个体属性更改：获取更改个体的原属性集与新属性集，生成long类型的原个体序列码和新个体序列码；将原个体序列码和新序列码进行比较得到属性变动，获取删除序列码和新增序列码；删除序列码由更改后删除属性组成的删除属性集生成，新增序列码由更改后新增属性组成的新增属性集生成；使用删除序列码和新增序列码与系统中所有关系序列码进行比较，当某个关系序列码满足删除序列码相交大于0，并且小于删除个体序列码时，将关系序列码中该序列码对应的属性表组中删除更改个体id。当某个关系序列码满足新增序列码相交大于0，并且小于新增个体序列码时，将关系序列码中该序列码对应的属性表组中添加更改个体id。然后同步关系数据库与内存数据库。

所述的关系序列码由单个属性或二阶关系属性或高阶关系属性生成的long类型序列码；

步骤2.基于属性匹配的模型进行快速检索。

2-1.如果请求属性集合中属性个数小于3个，则系统在内存数据库中直接获取请求属性集合对应的属性表组中的数据，如果内存数据库中找不到请求属性集合对应的属性表组，说明存在互斥关系，会返回空。

2-2.如果请求属性集合中属性个数大于3个，则需要检查请求属性集合中是否存在互斥关系的属性，如果存在就直接返回空，否则在内存数据库中检索是否存在请求属性集合对应的属性表组，如果存在就返回结果，否则执行如下步骤：

2-2-1.将请求属性集合划分成多个互斥的子集，多种划分方式形成多种运算方案；所述的超过2个属性形成的属性集合称为高阶关系属性。

请求属性集合生成一个long类型的序列码，将这个序列码输入系统的运算方案生成模块中，运算方案生成模块的方案包括最少运算方案、平衡运算方案、较多运算方案。

最少运算方案能够最快的获得匹配结果，但是这需要观察者曾经进行过多次不同属性集合的匹配，运算过程中生成的高阶关系属性较少，不利于观察者未来的匹配请求。

较多运算方案运算在三种方案获得运算结果最慢，但是运算过程中生成的高阶关系属性较多。有利于观察者未来的匹配请求。

平衡运算方案为前两者适中的方案。系统会根据观察者需求，系统会根据内部情况自动选择最少运算方案、平衡运算方案、较多运算方案中的其中一种运算方案。

2-2-2.对划分好的多个互斥子集进行排序，具体的：

首先，计算每个互斥子集内属性的个数，然后将多个互斥子集根据其各自属性个数，由少到多的顺序进行排序；

2-2-3.对排序的多个互斥子集进行运算，具体的：

根据排序，执行器会从依次从队列里弹出两个互斥子集，先在内存数据库中检索是否存在由该两个互斥子集组成的高阶关系属性对应的关系序列码，如果存在，则将新生成高阶关系属性转化成流程项放置在执行队列末尾；如果不存在，则将两个互斥子集对应的属性表组进行相交运算获得高阶关系属性结果集，并为这个高阶关系属性建立一组关系数据库表；则将新生成高阶关系属性转化成流程项放置在执行队列末尾；

所述的新建的关系数据库表的数量为n；每组中每张关系数据库表均用来存储拥有这个高阶关系属性的个体的id，而拥有这个高阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个高阶关系属性的关系数据库表组中id的映射规则相同，在内存数据库中建立相同的高阶关系属性对应的属性表组，将高阶关系属性结果集分别存入属性表组中和内存数据库中。为新生成的高阶关系属性生成一个long类型的序列码，并将这个序列码添加到控制器中。

2-2-4.重复执行步骤2-2-3，直到执行队列里只有一项流程项，这个流程项对应的属性表组就是满足请求属性集合的所有个体id的集合。

本发明有益效果如下：

本发明能够减少对硬盘的访问，减少了系统整体响应时间；使用内存数据库进行存储与运算，提高访问与运算速度；对于观察者多次快速的匹配请求，可以快速响应；针对大量个体研究进行了优化，更适合样本容量大的情景；快速获取样本群体的属性分布与属性相关性。

附图说明

图1为本发明初期工作流程图；

图2为本发明一次匹配流程；

图3为本发明系统数据抽象图

具体实施方式

下面结合附图和实施例对本发明做进一步说明。

如图1-3所示，一种基于属性匹配的快速检索与获取数据特征方法，具体包括如下步骤：

步骤1.如图1搭建属性匹配的模型。

所述的long类型的序列码的生成规则如下：

1-3.对每个属性建立一组关系数据库表，关系数据库表的数量为n；每组中每张关系数据库表均用来存储拥有对应属性的个体的id，而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个属性关系数据库表组中id的映射规则相同，例如映射规则为id与n的余数；将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群，一阶表群由m*n个表组成。数据抽象图参见图3。

1-7.在内存数据库中创建二阶表群，然后通过内存数据库中自带的相交函数，运算每个二阶关系属性的个体id；并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中。数据抽象图参见图3。

步骤2.如图2基于属性匹配的模型进行快速检索。

2-2-2.对划分好的多个互斥子集进行排序，具体的：

2-2-3.对排序的多个互斥子集进行运算，具体的：

Claims

1.一种基于属性匹配的快速检索与获取数据特征方法，其特征在于包括如下步骤：

步骤1.搭建属性匹配的模型；

步骤2.基于属性匹配的模型进行快速检索；

所述的步骤1中的搭建属性匹配的模型，具体如下：

1-1.对m个属性进行归类，具体的：将m个属性中属于互斥的两种或多种属性归位一类；如果其中一个或多个属性不存在互斥的两种或多种属性，则其单个属性归位一类，例如将m个属性总共分成了C₀,C₁,C₂,C₃…C_c-1这么几类，我们称这些类为属性类；m个属性形成的集合称为属性总集；

单个属性均视为一个只包含自身的属性总集的子集,所有只包含单个属性的属性集合生成各自的long类型序列码并添加到控制器中；

将所有属性个数超过1的属性类生成long类型序列码并添加到控制器中；由属性个数超过1的属性类生成的序列码称为互斥序列码；

所述的long类型的序列码的生成规则如下：

输入一个属性总集的子集,系统会为其声明一个值为0的long类型整数k；如果输入的属性集合中有某一个编号为n的属性M_n，就将k进行如下运算：k＝k|1<<n,表明拥有M_n这个属性；反复执行上面的移位置位的步骤，直到输入属性集合中所有属性都被标记到k中，输出序列码；

1-3.对每个属性建立一组关系数据库表，关系数据库表的数量为n；每组中每张关系数据库表均用来存储拥有对应属性的个体的id，而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定；每个属性关系数据库表组中id的映射规则相同，例如映射规则为id与n的余数；将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群，一阶表群由m*n个表组成；

1-4.在内存数据库中创建一阶表群，然后将现有的所有个体id，根据其个体拥有的属性逐条添加到各自属性的关系数据库表组和内存数据库表组中；将每个个体拥有的属性集合生成各自的long类型的序列码并添加到控制程序中；由个体属性集合生成的long类型序列码称为个体序列码；

1-5.将每个类与其他类分别进行笛卡尔积，形成的每个有序对中元素属性编号小的为左投影，编号大的为右投影，从而生成二阶关系属性；例如：步骤1-2中C3和C0进行笛卡尔积，其结果为(M0,M6),(M0,M7)，(M1,M6)，(M1,M7)，已然排除重复出现的有序对；二阶关系属性均视为一个包含两个属性的属性总集的子集,所有二阶关系属性生成各自的long类型序列码并添加到控制器中；

1-6.为每一个二阶关系属性建立属性表组，属性表组的数量为n；每个二阶关系属性表组中的每张关系数据库表均用来存储拥有对应二阶关系属性的个体的id，而拥有对应二阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定；每个二阶关系属性表组中id的映射规则相同，例如映射规则为id与n的余数；将由二阶关系属性建立的所有关系数据库表组的集合称为二阶表群；二阶表群中表的数量范围是

1-7.在内存数据库中创建二阶表群，然后通过内存数据库中自带的相交函数，运算每个二阶关系属性的个体id；并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中；

所述的个体的增加：新增个体的属性集合生成long类型的序列码；将新增个体的序列码与系统中所有关系序列码进行比较，当某个关系序列码新增个体序列码相交大于0，并且小于新增个体序列码时，将关系序列码中该序列码对应的属性表组添加进新增个体id；然后同步关系数据库与内存数据库；

所述的个体属性更改：获取更改个体的原属性集与新属性集，生成long类型的原个体序列码和新个体序列码；将原个体序列码和新序列码进行比较得到属性变动，获取删除序列码和新增序列码；删除序列码由更改后删除属性组成的删除属性集生成，新增序列码由更改后新增属性组成的新增属性集生成；使用删除序列码和新增序列码与系统中所有关系序列码进行比较，当某个关系序列码满足删除序列码相交大于0，并且小于删除个体序列码时，将关系序列码中该序列码对应的属性表组中删除更改个体id；当某个关系序列码满足新增序列码相交大于0，并且小于新增个体序列码时，将关系序列码中该序列码对应的属性表组中添加更改个体id；然后同步关系数据库与内存数据库；

所述的关系序列码由单个属性或二阶关系属性或高阶关系属性生成的long类型序列码。

2.根据权利要求1所述的一种基于属性匹配的快速检索与获取数据特征方法，其特征在于步骤2具体包括如下过程：

2-1.如果请求属性集合中属性个数小于3个，则系统在内存数据库中直接获取请求属性集合对应的属性表组中的数据，如果内存数据库中找不到请求属性集合对应的属性表组，说明存在互斥关系，会返回空；

2-2-1.将请求属性集合划分成多个互斥的子集，多种划分方式形成多种运算方案；所述的超过2个属性形成的属性集合称为高阶关系属性；

请求属性集合生成一个long类型的序列码，将这个序列码输入系统的运算方案生成模块中，运算方案生成模块的方案包括最少运算方案、平衡运算方案、较多运算方案；

最少运算方案能够最快的获得匹配结果，但是这需要观察者曾经进行过多次不同属性集合的匹配，运算过程中生成的高阶关系属性较少，不利于观察者未来的匹配请求；

较多运算方案运算在三种方案获得运算结果最慢，但是运算过程中生成的高阶关系属性较多；有利于观察者未来的匹配请求；

平衡运算方案为前两者适中的方案；系统会根据观察者需求，系统会根据内部情况自动选择最少运算方案、平衡运算方案、较多运算方案中的其中一种运算方案；

2-2-2.对划分好的多个互斥子集进行排序，具体的：

2-2-3.对排序的多个互斥子集进行运算，具体的：

所述的新建的关系数据库表的数量为n；每组中每张关系数据库表均用来存储拥有这个高阶关系属性的个体的id，而拥有这个高阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定；每个高阶关系属性的关系数据库表组中id的映射规则相同，在内存数据库中建立相同的高阶关系属性对应的属性表组，将高阶关系属性结果集分别存入属性表组中和内存数据库中；为新生成的高阶关系属性生成一个long类型的序列码，并将这个序列码添加到控制器中；