CN106055690A - 一种基于属性匹配的快速检索与获取数据特征方法 - Google Patents

一种基于属性匹配的快速检索与获取数据特征方法 Download PDF

Info

Publication number
CN106055690A
CN106055690A CN201610405545.XA CN201610405545A CN106055690A CN 106055690 A CN106055690 A CN 106055690A CN 201610405545 A CN201610405545 A CN 201610405545A CN 106055690 A CN106055690 A CN 106055690A
Authority
CN
China
Prior art keywords
attribute
sequence code
relation
individual
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610405545.XA
Other languages
English (en)
Other versions
CN106055690B (zh
Inventor
张伟鹏
曾虹
王哲
潘李凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Changyuan Information Technology Co ltd
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201610405545.XA priority Critical patent/CN106055690B/zh
Publication of CN106055690A publication Critical patent/CN106055690A/zh
Application granted granted Critical
Publication of CN106055690B publication Critical patent/CN106055690B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于属性匹配的快速检索与获取数据特征方法。本发明包括步骤1.搭建属性匹配的模型。步骤2.基于属性匹配的模型进行快速检索。本发明是在一个获取拥有某种属性用户的项目基础上抽象出来的一个方法。该方法使用了内存快速运算与快速选择和多阶缓存技术。使用该方法以快速获取匹配结果,增强匹配结果的重用性。引入了内存数据库对检索数据进行缓存和使用内存数据库进行中间结果的计算,缩小了传统检索方法在硬盘上的瓶颈,提高了数据输出速度与数量。

Description

一种基于属性匹配的快速检索与获取数据特征方法
技术领域
本发明属于计算机应用技术领域,涉及一种基于属性匹配的快速检索与获取数据特征方法。
背景技术
目前的业务系统越来越负责,但在软件设计的过程中,大家都是使用面向对象的方法设计与开发平台,如学校或者公司管理系统中的个人信息可能多张表格信息。同时这些信息都通过独立的表存放。该设计方法是符合软件设计的,而且可以让软件更灵活,但在数据查询的过程中就会出现问题;因为上述信息都是存放在不同的表中,因此需要通过表关联的方法关联所有信息。而关联会造成结果数据量快速增加,笛卡尔积增加的越快。因此在一些高频的查询业务中,该方法可能无法满足系统的并发要求,或者响应效率很低。
本发明在传统的关系数据库直接检索的基础上进行改进,引入了内存数据库对检索数据进行缓存和使用内存数据库进行中间结果的计算,缩小了传统检索方法在硬盘上的瓶颈,提高了数据输出速度与数量。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于属性匹配的快速检索与获取数据特征方法。
本发明解决其技术问题所采用的技术方案如下:
一种基于属性匹配的快速检索与获取数据特征方法,具体包括如下步骤:
步骤1.搭建属性匹配的模型。
1-1.对m个属性进行归类,具体的:将m个属性中属于互斥的两种或多种属性归位一类;如果其中一个或多个属性不存在互斥的两种或多种属性,则其单个属性归位一类,例如将m个属性总共分成了C0,C1,C2,C3…Cc-1这么几类,我们称这些类为属性类。m个属性形成的集合称为属性总集。
1-2.对m个属性进行属性编号,编号原则:同一个类中的属性编号相邻,例如(M0,M1)C0,(M2,M3,M4)C1,(M5)c2,(M6,M7)C2…(Mm-1)Cc-1
单个属性均视为一个只包含自身的属性总集的子集,所有只包含单个属性的属性集合生成各自的long类型序列码并添加到控制器中。
将所有属性个数超过1的属性类生成long类型序列码并添加到控制器中。由属性个数超过1的属性类生成的序列码称为互斥序列码。
所述的long类型的序列码的生成规则如下:
输入一个属性总集的子集,系统会为其声明一个值为0的long类型整数k;如果输入的属性集合中有某一个编号为n的属性Mn,就将k进行如下运算:k=k|1<<n,表明拥有Mn这个属性;反复执行上面的移位置位的步骤,直到输入属性集合中所有属性都被标记到k中,输出序列码。
1-3.对每个属性建立一组关系数据库表,关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有对应属性的个体的id,而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个属性关系数据库表组中id的映射规则相同,例如映射规则为id与n的余数;将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群,一阶表群由m*n个表组成。
1-4.在内存数据库中创建一阶表群,然后将现有的所有个体id,根据其个体拥有的属性逐条添加到各自属性的关系数据库表组和内存数据库表组中;将每个个体拥有的属性集合生成各自的long类型的序列码并添加到控制程序中。由个体属性集合生成的long类型序列码称为个体序列码。
1-5.将每个类与其他类分别进行笛卡尔积,形成的每个有序对中元素属性编号小的为左投影,编号大的为右投影,从而生成二阶关系属性。例如:步骤1-2中C3和C0进行笛卡尔积,其结果为(M0,M6),(M0,M7),(M1,M6),(M1,M7),已然排除重复出现的有序对。二阶关系属性均视为一个包含两个属性的属性总集的子集,所有二阶关系属性生成各自的long类型序列码并添加到控制器中。
1-6.为每一个二阶关系属性建立属性表组,属性表组的数量为n;每个二阶关系属性表组中的每张关系数据库表均用来存储拥有对应二阶关系属性的个体的id,而拥有对应二阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个二阶关系属性表组中id的映射规则相同,例如映射规则为id与n的余数;将由二阶关系属性建立的所有关系数据库表组的集合称为二阶表群。二阶表群中表的数量范围是
1-7.在内存数据库中创建二阶表群,然后通过内存数据库中自带的相交函数,运算每个二阶关系属性的个体id;并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中。
所述的个体的增加:新增个体的属性集合生成long类型的序列码;将新增个体的序列码与系统中所有关系序列码进行比较,当某个关系序列码新增个体序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组添加进新增个体id。然后同步关系数据库与内存数据库。
所述的个体属性更改:获取更改个体的原属性集与新属性集,生成long类型的原个体序列码和新个体序列码;将原个体序列码和新序列码进行比较得到属性变动,获取删除序列码和新增序列码;删除序列码由更改后删除属性组成的删除属性集生成,新增序列码由更改后新增属性组成的新增属性集生成;使用删除序列码和新增序列码与系统中所有关系序列码进行比较,当某个关系序列码满足删除序列码相交大于0,并且小于删除个体序列码时,将关系序列码中该序列码对应的属性表组中删除更改个体id。当某个关系序列码满足新增序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组中添加更改个体id。然后同步关系数据库与内存数据库。
所述的关系序列码由单个属性或二阶关系属性或高阶关系属性生成的long类型序列码;
步骤2.基于属性匹配的模型进行快速检索。
2-1.如果请求属性集合中属性个数小于3个,则系统在内存数据库中直接获取请求属性集合对应的属性表组中的数据,如果内存数据库中找不到请求属性集合对应的属性表组,说明存在互斥关系,会返回空。
2-2.如果请求属性集合中属性个数大于3个,则需要检查请求属性集合中是否存在互斥关系的属性,如果存在就直接返回空,否则在内存数据库中检索是否存在请求属性集合对应的属性表组,如果存在就返回结果,否则执行如下步骤:
2-2-1.将请求属性集合划分成多个互斥的子集,多种划分方式形成多种运算方案;所述的超过2个属性形成的属性集合称为高阶关系属性。
请求属性集合生成一个long类型的序列码,将这个序列码输入系统的运算方案生成模块中,运算方案生成模块的方案包括最少运算方案、平衡运算方案、较多运算方案。
最少运算方案能够最快的获得匹配结果,但是这需要观察者曾经进行过多次不同属性集合的匹配,运算过程中生成的高阶关系属性较少,不利于观察者未来的匹配请求。
较多运算方案运算在三种方案获得运算结果最慢,但是运算过程中生成的高阶关系属性较多。有利于观察者未来的匹配请求。
平衡运算方案为前两者适中的方案。系统会根据观察者需求,系统会根据内部情况自动选择最少运算方案、平衡运算方案、较多运算方案中的其中一种运算方案。
2-2-2.对划分好的多个互斥子集进行排序,具体的:
首先,计算每个互斥子集内属性的个数,然后将多个互斥子集根据其各自属性个数,由少到多的顺序进行排序;
2-2-3.对排序的多个互斥子集进行运算,具体的:
根据排序,执行器会从依次从队列里弹出两个互斥子集,先在内存数据库中检索是否存在由该两个互斥子集组成的高阶关系属性对应的关系序列码,如果存在,则将新生成高阶关系属性转化成流程项放置在执行队列末尾;如果不存在,则将两个互斥子集对应的属性表组进行相交运算获得高阶关系属性结果集,并为这个高阶关系属性建立一组关系数据库表;则将新生成高阶关系属性转化成流程项放置在执行队列末尾;
所述的新建的关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有这个高阶关系属性的个体的id,而拥有这个高阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个高阶关系属性的关系数据库表组中id的映射规则相同,在内存数据库中建立相同的高阶关系属性对应的属性表组,将高阶关系属性结果集分别存入属性表组中和内存数据库中。为新生成的高阶关系属性生成一个long类型的序列码,并将这个序列码添加到控制器中。
2-2-4.重复执行步骤2-2-3,直到执行队列里只有一项流程项,这个流程项对应的属性表组就是满足请求属性集合的所有个体id的集合。
本发明有益效果如下:
本发明能够减少对硬盘的访问,减少了系统整体响应时间;使用内存数据库进行存储与运算,提高访问与运算速度;对于观察者多次快速的匹配请求,可以快速响应;针对大量个体研究进行了优化,更适合样本容量大的情景;快速获取样本群体的属性分布与属性相关性。
附图说明
图1为本发明初期工作流程图;
图2为本发明一次匹配流程;
图3为本发明系统数据抽象图
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
如图1-3所示,一种基于属性匹配的快速检索与获取数据特征方法,具体包括如下步骤:
步骤1.如图1搭建属性匹配的模型。
1-1.对m个属性进行归类,具体的:将m个属性中属于互斥的两种或多种属性归位一类;如果其中一个或多个属性不存在互斥的两种或多种属性,则其单个属性归位一类,例如将m个属性总共分成了C0,C1,C2,C3…Cc-1这么几类,我们称这些类为属性类。m个属性形成的集合称为属性总集。
1-2.对m个属性进行属性编号,编号原则:同一个类中的属性编号相邻,例如(M0,M1)C0,(M2,M3,M4)C1,(M5)c2,(M6,M7)C2…(Mm-1)Cc-1
单个属性均视为一个只包含自身的属性总集的子集,所有只包含单个属性的属性集合生成各自的long类型序列码并添加到控制器中。
将所有属性个数超过1的属性类生成long类型序列码并添加到控制器中。由属性个数超过1的属性类生成的序列码称为互斥序列码。
所述的long类型的序列码的生成规则如下:
输入一个属性总集的子集,系统会为其声明一个值为0的long类型整数k;如果输入的属性集合中有某一个编号为n的属性Mn,就将k进行如下运算:k=k|1<<n,表明拥有Mn这个属性;反复执行上面的移位置位的步骤,直到输入属性集合中所有属性都被标记到k中,输出序列码。
1-3.对每个属性建立一组关系数据库表,关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有对应属性的个体的id,而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个属性关系数据库表组中id的映射规则相同,例如映射规则为id与n的余数;将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群,一阶表群由m*n个表组成。数据抽象图参见图3。
1-4.在内存数据库中创建一阶表群,然后将现有的所有个体id,根据其个体拥有的属性逐条添加到各自属性的关系数据库表组和内存数据库表组中;将每个个体拥有的属性集合生成各自的long类型的序列码并添加到控制程序中。由个体属性集合生成的long类型序列码称为个体序列码。
1-5.将每个类与其他类分别进行笛卡尔积,形成的每个有序对中元素属性编号小的为左投影,编号大的为右投影,从而生成二阶关系属性。例如:步骤1-2中C3和C0进行笛卡尔积,其结果为(M0,M6),(M0,M7),(M1,M6),(M1,M7),已然排除重复出现的有序对。二阶关系属性均视为一个包含两个属性的属性总集的子集,所有二阶关系属性生成各自的long类型序列码并添加到控制器中。
1-6.为每一个二阶关系属性建立属性表组,属性表组的数量为n;每个二阶关系属性表组中的每张关系数据库表均用来存储拥有对应二阶关系属性的个体的id,而拥有对应二阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个二阶关系属性表组中id的映射规则相同,例如映射规则为id与n的余数;将由二阶关系属性建立的所有关系数据库表组的集合称为二阶表群。二阶表群中表的数量范围是
1-7.在内存数据库中创建二阶表群,然后通过内存数据库中自带的相交函数,运算每个二阶关系属性的个体id;并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中。数据抽象图参见图3。
所述的个体的增加:新增个体的属性集合生成long类型的序列码;将新增个体的序列码与系统中所有关系序列码进行比较,当某个关系序列码新增个体序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组添加进新增个体id。然后同步关系数据库与内存数据库。
所述的个体属性更改:获取更改个体的原属性集与新属性集,生成long类型的原个体序列码和新个体序列码;将原个体序列码和新序列码进行比较得到属性变动,获取删除序列码和新增序列码;删除序列码由更改后删除属性组成的删除属性集生成,新增序列码由更改后新增属性组成的新增属性集生成;使用删除序列码和新增序列码与系统中所有关系序列码进行比较,当某个关系序列码满足删除序列码相交大于0,并且小于删除个体序列码时,将关系序列码中该序列码对应的属性表组中删除更改个体id。当某个关系序列码满足新增序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组中添加更改个体id。然后同步关系数据库与内存数据库。
所述的关系序列码由单个属性或二阶关系属性或高阶关系属性生成的long类型序列码;
步骤2.如图2基于属性匹配的模型进行快速检索。
2-1.如果请求属性集合中属性个数小于3个,则系统在内存数据库中直接获取请求属性集合对应的属性表组中的数据,如果内存数据库中找不到请求属性集合对应的属性表组,说明存在互斥关系,会返回空。
2-2.如果请求属性集合中属性个数大于3个,则需要检查请求属性集合中是否存在互斥关系的属性,如果存在就直接返回空,否则在内存数据库中检索是否存在请求属性集合对应的属性表组,如果存在就返回结果,否则执行如下步骤:
2-2-1.将请求属性集合划分成多个互斥的子集,多种划分方式形成多种运算方案;所述的超过2个属性形成的属性集合称为高阶关系属性。
请求属性集合生成一个long类型的序列码,将这个序列码输入系统的运算方案生成模块中,运算方案生成模块的方案包括最少运算方案、平衡运算方案、较多运算方案。
最少运算方案能够最快的获得匹配结果,但是这需要观察者曾经进行过多次不同属性集合的匹配,运算过程中生成的高阶关系属性较少,不利于观察者未来的匹配请求。
较多运算方案运算在三种方案获得运算结果最慢,但是运算过程中生成的高阶关系属性较多。有利于观察者未来的匹配请求。
平衡运算方案为前两者适中的方案。系统会根据观察者需求,系统会根据内部情况自动选择最少运算方案、平衡运算方案、较多运算方案中的其中一种运算方案。
2-2-2.对划分好的多个互斥子集进行排序,具体的:
首先,计算每个互斥子集内属性的个数,然后将多个互斥子集根据其各自属性个数,由少到多的顺序进行排序;
2-2-3.对排序的多个互斥子集进行运算,具体的:
根据排序,执行器会从依次从队列里弹出两个互斥子集,先在内存数据库中检索是否存在由该两个互斥子集组成的高阶关系属性对应的关系序列码,如果存在,则将新生成高阶关系属性转化成流程项放置在执行队列末尾;如果不存在,则将两个互斥子集对应的属性表组进行相交运算获得高阶关系属性结果集,并为这个高阶关系属性建立一组关系数据库表;则将新生成高阶关系属性转化成流程项放置在执行队列末尾;
所述的新建的关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有这个高阶关系属性的个体的id,而拥有这个高阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定。每个高阶关系属性的关系数据库表组中id的映射规则相同,在内存数据库中建立相同的高阶关系属性对应的属性表组,将高阶关系属性结果集分别存入属性表组中和内存数据库中。为新生成的高阶关系属性生成一个long类型的序列码,并将这个序列码添加到控制器中。
2-2-4.重复执行步骤2-2-3,直到执行队列里只有一项流程项,这个流程项对应的属性表组就是满足请求属性集合的所有个体id的集合。

Claims (2)

1.一种基于属性匹配的快速检索与获取数据特征方法,其特征在于包括如下步骤:
步骤1.搭建属性匹配的模型;
步骤2.基于属性匹配的模型进行快速检索;
所述的步骤1中的搭建属性匹配的模型,具体如下:
1-1.对m个属性进行归类,具体的:将m个属性中属于互斥的两种或多种属性归位一类;如果其中一个或多个属性不存在互斥的两种或多种属性,则其单个属性归位一类,例如将m个属性总共分成了C0,C1,C2,C3…Cc-1这么几类,我们称这些类为属性类;m个属性形成的集合称为属性总集;
1-2.对m个属性进行属性编号,编号原则:同一个类中的属性编号相邻,例如(M0,M1)C0,(M2,M3,M4)C1,(M5)c2,(M6,M7)C2…(Mm-1)Cc-1
单个属性均视为一个只包含自身的属性总集的子集,所有只包含单个属性的属性集合生成各自的long类型序列码并添加到控制器中;
将所有属性个数超过1的属性类生成long类型序列码并添加到控制器中;由属性个数超过1的属性类生成的序列码称为互斥序列码;
所述的long类型的序列码的生成规则如下:
输入一个属性总集的子集,系统会为其声明一个值为0的long类型整数k;如果输入的属性集合中有某一个编号为n的属性Mn,就将k进行如下运算:k=k|1<<n,表明拥有Mn这个属性;反复执行上面的移位置位的步骤,直到输入属性集合中所有属性都被标记到k中,输出序列码;
1-3.对每个属性建立一组关系数据库表,关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有对应属性的个体的id,而拥有对应属性的个体的id加入该组的哪一张关系数据库表根据id特性而定;每个属性关系数据库表组中id的映射规则相同,例如映射规则为id与n的余数;将所有由单个属性创建而成的关系数据库表组的集合叫做一阶表群,一阶表群由m*n个表组成;
1-4.在内存数据库中创建一阶表群,然后将现有的所有个体id,根据其个体拥有的属性逐条添加到各自属性的关系数据库表组和内存数据库表组中;将每个个体拥有的属性集合生成各自的long类型的序列码并添加到控制程序中;由个体属性集合生成的long类型序列码称为个体序列码;
1-5.将每个类与其他类分别进行笛卡尔积,形成的每个有序对中元素属性编号小的为左投影,编号大的为右投影,从而生成二阶关系属性;例如:步骤1-2中C3和C0进行笛卡尔积,其结果为(M0,M6),(M0,M7),(M1,M6),(M1,M7),已然排除重复出现的有序对;二阶关系属性均视为一个包含两个属性的属性总集的子集,所有二阶关系属性生成各自的long类型序列码并添加到控制器中;
1-6.为每一个二阶关系属性建立属性表组,属性表组的数量为n;每个二阶关系属性表组中的每张关系数据库表均用来存储拥有对应二阶关系属性的个体的id,而拥有对应二阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定;每个二阶关系属性表组中id的映射规则相同,例如映射规则为id与n的余数;将由二阶关系属性建立的所有关系数据库表组的集合称为二阶表群;二阶表群中表的数量范围是
1-7.在内存数据库中创建二阶表群,然后通过内存数据库中自带的相交函数,运算每个二阶关系属性的个体id;并将运算获得的结果保存在内存数据库和关系数据库的二阶表群中;
所述的个体的增加:新增个体的属性集合生成long类型的序列码;将新增个体的序列码与系统中所有关系序列码进行比较,当某个关系序列码新增个体序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组添加进新增个体id;然后同步关系数据库与内存数据库;
所述的个体属性更改:获取更改个体的原属性集与新属性集,生成long类型的原个体序列码和新个体序列码;将原个体序列码和新序列码进行比较得到属性变动,获取删除序列码和新增序列码;删除序列码由更改后删除属性组成的删除属性集生成,新增序列码由更改后新增属性组成的新增属性集生成;使用删除序列码和新增序列码与系统中所有关系序列码进行比较,当某个关系序列码满足删除序列码相交大于0,并且小于删除个体序列码时,将关系序列码中该序列码对应的属性表组中删除更改个体id;当某个关系序列码满足新增序列码相交大于0,并且小于新增个体序列码时,将关系序列码中该序列码对应的属性表组中添加更改个体id;然后同步关系数据库与内存数据库;
所述的关系序列码由单个属性或二阶关系属性或高阶关系属性生成的long类型序列码。
2.根据权利要求1所述的一种基于属性匹配的快速检索与获取数据特征方法,其特征在于步骤2具体包括如下过程:
2-1.如果请求属性集合中属性个数小于3个,则系统在内存数据库中直接获取请求属性集合对应的属性表组中的数据,如果内存数据库中找不到请求属性集合对应的属性表组,说明存在互斥关系,会返回空;
2-2.如果请求属性集合中属性个数大于3个,则需要检查请求属性集合中是否存在互斥关系的属性,如果存在就直接返回空,否则在内存数据库中检索是否存在请求属性集合对应的属性表组,如果存在就返回结果,否则执行如下步骤:
2-2-1.将请求属性集合划分成多个互斥的子集,多种划分方式形成多种运算方案;所述的超过2个属性形成的属性集合称为高阶关系属性;
请求属性集合生成一个long类型的序列码,将这个序列码输入系统的运算方案生成模块中,运算方案生成模块的方案包括最少运算方案、平衡运算方案、较多运算方案;
最少运算方案能够最快的获得匹配结果,但是这需要观察者曾经进行过多次不同属性集合的匹配,运算过程中生成的高阶关系属性较少,不利于观察者未来的匹配请求;
较多运算方案运算在三种方案获得运算结果最慢,但是运算过程中生成的高阶关系属性较多;有利于观察者未来的匹配请求;
平衡运算方案为前两者适中的方案;系统会根据观察者需求,系统会根据内部情况自动选择最少运算方案、平衡运算方案、较多运算方案中的其中一种运算方案;
2-2-2.对划分好的多个互斥子集进行排序,具体的:
首先,计算每个互斥子集内属性的个数,然后将多个互斥子集根据其各自属性个数,由少到多的顺序进行排序;
2-2-3.对排序的多个互斥子集进行运算,具体的:
根据排序,执行器会从依次从队列里弹出两个互斥子集,先在内存数据库中检索是否存在由该两个互斥子集组成的高阶关系属性对应的关系序列码,如果存在,则将新生成高阶关系属性转化成流程项放置在执行队列末尾;如果不存在,则将两个互斥子集对应的属性表组进行相交运算获得高阶关系属性结果集,并为这个高阶关系属性建立一组关系数据库表;则将新生成高阶关系属性转化成流程项放置在执行队列末尾;
所述的新建的关系数据库表的数量为n;每组中每张关系数据库表均用来存储拥有这个高阶关系属性的个体的id,而拥有这个高阶关系属性的个体的id加入该组的哪一张关系数据库表根据id特性而定;每个高阶关系属性的关系数据库表组中id的映射规则相同,在内存数据库中建立相同的高阶关系属性对应的属性表组,将高阶关系属性结果集分别存入属性表组中和内存数据库中;为新生成的高阶关系属性生成一个long类型的序列码,并将这个序列码添加到控制器中;
2-2-4.重复执行步骤2-2-3,直到执行队列里只有一项流程项,这个流程项对应的属性表组就是满足请求属性集合的所有个体id的集合。
CN201610405545.XA 2016-06-08 2016-06-08 一种基于属性匹配的快速检索与获取数据特征方法 Active CN106055690B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610405545.XA CN106055690B (zh) 2016-06-08 2016-06-08 一种基于属性匹配的快速检索与获取数据特征方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610405545.XA CN106055690B (zh) 2016-06-08 2016-06-08 一种基于属性匹配的快速检索与获取数据特征方法

Publications (2)

Publication Number Publication Date
CN106055690A true CN106055690A (zh) 2016-10-26
CN106055690B CN106055690B (zh) 2019-06-18

Family

ID=57171200

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610405545.XA Active CN106055690B (zh) 2016-06-08 2016-06-08 一种基于属性匹配的快速检索与获取数据特征方法

Country Status (1)

Country Link
CN (1) CN106055690B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988944A (zh) * 2021-04-23 2021-06-18 湖南省第二测绘院 一种时空地理信息统计汇总方法及系统
CN113076339A (zh) * 2021-03-18 2021-07-06 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN116501972A (zh) * 2023-05-06 2023-07-28 兰州柒禾网络科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886004A (zh) * 2013-11-29 2014-06-25 北京吉威数源信息技术有限公司 一种资料型数据建模处理方法
US20140244690A1 (en) * 2013-02-26 2014-08-28 Venkatram Vundavalli Generate in-memory views from universe schema
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN104915409A (zh) * 2015-06-03 2015-09-16 浙江大学城市学院 基于html标签属性序列的信息隐藏及提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244690A1 (en) * 2013-02-26 2014-08-28 Venkatram Vundavalli Generate in-memory views from universe schema
CN103886004A (zh) * 2013-11-29 2014-06-25 北京吉威数源信息技术有限公司 一种资料型数据建模处理方法
CN104915409A (zh) * 2015-06-03 2015-09-16 浙江大学城市学院 基于html标签属性序列的信息隐藏及提取方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076339A (zh) * 2021-03-18 2021-07-06 北京沃东天骏信息技术有限公司 一种数据缓存方法、装置、设备及存储介质
CN112988944A (zh) * 2021-04-23 2021-06-18 湖南省第二测绘院 一种时空地理信息统计汇总方法及系统
CN116501972A (zh) * 2023-05-06 2023-07-28 兰州柒禾网络科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统
CN116501972B (zh) * 2023-05-06 2024-01-05 广州市巨应信息科技有限公司 基于大数据在线服务的内容推送方法及ai智能推送系统

Also Published As

Publication number Publication date
CN106055690B (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN104021161B (zh) 一种聚簇存储方法及装置
CN102722531B (zh) 一种云环境中基于分片位图索引的查询方法
US9092481B2 (en) Method and system for processing graph queries
CN107622103B (zh) 管理数据查询
US8712972B2 (en) Query optimization with awareness of limited resource usage
JP2000187668A (ja) グループ化方法と重複排除方法
CN104361113B (zh) 一种内存‑闪存混合存储模式下的olap查询优化方法
CN102867066B (zh) 数据汇总装置和数据汇总方法
CN104111936B (zh) 数据查询方法和系统
CN103678550A (zh) 一种基于动态索引结构的海量数据实时查询方法
CN101299213A (zh) N维聚类排序记录树空间索引方法
CN105117442A (zh) 一种基于概率的大数据查询方法
CN102158533B (zh) 基于QoS的分布式web服务选择方法
CN105550332A (zh) 一种基于双层索引结构的起源图查询方法
CN106055690A (zh) 一种基于属性匹配的快速检索与获取数据特征方法
CN106127863B (zh) 一种冰箱发泡模具系列化设计系统及其方法
CN103377236B (zh) 一种用于分布式数据库的连接查询方法及系统
CN112800023B (zh) 基于语义分类的多模型数据分布式存储和分级查询方法
CN107273443B (zh) 一种基于大数据模型元数据的混合索引方法
KR101030250B1 (ko) 데이터 처리방법 및 데이터 처리 프로그램
Liroz-Gistau et al. Dynamic workload-based partitioning algorithms for continuously growing databases
US9684704B2 (en) Data extraction and sparseness discovery from multidimensional databases
JP3938815B2 (ja) ノード作成方法、画像検索方法及び記録媒体
JP2007073063A (ja) 空間インデックス方法
CN108280176A (zh) 基于MapReduce的数据挖掘优化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201109

Address after: 310016 room 3003-1, building 1, Gaode land center, Jianggan District, Hangzhou City, Zhejiang Province

Patentee after: Zhejiang Zhiduo Network Technology Co.,Ltd.

Address before: Hangzhou City, Zhejiang province 310018 Xiasha Higher Education Park No. 2 street

Patentee before: HANGZHOU DIANZI University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201229

Address after: 210000 242, room 13, No. 29, bu Yue Road, Qiaolin street, Pukou District, Nanjing, Jiangsu.

Patentee after: NANJING CHANGYUAN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 3003-1, building 1, Gaode land center, Jianggan District, Hangzhou City, Zhejiang Province

Patentee before: Zhejiang Zhiduo Network Technology Co.,Ltd.