CN103441767B - 一种基于形式概念分析理论的完全格无损压缩存储方法 - Google Patents
一种基于形式概念分析理论的完全格无损压缩存储方法 Download PDFInfo
- Publication number
- CN103441767B CN103441767B CN201310377208.0A CN201310377208A CN103441767B CN 103441767 B CN103441767 B CN 103441767B CN 201310377208 A CN201310377208 A CN 201310377208A CN 103441767 B CN103441767 B CN 103441767B
- Authority
- CN
- China
- Prior art keywords
- lattice
- complete lattice
- complete
- letter
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于形式概念分析理论的完全格无损压缩存储方法,对完全格中的结点进行区分,只存储关键结点的信息,压缩存储规模,提高存储效率以及存储空间的利用率。本发明方法采用形式概念分析的理论,以提高存储空间有效利用率、利于完全格的检索和同构判定为目的,提出一种完全格无损压缩存储方法。
Description
技术领域
本发明涉及的是一种基于形式概念分析理论的完全格无损压缩存储方法。
背景技术
形式概念分析:形式概念分析(FormalConceptAnalysis,FCA)是Wille提出的一种从形式背景进行数据分析和规则提取的强有力工具,形式概念分析建立在数学基础之上,对组成本体的概念、属性以及关系等用形式化的语境表述出来,然后根据语境,构造出概念格(conceptlattice),即本体,从而清楚地表达出本体的结构。这种本体构建的过程是半自动化的,在概念的形成阶段,需要领域专家的参与,识别出领域内的对象、属性,构建其间的关系,在概念生成之后,可以构造语境,然后利用概念格的生成算法CLCA,自动产生本体。形式概念分析强调以人的认知为中心,提供了一种与传统的、统计的数据分析和知识表示完全不同的方法,成为了人工智能学科的重要研究对象,在机器学习、数据挖掘、信息检索等领域得到了广泛的应用。
完全格:在数学中,完全格是在其中所有子集都有上确界(并)和下确界(交)的偏序集。完全格出现于数学和计算机科学的很多应用中。作为格的特殊实例,在次序论和泛代数中都有所研究。
数据压缩:数据压缩是指在不丢失信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。或按照一定的算法对数据进行重新组织,减少数据的冗余和存储的空间。数据压缩包括有损压缩和无损压缩。
完全格理论在GPS中的坐标变换、模糊故障检测、机器人集群、不确定性数据表示等领域都有应用。在这些应用中,都需要进行格的存储与检索操作。现有的方式是采用邻接矩阵存储完全格,虽然记录了完全格的所有信息,但存在以下不足:存储空间有效利用率低,不利于完全格的检索和同构判定;对完全格中的结点不加区分,记录所有结点信息,存储效率低;邻接矩阵中存在大量0元素,存储空间的有效利用率低。
发明内容
本发明所要解决的技术问题是针对现有技术的不足提供一种基于形式概念分析理论的完全格无损压缩存储方法。
本发明的技术方案如下:
对完全格中的结点进行区分,只存储关键结点的信息,压缩存储规模,提高存储效率以及存储空间的利用率。
一种基于形式概念分析理论的完全格无损压缩存储方法,步骤1:从完全格V最小元开始向上遍历,若一个格结点只有一个上近邻,则从字母表{a,b,c,…}中取一个字母标注,标注后将这个字母从字母表中删除;
步骤2:从完全格V最大元开始向下遍历,若一个格结点只有一个下近邻,则从数字表{1,2,3,…}中取一个数字标注,标注后将这个数字从数字表中删除;
步骤3:若一共使用了m个数字和n个字母,则建立m行n列的形式背景K,每一个数字对应一行,每一个字母对应一列;
步骤4:在完全格V中,对于每个用数字标注的格结点(假定标注的数字为i),搜索其上近邻直到最大元,若在这一过程中遇到用字母标注的格结点(假定标注的字母为j),则将K中i行j列交叉处的值修改为*;
步骤5:返回K,算法结束。
本发明方法采用形式概念分析的理论,以提高存储空间有效利用率、利于完全格的检索和同构判定为目的,提出一种完全格无损压缩存储方法。
附图说明
图1:完全格V;
图2:标注不可约元的完全格V;
图3:标注数字序号的完全格V;
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
定义1:一个集合M及其上的偏序关系≤形成的有序二元组(M,≤)称为半序集。
定义2:令(M,≤)是一个半序集,A是M的子集,若M中的元素s满足都有s≤a,则称s是A的一个下界。对偶地,若M中的元素s满足都有s≥a,则称s是A的一个上界。如果A的所有下界组成的集合中有最大元素,则称这个元素为A的下确界,记infA或∧A。对偶地,上界集合的最小元素称为A的上确界,记supA或∨A。
定义3:一个半序集(V,≤),如果V中任意两个元素x,y的上确界及下确界都存在,则称V是一个格。如果V的任何子集的上确界及下确界都存在,则称V是一个完全格。
定义4:对于完全格V的一个元素v,定义vl=∨{x∈V|x<v},vu=∧{x∈V|v<x},如果v≠vl即v不是严格小于它的那些元素的上确界,则称v是上确界不可约的,或者称v是上确界不可约元;如果v≠vu,即v不是严格大于它的那些元素的下确界,则称v是下确界不可约的,或者称v是下确界不可约元。在不区分上确界不可约元和下确界不可约元的情况下,它们统称为不可约元。
定义5:a称为b的下近邻,当a<b且没有c满足a<c<b,这时也称b是a的上近邻,并且记做a<b。
定义6:一个形式背景K=(G,M,I)是由两个集合G和M以及G与M之间的关系I组成。G的元素称为对象,M的元素称为属性。(g,m)∈I或gIm表示对象g具有属性m。
若形式背景中有m个对象n个属性,那么这个形式背景实际上就是一个m行n列的二维表格。
完全格中的结点有以下性质:若一个格结点只有一个上近邻,则这个格结点是一个下确界不可约元;若一个格结点只有一个下近邻,则这个格结点是一个上确界不可约元。
获取完全格的形式背景:
输入:完全格V;输出:形式背景K
步骤1:从完全格V最小元开始向上遍历,若一个格结点只有一个上近邻,则从字母表{a,b,c,…}中取一个字母标注,标注后将这个字母从字母表中删除;
步骤2:从完全格V最大元开始向下遍历,若一个格结点只有一个下近邻,则从数字表{1,2,3,…}中取一个数字标注,标注后将这个数字从数字表中删除;
步骤3:若一共使用了m个数字和n个字母,则建立m行n列的形式背景K,每一个数字对应一行,每一个字母对应一列;
步骤4:在完全格V中,对于每个用数字标注的格结点(假定标注的数字为i),搜索其上近邻直到最大元,若在这一过程中遇到用字母标注的格结点(假定标注的字母为j),则将K中i行j列交叉处的值修改为*;
步骤5:返回K,算法结束。
利用上述技术,可以将存储一个完全格转化为存储一个形式背景。若形式背景有m行n列,那么建立一个m×n的矩阵A={aij}m×n,若形式背景中m行n列交叉处为*,则置aij=1,否则置aij=0。由此,得到完全格的压缩存储矩阵A。
例1:对于图1中的完全格V,使用关键技术1(标注了不可约元的完全格见图2),可以得到5行5列的形式背景K(见表1),并建立5×5的存储矩阵
表1形式背景K
若使用邻接矩阵存储完全格V,首先在完全格V上标注序号(如图3),然后
根据结点之间的邻接关系建立一个9×9的矩阵
其中有12个非零元素。
两种方法的存储效率对比见表2。
表2存储效率对比
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (1)
1.一种基于形式概念分析理论的完全格无损压缩存储方法,其特征在于,包括以下步骤:步骤1:从完全格V最小元开始向上遍历,若一个格结点只有一个上近邻,则从字母表{a,b,c,…}中取一个字母标注,标注后将这个字母从字母表中删除;
步骤2:从完全格V最大元开始向下遍历,若一个格结点只有一个下近邻,则从数字表{1,2,3,…}中取一个数字标注,标注后将这个数字从数字表中删除;
步骤3:若一共使用了m个数字和n个字母,则建立m行n列的形式背景K,每一个数字对应一行,每一个字母对应一列;
步骤4:在完全格V中,对于每个用数字标注的格结点α∈{1,2,…,m},搜索其上近邻直到最大元,若在这一过程中遇到用字母标注的格结点β∈{a,b,…,n},则将K中α行β列交叉处的值修改为*;
步骤5:返回K,算法结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310377208.0A CN103441767B (zh) | 2013-08-26 | 2013-08-26 | 一种基于形式概念分析理论的完全格无损压缩存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310377208.0A CN103441767B (zh) | 2013-08-26 | 2013-08-26 | 一种基于形式概念分析理论的完全格无损压缩存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103441767A CN103441767A (zh) | 2013-12-11 |
CN103441767B true CN103441767B (zh) | 2016-04-27 |
Family
ID=49695444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310377208.0A Expired - Fee Related CN103441767B (zh) | 2013-08-26 | 2013-08-26 | 一种基于形式概念分析理论的完全格无损压缩存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103441767B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393563A (zh) * | 2008-09-26 | 2009-03-25 | 复旦大学 | 基于形式概念分析的Web数据处理方法 |
CN101504654A (zh) * | 2009-03-17 | 2009-08-12 | 东南大学 | 一种实现数据库模式自动匹配的方法 |
CN102508767A (zh) * | 2011-09-30 | 2012-06-20 | 东南大学 | 一种基于形式概念分析的软件维护方法 |
-
2013
- 2013-08-26 CN CN201310377208.0A patent/CN103441767B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393563A (zh) * | 2008-09-26 | 2009-03-25 | 复旦大学 | 基于形式概念分析的Web数据处理方法 |
CN101504654A (zh) * | 2009-03-17 | 2009-08-12 | 东南大学 | 一种实现数据库模式自动匹配的方法 |
CN102508767A (zh) * | 2011-09-30 | 2012-06-20 | 东南大学 | 一种基于形式概念分析的软件维护方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103441767A (zh) | 2013-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deng et al. | PrePost+: An efficient N-lists-based algorithm for mining frequent itemsets via Children–Parent Equivalence pruning | |
CN110188979B (zh) | 水行业应急决策生成方法及装置 | |
CN104462582B (zh) | 一种基于结构和内容二级过滤的Web数据相似性检测方法 | |
CN107766555A (zh) | 基于软约束无监督型跨模态哈希的图像检索方法 | |
Zhang et al. | Singular neutrosophic extended triplet groups and generalized groups | |
CN104765872A (zh) | 一种基于集成哈希编码的快速图像检索方法 | |
CN107609469B (zh) | 社会网络关联用户挖掘方法及系统 | |
CN113268370B (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN113240046B (zh) | 一种基于知识的视觉问答任务下的多模态信息融合方法 | |
KR101467707B1 (ko) | 지식 베이스의 개체 매칭 방법 및 이를 위한 장치 | |
US10860625B2 (en) | Method for semantic indexing of big data using a multidimensional, hierarchical scheme | |
Zou et al. | A fast incremental algorithm for deleting objects from a concept lattice | |
CN103441767B (zh) | 一种基于形式概念分析理论的完全格无损压缩存储方法 | |
Wu et al. | Storybase: Towards building a knowledge base for news events | |
CN104268270A (zh) | 基于MapReduce挖掘海量社交网络数据中三角形的方法 | |
CN105426460A (zh) | 科研信息管理方法 | |
Wang et al. | EGBM: an ensemble gradient boost machine for lost circulation prediction | |
HOOSHSADAT et al. | Uapriori: an algorithm for finding sequential patterns in probabilistic data | |
Liu et al. | Distributed and real-time query framework for processing participatory sensing data streams | |
Kaushal et al. | Comparative study of recent sequential pattern mining algorithms on web clickstream data | |
Liang et al. | A new lattice structure and method for extracting association rules based on concept lattice | |
Irawan et al. | Visual research landscape of surface water and groundwater interactions (1980-2017) | |
CN102663142B (zh) | 一种知识抽取的方法 | |
CN103544224A (zh) | 一种收养关系信息存储表示方法、系统及设备 | |
CN114817639B (zh) | 基于对比学习的网页图卷积文档排序方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160427 Termination date: 20190826 |
|
CF01 | Termination of patent right due to non-payment of annual fee |