CN112685661A

CN112685661A - 基于信息粒空间的信息组织方法、装置和设备

Info

Publication number: CN112685661A
Application number: CN202011599193.9A
Authority: CN
Inventors: 董晶; 黄海峰
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-20

Abstract

本申请涉及一种基于信息粒空间的信息组织方法、装置和设备。所述方法包括：首先建立信息粒空间模型，包括从视角入手，基于视角得到粒层和信息粒；之后基于待组织的信息，按照预设需求定义视角，并采用粗糙集、商空间、基于聚类的三种构造方法构造信息粒与粒层；最后将构造得到的信息粒采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，并将结果进一步关联形成多维关联。如此设置，即可对多源、无序、海量的信息构建信息粒空间，从而解决信息多源、无序、过载而导致的信息迷航问题，并且，与知识图谱方式相比，形成的关联知识系统具有低代价和灵活的动态演变能力，能够更好地满足用户的需求。

Description

基于信息粒空间的信息组织方法、装置和设备

技术领域

本申请涉及信息管理和信息服务技术领域，尤其涉及一种基于信息粒空间的信息组织方法、装置和设备。

背景技术

在网络环境下信息收集的过程中，学习者从一个位置通过超链接达到另一个位置，经常会被无关信息所吸引，经过多次跳转后难以回到当初的位置，或者已经忘记了自己的最初学习目标，迷失在网络之中，该现象称为“信息迷航”。

目前，信息迷航问题通常是采用知识图谱的处理方法，将信息经过语义化处理、关联后形成知识图谱。不过，在对多源、无序、海量信息进行处理时，知识图谱的处理方法存在一些问题，比如在对灵活的伸缩性、切割性和精细化信息服务导航适应性要求较高时，不能很好地满足需求。

发明内容

本申请提供一种基于信息粒空间的信息组织方法、装置和设备，以解决现有的信息组织方法不能很好地满足灵活的伸缩性、切割性和精细化信息服务导航适应性的需求的问题。

本申请的上述目的是通过以下技术方案实现的：

第一方面，本申请实施例提供一种基于信息粒空间的信息组织方法，包括：

建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒；其中，信息粒之间、粒层之间、视角之间按照预设的不同准则，形成多重关联关系；所有信息粒组成的集合即为信息粒空间模型；

基于待组织的信息，按照预设需求定义所述视角；

基于待组织的信息，采用粗糙集、商空间、基于聚类的三种构造方法构造所述信息粒与所述粒层；

将构造得到的所述信息粒进行关联，具体包括：采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，并将结果通过进一步关联形成多维关联。

可选的，在建立信息粒空间模型时，将粒层分解后得到的所述信息粒具有内部特征或属性、外部特征或属性以及环境特征或属性；所述内部特征或属性用于反应粒中元素的交互作用；所述外部特征或属性即信息粒自身特征与粒层特征的关系，用于表示一个信息粒与其它信息粒的交互作用；所述环境特征或属性用于表示一个粒子在特殊环境下存在的内部特征或属性以及外部特征或属性。

可选的，采用一个三元组G(A，U，F)来描述一个信息粒，其中，A表示信息粒G中各种对象的集合，也即论域；U表示对象的值域；F表示从论域A到值域U的一个映射；所述值域U包括内部值域、外部值域和环境值域。

可选的，所述粗糙集采用等价关系诱导，由不可区分元素构成的等价类形成一个信息粒；其中，对于所述论域的任意子集，如不恰好为某些等价类的并，则采用上下近似的方法表示该子集。

可选的，所述商空间采用商空间中对拓扑空间的表示方法，用商集表示不同的粒度模型，用不同的不可区分关系表示信息粒的不同粒度，其中，粒度采用基于属性、基于投影和基于结构三种划分方法确定。

可选的，所述基于聚类的方法先确定对象间相似程度的度量，采用划分聚类的方法对所述论域进行分割，使得分割后同一类的对象之间相似程度尽量大，不同类的对象之间相似程度尽量小。

可选的，所述信息粒由原子粒或复合粒构成；所述复合粒包括多个原子粒，所述原子粒的大小设定与待解决的问题相关。

可选的，所述采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，结果通过进一步关联形成多维关联，具体包括：

将粒空间模型的值域对应于项集，属性对应于元素；

设定支持度要求；

不断利用k-项集探索(k+1)-项集；其中，k最初取值为1，并不断递增。

第二方面，本申请实施例还提供一种基于信息粒空间的信息组织装置，其包括：

模型建立模块，用于建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒；其中，信息粒之间、粒层之间、视角之间按照预设的不同准则，形成多重关联关系；所有信息粒组成的集合即为信息粒空间模型；

视角定义模块，用于基于待组织的信息，按照预设需求定义所述视角；

构造模块，用于基于待组织的信息，采用粗糙集、商空间、基于聚类的三种构造方法构造所述信息粒与所述粒层；

关联模块，用于将构造得到的所述信息粒进行关联，具体包括：采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，并将结果通过进一步关联形成多维关联。

第三方面，本申请实施例还提供一种基于信息粒空间的信息组织设备，其包括：

存储器和与所述存储器相连接的处理器；

所述存储器，用于存储程序，所述程序至少用于实现如第一方面任一项所述的方法；

所述处理器，用于调用并执行所述存储器存储的所述程序。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请的实施例提供的技术方案中，首先，建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒，从而得到所有信息粒组成的集合即为信息粒空间；之后，基于待组织的信息，按照预设需求定义视角，并采用粗糙集、商空间、基于聚类的三种构造方法构造信息粒与粒层；最后，将构造得到的信息粒采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，结果通过进一步关联形成多维关联，以使各信息粒相关联。如此设置，即可对多源、无序、海量的信息构建信息粒空间，从而解决信息多源、无序、过载而导致的信息迷航问题，并且，与知识图谱方式相比，信息粒空间形成的关联知识系统，具有低代价和灵活的动态演变能力，包括扩展、裁剪、更新等，能够更好地满足用户的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种基于信息粒空间的信息组织方法的流程示意图；

图2为本申请实施例示出的一种信息粒空间模型的示意图；

图3为本申请实施例示出的一种值域矩阵的示意图；

图4为本申请实施例示出的一种人文视角的粒层和粒子(信息粒)的构造示意图；

图5为本申请实施例提供的一种基于信息粒空间的信息组织装置的结构示意图；

图6为本申请实施例提供的一种基于信息粒空间的信息组织设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

为了解决背景技术中提到的问题，本申请提供一种基于信息粒空间的信息组织方法以及应用该方法的装置和设备。以下通过实施例进行详细说明。

实施例

参照图1，图1为本申请实施例提供的一种基于信息粒空间的信息组织方法的流程示意图。如图1所示，该方法至少包括以下步骤：

S101：建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒；其中，信息粒之间、粒层之间、视角之间按照预设的不同准则，形成多重关联关系；所有信息粒组成的集合即为信息粒空间；

具体的，采用自顶向下(top-down)的方法的意义是，将复杂的大问题分解为相对简单的小问题，找出每个问题的关键和重点所在，然后用精确的思维定性、定量地去描述问题。其核心本质是"分解"。基于上述原理，本实施例中，通过视角、粒层、信息粒三个逐级降低的层次去建立信息粒空间模型，得到模型结果如图2所示，图2中，整个信息粒空间模型首先包括多个视角，各视角包括多个粒层(需要注意的是，图2中示出的各视角均包括m个粒层，但这仅是示例，实际上不同视角可以包括不同数量的粒层)，各粒层包括多个粒子，也即信息粒。并且进一步的，为了准确表示每个信息粒，如图2所示，在建立信息粒空间模型时，将粒层分解后得到的各信息粒均具有内部特征或属性(图2中简写为内部属性)、外部特征或属性(图2中简写为外部属性)以及环境特征或属性(图2中简写为环境属性)；其中，内部特征或属性用于反应粒中元素的交互作用；外部特征或属性即信息粒自身特征与粒层特征的关系，用于表示一个信息粒与其它信息粒的交互作用；环境特征或属性用于表示一个粒子在特殊环境下存在的内部特征或属性以及外部特征或属性。

此外，进一步的，本实施例中采用一个三元组G(A，U，F)来描述一个信息粒，其中，A表示信息粒G中各种对象的集合，也即论域；U表示对象的值域；F表示从论域A到值域U的一个映射；在上述方案的基础上，相应的，值域U可以进一步包括内部值域、外部值域和环境值域，可以表示为值域矩阵：Ui(内部值域)、Ue(外部值域)和Uc(环境值域)，矩阵如图3所示。

通过上述步骤得到的所有的信息粒G所组成的集合即称为信息粒空间模型。并且，随着信息粒中数据的变化，信息粒、粒层、粒空间结构动态演变，呈现动态变化，也即具有灵活的动态演变能力，便于扩展、裁剪、更新等。

S102：基于待组织的信息，按照预设需求定义所述视角；

具体的，上述步骤中构建了信息粒空间模型，本步骤在此基础上，首先定义视角，定义的视角不同，则最终得到的结果不同，因此需要基于待组织的信息按照设定的需求定义视角。视角可以称为信息粒空间(模型)的子空间，也即子粒空间，子粒空间按照视角再进一步划分为不同粒层。

为了便于更好地理解，进行举例说明。例如，在对城市信息进行组织划分时，对于杭州这个城市，可以采用“景区”这一视角，也即按照景区划分为不同的子粒空间，可以得到如西湖子粒空间、灵隐寺子粒空间等等。也可以按照不同服务类别定义视角，可以得到如酒店、美食、自然风光、人文历史、交通等视角，每个视角形成一个粒层。

S103：基于待组织的信息，采用粗糙集、商空间、基于聚类的三种构造方法构造所述信息粒与所述粒层；

具体的，粗糙集理论是用于处理不确定性的工具。本实施例中，粗糙集采用等价关系诱导，由不可区分元素构成的等价类形成一个信息粒；其中，对于所述论域的任意子集，如不恰好为某些等价类的并(并集)，则采用上下近似的方法表示该子集。上下近似包括上近似和下近似，其具体确定过程为现有技术，对此不再进行详细说明。

此外，商空间采用商空间中对拓扑空间的表示方法，用商集表示不同的粒度模型，用不同的不可区分关系表示信息粒的不同粒度，其中，粒度采用基于属性(对象的性质与对象之间关系)、基于投影(某关系R的投影是指从关系R中选择出若干属性列组成新的关系)和基于结构(诸要素所固有的相对稳定的组织方式或联结方式)三种划分方法确定，并且，相应的确定方法也可以参照现有技术，此处不再进行详细说明。

此外，基于聚类的方法则是先确定对象间相似程度的度量，然后采用划分聚类的方法对论域A进行分割，使得分割后同一类的对象之间相似程度尽量大，不同类的对象之间相似程度尽量小。也即，同一类的对象之间相似程度大于设定的较大相似程度，不同类的对象之间相似程度小于设定的较小相似程度。其中，可以采用的聚类算法有多种，例如划分方法(partitioning methods)、层次方法(hierarchical methods)、基于密度的方法(density-based methods)等等，可以根据实际需要进行选择。

以人文视角的粒层和粒子(信息粒)的构造为例，如图4所示，人文粒层进一步分为人物、事件、建筑、技艺、艺术、民俗等粒子。

进一步的，信息粒由原子粒或复合粒构成；复合粒包括多个原子粒，而原子粒的大小设定与待解决的问题相关。换言之，对于某个(某些)信息粒，在某些情境下可设定为原子粒，在其他情境下可设定为复合粒。例如，北京故宫可以是一个复合粒，也可以是一个原子粒：如果粗粒度统计中国历史建筑遗产名录，包括名称、位置、建筑年代和功用等，则北京故宫可以是一个原子粒；而如果细粒度整理中国历史建筑遗产名录，北京故宫就可以是一个复合粒，可再把故宫中的每个建筑作为一个原子粒。

此外，在具体实现时，原子粒具有内部属性、外部属性和环境属性。例如，北京故宫太和殿，可作为北京故宫的一个原子粒，其中诸如太和殿功用、建筑年代、建筑布局、建筑造型、建筑装饰、建筑色彩和建筑陈设等为内部属性。外部属性可以包括太和殿在故宫建筑中的地理位置、与故宫其他建筑的关系、太和殿中的历史事件典故等。而太和殿的环境属性可以包括中外建筑中与太和殿具有类似功用的建筑、太和殿在国际建筑艺术上的地位、历史文化价值等等。

S104：将构造得到的所述信息粒进行关联，具体包括：采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，并将结果通过进一步关联形成多维关联。

具体的，Apriori算法是一个关联规则挖掘算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则，其过程由连接(类矩阵运算)与剪枝(去掉那些没必要的中间结果)组成。

一些实施例中，该步骤具体包括，首先将粒空间模型的值域对应于项集，属性对应于元素，然后设定支持度要求，之后不断利用k-项集探索(k+1)-项集；其中，k最初取值为1，并不断递增。此外，项的集合称为项集，包含k个项的项集称为k-项集。

也就是说，该步骤中，在将粒空间模型的值域对应于项集，属性对应于元素，并且设定设定支持度要求之后，首先生成所有单个元素的项集列表，接着扫描数据集来看哪些项集满足最小支持度要求，不满足最小支持度的集合会被去掉；然后，对剩下来的集合进行组合以生成包含两个元素的项集；接着，再重新扫描事务数据集，去掉不满足最小支持度的项集；该过程重复进行直到所有项集都被去掉。即在所有事务中找出频繁1-项集的集合，记做L1，用L1找出频繁2-项集的集合L2，用L2找出L3，依次执行下去，直到不能找到频繁k-项集。其中，如果项集I的相对支持度满足预定义的最小支持度阈值，则称项集I是频繁项集。

通过上述方案，也即，首先，建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒，从而得到所有信息粒组成的集合即为信息粒空间；之后，基于待组织的信息，按照预设需求定义视角，并采用粗糙集、商空间、基于聚类的三种构造方法构造信息粒与粒层；最后，将构造得到的信息粒采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，结果通过进一步关联形成多维关联，以使各信息粒相关联。如此设置，即可对多源、无序、海量的信息构建信息粒空间结构，从而解决信息多源、无序、过载而导致的信息迷航问题，并且，与知识图谱方式相比，信息粒空间形成的关联知识系统，具有低代价和灵活的动态演变能力，包括扩展、裁剪、更新等，能够更好地满足用户的需求。

此外，对应于上述实施例提供的基于信息粒空间的信息组织方法，本申请实施例还提供一种基于信息粒空间的信息组织装置。该装置为用于实现上述方法的设备中基于软件、硬件或其结合的功能模块。

参照图5，图5本申请实施例提供的一种基于信息粒空间的信息组织装置的结构示意图。如图5所示，该装置至少包括：

模型建立模块51，用于建立信息粒空间模型，具体包括：采用自顶向下的方法，从视角入手，基于视角，进行粒子分层，得到粒层，将粒层进一步分解为信息粒；其中，信息粒之间、粒层之间、视角之间按照预设的不同准则，形成多重关联关系；所有信息粒组成的集合即为信息粒空间模型；

视角定义模块52，用于基于待组织的信息，按照预设需求定义所述视角；

构造模块53，用于基于待组织的信息，采用粗糙集、商空间、基于聚类的三种构造方法构造所述信息粒与所述粒层；

关联模块54，用于将构造得到的所述信息粒进行关联，具体包括：采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，并将结果通过进一步关联形成多维关联。

其中，上述装置中各模块所执行的步骤的具体实现方法可以参照前述方法实施例，此处不再赘述。

此外，对应于上述实施例提供的基于信息粒空间的信息组织方法，本申请实施例还提供一种基于信息粒空间的信息组织设备。该设备即为用于执行上述方法的智能设备，例如PC等。

参照图6，图6本申请实施例提供的一种基于信息粒空间的信息组织设备的结构示意图。如图6所示，该设备至少包括：

存储器61和与存储器61相连接的处理器62；

存储器61用于存储程序，所述程序至少用于实现上述方法实施例所述的基于信息粒空间的信息组织方法；

处理器62用于调用并执行存储器61存储的所述程序。

其中，所述程序所实现的方法的各步骤的具体实现方法可以参照前述方法实施例，此处不再赘述。

采用上述方案，即可对多源、无序、海量的信息构建信息粒空间，从而解决信息多源、无序、过载而导致的信息迷航问题，并且，与知识图谱方式相比，信息粒空间形成的关联知识系统，具有低代价和灵活的动态演变能力，包括扩展、裁剪、更新等，能够更好地满足用户的需求。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于信息粒空间的信息组织方法，其特征在于，包括：

基于待组织的信息，按照预设需求定义所述视角；

2.根据权利要求1所述的方法，其特征在于，在建立信息粒空间模型时，将粒层分解后得到的所述信息粒具有内部特征或属性、外部特征或属性以及环境特征或属性；所述内部特征或属性用于反应粒中元素的交互作用；所述外部特征或属性即信息粒自身特征与粒层特征的关系，用于表示一个信息粒与其它信息粒的交互作用；所述环境特征或属性用于表示一个粒子在特殊环境下存在的内部特征或属性以及外部特征或属性。

3.根据权利要求2所述的方法，其特征在于，采用一个三元组G(A，U，F)来描述一个信息粒，其中，A表示信息粒G中各种对象的集合，也即论域；U表示对象的值域；F表示从论域A到值域U的一个映射；所述值域U包括内部值域、外部值域和环境值域。

4.根据权利要求3所述的方法，其特征在于，所述粗糙集采用等价关系诱导，由不可区分元素构成的等价类形成一个信息粒；其中，对于所述论域的任意子集，如不恰好为某些等价类的并，则采用上下近似的方法表示该子集。

5.根据权利要求3所述的方法，其特征在于，所述商空间采用商空间中对拓扑空间的表示方法，用商集表示不同的粒度模型，用不同的不可区分关系表示信息粒的不同粒度，其中，粒度采用基于属性、基于投影和基于结构三种划分方法确定。

6.根据权利要求3所述的方法，其特征在于，所述基于聚类的方法先确定对象间相似程度的度量，采用划分聚类的方法对所述论域进行分割，使得分割后同一类的对象之间相似程度尽量大，不同类的对象之间相似程度尽量小。

7.根据权利要求4-6任一项所述的方法，其特征在于，所述信息粒由原子粒或复合粒构成；所述复合粒包括多个原子粒，所述原子粒的大小设定与待解决的问题相关。

8.根据权利要求7所述的方法，其特征在于，所述采用基于Apriori的使用逐层搜索的迭代方法进行单类或多类属性行关联，结果通过进一步关联形成多维关联，具体包括：

将粒空间模型的值域对应于项集，属性对应于元素；

设定支持度要求；

9.一种基于信息粒空间的信息组织装置，其特征在于，包括：

10.一种基于信息粒空间的信息组织设备，其特征在于，包括：

存储器和与所述存储器相连接的处理器；

所述存储器，用于存储程序，所述程序至少用于实现如权利要求1-8任一项所述的方法；

所述处理器，用于调用并执行所述存储器存储的所述程序。