CN106528595A

CN106528595A - 基于网站首页内容的领域信息收集和关联方法

Info

Publication number: CN106528595A
Application number: CN201610844199.5A
Authority: CN
Inventors: 谢能付; 郝心宁; 孙巍; 张学福; 姜丽华
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2017-03-22
Anticipated expiration: 2036-09-23
Also published as: CN106528595B

Abstract

本发明属于互联网技术领域，具体说，涉及一种基于网站首页内容的领域信息收集和关联方法，包括：基于领域概念空间，进行网站首页内容的网站信息领域判别，进而完成领域信息收集；基于领域概念空间，对收集的页面内容进行领域信息分类，进而完成领域信息关联。本发明采用概念空间形成领域概念描述，基于网页首页信息判别进行领域信息收集，不同网站节点以概念空间为基础组成关联网络，能够使用户快速、准确定位到所需要的领域信息簇。

Description

基于网站首页内容的领域信息收集和关联方法

技术领域

本发明属于互联网技术领域，具体说，涉及一种基于网站首页内容的领域信息收集和关联方法。

背景技术

当今的互联网包含了数量越来越大的信息，特别是专业领域网站越来越多，存在着大量内容相关信息。但是，由于这些专业网站的信息是通过大量超文本链接组成的，而且有可能彼此没有关联，导致用户快速定位到所需要的领域信息簇非常困难。目前，解决这一问题的一个重要途径是让搜索引擎进行基于关键字搜索。但是，这种方法通常会导致搜索的结果出现无效网页，特别用户在查找专业信息时，信息簇定位非常困难，而且信息时效性差。

发明内容

本发明的目的在于提供一种基于网站首页内容的领域信息收集和关联方法，以解决上述问题。

本发明的实施例提供了一种基于网站首页内容的领域信息收集和关联方法，包括：

基于领域概念空间，进行网站首页内容的网站信息领域判别，进而完成领域信息收集；

基于领域概念空间，对收集的页面内容进行领域信息分类，进而完成领域信息关联。

进一步，基于领域概念空间进行网站首页内容的网站信息领域判别进而完成领域信息收集具体包括：

1)根据领域特点，构建领域概念空间，并将网站中的页面信息作为概念的实例；

2)定义领域网站的URI种子集合；

3)根据URI种子集合下载网站首页，当网页内容小于10k时，提取首页中的二级页面，作为首页内容；

4)对网站首页的内容进行领域性判断。

5)以属于该领域的所述首页为主线，下载层次深度小于5的所有网页信息，并根据页面特点将该网页信息区分为栏目链接页面和内容页面，保存在数据库中。

进一步，步骤4)具体包括：

提取首页内容中的所有url链接，形成url链接集合S＝{<title，uri>}形式；

对所有的title进行切词，提取来自概念空间的全部概念集合{w_i}，其中；S表示为{{w_i}，url}>；

计算概念w所属领域度，计算公式如下：

式中，P为该首页属于所述领域的概率，N为url链接集合S元素个数，w_m为概念所属领域度，K_j为S中第j个元素的title的切词后的词语个数；

将P与给定的阈值t进行比较，如果P大于阈值t，判定所述首页属于该领域，其中，t的取值在0.3-05之间；

进一步，基于领域概念空间对收集的页面内容进行领域信息分类进而完成领域信息关联具体包括：

(1)提取数据库的内容页面，并把该页面作为概念空间中的实例，采用分词算法提取所有的词语，将领域词语组成该实例的内涵描述集，计算领域词的语词频大小，并提取前8-15个词频较大的领域词语；其中，提取的该词语包括题目词语和内容描述词语，该题目词语的权重为5-8，该内容描述词语的权重为2；

(2)采用SVM算法构建多标签实例归类模型，根据实例提取的词语和权重构成该实例的向量空间，基于多标签实例归类模型计算其所属每个类别的概率P，当P＞1/(n-1)时，将该实例归结到相应类别中，并将该实例保存到知识库；同时，将类标识保存至该实例中，所述类标识具有唯一标识ID号；其中，归属多个类的实例单独用一张映射表来关联；

(3)获取实例的关系集合，包括：对实例i进行扫描，找到实例i所属概念C，根据概念C获取关系集合R；

(4)获取关系实例，包括：基于关系集合R，对其中一个关系r，在对应约束概念中所有实例进行扫描，对于已具有关系的实例，当其实例对应实例i所属概念的实例时，对该实例进行排除，根据每个实例标题所构成的专业词语与实例i标题进行相似性比较；其中，相似性比较采用汉明距离，当距离大于预设阈值时，将该实例归于实例i的关系r中；

(5)获取关联实例，包括：基于实例i的关系对象集合o，对关系对象集合o的所有实例，采用K-mean聚类算法进行聚类，其中，聚类的类别个数为对象集合o的数目除以3得到的整数N，如果整数N等于1，将关系对象集合o中的所有实例关联到关系r中，如果N大于1，则将实例数量最大的类别中所有实例关联到关系r中；

(6)对关系集合R的所有关系重复步骤4)、5)，直到实例i关系计算完成。

与现有技术相比本发明的有益效果是：采用概念空间形成领域概念描述，基于网页首页信息判别进行领域信息收集，不同网站节点以概念空间为基础组成关联网络，能够使用户快速、准确定位到所需要的领域信息簇。

附图说明

图1是本发明基于网站首页内容的领域信息收集和关联方法的流程图；

图2是本发明基于网站首页内容的领域信息收集和关联装置的结构框图。

具体实施方式

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

参图1所示，图1是本发明基于网站首页内容的领域信息收集和关联方法的流程图。

本实施例提供了一种基于网站首页内容的领域信息收集和关联方法，包括：

步骤S1，基于领域概念空间，进行网站首页内容的网站信息领域判别，进而完成领域信息收集；

概念空间构建的目标是捕捉相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。

在概念空间中，最基本的关系是is-a(上下位关系)，也包含大量的关系。这些关系用来描述不同的类或实例之间的相互关系，如整体部分关系、同义关系、因果关系等等，根据关系的扩展，其概念结构空间的定义为：

概念空间是一个3元组CS＝(C，H，R)，其中：

(1)C是一个非空的概念集合；

(2)是C上的一个二元关系，满足传递性、非自反性、反对称性。我们称H为C上的继承(或层次)关系。

(3)R＝{R₁，R₂，…，R_n}，其中称R_i为C中概念间的非层次关系，满足R_i∩H＝φ。

概念空间主干通常表现为本体的概念层次分类图，通常概念的层次越高，其语义就越抽象，共享程度也就越高。而底层概念较为具体，更贴近具体的领域应用。如果将H也看作R的一种特殊的关系，则概念结构空间简单表示为CS＝(C，R)。

步骤S2，基于领域概念空间，对收集的页面内容进行领域信息分类，进而完成领域信息关联。

在本实施例中，步骤S1具体包括：

2)定义领域网站的URI种子集合；

4)对网站首页的内容进行领域性判断，具体包括：

提取首页内容中的所有url链接，形成url链接集合S＝{<title，uri>}形式，对所有的title进行切词，提取来自概念空间的全部概念集合{w_i}；因此，S又可以表示为{{w_i}，url}>。为了判别一个领域网站的首页，需要计算概念w属于一个领域的程度，即概念所属领域度，本实施例采用本体中概念层次关系简单的计算，如果概念处于概念空间的k层，则词汇所属领域度为(k+1)/k。网站领域判别算法如下：

即根据下式计算该首页属于该领域的概率P：

式中，N为url链接集合S元素个数，w_m为概念所属领域度，K_j为S中第j个元素的title的切词后的词语个数，t为给定的阈值，t的取值在0.3-05之间；如果P大于阈值t，判定该首页属于所述领域。

5)以属于所述领域的该首页为主线，下载层次深度小于5的所有网页信息，并根据页面特点将该网页信息区分为栏目链接页面和内容页面，保存在数据库中。

在本实施例中，步骤S2具体包括：

1)提取数据库的内容页面，并把该页面作为概念空间中的实例，采用分词算法提取所有的词语，将领域词语组成该实例的内涵描述集，计算领域词的语词频大小，并提取前8-15个词频较大的领域词语；其中，提取的该词语包括题目词语和内容描述词语，该题目词语的权重为5-8，该内容描述词语的权重为2；

2)采用SVM算法构建多标签实例归类模型，利用自己的训练数据集，通过训练得到一个初始化的一对多SVM分类器，也就是，训练时依次把某个类别的样本归为一类，其他剩余的样本归为另一类，这样k个类别的样本就构造出了k个SVM，分类时将未知样本分类为具有最大分类函数值的那类，根据实例提取的词语和权重构成该实例的向量空间，基于多标签实例归类模型计算期所属每个类别的概率P，当P＞1/(n-1)时，将该实例归结到相应类别中，并将该实例保存到知识库；同时，将类标识保存至所述实例中，该类标识具有唯一标识ID号；其中，归属多个类的实例单独用一张映射表来关联；

3)获取实例的关系集合，包括：对实例i进行扫描，找到实例i所属概念C，根据概念C获取关系集合R；

4)获取关系实例，包括：基于关系集合R，对其中一个关系r，在对应约束概念中所有实例进行扫描，对于已具有关系的实例，当其实例对应实例i所属概念的实例时，对该实例进行排除，根据每个实例标题所构成的专业词语与实例i标题进行相似性比较；其中，相似性比较采用汉明距离，当距离大于预设阈值时，将所述实例归于实例i的关系r中；

5)获取关联实例，包括：基于实例i的关系对象集合o，对关系对象集合o的所有实例，采用K-mean聚类算法进行聚类，其中，聚类的类别个数为对象集合o的数目除以3得到的整数N，如果整数N等于1，将关系对象集合o中的所有实例关联到关系r中，如果N大于1，则将实例数量最大的类别中所有实例关联到关系r中；

6)对关系集合R的所有关系重复步骤4)、5)，直到实例i关系计算完成。

参图2所示，图2是本发明基于网站首页内容的领域信息收集和关联装置的结构框图。

本实施例还提供了一种基于网站首页内容的领域信息收集和关联装置，包括：领域信息收集模块10、领域信息分类模块20、领域信息关联模块30、领域概念空间40、数据库50及知识库60。

领域信息收集模块10用于基于领域概念空间40，进行网站首页内容的网站信息领域判别，进而完成领域信息收集.

基于领域概念空间40，领域信息分类模块20用于对收集的页面内容进行领域信息分类，进而通过领域信息关联模块30完成领域信息关联。

本实施例提供的基于网站首页内容的领域信息收集和关联装置作为上述领域信息收集和关联方法实现的载体，其功能还包括上述方法的其他具体内容，在此不再重复。

本实施例提供的领域信息收集和关联装置，采用概念空间形成领域概念描述，基于网页首页信息判别进行领域信息收集，不同网站节点以概念空间为基础组成关联网络，具有如下有益效果：

1)能够较快收集领域信息，同时保证用户搜索到信息具有领域性、全面性和正确性；

2)利用领域概念空间进行领域信息组织，便于用户搜索领域关联信息簇，信息片段之前能够语义关联，网页内容由一组词的内涵决定，词语位置和频率决定权重，并可保证网站首页内容描述的准确性，满足领域信息的需要；

3)基于领域概念空间为基础组的信息关联网络，并对收集领域信息进行相应的处理，保证了领域信息的一致性；

4)适用的范围广，可在知识管理、领域信息搜索、知识服务领域广泛适用。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种基于网站首页内容的领域信息收集和关联方法，其特征在于，包括：

2.根据权利要求1所述的基于网站首页内容的领域信息收集和关联方法，其特征在于，基于领域概念空间进行网站首页内容的网站信息领域判别进而完成领域信息收集具体包括：

2)定义领域网站的URI种子集合；

4)对网站首页的内容进行领域性判断。

5)以属于所述领域的所述首页为主线，下载层次深度小于5的所有网页信息，并根据页面特点将所述网页信息区分为栏目链接页面和内容页面，保存在数据库中。

3.根据权利要求2所述的基于网站首页内容的领域信息收集和关联方法，其特征在于，所述步骤4)具体包括：

提取首页内容中的所有url链接，形成url链接集合S＝{＜title，uri＞}形式；

对所有的title进行切词，提取来自概念空间的全部概念集合{w_i}，其中；S表示为{{w_i}，url}＞；

计算概念w所属领域度，计算公式如下：

式中，P为所述首页属于所述领域的概率，N为url链接集合S元素个数，w_m为概念所属领域度，K_j为S中第j个元素的title的切词后的词语个数；

将P与给定的阈值t进行比较，如果P大于阈值t，判定所述首页属于所述领域，其中，t的取值在0.3-05之间。

4.根据权利要求2所述的基于网站首页内容的领域信息收集和关联方法，其特征在于，基于领域概念空间对收集的页面内容进行领域信息分类进而完成领域信息关联具体包括：

(1)提取数据库的内容页面，并把所述页面作为概念空间中的实例，采用分词算法提取所有的词语，将领域词语组成所述实例的内涵描述集，计算领域词的语词频大小，并提取前8-15个词频较大的领域词语；其中，提取的所述词语包括题目词语和内容描述词语，所述题目词语的权重为5-8，所述内容描述词语的权重为2；

(2)采用SVM算法构建多标签实例归类模型，根据实例提取的词语和权重构成所述实例的向量空间，基于多标签实例归类模型计算其所属每个类别的概率P，当P＞1/(n-1)时，将所述实例归结到相应类别中，并将所述实例保存到知识库；同时，将类标识保存至所述实例中，所述类标识具有唯一标识ID号；其中，归属多个类的实例单独用一张映射表来关联；

(4)获取关系实例，包括：基于关系集合R，对其中一个关系r，在对应约束概念中所有实例进行扫描，对于已具有关系的实例，当其实例对应实例i所属概念的实例时，对所述实例进行排除，根据每个实例标题所构成的专业词语与实例i标题进行相似性比较；其中，相似性比较采用汉明距离，当距离大于预设阈值时，将所述实例归于实例i的关系r中；