CN1180377C

CN1180377C - 一种对半结构化文档集进行文本挖掘的方法

Info

Publication number: CN1180377C
Application number: CNB021290458A
Authority: CN
Inventors: 杨建武; 陈晓鸥; 吴於茜; 万小军; 王选; 陈堃銶
Original assignee: Inst Of Computer Science & Technology Peking University; BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Current assignee: Peking University; Peking University Founder Group Co Ltd
Priority date: 2002-08-29
Filing date: 2002-08-29
Publication date: 2004-12-15
Anticipated expiration: 2022-08-29
Also published as: CN1399228A

Abstract

本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷，提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘，由于充分的利用了半结构化文档中的结构信息与链接信息，挖掘效果大大改进。本方法可广泛地应用于智能信息处理。

Description

一种对半结构化文档集进行文本挖掘的方法

技术领域

本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。

背景技术

随着因特网的迅速发展，HTML、XML等半结构化文档大量出现，半结构化文档既不同于无结构的纯文本文档也不同于结构规整的关系数据库中的数据。如何从这样大量的文档中快速有效地获得人们所需要的文档以及如何发现这些文档中的隐含的规律便是人们所面临的问题。对半结构化文档集进行分析挖掘就是用来解决这些技术问题的方法。

目前，对半结构化文档的挖掘主要有两类方法：一类是将半结构化文档视为无结构的纯文本文档，采用传统的文本挖掘方法对半结构化文档进行文本挖掘；另一类是根据半结构化文档的新特征提出新的挖掘方法。在传统的文本挖掘中，将文档作为无结构的数据，以词条为单位进行处理，提出并被应用的文档模型包括：布尔模型、概率模型、向量空间模型。采用这些模型对半结构化文档集进行挖掘时，挖掘效果并不理想，因为半结构化文档的结构信息与链接信息没有被利用。2000年，D.Guillaume等人在文章《XML文档聚类》(DamienGuillaume and Fionn Murtagh.Clustering of XML documents.Computer PhysicsCommunications(127)2000.215～227)中公开了一种XML文档聚类技术，他们将XML文档中的元素作为节点，文档中XLINK作为边，构造拓扑图，通过给拓扑图的边赋予不同的权重，采用边剪切最小原理对拓扑图进行分割，从而实现对XML文档的聚类。2000年，Jeonghee Yi等人在美国波斯顿的数据挖掘国际会议上(Jeonghee Yi，Neel Sundaresan.A Classifier fo Semi-StructuredDocuments.KDD 2000，Boston，MA USA)公开了一种利用半结构化文档的结构信息对文档向量空间模型进行扩展的向量模型，将文档元素用嵌套定义的向量进行描述，并给出了基于该扩展模型利用概率统计进行文档分类的算法。这些技术中，仅使用了半结构化文档的部分信息，没有充分利用半结构化文档中的信息以便获得好的文本挖掘效果，更没有形成统一的数学模型。

发明内容

针对现有技术中存在的问题，本发明的目的是利用半结构化文档的特点，提出一个数学模型，以及基于该模型对半结构化文档集进行文本挖掘的方法。本方法对半结构化文档中的字词信息、结构信息、链接信息采用统一的数学模型进行描述，利用这一方法对半结构化文档进行文本挖掘，可以大大提高挖掘效果。

为达到以上目的，本发明采用的技术方案是：一种基于结构链按向量模型对半结构化文档集进行文本挖掘的方法，包括以下步骤：

第一、读入文档，并对文档进行结构分析，分别判断文档各节点是否在结构树中已存在，如果结构树中还没有该节点信息，则需要给结构树添加该节点信息，并给节点一个唯一标识号；

第二、如果当前分析的节点包含子节点，则继续分析其第一个子节点，直到不包含子节点的数据节点；如果当前节点为数据节点，则对数据节点的文字段进行分词，并根据所处的节点位置，形成结构向量的一个分量；

第三、如果该文字段包含链接信息，则读入其链接资源，并获取其链接资源的结构向量；

第四、分析器继续找其下一个兄弟节点进行分析，如果已不存在下一个兄弟节点则向上层回溯，找其父节点的下一个兄弟节点，直到文档分析结束；

第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量，将链接资源的结构向量拼合成当前文档的链接向量，最后形成当前文档的结构链按资源，输入到挖掘模块，进行文本的挖掘分析。

本发明的效果在于针对了半结构化文档的特点，提出一种新的对半结构化文本挖掘的方法。该方法能有效地利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示，从而大大提高了挖掘的效果，该方法可广泛应用于智能信息处理领域。

附图说明

图1是本发明的流程图。

图2是文档结构树示意图；

图3是抽象的文档结构树示意图；

具体实施方式

下面结合附图对本发明作进一步地描述。我们选用了中国百科术语数据库中的部分术语词条文档作为实施例数据，每个术语词条文档是一个半结构化XML文档。

第一、如图1所示，首先需要读入文档，并对文档进行结构分析，如图2所示。分别判断文档各节点是否在结构树中已存在，如果结构树中还没有该节点信息，则需要给结构树添加该节点信息，并给节点一个唯一标示号，如图3所示。

第二、如果当前分析的节点包含子节点，则继续分析其第一个子节点，直到不包含子节点的数据节点；如果当前节点为数据节点，对数据节点的文字段进行分词，并根据所处的节点位置，形成结构向量的一个分量；

第五、将这一过程中的所有结构向量分支组合成为该文档的结构向量，将链接资源的结构向量拼合成当前文档的链接资源，最后形成当前文档的结构链接资源，输入到K-Means聚类模块(数据挖掘模块的一种)，进行文本的挖掘分析。

为了验证本发明的有效性，我们采用基于现有向量空间模型TFIDF与本发明提出的基于结构链接向量模型SLVM的方法进行了对比试验。聚类质量的评价算法采用由Bjorner Larsen等人提出的Fmeasure算法，其F值越接近1，表明聚类效果越好。试验结果如表1所示。

实验表明：采用传统的方法，其F值落在0.65～0.73之间；而采用本发明提出的方法，由于充分利用了文档中的结构信息与链接信息，聚类结果的F值提高到0.82～0.86。

表1聚类对比实验结果

	基于向量空间模型TFIDF			基于结构链接向量模型
	基于向量空间模型TFIDF			基于结构链接向量模型			Mi	Nj	M(ni，j)	M(F(i，j))	Nj	M(ni，j)	M(F(i，j))
63	60	37	0.602	59	52	0.852	Mi	Nj	M(ni，j)	M(F(i，j))	Nj	M(ni，j)	M(F(i，j))
63	60	37	0.602	59	52	0.852	76	69	53	0.731	71	62	0.844
82	88	62	0.729	89	79	0.924	76	69	53	0.731	71	62	0.844
82	88	62	0.729	89	79	0.924	86	87	68	0.786	86	74	0.860
73	67	49	0.700	70	60	0.839	86	87	68	0.786	86	74	0.860
73	67	49	0.700	70	60	0.839	61	78	41	0.590	69	53	0.815
45	45	32	0.711	42	37	0.851	61	78	41	0.590	69	53	0.815
45	45	32	0.711	42	37	0.851	54	63	38	0.650	58	41	0.732
66	74	52	0.743	71	58	0.847	54	63	38	0.650	58	41	0.732
66	74	52	0.743	71	58	0.847	38	28	20	0.606	35	31	0.849
76	68	53	0.736	72	64	0.865	38	28	20	0.606	35	31	0.849
76	68	53	0.736	72	64	0.865	42	35	23	0.597	40	32	0.780
	F＝0.69			F＝0.84			42	35	23	0.597	40	32	0.780

Claims

1.一种对半结构化文档集进行文本挖掘的方法，包括以下步骤：

第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量，将链接资源的结构向量拼合成当前文档的链接向量，最后形成当前文档的结构链接资源，输入到挖掘模块，进行文本的挖掘分析。