CN1180377C - 一种对半结构化文档集进行文本挖掘的方法 - Google Patents

一种对半结构化文档集进行文本挖掘的方法 Download PDF

Info

Publication number
CN1180377C
CN1180377C CNB021290458A CN02129045A CN1180377C CN 1180377 C CN1180377 C CN 1180377C CN B021290458 A CNB021290458 A CN B021290458A CN 02129045 A CN02129045 A CN 02129045A CN 1180377 C CN1180377 C CN 1180377C
Authority
CN
China
Prior art keywords
node
document
semi
information
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB021290458A
Other languages
English (en)
Other versions
CN1399228A (zh
Inventor
杨建武
陈晓鸥
吴於茜
万小军
王选
陈堃銶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Peking University Founder Group Co Ltd
Original Assignee
Inst Of Computer Science & Technology Peking University
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inst Of Computer Science & Technology Peking University, BEIDA FANGZHENG TECHN INST Co Ltd BEIJING filed Critical Inst Of Computer Science & Technology Peking University
Priority to CNB021290458A priority Critical patent/CN1180377C/zh
Publication of CN1399228A publication Critical patent/CN1399228A/zh
Application granted granted Critical
Publication of CN1180377C publication Critical patent/CN1180377C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷,提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘,由于充分的利用了半结构化文档中的结构信息与链接信息,挖掘效果大大改进。本方法可广泛地应用于智能信息处理。

Description

一种对半结构化文档集进行文本挖掘的方法
技术领域
本发明属于智能信息处理技术,具体涉及一种对半结构化文档集进行文本挖掘的方法。
背景技术
随着因特网的迅速发展,HTML、XML等半结构化文档大量出现,半结构化文档既不同于无结构的纯文本文档也不同于结构规整的关系数据库中的数据。如何从这样大量的文档中快速有效地获得人们所需要的文档以及如何发现这些文档中的隐含的规律便是人们所面临的问题。对半结构化文档集进行分析挖掘就是用来解决这些技术问题的方法。
目前,对半结构化文档的挖掘主要有两类方法:一类是将半结构化文档视为无结构的纯文本文档,采用传统的文本挖掘方法对半结构化文档进行文本挖掘;另一类是根据半结构化文档的新特征提出新的挖掘方法。在传统的文本挖掘中,将文档作为无结构的数据,以词条为单位进行处理,提出并被应用的文档模型包括:布尔模型、概率模型、向量空间模型。采用这些模型对半结构化文档集进行挖掘时,挖掘效果并不理想,因为半结构化文档的结构信息与链接信息没有被利用。2000年,D.Guillaume等人在文章《XML文档聚类》(DamienGuillaume and Fionn Murtagh.Clustering of XML documents.Computer PhysicsCommunications(127)2000.215~227)中公开了一种XML文档聚类技术,他们将XML文档中的元素作为节点,文档中XLINK作为边,构造拓扑图,通过给拓扑图的边赋予不同的权重,采用边剪切最小原理对拓扑图进行分割,从而实现对XML文档的聚类。2000年,Jeonghee Yi等人在美国波斯顿的数据挖掘国际会议上(Jeonghee Yi,Neel Sundaresan.A Classifier fo Semi-StructuredDocuments.KDD 2000,Boston,MA USA)公开了一种利用半结构化文档的结构信息对文档向量空间模型进行扩展的向量模型,将文档元素用嵌套定义的向量进行描述,并给出了基于该扩展模型利用概率统计进行文档分类的算法。这些技术中,仅使用了半结构化文档的部分信息,没有充分利用半结构化文档中的信息以便获得好的文本挖掘效果,更没有形成统一的数学模型。
发明内容
针对现有技术中存在的问题,本发明的目的是利用半结构化文档的特点,提出一个数学模型,以及基于该模型对半结构化文档集进行文本挖掘的方法。本方法对半结构化文档中的字词信息、结构信息、链接信息采用统一的数学模型进行描述,利用这一方法对半结构化文档进行文本挖掘,可以大大提高挖掘效果。
为达到以上目的,本发明采用的技术方案是:一种基于结构链按向量模型对半结构化文档集进行文本挖掘的方法,包括以下步骤:
第一、读入文档,并对文档进行结构分析,分别判断文档各节点是否在结构树中已存在,如果结构树中还没有该节点信息,则需要给结构树添加该节点信息,并给节点一个唯一标识号;
第二、如果当前分析的节点包含子节点,则继续分析其第一个子节点,直到不包含子节点的数据节点;如果当前节点为数据节点,则对数据节点的文字段进行分词,并根据所处的节点位置,形成结构向量的一个分量;
第三、如果该文字段包含链接信息,则读入其链接资源,并获取其链接资源的结构向量;
第四、分析器继续找其下一个兄弟节点进行分析,如果已不存在下一个兄弟节点则向上层回溯,找其父节点的下一个兄弟节点,直到文档分析结束;
第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量,将链接资源的结构向量拼合成当前文档的链接向量,最后形成当前文档的结构链按资源,输入到挖掘模块,进行文本的挖掘分析。
本发明的效果在于针对了半结构化文档的特点,提出一种新的对半结构化文本挖掘的方法。该方法能有效地利用半结构化文档中的字词信息、结构信息与链接信息,并以统一的数学模型进行表示,从而大大提高了挖掘的效果,该方法可广泛应用于智能信息处理领域。
附图说明
图1是本发明的流程图。
图2是文档结构树示意图;
图3是抽象的文档结构树示意图;
具体实施方式
下面结合附图对本发明作进一步地描述。我们选用了中国百科术语数据库中的部分术语词条文档作为实施例数据,每个术语词条文档是一个半结构化XML文档。
第一、如图1所示,首先需要读入文档,并对文档进行结构分析,如图2所示。分别判断文档各节点是否在结构树中已存在,如果结构树中还没有该节点信息,则需要给结构树添加该节点信息,并给节点一个唯一标示号,如图3所示。
第二、如果当前分析的节点包含子节点,则继续分析其第一个子节点,直到不包含子节点的数据节点;如果当前节点为数据节点,对数据节点的文字段进行分词,并根据所处的节点位置,形成结构向量的一个分量;
第三、如果该文字段包含链接信息,则读入其链接资源,并获取其链接资源的结构向量;
第四、分析器继续找其下一个兄弟节点进行分析,如果已不存在下一个兄弟节点则向上层回溯,找其父节点的下一个兄弟节点,直到文档分析结束;
第五、将这一过程中的所有结构向量分支组合成为该文档的结构向量,将链接资源的结构向量拼合成当前文档的链接资源,最后形成当前文档的结构链接资源,输入到K-Means聚类模块(数据挖掘模块的一种),进行文本的挖掘分析。
为了验证本发明的有效性,我们采用基于现有向量空间模型TFIDF与本发明提出的基于结构链接向量模型SLVM的方法进行了对比试验。聚类质量的评价算法采用由Bjorner Larsen等人提出的Fmeasure算法,其F值越接近1,表明聚类效果越好。试验结果如表1所示。
实验表明:采用传统的方法,其F值落在0.65~0.73之间;而采用本发明提出的方法,由于充分利用了文档中的结构信息与链接信息,聚类结果的F值提高到0.82~0.86。
                      表1聚类对比实验结果
       基于向量空间模型TFIDF          基于结构链接向量模型
    Mi     Nj     M(ni,j)     M(F(i,j))     Nj     M(ni,j)     M(F(i,j))
    63     60     37     0.602     59     52     0.852
    76     69     53     0.731     71     62     0.844
    82     88     62     0.729     89     79     0.924
    86     87     68     0.786     86     74     0.860
    73     67     49     0.700     70     60     0.839
    61     78     41     0.590     69     53     0.815
    45     45     32     0.711     42     37     0.851
    54     63     38     0.650     58     41     0.732
    66     74     52     0.743     71     58     0.847
    38     28     20     0.606     35     31     0.849
    76     68     53     0.736     72     64     0.865
    42     35     23     0.597     40     32     0.780
              F=0.69               F=0.84

Claims (1)

1.一种对半结构化文档集进行文本挖掘的方法,包括以下步骤:
第一、读入文档,并对文档进行结构分析,分别判断文档各节点是否在结构树中已存在,如果结构树中还没有该节点信息,则需要给结构树添加该节点信息,并给节点一个唯一标识号;
第二、如果当前分析的节点包含子节点,则继续分析其第一个子节点,直到不包含子节点的数据节点;如果当前节点为数据节点,则对数据节点的文字段进行分词,并根据所处的节点位置,形成结构向量的一个分量;
第三、如果该文字段包含链接信息,则读入其链接资源,并获取其链接资源的结构向量;
第四、分析器继续找其下一个兄弟节点进行分析,如果已不存在下一个兄弟节点则向上层回溯,找其父节点的下一个兄弟节点,直到文档分析结束;
第五、将这一过程中的所有结构向量的分量组合成为该文档的结构向量,将链接资源的结构向量拼合成当前文档的链接向量,最后形成当前文档的结构链接资源,输入到挖掘模块,进行文本的挖掘分析。
CNB021290458A 2002-08-29 2002-08-29 一种对半结构化文档集进行文本挖掘的方法 Expired - Lifetime CN1180377C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB021290458A CN1180377C (zh) 2002-08-29 2002-08-29 一种对半结构化文档集进行文本挖掘的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB021290458A CN1180377C (zh) 2002-08-29 2002-08-29 一种对半结构化文档集进行文本挖掘的方法

Publications (2)

Publication Number Publication Date
CN1399228A CN1399228A (zh) 2003-02-26
CN1180377C true CN1180377C (zh) 2004-12-15

Family

ID=4746113

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB021290458A Expired - Lifetime CN1180377C (zh) 2002-08-29 2002-08-29 一种对半结构化文档集进行文本挖掘的方法

Country Status (1)

Country Link
CN (1) CN1180377C (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG133421A1 (en) * 2005-12-13 2007-07-30 Singapore Tech Dynamics Pte Method and apparatus for an algorithm development environment for solving a class of real-life combinatorial optimization problems
CN100418086C (zh) * 2006-08-22 2008-09-10 北京北大方正电子有限公司 一种文字的可变数据排版的方法
CN100447793C (zh) * 2007-01-10 2008-12-31 苏州大学 基于视觉特征的页面查询接口抽取方法
CN102436480B (zh) * 2011-10-15 2013-11-06 西安交通大学 一种面向文本的知识单元关联关系挖掘方法
CN104063411B (zh) * 2013-09-12 2016-05-25 江苏金鸽网络科技有限公司 基于波特五力模型的企业情报收集方法
CN107943986B (zh) * 2017-11-30 2022-05-17 睿视智觉(深圳)算法技术有限公司 一种大数据分析挖掘系统

Also Published As

Publication number Publication date
CN1399228A (zh) 2003-02-26

Similar Documents

Publication Publication Date Title
Ding et al. Research on data stream clustering algorithms
CN109359172B (zh) 一种基于图划分的实体对齐优化方法
CN106815369A (zh) 一种基于Xgboost分类算法的文本分类方法
CN111597347A (zh) 知识嵌入的缺陷报告重构方法及装置
Nam et al. Efficient approach for damped window-based high utility pattern mining with list structure
CN109325019A (zh) 数据关联关系网络构建方法
Nguyen et al. Efficient algorithms for mining colossal patterns in high dimensional databases
Wu et al. Generalized association rule mining using an efficient data structure
CN103544186A (zh) 挖掘图片中的主题关键词的方法和设备
CN103123685B (zh) 文本模式识别方法
CN1180377C (zh) 一种对半结构化文档集进行文本挖掘的方法
CN115248863A (zh) 基于知识图谱的油气地质评价方法及系统
Yun et al. An efficient approach for mining weighted approximate closed frequent patterns considering noise constraints
Bifet et al. Mining adaptively frequent closed unlabeled rooted trees in data streams
CN102541935A (zh) 一种新的基于特征向量的中文Web文档表示方法
CN105653567A (zh) 一种文本序列数据中快速查找特征字符串的方法
CN1766871A (zh) 基于上下文的半结构化数据语义提取的处理方法
CN111026862A (zh) 一种基于形式概念分析技术的增量式实体摘要方法
Nguyen et al. Graph mining based on a data partitioning approach
Wang et al. Closed inter-sequence pattern mining
CN112231438A (zh) 一种闭项集及生成子挖掘方法及装置
CN113900924B (zh) 基于tan半朴素贝叶斯网络的软件缺陷预测方法和系统
CN111061884B (zh) 一种基于DeepDive技术构建K12教育知识图谱的方法
Nadimi-Shahraki et al. A new method for mining maximal frequent itemsets
CN118377854B (zh) 一种创新全链条科技情报服务集成方法及平台

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: BEIDA FANGZHENG GROUP CO. LTD.

Free format text: FORMER OWNER: INST. OF COMPUTER SCIENCE + TECHNOLOGY, BEIJING UNIV.

Effective date: 20131118

Owner name: BEIJING UNIV.

Free format text: FORMER OWNER: BEIDA FANGZHENG TECHN INST. CO., LTD., BEIJING

Effective date: 20131118

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100085 HAIDIAN, BEIJING TO: 100871 HAIDIAN, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20131118

Address after: 100871 Beijing the Summer Palace Road, Haidian District, No. 5

Patentee after: Peking University

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Address before: 100085, fangzheng building, No. nine, five street, Beijing, Haidian District

Patentee before: PEKING University FOUNDER R & D CENTER

Patentee before: INST OF Co. SCIENCE & TECHNOL

CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20041215