CN101075251A

CN101075251A - 一种基于数据挖掘的文本搜索方法

Info

Publication number: CN101075251A
Application number: CN 200710062175
Authority: CN
Inventors: 陈勇; 张佳骥
Original assignee: CETC 54 Research Institute
Current assignee: CETC 54 Research Institute
Priority date: 2007-06-18
Filing date: 2007-06-18
Publication date: 2007-11-21

Abstract

本发明公开了一种基于数据挖掘的文本搜索方法。它涉及计算机技术领域中的电子文本文档进行精确表示及搜索的技术。它利用数据挖掘技术能够从海量数据中发现重要信息的特性，对文本文档进行分析并抽取多层次上的特征作为文档的表示。这些多层次上的特征能够形成文档的精确表示，建立了一种新的文本检索系统，达到文本搜索的目的。本发明还具有运算速度快、性能稳定、适用面广的特点。本发明可以用于任何语言的文本文档的文本搜索、文本聚类、文本摘要等诸多文本智能处理。

Description

一种基于数据挖掘的文本搜索方法

技术领域

本发明涉及计算机技术领域中的一种基于数据挖掘的文本搜索方法，特别可适用于任何语言的文本文档的精确表示、检索、聚类和自动文本摘要等诸多文本智能处理。

背景技术

目前对文本的表示通常采用向量空间模型，即从词汇表中抽取特征词构成一个公共表示空间—向量空间，然后把文档集合中的每一个文档表示在向量空间中。在向量空间模型中，是以单个词为处理对象的。并且，有一个重要的前提：假设词与词之间是相互独立的。在这种设计中，由于是以单个词为处理对象，这样就割裂了语言中词与词之间相互关联关系；同样，词与词之间相互独立这一假设也是不成立的。在现实语言中，词与词之间是相互关联的。因此，基于向量空间模型的文档表示，它具有表示不清，文档间易于混淆等缺点。

发明内容

本发明所要解决的技术问题在于避免上述背景技术中的不足之处而提供一种利用数据挖掘算法充分发现文本中那些相互关联的且与文本中心内容紧密相关的词组，这些词组代表了与文本中心思想相关的概念，通过这些概念词组对文档进行精确表示的一种基于数据挖掘的文本搜索方法。且本发明还具有运算速度快，性能稳定，与文本所用语言无关，适用面广的特点。

本发明所要解决的技术问题由以下技术方案实现，包括步骤：

①利用计算机采用概率统计理论建立领域专用或通用词典；

②基于词典对文本进行分词处理；

③利用数据挖据技术对文档进行分析；

④基于对文档的分析，抽取文档的多层次的词组特征，形成对文档的多精度表示；

⑤基于文档的多精度词组特征表示，根据词组特征间的匹配计算文档之间的相似度；

⑥基于文档间的相似度，直接搜出需要文档，或基于文档间的相似度，利用紧密度分布算法对文档进行聚类搜出需要文档；完成基于数据挖掘文本搜索。

本发明第②步中所述的分词处理包括断词标注和词性标注。

本发明与背景技术相比具有以下有优点：

1.本发明利用数据挖掘技术对文本进行分析抽取文本的概念词组，对文本进行多层次描述，比传统方法抽取的单个词的特征更能反映文本的内容实质。

2.传统的向量空间模型试图用一个向量空间表示文档集合中所有的文档，由于向量空间所含特征维数是受到限制的。因此，向量空间模型的表示能力是有限的。随着文档集合中文档数量的增加，向量空间模型的这种局限性就越明显。因此，向量空间模型不适用于动态增加的文档集合。但现实生活中，大部分文档集合是动态增加的。本发明能对每个文档单独处理，抽取其特征，从而避免了上述缺点，适合于动态文档集合。

3.本发明还具有运算速度快，性能稳定，与文本所用语言无关，适用面广等优点。

附图说明

图1是本发明基于数据挖掘的文本检索系统的工作流程图。图1的左侧表示对文档集合进行建模的过程；图1的右侧表示检索过程。

具体实施方式

参照图1，本发明包括步骤如下：

①利用计算机采用概率统计理论建立领域专用或通用词典。

②基于词典对文本进行分词处理。本发明分词处理包括断词标注和词性标注。实施例分词处理是基于领域专用词典或通用词典对中文文本进行断词和词性标注处理。对西方语言文本进行词性标注处理。如图1中分词处理模块所示。实施例分词处理结果需经停用词、非关键词过滤处理，即把与文本内容不相关的词，如介词、连词等从文本中删除。这样不会损失文本的原有信息，且可以减少运算量。如图1中停用词过滤非关键词过滤模块所示。

③利用数据挖据技术对文档进行分析。实施例利用数据挖掘技术抽取关键概念词组，利用数据挖掘技术对文档进行分析以获得文档多个层次上的特征。如图1中利用数据挖掘技术抽取关键概念词组模块所示。

④基于对文档的分析，抽取文档的多层次的词组特征，形成对文档的多精度表示。实施例利用概念词组对文档进行多精度表示。如图1中文档多精度表示模块所示。

⑤基于文档的多精度词组特征表示，根据词组特征间的匹配计算文档之间的相似度。实施例计算相似度时，考虑了命名实体在文本中的作用，对发生在命名实体上的匹配给予更高权重。

⑥基于文档间的相似度，直接搜出需要文档，或基于文档间的相似度，利用紧密度分布算法对文档进行聚类搜出需要文档。实施例基于文档特征对文档进行聚类处理，形成各个聚类的类中心表示。在建模阶段进行聚类可以减少检索阶段的运算时间。如图1中聚类模块所示。

本发明具体的检索过程如下：

首先对用户提供的样本文档进行分词、去除停用词等处理，然后，利用数据挖掘技术抽取文本的多层次特征，基于这些特征计算样本文档与各个聚类的相似度，找出相似的聚类。最后，计算样本文档与相似聚类内的每个文档间的相似度，按相似度由大到小排序形成检索结果。

Claims

1.一种基于数据挖掘的文本搜索方法，其特征在于它包括步骤：

①利用计算机采用概率统计理论建立领域专用或通用词典；

②基于词典对文本进行分词处理；

③利用数据挖据技术对文档进行分析；

2.根据权利要求1所述的一种基于数据挖掘的文本搜索方法，其特征在于：第②步中所述的分词处理包括断词标注和词性标注。