CN104182388A

CN104182388A - 一种基于语义分析的文本聚类系统及方法

Info

Publication number: CN104182388A
Application number: CN201410348406.9A
Authority: CN
Inventors: 贾岩
Original assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Current assignee: ANHUI HUAZHEN INFORMATION SCIENCE & TECHNOLOGY Co Ltd
Priority date: 2014-07-21
Filing date: 2014-07-21
Publication date: 2014-12-03

Abstract

本发明提出了一种基于语义分析的文本聚类系统及方法，根据语义分析对文本进行聚类，简化了聚类算法的工作量，提高工作效率，聚类的结果更加理想。本发明提出的一种基于语义分析的文本聚类系统，包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块；其中，预处理模块，用于对文本进行中文分词和停用词过滤；语义分析模块，用于进行语义相似度分析以及特征项权重计算，提取关键词特征项，对文本进行归一化，语义分析模块内置本体和实体词典，本体用于对文本进行语义分析，实体词典用于对文本进行实体提取，本体的基本组成单元为概念，概念构成概念树，概念树组成本体；向量生成模块，内置向量空间模型，用于对文本进行向量化。

Description

一种基于语义分析的文本聚类系统及方法

技术领域

本发明涉及文本信息处理技术领域，尤其涉及一种基于语义分析的文本聚类系统及方法。

背景技术

近年来，随着网络的大规模普及和企业信息化程度的提高，各种资源呈爆炸式增长，然而，大部分信息是存储在文本数据库中的，对于这种半结构或无结构化数据，能够获取特定内容信息的手段却较弱，导致信息搜寻困难和信息利用率低下。由此，文本挖掘、信息过滤和信息检索等方面的研究出现了前所未有的高潮。快速并高质量的文本聚类技术可以将大量文本信息组成少数有意义的簇，并使同一簇中的文本信息之间具有较高的相似度，而不同簇之间的文本差别较大，从而通过聚类驱动的降维或权值调整来改善检索性能，方便人们对文本信息的利用。聚类技术已成为文本信息挖掘技术中的核心技术，其工作效率与效果直接关系到文本信息处理的理想程度。

发明内容

基于背景技术存在的问题，本发明提出了一种基于语义分析的文本聚类系统及方法，根据语义分析对文本进行聚类，简化了聚类算法的工作量，提高工作效率，聚类的结果更加理想。

本发明提出的一种基于语义分析的文本聚类系统，包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块；其中，

预处理模块，用于对文本进行中文分词和停用词过滤；

语义分析模块，用于进行语义相似度分析以及特征项权重计算，提取关键词特征项，对文本进行归一化，语义分析模块内置本体和实体词典，本体用于对文本进行语义分析，实体词典用于对文本进行实体提取，本体的基本组成单元为概念，概念构成概念树，概念树组成本体；

向量生成模块，内置向量空间模型，用于对文本进行向量化，生成文本向量；

聚类模块，根据文本向量对文本进行聚类。

优选地，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

Dis(W₁,W₂)为词语W1、W2对应的概念在概念树上的距离，概念树为本体的组成单元，a为可调节的计算常数。

优选地，特征项权重计算公式为：

w = tf \times idf = tf \times \ln (\frac{n}{m} + 1)

其中，w为特征项t在文档d中的权重值，tf表示t在d内出现的频率，idf表示t的反比文本频率，n表示训练集的文档总数，m表示训练集中包含t的文档数。

本发明提供的一种基于语义分析的文本聚类方法，根据本体对文本进行语义分析，并对文本内容进行归一化，生成文本向量，具体包括以下步骤：

S1、输入文本，并进行预处理，对文本进行中文分词和停用词过滤；

S2、根据本体，对文本进行语义分析，并根据实体词典对文本进行实体分析，提取实体文本；

S3、根据本体，进行语义相似度分析以及特征项权重计算，提取关键词特征项，对文本进行归一化；

S4、根据向量空间模型，对归一化文本进行向量化，生成文本向量；

S5、根据文本向量对文本进行聚类；

步骤S1中，需要判别文本是否为中文，当文本为中文时，对其进行中文分词和停用词过滤；当文本非中文时，对其进行词形变换后直接进行停用词过滤；

步骤S3中设置门限值n，关键词特征项为权重值大于门限值n的特征项。

优选地，0.1<n<1。

优选地，n＝0.7。

优选地，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

优选地，特征项权重计算公式为：

w = tf \times idf = tf \times \ln (\frac{n}{m} + 1)

本发明对文本进行语义分析和实体提取，可有效去除无实际意义的文本内容，并对表达意义相同的词汇进行归纳，避免后续处理中词义相同的词汇造成重复，即增加工作量又造成冗余。本发明提供的文本聚类系统及方法，根据语义分析对文本进行聚类，简化了聚类算法的工作量，提高工作效率，同时文本聚类的结果也更加理想。

附图说明

图1为本发明提出的一种基于语义分析的文本聚类系统的结构图；

图2为图1所示系统的工作流程图。

具体实施方式

参照图1，本发明提出的一种基于语义分析的文本聚类系统，包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块。

预处理模块，用于对文本进行中文分词和停用词过滤。

语义分析模块，用于进行语义相似度分析以及特征项权重计算，提取关键词特征项，对文本进行归一化，文文本向量化奠定基础。语义分析模块内置本体和实体词典。本体用于对文本进行语义分析，本体的基本组成单元为概念，概念构成概念树，概念树组成本体。文本概念化解决了一词多义或多词一义的问题。实体词典用于对文本进行实体提取，以便摒弃文本中不具实际意义的内容，简化后续文本处理的计算量。

向量生成模块，内置向量空间模型，用于对文本进行向量化，生成文本向量。向量空间模型是现有并且相当成熟的一种文本处理技术，可保证本系统工作模式更加稳定。

聚类模块，根据文本向量对文本进行聚类。聚类模块内置聚类算法，文本经过预处理及语义分析后，大大缩减了聚类算法的工作量，提高了工作效率。

图2所示为图1所示系统工作方法的流程图，该方法根据本体对文本进行语义分析，并对文本内容进行归一化，生成文本向量，具体包括以下步骤：

S5、根据文本向量对文本进行聚类。

步骤S1中，需要判别文本是否为中文，当文本为中文时，对其进行中文分词和停用词过滤；当文本非中文时，对其进行词形变换后直接进行停用词过滤。

步骤S3中设置门限值n，关键词特征项为权重值大于门限值n的特征项，n可在区间(0.1，1)上取值，因为权重值小于0.1的项在文本中所占比例最大，而这部分内容对文本主题的确定并无多大影响，可以直接舍弃。本实施方式中，设定n＝0.7。根据计算沿着，权重值大于0.7的项已经可以满足关键词特征项提取的需要，同时还大大节俭了后续处理中的计算量，提高工作效率。

本实施方式中，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a} - - - (1)

对计算公式(1)变形可得到：

a = \frac{Sim (W_{1}, W_{2})}{1 - Sim (W_{1}, W_{2})} \times Dis (W_{1}, W_{2}) - - - (2)

则当Sim(W₁,W₂)＝1-Sim(W₁,W₂) (3)

a＝Dis(W₁,W₂) (4)

由公式(3)、(4)可推算出当参数a为Sim(W₁,W₂)＝0.5时Dis(W₁,W₂)的取值。

本实施方式中，特征项权重计算公式为：

w = tf \times idf = tf \times \ln (\frac{n}{m} + 1) - - - (5)

本实施方式中语义相似度计算和特征项权重计算采用的都是现有的成熟算法，可最大程度保证聚类过程的稳定。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于语义分析的文本聚类系统，其特征在于，包括依次连接的预处理模块、语义分析模块、向量生成模块和聚类模块；其中，

预处理模块，用于对文本进行中文分词和停用词过滤；

聚类模块，根据文本向量对文本进行聚类。

2.如权利要求1所述的基于语义分析的文本聚类系统，其特征在于，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

3.如权利要求1所述的基于语义分析的文本聚类系统，其特征在于，特征项权重计算公式为：

w = tf \times idf = tf \times \ln (\frac{n}{m} + 1)

4.一种基于语义分析的文本聚类方法，其特征在于，根据本体对文本进行语义分析，并对文本内容进行归一化，生成文本向量，具体包括以下步骤：

S5、根据文本向量对文本进行聚类；

5.如权利要求4所述的基于语义分析的文本聚类方法，其特征在于，0.1<n<1。

6.如权利要求4所述的基于语义分析的文本聚类方法，其特征在于，n＝0.7。

7.如权利要求4所述的基于语义分析的文本聚类方法，其特征在于，语义相似度计算公式为：

Sim (W_{1}, W_{2}) = \frac{a}{Dis (W_{1}, W_{2}) + a}

8.如权利要求4所述的基于语义分析的文本聚类方法，其特征在于，特征项权重计算公式为：

w = tf \times idf = tf \times \ln (\frac{n}{m} + 1)