CN102541935A

CN102541935A - 一种新的基于特征向量的中文Web文档表示方法

Info

Publication number: CN102541935A
Application number: CN2010106181125A
Authority: CN
Inventors: 宫哲; 贺智铭; 蒋琴琴
Original assignee: BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Current assignee: BEIJING SAFE-CODE TECHNOLOGY Co Ltd
Priority date: 2010-12-31
Filing date: 2010-12-31
Publication date: 2012-07-04

Abstract

本发明公开了提出了一种新的基于特征向量的中文Web文档表示方法，该方法包括：将中文词典分词法进行算法扩展，使其能够通过拼接零散词的方式发现新词，并扩展分词词典；将词—文档向量矩阵扩展为词—事务向量矩阵，并利用关联规则挖掘算法，在词—事务向量矩阵中挖掘出置信度高于经验阈值的规则，将规则中的词聚为一类，降低了特征向量空间的维数。利用本发明，解决了目前中文Web文档的向量表示中，不能将新词表示出来的缺陷，同时还降低了文档向量表示的维度，大大节省了存储开销，降低了后续文本数据挖掘计算的时间复杂度。

Description

一种新的基于特征向量的中文Web文档表示方法

技术领域

本方法属于信息检索技术领域。

背景技术

在信息社会中，计算机网络已经在人类的学习与生活中得到了普及。网络使各种信息资源得到共享，它将人类的交流空间和时间极大扩展，同时提高了人们的工作或学习效率。随着网络规模的不断扩大，网络资源不断丰富，信息检索成为人们获取知识的普遍手段，而如何实现准确、高效的搜索引擎成了信息科学领域研究的关键技术。

Web文本信息检索的实质是对Web文档集合的检索，要实现这样的检索系统通常的做法是，首先对文本进行分词，然后去除停用词和低频词，最后建立倒排索引，用户在检索时实际是检索该倒排索引文件搜索自己关心的文档。更本质的说，每一个文档被表示成为一个基于词的向量，用户的查询也用一个向量来表达，通过向量的方式来计算查询与文档之间的相似度。其中文本分词部分，如果是英文文档可以通过词与词之间的空格进行分词，如果是中文文档，则需要对用特殊的分词手段，目前最流行也是公认最有效的中文分词方法是词典分词法。本发明仅针对中文文档的处理，并且是以词典分词法为基础的发明。

另外，如果对大量文档做数据挖掘，比如聚类、分类，最常用的方法也是建立向量空间模型（Vector Space Model）。再对该模型进行矩阵运算。

上面提到的这种通用的对文档处理流程有以下缺点：

1. 词典分词器因为其有穷性的特点，对网络中层出不穷的新的热点词无能为力，比如“三鹿奶粉”，词典分词器会将其分成：三/鹿/奶粉。这些零散的词语将极大地影响热点词提取的准确性。

2．向量空间模型存在一个突出的问题就是其高维特性。由于自然语言文本的复杂多样性，词汇量过于丰富，因此所形成的向量空间模型常常具有过高的维数，而给后期的挖掘过程带来很大困难，而且每篇文档并不是用一个真正的特征向量表示，这个特性被人们“维度灾难”。

针对以上缺点，目前科研人员提出了很多方法进行改进，但能同时照顾到两个缺点改进又有效的方法并不多。

发明内容

本发明实施例提供了一种新的基于特征向量的中文Web文档表示方法，用以解决现有技术存在的不能将发现网络中文新词作为特征和文档特征向量维度高的缺陷。

一种中文Web新词汇的发现方法包括：

将预处理和经过词典分词后的零散词进行拼接；

计算拼接后的词串的词频，达到阈值的被认为是新词；

将新词加入词典。

一种利用关联规则算法发现同类词的方法包括：

将词—文档矩阵扩展为词—事务矩阵，形成二值矩阵；

在二值矩阵上使用关联规则算法来发现置信度大于一定阈值的规则，将规则中的词归为一类；

将词类作为一个特征维度，从而大大降低了文档特征向量的维度

本发明实施例既弥补了词典分词不能发现网络新词的缺点，又能在发现新词之后将其收录入词典；通过关联规则将词归类，大大降低了文档特征向量维度，有利于文档聚类、分类等工作，也有利于提高信息检索的准确率。在此处键入技术领域描述段落。

附图说明

图1为现有基于特征向量的中文Web文档表示方法的示意图；

图2为本发明实施例提供的一种新的基于特征向量的中文Web文档表示方法的示意图

图3为本发明实施例提供的停用词过滤和规则过滤流程示意图；

图4为本发明实施例通过零散词拼接来发现新词的方法示意图；

图5为本发明实施例利用关联规则算法发现同类词的方法示意图。

Claims

1.一种新的基于特征向量的中文Web文档表示方法，其特征在于，该方法包括：

一种中文Web新词汇的发现方法；

一种利用关联规则算法发现同类词的方法；

通过以上两种方法，将中文Web文档更有效的表示为维度更低的特征向量。

2.如权利要求1所述的方法，其特征在于，一种中文Web新词汇的发现方法，包括：

对中文Web文档进行预处理；

对分词后的零散词进行拼接成字符串，然后判断字符串是否属于新词，如果是新词，则新词还要加入分词词典。

3.如权利要求2所述的方法，其特征在于，所述对中文Web文档进行预处理的步骤具体包括：

Web网页去噪声；中文词典分词；停用词过滤和规则过滤。

4.如权利要求2所述的方法，其特征在于，所述通过零散词拼接来发现新词的方法具体包括：

定义零散词为长度小于或等于三的词汇，对2-3个连续的零散词进行拼接，使用长度为3的链表存储；

设置词频阈值，即词在文档中出现的次数，达到阈值的词串，被认为是新词；

三个词构成的词串用“词1词2词3”表示，若词频（“词1”）>=词频阈值，那么：若词频（“词1词2”）/词频（“词1”）>=一定阈值（如0.95），收录“词1词2”，将“词1”标记为不收录；若词频（“词1词2词3”）/词频（“词1词2”）>=一定阈值，收录“词1词2词3”，将“词1词2”标记为不收录；

将新发现的词汇加入分词词典。

5.如权利要求3所述的方法，其特征在于，停用词过滤和规则过滤的方法包括：

停用词过滤：使用一个人工整理的停用词表，用以过滤常见的无意义词串；

规则过滤：去掉规则明显的无用词串，没必要拼成新词串。

6.如权利要求1所述的方法，其特征在于，一种利用关联规则算法发现同类词的方法，包括：

将词—文档矩阵转换成词—事务矩阵：将词—文档矩阵用来表示文档的列分解为表示事物的列，方法是若词频>1则将其分解为1和0，从而使词—事务矩阵变成布尔矩阵；

对词—事务进行二值关联规则挖掘，得到词与词的规则，当规则的置信度达到领域经验的阈值时，将规则中的词归为一类；

将归好的词类作为特征中的一个维度，从而将中文Web文档表示成特征向量。