CN103257957B

CN103257957B - 一种基于中文分词的文本相似性识别方法及装置

Info

Publication number: CN103257957B
Application number: CN201210033600.9A
Authority: CN
Inventors: 万波; 曹训志; 谢志远; 陈盛荣; 刘锐强
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2012-02-15
Filing date: 2012-02-15
Publication date: 2017-09-08
Anticipated expiration: 2032-02-15
Also published as: CN103257957A

Abstract

本发明实施例公开了一种基于中文分词的文本相似性识别方法，其特征在于，该方法包括：对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤，得到预处理文本；按照预设的分词模式对所述预处理文本进行分词；按照预设的策略从所述分词得到的单词中选择特征词；对选择的特征词进行排序得到特征字符串，并根据所述特征字符串计算文本的特征值；通过比较文本的特征值，确定文本之间的相似性。本发明还公开了一种基于中文分词的文本相似性识别装置，该方法及装置可以降低识别复杂度，提高识别效率，同时达到较高的识别正确率。

Description

一种基于中文分词的文本相似性识别方法及装置

技术领域

本发明涉及文本识别技术领域，特别涉及一种基于中文分词的文本相似性识别方法及装置。

背景技术

随着Web 2.0技术及SNS的快速发展，虽然使信息传播更加便利，但重复信息也越来越多，据公开资料统计，网页的重复率平均大约为4。也就是说，当你通过一个连接看到一篇文章信息的时候，平均还有另外3个不同的链接也给出相同或者基本相似的内容。

对于相同或相似的信息，现有的一些网站、社区等会对网页或文章中的文本内容进行识别，提取文本中的一些特征信息，并基于这些特征信息判断文本之间的相似程度，并通过聚类、过滤等手段对相似的文本进行处理，减少过多的无效重复信息，以及拦截批量传播的非法内容、垃圾广告等不良信息。

对于文本相似性的识别，现有方法一般是基于关键字的提取，即提取文本中的关键字作为特征信息，再根据文本之间特定关键字的共性，如相同关键字的数量、相同关键字出现的次数等，确定文本之间的相似性，之后，即可基于文本相似性进行后续的聚类、过滤、拦截等处理操作。

但是，这种基于关键字的文本相似性识别并不能很好的反映文本真实意思表示的相似性，其相似性识别的准确率比较低，很多文本虽然都包含某些相同的关键字，但是其要表达的意思可能完全不同甚至相反，致使很多虽然带有相同关键词，但意思表示与已知文本完全不同的文本被认为相似而被误杀，对网站、社区用户的体验伤害很大，对业务发展带来较大压力。

为提高相似性识别的准确性，人们提出了其它改进的方法：

向量矩阵算法，该算法将文本转换为一个向量矩阵，通过对向量矩阵进行比较，确定文本之间的相似性。

全文分段签名算法，该算法把文本按一定的原则分成N段(如每n行作为一段)，然后对每一段进行签名(即计算指纹)，于是文本就可以用N个签名后的指纹来表示。对于两个文本，当它们的N个签名中有M个相同时(m是系统定义的阈值)，则认为两个文本相似。

虽然上述两种算法能够保证较高的识别准确率，降低了关键字提取方法所带来的误杀，但这两种算法所需的计算量相当大，它们在时间上的复杂度(提取特征信息和特征信息比较过程所需时间)和空间的复杂度(提取出的特征信息需要占用的存储空间)都很高，大大降低了文本相似性识别的效率，难以胜任海量文本业务的应用。

发明内容

有鉴于此，本发明提供了一种基于中文分词的文本相似性识别方法及装置，可以降低识别复杂度，提高识别效率，同时达到较高的识别正确率。

为达上述目的，本发明的技术方案具体是这样实现的：

一种基于中文分词的文本相似性识别方法，该方法包括：

对文本进行分词；

根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词；

对选择的特征词进行排序得到特征字符串，并计算所述排序得到的特征字符串的特征值；将所述特征值作为整个文本的特征值；所述排序包括：根据特征词的词性和出现的次数作为权重，对特征词进行加权排序，得到排序后的特征词字符串；

通过比较文本的特征值，确定文本之间的相似性。

较佳地，对文本进行分词包括：

按照大粒度或小粒度模式，结合词频词性选择特定的分词单元对文本以单词为单位进行划分，并标注每个单词的词性。

较佳地，对文本进行分词之前还包括：

对文本中不能识别的字符以及无意义字符进行过滤。

较佳地，所述特征值为根据所述排序后的特征词字符串计算的MD5值。

较佳地，该方法进一步包括：

预先选取样本文本并计算特征值；

根据所述样本文本的特征值建立分类样本库；

计算特定文本的特征值并与所述分类样本库中样本文本的特征值进行匹配；

若匹配到相同的特征值，则确定该特定文本对应的分类，根据该特定文本的分类，进行对应的处理。

较佳地，该方法进一步包括：

若没有匹配到相同的特征值，则将该特定文本进行手工分类，并将该特定文本的特征值加入分类样本库。

一种基于中文分词的文本相似性识别装置，该装置包括：

分词模块，用于按照预设的分词模式对文本进行分词；

选择模块，与所述分词模块相连，用于预先设定选取特征词的数量，根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词；

特征值计算模块，与所述选择模块相连，用于根据选择的特征词的词性和出现的次数作为权重，对选择的特征词进行加权排序得到特征字符串，并计算所述排序得到的特征字符串的特征值；将所述特征值作为整个文本的特征值；

比较模块，与所述特征值计算模块相连，用于通过比较文本的特征值，确定文本之间的相似性。

较佳地，所述分词模块包括：

模式确定单元，用于确定分词模式，包括大粒度模式或小粒度模式；

划分单元，与所述模式确定单元相连，用于根据确定的分词模式，结合词频词性选择特定的分词单元对文本以单词为单位进行划分；

标注单元，与所述划分单元相连，用于标注每个单词的词性。

较佳地，该装置还包括：

预处理模块，与分词模块相连，用于在分词之前对文本中不能识别的字符以及无意义字符进行过滤。

较佳地，所述特征值计算模块包括：

排序单元，用于根据特征词的词性和出现的次数作为权重，对特征词进行加权排序，得到排序后的特征词字符串；

计算单元，用于根据所述排序后的特征词字符串计算MD5值。

较佳地，该装置进一步包括：

分类样本库，用于保存对预先选取的样本文本计算的特征值；

所述比较模块，进一步与所述分类样本库相连，用于将特定文本的特征值与所述分类样本库中样本文本的特征值进行匹配；

处理模块，与所述比较模块相连，若所述比较模块匹配到相同的特征值，则确定该特定文本对应的分类，根据该特定文本的分类，进行对应的处理。

较佳地，所述处理模块进一步与所述分类样本库相连，若所述比较模块没有匹配到相同的特征值，则所述处理模块将该特定文本进行手工分类，并将该特定文本的特征值加入分类样本库。

由上述技术方案可见，本发明的这种基于中文分词的文本相似性识别方法及装置，通过将文本划分为分词，再从分词中提取特征词，并计算这些特征词的特征值进行比较，可以降低识别过程的复杂度，提高识别效率，同时达到较高的识别正确率。

附图说明

图1为本发明实施例的文本相似性识别方法流程图。

图2为基于本发明实施例的文本相似性识别方法进行文本分类应用的流程图。

图3为本发明实施例的文本相似性识别装置结构示意图；

图4为本发明实施例的分词模块结构示意图；

图5为本发明实施例的选择模块结构示意图；

图6为本发明实施例的特征值计算模块结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明主要是以中文分词为基础，在分词时可以通过文本分词及词频排序，并可以进一步依靠文本语义分析和词性调优等，找到能准确反映文本含义的分词，再对找到的分词计算特征值，这样就可以把任意一文本转换计算成唯一的特征值来表示，对于任意文本之间的相似性比较，就可以被简化为文本之间唯一特征值的比较，从而大大降低文本之间相似性识别的复杂度，提高了识别效率，同时该方法通过智能分词而不是简单的关键词提取来获取文本的特征，也保证了较高的识别准确率。在获得文本相似性结果之后，无论是对历史文本进行聚类，还是对于新产生的文本进行相似性匹配过滤、拦截等，都将变得简化和高效。

本发明的识别方法如图1所示，包括如下步骤：

步骤101，对文本进行过滤噪音预处理；

过滤噪音是指对给定编码格式的文本中不能识别的字符(即非指定编码格式)以及无意义字符，如制表符、空格等进行过滤；主要目的是防止文本被恶意添加噪音而被绕过。对于经过滤噪音预处理后的文本，可以标记为Filter(Text_i)。

步骤102，对预处理后的文本进行分词处理；

具体的做法是将给定的文本段落切分为词，具体切分时可以采用大粒度或小粒度模式；例如，"世界杯足球赛"这个词，如果我们按照大粒度模式，则切分为“世界杯/足球赛”，小粒度模式则是“世界/杯/足球/赛”，区别在于划分出的单词的字数范围。实际进行分词时还可以结合智能的词频统计，结合词频词性选择特定的分词单元来进行划分。

最后对切分后生成的词进行词性标注。例如给定一个文本：“2014年世界杯足球赛在巴西举办”，那么分词后的结果可以是：2014(数词)、世界杯(名词)、足球赛(名词)、巴西(地名)、举办(动词)。进行分词处理后的文本可以标记为Seg(Filter(Text_i)。

步骤103，选择特征词；

根据分词后得到的每个词的词性以及出现的频率，以及实际需要对所有分词取N个代表性的词作为文本的特征词，标记为K＝{K₁,K₁,K₁,…,K_n}；仍然以步骤102中的文本样本来举例，假如我们只选三个特征词，一般来讲地名、名词、动词能较好的反应原文的意思，另外若一个词在文中出现多次，则可以考虑加重此词的入选概率，具体选择特征词的算法可以根据需要确定。这里由于样本中各个词仅出现一次，因此可以不考虑词频的因素，例如选取“巴西”、“世界杯”、“举办”作为特征词。

步骤104，计算特征词的特征值。

对选择出的文本的特征词按照预设的策略排序后组成的字符串计算特征值，如MD5值；此特征值作为整个文本的唯一标识；其中，具体排序策略可以根据需要确定，例如根据特征词的词性、出现的次数等参数作为权重，对特征词进行加权排序；仍以上述样本为例，排序后得到“巴西、举办、世界杯”的特征字符串，然后计算此特征字符串的MD5值，可以标记为MD5(Concatenate-Sort(K))。

步骤105，比较特征值，确定相似性；

若有两个文本，他们的MD5值相同，即对于Text_i和Text_j，其特征词分别K_i和K_j，且MD5(Concatenate-Sort(K_i))＝MD5(Concatenate-Sort(K_j)),那么我们就认为这两个文本相似，否则不相似。例如有另一个样本，“巴西获得了2014年的世界杯举办权”，分词的结果是：巴西(地名)、获得(动词)、2014(数词)、世界杯(名词)、举办(动词)。假如仍然只选用三个词，根据选词算法，及排序策略，得到的特征字符串选出的结果也是“巴西、举办、世界杯”与之前的样本得到的特征字符串相同，那么计算出的MD5值也是相同的，因此在本步骤中，就会得到“2014年世界杯足球赛在巴西举办”和“巴西获得了2014年的世界杯举办权”这两个文本相似的结果。

上述实施例给出了识别任意两个文本之间相似性的方法，利用该方法获得的相似性结果，可以用于对文本进行后续处理，如对文本进行分类，过滤等。

互联网用户经常被非法广告或不良信息干扰，严重影响了用户对互联网产品的体验，而本发明实施例的基于中文分词的文本相似性识别方法能够快速、有效的实现对文本进行分类，有助于对互联网中垃圾信息的清理，使得从海量文本中，找出目标类别文本，并进行相应的处理，变得简单高效，对于海量文本的应用提供了真正实现的可能。

以文本分类为例子，本发明实施例基于中文分词的文本相似性识别方法能快速、有效的对文本进行分类，具体的做法如图2所示，包括如下步骤：

步骤201，建立分类样本库；

选取某个分类的N篇文本作为分类样本，通过上述步骤101～104计算这些文本的MD5值并保存，得到该分类的样本特征值；若有多个分类，则重复上述步骤，获取多个分类的样本特征值。

步骤202，特征值匹配；

对于任意文本，同样通过步骤101～104计算该文本的MD5值，并通过上述步骤105将该文本的MD5值与MD5样本库中每一个分类的样本特征值逐一进行比较，如果匹配到相同的MD5值，就能很快知道该篇文本是属于哪个分类，分类确定了，就可以对这篇文本进行相应处理。

步骤203，分类样本库的累积。

若某些文本不能匹配到已有的分类，则可以通过其他方式，如人工检查的方式，对它们进行手工分类，将这些文本加入现有分类或作为新的分类，把这些文本的特征值添加到分类样本库。

对于过滤、拦截应用，也可以基于上述分类样本库进行，如果某文本的特征值匹配为某一预设的需要进行过滤、拦截的分类，则对该文本进行相应的处理即可。

经统计，利用上述方法，可以有效减少不良文本的传播，降低不良文本对正常内容文本的噪音干扰，同时不需要消耗过多的文本处理资源，使处理不良文本的能力大大加强。

另外，对应上述方法实施例，本发明还提供一种基于中文分词的文本相似性识别装置，如图3所示，该装置包括：

预处理模块301，用于对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤，得到预处理文本；

分词模块302，与所述预处理模块301相连，用于按照预设的分词模式对所述预处理文本进行分词；

选择模块303，与所述分词模块302相连，用于按照预设的策略从分词得到的单词中选择特征词；

特征值计算模块304，与所述选择模块303相连，用于对选择的特征词进行排序得到特征字符串，并根据所述特征字符串计算文本的特征值；

比较模块305，与所述特征值计算模块304相连，用于通过比较文本的特征值，确定文本之间的相似性。

其中，所述分词模块302的具体结构如图4所示，包括：

模式确定单元401，用于确定分词模式，包括大粒度模式或小粒度模式；

划分单元402，与所述模式确定单元401相连，用于根据确定的分词模式，结合词频词性选择特定的分词单元对文本以单词为单位进行划分；

标注单元403，与所述划分单元402相连，用于标注每个单词的词性。

所述选择模块303的具体结构如图5所示，包括：

数量确定单元501，用于预先设定选取特征词的数量；

选择单元502，与所述数量确定单元501相连，用于根据分词的词性和出现的次数从所有分词中选择预设数量的分词作为特征词。

所述特征值计算模块304的具体结构如图6所示，包括：

排序单元601，用于根据特征词的词性和出现的次数作为权重，对特征词进行加权排序，得到排序后的特征词字符串；

计算单元602，与所述排序单元601相连，用于根据所述排序后的特征词字符串计算MD5值。

另外，作为另一实施例，该装置还可以进一步包括：

分类样本库306，用于保存对预先选取的样本文本计算的特征值；

所述比较模块305，进一步与所述分类样本库306相连，用于将特定文本的特征值与所述分类样本库306中样本文本的特征值进行匹配；

处理模块307，与所述比较模块305相连，若所述比较模块305匹配到相同的特征值，则确定该特定文本对应的分类，根据该特定文本的分类，进行对应的处理。

较佳地，所述处理模块307可以进一步与所述分类样本库306相连，若所述比较模块305没有匹配到相同的特征值，则所述处理模块307将该特定文本进行手工分类，并将该特定文本的特征值加入分类样本库306。

由上述的实施例可见，本发明的这种基于中文分词的文本相似性识别方法及装置，通过将文本划分为分词，再从分词中提取特征词，并计算这些特征词的特征值进行比较，可以降低识别过程的复杂度，提高识别效率，同时达到较高的识别正确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于中文分词的文本相似性识别方法，其特征在于，该方法包括：

对文本进行分词；

通过比较文本的特征值，确定文本之间的相似性。

2.如权利要求1所述的基于中文分词的文本相似性识别方法，其特征在于，所述对文本进行分词包括：

3.如权利要求1所述的基于中文分词的文本相似性识别方法，其特征在于，对文本进行分词之前还包括：

对文本中不能识别的字符以及无意义字符进行过滤。

4.如权利要求1所述的基于中文分词的文本相似性识别方法，其特征在于，所述特征值为根据所述排序后的特征词字符串计算的MD5值。

5.如权利要求1所述的基于中文分词的文本相似性识别方法，其特征在于，该方法进一步包括：

预先选取样本文本并计算特征值；

根据所述样本文本的特征值建立分类样本库；

若匹配到相同的特征值，则确定该特定文本对应的分类，根据该特定文本的分类，进行对应的处理；

6.一种基于中文分词的文本相似性识别装置，其特征在于，该装置包括：

分词模块，用于按照预设的分词模式对文本进行分词；

7.如权利要求6所述的基于中文分词的文本相似性识别装置，其特征在于，所述分词模块包括：

模式确定单元，用于确定分词模式，包括大粒度或小粒度模式；

8.如权利要求6所述的基于中文分词的文本相似性识别装置，其特征在于，还包括：

9.如权利要求6所述的基于中文分词的文本相似性识别装置，其特征在于，所述特征值计算模块包括：

计算单元，用于根据所述排序后的特征词字符串计算MD5值。

10.如权利要求6所述的基于中文分词的文本相似性识别装置，其特征在于，该装置进一步包括：

处理模块，与所述比较模块、所述分类样本库相连：若所述比较模块匹配到相同的特征值，则确定该特定文本对应的分类，根据该特定文本的分类，进行对应的处理；若所述比较模块没有匹配到相同的特征值，则所述处理模块将该特定文本进行手工分类，并将该特定文本的特征值加入分类样本库。