CN104615714A

CN104615714A - 基于文本相似度和微博频道特征的博文排重方法

Info

Publication number: CN104615714A
Application number: CN201510061278.4A
Authority: CN
Inventors: 尹柳
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: Beijing Zhongsou Cloud Business Network Technology Co ltd
Priority date: 2015-02-05
Filing date: 2015-02-05
Publication date: 2015-05-13
Anticipated expiration: 2035-02-05
Also published as: CN104615714B

Abstract

本发明涉及一种基于文本相似度和微博频道特征的博文排重方法，所述方法包括(1)加载词库；(2)根据标识的频道类型，判断博文所属频道；(3)去噪；(4)计算特征向量；(5)分频道计算相似度；(6)重复检测。采用本发明进行微博频道排重，效果良好。扩展同义词特征，提高了相似度，弥补了传统排重对于特征敏感度高，排重力度小的缺点。在一般去噪处理的基础上，针对不同频道的噪声特点，进一步去噪，降低了干扰性。根据不同频道不同特点，采用不同的特征提取方法，提高了特征的准确性和有效度。综合决策相似度计算方法，相对于单一方法，漏排率低。

Description

基于文本相似度和微博频道特征的博文排重方法

技术领域

本发明涉及一种博文排重方法，具体讲涉及一种基于文本相似度和微博频道特征的博文排重方法。

背景技术

在这个互联网的时代，信息量爆发。同时，互联网上重复信息泛滥，也造成了不好的用户使用体验；浪费大量搜索引擎存储资源，用户需要在众多返回结果中进行人工判重和内容筛选以寻找更有价值的信息，浪费了大量的时间和精力。尤其是以140字为特色的微博诞生以来，人们随时随地都可以织围脖，对同一件事情发表言论，出现很多内容相似的博文。微博的转发功能，更是让一条微博，一下就转发出成千上万条一样的博文。因此，海量短文本的去重处理有着重要的实用价值。

典型的文本去重方法采用指纹算法(流程图如图2)，先对文本分词，计算文档的TF-IDF，根据TF-IDF排序，提取排序靠前的几个词作为特征词，利用HASH函数或别的规则形成指纹，最后比较每篇文档的指纹，如果指纹相同，就判断这两篇文档重复。另外，还有应用字符串匹配算法，在两篇文档中查找最大匹配字符串，分析匹配字符串完成重复性检测。

微博实时、简短、快捷、互动方便、转发传播迅速，促使微博频道热点高峰时，内容相似博文泛滥。指纹算法见长于长文本排重，面对短小的微博排重，缺点就显而易见。微博简短，特征词少，两篇微博只要稍稍一个特征词不同，便会形成不同的指纹，达不到排重效果。字符串匹配算法，对文本结构、用词规范依赖性高，其一变化都会影响检测效果，而微博最大的特点便是语言个性、非规范化。可见，单一的字符串匹配算法不适合千姿百态的微博。

发明内容

针对现有技术的不足，本发明提出一种频道内微博排重的方法。针对指纹算法和字符串匹配算法的不足，根据不同频道特点，采用不同的特征提取方法，综合决策相似度算法；对于微博的用词网络化，采取扩展同义词特征的策略。

本发明的目的是采用下述技术方案实现的：

一种基于文本相似度和微博频道特征的博文排重方法，其改进之处在于，所述方法包括

(1)加载词库；

(2)根据标识的频道类型，判断博文所属频道；

(3)去噪；

(4)计算特征向量；

(5)分频道计算相似度；

(6)重复检测。

优选的，所述步骤(1)包括

准备同义词库，词库格式包括表示词和编号，编号相同的为同义词，发现新的同义词，按照词库格式添加到词库，将词库加载到hash表中，供查询使用；

准备禁用词词库，格式包括禁用的话题和唯一标识，将词库加载到hash表中，供查询使用。

优选的，所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物和动漫频道，每个频道都带有唯一的标识；属于热门话题频道，则去禁用词库的hash里查找，找到，则直接排除。

优选的，所述步骤(3)包括不分频道种类，对博文进行去噪，根据该博文所属频道特征去除该频道噪声。

优选的，所述步骤(4)包括对去噪后博文，进行分词，去除停用词，按照主谓宾，提取特征，并查找同义词库，合并特征，统计计算特征向量；和根据不同频道的特点，按照不同的方法提取特征向量。

优选的，所述步骤(5)包括

(5.1)基于热门博文频道，根据主题特征向量计算相似度，记为sim1；

(5.2)电影频道，根据电影名特征N，计算最大匹配度，记为sim2；

(5.3)其它频道，根据频道特征向量计算相似度，记为sim3。

优选的，所述步骤(6)包括

(6.1)sim1>T，则排重，否则根据热门博文特征向量计算相似度sim1`；sim1`>T，则排重。

(6.2)sim2>T，则排重，否则根据电影博文特征向量计算相似度sim2`；sim2`>T，则排重。

(6.3)sim3>T，则排重；

其中，T为阈值。

与现有技术比，本发明的有益效果为：

采用本发明进行微博频道排重，效果良好。这里给出测试数据，如表1。抽取200条博文数据，分别采用本发明(M1)、相似度算法(M2)，指纹算法(M3)测试。比较结果，可以明显看出本发明的优势。具体体现在以下几点：

1、扩展同义词特征，提高了相似度，弥补了传统排重对于特征敏感度高，排重力度小的缺点。

2、在一般去噪处理的基础上，针对不同频道的噪声特点，进一步去噪，降低了干扰性。

3、根据不同频道不同特点，采用不同的特征提取方法，提高了特征的准确性和有效度。

4、综合决策相似度计算方法，相对于单一方法，漏排率低。

附图说明

图1为本发明提供的一种基于文本相似度和微博频道特征的博文排重方法流程图。

图2为本发明提供的典型的文本去重方法采用指纹算法流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

针对微博的短小、用词网络化、频道各具特色等特征，结合LCS算法和余弦相似度对微博内容排重。对于海量数据，可以利用MapReduce分布式处理的高效性能，提高排重性能，实施步骤如下(如图1)：

1、加载词库

准备同义词库，词库格式如下

A##i

B##i

“##”前面的字母表示词，后面的”i”表示编号，若编号相同，表示A和B是同义词。发现新的同义词，按照词库格式添加到词库。将词库加载到hash表中，供查询使用。

准备禁用词词库，格式如下

A id

tab键前的A表示禁用的话题，后面的id表示A的唯一标识。将词库加载到hash表中，供查询使用。

2、根据标识的频道类型，判断博文所属频道。

包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物、动漫等频道，每个频道都带有唯一的标识。若属于热门话题频道，则去禁用词库的hash里查找，若找到，则直接排除，不进行下面步骤。

3、去噪。

首先不分频道种类，对博文进行去噪如url、人名、多空格等。然后再根据该博文所属频道特征去除该频道特有的噪声。如搞笑频道，很多博文都带有话题，干扰了原文分析，这样的“#某话题#”就可以作为噪声去除。

4、计算特征向量

基本方法

对去噪后博文，进行分词，去除停用词，按照主谓宾，提取特征，并查找同义词库，合并特征，再统计计算特征向量；

特殊方法

根据不同频道的特点，按照不同的方法提取特征向量。例如：

热门博文频道

通过分析理解博文信息，按照“【】”、“[]”、“##”提取主题，再采取基本方法，计算出特征向量。

电影频道

重复博文的定义为相同电影名称的博文为重复博文。由此，首先提取电影名称，记为N_i(i∈1,...,n)，扩展同部电影名，多个电影名称归一化处理，合并统计特征，最后得出特征向量，记为N

5、分频道计算相似度

(1)、基于热门博文频道，大部分是热点事件、新闻等，根据主题特征向量计算相似度，记为sim1。

(2)、电影频道，根据电影名特征向量N，计算最大匹配度，记为sim2。

(3)、其它频道，根据频道特征向量计算相似度，记为sim3。

6、检测重复

(1)、若sim1>T(T表示阈值，下同)，则排重，否则，采用基本方法，计算热门博文特征向量，再通过步骤5，计算相似度sim1`。若sim1`>T，则排重，反之，不排除。

(2)、若sim2>T，则排重，否则，采用基本方法，计算电影博文特征向量，再通过步骤5，计算相似度sim2`。若sim2`>T，则排重，反之，不排除。

(3)、若sim3>T，则排重，反之，不排除。

表1

算法	M1	M2	M3
				准确度	0.975	0.825	0.73

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述方法包括

(1)加载词库；

(2)根据标识的频道类型，判断博文所属频道；

(3)去噪；

(4)计算特征向量；

(5)分频道计算相似度；

(6)重复检测。

2.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(1)包括

3.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(2)中频道类型包括热门博文、热门话题、搞笑、神回复、美食、电影、旅游、星座、购物和动漫频道，每个频道都带有唯一的标识；属于热门话题频道，则去禁用词库的hash里查找，找到，则直接排除。

4.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(3)包括不分频道种类，对博文进行去噪，根据该博文所属频道特征去除该频道噪声。

5.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(4)包括对去噪后博文，进行分词，去除停用词，按照主谓宾，提取特征，并查找同义词库，合并特征，统计计算特征向量；和根据不同频道的特点，按照不同的方法提取特征向量。

6.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(5)包括

(5.3)其它频道，根据频道特征向量计算相似度，记为sim3。

7.如权利要求1所述的一种基于文本相似度和微博频道特征的博文排重方法，其特征在于，所述步骤(6)包括

(6.3)sim3>T，则排重；

其中，T为阈值。