CN110442679A

CN110442679A - 一种基于融合模型算法的文本去重方法

Info

Publication number: CN110442679A
Application number: CN201910707778.9A
Authority: CN
Inventors: 王慜骊; 林路; 陈芃; 郏维强
Original assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Current assignee: SUNYARD SYSTEM ENGINEERING Co Ltd
Priority date: 2019-08-01
Filing date: 2019-08-01
Publication date: 2019-11-12

Abstract

本发明公开了一种基于融合模型算法的文本去重方法，包括以下步骤，新闻预处理，检验一致性，计算任意两篇新闻的两两之间的相似度，使用混合贪婪算法进行文本去重。本发明中，实现自动对文本进行预处理，包括对文本进行转换、匹配，和权威性分析，只保留权威媒体的新闻，提高新闻文本的权威性，同时便于降低后序对文本去重的工作量，其次，实现去除标题和正文的一致性的文本，同时实现去除相似文本，最大保留了去重后可以用的数据量。

Description

一种基于融合模型算法的文本去重方法

技术领域

本发明涉及文本去重方法技术领域，尤其涉及一种基于融合模型算法的文本去重方法。

背景技术

新闻情数据来自各大门户网站，因为对同一事件的报道各大网站可能会相互转载引用，也可能用不同的措辞描述同一事件，内容相似包括文字相似，语义相似的概率很高，会给阅读，统计和分析带来较大噪声干扰。

基于语义的去重，一直是个难题，同样一个意思，可以有很多种说法，这些句子在语义上是十分接近的，目前在相似新闻去重方面多为通过使用人工运营相似新闻去重技术方案，这种方法成本高昂，有遗漏风险，且效率地下。

发明内容

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于融合模型算法的文本去重方法。

为了实现上述目的，本发明采用了如下技术方案：一种基于融合模型算法的文本去重方法，包括以下步骤：

S1：新闻预处理，检验一致性；

S2：计算任意两篇新闻的两两之间的相似度；

S3：使用混合贪婪算法进行文本去重。

作为上述技术方案的进一步描述：

所述S1步骤中新闻预处理，检验一致性的方法包括以下步骤：

S1.1：针对原始文本将html文本转换为纯文本；

S1.2：完成匹配CDATA,匹配Script,匹配style，处理换行，匹配HTML标签，匹配HTML注释，去除CDATA,Script,style，HTML标签，HTML注释，去掉多余空行，替换常用的HTML实体；

S1.3：通过MD5给标题生成数字证书，验证标题和正文的一致性，去除完全一致的新闻，使用预设的新闻媒体的权威性的评分，只保留权威媒体的新闻。

作为上述技术方案的进一步描述：

所述html指超文本标记语言，且html为标准通用标记语言下的一个应用，其中，超文本就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素，所述超文本标记语言的结构包括“头”部分和“主体”部分，其中“头”部提供关于网页的信息，“主体”部分提供网页的具体内容。

作为上述技术方案的进一步描述：

所述MD5是一种消息摘要算法，MD5为一种广泛使用的密码散列函数，可以产生出一个128位、16字节的散列值，MD5用于将整个文件当作一个大文本信息，通过其不可逆的字符串变换算法，产生了这个唯一的MD5信息摘要，确保信息传输完整一致。

作为上述技术方案的进一步描述：

所述S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤：

S2.1：对正文进行中文分词，使用预设的停用词库对正文进行去除停用词；

S2.2：以词为单位，根据TF-IDF的特征处理建立词袋模型，实现文本向量化；

S2.3：正文取权重最大的前M个作为关键词,并分别记录其权值，其次取权重次大的前N个词作为描述词,并分别记录其权值；

S2.4：使用hash算法把标题，关键词句，描述词句里面的每个词变成hash值；

S2.5：通过S2.4步骤的hash生成结果，需要按照单词的权重形成加权数字串，把各个单词算出来的序列值累加，变成只有一个序列串，降维变成0 1串，形成最终的属于标题、关键字和描述的simhash签名；

S2.6：计算任意两篇文章的标题，关键字，描述拼接而成的simhash的相似度sim(si,sj)。

作为上述技术方案的进一步描述：

所述simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章，所述似度采用余弦夹角公式计算，且相似度的最大值为1，而且相似度的最小值为0。

作为上述技术方案的进一步描述：

所述hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值，且这种转换是一种压缩映射。

作为上述技术方案的进一步描述：

所述S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤：

S3.1：判断相似度是否达到阈值，若达到阈值，则进行步骤S3.2，若相似度没有达到阈值，则认为两篇文章不重复；

S3.2：所有新闻组成的相似度矩阵是建立了一个相似图的相似关系建立一个相似图G＝<V,E>；

S3.3：根据顶点V的度特点及贪婪法的思想，设计了MGA算法，最终找到最小权顶点V覆盖集；

S3.4：根据S3.3步骤找到在最小顶点权覆盖集，在文本数据集中将list中去只保留一篇权值最高的新闻结点，剩余的新闻文本均为不重复，将这些不重复的文本作为输出。

作为上述技术方案的进一步描述：

所述相似图G＝<V,E>中V表示顶点的集合，E表示边的集合，其中，v∈V，e∈E，若v与e关联，则称点v覆盖了边e，文本是V，文本之间如果相似度大于阈值则存在边e,sim(si,sj)＝e；v根据新闻的时间和媒体权威性赋予不同的权值。

作为上述技术方案的进一步描述：

所述S3.3步骤中设计了MGA算法，最终找到最小权顶点V覆盖集包括以下步骤：

S3.3.1：取顶点的邻接度数较大的顶点，以使得最少数目的图的顶点并入覆盖集里为原则，即使得最多数目的图的边成为覆盖边；

S3.3.2：经过第一阶段的搜索，得到图G的子图，计算子图的顶点邻接度数，按照同样的方法，最终找到最小权顶点覆盖集。

有益效果

本发明提供了一种基于融合模型算法的文本去重方法。具备以下有益效果：

该基于融合模型算法的文本去重方法实现自动对文本进行预处理，实现对文本转换、匹配，和权威性分析，只保留权威媒体的新闻，提高新闻文本的权威性，同时便于降低后序对文本去重的工作量，其次，该基于融合模型算法的文本去重方法实现去除标题和正文的一致性的文本，同时实现去除相似文本，最大保留了去重后可以用的数据量。

附图说明

图1为本发明提出的一种基于融合模型算法的文本去重方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种基于融合模型算法的文本去重方法，包括以下步骤：

S1：新闻预处理，检验一致性；

S2：计算任意两篇新闻的两两之间的相似度；

S3：使用混合贪婪算法进行文本去重。

S1步骤中新闻预处理，检验一致性的方法包括以下步骤：

S1.1：针对原始文本将html文本转换为纯文本；

html指超文本标记语言，且html为标准通用标记语言下的一个应用，其中，超文本就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素，超文本标记语言的结构包括“头”部分和“主体”部分，其中“头”部提供关于网页的信息，“主体”部分提供网页的具体内容。

MD5是一种消息摘要算法，MD5为一种广泛使用的密码散列函数，可以产生出一个128位、16字节的散列值，MD5用于将整个文件当作一个大文本信息，通过其不可逆的字符串变换算法，产生了这个唯一的MD5信息摘要，确保信息传输完整一致。

S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤：

simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章，似度采用余弦夹角公式计算，且相似度的最大值为1，而且相似度的最小值为0。

hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值，且这种转换是一种压缩映射。

S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤：

相似图G＝<V,E>中V表示顶点的集合，E表示边的集合，其中，v∈V，e∈E，若v与e关联，则称点v覆盖了边e，文本是V，文本之间如果相似度大于阈值则存在边e,sim(si,sj)＝e；v根据新闻的时间和媒体权威性赋予不同的权值。

S3.3步骤中设计了MGA算法，最终找到最小权顶点V覆盖集包括以下步骤：

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于融合模型算法的文本去重方法，其特征在于，包括以下步骤：

S1：新闻预处理，检验一致性；

S2：计算任意两篇新闻的两两之间的相似度；

S3：使用混合贪婪算法进行文本去重。

2.根据权利要求1所述的一种基于融合模型算法的文本去重方法，其特征在于，所述S1步骤中新闻预处理，检验一致性的方法包括以下步骤：

S1.1：针对原始文本将html文本转换为纯文本；

3.根据权利要求2所述的一种基于融合模型算法的文本去重方法，其特征在于，所述html指超文本标记语言，且html为标准通用标记语言下的一个应用，其中，超文本就是指页面内可以包含图片、链接，甚至音乐、程序等非文字元素，所述超文本标记语言的结构包括“头”部分和“主体”部分，其中“头”部提供关于网页的信息，“主体”部分提供网页的具体内容。

4.根据权利要求2所述的一种基于融合模型算法的文本去重方法，其特征在于，所述MD5是一种消息摘要算法，MD5为一种广泛使用的密码散列函数，可以产生出一个128位、16字节的散列值，MD5用于将整个文件当作一个大文本信息，通过其不可逆的字符串变换算法，产生了这个唯一的MD5信息摘要，确保信息传输完整一致。

5.根据权利要求1所述的一种基于融合模型算法的文本去重方法，其特征在于，所述S2步骤中计算任意两篇新闻的两两之间的相似度方法包括以下步骤：

S2.5：通过S2.4步骤的hash生成结果，需要按照单词的权重形成加权数字串，把各个单词算出来的序列值累加，变成只有一个序列串，降维变成01串，形成最终的属于标题、关键字和描述的simhash签名；

6.根据权利要求5所述的一种基于融合模型算法的文本去重方法，其特征在于，所述simhash的相似度sim(si,sj)中的si和sj分别表示两篇文章，所述似度采用余弦夹角公式计算，且相似度的最大值为1，而且相似度的最小值为0。

7.根据权利要求5所述的一种基于融合模型算法的文本去重方法，其特征在于，所述hash算法是指是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值，且这种转换是一种压缩映射。

8.根据权利要求1所述的一种基于融合模型算法的文本去重方法，其特征在于，所述S3步骤中使用混合贪婪算法进行文本去重方法包括以下步骤：

9.根据权利要求8所述的一种基于融合模型算法的文本去重方法，其特征在于，所述相似图G＝<V,E>中V表示顶点的集合，E表示边的集合，其中，v∈V，e∈E，若v与e关联，则称点v覆盖了边e，文本是V，文本之间如果相似度大于阈值则存在边e,sim(si,sj)＝e；v根据新闻的时间和媒体权威性赋予不同的权值。

10.根据权利要求8所述的一种基于融合模型算法的文本去重方法，其特征在于，所述S3.3步骤中设计了MGA算法，最终找到最小权顶点V覆盖集包括以下步骤：