CN116719798A

CN116719798A - 一种simhash文本去重方法

Info

Publication number: CN116719798A
Application number: CN202310472505.7A
Authority: CN
Inventors: 顾维玺; 朱国伟; 周河晓; 黄自成; 李直儒; 肖泽晓; 李甲; 蒋泊辰
Original assignee: China Industrial Internet Research Institute
Current assignee: China Industrial Internet Research Institute
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-09-08

Abstract

本发明公开一种simhash文本去重方法，该方法包括：S1、对文本进行预处理以获取文本的关键词和摘要，所述的对文本预处理的方法包括基于改进PSO‑TextRank模型或者基于改进的LDA算法；S2、进行simihash去重，将所有文本的哈希值进行比较，并将相似的文本合并为一条记录，去除重复的记录。本发明可提升去重的计算效率和降低存储空间，达到海量文本进行去重的效率提升和成本降低的目的。本发明方法可以在不损失去重准确率情况下可以高效提升内存的占用效率和计算速度。

Description

一种simhash文本去重方法

技术领域

本发明涉及一种simhash文本去重方法，尤其是一种改进的simhash文本高效去重方法。属于信息处理技术领域。

背景技术

随着全球生成和存储的数据越来越多，对存储容量的需求将继续以稳定的速度增长。但无论是云存储系统，还是传统的数据存储系统，都存在大量的冗余数据，有的系统中数据重复率高达70％～90％。越来越多的研究者开始关注解决数据冗余问题以缩减存储空间，重复数据删除技术应运而生。重复数据删除技术的核心思想是只存储唯一的数据对象，对于其他重复数据则通过存储指针代替，指针指向该唯一数据对象。

当前流行的相似文本检测和去重算法主要有k-shingle、minhash和simhash算法。k-shingle是指文档中连续出现的任意k个字符，如果将文档表示成其k-shingle的集合，那么就可以基于集合之间的Jaccard相似度来计算文档之间的文本相似度，有时候将shingle哈希成更短的位串，可以基于这些哈希值的集合来表示文档。Minhash集合上的最小哈希函数基于全集上的排序转换来定义，给定任意一个排列转换，集合的最小哈希值为在排列转换次序出现的第一个集合元素。simhash是Google工程师Charikar等人提出的一种局部敏感哈希算法，用来解决亿万级别网页去重问题。simhash算法较其他算法的优势是处理速度快，结果准确度高，被广泛应用于相似文本检测、冗余数据去重和数据异常检测等领域。该文主要对Simhash算法在文本去重上的应用进行研究和改进，以进一步提高其检测重复文本的精确率。

其中，在大规模文本情况下，通过simhash去重存在内存占用空间大计算效率低等问题。本发明拟通过基于PSO改进的textrank对文本进行预处理获取文本的关键词和摘要，再利用simhash进行文本去重，可以高效提升去重效率，而保证去重准确率不会降低。

发明内容

本发明的目的在于提供一种simhash文本去重方法，基于PSO-textrank对文本进行预处理获取文本的关键词和摘要，再利用simhash进行去重，在不损失去重准确率情况下可以高效提升内存的占用效率和计算速度。

本发明一种simhash文本去重方法，其技术方案如下：

S1、对文本进行预处理以获取文本的关键词和摘要

所述的对文本预处理的方法包括基于改进PSO-TextRank模型；或者基于改进的LDA算法；

其中基于改进PSO-TextRank模型对文本关键词和摘要抽取具体过程如下：

S101、确定目标函数：首先需要明确要优化的目标函数，对于TextRank算法来说，其目标为计算文本中每个节点的得分值，因此目标函数可以定义为节点得分值的加权和；

S102、定义粒子的状态和速度：每个粒子的状态可以定义为一个长度为N的向量，表示节点的得分值，其中N为文本中节点的数量；粒子的速度可以定义为另一个长度为N的向量，表示节点得分值的变化量；

S103、初始化粒子群和参数：随机初始化一组粒子群，并设置粒子群的初始速度和参数设置，包括学习因子、惯性权重等；

S104、计算适应度值：使用步骤S101的目标函数计算每个粒子的适应度值，即计算节点得分值的加权和，评估当前粒子的解的优劣；

S105、更新粒子速度和位置：根据粒子当前位置和速度，更新其位置和速度，以搜索更优解；

其中，速度更新公式如下：V_i(t+1)＝w×V_i(t)+c₁×rand×(pbest_i-x_i(t))

c₂×rand×(gbest-x_i(t))。其中，V_i(t)表示第i个粒子在t时刻的速度，w为惯性权重，pbest_i为第i个粒子的历史最优解，gbest为全局最优解，rand为0到1之间的随机数；

S106、更新粒子群最优解：根据每个粒子的适应度值，更新粒子群的最优解，包括全局最优解和每个粒子的历史最优解；

S107、判断停止条件：重复执行步骤104-106，直到满足停止条件，如达到最大迭代次数或粒子群的最优解收敛。

S2、进行simihash去重。

将所有文本的哈希值进行比较，并将相似的文本合并为一条记录，去除重复的记录。

本发明一种simhash文本去重方法，其优点及功效在于：在利用simhash进行文本去重之前，利用改进PSO-TextRank模型进行关键词和摘要抽取，提升去重的计算效率和降低存储空间，达到海量文本进行去重的效率提升和成本降低的目的。本发明方法可以在不损失去重准确率情况下可以高效提升内存的占用效率和计算速度。

附图说明

图1所示为本发明方法流程框图。

图2所示为本发明实施例去重处理参考图。

具体实施方式

下面结合附图和具体实施例，对本发明的技术方案做进一步的说明。

一种simhash文本去重方法，具体步骤如下：

S1、基于改进的PSO-TextRank模型对文本进行关键词和摘要抽取

在爬取工业互联网领域的海量数据，其进行文本去重需要大量的空间和算力，为了提高去重的效率，可以先使用PSO-TextRank模型对待处理文本进行关键词和摘要抽取。

原始的TextRank算法是一种基于图的用于关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，它利用一篇文档内部的词语间的共现信息(语义)便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。通过PSO改进Textrank的迭代过程可以提高Textrank算法的性能和效率。

PSO-TextRank算法的基本思路是通过模拟粒子的移动过程来搜索最优解，以加速算法的收敛速度。下面详细介绍如何使用PSO算法优化TextRank算法的迭代过程：

S101、确定目标函数：首先需要明确要优化的目标函数，对于TextRank算法来说，其目标为计算文本中每个节点的得分值，因此目标函数可以定义为节点得分值的加权和。

S102、定义粒子的状态和速度：每个粒子的状态可以定义为一个长度为N的向量，表示节点的得分值，其中N为文本中节点的数量。粒子的速度可以定义为另一个长度为N的不同向量，表示节点得分值的变化量。

S103、初始化粒子群和参数：随机初始化一组粒子群，并设置粒子群的初始速度和参数设置，如学习因子、惯性权重等。

S104、计算适应度值：使用步骤S101的目标函数计算每个粒子的适应度值，即计算节点得分值的加权和，评估当前粒子的解的优劣。

S105、更新粒子速度和位置：根据粒子当前位置和速度，更新其位置和速度，以搜索更优解。速度更新公式如下：V_i(t+1)＝w×V_i(t)+c₁×rand×(pbest_i-x_i(t))

c₂×rand×(gbest-x_i(t))。其中，V_i(t)表示第i个粒子在t时刻的速度，w为惯性权重，pbest_i为第i个粒子的历史最优解，gbest为全局最优解，rand为0到1之间的随机数。

S106、更新粒子群最优解：根据每个粒子的适应度值，更新粒子群的最优解，包括全局最优解和每个粒子的历史最优解。

总的来说，PSO-TextRank算法模型是一种使用PSO算法优化后的TextRank算法。相比于原始的TextRank模型，PSO-TextRan模型在迭代过程可以加速算法的收敛速度，提高算法的准确性和效率。但是需要注意的是，PSO算法需要设置合适的参数和初始值，否则可能会陷入局部最优解。因此，需要根据具体问题的特点和需求来进行参数调优和算法优化。

PSO-TextRank在Textrank基础上能够提高效率，再获取文本摘要、关键词提取之后进行文本simhash去重。

S2、进行simhash去重

SimHash是一种基于哈希函数的文本去重方法，其具体流程如下：

·关键词摘要：在文本经过PSO-Textrank处理之后获取关键词和摘要。

·词语加权：对于每个关键词和摘要，通过一些规则对其进行加权，使得在哈希计算时不同的词语对于哈希值的贡献程度不同。例如，可以采用TF-IDF等算法对词语进行加权。

·生成特征向量：将每个词语的加权值表示为一个二进制数(0或1)，然后将这些二进制数组合起来形成一个特征向量。对于长度为n的特征向量，可以采用n位的哈希函数对其进行哈希计算，得到一个哈希值。

·比较哈希值：对于两个文本的哈希值，可以比较它们的汉明距离(HammingDistance)，即两个哈希值中不同位的个数。一般来说，如果两个文本的汉明距离小于某个阈值，则可以认为它们是相似的，需要进行进一步的判断和处理。

去重处理：将所有文本的哈希值进行比较，并将相似的文本合并为一条记录，去除重复的记录。如图2。

需要注意的是，SimHash去重方法的效果和哈希函数的选择、加权方法、特征向量长度以及汉明距离阈值等因素密切相关。在实际应用中需要根据具体情况进行参数调整和优化，以提高去重效果和减少误判率。

在文本利用textrank获取摘要或者关键词以及权重信息的方法，也可以利用其他算法实现关键词和摘要的目的，比如LDA。LDA(Latent Dirichlet Allocation)是一种基于主题模型的方法，通过对文本进行概率建模来识别主题，并根据主题分布进行文本摘要和关键词抽取。LDA算法的核心思想是，将文本看作是由多个主题的混合组成，每个主题又是由多个词语组成的。LDA算法首先假设每个文档都由若干个主题组成，每个主题由一些词语组成，然后根据这些假设，通过统计方法求解每个主题的词语分布以及每个文档的主题分布。

LDA算法的摘要和关键词抽取过程如下：

·数据预处理：将文本数据进行分词、去除停用词等预处理操作，得到分好词的文本。·构建词袋模型：将预处理后的文本转化为词袋模型(Bag of Words)，即将每个文本

表示为一个向量，向量中的每个元素代表一个词语在文本中出现的次数。

·训练LDA模型：将词袋模型输入LDA算法中，通过训练LDA模型来获取每个文档的主

题分布和每个主题的词语分布。

摘要和关键词抽取：根据文档的主题分布和主题的词语分布，可以从文本中提取摘要和关键词。具体方法如下：a.摘要抽取：根据文档的主题分布，选择主题分布中得分较高的主题，然后根据该主题的词语分布，选择得分较高的一些词语作为文本的摘要。b.关键词抽取：根据主题的词语分布，选择得分较高的一些词语作为文本的关键词。

Claims

1.一种simhash文本去重方法，其特征在于：该方法包括：

S1、对文本进行预处理以获取文本的关键词和摘要：

所述的对文本预处理的方法包括基于改进PSO-TextRank模型或者基于改进的LDA算法；

S2、进行simihash去重：

2.根据权利要求1所述的一种simhash文本去重方法，其特征在于：所述的基于改进PSO-TextRank模型对文本关键词和摘要抽取具体过程如下：

3.根据权利要求2所述的一种simhash文本去重方法，其特征在于：所述S105中速度更新公式如下：V_i(t+1)＝w×V_i(t)+c₁×rand×(pbest_i-x_i(t))+c₂

rand×(gbest-x_i(t))；其中，V_i(t)表示第i个粒子在t时刻的速度，w为惯性权重，pbest为第i个粒子的历史最优解，gbest为全局最优解，rand为0到1之间的随机数。