CN110956038B

CN110956038B - 图文内容重复判断方法及装置

Info

Publication number: CN110956038B
Application number: CN201910984085.4A
Authority: CN
Inventors: 陈方毅; 谢振林
Original assignee: Xiamen Meishao Co ltd
Current assignee: Xiamen Meishao Co ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2022-07-05
Anticipated expiration: 2039-10-16
Also published as: CN110956038A

Abstract

本发明公开了图文内容重复判断方法及装置。涉及信息处理领域，其中，方法通过建立词权重模型，并构建包括图文对比数据集，获取目标图文内容第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到目标图文内容与每一个样本图文内容之间的文本相似度和图片相似数量，根据文本相似度和图片相似数量，利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。本发明结合多个维度特征进行重复判断，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，另外，本发明的计算文本相似度方法提高了召回率和准确度。

Description

图文内容重复判断方法及装置

技术领域

本发明涉及信息处理领域，尤其是一种图文内容重复判断方法及装置。

背景技术

目前在互联网中充斥着海量的图文内容，其中包含大量的重复内容。这些重复内容会浪费大量的存储资源。为了节省存储资源，需要去除互联网中重复的图文内容。随着计算机对文本信息等各种自然语言处理应用的普及，人们需要一个有效且准确的方法来计算两个图文内容之间的相似度。目前的图文内容重复性判断方法主要是：余弦相似算法、文本simhash算法等，但是余弦相似算法存在对比计算量大、效率低且阈值难定的问题，文本simhash算法存在对相似度要求高，召回率低的问题，并且常见的对比模型都是基于单一维度特征比较，容易在召回率与准确率之间取舍困难，其相似度判断准确度不高。

因此需要提出一种结合多个维度特征以提高相似度准确性的图文内容重复判断方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的目的是提供一种结合多个维度特征以提高相似度准确性的图文内容重复判断方法。

本发明实施例所采用的技术方案是：

第一方面，本发明提供一种图文内容重复判断方法，其特征在于，包括：

建立词权重模型；

收集样本图文内容，利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词，并计算所述样本图文内容中第二预设数量图片的图片比较值，构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集；

获取目标图文内容所述第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与所述图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到所述目标图文内容与每一个所述样本图文内容之间的文本相似度和图片相似数量；

根据所述文本相似度和图片相似数量，利用去重策略判断目标图文内容与所述图文对比数据集之间的重复情况。

进一步地，所述词权重模型的建立过程为：

获取语料样本数据，进行jieba分词得到分词结果，根据所述分词结果训练word2vec模型；

选取第三预设数量的常用文本关键词，并标记其重要程度权重；

遍历所述分词结果中的分词利用所述word2vec模型获取每个所述分词与所述常用文本关键词中第四预设数量的相似分词词和对应的相似值；

根据词权重计算公式得到所述分词的词权重，构建所述词权重模型；所述词权重计算公式具体为：

其中，wordW表示所述分词的词权重，wrodW_i表示第i个相似分词的重要程度权值，simW_i表示第i个相似分词的相似值。

进一步地，所述利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词具体为：

对每一个所述样本图文内容利用jieba分词器进行分词得到文本关键词；

统计所述文本关键词在所述样本图文内容中出现的次数，并计算相应的词频；

根据所述词权重模型得到所述文本关键词的词权重，结合所述词频得到每个所述文本关键词的重要性权重；

对重要性权重进行排序，选取排名前第一预设数量的文本关键词作为所述样本图文内容的文章关键词。

进一步地，所述文本相似度计算公式表示为：

其中，sim₂₁表示第二图文内容对第一图文内容的文本相似度，impW_sim表示第二图文内容与第一图文内容之间共有的文章关键词在第二图文内容中的重要性权重之和，impW₂表示第二图文内容中所有文章关键词的重要性权重之和。

进一步地，计算图片比较值的过程为：

将图片归一化成相同的像素尺寸，并计算所有像素的平均灰度值；

遍历所有像素并与所述平均灰度值进行大小对比，根据对比结果进行二进制编码生成图片比较值，所述图片比较值为simhash值。

进一步地，计算图片相似性的过程具体为：

根据待比较的两张图片的图片比较值，计算两张图片之间的海明距离；

如果所述海明距离小于预设阈值，则判断所述两张图片相似。

进一步地，去重策略具体为：

当所述目标文章关键词与图文对比数据集中每一个所述文章关键词相比，当重复的数量超过第一重复阈值，则判定所述目标图文内容与所述图文对比数据集重复；

否则，当目标图文内容和图文对比数据集中所述样本图文内容的文本相似度大于等于第二重复阈值且图片相似数量为一组时，则判定所述目标图文内容与所述图文对比数据集重复；

否则，当所述文本相似度大于等于第三重复阈值小于所述第二重复阈值，且所述图片相似数量多于一组时，判定所述目标图文内容与所述图文对比数据集重复；

不满足上述条件，则判定所述目标图文内容不重复。

第二方面，本发明还提供一种图文内容重复判断装置，包括：

词权重模型建立模块：用于建立词权重模型；

生成图文对比数据集模块：用于收集样本图文内容，利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词，并计算所述样本图文内容中第二预设数量图片的图片比较值，构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集；

进行图文相似性比较模块：用于获取目标图文内容所述第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与所述图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到所述目标图文内容与每一个所述样本图文内容之间的文本相似度和图片相似数量；

判断重复状态模块：用于根据所述文本相似度和图片相似数量，利用去重策略判断目标图文内容与所述图文对比数据集之间的重复情况。

第三方面，本发明提供一种图文内容重复判断设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如第一方面任一项所述的方法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明实施例的有益效果是：

本发明实施例建立词权重模型，并构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集，获取目标图文内容第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到目标图文内容与每一个样本图文内容之间的文本相似度和图片相似数量，根据文本相似度和图片相似数量，利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。本发明实施例结合多个维度特征进行重复判断，包括文本和图片，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，本发明的计算文本相似度方法提高了召回率，同时计算图片相似性的过程准确度更高。可广泛应用于涉及内容比较的信息处理领域。

附图说明

图1是本发明中图文内容重复判断方法的一具体实施例的实现流程图；

图2是本发明中图文内容重复判断方法的一具体实施例的建立词权重模型过程示意图；

图3是本发明中图文内容重复判断方法的一具体实施例的计算图片比较值过程示意图；

图4是本发明中图文内容重复判断方法的一具体实施例的生成图文对比数据集示意图；

图5是本发明中图文内容重复判断方法的一具体实施例的去重策略流程示意图；

图6是本发明中图文内容重复判断装置的一具体实施例的结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一：

本发明实施例一提供一种图文内容重复判断方法，图1为本发明实施例提供的一种图文内容重复判断方法的实现流程图，如图1所示，该方法包括以下步骤：

S1：建立词权重模型。

S2：生成图文对比数据集：收集样本图文内容，利用词权重模型提取每个样本图文内容中第一预设数量的文章关键词，并计算样本图文内容中第二预设数量图片的图片比较值，构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集。

本实施例中，第一预设数量可选的为18个，第二预设数量可选的为3张，均可以根据实际情况适应性改变。

S3：进行图文相似性比较：获取目标图文内容第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到目标图文内容与每一个样本图文内容之间的文本相似度和图片相似数量，本实施例中，目标图文内容指用于与图文对比数据集进行重复判断的图文内容，数量不限制，当有多个时，逐一进行比较。

S4：判断重复状态：根据文本相似度和图片相似数量，利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。

其中，本实施例步骤S1中，如图2所示，为建立词权重模型过程示意图，具体为：

S11：获取语料样本数据，进行jieba分词得到分词结果，根据分词结果训练word2vec模型，具体的word2vec模型训练过程为：

1)获取足够大的语料数据作为样本数据，尽可能覆盖尽量多的词汇；

2)利用jieba分词器对语料进行样本分词处理得到分词，jieba分词器是一种基于python的开源自然语言处理中文分词器，适用于文本分析；

3)将分词输入Gensim的word2vec模型进行训练，Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，本实施例中，可选的为word2vec模型；

4)训练完成后，保存word2vec模型。

S12：选取第三预设数量的常用文本关键词，并标记其重要程度权重。本实施例中，第三预设数量可选的为3000，即选取3000个常见词进行重要程度权重标记，重要程度可选的包括：强、中、弱三级，对应的重要程度权重可选的比如：强1.2、中0.4、弱0.12等，上述数值均可以根据实际情况适应性改变。

S13：遍历word2vec模型中所有分词，并利用word2vec模型获取每个分词与常用文本关键词中第四预设数量的相似分词和对应的相似值。本实施例中，第四预设数量可选的为25个(可以根据实际情况适应性改变)，即利用word2vec模型中most_similar方法获取每个分词的最相似的25个词(即在常用文本关键词中选取最相似的25个词)及对应的相似值。

S14：根据词权重计算公式得到分词的词权重，构建词权重模型，即多次遍历word2vec模型，直到所有分词均有词权重值，并且该值趋于收敛，不再发生明显变化时，则以当前各个分词的词权重作为最终的词权重模型保存。其中，词权重计算公式具体为：

其中，wordW表示分词的词权重，wrodW_i表示第i个相似分词的重要程度权值，simW_i表示第i个相似分词的相似值。

步骤S2中，利用词权重模型提取每个样本图文内容中第一预设数量的文章关键词具体为：

S211：对每一个样本图文内容利用jieba分词器进行分词得到文本关键词，在一种实施方式中，即将作为训练样本集的每一个样本图文内容分别利用jieba分词器进行分词，得到每个样本图文内容对应的文本关键词。

S212：统计每一个文本关键词在对应图文内容中出现的次数，并计算相应的词频，例如设某个文本关键词在训练样本集中出现次数为times_i，设所有文本关键词中最大出现次数为times_max，那么根据词频计算公式的到该文本关键词的词频，词频计算公式表示为：

其中，tf_i表示第i个文本关键词的词频，times_i表示第i个文本关键词的出现次数，times_max表示所有文本关键词中最大出现次数。

S213：将文本关键词输入词权重模型，得到文本关键词的词权重，结合词频得到每个文本关键词在该训练样本集中的重要性权重，本实施例中，重要性权重的计算公式表示为：

impW_i＝tf_i*wordW (3)

其中，impW_i表示某个关键词的重要性权重，tf_i表示该关键词的词频，wordW表示根据词权重模型得到的文本关键词的词权重。

S214：选取重要性权重排序排名前第一预设数量的关键词作为样本图文内容的文章关键词。本实施例中，按照重要性权重排序结果，选取例如18个关键词作为该训练样本集的文章关键词。

根据文章关键词以及文本相似度计算公式计算得到不同图文内容之间的文本相似度，具体的文本相似度计算公式表示为：

即假设有两篇图文内容，记为第一图文内容和第二图文内容，要得到第二图文内容和第一图文内容的相似度，则计算两个图文内容中重合的文章关键词的重要性权重之和，记为impW_sim，并计算第二图文内容中所有文章关键词的重要性权重之和，记为impW₂，根据上述公式(4)即可得到第二图文内容对第一图文内容的文本相似度。

由于本实施例涉及图文内容，包括文本和图片，因此下面介绍图片相似性比较过程，包括：计算图片比较值和计算图片相似性。

其中，如图3所示，为计算图片比较值过程示意图：

S221：为计算方便，将需要计算图片比较值的图片归一化成相同的像素尺寸，可以理解的是，目标图文内容中目标图片和样本图文内容中图片均采用该方式计算图片比较值。

S222：计算图片中所有像素的平均灰度值，本实施例中，可选的将图片归一化成8×8的像素，减少计算工作量。

S223：遍历图片中所有像素并与平均灰度值进行大小对比，根据对比结果进行二进制编码生成图片的比较值，本实施例中比较值即simhash值，可选的，例如根据对比结果将大于平均灰度值的记为1，小于平均灰度值的记为0，生成一个64位(可根据实际情况适应性修改)的二进制编码，即图片simhash值。

下面是计算图片相似性过程，例如将样本图文内容中图片与目标图文内容中目标图片进行比较，计算两者之间的相似性：

S224：根据两张图片的simhash值计算图片的海明距离，其中，在信息编码中，两个合法代码对应位上编码不同的位数称为码距，也称海明距离，本实施例中，对两张图片的simhash值各个位数编码进行对比，最终不同的位数就作为两张图片的海明距离。

S225：如果两张图片的海明距离小于预设阈值，则判断这两张图片相似，预设阈值可选的为6。

步骤S2中，生成图文对比数据集，即构建一个用于比较的原始数据库，如图4所示，为生成图文对比数据集示意图，从图中可见包括以下流程：

具体的是：利用文本关键词提取方案和上述步骤S1得到的词权重模型，提取样本图文内容中第一预设数量的文章关键词，同时计算每一个样本图文内容中第二预设数量图片的图片比较值，构建图文对比数据集，其中，

S231：获取作为训练样本集的样本图文内容，如历史资讯信息等；

S232：利用文本关键词提取方案和上述步骤S1得到的词权重模型，根据重要性权重排序提取样本图文内容中第一预设数量(如18个)的文章关键词；

S233：计算每一个样本图文内容中第二预设数量(如3张)图片的图片比较值；

S234：生成基于每一个文章关键词的样本图文列表，同时保存样本图文列表中每一个样本图文内容中图片比较值，构建图文对比数据集，其中将包括该文章关键词的样本图文内容组成样本图文列表。

本实施例中，根据步骤S4判断重复状态，如图5所示，为去重策略流程示意图：

1)当目标文章关键词与图文对比数据集中每一个文章关键词相比，当重复的数量超过第一重复阈值(可选的，设定第一重复阈值为17个，即假设目标图文内容中提取的18个文章关键词有17个都跟图文对比数据集中提取的18个文章关键词重复)，则判定目标图文内容与图文对比数据集中样本图文内容重复；

2)否则，当目标图文内容和图文对比数据集中某一个样本图文内容的文本相似度大于等于第二重复阈值(可选的为0.8)且图片相似数量为一组，则判定目标图文内容与图文对比数据集重复；

优选的，本步骤为了减少计算量，选取图文对比数据集中文本相似度排序前20个样本图文内容进行图片相似性比较，同样的，各选择前3张图片，该值可根据实际情况调整。

3)否则，当文本相似度大于等于第三重复阈值(可选的为0.6)小于第二重复阈值(可选的为0.8)且图片相似数量大于一组(如2组、3组等)，则判定目标图文内容与图文对比数据集重复，图片相似数量优选的为3组图片。

4)不满足上述条件，则判定目标图文内容与图文对比数据集之间不重复。

可以理解的是，上述去重策略中不同的判断阈值均可根据实际情况调整。

本实施例结合多个维度特征进行重复判断，包括文本和图片，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，本实施例的计算文本相似度方法提高了召回率，同时计算图片相似性的过程准确度更高。

另外，本实施例还可以应用于通过语音识别软件将语音识别成文本内容，然后进行文本内容重复判断。

实施例二：

本实施例提供了一种图文内容重复判断装置，用于执行实施例一所述的方法，如图6所示，为本实施例的图文内容重复判断装置结构框图，包括：

词权重模型建立模块10：用于建立词权重模型；

生成图文对比数据集模块20：用于收集样本图文内容，利用词权重模型提取每个样本图文内容中第一预设数量的文章关键词，并计算样本图文内容中第二预设数量图片的图片比较值，构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集；

进行图文相似性比较模块30：用于获取目标图文内容所述第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到目标图文内容与每一个样本图文内容之间的文本相似度和图片相似数量；

判断重复状态模块40：用于根据文本相似度和图片相似数量，利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。

另外，本发明还提供一种图文内容重复判断设备，包括：

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如实施例一所述的方法。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

本发明通过建立词权重模型，并构建包括每个样本图文内容的文章关键词和图片比较值的图文对比数据集，获取目标图文内容第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与每个样本图文内容的文章关键词和图片比较值对比计算，得到目标图文内容与图文对比数据集中每一个样本图文内容之间的文本相似度和图片相似数量，根据文本相似度和图片相似数量，利用去重策略判断目标图文内容与图文对比数据集之间的重复情况。

本发明可在对比过程中返回的相似非重复数据或返回文本内容最相似数据列表，能够广泛应用于数据相关推荐算法、搜索query查询结果和原创作者分析、热门事件/话题发现等信息处理领域。

以上各实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种图文内容重复判断方法，其特征在于，包括：

建立词权重模型；

收集样本图文内容，利用所述词权重模型，提取所述样本图文内容中第一预设数量的文章关键词，并计算所述样本图文内容中第二预设数量的图片比较值，构建包括所述样本图文内容的文章关键词和图片比较值的图文对比数据集；

获取目标图文内容的所述第一预设数量的目标文章关键词和所述第二预设数量的目标图片比较值，分别与所述图文对比数据集中的所述文章关键词和所述图片比较值进行对比，得到所述目标图文内容与所述样本图文内容的文本相似度和图片相似数量；

根据所述文本相似度和所述图片相似数量，利用去重策略判断所述目标图文内容是否与所述样本图文内容重复；

所述文本相似度计算公式表示为：

其中，sim₂₁表示第二图文内容对第一图文内容的文本相似度，impW_sim表示第二图文内容与第一图文内容之间共有的文章关键词在第二图文内容中的重要性权重之和，impW₂表示第二图文内容中所有文章关键词的重要性权重之和；

计算图片比较值的过程为：

2.根据权利要求1所述的一种图文内容重复判断方法，其特征在于，所述词权重模型的建立过程为：

遍历所述分词结果中的分词利用所述word2vec模型获取每个所述分词与所述常用文本关键词中第四预设数量的相似分词和对应的相似值；

3.根据权利要求1所述的一种图文内容重复判断方法，其特征在于，所述利用所述词权重模型提取每个样本图文内容中第一预设数量的文章关键词具体为：

4.根据权利要求1所述的一种图文内容重复判断方法，其特征在于，计算图片相似性的过程具体为：

5.根据权利要求1至4任一项所述的一种图文内容重复判断方法，其特征在于，去重策略具体为：

不满足上述条件，则判定所述目标图文内容不重复。

6.一种图文内容重复判断装置，其特征在于，包括：

词权重模型建立模块：用于建立词权重模型；

判断重复状态模块：用于根据所述文本相似度和图片相似数量，利用去重策略判断目标图文内容与所述图文对比数据集之间的重复情况；

所述文本相似度计算公式表示为：

计算图片比较值的过程为：

7.一种图文内容重复判断设备，其特征在于，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如权利要求1至5任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的方法。