CN110956037A

CN110956037A - 多媒体内容重复判断方法及装置

Info

Publication number: CN110956037A
Application number: CN201910984062.3A
Authority: CN
Inventors: 陈方毅; 谢振林
Original assignee: Xiamen Meishao Co Ltd
Current assignee: Xiamen Meishao Co Ltd
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2020-04-03
Anticipated expiration: 2039-10-16
Also published as: CN110956037B

Abstract

本发明公开了多媒体内容重复判断方法及装置。涉及信息处理领域，其中，方法通过建立包括图文对比数据集和视频内容对比数据集的对比数据集，判断目标多媒体内容的类型，包括图文内容和视频内容，根据目标多媒体内容类型对应的对比数据集进行重复判断。本发明实施例结合多个维度特征进行重复判断，包括文本、图片和视频，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，计算文本相似度方法提高了召回率，另外通过将视频内容去重概括为不同帧图片的相似性判断，对于海量视频内容来说，提取关键信息，减少去重工作量，大大提高了视频内容的去重效率。

Description

多媒体内容重复判断方法及装置

技术领域

本发明涉及信息处理领域，尤其是一种多媒体内容重复判断方法及装置。

背景技术

目前在互联网中充斥着海量的多媒体内容，其中包含大量的重复内容。这些重复内容会浪费大量的存储资源。为了节省存储资源，需要去除互联网中重复的图文内容。随着计算机对文本信息等各种自然语言处理应用的普及，人们需要一个有效且准确的方法来计算两个图文内容之间的相似度。目前的图文内容重复性判断方法主要是：余弦相似算法、文本simhash算法等，但是余弦相似算法存在对比计算量大、效率低且阈值难定的问题，文本simhash算法存在对相似度要求高，召回率低的问题，并且常见的对比模型都是基于单一维度特征比较，容易在召回率与准确率之间取舍困难，其相似度判断准确度不高。

因此需要提出一种结合多个维度特征以提高相似度准确性的多媒体内容重复判断方法。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的目的是提供一种结合多个维度特征以提高相似度准确性的多媒体内容重复判断方法。

本发明实施例所采用的技术方案是：

第一方面，本发明实施例提供一种多媒体内容重复判断方法，包括：

建立对比数据集，所述对比数据集包括：图文对比数据集和视频内容对比数据集；

判断目标多媒体内容的类型，所述类型包括图文内容和视频内容；

根据所述类型选择对应的对比数据集进行重复判断，具体为：当所述目标多媒体内容的类型为图文内容时，对目标图文内容与所述图文对比数据集进行重复判断；当所述目标多媒体内容的类型为视频内容时，对目标视频内容与所述视频内容对比数据集进行重复判断。

进一步地，建立所述图文对比数据集的过程具体为：

建立词权重模型；

利用所述词权重模型，提取样本图文内容中第一预设数量的文章关键词；

计算所述样本图文内容中第二预设数量图片的图片比较值；

根据所述文章关键词和所述图片比较值，构建所述图文对比数据集。

进一步地，建立所述词权重模型的过程为：

获取语料样本数据，进行jieba分词得到分词结果，根据所述分词结果训练word2vec模型；

选取第三预设数量的常用文本关键词，并标记其重要程度权重；

遍历所述分词结果中的分词利用所述word2vec模型获取每个所述分词与所述常用文本关键词中第四预设数量的相似分词词和对应的相似值；

根据词权重计算公式得到所述分词的词权重，构建所述词权重模型；所述词权重计算公式具体为：

其中，wordW表示所述分词的词权重，wrodW_i表示第i个相似分词的重要程度权值，simW_i表示第i个相似分词的相似值。

进一步地，所述利用所述词权重模型，提取样本图文内容中第一预设数量的文章关键词具体为：

对每一个所述样本图文内容利用jieba分词器进行分词得到文本关键词；

统计所述文本关键词在所述样本图文内容中出现的次数，并计算相应的词频；

根据所述词权重模型得到所述文本关键词的词权重，结合所述词频得到每个所述文本关键词的重要性权重；

对重要性权重进行排序，选取排名前第一预设数量的文本关键词作为所述样本图文内容的文章关键词；

所述文本相似度计算公式表示为：

其中，sim₂₁表示第二图文内容对第一图文内容的文本相似度，impW_sim表示第二图文内容与第一图文内容之间共有的文章关键词在第二图文内容中的重要性权重之和，impW₂表示第二图文内容中所有文章关键词的重要性权重之和。

进一步地，计算图片比较值的过程为：

将图片归一化成相同的像素尺寸，并计算所有像素的平均灰度值；

遍历所有像素并与所述平均灰度值进行大小对比，根据对比结果进行二进制编码生成图片比较值，所述图片比较值为simhash值。

进一步地，当所述目标多媒体内容的类型为图文内容时，对目标图文内容与所述图文对比数据集进行重复判断，具体为：

获取所述图文内容的所述第一预设数量的目标文章关键词和第二预设数量的目标图片比较值，分别与所述与图文对比数据集中每个样本图文内容的文章关键词和图片比较值对比计算，得到所述图文内容与每一个所述样本图文内容之间的文本相似度和图片相似性，通过所述图片相似性得到图片相似数量；

根据所述文本相似度和图片相似数量，利用图文去重策略判断所述目标图文内容与所述图文对比数据集之间的重复情况；

计算图片相似性具体为：

根据待比较的两张图片的图片比较值，计算两张图片之间的海明距离；

如果所述海明距离小于预设阈值，则判断所述两张图片相似。

所述图文去重策略具体为：

当所述目标文章关键词与图文对比数据集中每一个所述文章关键词相比，当重复的数量超过第一重复阈值，则判定所述目标图文内容与所述图文对比数据集重复；

否则，当目标图文内容和图文对比数据集中所述样本图文内容的文本相似度大于等于第二重复阈值且图片相似数量为一组时，则判定所述目标图文内容与所述图文对比数据集重复；

否则，当所述文本相似度大于等于第三重复阈值小于所述第二重复阈值，且所述图片相似数量多于一组时，判定所述目标图文内容与所述图文对比数据集重复；

不满足上述条件，则判定所述目标图文内容不重复。

进一步地，建立所述视频内容对比数据集的过程具体为：

计算每一个视频样本内容的样本帧图片比较值信息，并生成所述视频内容对比数据集，所述视频内容对比数据集包括：视频样本内容的时长和样本帧图片比较值信息。

进一步地，当所述目标多媒体内容的类型为视频内容时，对目标视频内容与所述视频内容对比数据集进行重复判断，具体为：

计算目标视频内容对应于所述样本比较值信息的目标帧图片比较值信息；

根据视频去重策略判断所述目标视频内容与所述视频内容对比数据集之间的重复情况；

所述视频去重策略具体为：

根据所述目标视频内容的视频时长在所述视频内容对比数据集中选取时长相关的视频样本内容作为对比视频集；

根据所述图片相似性判断过程判断所述目标视频内容和所述对比视频集的封面帧图片是否相似，如果不相似，则判断所述目标视频内容与所述视频内容对比数据集之间不重复；

否则，判断第一预设时间帧图片和第二预设时间帧图片是否都相似，如果都相似，则判断所述目标视频内容与所述视频内容对比数据集之间重复；

否则，判断所述目标视频内容与所述视频内容对比数据集之间不重复。

第二方面，本发明提供一种多媒体内容重复判断装置，包括：

对比数据集建立模块：用于建立对比数据集，所述对比数据集包括：图文对比数据集和视频内容对比数据集；

目标内容分类模块：用于判断目标多媒体内容的类型，所述类型包括图文内容和视频内容；

判断重复状态模块：用于根据所述类型选择对应的对比数据集进行重复判断，具体为：当所述目标多媒体内容的类型为图文内容时，对目标图文内容与所述图文对比数据集进行重复判断；当所述目标多媒体内容的类型为视频内容时，对目标视频内容与所述视频内容对比数据集进行重复判断。

第三方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面任一项所述的方法。

本发明实施例的有益效果是：

本发明实施例通过建立包括图文对比数据集和视频内容对比数据集的对比数据集，判断目标多媒体内容的类型，包括图文内容和视频内容，根据目标多媒体内容类型对应的对比数据集进行重复判断。本发明实施例结合多个维度特征进行重复判断，包括文本、图片和视频，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，本发明实施例的计算文本相似度方法提高了召回率，同时计算图片相似性的过程准确度更高。另外通过将视频内容去重概括为不同帧图片的相似性判断，对于海量视频内容来说，提取关键信息，减少去重工作量，大大提高了视频内容的去重效率。可广泛应用于涉及内容比较的信息处理领域。

附图说明

图1是本发明中多媒体内容重复判断方法的一具体实施例的实现流程图；

图2是本发明中多媒体内容重复判断方法的一具体实施例的建立图文对比数据集的过程示意图；

图3是本发明中多媒体内容重复判断方法的一具体实施例的建立词权重模型过程示意图；

图4是本发明中多媒体内容重复判断方法的一具体实施例的计算图片比较值过程示意图；

图5是本发明中多媒体内容重复判断方法的一具体实施例的建立视频内容对比数据集的过程示意图；

图6是本发明中多媒体内容重复判断方法的一具体实施例的多媒体内容重复判断方法的具体应用示意图；

图7是本发明中多媒体内容重复判断装置的一具体实施例的结构框图。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

实施例一：

本发明实施例一提供一种多媒体内容重复判断方法，图1为本发明实施例提供的一种多媒体内容重复判断方法的实现流程图，如图1所示，该方法包括以下步骤：

S1：建立对比数据集，其中对比数据集包括：图文对比数据集和视频内容对比数据集；

S2：判断目标多媒体内容的类型，类型包括图文内容和视频内容；

S3：根据类型对应对比数据集进行重复判断，具体的：当目标多媒体内容的类型为图文内容时，将目标图文内容与图文对比数据集进行重复判断，当目标视频内容的类型为视频内容时，将目标多媒体内容与视频内容对比数据集进行重复判断。

具体的，步骤S1中，如图2所示，为建立图文对比数据集的过程示意图，具体为：

S11：建立词权重模型；

S12：利用文本关键词提取方案和词权重模型，提取样本图文内容中第一预设数量的文章关键词，样本图文内容指历史资讯信息等作为建立图文对比数据集的样本；

S13：选取每一个样本图文内容中第二预设数量的图片作为参考图片，计算参考图片比较值；

S14：根据文章关键词和对应的参考图片比较值，生成基于每一个文章关键词的样本图文内容列表，同时保存每一个样本图文内容相关图片的图片比较值，构建图文对比数据集。

本实施例中，第一预设数量可选的为18个，第二预设数量可选的为3张，均可以根据实际情况适应性改变。

如图3所示，为建立词权重模型过程示意图，具体为：

S111：获取语料样本数据，进行jieba分词得到分词结果，根据分词结果训练word2vec模型，具体的word2vec模型训练过程为：

1)获取足够大的语料数据作为样本数据，尽可能覆盖尽量多的词汇；

2)利用jieba分词器对语料进行样本分词处理得到分词，jieba分词器是一种基于python的开源自然语言处理中文分词器，适用于文本分析；

3)将分词输入Gensim的word2vec模型进行训练，Gensim是一款开源的第三方Python工具包，用于从原始的非结构化的文本中，无监督地学习到文本隐层的主题向量表达，它支持包括TF-IDF，LSA，LDA，和word2vec在内的多种主题模型算法，本实施例中，可选的为word2vec模型；

4)训练完成后，保存word2vec模型。

S112：选取第三预设数量的常用文本关键词，并标记其重要程度权重。本实施例中，第三预设数量可选的为3000，即选取3000个常见词进行重要程度权重标记，重要程度可选的包括：强、中、弱三级，对应的重要程度权重可选的比如：强1.2、中0.4、弱0.12等，上述数值均可以根据实际情况适应性改变。

S113：遍历word2vec模型中所有分词，并利用word2vec模型获取每个分词与常用文本关键词中第四预设数量的相似分词和对应的相似值。本实施例中，第四预设数量可选的为25个(可以根据实际情况适应性改变)，即利用word2vec模型中most_similar方法获取每个分词的最相似的25个词(即在常用文本关键词中选取最相似的25个词)及对应的相似值。

S114：根据词权重计算公式得到分词的词权重，构建词权重模型，即多次遍历word2vec模型，直到所有分词均有词权重值，并且该值趋于收敛，不再发生明显变化时，则以当前各个分词的词权重作为最终的词权重模型保存。其中，词权重计算公式具体为：

其中，wordW表示分词的词权重，wrodW_i表示第i个相似分词的重要程度权值，simW_i表示第i个相似分词的相似值。

步骤S12中，文本关键词提取方案具体为：

S121：对每一个样本图文内容利用jieba分词器进行分词得到文本关键词，在一种实施方式中，即将作为训练样本集的每一个样本图文内容分别利用jieba分词器进行分词，得到每个样本图文内容对应的文本关键词。

S122：统计每一个文本关键词在对应图文内容中出现的次数，并计算相应的词频，例如设某个文本关键词在训练样本集中出现次数为times_i，设所有文本关键词中最大出现次数为times_max，那么根据词频计算公式的到该文本关键词的词频，词频计算公式表示为：

其中，tf_i表示第i个文本关键词的词频，times_i表示第i个文本关键词的出现次数，times_max表示所有文本关键词中最大出现次数。

S123：将文本关键词输入词权重模型，得到文本关键词的词权重，结合词频得到每个文本关键词在该训练样本集及中的重要性权重，本实施例中，重要性权重的计算公式表示为：

impW_i＝tf_i*wordW (3)

其中，impW_i表示某个关键词的重要性权重，tf_i表示该关键词的词频，wordW表示根据词权重模型得到的文本关键词的词权重。

S124：选取重要性权重排序排名前第一预设数量的关键词作为样本图文内容的文章关键词。本实施例中，按照重要性权重排序结果，选取例如18个关键词作为该训练样本集的文章关键词。

根据文章关键词以及文本相似度计算公式计算得到不同图文内容之间的文本相似度，具体的文本相似度计算公式表示为：

即假设有两篇图文内容，记为第一图文内容和第二图文内容，要得到第二图文内容和第一图文内容的相似度，则计算两个图文内容中重合的文章关键词的重要性权重之和，记为impW_sim，并计算第二图文内容中所有文章关键词的重要性权重之和，记为impW₂，根据上述公式(4)即可得到第二图文内容对第一图文内容的文本相似度。

步骤S13中，如图4所示，为计算图片比较值过程示意图：

S131：为计算方便，将需要计算图片比较值的图片图片归一化成相同的像素尺寸；

S132：计算图片中所有像素的平均灰度值，本实施例中，可选的将图片归一化成8×8的像素，减少计算工作量。

S133：遍历图片中所有像素并与平均灰度值进行大小对比，根据对比结果进行二进制编码生成图片的比较值，本实施例中比较值即simhash值，可选的，例如根据对比结果将大于平均灰度值的记为1，小于平均灰度值的记为0，生成一个64位(可根据实际情况适应性修改)的二进制编码，即图片simhash值。

S134：根据图片比较值计算图片相似性，具体为：

根据两张图片的simhash值计算图片的海明距离，其中，在信息编码中，两个合法代码对应位上编码不同的位数称为码距，也称海明距离，本实施例中，对两张图片的simhash值各个位数编码进行对比，最终不同的位数就作为两张图片的海明距离。

如果两张图片的海明距离小于预设阈值，则判断这两张图片相似，预设阈值可选的为6。

具体的，步骤S1中，如图5所示，为建立视频内容对比数据集的过程示意图，具体为：

S15：获取作为训练样本集的视频样本内容及对应时长，如历史视频资讯等；

S16：计算每一个视频样本内容的图片帧比较值信息，包括：封面帧图片的比较值、第一预设时间帧图片的比较值和第二预设时间帧图片的比较值，即图片simhash值；

S17：生成基于视频时长的视频样本内容列表，同时保存每一个视频样本内容对应的比较值信息，构建视频内容对比数据集，视频内容对比数据集包括：视频样本内容的时长和样本图片帧比较值信息。

本实施例中，样本帧图片和目标帧图片均包括：封面帧图片、第一预设时间帧图片和第二预设时间帧图片。封面帧图片指当前视频内容用作封面标识的图片，可选的第一预设时间帧为开始第三帧，第二预设时间帧为倒数第三帧，该值均可根据实际应用情况进行调整，另外，在一种实施方式中，比较值信息包括多个时间帧的图像比较值，不限于3个。

步骤S3中，第一种情况：当目标多媒体内容的类型为图文内容时，对目标图文内容与图文对比数据集进行重复判断，具体为：

S311：获得图文内容：第一预设数量的目标文章关键词和目标图片比较值，根据目标文章关键词和文本相似度计算公式，计算目标图文内容与每一个样本图文内容之间的文本相似度；

S312：根据图文去重策略判断目标图文内容与图文对比数据集之间的重复情况。

其中，图文去重策略流程具体为：

1)当目标文章关键词与图文对比数据集中每一个文章关键词相比，当重复的数量超过第一重复阈值(可选的，设定第一重复阈值为17个，即假设目标图文内容中提取的18个文章关键词有17个都跟图文对比数据集中提取的18个文章关键词重复)，则判定目标图文内容与图文对比数据集中样本图文内容重复；

2)否则，当目标图文内容和图文对比数据集中某一个样本图文内容的文本相似度大于等于第二重复阈值(可选的为0.8)且图片相似数量为一组，则判定目标图文内容与图文对比数据集重复；

优选的，本步骤为了减少计算量，选取图文对比数据集中文本相似度排序前20个样本图文内容进行图片相似性比较，同样的，各选择前3张图片，该值可根据实际情况调整。

3)否则，当文本相似度大于等于第三重复阈值(可选的为0.6)小于第二重复阈值(可选的为0.8)且图片相似数量大于一组(如2组、3组等)，则判定目标图文内容与图文对比数据集重复，图片相似数量优选的为3组图片。

4)不满足上述条件，则判定目标图文内容与图文对比数据集之间不重复。

可以理解的是，上述去重策略中不同的判断阈值均可根据实际情况调整。通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，本实施例的计算文本相似度方法提高了召回率，同时计算图片相似性的过程准确度更高。

步骤S3中，第二种情况：当目标多媒体内容的类型为视频内容时，对目标视频内容与视频内容对比数据集进行重复判断，具体为：

S321：计算目标视频内容对应于样本比较值信息的目标比较值信息，即本实施例中比较值信息包括：样本比较值信息和目标比较值信息；

S322：根据视频去重策略判断目标视频内容与视频内容对比数据集之间的重复情况。

具体的，视频去重策略流程为：

1)根据目标视频内容的视频时长在视频内容对比数据集中选取时长相关的视频样本内容作为对比视频集；

2)根据图片相似性判断过程判断目标视频内容和对比视频集的封面帧图片是否相似(即海明距离小于预设阈值)，如果不相似，则判断目标视频内容与视频内容对比数据集之间不重复；

3)否则，判断第一预设时间帧图片和第二预设时间帧图片是否都相似，如果都相似，则判断目标视频内容与视频内容对比数据集之间重复；

4)否则，判断目标视频内容与视频内容对比数据集之间不重复。

通过将视频内容去重概括为不同帧图片的相似性判断，提高了视频内容的去重效率。

如图6所示，为本实施例中多媒体内容重复判断方法的具体应用示意图。从图中可以看出首先输入待判断的目标多媒体内容，然后判断目标多媒体内容的类型是图文内容还是视频内容，当目标多媒体内容的类型为图文内容时，对目标图文内容与图文对比数据集进行重复判断；当目标多媒体内容的类型为视频内容时，对目标视频内容与视频内容对比数据集进行重复判断。

本实施例结合多个维度特征进行重复判断，包括文本、图片和视频，提高了判断相似度的整体效率和判断效果，通过词权重模型提升了图文内容的关键词提取效果，并且相比较文本simhash算法，本发明的计算文本相似度方法提高了召回率，同时计算图片相似性的过程准确度更高。另外通过将视频内容去重概括为不同帧图片的相似性判断，对于海量视频内容来说，提取关键信息，减少去重工作量，大大提高了视频内容的去重效率。

实施例二：

本实施例提供了一种多媒体内容重复判断装置，用于执行实施例一所述的方法，如图7所示，为本实施例的多媒体内容重复判断装置结构框图，包括：

对比数据集建立模块10：用于建立对比数据集，所述对比数据集包括：图文对比数据集和视频内容对比数据集；

目标内容分类模块20：用于判断目标多媒体内容的类型，所述类型包括图文内容和视频内容；

判断重复状态模块30：用于根据所述类型对应所述对比数据集进行重复判断。

另外，本发明还提供一种多媒体内容重复判断设备，包括：

至少一个处理器，以及与所述至少一个处理器通信连接的存储器；

其中，所述处理器通过调用所述存储器中存储的计算机程序，用于执行如实施例一所述的方法。

另外，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，其中计算机可执行指令用于使计算机执行如实施例一所述的方法。

本发明通过建立包括图文对比数据集和视频内容对比数据集的对比数据集，判断目标多媒体内容的类型，包括图文内容和视频内容，根据目标多媒体内容类型对应的对比数据集进行重复判断。可广泛应用于涉及内容比较的信息处理领域。

以上各实施例仅用以说明本发明的技术方案，而非对其限制，尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种多媒体内容重复判断方法，其特征在于，包括：

根据所述类型选择对应的对比数据集进行重复判断；具体为：

当所述目标多媒体内容的类型为图文内容时，对目标图文内容与所述图文对比数据集进行重复判断；

当所述目标多媒体内容的类型为视频内容时，对目标视频内容与所述视频内容对比数据集进行重复判断。

2.根据权利要求1所述的一种多媒体内容重复判断方法，其特征在于，建立所述图文对比数据集的过程具体为：

建立词权重模型；

计算所述样本图文内容中第二预设数量图片的图片比较值；

3.根据权利要求2所述的一种多媒体内容重复判断方法，其特征在于，建立所述词权重模型的过程为：

4.根据权利要求2或3任一项所述的一种多媒体内容重复判断方法，其特征在于，所述利用所述词权重模型，提取样本图文内容中第一预设数量的文章关键词具体为：

所述文本相似度计算公式表示为：

5.根据权利要求2所述的一种多媒体内容重复判断方法，其特征在于，计算图片比较值的过程为：

6.根据权利要求5所述的一种多媒体内容重复判断方法，其特征在于，当所述目标多媒体内容的类型为图文内容时，对目标图文内容与所述图文对比数据集进行重复判断，具体为：

计算图片相似性具体为：

所述图文去重策略具体为：

不满足上述条件，则判定所述目标图文内容不重复。

7.根据权利要求5所述的一种多媒体内容重复判断方法，其特征在于，建立所述视频内容对比数据集的过程具体为：

8.根据权利要求7所述的一种多媒体内容重复判断方法，其特征在于，当所述目标多媒体内容的类型为视频内容时，对目标视频内容与所述视频内容对比数据集进行重复判断，具体为：

所述视频去重策略具体为：

9.一种多媒体内容重复判断装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的方法。