CN113111645A

CN113111645A - 一种媒体文本相似性检测方法

Info

Publication number: CN113111645A
Application number: CN202110469854.4A
Authority: CN
Inventors: 杨鹏; 田杨静; 匡晨; 于晓潭
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-04-28
Filing date: 2021-04-28
Publication date: 2021-07-13
Anticipated expiration: 2041-04-28
Also published as: CN113111645B

Abstract

本发明涉及一种媒体文本相似性检测方法，该方法能够在海量的媒体文本中检测到与目标文本相似的媒体文本，本发明首先使用爬虫工具获得主流自媒体平台的媒体文本，构建媒体文本集；然后对媒体文本进行预处理提取正文字段，并进行分词和停用词过滤；接着，基于海量语料库训练Skip‑gram模型获得特征项的词向量表示；再者，使用词语的TF‑IDF特征，词性特征与位置特征进行特征融合，构建特征项的权重；最后基于特征项的词向量表示和权重使用Simhash算法获得文本指纹，并根据倒排索引构建文本指纹索引。本发明可以有效增强文本指纹的语义特征，提高Simhash算法对相似文本的检索效率和准确度。

Description

一种媒体文本相似性检测方法

技术领域

本发明涉及一种检测方法，具体涉及一种媒体文本相似性检测方法，属于自然语言处理技术领域。

背景技术

随着互联网技术的不断升级以及智能终端系统的大力推广，极力促进了媒体行业的蓬勃发展。从2003年进入大众视野，到现在依然方兴未艾的新媒体模式不但拥有更广阔的社会覆盖面，而且基于自媒体模式，人们可以参与社会的实事讨论，极大地提高了新闻的时效性。然而，自媒体模式在其发展中逐渐暴露自身弊端，由于在自媒体内容的著作权方面缺少相关的法律保护，稿件发表平台缺乏有效的监管以及自媒体人创作者自身的媒介素质不高，导致出现文本抄袭现象。现有文本抄袭评定中，对于作者的独创性表达的判断有较大的人为主观性，缺乏相应的量化指标。针对于中文文本，作者的独创性表达侧重于文本中词语的用法，基于文本相似度的检测技术，就可以很好的衡量不同文本的相似度，为实质性相似判定提供量化依据。

Simhash算法因为其指纹局部敏感特性和检索效率高的特点被广泛应用于海量文本的相似性检测中。但是现有Simhash算法仍然存在一些问题。首先，传统的Simhash算法对文本的词嵌入大多采用哈希函数或者汉语哈希词表，导致生成的文本指纹缺乏词语的语义信息。其次，Simhash算法对于特征词权重的选择仅仅局限于词频的单一维度，忽视了特征词的其余特征对文本的影响，会导致得到的文本表征信息不准确。最后，虽然基于Simhash的文本相似度检测使用海明距离计算文本相似度，提高了文本比对效率。但是面对庞大的文本集，仍然需要两两比较文本指纹判断其是否相似，导致检索效率较低。针对以上问题，亟需对Simhash算法进行改进，以便提高其检索的速度与精度。

发明内容

本发明正是针对现有技术中存在的问题，提供一种媒体文本相似性检测方法，该技术方案通过融入文本的语义特征与优化特征词权重的方法，克服传统Simhash算法生成的文本指纹语义特征不强和检索效率低的问题，可应用于海量的媒体文本中相似的媒体文本的快速检测。

为了实现上述目的，本发明的技术方案如下，一种媒体文本相似性检测方法，所述方法包括以下步骤：

步骤1，媒体文本采集，首先通过Scrapy爬虫工具采集多个自媒体平台的媒体文本，积累样本数据集，然后对样本数据集进行过滤以确保在娱乐、政治等类别中均匀分布；

步骤2，媒体稿件预处理，首先对包含目标文本的网页代码进行预处理，提出媒体的正文内容，然后对文本进行分词以及去除停用词的操作，得到文本的特征项序列；

步骤3，文本指纹生成，首先基于海量语料库训练Word2Vec模型，得到词向量的表示，修改Simhash算法的词嵌入方式，然后综合特征项序列中各项的TF-IDF权重、词性权重和位置权重得到最终权重值表示，解决Simhash算法词权重单一问题，最后基于词向量表示和最终权重值生成媒体文本的语义指纹；

步骤4，建立指纹索引，基于倒排索引，将指纹分割为多个索引值，快速检测到相似的文本集。

作为本发明的一种改进，步骤2，媒体稿件预处理，具体如下：

子步骤2-1，稿件网页预处理，包含自媒体文本的网页源码包含多个标签，在不同自媒体平台上，稿件文本对应的标签不一致，需要针对不同的网页源码进行分析，

子步骤2-2，稿件文本预处理，针对获得的稿件文本内容，使用Jieba分词工具对文本进行分词，并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤，尽可能剔除对文本表征有影响的噪声内容，获得特征词序列。

作为本发明的一种改进，步骤3，文本指纹生成，具体如下：

基于深度学习，对特征词的序列进行分析，提取媒体文本的指纹特征，得到文本的语义指纹，该步骤实施过程分为个7子步骤：

子步骤3-1，Skip-gram模型训练，采用Word2Vec工具，基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练，Skip-gram模型的目标函数为：

其中，w_t为语料中某一特征词，Context(w_t)表示w_t周围的词语信息，将媒体文本的特征项序列输入训练好的Skip-gram模型中，得到特征项的词向量表示；

子步骤3-2，计算词语的TF-IDF权重，

TF值，即词频(Term Frequency)，基于在文中出现的概率越高的词语越能代表文本的表达信息的原理，如果在文本集合D中包含多个文本，其中序号为n的文本表示为d_n，文本d_n中的第m个特征词表示为t_m,n，利用公式2计算特征词t_m,n的TF值：

其中，len表示文本d_n中词语集合的长度，count_m,n表示特征词t_m,n在文本d_n中出现的次数；

IDF值，即逆文本频率指数(Inverse Document Frequency)，基于如果一个词在全部文本集中出现频率越高，那么这个词语无法代表该文本的原理，利用公式3计算特征词t_m,n的IDF值：

其中，count_m,n表示在包含N篇文本的文本集合中出现特征词t_m,n的文本数量，a为经验常数，取1；

基于词语的TF值和IDF值，利用公式4计算特征词t_m,n的TF-IDF值：

TF-IDF_m,n＝TF_m,n×IDF_m,n (4)

传统的Simhash算法对于词嵌入选择将词进行哈希，基于深度学习，使用词向量代替词哈希值，融入特征词的语义特征，增强文本局部敏感哈希值的相关性；

子步骤3-3，获得词性权重，使用Jieba工具对特征词进行词性标注，并且基于不同词性汉语对文本表征的影响，设计不同的词性权重参数，如表1所示：

表1词性权重参数配置表

子步骤3-4，计算位置权重，按照词语在文章的不同位置与文本内容的相关程度，使用公式5计算特征词的位置权重：

其中，pos_m,n表示词语t_m,n在文档d_n中所在位置的百分比，k₁与k₂是可调整的参数，其中k₁取值为0.5，,k₂的取值为0.7；

子步骤3-5，计算特征词的综合权重值，基于词语的TF-IDF权重TF-IDF_m,n，词性权重PS_i以及位置权重P_m,n，使用公式6计算特征词的综合权重值：

W_m,n＝TF-IDF_m,n×PS_i×P_m,n (6)

子步骤3-6，加权合并，将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串，然后对文本中每个特征词的加权字符串进行累加，得到一个序列串{Simh₁,Simh₂,…,Simh_j,…Simh_m}，利用公式7计算Simh_j的值：

其中，w_i表示每个词的权重值，H_ij表示第i个词的第j位二进制码；

子步骤3-7，序列降维，得到文本的Simhash指纹，将加权合并后的序列串转化为01串，形成最终的Simhash签名{Simh₁,Simh₂,…,Simh_j,…Simh_m}，使用公式8计算Sim_j的值：

基于词语的向量化表示和词权重值，使用Simhash算法得到文本的64位Simhash指纹。

作为本发明的一种改进，步骤4，建立指纹索引，结合倒排索引，将64的Simhash指纹拆为4个部分，每个部分为16位二进制码，然后分别用这4个部分的16位二进制码查找库中对应部分的索引值，如果没有找到索引值，则将这16位二进制码追加到链表上，如果有对应的索引值，将文本放入对应的内容中，因为自媒体文本的Simhash指纹为64位，本文建立4个表对应指纹的4个部分，每个部分分别建立索引值key为16位的Simhash指纹索引库。

相对于现有技术，本发明具有如下优点，1)该技术方案使用基于海量语料库训练的模型获得文本的词向量表示，将词语义信息嵌入文本指纹的生成算法中，补充传统Simhash指纹的语义信息，增强文本指纹的表征信息；2)该技术方案从三个角度考虑不同特征单词对文本的贡献度，在常用的基于TF-IDF权重基础上添加词性权重以及位置权重对权重选择进行优化，有效区分不同单词对文本的贡献程度；3)该技术方案基于Simhash算法，与传统检测方法相比，对检测结果有更高的准确率和精确率；4)该方案引入Manku提出的Simhash快速检测算法，并基于倒排索引建立指纹索引，提高检索效率。

附图说明

图1为本发明实施例的处理流程图。

图2为媒体稿件预处理流程图。

具体实施方式：

为了加深对本发明的理解，下面结合附图对本实施例做详细的说明。

实施例1：如图1所示，本发明是一种媒体文本相似性检测方法，具体实施步骤如下：

步骤1，媒体文本采集。本实例从互联网中主流的自媒体平台爬取包含自媒体稿件的网页源码，并保证每类自媒体稿件的数量均匀，然后将网页源码存储在数据库中。

步骤2，媒体稿件预处理。由于使用过爬虫工具获得的是包含媒体文本的网页源码，所以需要对网页源码进行文本内容提取。

子步骤2-1，稿件网页预处理。因为包含自媒体文本的网页源码包含多个标签，在不同自媒体平台上，稿件文本对应的标签不一致，因此需要针对不同的网页源码进行分析。本实例中采用python的第三方工具包Goose进行二次开发，针对媒体稿件的网页源码进行文本内容提取。

子步骤2-2，稿件文本预处理。针对获得的稿件文本内容，使用Jieba分词工具对文本进行分词，并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤，获得特征词序列。

步骤3，文本指纹生成。基于深度学习，对特征词的序列进行分析，提取媒体文本的指纹特征，得到文本的语义指纹。该步骤实施过程分为个7子步骤：

子步骤3-1，Skip-gram模型训练。本发明采用Word2Vec工具，基于百度百科500万词条与维基百科30万词条的语料库对Skip-gram模型进行词向量的训练。Skip-gram模型的目标函数为：

其中，w_t为语料中某一特征词，Context(w_t)表示w_t周围的词语信息。将媒体文本的特征项序列输入训练好的Skip-gram模型中，得到特征项的词向量表示。

子步骤3-2，计算词语的TF-IDF权重。

TF值，即词频(Term Frequency)，基于在文中出现的概率越高的词语越能代表文本的表达信息的原理。如果在文本集合D中包含多个文本，其中序号为n的文本表示为d_n，文本d_n中的第m个特征词表示为t_m,n，可以利用公式2计算特征词t_m,n的TF值：

其中，len表示文本d_n中词语集合的长度，count_m,n表示特征词t_m,n在文本d_n中出现的次数。

IDF值，即逆文本频率指数(Inverse Document Frequency)，基于如果一个词在全部文本集中出现频率越高，那么这个词语无法代表该文本的原理，可以利用公式3计算特征词t_m,n的IDF值：

其中，count_m,n表示在包含N篇文本的文本集合中出现特征词t_m,n的文本数量，a为经验常数，一般取1。

TF-IDF_m,n＝TF_m,n×IDF_m,n (4)

传统的Simhash算法对于词嵌入选择将词进行哈希，本实例基于深度学习，使用词向量代替词哈希值，融入特征词的语义特征，增强文本局部敏感哈希值的相关性。

子步骤3-3，获得词性权重。本发明使用Jieba工具对特征词进行词性标注，并且基于不同词性汉语对文本表征的影响，设计不同的词性权重参数。如表1所示。

表1词性权重参数配置表

子步骤3-4，计算位置权重。按照词语在文章的不同位置与文本内容的相关程度，使用公式5计算特征词的位置权重：

其中，pos_m,n表示词语t_m,n在文档d_n中所在位置的百分比，k₁与k₂是可调整的参数。其中k₁取值为0.5，,k₂的取值为0.7。

子步骤3-5，计算特征词的综合权重值。基于词语的TF-IDF权重TF-IDF_m,n，词性权重PS_i以及位置权重P_m,n，使用公式6计算特征词的综合权重值：

W_m,n＝TF-IDF_m,n×PS_i×P_m,n (6)

传统的Simhash算法采用TF-IDF值为词权重，本实例在TF-IDF基础上，添加词性权重和位置权重，从多个维度提取特征词的特征，提高词语对文本表征的影响力。

子步骤3-6，加权合并。将基于深度学习得到的特征词的词向量表示与对应的多维度特征融合的词权重值相乘得到每个特征词的加权字符串，然后对文本中每个特征词的加权字符串进行累加，得到一个序列串{Simh₁,Simh₂,…,Simh_j,…Simh_m}，利用公式7计算Simh_j的值：

其中，w_i表示每个词的权重值，H_ij表示第i个词的第j位二进制码。

子步骤3-7，序列降维，得到文本的Simhash指纹。将加权合并后的序列串转化为01串，形成最终的Simhash签名{Simh₁,Simh₂,…,Simh_j,…Simh_m}，使用公式8计算Sim_j的值：

步骤4，建立指纹索引。业界常常判定两篇长文本的海明距离小于等于3为文本相似的依据，因此本发明以海明距离3为阈值，筛选指纹库中文本，得到目标文本的相似自媒体文本集。

结合倒排索引，将64的Simhash指纹拆为4个部分，每个部分为16位二进制码。然后分别用这4个部分的16位二进制码查找库中对应部分的索引值，如果没有找到索引值，则将这16位二进制码追加到链表上，如果有对应的索引值，将文本放入对应的内容中。因为自媒体文本的Simhash指纹为64位，本文建立4个表对应指纹的4个部分，每个部分分别建立索引值key为16位的Simhash指纹索引库。

基于相同的发明构思，本发明实施例还提供一种媒体文本相似性检测方法与装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该计算机程序被加载至处理器时实现上述的媒体文本相似性检测方法。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种媒体文本相似性检测方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的媒体文本相似性检测方法，其特征在于，步骤2，媒体稿件预处理，具体如下：

子步骤2-2，稿件文本预处理，针对获得的稿件文本内容，使用Jieba分词工具对文本进行分词，并采用包含哈工大停用词表、百度停用词表以及四川大学机器智能实验室停用词库在内的中文常用停用词表进行停用词过滤，获得特征词序列。

3.根据权利要求2所述的媒体文本相似性检测方法，其特征在于，步骤3，文本指纹生成，具体如下：

子步骤3-2，计算词语的TF-IDF权重，

TF-IDF_m,n＝TF_m,n×IDF_m,n (4)

表1词性权重参数配置表

W_m,n＝TF-IDF_m,n×PS_i×P_m,n (6)

4.根据权利要求3所述的媒体文本相似性检测方法，其特征在于，步骤4，建立指纹索引，结合倒排索引，将64的Simhash指纹拆为4个部分，每个部分为16位二进制码，然后分别用这4个部分的16位二进制码查找库中对应部分的索引值，如果没有找到索引值，则将这16位二进制码追加到链表上，如果有对应的索引值，将文本放入对应的内容中，因为自媒体文本的Simhash指纹为64位，本文建立4个表对应指纹的4个部分，每个部分分别建立索引值key为16位的Simhash指纹索引库。