CN105786799A

CN105786799A - 网络文章原创性判定方法

Info

Publication number: CN105786799A
Application number: CN201610163870.XA
Authority: CN
Inventors: 聂敏; 杨磊; 夏虎
Original assignee: Chengdu Xundao Technology Co Ltd
Current assignee: Chengdu Xundao Technology Co Ltd
Priority date: 2016-03-21
Filing date: 2016-03-21
Publication date: 2016-07-20

Abstract

本发明公开了一种网络文章原创性判定方法，首先对待判定文章进行分词，得到特征词条，统计特征词条的出现频率并计算Hash值，通过出现频率和Hash值计算特征词条的权值向量，将所有特征词条的权值向量累加得到文章的权值向量，对权值向量进行降维得到文章的判定向量，计算待判定文章与数据库中参考文章的判定向量的汉明距离，根据汉明距离进行原创性判定，得到是否具有原创性的结果；如果判定得到相似文章，则需要进一步精确判定：得到待判定文章与相似文章的特征词条，构建两篇文章的特征向量，通过特征向量的相似度来进行原创性判定。本发明结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度，实现更为可靠有效的文章原创性判定。

Description

网络文章原创性判定方法

技术领域

本发明属于文本挖掘技术领域，更为具体地讲，涉及一种网络文章原创性判定方法。

背景技术

在科学研究领域，论文的原创性在很大程度上体现上学者的学术水平，是论文质量的重要指标，在论文发表时通常需要对论文的原创性进行判定。在互联网领域，网络文章作为一种具有极强传播性与影响力的事物，在网络舆论中发挥着重要的作用。但是由于网络不易监管的特性，导致网络文章原创性较差，更易出现抄袭行为。为了避免抄袭，需要对网络文章的原创性判定方法进行探索。

目前的网络文章原创性判定方法包括逐字比对、提取特征词条进行比对匹配等等。这些方法的判定结果的可靠性较差，大部分都只能作为人工判定的辅助性手段，需要进一步研究更具有效性的网络文章原创性判定方法。

发明内容

本发明的目的在于克服现有技术的不足，提供一种网络文章原创性判定方法，结合文章特征词条的出现频率和Hash值来计算网络文章之间的相似度，实现更为可靠有效的文章原创性判定。

为实现上述发明目的，本发明网络文章原创性判定方法包括以下步骤：

S1：对待判定文章的文本进行分词处理，得到文章的特征词条；

S2：对于待判定文章的特征词条，统计每个特征词条在文章中的出现频率，按照出现频率从大到小抽取前N个特征词条，第i个特征词条记为f_i，对应的出现频率记为d_i，其中i＝1,2,…,N，N根据实际需要进行设置；

S3：对于每个特征词条f_i，使用Hash函数计算该词条的Hash值，计算结果取M位，记为H_i＝(h_i1,h_i2,...,h_iM)，其中M＝2^α，α≥5；

S4：根据每个特征词条f_i的权重d_i和Hash值H_i，计算特征词条的权值向量W_i＝(w_i1,w_i2,...,w_iM)，其中第j个权值元素w_ij的计算公式为j＝1,2,…,M；

S5：将N个特征词条的权值向量W_i按位累加，得到权值向量Q＝(q₁,q₂,...,q_M)，其中对权值向量Q进行降维，得到判定向量S＝(s₁,s₂,...,s_M)，其具体方法为：

s_{j} = {\begin{matrix} 1, & q_{j} > 0 \\ 0, & q_{j} \leq 0 \end{matrix};

S6：计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离；如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T₁，则判定待判定文章具有原创性，判定结束；如果与一篇以上参考文章的判定向量的汉明距离在范围[T₂,T₁]内，则将这些参考文章作为待判定文章的相似文章，进入步骤S107；如果与一篇以上参考文章的判定向量的汉明距离小于T₂，则将这些参考文章作为待判定文章的雷同文章，判定待判定文章不具有原创性，判定结束；T₁和T₂是预先设置的两个汉明距离阈值，其中T₂＜T₁；

S7：对于待判定文章及其对应的相似文章，分别获取每篇文章的特征向量，获取特征向量的方法为：对文章进行分词处理，得到文章的特征词条，统计各个特征词条在文章中的出现频率，按照出现频率从大到小抽取前R个特征词条，第r个特征词条记为f_r，对应的出现频率记为d_r，其中r＝1,2,…,R，R根据实际需要进行设置；

分别计算待判定文章和每篇相似文章的相似度，相似度计算方法为：记待判定文章的特征词条集合为A，相似文章的特征词条集合为B，求取两个集合的并集C＝A∪B，根据特征词条集合C构建待判定文章的特征向量V_a＝(v_a1,v_a2,…,v_aK)和相似文章的特征向量V_b＝(v_b1,v_b2,…,v_bK)，其中K表示特征词条集合C中的特征词条数量，v_ak和v_bk分别表示第k个特征词条在待判定文章和相似文章中的出现频率，k＝1,2,…,K；计算特征向量V_a和V_b之间的相似度，该相似度即为文章间的相似度；如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T₃，则将这些相似文章作为待判定文章的雷同文章，判定待判定文章不具有原创性，判定结束。

本发明网络文章原创性判定方法，首先对待判定文章进行分词，得到特征词条，统计特征词条的出现频率并计算Hash值，通过出现频率和Hash值计算特征词条的权值向量，将所有特征词条的权值向量累加得到文章的权值向量，对权值向量进行降维得到文章的判定向量，计算待判定文章与数据库中参考文章的判定向量的汉明距离，根据汉明距离进行原创性判定，得到是否具有原创性的结果；如果判定得到相似文章，则需要进一步精确判定：得到待判定文章与相似文章的特征词条，构建两篇文章的特征向量，通过特征向量的相似度来进行原创性判定。

本发明通过特征词条的出现频率和Hash值来计算文章的判定向量，通过判定向量进行初步判定，对于初步判定无法得到结果的相似文章，则通过进一步构建文章的特征向量来进行判定，使判定结果更为可靠。

附图说明

图1是本发明网络文章原创性判定方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明网络文章原创性判定方法的流程图。如图1所示，本发明网络文章原创性判定方法包括以下步骤：

S101：分词处理：

对待判定文章的文本进行分词处理，得到文章的特征词条。分词处理是文本处理的一种常用技术，其具体过程在此不再赘述。分词处理的作用是将文本离散化，从而将文档转化为一组词条，每一个词条都可以看作是文本的一个特征。在分词的时候可以去除助词、虚词等，从而提高判定精度，同时还可以去掉一些标点符号与干扰符，可防止在文档中加特殊干扰符的作弊行为。

S102：统计特征词条出现频率：

对于待判定文章的特征词条，统计每个词在文章中的出现频率，将其作为该特征词条的权值，权值越大说明对文章意义的贡献越大。按照出现频率从大到小抽取前N个特征词条，第i个特征词条记为f_i，对应的权值(即出现频率)记为d_i，其中i＝1,2,…,N，N根据实际需要进行设置。

S103：计算特征词条Hash值：

对于每个特征词条f_i，使用Hash函数计算该词条的Hash值，计算结果取M位，记为H_i＝(h_i1,h_i2,…,h_iM)。Hash值的计算是一种常用方法，其具体过程在此不再赘述。Hash值的位数M可以根据实际需要来确定。理论上，一个位数为32位的Hash字符串可以区分近43亿个不同的词条，因此M的取值范围可以设置为M≥32，M一般设置为2的幂，因此可知M＝2^α，α≥5。

S104：计算特征词条权值向量：

根据每个特征词条f_i的权重d_i和Hash值H_i，计算特征词条的权值向量W_i＝(w_i1,w_i2,...,w_iM)，其中第j个权值元素w_ij的计算公式为其中j＝1,2,…,M。也就是说，当h_ij＝1时，得到的权值元素w_ij＝d_i，当h_ij＝0时，得到的权值元素w_ij＝-d_i。

假设某个特征词条的Hash值为1001…01，其对应的权重为d，那么其对应的权值向量为(d,-d,-d,d,…,-d,d)。

S105：计算文章判定向量：

将N个特征词条的权值向量W_i按位累加，得到权值向量Q＝(q₁,q₂,…,q_M)，其中权值向量Q即为待判定文章的特征向量，由于该向量是根据各个特征词条的Hash值计算得到的，因此权值向量Q在一定程度上体现了待判定文章的特征。为了便于判定，需要对权值向量Q进行降维，得到判定向量S＝(s₁,s₂,…,s_M)，其具体方法为：

s_{j} = \{\begin{matrix} 1, & q_{j} > 0 \\ 0, & q_{j} \leq 0 \end{matrix}

例如某文章的权值向量Q＝(4,-3,5,2,…-9,7)，那么降维得到的判定向量S＝(1,0,1,1,…,0,1)。

S106：初步判定：

计算待判定文章的判定向量S与数据库中参考文章的判定向量的汉明距离。数据库中的所有参考文章都按照步骤S101至步骤S105的方法预先计算出了各自的判定向量。两篇文章判定向量的汉明距离越小，则认为两篇文章越接近。汉明距离是两个字符串对应位置的不同字符的个数，它是将一个字符串变换成另外一个字符串所需要替换的字符个数。汉明距离的求法为：异或时，只有在两个比较的位不同时其结果是1，否则结果为0，两个二进制字符串进行异或运算后得到1的个数即为汉明距离的大小。例如，两篇文章的初步判定值分别为S₁＝1011101和S₂＝1001001，则S₁和S₂之间的汉明距离为2。

预先设置两个汉明距离阈值T₁和T₂，其中T₂＜T₁。如果待判定文章的判定向量与所有参考文章的判定向量的汉明距离都大于T₁，则判定待判定文章具有原创性，判定结束；如果与一篇以上参考文章的判定向量的汉明距离在范围[T₂,T₁]内，则将这些参考文章作为待判定文章的相似文章，进入步骤S107；如果与一篇以上参考文章的判定向量的汉明距离小于T₂，则将这些参考文章作为待判定文章的雷同文章，判定待判定文章不具有原创性，判定结束。汉明距离阈值T₁和T₂的大小可以根据判定向量S的位数来设置，为了更为准确地判定，两个阈值不宜太大，一般来说可以设置以128位为例，采用向上取整，T₁＝15，T₂＝7。

由于数据库中参考文章的量非常大，如果逐个进行判定向量汉明距离的计算需要花费较多时间，因此本发明建立了一个数据库的索引，通过索引来查找潜在的相似文章或雷同文章，从而缩短计算时间，其具体方法为：

将数据库中每篇参考文章的M位判定向量划分为X个部分，每个部分长度为8位。当汉明距离阈值时，通过抽屉原理可知，则必定有一个部分相等。也就是说X个部分中必定有一个部分相等。将每个部分字符串分别作为一个关键字，与判定向量建立映射关系，那么每篇参考文章就有X个映射关系。记数据库中所有参考文章得到的关键字数量为G，第g个关键字key_g对应的参考文章集合为set_g，其中g＝1,2,…,G，建立索引{key_g,set_g}，得到映射表。对于待判定文章，同样将其判定向量划分为X个部分，将每个部分作为关键字在索引表中搜索得到对应的文章集合，将X个文章集合合并，合并后集合所包含的参考文章即为潜在的相似文章或雷同文章，再通过计算待判定文章的判定向量S与这些文章的判定向量的汉明距离来进行原创性判定。

S107：精确判定：

当待判定文章存在相似文章时，还需要进行进一步的精确分析，以判定该待判定文章的原创性，其具体方法为：

对于待判定文章及其对应的相似文章，分别获取每篇文章的特征向量，获取特征向量的方法为：对文章进行分词处理，得到文章的特征词条，统计各个特征词条在文章中的出现频率，按照出现频率从大到小抽取前R个特征词条，第r个特征词条记为f_r，对应的出现频率记为d_r，其中r＝1,2,…,R，R根据实际需要进行设置。由于本步骤中所需计算的文章相对较少，而且所需的结果要求要更精确，因此本步骤中的特征词条数量R一般要大于步骤S101中的特征词条数量N。

分别计算待判定文章和每篇相似文章的相似度，相似度计算方法为：记待判定文章的特征词条集合为A，相似文章的特征词条集合为B，求取两个集合的并集C＝A∪B，根据特征词条集合C构建待判定文章的特征向量V_a＝(v_a1,v_a2,…,v_aK)和相似文章的特征向量V_b＝(v_b1,v_b2,…,v_bK)，其中K表示特征词条集合C中的特征词条数量，v_ak和v_bk分别表示第k个特征词条在待判定文章和相似文章中的出现频率，k＝1,2,…,K。显然，文章的原始特征词条集合中不存在的特征词条在该文章的出现频率为0。计算特征向量V_a和V_b之间的相似度，该相似度即为文章间的相似度。目前最常用的向量相似度为余弦相似度。

如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T₃，则将这些相似文章作为待判定文章的雷同文章，判定待判定文章不具有原创性，判定结束。相似度阈值T₃可以根据实际需要进行设置。一般来说，可以预先设定一个相似度阈值T₃，对已经判定结果的文章进行判定，人工检查判定结果，再对相似度阈值T₃进行调整，从而得到一个合适的值。本实施例中，设置相似度阈值T₃＝0.3。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种网络文章原创性判定方法，其特征在于，包括以下步骤：

S3：对于每个特征词条f_i，使用Hash函数计算该词条的Hash值，计算结果取M位，记为H_i＝(h_i1,h_i2,…,h_iM)，其中M＝2^α，α≥5；

S4：根据每个特征词条f_i的权重d_i和Hash值H_i，计算特征词条的权值向量W_i＝(w_i1,w_i2,…,w_iM)，其中第j个权值元素w_ij的计算公式为j＝1,2,…,M；

S5：将N个特征词条的权值向量W_i按位累加，得到权值向量Q＝(q₁,q₂,…,q_M)，其中对权值向量Q进行降维，得到判定向量S＝(s₁,s₂,…,s_M)，其具体方法为：

s_{j} = \{\begin{matrix} 1, & q_{j} > 0 \\ 0, & q_{j} \leq 0 \end{matrix}

分别计算待判定文章和每篇相似文章的相似度，相似度计算方法为：记待判定文章的特征词条集合为A，相似文章的特征词条集合为B，求取两个集合的并集C＝A∪B，根据特征词条集合C构建待判定文章的特征特征向量V_a＝(v_a1,v_a2,…,v_aK)和相似文章的特征向量V_b＝(v_b1,v_b2,…,v_bK)，其中K表示特征词条集合C中的特征词条数量，v_ak和v_bk分别表示第k个特征词条在待判定文章和相似文章中的出现频率，k＝1,2,…,K；计算特征向量V_a和V_b之间的相似度，该相似度即为文章间的相似度；如果待判定文章与一篇以上相似文章的相似度大于预设相似度阈值T₃，则将这些相似文章作为待判定文章的雷同文章，判定待判定文章不具有原创性，判定结束。

2.根据权利要求1所述的网络文章原创性判定方法，其特征在于，所述步骤S6中阈值T₁和T₂的计算公式为

3.根据权利要求2所述的网络文章原创性判定方法，其特征在于，所述步骤S6中，在计算汉明距离之前对数据库中参考文章进行预选，搜索潜在的相似文章或雷同文章，其具体方法为：将数据库中每篇参考文章的M位判定向量划分为X个部分，每个部分长度为8位，将每个部分字符串分别作为一个关键字，与判定向量建立映射关系。记数据库中所有参考文章得到的关键字数量为G，第g个关键字key_g对应的参考文章集合为set_g，其中g＝1,2,…,G，建立索引{key_g，set_g}，得到映射表；对于待判定文章，同样将其判定向量划分为X个部分，将每个部分作为关键字在索引表中搜索得到对应的文章集合，将X个文章集合合并，合并后集合所包含的参考文章即为潜在的相似文章或雷同文章。

4.根据权利要求1所述的网络文章原创性判定方法，其特征在于，所述步骤S7中特征词条数量R＞N。

5.根据权利要求1所述的网络文章原创性判定方法，其特征在于，所述步骤S7中阈值T₃＝0.3。