CN113326688A

CN113326688A - 一种基于思想政治词语查重处理方法和装置

Info

Publication number: CN113326688A
Application number: CN202110664367.3A
Authority: CN
Inventors: 王萍; 金耀武
Original assignee: Heilongjiang Bayi Agricultural University
Current assignee: Heilongjiang Bayi Agricultural University
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-31

Abstract

本申请公开了一种基于思想政治词语查重处理方法和装置，该方法包括：获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；获取第二文章中的思想政治词语在所述第二文章的位置信息；判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。通过本申请解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判，从而提高了思想政治文章查重的准确率。

Description

一种基于思想政治词语查重处理方法和装置

技术领域

本申请涉及到智能出版领域，具体而言，涉及一种基于思想政治词语查重处理方法和装置。

背景技术

在现有技术中，一般在自动发表文章的时候，系统会进行查重。目前查重基本上是基于文章存在的关键词相同的概率是否超过阈值来进行判断的。这种查重的方式在其他类型的文章是适用的。

在思想政治类文章中，这种查重的方式准确率会降低。这是因为思想政治类的文章中，大部分思想政治词语都是相同的，但是，这并不代表这两篇文章就是相同的。因此，现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判。

发明内容

本申请实施例提供了一种基于思想政治词语查重处理方法和装置，以至少解决现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判的问题。

根据本申请的一个方面，提供了一种基于思想政治词语查重处理方法，包括：获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；获取第二文章中的思想政治词语在所述第二文章的位置信息；判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

进一步地，还包括：在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

进一步地，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，所述方法还包括：判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

进一步地，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

进一步地，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：在所述第一文章中的思想政治词语大于所述第三阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

根据本申请的另一个方面，还提供了一种基于思想政治词语查重处理装置，包括：第一获取模块，用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；第二获取模块，用于获取第二文章中的思想政治词语在所述第二文章的位置信息；第一判断模块，用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；第一确定模块，用于在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

进一步地，所述第一确定模块，还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

进一步地，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

进一步地，所述第一判断模块用于：在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

进一步地，所述第一判断模块用于：在所述第一文章中的思想政治词语大于所述第三阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

在本申请实施例中，采用了获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；获取第二文章中的思想政治词语在所述第二文章的位置信息；判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。通过本申请解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判，从而提高了思想政治文章查重的准确率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基于思想政治词语查重处理的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中，提供了一种基于思想政治词语查重处理方法，图1是根据本申请实施例的基于思想政治词语查重处理的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；

分词的方法有很多，例如，可以从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数；查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来；若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

这样可以将第一文章中的所有关键词语都分离出来，然后将分离出的词语与预先配置的思想政治词语进行匹配，得到第一文章中的思想政治词语。然后将第一文章中出现次数最多的词语并且没有根据预先配置的思想政治词语匹配上的词语发送至用户的移动终端，由用户的来判断是否为思想政治词语，如果是，则记录到预先配置的思想政治词语库中，作为下次比对的基础。

通过这样的操作可以增加思想政治词语库，从而做到实时更新。

步骤S104，获取第二文章中的思想政治词语在所述第二文章的位置信息；

作为另一个可选的实施方式，可以通过上述分析方法将第一文章和第二文章中的出现次数最多的前五个关键词均提取出来，如果第一文章和第二文章中前五个关键词中有三个或以上均为思想政治关键词，然后再执行步骤S102及后续步骤。如果少于三个，则执行普通文章的查重步骤，普通文章的查重步骤在此不再赘述。

位置信息可以是一个二维的值，该二维值为（该词语所属的段落，该词语在段落中的位置），位置信息还可以是一个一维值，统计全文的字数，将该词语的首个汉字是全文的第几个字作为位置信息。

步骤S106，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；

在相同的思想政治词语存在多个的情况下，判断每个思想政治词语出现的次数，选择出现次数最多的预定数量个思想政治词语，例如10个，将出现次数最多的预定数量的政治词语中的每一个词语出现的位置进行标记，然后判断该思想政治词语在第一文章和第二文章中位置相同的第一次数和位置不同的第二次数，从而将第一次数/（第一次数加上第二次数）作为所述占比，在得到预定数量的思想政治词语中的每个词语的占比之后，将预定数量的词语的占比的平均数作为所述步骤S106中的占比。

判断位置是否相同，可以判断上述二维值相同在认为相同，或者也可以判断上述一维值相同就认为相同。当然作为一种更加可靠的方式，可以认为一维值和二维值均相同，则认为位置信息相同。

如果使用一维值或二维值单一参数进行判断，第一阈值为第一值，如果使用一维值和二维值两个参数进行判断，则第一阈值为第二值，其中，第二值小于第一值。

步骤S108，在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

通过上述步骤解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判，从而提高了思想政治文章查重的准确率。

优选地，还包括：在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

优选地，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，所述方法还包括：判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

优选地，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

优选地，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：在所述第一文章中的思想政治词语大于所述第三阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

作为一个可以增加的可选的实施方式，在根据上述步骤判断出所述第一文章和所述第二文章相同或者不同后，将所述第一文章和所述第二文章以及用于标识这两篇文章是否相同的标签保存为训练数据。记录保存的训练数据的量，在保存的训练数据超过第五阈值的情况下，例如超过1万组训练数据的情况下，使用保存的数据进行机器学习的模型训练。每组训练数据中的第一文章和第二文章作为神经网络模型的输入，所述神经网络模型的输出为标签。通过训练之后，在所述模型收敛之后，该模型就可以用来判断另外输入的文章是否相同了。

在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。在本实施例中提供了一种一种基于思想政治词语查重处理装置，包括：第一获取模块，用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；第二获取模块，用于获取第二文章中的思想政治词语在所述第二文章的位置信息；第一判断模块，用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；第一确定模块，用于在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

优选地，所述第一确定模块，还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

优选地，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

优选地，所述第一判断模块用于：在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

优选地，所述第一判断模块用于：在所述第一文章中的思想政治词语大于所述第三阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

上述程序可以运行在处理器中，或者也可以存储在存储器中（或称为计算机可读介质），计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于思想政治词语查重处理方法，其特征在于，包括：

获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；

获取第二文章中的思想政治词语在所述第二文章的位置信息；

判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；

在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

2.根据权利要求1所述的方法，其特征在于，还包括：

在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

3.根据权利要求2所述的方法，其特征在于，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，所述方法还包括：

判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；

在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；

在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

4.根据权利要求3所述的方法，其特征在于，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：

在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

5.根据权利要求3所述的方法，其特征在于，判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括：

在所述第一文章中的思想政治词语大于所述第三阈值的情况下，判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。

6.一种基于思想政治词语查重处理装置，其特征在于，包括：

第一获取模块，用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息，其中，所述思想政治词语为预先配置的；

第二获取模块，用于获取第二文章中的思想政治词语在所述第二文章的位置信息；

第一判断模块，用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比；

第一确定模块，用于在所述占比未超过的第一阈值的情况下，确定所述第一文章和所述第二文章为不相同的文章。

7.根据权利要求6所述的装置，其特征在于：

所述第一确定模块，还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下，确认所述第一文章和所述第二文章为不相同的文章。

8.根据权利要求7所述的装置，其特征在于，所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下，

所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值，其中，所述第三阈值大于所述第二阈值；在小于等于所述第三阈值的情况下，判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值；在大于所述第四阈值的情况下，确定所述第一文章和所述第二文章为不同的文章。

9.根据权利要求8所述的装置，其特征在于，所述第一判断模块用于：

10.根据权利要求8所述的装置，其特征在于，所述第一判断模块用于：