CN113326688A - 一种基于思想政治词语查重处理方法和装置 - Google Patents

一种基于思想政治词语查重处理方法和装置 Download PDF

Info

Publication number
CN113326688A
CN113326688A CN202110664367.3A CN202110664367A CN113326688A CN 113326688 A CN113326688 A CN 113326688A CN 202110664367 A CN202110664367 A CN 202110664367A CN 113326688 A CN113326688 A CN 113326688A
Authority
CN
China
Prior art keywords
article
ideological
political
words
same
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110664367.3A
Other languages
English (en)
Inventor
王萍
金耀武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Bayi Agricultural University
Original Assignee
Heilongjiang Bayi Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Bayi Agricultural University filed Critical Heilongjiang Bayi Agricultural University
Priority to CN202110664367.3A priority Critical patent/CN113326688A/zh
Publication of CN113326688A publication Critical patent/CN113326688A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种基于思想政治词语查重处理方法和装置,该方法包括:获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;获取第二文章中的思想政治词语在所述第二文章的位置信息;判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。通过本申请解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判,从而提高了思想政治文章查重的准确率。

Description

一种基于思想政治词语查重处理方法和装置
技术领域
本申请涉及到智能出版领域,具体而言,涉及一种基于思想政治词语查重处理方法和装置。
背景技术
在现有技术中,一般在自动发表文章的时候,系统会进行查重。目前查重基本上是基于文章存在的关键词相同的概率是否超过阈值来进行判断的。这种查重的方式在其他类型的文章是适用的。
在思想政治类文章中,这种查重的方式准确率会降低。这是因为思想政治类的文章中,大部分思想政治词语都是相同的,但是,这并不代表这两篇文章就是相同的。因此,现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判。
发明内容
本申请实施例提供了一种基于思想政治词语查重处理方法和装置,以至少解决现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判的问题。
根据本申请的一个方面,提供了一种基于思想政治词语查重处理方法,包括:获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;获取第二文章中的思想政治词语在所述第二文章的位置信息;判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
进一步地,还包括:在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
进一步地,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述方法还包括:判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
进一步地,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
进一步地,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
根据本申请的另一个方面,还提供了一种基于思想政治词语查重处理装置,包括:第一获取模块,用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;第二获取模块,用于获取第二文章中的思想政治词语在所述第二文章的位置信息;第一判断模块,用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;第一确定模块,用于在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
进一步地,所述第一确定模块,还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
进一步地,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
进一步地,所述第一判断模块用于:在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
进一步地,所述第一判断模块用于:在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
在本申请实施例中,采用了获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;获取第二文章中的思想政治词语在所述第二文章的位置信息;判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。通过本申请解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判,从而提高了思想政治文章查重的准确率。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于思想政治词语查重处理的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中,提供了一种基于思想政治词语查重处理方法,图1是根据本申请实施例的基于思想政治词语查重处理的流程图,如图1所示,该流程包括如下步骤:
步骤S102,获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;
分词的方法有很多,例如,可以从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数;查找大机器词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,重复以上过程,直到切分出所有词为止。
这样可以将第一文章中的所有关键词语都分离出来,然后将分离出的词语与预先配置的思想政治词语进行匹配,得到第一文章中的思想政治词语。然后将第一文章中出现次数最多的词语并且没有根据预先配置的思想政治词语匹配上的词语发送至用户的移动终端,由用户的来判断是否为思想政治词语,如果是,则记录到预先配置的思想政治词语库中,作为下次比对的基础。
通过这样的操作可以增加思想政治词语库,从而做到实时更新。
步骤S104,获取第二文章中的思想政治词语在所述第二文章的位置信息;
作为另一个可选的实施方式,可以通过上述分析方法将第一文章和第二文章中的出现次数最多的前五个关键词均提取出来,如果第一文章和第二文章中前五个关键词中有三个或以上均为思想政治关键词,然后再执行步骤S102及后续步骤。如果少于三个,则执行普通文章的查重步骤,普通文章的查重步骤在此不再赘述。
位置信息可以是一个二维的值,该二维值为(该词语所属的段落,该词语在段落中的位置),位置信息还可以是一个一维值,统计全文的字数,将该词语的首个汉字是全文的第几个字作为位置信息。
步骤S106,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;
在相同的思想政治词语存在多个的情况下,判断每个思想政治词语出现的次数,选择出现次数最多的预定数量个思想政治词语,例如10个,将出现次数最多的预定数量的政治词语中的每一个词语出现的位置进行标记,然后判断该思想政治词语在第一文章和第二文章中位置相同的第一次数和位置不同的第二次数,从而将第一次数/(第一次数加上第二次数)作为所述占比,在得到预定数量的思想政治词语中的每个词语的占比之后,将预定数量的词语的占比的平均数作为所述步骤S106中的占比。
判断位置是否相同,可以判断上述二维值相同在认为相同,或者也可以判断上述一维值相同就认为相同。当然作为一种更加可靠的方式,可以认为一维值和二维值均相同,则认为位置信息相同。
如果使用一维值或二维值单一参数进行判断,第一阈值为第一值,如果使用一维值和二维值两个参数进行判断,则第一阈值为第二值,其中,第二值小于第一值。
步骤S108,在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
通过上述步骤解决了现有的文章查重手段在思想政治类文章上使用时会发生大概率的误判,从而提高了思想政治文章查重的准确率。
优选地,还包括:在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
优选地,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述方法还包括:判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
优选地,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
优选地,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
作为一个可以增加的可选的实施方式,在根据上述步骤判断出所述第一文章和所述第二文章相同或者不同后,将所述第一文章和所述第二文章以及用于标识这两篇文章是否相同的标签保存为训练数据。记录保存的训练数据的量,在保存的训练数据超过第五阈值的情况下,例如超过1万组训练数据的情况下,使用保存的数据进行机器学习的模型训练。每组训练数据中的第一文章和第二文章作为神经网络模型的输入,所述神经网络模型的输出为标签。通过训练之后,在所述模型收敛之后,该模型就可以用来判断另外输入的文章是否相同了。
在本实施例中,提供一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行以上实施例中的方法。
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。在本实施例中提供了一种一种基于思想政治词语查重处理装置,包括:第一获取模块,用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;第二获取模块,用于获取第二文章中的思想政治词语在所述第二文章的位置信息;第一判断模块,用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;第一确定模块,用于在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
优选地,所述第一确定模块,还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
优选地,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
优选地,所述第一判断模块用于:在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
优选地,所述第一判断模块用于:在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
上述程序可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于思想政治词语查重处理方法,其特征在于,包括:
获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;
获取第二文章中的思想政治词语在所述第二文章的位置信息;
判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;
在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
3.根据权利要求2所述的方法,其特征在于,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述方法还包括:
判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;
在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;
在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
4.根据权利要求3所述的方法,其特征在于,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:
在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
5.根据权利要求3所述的方法,其特征在于,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:
在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
6.一种基于思想政治词语查重处理装置,其特征在于,包括:
第一获取模块,用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;
第二获取模块,用于获取第二文章中的思想政治词语在所述第二文章的位置信息;
第一判断模块,用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;
第一确定模块,用于在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
7.根据权利要求6所述的装置,其特征在于:
所述第一确定模块,还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
8.根据权利要求7所述的装置,其特征在于,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,
所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
9.根据权利要求8所述的装置,其特征在于,所述第一判断模块用于:
在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
10.根据权利要求8所述的装置,其特征在于,所述第一判断模块用于:
在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
CN202110664367.3A 2021-06-16 2021-06-16 一种基于思想政治词语查重处理方法和装置 Pending CN113326688A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110664367.3A CN113326688A (zh) 2021-06-16 2021-06-16 一种基于思想政治词语查重处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110664367.3A CN113326688A (zh) 2021-06-16 2021-06-16 一种基于思想政治词语查重处理方法和装置

Publications (1)

Publication Number Publication Date
CN113326688A true CN113326688A (zh) 2021-08-31

Family

ID=77421302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110664367.3A Pending CN113326688A (zh) 2021-06-16 2021-06-16 一种基于思想政治词语查重处理方法和装置

Country Status (1)

Country Link
CN (1) CN113326688A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及系统
CN111831869A (zh) * 2020-06-30 2020-10-27 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101404037A (zh) * 2008-11-18 2009-04-08 西安交通大学 一种检测及定位电子文本内容剽窃的方法
CN103246640A (zh) * 2013-04-23 2013-08-14 北京十分科技有限公司 一种检测重复文本的方法及装置
CN107908622A (zh) * 2017-11-22 2018-04-13 昆明理工大学 一种基于同义关联词的文本对比方法
CN109918670A (zh) * 2019-03-12 2019-06-21 重庆誉存大数据科技有限公司 一种文章查重方法及系统
CN111831869A (zh) * 2020-06-30 2020-10-27 深圳价值在线信息科技股份有限公司 一种字符串的查重方法、装置、终端设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484830A (zh) * 2023-06-26 2023-07-25 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统
CN116484830B (zh) * 2023-06-26 2023-12-26 山东省标准化研究院(Wto/Tbt山东咨询工作站) 基于大数据的互联网广告智能监测系统

Similar Documents

Publication Publication Date Title
CN110019792A (zh) 文本分类方法及装置和分类器模型训练方法
CN110597844B (zh) 异构数据库数据统一访问方法及相关设备
CN112445912B (zh) 一种故障日志分类方法、系统、设备以及介质
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
CN117391071B (zh) 一种新闻话题数据挖掘方法、装置及存储介质
CN113326688A (zh) 一种基于思想政治词语查重处理方法和装置
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN110489740B (zh) 语义解析方法及相关产品
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN112528021B (zh) 一种模型训练方法、模型训练装置及智能设备
CN113609825B (zh) 一种客户属性标签智能标识方法和装置
CN113157946B (zh) 实体链接方法、装置、电子设备及存储介质
CN114461708A (zh) 一种通用数据治理与展示的方法及系统
CN111125374B (zh) 知识库构建方法、装置、电子设备和存储介质
CN111625579B (zh) 一种信息处理方法、装置及系统
CN112667666A (zh) 一种基于N-gram的SQL运行时间预测方法及系统
CN115310564B (zh) 一种分类标签更新方法及系统
CN116306616B (zh) 用于确定文本的关键词的方法和装置
CN117150046B (zh) 基于上下文语义的任务自动分解方法和系统
CN118467681B (zh) 基于标题增强和意图识别的rag检索优化方法及系统
CN110765239B (zh) 热词识别方法、装置及存储介质
CN113742371A (zh) 一种sql语句块分析处理方法和装置
CN114610985A (zh) 信息提取方法、装置、电子设备及存储介质
CN116976339A (zh) 一种针对高速公路的特情分析方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210831

WD01 Invention patent application deemed withdrawn after publication