CN108984493A - 一种中文文章查重方法和系统 - Google Patents

一种中文文章查重方法和系统 Download PDF

Info

Publication number
CN108984493A
CN108984493A CN201810797476.0A CN201810797476A CN108984493A CN 108984493 A CN108984493 A CN 108984493A CN 201810797476 A CN201810797476 A CN 201810797476A CN 108984493 A CN108984493 A CN 108984493A
Authority
CN
China
Prior art keywords
article
sentence
word
checked
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810797476.0A
Other languages
English (en)
Other versions
CN108984493B (zh
Inventor
王新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201810797476.0A priority Critical patent/CN108984493B/zh
Publication of CN108984493A publication Critical patent/CN108984493A/zh
Application granted granted Critical
Publication of CN108984493B publication Critical patent/CN108984493B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中文文章查重方法和系统。该方法包括将待查文章和文章库中的文章均拆分为句子;将句子翻译成英文;将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围;如果是,则待查文章为重复文章。该方法和系统能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。

Description

一种中文文章查重方法和系统
技术领域
本发明涉及通信技术领域,具体地,涉及一种中文文章查重方法和系统。
背景技术
目前中文论文查重方法主要是基于语义知识的方法。基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。由于汉语言的文章是以“字”为最小单位,而文章要表达的意思,则是以“词”为最小单位,常见的分词方法,不能完全准确的进行分词;中文语言的复杂性,如语句的重组,都会使得查重的准确性不高,基于语义知识的判断结果正确性很难得到保证。
因此,如何提高中文论文的查重准确性已成为目前亟待解决的问题。
发明内容
本发明针对现有技术中存在的上述技术问题,提供一种中文文章查重方法和系统。该中文文章查重方法能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。
本发明提供一种中文文章查重方法,包括:
步骤S10:将待查文章和文章库中的文章均拆分为句子;
步骤S11:将所述句子翻译成英文;
步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;
步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;
如果是,则所述待查文章为重复文章。
优选地,在所述步骤S11之后和所述步骤S12之前还包括:
步骤S11′:设置同义词库,所述同义词库用于定义同义词;
步骤S12′:根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。
优选地,所述步骤S11′包括:
设置语义相近的词为同义词;
设置表示同一时间的词为同义词;
设置同一个词的不同时态和单复数为同义词;
设置同一个词的大小写为同义词;
设置同一个词的名词性物主代词和形容词性物主代词为同义词;
设置同一事物的知名绰号、别名和本名为同义词。
优选地,所述步骤S12包括:
记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;
记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;
判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围;如果是,则所述相对比句子的相似度达到了设定范围。
优选地,所述待查文章和所述文章库中的文章均按照语句结束符号拆分为句子;
其中,所述语句结束符号包括句号、问号和感叹号。
本发明还提供一种中文文章查重系统,包括:
拆分模块,用于将待查文章和文章库中的文章均拆分为句子;
翻译模块,用于将所述句子翻译成英文;
对比判断模块,用于将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;
统计确定模块,用于统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围,并根据统计结果确定所述待查文章是否为重复文章。
优选地,还包括:
设置模块,用于设置同义词库,所述同义词库用于定义同义词;
更换模块,用于根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。
优选地,所述设置模块包括:
第一设置单元,用于设置语义相近的词为同义词并设置表示同一时间的词为同义词;
第二设置单元,用于设置同一个词的不同时态和单复数为同义词并设置同一个词的大小写为同义词;
第三设置单元,用于设置同一个词的名词性物主代词和形容词性物主代词为同义词并设置同一事物的知名绰号、别名和本名为同义词。
优选地,所述对比判断模块包括:
第一记录统计单元,用于记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;
第二记录统计单元,用于记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;
判断确定单元,用于判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围,以确定所述相对比句子的相似度是否达到了设定范围。
优选地,所述拆分模块用于将所述待查文章和所述文章库中的文章按照语句结束符号拆分为句子;
其中,所述语句结束符号包括句号、问号和感叹号。
本发明的有益效果:本发明所提供的中文文章查重方法和系统,通过将文章库中的文章和待查文章拆分为句子,并将句子都翻译成英文,然后通过对比按序相对应句子的相似度,统计相似度达设定范围的句子在待查文章句子中的占比,从而确定待查文章是否为重复文章,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。
附图说明
图1为本发明实施例1中中文文章查重方法的流程图;
图2为本发明实施例2中中文文章查重方法的流程图;
图3为本发明实施例3中中文文章查重系统的原理框图。
其中的附图标记说明:
1.拆分模块;2.翻译模块;3.对比判断模块;31.第一记录统计单元;32.第二记录统计单元;33.判断确定单元;4.统计确定模块;5.设置模块;51.第一设置单元;52.第二设置单元;53.第三设置单元;6.更换模块。
具体实施方式
为使本领域的技术人员更好地理解本发明的技术方案,下面结合附图和具体实施方式对本发明所提供的一种中文文章查重方法和系统作进一步详细描述。
实施例1:
本实施例提供一种中文文章查重方法,如图1所示,包括:
步骤S10:将待查文章和文章库中的文章均拆分为句子。
本实施例中,待查文章和文章库中的文章均为中文论文。文章库中的文章可以是一篇,也可以是多篇。
步骤S11:将句子翻译成英文。
将句子翻译成英文能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的文章查重准确性不高的问题。
步骤S12:将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围。
其中,设定范围为70%以上。
步骤S13:统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围。
如果是,则执行步骤S14:确定待查文章为重复文章。如果否,则执行步骤S15:确定待查文章为非重复文章。
本实施例中,如果文章库中的文章为多篇,则待查文章与文章库中的文章逐篇进行步骤S12~步骤S15中的对比、统计和确定,从而确定待查文章与多篇文章相比,是否为重复文章,重复文章表示待查文章为抄袭文章。
该中文文章查重方法,通过将文章库中的文章和待查文章拆分为句子,并将句子都翻译成英文,然后通过对比按序相对应句子的相似度,统计相似度达设定范围的句子在待查文章句子中的占比,从而确定待查文章是否为重复文章,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。
实施例2:
本实施例提供一种中文文章查重方法,如图2所示,包括:
步骤S10:将待查文章和文章库中的文章均拆分为句子。
该步骤中,待查文章和文章库中的文章均按照语句结束符号拆分为句子。其中,语句结束符号包括句号、问号和感叹号。
本实施例中,待查文章和文章库中的文章均为中文论文。文章库中的文章是多篇。文章库中的多篇文章分别与待查文章进行逐篇对比。文章库中的文章拆分后的结果为:
L1={L1,1,L1,2,L1,3,……L1,m},第一篇文章拆分为m个句子。
L2={L2,1,L2,2,L2,3,……L2,m},第二篇文章拆分为m个句子。
L3={L3,1,L3,2,L3,3,……L3,m},第三篇文章拆分为m个句子。
……
Ln={Ln,1,Ln,2,Ln,3,……Ln,m},第n篇文章拆分为m个句子。
待查文章拆分后的结果为:
R={R1,R2,R3,……Rm},待查文章R拆分为m个句子。
步骤S11:将句子翻译成英文。
本实施例中,文章库中文章的各句子分别翻译成英文:
L1={L1,1,L1,2,L1,3,……L1,m}->EL1={EL1,1,EL1,2,EL1,3,……EL1,m},第一篇文章中的各句子翻译成英文。
L2={L2,1,L2,2,L2,3,……L2,m}->EL2={EL2,1,EL2,2,EL2,3,……EL2,m},第二篇文章中的各句子翻译成英文。
L3={L3,1,L3,2,L3,3,……L3,m}->EL3={EL3,1,EL3,2,EL3,3,……EL3,m},第三篇文章中的各句子翻译成英文。
……
Ln={Ln,1,Ln,2,Ln,3,……Ln,m}->ELn={ELn,1,ELn,2,ELn,3,……ELn,m},第n篇文章中的各句子翻译成英文。
待查文章中的各句子翻译成英文:
R={R1,R2,R3,……Rm}->ER={ER1,ER2,ER3,……ERm}。
步骤S11′:设置同义词库,同义词库用于定义同义词。
该步骤具体包括:
设置语义相近的词为同义词。如将extremely与seriously设置为同义词。
设置表示同一时间的词为同义词。如今年是2018年,则将“2018”与“this year”设置为同义词。
设置同一个词的不同时态和单复数为同义词。如将eat和eaten设置为同义词,apple和apples设置为同义词。
设置同一个词的大小写为同义词。如将Rat和rat设置为同义词。
设置同一个词的名词性物主代词和形容词性物主代词为同义词。如将yours和your设置为同义词。
设置同一事物的知名绰号、别名和本名为同义词。如将英国国王爱德华一世的绰号“Long Shank”和“EdwardⅠ”设置为同义词。
步骤S12′:根据同义词库将文章库中文章和待查文章中的同义词统一更换为待查文章中的用词。
步骤S11′和步骤S12′的设置,能够使后续相对比句子相似度的判定更加准确,从而提高了文章查重的准确性。
步骤S12:将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围。
其中,设定范围为70%以上。即将待查文章中的第一句与文章库中文章的第一句进行对比,两文章中的第二句进行对比,依次类推进行句子对比。
该步骤具体包括:
步骤S121:记录待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数。
如word为出现的单词,count为单词出现的次数:
ER1,Word1,1,Count1,1;Word1,2,Count1,2;……Word1,n,Count1,n
ER2,Word2,1,Count2,1;Word2,2,Count2,2;……Word2,n,Count2,n
……
ERm,Wordm,1,Countn,1;Wordm,2,Countm,2;……Wordm,n,Countm,n
例如:ER1=Hello,how are you?则Word1,1=hello,Count1,1=1;Word1,2=how,Count1,2=1;Word1,4=you,Count1,4=1。
步骤S122:记录文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数。
步骤S123:判断文章库中文章和待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个相对比句子中出现单词及其出现次数情况总量的设定范围;如果是,则相对比句子的相似度达到了设定范围。
该步骤中,一个句子中出现的单词及该单词的出现次数作为一个整体条件考虑。即相对比的两句子中,出现单词及其出现次数均相同为一种情况,出现单词相同但其出现次数不同为另一种情况,出现单词及其出现次数均不同为又一种情况,在相对比的其中一个句子中出现但在另一个句子中未出现的单词及其出现次数也是一种情况。各个相对比句子中出现单词及其出现次数情况总量包括上述各种情况。
步骤S121~步骤S123的设置,能够使相对比句子的相似度判定更加准确,从而提高了文章查重的准确性。
步骤S13:统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围。
如果是,则执行步骤S14:确定待查文章为重复文章。如果否,则执行步骤S15:确定待查文章为非重复文章。
本实施例中,如果文章库中的文章为多篇,则待查文章与文章库中的文章逐篇进行步骤S12~步骤S15中的对比、统计和确定,从而确定待查文章与多篇文章相比,是否为重复文章,重复文章表示待查文章为抄袭文章。
实施例1-2的有益效果:实施例1-2中所提供的中文文章查重方法,通过将文章库中的文章和待查文章拆分为句子,并将句子都翻译成英文,然后通过对比按序相对应句子的相似度,统计相似度达设定范围的句子在待查文章句子中的占比,从而确定待查文章是否为重复文章,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。
实施例3:
基于实施例2中所提供的中文文章查重方法,本实施例提供一种中文文章查重系统,如图3所示,包括:拆分模块1,用于将待查文章和文章库中的文章均拆分为句子。翻译模块2,用于将句子翻译成英文。对比判断模块3,用于将待查文章中的句子和文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围。统计确定模块4,用于统计待查文章中与文章库中文章的句子相似度达到设定范围的句子数量是否达到了待查文章中句子总数的设定范围,并根据统计结果确定待查文章是否为重复文章。
本实施例中,设定范围为70%以上。拆分模块1用于将待查文章和文章库中的文章按照语句结束符号拆分为句子。其中,语句结束符号包括句号、问号和感叹号。
本实施例中,翻译模块2的设置,能将句子翻译成英文,从而避免中文文章分词的不准确和中文语言的复杂性所导致的文章查重准确性不高的问题。对比判断模块3和统计确定模块4的设置,能够使相对比句子的相似度判定更加准确,从而提高了文章查重的准确性。
本实施例中,中文文章查重系统还包括:设置模块5,用于设置同义词库,同义词库用于定义同义词。更换模块6,用于根据同义词库将文章库中文章和待查文章中的同义词统一更换为待查文章中的用词。设置模块5和更换模块6的设置,能够使后续相对比句子相似度的判定更加准确,从而提高了文章查重的准确性。
其中,设置模块5包括:第一设置单元51,用于设置语义相近的词为同义词并设置表示同一时间的词为同义词。第二设置单元52,用于设置同一个词的不同时态和单复数为同义词并设置同一个词的大小写为同义词。第三设置单元53,用于设置同一个词的名词性物主代词和形容词性物主代词为同义词并设置同一事物的知名绰号、别名和本名为同义词。
本实施例中,对比判断模块3包括:第一记录统计单元31,用于记录待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数。第二记录统计单元32,用于记录文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数。判断确定单元33,用于判断文章库中文章和待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个相对比句子中出现单词及其出现次数情况总量的设定范围,以确定相对比句子的相似度是否达到了设定范围。第一记录统计单元31、第二记录统计单元32和判断确定单元33的设置,能够使相对比句子的相似度判定更加准确,从而提高了文章查重的准确性。
需要说明的是,对比判断模块3中,一个句子中出现的单词及该单词的出现次数作为一个整体条件考虑。即相对比的两句子中,出现单词及其出现次数均相同为一种情况,出现单词相同但其出现次数不同为另一种情况,出现单词及其出现次数均不同为又一种情况,在相对比的其中一个句子中出现但在另一个句子中未出现的单词及其出现次数也是一种情况。各个相对比句子中出现单词及其出现次数情况总量包括上述各种情况。
实施例3的有益效果:实施例3中所提供的中文文章查重系统,通过设置拆分模块、翻译模块、对比判断模块和统计确定模块,能够避免中文语言的复杂性如语句的重组和分词方法的不准所导致的中文论文查重准确性不高的问题,提高了中文论文查重的准确性。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (10)

1.一种中文文章查重方法,其特征在于,包括:
步骤S10:将待查文章和文章库中的文章均拆分为句子;
步骤S11:将所述句子翻译成英文;
步骤S12:将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;
步骤S13:统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;
如果是,则所述待查文章为重复文章。
2.根据权利要求1所述的中文文章查重方法,其特征在于,在所述步骤S11之后和所述步骤S12之前还包括:
步骤S11′:设置同义词库,所述同义词库用于定义同义词;
步骤S12′:根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。
3.根据权利要求2所述的中文文章查重方法,其特征在于,所述步骤S11′包括:
设置语义相近的词为同义词;
设置表示同一时间的词为同义词;
设置同一个词的不同时态和单复数为同义词;
设置同一个词的大小写为同义词;
设置同一个词的名词性物主代词和形容词性物主代词为同义词;
设置同一事物的知名绰号、别名和本名为同义词。
4.根据权利要求2所述的中文文章查重方法,其特征在于,所述步骤S12包括:
记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;
记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;
判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围;如果是,则所述相对比句子的相似度达到了设定范围。
5.根据权利要求1所述的中文文章查重方法,其特征在于,所述待查文章和所述文章库中的文章均按照语句结束符号拆分为句子;
其中,所述语句结束符号包括句号、问号和感叹号。
6.一种中文文章查重系统,其特征在于,包括:
拆分模块,用于将待查文章和文章库中的文章均拆分为句子;
翻译模块,用于将所述句子翻译成英文;
对比判断模块,用于将所述待查文章中的句子和所述文章库中文章的句子按序进行一一对比,判断相对比句子的相似度是否达到了设定范围;
统计确定模块,用于统计所述待查文章中与所述文章库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围,并根据统计结果确定所述待查文章是否为重复文章。
7.根据权利要求6所述的中文文章查重系统,其特征在于,还包括:
设置模块,用于设置同义词库,所述同义词库用于定义同义词;
更换模块,用于根据所述同义词库将所述文章库中文章和所述待查文章中的同义词统一更换为所述待查文章中的用词。
8.根据权利要求7所述的中文文章查重系统,其特征在于,所述设置模块包括:
第一设置单元,用于设置语义相近的词为同义词并设置表示同一时间的词为同义词;
第二设置单元,用于设置同一个词的不同时态和单复数为同义词并设置同一个词的大小写为同义词;
第三设置单元,用于设置同一个词的名词性物主代词和形容词性物主代词为同义词并设置同一事物的知名绰号、别名和本名为同义词。
9.根据权利要求7所述的中文文章查重系统,其特征在于,所述对比判断模块包括:
第一记录统计单元,用于记录所述待查文章每个句子中出现的单词并统计该单词在该句子中的出现次数;
第二记录统计单元,用于记录所述文章库中文章的每个句子中出现的单词并统计该单词在该句子中的出现次数;
判断确定单元,用于判断所述文章库中文章和所述待查文章的相对比句子中出现单词及其出现次数均相同的情况数量是否达到了各个所述相对比句子中出现单词及其出现次数情况总量的设定范围,以确定所述相对比句子的相似度是否达到了设定范围。
10.根据权利要求6所述的中文文章查重系统,其特征在于,所述拆分模块用于将所述待查文章和所述文章库中的文章按照语句结束符号拆分为句子;
其中,所述语句结束符号包括句号、问号和感叹号。
CN201810797476.0A 2018-07-19 2018-07-19 一种中文文章查重方法和系统 Active CN108984493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810797476.0A CN108984493B (zh) 2018-07-19 2018-07-19 一种中文文章查重方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810797476.0A CN108984493B (zh) 2018-07-19 2018-07-19 一种中文文章查重方法和系统

Publications (2)

Publication Number Publication Date
CN108984493A true CN108984493A (zh) 2018-12-11
CN108984493B CN108984493B (zh) 2022-04-29

Family

ID=64550392

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810797476.0A Active CN108984493B (zh) 2018-07-19 2018-07-19 一种中文文章查重方法和系统

Country Status (1)

Country Link
CN (1) CN108984493B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110347790A (zh) * 2019-06-18 2019-10-18 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111178040A (zh) * 2019-10-24 2020-05-19 中央民族大学 藏汉跨语言论文剽窃检测方法和系统
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法
JP2018055670A (ja) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050299A (zh) * 2014-07-07 2014-09-17 江苏金智教育信息技术有限公司 一种论文查重的方法
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
JP2018055670A (ja) * 2016-09-27 2018-04-05 パナソニックIpマネジメント株式会社 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN106649749A (zh) * 2016-12-26 2017-05-10 浙江传媒学院 一种基于汉语音位特征的文本查重方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
化柏林: "基于句子匹配的文章自写度测评系统", 《现代图书情报技术》 *
易彤等: "抄袭剽窃论文识别研究综述", 《情报学报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083808A (zh) * 2019-03-18 2019-08-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110083808B (zh) * 2019-03-18 2024-04-02 平安科技(深圳)有限公司 基于用户答案的作弊判定方法、装置、设备及存储介质
CN110347790A (zh) * 2019-06-18 2019-10-18 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110347790B (zh) * 2019-06-18 2021-08-10 广州杰赛科技股份有限公司 基于注意力机制的文本查重方法、装置、设备及存储介质
CN110532352A (zh) * 2019-08-20 2019-12-03 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN110532352B (zh) * 2019-08-20 2023-10-27 腾讯科技(深圳)有限公司 文本查重方法及装置、计算机可读存储介质、电子设备
CN111178040A (zh) * 2019-10-24 2020-05-19 中央民族大学 藏汉跨语言论文剽窃检测方法和系统
CN111178040B (zh) * 2019-10-24 2023-09-15 中央民族大学 藏汉跨语言论文剽窃检测方法和系统
CN113536759A (zh) * 2021-06-29 2021-10-22 北京清格科技有限公司 文本查重方法和装置及设备
CN113536759B (zh) * 2021-06-29 2024-05-07 北京清格科技有限公司 文本查重方法和装置及设备

Also Published As

Publication number Publication date
CN108984493B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN108984493A (zh) 一种中文文章查重方法和系统
Hatzivassiloglou et al. Predicting the semantic orientation of adjectives
Litta et al. Formatio formosa est. building a word formation lexicon for latin
CN106445998A (zh) 一种基于敏感词的文本内容审核方法及系统
CN102576358A (zh) 单词对取得装置、单词对取得方法及其程序
Carretero-Campos et al. Improving statistical keyword detection in short texts: Entropic and clustering approaches
CN106649222B (zh) 基于语义分析与多重Simhash的文本近似重复检测方法
Brooke et al. Measuring Interlanguage: Native Language Identification with L1-influence Metrics.
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
US20190303522A1 (en) Document implementation tool for pcb refinement
CN109101483A (zh) 一种针对电力巡检文本的错误识别方法
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
CN108563634A (zh) 文字拼写错误的识别方法、系统、计算机设备及存储介质
CN107341142B (zh) 一种基于关键词提取分析的企业关系计算方法及系统
CN111079384B (zh) 一种用于智能质检服务禁语的识别方法及系统
CN106372038A (zh) 关键词的抽取方法及装置
Östling et al. Compounding in a Swedish blog corpus
CN108021595B (zh) 检验知识库三元组的方法及装置
CN113553491A (zh) 一种基于倒排索引的工业大数据搜索优化方法
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
CN112560448B (zh) 一种新词提取方法及装置
US20190303521A1 (en) Document implementation tool for pcb refinement
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
CN110941701B (zh) 语义分析样本集的优化方法、存储介质和计算设备
CN101145166A (zh) 基于音节驱动的音译实体名的计算机自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant