CN111178040A - 藏汉跨语言论文剽窃检测方法和系统 - Google Patents

藏汉跨语言论文剽窃检测方法和系统 Download PDF

Info

Publication number
CN111178040A
CN111178040A CN201911401141.3A CN201911401141A CN111178040A CN 111178040 A CN111178040 A CN 111178040A CN 201911401141 A CN201911401141 A CN 201911401141A CN 111178040 A CN111178040 A CN 111178040A
Authority
CN
China
Prior art keywords
tibetan
chinese
similarity
language
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911401141.3A
Other languages
English (en)
Other versions
CN111178040B (zh
Inventor
赵小兵
鲍薇
董建
于鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
China Electronics Standardization Institute
Original Assignee
Minzu University of China
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China, China Electronics Standardization Institute filed Critical Minzu University of China
Publication of CN111178040A publication Critical patent/CN111178040A/zh
Application granted granted Critical
Publication of CN111178040B publication Critical patent/CN111178040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种藏汉跨语言论文剽窃检测方法和系统,涉及信息处理技术领域。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过该基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度值检测结果的准确性,从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。

Description

藏汉跨语言论文剽窃检测方法和系统
技术领域
本发明涉及信息处理技术领域,具体涉及一种藏汉跨语言论文剽窃检测方法和系统。
背景技术
随着互联网中海量数据和跨语言信息的共享给学术论文剽窃、学术造假提供了极大的“便利”,跨语言剽窃检测也逐渐成为自然语言处理领域的一个重要研究内容。论文的跨语言剽窃可以是通过翻译手段形成自己的论文,也可以是通过翻译后进行一定程度的语义改写形成自己的论文,目前,中文、英文单语的论文剽窃检测已取得较好的检测效果,且已有多个商用论文检测系统。但是对于对低资源语言论文剽窃的检测中,以语义改写剽窃和翻译剽窃检测还是存在一定的挑战性。
目前,针对翻译剽窃的跨语言检测方法大多是利用机器翻译模型将跨语言文本转换成单语言,然后通过检测文本之间的相似度来判断是否存在剽窃问题。
但是,目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,尤其是目前低资源语言机器翻译模型尚未达到高质量的翻译效果,极易出现误差,导致检测结果不准确。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种藏汉跨语言论文剽窃检测方法和系统,解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,导致检测结果不准确的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
本发明提供一种藏汉跨语言论文剽窃检测方法,所述方法由计算机执行,包括:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
优选的,所述基于数据增强方法生成藏汉句对语料具体为:
S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型;
S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,加上两对藏汉平行句对,即可获得四个带有相似度值标签的藏汉跨语言句对,计算公式如下:
sim1=similarity(cn1,cn2)
similarity(tib1,tib2)=sim1
similarity(cn1,tib2)=similarity(cn2,tib1)=sim1
similarity(cn1,tib1)=similarity(cn2,tib2)=MAX
其中:
cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;
sim1是cn1和cn2两个汉语句子之间的相似度,MAX是相似度最大值;
所述藏汉平行句对为相似度值为最大值藏汉句对,所述四个带有相似度值标签的藏汉跨语言句对为cn1-tib2、cn2-tib1、cn1-tib1、cn2-tib2
S103、重复步骤S102,获取藏汉句对。
优选的,所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层,具体如下:
输入层,所述输入层用于输入待检测句对;
嵌入层,所述嵌入层用于对输入的句子进行向量表示;
隐藏层,所述隐藏层用于挖掘输入句子的深层语义信息;
注意力层,所述注意力层用于生成权重向量;
输出层,所述输出层用于输出两个句子的相似度值。
优选的,所述检测论文是否为剽窃论文的具体方法为:
将经过待测的论文中的句子和论文数据库中文章的句子输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度;
统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;
如果是,则所述待测的论文为剽窃论文。
本发明还提供一种藏汉跨语言论文剽窃检测系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
(三)有益效果
本发明提供了一种藏汉跨语言论文剽窃检测方法和系统。与现有技术相比,具备以下有益效果:
本发明通过数据增强方法生成大规模的藏汉句对语料,然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型。通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过本发明训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度检测结果的准确性,从而保障了以句对相似度值为判定依据的论文剽窃检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种藏汉跨语言论文剽窃检测方法的框图;
图2为藏汉跨语言孪生长短时记忆网络网络模型的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种藏汉跨语言论文剽窃检测方法和系统,解决了目前的翻译剽窃的跨语言检测方法过于依赖译文的质量,导致检测结果不准确的问题,实现更加准确的判断论文是否存在剽窃问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本实施例通过数据增强方法生成大规模的藏汉句对语料,然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型,再通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测句对相似度,根据句对相似度的情况判断论文是否存在剽窃的情况。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
本发明实施例提供了一种藏汉跨语言论文剽窃检测方法,该方法由计算机执行,如图1所示,包括以下步骤:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
本发明实施例通过数据增强方法生成大规模的藏汉句对语料,然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型,通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测论文相似度,根据相似度值判断论文是否为剽窃论文。本发明通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过本发明训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度检测结果的准确性,从而保障了以句对相似度为判定依据的剽窃检测的准确性。
下面对个步骤进行详细的描述:
需要说明的是,本发明实施例是藏汉跨语言论文剽窃检测方法,但并不是说明本发明实施例只能用于藏汉跨语言论文剽窃检测,通过本发明实施例的方法,也可构建其他跨语言孪生长短时记忆网络模型,(如藏语和英语之间的跨语言,蒙古语和汉语之间的跨语言等)并通过构建的模型检测论文间的相似度。
S1、基于数据增强方法生成藏汉句对语料。具体包括以下步骤:
S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型。在具体实施过程中,使用SCIK_cn语料库(在本发明实施例中,SCIK_cn语料库是指SemEval2014中的英语评测语料SICK,共10000个英文句对,由于缺少相关的汉文、藏文语料,所以本专利首先使用谷歌翻译、小牛翻译工具将SICK语料中的英文句对翻译成相对应的汉文句对、藏文句对,最终形成英文、汉文、藏文三种单语语料库以及英-汉、英-藏、汉-藏三种跨语言语料库,分别表示如下en、cn、tib、en-cn、en-tib、cn-tib,本发明实施例中所使用的语料均为机器翻译语料,未经过人工修改)中的10000个汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整参数使模型性能达到最优。
S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,,加上两对藏汉平行句对(设置其相似度值为最大值),即可获得四个带有相似度值标签的藏汉跨语言句对。在具体实施过程中,如表1所示,cn1和cn2两个中文句子之间的相似度值记为sim1。默认藏汉平行句对之间的相似度值为5(最大值),即平行的两个句子的内容和意义完全相同。因此,表1中tib1和tib2的相似度值也是sim1。可推出,cn1和tib2的相似度值以及cn2和tib1的相似度值均为sim1。通过该方法可获得包含相似度值标签的伪句对。输入cn1-tib1、cn2-tib2两个藏汉句对,使用以上所述方法进行计算,最终可得出cn1-tib1、cn2-tib2、cn1-tib2、cn2-tib1四个带有相似度值标签的藏汉跨语言句对。
具体计算公式如下:
sim1=similarity(cn1,cn2)
similarity(tib1,tib2)=sim1
similarity(cn1,tib2)=similarity(cn2,tib1)=sim1
similarity(cn1,tib1)=similarity(cn2,tib2)=5
其中:
cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;sim1是cn1和cn2两个汉语句子之间的相似度。
表1
Figure BDA0002347504170000091
S103、重复步骤S102,获取藏汉句对。根据上述基于数据增强的语料扩充方法,共构造了21万藏汉句对。
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型。在具体实施过程中,通过21万藏汉句对训练优化孪生长短时记忆网络模型,得到藏汉跨语言孪生长短时记忆网络网络模型。其中,基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层,具体结构如图2所示,具体包括:用于输入待检测句对的输入层,用于对输入的句子进行向量表示的嵌入层;用于挖掘输入句子的深层语义信息的隐藏层;用于生成权重向量的注意力层;用于输出两个句子的相似度值输出层。
S3、基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。这里需要说明的是,步骤S2训练好的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型可以用于多次检测论文相似度,也就是说,一旦基于孪生长短时记忆网络的藏汉跨语言相似度计算模型训练好,后续都用这个基于孪生长短时记忆网络的藏汉跨语言相似度计算模型进行论文相对度检测,无需重复训练,即,无需重复步骤S1~S2。
在具体实施过程中,将经过待测的论文中的句子和论文数据库中文章的句子按序一一输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度;统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;如果是,则所述待测的论文为剽窃论文。
本发明实施例还提供一种藏汉跨语言论文剽窃检测系统,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例通过数据增强方法生成大规模的藏汉句对语料,然后通过藏汉句对语料对孪生长短时记忆网络模型进行训练和优化,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型,通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型来检测论文相似度,根据相似度值判断论文是否为剽窃论文。通过本发明实施例训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型可直接将待检测句对和词向量作为输入,最终输出句对的相似度值。本发明实施例通过大规模的藏汉句对语料来训练和优化孪生长短时记忆网络模型,使得训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型准确性好,通过本发明实施例训练得到的基于孪生长短时记忆网络的藏汉跨语言相似度计算模型在检测句对相似度时,无需任何先验知识,也无需人工干预,保障了句对相似度检测结果的准确性,从而保障了以句对相似度为判定依据的剽窃检测的准确性。
需要说明的是,通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (5)

1.一种藏汉跨语言论文剽窃检测方法,其特征在于,所述方法由计算机执行,包括:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
2.如权利要求1所述的藏汉跨语言论文剽窃检测方法,其特征在于,所述基于数据增强方法生成藏汉句对语料具体为:
S101、使用汉语句对训练基于孪生长短时记忆网络汉语单语相似度计算模型,调整模型参数,优化基于孪生长短时记忆网络汉语单语相似度计算模型;
S102、将藏汉平行语料中的汉语句对输入到经过优化的基于孪生长短时记忆网络汉语单语相似度计算模型,计算藏汉平行语料中汉语句对之间的相似度值,获得两个汉语句对之间的相似度值,并以该值作为对应的藏文句对之间的相似度值,同时也作为对应的藏汉跨语言句对之间的相似度值,加上两对藏汉平行句对,即可获得四个带有相似度值标签的藏汉跨语言句对,计算公式如下:
sim1=similarity(cn1,cn2)
similarity(tib1,tib2)=sim1
similarity(cn1,tib2)=similarity(cn2,tib1)=sim1
similarity(cn1,tib1)=similarity(cn2,tib2)=MAX
其中:
cn和tib代表藏汉平行语料中的汉语句和藏语句,cn1和cn2是任意两个汉语句子,tib1是cn1的藏汉平行语料中的藏语句,tib2是cn2的藏汉平行语料中的藏语句;
sim1是cn1和cn2两个汉语句子之间的相似度,MAX是相似度最大值;
所述藏汉平行句对为相似度值为最大值藏汉句对,所述四个带有相似度值标签的藏汉跨语言句对为cn1-tib2、cn2-tib1、cn1-tib1、cn2-tib2
S103、重复步骤S102,获取藏汉句对。
3.如权利要求1所述的藏汉跨语言论文剽窃检测方法,其特征在于,所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型的结构为5层,具体如下:
输入层,所述输入层用于输入待检测句对;
嵌入层,所述嵌入层用于对输入的句子进行向量表示;
隐藏层,所述隐藏层用于挖掘输入句子的深层语义信息;
注意力层,所述注意力层用于生成权重向量;
输出层,所述输出层用于输出两个句子的相似度值。
4.如权利要求1所述的藏汉跨语言论文剽窃检测方法,其特征在于,所述检测论文是否为剽窃论文的具体方法为:
将经过待测的论文中的句子和论文数据库中文章的句子输入到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
通过基于孪生长短时记忆网络的藏汉跨语言相似度计算模型输出相对比句子的相似度;
统计所述待测的论文中与所述论文数据库中文章的句子相似度达到设定范围的句子数量是否达到了所述待查文章中句子总数的设定范围;
如果是,则所述待测的论文为剽窃论文。
5.一种藏汉跨语言论文剽窃检测系统,其特征在于,所述系统包括计算机,所述计算机包括:
至少一个存储单元;
至少一个处理单元;
其中,所述至少一个存储单元中存储有至少一条指令,所述至少一条指令由所述至少一个处理单元加载并执行以实现以下步骤:
S1、基于数据增强方法生成藏汉句对语料;
S2、基于所述藏汉句对语料训练孪生长短时记忆网络模型,得到基于孪生长短时记忆网络的藏汉跨语言相似度计算模型;
S3、基于所述基于孪生长短时记忆网络的藏汉跨语言相似度计算模型检测藏文论文相似度,根据相似度值判断论文是否为剽窃论文。
CN201911401141.3A 2019-10-24 2019-12-30 藏汉跨语言论文剽窃检测方法和系统 Active CN111178040B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019110197146 2019-10-24
CN201911019714 2019-10-24

Publications (2)

Publication Number Publication Date
CN111178040A true CN111178040A (zh) 2020-05-19
CN111178040B CN111178040B (zh) 2023-09-15

Family

ID=70654189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911401141.3A Active CN111178040B (zh) 2019-10-24 2019-12-30 藏汉跨语言论文剽窃检测方法和系统

Country Status (1)

Country Link
CN (1) CN111178040B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131859A (zh) * 2020-08-25 2020-12-25 中央民族大学 藏文作文抄袭检测原型系统
CN112380834A (zh) * 2020-08-25 2021-02-19 中央民族大学 藏语论文剽窃检测方法和系统
CN112394973A (zh) * 2020-11-23 2021-02-23 山东理工大学 一种基于伪孪生网络的多语言代码剽窃检测方法
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
CN109783817A (zh) * 2019-01-15 2019-05-21 浙江大学城市学院 一种基于深度强化学习的文本语义相似计算模型

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
左权: "基于深度学习的跨语言相似度评估技术研究" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131859A (zh) * 2020-08-25 2020-12-25 中央民族大学 藏文作文抄袭检测原型系统
CN112380834A (zh) * 2020-08-25 2021-02-19 中央民族大学 藏语论文剽窃检测方法和系统
CN112380834B (zh) * 2020-08-25 2023-10-31 中央民族大学 藏语论文剽窃检测方法和系统
CN112394973A (zh) * 2020-11-23 2021-02-23 山东理工大学 一种基于伪孪生网络的多语言代码剽窃检测方法
CN112394973B (zh) * 2020-11-23 2024-03-12 山东理工大学 一种基于伪孪生网络的多语言代码剽窃检测方法
CN117421428A (zh) * 2023-10-31 2024-01-19 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统
CN117421428B (zh) * 2023-10-31 2024-05-17 中国人民解放军海军大连舰艇学院 基于完整期刊库的论文发表诚信评估分析方法及系统

Also Published As

Publication number Publication date
CN111178040B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
Balahur et al. Comparative experiments using supervised learning and machine translation for multilingual sentiment analysis
CN111178040B (zh) 藏汉跨语言论文剽窃检测方法和系统
CN111104789B (zh) 文本评分方法、装置和系统
Fonseca et al. Evaluating word embeddings and a revised corpus for part-of-speech tagging in Portuguese
CN106547739A (zh) 一种文本语义相似度分析方法
US9984071B2 (en) Language ambiguity detection of text
Habib et al. An exploratory approach to find a novel metric based optimum language model for automatic bangla word prediction
Sazzed Development of sentiment lexicon in bengali utilizing corpus and cross-lingual resources
Zhang et al. PKU paraphrase bank: A sentence-level paraphrase corpus for Chinese
CN112380834B (zh) 藏语论文剽窃检测方法和系统
Degadwala et al. Optimizing Hindi Paragraph Summarization through PageRank Method
Lin et al. Natural Language Understanding and Intelligent Applications: 5th CCF Conference on Natural Language Processing and Chinese Computing, NLPCC 2016, and 24th International Conference on Computer Processing of Oriental Languages, ICCPOL 2016, Kunming, China, December 2–6, 2016, Proceedings
Pinnis et al. Tilde MT platform for developing client specific MT solutions
Forsyth Automatic readability detection for modern standard Arabic
Zhou et al. Domain adaptation for SMT using sentence weight
CN107015966A (zh) 基于改进的PageRank算法的文本‑音频自动文摘方法
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Bal et al. Bilingual machine translation: Bengali to English
Cairang et al. Research on error correction method of Tibetan text based on deep learning
Lu et al. Language model for Mongolian polyphone proofreading
Bhargava et al. Enhancing Deep Learning Approach for Tamil English Mixed Text Classification
Song et al. A hybrid model for community-oriented lexical simplification
Ransing et al. A survey of different approaches for word sense disambiguation
Rumaisaa et al. Development of Multilingual Social Media Data Corpus: Development and Evaluation
Mirzababaei et al. Discriminative reranking for context-sensitive spell–checker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant