CN103544326A - 基于译文特征与内容的中英文跨语种抄袭识别方法 - Google Patents

基于译文特征与内容的中英文跨语种抄袭识别方法 Download PDF

Info

Publication number
CN103544326A
CN103544326A CN201310567555.XA CN201310567555A CN103544326A CN 103544326 A CN103544326 A CN 103544326A CN 201310567555 A CN201310567555 A CN 201310567555A CN 103544326 A CN103544326 A CN 103544326A
Authority
CN
China
Prior art keywords
document
plagiarism
similarity
value
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310567555.XA
Other languages
English (en)
Inventor
刘功申
张昊
袁松翔
孟魁
宁蔚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN201310567555.XA priority Critical patent/CN103544326A/zh
Publication of CN103544326A publication Critical patent/CN103544326A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法,包括:第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。

Description

基于译文特征与内容的中英文跨语种抄袭识别方法
技术领域
本发明涉及文本内容处理领域,更具体地说,本发明涉及一种基于译文特征与内容的中英文跨语种抄袭识别方法。
背景技术
国内对于复制检测技术的研究已经进行了很长时间,但是这些研究几乎全部集中在中文文章的相互抄袭检测上,而对跨语种的抄袭检测研究较少。
在国内现有的一些中英文跨语种抄袭检测技术中,所采用的思路主要是借鉴国外对跨语种抄袭检测所采用的思路即:文翻译成目标语言,然后进行基于关键字的启发式搜索,然后对搜索后的结果进行详细分析,匹配关键词最后判定是否抄袭。
但是,这种研究思路首先受限于英文与中文语种差距较大翻译效果不佳,其次忽略了中文作为世界上最复杂的语言所具有的一些特征。所以,现有的一些中英文跨语种抄袭检测技术的检测识别效果并不理想。
发明内容
本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种能够有效进行中英文跨语种抄袭检测的基于译文特征与内容的中英文跨语种抄袭识别方法。
为了实现上述技术目的,根据本发明,提供了一种基于译文特征与内容的中英文跨语种抄袭识别方法,其包括:
第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;
第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;
第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;
第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。
优选地,内容的抄袭算法流程包括下述步骤:
第五步骤,用于将待检测文档进行分词处理,并进行词性标注;
第六步骤,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频来决定文档的关键词;
第七步骤,用于将关键词翻译为英语以得到相应的英文关键词;
第八步骤,用于使用英文关键词利用已词干化的英文文档语料库中进行检索,获得可能是被抄袭的文档;
第九步骤,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度;
第十步骤,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较,以确定是否抄袭,其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章。
优选地,在第九步骤中,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值;若在检索出的文档的句子中找到待识别文档的一级同义词匹配,则相似度被确定为小于第一相似度值的第二相似度值;若在检索出的文档的句子中找到待识别文档的二级同义词匹配,则相似度记为被确定为小于第二相似度值的第三相似度值;若在检索出的文档的句子中发现待识别文档的多个同义词匹配,则相似度被确定为数值较大的相似度值;若在检索出的文档的句子中没有发现待识别文档的同义词匹配,则相似度被确定为小于第三相似度值的第四相似度值。
优选地,如果待识别文档与检索出的文档之间的相似度不大于相似度阈值,那么则可以进行进一步的其它判定,例如人工检索。
优选地,第一相似度值为1,第二相似度值为0.8,第一相似度值为0.3,第四相似度值为0,并且相似度阈值的取值范围为0.5至0.8。
优选地,相似度阈值为0.6。
优选地,在第三步骤中,决策树以及支持向量机的生成是通过针对一个抄袭语料库以及将一个非抄袭语料库分别执行第一步骤和第二步骤而生成的。
优选地,在第八步骤中,采用倒排索引检索方法进行检索来使用英文关键词利用已词干化的英文文档语料库中进行检索。
优选地,在第一步骤中可采用ICTCLAS分词算法来进行词法与句法分析。
附图说明
结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
图1根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法的流程图。
需要说明的是,附图用于说明本发明,而非限制本发明。注意,表示结构的附图可能并非按比例绘制。并且,附图中,相同或者类似的元件标有相同或者类似的标号。
具体实施方式
为了使本发明的内容更加清楚和易懂,下面结合具体实施例和附图对本发明的内容进行详细描述。
本发明针对现有技术存在的不足,提出了基于中文译文特征的中英抄袭识别方法。主要思想是,首先通过中文的特殊性来找出那些不符合中文习惯的译文特征来判定文章是否为跨语种抄袭。然后将判断抄袭概率如果抄袭概率比较大那么采取基于内容的抄袭算法,来最终判定文章是否抄袭。
具体地说,图1根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法的流程图。
如图1所示,根据本发明实施例的基于译文特征与内容的中英文跨语种抄袭识别方法包括:
第一步骤S1,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备。例如,在第一步骤S1中可采用中科院的ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)分词算法来进行词法与句法分析。
第二步骤S2,用于进行译文特征抽取及数据统计(例如,数据统计包括统计句式、代词、虚词、标点符号、句长以及滥用词等各项特征),然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标。
第三步骤S3,用于将这些数据指标放入已经生成好的决策树以及支持向量机SVM(SupportVectorMachine)中进行运算以计算出抄袭值。其中,在第三步骤S3中,优选地,决策树以及支持向量机SVM的生成可以是通过针对一个抄袭语料库(例如,该抄袭语料库可以是一个由英文翻译成中文的文章组成的语料库)以及将一个非抄袭语料库(例如,该非抄袭语料库可以是一个由各个核心期刊与会议的论文集组合成的语料库)分别执行第一步骤S1和第二步骤S2而生成的。
第四步骤S4,用于判定抄袭值是否超过阈值。而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章(第十一步骤S11);如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。
优选地,如图1所示,内容的抄袭算法流程包括下述步骤:
第五步骤S5,用于将待检测文档进行分词处理,并进行词性标注。
第六步骤S6,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频TF(TermFrequency)来决定文档的关键词。
第七步骤S7,用于例如通过机器翻译,将关键词翻译为英语以得到相应的英文关键词。
第八步骤S8,用于使用英文关键词利用已词干化的英文文档语料库(即,作为可能的被抄袭对象的文档的已词干化的英文文档的语料库)中进行检索(例如,可采用倒排索引检索方法进行检索),获得可能是被抄袭的文档(即,从作为可能的被抄袭对象的文档中获得可能被抄袭的文档)。
第九步骤S9,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度。
其中,在具体实施例中,优选地,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值(例如,β=1);若在检索出的文档的句子中找到待识别文档的一级同义词匹配,则相似度被确定为小于第一相似度值的第二相似度值(例如,β=0.8);若在检索出的文档的句子中找到待识别文档的二级同义词匹配,则相似度记为被确定为小于第二相似度值的第三相似度值(例如,β=0.3);若在检索出的文档的句子中发现待识别文档的多个同义词匹配,则相似度被确定为数值较大的相似度值;若在检索出的文档的句子中没有发现待识别文档的同义词匹配,则相似度被确定为小于第三相似度值的第四相似度值(例如,β=0)。
第十步骤S10,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值(例如,可以将相似度阈值的取值范围设定为0.5至0.8;在优选示例中,可以将相似度阈值设定为0.6)进行比较,以确定是否抄袭。如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章(第十二步骤S12)。
另一方面,例如,如果待识别文档与检索出的文档之间的相似度不大于相似度阈值,那么则可以进行进一步的其它判定,例如人工检索(第十三步骤S13)。
更具体地说,以一篇文章为例,我们对文章进行分词并统计以下译文特征:“代词”、“语气词”、“被动”、“当”、“一句多代”、“们”、“分号”、“顿号(、)”出现的频率将这些数值放入SVM与决策树中进行对比从而加权得到抄袭判定的值,如果值没有超过判定抄袭的阈值那么判定为非抄袭算法并且处理结束。当该值超过判定抄袭的阈值,则对原文进行获取关键字然后进行机器翻译在英文语料库中进行查询算出相似度,如果加权后的相似度大于0.6就认为用户文章是抄袭。
本发明至少具有这样的优点,即,在中英文跨语种抄袭领域引入了一个全新的观点,可以开辟一条新的研究道路即基于译文特征的中英文跨语种抄袭检测,通过中文的特殊性来找出那些不符合中文习惯的方面来判定文章是否是抄袭。这样可以抛开翻译效果不佳以及搜索范围小等常规思路所带来的缺点,另辟蹊径已达到抄袭检测的目的。
此外,需要说明的是,除非特别说明或者指出,否则说明书中的术语“第一”、“第二”、“第三”等描述仅仅用于区分说明书中的各个组件、元素、步骤等,而不是用于表示各个组件、元素、步骤之间的逻辑关系或者顺序关系等。
可以理解的是,虽然本发明已以较佳实施例披露如上,然而上述实施例并非用以限定本发明。对于任何熟悉本领域的技术人员而言,在不脱离本发明技术方案范围情况下,都可利用上述揭示的技术内容对本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (9)

1.一种基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于包括:
第一步骤,用于对需要检测的文章进行词法与句法分析,以便为译文特征抽取做准备;
第二步骤,用于进行译文特征抽取及数据统计,然后按照词数为基准进行归一化处理,最后得到各特征的每万词出现次数的具体数据指标;
第三步骤,用于将数据指标放入已经生成好的决策树以及支持向量机中进行运算以计算出抄袭值;
第四步骤,用于判定抄袭值是否超过阈值,而且,如果抄袭值没有超过预定的阈值,则判定本文章为非抄袭文章,如果抄袭值超过预定的阈值,则处理进入基于内容的抄袭算法流程。
2.根据权利要求1所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,内容的抄袭算法流程包括下述步骤:
第五步骤,用于将待检测文档进行分词处理,并进行词性标注;
第六步骤,用于去除停用词,获得文档的词干向量,根据各个词干在文章中出现的次数词频来决定文档的关键词;
第七步骤,用于将关键词翻译为英语以得到相应的英文关键词;
第八步骤,用于使用英文关键词利用已词干化的英文文档语料库中进行检索,获得可能是被抄袭的文档;
第九步骤,用于比较待识别文档与检索出的文档,获得待识别文档与检索出的文档之间的相似度;
第十步骤,用于将待识别文档与检索出的文档之间的相似度与预先设定的相似度阈值进行比较,以确定是否抄袭,其中如果待识别文档与检索出的文档之间的相似度大于相似度阈值,则判定本文章为抄袭文章。
3.根据权利要求2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第九步骤中,若在检索出的文档的句子中找到待识别文档的原词匹配,则相似度被确定为第一相似度值;若在检索出的文档的句子中找到待识别文档的一级同义词匹配,则相似度被确定为小于第一相似度值的第二相似度值;若在检索出的文档的句子中找到待识别文档的二级同义词匹配,则相似度记为被确定为小于第二相似度值的第三相似度值;若在检索出的文档的句子中发现待识别文档的多个同义词匹配,则相似度被确定为数值较大的相似度值;若在检索出的文档的句子中没有发现待识别文档的同义词匹配,则相似度被确定为小于第三相似度值的第四相似度值。
4.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,如果待识别文档与检索出的文档之间的相似度不大于相似度阈值,那么则可以进行进一步的其它判定,例如人工检索。
5.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,第一相似度值为1,第二相似度值为0.8,第一相似度值为0.3,第四相似度值为0,并且相似度阈值的取值范围为0.5至0.8。
6.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,相似度阈值为0.6。
7.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第三步骤中,决策树以及支持向量机的生成是通过针对一个抄袭语料库以及将一个非抄袭语料库分别执行第一步骤和第二步骤而生成的。
8.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第八步骤中,采用倒排索引检索方法进行检索来使用英文关键词利用已词干化的英文文档语料库中进行检索。
9.根据权利要求1或2所述的基于译文特征与内容的中英文跨语种抄袭识别方法,其特征在于,在第一步骤中可采用ICTCLAS分词算法来进行词法与句法分析。
CN201310567555.XA 2013-11-14 2013-11-14 基于译文特征与内容的中英文跨语种抄袭识别方法 Pending CN103544326A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310567555.XA CN103544326A (zh) 2013-11-14 2013-11-14 基于译文特征与内容的中英文跨语种抄袭识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310567555.XA CN103544326A (zh) 2013-11-14 2013-11-14 基于译文特征与内容的中英文跨语种抄袭识别方法

Publications (1)

Publication Number Publication Date
CN103544326A true CN103544326A (zh) 2014-01-29

Family

ID=49967778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310567555.XA Pending CN103544326A (zh) 2013-11-14 2013-11-14 基于译文特征与内容的中英文跨语种抄袭识别方法

Country Status (1)

Country Link
CN (1) CN103544326A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106446274A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 一种基于内容显著性语句语义分析的内容检索和消重方法
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN112131859A (zh) * 2020-08-25 2020-12-25 中央民族大学 藏文作文抄袭检测原型系统
CN112784878A (zh) * 2020-12-31 2021-05-11 北京华图宏阳网络科技有限公司 一种中文议论文智能批改方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334789A (zh) * 2008-08-04 2008-12-31 福建师范大学 利用搜索引擎鉴定文档抄袭的装置
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334789A (zh) * 2008-08-04 2008-12-31 福建师范大学 利用搜索引擎鉴定文档抄袭的装置
CN101957809A (zh) * 2010-10-14 2011-01-26 传神联合(北京)信息技术有限公司 一种防抄袭方法
CN102411564A (zh) * 2011-08-17 2012-04-11 北方工业大学 一种电子作业抄袭检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
袁松翔: "《基于译文特征与译文内容的中英文跨语种抄袭识别技术研究》", 《中国优秀硕士学位论文全文数据库》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823862B (zh) * 2014-02-24 2017-02-15 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN103823862A (zh) * 2014-02-24 2014-05-28 西安交通大学 一种跨语言的电子文本剽窃检测系统及其检测方法
CN105701085B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN105701076B (zh) * 2016-01-13 2018-05-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN105701085A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种网络查重方法及系统
CN105701076A (zh) * 2016-01-13 2016-06-22 湖南通远网络科技有限公司 一种论文抄袭检测方法及系统
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106294639B (zh) * 2016-08-01 2020-04-21 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106446274A (zh) * 2016-10-21 2017-02-22 天津海量信息技术股份有限公司 一种基于内容显著性语句语义分析的内容检索和消重方法
CN107862045A (zh) * 2017-11-07 2018-03-30 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN107862045B (zh) * 2017-11-07 2022-01-14 哈尔滨工程大学 一种基于多特征的跨语言剽窃检测方法
CN107871002A (zh) * 2017-11-10 2018-04-03 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN107871002B (zh) * 2017-11-10 2021-03-30 哈尔滨工程大学 一种基于指纹融合的跨语言剽窃检测方法
CN109635254A (zh) * 2018-12-03 2019-04-16 重庆大学 基于朴素贝叶斯、决策树和svm混合模型的论文查重方法
CN112131859A (zh) * 2020-08-25 2020-12-25 中央民族大学 藏文作文抄袭检测原型系统
CN112784878A (zh) * 2020-12-31 2021-05-11 北京华图宏阳网络科技有限公司 一种中文议论文智能批改方法及系统

Similar Documents

Publication Publication Date Title
CN103544326A (zh) 基于译文特征与内容的中英文跨语种抄袭识别方法
CN105426539B (zh) 一种基于词典的lucene中文分词方法
Alzahrani et al. Fuzzy semantic-based string similarity for extrinsic plagiarism detection
CN106951530B (zh) 一种事件类型抽取方法和装置
CN109635297B (zh) 一种实体消歧方法、装置、计算机装置及计算机存储介质
Jang et al. Metaphor detection in discourse
Sinha Stepwise mining of multi-word expressions in Hindi
Ye et al. Unknown Chinese word extraction based on variety of overlapping strings
Rao et al. External & intrinsic plagiarism detection: VSM & discourse markers based approach
Sajid et al. Automatic topic modeling for single document short texts
Zhou et al. Exploiting multi-features to detect hedges and their scope in biomedical texts
Garrido et al. GEO-NASS: A semantic tagging experience from geographical data on the media
CN109300550B (zh) 医学数据关系挖掘方法及装置
Tran et al. Context-aware detection of sneaky vandalism on wikipedia across multiple languages
Bounhas et al. Arabic Domain Terminology Extraction: A Literature Review: (Short Paper)
Chen et al. A set space model for feature calculus
Mohamed et al. ArabRelat: Arabic Relation Extraction using Distant Supervision.
Magnolini A Survey on Paraphrase Recognition.
Gupta et al. Mapping Hindi-English text re-use document pairs
Deepamala et al. Polarity detection of Kannada documents
CN107783957B (zh) 本体创建方法和装置
Bouamor et al. Building specialized bilingual lexicons using word sense disambiguation
Vania et al. Automatic external plagiarism detection using passage similarities
Gómez Guinovart et al. Terminology extraction from English-Portuguese and English-Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns
Anguita et al. Automatic cross-language plagiarism detection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140129