CN106960003A - 抄袭检测中的基于机器学习的源检索的查询生成方法 - Google Patents

抄袭检测中的基于机器学习的源检索的查询生成方法 Download PDF

Info

Publication number
CN106960003A
CN106960003A CN201710080673.6A CN201710080673A CN106960003A CN 106960003 A CN106960003 A CN 106960003A CN 201710080673 A CN201710080673 A CN 201710080673A CN 106960003 A CN106960003 A CN 106960003A
Authority
CN
China
Prior art keywords
retrieval
source
inquiry
document
generation method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710080673.6A
Other languages
English (en)
Inventor
孔蕾蕾
齐浩亮
韩中元
韩咏
郝振元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heilongjiang Institute of Technology
Original Assignee
Heilongjiang Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heilongjiang Institute of Technology filed Critical Heilongjiang Institute of Technology
Priority to CN201710080673.6A priority Critical patent/CN106960003A/zh
Publication of CN106960003A publication Critical patent/CN106960003A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

抄袭检测中的基于机器学习的源检索的查询生成方法,涉及信息检索技术领域,具体涉及到信息检索技术中、查询的生成技术。本发明解决了现有技术的源检索技术中,采用基于启发式方法进行查询生成的方法存在的依赖专家经验、缺乏持续改进的能力的问题。本发明所述的方法为:针对一个可疑文档片段sk,采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序,获得一个排序列表;将所述排序列表的前面m个查询作为可疑文档片断sk的查询本发明克服了现有源检索技术领域中针对查询生成方法的固有研究思路,而是充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。

Description

抄袭检测中的基于机器学习的源检索的查询生成方法
技术领域
本发明涉及信息检索技术领域,具体涉及到信息检索技术中、查询的生成技术。
背景技术
随着计算机网络技术的发展和普及,网络资源被广泛的应用,进而推动了网络搜索引擎 的迅速发展。搜索引擎能够让人们充分利用网络资源进行学习、沟通和娱乐。网络资源和搜 索引擎技术的发展在给人们带来方便的同时,也带来了一些负面作用,例如:在教学、科研 领域中,有些人利用网络资源和搜索引擎进行抄袭,对于这种抄袭现象、社会中称之为学术 造假。随着这种学术造假事件的频频曝光,催生出一种鉴别这种“学术造假”的新技术,即: 抄袭检索技术。该抄袭检索技术的主要目的是针对一篇可能存在抄袭的文档(以下称:可疑 文档)在网络资源中进行检索,进而获得抄袭源的文档集合的技术。
近年来,抄袭检测已经吸引了学术界和工业领域的巨大关注(Potthast et al.,2012a),针 对抄袭及其自动检测的问题,研究者开展了大量的研究,开发了许多针对抄袭检测的软件。 在抄袭检测的研究领域中,最值得注意的是欧盟跨语言评估论坛(Cross-Language Evaluation Forum,CLEF)组织的抄袭检测算法的评测,该评测加速了抄袭检测算法及其相关研究的发 展。抄袭检测与其他两个原创性检查任务一起,被CLEF称为PAN(International Evaluation Competition on Uncovering Plagiarism,Authorship,andSocial Software Misuse,抄袭、作者身 份识别及社会性软件滥用国际评测)。
现有的抄袭检索技术的过程一般为三个步骤,参见图1所示:
第一步,抄袭源检索(以下简称“源检索”),识别出可疑文档dsusp的备选抄袭源文档集 合Dsrc
第二步,文本对齐,对于备选抄袭源文档集合Dsrc中的每篇文档dsrc∈Dsrc,将其与可 疑文档dsusp进行一一比对,识别出具体的备选抄袭片段。
第三步,后处理,即:对识别出的备选抄袭片段进行过滤,从而获得决策最终的抄袭文 本片段。
该种检索技术与原有信息检索技术的主要区别在于:一、在信息检索中,查询由用户提 出,并显式的提交给搜索引擎,而抄袭检测涉及的检索技术只提供待检测的可疑文档文档, 而不提供明确的查询,需要根据待检测文档提取需提交给搜索引擎的查询;二、检索结果一 般为多个查询检索结果的并集,并且该并集中的多篇文档要分别与可疑文档的具体片段对 应,即:要确定文档中某段文字的抄袭对象具体是哪篇文章。
从上述现有抄袭检索技术的基本过程能够获知,源检索是抄袭检测技术中的核心任务之 一。源检索,是指从可疑文档检索出它的抄袭源文档的过程。国际评测组织PAN@CLEF定 义了源检索的具体任务,并且构建了用于评价抄袭源检索算法的公共数据集。抄袭源检索的 定义为:给定一篇可疑文档和一个web搜索引擎,源检索的任务是检索出可疑文档所复用的 抄袭源文档的集合。即:源检索需要检索的范围是web规模的文档集合,就意味着源检索需 要将可疑文档片段与web规模的文档集合要做穷尽的一一比较来获得对应的抄袭源,这种对 比的工作量是相当大的。现有的源检索的基本过程,参见图2所示:
查询的生成,首先,将可疑文档dsusp的文本按照现有文本划分规则划分为若干文本片段; 所述现有文本划分规则采用现有的文本检索技术中常用的文本划分方法即可,例如:可以是 按照句子进行划分、按照段落进行划分等等;然后,从一个给定的可疑文本片段中提取若干 词,由所述的若干词组成用于源检索的查询,完成查询的生成;
检索,根据获得的查询的集合,根据源检索算法安排相应查询提交给搜索引擎的顺序, 并下载搜索引擎的检索结果,既:文档;
下载过滤,应用过滤算法过滤检索到的所有文档,获得需要进一步与可疑文档对齐的文 档,然后下载这些文档,这些文档的集合就是备选抄袭源文档集合Dsrc
从上述源检索的基本过程能够确定,源检索的过程主要包含两个主要的部分:查询的生 成和下载过滤。显然,“查询”的质量将直接影响源检索的整体性能,因此,查询的生成被 认为是源检索算法中最重要的部分之一,即:查询的质量越好,检索到与可疑文档匹配的抄 袭源文档的机会越多、准确率也越高。
鉴于上述原因,近年来,研究者针对可疑文档的查询的生成开展了大量研究工作。总结 起来,现有方法主要基于启发式方法实现的。例如:使用文档级或段落级的高词频词(term-frequency,TF)做为查询(Prakash and Saha,2014)、使用具有高词频-逆文档频率的词 (term frequency-inverse document frequency,TFIDF)做为查询(Kong et al.,2012;Elizalde, 2013;Suchomel et al.,2012)、使用命名实体做为查询(Elizalde,2013)、使用文档级的稀有词 做为查询(Haggag and El-Beltagy,2013)或者仅使用名词、动词和形容词做为查询 (Jayapal,2012;Williams et al.,2013;Williams et al.,2014a;Zubarev and Sochenkov,2014)等。 虽然这些启发式方法在源检索中达到了一定的性能,比如在PAN@CLEF2013中获得了第一 名的Williams方法,在fscore上取得了0.47的结果(Potthast et al.,2013a)。然而,启发式 方法缺乏理论支持,很难确定启发式方法所找到的解决方案是否是最优方案。这使得基于启 发式的方法缺乏持续改进的能力,针对源检索性能的改进只能通过不断的修改原方法的参 数和尝试新的启发式方法获得。
发明内容
为了解决现有技术的源检索技术中,采用基于启发式方法进行查询生成的方法存在的缺 乏持续改进的能力的问题,本发明提供了一种抄袭检测中的基于机器学习的源检索的查询生 成方法。
本发明所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法为:
针对一个可疑文档片段sk,采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序,获得一个排序列表;
将所述排序列表的前面m个查询作为可疑文档片断sk的查询
所述备选查询集合中的备选查询,是采用n种现有源检索查询的 生成方法针对可疑文档片断sk获得的,其中是采用现有查询生成方法1在可疑文档片断 sk上获得的备选查询。
所述现有查询生成方法为TF、TFIDF、EW,BM25或者Williams等现有任何一种查询生成方法。
上述将备选查询集合内的所有备选查询进行排序的原则是依据每个查询对应的源检索 的评价指标的从高到低进行排序。所述排序是采用机器学习方法实现的。
上述机器学习方法中的训练用例T,是通过源检索的现有数据构建的,具体方法为:
所述训练用例T由针对源检索的现有数据中的可疑文档dsusp中所有片断的训练用例组成 的数据集合,其中可疑文档dsusp中第k个片段sk对应的训练用例为:
其中,表示可疑文档片段dsusp中的第k个片段sk中的第i个备选查询,i为正整数:
函数表示现有查询生成方法i,
为备选查询的质量标签,它表示以备选查询为查询执行源检索时的评 价指标,
标签通过:获得,其中eval()是评价源检索 性能的函数,sr()为检索函数,为使用备选查询作为查询、通过检索函数sr()获 得的返回检索的结果的文档集合;
将训练用例中的所有数据依据标签组成多个偏序关系,形成针对第k个片段 sk的训练用例。
在现有技术中,在同样的文本片段上,采用不同方法生成的查询可以获得不同的源检索 结果,但确没有一种方法生成的查询能在所有的文本片段上始终优于其他方法。
针对不同查询对源检索性能的影响,在一些随机选择的数据上进行了如下分析,参见图 3所示:
首先将可疑文档拆分成片段,每个可疑文档片段由5个句子组成。然后,在每个可疑文 档片段上,分别使用5个查询生成方法,TF(Prakash and Saha,2014),TFIDF(Kong etal., 2012;Elizalde,2013;Suchomel et al.,2012),EW(Gillam,2013),BM25(Kong etal., 2012),Williams(Williams et al.,2013;2014a;2014b),提取出5组不同的查询。分别应用这 5组不同的查询执行源检索,以F-score为评价指标评价不同查询的源检索性能,在10个可 疑文本片段上,则5个方法所获得的F-score参见图3所示。
根据图3所示能够确定,每种查询生成方法在不同的文本片段上都可能取得最高的 F-score。例如,在可疑文档片段1上,TF方法获得了最高的F-score,而在可疑文档片段2和8上,TFIDF方法获得了最高的F-score,在可疑文档片段4,7,9上,Williams方法获得了最高的F-score,在可疑文档片段4上,Williams和BM25方法均获得了最高的F-score。
这种现象在源检索中广泛存在。采用上述5个方法在3500段可疑文本片段上的统计获 得最高的F-score的次数,统计结果为:
Method TF TFIDF EW BM25 Williams
最优次数 1260 1445 1285 1363 1391
上述表格中获得最高的F-score的次数统计的总次数之和不为3500,其原因在于,在同 样的文本片段上,不同方法在同一文本片段上可能生成了相同的查询,或者检索到了同样的 源文档,或者检索到的真正的抄袭源文档的数目相同,因此获得了同样的F-score,因为在 一个可疑文本片段上取得同样F-score的方法被分别加入到其各自最高次数统计的数据中, 故统计数字的和不为3500。
重新审视图3的例子。在可疑文档片段1上,TF方法选择的查询获得了最佳的F-score, 但是在可疑文档片段2上,TFIDF方法获得了最佳的F-score,EW方法获得的F-score优于 BM25方法和Williams方法生成的查询,并且这三个方法的F-score均优于其他两个方法。 因此,在不同的文本片段上,每个基线方法都有机会获得最好的源检索性能。另一方面,不 同查询在同一文档片段上可以获得不同的源检索性能。这使得在一个可疑文档片段上,可以 观察到一些查询比其他查询的源检索性能更好,基于此,可以获得不同查询关于源检索性能 F-score的一个排序。本发明用符号“>>”定义这种排序偏好,则可疑文档片段1上的排序信 息可以表示为:
此处,表示该查询是经方法i在可疑文档片段s1上提取出来的。
显然,在一个给定的可疑文档片段si上,当执行源检索的时候,哪一组查询可能获得最 佳的源检索性能呢?对于片段1来说,是最好的选择,在片段1上,TF方法可以获得最高的F-score;对于片段2来说,是最好的选择,在片段2上,TFIDF方法可以 获得最高的F-score;但是对于可疑文本片段3来说,EW方法和TFIDF方法提取的查询都 是该文本片段最好的查询选择,因为它们获得了同样最高的Fscore值。但是,在这个文本片 段上,如果我们选择了TF方法生成的查询,则Fscore将低于0.2。可见,不同查询在同一 文档片段上源检索的性能差异较大。因此,利用不同查询在同一文本片段上的性能差异,可 以获得具有偏序关系的不同查询依据源检索评价指标的偏序序对,源检索查询生成的目标是 获得每个文本片段上最好的那些查询。本发明将源检索的查询生成问题形式化为一个排序问题,算法的目标是根据源检索的评价指标,在每个文本片段上对不同的查询排序,然后选择排序在前面的那些查询。
本发明克服了现有源检索技术领域中针对查询生成方法的固有研究思路,而是充分的 利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特点。在一个可疑文档 片段上,不同的查询生成方法产生了不同的查询,应用这些查询执行源检索产生了不同的源 检索性能。本发明的目标是利用排序学习方法选择那些更可能获得好的源检索性能的查询, 这为抄袭检测的源检索提出了一个框架。对于一个新的查询生成方法,应用本发明提出的方 法,可以很容易的将新的查询生成方法获得的查询融合到该框架中,用于生成备选的查询。
值得注意的是,因为文档的关键词提取任务和源检索任务的目标不同,文档的关键词并 不一定适用于直接作为源检索的查询词。源检索的查询生成的目标是应用生成的查询词检索 抄袭源,而文档的关键词提取任务的目标是找到精确而简洁的表示文档内容的词。正如我们 所知,抄袭通常通过释义和总结等手段来改变文本的外表(Alzahrani etal.,2012),源文档 中的词通常被抄袭者刻意的替换和改变。因此,代表文档片段主题的关键词对于源检索而言 并不一定是好的查询词。因此,本发明并没有采用关键词作为源检索的查询词。
使用局部排序的方法优化源检索在段落级上的性能是本发明主要采取的策略。最终可疑 文档的抄袭源是每个段落上查询检索结果的并集。对于一篇可疑文档来说,以评价指标为例, 每个文档片段上对F-score的局部优化并不意味着全篇可疑文档F-score的优化。然而,由于 不能获取抄袭发生的具体片段,在每个片段上检索抄袭源是源检索必要步骤。在这个条件下, 目标被转化为获得每个片段上最好的F-score。在发明中,上述过程通过使用排序学习方法 在每个文本片段上选择最好的查询实现F-score的优化。
查询生成是抄袭检测源检索的核心任务。当前研究主要使用了基于启发式的方法。正如 我们所知,与机器学习方法相比,启发式方法缺乏持续改进的能力。然而,机器学习在源检 索的查询生成中尚未获得应用。为解决这一问题,本发明将源检索的查询生成形式化到一个 排序学习框架下,使用基于序对的排序学习来解决源检索的查询生成问题,同时,本发明也 提出了源检索训练用例的构造方法。
附图说明
图1是现有抄袭检索技术的过程示意图。
图2是现有源检索算法的过程示意图。
图3是不同查询在同一文本片段上获得不同的源检索性能,图中表示的一共有10个可 疑文本片段分别采用五种查询生成方法获得的查询应用于源检索中对应的原检索性能的对 比。图中纵坐标表示采用评价指标F-score获得的评价结果,横坐标表示可疑文本片段 (Suspicious Document Segments);图中的“┼”表示采用TF查询生成方法获得的查询应用 于源检索中对应的源检索性能,“▉”表示采用TFIDF查询生成方法获得的查询应用于源检 索中对应的源检索性能,“▲”表示采用EW查询生成方法获得的查询应用于源检索中对应 的源检索性能,“◇”表示采用BM25查询生成方法获得的查询应用于源检索中对应的源检 索性能,“*”表示采用Williams查询生成方法获得的查询应用于源检索中对应的源检索性 能。
图4是本发明所述的基于机器学习的抄袭检测中源检索的查询的生成方法示意图。
图5是抄袭检测检索训练用例在一个文本片断sk上的构建过程。
具体实施方式
具体实施方式一、本实施方式所述的一种抄袭检测中的基于机器学习的源检索的查询 生成方法为:
针对一个可疑文档片段sk,采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序,获得一个排序列表;
将所述排序列表的前面m个查询作为可疑文档片断sk的查询
本实施方式中,所述备选查询集合的备选查询,是采用现有源检 索查询生成方法在可疑文档片断sk中提取的,其中是采用现有查询生成方法1在可疑文 档片断sk上提取出来的备选查询。
本实施方式中所述的现有源检索查询生成方法是现有已知的查询生成方法,例如:TF、 TFIDF、使用命名实体做查询、使用文档级的稀有词做查询或者仅使用名词、动词和形容词 做查询。
具体实施方式二、本实施方式是对具体实施方式一所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,将该集合内的所有备选查询进 行排序的原则是依据每个查询对应的源检索的评价指标的从高到低进行排序。
所述源检索的评价指标,是指现有对源检索的检索结果进行评价的评价方法获得的指 标,表示源检索的质量的好坏。本实施方式中,限定对被选查询的排序依据是源检索的评价 指标,即:选择评价指标相对比较高的查询方法获得的查询作为最终的查询,进而提高源检 索的质量。
具体实施方式三、本实施方式是对具体实施方式一所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,所述排序是采用机器学习方法 实现的。
具体实施方式四、本实施方式是对具体实施方式三所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,所述机器学习方法中的训练用 例T,是通过源检索的现有数据构建的,具体方法为:
所述训练用例T由针对源检索的现有数据中的可疑文档dsusp中所有片断的训练用例组成 的数据集合,其中可疑文档dsusp中第k个片段sk对应的训练用例为:
其中,表示可疑文档片段dsusp中的第k个片段sk中的第i个备选查询,i为正整数:
函数表示现有查询生成方法i,
为备选查询的质量标签,它表示以备选查询为查询执行源检索时的评 价指标,
标签通过:获得,其中eval()是评价源检索 性能的函数,sr()为检索函数,为使用备选查询作为查询、通过检索函数sr()获 得的返回检索的结果的文档集合;
将训练用例中的所有数据依据标签组成多个偏序关系,形成针对第k个片段 sk的训练用例。
具体实施例:下面通过举例方式进一步说明本实施方式所述的训练用例T的构建过程。
参见图5所示,可疑文档片段s2为:
In what follows,we give a detailed overview of Barack Obama'sFamily.We shed light on himself,his immediate and extended family,includingmaternal and paternal relations.Moreover, we give insights into the relationsof Michelle Obama,Barack Obama's wife,as well as some distant relations ofboth.Barack Obama Barack Hussein Obama II is the 44th and current Presidentof the United States.He is the first African American to hold theoffice.Obama was the junior United States Senator from Illinois from2005until he resigned following his election to the presidency.
首先,选择现有的五种查询生成方法TF、TFIDF、EW、BM25与Williams方法,分别 针对片断s2获得五个备选查询的方法可以描述为:
采用TF方法获得的备选查询:
采用TFIDF方法获得的备选查询:
采用EW方法获得的备选查询:
采用BM25方法获得的备选查询:
采用Williams方法获得的备选查询:
表示采用第i种查询生成方法获得查询的函数。
上述每组备选查询中,分别计算片段s2中每个词的TF、TFIDF、EW、BM25与Williams值,然后按分值降序排序,将排序在前10的词组成一个查询,获得了最终的五个备选查询:
设检索函数sr为ChatNoir(Potthast et al.,2012b)提供的抄袭源检索函数,应用评价指 标F-score(Potthast et al.,2013a)作为评价函数eval,得到上述五个备选查询对应的评价结 果:
则针对片断s2上的一组训练用例表示如下:
使用上面的训练用例,则可以获得片断s2上的7个偏序关系:
上述具有偏序关系的查询将作为训练用例提交给学习算法学习排序函数以得到s2上的 备选查询的排序列表。
具体实施方式五、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,所述现有查询生成方法为TF、 TFIDF、EW,BM25或者Williams。
具体实施方式六、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,所述评价源检索性能的函数 eval()为现有针对源检索的性能的评价系统的函数。
具体实施方式七、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,所述评价源检索性能函数 eval()为源检索的评价指标函数F-score(F-score是正确抄袭源文档的函数)。
具体实施方式八、本实施方式是对具体实施方式五所述的一种抄袭检测中的基于机器 学习的源检索的查询生成方法的进一步限定,本实施方式中,采用机器学习方法实现排序方 法中,基于训练用例T实现备选查询排序的学习算法为:
将训练用例表示为其中是备选查询的特征向量,表示备选查询与第k个文档片段sk、以及第j个可疑文档dj之间的匹配关系,
给出一个独立同分布的训练用例集合T,该训练数据集包含n个可疑文档片段sk,设sk上查询的目标排序为表示根据每个查询的标签获得的查询的实际排序:
进一步,问题被转化为在一个排序函数的集合F中选择一个排序函数f,使得在排序函 数f的作用下,sk上的排序最大可能的近似于其实际排序考虑下面的线性排序函 数:
其中是通过学习调节的权重向量,的特征向量。
算法需要在包含n个可疑文档片段的训练数据集T上找到使下面的不等式数目成立最多 的权重向量
直接生成上面的结果被证明是NP难问题(Hoffgen et al.,1995),通过引入一个非负的 松弛变量使得上述公式转换成:
进一步,将上述等式被重写,获得重写后的等式:
通过上述重写后获得的等式,排序问题等价于在序对向量上的分类问题。基于 序对向量,定义u+和u-分别为在训练数据集合上为学习参数的所需的正例和反例,如下所 示:
正例:
反例:
考虑训练数据的规模(仅有几千个有效的序对),采用典型的适用于小样本的学习算法 SVM(Cortes and Vapnik,1995)最大化正例和反例的边界,学习排序函数,则重写后的等式 通过在序对向量上最小化等式实现,
其中,c是表明对训练错误的惩罚系数,我们使用Ranking SVM(Joachims,2002)学习 优化的
上述提及的特征向量在表达同一个训练用例时有12个表达方式,分别是:
其中,km表示中的一个词,C表示文档集合,|dj|表示文档dj中词项的数目,N是文档集合中包含的所有文档数,tf(km,dj)表示词km在文档dj中出现的次数,即词频(TermFrequency),idf(km)表示词km的逆文档频率,其定义如下:
其中nk是文档集合C中的至少出现了一次词km的文档的数目,avdl和avsl是文档dj和 sk中平均的词项数,k1和b是两个常量参数,设置为k1=2.0,b=0.75。
上述12个特征向量是通过下述方法获取的:
对于来说,除了可疑文档dj和可疑文档片段sk,没有任何其他可以利用的信息。 参考标准的文档检索特征(Cao et al.,2006;Nallapati,2004),设计了仅由一个查询和一个文 档决定的特征。设是备选查询,sk所来源的可疑文档片段,dj是sk所属的文档。 将视作查询,sk与dj分别视作文档,得到了12个用于表达一个训练用例的特征向量 在一些特征值上应用了log来缩减大数的影响。
下面,通过实验验证本发明所述的方法获得的技术效果:
本实验所采用的数据集:
采用基于Webis2012文本复用数据集Webis-TRC-2012(Potthast et al.,2013b)作为本实 验的数据集,文献(Potthast et al.,2013b)详细描述了该数据集的构建和结构。在PAN2013 训练数据和测试数据上,对本发明提出的方法做出了评价。这两个数据集均来自 Webis-TRC-2012(Potthast et al.,2013a;2014),分别包含了40和58个可疑文档。数据集的 统计信息如下表所示。
实验数据集统计信息
根据PAN的设置,本实验选择抄袭源文档集合ClueWeb 09数据集。该集合包含 1,040,809,705个web页面,由10种语言组成,其中一半是英语((Potthast et al.,2013a)。ClueWeb09是每年TREC评估会议上被广泛接受的评估检索模型的数据集。
本实验所采用的性能指标为:
给定一个可疑文档dsusp,dsusp包含了抄袭的文本片段,这些文本片段来源于源文档集合 Dsrc中的文档。设源检索算法的检索结果的文档集合为Dret,PAN用精确率、召回率和F-score 来评价源检索算法。
由于Dsrc来源于ClueWeb数据集,ClueWeb包含了部分相同或相似的web文档,PAN将这些文档称为“重复文档”,因此评价源检索算法必须考虑这些相同或相近的web文档的影响。对于任一dret∈Dret,评价指标计算方法使用一个重复文档检测器来判断dret是否是一个正确的检测结果(Potthast et al.,2013a;2014),即,是否存在一个dsusp的真正的抄袭源dsrc∈Dsrc与dret为重复文档。对于文本对dsrc和dsusp,如果下面的条件满足,则可将dret视为 一个正确的检测结果:(1)dret=dsrc,(2)dret和dsrc的3-gram的Jaccard相似度大于0.8,或者 5-gram的Jaccard相似度大于0.5,或者8-gram的Jaccard相似度大于0,或者(3)已知dsusp的片段是从dsrc复用来的,这些片段包含在dret中。文献(Hagen et al.,2015)详细描述了上 述定义。本发明中,如果文档d1是d2的正确的检测结果,则记为positiveDet(d1,d2)。定义:
基于上述描述,PAN将源检索的精确率Precision定义为:
召回率Recall定义为:
则性能指标F-score为:作评价查询的质量函数eval。
为了评价源检索结果Dret的性能,PAN计算源检索算法提交给搜索引擎的查询数和请 求的下载数以及当第一个抄袭源被检索到时,已向搜索引擎提交的查询数和请求的下载数。 这几个评价指标被PAN标记为Total Workload of Queries and Downloads,Workload to the First Detection of Queries and Downloads。从源检索代价的角度看,这些性能指标的值越小越 好。
具体实验设置:
本实验选择了Williams方法(Williams et al.,2014b)作为强基线方法与本发明提出的基 于机器学习的查询生成方法做对比。Williams方法是PAN抄袭检测评测中最成功的源检索 方法,在PAN 2013和PAN 2014的评测中,均获得了最高的F-score(Potthast etal.,2013a; 2014)。
Williams方法假设动词、名词和形容词更可能是查询词,因此,他们严格限制查询仅由 动词、名词和形容词组成。在他们的方法中,可疑文档首先被分成文本片段,每个文本片段 由五个句子组成,然后使用斯坦福大学开发的词性标注工具Stanford POS Tagger(Toutanova et al.,2003)分析每个文本片段中词的词性,仅将动词、名词和形容词保留。然后,每个文 本片段上提取了三个查询,每个查询依次由所获得的动词、名词和形容词组成。实验中,将 该方法标注为Williams。
同时,我们也选择了TFIDF方法作为基线方法,该方法在源检索中获得了广泛的应用 (Potthast et al.,2013a;2014)。实验中将其标注为TFIDF。
TFIDF方法根据文本片段中每个词的词频(term frequency,TF)和逆文档频率(inverse document frequency,IDF)的积来评价每个词的重要性。为了比较的目的,除了查询生成外, 其他源检索步骤均沿用了Williams的方法,也选择了五个句子一个片段。与Williams方法 不同,TFIDF方法依据词的tf·idf值生成查询来代替Williams方法使用名词、动词和形容词 获得查询。参照PAN评测中使用tf·idf方法的算法设置(Potthast etal.,2013a;2014),对于 每个段落,移除了停用词,然后依据词的tf·idf值排序段落中的每个词。实验中,词的逆文 档频率使用了华尔街日报数据集(Wall Street Journal)。参照Williams方法,前三十个tf·idf 值最高的词被选出构成了三个查询,每个查询包含十个词。尽管TFIDF是个非常简单的查 询生成方法,但是,实验中我们发现在源检索中TFIDF方法的性能甚至好于Williams方法。 考虑到该方法的代表性和良好的性能,实验中也选择了TFIDF作为基线方法。
实验中源检索的过程:
除了查询生成外,本发明和基线方法的其他源检索过程都参照了Williams方法(Williams et al.,2013;2014b)。
查询生成:
实验中选择了Williams和TFIDF方法在每个文本片段上各获得三组备选查询。为了排 序备选查询,我们使用Ranking SVM训练了一个排序函数。训练过程中仅对参数c(训练错 误惩罚系数)。应用学到的排序函数,对每一个文档片段上的六组备选查询排序。与基线方 法一致,在每个文本片段上选择排序在前面的三个查询作为该片段的查询。
检索:
实验使用了ChatNoir(PAN提供及建议的搜索引擎)作为检索抄袭源的搜索引擎(Potthast et al.,2012b)。ChatNoir是索引了ClueWeb09的唯一公共可用的搜索引擎(Potthast et al.,2012b),它的排序算法基于经典的BM25F并且融合了PageRank和SpamRank排序方 法。应用本发明的查询生成方法获得的查询被依据提取顺序提交给ChatNoir。对于每个查询, 本发明方法和基线方法均保留了检索结果的前三个,并将这三个检索结果合并到最终该篇可 疑文档的源检索结果集合中。
下载过滤:
根据Williams方法(Williams et al.,2013;2014b),在训练数据上使用LDA(Linear Discriminant Analysis)训练了一个分类器来过滤检索结果。分类器构建和特征描述详见文献 (Williams et al.,2013)和(Williams et al.,2014b)。
参数训练:
实验使用二折交叉校验法来训练参数。PAN 2013Training Corpus和PAN2013Testing Corpus 2交叉被用作训练和测试数据。这样的实验设置的附加收益是本发明的实验结果可以 直接与PAN源检索评测的实验结果比较。本发明的方法被标注为QGML(Query Generation based on Machine Learning)。
当训练排序函数的时候,选择了源检索的主要评价指标F-score作为评价函数eval来 标注每个查询Q(sk) (i)的质量。
实验结果与分析:
实验结果分两类报告:无下载过滤算法作用的结果和应用下载过滤算法的结果。无下 载过滤的结果用于验证应用本发明提出的查询生成方法改善查询的质量,在无附加算法作用 在源检索结果的条件下,本发明能否提升源检索的性能。应用下载过滤算法的结果用于检验 源检索整体性能是否可以通过本发明提出的查询生成方法获得提升。
在下面的实验结果中,我们报告了本发明和基线方法的F-score值。同时报告了Precision, Recall,Total Workload of Queries and Downloads,以及Workload to theFirst Detection of Queries and Downloads的结果。加重的数值表示每类指标上最好的结果,括号中的数字表示 QGML较基线方法的相对提升幅度,*表示使用单边t校验,当p<0.05时实验结果具有统 计有效性。
第一类报告、无下载过滤算法作用的结果报告:
表1和表2展示了无下载过滤时,本发明方法QGML和基线方法的对比结果。
表1、无下载过滤时在PAN 2013Testing Corpus 2上的源检索结果
表2、无下载过滤时在PAN 2013Training Corpus上的源检索结果
如表4和表5所示,在两个数据集上,与基线方法相比,QGML在源检索的主要评价指标F-score上的性能均显著好于基线方法,并且在评价指标Total Workload ofDownloads和 the Workload to First Detection of Queries and Downloads上几乎与基线方法持平甚至低于基 线方法。以PAN 2013Testing Corpus 2上的实验结果为例,QGML在评价指标F-score上较 Williams方法和TFIDF分别相对提升45.95%和30.38%,相应的精确率Precision分别提升 58.33%和34.53%。然而,相对于基线方法Williams,QGML的召回率仅下降了10%,但 是较基线方法TFIDF,QGML的召回率提高了11.82%。这些数字展示了基于机器学习的查 询生成方法比基于启发式的基线方法更有效。
上面两个实验的目的是证明查询的改善是否能直接提升源检索性能,因此在检索结果 上,我们没有应用任何附加的下载过滤算法。无下载过滤意味着我们没有利用任何附加的信 息来提升源检索的性能,源检索的性能直接由查询的质量决定。表1和表2的结果展示了, 应用机器学习方法能够有效的改善源检索生成查询的质量,从而带来源检索性能的提升。
在上面两个实验中,我们分别从PAN 2013Training Corpus的40个可疑文档中提取了 299.18个查询,从PAN 2013Testing Corpus 2的58个文档中平均提取了343.36查询来构造 训练用例。有效的偏好序对数仅有2403和3016个。在如此小规模的训练数据集上,实验结 果展示了QGML能够学到一个有效的排序函数来从备选查询中生成更好的查询来改善源检 索的质量。
注意到表1和表2的源检索性能指标F-score和Precision均低于PAN评测汇报的结果, 其主要原因在于没有对检索结果进行任何过滤,这使得检索到的文档的集合Dret包含了全部 前n个检索结果,即|Dret|的值过高,从而导致了较低的Precision,进一步导致了过低的F-score。 实验展示了当对检索结果进行过滤后,Precision将获得显著的提高。
第一类报告、应用下载过滤的结果报告
表3和表4展示了当应用下载过滤算法时,源检索的结果。注意,实验中,所有的方法 均使用了Williams的下载过滤方法。
表3、应用下载过滤时在PAN 2013Testing Corpus 2上的源检索结果
表4应用下载过滤时在PAN 2013Training Corpus上的源检索结果
如表3和表4所示,下载过滤会过滤掉许多噪声文档,较大的提高了精确率,从而提升 了F-score的值。在同样的下载过滤算法对源检索结果过滤的情况下,QGML具有统计有效 性(p<0.05)的优于基线方法。在表3中,GQML的F-score值较Williams方法相对提高了7.12%,较TFIDF方法相对提高了6.55%。在表4中,GQML的F-score值较Williams方法 相对提高了8.39%,较TFIDF方法相对提高了6.24%。从结果中可以看出本发明提出的基于 机器学习的查询生成方法获得了比基线方法更好的性能,融合了本发明提出的查询生成方法将提升源检索的整体性能。
本发明充分的利用了不同源检索方法在同一可疑文档片段上具有不同源检索性能的特 点。在一个可疑文档片段上,不同的查询生成方法产生了不同的查询,应用这些查询执行源 检索产生了不同的源检索性能。本发明的目标是利用排序学习方法选择那些更可能获得好的 源检索性能的查询,这为抄袭检测的源检索提出了一个框架。对于一个新的查询生成方法, 应用本发明提出的方法,可以很容易的将新的查询生成方法获得的查询融合到该框架中,用 于生成备选的查询。
值得注意的是,因为文档的关键词提取任务和源检索任务的目标不同,文档的关键词并 不一定适用于直接作为源检索的查询词。源检索的查询生成的目标是应用生成的查询词检索 抄袭源,而文档的关键词提取任务的目标是找到精确而简洁的表示文档内容的词。正如我们 所知,抄袭通常通过释义和总结等手段来改变文本的外表(Alzahrani etal.,2012),源文档 中的词通常被抄袭者刻意的替换和改变。因此,代表文档片段主题的关键词对于源检索而言 并不一定是好的查询词。因此,本发明并没有采用关键词作为源检索的查询词。
使用局部排序的方法优化源检索在段落级上的性能是本发明主要采取的策略。最终可疑 文档的抄袭源是每个段落上查询检索结果的并集。对于一篇可疑文档来说,以评价指标为例, 每个文档片段上对F-score的局部优化并不意味着全篇可疑文档F-score的优化。然而,由于 不能获取抄袭发生的具体片段,在每个片段上检索抄袭源是源检索必要步骤。在这个条件下, 目标被转化为获得每个片段上最好的F-score。在发明中,上述过程通过使用排序学习方法 在每个文本片段上选择最好的查询实现F-score的优化。
查询生成是抄袭检测源检索的核心任务。当前研究主要使用了基于启发式的方法。正如 我们所知,与机器学习方法相比,启发式方法缺乏持续改进的能力。然而,机器学习在源检 索的查询生成中尚未获得应用。为解决这一问题,本发明将源检索的查询生成形式化到一个 排序学习框架下,使用基于序对的排序学习来解决源检索的查询生成问题,同时,本发明也 提出了源检索训练用例的构造方法。
在PAN数据集上,实验结果展示了在检索代价与基线方法相似甚至更低的前提下,本发 明显著的优于先进的基线方法。

Claims (10)

1.一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述方法为:
针对一个可疑文档片段sk,采用现有n种查询生成方法获得一组备选查询集合将该集合内的所有备选查询进行排序,获得一个排序列表;
将所述排序列表的前面m个查询作为可疑文档片断sk的查询
2.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述备选查询集合中的备选查询,是采用n种现有源检索查询的生成方法针对可疑文档片断sk获得的,其中是采用现有查询生成方法1在可疑文档片断sk上获得的备选查询。
3.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述现有查询生成方法为TF、TFIDF、EW,BM25或者Williams。
4.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,将备选查询集合内的所有备选查询进行排序的原则是依据每个查询对应的源检索的评价指标的从高到低进行排序。
5.根据权利要求1所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述排序是采用机器学习方法实现的。
6.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述机器学习方法中的训练用例T,是通过源检索的现有数据构建的,具体方法为:
所述训练用例T由针对源检索的现有数据中的可疑文档dsusp中所有片断的训练用例组成的数据集合,其中可疑文档dsusp中第k个片段sk对应的训练用例为:
T ( s k ) = { t ( s k ) ( i ) | t ( s k ) ( i ) = ( y ( s k ) ( i ) , Q ( s k ) ( i ) ) }
其中,表示可疑文档片段dsusp中的第k个片段sk中的第i个备选查询,i为正整数:
函数表示现有查询生成方法i,
为备选查询的质量标签,它表示以备选查询为查询执行源检索时的评价指标,
标签通过:获得,其中eval()是评价源检索性能的函数,sr()为检索函数,为使用备选查询作为查询、通过检索函数sr()获得的返回检索的结果的文档集合;
将训练用例中的所有数据依据标签组成多个偏序关系,形成针对第k个片段sk的训练用例。
7.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述评价源检索性能的函数eval()为现有针对源检索的性能的评价系统的函数。
8.根据权利要求5所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,所述评价源检索性能函数eval()为源检索的评价指标函数F-score。
9.根据权利要求6所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,采用机器学习方法实现排序方法中,基于训练用T例实现备选查询排序的学习算法:
将训练用例表示为其中是备选查询的特征向量,表示备选查询与第k个文档片段sk、以及第j个可疑文档dj之间的匹配关系,
训练用例集合T包含n个可疑文档片段sk,基于可疑文档片段sk上查询的目标排序为表示根据每个查询的标签获得的查询的实际排序:
进一步,问题被转化为在一个排序函数的集合F中选择一个排序函数f,使得在排序函数f的作用下,sk上的排序最大可能的近似于其实际排序考虑下面的线性排序函数:
( Q ( s k ) ( i ) , Q ( s k ) ( j ) ) &Element; w &RightArrow; ( s k ) &DoubleLeftRightArrow; w &RightArrow; x ( s k ) ( i ) > w &RightArrow; x ( s k ) ( j ) ,
其中是通过学习调节的权重向量,的特征向量,
在包含n个可疑文档片段的训练数据集T上找到使下面的不等式数目成立最多的权重向量
&ForAll; ( Q ( s 1 ) ( i ) , Q ( s 1 ) ( j ) ) &Element; ( s 1 ) * : w &RightArrow; ( s 1 ) &DoubleLeftRightArrow; w &RightArrow; x ( s 1 ) ( i ) > w &RightArrow; x ( s 1 ) ( j ) ,
......,
&ForAll; ( Q ( s n ) ( i ) , Q ( s n ) ( j ) ) &Element; ( s n ) * : w &RightArrow; ( s n ) &DoubleLeftRightArrow; w &RightArrow; x ( s n ) ( i ) > w &RightArrow; x ( s n ) ( j ) ,
直接生成上面的结果被证明是NP难问题,通过引入一个非负的松弛变量使得上述公式转换成:
&ForAll; ( Q ( s 1 ) ( i ) , Q ( s 1 ) ( j ) ) &Element; ( s 1 ) * : w &RightArrow; ( s 1 ) &DoubleLeftRightArrow; w &RightArrow; x ( s 1 ) ( i ) > w &RightArrow; x ( s 1 ) ( j ) + 1 - &xi; i , j , 1 ,
......,
&ForAll; ( Q ( s n ) ( i ) , Q ( s n ) ( j ) ) &Element; ( s n ) * : w &RightArrow; ( s n ) &DoubleLeftRightArrow; w &RightArrow; x ( s n ) ( i ) > w &RightArrow; x ( s n ) ( j ) + 1 - &xi; i , j , n ,
进一步,将上述等式被重写,获得重写后的等式:
w &RightArrow; x ( s 1 ) ( i ) - w &RightArrow; x ( s 1 ) ( j ) = w &RightArrow; ( x ( s 1 ) ( i ) - x ( s 1 ) ( j ) ) > 1 - &xi; i , j , 1 ,
......,
w &RightArrow; x ( s n ) ( i ) - w &RightArrow; x ( s n ) ( j ) = w &RightArrow; ( x ( s n ) ( i ) - x ( s n ) ( j ) ) > 1 - &xi; i , j , n ,
通过上述重写后获得的等式,排序问题等价于在序对向量上的分类问题,基于序对向量,定义u+和u-分别为在训练数据集合上为学习参数的所需的正例和反例,如下所示:
正例:
反例:
采用典型的适用于小样本的学习算法SVM最大化正例和反例的边界,学习排序函数,则重写后的等式通过在序对向量上最小化等式实现,
其中,c是表明对训练错误的惩罚系数,使用Ranking SVM学习优化的
10.根据权利要求9所述的一种抄袭检测中的基于机器学习的源检索的查询生成方法,其特征在于,特征向量用于表达同一个训练用例有12个特征向量:
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , s k ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , d j ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( | C | t f ( k m , C ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( I D F ( k m ) ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , s k ) | s k | + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , d j ) | d j | + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , s k ) | s k | &CenterDot; | C | t f ( k m , C ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , d j ) | d j | &CenterDot; || C || t f ( k m , C ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , s k ) | s k | &CenterDot; i d f ( k m ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) l o g ( t f ( k m , d j ) | d j | &CenterDot; i d f ( k m ) + 1 ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) t f ( k m , s k ) &CenterDot; i d f ( k m ) &CenterDot; ( k 1 + 1 ) t f ( k m , s k ) + k 1 &CenterDot; ( 1 - b + b &CenterDot; L E N ( s k ) a v s l ) ,
&Sigma; k m &Element; Q ( s k ) ( i ) t f ( k m , d j ) &CenterDot; i d f ( k m ) &CenterDot; ( k 1 + 1 ) t f ( k m , d j ) + k 1 &CenterDot; ( 1 - b + b &CenterDot; L E N ( d j ) a v d l ) ,
其中,km表示中的一个词,C表示文档集合,|dj|表示文档dj中词项的数目,N是文档集合中包含的所有文档数,tf(km,dj)表示词km在文档dj中出现的次数,即词频(TermFrequency),idf(km)表示词km的逆文档频率,其定义如下:
IDF k = log 2 ( N n k ) + 1
其中nk是文档集合C中的至少出现了一次词km的文档的数目,avdl和avsl是文档dj和sk中平均的词项数,k1和b是两个常量参数,设置为k1=2.0,b=0.75。
CN201710080673.6A 2017-02-15 2017-02-15 抄袭检测中的基于机器学习的源检索的查询生成方法 Pending CN106960003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710080673.6A CN106960003A (zh) 2017-02-15 2017-02-15 抄袭检测中的基于机器学习的源检索的查询生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710080673.6A CN106960003A (zh) 2017-02-15 2017-02-15 抄袭检测中的基于机器学习的源检索的查询生成方法

Publications (1)

Publication Number Publication Date
CN106960003A true CN106960003A (zh) 2017-07-18

Family

ID=59481149

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710080673.6A Pending CN106960003A (zh) 2017-02-15 2017-02-15 抄袭检测中的基于机器学习的源检索的查询生成方法

Country Status (1)

Country Link
CN (1) CN106960003A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509414A (zh) * 2018-03-09 2018-09-07 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN108829791A (zh) * 2018-06-01 2018-11-16 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
CN111459787A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于机器学习的测试抄袭检测方法
CN111459788A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于支持向量机的测试程序抄袭检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162834A1 (en) * 2002-02-15 2004-08-19 Masaki Aono Information processing using a hierarchy structure of randomized samples
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040162834A1 (en) * 2002-02-15 2004-08-19 Masaki Aono Information processing using a hierarchy structure of randomized samples
CN104778201A (zh) * 2015-01-23 2015-07-15 湖南科技大学 一种基于多查询结果合并的在先技术检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
APANGHUANG141: "《道客巴巴》", 24 July 2014 *
LEILEI KONG等: "Source Retrieval Based on Learning to Rank and Text Alignment Based on Plagiarism Type Recognition for Plagiarism Detection", 《CEUR WORKSHOP PROCEEDINGS,15TH CONFERENCE AND LABS OF THE EVALUATION FORUM, CLEF 2014》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766523A (zh) * 2017-11-09 2019-05-17 普天信息技术有限公司 词性标注方法和标注系统
CN108509414A (zh) * 2018-03-09 2018-09-07 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN108509414B (zh) * 2018-03-09 2021-09-03 黑龙江工程学院 基于排序的抄袭检测文本匹配方法
CN108829791A (zh) * 2018-06-01 2018-11-16 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN108829791B (zh) * 2018-06-01 2022-04-05 黑龙江工程学院 抄袭源检索排序模型构建方法和抄袭源检索排序方法
CN111459787A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于机器学习的测试抄袭检测方法
CN111459788A (zh) * 2019-01-18 2020-07-28 南京大学 一种基于支持向量机的测试程序抄袭检测方法

Similar Documents

Publication Publication Date Title
Li et al. A clustering-based approach on sentiment analysis
CN110008311A (zh) 一种基于语义分析的产品信息安全风险监测方法
CN106960003A (zh) 抄袭检测中的基于机器学习的源检索的查询生成方法
Piepenbrink et al. Topic models as a novel approach to identify themes in content analysis
CN111221968A (zh) 基于学科树聚类的作者消歧方法及装置
Scrivens et al. Sentiment-based classification of radical text on the web
Dunaiski et al. Exploratory search of academic publication and citation data using interactive tag cloud visualizations
Li et al. Knowledge map construction for question and answer archives
CN110851593A (zh) 一种基于位置与语义的复值词向量构建方法
Hofstätter et al. TU Wien@ TREC Deep Learning'19--Simple Contextualization for Re-ranking
Milton et al. A ranking strategy to promote resources supporting the classroom environment
KR20100069118A (ko) 질의어 색인 데이터베이스 구축 방법과 그 질의어 색인 데이터베이스를 이용한 질의어 추천 방법
Ullah et al. An E-Assessment Methodology Based on Artificial Intelligence Techniques to Determine Students' Language Quality and Programming Assignments' Plagiarism.
KR102126911B1 (ko) KeyplayerRank를 이용한 소셜 미디어상의 주제별 키플레이어 탐지 방법
Galbreath et al. A framework for measuring relevancy in discovery environments
Huangfu et al. OCC model-based emotion extraction from online reviews
Banerjee et al. Question classification and answering from procedural text in english
Ondrusek et al. A content analysis of strategies and tactics observed among MLIS students in an online searching course
Riesener et al. Concept for the identification of product innovation potentials by the application of text mining
Purcell et al. Contextual models of clinical publications for enhancing retrieval from full-text databases.
Zhuk et al. Methods to identify fake news in social media using machine learning
Peganova et al. Labelling hierarchical clusters of scientific articles
Ghosh Effects of topic familiarity on query reformulation strategies
BAZRFKAN et al. Using machine learning methods to summarize persian texts
US10872107B2 (en) Document search system for specialized technical documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170718

WD01 Invention patent application deemed withdrawn after publication