CN105701085A - 一种网络查重方法及系统 - Google Patents

一种网络查重方法及系统 Download PDF

Info

Publication number
CN105701085A
CN105701085A CN201610019274.4A CN201610019274A CN105701085A CN 105701085 A CN105701085 A CN 105701085A CN 201610019274 A CN201610019274 A CN 201610019274A CN 105701085 A CN105701085 A CN 105701085A
Authority
CN
China
Prior art keywords
participle
document
rwv
identified
amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610019274.4A
Other languages
English (en)
Other versions
CN105701085B (zh
Inventor
夏峰
洪学文
曾文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Tongyuan Network Inc.
Original Assignee
Tongyuan Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongyuan Network Technology Co Ltd filed Critical Tongyuan Network Technology Co Ltd
Priority to CN201610019274.4A priority Critical patent/CN105701085B/zh
Publication of CN105701085A publication Critical patent/CN105701085A/zh
Application granted granted Critical
Publication of CN105701085B publication Critical patent/CN105701085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种网络查重方法及系统。其中,对比库,收录素材;分词库,收录分词及对应词性;分词模块进行分词;分词特征值生成模块生成分词词性特征值;分词自由向量维数确定模块确定分词自由向量维数;分词精简向量维数生成模块,生成分词精简向量维数;分词特征向量生成模块,生成分词特征向量;待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量;进行相似度比对。

Description

一种网络查重方法及系统
技术领域
本发明属于文本检测领域,尤其涉及一种网络查重方法及系统。
背景技术
论文抄袭检测是指判断某一篇论文是否涉嫌抄袭其他一篇或多篇文档的文本内容。但由于抄袭并不完全等同于复制,而是有可能通过一定的语义变换、同义词替换或翻译外文文档等多种手段来涉嫌抄袭其他文档的文本内容。
目前,论文抄袭检测技术主要有两种方法:一种是通过指纹识别检测法,一种是通过基于文本里段落词频统计检测法。所谓指纹识别是指从提交的原文文本内容中提取一些称为指纹的数据特征串,根据指纹的相同率来判断某一篇文档是否对其他文档进行了抄袭。所谓段落词频统计检测法是指对提交的文本进行分词,通过统计文本中各个段落的出现频率,设定一个阈值后将待查文本的每个数组与查询文本的每个数组进行比较,最后依据此指标来判断是否进行了抄袭。现有技术中的上述方法存在一定程度的识别率率低、效率不高等问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种网络查重方法及系统。
其中,所述网络查重系统包含对比库,用于收录用作对比对象的素材;分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值;分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;分词精简向量维数生成模块,生成分词精简向量维数RWV;分词特征向量生成模块,提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;用户访问方式检测模块,用于提示用户上传待鉴定文档;用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;待鉴定文档分词自由向量维数确定模块,确定分词自由向量维数WFV_TBI;待鉴定文档分词精简向量维数生成模块,生成待鉴定文档分词精简向量维数RWV_TBI;待鉴定文档分词特征向量生成模块,生成待鉴定文档分词特征向量WVE_RWV_TBI;用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对;当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1示出了根据本发明的一个实施例的网络查重系统的框图;
图2示出了根据本发明的一个实施例的滑动窗口检测法。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的系统及方法具体实施方式、特征及其功效,详细说明如后。在下述说明中,不同的“一实施方式”或“实施方式”指的不一定是同一实施方式。此外,一或多个实施方式中的特定特征、结构、或特点可由任何合适形式组合。
如图1所示,本发明的网络查重系统(下称系统)中包含素材子系统;用户子系统;疑似素材提取子系统;对比子系统,其中所述素材子系统,用于准备供抄袭检测对比使用的素材;用户子系统,用户管理用户登录信息,以及确定用户写作风格;疑似素材提取子系统,用于从对比库中提取与待鉴定文档的疑似素材;对比子系统,用于将疑似素材与待鉴定文档进行对比,生成对比报告。
根据本发明的一个具体实施方式,素材子系统可以进一步包括:对比库;分词库,分词库中包含同义近义词库以及中外文同义词库;分词模块;分词组模块;中外文分词组模块;分词词性分类模块;分词组词性分类模块;中外文分词组词性分类模块;分词特征值生成模块;分词组特征值生成模块;中外文分词组特征值生成模块;分词紧密系数生成模块;分词组紧密系数生成模块;中外文分词组紧密系数生成模块;分词紧密系数特征向量生成模块;分词组紧密系数特征向量生成模块;中外文分词组紧密系数特征向量生成模块;分词自由向量维数确定模块;分词组自由向量维数确定模块;中外文分词组自由向量维数确定模块;分词精简向量维数生成模块;分词组精简向量维数生成模块;中外文分词组精简向量维数生成模块;分词特征向量生成模块;分词组特征向量生成模块;以及中外文分词组特征向量生成模块中的一个或多个。
根据本发明的一个具体实施方式,用户子系统可以进一步包括:用户访问方式检测模块;用户检测模式确定模块;用户写作风格测试模块;测试图片文字描述特征值生成模块;测试文章文字描述特征值生成模块;测试图片文字描述特征向量生成模块;测试文章文字描述特征向量生成模块;测试图片基准特征向量生成模块;测试文章基准特征向量生成模块;用户测试图片文字描述特征值生成模块;用户测试图片文字描述特征向量生成模块;用户图片写作风格特征向量生成模块;用户测试文章文字描述特征值生成模块;用户测试文章文字描述特征向量生成模块;用户文章写作风格特征向量生成模块;用户写作风格特征向量生成模块;待审核文档特征值生成模块;待审核文档特征值特征向量生成模块;用户写作风格相似度计算模块;用户写作风格判断模块;用户写作风格结构助词判断模块中的一个或多个。
根据本发明的一个具体实施方式,疑似素材提取子系统可以进一步包括:待鉴定文档分词模块;待鉴定文档分词组模块;待鉴定文档中外文分词组模块;待鉴定文档分词词性分类模块;待鉴定文档分词组词性分类模块;待鉴定文档中外文分词组词性分类模块;待鉴定文档分词特征值生成模块;待鉴定文档分词组特征值生成模块;待鉴定文档中外文分词组特征值生成模块;待鉴定文档分词紧密系数生成模块;待鉴定文档分词组紧密系数生成模块;待鉴定文档中外文分词组紧密系数生成模块;待鉴定文档分词紧密系数特征向量生成模块;待鉴定文档分词组紧密系数特征向量生成模块;待鉴定文档中外文分词组紧密系数特征向量生成模块;待鉴定文档分词自由向量维数确定模块;待鉴定文档分词组自由向量维数确定模块;待鉴定文档中外文分词组自由向量维数确定模块;待鉴定文档分词精简向量维数生成模块;待鉴定文档分词组精简向量维数生成模块;待鉴定文档中外文分词组精简向量维数生成模块;待鉴定文档分词特征向量生成模块;待鉴定文档分词组特征向量生成模块;待鉴定文档中外文分词组特征向量生成模块;待鉴定文档特征向量调整模块;素材特征向量调整模块;普通抄袭鉴定相似度计算模块,扩展抄袭鉴定相似度计算模块;多语种抄袭鉴定相似度计算模块;待鉴定文档紧密系数统计模块;素材紧密系数统计模块;公式提取模块;公式分解模块;紧密系数疑似素材提取模块中的一个或多个。
根据本发明的一个具体实施方式,对比子系统可以进一步包括:滑动窗口设置模块;滑动窗口对比模块以及对比报告生成模块。
根据本发明的一个具体实施方中,所述系统包括对比库,用于收录用作对比对象的素材。所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库等子库。其中,书籍库用于收录公开出版的书籍;论文库用于收录期刊论文、会议论文、学位论文等;专利库用于收录专利公开文档等。收录素材时,需要进一步保存所述素材的来源,例如书籍的出版日期、出版社、作者、书号等;期刊论文的发表日期,对应期刊的刊名、期号、作者等;会议论文的会议名称、会议召开地点,会议召开日期,作者等;学位论文的学校、毕业年份、学位等级、作者等;根据所收录的素材来源信息,本领域技术人员可以唯一获得所述素材。优选地,对比库收录的素材不限于中文素材,还进一步包含外文素材。对比库建立后还需要定期或不定期地进行维护,补充新增的书籍、期刊论文、会议论文、学位论文以及专利公开文档等。谚语俗语库用于收录在网络或大众之间广为流传的句子、短语等素材。名人名言库用于收录名人名言素材,诗词库用于收录诗、词、歌、赋等素材。在对比库中进一步建立谚语俗语库、名人名言库、诗词库等的目的是将作为对比对象的素材范围从传统的书籍、论文、专利文档等进一步扩展,提高抄袭检测的全面性。本领域技术人员知晓,对比库还可以进一步收录其他类型的素材,在此不再赘述。
优选地,对比库在收录素材时,按照素材所属领域进行分类。根据本发明的一个具体实施方式,领域标识可以采用中国图书馆分类法中的类目,所述中国图书馆分类法共5个基本部类,22个大类,采用汉语拼音字母与阿拉伯数字结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。例如,A1表示马克思、恩格斯著作,K6表示大洋洲史,TN表示电子技术、通信技术。为适用工业技术发展,对工业技术的二级类目采用双字母。本领域技术人员知晓,还可以采用其他的分类体系对素材进行领域标识。
优选地,对比库在收录素材时,对所收录的素材按照标题、作者、摘要以及正文的方式进行分别标引。对于每个素材的标题、作者、摘要以及正文各部分之间建立关联关系,即通过其中的任一部分可以获得同一素材的其余部分。
优选地,对比库在收录素材时,对所收录的素材中存在的公式进行提取复制,并建立公式库进行单独保存。所述公式库中的每个公式都与其被提取的素材建立有关联关系,通过公式库中的公式即可获取其对应的素材全文。根据本发明的一个具体实施方式,在收录公式时,将公式的各自变量参数以及因变量参数以及运算符号分别进行提取保存。根据本发明的一个具体实施方式,提取出公式的各自变量参数以及应变量参数后进一步提取各参数的具体含义、量纲以及取值范围,并分别进行保存。根据本发明的一个具体实施方式,提取出公式的运算符号后,进一步对运算符加以中外文文字注释。在公式库中,所收录的每一个公式均保存有各自对应的自变量参数以及因变量参数的符号表示,各自变量、因变量具体含义的中外文表述,量纲以及取值范围以及运算符与运算符的中外文文字注释。在对比库中进一步建立公式库的目的是将作为对比对象的素材范围进一步扩展到公式对比,提高抄袭检测的全面性。本领域技术人员知晓,对比库还可以对素材中的其他内容进一步进行提取,例如化学式、基因序列等,在此不再赘述。
根据本发明的一个具体实施方式,所述对比库采用分布式方式存储于不同的站点位置;访问对比库时可根据不同站点的负载情况选取特定站点进行访问。各站点统计当前单位时间段内从对比库中被提取的素材数量,所述素材数量可以为素材的个数或者素材的字节数;得到本站点的平均负载量;各站点周期性地将本站点的平均负载量上报疑似素材提取子系统;当所述疑似素材提取子系统需要从对比库中提取素材用于选取疑似素材时,根据最近上报的各站点的平均负载量选取平均负载量最低的一个站点进行访问;其中的单位时间段由系统进行设置;可以根据实际需要选取为5分钟、10分钟、30分钟或者60分钟。根据本发明的一个具体实施方式,所述对比库中不同子库可采用分布式方式存储于不同的站点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问。疑似素材提取子系统需要从对比库中提取素材用于选取疑似素材时,根据所要提取素材的所属领域或者所属类型,选择不同的对比子库进行访问。
根据本发明的一个具体实施方式,系统中包含分词库,用于收录分词及对应词性。所述分词库由系统事先设置,并定期维护,补增新词等。优选地,分词库中针对每一分词进行唯一编号,可以使用W_ID表示某一分词在分词库中的唯一编号。所述分词库保存有分词的词性,诸如名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词。根据本发明的一个具体实施方式,根据词性将分词结果划分为实词与虚词,其中实词包括名词、动词、形容词、数词、量词和代词;虚词包括副词、介词、连词、助词、叹词、拟声词。优选地,分词库中进一步收录有同义近义词库,其中将含义相同或相近的分词构成一组,以组为单位进行编号。多个意思相同或相近的分词对应于一个分词组编号,可以使用WG_ID表示某一分词在分词库中的唯一编号。优选地,分词库中进一步收录有中外文同义近义词库,其中将含义相同或相近的中外文分词构成一组,以组为单位进行编号。多个意思相同或相近的中外文分词对应于一个中外文分词组编号,可以使用WFG_ID表示某一中外文分词组在分词库中的唯一编号。
根据本发明的一个具体实施方式,系统中包含分词模块,用于对各素材进行分词,并将分词结果保存至对比库中。优选地,分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性。优选地,分词词性分类模块根据分词结果对应的词性对分词结果进行分类处理。
根据本发明的一个具体实施方式,系统中包含分词组模块,用于对各素材进行分词,并将分词组结果保存至对比库中。优选地,分词组模块将分词结果与分词库保存的词性进行比对,确定分词组结果的词性。优选地,分词组词性分类模块根据分词组结果对应的词性对分词组结果进行分类处理。
根据本发明的一个具体实施方式,系统中包含中外文分词组模块,用于对各素材进行分词,并将中外文分词组结果保存至对比库中。优选地,中外文分词组模块将中外文分词结果与分词库保存的词性进行比对,确定中外文分词组结果的词性。优选地,中外文分词组词性分类模块根据中外文分词组结果对应的词性对中外文分词组结果进行分类处理。
根据本发明的一个具体实施方式,分词词性分类模块、分词组词性分类模块以及中外文分词组词性分类模块分别根据词性将分词结果、分词组结果以及中外文分词组划分为A类实词、B类实词、C类实词、D类实词以及V类虚词,其中A类实词包括名词;B类实词包括动词、形容词;C类实词包括数词、量词;D类实词包括代词;V类虚词包括副词、介词、连词、助词、叹词、拟声词。优选地,分词库中进一步将名词划分为专业术语以及普通名词。根据本发明的一个具体实施方式,根据词性将分词结果划分为A1类实词、A2类实词、B类实词、C类实词、D类实词以及V类虚词,其中A1类实词包括专业术语名词;A2类实词包括普通名词;B类实词包括动词、形容词;C类实词包括数词、量词;D类实词包括代词;V类虚词包括副词、介词、连词、助词、叹词、拟声词。本领域技术人员可以根据实际需要选取不同的分类处理方案。
根据本发明的一个具体实施方式,分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词特征值WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数。优选地,考虑到每一个分词的词性,分词特征值生成模块生成分词词性特征值WCCV=[W_ID,W_N,W_CHAR],其中W_CHAR表示该分词的词性。
根据本发明的一个具体实施方式,分词组特征值生成模块统计每一个分词组在对应素材中出现的数量,生成每一个分词组对应的分词组特征值WGCV=[WG_ID,WG_N],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该分词组在该素材中出现的总次数。优选地,考虑到每一个分词组的词性,分词组特征值生成模块生成分词组词性特征值WGCCV=[WG_ID,WG_N,WG_CHAR],其中WG_CHAR表示该分词组的词性。
根据本发明的一个具体实施方式,中外文分词组特征值生成模块统计每一个中外文分词组在对应素材中出现的数量,生成每一个中外文分词组对应的分词组特征值WFGCV=[WFG_ID,WFG_N],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该中外文分词组在该素材中出现的总次数。优选地,考虑到每一个中外文分词组的词性,分词组特征值生成模块生成中外文分词组词性特征值WFGCCV=[WFG_ID,WFG_N,WFG_CHAR],其中WFG_CHAR表示该中外文分词组的词性。
根据本发明的一个具体实施方式,分词紧密系数生成模块用于生成分词紧密系数。所述分词紧密系数是指同一分词在整个素材中相邻两次出现所间隔的分词数量。根据本发明的一个具体实施方式,每一个分词对应的分词紧密系数表示为WGC=[G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)],其中,G_W_ID_1表示该分词在该素材中第一次出现与第二次出现之间所间隔的分词数量,G_W_ID_2表示该分词在该素材中第二次出现与第三次出现之间所间隔的分词数量,G_W_ID_(W_N-1)表示该分词在该素材中第W_N-1次出现与第W_N次出现之间所间隔的分词数量;G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)即为该分词对应的分词紧密系数。根据本发明的一个具体实施方式,分词紧密系数特征向量生成模块生成分词紧密系数特征向量WGCVE=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该特定分词在该素材中的分词总次数,W_CHAR表示该分词的词性。通过分词紧密系数,可以获知特定分词在对应素材中的整体分布情况。
根据本发明的一个具体实施方式,分词组紧密系数生成模块用于生成分词组紧密系数。所述分词组紧密系数是指同一分词组在整个素材中相邻两次出现所间隔的分词数量。根据本发明的一个具体实施方式,每一个分词组对应的分词组紧密系数表示为WGGC=[G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中,G_WG_ID_1表示该分词组在该素材中第一次出现与第二次出现之间所间隔的分词数量,G_WG_ID_2表示该分词组在该素材中第二次出现与第三次出现之间所间隔的分词数量,G_WG_ID_(WG_N-1)表示该分词组在该素材中第WG_N-1次出现与第WG_N次出现之间所间隔的分词数量;G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)即为该分词组对应的分词组紧密系数。根据本发明的一个具体实施方式,分词组紧密系数特征向量生成模块生成分词组紧密系数特征向量WGGCVE=[WG_ID,WG_N,WG_CHAR,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该特定分词组在该素材中的分词总次数,WG_CHAR表示该分词组的词性。通过分词组紧密系数,可以获知特定分词组在对应素材中的整体分布情况。
根据本发明的一个具体实施方式,中外文分词组紧密系数生成模块用于生成中外文分词组紧密系数。所述中外文分词组紧密系数是指同一中外文分词组在整个素材中相邻两次出现所间隔的分词数量。根据本发明的一个具体实施方式,每一个中外文分词组对应的中外文分词组紧密系数表示为WFGGC=[G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中,G_WFG_ID_1表示该中外文分词组在该素材中第一次出现与第二次出现之间所间隔的分词数量,G_WFG_ID_2表示该中外文分词组在该素材中第二次出现与第三次出现之间所间隔的分词数量,G_WFG_ID_(WFG_N-1)表示该中外文分词组在该素材中第WFG_N-1次出现与第WFG_N次出现之间所间隔的分词数量;G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)即为该中外文分词组对应的分词组紧密系数。根据本发明的一个具体实施方式,中外文分词组紧密系数特征向量生成模块生成中外文分词组紧密系数特征向量WFGGCVE=[WFG_ID,WFG_N,WFG_CHAR,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该特定中外文分词组在该素材中的分词总次数,WFG_CHAR表示该中外文分词组的词性。通过中外文分词组紧密系数,可以获知特定中外文分词组在对应素材中的整体分布情况。
根据本发明的一个具体实施方式,分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量。当素材的篇幅较短或者其中的分词结果较少时,所得到的分词自由向量维数WFV较少;当素材的篇幅较长或者其中的分词结果较多时,所得到的分词自由向量维数WFV较多。
根据本发明的一个具体实施方式,分词组自由向量维数确定模块根据素材的分词结果确定分词组自由向量维数WGFV;所述分词组自由向量维数WGFV等于对特定素材进行分词后得到的不同分词组的数量。当素材的篇幅较短或者其中的分词组结果较少时,所得到的分词组自由向量维数WGFV较少;当素材的篇幅较长或者其中的分词组结果较多时,所得到的分词组自由向量维数WGFV较多。
根据本发明的一个具体实施方式,中外文分词组自由向量维数确定模块根据素材的分词结果确定中外文分词组自由向量维数WFGFV;所述中外文分词组自由向量维数WFGFV等于对特定素材进行分词后得到的不同中外文分词组的数量。当素材的篇幅较短或者其中的中外文分词组结果较少时,所得到的中外文分词组自由向量维数WFGFV较少;当素材的篇幅较长或者其中的分词组结果较多时,所得到的中外文分词组自由向量维数WFGFV较多。
根据本发明的一个具体实施方式,分词精简向量维数生成模块用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV。所述分词精简向量维数RWV由系统指定。优选地,系统指定分词精简向量维数RWV为500。优选地,系统指定分词精简向量维数RWV为800。优选地,系统指定分词精简向量维数RWV为1000。
根据本发明的一个具体实施方式,分词精简向量维数生成模块采用等间隔抽取法对分词自由向量维数WFV进行精简。精简过程如下:判断分词自由向量维数WFV是否大于分词精简向量维数RWV,如果是,则将分词自由向量维数WFV除以系统指定的分词精简向量维数RWV,并对所得到的商值进行上取整运算,进一步得到精简系数REDU;则在分词自由向量维数WFV所对应的特征值中每间隔REDU-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于分词精简向量维数RWV;当所提取的特征值的数量等于分词精简向量维数RWV时,则完成分词自由向量维数WFV精简;当所提取的特征值的数量小于分词精简向量维数RWV时,则计算分词精简向量维数RWV与特征值数量的差值;在未被提取的特征值中随机提取与分词精简向量维数RWV与特征值的差值数量相等的特征值,完成分词自由向量维数WFV的精简。
根据本发明的一个具体实施方式,分词精简向量维数生成模块采用词性筛选法对分词自由向量维数WFV进行精简。精简过程如下:将分词结果的特征值按照对应的分词词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现素材的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWV_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWV_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWV_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2)的值RWV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWV_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-AMOUNT_A1的值RWV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与精简向量维数RWV数量相等的特征值,完成此次精简。
对于计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V大于0的情形,即意味该素材篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
分词自由向量维数WFV小于分词精简向量维数RWV时表示其本身维数小,则其他维数下的量值相当于0。此种情形需要在系统中直接标注,单独收录处理。例如民间俗语、名人名言等,用作标引查找用。后续可使用全文滑动窗口进行全文比对用。
根据本发明的一个具体实施方式,分词组精简向量维数生成模块用于对每个素材的分词组自由向量维数WGFV进行精简,生成分词组精简向量维数RWGV。所述分词组精简向量维数RWGV由系统指定。优选地,系统指定分词组精简向量维数RWGV为500。优选地,系统指定分词组精简向量维数RWGV为800。优选地,系统指定分词组精简向量维数RWGV为1000。
根据本发明的一个具体实施方式,分词组精简向量维数生成模块采用等间隔抽取法对分词组自由向量维数WGFV进行精简。精简过程如下:判断分词组自由向量维数WGFV是否大于分词组精简向量维数RWGV,如果是,则将分词组自由向量维数WGFV除以系统指定分词组精简向量维数RWGV,并对所得到的商值进行上取整运算,进一步得到精简系数REDU;则在分词组自由向量维数WGFV所对应的特征值中每间隔REDU-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于分词组精简向量维数RWGV;当所提取的特征值的数量等于分词组精简向量维数RWGV时,则完成分词组自由向量维数WGFV精简;当所提取的特征值的数量小于分词组精简向量维数RWGV时,则计算分词组精简向量维数RWGV与特征值数量的差值;在未被提取的特征值中随机提取与分词组精简向量维数RWGV与特征值的差值数量相等的特征值,完成分词组自由向量维数WGFV的精简。
根据本发明的一个具体实施方式,分词组精简向量维数生成模块采用词性筛选法对分词组自由向量维数WGFV进行精简。精简过程如下:将特征值按照对应的分词词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现素材的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算分词组精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWGV_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词组精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWGV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWGV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWGV_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWGV_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词组精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWGV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWGV_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词组精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2)的值RWGV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWGV_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词组精简向量维数RWGV-AMOUNT_A1的值RWGV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWGV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与精简向量维数RWGV数量相等的特征值,完成此次精简。
对于计算分词组精简向量维数RWGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWGV_S_V大于0的情形,即意味该素材篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
分词组自由向量维数WGFV小于分词组精简向量维数RWGV时表示其本身维数小,则其他维数下的量值相当于0。此种情形需要在系统中直接标注,单独收录处理。例如民间俗语、名人名言等,用作标引查找用。后续可使用全文滑动窗口进行全文比对用。
根据本发明的一个具体实施方式,中外文分词组精简向量维数生成模块用于对每个素材的中外文分词组自由向量维数WFGFV进行精简,生成中外文分词组精简向量维数RWFGV。所述中外文分词组精简向量维数RWFGV由系统指定。优选地,系统指定中外文分词组精简向量维数RWFGV为500。优选地,系统指定中外文分词组精简向量维数RWFGV为800。优选地,系统指定中外文分词组精简向量维数RWFGV为1000。
根据本发明的一个具体实施方式,中外文分词组精简向量维数生成模块采用等间隔抽取法对中外文分词组自由向量维数WFGFV进行精简。精简过程如下:判断中外文分词组自由向量维数WFGFV是否大于中外文分词组精简向量维数RWFGV,如果是,则将中外文分词组自由向量维数WFGFV除以系统指定中外文分词组精简向量维数RWFGV,并对所得到的商值进行上取整运算,进一步得到精简系数REDU;则在中外文分词组自由向量维数WFGFV所对应的特征值中每间隔REDU-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于中外文分词组精简向量维数RWFGV;当所提取的特征值的数量等于中外文分词组精简向量维数RWFGV时,则完成中外文分词组自由向量维数WFGFV精简;当所提取的特征值的数量小于中外文分词组精简向量维数RWFGV时,则计算中外文分词组精简向量维数RWFGV与特征值数量的差值;在未被提取的特征值中随机提取与中外文分词组精简向量维数RWFGV与特征值的差值数量相等的特征值,完成中外文分词组自由向量维数WFGFV的精简。
根据本发明的一个具体实施方式,中外文分词组精简向量维数生成模块采用词性筛选法对中外文分词组自由向量维数WFGFV进行精简。精简过程如下:将特征值按照对应的分词词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现素材的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算中外文分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWFGV_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算中外文分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWFGV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWFGV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算中外文分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWFGV_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWFGV_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算中外文分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWFGV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWFGV_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2)的值RWFGV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWFGV_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算中外文分词组精简向量维数RWFGV-AMOUNT_A1的值RWFGV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWFGV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与精简向量维数RWFGV数量相等的特征值,完成此次精简。
对于计算中外文分词组精简向量维数RWFGV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWFGV_S_V大于0的情形,即意味该素材篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
分词组自由向量维数WFGFV小于分词组精简向量维数RWFGV时表示其本身维数小,则其他维数下的量值相当于0。此种情形需要在系统中直接标注,单独收录处理。例如民间俗语、名人名言等,用作标引查找用。后续可使用全文滑动窗口进行全文比对用。
根据本发明的一个具体实施方式,分词特征向量生成模块根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;
WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值。
根据本发明的一个具体实施方式,分词组特征向量生成模块根据分词组精简向量维数RWGV提取每个素材中所述分词组精简向量维数RWGV对应的特征值生成分词组特征向量WVE_RWGV;
WVE_RWGV=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV,WG_NRWGV]
其中WG_IDi表示分词组在分词库中的唯一编号,WG_Ni表示该分词组在该素材中出现的总次数,将该次数作为该分词组的特征值。
根据本发明的一个具体实施方式,中外文分词组特征向量生成模块根据中外文分词组精简向量维数RWFGV提取每个素材中所述中外文分词组精简向量维数RWFGV对应的特征值生成中外文分词组特征向量WVE_RWFGV;
WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WFG_NRWFGV]
其中WFG_IDi表示中外文分词组在分词库中的唯一编号,WFG_Ni表示该中外文分词组在该素材中出现的总次数,将该次数作为该中外文分词组的特征值。
根据本发明的一个具体实施方式,系统为用户提供多种访问方式。用户访问系统,用户访问方式检测模块用于检测当前用户的访问方式。
在本发明的一个具体实施方式中,用户可以以试用方式访问系统,下文称以试用方式访问的用户为试用用户。当用户访问方式检测模块检测到用户是以试用方式访问时,向试用用户发出提示,告知当前访问方式为试用方式,并告知试用用户的使用权限。根据本发明的一个具体实施方式,对于以试用方式访问的用户,系统仅为试用用户提供预定字符数的检测试用,所述预定字数由系统事先设置。根据本发明的另一个具体实施方式,对于以试用方式访问的用户,系统为试用用户提供部分或全部范围的数据库供检测试用。根据本发明的另一个具体实施方式,对于以试用方式访问的用户,系统为试用用户提供的抄袭检测结果仅提供抄袭率提示,并不提供具体的抄袭位置以及与被抄袭文档的抄袭对比。根据本发明的另一个具体实施方式,对于以试用方式访问的用户,系统为试用用户提供的抄袭检测结果提供具体的抄袭位置,但对与被抄袭文档的抄袭对比进行模糊化处理,使得试用用户仅能获知自身所提供的文档的具体抄袭位置,但无法识别被抄袭文档的具体信息。
根据本发明的一个具体实施方式,用户以计数方式访问系统,下文称以计数方式访问的用户为计数用户。当用户访问方式检测模块检测到用户是以计数方式访问时,向计数用户发出提示,告知当前访问方式为计数方式,并提示计数用户上传需要进行抄袭对比的文档。根据本发明的一个具体实施方式,系统统计计数用户上传文档的字符数,并根据统计出的字符数计算此次文本抄袭检测的费用。根据本发明的另一个具体实施方式,系统为计数用户提供部分或全部范围的数据库供选择,系统根据计数用户选择不同的数据库范围计算本次文本抄袭检测的费用。
根据本发明的一个具体实施方式,用户以计时方式访问系统,下文称以计时方式访问的用户为计时用户。当用户访问方式检测模块检测到用户是以计时方式访问时,向计时用户发出提示,告知当前访问方式为计时方式,并提示计时用户当前剩余使用时长。根据本发明的另一个具体实施方式,对于以计时用户,在使用过程中系统为计时用户在显示界面中实时提供剩余使用时长倒计时提示。根据本发明的另一个具体实施方式,系统为计时用户提供部分或全部范围的数据库供选择。根据本发明的一个具体实施方式,系统根据计时用户选择不同的数据库范围以及计时用户所上传检测文档的字符数,预估该文档所需的检测时长,并提示计时用户剩余使用时长是否能够完成当前抄袭检测。
根据本发明的一个具体实施方式,计时用户登录所述系统后,由用户检测模式确定模块确定抄袭检测检测模式。根据本发明的一个具体实施方式,系统提供自我审核模式、普通抄袭鉴定模式、扩展抄袭鉴定模式、多语种抄袭鉴定模式、公式抄袭鉴定模式供选择。
根据本发明的一个具体实施方式,用户检测模式确定模块确定当前用户检测模式为自我审核模式时,用户写作风格测试模块为用户提供一幅或多幅测试图片,由用户在规定时间内针对测试图片在线进行不少于规定字数的文字描述。优选地,用户写作风格测试模块进一步为用户提供一篇或多篇测试文章,由用户在规定时间内在线进行不少于规定字数的文字评论。所述测试图片或测试文章由用户写作风格测试模块从测试图库及测试文库中随机选取。无论采用测试图片还是测试文章,都需要由用户进行在线文字描述或评论,受限于规定时间无法设置过长,通常选取为30分钟或60分钟,相应的文字描述或文字评论的规定字数通常选取为400字/30分钟或800字/60分钟。本领域技术人员可以根据需要进一步设置其他的规定时间或规定字数。从实验数据来看,规定时间不宜设置过长,以避免用户没有足够时间或网络不稳定无法完成相应测试;此外,规定字数与规定时间的比值不宜过低,以避免不能如实反映用户写作习惯。受限于规定时间无法设置过长,相应的文字描述或文字评论的篇幅有限,仅凭在线测试提取的文字描述或文字评论的特征值以及特征向量可能也无法真实反映用户的写作习惯,因此需要进一步提取测试图片描述基准特征向量以及测试文章描述基准特征向量,用于修正由于文字描述或文字评论文字不足的所导致的特征向量偏差值。
根据本发明的一个具体实施方式,测试图库中的每幅测试图片都具有测试图片基准特征向量。所述测试图片描述基准特征向量是从不同背景人群中随机选取预定数量的基准测试人员,分别就特定测试图片进行不少于规定字数的描述,采集所有的文字描述,统计同一测试图片的测试图片文字描述特征值,根据所述测试图片文字描述特征值计算特征向量,并对特征向量进行加权运算,得到特定测试图片的测试图片基准特征向量。所述加权运算中的权值由系统设置。测试文库中的每篇测试文章都具有测试文章基准特征向量。所述测试文章基准特征向量是从不同背景人群中随机选取预定数量的基准测试人员,分别就特定测试文章进行不少于规定字数的描述,采集所有的文字描述,统计针对同一测试文章的测试文章文字描述特征值,根据所述测试文章文字描述特征值计算特征向量,并对特征向量进行加权运算,得到特定测试文章的测试文章基准特征向量。所述加权运算中的权值由系统设置。
根据本发明的一个具体实施方式,从不同背景人群中随机选取预定数量的基准测试人员时,可以按照不同年龄层次选取,优选地可以分为20岁以下组,20-29岁组,30-39岁组,40-49岁组,50岁以上组。从而收集不同年龄组的人群对于同一测试图片或同一测试文章不少于规定字数的描述情况。
根据本发明的一个具体实施方式,从不同背景人群中随机选取预定数量的基准测试人员时,可以按照不同学历层次选取,优选地可以分为大学本科以下组,大学本科组,硕士研究生组,博士研究生组。从而收集不同学历组的人群对于同一测试图片或同一测试文章不少于规定字数的描述情况。
根据本发明的一个具体实施方式,从不同背景人群中随机选取预定数量的基准测试人员时,可以按照不同专业领域选取(可根据不同的测试精度需求划分专业领域,在此不再赘述),从而收集不同专业领域组的人群对于同一测试图片或同一测试文章不少于规定字数的描述情况。
根据本发明的一个具体实施方式,测试图片文字描述特征值生成模块获取基准测试人员获取基准测试人员的测试图片描述文本,生成用户测试图片文字描述特征值;所述测试图片文字描述特征值包括但不限于:中文字数,外文字数,总词数,实词数,虚词数,段落数,段落长度分布情况,句子数,句子长度分布情况,同义词、近义词扩展情况,虚词使用情况,标点符号使用情况,词性使用情况。根据本发明的一个具体实施方式,中文字数是指每一篇测试图片文字描述中除标点符号之外所包含的中文字符数,中文每一字记为一字符;外文字数是指每一篇测试图片文字描述中除标点符号之外所包含的外文字符数,外文每一词记为一字符;总词数是指对每一篇测试图片文字描述进行分词后得到的词总数,其中中文分词可使用系统自带的分词库进行分词,外文可根据外文书写习惯、直接利用每词之间的空格进行分词;实词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试图片文字描述中的实词数量,实词数可进一步分为中文实词数与外文实词数,其中,中文实词数与外文实词数的总和等于实词数;虚词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试图片文字描述中的虚词数量,进一步虚词数可分为中文虚词数与外文虚词数,其中,中文虚词数与外文虚词数的总和等于虚词数;段落数是指每一篇测试图片文字描述中的段落数量;段落长度分布情况是指每一篇测试图片文字描述中每个段落中所包含的词数以及句子数;句子数是指每一篇测试图片文字描述中的句子数量;句子长度分布情况是指每一篇测试图片文字描述中每个句子中所包含的词数;同义词、近义词扩展情况是指将每一篇测试图片文字描述中的分词结果与同义近义词库进行比对,将含义相同或相近的分词构成一个集合,计算每个集合中的词数量,由此反映出该篇测试图片文字描述的作者的同义词、近义词写作习惯,其中如果同义词或近义词集合中所包含的词数越多,表明该作者的写作风格倾向于采用同义词或近义词扩展,如果同义词或近义词集合中所包含的词数越少,表明该作者的写作风格倾向于不采用同义词或近义词扩展;虚词使用情况是指每一篇测试图片文字描述中虚词使用的统计情况,包括但不限于每一篇测试图片文字描述中虚词使用的统计排名,每个不同虚词之间间隔的词数,每个相同虚词之间间隔的词数;例如还可以进一步统计“的”、“地”、“得”三个结构助词的使用情况,由此反映出该篇测试图片文字描述的作者对于“的”、“地”、“得”三个结构助词是否区分使用;标点符号使用情况是指每一篇测试图片文字描述中标点符号使用的统计情况,包括但不限于每一篇测试图片文字描述中标点使用的统计排名,每个不同标点符号之间间隔的词数,每个相同标点符号之间间隔的词数;词性使用情况是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试图片文字描述中各词性分词的统计情况,例如分别得到名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词的数量,以及各词性数量与该篇测试图片文字描述总词数的比值。
根据本发明的一个具体实施方式,测试图片文字描述特征值生成模块根据测试图片文字描述特征值生成测试图片文字描述特征向量。根据本发明的一个具体实施方式,由系统指定所述测试图片文字描述特征向量的维数,以及特征向量中各项的具体内容以及排列的顺序。当所述测试图片文字描述的特征向量的维数为n时,可表示为TPCVE=[TPC_1,…,TPC_m,…,TPC_n],其中,TPC_1为测试图片文字描述的特征向量中的第一项值,TPC_m为测试图片文字描述的特征向量中的第m项值,TPC_n为测试图片文字描述的特征向量中的第n项值。
优选地,所述测试图片文字描述特征向量包括以下各项中的一项或多项:中文字数与总词数的比值,外文字数与总词数的比值,实词数与总词数的比值,虚词数与总词数的比值,总词数与段落数的比值,最长段落词数,同义词、近义词扩展数与总词数的比值,标点符号使用数与总词数的比值,名词数与总词数的比值,动词数与总词数的比值,形容词数与总词数的比值,数词数与总词数的比值,量词数与总词数的比值,代词数与总词数的比值,副词数与总词数的比值,介词数与总词数的比值,连词数与总词数的比值,助词数与总词数的比值,叹词数与总词数的比值,拟声词数与总词数的比值。
根据本发明的一个具体实施方式,测试图片基准特征向量生成模块统计针对同一测试的测试图片文字描述特征向量;对测试图片文字描述特征向量进行加权运算,得到特定测试图片基准特征向量,所述加权运算中使用的权值由系统设置。优选地,测试图片基准特征向量生成模块可针对不同年龄组、学历组以及专业领域组,分别统计预定数量的测试图片文字描述特征向量,并分别进行加权运算,得到各年龄组、各学历组以及各专业领域组的特定测试图片基准特征向量。
特定测试图片基准特征向量可以表示为:
T P C V E _ I D = [ Σ i = 1 k T P C _ 1 i * W 1 , i , ... Σ i = 1 k T P C _ m i * W m , i , ... , Σ i = 1 k T P C _ n i * W n , i ]
其中TPCVE_ID表示编号为ID的测试图片基准特征向量;k为基准测试人员数量;TPC_1i表示第i个基准测试人员的特征向量的第一项值;TPC_mi表示第i个基准测试人员的特征向量的第m项值;TPC_ni表示第i个基准测试人员的特征向量的第n项值;W1,i为TPC_1i的加权系数;Wm,i为TPC_mi的加权系数;Wn,,i为TPC_ni的加权系数。
根据本发明的一个具体实施方式,测试文章文字描述特征值生成模块获取基准测试人员获取基准测试人员的测试文章描述文本,生成用户测试文章文字描述特征值;所述测试文章文字描述特征值包括但不限于:中文字数,外文字数,总词数,实词数,虚词数,段落数,段落长度分布情况,句子数,句子长度分布情况,同义词、近义词扩展情况,虚词使用情况,标点符号使用情况,词性使用情况。根据本发明的一个具体实施方式,中文字数是指每一篇测试文章文字描述中除标点符号之外所包含的中文字符数,中文每一字记为一字符;外文字数是指每一篇测试文章文字描述中除标点符号之外所包含的外文字符数,外文每一词记为一字符;词数是指对每一篇测试文章文字描述进行分词后得到的词总数,其中中文分词可使用系统自带的分词库进行分词,外文可根据外文书写习惯、直接利用每词之间的空格进行分词;实词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试文章文字描述中的实词数量,实词数可进一步分为中文实词数与外文实词数,其中,中文实词数与外文实词数的总和等于实词数;虚词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试文章文字描述中的虚词数量,进一步虚词数可分为中文虚词数与外文虚词数,其中,中文虚词数与外文虚词数的总和等于虚词数;段落数是指每一篇测试文章文字描述中的段落数量;段落长度分布情况是指每一篇测试文章文字描述中每个段落中所包含的词数以及句子数;句子数是指每一篇测试文章文字描述中的句子数量;句子长度分布情况是指每一篇测试文章文字描述中每个句子中所包含的词数;同义词、近义词扩展情况是指将每一篇测试文章文字描述中的分词结果与同义近义词库进行比对,将含义相同或相近的分词构成一个集合,计算每个集合中的词数量,由此反映出该篇测试文章文字描述的作者的同义词、近义词写作习惯,其中如果同义词或近义词集合中所包含的词数越多,表明该作者的写作风格倾向于采用同义词或近义词扩展,如果同义词或近义词集合中所包含的词数越少,表明该作者的写作风格倾向于不采用同义词或近义词扩展;虚词使用情况是指每一篇测试文章文字描述中虚词使用的统计情况,包括但不限于每一篇测试文章文字描述中虚词使用的统计排名,每个不同虚词之间间隔的词数,每个相同虚词之间间隔的词数;例如还可以进一步统计“的”、“地”、“得”三个结构助词的使用情况,由此反映出该篇测试文章文字描述的作者对于“的”、“地”、“得”三个结构助词是否区分使用;标点符号使用情况是指每一篇测试文章文字描述中标点符号使用的统计情况,包括但不限于每一篇测试文章文字描述中标点使用的统计排名,每个不同标点符号之间间隔的词数,每个相同标点符号之间间隔的词数;词性使用情况是指分词后根据分词结果与分词库中的词性进行比较得到每一篇测试文章文字描述中各词性分词的统计情况,例如分别得到名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词的数量,以及各词性数量与该篇测试文章文字描述总词数的比值。
根据本发明的一个具体实施方式,测试文章文字描述特征值生成模块根据测试文章文字描述特征值生成测试图片文字描述特征向量。根据本发明的一个具体实施方式,由系统指定所述测试文章文字描述特征向量的维数,以及特征向量中各项的具体内容以及排列的顺序。当所述测试文章文字描述的特征向量的维数为n时,可表示为TTCVE=[TTC_1,…,TTC_m,…,TTC_n],其中,TTC_1为测试图片文字描述的特征向量中的第一项值,TTC_m为测试图片文字描述的特征向量中的第m项值,TTC_n为测试图片文字描述的特征向量中的第n项值。
优选地,所述测试文章文字描述特征向量包括以下各项中的一项或多项:中文字数与总词数的比值,外文字数与总词数的比值,实词数与总词数的比值,虚词数与总词数的比值,总词数与段落数的比值,最长段落词数,同义词、近义词扩展数与总词数的比值,标点符号使用数与总词数的比值,名词数与总词数的比值,动词数与总词数的比值,形容词数与总词数的比值,数词数与总词数的比值,量词数与总词数的比值,代词数与总词数的比值,副词数与总词数的比值,介词数与总词数的比值,连词数与总词数的比值,助词数与总词数的比值,叹词数与总词数的比值,拟声词数与总词数的比值。
根据本发明的一个具体实施方式,测试文章基准特征向量生成模块统计针对同一测试的测试文章文字描述特征向量;对测试文章文字描述特征向量进行加权运算,得到特定测试文章基准特征向量,所述加权运算中使用的权值由系统设置。优选地,测试文章基准特征向量生成模块可针对不同年龄组、学历组以及专业领域组,分别统计预定数量的测试文章文字描述特征向量,并分别进行加权运算,得到各年龄组、各学历组以及各专业领域组的特定测试文章基准特征向量。
特定文章基准特征向量可以表示为:
T T C V E _ I D = [ Σ i = 1 k T T C _ 1 i * W 1 , i , ... Σ i = 1 k T T C _ m i * W m , i , ... , Σ i = 1 k T T C _ n i * W n , i ]
其中TTCVE_ID表示编号为ID的测试文章基准特征向量;k为基准测试人员数量;TTC_1i表示第i个基准测试人员的特征向量的第一项值;TTC_mi表示第i个基准测试人员的特征向量的第m项值;TTC_ni表示第i个基准测试人员的特征向量的第n项值;W1,i为TPC_1i的加权系数;Wm,i为TPC_mi的加权系数;Wn,,i为TPC_ni的加权系数。
根据本发明的一个具体实施方式,测试图片文字描述特征向量与测试文章文字描述特征向量的维数,以及其中每项特征值的含义及排列顺序均保持一致。例如,可以设置测试图片文字描述特征向量与测试文章文字描述特征向量中的第一项特征值均为中文字数与总词数的比值,第二项特征值均为外文字数与总词数的比值,第三项特征值均为实词数与总词数的比值,第四项特征值均为虚词数与总词数的比值,第五项特征值均为总词数与段落数的比值,第六项特征值均为最长段落词数,第七项特征值均为同义词、近义词扩展数与总词数的比值,第八项特征值均为标点符号使用数与总词数的比值,第九项特征值均为名词数与总词数的比值,第十项特征值均为动词数与总词数的比值,第十一项特征值均为形容词数与总词数的比值,第十二项特征值均为数词数与总词数的比值,第十三项特征值均为量词数与总词数的比值,第十四项特征值均为代词数与总词数的比值,第十五项项特征值均为副词数与总词数的比值,第十六项特征值均为介词数与总词数的比值,第十七项特征值均为连词数与总词数的比值,第十八项特征值均为助词数与总词数的比值,第十九项特征值均为叹词数与总词数的比值,第二十项特征值均为拟声词数与总词数的比值。
根据本发明的一个具体实施方式,可以进一步增加或删除测试图片文字描述特征向量与测试文章文字描述特征向量中的特征值,但增加或删除特征值后的测试图片文字描述特征向量与测试文章文字描述特征向量的维数以及其中各项特征值的含义及顺序仍需保持一致。
根据本发明的一个具体实施方式,用户测试图片文字描述特征值生成模块获取用户测试图片描述文本,生成用户测试图片文字描述特征值;所述用户测试图片文字描述特征值与测试图片文字描述特征值所包含的内容一致,在此不再赘述。用户测试图片文字描述特征向量生成模块根据该用户测试图片文字描述特征值计算用户测试图片文字描述特征向量;当所述测试图片文字描述特征向量的维数为n时,当前用户USER的对于编号ID的图片的测试图片文字描述的特征向量可表示为TPCVE_ID_USER=[TPC_1_USER,…,TPC_m_USER,…,TPC_n_USER],其中,TPC_1_USER为当前用户USER的用户测试图片文字描述特征向量中的第一项值,TPC_m_USER为当前用户USER的用户测试图片文字描述特征向量中的第m项值,TPC_n_USER为当前用户USER的用户测试图片文字描述特征向量中的第n项值。
用户图片写作风格特征向量生成模块计算该用户测试图片文字描述特征向量TPCVE_ID_USER与该测试图片对应的测试图片基准特征向量TPCVE_ID之间的差值,使用该差值(TPCVE_ID_USER-TPCVE_ID)作为该用户图片写作风格特征向量TPCVE_USER。
T P C V E _ U S E R = [ T P C _ 1 _ U S E R - Σ i = 1 k T P C _ 1 i * W 1 , i , ... T P C _ m _ U S E R - Σ i = 1 k T P C _ m i * W m , i , ... , T P C _ n _ U S E R - Σ i = 1 k T P C _ n i * W n , i ]
根据本发明的一个具体实施方式,用户测试文章文字描述特征值生成模块获取用户测试文章描述文本,生成用户测试文章文字描述特征值;所述用户测试文章文字描述特征值与测试文章文字描述特征值所包含的内容一致,在此不再赘述。用户测试文章文字描述特征向量生成模块根据该用户测试文章文字描述特征值计算用户测试文章文字描述特征向量;当所述测试文章文字描述特征向量的维数为n时,当前用户USER的对于编号ID的文章的测试文章文字描述的特征向量可表示为:TTCVE_ID_USER=[TTC_1_USER,…,TTC_m_USER,…,TTC_n_USER],其中,TTC_1_USER为当前用户USER的用户测试文章文字描述特征向量中的第一项值,TTC_m_USER为当前用户USER的用户测试文章文字描述特征向量中的第m项值,TTC_n_USER为当前用户USER的用户测试文章文字描述特征向量中的第n项值。
用户文章写作风格特征向量生成模块计算该用户测试文章文字描述特征向量TTCVE_ID_USER与该测试文章对应的测试文章基准特征向量TPCVE_ID之间的差值,使用该差值(TTCVE_ID_USER-TTCVE_ID)作为该用户文章写作风格特征向量TTCVE_USER。
T T C V E _ U S E R = [ T T C _ 1 _ U S E R - Σ i = 1 k T T C _ 1 i * W 1 , i , ... T T C _ m _ U S E R - Σ i = 1 k T T C _ m i * W m , i , ... , T T C _ n _ U S E R - Σ i = 1 k T T C _ n i * W n , i ]
根据本发明的一个具体实施方式,当采用多幅测试图片或多篇测试文章时,或同时采用一幅或多幅测试图片以及一篇或多篇测试文章时,用户测试图片文字描述特征值生成模块和用户测试文章文字描述特征值生成模块分别根据用户的每篇测试图片描述文本以及测试文章描述文本生成用户测试图片和/或文章文字描述特征值,用户测试图片文字描述特征向量生成模块和用户测试文章文字描述特征向量生成模块分别根据用户测试图片和/或文章文字描述特征值生成用户测试图片和/或文章文字描述特征向量;用户图片写作风格特征向量生成模块和用户文章写作风格特征向量生成模块分别计算各用户测试图片和/或文章文字描述特征向量与对应的测试图片和/或文章基准特征向量之间的差值;对各差值进行加权运算分别得到用户的图片写作风格特征向量TPCVE_USER以及文章写作风格特征向量TTCVE_USER;用户写作风格特征向量生成模块对用户的图片写作风格特征向量TPCVE_USER以及文章写作风格特征向量TTCVE_USER进行加权运算得到用户写作风格特征向量TVE_USER;所述加权运算的权值可以根据实际需要进行选取。
TVE_USER=TPCVE_USER*WP+TTCVE_USER*WT
其中,WP为用户图片写作风格特征向量TPCVE_USER加权系数;WT为用户文章写作风格特征向量TTCVE_USER加权系数。当用户仅进行图片写作测试或文章写作测试时,可将参与项目的加权系数设置为1,未参与项目的加权系数设置为0。优选地,权值可以选取为相等。
用户写作风格特征向量可表示为:TVE_USER=[TVE_1,…,TVE_m,…,TVE_n],其中,TVE_1为用户写作风格特征向量中的第一项值,TVE_m为用户写作风格特征向量中的第m项值,TVE_n为用户写作风格特征向量中的第n项值。
根据本发明的一个具体实施方式,用户检测模式确定模块用于进一步提示用户上传待审核文档;待审核文档特征值生成模块用于生成该待审查文档的待审核文档特征值。所述待审核文档特征值包括但不限于:中文字数,外文字数,总词数,实词数,虚词数,段落数,段落长度分布情况,句子数,句子长度分布情况,同义词、近义词扩展情况,虚词使用情况,标点符号使用情况,词性使用情况。根据本发明的一个具体实施方式,中文字数是指每一篇待审核文档中除标点符号之外所包含的中文字符数,中文每一字记为一字符;外文字数是指每一篇待审核文档中除标点符号之外所包含的外文字符数,外文每一词记为一字符;词数是指对每一篇待审核文档进行分词后得到的词总数,其中中文分词可使用系统自带的分词库进行分词,外文可根据外文书写习惯、直接利用每词之间的空格进行分词;实词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇待审核文档中的实词数量,实词数可进一步分为中文实词数与外文实词数,其中,中文实词数与外文实词数的总和等于实词数;虚词数是指分词后根据分词结果与分词库中的词性进行比较得到每一篇待审核文档中的虚词数量,进一步虚词数可分为中文虚词数与外文虚词数,其中,中文虚词数与外文虚词数的总和等于虚词数;段落数是指每一篇待审核文档中的段落数量;段落长度分布情况是指每一篇待审核文档中每个段落中所包含的词数以及句子数;句子数是指每一篇待审核文档中的句子数量;句子长度分布情况是指每一篇待审核文档中每个句子中所包含的词数;同义词、近义词扩展情况是指将每一篇待审核文档中的分词结果与同义近义词库进行比对,将含义相同或相近的分词构成一个集合,计算每个集合中的词数量,由此反映出该篇待审核文档的作者的同义词、近义词写作习惯,其中如果同义词或近义词集合中所包含的词数越多,表明该作者的写作风格倾向于采用同义词或近义词扩展,如果同义词或近义词集合中所包含的词数越少,表明该作者的写作风格倾向于不采用同义词或近义词扩展;虚词使用情况是指每一篇待审核文档中虚词使用的统计情况,包括但不限于每一篇待审核文档中虚词使用的统计排名,每个不同虚词之间间隔的词数,每个相同虚词之间间隔的词数;例如还可以进一步统计“的”、“地”、“得”三个结构助词的使用情况,由此反映出该篇待审核文档的作者对于“的”、“地”、“得”三个结构助词是否区分使用;标点符号使用情况是指每一篇待审核文档中标点符号使用的统计情况,包括但不限于每一篇待审核文档中标点使用的统计排名,每个不同标点符号之间间隔的词数,每个相同标点符号之间间隔的词数;词性使用情况是指分词后根据分词结果与分词库中的词性进行比较得到每一篇待审核文档中各词性分词的统计情况,例如分别得到名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词的数量,以及各词性数量与该篇待审核文档总词数的比值。
根据本发明的一个具体实施方式,待审核文档特征值特征向量生成模块根据待审核文档特征值生成待审核文档特征向量。根据本发明的一个具体实施方式,由系统指定所述待审核文档的特征向量的维数,以及特征向量中各项的具体内容以及排列的顺序;待审核文档的特征向量的维数,以及特征向量中各项的具体内容以及排列的顺序应当与测试图片基准特征向量以及测试文章基准特征向量的维数以及其中各项特征值的含义及顺序仍需保持一致。当所述待审核文档的特征向量的维数为n时,可表示为TDCVE_USER=[TDC_1,…,TDC_m,…,TDC_n],其中,TDC_1为待审核文档的特征向量中的第一项值,TDC_m为待审核文档的特征向量中的第m项值,TDC_n为待审核文档的特征向量中的第n项值。
优选地,所述待审核文档的特征向量包括中文字数与总词数的比值,外文字数与总词数的比值,实词数与总词数的比值,虚词数与总词数的比值,总词数与段落数的比值,最长段落词数,同义词、近义词扩展数与总词数的比值,标点符号使用数与总词数的比值,名词数与总词数的比值,动词数与总词数的比值,形容词数与总词数的比值,数词数与总词数的比值,量词数与总词数的比值,代词数与总词数的比值,副词数与总词数的比值,介词数与总词数的比值,连词数与总词数的比值,助词数与总词数的比值,叹词数与总词数的比值,拟声词数与总词数的比值。
用户写作风格相似度计算模块用于计算当前用户写作风格相似度,可通过以下公式计算:
Sim T ( U S E R ) = D I S T ( T D C V E _ U S E R - T V E _ U S E R ) = ( T D C _ 1 - T V C _ 1 ) 2 + ... + ( T D C _ m - T V C _ m ) 2 + ... + ( T D C _ n - T V C _ n ) 2
用户写作风格相似度判断模块将当前用户写作风格相似度SimT(USER)与系统预设的自我审核门限进行比较;当用户写作风格相似度SimT(USER)高于所述自我审核门限时,即可认为当前用户提交的待审核文档与用户写作风格不一致;当用户写作风格相似度SimT(USER)低于所述自我审核门限时,即可认为当前用户提交的待审核文档与用户写作风格一致。
所述自我审核门限为系统提前设置。自我审核门限值设置过高,则容易造成误判当前用户提交的待审核文档与用户写作风格不一致;自我审核门限值设置过低,则容易造成误判当前用户提交的待审核文档与用户写作风格一致。通常,所述自我审核门限值时由系统提前通过实验进行选取验证,并且可以由系统根据运行情况随时进行调整。
根据本发明的一个具体实施方式,可分别设置第一自我审核门限和第二自我审核门限;所述第一自我审核门限高于第二自我审核门限;当用户写作风格相似度SimT(USER)高于所述第一自我审核门限时,即可认为当前用户提交的待审核文档与用户写作风格不一致;当用户写作风格相似度SimT(USER)低于所述第二自我审核门限时,即可认为当前用户提交的待审核文档与用户写作风格一致;当用户写作风格相似度SimT(USER)高于或等于所述第二自我审核门限,且低于或等于所述第一自我审核门限;进一步验证用户写作风格。
所述第一自我审核门限及第二自我审核门限为系统提前设置。如果第一自我审核门限值设置过高,则容易造成误判当前用户提交的待审核文档与用户写作风格不一致;第二自我审核门限值设置过低,则容易造成误判当前用户提交的待审核文档与用户写作风格一致;第一自我审核门限及第二自我审核门限之间区间设置过大,则容易造成过多地再次验证用户写作风格。通常,所述第一自我审核门限值及第二自我审核门限值由系统提前通过实验进行选取验证,并且可以由系统根据运行情况随时进行调整。
根据本发明的一个具体实施方式,所述进一步验证用户写作风格是指用户写作风格结构助词判断模块;判断待审核文档以及用户测试图片描述文本和/或用户测试文章描述文本中的“的”、“地”、“得”三个结构助词的使用情况,由此反映出该篇待审核文档的作者以及当前用户对于“的”、“地”、“得”三个结构助词的区分程度。所述用户写作风格结构助词判断模块判断待审核文档“的”、“地”、“得”三个结构助词的使用情况是指,统计待审核文档全文中的“的”、“地”、“得”的使用次数,分别记为T1、T2和T3;进一步统计待审核文档全文中“的”之后所跟分词的词性为名词的次数,记为D1;统计待审核文档全文中“地”之后所跟分词的词性为动词的次数,记为D2;统计待审核文档全文中“地”之后所跟分词的词性为形容词的次数,记为D3;计算“的”之后所跟分词的词性为名词的次数与全文中“的”的使用总次数的比值D1/T1;计算“地”之后所跟分词的词性为动词的次数与全文中“地”的使用总次数的比值D2/T2;计算“得”之后所跟分词的词性为动词的次数与全文中“得”的使用总次数的比值D3/T3;计算“的”、“地”、“得”区分系数DC_TD。所述区分系数DC_TD的数值大于或等于0,小于或等于3。
D C _ T D = Σ i = 1 3 ( D i / T i )
所述用户测试图片描述文本和/或用户测试文章描述文本中“的”、“地”、“得”三个结构助词的使用情况是指,统计用户测试图片描述文本和/或用户测试文章描述文本全文(如该用户测试了多幅图片和/或多篇文章,则将所有的描述文本合并作为全文)中的“的”、“地”、“得”的使用次数,分别记为T1’、T2’和T3’;进一步统计待审核文档全文中“的”之后所跟分词的词性为名词的次数,记为D1’;统计待审核文档全文中“地”之后所跟分词的词性为动词的次数,记为D2’;统计待审核文档全文中“地”之后所跟分词的词性为形容词的次数,记为D3’;计算“的”之后所跟分词的词性为名词的次数与全文中“的”的使用总次数的比值D1’/T1’;计算“地”之后所跟分词的词性为动词的次数与全文中“地”的使用总次数的比值D2’/T2’;计算“得”之后所跟分词的词性为动词的次数与全文中“得”的使用总次数的比值D3’/T3’;计算“的”、“地”、“得”区分系数DC_TPT。所述区分系数DC_TPT的数值大于或等于0,小于或等于3。
D C _ T P T = Σ i = 1 3 ( D i ′ / T i ′ )
用户写作风格结构助词判断模块;计算区分系数DC_TD和区分系数DC_TPT之间的偏移度DC-SC,即对区分系数DC_TD和区分系数DC_TPT两者之差的绝对值进行归一化运算。
D C _ S C = | D C _ T D - D C _ T P T | 3 × 100 %
当DC_SC的取值小于或等于偏移度DC-SC的判断门限时,则用户写作风格结构助词判断模块判断待审核文档的作者与测试图片描述文本和/或测试文章描述文本的用户在“的”、“地”、“得”三个结构助词的使用上风格一致;当DC_SC的取值大于偏移度DC-SC的判断门限时,则用户写作风格结构助词判断模块判断待审核文档的作者与测试图片描述文本和/或测试文章描述文本的用户在“的”、“地”、“得”三个结构助词的使用上风格不一致。偏移度DC-SC的判断门限值由系统提前进行设置,并可根据实际需要随时进行调整。通过系统前期运行的实验数据可知,当DC_SC的取值小于或等于10%时,能较好地反映待审核文档的作者与测试图片描述文本和/或测试文章描述文本的用户在“的”、“地”、“得”三个结构助词的使用上风格一致;当DC_SC的取值大于10%时,则可认为待审核文档的作者与测试图片描述文本和/或测试文章描述文本的用户在“的”、“地”、“得”三个结构助词的使用上风格不一致。
用户写作风格判断模块用于当用户写作风格相似度SimT(USER)高于或等于所述第二自我审核门限,且低于或等于所述第一自我审核门限;进一步通过偏移度DC-SC判断当前用户提交的待审核文档与用户写作风格是否一致;当偏移度DC-SC大于偏移度DC-SC的判断门限时,认为当前用户提交的待审核文档与用户写作风格不一致;当偏移度DC-SC小于或等于偏移度DC-SC的判断门限时,即可认为当前用户提交的待审核文档与用户写作风格一致。
根据本发明的一个具体实施方式,用户访问方式检测模块提示用户上传待鉴定文档。
用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;在对待鉴定文档进行分词处理时,需要采用与对比库的素材进行分词相同的处理流程。
根据本发明的一个具体实施方式,待鉴定文档分词词性分类模块;用于进一步获得分词结果对应的词性。分词词性分类方式与对比库收录的素材的分词分类方式一致。
根据本发明的一个具体实施方式,待鉴定文档分词特征值生成模块用于生成待鉴定文档分词特征值;统计每一个分词在对应待鉴定文档中出现的数量,得到每一个分词对应的分词特征值WCV_TBI=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该待鉴定文档中出现的总次数。优选地,考虑到每一个分词的词性,得到分词词性特征值WCCV_TBI=[W_ID,W_N,W_CHAR],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该特定分词在该待鉴定文档中的分词总次数,W_CHAR表示该分词的词性。
根据本发明的一个具体实施方式,待鉴定文档分词紧密系数生成模块用于生成待鉴定文档分词紧密系数。根据本发明的一个具体实施方式,每一个分词对应的分词紧密系数可以表示为WGC_TBI=[G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)],其中,G_W_ID_1表示该分词在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_W_ID_2表示该分词在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_W_ID_(W_N-1)表示该分词在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量;G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)即为该分词对应的分词紧密系数。根据本发明的一个具体实施方式,可以进一步将每一个分词对应的分词紧密系数以向量的形式表示为分词紧密系数特征向量WGCVE_TBI=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该特定分词在该待鉴定文档中的分词总次数,W_CHAR表示该分词的词性,G_W_ID_1表示该分词在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_W_ID_2表示该分词在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_W_ID_(W_N-1)表示该分词在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量。其中,G_W_ID_1,G_W_ID_2,…,G_W_ID_(W_N-1)即为该分词对应的分词词性特征向量紧密系数。通过分词特征向量紧密系数,可以获知特定分词在对应待鉴定文档中的整体分布情况,从而在待鉴定文档整体篇幅过长,或者描述观点分散的情况下,避免根据分词总次数W_N或根据(W_N/分词自由向量维数WFV)筛选分词特征向量而遗漏关键分词特征值。优选地,还可以根据分词特征向量紧密系数提取出某一待鉴定文档内特定部分用于对比。
根据本发明的一个具体实施方式,待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI。当待鉴定文档的篇幅较短或者其中的分词结果较少时,所得到的分词自由向量维数WFV_TBI较少;当待鉴定文档的篇幅较长或者其中的分词结果较多时,所得到的分词自由向量维数WFV_TBI较多。
用户检测模式确定模块判断当前用户检测模式为扩展抄袭鉴定模式时,待鉴定文档分词组模块用于对待鉴定文档进行分词,得到分词组结果;其中含义相同或相近的分词构成一组,以组为单位进行编号。多个意思相同或相近的分词对应于一个分词组编号;在对待鉴定文档进行分词处理时,需要采用与对比库的素材进行分词相同的处理流程。
根据本发明的一个具体实施方式,待鉴定文档分词组词性分类模块;用于进一步获得分词组结果对应的词性。分词组词性分类方式与对比库收录的素材的分词组分类方式一致。
根据本发明的一个具体实施方式,待鉴定文档分词组特征值生成模块用于生成待鉴定文档分词组特征值;统计每一个分词组在对应待鉴定文档中出现的数量,得到每一个分词组对应的分词特征值WGCV_TBI=[WG_ID,WG_N],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该分词组在该待鉴定文档中出现的总次数。优选地,考虑到每一个分词组的词性,得到分词组词性特征值WGCCV_TBI=[WG_ID,WG_N,WG_CHAR],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该特定分词组在该待鉴定文档中的分词总次数,WG_CHAR表示该分词组的词性。
根据本发明的一个具体实施方式,待鉴定文档分词组紧密系数生成模块用于生成待鉴定文档分词紧密系数。根据本发明的一个具体实施方式,每一个分词组对应的分词紧密系数可以表示为WGGC_TBI=[G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中,G_WG_ID_1表示该分词组在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_WG_ID_2表示该分词组在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_WG_ID_(WG_N-1)表示该分词组在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量;G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)即为该分词组对应的分词组紧密系数。根据本发明的一个具体实施方式,可以进一步将每一个分词组对应的分词组紧密系数以向量的形式表示为分词组紧密系数特征向量WGGCVE_TBI=[WG_ID,WG_N,WG_CHAR,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)],其中WG_ID表示该分词组在分词库中的唯一编号,WG_N表示该特定分词组在该待鉴定文档中的分词总次数,WG_CHAR表示该分词组的词性,G_WG_ID_1表示该分词组在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_WG_ID_2表示该分词组在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_WG_ID_(WG_N-1)表示该分词组在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量。其中,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_(WG_N-1)即为该分词组对应的分词词性特征向量紧密系数。通过分词组特征向量紧密系数,可以获知特定分词组在对应待鉴定文档中的整体分布情况,从而在待鉴定文档整体篇幅过长,或者描述观点分散的情况下,避免根据分词总次数W_N或根据(W_N/分词自由向量维数WFV)筛选分词特征向量而遗漏关键分词特征值。优选地,还可以根据分词特征向量紧密系数提取出某一待鉴定文档内特定部分用于对比。
根据本发明的一个具体实施方式,待鉴定文档分词组自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词组自由向量维数WGFV_TBI。当待鉴定文档的篇幅较短或者其中的分词结果较少时,所得到的分词组自由向量维数WGFV_TBI较少;当待鉴定文档的篇幅较长或者其中的分词结果较多时,所得到的分词组自由向量维数WGFV_TBI较多。
用户检测模式确定模块判断当前用户检测模式为多语种抄袭鉴定模式时,待鉴定文档中外文分词组模块用于对待鉴定文档进行分词,得到中外文分词组结果;其中含义相同或相近的中外文分词构成一组,以组为单位进行编号。多个意思相同或相近的中外文分词对应于一个中外文分词组编号。在对待鉴定文档进行分词处理时,需要采用与对比库的素材进行分词相同的处理流程。
根据本发明的一个具体实施方式,待鉴定文档分词组词性分类模块;用于进一步获得分词组结果对应的词性。分词组词性分类方式与对比库收录的素材的分词组分类方式一致。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组特征值生成模块用于生成待鉴定文档中外文分词组特征值;统计每一个中外文分词组在对应待鉴定文档中出现的数量,得到每一个中外文分词组对应的分词特征值WFGCV_TBI=[WFG_ID,WFG_N],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该中外文分词组在该待鉴定文档中出现的总次数。优选地,考虑到每一个中外文分词组的词性,得到中外文分词组词性特征值WFGCCV_TBI=[WFG_ID,WFG_N,WFG_CHAR],其中FWG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该特定中外文分词组在该待鉴定文档中的分词总次数,WFG_CHAR表示该中外文分词组的词性。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组紧密系数生成模块用于生成待鉴定文档中外文分词紧密系数。根据本发明的一个具体实施方式,每一个中外文分词组对应的中外文分词紧密系数可以表示为WFGGC_TBI=[G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中,G_WFG_ID_1表示该中外文分词组在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_WFG_ID_2表示该中外文分词组在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_WFG_ID_(WFG_N-1)表示该中外文分词组在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量;G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)即为该中外文分词组对应的中外文分词组紧密系数。根据本发明的一个具体实施方式,可以进一步将每一个中外文分词组对应的中外文分词组紧密系数以向量的形式表示为中外文分词组紧密系数特征向量WFGGCVE_TBI=[WFG_ID,WFG_N,WFG_CHAR,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)],其中WFG_ID表示该中外文分词组在分词库中的唯一编号,WFG_N表示该特定中外文分词组在该待鉴定文档中的分词总次数,WFG_CHAR表示该中外文分词组的词性,G_WFG_ID_1表示该中外文分词组在该待鉴定文档中第一次出现与第二次出现之间所间隔的分词数量,G_WFG_ID_2表示该中外文分词组在该待鉴定文档中第二次出现与第三次出现之间所间隔的分词数量,G_WFG_ID_(WG_N-1)表示该中外文分词组在该待鉴定文档中第W_N-1次出现与第W_N次出现之间所间隔的分词数量。其中,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_(WFG_N-1)即为该中外文分词组对应的分词词性特征向量紧密系数。通过中外文分词组特征向量紧密系数,可以获知特定中外文分词组在对应待鉴定文档中的整体分布情况。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组自由向量维数确定模块,用于根据待鉴定文档的分词结果确定中外文分词组自由向量维数WFGFV_TBI。当待鉴定文档的篇幅较短或者其中的分词结果较少时,所得到的中外文分词组自由向量维数WFGFV_TBI较少;当待鉴定文档的篇幅较长或者其中的分词结果较多时,所得到的分词组自由向量维数WFGFV_TBI较多。
根据本发明的一个具体实施方式,待鉴定文档分词精简向量维数生成模块用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简,生成待鉴定文档分词精简向量维数RWV_TBI。所述分词精简向量维数RWV_TBI由所述系统指定。优选地,系统指定分词精简向量维数RWV_TBI为500。优选地,系统指定分词精简向量维数RWV_TBI为800。优选地,精简系统指定分词精简向量维数RWV_TBI为1000。
根据本发明的一个具体实施方式,待鉴定文档分词精简向量维数生成模块采用等间隔抽取法对待鉴定文档分词自由向量维数WFV_TBI进行精简。精简过程如下:判断待鉴定文档分词自由向量维数WFV_TBI是否大于待鉴定文档分词精简向量维数RWV_TBI,如果是,则将待鉴定文档分词自由向量维数WFV_TBI除以精简系统指定待鉴定文档分词精简向量维数RWV_TBI,并对所得到的商值进行上取整运算,进一步得到待鉴定文档精简系数REDU_TBI;则在待鉴定文档分词自由向量维数WFV_TBI所对应的特征值中每间隔REDU_TBI-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于待鉴定文档分词精简向量维数RWV_TBI;当所提取的特征值的数量等于待鉴定文档分词精简向量维数RWV_TBI时,则完成待鉴定文档分词自由向量维数WFV_TBI精简;当所提取的特征值的数量小于待鉴定文档分词精简向量维数RWV_TBI时,则计算待鉴定文档分词精简向量维数RWV_TBI与特征值数量的差值;在未被提取的特征值中随机提取与待鉴定文档分词精简向量维数RWV_TBI与特征值的差值数量相等的特征值,完成待鉴定文档分词自由向量维数WFV_TBI的精简。
根据本发明的一个具体实施方式,待鉴定文档分词精简向量维数生成模块采用词性筛选法对待鉴定文档分词自由向量维数WFV_TBI进行精简。精简过程如下:将特征值按照对应的分词词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现待鉴定文档的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_TBI_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWV_TBI_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWV_TBI_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWV_TBI_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWV_TBI_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWV_TBI_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2)的值RWV_TBI_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWV_TBI_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词精简向量维数RWV_TBI-AMOUNT_A1的值RWV_TBI_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWV_TBI_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与待鉴定文档分词精简向量维数RWV_TBI数量相等的特征值,完成此次精简。
对于计算待鉴定文档分词精简向量维数RWV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_TBI_S_V大于0的情形,即意味该待鉴定文档篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
待鉴定文档分词自由向量维数WFV_TBI小于待鉴定文档分词精简向量维数RWV_TBI时,表示本身维数小,则其他维数下的量值相当于0,可以在系统中直接标注,单独收录处理。
根据本发明的一个具体实施方式,待鉴定文档分词组精简向量维数生成模块用于对待鉴定文档的分词组自由向量维数WGFV_TBI进行精简,生成待鉴定文档分词组精简向量维数RGWV_TBI。所述分词组精简向量维数RWGV_TBI由所述系统指定。优选地,系统指定分词组精简向量维数RWGV_TBI为500。优选地,系统指定分词组精简向量维数RWGV_TBI为800。优选地,精简系统指定分词组精简向量维数RWGV_TBI为1000。
根据本发明的一个具体实施方式,待鉴定文档分词组精简向量维数生成模块采用等间隔抽取法对待鉴定文档分词组自由向量维数WGFV_TBI进行精简。精简过程如下:判断待鉴定文档分词组自由向量维数WGFV_TBI是否大于待鉴定文档分词组精简向量维数RWGV_TBI,如果是,则将待鉴定文档分词组自由向量维数WGFV_TBI除以精简系统指定待鉴定文档分词组精简向量维数RWGV_TBI,并对所得到的商值进行上取整运算,进一步得到精简系数REDU_TBI;则在待鉴定文档分词组自由向量维数WGFV所对应的特征值中每间隔REDU_TBI-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于待鉴定文档分词组精简向量维数RWGV_TBI;当所提取的特征值的数量等于待鉴定文档分词组精简向量维数RWGV_TBI时,则完成待鉴定文档分词组自由向量维数WGFV_TBI精简;当所提取的特征值的数量小于待鉴定文档分词组精简向量维数RWGV_TBI时,则计算待鉴定文档分词组精简向量维数RWGV_TBI与特征值数量的差值;在未被提取的特征值中随机提取与待鉴定文档分词组精简向量维数RWGV_TBI与特征值的差值数量相等的特征值,完成待鉴定文档分词组自由向量维数WGFV_TBI的精简。
根据本发明的一个具体实施方式,待鉴定文档分词组精简向量维数生成模块采用词性筛选法对待鉴定文档分词组自由向量维数WGFV_TBI进行精简。精简过程如下:将特征值按照对应的分词组词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现待鉴定文档的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWGV_TBI_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWGV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWGV_TBI_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWGV_TBI_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWGV_TBI_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWGV_TBI_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWGV_TBI_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2)的值RWV_TBI_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWGV_TBI_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档分词组精简向量维数RWGV_TBI-AMOUNT_A1的值RWGV_TBI_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWGV_TBI_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与待鉴定文档分词组精简向量维数RWGV_TBI数量相等的特征值,完成此次精简。
对于计算待鉴定文档分词组精简向量维数RWGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWGV_TBI_S_V大于0的情形,即意味该待鉴定文档篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
待鉴定文档分词组自由向量维数WGFV_TBI小于待鉴定文档分词组精简向量维数RWGV_TBI时,表示本身维数小,则其他维数下的量值相当于0,可以在系统中直接标注,单独收录处理。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组精简向量维数生成模块用于对待鉴定文档的中外文分词组自由向量维数WFGFV_TBI进行精简,生成待鉴定文档中外文分词组精简向量维数RFGWV_TBI。所述中外文分词组精简向量维数RWFGV_TBI由所述系统指定。优选地,系统指定中外文分词组精简向量维数RWFGV_TBI为500。优选地,系统指定中外文分词组精简向量维数RWFGV_TBI为800。优选地,精简系统指定中外文分词组精简向量维数RWFGV_TBI为1000。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组精简向量维数生成模块采用等间隔抽取法对待鉴定文档中外文分词组自由向量维数WFGFV_TBI进行精简。精简过程如下:判断待鉴定文档中外文分词组自由向量维数WFGFV_TBI是否大于待鉴定文档中外文分词组精简向量维数RWFGV_TBI,如果是,则将待鉴定文档中外文分词组自由向量维数WFGFV_TBI除以精简系统指定待鉴定文档中外文分词组精简向量维数RWFGV_TBI,并对所得到的商值进行上取整运算,进一步得到精简系数REDU_TBI;则在待鉴定文档中外文分词组自由向量维数WFGFV所对应的特征值中每间隔REDU_TBI-1个提取一个特征值;当所有特征值提取完毕后,判断所提取的特征值的数量是否等于待鉴定文档中外文分词组精简向量维数RWFGV_TBI;当所提取的特征值的数量等于待鉴定文档中外文分词组精简向量维数RWFGV_TBI时,则完成待鉴定文档中外文分词组自由向量维数WFGFV_TBI精简;当所提取的特征值的数量小于待鉴定文档中外文分词组精简向量维数RWFGV_TBI时,则计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI与特征值数量的差值;在未被提取的特征值中随机提取与待鉴定文档中外文分词组精简向量维数RWFGV_TBI与特征值的差值数量相等的特征值,完成待鉴定文档中外文分词组自由向量维数WFGFV_TBI的精简。
根据本发明的一个具体实施方式,待鉴定文档中外文分词组精简向量维数生成模块采用词性筛选法对待鉴定文档中外文分词组自由向量维数WFGFV_TBI进行精简。精简过程如下:将特征值按照对应的中外文分词组词性进行分类;根据本发明的一个具体实施方式,将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值。通常认为,实词对应的特征值的相似度对比中所起的作用更大,其中专业术语名词较之普通名词更能体现待鉴定文档的有效内容。分别统计各类别下特征值的数量AMOUNT_A1(A1类实词特征值的数量)、AMOUNT_A2(A2类实词特征值的数量)、AMOUNT_B(B类实词特征值的数量)、AMOUNT_C(C类实词特征值的数量)、AMOUNT_D(D类实词特征值的数量)、AMOUNT_V(V类实词特征值的数量)。计算待鉴定文档分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWFGV_TBI_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWFGV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWFGV_TBI_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWFGV_TBI_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWFGV_TBI_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWFGV_TBI_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWFGV_TBI_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2)的值RWV_TBI_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWFGV_TBI_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-AMOUNT_A1的值RWGV_TBI_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWFGV_TBI_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与待鉴定文档分词组精简向量维数RWFGV_TBI数量相等的特征值,完成此次精简。
对于计算待鉴定文档中外文分词组精简向量维数RWFGV_TBI-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWFGV_TBI_S_V大于0的情形,即意味该待鉴定文档篇幅较小或者信息量较少,因此不适合采用特征值进行对比。
待鉴定文档中外文分词组自由向量维数WFGFV_TBI小于待鉴定文档中外文分词组精简向量维数RWFGV_TBI时,表示本身维数小,则其他维数下的量值相当于0,可以在系统中直接标注,单独收录处理。
优选地,为便于相似度比对,系统中选用的素材分词精简向量维数RWV与待鉴定文档的分词精简向量维数RWV_TBI应相等;素材分词组精简向量维数RWGV与待鉴定文档的分词组精简向量维数RWGV_TBI应相等;素材中外文分词组精简向量维数RWFGV与待鉴定文档的中外文分词组精简向量维数RWFGV_TBI应相等。
根据本发明的一个具体实施方式,待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中
WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值。
根据本发明的一个具体实施方式,用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV。
需要注意的是,尽管在分词特征向量WVE_RWV_TBI以及WVE_RWV中都采用W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,并将该次数作为该分词的特征值,但需要注意的是,分词特征向量WVE_RWV_TBI中的W_IDi有很大可能与WVE_RWV中的W_IDi并不相同。因此在进行相似度对比时,需要将两个分词特征向量的维度调整为一致。
根据本发明的一个具体实施方式,待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;假设分词库中的分词编号总数为W,则需要插入的分词编号个数为W-RWV_TBI,由此得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_NTBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW]。
根据本发明的一个具体实施方式,素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;假设分词库中的分词编号总数为W,则需要插入的分词编号个数为W-RWV,由此得到扩展的分词特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,W_IDW,W_NW]。
通过上述方式,将待鉴定文档以及对比库中的素材的分词特征向量的维数都扩展到W,并通过按照分词库中的编号进行升序或降序进行统一排列,从而两个分词特征向量对应的特征值的维度是一致的。
普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:
S i m ( W V E _ R W V _ T B I , W V E _ R W V ) = S i m ( W V E _ R W V _ T B I _ E X T , W V E _ R W V _ E X T ) = 2 Σ i = 1 w W _ N T B I _ E X T _ i × W _ N E X T _ i Σ i = 1 w W _ N T B I _ E X T _ i 2 + Σ i = 1 w W _ N E X T _ i 2 + Σ i = 1 w W _ N T B I _ E X T _ i 2 × Σ i = 1 w W _ N E X T _ i 2
根据本发明的一个具体实施方式,用户检测模式确定模块判断当前用户检测模式为扩展抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词组特征向量生成模块生成待鉴定文档的分词组特征向量WVE_RWGV_TBI;WVE_RWGV_TBI=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV_TBI,WG_NRWGV_TBI],待鉴定文档的分词组特征向量的维数为RWGV_TBI;分词组特征向量生成模块生成对比库中素材的分词组特征向量WVE_RWGV;WVE_RWGV=[WG_ID1,WG_N1,...,WG_IDi,WG_Ni,...,WG_IDRWGV,WG_NRWGV];其中WG_IDi表示分词组在分词库中的唯一编号,WG_Ni表示该分词组在该待鉴定文档中出现的总次数,将该次数作为该分词组的特征值。其中,待鉴定文档的分词组特征向量的维数RWGV_TBI等于分词组特征向量的维数RWGV。
与普通抄袭鉴定模式的处理过程类似,根据本发明的一个具体实施方式,扩展抄袭鉴定待鉴定文档特征向量调整模块,调整得到扩展的待鉴定文档分词组特征向量WVE_RWGV_TBI_EXT=[WG_IDTBI_EXT_1,WG_NTBI_EXT_1,...,WG_IDTBI_EXT_i,WG_NTBI_EXT_i,...,WG_IDBI_EXT_RWV_TBI,WG_NTBI_EXT_RWGV_TBI,...,WG_IDW,WG_NW];素材特征向量调整模块,调整得到扩展的分词组特征向量WVE_RWGV_EXT=[WG_IDEXT_1,WG_NEXT_1,...,WG_IDEXT_i,WG_NEXT_i,...,WG_IDEXT_RWV,WG_NEXT_RWGV,...,WG_IDW,W_NW]。扩展的分词组特征向量WVE_RWGV_TBI_EXT=[WG_IDTBI_EXT_1,WG_NTBI_EXT_1,...,WG_IDTBI_EXT_i,WG_NTBI_EXT_i,...,WG_IDTBI_EXT_RWGV_TBI,WG_NTBI_EXT_RWGV_TBI,...,WG_IDW,WG_NW]。
通过上述方式,将待鉴定文档以及对比库中的素材的分词特征向量的维数都扩展到W,并通过按照分词库中的编号进行升序或降序进行统一排列,从而两个分词特征向量对应的特征值的维度是一致的。
扩展抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:
S i m ( W V E _ R W G V _ T B I , W V E _ R W G V ) = S i m ( W V E _ R W G V _ T B I _ E X T , W V E _ R W G V _ E X T ) = 2 Σ i = 1 w W G _ N T B I _ E X T _ i × W G _ N E X T _ i Σ i = 1 w W G _ N T B I _ E X T _ i 2 + Σ i = 1 w W G _ N E X T _ i 2 + Σ i = 1 w W G _ N T B I _ E X T _ i 2 × Σ i = 1 w W G _ N E X T _ i 2
根据本发明的一个具体实施方式,用户检测模式确定模块判断当前用户检测模式为多语种抄袭鉴定模式时,进行相似度比对时,待鉴定文档中外文分词组特征向量生成模块生成待鉴定文档的中外文分词组特征向量WVE_RWFGV_TBI;WVE_RWFGV_TBI=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV_TBI,WFG_NRWFGV_TBI],待鉴定文档的中外文分词组特征向量的维数为RWFGV_TBI;分词组特征向量生成模块生成对比库中素材的中外文分词组特征向量WVE_RWFGV;WVE_RWFGV=[WFG_ID1,WFG_N1,...,WFG_IDi,WFG_Ni,...,WFG_IDRWFGV,WFG_NRWFGV];其中WFG_IDi表示中外文分词组在分词库中的唯一编号,WFG_Ni表示该中外文分词组在该待鉴定文档中出现的总次数,将该次数作为该中外文分词组的特征值。其中,待鉴定文档的中外文分词组特征向量的维数RWFGV_TBI等于中外文分词组特征向量的维数RWFGV。
与普通抄袭鉴定模式的处理过程类似,根据本发明的一个具体实施方式,多语种抄袭鉴定模式下,待鉴定文档特征向量调整模块,调整得到扩展的待鉴定文档中外文分词组特征向量WVE_RWFGV_TBI_EXT=[WFG_IDTBI_EXT_1,WFG_NTBI_EXT_1,...,WFG_IDTBI_EXT_i,WFG_NTBI_EXT_i,...,WFG_IDTBI_EXT_RWFGV_TBI,WFG_NTBI_EXT_RWFGV_TBI,...,WFG_IDW,WFG_NW];素材特征向量调整模块,调整得到扩展的分词组特征向量WVE_RWFGV_EXT=[WFG_IDEXT_1,WFG_NEXT_1,...,WFG_IDEXT_i,WFG_NEXT_i,...,WFG_IDEXT_RWV,WFG_NEXT_RWFGV,...,WFG_IDW,WFG_NW]。扩展的分词特征向量WVE_RWFGV_TBI_EXT=[WFG_IDTBI_EXT_1,WFG_NTBI_EXT_1,...,WFG_IDTBI_EXT_i,WFG_NTBI_EXT_i,...,WFG_IDTBI_EXT_RWFGV_TBI,WFG_NTBI_EXT_RWFGV_TBI,...,WFG_IDW,WFG_NW]。
通过上述方式,将待鉴定文档以及对比库中的素材的分词特征向量的维数都扩展到W,并通过按照分词库中的编号进行升序或降序进行统一排列,从而两个分词特征向量对应的特征值的维度是一致的。
多语种抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:
S i m ( W V E _ R W F G V _ T B I , W V E _ R W F G V ) = S i m ( W V E _ R W F G V _ T B I _ E X T , W V E _ R W F G V _ E X T ) = 2 Σ i = 1 w W F G _ N T B I _ E X T _ i × W F G _ N E X T _ i Σ i = 1 w W F G _ N T B I _ E X T _ i 2 + Σ i = 1 w W F G _ N E X T _ i 2 + Σ i = 1 w W F G _ N T B I _ E X T _ i 2 × Σ i = 1 w W F G _ N E X T _ i 2
根据本发明的一个具体实施方式,为避免扩展后的维数过多,也可将分词特征向量WVE_RWV_TBI中的所有的分词ID作为一个集合;并将WVE_RWV中的分词ID作为另一个集合;或者将分词组特征向量WVE_RWGV_TBI中的所有的分词ID作为一个集合;并将WVE_RWGV中的分词ID作为另一个集合;或者将中外文分词组特征向量WVE_RWFGV_TBI中的所有的分词ID作为一个集合;并将WVE_RWFGV中的分词ID作为另一个集合;两个集合取并集得到总的分词ID集合;按照总的分词ID集合将待鉴定文档以及对比库中的素材的分词特征向量的维数进行扩展,并将所有特征值对应的分词ID按照分词库中的编号进行升序或降序排列,插入总的分词ID集合中包含而原先自身集合不包含的W_IDi值,所插入的分词编号W_IDi对应的特征值为0;或者插入总的分词组ID集合中包含而原先自身集合不包含的WG_IDi值,所插入的分词编号WG_IDi对应的特征值为0;或者插入总的中外文分词组ID集合中包含而原先自身集合不包含的WFG_IDi值,所插入的分词编号WFG_IDi对应的特征值为0。
根据用户的访问方式,提供对比库中不同子库的素材进行相似度对比,比对采用遍历的方式,即将选定范围内的所有素材的特征向量提取出来,与待鉴定文档进行相似度对比;并将计算得到的相似度值与预定门限值进行对比,当相似度值高于预定门限值时,将对应的素材作为疑似素材记录备用。
当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材进行进一步对比。
根据本发明一个优选实施方式,可以将谚语俗语库、名人名言库、诗词库中的所有素材选取为疑似素材。
根据本发明一个优选实施方式,可以将分词自由向量维数WFV小于分词精简向量维数RWV的素材选取为疑似素材。
根据本发明一个优选实施方式,可以将分词组自由向量维数WGFV小于分词组精简向量维数RWGV的素材选取为疑似素材。
根据本发明一个优选实施方式,可以将中外文分词组自由向量维数WFGFV小于中外文分词组精简向量维数RWFGV的素材选取为疑似素材。
根据本发明一个优选实施方式,可以通过分词紧密系数进一步选取疑似素材。
根据本发明的一个具体实施方式,普通抄袭鉴定模式下可以根据待鉴定文档的分词紧密系数以及素材的分词紧密系数筛选疑似素材。待鉴定文档紧密系数统计模块根据该待鉴定文档中分词对应的分词紧密系数特征向量WGCVE_TBI=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)]提取高密度分词,及对应的位置。所述待鉴定文档紧密系数统计模块根据分词紧密系数特征向量中的分词词性W_CHAR,选取词性为实词的分词,并统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则记录该分词的ID以及相应的位置。
根据本发明的一个具体实施方式,扩展抄袭鉴定模式下可以根据待鉴定文档的分词组紧密系数以及素材的分词组紧密系数筛选疑似素材。待鉴定文档紧密系数统计模块根据该待鉴定文档中分词组对应的分词紧密系数特征向量WGGCVE_TBI=[WG_ID,WG_N,WG_CHAR,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_i,…,G_WG_ID_(W_N-1)]提取高密度分词组,及对应的位置。所述待鉴定文档紧密系数统计模块根据分词组紧密系数特征向量中的分词组词性WG_CHAR,选取词性为实词的分词组,并统计预定相邻数量分词组的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词组的间隔分词总量小于预定的紧密门限值THG时,则记录该分词组的ID以及相应的位置。
根据本发明的一个具体实施方式,多语种抄袭鉴定模式下可以根据待鉴定文档的中外文分词组紧密系数以及素材的中外文分词组紧密系数筛选疑似素材。待鉴定文档紧密系数统计模块根据该待鉴定文档中中外文分词组对应的分词紧密系数特征向量WFGGCVE_TBI=[WFG_ID,WFG_N,WFG_CHAR,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_i,…,G_WFG_ID_(W_N-1)]提取高密度分词组,及对应的位置。所述待鉴定文档紧密系数统计模块根据中外文分词组紧密系数特征向量中的分词组词性WFG_CHAR,选取词性为实词的分词组,并统计预定相邻数量分词组的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词组的间隔分词总量小于预定的紧密门限值THG时,则记录该中外文分词组的ID以及相应的位置。
所述预定相邻数量n的取值以及紧密门限值THG均由系统预先设置,并可根据实际需要进行调整;当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则可认为该实词分词在相应位置出现较为密集,有可能集中阐述了某一观点,需要重点进行关注。
普通抄袭鉴定模式下,紧密系数疑似素材提取模块,根据预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,所记录的分词ID,提取对比库中所有包含该分词ID的素材;分别计算素材中与该分词ID对应的分词紧密系数特征向量WGCVE=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)],统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则将该素材选取为疑似素材。所述分词ID为一个或多个,根据为一个或多个分词ID提取出包含该一个或多个分词ID的素材为一个或多个。
扩展抄袭鉴定模式下,紧密系数疑似素材提取模块,根据预定相邻数量分词组的间隔分词总量小于预定的紧密门限值THG时,所记录的分词组ID,提取对比库中所有包含该分词ID组的素材;分别计算素材中与该分词组ID对应的分词组紧密系数特征向量WGGCVE=[WG_ID,WG_N,WG_CHAR,G_WG_ID_1,G_WG_ID_2,…,G_WG_ID_i,…,G_WG_ID_(WG_N-1)],统计预定相邻数量分词组的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词组总量小于预定的紧密门限值THG时,则将该素材选取为疑似素材。所述分词组ID为一个或多个,根据为一个或多个分词组ID提取出包含该一个或多个分词组ID的素材为一个或多个。
多语种抄袭鉴定模式下,紧密系数疑似素材提取模块,根据预定相邻数量中外文分词组的间隔分词总量小于预定的紧密门限值THG时,所记录的中外文分词组ID,提取对比库中所有包含该中外文分词ID组的素材;分别计算素材中与该中外文分词组ID对应的中外文分词组紧密系数特征向量WFGGCVE=[WFG_ID,WFG_N,WFG_CHAR,G_WFG_ID_1,G_WFG_ID_2,…,G_WFG_ID_i,…,G_WFG_ID_(WFG_N-1)],统计预定相邻数量中外文分词组的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔中外文分词组总量小于预定的紧密门限值THG时,则将该素材选取为疑似素材。所述中外文分词组ID为一个或多个,根据为一个或多个中外文分词组ID提取出包含该一个或多个中外文分词组ID的素材为一个或多个。
通过这种提取方式,可以将该待鉴定文档中某些出现总次数不高,但是可能在某些位置集中描述的实词分词及相应的位置提取出来进行进一步的比对。
根据本发明的一个具体实施方式,在公式抄袭鉴定模式下,公式提取模块,用于将提取待鉴定文档中的公式;公式分解模块,用于将公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围分别进行提取;公式对比模块,用于将待鉴定文档中提取的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围进行一一比较;当待鉴定文档中的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围的重合度超过公式比较门限值THMATH时,将公式库中与当前被比较公式相关联的素材作为疑似素材。所述重合度是指待鉴定文档中的公式与公式库中的公式相比、相同的自变量参数、因变量参数、运算符号、量纲数之和与待鉴定文档中当前公式的自变量参数、因变量参数、运算符号、量纲数之和的比值。
根据本发明的一个具体实施方式,可以采用滑动窗口将待鉴定文档与疑似素材进行全文对比。滑动窗口的大小可以由系统进行设置。滑动窗口的大小直接影响对比效果,滑动窗口选择过小则容易造成误判,滑动窗口选择过大则容易造成漏判。滑动窗口的滑动步长也由系统进行预先设置。如图2所示,步骤S0:开始;S1:滑动窗口设置模块初始化相似窗口计数器CT1=0、滑动歩长计数器CT2=0;步骤S2:滑动窗口设置模块设置待鉴定文档与疑似素材的滑动窗口均位于文档起始位置;步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;步骤S4:滑动窗口对比模块判断相同的实词分词的数量是否大于或等于门限值THW;当大于或等于门限值时计数器值加一、即CT1=CT1+1,并记录鉴定文档的滑动窗口与疑似素材的滑动窗口当前的位置及滑动窗口内的内容;步骤S5:滑动窗口设置模块设置疑似素材的滑动窗口滑动一个滑动步长;步骤S6:滑动窗口设置模块判断是否位于文档结束位置处;如果不是结束位置,则返回步骤S3:如果是结束位置,则去往步骤S11;步骤S11:滑动窗口设置模块判断待鉴定文档的滑动窗口是否位于文档结束位置处;如果不是结束位置,则去往步骤S12,如果是结束位置,则去往步骤S13;步骤S12:滑动窗口设置模块设置疑似素材的滑动窗口回到文档起始位置;待鉴定文档的滑动窗口滑动一个滑动步长,CT2=CT2+1去往步骤S3;步骤S13:滑动窗口对比模块计算相似窗口计数器CT1数值与滑动歩长计数器CT2数值的比值M;S14:滑动窗口对比模块判断比值M是否大于或等于预设门限值THm,当M≥THM时,则认为该待鉴定文档与该疑似素材相似;当M<THM时,则认为该待鉴定文档与该疑似素材不相似;S15:滑动窗口对比模块判断是否还有疑似素材需要对比,如果有,则返回步骤S1;如果没有则去往步骤S16;步骤S16:对比报告生成模块生成并输出对比报告,所述对比报告中包含该鉴定文档与所有相似的疑似素材的相似窗口计数器CT1数值,滑动歩长计数器CT2数值,以及两者的比值,该鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;步骤S17:对比结束。
根据本发明的一个具体实施方式,步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;其中在普通抄袭鉴定模式下,相同的实词分词是指实词分词在分词库中的ID相同;其中在扩展抄袭鉴定模式下,相同的实词分词是指实词分词组在分词库中的ID相同;其中在多语种抄袭鉴定模式下,相同的实词分词是指实词中外文分词组在分词库中的ID相同。
根据本发明的一个具体实施方式,步骤S16:对比报告生成模块输出对比报告,进一步包括对比报告的内容根据鉴定模式的不同而不同。普通抄袭鉴定模式下,对比报告中包含该待鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;待鉴定文档采用了与该相似的疑似素材中相似部分一致的表述方式;即采用的词语表述也完全一致;可能仅有个别语序进行了调整;如果被鉴定文档对其所抄袭的文档进行了改写,当改写程度较大时,普通抄袭鉴定模式可能无法找到其所抄袭的文档。扩展抄袭鉴定模式下,对比报告中包含该待鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;如果被鉴定文档对其所抄袭的文档进行了同义词或近义词改写,当文档结构改写不大时,扩展抄袭鉴定模式可能也能找到其所抄袭的文档。多语种抄袭鉴定模式下,对比报告中包含该待鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;如果被鉴定文档对其所抄袭的文档进行了翻译改写,当文档结构改写程度不大时,扩展抄袭鉴定模式可能也能找到其所抄袭的文档。
根据本发明的一个具体实施方式,滑动窗口位于文档起始位置是指滑动窗口的最左侧与文档起始位置重合;滑动窗口位于文档结束位置是指滑动窗口的最右侧与文档结束位置重合。
根据系统先期运行试验,滑动窗口选择为四个实词分词大小较为合适,滑动窗口的大小也可以根据需要选择为其他大小。对比时滑动窗口每次滑动一个实词分词的步长;对比过程中当滑动窗口内出现三个或三个以上实词分词相同时(此时不考虑实词分词的先后顺序),则记录该滑动窗口在待鉴定文档以及疑似素材中的当前位置以及内容。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种网络查重系统,其特征在于,包括:
对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;所述对比库中不同子库采用分布式方式存储于不同的站点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问;
分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;所述分词库保存的分词词性类别为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词;
分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;
分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;
分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;
分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;
分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;
WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;
用户访问方式检测模块,用于提示用户上传待鉴定文档;
用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;
待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;
待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;
待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中
WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;
用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;
待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_NTBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW];
素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,W_IDW,W_NW];
普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:
S i m ( W V E _ R W V _ T B I , W V E _ R W V ) = S i m ( W V E _ R W V _ T B I _ E X T , W V E _ R W V _ E X T ) = 2 &Sigma; i = 1 w W _ N T B I _ E X T _ i &times; W _ N E X T _ i &Sigma; i = 1 w W _ N T B I _ E X T _ i 2 + &Sigma; i = 1 w W _ N E X T _ i 2 + &Sigma; i = 1 w W _ N T B I _ E X T _ i 2 &times; &Sigma; i = 1 w W _ N E X T _ i 2
当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材采用滑动窗口进行进一步对比;
所述将待鉴定文档与疑似素材采用滑动窗口进行进一步对比具体为:步骤S0:开始;S1:滑动窗口设置模块初始化相似窗口计数器CT1=0、滑动歩长计数器CT2=0;步骤S2:滑动窗口设置模块设置待鉴定文档与疑似素材的滑动窗口均位于文档起始位置;步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;步骤S4:滑动窗口对比模块判断相同的实词分词的数量是否大于或等于门限值THW;当大于或等于门限值时计数器值加一、即CT1=CT1+1,并记录鉴定文档的滑动窗口与疑似素材的滑动窗口当前的位置及滑动窗口内的内容;步骤S5:滑动窗口设置模块设置疑似素材的滑动窗口滑动一个滑动步长;步骤S6:滑动窗口设置模块判断是否位于文档结束位置处;如果不是结束位置,则返回步骤S3:如果是结束位置,则去往步骤S11;步骤S11:滑动窗口设置模块判断待鉴定文档的滑动窗口是否位于文档结束位置处;如果不是结束位置,则去往步骤S12,如果是结束位置,则去往步骤S13;步骤S12:滑动窗口设置模块设置疑似素材的滑动窗口回到文档起始位置;待鉴定文档的滑动窗口滑动一个滑动步长,CT2=CT2+1去往步骤S3;步骤S13:滑动窗口对比模块计算相似窗口计数器CT1数值与滑动歩长计数器CT2数值的比值M;S14:滑动窗口对比模块判断比值M是否大于或等于预设门限值THm,当M≥THM时,则认为该待鉴定文档与该疑似素材相似;当M<THM时,则认为该待鉴定文档与该疑似素材不相似;S15:滑动窗口对比模块判断是否还有疑似素材需要对比,如果有,则返回步骤S1;如果没有则去往步骤S16;步骤S16:对比报告生成模块生成并输出对比报告,所述对比报告中包含该鉴定文档与所有相似的疑似素材的相似窗口计数器CT1数值,滑动歩长计数器CT2数值,以及两者的比值,该鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;步骤S17:对比结束。
2.根据权利要求1所述的网络查重系统,其中在公式抄袭鉴定模式下,公式提取模块,用于将提取待鉴定文档中的公式;公式分解模块,用于将公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围分别进行提取;公式对比模块,用于将待鉴定文档中提取的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围进行一一比较;当待鉴定文档中的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围的重合度超过公式比较门限值THMATH时,将公式库中与当前被比较公式相关联的素材作为疑似素材;所述重合度是指待鉴定文档中的公式与公式库中的公式相比、相同的自变量参数、因变量参数、运算符号、量纲数之和与待鉴定文档中当前公式的自变量参数、因变量参数、运算符号、量纲数之和的比值。
3.根据权利要求1或2所述的网络查重系统,待鉴定文档紧密系数统计模块根据该待鉴定文档中分词对应的分词紧密系数特征向量WGCVE_TBI=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)]提取高密度分词,及对应的位置。所述待鉴定文档紧密系数统计模块根据分词紧密系数特征向量中的分词词性W_CHAR,选取词性为实词的分词,并统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则记录该分词的ID以及相应的位置;
紧密系数疑似素材提取模块,根据预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,所记录的分词ID,提取对比库中所有包含该分词ID的素材;分别计算素材中与该分词ID对应的分词紧密系数特征向量WGCVE=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)],统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则将该素材选取为疑似素材。所述分词ID为一个或多个,根据为一个或多个分词ID提取出包含该一个或多个分词ID的素材为一个或多个。
4.根据权利要求1-3任一所述的网络查重系统,其中:分词精简向量维数生成模块采用词性筛选法对分词自由向量维数WFV进行精简;精简过程如下:将分词结果的特征值按照对应的分词词性进行分类;将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值;分别统计各类别下特征值的数量;AMOUNT_A1、指A1类实词特征值的数量,AMOUNT_A2、指A2类实词特征值的数量,AMOUNT_B、指B类实词特征值的数量,AMOUNT_C、C类实词特征值的数量,AMOUNT_D、D类实词特征值的数量,AMOUNT_V、V类实词特征值的数量;计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWV_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWV_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWV_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2)的值RWV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWV_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-AMOUNT_A1的值RWV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与精简向量维数RWV数量相等的特征值,完成此次精简。
5.根据权利要求4所述的网络查重系统,对于计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V大于0的情形,将对应的素材作为疑似素材。
6.一种网络查重方法,其特征在于,包括:
对比库收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;所述对比库中不同子库可采用分布式方式存储于不同的站点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问;
分词库收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;所述分词库保存的分词词性类别为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词;
分词模块对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;
分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;
分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;
分词精简向量维数生成模块对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;
分词特征向量生成模块根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;
WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;
用户访问方式检测模块提示用户上传待鉴定文档;
用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;
待鉴定文档分词自由向量维数确定模块根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;
待鉴定文档分词精简向量维数生成模块对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;
待鉴定文档分词特征向量生成模块根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中
WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]
其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;
用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;
待鉴定文档特征向量调整模块将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_NTBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW];
素材特征向量调整模块将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,W_IDW,W_NW];
普通抄袭鉴定相似度计算模块计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:
S i m ( W V E _ R W V _ T B I , W V E _ R W V ) = S i m ( W V E _ R W V _ T B I _ E X T , W V E _ R W V _ E X T ) = 2 &Sigma; i = 1 w W _ N T B I _ E X T _ i &times; W _ N E X T _ i &Sigma; i = 1 w W _ N T B I _ E X T _ i 2 + &Sigma; i = 1 w W _ N E X T _ i 2 + &Sigma; i = 1 w W _ N T B I _ E X T _ i 2 &times; &Sigma; i = 1 w W _ N E X T _ i 2
当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材采用滑动窗口进行进一步对比;
所述将待鉴定文档与疑似素材采用滑动窗口进行进一步对比具体为:步骤S0:开始;S1:滑动窗口设置模块初始化相似窗口计数器CT1=0、滑动歩长计数器CT2=0;步骤S2:滑动窗口设置模块设置待鉴定文档与疑似素材的滑动窗口均位于文档起始位置;步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;步骤S4:滑动窗口对比模块判断相同的实词分词的数量是否大于或等于门限值THW;当大于或等于门限值时计数器值加一、即CT1=CT1+1,并记录鉴定文档的滑动窗口与疑似素材的滑动窗口当前的位置及滑动窗口内的内容;步骤S5:滑动窗口设置模块设置疑似素材的滑动窗口滑动一个滑动步长;步骤S6:滑动窗口设置模块判断是否位于文档结束位置处;如果不是结束位置,则返回步骤S3:如果是结束位置,则去往步骤S11;步骤S11:滑动窗口设置模块判断待鉴定文档的滑动窗口是否位于文档结束位置处;如果不是结束位置,则去往步骤S12,如果是结束位置,则去往步骤S13;步骤S12:滑动窗口设置模块设置疑似素材的滑动窗口回到文档起始位置;待鉴定文档的滑动窗口滑动一个滑动步长,CT2=CT2+1去往步骤S3;步骤S13:滑动窗口对比模块计算相似窗口计数器CT1数值与滑动歩长计数器CT2数值的比值M;S14:滑动窗口对比模块判断比值M是否大于或等于预设门限值THm,当M≥THM时,则认为该待鉴定文档与该疑似素材相似;当M<THM时,则认为该待鉴定文档与该疑似素材不相似;S15:滑动窗口对比模块判断是否还有疑似素材需要对比,如果有,则返回步骤S1;如果没有则去往步骤S16;步骤S16:对比报告生成模块生成并输出对比报告,所述对比报告中包含该鉴定文档与所有相似的疑似素材的相似窗口计数器CT1数值,滑动歩长计数器CT2数值,以及两者的比值,该鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;步骤S17:对比结束。
7.根据权利要求6所述的网络查重方法,其中,
在公式抄袭鉴定模式下,公式提取模块,用于将提取待鉴定文档中的公式;公式分解模块,用于将公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围分别进行提取;公式对比模块,用于将待鉴定文档中提取的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、各参数的具体含义、量纲以及取值范围进行一一比较;当待鉴定文档中的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围与公式库中保存的公式的各自变量参数以及因变量参数、运算符号、量纲以及取值范围的重合度超过公式比较门限值THMATH时,将公式库中与当前被比较公式相关联的素材作为疑似素材;所述重合度是指待鉴定文档中的公式与公式库中的公式相比、相同的自变量参数、因变量参数、运算符号、量纲数之和与待鉴定文档中当前公式的自变量参数、因变量参数、运算符号、量纲数之和的比值。
8.根据权利要求6或7所述的网络查重方法,待鉴定文档紧密系数统计模块根据该待鉴定文档中分词对应的分词紧密系数特征向量WGCVE_TBI=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)]提取高密度分词,及对应的位置。所述待鉴定文档紧密系数统计模块根据分词紧密系数特征向量中的分词词性W_CHAR,选取词性为实词的分词,并统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则记录该分词的ID以及相应的位置;
紧密系数疑似素材提取模块,根据预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,所记录的分词ID,提取对比库中所有包含该分词ID的素材;分别计算素材中与该分词ID对应的分词紧密系数特征向量WGCVE=[W_ID,W_N,W_CHAR,G_W_ID_1,G_W_ID_2,…,G_W_ID_i,…,G_W_ID_(W_N-1)],统计预定相邻数量分词的间隔分词总量:其中n为预定相邻数量,当预定相邻数量分词的间隔分词总量小于预定的紧密门限值THG时,则将该素材选取为疑似素材。所述分词ID为一个或多个,根据为一个或多个分词ID提取出包含该一个或多个分词ID的素材为一个或多个。
9.根据权利要求6-8任一所述的网络查重方法,其中:分词精简向量维数生成模块采用词性筛选法对分词自由向量维数WFV进行精简;精简过程如下:将分词结果的特征值按照对应的分词词性进行分类;将特征值划分为A1类实词特征值、A2类实词特征值、B类实词特征值、C类实词特征值、D类实词特征值以及V类虚词特征值;分别统计各类别下特征值的数量;AMOUNT_A1、指A1类实词特征值的数量,AMOUNT_A2、指A2类实词特征值的数量,AMOUNT_B、指B类实词特征值的数量,AMOUNT_C、C类实词特征值的数量,AMOUNT_D、D类实词特征值的数量,AMOUNT_V、V类实词特征值的数量;计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V;如果大于0,如果则退出此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D)的值RWV_S_D;如果大于0,则从AMOUNT_V所对应的特征值中随机提取与该差值RWV_S_D数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C)的值RWV_S_C;如果大于0,则从AMOUNT_D所对应的特征值中随机提取与该差值RWV_S_C数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B)的值RWV_S_B;如果大于0,则从AMOUNT_C所对应的特征值中随机提取与该差值RWV_S_B数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2)的值RWV_S_A2;如果大于0,则从AMOUNT_B所对应的特征值中随机提取与该差值RWV_S_A2数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则进一步计算分词精简向量维数RWV-AMOUNT_A1的值RWV_S_A1;如果大于0,则从AMOUNT_A2所对应的特征值中随机提取与该差值RWV_S_A1数量相等的特征值,完成此次精简;如果等于0,则完成此次精简;如果小于0,则从AMOUNT_A1所对应的特征值中随机提取与精简向量维数RWV数量相等的特征值,完成此次精简。
10.根据权利要求9所述的网络查重方法,对于计算分词精简向量维数RWV-(AMOUNT_A1+AMOUNT_A2+AMOUNT_B+AMOUNT_C+AMOUNT_D+AMOUNT_V)的值RWV_S_V大于0的情形,将对应的素材作为疑似素材。
CN201610019274.4A 2016-01-13 2016-01-13 一种网络查重方法及系统 Active CN105701085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610019274.4A CN105701085B (zh) 2016-01-13 2016-01-13 一种网络查重方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610019274.4A CN105701085B (zh) 2016-01-13 2016-01-13 一种网络查重方法及系统

Publications (2)

Publication Number Publication Date
CN105701085A true CN105701085A (zh) 2016-06-22
CN105701085B CN105701085B (zh) 2018-05-22

Family

ID=56226346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610019274.4A Active CN105701085B (zh) 2016-01-13 2016-01-13 一种网络查重方法及系统

Country Status (1)

Country Link
CN (1) CN105701085B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446077A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种对象上传方法和电子设备
CN107885706A (zh) * 2017-11-06 2018-04-06 佛山市章扬科技有限公司 一种数据相似度检测的系统
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN111581955A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 文本指纹提取和校验方法、装置
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114840A1 (en) * 2003-11-25 2005-05-26 Zeidman Robert M. Software tool for detecting plagiarism in computer source code
KR101264151B1 (ko) * 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103544326A (zh) * 2013-11-14 2014-01-29 上海交通大学 基于译文特征与内容的中英文跨语种抄袭识别方法
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114840A1 (en) * 2003-11-25 2005-05-26 Zeidman Robert M. Software tool for detecting plagiarism in computer source code
CN103257957A (zh) * 2012-02-15 2013-08-21 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
KR101264151B1 (ko) * 2012-10-24 2013-05-14 주식회사 무하유 문서 표절률 산출 장치 및 방법, 이를 구현하기 위한 프로그램을 기록한 기록매체
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置
CN103544326A (zh) * 2013-11-14 2014-01-29 上海交通大学 基于译文特征与内容的中英文跨语种抄袭识别方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446077A (zh) * 2016-09-07 2017-02-22 乐视控股(北京)有限公司 一种对象上传方法和电子设备
CN107885706A (zh) * 2017-11-06 2018-04-06 佛山市章扬科技有限公司 一种数据相似度检测的系统
CN111581955A (zh) * 2019-02-15 2020-08-25 阿里巴巴集团控股有限公司 文本指纹提取和校验方法、装置
CN110781272A (zh) * 2019-09-10 2020-02-11 杭州云深科技有限公司 一种文本匹配方法和装置、存储介质
CN112131348A (zh) * 2020-09-29 2020-12-25 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法
CN112131348B (zh) * 2020-09-29 2022-08-09 四川财经职业学院 基于文本和图像相似度防止项目重复申报的方法

Also Published As

Publication number Publication date
CN105701085B (zh) 2018-05-22

Similar Documents

Publication Publication Date Title
Petersen et al. A machine learning approach to reading level assessment
CN105701076A (zh) 一种论文抄袭检测方法及系统
CN105701085A (zh) 一种网络查重方法及系统
Ranera et al. Retrieval of semantically similar Philippine supreme court case decisions using Doc2Vec
Argamon Computational forensic authorship analysis: Promises and pitfalls
Hussein Arabic document similarity analysis using n-grams and singular value decomposition
CN105701086A (zh) 一种滑动窗口文献检测方法及系统
Wadud et al. Text coherence analysis based on misspelling oblivious word embeddings and deep neural network
Reddy et al. N-gram approach for gender prediction
Rahman et al. NLP-based automatic answer script evaluation
Rosnelly The Similarity of Essay Examination Results using Preprocessing Text Mining with Cosine Similarity and Nazief-Adriani Algorithms
CN105677641A (zh) 一种论文自检方法及系统
Rahman et al. An automated approach for answer script evaluation using natural language processing
Taerungruang et al. Constructing an Academic Thai Plagiarism Corpus for Benchmarking Plagiarism Detection Systems.
CN105701077A (zh) 一种多语种文献检测方法及系统
CN105701213A (zh) 一种文献对比方法及系统
CN105550172A (zh) 一种分布式文本检测方法及系统
Flanagan et al. Classification of English language learner writing errors using a parallel corpus with SVM
Helgadóttir et al. Correcting Errors in a New Gold Standard for Tagging Icelandic Text.
Febriyanty et al. Hoax Detection News Using Naïve Bayes and Support Vector Machine Algorithm
Gashkov et al. Improving the question answering quality using answer candidate filtering based on natural-language features
Sheikh et al. Semi supervised method for detection of ambiguous word and creation of sense: Using WordNet
CN105701087A (zh) 一种公式抄袭检测方法及系统
CN105701206A (zh) 一种基于采样的文献检测方法及系统
Han et al. Japanese sentence pattern learning with the use of illustrative examples extracted from the web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 410000 Room 1401, Wande Mansion, 176 Wanjiali Road, Heyuan Street, Furong District, Changsha City, Hunan Province

Patentee after: Hunan Tongyuan Network Inc

Address before: 410000 Room 1401, Wande Mansion, 176 Wanjiali Road, Heyuan Street, Furong District, Changsha City, Hunan Province

Patentee before: TONGYUAN NETWORK TECHNOLOGY CO., LTD.

CP01 Change in the name or title of a patent holder
TR01 Transfer of patent right

Effective date of registration: 20200320

Address after: No. 413, Building 102, No. 28, xinjiekouwei street, Xicheng District, Beijing 100088

Patentee after: Zhongzhi Tongyuan (Beijing) Technology Co., Ltd

Address before: 410000 Hunan province Changsha Lotus Park Furong District Street Wanjiali Road No. 176 building 1401 room mansion Wangde

Patentee before: Hunan Tongyuan Network Inc

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220228

Address after: 410000 Room 1401, Wande Mansion, 176 Wanjiali Road, Heyuan Street, Furong District, Changsha City, Hunan Province

Patentee after: Hunan Tongyuan Network Inc.

Address before: No. 413, Building 102, 28 xinjiekouwai street, Xicheng District, Beijing 100088

Patentee before: Zhongzhi Tongyuan (Beijing) Technology Co.,Ltd.

TR01 Transfer of patent right