CN206451175U - 一种基于藏文句子级别的藏文论文复制检测系统 - Google Patents
一种基于藏文句子级别的藏文论文复制检测系统 Download PDFInfo
- Publication number
- CN206451175U CN206451175U CN201621006813.2U CN201621006813U CN206451175U CN 206451175 U CN206451175 U CN 206451175U CN 201621006813 U CN201621006813 U CN 201621006813U CN 206451175 U CN206451175 U CN 206451175U
- Authority
- CN
- China
- Prior art keywords
- tibetan language
- sentence
- paper
- text
- tibetan
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本实用新型是一种基于藏文句子级别的藏文论文复制检测系统,包括可访问因特网的客户终端,通过因特网连接所述客户终端的服务器中的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;所述装置包括:从藏文论文的数据库提取待检测藏文论文文本字符做编码转换及去除噪音的通过因特网连接到所述客户终端的服务器中预处理模块;预处理模与基于藏文句子边界识别藏文论文文本并按句子分成文本块,构建文本块分词的分词临时表模块连接;分词临时表模块与在句子‑文档倒排索引表和文本块分词的临时表中得到句子文本特征的特征提取模块连接;特征提取模块与用邻接表获得文本块相似值来检测两篇藏文论文存在复制数据的复制检测模块连接。
Description
技术领域
本实用新型属于藏文信息处理领域,具体涉及一种基于藏文句子级别的藏文论文复制检测系统。
背景技术
论文复制检测的定义是判断一篇论文的内容是否抄袭、剽窃或者复制于另外一篇或者多篇论文。主要包括完全拷贝、内容的移位变换、同义词替换以及改变说法重述等抄袭方式。复制检测有时称为“抄袭检测”或者“剽窃检测”特指针对学术论文。
随着互联网的不断发展和网络数字资源的日益丰富,给人们提供了资源共享和信息交流的便利平台。已经成为人们信息获取的重要来源,同时为广大科研工作者和师生提供了便捷的学术交流机会。一篇论文的文本经过增添删改字词或改变说法重述之后便可以形成新的文本,这种行为称为论文的复制或抄袭。
目前,中英文论文复制检测技术较成熟。但由于藏文与中英文语言天然存在差异,诸多对中英文自然语言的复制检测处理技术并不能完全适用于藏文,也无法用它们来检测藏文论文的复制率。这一空白导致了很多民族高校和藏学研究者出现了论文质量低、学术气氛差和学术创新难以提高等现象。依靠人工进行抄袭检测,不仅耗费宝贵的人力资源,而且时效性和准确性也满足不了实际需求。因此,必须建立健全的体制,创作藏文论文复制检测系统来有效地保护知识产权。
实用新型内容
为了解决现有技术依靠人工检测抄袭论文,存在检测效率低、检测准确性不高的技术问题,本实用新型的目的是提供一种基于藏文句子级别的藏文论文复制检测系统。
为了达成本实用新型的目的,本实用新型提供一种使用基于藏文句子级别的藏文论文复制检测系统,包括可访问因特网的客户终端,通过因特网连接到所述客户终端服务器的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;所述藏文论文复制检测装置包括:
从藏文论文的数据库提取待检测藏文论文文本字符做编码转换及去除噪音的通过因特网连接到所述客户终端的服务器中预处理模块;
所述客户终端的服务器中预处理模与基于藏文句子边界识别藏文论文文本并按句子分成文本块,构建文本块分词的分词临时表模块连接;
所述分词临时表模块与在句子-文档倒排索引表W和文本块分词的临时表T中,构建句子文本特征的特征提取模块连接;
所述特征提取模块与利用邻接表获得文本块相似值来检测两篇藏文论文存在的复制数据的复制检测模块连接。
其中,所述藏文论文文本文件编码转换成Unicode编码。
其中,所述句子文本特征由句子中的停单词、格助词和虚词组成。
其中,用待测藏文论文每条句子相似度的向量集的每个元素表示待测藏文论文对应的句子相似度。
有益的技术效果:为了解决藏文论文的抄袭现象,本实用新型是基于藏文句子级别的复制检测系统,利用可访问因特网的客户终端,通过因特网连接到所述客户终端服务器的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;建立句子与文档的倒排索引,可以根据句子能够快速定位存在该句子的文档列表和位置信息,由于重复的藏文句子可以由索引直接得到,可以极大的提高本实用新型系统的工作效率,为大规模文本复制检测提供了一种可行的技术方案。本实用新型的系统中,剔除句子中的停用词,其余作为句子的文本特征,会提高相似度的准确性,为了解决藏文论文的抄袭现象,根据所得的相似值来判定两篇论文是否存在抄袭现象以及抄袭程度。
本实用新型提供一种使用基于藏文句子级别的藏文论文复制系统,对计算机互联网上藏文论文的知识产权保护,通过计算机复制检测系统检测藏文论文的复制率,本实用新型能够防止藏文论文复制或抄袭的剽窃行为,从而保护论文知识产权、端正学术风气和提高信息检索效率的重要手段。
附图说明
图1为本实用新型一种基于藏文句子级别的藏文论文复制检测系统结构示意图;
图2为本实用新型中的邻接表;
图3为本实用新型中的句子-文本文档的倒排索引结构原理图;
图4为本实用新型中的计算相似度流程;
图5为论文注册模块的流程图;
图6为不同类型的编码文件藏文字母对应的十六进制码;
图7为ReadString函数实现按行读取及编码转换流程图;
图8为藏语句子边界识别流程图;
图9为待测论文1的句子相似度阈值取值指标图;
图10为待测论文1的句子相似度阈值语料库测试指标图;
图11为待测论文2的句子相似度阈值取值指标图;
图12为待测论文2的句子相似度阈值语料库测试指标图;
图13为待测论文3的句子相似度阈值取值指标图;
图14为待测论文3的句子相似度阈值语料库测试指标图;
图15为藏文论文复制检测系统的复制检测结果的显示界面;
图16为藏文论文复制检测系统的1:N检测结果综合报告的显示界面。
具体实施方式
为使本实用新型的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本实用新型进一步详细说明。
一、藏文论文复制检测技术研究
本实用新型提出了一种基于藏文句子级别的藏文论文复制检测系统。该系统以藏文句子为基本复制检测单位,运用空间向量的余弦相似度获得两篇论文句子之间的相似度。根据所得的相似值来判定两篇论文是否存在抄袭现象以及抄袭程度。该系统中,剔除句子中的停用词,其余作为句子的文本特征,会提高相似度的准确性;建立句子与文档的倒排索引,可减少句子两两比较的次数和能够快速定位存在该句子的位置信息,为大规模文本复制检测提供了一种可行的技术方案。
请参阅图1示出的本实用新型提供一种基于藏文句子级别的藏文论文复制检测系统,所述装置包括可访问因特网的客户终端,通过因特网连接到所述客户终端服务器的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;所述藏文论文复制检测装置包括:
从藏文论文的数据库提取待检测藏文论文文本字符做编码转换及去除噪音的通过因特网连接到所述客户终端的服务器中预处理模块;
所述客户终端的服务器中预处理模与基于藏文句子边界识别藏文论文文本并按句子分成文本块,构建文本块分词的分词临时表模块连接;
所述分词临时表模块与在句子-文档倒排索引表W和文本块分词的临时表T中,构建句子文本特征的特征提取模块连接;
所述特征提取模块与利用邻接表获得文本块相似值来检测两篇藏文论文存在的复制数据的复制检测模块连接。
其中,所述藏文论文文本文件编码转换成Unicode编码。
其中,所述句子文本特征由句子中的停单词、格助词和虚词组成。
其中,用待测藏文论文每条句子相似度的向量集的每个元素表示待测藏文论文对应的句子相似度。
在实施例中为了清楚了解本实用新型,其中涉及了算法,本实用新型涉及的算法为现有技术不属于本实用新型要求保护的内容。
下面介绍本实用新型的实施例:
1.1检测算法的总体流程
藏文论文复制检测算法可以检测两篇藏文论文是否存在复制关系以及复制的程度。设总论文集合为C,则
C={D1,D2,…,Di,…,Dm} (1)
其中Di表示编号为i的测试语料,m表示论文预料库中的测试语料个数。藏文论文复制检测就是要把待检测文本D′在总论文集合C中检测,存在复制关系的文本集合
输入待检测文本D′,建立该文本的文本块集合。检测待检测文本D′是否与检测文本库集合C存在复制关系时,需要将待检测文本D′与总论文集合C中每一篇文本进行对比检测。相似度大于某阈值的文本块之间需要建立一个邻接表,它的作用是记录与待检测文本D′的每块文本之间存在复制关系的一种表。
本实用新型中的邻接表的结构如图2所示,根据图2,邻接表的第i节点所指向的链表中保存待检测文本D′与测试语料Di(Di∈C,1≤i≤n)之间藏文重复句子在各自测试语料文本中的句子编号。例如,在上图中D′的句子编号为1的句子与文本D1中句子编号为2的句子是重复的,那么在对应的节点保存句子编号为<1,2>,另外重复的句子为<3,4>,<6,9>。
1.2句子与文档的倒排索引结构的构建方法
倒排索引(Inverted index),也常被称为反向索引,是一种索引方法。在处理大规模的文本块两两比较时,处理速度是算法效率的瓶颈,引用倒排索引,可以根据句子快速获取包含这个句子的文档列表和位置信息。
本实用新型是基于藏文句子级别的藏文论文复制检测系统,因此构建的是句子与文档之间的倒排索引结构表。在倒排索引表中以藏文句子为索引,能够迅速找到出现该句子的所有文档以及该藏文句子在该文档中的位置信息。由于重复的藏文句子可以由索引直接得到,因此减少了句子的两两比较次数,可以极大的提高算法的效率。
根据图3为本实用新型中的句子-文本文档的倒排索引结构原理图,构建倒排索引表是为了减少句子的两两比较和提高算法效率。那么倒排索引表在注册论文时系统自动构建,其中SENT_ID表示待检测论文的句子编号、DOC_ID表示该句子在那个文档中的句子是相同,因此当SENT_ID=1时,DOC_ID=<1,1>表示文档编号为1的句子编号1是完全相似的,而SENT_NUM表示句子相同个数,因此当SENT_NUM>2时,只计算一次就可以解决重复计算了。SENT_DOC_SPOS和SENT_DOC_EPOS是指句子在该文档中的开始位置和结束位置,是为了定位具有相似程度的文档内的位置。
1.3空间向量的余弦相似度算法
请参阅图4所示计算相似度算法的总体流程,根据划分文本块粒度大小的不同,本实用新型利用藏语句子边界识别方法把藏文论文的分块以句子为粒度划分。因为在一篇藏文论文中,句子是文本内容中具有完整语义的基本文本单元。另外,把藏文文本按句子分块也是较合理的。通常在英汉论文的抄袭检测时,剽窃者所复制的最小单元没有小于句子粒度。
以句子为粒度的藏文论文复制检测时,首先要计算出句子的相似度。安见才让老师在《藏语句子相似度算法的研究》中提到:句子的相似度除了与关键词有关外,还与句子长度、句子中连续单词序列的距离有关。因此,藏文论文在文本分块时,藏语句子长度(音节个数)需要设定一个阈值。如果音节个数大于这个阈值,认为是一个有效的藏语句子,它包含的关键词个数也多。如果小于这个阈值它所包含的关键词个数太少,因此这样的句子不能作为藏文论文的特征块。
基于句子级别的复制检测,首先要计算句子的相似度,其次利用句子相似度值度量整个文本的相似度。本实用新型充分考虑句子的关键词、同义词和近义词等因素采用基于空间向量的余弦相似度来计算藏语句子的相似度。该算法的关键是如何选取特征向量,只要有特征向量就可以生成向量空间模型,最后计算余弦相似性。
(1)特征向量的选取。通过文本块提取藏文文本的特征,对这些特征项利用TF-IDF加权方法选取特征向量。由公式(2)所示:
TF-IDF=词频(TF)×逆文本频率(IDF) (2)
(2)向量空间模型VSM及余弦计算。向量空间模型的基本思想是把文本块简化为以特征项(关键词)的权重为分量的N维向量表示。用向量来表示文本,从而简化了文本中的关键词之间的复杂关系。文本用十分简单的向量表示,使得模型具备了可计算性。
常用向量之间夹角的余弦值表示,由公式(3)所示。
其中,wik、wjk分别表示文本Di和Dj第k个特征项的权值,1<=k<=n。和分别表示向量Di和向量Dj。
假设论文库为Di={S′1,S′2,…,S′i,…S′n},其中S′i表示编号为i的文本块(句子),n表示论文集合的文本块数。文本块又可以用特征项集合表示S′={T1,T2,…,Tk…,Tm},其中Tk是编号为k的特征项,要求满足1≤k≤m。
一篇待测论文中有S1,S2,S3,S4四个文本块,那么这篇待测论文就可以表示为Dj(S1,S2,S3,S4),对含有n个特征项的文本块而言,通常会给每个特征项赋予一定的权重表示其重要程度,即S1=S1(T1,W1;T2,W2;…;Tk,Wk;…;Tn,Wn),简记为
S1=S1(W1,W2,…,Wk,…,Wn)
把它叫做文本块S1的权重向量表示,其中Wk是Tk的权重,1≤k≤n。
利用空间向量的余弦相似度算法计算论文库Di和待测论文Dj的文本块S′和S1之间的内容相关度SIM(S′,S1),流程包括如下步骤:
步骤SA1:获取待测论文Dj中的藏语文本块S1;
步骤SA2:对文本块S1进行分词、去停用词处理;
步骤SA3:利用公式(2)计算(S′,S1)权值,选取特征向量;
步骤SA4:建立(S′,S1)权重向量空间;
步骤SA5:利用公式(3)计算SIM(S′,S1)余弦相似值;
步骤SA6:阈值判断相似度。
余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫“余弦相似性”。所以,上面的文本块S′和S1是很相似的。
要判定两个藏文文本块是否相似是需要一个判定标准,即设定一个阈值检验计算之后的数据结果。若计算结果大于或等于这个阈值,则判定其相似,否则,反之。对于阈值的选择是比较灵活的,可以根据需要的精度设置,精度要求越高,阈值越小,一般的取值范围是[0.3,1]。
1.4藏文论文复制率算法
论文复制率是表示两个(1∶1)或多个(1∶N)论文之间匹配程度的一个度量参数,复制率越高,说明论文相似程度就高,否则论文相似度程度低。可以运用于文本聚类、信息检索、问答系统、网页去重、文本分类,文本查重等很多领域,藏文论文复制率的有效计算是其进行藏文信息处理的关键。
在度量文本文档间相似性时,本实用新型提出的基于空间向量的余弦相似度算法来计算待检测藏文论文的每一条句子与测试语料库句子的相似度,取所有测试语料库句子相似度的平均值作为待测文本这一句子的抄袭程度,最终将得到一个待测论文每条句子相似度的向量集,向量集的每个元素表示待测论文对应的句子相似度。向量元素值越大,说明抄袭程度越严重。可以根据计算公式(4)来计算。
式中SentSimi表示待检测论文的第i个句子与语料库相似句子的平均相似值,m表示第i个句子的个数,Dk表示不同论文的句子相似值。
由此根据句子抄袭程度值来度量待测论文的综合评估值,可以根据计算公式(5)来计算。
式中DOCSIM表示句子相似度情况度量论文的抄袭程度综合评估值,n表示待检测藏文论文的句子数,SentSimi表示待检测论文的第i个句子的抄袭程度值。
要计算待检测论文在预料库中不同论文之间的相似程度,那么就要考虑重复句子的相似值,可以根据计算公式(6)来计算。
式中Doci表示待检测论文与该论文的相似程度,n表示该论文的句子总数,SentSimi表示该论文与待检测论文的句子相似度,m表示SentSimi重复出现的次数。
根据以上公式既可以度量待检测论文与语料库间的相似度,又可以计算出待检测论文在论文库中不同论文之间的相似度,因此,不但评估了待检测论文的综合测评,而且计算了在预料库中不同论文之间的相似度。
本实用新型可应用于检测藏文论文的复制率,以及网页去重、文本查重等技术领域。
根据处理论文的方式不同,论文复制检测有多种模型。不管利用匹配统计还是词频统计的方法,系统结构都具有相似性,一般都是基于论文注册和论文复制检测的系统结构,包括输入输出模块和预处理模块、复制检测模块和系统设置模块等,主要差别在于论文预处理和复制检测模块。
根据论文复制检测装置对藏文论文进行预处理、论文分块、特征提取、句子相似度计算,最后用句子相似度来度量整篇藏文论文的抄袭率。因此复制检测装置的实施包括:
所述预处理模块,在藏文论文预处理时,考虑了编码的统一性和可存储性,对藏文论文的文本编码进行了研究,将其统一转换成Unicode编码。
所述分词临时表模块,所述分词临时表模块在藏文论文分块时,采用了藏文句子边界识别方法,把藏文论文按句子为粒度进行分块处理。同时建立句子与文档的倒排索引表,减少重复句子的两两比较和定位句子的位置信息。
所述特征提取模块,在藏文论文的特征提取时,采用了藏文自动分词方法,用TF-IDF计算每个词的频率,构建词频向量集。
所述复制检测模块,利用空间向量的余弦相似度算法计算待检测论文的每个文本块与语料库的文本块之间的相似度来度量整片论文的复制率。
请参阅图5示出论文注册模块的流程,论文注册模块的基本实施步骤与复制检测模块的前三模块相同,步骤四其主要把待注册的文本块解析构建句子信息表和文档信息表的句子与文档的倒排索引表。若注册成功,则论文库文档列表中显示已入库的详细信息。
二、藏文论文文本编码格式的研究
在进行文本复制检测时,首先需要把各种格式文档要统一转换成Unicode文本编码格式。
Unicode是ISO制定的字符编码方案,可容纳世界上的所有文字和符号。用数字0-0x10FFFF来映射这些字符,最多可以容纳1114112个字符或者码位。常见的文本文档编码方式有ANSI、UNICODE、UNICODE big endian、UTF-8四种。
藏文字母是从3.2版本开始正式支持,藏文编码区间范围为U+0F00至U+0FFF。包括有文字、数字和各种标点符号以及宗教文书上使用的特殊符号。
请参阅图6示出以藏文字母为例,四种类型的编码对应的十六进制格式。
ANSI编码:无文件头(文件编码开头标志性字节),ANSI编码字母数字占一个字节,汉字占两个字节,回车换行符是单字节,十六进制表示为0D 0A。
UNICODE编码:文件头以十六进制表示为FF FE,每一个字符都用两个字节编码,回车换行符是双字节,十六进制表示为00 0D 00 0A。
Unicode big endian编码:文件头以十六进制表示为FE FF,后面编码是把字符的高位放在前面,低位放在后面,正好和Unicode编码颠倒。回车换行符是双字节,十六进制表示为0D 00 0A 00。
UTF-8编码:文件头,十六进制表示为EF BB BF。UTF-8是Unicode的可变长字符编码,数字、字母、回车和换行符都表示一个字节,汉字占3个字节,藏文字母也占3个字节。回车换行符,单字节,十六进制表示为0D 0A。
如图6示出的不同类型的编码文件藏文字母对应的十六进制码可知,显然,ANSI保存藏文字母已变成乱码“?”,因此藏文不能用ANSI编码文件格式保存。
2.1藏文论文的文本编码格式转换方法
微软基础类库(Microsoft Foundation Class Library,MFC)。它提供的文件类CStdioFile,其中一个函数ReadString()实现了文件的按行读取,但是不能满足不同类型的文本文件的按行读取,为了解决这一问题,研究了一些编码知识,实现了CStdioFile类的扩展类CStdioFileEx,不仅完成了常见文本文件的按行读取,而且实现了统一转换成Unicode文本编码格式的功能。
请参阅图7所示ReadString函数实现按行读取及编码转换过程,针对不同文本文件编码的特点,通过先检测文件头判断文件编码类型,然后根据编码类型分别调用不同的读取函数实现文件的按行读取和编码转换。其中GetFileType()函数的主要功能是检测文件编码类型;ReadStringFromAnsiFile()函数是指如果检测文件的编码类型为ANSI,通过此函数从ANSI文件读取;ReadStringFromUTF8File()函数是指如果检测文件的编码类型为UTF-8,通过此函数从UTF-8文件读取,利用UTF8TUnicode()函数完成编码转换;ReadStringFromUnicodeFile()函数是指如果检测文件的编码类型为UNICODE和UNICODEbig endian,通过此函数从UNICODE文件读取,因为这两种编码类型大体相同,对UNICODEbig endian编码类型交换高低字节即可转换为UNICODE编码类型。
假设m_FileType为编码类型,OutStr为文本内容转换成UNICODE编码结果,则图7的流程包括以下步骤:
步骤SB1:打开一个藏文论文的文本文件,获取编码类型赋给m_FileType;
步骤SB2:判断m_FileType是否不等于ANSI编码类型,如果否,执行步骤SB7,否则执行步骤SB3;
步骤SB3:判断m_FileType是否不等于UNICODE或UNICODE big endian,如果是,执行步骤SB4,否则执行步骤SB5;
步骤SB4:利用ReadStringFromUTF8File()函数从UTF-8文件读取内容,保存到OutStr中;OutStr做参数调用UTF8TUnicode(OutStr)函数完成编码转换操作,结果重新赋给OutStr变量中,执行步骤SB7;
步骤SB5:判断编码类型是否不等于UNICODE编码,如果是,执行VSB6,否则,直接提取内容保存到OutStr中,执行步骤SB7;
步骤SB6:利用ReadStringFromUnicodeFile()函数从UNICODE big endian文件读取内容,同时交换高低字节完成编码转换操作,结果保存到OutStr中;
步骤SB7:OutStr进入下一步操作。
三、藏语句子边界识别的研究
藏文句子边界识别是藏文自然语言处理中一项关键技术,也是藏语句法分析、藏汉(汉藏)平行语料库和机器翻译等的基础性工作。同时也是本实用新型研究领域中的关键基础。藏文论文按句子划分也是比较合理的,因为藏文句子是藏文论文内容中具有完整语义的基本文本单元。因此准确的识别藏文句子边界显得日益重要。
藏语句子就是一个字符串,是有一组不同含义的单词、格助词和虚词组成。藏语句子语序结构属于SOV型,即{主语+宾语+谓语}的语序结构,藏语句子的构成是以动词为核心,运用各种关联词将词语连接起来组成句子的过程。句子大体上可分为单句和复句。
1单句
一般来说,构成藏语句子的因素有两个,即实词和虚词。虚词结合实词表明事物及其属性的差别,但实词的组合中没有虚词或者省略也能表明事物及其属性差别,关键是句尾必须要有助词(助词包括动词、形容词、助动词、存在动词、判断词、时态动词、语气动词、祈使助词、比喻助词和终结助词等),就是一个表达完整的句子。但是一个表达完整的句尾不能有两个后接成分。具有后接成份的词组,不管句子有多长,因为没有表述完所要表达的意思,所以依然是一组词的序列。
2复句
藏语复句是由两个或两个以上的意义上相关,但结构上不构成句子成分的单句组成。其中单句是指没有表达完整的句子。通常这些单句用关联词来连接表达完整的藏语复句。藏语复句有联合和偏正复句两类。
联合复句是前后单句在意义上平等的句子,连接这些单句关联词的不同有并列、顺承、递进、解说和选择等联合复句。如表1所示联合复句:
表1
偏正复句是前后单句在意义上有主从之分,连接这些单句关联词的不同有转折、因果、假设和目的等偏正复句。如表2所示偏正复句:
表2
用来表示藏文句子、段落和篇章结尾等的结束符号就是藏文的标点符号。如表3所示。
表3藏文标点符号
另外,传统藏文文法中还有很多类似标点的符号,各自都有独特的功能。虽然没有像中英文句号之类专门表达句末的功能,但按语义有何时停顿,何时结束表达一个完整的句子功能。这让计算机来识别藏文句子边界增加了一定的难度,因此藏文句子边界识别是藏文信息处理中的亟待解决的问题。
基于规则的句子边界识别方法,请参阅图8所示藏语句子边界识别算法具体流程,假设Str为藏文文本,i和j为开始和结束位置,默认值为0,T为锤形符左侧的单音节,Out为分句结果,算法具体步骤如下:
步骤SC1:从i=j的位置识别Str中是否有锤形符号,如果条件为假,则执行步骤SC5;
步骤SC2:从Str中识别出的锤形符位置j赋给i,利用逆向最大匹配法,提取锤形符左侧的单音节保存到T中;
步骤SC3:单音节T与句子边界规则库进行匹配,如果条件为假,则执行步骤SC1;
步骤SC4:截取i到j这条成功识别的藏文句子,保存Out中,剩余文本替换到Str。继续对分句结果Out与无锤形符规则库进行识别;
步骤SC5:检测是否存在无锤形符边界词,如果条件为假,说明Out是分句完成的句子结果,执行步骤SC8;
步骤SC6:如果步骤SC5结果为真,边界词下一个字符是否是音节符号,如果条件为真,则执行步骤SC8;
步骤SC7:如果是空格符或其他字符,认为Out内还有一条完整的句子,进一步分句处理,保存到Out,继续执行步骤SC5;
步骤SC8:分句完毕,进行下一步操作。
藏文句子中借助锤形符号左侧一个音节或多个音节语义关系可以判别句子是否结束,通过统计和分析锤形符号左侧一个音节或者多个音节和无锤形符号(如后加字为的单音节字等)的边界词和歧义边界词,形成藏文句子边界规则库。采用逆向匹配的方法可以很好的解决藏文句子的边界识别问题。
如果锤形符号左侧的音节在边界词表中存在,表明该句子是一个完整的句子,相反,锤形符号左侧的音节在非边界词中存在,表明该句子还没有结束。本实用新型首先按锤形符号进行分句,在分句内用无锤形符号规则库进行识别,进一步分析在无锤形符号规则库内存在的边界词下一个字符是否是音节符,若“是”不进行分句处理,若“不是”或者是“空格符”,说明分句内还有句子,再一次分析分句处理。如:
第一步,分句得到 分句还有无锤形符号的完整句子,经过规则库判断,正确的分句为:
第二步,同样用此方法。因此,完整的分句结果为:
为了检验本实用新型的基于藏文句子级别的藏文论文复制检测系统,本实用新型进行了如下实验。
实验方案:根据实验需求,搜集了6篇藏文论文建立训练语料库,从训练语料库中构造了三种不同的待检测论文。具体的构造方法如表4所示:
表4三种不同待测论文的构造方法
用待检测论文进行测试能否准确地计算出综合测评以及测试语料库中的每篇论文之间的相似度。对测试结果进行了比较和分析,用查准率和查全率两个性能指标评价了藏文论文复制检测技术。
查全率(召回率),是衡量论文复制检测系统从语料库集合中检测出重复论文成功率的一项指标,即检测出的重复论文量和论文复制检测系统中语料库总量的比率。
查准率(精度),是衡量论文复制检测系统的信号噪声比的一种指标,即检测出的抄袭论文数和检测出的全部论文数的百分比。
实验结果:下面测试不同阈值对算法性能的影响,阈值范围为[0,1]。通过观察藏文论文相似度来检查阈值对计算论文相似度的影响。实验结果表5至表10所示。
请参阅图9示出待测论文1的句子相似度阈值取值指标图以及表5待测论文1的句子相似阈值取值结果。
表5
请参阅图10示出待测论文1的句子相似度阈值取值语料库测试指标图以及表6待测论文1的阈值语料库测试结果。
表6
阈值范围 | 实际查重数 | 正确查重数 | 准确率 | 查全率 | F值 |
0.1 | 216 | 20 | 9.26% | 100% | 16.95 |
0.2 | 55 | 20 | 36.36% | 100% | 53.33 |
0.3 | 27 | 20 | 74.07% | 100% | 85.10 |
0.4 | 22 | 20 | 90.90% | 100% | 95.23 |
0.5 | 20 | 20 | 100% | 100% | 100 |
0.6 | 20 | 20 | 100% | 100% | 100 |
0.7 | 20 | 20 | 100% | 100% | 100 |
0.8 | 20 | 20 | 100% | 100% | 100 |
0.9 | 19 | 19 | 100% | 95% | 97.44 |
通过对表5、表6和图9、图10的结果分析,得出以下结论:
1、当阈值为0.1时,经过对比检测,检测结果大于10%,认为有抄袭嫌疑,但从表4、表5和表6中可以得出,待测论文1并没有在预料6中构造,可依然能检测出6.95%的抄袭率,说明其他预料的检测结果也有一些偏差,这是因为跟特征词有关系,只要在两条句子中有一到两个特征词相似,判定为这两条句子为相似,显然阈值取0.1不合理,再说准确率只占9.26%。
2、当阈值为0.5时,准确率达到100%,实际查重数=正确查重数,因此对于待测论文1阈值适合取0.5。
请参阅图11示出待测论文2的句子相似度阈值取值指标图以及表7待测论文2的句子相似阈值取值结果。
表7
阈值范围 | 语料1 | 语料2 | 语料3 | 语料4 | 语料5 | 语料6 | 综合测评 |
0.1 | 14.39% | 15.58% | 20.28% | 18.89% | 19.14% | 11.60% | 21.88% |
0.2 | 19.58% | 14.09% | 23.97% | 20.64% | 22.31% | 10.04% | 66.56% |
0.3 | 20.20% | 16.23% | 24.43% | 18.20% | 27.85% | 0% | 63.32% |
0.4 | 17.87% | 17.51% | 22.15% | 12.46% | 27.57% | 0% | 51.95% |
0.5 | 14.38% | 11.94% | 20.68% | 12.46% | 27.00% | 0% | 45.46% |
0.6 | 11.72% | 9.64% | 16.68% | 7.40% | 19.62% | 0% | 32.47% |
0.7 | 10.01% | 6.70% | 14.50% | 5.30% | 11.15% | 0% | 39.02% |
0.8 | 10.01% | 0% | 9.41% | 3.03% | 4.55% | 0% | 21.95% |
0.9 | 10.01% | 0% | 3.45% | 3.03% | 4.55% | 0% | 17.07% |
请参阅图12示出待测论文2的句子相似度阈值语料库测试指标图以及表8待测论文2的阈值语料库测试结果。
表8
阈值范围 | 实际查重数 | 正确查重数 | 准确率 | 查全率 | F值 |
0.1 | 384 | 67 | 17.4% | 100% | 29.64 |
0.2 | 137 | 67 | 48.9% | 100% | 65.68 |
0.3 | 68 | 67 | 98.5% | 100% | 99.24 |
0.4 | 46 | 46 | 100% | 68.7% | 81.45 |
0.5 | 34 | 34 | 100% | 50.7% | 67.29 |
0.6 | 23 | 23 | 100% | 34.3% | 51.08 |
0.7 | 16 | 16 | 100% | 23.8% | 38.45 |
0.8 | 9 | 9 | 100% | 13.4% | 23.63 |
0.9 | 7 | 7 | 100% | 10.4% | 18.84 |
通过对表7、表8和图11、图12的结果分析,得出以下结论:
1、当阈值为0.1和0.2时,出现同样的问题,因此对于待测论文2不宜取0.1和0.2。
2、当阈值为0.3时,实际查重数接近正确查重数,查全率达到100%,F值达到最高点,因此综合测评63.32%是正确的。
3、当阈值为0.4-0.9时,虽然正确率达到100%,却查全率逐渐下降,没有完全检测到构造待测论文2时抄袭的句子。
请参阅图13示出待测论文3的句子相似度阈值取值指标图以及表9待测论文3的句子相似阈值取值结果。
表9
阈值范围 | 语料1 | 语料2 | 语料3 | 语料4 | 语料5 | 语料6 | 综合测评 |
0.1 | 3.33% | 1.12% | 3.63% | 1.96% | 4.01% | 38.62% | 15.56% |
0.2 | 0.72% | 2.17% | 54.61% | 41.71% | |||
0.3 | 63.62% | 64.61% | |||||
0.4 | 61.17% | 64.61% | |||||
0.5 | 61.17% | 64.61% | |||||
0.6 | 53.69% | 52.86% | |||||
0.7 | 49.12% | 52.86% | |||||
0.8 | 29.10% | 33.05% | |||||
0.9 | 6.67% | 7.69% |
请参阅图14示出待测论文3的句子相似度阈值语料库测试指标图以及表10待测论文3的阈值语料库测试结果。
表10
通过对表9、表10和图13、图14的结果分析,得出以下结论:
1、待测论文3与以上两篇待测论文构造方法刚好相反,只对预料6进行抄袭,显然阈值取0.1和0.2是不正确。
2、只有在阈值为0.3时,不但实际查重数=正确查重数,准确率=查全率=F值=100%。
3、当阈值为0.4-0.9时,虽然准确率不变,但查全率和F值一直下降。
请参阅图15为本实用新型的基于藏文句子级别的藏文论文复制检测系统复制检测的综合测评界面显示,此界面正是本实用新型最主要的模块,也是本实用新型的重点。复制检测模块不但能检测综合测评,而且也能与论文库之间依依检测出相似程度。
请参阅图16为本实用新型的基于藏文句子级别的藏文论文复制检测系统的1:N检测结果综合报告界面。为了准确查看待测论文的抄袭嫌疑,本实用新型装置能以WORD文档格式导出检测报告,以便作者方便修改。
以上所述仅为本实用新型的较佳实施例,并不用以限制本实用新型,凡在本实用新型的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于藏文句子级别的藏文论文复制检测系统,其特征在于,所述系统包括可访问因特网的客户终端,通过因特网连接到所述客户终端服务器的藏文论文复制检测装置,以及连接到所述服务器存储的藏文论文的数据库;所述藏文论文复制检测装置包括:
从藏文论文的数据库提取待检测藏文论文文本字符做编码转换及去除噪音的通过因特网连接到所述客户终端的服务器中预处理模块;
所述客户终端的服务器中预处理模与基于藏文句子边界识别藏文论文文本并按句子分成文本块,构建文本块分词的分词临时表模块连接;
所述分词临时表模块与在句子-文档倒排索引表和文本块分词的临时表中,得到句子文本特征的特征提取模块连接;
所述特征提取模块与利用邻接表获得文本块相似值来检测两篇藏文论文存在的复制数据的复制检测模块连接。
2.根据权利要求1所述的基于藏文句子级别的藏文论文复制检测系统,其特征在于,所述藏文论文文本文件编码转换成Unicode编码。
3.根据权利要求1所述的基于藏文句子级别的藏文论文复制检测系统,其特征在于,所述句子的文本特征由句子中的停单词、格助词和虚词组成。
4.根据权利要求1所述的基于藏文句子级别的藏文论文复制检测系统,其特征在于,用待测藏文论文每条句子相似度的向量集的每个元素表示待测藏文论文对应的句子相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201621006813.2U CN206451175U (zh) | 2016-08-31 | 2016-08-31 | 一种基于藏文句子级别的藏文论文复制检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201621006813.2U CN206451175U (zh) | 2016-08-31 | 2016-08-31 | 一种基于藏文句子级别的藏文论文复制检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN206451175U true CN206451175U (zh) | 2017-08-29 |
Family
ID=59661894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201621006813.2U Expired - Fee Related CN206451175U (zh) | 2016-08-31 | 2016-08-31 | 一种基于藏文句子级别的藏文论文复制检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN206451175U (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN108965930A (zh) * | 2017-12-29 | 2018-12-07 | 北京视联动力国际信息技术有限公司 | 一种视频数据处理的方法和装置 |
CN111381191A (zh) * | 2020-05-29 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 一种对文本进行同义修改、确定文本创作者的方法 |
CN112131859A (zh) * | 2020-08-25 | 2020-12-25 | 中央民族大学 | 藏文作文抄袭检测原型系统 |
-
2016
- 2016-08-31 CN CN201621006813.2U patent/CN206451175U/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227897A (zh) * | 2016-08-31 | 2016-12-14 | 青海民族大学 | 一种基于藏文句子级别的藏文论文复制检测方法及系统 |
CN108965930A (zh) * | 2017-12-29 | 2018-12-07 | 北京视联动力国际信息技术有限公司 | 一种视频数据处理的方法和装置 |
CN108965930B (zh) * | 2017-12-29 | 2021-05-28 | 视联动力信息技术股份有限公司 | 一种视频数据处理的方法和装置 |
CN111381191A (zh) * | 2020-05-29 | 2020-07-07 | 支付宝(杭州)信息技术有限公司 | 一种对文本进行同义修改、确定文本创作者的方法 |
CN112131859A (zh) * | 2020-08-25 | 2020-12-25 | 中央民族大学 | 藏文作文抄袭检测原型系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106227897A (zh) | 一种基于藏文句子级别的藏文论文复制检测方法及系统 | |
Laurer et al. | Less annotating, more classifying: Addressing the data scarcity issue of supervised machine learning with deep transfer learning and BERT-NLI | |
CN206451175U (zh) | 一种基于藏文句子级别的藏文论文复制检测系统 | |
CN106651696B (zh) | 一种近似题推送方法及系统 | |
CN105975454A (zh) | 一种网页文本的中文分词方法和装置 | |
CN102622338A (zh) | 一种短文本间语义距离的计算机辅助计算方法 | |
CN103399901A (zh) | 一种关键词抽取方法 | |
CN103823896A (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN104899230A (zh) | 舆情热点自动监测系统 | |
CN107102983B (zh) | 一种基于网络知识源的中文概念的词向量表示方法 | |
CN112100365A (zh) | 双阶段文本摘要方法 | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN111866004B (zh) | 安全评估方法、装置、计算机系统和介质 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN111178040B (zh) | 藏汉跨语言论文剽窃检测方法和系统 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN112818110B (zh) | 文本过滤方法、设备及计算机存储介质 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
CN111782759B (zh) | 一种问答处理方法、装置及计算机可读存储介质 | |
Weerasinghe et al. | Feature Vector Difference based Authorship Verification for Open-World Settings. | |
CN115718792A (zh) | 一种基于自然语义处理和深度学习的敏感信息提取方法 | |
Aida et al. | A comprehensive analysis of PMI-based models for measuring semantic differences | |
CN110781673A (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN116306504B (zh) | 候选实体生成方法、装置、存储介质及电子设备 | |
CN114169447B (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170829 Termination date: 20180831 |
|
CF01 | Termination of patent right due to non-payment of annual fee |