CN117648917B - 一种版式文件对比方法及系统 - Google Patents
一种版式文件对比方法及系统 Download PDFInfo
- Publication number
- CN117648917B CN117648917B CN202410122043.0A CN202410122043A CN117648917B CN 117648917 B CN117648917 B CN 117648917B CN 202410122043 A CN202410122043 A CN 202410122043A CN 117648917 B CN117648917 B CN 117648917B
- Authority
- CN
- China
- Prior art keywords
- phrase
- paper
- index
- file
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000012512 characterization method Methods 0.000 claims abstract description 81
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 57
- 230000011218 segmentation Effects 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 11
- 238000003064 k means clustering Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008719 thickening Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种版式文件对比方法及系统,具体包括:通过提取待对比论文版式文件中的文本内容,根据待对比论文文本内容中各词组在论文正文以及重要信息部分出现的次数,构建词组的可表征性指数;结合各词组的词性构建各词组的选词贡献度,结合词频‑逆文档频率值获取待对比论文的表征关键词,利用Levenshtein距离与Jaro‑Winkler算法计算待对比论文与论文库中论文的表征关键词之间的一级相似度,通过一级相似度聚类得到高相似论文,与待对比论文比较判断抄袭情况。从而实现版式文件对比,提高了论文对比的效率,解决了LCS算法在论文对比时,需要逐一对比而效率较低的问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种版式文件对比方法及系统。
背景技术
随着电子文件格式的多样化,当前文件格式主要分为两大类,一类为流式文件,其特点为支持自由编辑,其版式、内容等都可根据操作者的意愿进行修改调整,代表格式有Word、TXT等,适合用于日常的办公协作、撰写等;另一类则是版式文件,其特点为不可编辑,版式固定的文件,在任何设备上显示和打印的精度都是一致的,文件中的内容、元素、位置等在文件生成时已经固定,其他操作者不可进行修改,代表格式有PDF、OFD等,适用于比较正式的场合,如商业文档、电子文书、电子凭证等。
其中论文版式文件通常会使用对比的方法,将待对比的论文与论文库中其余论文进行对比,进而实现论文版式文件的查重、防抄袭等操作,通常采用LCS算法进行比较。然而随着论文的增多,论文库中的论文数量变的庞大,对于一个新论文而言想要与其余论文进行对比,需要消耗大量的资源和时间,对比效率较低。
综上所述,本实施例提出一种版式文件对比方法及系统,通过提取待对比论文版式文件中的文本内容,根据待对比论文文本内容中各词组出现情况及词性构建各词组的选词贡献度,结合词频-逆文档频率值获取表征关键词,与论文库中各论文的表征关键词比较构建待对比论文与论文库中各论文之间的一级相似度,通过一级相似度聚类得到高相似论文,与待对比论文进行对比判断,具有较高论文对比效率。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种版式文件对比方法及系统,所采用的技术方案具体如下:
第一方面,本发明实施例提供了一种版式文件对比方法,该方法包括以下步骤:
将待对比论文版式文件作为初始文件;通过OCR模型及正则表达式获取初始文件中纯文本数据;
通过jieba分词系统获取纯文本数据中各词组;根据各词组结合依存句法分析算法得到提纯文本数据;将提纯文本数据中的所有词组作为初始文件的词组分词数据;根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数;通过隐马尔科夫模型获取各词组的词性;将各词组与对应右相邻词组合并得到各词组的连携词组,其中,最后一个词组的右相邻词组为所述最后一个词组的左相邻词组;根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数;根据各词组的连携可表征指数得到各词组的选词贡献度:通过词频-逆文档频率算法获取词组分词数据中各词组的词频-逆文档频率;将各词组的选词贡献度与词频-逆文档频率的组合作为各词组的特征二维组;根据各词组的特征二维组及K-means聚类算法得到初始文件的各表征关键词;根据表征关键词及Levenshtein距离、Jaro-Winkler算法得到初始文件与论文库中各论文之间的一级相似度;
根据一级相似度结合DBSCAN聚类算法得到高相似对比簇;根据高相似对比簇结合LCS算法对初始论文进行对比判断。
优选的,所述根据各词组结合依存句法分析算法得到提纯文本数据,具体为:
将待对比版式文件中各语句输入依存句法分析算法中进行依存关系分析得到各语句中的依存关系;通过各语句之间的依存关系得到各语句中的连接词;将纯文本数据中所有连接词剔除;将剔除连接词后的纯文本数据作为提纯文本数据。
优选的,所述根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数,具体包括:
计算各词组在纯文本数据中出现次数与纯文本数据中词组总数的比值;在待对比论文版式文件中,获取各词组所在语句的出现频率;计算所述比值与所述语句的出现频率的乘积;将所述乘积作为各词组的第一表征指数;
通过PyMuPDF解析库对初始文件进行解析得到初始文件中具有标题格式或加粗格式的字符,记为重要字符;将所有具有重要字符的词组作为重要信息文本数据;
获取各词组在重要信息文本数据中出现次数;计算所述出现次数与重要信息文本数据中词组总数的比值;将所述比值与第一表征指数的乘积作为各词组的可表征性指数。
优选的,所述根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数,具体包括:
通过词组分词数据中各词组的可表征性指数的计算方法获取各词组的连携词组的可表征性指数;若各词组的词性为名词,则将各词组的词性权重预设为A,反之,则各词组的词性权重预设为B,其中A>B;
计算各词组与所属右相邻词组的词性权重的和值;计算各词组的连携词组的可表征性指数与在连携分词数据集合中出现次数的乘积,记为第一乘积;计算各词组的可表征性指数与在词组分词数据中出现次数的乘积,记为第二乘积;将第一乘积与第二乘积的比值作为各词组的连携词组的可表征性;计算各词组的连携词组的可表征性与所述和值的乘积,记为第三乘积;将第三乘积作为各词组的连携可表征指数。
优选的,所述根据各词组的连携可表征指数得到各词组的选词贡献度,具体为:
若各词组的可表征指数大于连携可表征性指数,则将各词组的可表征指数作为各词组的选词贡献度;
若各词组的可表征指数小于等于连携可表征性指数,则将各词组的连携可表征性指数作为各词组的选词贡献度。
优选的,所述根据各词组的特征二维组及K-means聚类算法得到表征关键词,具体为:
通过K-means聚类算法对各词组的特征二维组进行聚类得到各聚类簇;将聚类中心距离坐标原点最远的聚类簇作为表征关键词聚类簇;将表征关键词聚类簇中各词组作为初始文件的各表征关键词。
优选的,所述根据表征关键词及Levenshtein距离、Jaro-Winkler算法得到初始文件与论文库中各论文之间的一级相似度,具体包括:
通过初始文件的各表征关键词的获取方法得到论文库中每篇论文的各表征关键词;分别通过Levenshtein距离及Jaro-Winkler算法获取初始文件中各表征关键词与论文库中每篇论文的各表征关键词之间的Levenshtein距离及相似度得分;
对于论文库中各论文,计算初始文件中各表征关键词与论文库中论文的各表征关键词之间的相似度得分与Levenshtein距离的比值;计算所有所述比值的和值;计算初始文件中表征关键词数量与论文库中论文的表征关键词数量之间的差值绝对值;计算所述差值绝对值的倒数;计算所述和值与所述倒数的乘积;将所述乘积作为初始文件与论文库中论文之间的一级相似度。
优选的,所述根据一级相似度结合DBSCAN聚类算法得到高相似对比簇,具体为:
将初始文件的所有一级相似度数据输入DBSCAN聚类算法进行聚类得到各聚类簇;计算各聚类簇中所有一级相似度均值;将一级相似度均值最大的聚类簇作为高相似对比簇。
优选的,所述根据高相似对比簇结合LCS算法对初始论文进行对比判断,具体为:
对于高相似对比簇中的论文库内的各论文,将论文库的论文与初始文件输入LCS算法进行比较,LCS算法的输出为初始文件与论文库的论文之间的最长公共子序列;若任一最长公共子序列长度超过论文抄袭认定标准,则初始文件存在抄袭;反之,初始论文不存在抄袭。
第二方面,本发明实施例还提供了一种版式文件对比系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。
本发明实施例至少具有如下有益效果:
本发明通过分析词组在论文正文以及重要信息部分出现的次数,构建词组的可表征性指数,以表示每个词组的对该论文的表征能力;再针对词组词性表征能力的不同以及连携词组出现时表征能力的不同,构建连携可表征指数,以表示当两个词组的联系程度较大时作为同一个词组的表征能力;接着分析每个词组独立出现和连携出现时表征能力的大小最终确定每个词组的选词贡献度,以用于论文表征关键词的选取;最后根据所选出的表征关键词,利用Levenshtein距离与Jaro-Winkler算法计算待对比论文与论文库中论文的表征关键词之间的一级相似度,以表示论文之间的基础相似情况,进而可更快速地判断论文间的相似情况,从论文库中剔除相似度较低的论文,筛选出相似度较高的论文,再进行基于LCS算法的论文对比,减少了需要对比的论文数量,从而提高了论文对比的效率,解决了LCS算法在论文对比时,需要逐一对比而效率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种版式文件对比方法的步骤流程图;
图2为一种版式文件对比方法的具体步骤图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种版式文件对比方法及系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种版式文件对比方法及系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种版式文件对比方法的步骤流程图,该方法包括以下步骤:
步骤S001,提取待对比论文版式文件中的文本内容。
获取待对比的论文PDF版式文件,将其作为初始文件。将初始文件输入到光学字符识别(OCR)模型中,对初始文件内的文字信息进行提取,OCR模型的输出为初始文件中的文本数据,再利用python中re库的正则表达式,对文本数据内的标点符号进行去除,将不含标点符号的文本数据作为初始文件的纯文本数据。其中OCR模型及正则表达式均为公知技术,具体过程不再赘述。
步骤S002,根据待对比论文文本内容中各词组出现情况及词性构建各词组的选词贡献度,获取表征关键词,与论文库中各论文的表征关键词比较构建待对比论文与论文库中各论文之间的一级相似度。
为了能够减少论文版式文件对比的计算量,需要从论文版式文件中寻找能够代表该论文特点的相关内容或词汇,虽然通常情况下论文自身拥有的标题或关键词也可以代表该论文的特点和主题,但由于标题或关键词内容包含的信息较少,抄袭者替换该部分内容的难度较低,仅利用这两种内容去进行粗对比效果较差,所以需要根据当前论文的内容重新选取该论文的表征关键词,具体为:
利用jieba分词系统将论文纯文本数据中的词组进行分词,得到论文纯文本数据中的每个词组,jieba分词为公知技术,具体过程不再赘述。由于重复率高的词组除了可以代表论文特点和主题相关内容的词组外,还存在许多基础词组,这一类词组能够表征论文主体内容的能力较低,不能作为表征关键词,所以表征关键词的选取还需要考虑其所在论文中的位置权重。由于论文中存在许多无意义的词组,为了能够更快速的找到表征关键词,首先对初始文件的纯文本数据进行数据筛选。具体的,将初始文件的纯文本数据输入到依存句法分析(Dependency Parsing)算法中进行依存关系分析,依存句法分析算法的输出为初始文件的纯文本数据中每个词组在其所在语句中的依存关系,而在依存句法分析中,连接词通常表现为虚拟节点,将所有属于虚拟节点的词组从论文版式文件的纯文本数据中剔除,从而减少初始文件的纯文本数据的数据量,避免无意义词组对后续表征关键词选择的干扰,将剔除虚拟节点的词组后的纯文本数据作为初始文件的提纯文本数据。依存句法分析算法为公知技术,具体过程不再赘述。
将提纯文本数据中的所有词组作为初始文件的词组分词数据;统计词组分词数据中包含的词组总数,将其用N表示。统计第i个词组在词组分词数据中的出现次数,记录为,统计每个词组所在的语句在初始文件中的出现次数,并将其记录为/>,据此计算每个词组的第一表征指数,表达式为:
式中,为词组分词数据中第i个词组的第一表征指数,/>为第i个词组所在语句在初始文件中的出现次数,/>为第i个词组在词组分词数据中的出现次数,/>为词组分词数据中词组总数。其中所述词组所在的语句指的是,在未处理的初始文件中,该词组所在的以逗号或句号为结束标志的语句。当第i个词组所在语句在待对比论文中出现的次数越多、的值越大,/>越大,则该词组在待对比论文中被提及的次数越多,该词组可以表征待对比论文内容的能力越强。
通常情况下,论文的主要内容分为以下几个部分:正标题、摘要、关键词、次要标题以及正文,在上述文本内容中,正标题、摘要、关键词以及次要标题都是针对该论文的主题、研究方向以及方法等重要信息的概括或总结,若某个词组在其中存在的情况越多,则该词组越接近于该论文重要信息的概括总结,其可表征性越强。因此,利用PyMuPDF(本实施例以论文版式文件格式为PDF为例)解析库,对待对比的论文版式文件进行解析,PyMuPDF解析库的输入为待对比的论文版式文件(初始文件),输出为待对比论文版式文件中每个字符的格式数据,所述格式数据包括字体、字号、加粗、倾斜、下划线等,其中PyMuPDF解析库解析字符格式为公知技术,具体过程不再赘述。将每个标题格式(如Microsoft Word中标题样式为标题1至标题9)的字符以及加粗格式的字符进行标记,将这些字符作为重要字符,获取词组分词数据中具有重要字符的词组进行标记,将这些被标记的词组作为词组分词数据的重要信息文本数据;统计重要信息文本数据中词组总数并记录为,再统计词组分词数据中每个词组在重要信息文本数据中出现的次数,其中将第i个词组在重要信息文本数据中出现的次数记录为/>,利用上述获取的数据构建第i个词组的可表征性指数(ER),表达式为:
式中,为词组分词数据中第i个词组的可表征性指数,/>为第i个词组的第一表征指数,/>为第i个词组在重要信息文本数据中出现的次数,/>为重要信息文本数据的词组总数。
越大,则该词组表征论文内容的能力越强;第i个词组出现在重要信息文本数据中的次数越多,/>的值越大,/>第i个词组在重要信息本文数据中出现的情况越多,可以表征论文内容的能力越强,/>的值越大。
词组的词性各有不同,而论文中词组的词性主要分为两大类,名词以及形容词,名词能够表征的文本主题内容更为凸显,其余词性的词组则略为欠缺,为了能够找出准确的表征关键词,还需要对词组的词性进行分析。利用隐马尔科夫模型获取词组分词数据中每个词组的词性,隐马尔科夫模型的输入为初始论文的词组分词数据,输出为词组分词数据中各词组的词性,隐马尔科夫模型为公知技术,具体过程不再赘述。
由于部分形容词脱离其形容的名词后其含义会多样化,所以还应该考虑不同词性词组之间的关联性,当两个词组每次出现时均为相邻词组时(例如词组“复杂的”出现时,其下一个词组必定为词组“算法”),则这两个词组在该论文中存在强关联性,当某个词组的可表征性较强时,其相邻词组的可表征性也一定较强。现将词组分词数据中每个词组与其右相邻词组合并作为每个词组的连携词组,即将两者视为一个词组进行计算;其中对于最后一个词组,将其左相邻词组作为最后一个词组的右相邻词组,与之合并得到最后一个词组的连携词组。将所有词组的连携词组所组成的集合作为连携分词数据集合。
将第i个词组与其右相邻词组(即第个词组)重新组合为一个连携词组后,统计第i个词组的连携词组在连携分词数据集合中的出现次数,记录为/>;统计该连携词组所在语句在初始文件中的出现次数,记录为/>;连携分词数据集合中连携词组的总数与词组分词数据中词组总数相同。再根据词组分词数据的重要信息文本数据的构建方法获取连携分词数据集合中的重要信息文本数据,将其确定为重要连携文本数据,统计其中的连携词组的数量记录为/>;并统计第i个词组的连携词组在重要连携文本数据中出现的次数记录为/>。通过上述数据并利用词组分词数据中各词组的可表征性指数的计算方法获取第i个词组的连携词组的可表征性指数,并将其记录为/>。
基于上述特点,构建第i个词组的连携可表征指数,表达式为:
式中,为第i个词组的连携可表征指数,/>为第i个词组的连携词组的词性权重,/>为第i个词组的连携词组的可表征性,/>为第i个词组的连携词组在连携分词数据集合中的出现次数,/>为第i个词组的连携词组的可表征性指数,/>为第i个词组在词组分词数据中的出现次数,/>为第i个词组的可表征性指数,/>、/>分别为第i个、第i+1个词组的词性权重。其中,/>为第一乘积,/>为第二乘积,为第三乘积。
当第i个词组的连携词组在连携分词数据集合中出现的频率越高,且能够表征的内容越多,表征性越强,其相比于第i个词组的出现频率以及表征性越强,的值越大,而第i个词组的连携词组中包含名词时,其能表征的信息越多,权重越大,/>的值越大,最终/>的值越大,第i个词组的连携词组能表征的论文信息越多,越应该将第i个词组的连携词组作为表征关键词。
基于上述指标,获得第i个词组的选词贡献度,表达式为:
式中,为第i个词组的选词贡献度,/>为第i个词组的可表征性指数,/>为第i个词组的连携可表征指数。
当第i个词组的可表征性指数大于其连携可表征指数时,说明第i个词组独立出现时可表征论文信息的能力更强,应该以单独词组作为表征关键词,当第i个词组的可表征性指数小于其连携可表征指数时,说明第i个词组的连携词组出现时可表征论文信息的能力更强,应该将其连携词组作为表征关键词。
至此,获得所有词组的选词贡献度(FH)。
利用词频-逆文档频率(TD-IDF)算法分析词组在论文中的重要性,词频-逆文档频率(TD-IDF)算法的输入为初始文件的词组分词数据,输出为论文中每个词组的词频-逆文档频率值(TD-IDF值),TD-IDF值越大,词组越重要。将获取到的第i个词组的词频-逆文档频率值与该词组的选词贡献度/>共同构成第i个词组的特征二维组。紧接着利用K-means聚类算法对所有词组的特征二维组进行聚类,K-means算法的输入为每个词组的特征二维组,超参数K设定为3,需要说明的是,K的值实施者可自行设定,本实施例不做具体限制,K-means算法的输出为三个聚类簇,将聚类簇中心点与坐标原点距离最大的簇作为表征关键词聚类簇,最后将表征关键词聚类簇中的所有词组作为该论文的表征关键词。其中词频-逆文档频率及K-means聚类均为公知技术,具体过程不再赘述。
在初始文件与论文库中的每篇论文进行对比时,首先对初始文件以及论文库中的论文进行表征关键词的选取,将论文的表征关键词进行基于Levenshtein距离的计算,Levenshtein距离的输入为初始文件的第n个表征关键词以及论文库中每篇论文的第m个表征关键词,输出为初始文件的第n个表征关键词与论文库中每篇论文的第m个表征关键词之间的Levenshtein距离,将初始文件的第n个表征关键词与论文库中第q篇论文的第m个表征关键词之间的Levenshein距离记录为。再通过Jaro-Winkler算法计算初始文件的第n个表征关键词与论文库中第q篇论文的第m个表征关键词之间的相似度得分,Jaro-Winkler算法的输入为初始文件的第n个表征关键词以及论文库中第q篇论文的第m个表征关键词,输出为初始文件的第n个表征关键词与论文库中第q篇论文的第m个表征关键词之间的相似度得分,并记录为/>,其中Levenshtein距离与Jaro-Winkler算法均为公知技术,本实施例不再赘述其过程。构建初始文件与论文库中第q篇论文之间的一级相似度(FSS),表达式为:
式中,为初始文件与论文库中第q篇论文之间的一级相似度,/>为初始文件中表征关键词的总数,/>为论文库中第q篇论文的表征关键词总数,/>为初始文件的第n个表征关键词与论文库中第q篇论文的第m个表征关键词之间的Levenshein距离,为初始文件的第n个表征关键词以及论文库中第q篇论文的第m个表征关键词之间的相似度得分,/>和/>为调节参数,需要说明的是,/>和/>的值实施者可自行设定,本实施例将/>和/>的值分别设定为/>、/>。
当初始文件中第n个表征关键词与论文库中第q篇论文的第m个表征关键词越相似时,的值越大,则两篇论文中的这两个表征关键词表述的内容可能较为一致,而两篇论文中找出的表征关键词数量越接近,/>的值越小,/>的值越大,/>的值越大,则这两篇论文中想表达的内容越相似。
通过上述方法获得待对比论文与论文库中每篇论文之间的一级相似度FSS。
步骤S003,通过一级相似度聚类得到高相似论文,与待对比论文进行对比判断。
利用DBSCAN聚类算法对一级相似度进行聚类,算法的输入为待对比论文与论文库中每篇论文之间的一级相似度数据,输出为各聚类簇,计算每个聚类簇内所有一级相似度数据的均值,将一级相似度均值最大的聚类簇作为高相似对比簇。
将高相似对比簇中的论文库内的论文作为高相似论文,将待对比论文的纯文本数据与各高相似论文的纯文本数据作为LCS算法的输入,LCS算法的输出为待对比论文的纯文本数据与高相似论文纯文本数据之间的最长公共子序列,两篇论文的纯文本数据最长公共子序列的长度越长,说明这两篇论文的内容越相似,越有可能存在抄袭的情况。将每个最长公共子序列的长度与论文抄袭认定标准进行比较,若任意一个最长公共子序列的长度超过论文抄袭认定标准,则待对比论文存在抄袭;反之,则待对比论文不存在抄袭。上述方法具体步骤图如图2所示。
基于与上述方法相同的发明构思,本发明实施例还提供了一种版式文件对比系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种版式文件对比方法中任意一项所述方法的步骤。
综上所述,本发明实施例提供了一种版式文件对比方法,通过分析词组在论文正文以及重要信息部分出现的频率和次数,构建词组的可表征性指数,以表示每个词组的对该论文的表征能力;再针对词组词性表征能力的不同以及连携词组出现时表征能力的不同,构建连携可表征指数,以表示当两个词组的联系程度较大时作为同一个词组的表征能力;接着分析每个词组独立出现和连携出现时表征能力的大小最终确定每个词组的选词贡献度,以用于论文表征关键词的选取;最后根据所选出的表征关键词,利用Levenshtein距离与Jaro-Winkler算法计算待对比论文与论文库中论文的表征关键词之间的一级相似度,以表示论文之间的基础相似情况,进而可更快速地判断论文间的相似情况,从论文库中剔除相似度较低的论文,筛选出相似度较高的论文,再进行基于LCS算法的论文对比,减少了需要对比的论文数量,从而提高了论文对比的效率,解决了LCS算法在论文对比时,需要逐一对比而效率较低的问题。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种版式文件对比方法,其特征在于,该方法包括以下步骤:
将待对比论文版式文件作为初始文件;通过OCR模型及正则表达式获取初始文件中纯文本数据;
通过jieba分词系统获取纯文本数据中各词组;根据各词组结合依存句法分析算法得到提纯文本数据;将提纯文本数据中的所有词组作为初始文件的词组分词数据;根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数;通过隐马尔科夫模型获取各词组的词性;将各词组与对应右相邻词组合并得到各词组的连携词组,其中,最后一个词组的右相邻词组为所述最后一个词组的左相邻词组;根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数;根据各词组的连携可表征指数得到各词组的选词贡献度:通过词频-逆文档频率算法获取词组分词数据中各词组的词频-逆文档频率;将各词组的选词贡献度与词频-逆文档频率的组合作为各词组的特征二维组;根据各词组的特征二维组及K-means聚类算法得到初始文件的各表征关键词;根据表征关键词及Levenshtein距离、Jaro-Winkler算法得到初始文件与论文库中各论文之间的一级相似度;
根据一级相似度结合DBSCAN聚类算法得到高相似对比簇;根据高相似对比簇结合LCS算法对初始论文进行对比判断;
所述根据词组分词数据中各词组、所在语句的出现次数得到各词组的可表征性指数,具体包括:
计算各词组在纯文本数据中出现次数与纯文本数据中词组总数的比值;在待对比论文版式文件中,获取各词组所在语句的出现频率;计算所述比值与所述语句的出现频率的乘积;将所述乘积作为各词组的第一表征指数;
通过PyMuPDF解析库对初始文件进行解析得到初始文件中具有标题格式或加粗格式的字符,记为重要字符;将所有具有重要字符的词组作为重要信息文本数据;
获取各词组在重要信息文本数据中出现次数;计算所述出现次数与重要信息文本数据中词组总数的比值;将所述比值与第一表征指数的乘积作为各词组的可表征性指数;
所述根据各词组的可表征性指数及各连携词组的出现次数得到各词组的连携可表征指数,具体包括:
通过词组分词数据中各词组的可表征性指数的计算方法获取各词组的连携词组的可表征性指数;若各词组的词性为名词,则将各词组的词性权重预设为A,反之,则各词组的词性权重预设为B,其中A>B;
计算各词组与所属右相邻词组的词性权重的和值;计算各词组的连携词组的可表征性指数与在连携分词数据集合中出现次数的乘积,记为第一乘积;计算各词组的可表征性指数与在词组分词数据中出现次数的乘积,记为第二乘积;将第一乘积与第二乘积的比值作为各词组的连携词组的可表征性;计算各词组的连携词组的可表征性与所述和值的乘积,记为第三乘积;将第三乘积作为各词组的连携可表征指数。
2.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据各词组结合依存句法分析算法得到提纯文本数据,具体为:
将待对比版式文件中各语句输入依存句法分析算法中进行依存关系分析得到各语句中的依存关系;通过各语句之间的依存关系得到各语句中的连接词;将纯文本数据中所有连接词剔除;将剔除连接词后的纯文本数据作为提纯文本数据。
3.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据各词组的连携可表征指数得到各词组的选词贡献度,具体为:
若各词组的可表征指数大于连携可表征性指数,则将各词组的可表征指数作为各词组的选词贡献度;
若各词组的可表征指数小于等于连携可表征性指数,则将各词组的连携可表征性指数作为各词组的选词贡献度。
4.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据各词组的特征二维组及K-means聚类算法得到表征关键词,具体为:
通过K-means聚类算法对各词组的特征二维组进行聚类得到各聚类簇;将聚类中心距离坐标原点最远的聚类簇作为表征关键词聚类簇;将表征关键词聚类簇中各词组作为初始文件的各表征关键词。
5.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据表征关键词及Levenshtein距离、Jaro-Winkler算法得到初始文件与论文库中各论文之间的一级相似度,具体包括:
通过初始文件的各表征关键词的获取方法得到论文库中每篇论文的各表征关键词;分别通过Levenshtein距离及Jaro-Winkler算法获取初始文件中各表征关键词与论文库中每篇论文的各表征关键词之间的Levenshtein距离及相似度得分;
对于论文库中各论文,计算初始文件中各表征关键词与论文库中论文的各表征关键词之间的相似度得分与Levenshtein距离的比值;计算所有所述比值的和值;计算初始文件中表征关键词数量与论文库中论文的表征关键词数量之间的差值绝对值;计算所述差值绝对值的倒数;计算所述和值与所述倒数的乘积;将所述乘积作为初始文件与论文库中论文之间的一级相似度。
6.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据一级相似度结合DBSCAN聚类算法得到高相似对比簇,具体为:
将初始文件的所有一级相似度数据输入DBSCAN聚类算法进行聚类得到各聚类簇;计算各聚类簇中所有一级相似度均值;将一级相似度均值最大的聚类簇作为高相似对比簇。
7.如权利要求1所述的一种版式文件对比方法,其特征在于,所述根据高相似对比簇结合LCS算法对初始论文进行对比判断,具体为:
对于高相似对比簇中的论文库内的各论文,将论文库的论文与初始文件输入LCS算法进行比较,LCS算法的输出为初始文件与论文库的论文之间的最长公共子序列;若任一最长公共子序列长度超过论文抄袭认定标准,则初始文件存在抄袭;反之,初始论文不存在抄袭。
8.一种版式文件对比系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7任意一项方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122043.0A CN117648917B (zh) | 2024-01-30 | 2024-01-30 | 一种版式文件对比方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410122043.0A CN117648917B (zh) | 2024-01-30 | 2024-01-30 | 一种版式文件对比方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117648917A CN117648917A (zh) | 2024-03-05 |
CN117648917B true CN117648917B (zh) | 2024-03-29 |
Family
ID=90048139
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410122043.0A Active CN117648917B (zh) | 2024-01-30 | 2024-01-30 | 一种版式文件对比方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117648917B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653704A (zh) * | 2015-12-31 | 2016-06-08 | 南京财经大学 | 自动摘要生成方法及装置 |
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
US10685183B1 (en) * | 2018-01-04 | 2020-06-16 | Facebook, Inc. | Consumer insights analysis using word embeddings |
CN112182448A (zh) * | 2019-07-05 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 页面信息处理方法、装置及设备 |
CN114611491A (zh) * | 2022-03-14 | 2022-06-10 | 湖州师范学院 | 基于文本挖掘技术的智慧政务舆情分析研究方法 |
CN116362243A (zh) * | 2023-04-23 | 2023-06-30 | 重庆邮电大学 | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 |
CN116910599A (zh) * | 2023-06-21 | 2023-10-20 | 中国移动通信集团北京有限公司 | 数据聚类方法、系统、电子设备及存储介质 |
-
2024
- 2024-01-30 CN CN202410122043.0A patent/CN117648917B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105653704A (zh) * | 2015-12-31 | 2016-06-08 | 南京财经大学 | 自动摘要生成方法及装置 |
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
US10685183B1 (en) * | 2018-01-04 | 2020-06-16 | Facebook, Inc. | Consumer insights analysis using word embeddings |
CN112182448A (zh) * | 2019-07-05 | 2021-01-05 | 百度在线网络技术(北京)有限公司 | 页面信息处理方法、装置及设备 |
CN114611491A (zh) * | 2022-03-14 | 2022-06-10 | 湖州师范学院 | 基于文本挖掘技术的智慧政务舆情分析研究方法 |
CN116362243A (zh) * | 2023-04-23 | 2023-06-30 | 重庆邮电大学 | 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置 |
CN116910599A (zh) * | 2023-06-21 | 2023-10-20 | 中国移动通信集团北京有限公司 | 数据聚类方法、系统、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
一种改进型TF-IDF文本聚类方法;张蕾等;《吉林大学学报(理学版)》;20210930;第59卷(第5期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117648917A (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113792818A (zh) | 意图分类方法、装置、电子设备及计算机可读存储介质 | |
US20050125216A1 (en) | Extracting and grouping opinions from text documents | |
CN111858912A (zh) | 一种基于单篇长文本的摘要生成方法 | |
EP3203383A1 (en) | Text generation system | |
Plank | Domain adaptation for parsing | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN115186654B (zh) | 一种公文文本摘要生成方法 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN113434639A (zh) | 审计数据处理方法及装置 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
Singh et al. | Writing Style Change Detection on Multi-Author Documents. | |
Vysotska et al. | Correlation Analysis of Text Author Identification Results Based on N-Grams Frequency Distribution in Ukrainian Scientific and Technical Articles. | |
CN117648917B (zh) | 一种版式文件对比方法及系统 | |
CN115129815B (zh) | 融合改进yake和神经网络的文本相似度计算方法 | |
JP2008242612A (ja) | 文書要約装置、その方法及びプログラム | |
CN116561594A (zh) | 一种基于Word2vec的法律文件相似度分析方法 | |
Heidary et al. | Automatic Persian text summarization using linguistic features from text structure analysis | |
Majeed et al. | Comparative study on extractive summarization using sentence ranking algorithm and text ranking algorithm | |
CN114547309A (zh) | 一种基于改进tfidf的文本特征选择方法 | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
Tambouratzis et al. | Discriminating the registers and styles in the Modern Greek language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |