CN117235546B - 多版本文件比对方法、装置、系统及存储介质 - Google Patents

多版本文件比对方法、装置、系统及存储介质 Download PDF

Info

Publication number
CN117235546B
CN117235546B CN202311512879.3A CN202311512879A CN117235546B CN 117235546 B CN117235546 B CN 117235546B CN 202311512879 A CN202311512879 A CN 202311512879A CN 117235546 B CN117235546 B CN 117235546B
Authority
CN
China
Prior art keywords
similarity
version
text data
word vector
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311512879.3A
Other languages
English (en)
Other versions
CN117235546A (zh
Inventor
沈云
陈洲
曹立斌
黄素龙
李强
朱斌
何永龙
张志恒
陆建
陆卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guotai Epoint Software Co Ltd
Original Assignee
Guotai Epoint Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guotai Epoint Software Co Ltd filed Critical Guotai Epoint Software Co Ltd
Priority to CN202311512879.3A priority Critical patent/CN117235546B/zh
Publication of CN117235546A publication Critical patent/CN117235546A/zh
Application granted granted Critical
Publication of CN117235546B publication Critical patent/CN117235546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开一种多版本文件比对方法、装置、系统及存储介质,涉及大数据信息处理技术领域。该方法包括:获取原始文本数据,并对原始文本数据进行预处理,得到预处理文本数据;通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息;基于词向量文本数据和结构化信息计算多版本文件之间的相似度;设定相似度阈值,通过相似度阈值与计算得到的多版本文件之间的相似度判断多版本文件之间是否相似。本申请实施例提供的多版本文件比对方法考虑了语义信息、能够弹性处理格式差异、结构化信息分析、处理文本重排和支持大规模处理。

Description

多版本文件比对方法、装置、系统及存储介质
技术领域
本申请属于大数据信息处理技术领域,尤其涉及一种多版本文件比对方法、装置、系统及存储介质。
背景技术
在投标人编制标书过程中,需要经过多轮编辑和修正,期间可能会调整项目经理,报价信息,资质证书等材料。如果一个投标单位,在修正过程中出现修改遗漏的情况,例如投标函中的项目经理和投标人基本信息表中项目经理信息不一致情况,会导致投标单位在本次投标过程中废标。
针对该问题,为投标人提供标书多个版本的核对技术,投标人基于该技术能力,快速实现标书多个版本编辑过程中变更修订的内容,包括文件硬件信息、经济标清单差异、技术标文档变更内容等。通过快速的投标文件比对,方便投标单位快速发现并定位标书的变更内容。
目前对文本内容的比对,可以通过PDF解析工具或文本提取库,将PDF文档中的文本内容提取出来,并进行对比。可以使用字符串匹配算法,如Levenshtein距离、最长公共子序列,或基于文本相似性的算法,如余弦相似度、Jaccard相似度等,来比较文本之间的差异。使用此类算法对PDF文件进行比对时,存在一些技术缺陷:
格式差异:PDF文件可以包含复杂的排版、字体样式、图表等多种元素,而字符串匹配算法只能基于字符级别的比较,无法处理这些格式差异。因此,在字符串匹配算法中,即使两个PDF文件在内容上相似但在格式上有微小差异,也可能导致较大的匹配误差。
信息丢失:PDF文件中的文本内容可能经过压缩、加密或其他处理,导致部分信息丢失或变换。字符串匹配算法在比对过程中可能无法准确处理这些变换,从而导致识别错误或丢失关键信息。
文本重排:PDF文件中的文本内容可以被重新排列,改变原始文档的布局和顺序。字符串匹配算法通常依赖于字符串的顺序性,当文本重排时,匹配算法可能无法正确找到相应的匹配项。
大规模处理效率低下:PDF文件往往包含大量文本内容,如处理大规模PDF文件集合时,字符串匹配算法的效率可能较低。因为字符串匹配算法需要比较每个字符或子串,时间复杂度可能较高,造成处理时间过长或资源消耗较多。
发明内容
本申请的目的,在于提供一种多版本文件比对方法、装置、系统及存储介质,结合文件的结构化数据和非结构化数据,以及文件中存在的图片、文本和表格形式内容,基于自然语言处理技术进行多版本文件比对。
为了达成上述目的,本申请的解决方案是:
第一方面,本申请实施例提供了一种多版本文件比对方法,包括:
获取原始文本数据,并对原始文本数据进行预处理,得到预处理文本数据;
通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息;
基于词向量文本数据和结构化信息计算多版本文件之间的相似度;设定相似度阈值,通过相似度阈值与计算得到的多版本文件之间的相似度判断多版本文件之间是否相似,判断方法包括:
若多版本文件之间的相似度高于相似度阈值,则判断多版本文件之间相似,若多版本文件之间的相似度低于相似度阈值,则判断多版本文件之间不相似。
根据本申请实施例的上述方法,还可以具有以下附加技术特征:
进一步的,对原始文本数据进行预处理,包括:通过PDF解析工具提取原始文本数据的文本内容,对文本内容进行清洗和规范化处理;PDF解析工具包括PyPDF2和pdfplumber;清洗和规范化处理包括:去除特殊字符、去除标点符号和统一大小写。
进一步的,词向量模型包括Word2Vec、GloVe和BERT;文本结构分析算法包括段落识别、标题识别和表格解析,基于词向量文本数据和结构化信息计算多版本文件之间的相似度,包括:基于词向量文本数据计算多版本文件之间的内容相似度和基于结构化信息计算多版本文件之间的结构相似度。
进一步的,基于词向量文本数据计算多版本文件之间的内容相似度,包括:计算每个文件的词向量平均或对每个文件的词向量进行加权求和计算,通过度量方法计算多版本文件之间的内容相似度,度量方法包括余弦相似度、杰卡德相似系数和汉明距离;相似度值与多版本文件之间的内容相似度呈正相关。
进一步的,基于结构化信息计算多版本文件之间的结构相似度,包括:通过匹配算法计算多版本文件之间的结构相似度,匹配算法包括编辑距离和最长公共子序列。
进一步的,设定相似度阈值,根据具体需求和实际数据集进行设定;根据相似度比对结果,生成比对报告,比对报告包括相似内容的摘要、差异点的标记和详细的对比信息。
进一步的,通过并行处理技术和分布式计算框架对大规模的多版本文件进行处理,包括:通过并行处理技术将比对任务划分为多个子任务同时进行;通过分布式计算框架将比对任务分发到多个计算节点上进行并行处理。
第二方面,本申请实施例提供了一种多版本文件比对装置,装置包括:
数据获取模块,被配置为用于获取原始文本数据;
数据处理模块,被配置为用于对原始文本数据进行预处理、词向量处理和结构分析处理;
文件比对模块,被配置为用于计算多版本文件之间的相似度,并根据设定的相似度阈值判断多版本文件之间是否相似,若多版本文件之间的相似度高于相似度阈值,则判断多版本文件之间相似,若多版本文件之间的相似度低于相似度阈值,则判断多版本文件之间不相似。第三方面,本申请实施例提供了一种多版本文件比对系统,系统包括处理器和存储器,存储器中存储有计算机程序,计算机程序由处理器加载并执行,以实现如本申请实施例第一方面提供的多版本文件比对方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,存储介质中存储有计算机程序,计算机程序被处理器执行时,用于实现如本申请实施例第一方面提供的多版本文件比对方法。
采用本申请实施例提供的多版本文件对比方法,与现有技术相比,具有如下有益技术效果:
1、考虑语义信息:自然语言处理技术可以理解文本的语义信息,而不仅仅是单纯的字符匹配。通过识别文本中的语言结构、语义关系和上下文含义等更准确地比对两个PDF文件之间的差异。
2、弹性处理格式差异:PDF文件通常具有复杂的排版、字体等格式差异,而自然语言处理技术在一定程度上弹性处理这些差异。它可以忽略不同的字体、大小、颜色等变化,专注于比对文本内容的实质和意义。
3、结构化信息分析:自然语言处理技术将PDF文件中的文本内容进行结构化分析,识别出段落、标题、表格等信息,并在比对过程中考虑到这些结构信息提高对比结果的准确度和可读性。
4、处理文本重排:PDF文件中的文本内容可能会重新排列,改变原始文档的布局和顺序。自然语言处理技术可以灵活地处理文本重排,通过词向量模型或句法分析等方法,识别出相似的句子或段落,从而正确找到匹配项。
5、支持大规模处理:自然语言处理技术可以应用于大规模的PDF文件集合,通过并行计算、分布式处理等方法,提高处理效率和可扩展性。相比于字符串匹配算法,它能够更快速地处理大量文本数据。
附图说明
图1示出了本申请实施例的多版本文件比对方法的流程示意图;
图2示出了本申请实施例的图片雷同性分析的流程示意图;
图3示出了本申请实施例的图片文本雷同性分析与单文件重复性分析的流程示意图;
图4示出了本申请实施例的文本差异性分析的流程示意图;
图5示出了本申请实施例的表格雷同性分析的流程示意图;
图6示出了本申请实施例的表格差异性分析的流程示意图;
图7示出了本申请实施例的多版本文件比对装置的结构框图;
图8示出了本申请实施例的计算机设备的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更为明显易懂,下面结合附图,对本申请的具体实施方式做详细的说明。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
本申请中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
如图1所示,本申请实施例提供了一种多版本文件比对方法,包括如下步骤:
步骤101,获取原始文本数据,并对原始文本数据进行预处理,得到预处理文本数据。
步骤102,通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据。
步骤103,通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息。
步骤104,基于词向量文本数据和结构化信息计算多版本文件之间的相似度。
步骤105,设定相似度阈值,通过相似度阈值与计算得到的多版本文件之间的相似度判断多版本文件之间是否相似。
在该实施例中,若多版本文件之间的相似度高于相似度阈值,则判断多版本文件之间相似,若多版本文件之间的相似度低于相似度阈值,则判断多版本文件之间不相似。
本申请实施例,对原始文本数据进行预处理,包括:通过PDF解析工具提取原始文本数据的文本内容,对文本内容进行清洗和规范化处理;PDF解析工具包括PyPDF2和pdfplumber;清洗和规范化处理包括:去除特殊字符、去除标点符号和统一大小写。
需要说明的是,PDF解析工具包括多种类型,本申请实施例并不对PDF解析工具加以限定,凡是通过PDF解析工具进行文本数据的提取,无论采用哪种PDF解析工具,均在本申请实施例的保护范围之内。
本申请实施例,词向量模型包括Word2Vec、GloVe和BERT;文本结构分析算法包括段落识别、标题识别和表格解析,基于词向量文本数据和结构化信息计算多版本文件之间的相似度,包括:基于词向量文本数据计算多版本文件之间的内容相似度和基于结构化信息计算多版本文件之间的结构相似度。
需要说明的是,词向量模型包括多种类型,本申请实施例并不对词向量模型加以限定,凡是基于词向量模型将文本转换为语义信息丰富的词向量表示,无论采用哪种词向量模型,均在本申请实施例的保护范围之内。
本申请实施例,基于词向量文本数据计算多版本文件之间的内容相似度,包括:计算每个文件的词向量平均或对每个文件的词向量进行加权求和计算,通过度量方法计算多版本文件之间的内容相似度,度量方法包括余弦相似度、杰卡德相似系数和汉明距离;相似度值与多版本文件之间的内容相似度呈正相关。
需要说明的是,相似度度量方法包括多种,本申请实施例并不对具体的相似度度量方法加以限定,凡是通过相似度度量方法计算多版本文件之间的内容相似度,无论采用哪种相似度度量方法,均在本申请实施例的保护范围之内。
本申请实施例,基于结构化信息计算多版本文件之间的结构相似度,包括:通过匹配算法计算多版本文件之间的结构相似度,匹配算法包括编辑距离和最长公共子序列。
需要说明的是,匹配算法包括多种,本申请实施例并不对具体的匹配算法加以限定,凡是通过匹配算法计算多版本文件之间的结构相似度,无论采用哪种匹配算法,均在本申请实施例的保护范围之内。
本申请实施例,设定相似度阈值,根据具体需求和实际数据集进行设定;根据相似度比对结果,生成比对报告,比对报告包括相似内容的摘要、差异点的标记和详细的对比信息。
本申请实施例,通过并行处理技术和分布式计算框架对大规模的多版本文件进行处理,包括:通过并行处理技术将比对任务划分为多个子任务同时进行;通过分布式计算框架将比对任务分发到多个计算节点上进行并行处理。
本申请实施例通过以下几个方面进行本申请实施例提供的多版本文件比对方法的具体处理过程的分析说明:
第一方面,针对多版本文件中的图片雷同性分析,包括如下步骤:
步骤111,读取标书图片数据。
步骤112,针对图片进行矫正,矫正方法包括缩放和旋转,其中考虑到标书的正式性,旋转角度只考虑0度和180度。
步骤113,将图片转为哈希特征。
步骤114,根据汉明距离计算哈希特征相似度,产生相似度矩阵结果。
步骤115,根据阈值进行筛选,获取各图片对应的最高相似度结果,产生结果数据。
第二方面,针对多版本文件中的文本雷同性分析与单文件重复性分析,包括如下步骤:步骤121,解析标书文本数据。
步骤122,使用预训练语言模型将文本转成向量。
步骤123,使用余弦距离计算文本相似度结果。
步骤124,判断是文本雷同性分析还是单文件重复性分析。
步骤125,如果是单文件重复性分析,相似度计算结果经过阈值筛选后,形成联通图的形式,获取所有联通子图作为重复文本组结果,产生结果数据。
步骤126,如果是文本雷同性分析,相似度结果形成相似度矩阵,根据阈值进行筛选,获取各文本对应的最高相似度结果,产生结果数据。
第三方面,针对多版本文件中的文本差异性分析,包括如下步骤:
步骤131,解析承诺函文本数据。
步骤132,将文本进行对齐,新增文本整行记为新增操作,丢失文本整行记为删除操作。
步骤133,对齐文本之间获取最大公共子序列。
步骤134,根据子序列结果,生成文本A至文本B之间所进行的最小编辑操作,其中,修改操作替换为删除新增操作,产生结果数据。
第四方面,针对多版本文件中的表格雷同性分析,包括如下步骤:步骤141,解析标书表格数据。
步骤142,将表格进行对齐,单元格之间进行对齐,主要通过表头和首行数据进行单元格对齐,新增单元格相似度 记为0,删除单元格不纳入相似度计算。
步骤143,各对应单元格进行文本相似度计算。
步骤144,考虑到单元格内容大部分都是短文本,使用杰卡德距离作为相似度结果。
步骤145,合并单元格结果,产生结果数据。
第五方面,针对多版本文件中的表格差异性分析,包括如下步骤:步骤151,解析标书表格数据。
步骤152,将表格进行对齐,单元格之间进行对齐,主要通过表头和首行数据进行单元格对齐,新增单元格记为新增操作,删除单元格记为删除操作。
步骤153,各对应单元格根据文本获取最大公共子序列。
步骤154,根据子序列结果,生成单元格内文本变换进行的最小编辑操作,其中,修改操作替换为删除新增操作。
步骤155,合并单元格结果,产生结果数据。
作为上述多版本文件比对方法的具体实现,本申请实施例提供了一种多版本文件比对装置,如图7所示,该装置包括数据获取模块201、数据处理模块202和文件比对模块203。
其中,数据获取模块201被配置为用于获取原始数据,数据处理模块202被配置为用于对原始数据进行处理,文件比对模块203被配置为用于计算多版本文件之间的相似度,并根据设定的相似度阈值判断多版本文件之间是否相似。
进一步的,数据获取模块201,具体用于:获取原始文本数据。
进一步的,数据处理模块202,具体用于:通过词向量模型对预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对词向量文本数据进行处理,提取文本的结构化信息。
进一步的,文件比对模块203,具体用于:基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度;设定相似度阈值,通过所述相似度阈值与计算得到的所述多版本文件之间的相似度判断所述多版本文件之间是否相似,若所述多版本文件之间的相似度高于所述相似度阈值,则判断所述多版本文件之间相似,若所述多版本文件之间的相似度低于所述相似度阈值,则判断所述多版本文件之间不相似。
本申请实施例中的多版本文件比对装置可以是计算机设备,也可以是计算机设备中的部件,例如集成电路或芯片。该计算机设备可以是终端,也可以为除终端之外的其他设备。示例性的,计算机设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载计算机设备、移动上网装置(Mobile Internet Device,MID)、超级移动个人计算机(Ultra-MobilePersonal Computer,UMPC)、上网本或者个人数字助理(Personal Digital Assistant,PDA)等,还可以为服务器、网络附属存储器(Network Attached Storage,NAS)、个人计算机(Personal Computer,PC)等,本申请实施例不作具体限定。
本申请实施例提供的多版本文件比对装置能够实现图1至图6的多版本文件比对方法实施例实现的各个过程,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机设备,如图8所示,该计算机设备包括处理器301和存储器302,存储器302上存储有可在处理器301上运行的程序或指令,该程序或指令被处理器301执行时实现上述多版本文件比对方法的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的计算机设备包括上述的移动计算机设备和非移动计算机设备。
存储器302可用于存储软件程序以及各种数据。存储器302可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器302可以包括易失性存储器或非易失性存储器,或者,存储器302可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请实施例中的存储器302包括但不限于这些和任意其它适合类型的存储器。
处理器301可包括一个或多个处理单元;可选的,处理器301集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器301中。
本申请实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述多版本文件比对方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述多版本文件比对方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例还提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述多版本文件比对方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (7)

1.一种多版本文件比对方法,其特征在于,所述方法包括:
获取原始文本数据,并对所述原始文本数据进行预处理,得到预处理文本数据;
通过词向量模型对所述预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对所述词向量文本数据进行处理,提取文本的结构化信息;
基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度,所述基于所述词向量文本数据计算多版本文件之间的内容相似度,包括:
计算每个文件的词向量平均或对每个文件的词向量进行加权求和计算,通过度量方法计算多版本文件之间的内容相似度,所述度量方法包括余弦相似度、杰卡德相似系数和汉明距离;相似度值与所述多版本文件之间的内容相似度呈正相关;
设定相似度阈值,所述设定相似度阈值,根据具体需求和实际数据集进行设定;根据相似度比对结果,生成比对报告,所述比对报告包括相似内容的摘要、差异点的标记和详细的对比信息,通过所述相似度阈值与计算得到的所述多版本文件之间的相似度判断所述多版本文件之间是否相似,判断方法包括:
若所述多版本文件之间的相似度高于所述相似度阈值,则判断所述多版本文件之间相似,若所述多版本文件之间的相似度低于所述相似度阈值,则判断所述多版本文件之间不相似;
所述多版本文件比对方法的文件比对类型包括图片雷同性分析、文本雷同性分析、单文件重复性分析、文本差异性分析、表格雷同性分析和表格差异性分析;
对于大规模的多版本文件,通过并行处理技术和分布式计算框架对所述大规模的多版本文件进行处理,包括:
通过并行处理技术将比对任务划分为多个子任务同时进行;通过分布式计算框架将比对任务分发到多个计算节点上进行并行处理。
2.如权利要求1所述的多版本文件比对方法,其特征在于,所述对所述原始文本数据进行预处理,包括:
通过PDF解析工具提取所述原始文本数据的文本内容,对所述文本内容进行清洗和规范化处理;所述PDF解析工具包括PyPDF2和pdfplumber;所述清洗和规范化处理包括:去除特殊字符、去除标点符号和统一大小写。
3.如权利要求1所述的多版本文件比对方法,其特征在于,所述词向量模型包括Word2Vec、GloVe和BERT;所述文本结构分析算法包括段落识别、标题识别和表格解析,所述基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度,包括:
基于所述词向量文本数据计算多版本文件之间的内容相似度和基于所述结构化信息计算多版本文件之间的结构相似度。
4.如权利要求3所述的多版本文件比对方法,其特征在于,所述基于所述结构化信息计算多版本文件之间的结构相似度,包括:
通过匹配算法计算多版本文件之间的结构相似度,所述匹配算法包括编辑距离和最长公共子序列。
5.一种多版本文件比对装置,其特征在于,所述装置包括:
数据获取模块,被配置为用于获取原始文本数据;
数据处理模块,被配置为用于对所述原始文本数据进行预处理、词向量处理和结构分析处理,包括:对所述原始文本数据进行预处理,得到预处理文本数据;
通过词向量模型对所述预处理文本数据进行词向量表示,得到词向量文本数据;通过文本结构分析算法对所述词向量文本数据进行处理,提取文本的结构化信息;
基于所述词向量文本数据和所述结构化信息计算多版本文件之间的相似度,所述基于所述词向量文本数据计算多版本文件之间的内容相似度,包括:
计算每个文件的词向量平均或对每个文件的词向量进行加权求和计算,通过度量方法计算多版本文件之间的内容相似度,所述度量方法包括余弦相似度、杰卡德相似系数和汉明距离;相似度值与所述多版本文件之间的内容相似度呈正相关;
设定相似度阈值,所述设定相似度阈值,根据具体需求和实际数据集进行设定;根据相似度比对结果,生成比对报告,所述比对报告包括相似内容的摘要、差异点的标记和详细的对比信息;
文件比对模块,被配置为用于计算多版本文件之间的相似度,并根据设定的相似度阈值判断多版本文件之间是否相似,若所述多版本文件之间的相似度高于所述相似度阈值,则判断所述多版本文件之间相似,若所述多版本文件之间的相似度低于所述相似度阈值,则判断所述多版本文件之间不相似;
所述多版本文件比对方法的文件比对类型包括图片雷同性分析、文本雷同性分析、单文件重复性分析、文本差异性分析、表格雷同性分析和表格差异性分析;
对于大规模的多版本文件,通过并行处理技术和分布式计算框架对所述大规模的多版本文件进行处理,包括:
通过并行处理技术将比对任务划分为多个子任务同时进行;通过分布式计算框架将比对任务分发到多个计算节点上进行并行处理。
6.一种多版本文件比对系统,所述系统包括处理器和存储器,所述存储器中存储有计算机程序,其特征在于,所述计算机程序由所述处理器加载并执行,以实现如权利要求1至4任一项所述的多版本文件比对方法。
7.一种计算机可读存储介质,所述存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,用于实现如权利要求1至4任一项所述的多版本文件比对方法。
CN202311512879.3A 2023-11-14 2023-11-14 多版本文件比对方法、装置、系统及存储介质 Active CN117235546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311512879.3A CN117235546B (zh) 2023-11-14 2023-11-14 多版本文件比对方法、装置、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311512879.3A CN117235546B (zh) 2023-11-14 2023-11-14 多版本文件比对方法、装置、系统及存储介质

Publications (2)

Publication Number Publication Date
CN117235546A CN117235546A (zh) 2023-12-15
CN117235546B true CN117235546B (zh) 2024-03-12

Family

ID=89095297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311512879.3A Active CN117235546B (zh) 2023-11-14 2023-11-14 多版本文件比对方法、装置、系统及存储介质

Country Status (1)

Country Link
CN (1) CN117235546B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573199B (zh) * 2024-01-16 2024-04-16 成都安世赛斯特软件技术有限公司 一种模型差异对比分析方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN115408997A (zh) * 2022-08-11 2022-11-29 北京健康之家科技有限公司 一种文本生成方法、文本生成装置和可读存储介质
CN116150327A (zh) * 2021-11-19 2023-05-23 广州视源电子科技股份有限公司 文本处理方法和装置
CN116804998A (zh) * 2023-08-22 2023-09-26 神州医疗科技股份有限公司 基于医学语义理解的医学术语检索方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN109271641A (zh) * 2018-11-20 2019-01-25 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置及电子设备
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN116150327A (zh) * 2021-11-19 2023-05-23 广州视源电子科技股份有限公司 文本处理方法和装置
CN115408997A (zh) * 2022-08-11 2022-11-29 北京健康之家科技有限公司 一种文本生成方法、文本生成装置和可读存储介质
CN116804998A (zh) * 2023-08-22 2023-09-26 神州医疗科技股份有限公司 基于医学语义理解的医学术语检索方法和系统

Also Published As

Publication number Publication date
CN117235546A (zh) 2023-12-15

Similar Documents

Publication Publication Date Title
CN108874928B (zh) 简历数据信息解析处理方法、装置、设备及存储介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN110321470B (zh) 文档处理方法、装置、计算机设备和存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
WO2022048363A1 (zh) 网站分类方法、装置、计算机设备及存储介质
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN112651236B (zh) 提取文本信息的方法、装置、计算机设备和存储介质
CN111597309A (zh) 相似企业推荐方法、装置、电子设备及介质
Clausner et al. Flexible character accuracy measure for reading-order-independent evaluation
CN113159013A (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN118313347A (zh) 文档处理方法、装置及其相关产品
CN117216239A (zh) 文本去重方法、装置、计算机设备及存储介质
CN115994232B (zh) 在线多版本文献同一性鉴别方法、系统及计算机设备
CN112395866A (zh) 报关单数据匹配方法及装置
CN115563515A (zh) 文本相似性检测方法、装置、设备及存储介质
CN115408997A (zh) 一种文本生成方法、文本生成装置和可读存储介质
CN114692573A (zh) 文本结构化处理方法、装置、计算机设备、介质和产品
CN114579796A (zh) 机器阅读理解方法及装置
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN112395865A (zh) 报关单校验方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant