CN115376153A - 一种合同比对方法、装置及存储介质 - Google Patents
一种合同比对方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115376153A CN115376153A CN202211061488.XA CN202211061488A CN115376153A CN 115376153 A CN115376153 A CN 115376153A CN 202211061488 A CN202211061488 A CN 202211061488A CN 115376153 A CN115376153 A CN 115376153A
- Authority
- CN
- China
- Prior art keywords
- contract
- slot
- slot position
- picture
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 22
- 238000012015 optical character recognition Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 13
- 238000012549 training Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008451 emotion Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 2
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 2
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/418—Document matching, e.g. of document images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种合同比对方法、装置及存储介质,其中合同比对方法包括步骤:获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。从而提高了合同审核效率,并且输出的比对结果可以进行归档整理,使用户可以更加直观地看到合同之间的不一致,方便后续的修订工作,也提高了合同审核效率。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种合同比对方法、装置及存储介质。
背景技术
在信息技术快速发展,时间为贵的当今社会。一切工作最求效率时代。线下纸质流程,都转为线上流程衍生出了线上流程系统,减少纸质流程的扭转。许多流程需准备相关附件材料。线下流程转为线上流程后,纸质文件都变为线上Word、PDF、JPG等文件。合同审核流程就是其中一种,由于合同文件具有法律效益。在审核时需要逐一审核文件,避免由于合同被篡改,而导致相关问题。
传统的技术方案中,在进行线上合同审核时,存在接入的合同数据量大、合同页数多等问题,造成对多份合同进行全文文字匹配时工作量大,容易出差错,并且无法将比对结果进行归档整理,使得合同的审核效率低下。
发明内容
本申请实施例的目的在于提供一种合同比对方法、装置及存储介质,用以解决现有技术中的合同审核效率低下的问题。
为实现上述目的,本申请实施例提供一种合同比对方法,包括步骤:获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;
对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
可选地,当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:
通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本定位对应的所述槽位。
可选地,当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:
获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;
对所述图片进行灰度化处理;
对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;
利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,从而定位出所述合同文件中的所述槽位。
可选地,获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
可选地,对获取的多份所述合同文件之间对应的所述槽位前后文信息进行比对,生成所述比对结果的方法包括:
对多份所述合同文件之间对应位置处的所述槽位处的所述文字信息和所述槽位前后文信息进行逐字比对,得到每个所述合同文件之间的所述槽位处的所述文字信息和所述槽位处对应的所述槽位前后文信息是否一致的比对结果,将所述比对结果整合为表格作为输出。
为实现上述目的,本申请还提供一种合同比对装置,包括:存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;
对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
可选地,所述处理器还被配置成:
当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:
通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本定位对应的所述槽位。
可选地,所述处理器还被配置成:
当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:
获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;
对所述图片进行灰度化处理;
对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;
利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,从而定位出所述合同文件中的所述槽位。
可选地,所述处理器还被配置成:
获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
为实现上述目的,本申请还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
本申请实施例具有如下优点:
1.本申请实施例提供一种合同比对方法,包括步骤:获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;对获取的多份所述合同文件之间对应的所述槽位前后文信息进行比对,生成比对结果。
通过上述方法,首先进行槽位定位,筛选出不同合同文件之间对应的槽位部分文字的不一致,将其重要程度提升,单独进行比对,而对于非槽位部分的文档,尽管其不一致,但对整体合同的签署影响较小,从而提高了合同审核效率,并且输出的比对结果可以进行归档整理,使用户可以更加直观地看到合同之间的不一致,方便后续的修订工作,也提高了合同审核效率。
附图说明
为了更清楚地说明本申请的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
图1为本申请实施例提供的一种合同比对方法的流程图;
图2a为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行灰度化处理的效果示意图;
图2b为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行开操作处理的效果示意图;
图2c为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行再膨胀操作的效果示意图;
图2d为本申请实施例提供的一种文档智能填写方法中的定位所述槽位的方法中进行霍夫变换处理的效果示意图;
图3为本申请实施例提供的一种合同比对方法的生成所述槽位对应的槽位标签的模型示意图;
图4为本申请实施例提供的一种合同比对装置的模块框图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本申请一实施例提供一种合同比对方法,参考图1,图1为本申请的一实施方式中提供的一种合同比对方法的流程图,应当理解的是,该方法还可以包括未示出的附加框和/或可以省略所示出的框,本申请的范围在此方面不受限制。
在本申请的各个实施例中,将以带有待填写槽位的合同文件的填写为例,进行本申请的方案的说明,应当理解的是,所述合同文件还可以是其他种类的带有待填写槽位的文件,本申请的方案同样适用。
在步骤101处,获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式。
具体地,在本实施例中,即合同文件的读取,待比对合同文件可以是2份或者2份以上,可以有一份是正确的原始版本合同,也可以多份合同文件之间不设置原始版本。由于合同文件载体形式多样,需要首先进行合同文件文件的类型判断,针对可编辑的docx,解析其对应的XML文档(XML:从2007 Microsoft Office系统开始,Microsoft Office使用基于XML的文件格式,该格式具有较好的扩展性,且支持开发人员读取核心源码并进行修改),用以获取全文的文本内容,以及对应槽位位置的XML标签。针对非可编辑的pdf或者图片文件,由于无法直接获取原始word文档的结构信息,以及文本内容,故需要使用OCR算法进行文字识别,使用图像识别算法识别全文中的所有槽位。对于其他类型的合同文件,可以先转换为DOCX文档格式、图片格式和/或PDF文档格式,然后再适用本方案进行合同比对处理。
在步骤102处,定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息和槽位位置信息。
在一些实施例中,当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本确定对应的所述槽位位置信息。
在一些实施例中,当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;对所述图片进行灰度化处理;对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;对所述图片进行再膨胀操作,所述再膨胀操作是将所述图片的图像的轮廓加以膨胀;利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,得到所述槽位位置信息。
在一些实施例中,获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
具体地,基于前述步骤读取的合同文件,对于docx文件,可以通过正则表达式解析出对应的槽位,其槽位的定位方式为:通过对应槽位的前文文本及后文文本唯一确定,即获得了槽位位置信息以及对应的前后文信息。
对于pdf或图片文件,基于open-cv进行处理,Open CV(Open Source ComputerVision Library)是一个开源的计算机视觉库,它提供了很多函数,这些函数非常高效地实现了计算机视觉算法(最基本的滤波到高级的物体检测皆有涵盖)。对于pdf,首先读取并将每一页都转存为图片,随后,基于open-cv对图片进行形态学处理,如图2a至图2d所示,主要处理过程分别为:
a、灰度化处理:灰度化就是使彩色图像的R、G、B三个分量相等的过程。由于合同文件一般为黑白文档,且槽位定位任务不依赖于其它颜色分量,故可以将原始彩色图像中的RGB的3维矩阵化成2维矩阵(img[R][B][G]->img[Grey1][Grey2]),便于后续流程处理,处理结果如图2a。
b、开操作:开操作其实就是先腐蚀后膨胀的过程。该操作主要用于消除小物体、平滑较大物体的边界的同时并不明显改变其面积,提取水平或竖直的线。结合合同中文字及槽位形态特征,将开操作的核的大小设定为60×1,处理结果如图2b,可以看出该操作准确提取出了槽位下划线,并将非槽位部分的文字全部移除。
c、再膨胀:由于步骤b中开操作得到的槽位直线可能使得部分槽位过于纤细不够明显,可能导致后续步骤d的直线检测无法准确定位。故对步骤b的结果进行再次膨胀,膨胀结果如图2c。膨胀操作是将图像的轮廓加以膨胀,其公式如下所示:
dst(x,y)=max(x′,y′):element(x′,y′)≠0src(x+x′,y+y′)
d、霍夫变换:霍夫变换(Hough Transform)是图像处理中的一种特征提取技术,它通过一种投票算法检测具有特定形状的物体。该过程在一个参数空间中通过计算累计结果的局部最大值得到一个符合该特定形状的集合作为霍夫变换结果。应当理解的是,一条直线在直角坐标系下可以用y=kx+b表示,霍夫变换的主要思想是将该方程的参数和变量交换,即用x,y作为已知量k,b作为变量坐标,所以直角坐标系下的直线y=kx+b在参数空间表示为点(k,b),而一个点(x1,y1)在直角坐标系下表示为一条直线y1=x1·k+b,其中(k,b)是该直线上的任意点。为了计算方便,将参数空间的坐标表示为极坐标下的γ和θ。因为同一条直线上的点对应的(γ,θ)是相同的,因此可以先将图片进行边缘检测,然后对图像上每一个非零像素点,在参数坐标下变换为一条直线,那么在直角坐标下属于同一条直线的点便在参数空间形成多条直线并内交于一点。因此可用该原理进行直线检测,检测效果如图2d所示。
经过上述操作,可以定位出每个槽位在图片的坐标(x1,y1,x2,y2),其中(x1,y1)为槽位左下角坐标,(x2,y2)为槽位右上角坐标,即得到了槽位位置信息。对于图片文件和pdf文件,使用OCR获取每个文字的坐标,取与(x1,y1)最接近的文字,作为槽位的前文,取与(x2,y2)最近的文字,作为槽位的后文,即得到了槽位前后文信息。
同样的,可以基于所述槽位位置信息,得到所述槽位处的文字信息,参考前述方法,此处不再赘述。
在一些实施例中,根据所述槽位前后文信息,生成所述槽位对应的槽位标签。
在一些实施例中,生成所述槽位对应的所述槽位标签的方法包括:利用文本生成模型,根据所述槽位前后文信息,生成所述槽位标签。
在另一些实施例中,生成所述槽位对应的所述槽位标签的方法包括:利用基于预训练语言模型的提示学习方法,根据所述槽位前后文信息,在所述槽位处生成对应的提示掩码;根据所述提示掩码,利用所述预训练语言模型,预测并生成所述槽位标签。
具体地,由于上一步骤的槽位定位已经可以给出所需的上下文句子,即前后文信息,所以此阶段进行句子级别的标签建模。
本实施例的方案面向开放领域合同,因此槽位标签无法限定于有限类别,故基于标签分类的算法不适用。故可选择文本生成模型,结合前后文语义信息,直接生成标签,避免标签采样空间过广的问题。
但生成模型一般为单向模型,是一种自回归的预测方式。自回归方式的缺点是只能利用前文或者后文的信息,不能同时利用前文和后文的信息,常用于文本摘要以及机器翻译任务,因为这类任务在生成时的顺序天然是从左向右,与自回归语言模型匹配。
但槽位标签的生成任务,需同时考虑前后文语义信息,如例:“甲方租赁该房____年”,若使用自回归生成模型,模型只能关注到前文语义信息:“甲方租赁该房”,缺失后文信息,因此无法判断槽位标签是:“租赁时长”还是“租赁数量”。当引入后文“年”的语义后,则可判断出槽位标签为“租赁时长”。由此可见,槽位标签生成任务需要前后文双向信息,因此,本申请实施例还提出一种基于prompt-learning(提示学习)的自编码目标槽位生成算法。
prompt-learning是一类基于预训练语言模型的学习方法:其在不显著改变预训练语言模型结构和参数的情况下,通过向输入增加“提示信息”、将下游任务改为文本生成任务。以情感分类任务为例:需判断“这趟北京之旅我感觉很不错。”情感,常规做法是通过分类模型预测0或者1,0代表正面,1代表负面。而提示学习将其转为MLM(掩码语言模型)任务,在待预测句子后加入提示“我很___”,生成如下输入语料,“这趟北京之旅我感觉很不错,我很____”,而槽位处的结果可以生成为“满意”或者“失望”,当生成“满意”时,标识该句话情感为正面,否则为反面情感。
prompt-learning依赖于预训练语言模型P(x),首先获取预训练语言模型P(x),通过引入合适的模版将输入x调整为完形填空格式的x’(即将合同文件中的初始槽位调整为目标槽位),调整后的输入x’里含有某些空槽(即生成的目标槽位,生成的目标槽位处生成有提示掩码),利用预训练语言模型P,进行MLM任务(掩码预测任务),分别预测出对应的槽位处的[MASK]掩码(提示掩码)对应的真实文字,然后组合掩码处的各单个文字,最终形成完整标签词语。
prompt-learning优点是:
a.相比之前每个任务定义一套参数,在输入加上特定的信息,提示学习不需要改变整个模型的参数,从而提升效率和存储空间。
b.传统pretrain+finetune(预训练+微调)的训练方式是有差异的,需要从大规模无监督数据训练迁移到下游finetune的任务,prompt-based的方式打破了这个方式。
本实施例所提供的一种基于prompt-learning的目标槽位生成算法,将槽位标签的预测转为如下提示模式,在目标槽位生成任务中,目标是根据槽位处的前后文给出槽位处所属的标签类型。因此,首先要构建提示模板,本申请分别提供了两种提示模板,如下Prompt1和Prompt2:
输入:“设备到货日期为:合同生效起____个工作日内。”
Prompt1:“设备到货日期为:合同生效起____([MASK][MASK]…)个工作日内。”
Prompt2:“设备到货日期为:合同生效起____(此处标签是:[MASK][MASK]…)个工作日内。”
Prompt2相较于Prompt1的区别是增加了提示性描述“此处标签是”,用以提示模型学习目标是预测此处的标签。而Prompt1的提示相当于“(”,该模板表达的语义不够明确。在预测精度上,Prompt2的准确率更高。
此外,提示学习通常要求待预测部分的长度固定,而槽位标签长度有长有短,预测时,无法提前得知槽位标签长度。故针对槽位不定长问题,本申请基于数据集分析,选定最长槽位标签长度为10,对于不足10的,输入部分使用[MASK]进行遮蔽,输出的标签部分,对于标签实际位置结束位置到长度10,使用[SEP]作为结束标识。
之后根据提示掩码,利用预训练语言模型,预测并生成对应的槽位标签:记预训练语言模型和其字典为(M,V),其中mask token记为[mask];任务的one-hot标签集合记为L。
对于输入序列x=(s1,...,sk)
首先定义一个「pattern」,将输入x转化为一种含有[mask]的「pattern序列」P(x)∈V*,V*表示序列中的元素全都来自字典V。
同时定义一个「verbalizer」映射函数v:L→V,将每个标签l映射为字典中的一个token v(l)。
然后,输入P(x),模型做mlm任务,预测`[mask]`位置的原始字符v(l),然后根据「verbalizer」反推到文本的类别l∈L。
本方法模型图如图3所示。经实验,本申请实施例的方案可针对输入部分的[MASK]标记,准确预测出其所属槽位标签。
在步骤103处,对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
在一些实施例中,对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成所述比对结果的方法包括:对多份所述合同文件之间对应位置处的所述槽位处的所述文字信息和所述槽位前后文信息进行逐字比对,得到每个所述合同文件之间的所述槽位处的所述文字信息和所述槽位处对应的所述槽位前后文信息是否一致的比对结果,将所述比对结果整合为表格作为输出,表格中也可以包括前述实施例中所生成的槽位标签,使表格所整合的比对结果更加清晰和直观。
具体地,所述表格的横表头可以是合同文件的文件名、第一槽位文字信息、第一槽位前后文信息、第一槽位标签、……,纵表头可以是各个槽位部分的比对是否一致的结果,也可以选定某件合同文件作为原始文档,通过表格给出其他做比对的合同文件与该原始文档的合同文件对应的各个槽位部分是否一致。
通过上述方法,首先进行槽位定位,筛选出不同合同文件之间对应的槽位部分文字的不一致,将其重要程度提升,单独进行比对,而对于非槽位部分的文档,尽管其不一致,但对整体合同的签署影响较小,从而提高了合同审核效率,并且输出的比对结果可以进行归档整理,使用户可以更加直观地看到合同之间的不一致,方便后续的修订工作,也提高了合同审核效率。
图4为本申请实施例提供的一种合同比对装置的模块框图。该装置包括:
存储器201;以及与所述存储器201连接的处理器202,所述处理器202被配置成:获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;
对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
在一些实施例中,所述处理器202还被配置成:当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:
通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本定位对应的所述槽位。
在一些实施例中,所述处理器202还被配置成:当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:
获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;
对所述图片进行灰度化处理;
对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;
对所述图片进行再膨胀操作,所述再膨胀操作是将所述图片的图像的轮廓加以膨胀;
利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,从而定位出所述合同文件中的所述槽位。
在一些实施例中,所述处理器202还被配置成:获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
在一些实施例中,所述处理器202还被配置成:对获取的多份所述合同文件之间对应的所述槽位前后文信息进行比对,生成所述比对结果的方法包括:
对多份所述合同文件之间对应位置处的所述槽位处的所述文字信息和所述槽位前后文信息进行逐字比对,得到每个所述合同文件之间的所述槽位处的所述文字信息和所述槽位处对应的所述槽位前后文信息是否一致的比对结果,将所述比对结果整合为表格作为输出。
具体实现方法参考前述方法实施例,此处不再赘述。
本申请可以是方法、装置、系统和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本申请的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本申请操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本申请的各个方面。
这里参照根据本申请实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
注意,除非另有直接说明,否则本说明书(包含任何所附权利要求、摘要和附图)中所揭示的所有特征皆可由用于达到相同、等效或类似目的的可替代特征来替换。因此,除非另有明确说明,否则所公开的每一个特征仅是一组等效或类似特征的一个示例。在使用到的情况下,进一步地、较优地、更进一步地和更优地是在前述实施例基础上进行另一实施例阐述的简单起头,该进一步地、较优地、更进一步地或更优地后带的内容与前述实施例的结合作为另一实施例的完整构成。在同一实施例后带的若干个进一步地、较优地、更进一步地或更优地设置之间可任意组合的组成又一实施例。
虽然,上文中已经用一般性说明及具体实施例对本申请作了详尽的描述,但在本申请基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本申请精神的基础上所做的这些修改或改进,均属于本申请要求保护的范围。
Claims (10)
1.一种合同比对方法,其特征在于,包括以下步骤:
获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;
对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
2.根据权利要求1所述的合同比对方法,其特征在于,当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:
通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本定位对应的所述槽位。
3.根据权利要求1或2所述的合同比对方法,其特征在于,当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:
获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;
对所述图片进行灰度化处理;
对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;
利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,从而定位出所述合同文件中的所述槽位。
4.根据权利要求3所述的合同比对方法,其特征在于,获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
5.根据权利要求1所述的合同比对方法,其特征在于,对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成所述比对结果的方法包括:
对多份所述合同文件之间对应位置处的所述槽位处的所述文字信息和所述槽位前后文信息进行逐字比对,得到每个所述合同文件之间的所述槽位处的所述文字信息和所述槽位处对应的所述槽位前后文信息是否一致的比对结果,将所述比对结果整合为表格作为输出。
6.一种合同比对装置,其特征在于,包括:
存储器;以及
与所述存储器连接的处理器,所述处理器被配置成:
获取多份待比对合同文件,所述合同文件的类型包括DOCX文档格式、图片格式和/或PDF文档格式;
定位出所述合同文件中的槽位,获取所述槽位处的文字信息和槽位前后文信息;
对获取的多份所述合同文件之间对应的所述槽位处的所述文字信息和所述槽位前后文信息进行比对,生成比对结果。
7.根据权利要求6所述的合同比对装置,其特征在于,所述处理器还被配置成:
当所述合同文件的类型为DOCX文档格式时,定位出所述合同文件中的所述槽位的方法包括:
通过正则表达式解析出所述合同文件中的所述槽位,通过所述槽位的前文文本和后文文本定位对应的所述槽位。
8.根据权利要求6所述的合同比对装置,其特征在于,所述处理器还被配置成:
当所述合同文件的类型为图片格式或者PDF文档格式时,定位出所述合同文件中的所述槽位的方法包括:
获取图片格式的所述合同文件的图片或者PDF文档格式的所述合同文件转存得到的所述图片;
对所述图片进行灰度化处理;
对所述图片进行先腐蚀后膨胀的开操作,提取出所述槽位的下划线;
利用霍夫变换,将所述图片中的所述槽位的下划线检测并提取出来,获得每个所述槽位在所述图片中的坐标,从而定位出所述合同文件中的所述槽位。
9.根据权利要求8所述的合同比对装置,其特征在于,所述处理器还被配置成:
获得每个所述槽位在所述图片中的坐标之后,还包括:
利用OCR获取所述合同文件中每个文字的坐标,基于所述每个文字的坐标,取与所述槽位的左下角坐标最接近的文字,作为所述槽位的前文文本,取与所述槽位的右上角坐标最接近的文字,作为所述槽位的后文文本,从而得到所述槽位前后文信息。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被机器执行时实现如权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061488.XA CN115376153B (zh) | 2022-08-31 | 2022-08-31 | 一种合同比对方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211061488.XA CN115376153B (zh) | 2022-08-31 | 2022-08-31 | 一种合同比对方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115376153A true CN115376153A (zh) | 2022-11-22 |
CN115376153B CN115376153B (zh) | 2024-05-17 |
Family
ID=84070588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211061488.XA Active CN115376153B (zh) | 2022-08-31 | 2022-08-31 | 一种合同比对方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115376153B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
CN109977088A (zh) * | 2019-03-30 | 2019-07-05 | 湖北畅云时讯软件技术有限公司 | 一种预设格式文件转换为ofd格式的方法 |
CN111737965A (zh) * | 2020-05-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 文档的比对方法、装置、电子设备和可读存储介质 |
CN112529014A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 直线检测方法、信息提取方法、装置、设备及存储介质 |
CN112580298A (zh) * | 2019-09-29 | 2021-03-30 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN113496115A (zh) * | 2020-04-08 | 2021-10-12 | 中国移动通信集团广东有限公司 | 文件内容比对方法和装置 |
CN113868411A (zh) * | 2021-09-26 | 2021-12-31 | 南京苏宁电子信息技术有限公司 | 合同比对方法、装置、存储介质及计算机设备 |
CN114265942A (zh) * | 2021-12-23 | 2022-04-01 | 北京百度网讯科技有限公司 | 知识单元抽取方法、装置、设备和介质 |
CN114529933A (zh) * | 2021-12-30 | 2022-05-24 | 福建亿能达信息技术股份有限公司 | 一种合同数据差异性的比对方法、装置、设备和介质 |
CN114661862A (zh) * | 2022-03-01 | 2022-06-24 | 深圳Tcl新技术有限公司 | 基于语音数据的搜索方法、装置、计算机设备及存储介质 |
-
2022
- 2022-08-31 CN CN202211061488.XA patent/CN115376153B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
CN109977088A (zh) * | 2019-03-30 | 2019-07-05 | 湖北畅云时讯软件技术有限公司 | 一种预设格式文件转换为ofd格式的方法 |
CN112580298A (zh) * | 2019-09-29 | 2021-03-30 | 大众问问(北京)信息科技有限公司 | 一种标注数据获取方法、装置及设备 |
CN113496115A (zh) * | 2020-04-08 | 2021-10-12 | 中国移动通信集团广东有限公司 | 文件内容比对方法和装置 |
CN111737965A (zh) * | 2020-05-29 | 2020-10-02 | 北京百度网讯科技有限公司 | 文档的比对方法、装置、电子设备和可读存储介质 |
CN112529014A (zh) * | 2020-12-14 | 2021-03-19 | 中国平安人寿保险股份有限公司 | 直线检测方法、信息提取方法、装置、设备及存储介质 |
CN112926313A (zh) * | 2021-03-10 | 2021-06-08 | 新华智云科技有限公司 | 一种槽位信息的提取方法与系统 |
CN113868411A (zh) * | 2021-09-26 | 2021-12-31 | 南京苏宁电子信息技术有限公司 | 合同比对方法、装置、存储介质及计算机设备 |
CN114265942A (zh) * | 2021-12-23 | 2022-04-01 | 北京百度网讯科技有限公司 | 知识单元抽取方法、装置、设备和介质 |
CN114529933A (zh) * | 2021-12-30 | 2022-05-24 | 福建亿能达信息技术股份有限公司 | 一种合同数据差异性的比对方法、装置、设备和介质 |
CN114661862A (zh) * | 2022-03-01 | 2022-06-24 | 深圳Tcl新技术有限公司 | 基于语音数据的搜索方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
李峣: "《商务英语合同模板大全》", pages: 91 * |
Also Published As
Publication number | Publication date |
---|---|
CN115376153B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807098B (zh) | 模型训练方法和装置、电子设备以及存储介质 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
CN109685056A (zh) | 获取文档信息的方法及装置 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
CN110750977B (zh) | 一种文本相似度计算方法及系统 | |
CN113205047B (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN112464927A (zh) | 一种信息提取方法、装置及系统 | |
CN114387602B (zh) | 医疗ocr数据优化模型训练方法、优化方法及设备 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN114398952B (zh) | 训练文本生成方法、装置、电子设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN112839185B (zh) | 用于处理图像的方法、装置、设备和介质 | |
CN113762109A (zh) | 一种文字定位模型的训练方法及文字定位方法 | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
CN109902309B (zh) | 翻译方法、装置、设备和存储介质 | |
CN117034948A (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN115376153B (zh) | 一种合同比对方法、装置及存储介质 | |
CN116304014A (zh) | 训练实体类型识别模型的方法、实体类型识别方法及装置 | |
CN115358186B (zh) | 一种槽位标签的生成方法、装置及存储介质 | |
CN116306506A (zh) | 一种基于内容识别的智能邮件模板方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20240725 Granted publication date: 20240517 |
|
PP01 | Preservation of patent right |