CN110443269A - 一种文档比对方法及装置 - Google Patents
一种文档比对方法及装置 Download PDFInfo
- Publication number
- CN110443269A CN110443269A CN201910520715.2A CN201910520715A CN110443269A CN 110443269 A CN110443269 A CN 110443269A CN 201910520715 A CN201910520715 A CN 201910520715A CN 110443269 A CN110443269 A CN 110443269A
- Authority
- CN
- China
- Prior art keywords
- compared
- character
- map file
- text
- tilt angle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012937 correction Methods 0.000 claims abstract description 31
- 238000011426 transformation method Methods 0.000 claims abstract description 18
- 238000003672 processing method Methods 0.000 claims abstract description 10
- 230000015654 memory Effects 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 7
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004891 communication Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 108010001267 Protein Subunits Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
- G06V10/7515—Shifting the patterns to accommodate for positional errors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本发明实施例提供了一种文档比对方法及装置,本发明涉及人工智能技术领域,方法包括:获取待比对图档及标准文档,其中,标准文档为用户上传的正确文档;通过预设的处理方法将标准文档转换为标准文本,标准文本中包括多个字符;通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正;识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符;将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符。本发明实施例提供的技术方案能够解决现有技术中文档比对效率低的问题。
Description
【技术领域】
本发明涉及人工智能技术领域,尤其涉及一种文档比对方法及装置。
【背景技术】
目前,企业中需要用到的文档越来越多,一个文档经过多次转手后,可能会出现一些偏差,例如合同,合同审查人员人工审核的效率很低,并且合同的格式可能是打印稿、图片、电子稿等,使得比对效率更低,因此,如何提高文档的比对效率成为目前亟待解决的问题。
【发明内容】
有鉴于此,本发明实施例提供了一种文档比对方法及装置,用以解决现有技术中文档比对效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种文档比对方法,所述方法包括:
获取待比对图档及标准文档,其中,所述标准文档为用户上传的正确文档;通过预设的处理方法将所述标准文档转换为标准文本,所述标准文本中包括多个字符;通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正;识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符;将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符。
进一步地,所述识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符,包括:将所述待比对图档切分为多个子图档;其中,每个子图档通过预设标签进行标识;将每个所述子图档依次输入基于卷积神经网络的字符识别模型中,获取所述字符识别模型输出的字符。
进一步地,所述将每个所述子图档依次输入基于卷积神经网络的字符识别模型中,获取所述字符识别模型输出的字符,包括:
将每个所述子图档依次输入基于卷积神经网络的所述字符识别模型中,其中,所述字符识别模型的卷积神经网络提取每个所述子图档中的所述字符的词向量、在所述字符前的预设数量个字符的第一特征向量及在所述字符后的所述预设数量个字符的第二特征向量;将所述词向量、所述第一特征向量、所述第二特征向量拼接为一个特征向量;对拼接后得到的所述特征向量进行语义识别;获取所述字符识别模型输出的字符。
进一步地,所述将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符,包括:获取所述用户预设的比对区域及比对对象,其中,所述比对区域与所述子图档的预设标签相对应,所述比对对象包括字符、空格、符号中的至少一种;获取所述字符识别模型输出的与所述预设标签相关的字符;将所述预设标签相关的字符与所述标准文本中的字符根据所述比对对象一一进行比对,得到差异字符。
进一步地,所述将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符之后,所述方法还包括:获取所述用户预设的标注颜色;根据所述标注颜色标注所述差异字符。
进一步地,在所述通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正之前,所述方法还包括:对所述待比对图档进行二值化处理,得到二值化图档;对所述二值化图档进行滤波处理,去除所述二值化图档中的背景噪声;将滤波处理后的二值化图档确认为待比对图档。
进一步地,所述通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正,包括:
通过霍夫变换方法提取所述待比对图档中的直线;统计所述直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为所述线段的起始坐标,以横坐标最大的字符点所在的坐标作为所述线段的终止坐标;判断所述线段上相邻两个字符点之间的距离是否大于预设阈值;当大于所述预设阈值时,将所述线段从所述相邻两个字符点处分割为两条线段;计算每条所述线段的倾斜角度,并将所述倾斜角度的平均值确认为所述待比对图档的倾斜角度;基于确认的所述倾斜角度,采用双线性插值对所述待比对图档进行旋转矫正。
为了实现上述目的,根据本发明的一个方面,提供了一种文档比对装置,所述装置包括:获取单元,用于获取待比对图档及标准文档,其中,所述标准文档为用户上传的正确文档;转换单元,用于通过预设的处理方法将所述标准文档转换为标准文本,所述标准文本中包括多个字符;矫正单元,用于通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正;识别单元,用于识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符;比对单元,用于将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机非易失性存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在设备执行上述的文档比对方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的文档比对方法的步骤。
在本方案中,通过将待比对图档进行矫正,并进一步识别所述待比对图档,将识别到的待比对图档的字符与所述标准文档中的字符进行比对,得到待比对文本与标准文本之间的差异字符,从而实现快速识别文档之间的差异,提高不同格式文档之间的精确比对的效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例提供的一种可选的文档比对方法的流程图;
图2是本发明实施例提供的一种可选的文档比对装置的示意图;
图3是本发明实施例提供的一种可选的计算机设备的示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述终端,但这些终端不应限于这些术语。这些术语仅用来将终端彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一终端也可以被称为第二终端,类似地,第二终端也可以被称为第一终端。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1是根据本发明实施例的一种文档比对方法的流程图,如图1所示,该方法包括:
步骤S101,获取待比对图档及标准文档,其中,标准文档为用户上传的正确文档。其中,标准文档为word文档或PDF文档中的任意一种,待比对图档可以是直接通过拍照获取的打印稿的图片、PDF文档、扫描件等图片形式的文件。例如手机拍摄的合同。
步骤S102,通过预设的处理方法将标准文档转换为标准文本,标准文本中包括多个字符。
步骤S103,通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正。
步骤S104,识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符。
步骤S105,将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符。
在本方案中,通过将待比对图档进行矫正,并进一步识别待比对图档,将识别到的待比对图档的字符与标准文档中的字符进行比对,得到待比对文本与标准文本之间的差异字符,从而实现快速识别文档之间的差异,提高不同格式文档之间的精确比对的效率。
可选地,获取待比对图档及标准文档的方法,可以通过应用终端上的蓝牙、通讯网络的方式传输,用户也可以通过USB接口等自主上传,将两个需要比对的文件上传后可实现自动比对。
可选地,通过预设的处理方法将标准文档转换为标准文本的方法,可以通过光学字符识别方法将标准文档转换为标准文本,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF文档转换为word文档。
可选地,在通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正之前,方法还包括:对待比对图档进行二值化处理,得到二值化图档;对二值化图档进行滤波处理,去除二值化图档中的背景噪声;将滤波处理后的二值化图档确认为待比对图档。
具体地,二值化处理,是将图档的像素点的值处理为两种像素值,255或0,其中,255为白色,0为黑色,这样使得字符颜色相对于背景颜色更加鲜明。对待处理图档进行滤波处理可以采用均值滤波、自适应维纳滤波、小波滤波等方式。可以理解地,通过二值化处理及滤波处理后,待比对图档中的字符会更加清晰,在进一步识别字符时能够提高识别的准确率。
可选地,通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正,包括:
通过霍夫变换方法提取待比对图档中的直线;统计直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为线段的起始坐标,以横坐标最大的字符点所在的坐标作为线段的终止坐标;判断线段上相邻两个字符点之间的距离是否大于预设阈值;当大于预设阈值时,将线段从相邻两个字符点处分割为两条线段;计算每条线段的倾斜角度,并将倾斜角度的平均值确认为待比对图档的倾斜角度;基于确认的倾斜角度,采用双线性插值对待比对图档进行旋转矫正。
可以理解地,二值化图档中,黑色为字符点,对所有的字符点进行极坐标变换,那么每个字符点就都转换为极坐标系中的一条直线。例如当计算得到的倾斜角度的平均值为45度,则需要对待比对图档逆时针翻转45度。
可选地,识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符,包括:将待比对图档切分为多个子图档;其中,每个子图档通过预设标签进行标识;将每个子图档依次输入基于卷积神经网络的字符识别模型中,获取字符识别模型输出的字符。可以理解地,待比对图档是图片格式的文件,例如,可以利用深度神经网络来实现识别切分,得到第一自然段的子图档、第二自然段子图档等,并用段落标签进行标识,方便后期的精准比对,提高比对效率。
可以理解地,这里的第一段、第二段仅为举例说明,在其他实施方式中,也可以按照图档的排版进行局部切分,例如用户通过在该方法的应用终端上设定切分区域(用手指画设指定区域),在此不做限定。
可选地,将每个子图档依次输入基于卷积神经网络的字符识别模型中,获取字符识别模型输出的字符,包括:
将每个子图档依次输入基于卷积神经网络的字符识别模型中,其中,字符识别模型的卷积神经网络提取每个子图档中的字符的词向量、在字符前的预设数量的字符的第一特征向量及在字符后的预设数量的字符的第二特征向量;将词向量、第一特征向量、第二特征向量拼接为一个特征向量;对拼接后得到的特征向量进行语义识别;获取字符识别模型输出的字符。
具体地,可以设定预设数量的像素点为宽度,预设数量个像素点为高度对子图档进行识别,可以有效避免识别时漏字。例如提取8*8的像素点进行特征向量,然后提取前两个8*8的像素点的特征向量和后两个8*8的像素点的特征向量,根据拼接得到的特征向量进行语义识别,得到有效字符“房屋”“出”“租期”,若不进行向量拼接,“租期”可能会识别为“相期”,因为单个字符识别过程容易受到影响出现误差,在结合整体语义的情况下,就能够大大避免这种情况的出现。
其中,字符识别模型可以是DNN(Deep Neural Network,深度神经网络)、RNN(Recurrent Neural Network,递归神经网络)或LSTM(Long Short-Term Memory,长短期记忆单元)模型等。可以理解地,通过将字符识别和字符前后的字符进行语义识别相结合,能够有效提高字符识别的准确性。
可选地,将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符,包括:获取用户预设的比对区域及比对对象,其中,比对区域与子图档的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;获取字符识别模型输出的与预设标签相关的字符;将所述预设标签相关的字符与所述标准文本中的字符根据所述比对对象一一进行比对,得到差异字符。
具体地,用户可以在该方法的应用终端上设定比对对象,例如只比对字符,不比对空格和标点符号等。还可以设定全比对(即字符、空格、符号)都比对。用户还可以通过设定比对区域来实现部分比对。
在一种实施方式中,待比对图档的子图档用预设标签(第一自然段、第二自然段…第n自然段)标注后,在标准文本中也会用相同的预设标签进行标注。那么,在比对时就可以实现仅比对第一自然段、或者仅比对第二自然段。例如,某个合同的某一段内容是否和标准合同模板中的一样,就可以通过局部比对来实现。
在另一种实施方式中,待比对图档的子图档用预设标签(第一部分、第二部分),在标准文本中可以将用户设定的区域用预设标签标注,在比对时可以实现待比对图档中的第一部分与标准文本中的第一部分进行比对。
进一步地,将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符之后,方法还包括:获取用户预设的标注颜色;根据标注颜色标注差异字符。
可以理解地,标注颜色例如可以是红、橙、黄、绿、青、蓝、紫等等。根据设定的颜色标注后,可以方便用户查看比对出来的差异字符,从而进行相应的修改。
在本方案中,通过将待比对图档进行矫正,并进一步识别待比对图档,将识别到的待比对图档的字符与标准文档中的字符进行比对,得到待比对文本与标准文本之间的差异字符,从而实现快速识别文档之间的差异,提高不同格式文档之间的精确比对的效率。
本发明实施例提供了一种文档比对装置,该装置用于执行上述文档比对方法,如图2所示,该装置包括:获取单元10、转换单元20、矫正单元30、识别单元40、比对单元50。
获取单元10,用于获取待比对图档及标准文档,其中,标准文档为用户上传的正确文档。其中,标准文档为word文档或PDF文档中的任意一种,待比对图档可以是直接通过拍照获取的打印稿的图片、PDF文档、扫描件等图片形式的文件。例如手机拍摄的合同。
转换单元20,用于通过预设的处理方法将标准文档转换为标准文本,标准文本中包括多个字符。
矫正单元30,用于通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正。
识别单元40,用于识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符。
比对单元50,用于将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符。
在本方案中,通过将待比对图档进行矫正,并进一步识别待比对图档,将识别到的待比对图档的字符与标准文档中的字符进行比对,得到待比对文本与标准文本之间的差异字符,从而实现快速识别文档之间的差异,提高不同格式文档之间的精确比对的效率。
可选地,获取待比对图档及标准文档的方法,可以通过应用终端上的蓝牙、通讯网络的方式传输,用户也可以通过USB接口等自主上传,将两个需要比对的文件上传后可实现自动比对。
可选地,通过预设的处理方法将标准文档转换为标准文本的方法,可以通过光学字符识别方法将标准文档转换为标准文本,还可以直接利用现有一些文档编辑软件如PDF直接进行转换,将PDF文档转换为word文档。
可选地,装置还包括第一处理单元、第二处理单元及确认单元。
第一处理单元,用于对待比对图档进行二值化处理,得到二值化图档;第二处理单元,用于对二值化图档进行滤波处理,去除二值化图档中的背景噪声;确认单元,用于将滤波处理后的二值化图档确认为待比对图档。
具体地,二值化处理,是将图档的像素点的值处理为两种像素值,255或0,其中,255为白色,0为黑色,这样使得字符颜色相对于背景颜色更加鲜明。对待处理图档进行滤波处理可以采用均值滤波、自适应维纳滤波、小波滤波等方式。可以理解地,通过二值化处理及滤波处理后,待比对图档中的字符会更加清晰,在进一步识别字符时能够提高识别的准确率。
可选地,矫正单元30包括提取子单元、统计子单元、判断子单元、分割子单元、计算子单元及矫正子单元。
提取子单元,用于通过霍夫变换方法提取待比对图档中的直线。统计子单元,用于统计直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为线段的起始坐标,以横坐标最大的字符点所在的坐标作为线段的终止坐标;判断子单元,用于判断线段上相邻两个字符点之间的距离是否大于预设阈值;分割子单元,用于当大于预设阈值时,将线段从相邻两个字符点处分割为两条线段;计算子单元,用于计算每条线段的倾斜角度,并将倾斜角度的平均值确认为待比对图档的倾斜角度;矫正子单元,用于基于确认的倾斜角度,采用双线性插值对待比对图档进行旋转矫正。
可以理解地,二值化图档中,黑色为字符点,对所有的字符点进行极坐标变换,那么每个字符点就都转换为极坐标系中的一条直线。例如当计算得到的倾斜角度的平均值为45度,则需要对待比对图档逆时针翻转45度。
可选地,识别单元40包括切分子单元、第一获取子单元。
切分子单元,用于将待比对图档切分为多个子图档;其中,每个子图档通过预设标签进行标识;第一获取子单元,用于将每个子图档依次输入基于卷积神经网络的字符识别模型中,获取字符识别模型输出的字符。可以理解地,待比对图档是图片格式的文件,例如,可以利用深度神经网络来实现识别切分,得到第一段的子图档、第二段子图档等,并用段落标签进行标识,方便后期的精准比对,提高比对效率。
可以理解地,这里的第一段、第二段仅为举例说明,在其他实施方式中,也可以按照图档的排版进行局部切分,例如用户通过在该方法的应用终端上设定切分区域(用手指画设指定区域),在此不做限定。
具体地,将每个子图档依次输入基于卷积神经网络的字符识别模型中,其中,字符识别模型的卷积神经网络提取每个子图档中的字符的词向量、在字符前的预设数量的字符的第一特征向量及在字符后的预设数量的字符的第二特征向量;将词向量、第一特征向量、第二特征向量拼接为一个特征向量;对拼接后得到的特征向量进行语义识别;获取字符识别模型输出的字符。
在一种实施方式中,可以设定预设数量的像素点为宽度,预设数量个像素点为高度对子图档进行识别,可以有效避免识别时漏字。例如提取8*8的像素点进行特征向量,然后提取前两个8*8的像素点的特征向量和后两个8*8的像素点的特征向量,根据拼接得到的特征向量进行语义识别,得到有效字符“房屋”“出”“租期”,若不进行向量拼接,“租期”可能会识别为“相期”,因为单个字符识别过程容易受到影响出现误差,在结合整体语义的情况下,就能够大大避免这种情况的出现。
其中,字符识别模型可以是DNN(Deep Neural Network,深度神经网络)、RNN(Recurrent Neural Network,递归神经网络)或LSTM(Long Short-Term Memory,长短期记忆单元)模型等。可以理解地,通过将字符识别和字符前后的字符进行语义识别相结合,能够有效提高字符识别的准确性。
可选地,比对单元50包括第二获取子单元、第二获取子单元及比对子单元。
第二获取子单元,用于获取用户预设的比对区域及比对对象,其中,比对区域与子图档的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;第二获取子单元,用于获取字符识别模型输出的与预设标签相关的字符;比对子单元,用于将预设标签相关的字符与标准文本中的目标字符根据预设的比对对象一一进行比对,得到差异字符。
具体地,用户可以在该方法的应用终端上设定比对对象,例如只比对字符,不比对空格和标点符号等。还可以设定全比对(即字符、空格、符号)都比对。用户还可以通过设定比对区域来实现部分比对。
在一种实施方式中,待比对图档的子图档用预设标签(第一自然段、第二自然段…第n自然段)标注后,在标准文本中也会用相同的预设标签进行标注。那么,在比对时就可以实现仅比对第一自然段、或者仅比对第二自然段。例如,某个合同的某一段内容是否和标准合同模板中的一样,就可以通过局部比对来实现。
在另一种实施方式中,待比对图档的子图档用预设标签(第一部分、第二部分),在标准文本中可以将用户设定的区域用预设标签标注,在比对时可以实现待比对图档中的第一部分与标准文本中的第一部分进行比对。
进一步地,装置还包括第二获取单元、标注单元。
第二获取单元,用于获取用户预设的标注颜色;标注单元,用于根据标注颜色标注差异字符。
可以理解地,标注颜色例如可以是红、橙、黄、绿、青、蓝、紫等等。根据设定的颜色标注后,可以方便用户查看比对出来的差异字符,从而进行相应的修改。
在本方案中,通过将待比对图档进行矫正,并进一步识别待比对图档,将识别到的待比对图档的字符与标准文档中的字符进行比对,得到待比对文本与标准文本之间的差异字符,从而实现快速识别文档之间的差异,提高不同格式文档之间的精确比对的效率。
本发明实施例提供了一种计算机非易失性存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行以下步骤:
获取待比对图档及标准文档,其中,标准文档为用户上传的正确文档;通过预设的处理方法将标准文档转换为标准文本,标准文本中包括多个字符;通过霍夫变换方法找到待比对图档的倾斜角度,并基于倾斜角度采用双线性插值对待比对图档进行旋转矫正;识别旋转矫正后的待比对图档,得到待比对文本,待比对文本包括多个字符;将标准文本中的字符与待比对文本中的字符进行比对,得到待比对文本与标准文本之间的差异字符。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:将待比对图档切分为多个子图档;其中,每个子图档通过预设标签进行标识;将每个子图档依次输入基于卷积神经网络的字符识别模型中,获取字符识别模型输出的字符。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:将每个子图档依次输入基于卷积神经网络的字符识别模型中,其中,字符识别模型的卷积神经网络提取每个子图档中的字符的词向量、在字符前的预设数量个字符的第一特征向量及在字符后的预设数量个字符的第二特征向量;将词向量、第一特征向量、第二特征向量拼接为一个特征向量;对拼接后得到的特征向量进行语义识别;获取字符识别模型输出的字符。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:获取用户预设的比对区域及比对对象,其中,比对区域与子图档的预设标签相对应,比对对象包括字符、空格、符号中的至少一种;获取字符识别模型输出的与预设标签相关的字符;将预设标签相关的字符与标准文本中的目标字符根据预设的比对对象一一进行比对,得到差异字符。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:对待比对图档进行二值化处理,得到二值化图档;对二值化图档进行滤波处理,去除二值化图档中的背景噪声;将滤波处理后的二值化图档确认为待比对图档。
可选地,在程序运行时控制存储介质所在设备执行以下步骤:通过霍夫变换方法提取待比对图档中的直线;统计直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为线段的起始坐标,以横坐标最大的字符点所在的坐标作为线段的终止坐标;判断线段上相邻两个字符点之间的距离是否大于预设阈值;当大于预设阈值时,将线段从相邻两个字符点处分割为两条线段;计算每条线段的倾斜角度,并将倾斜角度的平均值确认为待比对图档的倾斜角度;基于确认的倾斜角度,采用双线性插值对待比对图档进行旋转矫正。
图3是本发明实施例提供的一种计算机设备的示意图。如图3所示,该实施例的计算机设备100包括:处理器101、存储器102以及存储在存储器102中并可在处理器101上运行的计算机程序103,处理器101执行计算机程序103时实现实施例中的文档比对方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器101执行时实现实施例中文档比对装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备100可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括,但不仅限于,处理器101、存储器102。本领域技术人员可以理解,图3仅仅是计算机设备100的示例,并不构成对计算机设备100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器101可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器102可以是计算机设备100的内部存储单元,例如计算机设备100的硬盘或内存。存储器102也可以是计算机设备100的外部存储设备,例如计算机设备100上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器102还可以既包括计算机设备100的内部存储单元也包括外部存储设备。存储器102用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器102还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种文档比对方法,其特征在于,所述方法包括:
获取待比对图档及标准文档,其中,所述标准文档为用户上传的正确文档;
通过预设的处理方法将所述标准文档转换为标准文本,所述标准文本中包括多个字符;
通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正;
识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符;
将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符。
2.根据权利要求1所述的方法,其特征在于,所述识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符,包括:
将所述待比对图档切分为多个子图档;其中,每个子图档通过预设标签进行标识;
将每个所述子图档依次输入基于卷积神经网络的字符识别模型中,获取所述字符识别模型输出的字符。
3.根据权利要求2所述的方法,其特征在于,所述将每个所述子图档依次输入基于卷积神经网络的字符识别模型中,获取所述字符识别模型输出的字符,包括:
将每个所述子图档依次输入基于卷积神经网络的字符识别模型中,其中,所述字符识别模型的卷积神经网络提取每个所述子图档中的所述字符的词向量、在所述字符前的预设数量个字符的第一特征向量及在所述字符后的所述预设数量个字符的第二特征向量;
将所述词向量、所述第一特征向量、所述第二特征向量拼接为一个特征向量;
对拼接后得到的所述特征向量进行语义识别;
获取所述字符识别模型输出的字符。
4.根据权利要求2所述的方法,其特征在于,所述将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符,包括:
获取所述用户预设的比对区域及比对对象,其中,所述比对区域与所述子图档的预设标签相对应,所述比对对象包括字符、空格、符号中的至少一种;
获取所述字符识别模型输出的与所述预设标签相关的字符;
将所述预设标签相关的字符与所述标准文本中的字符根据所述比对对象一一进行比对,得到差异字符。
5.根据权利要求1~4中任意一项所述的方法,其特征在于,所述将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符之后,所述方法还包括:
获取所述用户预设的标注颜色;
根据所述标注颜色标注所述差异字符。
6.根据权利要求1所述的方法,其特征在于,在所述通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正之前,所述方法还包括:
对所述待比对图档进行二值化处理,得到二值化图档;
对所述二值化图档进行滤波处理,去除所述二值化图档中的背景噪声;
将滤波处理后的二值化图档确认为待比对图档。
7.根据权利要求6所述的方法,其特征在于,所述通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正,包括:
通过霍夫变换方法提取所述待比对图档中的直线;
统计所述直线上的字符点,确定线段,其中,以横坐标最小的字符点所在的坐标作为所述线段的起始坐标,以横坐标最大的字符点所在的坐标作为所述线段的终止坐标;
判断所述线段上相邻两个字符点之间的距离是否大于预设阈值;
当大于所述预设阈值时,将所述线段从所述相邻两个字符点处分割为两条线段;
计算每条所述线段的倾斜角度,并将所述倾斜角度的平均值确认为所述待比对图档的倾斜角度;
基于确认的所述倾斜角度,采用双线性插值对所述待比对图档进行旋转矫正。
8.一种文档比对装置,其特征在于,所述装置包括:
获取单元,用于获取待比对图档及标准文档,其中,所述标准文档为用户上传的正确文档;
转换单元,用于通过预设的处理方法将所述标准文档转换为标准文本,所述标准文本中包括多个字符;
矫正单元,用于通过霍夫变换方法找到所述待比对图档的倾斜角度,并基于所述倾斜角度采用双线性插值对所述待比对图档进行旋转矫正;
识别单元,用于识别所述旋转矫正后的待比对图档,得到待比对文本,所述待比对文本包括多个字符;
比对单元,用于将所述标准文本中的字符与所述待比对文本中的字符进行比对,得到所述待比对文本与所述标准文本之间的差异字符。
9.一种计算机非易失性存储介质,所述存储介质包括存储的程序,其特征在于,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7任意一项所述的文档比对方法。
10.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的文档比对方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520715.2A CN110443269A (zh) | 2019-06-17 | 2019-06-17 | 一种文档比对方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910520715.2A CN110443269A (zh) | 2019-06-17 | 2019-06-17 | 一种文档比对方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110443269A true CN110443269A (zh) | 2019-11-12 |
Family
ID=68429491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910520715.2A Pending CN110443269A (zh) | 2019-06-17 | 2019-06-17 | 一种文档比对方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443269A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259888A (zh) * | 2020-01-15 | 2020-06-09 | 平安国际智慧城市科技股份有限公司 | 基于图像的信息比对方法、装置及计算机可读存储介质 |
CN112183574A (zh) * | 2020-08-21 | 2021-01-05 | 深圳市银之杰科技股份有限公司 | 文件鉴伪比对方法及装置、终端和存储介质 |
CN112395852A (zh) * | 2020-12-22 | 2021-02-23 | 江西金格科技股份有限公司 | 多文件格式版式文档的对比方法 |
CN117237957A (zh) * | 2023-11-16 | 2023-12-15 | 新视焰医疗科技(杭州)有限公司 | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090028392A1 (en) * | 2007-07-23 | 2009-01-29 | Sitaram Ramachandrula | Document Comparison Method And Apparatus |
CN102222079A (zh) * | 2010-04-07 | 2011-10-19 | 佳能株式会社 | 图像处理设备及图像处理方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN108734110A (zh) * | 2018-04-24 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 基于最长公共子序列的文本段落识别对比方法及系统 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109447055A (zh) * | 2018-10-17 | 2019-03-08 | 甘肃万维信息技术有限责任公司 | 一种基于ocr字形相近文字识别方法 |
-
2019
- 2019-06-17 CN CN201910520715.2A patent/CN110443269A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090028392A1 (en) * | 2007-07-23 | 2009-01-29 | Sitaram Ramachandrula | Document Comparison Method And Apparatus |
CN102222079A (zh) * | 2010-04-07 | 2011-10-19 | 佳能株式会社 | 图像处理设备及图像处理方法 |
CN108596066A (zh) * | 2018-04-13 | 2018-09-28 | 武汉大学 | 一种基于卷积神经网络的字符识别方法 |
CN108734110A (zh) * | 2018-04-24 | 2018-11-02 | 达而观信息科技(上海)有限公司 | 基于最长公共子序列的文本段落识别对比方法及系统 |
CN108829681A (zh) * | 2018-06-28 | 2018-11-16 | 北京神州泰岳软件股份有限公司 | 一种命名实体提取方法及装置 |
CN109214002A (zh) * | 2018-08-27 | 2019-01-15 | 成都四方伟业软件股份有限公司 | 一种文本对比方法、装置及其计算机存储介质 |
CN109447055A (zh) * | 2018-10-17 | 2019-03-08 | 甘肃万维信息技术有限责任公司 | 一种基于ocr字形相近文字识别方法 |
Non-Patent Citations (1)
Title |
---|
徐勇 等: "《基于稀疏算法的人脸识别》", 国防工业出版社, pages: 188 - 189 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259888A (zh) * | 2020-01-15 | 2020-06-09 | 平安国际智慧城市科技股份有限公司 | 基于图像的信息比对方法、装置及计算机可读存储介质 |
CN112183574A (zh) * | 2020-08-21 | 2021-01-05 | 深圳市银之杰科技股份有限公司 | 文件鉴伪比对方法及装置、终端和存储介质 |
CN112183574B (zh) * | 2020-08-21 | 2024-05-28 | 深圳市银之杰科技股份有限公司 | 文件鉴伪比对方法及装置、终端和存储介质 |
CN112395852A (zh) * | 2020-12-22 | 2021-02-23 | 江西金格科技股份有限公司 | 多文件格式版式文档的对比方法 |
CN117237957A (zh) * | 2023-11-16 | 2023-12-15 | 新视焰医疗科技(杭州)有限公司 | 用于检测文件方向并对倾斜或畸形文件矫正的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110309706B (zh) | 人脸关键点检测方法、装置、计算机设备及存储介质 | |
CN109815788B (zh) | 一种图片聚类方法、装置、存储介质及终端设备 | |
EP3989104A1 (en) | Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium | |
CN109146892A (zh) | 一种基于美学的图像裁剪方法及装置 | |
CN110443269A (zh) | 一种文档比对方法及装置 | |
CN110334585A (zh) | 表格识别方法、装置、计算机设备和存储介质 | |
CN107679531A (zh) | 基于深度学习的车牌识别方法、装置、设备及存储介质 | |
EP3772036A1 (en) | Detection of near-duplicate image | |
CN108255555B (zh) | 一种系统语言切换方法及终端设备 | |
CN109829453A (zh) | 一种卡证中文字的识别方法、装置以及计算设备 | |
CN108229419A (zh) | 用于聚类图像的方法和装置 | |
CN108711161A (zh) | 一种图像分割方法、图像分割装置及电子设备 | |
CN108846842B (zh) | 一种图像噪声检测方法、装置及电子设备 | |
CN112966725B (zh) | 匹配模板图像的方法、装置及终端设备 | |
CN110334605A (zh) | 基于神经网络的手势识别方法、装置、存储介质及设备 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN111046879A (zh) | 证件图像分类方法、装置、计算机设备及可读存储介质 | |
CN110363098B (zh) | 一种暴力行为预警方法、装置、可读存储介质及终端设备 | |
CN111340022A (zh) | 身份证信息识别方法、装置、计算机设备及存储介质 | |
CN110321908A (zh) | 图像识别方法、终端设备及计算机可读存储介质 | |
CN110309774A (zh) | 虹膜图像分割方法、装置、存储介质及电子设备 | |
CN104850820B (zh) | 一种脸部识别方法及装置 | |
CN110147785A (zh) | 图像识别方法、相关装置和设备 | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20191112 |