CN109543614A - 一种全文本差异比对方法及设备 - Google Patents
一种全文本差异比对方法及设备 Download PDFInfo
- Publication number
- CN109543614A CN109543614A CN201811401631.9A CN201811401631A CN109543614A CN 109543614 A CN109543614 A CN 109543614A CN 201811401631 A CN201811401631 A CN 201811401631A CN 109543614 A CN109543614 A CN 109543614A
- Authority
- CN
- China
- Prior art keywords
- text
- difference
- original part
- page
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
- G06F3/04812—Interaction techniques based on cursor appearance or behaviour, e.g. being affected by the presence of displayed objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04805—Virtual magnifying lens, i.e. window or frame movable on top of displayed information to enlarge it for better reading or selection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明涉及一种全文本差异比对方法,包括如下步骤:对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文本中包含各文字对应的坐标;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字。本发明还涉及一种全文本差异比对设备。本发明的有点在于:将OCR智能识别与文本比较算法相结合,快速比对出差异文字并根据坐标定位、标记差异文字,大大提升效率且比对准确率;2、能够识别文件格式并能够将文本格式其转换为Image格式的影像,因此,适用于多种文件格式的差异比对,适用范围广。
Description
技术领域
本发明涉及一种全文本差异比对方法,属于智能识别比对领域。
背景技术
现有技术中,为审核文件的真实性,需要将文件与其对应的原件进行比对,例如合同审核,合同文本量大,有全文核对需求,比对方式一般大都是通过人工肉眼审核比对,当需要比对的文件量较大时,不仅耗费时间长、人力成本高且出错风险大。
公开号为:CN106372040A,名称为《智能变电站配置文件差异性比较系统》的发明专利公开了智能变电站配置文件差异性比较方法:步骤一、文档数据对比模块先将每个文件以行的方式转为对应的结构数据序列;步骤二、文档数据对比模块将转换后的原件自定义结构数据序列以及对比件自定义结构数据序列进行求最大的LCS序列;步骤三、文档数据对比模块将最大的LCS序列以及结果集序列分别与原件自定义结构数据序列和对比件自定义结构数据序列分别进行对比,得到比对结果。该技术方案是将整个文件转换为结构数据序列进而进行比对,其计算处理量大,尤其在处理大篇幅文件时,容易定位出错,影响差异比对准确率。
发明内容
为了解决上述技术问题,本发明提供一种全文本差异比对方法,利用OCR智能识别,结合文本比较算法,实现自动比对出差异,并进一步自动标注差异,解决文件与其对应原件比对中耗时耗力,人力成本高、准确率低等问题。
本发明技术方案一如下:
一种全文本差异比对方法,包括如下步骤:对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字;
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
更优地,在客户端提交所述对比文件和原件,后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,并逐页统计差异文字总数量。
更优地,所述对比件和原件先进行版面分析,再提交至所述OCR识别引擎,所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。
更优地,所述对比件和原件在等待队列中按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高;当服务器接收到客户对其中一对比件和原件发出立即识别指令时,将该对比件和原件设置为最高优先级,立即送入OCR识别引擎。
更优地,在客户端展示比对结果,其中,差异文字显示方式包括高亮提示、放大镜提示、以不同底色突出显示文字和或变更字体颜色,浮标展示页码及该页的差异总数量。
本发明还提供一种全文本差异比对设备,包括一后台服务器,所述后台服务器设有存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字;
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
更优地,所述对比文件和原件通过客户端提交,后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,并逐页统计差异文字总数量。
更优地,所述后台服务器先对原件和对比件进行版面分析,再提交至所述OCR识别引擎,所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。
更优地,所述后台服务器将对比件和原件送入等待队列,再按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高;当服务器接收到客户对其中一对比件和原件发出立即识别指令时,将该对比件和原件设置为最高优先级,立即送入OCR识别引擎。
更优地,在客户端展示比对结果,其中,差异文字显示方式包括高亮提示、放大镜提示、以不同底色突出显示文字和或变更字体颜色,以浮标方式展示页码及该页的差异总数量。
本发明具有如下有益效果:
1、本发明将OCR智能识别与文本比较算法相结合,快速比对出差异文字并根据坐标定位、标记差异文字,大大提升效率且比对准确率;
2、本发明能够识别文件格式并能够将文本格式其转换为Image格式的影像,因此,适用于多种文件格式的差异比对,适用范围广;
3、本发明还对对比件和原件进行版面分析,消除干扰,提高比对准确率;
4、本发明采用优先级原则管理待比对的文件,防止拥堵,同时,人性化设置立即识别功能,满足客户需求;
5、本发明在客户端提供各种差异展示方式,辅助人员轻松审核。
附图说明
图1为本发明全文本差异比对方法的流程示意图;
图2为本发明全文本差异比对方法中文件优先级流程示意图;
图3为本发明全文本差异比对的比对结果示意图;
图4为本发明全文本差异比对结果以放大镜提示的示意图;
图5为本发明全文本差异比对设备的示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
一种全文本差异比对方法,包括如下步骤:
请参阅图1,在本实施例中,以比对合同文件,上传word格式的原件和PDF格式的对比件为例。一种全文本差异比对方法,包括如下步骤:对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本通过文本比较算法比对出差异文字,获取该差异文字的坐标;根据差异文字的坐标,定位差异文字,然后在对比件中标记出差异文字,如图3所示。比对结果一般都还通过数据库进行保存。所述文字包括汉字、英文字母、数字、符号但不局限于此。
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
在客户端提交所述对比文件和原件,例如,通过web端应用程序提交文件,后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像。Image格式的影像是将文件根据页进行分割,一页对应一个Image影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,提高比对准确率,且方便统计每页的差异文字总数量。对于如word、excel、pdf等其他格式的文本文件可以通过jacob开源组件将word格式的文件转换成PDF格式,通过pdfbox开源组件将PDF转换成Image格式。所述比对结果包括差异文字、差异文字的坐标、差异文字所在的页面以及每一页差异总数量。
所述对比件和原件还可以先进行版面分析,再提交至所述OCR识别引擎。所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。版面分析处理包含对影像增强锐化、灰度化、二值化、降噪、倾斜矫正等处理,从而分检出干扰字符的印章、墨点、下划线,在文字识别前剔除这些干扰,然后再标记页头页尾或标记表格位置。通过版面分析处理,可以提高OCR识别引擎的识别准确率。
请参阅图2,所述对比件和原件在等待队列中按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高。为解决特殊需要,当客户对其中一对比件和原件发出立即识别指令时,该对比件和原件被设置为最高优先级,立即送入OCR识别引擎。
在客户端展示比对结果,其中,差异文字显示方式包括高亮提示、放大镜提示(如图4所示)、以不同底色突出显示文字和或变更字体颜色,浮标展示页码及该页的差异总数量。
本发明全文本差异比对方法,将AI智能识别和自动标注技术相结合,实现自动比对并自动标识差异之处,不仅提高自动比对效率,而且通过逐字坐标定位比对差异,大幅提升差异比对结果的准确率,现有应用中,可达到100%的错误(即差异点)识别率,且10分钟即可完成一份100页的合同。在获得对比结果后,对于差异点再辅助人工审核,进一步确保比对零出错率,降低企业风险,避免重大损失。通过本发明全文本差异比对方法,提升人工价值,减少简单重复劳动,从事高附加值工作。本发明尤其适用企业,用于合同、票据等文本量大,有全文核对需求,风控要求高的企事业单位,如信托、基金、证券等。
实施例二
请参阅图1和图5,一种全文本差异比对设备,包括一后台服务器,所述后台服务器设有存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字,如图3所示。所述文字包括汉字、英文字母、数字、符号但不局限于此。一般地,所述后台服务器还在数据库中保存比对结果。
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
所述对比件和原件在客户端提交,一般地,客户端提交给平台(例如图中的web平台),由平台转发文件至服务器,在本实施例中,平台用于收发文件,其为本领域的惯用手段。后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像。Image格式的影像是将文件根据页进行分割,一页对应一个Image影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,提高比对准确率,且方便统计每页的差异文字总数量。对于如word、excel、pdf等其他格式的文本文件可以通过jacob开源组件将word格式的文件转换成PDF格式,通过pdfbox开源组件将PDF转换成Image格式。所述比对结果包括差异文字、差异文字的坐标、差异文字所在的页面以及每一页差异总数量。
所述后台服务器还执行版面分析:先对原件和对比件进行版面分析,再提交至所述OCR识别引擎,所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。通过版面分析处理,可以提高OCR识别引擎的识别准确率。
请参阅图2,所述后台服务器还包括一等待队列,所述后台服务器将对比件和原件送入等待队列,再按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高。为解决特殊需要,当服务器接收到客户对其中一对比件和原件发出立即识别指令时,将该对比件和原件设置为最高优先级,立即送入OCR识别引擎。
后台服务器将对比结果发送至客户端,在客户端展示对比结果。其中,差异文字显示方式包括高亮提示、放大镜提示(如图4所示)、以不同底色突出显示文字和或变更字体颜色,以浮标方式展示页码及该页的差异总数量。
本发明全文本差异比对设备,将AI智能识别和自动标注技术相结合,实现自动比对并自动标识差异之处,不仅提高自动比对效率,而且通过逐字坐标定位比对差异,大幅提升差异比对结果的准确率,现有应用中,可达到100%的错误(即差异点)识别率,且10分钟即可完成一份100页的合同。在获得对比结果后,对于差异点再辅助人工审核,进一步确保比对零出错率,降低企业风险,避免重大损失。通过本发明全文本差异比对方法,提升人工价值,减少简单重复劳动,从事高附加值工作。本发明尤其适用企业,用于合同、票据等文本量大,有全文核对需求,风控要求高的企事业单位,如信托、基金、证券等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种全文本差异比对方法,其特征在于,包括如下步骤:对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字;
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
2.根据权利要求1所述的一种全文本差异比对方法,其特征在于:在客户端提交所述对比件和原件,后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,并逐页统计差异文字总数量。
3.根据权利要求1所述的一种全文本差异比对方法,其特征在于:所述对比件和原件先进行版面分析,再提交至所述OCR识别引擎,所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。
4.根据权利要求1所述的一种全文本差异比对方法,其特征在于:所述对比件和原件在等待队列中按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高;当接收到客户对其中一对比件和原件发出立即识别指令时,该对比件和原件被设置为最高优先级,立即送入OCR识别引擎。
5.根据权利要求1所述的一种全文本差异比对方法,其特征在于:在客户端展示比对结果,其中,差异文字显示方式包括高亮提示、放大镜提示、以不同底色突出显示文字和或变更字体颜色,浮标展示页码及该页的差异总数量。
6.一种全文本差异比对设备,包括一后台服务器,所述后台服务器设有存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
对比件和原件通过OCR识别引擎识别文字并生成识别文本,该识别文中包含识别出文本中的文字、各文字在对应的OCR识别影像中的坐标信息;识别文本采用文本比较算法比对出差异文字,获取该差异文字的坐标;定位差异文字,然后在对比件中标记出差异文字;
所述文本比对算法采用队列比对方式,把需要比对的原件识别文本和对比件识别文本分别建立一队列,然后逐字比较,根据两个队列找出相同的文字和不同文字,然后形成一个相同文字的队列和一个差异文字的队列。
7.根据权利要求6所述的一种全文本差异比对设备,其特征在于:所述对比文件和原件通过客户端提交,后台服务器判断所述对比件和原件的格式是否为Image影像,若是,则不进行格式转换,若否,将所述对比件和原件通过格式转换转为Image格式的影像,所述文本比较算法对所述识别文本采用逐页逐字比对方式,并逐页统计差异文字总数量。
8.根据权利要求6所述的一种全文本差异比对设备,其特征在于:所述后台服务器先对原件和对比件进行版面分析,再提交至所述OCR识别引擎,所述版面分析包括去除干扰的印章、墨点、下划线、标记页头页尾和或标记表格位置。
9.根据权利要求6所述的一种全文本差异比对设备,其特征在于:所述后台服务器将对比件和原件送入等待队列,再按照优先级顺序依次送入OCR识别引擎,根据先进先出原则,先进入等待队列的,优先级别最高;当服务器接收到客户对其中一对比件和原件发出立即识别指令时,将该对比件和原件设置为最高优先级,立即送入OCR识别引擎。
10.根据权利要求6所述的一种全文本差异比对方法,其特征在于:在客户端展示比对结果,其中,差异文字显示方式包括高亮提示、放大镜提示、以不同底色突出显示文字和或变更字体颜色,以浮标方式展示页码及该页的差异总数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811401631.9A CN109543614A (zh) | 2018-11-22 | 2018-11-22 | 一种全文本差异比对方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811401631.9A CN109543614A (zh) | 2018-11-22 | 2018-11-22 | 一种全文本差异比对方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109543614A true CN109543614A (zh) | 2019-03-29 |
Family
ID=65849248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811401631.9A Pending CN109543614A (zh) | 2018-11-22 | 2018-11-22 | 一种全文本差异比对方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109543614A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245576A (zh) * | 2019-05-21 | 2019-09-17 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
CN110764728A (zh) * | 2019-10-23 | 2020-02-07 | 泰州悦诚科技信息咨询中心 | 基于数据重复度识别的快速浏览系统 |
CN110991279A (zh) * | 2019-11-20 | 2020-04-10 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
CN111046637A (zh) * | 2019-12-25 | 2020-04-21 | 小船出海教育科技(北京)有限公司 | 一种科学公式正确性检验方法和装置 |
CN111274458A (zh) * | 2020-01-17 | 2020-06-12 | 中国工商银行股份有限公司 | 一种应用软件的多语言核对方法及系统 |
CN112084748A (zh) * | 2020-09-19 | 2020-12-15 | 神思电子技术股份有限公司 | 一种文本比对方法 |
CN112632952A (zh) * | 2020-12-08 | 2021-04-09 | 中国建设银行股份有限公司 | 一种对比文件的方法和装置 |
CN113051869A (zh) * | 2021-05-24 | 2021-06-29 | 杭州有数金融信息服务有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
CN113836096A (zh) * | 2021-09-27 | 2021-12-24 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
CN113836092A (zh) * | 2021-09-27 | 2021-12-24 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备及存储介质 |
CN113886332A (zh) * | 2021-12-09 | 2022-01-04 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
CN114021543A (zh) * | 2022-01-05 | 2022-02-08 | 杭州实在智能科技有限公司 | 基于表格结构解析的文档比对分析方法及系统 |
CN115376153A (zh) * | 2022-08-31 | 2022-11-22 | 南京擎盾信息科技有限公司 | 一种合同比对方法、装置及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101765840A (zh) * | 2006-09-15 | 2010-06-30 | 埃克斯比布里奥公司 | 纸质与电子文档中的注释的捕获及显示 |
CN102737012A (zh) * | 2011-04-06 | 2012-10-17 | 鸿富锦精密工业(深圳)有限公司 | 文本信息对比方法及系统 |
CN107609062A (zh) * | 2017-08-29 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 应用于终端的信息处理方法及装置 |
CN107704694A (zh) * | 2017-10-13 | 2018-02-16 | 上海剑桥科技股份有限公司 | 基于图像识别的eda文档版本管理方法及系统 |
CN107846622A (zh) * | 2017-10-27 | 2018-03-27 | 北京雷石天地电子技术有限公司 | 一种检测字幕清晰度的方法及装置 |
-
2018
- 2018-11-22 CN CN201811401631.9A patent/CN109543614A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101765840A (zh) * | 2006-09-15 | 2010-06-30 | 埃克斯比布里奥公司 | 纸质与电子文档中的注释的捕获及显示 |
CN102737012A (zh) * | 2011-04-06 | 2012-10-17 | 鸿富锦精密工业(深圳)有限公司 | 文本信息对比方法及系统 |
CN107609062A (zh) * | 2017-08-29 | 2018-01-19 | 口碑(上海)信息技术有限公司 | 应用于终端的信息处理方法及装置 |
CN107704694A (zh) * | 2017-10-13 | 2018-02-16 | 上海剑桥科技股份有限公司 | 基于图像识别的eda文档版本管理方法及系统 |
CN107846622A (zh) * | 2017-10-27 | 2018-03-27 | 北京雷石天地电子技术有限公司 | 一种检测字幕清晰度的方法及装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245576A (zh) * | 2019-05-21 | 2019-09-17 | 深圳壹账通智能科技有限公司 | Ocr识别准确率的检测方法、装置、设备及存储介质 |
CN110764728A (zh) * | 2019-10-23 | 2020-02-07 | 泰州悦诚科技信息咨询中心 | 基于数据重复度识别的快速浏览系统 |
CN110764728B (zh) * | 2019-10-23 | 2020-07-28 | 深圳市金版文化发展股份有限公司 | 基于数据重复度识别的快速浏览系统 |
CN110991279A (zh) * | 2019-11-20 | 2020-04-10 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
CN110991279B (zh) * | 2019-11-20 | 2023-08-22 | 北京灵伴未来科技有限公司 | 文档图像分析与识别方法及系统 |
CN111046637A (zh) * | 2019-12-25 | 2020-04-21 | 小船出海教育科技(北京)有限公司 | 一种科学公式正确性检验方法和装置 |
CN111274458A (zh) * | 2020-01-17 | 2020-06-12 | 中国工商银行股份有限公司 | 一种应用软件的多语言核对方法及系统 |
CN111274458B (zh) * | 2020-01-17 | 2023-12-01 | 中国工商银行股份有限公司 | 一种应用软件的多语言核对方法及系统 |
CN112084748A (zh) * | 2020-09-19 | 2020-12-15 | 神思电子技术股份有限公司 | 一种文本比对方法 |
CN112632952A (zh) * | 2020-12-08 | 2021-04-09 | 中国建设银行股份有限公司 | 一种对比文件的方法和装置 |
CN113051869B (zh) * | 2021-05-24 | 2023-08-08 | 浙江有数数智科技有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
CN113051869A (zh) * | 2021-05-24 | 2021-06-29 | 杭州有数金融信息服务有限公司 | 一种结合语义识别实现标识文本差异内容的方法及系统 |
CN113836092A (zh) * | 2021-09-27 | 2021-12-24 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备及存储介质 |
WO2023045053A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备及存储介质 |
WO2023045056A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
CN113836096A (zh) * | 2021-09-27 | 2021-12-24 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
CN113886332B (zh) * | 2021-12-09 | 2022-02-08 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
CN113886332A (zh) * | 2021-12-09 | 2022-01-04 | 广东睿江云计算股份有限公司 | 一种大文件差异对比方法、装置、计算机设备及存储介质 |
CN114021543A (zh) * | 2022-01-05 | 2022-02-08 | 杭州实在智能科技有限公司 | 基于表格结构解析的文档比对分析方法及系统 |
CN114021543B (zh) * | 2022-01-05 | 2022-04-22 | 杭州实在智能科技有限公司 | 基于表格结构解析的文档比对分析方法及系统 |
CN115376153A (zh) * | 2022-08-31 | 2022-11-22 | 南京擎盾信息科技有限公司 | 一种合同比对方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543614A (zh) | 一种全文本差异比对方法及设备 | |
CN109800761B (zh) | 基于深度学习模型创建纸质文档结构化数据的方法和终端 | |
CN109840519B (zh) | 一种自适应的智能单据识别录入装置及其使用方法 | |
CN110298338B (zh) | 一种文档图像分类方法及装置 | |
CN107622255B (zh) | 基于位置模板与语义模板的票据图像字段定位方法及系统 | |
US8494273B2 (en) | Adaptive optical character recognition on a document with distorted characters | |
CN109816118A (zh) | 一种基于深度学习模型的创建结构化文档的方法及终端 | |
US20070033118A1 (en) | Document Scanning and Data Derivation Architecture. | |
CN107633239A (zh) | 基于深度学习和ocr的票据分类及票据字段提取方法 | |
CN107480681A (zh) | 基于深度学习的高并发票据识别系统与方法 | |
CN107133571A (zh) | 一种将纸质发票自动生成财务报表的系统及方法 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN109344914A (zh) | 一种端到端的不定长文字识别的方法和系统 | |
CN108363943A (zh) | 基于智能化识别技术的通关机器人 | |
WO2021259080A1 (zh) | 票据信息归档方法、装置、计算机设备和存储介质 | |
US8049921B2 (en) | System and method for transferring invoice data output of a print job source to an automated data processing system | |
CN109271951A (zh) | 一种提升记账审核效率的方法及系统 | |
CN105184329A (zh) | 一种基于云平台的脱机手写识别方法 | |
US11615244B2 (en) | Data extraction and ordering based on document layout analysis | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
KR20180080408A (ko) | 정형 및 비정형 데이터 추출 시스템 및 방법 | |
CN114202759A (zh) | 基于深度学习的多币种纸币冠字号识别方法和装置 | |
CN112215225B (zh) | 一种基于计算机视觉技术的kyc证件核验方法 | |
CN111104853A (zh) | 图像信息录入方法、装置、电子设备及存储介质 | |
CN112085885A (zh) | 票证识别装置以及票证信息管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |