CN113128195A - 一种金融行业基于文档结构自动寻找局部差异点的方法和装置 - Google Patents
一种金融行业基于文档结构自动寻找局部差异点的方法和装置 Download PDFInfo
- Publication number
- CN113128195A CN113128195A CN202110440862.6A CN202110440862A CN113128195A CN 113128195 A CN113128195 A CN 113128195A CN 202110440862 A CN202110440862 A CN 202110440862A CN 113128195 A CN113128195 A CN 113128195A
- Authority
- CN
- China
- Prior art keywords
- paragraphs
- document
- paragraph
- documents
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种金融行业基于文档结构自动寻找局部差异点的方法,针对两个文档,所述方法包括:分别解析两个文档的结构,获取两组正文段落;将两组正文段落进行相似度匹配得到多个段落对;对于每个段落对中的两个段落进行比较,获取两个文档中第一文档相对于第二文档的差异点。本发明能够自动比较出两个金融相关文档的差异点,并将差异点按原文档的自然段落顺序排列。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种金融行业基于文档结构自动寻找局部差异点的方法和装置。
背景技术
各个行业中,文档之间的差异点比较或审核是常见需求。例如在金融行业,公司年报、债券募集说明书、招股说明书等类型的文档,需要从审计报告中摘录大段的内容到报告书中。由于手工输入、扫描件、文档格式、字体编码等带来的影响,可能会导致撰写的文档和审计报告中的内容出现差异,进而带来更多的项目风险或信息纰漏风险。
金融行业目前大部分文档处理工作仍依赖人工进行。从文档资料的收集、阅读、撰写、审核等不同工作,高度依赖人工,同时金融行业也是一个智力密集型的行业,相关人力成本高,但很多人力花在一些基础的内容核对比较工作上,造成一定的人力资源浪费。
由于受到疲劳、注意力、短时记忆力、环境、时间等因素影响,人类对于文字内容的细节阅读往往做的不够好,容易疏漏一些内容,在某些场景会造成严重的影响。尤其是在两个文档结构差异较大时进行信息比较,即使反复阅读审核,仍会遗漏一些细节的错误信息,带来风险。
随着深度学习技术及软件开发技术的不断进步,自动化文档处理技术愈发成熟,能够在一定范围内做到文档信息提取,文档内容比对,文档自动审核等工作。在这些技术的基础上,结合金融行业的业务特性,能够自动化处理金融文档的技术和系统很有价值。
发明内容
针对现有技术中存在的问题,本发明提供一种金融行业基于文档结构自动寻找局部差异点的方法和装置。
为实现上述目的,本发明采用以下技术方案:
一种金融行业基于文档结构自动寻找局部差异点的方法,针对两个文档,所述方法包括:分别解析两个文档的结构,获取两组的正文段落;将两组正文段落进行相似度匹配得到多个段落对;对于每个段落对中的两个段落进行比较,获取两个文档中第一文档相对于第二文档的差异点。
优选地,所述方法还包括:将差异点按照第一文档的段落自然顺序排列。
优选地,所述获取两组的正文段落包括:除去文档中的图像和表格;统计不同字号文字字数占文档中所有文字字数的比例,取所占比例最大的字号文字作为正文段落文字使用字号。
优选地,所述将两组正文段落进行匹配得到多个段落对包括:将两个文档的正文段落按照长度降序排序;将两个篇文档的不同段落交叉组合组成段落对。
优选地,所述将序号相同的段落组成段落对之后,还要计算段落对中两个段落的相似度,剔除相似度小于设定阈值的段落对。
优选地,所述对于每个段落对中的两个段落进行比较包括:使用最长公共子串算法比较两个段落。
一种金融行业基于文档结构自动寻找局部差异点的装置,所述装置包括存储单元、处理器,所述存储单元存储有计算机程序,所述处理器执行所述计算机程序后实现任一所述的金融行业基于文档结构自动寻找局部差异点的方法。
与现有技术相比,本发明的有益效果为:1、使用文档解析技术,找到每个文档中的正文段落部分;2、使用文本相似度计算技术,找到两个待比较文档间最相似的段落对;3、使用文本差异比较技术,找到每组相似段落对的具体细节差异;4、能够自动比较出两个金融有关文档的差异点,并将差异点按原文档的自然段落顺序排列。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的文档获取正文段落内容流程示意图。
图2为本发明实施例的两篇文档段落相似度匹配示意图。
图3为本发明实施例的每组段落对细节比较示意图。
图4为本发明实施例的结果合并返回示意图。
图5为本发明实施例的整体流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
如图1-5所示,本实施例提供一种金融行业基于文档结构自动寻找局部差异点的方法,方法分为以下4个步骤:文档格式解析、相似段落匹配、段落细节比较、结果合并输出。
1文档格式解析
文档格式解析指的是得到文档中的基本构成元素,比如标题、正文、目录、表格、图片等,之后根据比对的需求过滤掉不必要的元素,将剩下的元素进行比较。
在金融行业中,一般比较的是文字内容尤其是大段文本,因此在此场景下只留下段落。
2相似段落匹配
通过前一步的处理,每个文档得到一个正文的段落列表,现在需要进行两个文档间段落的相似度匹配工作。假设两份文档为A和B,段落相似度阈值为n(例如0.9)。
3段落细节比较
根据上一步得到的高于相似度阈值的段落,对于每一对段落,进行逐字逐句的细节比较,文本比较算法使用最长公共子串算法,得到具体的差异点。
4结果合并返回
将上一步所有的段落对进行细节比较的结果进行合并,按照在文档A中,段落原始顺序进行结果排序并最终输出。
尽管上述实施例已对本发明作出具体描述,但是对于本领域的普通技术人员来说,应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进,这些修改和改进都在本发明的精神以及范围之内。
Claims (7)
1.一种金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,针对两个文档,所述方法包括:
分别解析两个文档的结构,获取两组的正文段落;
将两组正文段落进行相似度匹配得到多个段落对;
对于每个段落对中的两个段落进行比较,获取两个文档中第一文档相对于第二文档的差异点。
2.根据权利要求1所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述方法还包括:将差异点按照第一文档的段落自然顺序排列。
3.根据权利要求2所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述获取两组的正文段落包括:
除去文档中的图像和表格;
统计不同字号文字字数占文档中所有文字字数的比例,取所占比例最大的字号文字作为正文段落文字使用字号。
4.根据权利要求3所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述将两组正文段落进行匹配得到多个段落对包括:
将两个文档的正文段落按照长度降序排序;
将两个文档的不同段落交叉组合组成段落对。
5.根据权利要求4所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述将序号相同的段落组成段落对之后,还要计算段落对中两个段落的相似度,剔除相似度小于设定阈值的段落对。
6.根据权利要求5所述的金融行业基于文档结构自动寻找局部差异点的方法,其特征在于,所述对于每个段落对中的两个段落进行比较包括:
使用最长公共子串算法比较两个段落。
7.一种金融行业基于文档结构自动寻找局部差异点的装置,其特征在于,所述装置包括存储单元、处理器,所述存储单元存储有计算机程序,所述处理器执行所述计算机程序后实现权利要求1-6中任一所述的金融行业基于文档结构自动寻找局部差异点的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440862.6A CN113128195A (zh) | 2021-04-23 | 2021-04-23 | 一种金融行业基于文档结构自动寻找局部差异点的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110440862.6A CN113128195A (zh) | 2021-04-23 | 2021-04-23 | 一种金融行业基于文档结构自动寻找局部差异点的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113128195A true CN113128195A (zh) | 2021-07-16 |
Family
ID=76779295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110440862.6A Pending CN113128195A (zh) | 2021-04-23 | 2021-04-23 | 一种金融行业基于文档结构自动寻找局部差异点的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113128195A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136312A (zh) * | 2011-12-27 | 2013-06-05 | 北京麦克斯泰科技有限公司 | 一种新闻网页内容的抽取方法 |
WO2016131276A1 (zh) * | 2015-07-16 | 2016-08-25 | 中兴通讯股份有限公司 | 一种文档检查方法及装置 |
KR102009901B1 (ko) * | 2018-10-30 | 2019-08-12 | 삼성에스디에스 주식회사 | 문서 비교 분석 방법 및 이를 수행하기 위한 장치 |
CN110705223A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种多页面版式文档的脚注识别和提取方法 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN112307737A (zh) * | 2020-09-27 | 2021-02-02 | 泰山信息科技有限公司 | 一种基于动态规划技术的复杂文档比较方法 |
CN112580308A (zh) * | 2020-12-15 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档比对方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-04-23 CN CN202110440862.6A patent/CN113128195A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136312A (zh) * | 2011-12-27 | 2013-06-05 | 北京麦克斯泰科技有限公司 | 一种新闻网页内容的抽取方法 |
WO2016131276A1 (zh) * | 2015-07-16 | 2016-08-25 | 中兴通讯股份有限公司 | 一种文档检查方法及装置 |
KR102009901B1 (ko) * | 2018-10-30 | 2019-08-12 | 삼성에스디에스 주식회사 | 문서 비교 분석 방법 및 이를 수행하기 위한 장치 |
CN110705223A (zh) * | 2019-08-13 | 2020-01-17 | 北京众信博雅科技有限公司 | 一种多页面版式文档的脚注识别和提取方法 |
CN110991163A (zh) * | 2019-11-29 | 2020-04-10 | 达而观信息科技(上海)有限公司 | 一种文档比对分析方法、装置、电子设备及存储介质 |
CN112307737A (zh) * | 2020-09-27 | 2021-02-02 | 泰山信息科技有限公司 | 一种基于动态规划技术的复杂文档比较方法 |
CN112580308A (zh) * | 2020-12-15 | 2021-03-30 | 北京百度网讯科技有限公司 | 文档比对方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
于丰畅;陆伟;: "基于机器视觉的PDF学术文献结构识别", 情报学报, no. 04, pages 54 - 60 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109062874B (zh) | 财政数据的获取方法、终端设备及介质 | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
US8843815B2 (en) | System and method for automatically extracting metadata from unstructured electronic documents | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
CN110704570A (zh) | 一种连续页版式文档结构化信息提取方法 | |
US10528609B2 (en) | Aggregating procedures for automatic document analysis | |
CN110688863B (zh) | 一种文档翻译系统及文档翻译方法 | |
CN110543475A (zh) | 一种基于机器学习的财务报表数据自动识别和分析方法 | |
CN110909123A (zh) | 一种数据提取方法、装置、终端设备及存储介质 | |
CN113326413A (zh) | 一种网页信息提取方法、系统、服务器及存储介质 | |
CN113962201A (zh) | 一种单证的文本结构化与抽取方法 | |
CN111369980A (zh) | 语音检测方法、装置、电子设备及存储介质 | |
EP2544100A2 (en) | Method and system for making document modules | |
US11676231B1 (en) | Aggregating procedures for automatic document analysis | |
Janssen et al. | Receipts2go: the big world of small documents | |
CN110990539A (zh) | 稿件内部查重方法、装置、存储介质及电子设备 | |
CN113128195A (zh) | 一种金融行业基于文档结构自动寻找局部差异点的方法和装置 | |
Hocking et al. | Optical character recognition for South African languages | |
CN112463728A (zh) | 一种科技文献的题录数据提取方法 | |
CN110807449A (zh) | 一种科技项目申报线上服务终端 | |
Yacoub et al. | Document digitization lifecycle for complex magazine collection | |
CN104281603B (zh) | 字频分级统计方法及系统 | |
CN111680119B (zh) | 数据处理方法及计算设备 | |
Al-Muhtaseb et al. | A novel minimal Arabic script for preparing databases and benchmarks for Arabic text recognition research |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |