CN113128195A

CN113128195A - 一种金融行业基于文档结构自动寻找局部差异点的方法和装置

Info

Publication number: CN113128195A
Application number: CN202110440862.6A
Authority: CN
Inventors: 高翔; 杨慧宇; 章逸骋; 王亚楠; 陈运文; 纪达麒
Original assignee: Datagrand Tech Inc
Current assignee: Datagrand Tech Inc
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-16

Abstract

本发明公开了一种金融行业基于文档结构自动寻找局部差异点的方法，针对两个文档，所述方法包括：分别解析两个文档的结构，获取两组正文段落；将两组正文段落进行相似度匹配得到多个段落对；对于每个段落对中的两个段落进行比较，获取两个文档中第一文档相对于第二文档的差异点。本发明能够自动比较出两个金融相关文档的差异点，并将差异点按原文档的自然段落顺序排列。

Description

一种金融行业基于文档结构自动寻找局部差异点的方法和装置

技术领域

本发明属于自然语言处理领域，具体涉及一种金融行业基于文档结构自动寻找局部差异点的方法和装置。

背景技术

各个行业中，文档之间的差异点比较或审核是常见需求。例如在金融行业，公司年报、债券募集说明书、招股说明书等类型的文档，需要从审计报告中摘录大段的内容到报告书中。由于手工输入、扫描件、文档格式、字体编码等带来的影响，可能会导致撰写的文档和审计报告中的内容出现差异，进而带来更多的项目风险或信息纰漏风险。

金融行业目前大部分文档处理工作仍依赖人工进行。从文档资料的收集、阅读、撰写、审核等不同工作，高度依赖人工，同时金融行业也是一个智力密集型的行业，相关人力成本高，但很多人力花在一些基础的内容核对比较工作上，造成一定的人力资源浪费。

由于受到疲劳、注意力、短时记忆力、环境、时间等因素影响，人类对于文字内容的细节阅读往往做的不够好，容易疏漏一些内容，在某些场景会造成严重的影响。尤其是在两个文档结构差异较大时进行信息比较，即使反复阅读审核，仍会遗漏一些细节的错误信息，带来风险。

随着深度学习技术及软件开发技术的不断进步，自动化文档处理技术愈发成熟，能够在一定范围内做到文档信息提取，文档内容比对，文档自动审核等工作。在这些技术的基础上，结合金融行业的业务特性，能够自动化处理金融文档的技术和系统很有价值。

发明内容

针对现有技术中存在的问题，本发明提供一种金融行业基于文档结构自动寻找局部差异点的方法和装置。

为实现上述目的，本发明采用以下技术方案：

一种金融行业基于文档结构自动寻找局部差异点的方法，针对两个文档，所述方法包括：分别解析两个文档的结构，获取两组的正文段落；将两组正文段落进行相似度匹配得到多个段落对；对于每个段落对中的两个段落进行比较，获取两个文档中第一文档相对于第二文档的差异点。

优选地，所述方法还包括：将差异点按照第一文档的段落自然顺序排列。

优选地，所述获取两组的正文段落包括：除去文档中的图像和表格；统计不同字号文字字数占文档中所有文字字数的比例，取所占比例最大的字号文字作为正文段落文字使用字号。

优选地，所述将两组正文段落进行匹配得到多个段落对包括：将两个文档的正文段落按照长度降序排序；将两个篇文档的不同段落交叉组合组成段落对。

优选地，所述将序号相同的段落组成段落对之后，还要计算段落对中两个段落的相似度，剔除相似度小于设定阈值的段落对。

优选地，所述对于每个段落对中的两个段落进行比较包括：使用最长公共子串算法比较两个段落。

一种金融行业基于文档结构自动寻找局部差异点的装置，所述装置包括存储单元、处理器，所述存储单元存储有计算机程序，所述处理器执行所述计算机程序后实现任一所述的金融行业基于文档结构自动寻找局部差异点的方法。

与现有技术相比，本发明的有益效果为：1、使用文档解析技术，找到每个文档中的正文段落部分；2、使用文本相似度计算技术，找到两个待比较文档间最相似的段落对；3、使用文本差异比较技术，找到每组相似段落对的具体细节差异；4、能够自动比较出两个金融有关文档的差异点，并将差异点按原文档的自然段落顺序排列。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的文档获取正文段落内容流程示意图。

图2为本发明实施例的两篇文档段落相似度匹配示意图。

图3为本发明实施例的每组段落对细节比较示意图。

图4为本发明实施例的结果合并返回示意图。

图5为本发明实施例的整体流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1-5所示，本实施例提供一种金融行业基于文档结构自动寻找局部差异点的方法，方法分为以下4个步骤：文档格式解析、相似段落匹配、段落细节比较、结果合并输出。

1文档格式解析

文档格式解析指的是得到文档中的基本构成元素，比如标题、正文、目录、表格、图片等，之后根据比对的需求过滤掉不必要的元素，将剩下的元素进行比较。

在金融行业中，一般比较的是文字内容尤其是大段文本，因此在此场景下只留下段落。

2相似段落匹配

通过前一步的处理，每个文档得到一个正文的段落列表，现在需要进行两个文档间段落的相似度匹配工作。假设两份文档为A和B，段落相似度阈值为n(例如0.9)。

3段落细节比较

根据上一步得到的高于相似度阈值的段落，对于每一对段落，进行逐字逐句的细节比较，文本比较算法使用最长公共子串算法，得到具体的差异点。

4结果合并返回

将上一步所有的段落对进行细节比较的结果进行合并，按照在文档A中，段落原始顺序进行结果排序并最终输出。

尽管上述实施例已对本发明作出具体描述，但是对于本领域的普通技术人员来说，应该理解为可以在不脱离本发明的精神以及范围之内基于本发明公开的内容进行修改或改进，这些修改和改进都在本发明的精神以及范围之内。

Claims

1.一种金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，针对两个文档，所述方法包括：

分别解析两个文档的结构，获取两组的正文段落；

将两组正文段落进行相似度匹配得到多个段落对；

对于每个段落对中的两个段落进行比较，获取两个文档中第一文档相对于第二文档的差异点。

2.根据权利要求1所述的金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，所述方法还包括：将差异点按照第一文档的段落自然顺序排列。

3.根据权利要求2所述的金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，所述获取两组的正文段落包括：

除去文档中的图像和表格；

统计不同字号文字字数占文档中所有文字字数的比例，取所占比例最大的字号文字作为正文段落文字使用字号。

4.根据权利要求3所述的金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，所述将两组正文段落进行匹配得到多个段落对包括：

将两个文档的正文段落按照长度降序排序；

将两个文档的不同段落交叉组合组成段落对。

5.根据权利要求4所述的金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，所述将序号相同的段落组成段落对之后，还要计算段落对中两个段落的相似度，剔除相似度小于设定阈值的段落对。

6.根据权利要求5所述的金融行业基于文档结构自动寻找局部差异点的方法，其特征在于，所述对于每个段落对中的两个段落进行比较包括：

使用最长公共子串算法比较两个段落。

7.一种金融行业基于文档结构自动寻找局部差异点的装置，其特征在于，所述装置包括存储单元、处理器，所述存储单元存储有计算机程序，所述处理器执行所述计算机程序后实现权利要求1-6中任一所述的金融行业基于文档结构自动寻找局部差异点的方法。