CN114118053A - 一种合同信息提取方法及装置 - Google Patents

一种合同信息提取方法及装置 Download PDF

Info

Publication number
CN114118053A
CN114118053A CN202111438732.5A CN202111438732A CN114118053A CN 114118053 A CN114118053 A CN 114118053A CN 202111438732 A CN202111438732 A CN 202111438732A CN 114118053 A CN114118053 A CN 114118053A
Authority
CN
China
Prior art keywords
text
information
contract
article
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111438732.5A
Other languages
English (en)
Inventor
胡波
邓嘉
张新访
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Tianyu Information Industry Co Ltd
Original Assignee
Wuhan Tianyu Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tianyu Information Industry Co Ltd filed Critical Wuhan Tianyu Information Industry Co Ltd
Priority to CN202111438732.5A priority Critical patent/CN114118053A/zh
Publication of CN114118053A publication Critical patent/CN114118053A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Abstract

本申请涉及一种合同信息提取方法及装置,涉及信息抽取技术领域,该合同信息提取方法包括以下步骤:接收合同文件,进行文本解析,获得文本解析数据;基于文本解析数据,获得合同文件的多个合同文本段落;基于合同文本段落对应的文本特征信息,获得合同文件的不同级别的文章标题;基于文章标题对应的合同文本段落对应的文本特征信息,识别获得文章标题对应的关键文本信息。本申请无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。

Description

一种合同信息提取方法及装置
技术领域
本申请涉及信息抽取技术领域,具体涉及一种合同信息提取方法及装置。
背景技术
当前信息抽取领域,在进行文档级别信息抽取时,目前主要的思路是先将pdf结合OCR技术进行解析,保留其文本、位置等信息,再利用文档分布规则结合深度学习对其标题进行识别并恢复文档版式,最后根据标题和文本关键字进行关键信息抽取。
但是,传统的技术手段需要编写大量的规则去拟合各种pdf的格式,且泛化性较差,对新类型版式的拟合效果不佳,并且无法过滤目录、多文档等干扰信息,也无法提取特定的关键指标信息。
因此,为满足使用需求,现提供一种合同信息提取技术。
发明内容
本申请提供一种合同信息提取方法及装置,无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。
第一方面,本申请提供了一种合同信息提取方法,所述方法包括以下步骤:
接收合同文件,进行文本解析,获得文本解析数据;
基于所述文本解析数据,获得所述合同文件的多个合同文本段落;
基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题;
基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本解析数据包括:
文本特征信息,其用于记录所述合同文件中的文字内容;
布局特征信息,其用于记录所述文字内容对应的方位;
视觉特征信息,其用于记录所述文字内容对应的字体以及字号。
具体的,所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
具体的,所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
具体的,所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
具体的,所述基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题中,包括以下步骤:
基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
进一步的,所述方法还包括以下步骤:
基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本信息,建立对应关联关系。
第二方面,本申请提供了一种合同信息提取装置,所述装置包括:
文件解析模块,其用于接收合同文件,进行文本解析,获得文本解析数据;
版式恢复模块,其用于基于所述文本解析数据,获得所述合同文件的多个合同文本段落,还用于基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题;
信息抽取模块,其用于基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本解析数据包括:
文本特征信息,其用于记录所述合同文件中的文字内容;
布局特征信息,其用于记录所述文字内容对应的方位;
视觉特征信息,其用于记录所述文字内容对应的字体以及字号;
所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
进一步的,所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息,还用于识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
进一步的,所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
所述信息抽取模块还用于识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
所述信息抽取模块还用于基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
进一步的,所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
本申请提供的技术方案带来的有益效果包括:
本申请无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。
附图说明
术语解释:
pdf:Portable Document Format,便携式文档格式;
OCR:Optical Character Recognition,光学字符识别;
MLM:Masked Language Model,掩码语言模型。
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中提供的合同信息提取方法的步骤流程图;
图2为本申请实施例中提供的合同信息提取方法的原理图;
图3为本申请实施例中提供的合同信息提取装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图对本申请的实施例作进一步详细说明。
本申请实施例提供一种合同信息提取方法及装置,无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。
为达到上述技术效果,本申请的总体思路如下:
一种合同信息提取方法,该方法包括以下步骤:
S1、接收合同文件,进行文本解析,获得文本解析数据;
S2、基于文本解析数据,获得合同文件的多个合同文本段落;
S3、基于合同文本段落对应的文本特征信息,获得合同文件的不同级别的文章标题;
S4、基于文章标题对应的合同文本段落对应的文本特征信息,识别获得文章标题对应的关键文本信息;其中,
文本解析数据包括:
文本特征信息,其用于记录合同文件中的文字内容;
布局特征信息,其用于记录文字内容对应的方位;
视觉特征信息,其用于记录文字内容对应的字体以及字号。
以下结合附图对本申请的实施例作进一步详细说明。
第一方面,参见图1~2所示,本申请实施例提供一种合同信息提取方法,该方法包括以下步骤:
S1、接收合同文件,进行文本解析,获得文本解析数据;
S2、基于文本解析数据,获得合同文件的多个合同文本段落;
S3、基于合同文本段落对应的文本特征信息,获得合同文件的不同级别的文章标题;
S4、基于文章标题对应的合同文本段落对应的文本特征信息,识别获得文章标题对应的关键文本信息;其中,
文本解析数据包括:
文本特征信息,其用于记录合同文件中的文字内容;
布局特征信息,其用于记录文字内容对应的方位;
视觉特征信息,其用于记录文字内容对应的字体以及字号。
具体的,所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
需要说明的是,所述文本特征信息对应合同文件的文字内容,而合同文件,其具体可以分为多个段落的文字内容,记作合同文本段落,故而在解析时,合同文件的文字内容也可以是分段落获取的,记作不同的文本特征子信息,一个文本特征子信息对应一个合同文本段落,而每个段落对应不同级别的文章标题,故而每个所述文本特征信息分别对应一个文章标题,即每个所述文本特征信息归属在各自对应的一个文章标题下;
另外,由于不同级别的文章标题的级别特性,一个文章标题下至少包含一个合同文本段落,即至少包含一个文本特征子信息;
当该文章标题内容过多时,一个文章标题下可包含至少两个甚至是多个合同文本段落,即可包含两个甚至是多个文本特征子信息。
其中,步骤S1中,可以使用合同文档数据集训练获得一pdf解析模块,具体可以是基于开源项目pdfminer组合OCR模型训练得到OCR识别模块;
向该输入pdf文件,输出为合同解析文本,即文本解析数据,其内容至少包括文本信息、用于表示文字方位的坐标、字体以及字号。
本申请实施例中,无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。
需要说明的是,本申请实施例中,合同文件具体可以是pdf格式的文件。
具体的,步骤S3,所述基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题中,包括以下步骤:
基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
基于本申请实施例的技术方案,在步骤S2中,可根据所述文本解析数据,对合同文件中的段落进行拆分,从而获得所述合同文件的多个合同文本段落;
段落拆分的数据依据可以是所述文本解析数据的文本特征信息、布局特征信息以及视觉特征信息,必要时,还可结合对应的标点符号。
需要说明的是,步骤S3,在具体实施时,至少包括两个阶段,具体情况如下:
第一阶段,识别文档中的文章标题:
训练以每一页的pdf文档内容为样本单位,采用longformer预训练模型,该预训练基模型为公开的中文模型longformer-chinese-base-4096,其在Roberta上进行优化训练,通过优化transformer的self-attention结构来减少计算量,使得模型可以对长文本进行建模;
必要时,还可对开源的预训练模型longformer-chinese-base-4096进行再训练,训练语料为行业内合同文本,训练方法为MLM,经过进一步掩码训练使得模型对垂直行业更敏感。
输入为文本特征、布局特征、视觉特征,文本特征主要是pdf中的文字内容,按句为单位进行输入,布局特征为文本框所对应的坐标框信息x0、y0、x1、y1,分别对应文本框的左上角和右下角的坐标,并通过坐标计算得到每个文字的字高和字宽,视觉特征为文字的字体、字号等信息;
最终有token、x0、y0、x1、y1、width、height、fontname、fontsize共9个特征作为输入,各特征长度统一为2048,不足的进行padding填充,其中将token进行相关计算可生成position、segment特征,将token、position、segment三个特征向量作为longformer的输入,会获得维度为B*T*E的向量embedding1;
将x0、y0、x1、y1、width、height坐标数据取整,索引范围为0-1024,通过随机初始化进行向量嵌入得到embedding2;fontname、fontsize利用全部数据构建字典进行索引,通过随机初始化进行向量嵌入得到embedding3,将3个输出向量进行加权求和,再接入全连接层构建2分类器,实现文章标题识别。
需要说明的是,pdf格式的合同文件包括多个文本框,共同组成了pdf文件的文本内容。
第二阶段:识别文档中标题的层级
该阶段同样可采用longformer预训练模型,该阶段的输入数据为第一阶段的输出数据,差异在于第一阶段输入为全部文本,第二阶段为文章标题,训练以每个pdf文档的标题为样本单位,特征的处理方式相同,中间层网络结构相同;
在识别标题和标题层级的过程中会添加相关规则对模型结果进行修正,在第一阶段识别完完成后,将标题句子按所对应的字体字号构建集合,再通过正则表达式进一步搜索文本中的带明显标志符的标题行,比如以第一条、1.1开头的句子,匹配到相关句子后会检验其是否在模型生成的集合中,若在最终就将该句子输出为标题,若不在则不输出。
第二阶段同样构建相似方法,将模型的输出构建字体字号字典,每个层级的标题对应唯一的字体字号,利用正则表达式对全部标题进行搜索,居中的标题通常为第一层级标题,以此将模型结果进行部分修正,最终会生成1、2、2、2、3、1、1、2类似的层级编号,再将其转化为1、1.1、1.2、1.3、1.3.1、2、3、3.1结构的目录编号,另外1.19、2.3类型的标题标识符最后通常对应的是该标题层级下的第19个、第3个标题,可通过该方法修正层级下标题序号;
最后修正好的结果采用key-value的字典结构进行存储,key为标题及其对应的层级、value为标题下的正文内容。
需要说明的是,第二阶段利用pipeline结构分阶段对文档标题进行识别,该方法避免了大量规则的编写,迁移性强,不会受规则限制,配合人工规则修正可极大的提高模型的精度和效果。
具体的,步骤S4,所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
具体的,步骤S4存在一种实施情况,即基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落,其对应任一级别的所述文章标题。
具体的,步骤S4存在另一种实施情况,即所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落;
所述文本特征子信息对应任一级别的所述文章标题。
需要说明的是,在具体实施时,会预设关键字段,并配置对应的筛选规则,采用采用规则和算法融合的方式,若正则、人工逻辑等相关规则方法未识别到会进一步在案例库中进行匹配检索,步骤S4包括以下两种工作情况:
情况一、与关键字段对应的信息在部分文档中会直接设置在对应的小标题下,比如保密条款信息,此时会有专门一个段落来对其阐述,且其标题为保密条款,对于此类别可直接在字典中索引该标题并进行输出。
情况二、与关键字段对应的信息会隐藏在正文中,比如甲方:xxxxxx公司,项目名称:xxxxx,针对该情况采用正则表达式进行抽取输出;
针对情况二,具体实施时,会先输入数段该字段对应的句子,例如6-10段,作为冷启动匹配句子存储在案例库中,正式匹配检索阶段,将案例库中所有的句子利用tfidf计算词权重构建词向量,再采用Lsi Model进行降维得到稠密向量,以此得到案例库中每个文档对应的向量,同时也将输入的文档转化为向量,最后运用Gensim提供的Sparse MatrixSimilarity类来计算两文档的相似性,在预设的相似阈值内将与待测文本相似度最高的文档所对应的类别作为该文本要素类别,从而基于相似性最佳的所述案例文本获取对应的所述关键文本信息,低于该相似阈值的则无相关类别,则提示无法识别关键文本信息。
进一步的,该方法还包括步骤S5,其包括以下步骤:
基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本信息,建立对应关联关系。
基于步骤S5,后续还可根据实际情况进行如下操作:
基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本子信息,进行信息恢复,获得所述合同文件对应的合同信息提取文件。
即获得了合同文件中不同文章标题的层级关系,还获得了各文章标题对应的文字内容,故而,基于文章标题,结合层级关系和对应的文字内容,即可进行信息恢复。
第二方面,参见图3所示,本申请实施例提供一种合同信息提取装置,该装置包括:
文件解析模块,其用于接收合同文件,进行文本解析,获得文本解析数据;
版式恢复模块,其用于基于所述文本解析数据,获得所述合同文件的多个合同文本段落,还用于基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题;
信息抽取模块,其用于基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本解析数据包括:
文本特征信息,其用于记录所述合同文件中的文字内容;
布局特征信息,其用于记录所述文字内容对应的方位;
视觉特征信息,其用于记录所述文字内容对应的字体以及字号;
所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
需要说明的是,所述文本特征信息对应合同文件的文字内容,而合同文件,其具体可以分为多个段落的文字内容,记作合同文本段落,故而在解析时,合同文件的文字内容也可以是分段落获取的,记作不同的文本特征子信息,一个文本特征子信息对应一个合同文本段落,而每个段落对应不同级别的文章标题,故而每个所述文本特征信息分别对应一个文章标题,即每个所述文本特征信息归属在各自对应的一个文章标题下;
另外,由于不同级别的文章标题的级别特性,一个文章标题下至少包含一个合同文本段落,即至少包含一个文本特征子信息;
当该文章标题内容过多时,一个文章标题下可包含至少两个甚至是多个合同文本段落,即可包含两个甚至是多个文本特征子信息。
需要说明的是,所述文本特征信息对应合同文件的文字内容,而合同文件,其具体可以分为多个段落的文字内容,故而在解析时,合同文件的文字内容也可以是分段落获取的,记作不同的文本特征子信息,而每个段落对应不同级别的文章标题,故而每个所述文本特征信息分别对应一个文章标题,即每个所述文本特征信息归属在各自对应的一个文章标题下。
其中,文件解析模块在具体工作时,可以使用合同文档数据集训练获得一pdf解析模块,具体可以是基于开源项目pdfminer组合OCR模型训练得到OCR识别模块;
向该输入pdf文件,输出为合同解析文本,即文本解析数据,其内容至少包括文本信息、用于表示文字方位的坐标、字体以及字号。
本申请实施例中,无需根据不同的版式编写规则,通过识别文章标题以及对应的标题层级,结合对应的关键文本信息,进行合同信息提取,在保障信息提取的准确性的前提下,提升技术实施的通用性。
需要说明的是,本申请实施例中,合同文件具体可以是pdf格式的文件。
具体的,版式恢复模块工作时,可根据所述文本解析数据,对合同文件中的段落进行拆分,从而获得所述合同文件的多个合同文本段落;
段落拆分的数据依据可以是所述文本解析数据的文本特征信息、布局特征信息以及视觉特征信息,必要时,还可结合对应的标点符号。
具体的,版式恢复模块工作时,基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题中,包括以下操作:
基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
需要说明的是,所述版式恢复模块在具体实施时,至少包括两个阶段,具体情况如下:
第一阶段,识别文档中的文章标题:
训练以每一页的pdf文档内容为样本单位,采用longformer预训练模型,该预训练基模型为公开的中文模型longformer-chinese-base-4096,其在Roberta上进行优化训练,通过优化transformer的self-attention结构来减少计算量,使得模型可以对长文本进行建模;
必要时,还可对开源的预训练模型longformer-chinese-base-4096进行再训练,训练语料为行业内合同文本,训练方法为MLM,经过进一步掩码训练使得模型对垂直行业更敏感。
输入为文本特征、布局特征、视觉特征,文本特征主要是pdf中的文字内容,按句为单位进行输入,布局特征为文本框所对应的坐标框信息x0、y0、x1、y1,分别对应文本框的左上角和右下角的坐标,并通过坐标计算得到每个文字的字高和字宽,视觉特征为文字的字体、字号等信息;
最终有token、x0、y0、x1、y1、width、height、fontname、fontsize共9个特征作为输入,各特征长度统一为2048,不足的进行padding填充,其中将token进行相关计算可生成position、segment特征,将token、position、segment三个特征向量作为longformer的输入,会获得维度为B*T*E的向量embedding1;
将x0、y0、x1、y1、width、height坐标数据取整,索引范围为0-1024,通过随机初始化进行向量嵌入得到embedding2;fontname、fontsize利用全部数据构建字典进行索引,通过随机初始化进行向量嵌入得到embedding3,将3个输出向量进行加权求和,再接入全连接层构建2分类器,实现文章标题识别。
需要说明的是,pdf格式的合同文件包括多个文本框,共同组成了pdf文件的文本内容。
第二阶段:识别文档中标题的层级:
该阶段同样可采用longformer预训练模型,该阶段的输入数据为第一阶段的输出数据,差异在于第一阶段输入为全部文本,第二阶段为文章标题,训练以每个pdf文档的标题为样本单位,特征的处理方式相同,中间层网络结构相同;
在识别标题和标题层级的过程中会添加相关规则对模型结果进行修正,在第一阶段识别完完成后,将标题句子按所对应的字体字号构建集合,再通过正则表达式进一步搜索文本中的带明显标志符的标题行,比如以第一条、1.1开头的句子,匹配到相关句子后会检验其是否在模型生成的集合中,若在最终就将该句子输出为标题,若不在则不输出。
第二阶段同样构建相似方法,将模型的输出构建字体字号字典,每个层级的标题对应唯一的字体字号,利用正则表达式对全部标题进行搜索,居中的标题通常为第一层级标题,以此将模型结果进行部分修正,最终会生成1、2、2、2、3、1、1、2类似的层级编号,再将其转化为1、1.1、1.2、1.3、1.3.1、2、3、3.1结构的目录编号,另外1.19、2.3类型的标题标识符最后通常对应的是该标题层级下的第19个、第3个标题,可通过该方法修正层级下标题序号;
最后修正好的结果采用key-value的字典结构进行存储,key为标题及其对应的层级、value为标题下的正文内容。
需要说明的是,第二阶段利用pipeline结构分阶段对文档标题进行识别,该方法避免了大量规则的编写,迁移性强,不会受规则限制,配合人工规则修正可极大的提高模型的精度和效果。
进一步的,所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息,还用于识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
具体的,所述信息抽取模块存在一种实施情况,即基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落,其对应任一级别的所述文章标题。
进一步的,所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
所述信息抽取模块还用于识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
所述信息抽取模块还用于基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
具体的,所述信息抽取模块存在另一种实施情况,即所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落;
所述文本特征子信息对应任一级别的所述文章标题。
需要说明的是,在具体实施时,会预设关键字段,并配置对应的筛选规则,采用采用规则和算法融合的方式,若正则、人工逻辑等相关规则方法未识别到会进一步在案例库中进行匹配检索,所述信息抽取模块包括以下两种工作情况:
情况一、与关键字段对应的信息在部分文档中会直接设置在对应的小标题下,比如保密条款信息,此时会有专门一个段落来对其阐述,且其标题为保密条款,对于此类别可直接在字典中索引该标题并进行输出。
情况二、与关键字段对应的信息会隐藏在正文中,比如甲方:xxxxxx公司,项目名称:xxxxx,针对该情况采用正则表达式进行抽取输出;
针对情况二,具体实施时,会先输入数段该字段对应的句子,例如6-10段,作为冷启动匹配句子存储在案例库中,正式匹配检索阶段,将案例库中所有的句子利用tfidf计算词权重构建词向量,再采用Lsi Model进行降维得到稠密向量,以此得到案例库中每个文档对应的向量,同时也将输入的文档转化为向量,最后运用Gensim提供的Sparse MatrixSimilarity类来计算两文档的相似性,在预设的相似阈值内将与待测文本相似度最高的文档所对应的类别作为该文本要素类别,从而基于相似性最佳的所述案例文本获取对应的所述关键文本信息,低于该相似阈值的则无相关类别,则提示无法识别关键文本信息。
进一步的,所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
进一步的,该装置还包括关联生成模块,其用于基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本信息,建立对应关联关系。
基于关联生成模块的工作内容,后续还可根据实际情况进行如下操作:
基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本子信息,进行信息恢复,获得所述合同文件对应的合同信息提取文件。
即获得了合同文件中不同文章标题的层级关系,还获得了各文章标题对应的文字内容,故而,基于文章标题,结合层级关系和对应的文字内容,即可进行信息恢复。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种合同信息提取方法,其特征在于,所述方法包括以下步骤:
接收合同文件,进行文本解析,获得文本解析数据;
基于所述文本解析数据,获得所述合同文件的多个合同文本段落;
基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题;
基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本解析数据包括:
文本特征信息,其用于记录所述合同文件中的文字内容;
布局特征信息,其用于记录所述文字内容对应的方位;
视觉特征信息,其用于记录所述文字内容对应的字体以及字号。
2.如权利要求1所述的合同信息提取方法,其特征在于:
所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
3.如权利要求1所述的合同信息提取方法,其特征在于,所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
4.如权利要求1所述的合同信息提取方法,其特征在于,所述基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息中,包括以下步骤:
基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息;
识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
5.如权利要求1所述的合同信息提取方法,其特征在于,所述基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题中,包括以下步骤:
基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
6.如权利要求3或4所述的合同信息提取方法,其特征在于,所述方法还包括以下步骤:
基于各所述文章标题、不同的所述文章标题之间的层级关系以及各所述文章标题对应的关键文本信息,建立对应关联关系。
7.一种合同信息提取装置,其特征在于,所述装置包括:
文件解析模块,其用于接收合同文件,进行文本解析,获得文本解析数据;
版式恢复模块,其用于基于所述文本解析数据,获得所述合同文件的多个合同文本段落,还用于基于所述合同文本段落对应的所述文本特征信息,获得所述合同文件的不同级别的文章标题;
信息抽取模块,其用于基于所述文章标题对应的所述合同文本段落对应的所述文本特征信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本解析数据包括:
文本特征信息,其用于记录所述合同文件中的文字内容;
布局特征信息,其用于记录所述文字内容对应的方位;
视觉特征信息,其用于记录所述文字内容对应的字体以及字号;
所述文本特征信息包括多个文本特征子信息,所述文本特征子信息用于记录所述合同文件中的任一段文字内容;
所述文本特征子信息分别对应任一级别的所述文章标题。
8.如权利要求7所述的合同信息提取装置,其特征在于:
所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息,还用于识别所述文本特征子信息,识别获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
9.如权利要求7所述的合同信息提取装置,其特征在于:
所述信息抽取模块还用于基于所述文章标题对应的所述合同文本段落,获得对应的所述合同文本段落对应的文本特征子信息
所述信息抽取模块还用于识别所述文本特征子信息,与预设的案例库中不同案例文本的案例句进行比对,比对与所述案例文本的相似性;
所述信息抽取模块还用于基于相似性最佳的所述案例文本,获得所述文章标题对应的关键文本信息;其中,
所述文本特征信息包括多个文本特征子信息;
所述文本特征子信息对应一所述合同文本段落。
10.如权利要求7所述的合同信息提取装置,其特征在于:
所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,在所述文本特征信息中获取所述合同文件中的所述文章标题;
所述版式恢复模块还用于基于所述布局特征信息以及所述视觉特征信息,识别不同的所述文章标题之间的层级关系。
CN202111438732.5A 2021-11-26 2021-11-26 一种合同信息提取方法及装置 Pending CN114118053A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111438732.5A CN114118053A (zh) 2021-11-26 2021-11-26 一种合同信息提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111438732.5A CN114118053A (zh) 2021-11-26 2021-11-26 一种合同信息提取方法及装置

Publications (1)

Publication Number Publication Date
CN114118053A true CN114118053A (zh) 2022-03-01

Family

ID=80367981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111438732.5A Pending CN114118053A (zh) 2021-11-26 2021-11-26 一种合同信息提取方法及装置

Country Status (1)

Country Link
CN (1) CN114118053A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548072A (zh) * 2022-04-25 2022-05-27 杭州实在智能科技有限公司 用于合同类文件的自动内容解析与信息评测方法及系统
CN114861641A (zh) * 2022-07-05 2022-08-05 北京拓普丰联信息科技股份有限公司 一种数据提取方法、装置、电子设备和存储介质
CN115952279A (zh) * 2022-12-02 2023-04-11 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质
CN115995087A (zh) * 2023-03-23 2023-04-21 杭州实在智能科技有限公司 基于融合视觉信息的文档目录智能生成方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548072A (zh) * 2022-04-25 2022-05-27 杭州实在智能科技有限公司 用于合同类文件的自动内容解析与信息评测方法及系统
CN114861641A (zh) * 2022-07-05 2022-08-05 北京拓普丰联信息科技股份有限公司 一种数据提取方法、装置、电子设备和存储介质
CN114861641B (zh) * 2022-07-05 2022-09-20 北京拓普丰联信息科技股份有限公司 一种数据提取方法、装置、电子设备和存储介质
CN115952279A (zh) * 2022-12-02 2023-04-11 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质
CN115952279B (zh) * 2022-12-02 2023-09-12 杭州瑞成信息技术股份有限公司 文本大纲的提取方法、装置、电子装置和存储介质
CN115995087A (zh) * 2023-03-23 2023-04-21 杭州实在智能科技有限公司 基于融合视觉信息的文档目录智能生成方法及系统

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
Wu et al. Fonduer: Knowledge base construction from richly formatted data
WO2022022045A1 (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
CN107291723B (zh) 网页文本分类的方法和装置,网页文本识别的方法和装置
Mao et al. Document structure analysis algorithms: a literature survey
CN114118053A (zh) 一种合同信息提取方法及装置
CN110770735B (zh) 具有嵌入式数学表达式的文档的编码转换
US9224103B1 (en) Automatic annotation for training and evaluation of semantic analysis engines
US20090144277A1 (en) Electronic table of contents entry classification and labeling scheme
CN113158653B (zh) 预训练语言模型的训练方法、应用方法、装置及设备
US20200342059A1 (en) Document classification by confidentiality levels
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
Murugappan et al. A survey of keyword spotting techniques for printed document images
Chen et al. Information extraction from resume documents in pdf format
CN106407195B (zh) 用于网页消重的方法和系统
CN116628229B (zh) 一种利用知识图谱生成文本语料的方法及装置
US20200311345A1 (en) System and method for language-independent contextual embedding
Kim et al. Automatic annotation of bibliographical references in digital humanities books, articles and blogs
Ha et al. Information extraction from scanned invoice images using text analysis and layout features
US11520835B2 (en) Learning system, learning method, and program
CN111274354B (zh) 一种裁判文书结构化方法及装置
Ferrés et al. PDFdigest: an adaptable layout-aware PDF-to-XML textual content extractor for scientific articles
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
Kusumaningrum et al. WCLOUDVIZ: Word cloud visualization of Indonesian news articles classification based on Latent dirichlet allocation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination