CN114419645A - 一种基于ai的合同智能解析方法 - Google Patents

一种基于ai的合同智能解析方法 Download PDF

Info

Publication number
CN114419645A
CN114419645A CN202210038986.6A CN202210038986A CN114419645A CN 114419645 A CN114419645 A CN 114419645A CN 202210038986 A CN202210038986 A CN 202210038986A CN 114419645 A CN114419645 A CN 114419645A
Authority
CN
China
Prior art keywords
contract
paragraph
information
text
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210038986.6A
Other languages
English (en)
Inventor
陈元宝
肖声明
连城
雍子龙
陈晓仪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Fufu Information Technology Co Ltd
Original Assignee
China Telecom Fufu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Fufu Information Technology Co Ltd filed Critical China Telecom Fufu Information Technology Co Ltd
Priority to CN202210038986.6A priority Critical patent/CN114419645A/zh
Publication of CN114419645A publication Critical patent/CN114419645A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

本发明公开一种基于AI的合同智能解析方法,分为合同文本结构化、合同段落分类、合同关键信息提取三个步骤;合同文本结构化将合同文件中的内容,包含图片、手写字、标题、段落及字体大小样式等进行文本化结构提取;段落类型识别将结构化文本结合人工智能技术进行段落类型识别出合同基本信息、合同产品信息、合同收入/支出信息等类型。合同关键信息提取通过结合自然语言处理技术,按照不同的数据类型输出要求,对段落文本中的关键信息进行关联分析及提取,并将解析结果结构化输出。本发明的合同智能解析方法具有解耦性,可与业界的合同管理系统快速结合,形成智能化合同流程管理解决方案。

Description

一种基于AI的合同智能解析方法
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于AI的合同智能解析方法。
背景技术
随着公司及企业业务的快速发展,合同的数量及合同内容都迅速增加,市场上的合同管理系统目前基本都不具备自动合同信息自动解析能力,传统的人工合同信息解析及录入模式效率低、错误多,已经不能适应业务快速发展的需求。人工智能与大数据技术呈现跨越式发展,人工智能技术的应用逐渐为各行业实现降成本、提效率发挥显著作用。
由于合同信息解析及录入模式效率低、容易出错。随着公司及企业业务的快速发展,合同的数量及合同内容都迅速增加,已经不能适应业务快速发展的需求,且国内及其他行业对于智能合同解析技术目前没有相应技术及产品。
发明内容
本发明的目的在于提供一种基于AI的合同智能解析方法。
本发明采用的技术方案是:
一种基于AI的合同智能解析方法,其包括以下步骤:
步骤1,获取合同文件并提取文本内容;
步骤2,按照预定义的合同数据结构将合同的正文结构化转化,并传递给下一环节处理;
步骤3,利用人工智能已经训练好段落分类模型对合同的每个段落进行识别归类;
步骤4,根据识别出来的段落类型进行分类段落解析和关键信息提取实现分类,
进一步的,步骤1具体包括以下步骤:
步骤1-1,分析合同内容组成成分,以识别出文件中的图片、手写、文本三类信息;
步骤1-2,对于图片及手写的文字先利用OCR组件识别提取其中的文本内容;
进一步的,手写字识别是基于神经网络的人工智能技术学习识别。
进一步地,步骤2将合同的正文按照段落格式、字体样式、层次关系、表格信息进行结构化转化。
进一步地,步骤3在调用模型对段落分类前需要对段落文本进行语义理解和语干提取,其步骤如下:
步骤3-1,结合自然语言处理(NLP)人工智能技术对段落句法进行分析,即利用句子中词与词之间的依存关系来表示词语的句法结构信息并用树状结构来表示整句的结构;
步骤3-2,结合主谓结构分析、去修饰词方法进行语干提取.
进一步地,步骤3-1中句法结构信息包括主谓、动宾、定中的结构关系;整句的结构包括主谓宾、定状补。
进一步地,步骤3中的段落分类模型学习训练基于大数据的深度学习(现有成熟的深度学习)自动学习深层次的语义及语序特征,并满足合同分类对合同文本覆盖率达95%。
进一步地,步骤4包括以下步骤:
步骤4-1,段落解析:段落解析包括分词、依存句法分析、命名实体识别三大功能;
通过识别出文本串中的基本词汇(分词),对词汇进行重组、标注组合得到词汇的词性;
利用依存句法识别出命名实体,以识别合同段落中具有特定意义的实体,
步骤4-2,关键信息提取:基于命名实体识别出段落句法中的主体部分,并利用句子的依存关系识别出相应的结构信息,从而对不同类型的合同段落进行信息提取;通过对大量合同的系统分析,以总结建立标准化合同解析结构化模版。
进一步地,步骤4-1的特定意义的实体包括甲乙方、地址、签约时间日期、产品名称。
进一步地,步骤4-2的标准化合同解析结构化模版包括基础信息、收支信息和其他信息;
基础信息中包含:甲乙双方、合同金额、签约时间、是否续签、履约时间;
收支信息中包含:合同项目、项目金额、收支时间、周期性、税率、优惠计划;
其他信息中包含:附加条款、违约责任。
本发明采用以上技术方案,结合人工智能的深度学习技术(AI)、图像识别技术(OCR)、自然语言处理技术(NLP)以及海量的合同大数据,实现精准快速自动提取合同基本信息(甲乙双方名称、时间、地点、签约时间、是否续签等)、收入/支出信息(产品名称、周期时间、金额、税率、折扣等),秒级的合同自动提取为用户节省了大量的时间成本和用户成本,填补了合同信息智能提取的空白,与合同管理系统相结合为用户提供更为优质的全方位、成体系的服务。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明一种基于AI的合同智能解析的系统架构示意图;
图2为本发明一种基于AI的合同智能解析方法的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例中的技术方案进行清楚、完整地描述。
本发明利用人工智能技术通过模拟人类的思维方式对合同的文本段落进行理解,并结合自然语言(NLP)技术对合同段落进行分析及所对应关键信息提取。合同智能解析主要分为:合同文本结构化、合同段落分类、合同关键信息提取三个步骤。1. 合同文本结构化:将合同文件中的内容,包含图片、手写字、标题、段落及字体大小样式等进行文本化结构提取。 2.段落类型识别:将步骤一中的结构化文本,结合人工智能技术进行段落类型识别,识别出合同基本信息、合同产品信息、合同收入/支出信息等类型。3.合同关键信息提取:结合自然语言处理技术,按照不同的数据类型输出要求,对段落文本中的关键信息进行关联分析及提取,并将解析结果结构化输出。该合同智能解析方法具有解耦性,可与业界的合同管理系统快速结合,形成智能化合同流程管理解决方案。
如图1或2所示,本发明公开了一种基于AI的合同智能解析方法,其包括以下步骤:
步骤1,获取合同文件并提取文本内容;
步骤2,按照预定义的合同数据结构将合同的正文结构化转化,并传递给下一环节处理;
步骤3,利用人工智能已经训练好段落分类模型对合同的每个段落进行识别归类;
步骤4,根据识别出来的段落类型进行分类段落解析和关键信息提取实现分类,
进一步的,步骤1具体包括以下步骤:
步骤1-1,分析合同内容组成成分,以识别出文件中的图片、手写、文本三类信息;
步骤1-2,对于图片及手写的文字先利用OCR组件识别提取其中的文本内容;
进一步的,手写字识别是基于神经网络的人工智能技术学习识别。
进一步地,步骤2将合同的正文按照段落格式、字体样式、层次关系、表格信息进行结构化转化。
进一步地,步骤3在调用模型对段落分类前需要对段落文本进行语义理解和语干提取,其步骤如下:
步骤3-1,结合自然语言处理(NLP)人工智能技术对段落句法进行分析,即利用句子中词与词之间的依存关系来表示词语的句法结构信息并用树状结构来表示整句的结构;
步骤3-2,结合主谓结构分析、去修饰词方法进行语干提取.
进一步地,步骤3-1中句法结构信息包括主谓、动宾、定中的结构关系;整句的结构包括主谓宾、定状补。
进一步地,步骤3中的段落分类模型学习训练基于大数据的深度学习(现有成熟的深度学习)自动学习深层次的语义及语序特征,并满足合同分类对合同文本覆盖率达95%。
进一步地,步骤4包括以下步骤:
步骤4-1,段落解析:段落解析包括分词、依存句法分析、命名实体识别三大功能;
通过识别出文本串中的基本词汇(分词),对词汇进行重组、标注组合得到词汇的词性;
利用依存句法识别出命名实体,以识别合同段落中具有特定意义的实体,
步骤4-2,关键信息提取:基于命名实体识别出段落句法中的主体部分,并利用句子的依存关系识别出相应的结构信息,从而对不同类型的合同段落进行信息提取;通过对大量合同的系统分析,以总结建立标准化合同解析结构化模版。
进一步地,步骤4-1的特定意义的实体包括甲乙方、地址、签约时间日期、产品名称。
进一步地,步骤4-2的标准化合同解析结构化模版包括基础信息、收支信息和其他信息;
基础信息中包含:甲乙双方、合同金额、签约时间、是否续签、履约时间;
收支信息中包含:合同项目、项目金额、收支时间、周期性、税率、优惠计划;
其他信息中包含:附加条款、违约责任。
本发明采用以上技术方案,采用图像识别技术、自然语言处理技术等人工智能技术,具有技术先进性及创造性。本发明基于定位分类模型进行分类定位,并采用NER(Bert-BiLSTM-CRF)提取信息。本发明实现秒级的合同自动提取为用户节省了大量的时间成本和人力成本。本发明面向合同管理系统开放接口,实现低门槛的应用接入服务,系统准确的合同关键要素信息解析能力,可以有效的解决人工合同信息解析及录入模式效率低、误差大等问题。本发明提供便捷的可视化管理操作界面,支持用户便捷管理操作。本发明填补了业界对合同内容的自动化提取的技术空白,贯穿合同系统管理的全自动化流程。
显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

Claims (10)

1.一种基于AI的合同智能解析方法,其特征在于:其包括以下步骤:
步骤1,获取合同文件并提取文本内容;
步骤2,按照预定义的合同数据结构将合同的正文结构化转化,并传递给下一环节处理;
步骤3,利用人工智能已经训练好段落分类模型对合同的每个段落进行识别归类;
步骤4,根据识别出来的段落类型进行分类段落解析和关键信息提取实现分类。
2.根据权利要求1所述的一种基于AI的合同智能解析方法,其特征在于:步骤1具体包括以下步骤:
步骤1-1,分析合同内容组成成分,以识别出文件中的图片、手写、文本三类信息;
步骤1-2,对于图片及手写的文字先利用OCR组件识别提取其中的文本内容。
3.根据权利要求2所述的一种基于AI的合同智能解析方法,其特征在于:手写字识别是基于神经网络的人工智能技术学习识别。
4.根据权利要求1所述的一种基于AI的合同智能解析方法,其特征在于:步骤2将合同的正文按照段落格式、字体样式、层次关系、表格信息进行结构化转化。
5.根据权利要求1所述的一种基于AI的合同智能解析方法,其特征在于:步骤3在调用模型对段落分类前需要对段落文本进行语义理解和语干提取,其步骤如下:
步骤3-1,结合自然语言处理人工智能技术对段落句法进行分析,即利用句子中词与词之间的依存关系来表示词语的句法结构信息并用树状结构来表示整句的结构;
步骤3-2,结合主谓结构分析、去修饰词方法进行语干提取。
6.根据权利要求5所述的一种基于AI的合同智能解析方法,其特征在于:步骤3-1中句法结构信息包括主谓、动宾、定中的结构关系;整句的结构包括主谓宾、定状补。
7.根据权利要求1所述的一种基于AI的合同智能解析方法,其特征在于:步骤3中的段落分类模型学习训练基于大数据的深度学习自动学习深层次的语义及语序特征,并满足合同分类对合同文本覆盖率达95%。
8.根据权利要求1所述的一种基于AI的合同智能解析方法,其特征在于:步骤4包括以下步骤:
步骤4-1,段落解析:段落解析包括分词、依存句法分析、命名实体识别三大功能;
通过识别出文本串中的基本词汇,对词汇进行重组、标注组合得到词汇的词性;
利用依存句法识别出命名实体,以识别合同段落中具有特定意义的实体,
步骤4-2,关键信息提取:基于命名实体识别出段落句法中的主体部分,并利用句子的依存关系识别出相应的结构信息,从而对不同类型的合同段落进行信息提取;通过对大量合同的系统分析,以总结建立标准化合同解析结构化模版。
9.根据权利要求8所述的一种基于AI的合同智能解析方法,其特征在于:步骤4-1的特定意义的实体包括甲乙方、地址、签约时间日期、产品名称。
10.根据权利要求8所述的一种基于AI的合同智能解析方法,其特征在于:步骤4-2的标准化合同解析结构化模版包括基础信息、收支信息和其他信息;
基础信息中包含:甲乙双方、合同金额、签约时间、是否续签、履约时间;
收支信息中包含:合同项目、项目金额、收支时间、周期性、税率、优惠计划;
其他信息中包含:附加条款、违约责任。
CN202210038986.6A 2022-01-13 2022-01-13 一种基于ai的合同智能解析方法 Pending CN114419645A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210038986.6A CN114419645A (zh) 2022-01-13 2022-01-13 一种基于ai的合同智能解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210038986.6A CN114419645A (zh) 2022-01-13 2022-01-13 一种基于ai的合同智能解析方法

Publications (1)

Publication Number Publication Date
CN114419645A true CN114419645A (zh) 2022-04-29

Family

ID=81272465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210038986.6A Pending CN114419645A (zh) 2022-01-13 2022-01-13 一种基于ai的合同智能解析方法

Country Status (1)

Country Link
CN (1) CN114419645A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471206A (zh) * 2022-09-29 2022-12-13 深圳标普云科技有限公司 一种合同的管控方法及合同管理系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471206A (zh) * 2022-09-29 2022-12-13 深圳标普云科技有限公司 一种合同的管控方法及合同管理系统

Similar Documents

Publication Publication Date Title
CN107766371B (zh) 一种文本信息分类方法及其装置
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN107392143B (zh) 一种基于svm文本分类的简历精确解析方法
CN109685056B (zh) 获取文档信息的方法及装置
CN109886270B (zh) 一种面向电子卷宗笔录文本的案件要素识别方法
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN106096004A (zh) 一种建立大规模跨领域文本情感倾向性分析框架的方法
CN112541337B (zh) 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN111159356A (zh) 基于教学内容的知识图谱构建方法
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
CN111144116B (zh) 一种文档知识结构化的抽取方法及装置
CN113761202A (zh) 一种将非结构金融Excel表格映射到数据库的优化系统
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及系统
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN114419645A (zh) 一种基于ai的合同智能解析方法
CN111209831A (zh) 一种基于分类算法的文档表格内容识别方法及装置
CN114330284A (zh) 一种基于规则模型的自动化保险条款解析方法
CN112784585A (zh) 金融公告的摘要提取方法与摘要提取终端
CN112883202A (zh) 一种基于知识图谱的多组件建模方法和系统
CN117112767A (zh) 问答结果生成方法和商业查询大模型训练方法、及装置
CN112765359B (zh) 一种基于少样本的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination