CN114118098A - 基于要素抽取的合同评审方法、设备及存储介质 - Google Patents

基于要素抽取的合同评审方法、设备及存储介质 Download PDF

Info

Publication number
CN114118098A
CN114118098A CN202111551351.8A CN202111551351A CN114118098A CN 114118098 A CN114118098 A CN 114118098A CN 202111551351 A CN202111551351 A CN 202111551351A CN 114118098 A CN114118098 A CN 114118098A
Authority
CN
China
Prior art keywords
contract
element extraction
contracts
sample
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111551351.8A
Other languages
English (en)
Inventor
于峰
于军英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunlai Technology Co ltd
Original Assignee
Shanghai Xunlai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunlai Technology Co ltd filed Critical Shanghai Xunlai Technology Co ltd
Priority to CN202111551351.8A priority Critical patent/CN114118098A/zh
Publication of CN114118098A publication Critical patent/CN114118098A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于要素抽取的合同评审方法及设备,涉及数据处理技术领域。所述方法包括:对输入的待评审合同文档集进行预处理,建立各合同的标题索引链;将各合同的标题索引链与预设分类的合同模板进行比对,将合同划分为标准类合同组和个性化合同组;对于标准类合同组的合同,依据合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组的合同,根据用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取;根据抽取的合同要素生成要素化结构合同并发送到评审终端输出。本发明提高了个性化合同的要素抽取精确率和准确性,提高了用于评审的要素化结构合同文档的准确性。

Description

基于要素抽取的合同评审方法、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于要素抽取的合同评审方法、设备及存储介质。
背景技术
合同是民事主体之间设立、变更、终止民事法律关系的协议,通常由民事主体之间根据想要约束的条款自由订立,因此不同合同之间格式各不相同,描述方式也有差别。在合同流程的各个阶段,合同的相关方往往需要对合同进行阅读评审以确定合同中的条款符合相关方的意愿且符合法律和行业规定。
以电网、金融类公司为例,规模较大的公司的法律事务部每年要评审以万计的各类合同,一篇合同的字数可能接近几万字。传统的合同评审方式是由公司的相关部门配备多名专业法务人员在合同流程的各个阶段进行阅读评审,存在以下几个缺陷:1)合同在合同发起部门编写完成后,提交给人工审核,编写过程中的错误的发现需要在提交给人工审核后的多次沟通交互中实现,合同评审效率低;2)大量的合同都需要人工进行评审,每份合同评审需要合同发起人、合同评审专业人员两边的人力在进行合同评审相关的编写、沟通讨论,耗费了大量的人力资源;3)合同风险评审管控力度不高,因为合同评审的风险识别高度依赖评审的人员的专业能力,风险可控性差,一旦评审人员的工作不能到位或者出现失误,大大提高了合同风险,进而影响业务进程的顺利进行。
基于上述问题,现有技术也提供了通过信息化技术对合同中的合同要素进行抽取并进行审核的方式,在人工审核时,主要审核合同中抽取的合同要素信息即可。现有的抽取合同要素的方法,通常是利用机器学习算法与规则匹配技术相结合,通过对合同样本库的知识学习并构建要素抽取规则模型,通过要素抽取规则模型实现对合同中关键要素信息的自动识别与抽取,得到最终的合同要素。然而,由于需要按照合同样本库的合同样本(作为标准类文档)进行文本结构和文本内容的相似性检测,对于无法与标准类文档的标准特征匹配的个性化较强的合同,往往会因为无法符合标准类文档的标准特征而导致抽取的关键要素不精准,导致合同评审的基础出现问题。
发明内容
本发明的目的在于:克服现有技术的不足,提供了一种基于要素抽取的合同评审方法、设备及存储介质。本发明通过对待评审合同文档集进行预处理,并根据预处理结果将待评审合同文档集中的合同划分为标准类合同组和个性化合同组,对标准类合同组和个性化合同组采用不同的要素抽取规则,并根据抽取的合同要素生成要素化结构合同以供用户评审,提高了个性化合同的要素抽取精确率和准确性,提高了用于评审的要素化结构合同文档的准确性。
为实现上述目标,本发明提供了如下技术方案:
一种基于要素抽取的合同评审方法,包括步骤:
对输入的待评审合同文档集进行预处理,对待评审合同文档集中的每个合同进行文档解析以获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链;
将各合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链的标题等级关系能够完全匹配前述合同模板中的任一类的合同划分为标准类合同组,将标题索引链的层级关系无法单一匹配前述合同模板中的任一类的合同划分为个性化合同组;对应每类合同模板预设有要素抽取规则;
对于标准类合同组中的每个标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组中的个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取;
根据抽取的合同要素生成各合同的要素化结构合同,将各合同的要素化结构合同发送到评审终端输出以供用户评审。
进一步,所述标准类合同组中的每个标准合同的所属分类即为其匹配的合同模板的合同类型,在将标准合同的要素化结构合同发送到评审终端时,依据该标准合同的合同类型分批发送,属于同一类型的标准合同同批次发送至评审终端,并在评审终端对应着标准合同输出其所属的合同类型。
进一步,对于个性化合同组中的合同进行合同要素抽取的步骤如下,
对于个性化合同组中的所有个性化合同,根据各个性化合同的标题索引链进行二次分组,将标题索引链的相似度超过预设相似度阈值的合同划分为同一小组;
对于个性化合同组中的每一合同小组,从每个合同小组中选择一个合同作为样本合同;
获取用户通过要素标注工具对前述样本合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取样本合同的关键要素并形成该样本合同的个性化要素抽取规则,将该个性化要素抽取规则作为该样本合同所属合同小组的个性化要素抽取规则;个性化合同组中不同小组的合同对应不同的个性化要素抽取规则;
对于每个合同小组中的其它合同,根据合同所属的合同小组获取对应的个性化要素抽取规则后,按照个性化要素抽取规则进行合同要素抽取。
进一步,对于个性化合同组中的每个合同小组,根据每个合同小组中的样本合同的标题索引链与前述合同模板的标题索引链的比对信息,基于标题索引链的部分匹配方式获取每个样本合同包含的合同类型,每个合同至少对应两个合同类型。
进一步,基于标题索引链的部分匹配方式获取样本合同包含的合同类型的步骤如下:
获取该样本合同的标题索引链信息,将标题索引链信息分别与前述合同模板中的每类合同模板的标题索引链进行比对,获取该样本合同与各类合同模板的部分匹配信息;
根据前述部分匹配信息,按照前述样本合同的文档章节顺序对标题索引链进行拆解,使得拆解后的每段标题索引链都能够匹配一个合同模板的标题索引链,且相邻段标题索引链之间无章节重复内容;
获取拆解后的多个标题索引链段对应的多个合同模板,建立前述样本合同与前述多个合同模板的合同类型对应关系。
进一步,根据样本合同包含的多个合同类型,根据每类合同预设的要素抽取规则形成该样本合同的第二个性化要素抽取规则;
根据前述第二个性化要素抽取规则对样本合同进行合同要素抽取,生成该样本合同的第二要素化结构合同;
将样本合同的第二要素化结构合同与基于用户标注的要素化结构合同进行比对;
判定二者不一致或区别度大于预设阈值时发出要素抽取规则风险预警。
进一步,形成该样本合同的第二个性化要素抽取规则的步骤如下:
根据样本合同的文档章节顺序,依顺序获取样本合同对应的多个合同类型,包括合同类型1、合同类型2、……、合同类型N,其中,N为大于等于2的整数;
依次获取前述合同类型1、合同类型2、……、合同类型N预设的要素抽取规则,分别作为样本合同的第1段要素抽取规则、第2段要素抽取规则、……、第N段要素抽取规则;
对前述第一段要素抽取规则至第N段要素抽取规则按前述合同类型的顺序进行合并后生成该样本合同的第二个性化要素抽取规则。
进一步,所述要素标注信息包括用户标注的要素关键词和要素标签,对应所述要素关键词和要素标签设置有用户选择的要素抽取规则信息,所述要素关键词、要素抽取规则和要素标签进行映射存储。
本发明还提供了一种电子设备,包括:
至少一个处理器;以及,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前任一项所述的合同评审方法。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述的合同评审方法。
本发明由于采用以上技术方案,与现有技术相比,作为举例,具有以下的优点和积极效果:通过对待评审合同文档集进行预处理,并根据预处理结果将待评审合同文档集中的合同划分为标准类合同组和个性化合同组,对标准类合同组和个性化合同组采用不同的要素抽取规则,并根据抽取的合同要素生成要素化结构合同以供用户评审,提高了个性化合同的要素抽取精确率和准确性,提高了用于评审的要素化结构合同文档的准确性。
附图说明
图1为本发明实施例提供的基于要素抽取的合同评审方法的流程示意图。
图2为本发明实施例提供的进行合同评审的信息处理示例图。
图3为本发明实施例提供的针对个性化要素抽取规则设置风险预警的信息处理示例图。
具体实施方式
以下结合附图和具体实施例对本发明公开的基于要素抽取的合同评审方法、设备及存储介质作进一步详细说明。应当注意的是,下述实施例中描述的技术特征或者技术特征的组合不应当被认为是孤立的,它们可以被相互组合从而达到更好的技术效果。在下述实施例的附图中,各附图所出现的相同标号代表相同的特征或者部件,可应用于不同实施例中。因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
需说明的是,本说明书所附图中所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定发明可实施的限定条件,任何结构的修饰、比例关系的改变或大小的调整,在不影响发明所能产生的功效及所能达成的目的下,均应落在发明所揭示的技术内容所能涵盖的范围内。本发明的优选实施方式的范围包括另外的实现,其中可以不按所述的或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
实施例
参见图1所示,为本实施例提供的一种基于要素抽取的合同评审方法。所述方法包括如下步骤:
S100,对输入的待评审合同文档集进行预处理,对待评审合同文档集中的每个合同进行文档解析以获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链。
所述待评审合同文档集作为合同文档库,用于存储各领域的合同文本,优选为各种产品合同。作为举例而非限制,比如电力领域产品合同、通信领域产品合同、金融领域产品合同等。用户可以通过自动上传或者手动上传的方式将合同上传至待评审合同文档集。
合同文档的语法结构信息可以包括文档的标题信息(各级标题)、段落、批注框文本、页脚、页眉、行号和正文文本缩进信息、正文文字上下文信息等,根据文档的语法结构信息可以设置生成文档目录。本实施例中,考虑到针对同一产品的同一类型合同(比如某个通信产品合同)的标题级别通常是一致的,提取合同文档的标题等级信息以建立该合同文档的标题索引链,所述标题索引链包括各标题名称、各标题等级、各标题的关联关系等。
S200,将各合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链的标题等级关系能够完全匹配前述合同模板中的任一类的合同划分为标准类合同组,将标题索引链的层级关系无法单一匹配前述合同模板中的任一类的合同划分为个性化合同组;对应每类合同模板预设有要素抽取规则。
本实施例中,将标题索引链中标题层级关系与某一个合同模板能够完全一致的合同划分为一个标准类合同组,也就是说该合同的文档结构是符合已有的标准合同模板的文档结构的,能够在预设的合同模板库中找到对应的合同模板,一个合同模板对应一类合同类型,对应每类合同模板则预设有对应的要素抽取规则。
对于文档结构个性化较强的合同,因为标题索引链的层级关系无法与合同模板库中的任何一个合同模板完全一致,难以将其单一地划分到某一合同类型中,因此将此类个性化较强的合同划分为个性化合同组。
作为举例而非限制,比如举例说明:假设待评审合同文档集中存储有10000个合同,对前述10000个合同进行文档解析后获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链;然后根据各合同的标题索引链,将各个合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链能够完全匹配某个合同模板的合同产品划分为标准类合同组。所述的预设分类,作为举例,比如预设划分有100个类型的合同模板,每类合同模板对应一个合同类型,包括合同类型1、合同类型2、合同类型3、……、合同类型100。通过前述比对匹配,10000个合同中有9900个合同可以找到标题等级关系一致的合同模板,9900个合同划分为标准类合同组。由于还有100个合同无法单一匹配前述预设分类的合同模板,因此将其划分到个性化合同组。
S300,对于标准类合同组中的每个标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组中的个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取。
参见图2所示,标准类合同组和个性化合同组后期采用区别的方式进行要素抽取处理。
具体的,标准类合同组中的每个合同都可以称为标准合同,对于标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取。
个性化合同组中的每个合同都可以称为个性化合同,对于个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取。也就是说,对于个性化合同是基于用户的要素标注来抽取要素。
所述要素标注信息包括用户标注的要素关键词和要素标签,对应所述要素关键词和要素标签设置有用户选择的要素抽取规则信息,所述要素关键词、要素抽取规则和要素标签进行映射存储。
对应要素标注工具设置有要素抽取规则数据库,要素抽取规则数据库中存储有预设的要素抽取规则,在用户对个性化合同设置要素标注信息时,通过用户图形界面输出要素抽取规则以供用户选择。进一步,对应要素标注工具还设置有要素标签数据库,要素标签来自于前述要素标签数据库,在用户对参照合同设置要素标注信息时,采集用户在合同文档中标注的要素关键词,并通过用户图形界面输出要素标签列表供用户选择匹配的要素标签。
所述要素抽取规则,作为举例而非限制,比如可以包括标签化抽取规则、正则抽取规则、组合规则、字典转换规则和/或语义转换规则等。所述标签化抽取规则,适用于相对固化或者有规则的产品要素。所述正则抽取规则,适用于比较灵活的要素,其通过配置正则表达式来进行抽取;此时系统要提前建立好正则库,用户只需要根据实际场景选择对应的正则就可以进行要素自动抽取。所述组合规则,即要素组合合成规则,适用于需要多个段落抽取的多个要素组合合成新的要素的场景,系统会提供多个段落要素组合的顺序,拼接的连接词等规则,用户在界面配置好就可以自动组合要素。所述字典转换规则,适用于需要根据合同中的文字描述进行转化为报送需要的单选、多选框等类型信息,其可以将抽取的要素和提前建立的字典库进行匹配核对,进行要素的自动转换。所述语义转换规则,即NLP语义解析转换规则,适用于较灵活的文字描述。
S400,根据抽取的合同要素生成各合同的要素化结构合同,将各合同的要素化结构合同发送到评审终端输出以供用户评审。
要素化结构合同中仅显示合同文档的要素相关信息,而评审人员在审核合同文档时主要也是审核合同中的各种合同要素相关信息,如此,评审人员审核合同时可以不必翻阅整个合同,可以提高合同评审效率。
本实施例中,所述标准类合同组中的每个标准合同的所属分类即为其匹配的合同模板的合同类型。优选的,在将标准合同的要素化结构合同发送到评审终端时,依据该标准合同的合同类型分批发送,属于同一类型的标准合同同时或同批发送至评审终端,并在评审终端对应着标准合同输出其所属的合同类型。如此,便于评审终端的评审人员对各类合同按类型进行分类审核,进一步提高审核效率。可选的,还可以可根据预设的评审人员与合同类型的映射关系,将一类合同发送给负责该类合同对应的评审人员,此时,不同的评审人员负责不同类型合同的评审。
本实施例中,S300步骤中对于个性化合同组中的合同进行合同要素抽取的步骤如下:
S311,对于个性化合同组中的所有个性化合同,根据各个性化合同的标题索引链进行二次分组,将标题索引链的相似度超过预设相似度阈值的合同划分为同一小组。
S312,对于个性化合同组中的每一合同小组,从每个合同小组中选择一个合同作为样本合同;获取用户通过要素标注工具对前述样本合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取样本合同的关键要素并形成该样本合同的个性化要素抽取规则,将该个性化要素抽取规则作为该样本合同所属合同小组的个性化要素抽取规则;个性化合同组中不同小组的合同对应不同的个性化要素抽取规则。
S313,对于每个合同小组中的其它合同,根据合同所属的合同小组获取对应的个性化要素抽取规则后,按照个性化要素抽取规则进行合同要素抽取。
具体的,通过获取用户对样本合同的要素标注信息——包括要素关键词和要素标签,以及用户在标注要素时选择的要素抽取规则,就可以找到用户进行要素标注的关键词的字体大小、是否缩进、是否加粗、上下文信息,找到此关键词在合同文档中所在的行号以及在该行标点的前后位置,所在的段落,属于哪个标题下的索引链,基于上述信息生成该样本合同的个性化要素抽取规则,并将该个性化要素抽取规则作为该样本合同所属合同小组的组个性化要素抽取规则。然后,利用此组个性化要素抽取规则来自动抽取同一小组的其它合同中的相同的合同要素。上述方案可以降低用户对个性化合同的要素标注工作量。
本实施例中,还可以基于合同模板的标题索引链与个性化合同的标题索引链的部分匹配原则,获取每个个性化合同部分匹配的多个合同模板信息后,发送至评审终端以供评审人员审核时参考。
具体的,包括步骤S320:对于个性化合同组中的每个合同小组,可以根据每个合同小组中的样本合同的标题索引链与前述合同模板的标题索引链的比对信息,基于标题索引链的部分匹配方式获取每个样本合同包含的合同类型,每个合同至少对应两个合同类型。
作为举例而非限制,比如个性化合同组的100个个性化合同被划分为5个小组,分别为小组A1、小组A2、小组A3、小组A4和小组A5,其中小组A1中有20个个性化合同,其部分文档索引链可以和上面100个类型中的一些合同模板匹配,作为举例而非限制,比如某个个性化合同H包括100个章节,其中前50个章节的索引链和合同类型11一致,在后30个章节和合同类型2中的一致,最后20个章节和合同类型15中的一致,如此,这个合同G就可以和3个合同类型——合同类型11、合同类型2、合同类型15建立了对应关系。当然,上述合同包含的合同类型的数量3作为举例而非限制,根据合同的内容,一个合同对应的合同类型可以为2-100个中的任意一个数量,在此不作为对本发明的限制。由上述合同类型对应方法,可以建立个性化合同组的5个合同小组与前述预设的100类合同模板之间的对应关系。
本实施例中,优选的,基于标题索引链的部分匹配方式获取样本合同包含的合同类型的步骤如下。
S321,获取该样本合同的标题索引链信息,将标题索引链信息分别与前述合同模板中的每类合同模板的标题索引链进行比对,获取该样本合同与各类合同模板的部分匹配信息。
S322,根据前述部分匹配信息,按照前述样本合同的文档章节顺序对标题索引链进行拆解,使得拆解后的每段标题索引链都能够匹配一个合同模板的标题索引链,且相邻段标题索引链之间无章节重复内容。
S323,获取拆解后的多个标题索引链段对应的多个合同模板,建立前述样本合同与前述多个合同模板的合同类型对应关系。
本实施例的另一实施方式中,参见图3所示,在获取个性化合同包含的合同类型信息后,还可以根据样本合同包含的多个合同类型信息,根据每类合同预设的要素抽取规则形成该样本合同的第二个性化要素抽取规则,并对第二个性化要素抽取规则与前述个性化要素抽取规则的要素抽取结果进行比较,并根据比较结果进行个性化要素抽取规则的风险预警。
具体的,可以执行如下步骤:根据前述第二个性化要素抽取规则对样本合同进行合同要素抽取,生成该样本合同的第二要素化结构合同;将样本合同的第二要素化结构合同与基于用户标注的要素化结构合同进行比对;判定二者不一致或区别度大于预设阈值时发出要素抽取规则风险预警。也就是说,当基于前述第二个性化要素抽取规则抽取的合同要素,与基于用户标注的个性化要素抽取规则抽取的合同要素(对应步骤S313),二者不一致或者要素区别较大时,表示两个抽取规则中至少有一个存在规则设置风险,此时,触发要素抽取规则风险预警。
本实施例中,优选的,形成该样本合同的第二个性化要素抽取规则的步骤如下。
S3241,根据样本合同的文档章节顺序,依顺序获取样本合同对应的多个合同类型,包括合同类型1、合同类型2、……、合同类型N,其中,N为大于等于2的整数。
S3242,依次获取前述合同类型1、合同类型2、……、合同类型N预设的要素抽取规则,分别作为样本合同的第1段要素抽取规则、第2段要素抽取规则、……、第N段要素抽取规则。
S3243,对前述第一段要素抽取规则至第N段要素抽取规则按前述合同类型的顺序进行合并后生成该样本合同的第二个性化要素抽取规则。
以上述合同小组A1中的个性化合同H为例,描述合同小组A1的第二个性化要素抽取规则生成方法。所述的个性化合同H(即样本合同)依次对应了合同类型11、合同类型2、合同类型15,合同类型11属于标准类合同组,预设有要素抽取规则11,将前述要素抽取规则11作为合同小组A1的的第1段要素抽取规则,合同类型2属于标准类合同组,预设有要素抽取规则2,将前述要素抽取规则2作为合同小组A1的的第2段要素抽取规则,合同类型15属于标准类合同组,预设有要素抽取规则15,将前述要素抽取规则15作为合同小组A1的的第3段要素抽取规则;获取所有的3个合同类型的要素抽取规则后,对第1段要素抽取配置信息至第3段要素抽取配置信息进行汇总,得到合同小组A1(也就是样本合同H)的第二个性化要素抽取规则。
按照上述步骤,可以获取个性化合同组的所有合同小组A1的第二个性化要素抽取规则,后续可以将第二个性化要素抽取规则与基于用户标注获取的个性化要素抽取规则进行比较,并根据比较结果进行个性化要素抽取规则的风险预警。
本发明的另一实施例,还提供了一种电子设备。
所述电子设备包括:
至少一个处理器;以及,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如下步骤:对输入的待评审合同文档集进行预处理,对待评审合同文档集中的每个合同进行文档解析以获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链;将各合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链的标题等级关系能够完全匹配前述合同模板中的任一类的合同划分为标准类合同组,将标题索引链的层级关系无法单一匹配前述合同模板中的任一类的合同划分为个性化合同组;对应每类合同模板预设有要素抽取规则;对于标准类合同组中的每个标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组中的个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取;根据抽取的合同要素生成各合同的要素化结构合同,将各合同的要素化结构合同发送到评审终端输出以供用户评审。
所述待评审合同文档集作为合同文档库,用于存储各领域的合同文本,优选为各种产品合同。作为举例而非限制,比如电力领域产品合同、通信领域产品合同、金融领域产品合同等。用户可以通过自动上传或者手动上传的方式将合同上传至待评审合同文档集。
合同文档的语法结构信息可以包括文档的标题信息(各级标题)、段落、批注框文本、页脚、页眉、行号和正文文本缩进信息、正文文字上下文信息等,根据文档的语法结构信息可以设置生成文档目录。本实施例中,考虑到针对同一产品的同一类型合同(比如某个通信产品合同)的标题级别通常是一致的,提取合同文档的标题等级信息以建立该合同文档的标题索引链,所述标题索引链包括各标题名称、各标题等级、各标题的关联关系等。
本实施例中,将标题索引链中标题层级关系与某一个合同模板能够完全一致的合同划分为一个标准类合同组,也就是说该合同的文档结构是符合已有的标准合同模板的文档结构的,能够在预设的合同模板库中找到对应的合同模板,一个合同模板对应一类合同类型,对应每类合同模板则预设有对应的要素抽取规则。对于文档结构个性化较强的合同,因为标题索引链的层级关系无法与合同模板库中的任何一个合同模板完全一致,难以将其单一地划分到某一合同类型中,因此将此类个性化较强的合同划分为个性化合同组。所述标准类合同组和个性化合同组后期采用区别的方式进行要素抽取处理。
具体的,标准类合同组中的每个合同都可以称为标准合同,对于标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取。个性化合同组中的每个合同都可以称为个性化合同,对于个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取。也就是说,对于个性化合同是基于用户的要素标注来抽取要素。
其它技术特征参考在前实施例,处理器能够配置为执行相应的信息处理功能,在此不再赘述。
本发明的另一实施例,还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,所述计算机程序在被电子设备的处理器所执行时,可以实现:对输入的待评审合同文档集进行预处理,对待评审合同文档集中的每个合同进行文档解析以获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链;将各合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链的标题等级关系能够完全匹配前述合同模板中的任一类的合同划分为标准类合同组,将标题索引链的层级关系无法单一匹配前述合同模板中的任一类的合同划分为个性化合同组;对应每类合同模板预设有要素抽取规则;对于标准类合同组中的每个标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组中的个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取;根据抽取的合同要素生成各合同的要素化结构合同,将各合同的要素化结构合同发送到评审终端输出以供用户评审。
所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储所使用和创建的数据等。
其它技术特征参考在前实施例,计算机程序在被电子设备的处理器所执行时,可以实现相应的信息处理功能,在此不再赘述。
在上面的描述中,本发明的公开内容并不旨在将其自身限于这些方面。而是,在本公开内容的目标保护范围内,各组件可以以任意数目选择性地且操作性地进行合并。另外,像“包括”、“囊括”以及“具有”的术语应当默认被解释为包括性的或开放性的,而不是排他性的或封闭性,除非其被明确限定为相反的含义。所有技术、科技或其它方面的术语都符合本领域技术人员所理解的含义,除非其被限定为相反的含义。在词典里找到的公共术语应当在相关技术文档的背景下不被太理想化或太不实际地解释,除非本公开内容明确将其限定成那样。本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。

Claims (10)

1.一种基于要素抽取的合同评审方法,其特征在于包括步骤:
对输入的待评审合同文档集进行预处理,其中,对待评审合同文档集中的每个合同进行文档解析以获取各合同的文档目录信息,根据文档目录中的标题等级信息建立各合同的标题索引链;
将各合同的标题索引链与预设分类的合同模板的标题索引链进行比对,将标题索引链的标题等级关系能够完全匹配前述合同模板中的任一类的合同划分为标准类合同组,将标题索引链的层级关系无法单一匹配前述合同模板中的任一类的合同划分为个性化合同组;对应每类合同模板预设有要素抽取规则;
对于标准类合同组中的每个标准合同,依据该标准合同所匹配的合同模板的要素抽取规则进行合同要素抽取;对于个性化合同组中的个性化合同,获取用户通过要素标注工具对个性化合同设置的要素标注信息和要素抽取规则信息,根据前述要素标注信息和要素抽取规则信息对个性化合同进行合同要素抽取;
根据抽取的合同要素生成各合同的要素化结构合同,将各合同的要素化结构合同发送到评审终端输出以供用户评审。
2.根据权利要求1所述的合同评审方法,其特征在于:所述标准类合同组中的每个标准合同的所属分类即为其匹配的合同模板的合同类型,在将标准合同的要素化结构合同发送到评审终端时,依据该标准合同的合同类型分批发送,属于同一类型的标准合同同批次发送至评审终端,并在评审终端对应着标准合同输出其所属的合同类型。
3.根据权利要求1所述的合同评审方法,其特征在于:对于个性化合同组中的合同进行合同要素抽取的步骤如下,
对于个性化合同组中的所有个性化合同,根据各个性化合同的标题索引链进行二次分组,将标题索引链的相似度超过预设相似度阈值的合同划分为同一小组;
对于个性化合同组中的每一合同小组,从每个合同小组中选择一个合同作为样本合同;
获取用户通过要素标注工具对前述样本合同设置的要素标注信息和要素抽取规则,根据前述要素标注信息和要素抽取规则抽取样本合同的关键要素并形成该样本合同的个性化要素抽取规则,将该个性化要素抽取规则作为该样本合同所属合同小组的个性化要素抽取规则;个性化合同组中不同小组的合同对应不同的个性化要素抽取规则;
对于每个合同小组中的其它合同,根据合同所属的合同小组获取对应的个性化要素抽取规则后,按照个性化要素抽取规则进行合同要素抽取。
4.根据权利要求3所述的合同评审方法,其特征在于:对于个性化合同组中的每个合同小组,根据每个合同小组中的样本合同的标题索引链与前述合同模板的标题索引链的比对信息,基于标题索引链的部分匹配方式获取每个样本合同包含的合同类型,每个合同至少对应两个合同类型。
5.根据权利要求4所述的合同评审方法,其特征在于:基于标题索引链的部分匹配方式获取样本合同包含的合同类型的步骤如下:
获取该样本合同的标题索引链信息,将标题索引链信息分别与前述合同模板中的每类合同模板的标题索引链进行比对,获取该样本合同与各类合同模板的部分匹配信息;
根据前述部分匹配信息,按照前述样本合同的文档章节顺序对标题索引链进行拆解,使得拆解后的每段标题索引链都能够匹配一个合同模板的标题索引链,且相邻段标题索引链之间无章节重复内容;
获取拆解后的多个标题索引链段对应的多个合同模板,建立前述样本合同与前述多个合同模板的合同类型对应关系。
6.根据权利要求5所述的方法,其特征在于:根据样本合同包含的多个合同类型,根据每类合同预设的要素抽取规则形成该样本合同的第二个性化要素抽取规则;
根据前述第二个性化要素抽取规则对样本合同进行合同要素抽取,生成该样本合同的第二要素化结构合同;
将样本合同的第二要素化结构合同与基于用户标注的要素化结构合同进行比对;
判定二者不一致或区别度大于预设阈值时发出要素抽取规则风险预警。
7.根据权利要求6所述的方法,其特征在于:形成该样本合同的第二个性化要素抽取规则的步骤如下:
根据样本合同的文档章节顺序,依顺序获取样本合同对应的多个合同类型,包括合同类型1、合同类型2、……、合同类型N,其中,N为大于等于2的整数;
依次获取前述合同类型1、合同类型2、……、合同类型N预设的要素抽取规则,分别作为样本合同的第1段要素抽取规则、第2段要素抽取规则、……、第N段要素抽取规则;
对前述第一段要素抽取规则至第N段要素抽取规则按前述合同类型的顺序进行合并后生成该样本合同的第二个性化要素抽取规则。
8.根据权利要求1所述的方法,其特征在于:所述要素标注信息包括用户标注的要素关键词和要素标签,对应所述要素关键词和要素标签设置有用户选择的要素抽取规则信息,所述要素关键词、要素抽取规则和要素标签进行映射存储。
9.一种电子设备,其特征在于包括:
至少一个处理器;以及,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的合同评审方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的合同要素抽取方法。
CN202111551351.8A 2021-12-17 2021-12-17 基于要素抽取的合同评审方法、设备及存储介质 Pending CN114118098A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111551351.8A CN114118098A (zh) 2021-12-17 2021-12-17 基于要素抽取的合同评审方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111551351.8A CN114118098A (zh) 2021-12-17 2021-12-17 基于要素抽取的合同评审方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114118098A true CN114118098A (zh) 2022-03-01

Family

ID=80365854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111551351.8A Pending CN114118098A (zh) 2021-12-17 2021-12-17 基于要素抽取的合同评审方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114118098A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029279A (zh) * 2023-03-28 2023-04-28 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029279A (zh) * 2023-03-28 2023-04-28 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质
CN116029279B (zh) * 2023-03-28 2023-07-07 深圳前海环融联易信息科技服务有限公司 基于多模态模型的中登附件解析方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN109685056B (zh) 获取文档信息的方法及装置
US9323731B1 (en) Data extraction using templates
US6920608B1 (en) Chart view for reusable data markup language
CN109933796B (zh) 一种公告文本关键信息提取方法及设备
CN102662930B (zh) 一种语料标注方法及装置
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN113762028A (zh) 从文本文档进行数据驱动的结构提取
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
WO2000072197A2 (en) Reusable data markup language
CN104199871A (zh) 一种用于智慧教学的高速化试题导入方法
CN111191429A (zh) 数据表格自动填充的系统和方法
CN111753536A (zh) 一种专利申请文本的自动撰写方法和装置
CN114118098A (zh) 基于要素抽取的合同评审方法、设备及存储介质
CN110162684B (zh) 基于深度学习的机器阅读理解数据集构建以及评估方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
Han et al. A novel part of speech tagging framework for nlp based business process management
CN114021544A (zh) 产品合同的要素智能抽取和审核方法及系统
CN113722421B (zh) 一种合同审计方法和系统,及计算机可读存储介质
Kumar et al. Generalized named entity recognition framework
CN106649219A (zh) 一种通信卫星设计文件自动生成方法
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN107609155B (zh) 一种基于xbrl标准的数据资产化模型的构建方法
CN111061864B (zh) 基于特征提取的开源社区Fork摘要自动生成方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination