CN111931479A - 基于合同纠纷判决书的信息抽取方法及装置 - Google Patents

基于合同纠纷判决书的信息抽取方法及装置 Download PDF

Info

Publication number
CN111931479A
CN111931479A CN202010798774.9A CN202010798774A CN111931479A CN 111931479 A CN111931479 A CN 111931479A CN 202010798774 A CN202010798774 A CN 202010798774A CN 111931479 A CN111931479 A CN 111931479A
Authority
CN
China
Prior art keywords
contract
information
clause
basic
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010798774.9A
Other languages
English (en)
Inventor
李德彦
晋耀红
刘大双
张志一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dingfu Intelligent Technology Co Ltd
Original Assignee
Dingfu Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dingfu Intelligent Technology Co Ltd filed Critical Dingfu Intelligent Technology Co Ltd
Priority to CN202010798774.9A priority Critical patent/CN111931479A/zh
Publication of CN111931479A publication Critical patent/CN111931479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/188Electronic negotiation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Technology Law (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种基于合同纠纷判决书的信息抽取方法及装置。该方法包括:获取目标文本,目标文本为合同纠纷判决书中本院查明目录对应的文本信息;利用合同基本信息抽取规则从目标文本中抽取获得至少一个合同基本信息,从合同基本信息中抽取获得合同名称和签订时间;根据至少一个合同基本信息对所述目标文本进行划分获得至少一个合同信息块;利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。本申请实施例通过先从合同基本信息中抽取获得合同名称和签订时间,然后利用合同条款抽取规则对每一个合同信息块进行信息抽取获得合同条款内容,便于后续通过合同名称将合同条款内容和条款的效力进行关联分析。

Description

基于合同纠纷判决书的信息抽取方法及装置
技术领域
本申请涉及自然语言处理技术领域,具体而言,涉及一种基于合同纠纷判决书的信息抽取方法及装置。
背景技术
一份合同纠纷判决书可以包括一个或多个合同纠纷信息,因此,合同纠纷判决书包括了很多内容,例如:文件首部、诉讼方当事人信息、诉讼方代理人信息、被诉讼方当事人信息、被诉讼方代理人信息、审理过程、诉讼方诉请、被诉讼方辩称、审理查明、争议焦点、法院认为、判决结果、文件尾部、依据法律法条内容等。
现有技术中,如果从一份判决书中获取关键信息,可以通过人工标注的方式,由于判决书中包括了大量的信息,人工标注的方式将会消耗大量的人力成本,并且效率较低。
发明内容
本申请实施例的目的在于提供一种基于合同纠纷判决书的信息抽取方法及装置,用以解决现有技术中获取关键信息效率低的问题。
第一方面,本申请实施例提供基于合同纠纷判决书的信息抽取方法,包括:获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
本申请实施例通过先获得至少一个合同基本信息,从合同基本信息中抽取获得合同名称和签订时间,然后利用合同条款抽取规则对每一个合同信息块进行信息抽取获得合同条款内容,从而能够提高获得合同纠纷判决书中的合同名称、签订时间和合同条款的效率及准确性,进而便于后续通过合同名称将合同条款内容和条款的效力进行关联分析。
进一步地,所述获取目标文本,包括:获取合同纠纷判决书;利用目录抽取模型对所述合同纠纷判决书进行信息抽取,获得多个目录对应的起始位置信息;其中,多个目录包括本院查明目录;根据所述本院查明目录对应的起始位置信息和本院查明目录的下一个目录对应的起始位置信息从所述合同纠纷判决书中获得所述目标文本。
本申请实施例通过利用目录抽取规则能够准确地从合同纠纷判决书中获取本院查明目录对应的文本信息,以便于后续对信息的抽取。
进一步地,当所述至少一个合同基本信息为多个合同基本信息时,所述根据每一所述合同基本信息对所述目标文本进行划分,包括:采用包含取短原则对所述多个合同基本信息进行内容去重,获得去重后合同基本信息;其中,所述包含取短原则是指,若两个合同基本信息中,第一个合同基本信息包含第二个合同基本信息,则将第一个合同基本信息剔除;
获取每个去重后合同基本信息的位置索引信息,根据所述位置索引信息对所述去重后合同基本信息进行排序;利用排序后的合同基本信息对所述目标文本进行划分。
本申请实施例在利用合同基本信息对目标文本进行划分之前,先对获得的合同基本信息进行去重及根据位置索引信息进行排序,从而避免了同一块文本被多次划分,提高了对合同信息块划分的准确性,进而提高了对信息提取的准确性。
进一步地,在获得对应的合同名称和签订时间之后,所述方法还包括:若一个合同基本信息中包括多个合同名称,利用包含取短原则对多个合同名称进行去重处理,并根据去重后的合同名称对应的位置索引信息进行排序,将排序后的第一个合同名称作为目标合同名称;对所述签订时间进行归一化处理,并将归一化后的排在合同信息块的第一个的签订时间作为目标签订时间。
一般情况下,一个合同信息块对应一份合同,因此本申请实施例在获得到合同名称后,将合同信息块中第一个出现的合同名称作为最终的合同名称;在确定目标签订时间时,先进行归一化处理,从而能够更加准确地获取到第一个出现的签订时间。
进一步地,所述合同条款抽取规则包括合同条款内容模型,所述利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得合同条款内容,包括:利用合同条款内容模型对对应的合同信息块进行抽取,获得多个抽取结果;根据位置最靠前的一个抽取结果的起始位置索引信息和位置最靠后的一个抽取结果的结束位置索引信息从对应的合同信息块中截取所述合同条款内容。
本申请实施例通过根据位置最靠前的一个抽取结果的起始位置索引信息和位置最靠后的一个抽取结果的结束位置索引信息从合同信息块中截取合同条款内容,从而能够提高对合同条款内容截取的准确性。
进一步地,在获得合同条款内容之后,所述方法还包括:根据预设规则对所述合同条款内容进行结构化,获得对应的合同条款明细;其中,所述预设规则包括:利用预先设置的序列特征规则对所述合同条款内容进行匹配,获得独立条款项的位置索引信息表;若所述独立条款项的位置索引信息表不为空,则利用独立条款项的起始位置索引信息表中的位置索引信息对所述合同条款内容进行切分,获得合同条款明细;若所述独立条款项的位置索引信息表为空,则利用整句符号对所述合同条款内容进行分割,获得所述合同条款明细。
本申请实施例通过利用预设规则从合同条款内容中能够准确地对条款明细进行结构化处理。
进一步地,在获得所述合同条款明细后,所述方法还包括:利用不同的条款类别规则对各合同条款明细进行匹配,获得各合同条款明细对应的条款类别。
本申请实施例通过条款类别规则能够准确地获得每个条款明细对应的条款类别。
第二方面,本申请实施例提供一种基于合同纠纷判决书的信息抽取装置,包括:文本获取模块,用于获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;基本信息抽取模块,用于利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;文本划分模块,用于根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;条款抽取模块,用于利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,所述处理器和所述存储器通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种信息抽取方法流程示意图;
图2为本申请实施例提供的一种要素抽取模型示意图;
图3为本申请实施例提供的一种序列特征规则示意图;
图4为本申请实施例提供的部分条款类别示意图;
图5为本申请实施例提供的借款本金对应的规则示意图;
图6为本申请实施例提供的逾期利率对应的规则示意图;
图7为本申请实施例提供的装置结构示意图;
图8为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
图1为本申请实施例提供的一种信息抽取方法流程示意图,如图1所示,应当说明的是,执行下述方法的主体可以是终端设备,终端设备可以是智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等。该方法包括:
步骤101:获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;
步骤102:利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;
步骤103:根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;
步骤104:利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
在步骤101中,合同纠纷判决书中包括有很多内容,例如:包括下发判决书的法院名称、原告名称、原告住址、原告委托代理人、被告名称、被告住址、被告委托代理人、本院查明、本院认为、判决结果等信息。可以理解的是,有的判决书不一定包含上述全部信息,例如,若原告没有委托代理人,则判决书中则没有原告委托代理人的信息。
由于合同纠纷判决书中的内容太多,而本申请只需要从本院查明目录对应的文本信息中抽取所需的信息,因此,可以将本院查明目录对应的文本信息作为目标文本,以提高信息抽取的效率。
在步骤102中,合同基本信息抽取模型为预先设定好的,可以根据目标文本中的内容表现特征进行预先构建。图2为本申请实施例提供的一种要素抽取模型示意图,如图2所示。左侧的树形结构示出了要素抽取模型之间的逻辑关系,右侧是每种要素对应的抽取规则。从左侧可以看出,要素抽取模型包括合同基本信息抽取模型和合同条款抽取模型,合同基本信息包括合同签订时间和合同名称。合同基本信息抽取模型包括多种抽取表达式,可以理解的是,抽取表达式为预先设定的,并且可以是正则表达式。通过合同基本信息抽取模型可以从目标文本中获取至少一个合同基本信息。可以理解的是,由于合同基本信息抽取表达式有多条,使得合同基本信息抽取表达式可以从目标文本中抽取到至少一个合同基本信息。但是,由于判决书的撰写方式不同,导致有的合同基本信息抽取表达式无法从目标文本中抽取到合同基本信息。从合同基本信息抽取表达式可以看出,合同基本信息中包括合同名称、签订时间,还可以包括原告信息、被告信息等。另外,由于一份判决书中可能会涉及到多份合同纠纷,因此,一条合同基本信息抽取表达式可能会从目标文本中抽取到多个合同基本信息,多个合同基本信息可能对应不同的合同纠纷。
并且,以图2中第一条合同基本信息抽取表达式为例,其表达式为:@(双方|原、?被告|原告与.?被告|被告|(?<!(载明|[,。:;]).{0,10})与[^,。:;《》]*?又?于\d{4}年\d{1,2}月\d{1,2}日.{0,4}签订(?!的)*?(协议|合同)[^,。:;系]*?[,。]@。从合同信息抽取规则中也可以看出来,抽取到的合同基本信息大概包括如下信息:原告和被告在某一时间点签订了某某合同。因此,合同基本信息中除了包括合同名称和签订时间外,还可以包括原告、被告等。
在获得合同基本信息后,利用合同名称对应的抽取模型抽取每一合同基本信息对应的合同名称,利用签订时间对应的抽取模型抽取每一合同基本信息对应的签订时间。其中,合同名称的抽取规则和签订时间的抽取模型均有一条或多条。
在步骤103中,为了避免同一份合同被划分为不同的部分,在利用获得到至少一个合同基本信息对目标文本进行划分之前,可以将合同基本信息进行去重处理,可以理解的是,若一份合同纠纷判决书中包括多个合同,则去重后获得的合同基本信息仍然包括多个。利用去重后的合同基本信息对目标文本进行划分,从而获得至少一个合同信息块。可以理解的是,对于只有一个合同基本信息的情况,目标文本就是该合同基本信息对应的合同信息块。
在步骤104中,在获得合同信息块后,分别针对每个合同信息块进行信息抽取的处理,即利用合同条款抽取模型,分别对每一合同信息块进行信息抽取。并且,合同条款抽取模型均可以包括一条或多条具体的规则表达式,优选地,规则表达式可以由一个或一个以上的如ZL 201410155830.1公开的概念表达式,与一种或者多种语义算子组合构成。利用合同条款抽取规则中的每条具体规则表达式对合同信息块进行信息抽取,从而获得合同信息块对应的合同条款内容。可以理解的是,由于合同条款内容是从合同信息块中抽取获得的,因此,该合同条款内容对应的合同名称和签订时间为对应合同信息块中的合同名称和签订时间。
本申请实施例通过先获得至少一个合同基本信息,从合同基本信息中抽取获得合同名称和签订时间,然后利用合同条款抽取规则对每一个合同信息块进行信息抽取获得合同条款内容,从而能够提高获得合同纠纷判决书中的合同名称、签订时间和合同条款的效率及准确性。
在上述实施例的基础上,所述获取目标文本,包括:
获取合同纠纷判决书;
利用目录抽取模型对所述合同纠纷判决书进行信息抽取,获得多个目录对应的起始位置信息;其中,多个目录包括本院查明目录;
根据所述本院查明目录对应的起始位置信息和本院查明目录的下一个目录对应的起始位置信息从所述合同纠纷判决书中获得所述目标文本。
在具体的实施过程中,本申请发明人通过对合同纠纷判决书的数据组成结构特征、组成元素上下文顺序关系的研究,设计出目录抽取模型,该目录抽取模型能够提取出合同纠纷判决书中包含的目录信息类型的、能够唯一表示该类型目录信息特征的起始位置信息。
一般情况下,本院查明目录在判决书的目录的中间位置,在获得判决书的所有目录对应的起始位置信息之后,可以将本院查明目录对应的起始位置信息与本院查明目录的下一个目录对应的起始位置信息之间的内容作为目标文本。
若本院查明目录为判决书目录中的最后一项,那么将本院查明目录的起始位置信息开始到判决书最后都作为目标文本。
本申请实施例通过利用目录抽取模型能够准确地从合同纠纷判决书中获取本院查明目录对应的文本信息,以便于后续对信息的抽取。
在上述实施例的基础上,当所述至少一个合同基本信息为多个合同基本信息时,所述根据所述至少一个合同基本信息对所述目标文本进行划分,包括:
采用包含取短原则对所述多个合同基本信息进行内容去重,获得去重后合同基本信息;其中,所述包含取短原则是指,若两个合同基本信息中,第一个合同基本信息包含第二个合同基本信息,则将第一个合同基本信息剔除;
获取每个去重后合同基本信息的位置索引信息,根据所述位置索引信息对所述去重后合同基本信息进行排序;
利用排序后的合同基本信息对所述目标文本进行划分。
在具体的实施过程中,包含取短原则是指,若两个合同基本信息中,第一个合同基本信息包含第二个合同基本信息,则将第一个合同基本信息剔除。例如:第一个合同基本信息为:A某和B某在2019年4月3日签订了一份借款合同,在同年的6月7日又签订了一份保证合同。第二合同基本信息为:A某和B某在2019年4月3日签订了一份借款合同。因此,第一个合同基本信息对应的内容包含了第二合同信息的内容,可以将第一个合同基本信息删除,只保留第二个合同基本信息。
在去重完成后,由于合同纠纷判决书中包括多份合同的相关信息,因此,去重后获得的合同基本信息仍然有多个;利用去重后合同基本信息的位置索引信息进行排序。例如:目标文本一共包括1000个字符,共获得三个去重后合同基本信息A、B和C,A对应的位置索引信息为第504个字符-第800个字符;B对应的位置信息为第10个字符-第503个字符;C对应的位置索引信息为第801个字符-第1000个字符。对合同基本信息进行排序后可以获得B、A和C。然后根据排序后的合同基本信息对目标文本进行划分。其具体划分时,可以将每个合同基本信息的位置索引信息对应的文本作为合同信息块。
本申请实施例在利用合同基本信息对目标文本进行划分之前,先对获得的合同基本信息进行去重及根据位置索引信息进行排序,从而避免了同一块文本被多次划分,提高了对合同信息块划分的准确性,进而提高了对信息提取的准确性。
在上述实施例的基础上,在获得对应的合同名称和签订时间之后,所述方法还包括:
若一个合同基本信息中包括多个合同名称的情况下,利用包含取短原则对多个合同名称进行去重处理,并根据去重后的合同名称对应的位置索引信息按照位置的先后进行排序,将排序后的第一个合同名称作为目标合同名称;
对所述签订时间进行归一化处理,并将归一化后的排在合同信息块的第一个的签订时间作为目标签订时间。
在具体的实施过程中,一条合同名称的抽取规则可以从一个合同信息块中抽取获得至少一个合同名称,当然,也可能无法从合同信息块中抽取到对应的合同名称。另外,一个合同信息块对应一份合同,即一个合同名称,如果利用合同名称的抽取规则从一个合同信息块中抽取获得了多个合同名称,那么可以利用包含取短原则对多个合同名称进行去重。应当说明的是,包含取短原则与上述实施例类似,此处不再赘述。另外,一般情况下,一个合同信息块中第一次出现的合同名称为该合同信息块对应的合同名称,因此,在去重之后,可以根据每个合同名称对应的位置索引信息进行排序,可以是升序排序,然后将第一个合同名称作为该合同信息块的目标合同名称。可以理解的是,合同名称在合同纠纷判决书中的位置越靠前,则其对应的位置索引信息越小,相反的,合同名称在合同纠纷判决书中的位置越靠后,则其对应的位置索引信息越大,在升序排序后,第一个合同名称即为最先出现的合同名称。
一般情况下,合同信息块中第一个出现的签订时间为该合同的真实签订时间,由于合同信息块中所有的时间可能不是严格按照时间的标准格式撰写的,例如:同年、同日等表述,因此,为了能够准确地确定该合同信息块对应的合同签订时间,在确定目标签订时间之前,可以先对抽取到的签订时间进行归一化,转换成标准的时间格式,例如:XXXX年XX月XX日。在归一化时,若合同信息块中出现在“同日”,并且在“同日”之前没有其他签订时间,那么可以获取该合同信息块之前的一个合同信息块,并找到前一个合同信息块中与当前处理的合同信息块最近的一个时间信息,将该时间信息作为“同日”对应的时间,从而获得到对应的签订时间。
在对签订时间归一化之后,根据签订时间的位置索引信息进行升序排序,选择第一个签订时间作为目标签订时间。
在上述实施例的基础上,所述利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得合同条款内容,包括:
利用合同条款内容模型对对应的合同信息块进行抽取,获得多个抽取结果;
根据位置最靠前的一个抽取结果的起始位置索引信息和位置最靠后的一个抽取结果的结束位置索引信息从对应的合同信息块中截取所述合同条款内容。
在具体的实施过程中,目标文本中还包括多条合同条款,利用预先构建的合同条款内容模型可以从目标文本中获取多条合同条款内容。
同样的,获取每条合同条款内容的位置索引信息,其中,位置索引信息包括起始位置索引信息和结束位置索引信息。按照起始位置索引信息对合同条款内容进行升序排序,即按照合同条款内容在目标文本中出现的先后位置进行排序。然后将第一个合同条款内容的起始位置索引信息与最后一个合同条款内容的结束位置索引信息之间的文本信息作为合同条款内容。
在获得合同条款内容后,由于合同条款内容中包括至少一条条款明细,因此,可以对合同条款内容进行条款结构化,获得对应的条款明细。结构化的步骤如下:
步骤一:利用预先设置的序列特征规则对所述合同条款内容进行匹配,获得独立条款项的位置索引信息表;
由于判决书中大多数情况会使用序号来标注条款明细,例如:一,二,三,...;以及1,2,3,....等,并且,如果出现了两种及以上的序号,则序号类别会有优先级顺序。优先级顺序用于表征条款的上下级关系,例如:大写数字序号的优先级大于小写数字序号的优先级,那么小写数字序号对应的条款明细为其前面最近的一个大写数字序号的条款明细进一步细分,但每条条款明细均为独立的条款项。其中,预先设置的序列特征规则如图3所示。
在利用预先设置的序列特征规则从合同信息块中抽取到独立条款项后,可以将各个独立条款项对应的位置索引信息存入预先构建的位置索引列表中。
步骤二:若所述独立条款项的位置索引信息表不为空,则利用独立条款项的起始位置索引信息表中的位置索引信息对所述合同条款内容进行切分,获得合同条款明细。
独立条款项的位置索引信息表不为空,则说明目标文本中使用了序号对条款明细进行标注,因此,可以根据独立条款项的起始位置索引信息表中的位置索引信息对合同条款内容进行切分,从而获得合同条款明细。
应当说明的是,独立条款项的位置索引信息表中的位置索引信息可以按照升序排列,如果合同条款内容中包括的条款明细的数量大于1,则可以判断独立条款项的位置索引信息表中第一个位置索引信息中的起始位置信息是否从0开始,如果不是从0开始,则说明该合同条款内容在列举条款明细之前有一些其他文字描述,例如可以是总结性的话术等。为了能够获得到准确的合同条款明细,可以获取第一个位置索引信息对应的条款明细,并将该条款明细中第一个整句符号之前的文本删除。并用删除后剩下的条款明细对应的起始位置索引信息更新独立条款项的位置索引信息表中第一个位置索引信息中的起始位置信息。
步骤三:若所述独立条款项的位置索引信息表为空,则利用整句符号对所述合同条款内容进行分割,获得所述合同条款明细。
如果独立条款项的位置索引信息表为空,则说明目标文本中没有按照序号对条款明细进行标注,此时可以采用整句符号对合同条款内容进行分割。其中,整句符号可以包括句号和分号,也可以包括其他的符号,具体包括哪些符号可以预先进行设定。
本申请实施例通过利用预设规则从合同条款内容中能够准确地对条款明细进行结构化处理。
在上述实施例的基础上,在获得所述合同条款明细后,所述方法还包括:
利用不同的条款类别规则对各合同条款明细进行匹配,获得各合同条款明细对应的条款类别。
在具体的实施过程中,在获得到合同条款明细后,可以对每一条合同条款明细进行分类。图4为本申请实施例提供的部分条款类别示意图,如图4所示。可以将合同纠纷对应的合同条款明细划分为:借款本金、借期内利率、逾期利率、还款方式、违约金、保证担保、抵押、借款期限、保证期间、诉讼费用、还款计划、债权转让、债务重组、冲抵和合同生效日期等。可以理解的是,图4中只列举了部分条款分类,具体还可以有更多的条款分类。并且,每种条款分类都有至少一项规则,例如借款本金对应的规则如图5所示,逾期利率对应的规则如图6所示。每种条款分类对应的规则都是预先设计好的,可以在后期应用中根据需要进行新增规则,删除规则和修改规则。
在对每条合同条款明细进行分类时,可以先按照预设格式对合同条款内容进行条款结构化,得到逐项独立的条款内容。然后对每项条款内容进行分类打标,具体可以利用每种条款分类对应的规则与合同条款明细进行匹配,如果合同条款明细与某一种条款类型的某个规则相匹配,则该合同条款明细的类别为相匹配的条款类型。可以理解的是,通过对每个合同条款明细进行分类,可以关联“本院认为”中法院观点涉及的条款,进而实现条款效力的识别。
本申请实施例通过条款类别规则能够准确地获得每个条款明细对应的条款类别。
图7为本申请实施例提供的装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括:文本获取模块701、基本信息抽取模块702、文本划分模块703和条款抽取模块704,其中:
文本获取模块701用于获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;基本信息抽取模块702用于利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;文本划分模块703用于根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;条款抽取模块704用于利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
在上述实施例的基础上,文本获取模块701具体用于:
获取合同纠纷判决书;
利用目录抽取模型对所述合同纠纷判决书进行信息抽取,获得多个目录对应的起始位置信息;其中,多个目录包括本院查明目录;
根据所述本院查明目录对应的起始位置信息和本院查明目录的下一个目录对应的起始位置信息从所述合同纠纷判决书中获得所述目标文本。
在上述实施例的基础上,当所述至少一个合同基本信息为多个合同基本信息时,文本划分模块703具体用于:
采用包含取短原则对所述多个合同基本信息进行内容去重,获得去重后合同基本信息;其中,所述包含取短原则是指,若两个合同基本信息中,第一个合同基本信息包含第二个合同基本信息,则将第一个合同基本信息剔除;
获取每个去重后合同基本信息的位置索引信息,根据所述位置索引信息对所述去重后合同基本信息进行排序;
利用排序后的合同基本信息对所述目标文本进行划分。
在上述实施例的基础上,装置还包括信息处理模块,用于:
若一个合同基本信息中包括多个合同名称,利用包含取短原则对多个合同名称进行去重处理,并根据去重后的合同名称对应的位置索引信息进行排序,将排序后的第一个合同名称作为目标合同名称;
对所述签订时间进行归一化处理,并将归一化后的排在合同信息块的第一个的签订时间作为目标签订时间。
在上述实施例的基础上,条款抽取模块704具体用于:
利用合同条款内容模型对对应的合同信息块进行抽取,获得多个抽取结果;
根据位置最靠前的一个抽取结果的起始位置索引信息和位置最靠后的一个抽取结果的结束位置索引信息从对应的合同信息块中截取所述合同条款内容。
在上述实施例的基础上,装置还包括条款明细获得模块,用于:
根据预设规则对所述合同条款内容进行结构化,获得对应的合同条款明细;其中,所述预设规则包括:
利用预先设置的序列特征规则对所述合同条款内容进行匹配,获得独立条款项的位置索引信息表;
若所述独立条款项的位置索引信息表不为空,则利用独立条款项的起始位置索引信息表中的位置索引信息对所述合同条款内容进行切分,获得合同条款明细;
若所述独立条款项的位置索引信息表为空,则利用整句符号对所述合同条款内容进行分割,获得所述合同条款明细。
在上述实施例的基础上,该装置还包括分类模块,用于:
利用不同的条款类别规则对各合同条款明细进行匹配,获得各合同条款明细对应的条款类别。
图8为本申请实施例提供的电子设备实体结构示意图,如图8所示,所述电子设备,包括:处理器(processor)801、存储器(memory)802和总线803;其中,
所述处理器801和存储器802通过所述总线803完成相互间的通信;
所述处理器801用于调用所述存储器802中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;利用合同基本信息抽取规则从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;根据所述至少一个合同基本信息对所述目标文本进行划分,获得至少一个合同信息块;利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
处理器801可以是一种集成电路芯片,具有信号处理能力。上述处理器801可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器802可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;利用合同基本信息抽取规则从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;根据所述至少一个合同基本信息对所述目标文本进行划分,获得至少一个合同信息块;利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;利用合同基本信息抽取规则从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;根据所述至少一个合同基本信息对所述目标文本进行划分,获得至少一个合同信息块;利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于合同纠纷判决书的信息抽取方法,其特征在于,包括:
获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;
利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;
根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;
利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本,包括:
获取合同纠纷判决书;
利用目录抽取模型对所述合同纠纷判决书进行信息抽取,获得多个目录对应的起始位置信息;其中,多个目录包括本院查明目录;
根据所述本院查明目录对应的起始位置信息和本院查明目录的下一个目录对应的起始位置信息从所述合同纠纷判决书中获得所述目标文本。
3.根据权利要求1所述的方法,其特征在于,当所述至少一个合同基本信息为多个合同基本信息时,所述根据每一所述合同基本信息对所述目标文本进行划分,包括:
采用包含取短原则对所述多个合同基本信息进行内容去重,获得去重后合同基本信息;其中,所述包含取短原则是指,若两个合同基本信息中,第一个合同基本信息包含第二个合同基本信息,则将第一个合同基本信息剔除;
获取每个去重后合同基本信息的位置索引信息,根据所述位置索引信息对所述去重后合同基本信息进行排序;
利用排序后的合同基本信息对所述目标文本进行划分。
4.根据权利要求1所述的方法,其特征在于,在获得对应的合同名称和签订时间之后,所述方法还包括:
若一个合同基本信息中包括多个合同名称,利用包含取短原则对多个合同名称进行去重处理,并根据去重后的合同名称对应的位置索引信息进行排序,将排序后的第一个合同名称作为目标合同名称;
对所述签订时间进行归一化处理,并将归一化后的排在合同信息块的第一个的签订时间作为目标签订时间。
5.根据权利要求1所述的方法,其特征在于,所述利用合同条款抽取规则分别对每一合同信息块进行信息抽取,获得合同条款内容,包括:
利用合同条款内容模型对对应的合同信息块进行抽取,获得多个抽取结果;
根据位置最靠前的一个抽取结果的起始位置索引信息和位置最靠后的一个抽取结果的结束位置索引信息从对应的合同信息块中截取所述合同条款内容。
6.根据权利要求1-5任一项所述的方法,其特征在于,在获得合同条款内容之后,所述方法还包括:
根据预设规则对所述合同条款内容进行结构化,获得对应的合同条款明细;其中,所述预设规则包括:
利用预先设置的序列特征规则对所述合同条款内容进行匹配,获得独立条款项的位置索引信息表;
若所述独立条款项的位置索引信息表不为空,则利用独立条款项的起始位置索引信息表中的位置索引信息对所述合同条款内容进行切分,获得合同条款明细;
若所述独立条款项的位置索引信息表为空,则利用整句符号对所述合同条款内容进行分割,获得所述合同条款明细。
7.根据权利要求6所述的方法,其特征在于,在获得所述合同条款明细后,所述方法还包括:
利用不同的条款类别规则对各合同条款明细进行匹配,获得各合同条款明细对应的条款类别。
8.一种基于合同纠纷判决书的信息抽取装置,其特征在于,包括:
文本获取模块,用于获取目标文本,其中,所述目标文本为合同纠纷判决书中本院查明目录对应的文本信息;
基本信息抽取模块,用于利用合同基本信息抽取模型从所述目标文本中抽取获得至少一个合同基本信息,从所述合同基本信息中抽取获得合同名称和签订时间;
文本划分模块,用于根据每一所述合同基本信息对所述目标文本进行划分,获得对应的合同信息块;
条款抽取模块,用于利用合同条款抽取模型分别对每一合同信息块进行信息抽取,获得对应的合同条款内容。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。
CN202010798774.9A 2020-08-10 2020-08-10 基于合同纠纷判决书的信息抽取方法及装置 Pending CN111931479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010798774.9A CN111931479A (zh) 2020-08-10 2020-08-10 基于合同纠纷判决书的信息抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010798774.9A CN111931479A (zh) 2020-08-10 2020-08-10 基于合同纠纷判决书的信息抽取方法及装置

Publications (1)

Publication Number Publication Date
CN111931479A true CN111931479A (zh) 2020-11-13

Family

ID=73307278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010798774.9A Pending CN111931479A (zh) 2020-08-10 2020-08-10 基于合同纠纷判决书的信息抽取方法及装置

Country Status (1)

Country Link
CN (1) CN111931479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123764A (ja) * 2000-08-11 2002-04-26 Ricoh Leasing Co Ltd 契約支援サービス方法、契約支援システム、管理サーバおよびプログラム
CN106815201A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN107608948A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种文本信息抽取模型的构建方法及装置
CN107679038A (zh) * 2017-10-16 2018-02-09 北京神州泰岳软件股份有限公司 一种文本段落的抽取方法及装置
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN111222326A (zh) * 2020-01-15 2020-06-02 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111259631A (zh) * 2020-01-15 2020-06-09 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
CN111291548A (zh) * 2020-02-12 2020-06-16 中科鼎富(北京)科技发展有限公司 一种从法院文书获取信息的方法及装置
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002123764A (ja) * 2000-08-11 2002-04-26 Ricoh Leasing Co Ltd 契約支援サービス方法、契約支援システム、管理サーバおよびプログラム
CN106815201A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 一种自动判定裁判文书判决结果的方法及装置
CN107590131A (zh) * 2017-10-16 2018-01-16 北京神州泰岳软件股份有限公司 一种规范文书处理方法、装置及系统
CN107608948A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种文本信息抽取模型的构建方法及装置
CN107679038A (zh) * 2017-10-16 2018-02-09 北京神州泰岳软件股份有限公司 一种文本段落的抽取方法及装置
CN108334500A (zh) * 2018-03-05 2018-07-27 上海思贤信息技术股份有限公司 一种基于机器学习算法的裁判文书标注方法及装置
CN111222326A (zh) * 2020-01-15 2020-06-02 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111259631A (zh) * 2020-01-15 2020-06-09 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111291548A (zh) * 2020-02-12 2020-06-16 中科鼎富(北京)科技发展有限公司 一种从法院文书获取信息的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
佘贵清;张永安;: "审判案例自动抽取与标注模型研究", 现代图书情报技术, no. 06, 25 June 2013 (2013-06-25) *
刘稳;王锦;李锐;游景扬;陈建峡;: "法院判决书关键信息抽取系统设计与实现", 湖北工业大学学报, no. 01, 15 February 2018 (2018-02-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559669A (zh) * 2020-12-09 2021-03-26 鼎富智能科技有限公司 法院观点信息结构化的方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
CN110765770A (zh) 一种合同自动生成方法及装置
CN112882699B (zh) 基于流程配置引擎的业务处理方法、装置、设备及介质
CN111460131A (zh) 公文摘要提取方法、装置、设备及计算机可读存储介质
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN111310446A (zh) 裁判文书的信息抽取方法及装置
CN106095972B (zh) 一种信息分类方法及装置
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN113449187A (zh) 基于双画像的产品推荐方法、装置、设备及存储介质
CN112559726A (zh) 简历信息的过滤方法、模型训练方法、装置、设备及介质
CN113935710A (zh) 一种合同审核的方法、装置、电子设备及存储介质
CN112732945A (zh) 标准知识图谱构建、标准查询方法及装置
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN112783825A (zh) 数据归档方法、装置、计算机装置及存储介质
CN111506595A (zh) 一种数据查询方法、系统及相关设备
CN111931479A (zh) 基于合同纠纷判决书的信息抽取方法及装置
CN111898378B (zh) 政企客户的行业分类方法和装置、电子设备、存储介质
CN113220875A (zh) 基于行业标签的互联网信息分类方法、系统及电子设备
CN110765188A (zh) 合同相对方信息的结构化方法及装置
CN111078871A (zh) 一种基于人工智能的合同自动分类的方法及系统
CN115017256A (zh) 电力数据处理方法、装置、电子设备及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN109657010B (zh) 文档处理方法、装置和存储介质
CN111931515A (zh) 基于合同纠纷判决书的合同条款效力分析方法及装置
CN112819622A (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN111611242A (zh) 一种实现Excel数据向数据库导入的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination