CN108009137A - 一种基于配置文件的规范文书处理方法、装置及系统 - Google Patents

一种基于配置文件的规范文书处理方法、装置及系统 Download PDF

Info

Publication number
CN108009137A
CN108009137A CN201711408304.1A CN201711408304A CN108009137A CN 108009137 A CN108009137 A CN 108009137A CN 201711408304 A CN201711408304 A CN 201711408304A CN 108009137 A CN108009137 A CN 108009137A
Authority
CN
China
Prior art keywords
configuration
document
node
class
specification document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711408304.1A
Other languages
English (en)
Other versions
CN108009137B (zh
Inventor
任宁
郝思洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Science And Technology (beijing) Co Ltd
Original Assignee
China Science And Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Science And Technology (beijing) Co Ltd filed Critical China Science And Technology (beijing) Co Ltd
Priority to CN201711408304.1A priority Critical patent/CN108009137B/zh
Publication of CN108009137A publication Critical patent/CN108009137A/zh
Application granted granted Critical
Publication of CN108009137B publication Critical patent/CN108009137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种基于配置文件的规范文书处理方法、装置及系统,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;所述配置文件包含多条配置,包括身份抽取类配置、文书切块类配置和要素抽取类配置。根据配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据文书切块类配置将已知文书身份的规范文书切分成多个内容块;根据要素抽取类配置,从每个内容块中抽取文书要素。由于,本申请使用了一个可编辑的配置文件,因此,只要编辑配置文件的内容,就可以更改从规范文书中抽取的文书要素,从而,能够适应不同的抽取文书要素的需求,适应性强。

Description

一种基于配置文件的规范文书处理方法、装置及系统
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种基于配置文件的规范文书处理方法、装置及系统。
背景技术
规范文书(也可称为专用文书),是指在特定的法律环境或商业环境下,给予个人或公司的某种特定格式的专业文件,规范文书通常具有约定俗称的编写格式和结构框架。规范文书通常用来表达某个指定类型的信息,具有特定的用途。例如,在法律领域,法院使用的裁判文书就以指定的格式记录了案件的详细信息;在商业领域,保险合同也以规范的格式记录了保险所包含的各种约定条款。
由于,规范文书中包含了特定领域的具有指定用途和意义的信息,这些信息对相关领域的从业人士具有关注价值,因此,从规范文书中提取出有价值的信息(即文书要素),成为了相关领域从业人士的需求。为了满足这种需求,现有技术提供的规范文书处理方法中,通常针对特定领域的使用的规范文书编写不同的规范文书提取程序,以实现对特定规范文书的要素提取。但是,现有技术中的规范文书提取程序针对特定的规范文书编写,对不同领域、不同用途的规范文书都需要编写不同的提取程序,并且,文书要素的提取内容通常会被固化在提取程序中,不易修改,每次修改都要重新编译和发布程序,甚至重构程序。然而,对于相关领域的从业人士来说,根据实际需求的不同,对文书要素的需求也会发生变化,这就要求规范文书处理方法能够根据用户的需求可适应地修改,可见,上述现有技术的规范文书处理方法由于不易修改而无法满足用户的需求,因此,适用性差。
从上述现有技术可以看出,如何提供一种可适应文书要素提取需求变化、适应性强的规范文书处理方法,成为本领域技术人员亟待解决的技术问题。
发明内容
本申请实施例提供了一种基于配置文件的规范文书处理方法、装置及系统,以解决现有技术中存在的问题。
第一方面,本申请实施例提供了一种基于配置文件的规范文书处理方法,使用至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述方法包括:
根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
第二方面,本申请实施例提供了一种基于配置文件的规范文书处理装置,使用至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述装置包括:
第一抽取模块,用于根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;第一触发模块,用于根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;切块模块,用于根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;第二触发模块,用于根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;第二抽取模块,用于根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
第三方面,本申请实施例还提供了一种基于配置文件的规范文书处理系统,所述系统包括:
处理器和至少一个存储器;
所述存储器用于存储至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述处理器被配置为:
根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
本申请提供的技术方案,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;所述配置文件包含多条配置,包括身份抽取类配置、文书切块类配置和要素抽取类配置。根据配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据文书切块类配置将已知文书身份的规范文书切分成多个内容块;根据要素抽取类配置,从每个内容块中抽取文书要素。由于,本申请使用了一个可编辑的配置文件,因此,只要编辑配置文件的内容,就可以更改从规范文书中抽取的文书要素,从而,能够适应不同的抽取文书要素的需求,适应性强。此外,本申请的配置文件中,每个配置中都会指定该配置调用的抽取树中的节点,使节点匹配从原有的无目的性的编历式匹配方式,变成了有目的性的靶向匹配方式,极大地减小了抽取树中节点使用的数量,降低了节点匹配的时间,提高从规范文书中抽取文书要素的效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于配置文件的规范文书处理方法的流程图;
图2为本申请实施例提供的一种基于配置文件的规范文书处理方法节点匹配的流程图;
图3为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S110的流程图;
图4为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S130的流程图;
图5为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S150的流程图;
图6为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S210的流程图;
图7本申请实施例提供的一种基于配置文件的规范文书处理装置框图;
图8本申请实施例提供的一种基于配置文件的规范文书处理系统框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种基于配置文件的规范文书处理方法,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包括用于对规范文书进行节点匹配的表达式。
规范文书(也可称为专用文书),是现代文书的一大类别,是指在特定的法律环境或商业环境下,给予个人或公司的某种特定格式的专业文件。相对通用文书而言,规范文书通常具有约定俗称的编写格式和结构框架,并具有指定的用途和特定的使用场景。常见的规范文书,例如:在司法领域中,法院使用的判决书、调解书;在商业领域保险公司与客户约定条款时签订的保险合同等。由于,规范文书通常在某个领域具有特定的使用目的,并以指定的格式传递特定的信息,因此,规范文书对于相关领域的从业人士(用户)通常具有关注价值,因此,如果能够从规范文书中,获取到文书要素,就能够使用户全面地了解规范文书的内容,例如对于法律行业从业人员来说,可以通过统计分析某个地区法律案件的判决书等规范文书,了解当地的案件形势等;对于,保险行业的从业人员来说,可以通过统计分析某个统计周期的保险合同的规范文书,了解有关参保量、参保人群信息、保险类型、保险执行情况等信息,对保险行业的走势判断和保险服务行业的决策制定提供参考依据。
规范文书根据用途、内容等不同,可包含多种文书类型,例如判决书、调解书、住房保险合同、委托书等。一般来说,每种文书类型的规范文书都具有固定的撰写结构。
规范文书通常根据规定的撰写要求或约定俗成的文章结构撰写,例如,下文示出的一篇规范文书为法院出具的民事判决书,其内容为:
XX省XX市XX区人民法院
民事判决书
(2017)X0001民初001号
原告:X某。
委托代理人:……。
被告:X某甲。
原告X某与被告X某甲XX纠纷一案,本院于2017年X月X日受理后,依法由审判员XXX独任审判,……
原告X某诉称:……
经审理查明,……
本院认为,……
判决如下:……
……
如上述民事判决书中所呈现的内容,在判决书中,文书类型、案号、原告、被告、经审理查明、本院认为等内容均以固定的撰写结构呈现。
本申请中,表达式是能够对特定内容进行匹配识别的代码段。表达式中定义了对规范文书中常固定出现的语段、句式或词组的匹配规则,能够匹配到规范文书的特定内容。
在一种实施方式中,表达式可以是正则表达式,例如:
@[^\n,,。;]*撤回.{0,4}(起诉|诉讼)[^\n]*@
@[^\n,,。;]*撤回对[^\n,,。;]*?的起诉[^\n]*@
@[^\n,,。;]*原告.{0,4}撤诉[^\n]*@
上述表达式可用于从判决书中匹配与“原告撤诉”有关的内容。
需要说明的是,本申请中的表达式,除本申请中示出的正则匹配的表达式以外,还可以包括但不限于使用字符匹配、句式匹配等其他匹配方式的表达式,对于使用什么样的表达式,本申请中不做具体限定,本领域技术人员可以根据本申请实施例提供的技术方案的启示下,结合使用的系统环境和软硬件环境等因素,编写与系统环境和软硬件环境相适应地表达式。同时,本申请中,还可以使用神经网络、支持向量机、判别模型等机器学习技术,建立表达式的优化模型,在表达式的使用过程中,对表达式进行优化。
表达式能够匹配规范文书的特定内容,因此,如果规范文书的文书类型不同,匹配使用的表达式也不同。对于具有固定的撰写格式和文章结构的规范文书来说,每种文书类型使用的表达式也相对固定,因此根据每种文书类型的撰写格式和文章结构,将适用于每种文书类型的表达式汇集到一起,以树形结构进行统一管理,所形成的树形结构即为本申请中的抽取树。
示例地,本申请实施例提供了一种适用于判决书的抽取树的结构如下,
目录提取
-案号提取----------@表达式@
审理程序----------@表达式@
案件类型----------@表达式@
审理年份----------@表达式@
-文书类型
判决书----------@表达式@
调解书----------@表达式@
裁定书----------@表达式@
决定书----------@表达式@
-民事判决书
一审
审理经过----------@表达式@
本院查明----------@表达式@
本院认为----------@表达式@
裁判结果----------@表达式@
内容分析
-民事判决书
-通用要素提取
案件名称----------@表达式@
争议焦点----------@表达式@
代理律师----------@表达式@
上述示出的抽取树由目录提取和内容分析两部分组成,每个部分以树形结构包含多个层级的节点,其中,节点中包含用于对规范文书进行节点匹配的表达式,例如“案号提取”节点的表达式用于判决书中匹配案号。需要说明的是,从上述示例中示出的抽取树可以看出,有些节点用于将子节点进行分类,不用于节点匹配,因此,在抽取树中只有用于节点匹配的节点中才必须包含表达式,其他节点可以不包含表达式。
需要说明的是,本申请中的目抽取树不局限于上述示例中示出的结构,抽取树的结构可以根据规范文书的文书类型的不同,以及用户对规范文书的处理需求的不同而做出改变,本申请中对抽取树的结构不做具体限定。
本申请中使用的可编辑的配置文件包含多条配置,每条配置用于调用抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书或其他所述配置对规范文书的处理结果作为处理对象。
本申请中,配置文件在抽取树和待处理的规范文书之间建立关联,通过配置文件中预先编辑的配置,可调用抽取树中的节点,对规范文书进行节点匹配;并且配置文件的每条配置中预设了根据节点匹配结果对规范文书执行的处理方式,这些预设的处理方式可包括抽取节点所匹配到的内容、根据节点所匹配到的内容对规范文书进行切块处理等。
在抽取树中,不同的节点从规范文书中匹配的内容不同,每个节点的适用的对象也不同,例如,本申请示出的抽取树中,节点“案号提取”的适用范围为规范文书全文,能够从示例的规范文书全文中匹配到“(2017)X0001民初001号”;但是,其子节点“审理程序”“案件类型”“审理年份”的适用对象是“案号提取”匹配到的结果,即能够从案号中匹配出审理程序、案件类型、审理年份等信息。
基于抽取树的上述特点,本申请的配置文件中,每条配置定义了处理对象,即该配置调用的节点仅对其指定的处理对象进行节点匹配,处理对象可以是规范文书的全文内容或部分内容,也可以是其他配置的节点匹配结果。通过在配置中定义每条配置针对的处理对象,能够减少节点匹配的处理量,从而有效提高处理效率。
本申请中,记录在配置文件中的配置包括:身份抽取类配置、文书切块类配置和要素抽取类配置。其中,身份抽取类配置调用的节点能够在规范文书中匹配到与文书身份有关的内容;文书切块类配置调用的节点能够匹配到用于文书切块的内容,根据文书切块类配置的节点匹配结果,能够将规范文书切分成多个内容块,每个内容块对应一个内容主题,例如:判决书可切分为:案件信息、当事人信息、审理经过、原告诉称、本院查明、本院认为、裁判结果等主题的内容块;要素抽取类配置用于在规范文书的内容块中抽取文书要素,例如:案件名称、争议焦点等。
本申请中的文书身份是相对于文书类型的进一步细分的概念,文书身份在本申请中用于确定切块过程使用的抽取树节点。由于,身份抽取类配置能够从规范文书中抽取文书身份,因此,身份抽取类配置的节点匹配结果就作为了触发文书切块类配置的前置条件。文书身份中包含文书类型等内容,不同文书类型的规范文书中文书身份包含的内容不同,例如判决书的文书身份可包括文书类型、审理程序(一审、二审等)、案件类型(民事、刑事等);保险合同的文书身份可包括保险性质(社会保险、商业保险等)、保险类型(车辆保险、医疗保险等)。
本申请中,文书切块类配置以至少一条身份抽取类配置的节点匹配结果作为触发的前置条件,要素抽取类配置以至少一条文书切块类配置的节点匹配结果作为触发的前置条件。
本申请中,不同文书身份的规范文书使用不同的文书切块类配置。由于,根据身份抽取类配置的节点匹配结果能够得到文书身份,且不同的文书身份会对应着不同的节点匹配结果,因此,本申请以身份抽取类配置的节点匹配结果作为触发文书切块类配置的前置条件,从而实现根据文书身份的不同,触发不同的文书切块类配置。
本申请中,要素抽取都是在指定的内容块中进行,因此,要对不同的内容块使用不同的要素抽取类配置。由于,内容块的切分以文书切块类配置的节点匹配结果为切分依据,因此,本申请以文书切块类配置的节点匹配结果作为触发要素抽取类配置的前置条件,从实现对不同的内容块,触发不同的要素抽取类配置。
示例地,本申请使用的一种配置文件的格式如下(其中省略了一些配置):
在上述配置文件中,每行数据为一条配置,其中,无前置条件的配置为身份抽取类配置,前置条件为“匹配到:……”的配置为文书切块类配置,前置条件为“切块中:……”的配置为要素抽取类配置。
下面根据上述示例的配置文件、抽取树和规范文书,详细说明本申请实施例提供的一种基于配置文件的规范文书处理方法。
图1为本申请实施例提供的一种基于配置文件的规范文书处理方法的流程图,如图1所示,所述方法包括:
步骤S110,根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份。
本申请中,针对不同的文书身份,配置文件可能会有多个。由于待处理的规范文书的文书类型可能是未知的,在执行步骤S110之前不清楚哪个配置文件适用于待处理的规范文书。因此,本申请在步骤S110中,可以对规范文书分别执行每个配置文件中的一条身份抽取类配置,如果有身份抽取类配置在节点匹配中能够在规范文书中成功匹配到内容,说明该配置文件适用于待处理的规范文书。
在一种可选择的实施方式中,每条配置中定义了匹配节点和取用节点,其中,匹配节点用于确定取用节点所在的路径,取用节点用于获取节点匹配使用的表达式。由于,节点匹配会调用抽取树的一个层级或多个层级的节点,因此,取用节点包括匹配节点和/或匹配节点的子节点。
图2为本申请实施例提供的一种基于配置文件的规范文书处理方法节点匹配的流程图,如图2所示,当每条配置中定义了匹配节点和取用节点时,节点匹配包括以下步骤:
步骤S010,根据所述配置,从抽取树中获取所述取用节点的表达式。
为了便于在抽取树中找到匹配节点和取用节点,本申请的配置文件中给出了匹配节点的节点路径,如“目录提取-民事判决书-一审”,节点路径的最末端就是匹配节点,因此,根据节点路径进行路径查找,就能够在抽取树中找到匹配节点,然后,根据配置中定义的取用节点,可以从匹配节点和匹配节点的子节点中获取表达式。
步骤S020,根据所述取用节点中的表达式,匹配规范文书中的内容。
使用获取到的表达式,根据配置所指定的处理对象,匹配规范文书中的内容,包括规范文书全文或其他所述配置对规范文书的处理结果。
示例地,配置中的匹配节点为“目录提取-文书类型”;取用节点为“子节点”,表示节点匹配须使用匹配节点的子节点中的表达式。在步骤S010中,匹配节点在抽取树中的“文书类型”部分定位到“文书类型”节点,“文书类型”节点在抽取树中包含四个子节点,分别为“判决书”“调解书”“裁定书”“决定书”,分别获取这四个子节点中的表达式作为节点匹配使用的表达式。在步骤S020中,如果配置的处理对象为原文,则表示对规范文书进行全文匹配,使用步骤S010获取的表达式,在规范文书中匹配到的文书内容为“判决书”,从而,可以确定该规范文书的文书类型为判决书。
本申请中,配置文件中记载的配置按照其在配置文件中的位置,从前向后顺序执行。
或者,在一种可选择的实施方式中,每条配置可包括配置编号,配置编号用于确定每条配置的执行顺序。例如,在示例的配置文件中,身份抽取类配置的配置编号为2、3、4等,在抽取文书身份时,根据配置编号依次执行2、3、4等。
此外,一条配置的配置编号可作为另一条配置的处理对象,当配置编号作为处理对象时,表示将配置编号指向的那条配置对规范文书的处理结果作为处理对象。例如,示例中有配置的处理对象为2,表示以配置2抽取到的案号作为处理对象。
图3为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S110的流程图,如图3所示,在一种可选择的实施方式中,步骤S110可以包含以下步骤:
步骤S111,获取所述身份抽取类配置中的所述匹配节点和所述取用节点。
示例地,根据配置执行的先后顺序,首先执行的配置为:
上述配置中,第一条配置的匹配节点为“目录提取-案号提取”,取用节点为“当前节点”,“当前节点”表示在节点匹配中仅使用匹配节点中的表达式。如下面的抽取树片段所示(下划实线部分为匹配节点,下划虚线部分为取用节点,下划双实线的部分既是匹配节点又是取用节点):
目录提取
审理程序----------@表达式@
案件类型----------@表达式@
审理年份----------@表达式@
第二条配置的匹配节点为“目录提取-文书类型”,取用节点为“子节点”,表示在节点匹配中使用匹配节点的子节点中的表达式。如下面的抽取树片段所示(下划实线部分为匹配节点,下划虚线部分为取用节点,下划双实线的部分既是匹配节点又是取用节点):
目录提取
-文书类型
步骤S112,以规范文书原文为所述处理对象,根据所述匹配节点和所述取用节点,对规范文书进行所述节点匹配。
根据匹配节点和取用节点,定位到抽取树中的对应节点,并从抽取树的对应节点中获取当前配置需调用的表达式(上述抽取树片段中下划波浪线的表达式),然后使用调用的表达式对在规范文书全文范围内进行节点匹配,其中,节点匹配的范围有配置中的处理对象确定,当处理对象为“原文”时,以规范文书的全文内容为处理对象。
示例地,调用抽取树中节点“案号提取”中的表达式,在示例的规范文书中进行全文范围的节点匹配,从中可以匹配到案号内容“(2017)X0001民初001号”。调用抽取树中节点“文书类型”子节点的表达式,包括节点:判决书、调解书、裁定书、决定书中的表达式,在示例的规范文书中进行全文范围的节点匹配,可匹配到内容“判决书”,说明该规范文书的文书类型为判决书。
本申请配置的执行具有先后顺序,在后执行的配置有时会以在先执行配置的处理结果作为处理对象,因此,有些配置的处理对象是“原文”,有些配置的处理对象是在先执行配置的处理结果。此外,在所有身份抽取类配置中,最先执行的至少一条配置的处理对象为“原文”;文书切块类配置的处理对象一般为“原文”;要素抽取类配置的处理对象为文书切块类配置抽取到的内容块。
步骤S113,根据所述节点匹配结果,抽取规范文书中包含所述文书身份的目标字段。
根据步骤S112中的节点匹配结果,抽取匹配到的规范文书内容作为目标字段,抽取到的目标字段即为当前配置的处理结果。
示例地,步骤S112在示例的规范文书中匹配到“(2017)X0001民初001号”,抽取该内容为目标字段。
步骤S114,以所述目标字段为所述处理对象,根据所述身份抽取类配置,对所述目标字段进行节点匹配。
在步骤S114中,根据配置指定的处理对象,可调用以目标字段为处理对象的其余身份抽取类配置,并按顺序执行配置,对目标字段进行节点匹配。
示例地,根据步骤S113抽取的目标字段,执行的配置为:
上述配置在抽取树中的匹配节点、取用节点和节点匹配使用的表达式如下面的抽取树片段所示(下划实线部分为匹配节点,下划虚线部分为取用节点,下划双实线的部分既是匹配节点又是取用节点):
目录提取
-案号提取----------@表达式@
根据上述配置中的匹配节点,在抽取树中定位到对应的节点,然后根据取用节点获取表达式,使用表达式对目标字段“(2017)X0001民初001号”进行节点匹配。
步骤S115,根据所述节点匹配结果,从所述目标字段中抽取所述文书身份。
示例地,从目标字段“(2017)X0001民初001号”中,可以匹配到“初”,表示审理程序为:一审;匹配到“民”,表示案件类型为:民事案件;匹配到“2017”,表示审理时间为:2017年。根据上述节点匹配结果,可以从目标字段中抽取文书身份,例如:抽取到审理程序为:一审,案件类型为:民事。
本申请通过使用配置文件中的身份抽取类配置调用抽取树中的节点对规范文书进行节点匹配,能够从规范文书中抽取文书身份,从而在可在后续步骤中根据文书身份调用适合的文书切块类配置对规范文书进行切块。例如,从示例的规范文书中抽取的文书身份有:审理程序:一审;文书类型:判决书;案件类型:民事;等等。
步骤S120,根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置。
本申请中,文书切块类配置定义了触发的前置条件,该触发条件包括至少一条身份抽取类配置的节点匹配结果。当身份抽取类配置的节点匹配结果满足了文书切块类配置的前置条件时,该文书切块类配置被触发并执行。
示例地,本申请中示出的配置文件中,文书切块类配置为:
该文书切块类配置的前置条件表示:如果身份抽取类配置使用抽取树中的“目录提取-案号提取-审理程序-一审”“目录提取-文书类型-判决书”“目录提取-案号提取-案件类型-民事”在规范文书中匹配到了对应的内容,则满足该前置条件,触发该配置。此外,当配置文件中包含配置编号时,前置条件中可用身份抽取类配置的配置编号表示,与文字具有相同含义,例如“匹配到:3、4、5”。
步骤S130,根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块。
在步骤S130中,根据触发的满足前置条件的文书切块类配置,对规范文书切块,生成多个内容块。在后续的步骤中,通过要素抽取类配置能够在指定的内容块中抽取文书要素。
图4为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S130的流程图,如图4所示,在一种可选择的实施方式中,步骤S130可以包括以下步骤:
步骤S131,获取所述文书切块类配置中的所述匹配节点和所述取用节点。
示例地,本申请实施例示出的文书切块类配置中,匹配节点为“目录提取-民事判决书-一审”,取用节点为“子节点”,表示在节点匹配中使用匹配节点的子节点中的表达式。如下面示出的抽取树片段所示(下划实线部分为匹配节点,下划虚线部分为取用节点):
目录提取
-民事判决书
一审
步骤S132,根据所述匹配节点和所述取用节点,对规范文书进行所述节点匹配。
根据匹配节点和取用节点,能够确定节点匹配所使用的表达式(上述抽取树片段中下划波浪线的表达式),使用表达式对规范文书进行节点匹配。
步骤S133,根据所述节点匹配结果,从所述规范文书中获取块首内容。
示例地,节点“审理经过”中的表达式能够匹配到规范文书中“原告X某与被告X某甲XX纠纷一案……”部分的内容;节点“原告诉称”中的表达式能够匹配到规范文书中“原告X某诉称:……”部分的内容。其中,规范文书中每个被匹配到的部分都会以一种固定的句式开头,例如:“原告X某诉称”“经审理查明”“判决如下”等,本申请将这些固定句式的内容作为块首内容。
步骤S134,在所述块首内容前标记分块信息。
本申请中,分块信息用于标记对规范文书切块时的切分点。分块信息可以是具有标识作用的字符或段落前缀等,本申请对分块信息的形式不做具体限定,只要能为本申请的切块过程标记切分点,即可作为分块信息。
示例地,对本申请实施例示出的规范文书标记分块信息的结果为:
XX省XX市XX区人民法院
民事判决书
(2017)X0001民初001号原告:X某。
委托代理人:……。
被告:X某甲。
<cut>原告X某与被告X某甲XX纠纷一案,本院于2017年X月X日受理后,依法由审判员XXX独任审判,……
<cut>原告X某诉称:……
<cut>经审理查明,……
<cut>本院认为,……
<cut>判决如下:……
……
其中,<cut>为分块信息,带有下划线的内容为块首内容。
需要注意的是,在一种可选择的实施方式中,块首内容本身就可以作为分块信息,当以块首内容作为分块信息时,不需要在块首内容前添加字符或段落前缀,在进行切块处理时,本方法会在每个块首内容前进行切分,从而生成内容块。
步骤S135,根据所述分块信息,将规范文书切分成多个所述内容块。
示例地,对本申请实施例示出的规范文书切分成多个内容块的结果为:
(审理经过)原告X某与被告X某甲XX纠纷一案,本院于2017年X月X日受理后,依法由审判员XXX独任审判,……
(原告诉称)原告X某诉称:……
(本院查明)经审理查明,……
(本院认为)本院认为,……
(裁判结果)判决如下:……
步骤S140,根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置。
本申请中,要素抽取类配置定义了触发的前置条件,该触发条件为至少一条文书切块类配置的节点匹配结果。当文书切块类配置的节点匹配结果满足了要素抽取类配置的前置条件时,该要素抽取类配置被触发并执行。
示例地,本申请中示出的配置文件中,要素抽取类配置为:
例如,如果某个内容块对应的节点匹配结果是“目录提取-民事判决书-一审-审理经过”,当某条要素抽取类配置的前置条件为“切块中:目录提取-民事判决书-一审-审理经过”时,该要素抽取类配置就会触发,该触发的要素抽取类配置用于从这个内容块中抽取文书要素。
此外,需要补充说明的是:在规范文书的内容块中,有些内容块不包含文书要素;有些内容块虽然包含文书要素,但是在实际需求中不需要抽取那些文书要素;因此,不是每个内容块都会有对应的要素抽取类配置能够要素抽取,并且,根据内容块中包含的文书要素类型的不同以及用户实际需求的不同,有些内容块会有一条触发的要素抽取类配置抽取文书要素,有些内容块会有多条触发的要素抽取类配置抽取文书要素。
步骤S150,根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
根据触发的要素抽取类配置,调用抽取树中的表达式,对每个对应的内容块进行节点匹配,从而从内容块中抽取文书要素。
图5为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S150的流程图,如图5所示,在一种可选择的实施方式中,步骤S150可以包括以下步骤:
步骤S151,获取所述要素抽取类配置中的所述匹配节点和所述取用节点。
示例地,本申请实施例示出的一条要素抽取类配置中,匹配节点为“内容分析-民事判决书-通用要素提取-案件名称”,取用节点为“所有节点”,表示在节点匹配中使用匹配节点中表达式,以及使用匹配节点的子节点中的表达式。如下面示出的抽取树片段所示(下划实线部分为匹配节点,下划虚线部分为取用节点,下划双实线的部分既是匹配节点又是取用节点):
内容分析
-民事判决书
-通用要素提取
步骤S152,根据所述匹配节点和所述取用节点,对所述内容块进行所述节点匹配。
根据匹配节点和取用节点,能够确定节点匹配所使用的表达式(上述抽取树片段中下划波浪线的表达式),使用表达式对规范文书进行节点匹配。
步骤S153,根据所述节点匹配结果,从所述内容块中抽取所述文书要素。
示例地,节点“节点名称”中的表达式能够匹配到规范文书中“原告X某与被告X某甲XX纠纷一案”;节点“受理时间”中的表达式能够匹配到规范文书中的“本院于2017年X月X日受理后”。从而,根据节点匹配结果,可以从内容块中抽取文书要素,例如抽取到“案件名称:X某与X某甲离婚纠纷案”“案由:离婚纠纷”“受理时间:2017年X月X日”等。
示例地,使用本申请的方法,对某判决书的要素提取的部分结果为:
案号:(2016)X0001民初001号
案件类型:民事
案由:离婚纠纷
裁判日期:20XX年XX月XX日
……
家庭暴力:有
子女数量:2
子女性别:女
从上述的要素抽取的结果可以看出,本申请从规范文书中抽取文书要素,使用户不再需要从大篇幅的规范文书中逐字逐句地去寻找对自己有价值的信息,能够极大地缩短用户从规范文书中发现并整理文书要素的时间。
在一种可选择的实施方式中,抽取树中还包括辅助树,辅助树中也包含多个节点,节点中可包含表达式。辅助树中的表达式能够匹配规范文书中的固定说辞的干扰内容,这些干扰内容对理解规范文书的内容没有帮助,但是作为一种固定说辞存在于规范文书中。因此,在步骤S152之后,还包括步骤S154,如果所述匹配节点和所述取用节点位于所述辅助树中,根据所述节点匹配结果,去除表达式匹配到的内容。
示例地,本申请中示出的配置文件中,匹配辅助树节点的配置为:
本申请的步骤S154可以在步骤S153之前执行,即从内容块中抽取文书要素之前,先去除规范文书中的干扰内容,从而减少内容块的数量,降低抽取文书要素的工作量。
本申请实施例示出的一种基于配置文件的规范文书处理方法,还包括:
步骤S210,变更所述配置文件的内容。
图6为本申请实施例提供的一种基于配置文件的规范文书处理方法步骤S210的流程图,如图6所示,在一种可选择的实施方式中,步骤S210可以包括以下步骤:
步骤S211,获取变更请求,所述变更请求中包括变更目标和变更内容。
本申请中,变更内容可以包括添加配置、删除配置、修改配置的内容、调整配置顺序的一个或多个。变更目标根据变更内容的不同可以是添加配置时的添加位置、请求删除的配置、请求修改的配置、请求调整顺序的配置等。如果配置中包含编号,变更目标可用编号表示。
步骤S212,根据所述变更目标和所述变更内容,变更所述配置文件。
示例地,变更目标为配置编号为25的配置,变更内容为删除配置,根据变更目标和变更内容,删除该配置。
本申请的配置文件包含三种类别的配置,分别为:身份抽取类配置、文书切块类配置和要素抽取类配置。从而,本申请基于配置文件的规范文书处理方法在对规范文书的处理中也包含三个阶段的内容,分别为:使用身份抽取类配置从规范文书中抽取身份,使用文书切块类配置将已知文书身份规范文书切分成多个内容块,使用要素抽取类配置从内容块中抽取文书要素。此外,本申请的配置中包含前置条件,使三种类别的配置中,在后执行类别的配置以在先执行类别的配置的节点匹配结果作为触发的前置条件,使配置的执行具有目的性,按照对规范文书处理的三个阶段,循序渐进。并且,每个配置都会指定该配置调用的抽取树中的节点,不再需要全面地使用抽取树中的节点进行节点匹配,从原有的无目的性的遍历式匹配方式,变成了本申请中的有目的性的靶向匹配方式,极大地减小了抽取树中节点使用的数量,降低了节点匹配的时间,提高从规范文书中抽取文书要素的效率。
由以上技术方案可知,本申请实施例提供的一种基于配置文件的规范文书处理方法,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;所述配置文件包含多条配置,包括身份抽取类配置、文书切块类配置和要素抽取类配置。根据配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据文书切块类配置将已知文书身份的规范文书切分成多个内容块;根据要素抽取类配置,从每个内容块中抽取文书要素。由于,本申请使用了一个可编辑的配置文件,因此,只要编辑配置文件的内容,就可以更改从规范文书中抽取的文书要素,从而,能够适应不同的抽取文书要素的需求,适应性强。此外,本申请的配置文件中,每个配置中都会指定该配置调用的抽取树中的节点,使节点匹配从原有的无目的性的编历式匹配方式,变成了有目的性的靶向匹配方式,极大地减小了抽取树中节点使用的数量,降低了节点匹配的时间,提高从规范文书中抽取文书要素的效率。
本申请实施例还提供了一种基于配置文件的规范文书处理装置。
使用至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,一些节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
图7本申请实施例提供的一种基于配置文件的规范文书处理装置框图,如图7所示,所述装置包括:
第一抽取模块310,用于根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;
第一触发模块320,用于根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;
切块模块330,用于根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;
第二触发模块340,用于根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;
第二抽取模块350,用于根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
由以上技术方案可知,本申请实施例提供的一种基于配置文件的规范文书处理装置,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;所述配置文件包含多条配置,包括身份抽取类配置、文书切块类配置和要素抽取类配置。根据配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据文书切块类配置将已知文书身份的规范文书切分成多个内容块;根据要素抽取类配置,从每个内容块中抽取文书要素。由于,本申请使用了一个可编辑的配置文件,因此,只要编辑配置文件的内容,就可以更改从规范文书中抽取的文书要素,从而,能够适应不同的抽取文书要素的需求,适应性强。此外,本申请的配置文件中,每个配置中都会指定该配置调用的抽取树中的节点,使节点匹配从原有的无目的性的编历式匹配方式,变成了有目的性的靶向匹配方式,极大地减小了抽取树中节点使用的数量,降低了节点匹配的时间,提高从规范文书中抽取文书要素的效率。
本申请实施例还提供了一种基于配置文件的规范文书处理系统,图8本申请实施例提供的一种基于配置文件的规范文书处理系统框图,如图8所示,所述系统包括:
处理器410和至少一个存储器420;
所述存储器420用于存储至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述处理器410被配置为:
根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;
根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;
根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;
根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;
根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
由以上技术方案可知,本申请实施例提供的一种基于配置文件的规范文书处理系统,使用至少一个抽取树和一个可编辑的配置文件;抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;所述配置文件包含多条配置,包括身份抽取类配置、文书切块类配置和要素抽取类配置。根据配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;根据文书切块类配置将已知文书身份的规范文书切分成多个内容块;根据要素抽取类配置,从每个内容块中抽取文书要素。由于,本申请使用了一个可编辑的配置文件,因此,只要编辑配置文件的内容,就可以更改从规范文书中抽取的文书要素,从而,能够适应不同的抽取文书要素的需求,适应性强。此外,本申请的配置文件中,每个配置中都会指定该配置调用的抽取树中的节点,使节点匹配从原有的无目的性的编历式匹配方式,变成了有目的性的靶向匹配方式,极大地减小了抽取树中节点使用的数量,降低了节点匹配的时间,提高从规范文书中抽取文书要素的效率。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (10)

1.一种基于配置文件的规范文书处理方法,其特征在于,
使用至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述方法包括:
根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;
根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;
根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;
根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;
根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
2.根据权利要求1所述的方法,其特征在于,
每条所述配置中定义了匹配节点和取用节点,其中,匹配节点用于确定取用节点所在的路径,取用节点用于获取节点匹配使用的表达式,所述取用节点包括所述匹配节点和/或所述匹配节点的子节点;
所述节点匹配,包括:
根据所述配置,从抽取树中获取所述取用节点的表达式;
根据所述取用节点中的表达式,匹配规范文书中的内容。
3.根据权利要求2所述的方法,其特征在于,所述根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份的步骤,包括:
获取所述身份抽取类配置中的所述匹配节点和所述取用节点;
以规范文书原文为所述处理对象,根据所述匹配节点和所述取用节点,对规范文书进行所述节点匹配;
根据所述节点匹配结果,抽取规范文书中包含所述文书身份的目标字段;
以所述目标字段为所述处理对象,根据所述身份抽取类配置,对所述目标字段进行节点匹配;
根据所述节点匹配结果,从所述目标字段中抽取所述文书身份。
4.根据权利要求2所述的方法,其特征在于,所述根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块的步骤,包括:
获取所述文书切块类配置中的所述匹配节点和所述取用节点;
根据所述匹配节点和所述取用节点,对规范文书进行所述节点匹配;
根据所述节点匹配结果,从所述规范文书中获取块首内容;
在所述块首内容前标记分块信息;
根据所述分块信息,将规范文书切分成多个所述内容块。
5.根据权利要求2所述的方法,其特征在于,所述根据触发的所述要素抽取类配置,从所述内容块中抽取文书要素的步骤,包括:
获取所述要素抽取类配置中的所述匹配节点和所述取用节点;
根据所述匹配节点和所述取用节点,对所述内容块进行所述节点匹配;
根据所述节点匹配结果,从所述内容块中抽取所述文书要素。
6.根据权利要求5所述的方法,其特征在于,
所述抽取树中包括辅助树;
根据所述匹配节点和所述取用节点,对所述内容块进行所述节点匹配的步骤之后,还包括:
如果所述匹配节点和所述取用节点位于所述辅助树中,根据所述节点匹配结果,去除表达式匹配到的内容。
7.根据权利要求1所述的方法,其特征在于,
每条所述配置还包括配置编号;
所述配置编号用于确定所述配置的执行顺序;
以及,
所述配置编号可作为所述配置的处理对象,表示以所述配置编号指向的所述配置对规范文书的处理结果为处理对象。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
变更所述配置文件的内容,包括:
获取变更请求,所述变更请求中包括变更目标和变更内容;
根据所述变更目标和所述变更内容,变更所述配置文件。
9.一种基于配置文件的规范文书处理装置,其特征在于,
使用至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述装置包括:
第一抽取模块,用于根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;
第一触发模块,用于根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;
切块模块,用于根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;
第二触发模块,用于根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;
第二抽取模块,用于根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
10.一种基于配置文件的规范文书处理系统,其特征在于,所述系统包括:
处理器和至少一个存储器;
所述存储器用于存储至少一个抽取树和一个可编辑的配置文件;
所述抽取树包括多个节点,节点中包含用于对规范文书进行节点匹配的表达式;
所述配置文件包含多条配置,每条所述配置用于调用所述抽取树中的节点对规范文书进行节点匹配,以及根据节点匹配结果对规范文书执行预设的处理方式;每条所述配置以规范文书全文或其他所述配置对规范文书的处理结果作为处理对象;
所述配置包括身份抽取类配置、文书切块类配置和要素抽取类配置,其中,所述文书切块类配置以至少一条所述身份抽取类配置的节点匹配结果作为触发的前置条件,所述要素抽取类配置以至少一条所述文书切块类配置的节点匹配结果作为触发的前置条件;
所述处理器被配置为:
根据所述配置文件中的所述身份抽取类配置,从规范文书中抽取文书身份;
根据所述身份抽取类配置的节点匹配结果,触发满足前置条件的所述文书切块类配置;
根据触发的所述文书切块类配置,对规范文书切块,生成规范文书的多个内容块;
根据所述文书切块类配置的节点匹配结果,触发满足前置条件的所述要素抽取类配置;
根据触发的所述要素抽取类配置,从每个所述内容块中抽取文书要素。
CN201711408304.1A 2017-12-22 2017-12-22 一种基于配置文件的规范文书处理方法、装置及系统 Active CN108009137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711408304.1A CN108009137B (zh) 2017-12-22 2017-12-22 一种基于配置文件的规范文书处理方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711408304.1A CN108009137B (zh) 2017-12-22 2017-12-22 一种基于配置文件的规范文书处理方法、装置及系统

Publications (2)

Publication Number Publication Date
CN108009137A true CN108009137A (zh) 2018-05-08
CN108009137B CN108009137B (zh) 2021-01-29

Family

ID=62060624

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711408304.1A Active CN108009137B (zh) 2017-12-22 2017-12-22 一种基于配置文件的规范文书处理方法、装置及系统

Country Status (1)

Country Link
CN (1) CN108009137B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245210A (zh) * 2019-06-25 2019-09-17 北京市律典通科技有限公司 一种要素融合方法及系统
CN111222326A (zh) * 2020-01-15 2020-06-02 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111274354A (zh) * 2020-01-15 2020-06-12 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111932413A (zh) * 2020-09-14 2020-11-13 平安国际智慧城市科技股份有限公司 案件要素提取方法、装置、设备及介质
CN112257428A (zh) * 2020-10-22 2021-01-22 鼎富智能科技有限公司 一种处罚决定书分析方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060056671A1 (en) * 2004-09-15 2006-03-16 Jayati Ghosh Automated feature extraction processes and systems
CN101048773A (zh) * 2004-10-25 2007-10-03 日本电气株式会社 文件分析系统、以及文件适应系统
CN101477528A (zh) * 2008-12-08 2009-07-08 广东省农业科学院科技情报研究所 一种基于xml的行业信息分类映射方法
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统
CN102103574A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种格式化输出书版小样文件内容的方法及系统
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103714075A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种确定网站目录页的方法及装置
CN105187480A (zh) * 2015-06-29 2015-12-23 小米科技有限责任公司 配置文件获取方法、装置及系统
CN106407392A (zh) * 2016-09-19 2017-02-15 北京集奥聚合科技有限公司 一种基于标记语言的节点映射关系抽取方法及系统
CN106815213A (zh) * 2016-12-30 2017-06-09 全民互联科技(天津)有限公司 一种合同履行条款自动提取方法及系统
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060056671A1 (en) * 2004-09-15 2006-03-16 Jayati Ghosh Automated feature extraction processes and systems
CN101048773A (zh) * 2004-10-25 2007-10-03 日本电气株式会社 文件分析系统、以及文件适应系统
CN101673256A (zh) * 2008-09-11 2010-03-17 北大方正集团有限公司 一种基于文字流的文章元数据信息自动抽取方法及系统
CN101477528A (zh) * 2008-12-08 2009-07-08 广东省农业科学院科技情报研究所 一种基于xml的行业信息分类映射方法
CN102103574A (zh) * 2009-12-17 2011-06-22 北大方正集团有限公司 一种格式化输出书版小样文件内容的方法及系统
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103714075A (zh) * 2012-09-29 2014-04-09 北京百度网讯科技有限公司 一种确定网站目录页的方法及装置
CN105187480A (zh) * 2015-06-29 2015-12-23 小米科技有限责任公司 配置文件获取方法、装置及系统
CN106815265A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106407392A (zh) * 2016-09-19 2017-02-15 北京集奥聚合科技有限公司 一种基于标记语言的节点映射关系抽取方法及系统
CN106815213A (zh) * 2016-12-30 2017-06-09 全民互联科技(天津)有限公司 一种合同履行条款自动提取方法及系统
CN107145479A (zh) * 2017-05-04 2017-09-08 北京文因互联科技有限公司 基于文本语义的篇章结构分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
梁楠: "基于文本挖掘的律师推荐方法研究与应用", 《中国优秀硕士学位论文全文数据库》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245210A (zh) * 2019-06-25 2019-09-17 北京市律典通科技有限公司 一种要素融合方法及系统
CN111222326A (zh) * 2020-01-15 2020-06-02 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111274354A (zh) * 2020-01-15 2020-06-12 中科鼎富(北京)科技发展有限公司 一种裁判文书结构化方法及装置
CN111310446A (zh) * 2020-01-15 2020-06-19 中科鼎富(北京)科技发展有限公司 裁判文书的信息抽取方法及装置
CN111274354B (zh) * 2020-01-15 2023-08-11 鼎富智能科技有限公司 一种裁判文书结构化方法及装置
CN111310446B (zh) * 2020-01-15 2023-11-24 鼎富智能科技有限公司 裁判文书的信息抽取方法及装置
CN111932413A (zh) * 2020-09-14 2020-11-13 平安国际智慧城市科技股份有限公司 案件要素提取方法、装置、设备及介质
CN112257428A (zh) * 2020-10-22 2021-01-22 鼎富智能科技有限公司 一种处罚决定书分析方法及装置

Also Published As

Publication number Publication date
CN108009137B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN108009137A (zh) 一种基于配置文件的规范文书处理方法、装置及系统
Ganea et al. Probabilistic bag-of-hyperlinks model for entity linking
CN109635298B (zh) 团体状态识别方法、装置、计算机设备及存储介质
US9361587B2 (en) Authoring system for bayesian networks automatically extracted from text
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN104484339B (zh) 一种相关实体推荐方法和系统
Guerrouj et al. Tidier: an identifier splitting approach using speech recognition techniques
CN107766318B (zh) 一种关键词的抽取方法、装置及电子设备
CN105893410A (zh) 一种关键词提取方法和装置
WO2019190974A9 (en) Method and system for suggesting revisions to an electronic document
CN108549723B (zh) 一种文本概念分类方法、装置及服务器
JP6663826B2 (ja) 計算機及び応答の生成方法
JP2020191075A (ja) Web APIおよび関連エンドポイントの推薦
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
Arias et al. A framework for managing requirements of software product lines
WO2022134779A1 (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
Ali et al. Porter stemming algorithm for semantic checking
CN104573030A (zh) 一种文本情绪预测方法及装置
CN106776744A (zh) 一种基于互联网信息的软件开发方法及系统
Abebe et al. Extraction of domain concepts from the source code
CN112580331A (zh) 政策文本的知识图谱构建方法及系统
Bennett et al. Lexsemtm: A semantic dataset based on all-words unsupervised sense distribution learning
CN114141384A (zh) 用于检索医学数据的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province

Applicant after: Dingfu Intelligent Technology Co., Ltd

Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing

Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd.

GR01 Patent grant
GR01 Patent grant