CN111898361A - 法律文本解析方法、装置、设备和存储介质 - Google Patents

法律文本解析方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111898361A
CN111898361A CN202010678425.3A CN202010678425A CN111898361A CN 111898361 A CN111898361 A CN 111898361A CN 202010678425 A CN202010678425 A CN 202010678425A CN 111898361 A CN111898361 A CN 111898361A
Authority
CN
China
Prior art keywords
target field
rule
analysis
expression
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010678425.3A
Other languages
English (en)
Inventor
倪有发
杜向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aegis Information Technology Co ltd
Original Assignee
Nanjing Aegis Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aegis Information Technology Co ltd filed Critical Nanjing Aegis Information Technology Co ltd
Priority to CN202010678425.3A priority Critical patent/CN111898361A/zh
Publication of CN111898361A publication Critical patent/CN111898361A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Abstract

本申请公开了一种法律文本解析方法、装置、设备和存储介质。方法包括获取待解析法律文本;对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;根据目标字段分类体系,构建目标字段解析图;根据预设规则,针对目标字段构建目标字段规则表达式;利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。本申请降低了规则的编写难度,提高了规则库的可维护性和实施成本。本申请解决相关技术中利用正则表达式规则来进行法律本文解析,存在正则表达式规则可读性差,无法复用,且维护及实施难度较大的技术问题。

Description

法律文本解析方法、装置、设备和存储介质
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种法律文本解析方法、装置、设备和存储介质。
背景技术
法律文本泛指一种法律领域的文本,其具有规范性、准确性、严谨性和权威性。法律文本解析就是从法律文本自身和用户需求两个方面对法律领域非结构化或半结构化的法律文本进行结构化的过程。一方面,由于法律文本自身具有规范性、准确性、严谨性和权威性等特点,需要对其进行基础的结构化解析,比如裁判文书的基础信息包括案号、审理程序、案由、裁判日期等,这些基础信息需要进行解析;另一方面,用户往往根据自己的具体业务场景,如非常规司法统计、类案推荐、量刑预测等,提出一些定制的解析需求,从而需要对法律文本进行深度解析。
申请号为201510457976.6的中国专利公开了一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法,利用正则表达式提取履历信息,而由于履历信息属于简单文本,用于提取履历信息的正则表达式规则库数量不大,且不需要专业领域知识,但是对于法律文本的解析,需要法律领域专业知识,使用正则表达式很难构建庞大的法律文本解析规则库。
申请号为201711417342.3的中国专利公开了一种基于深度学习的不规则实体识别方法,通过深度学习模型来自动识别不规则实体,其中实体一般是指人、事、物或抽象的概念等长度较短的文本,这种方法对于法律文本这类较长且重推理的文本,会产生庞大的弱关联关系图,识别准确率会明显降低。
综上,目前对于文本的解析主要有两个方法,一种是编程人员编写少量正则表达式规则来实现本文解析,另一种是基于深度学习,构建类似于命名实体抽取的模型来实现实体及关系抽取。
但是,以上两个方法存在以下问题:
1、法律文本解析需要很强的法律领域专业知识,正则表达式规则面向的是专业编程技术人员,法律专业人员很难正确使用正则表达式规则来描述法律文本的解析规则,并且正则表达式规则可读性差,多个表达式之间无法复用,维护难度大;
2、深度学习语言模型构建语料标注成本高、难度大,适用于短文本的处理,而对于法律文本这种长文本并不适用。
针对相关技术中利用正则表达式规则来进行法律本文解析,存在正则表达式规则可读性差,无法服用,且维护及实施难度较大的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种法律文本解析方法、装置、设备和存储介质,以解决相关技术中利用正则表达式规则来进行法律本文解析,存在正则表达式规则可读性差,无法复用,且维护及实施难度较大的问题。
为了实现上述目的,第一方面,本申请提供了一种法律文本解析方法。
根据本申请的方法包括:
获取待解析法律文本;
对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
根据目标字段分类体系,构建目标字段解析图;
根据预设规则,针对目标字段构建目标字段规则表达式;
利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
在本申请一种可能的实现方式中,根据目标字段分类体系,构建目标字段解析图,包括:
根据目标字段分类体系,将目标字段拆分为至少两个子字段;
以各子字段间的依赖关系为依据,将各子字段分别设置为目标字段解析图的节点;
根据各节点的执行方向,对各节点进行有向连线,得到目标字段解析图。
在本申请一种可能的实现方式中,预设规则为依据法律领域知识预设的多个简单规则,根据预设规则,针对目标字段构建目标字段规则表达式,包括:
根据目标字段的语义,引用符合目标字段语义的多个简单规则;
利用多个简单规则构成目标字段规则表达式的多个子规则表达式;
对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式。
在本申请一种可能的实现方式中,利用多个简单规则构成目标字段规则表达式的多个子规则表达式;对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式,包括:
利用多个简单规则构成目标字段规则表达式的多个子规则表达式,对每一个子规则表达式进行解析测试;
若测试结果为解析错误,则调整对应的子规则表达式,进行解析测试;
若测试结果为解析正确,则根据目标字段语义判断是否完成子规则表达式的选择;若否,则根据目标字段语义,引用符合目标字段语义的简单规则,对简单规则构成的子规则表达式进行解析测试,若是,则得到目标字段规则表达式。
在本申请一种可能的实现方式中,利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果,包括:
依据广度优先搜索算法,设置各节点的入度,入度为指向节点的有向连线的条数;
对目标字段解析图进行遍历解析,判断当前遍历的节点的入度是否大于1,若否,则标记当前遍历的节点为已遍历节点,基于目标字段规则表达式对已遍历节点进行解析,若是,则将当前遍历的节点的入度减1,继续下一轮遍历;
当各节点均完成遍历后,得到解析结果。
第二方面,本申请还提供了一种法律文本解析装置,装置包括:
获取模块,用于获取待解析法律文本;
预处理模块,用于对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
第一构建模块,用于根据目标字段分类体系,构建目标字段解析图;
第二构建模块,用于根据预设规则,针对目标字段构建目标字段规则表达式;
解析模块,用于利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
在本申请一种可能的实现方式中,第一构建模块具体用于:
根据目标字段分类体系,将目标字段拆分为至少两个子字段;
以各子字段间的依赖关系为依据,将各子字段分别设置为目标字段解析图的节点;
根据各节点的执行方向,对各节点进行有向连线,得到目标字段解析图。
在本申请一种可能的实现方式中,预设规则为依据法律领域知识预设的多个简单规则,第二构建模块具体用于:
根据目标字段的语义,引用符合目标字段语义的多个简单规则;
利用多个简单规则构成目标字段规则表达式的多个子规则表达式;
对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式。
在本申请一种可能的实现方式中,解析模块具体用于:
在广度优先搜索算法的基础之上,设置各节点的入度,入度为指向节点的有向连线的条数;
对目标字段解析图进行遍历解析,判断当前遍历的节点的入度是否大于1,若否,则标记当前遍历的节点为已遍历节点,基于目标字段规则表达式对已遍历节点进行解析,若是,则将当前遍历的节点的入度减1,继续下一轮遍历;
当各节点均完成遍历后,得到解析结果。
第三方面,本申请还提供了一种设备,设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行以实现第一方面中任一项的法律文本解析方法。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行第一方面任一项的法律文本解析方法中的步骤。
在本申请实施例中,提供一种法律文本解析方法,根据预设规则针对目标字段构建目标字段规则表达式,本申请中的目标字段规则表达式用于描述法律文本的解析规则,其是根据预设规则来构建的,提高了规则表达式的可读性和复用性,相较于正则表达式,降低了规则的编写难度,法律人员可以直接编写和管理目标字段规则表达式,大大提高了规则库的可维护性和实施成本;进而解决相关技术中利用正则表达式规则来进行法律本文解析,存在正则表达式规则可读性差,无法复用,且维护及实施难度较大的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的一种法律文本解析方法的一个实施例流程示意图;
图2是根据本申请实施例提供的步骤103的一个实施例流程示意图;
图3是根据本申请实施例提供的步骤104的一个实施例流程示意图;
图4是根据本申请实施例提供的步骤105的一个实施例流程示意图;
图5是根据本申请实施例提供的一种法律文本解析装置的一个实施例结构示意图;
图6是根据本申请实施例提供的一种设备的一个实施例结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
另外,术语“多个”的含义应为两个以及两个以上。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
首先,本申请实施例提供一种法律文本解析方法,该法律文本解析方法的执行主体为法律文本解析装置,该法律文本解析装置应用于处理器,该法律文本解析方法包括:获取待解析法律文本;对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;根据目标字段分类体系,构建目标字段解析图;根据预设规则,针对目标字段构建目标字段规则表达式;利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
请参阅图1,图1为本申请实施例所提供的一种法律文本解析方法的一个实施例流程示意图,该法律文本解析方法包括:
101、获取待解析法律文本。
本实施例中,获取待解析法律文本的方式可以是被动获取,比如操作人员通过拍照、扫描、文字输入、语音输入等方式将待解析法律文本输入到处理器;也可以是主动获取,比如规定将待解析法律文本存储在一个固定区域,处理器按照设定的时间间隔比如5分钟,主动访问该固定区域,若该固定区域内存在待解析法律文本,则对其进行获取,若不存在,则不执行相关操作,本申请实施例的待解析法律文本的获取方式具体此处不做限定。
102、对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系。
本申请实施例中,对待解析法律文本中的目标字段进行梳理,可以是按照该目标字段的语义,将目标字段中的主语、谓语、宾语进行梳理分类,得到目标字段分类,而目标字段分类体系由该目标字段中的所有目标字段分类构成,需要说明的是,并不是所有目标字段都具有主语、谓语以及宾语,本实施例中的目标字段分类可以包括比主语、谓语和宾语更多或更少的类别,具体此处不做限定。
103、根据目标字段分类体系,构建目标字段解析图。
由于目标字段分类体系是由目标字段按照语义分类得到的目标字段分类构成的,因此,各目标字段分类之间存在着一定的依赖关系,即前后关系,本申请实施例中,根据目标字段分类体系中各目标字段分类之间的依赖关系,构建目标字段解析图。
104、根据预设规则,针对目标字段构建目标字段规则表达式。
本申请实施例中,根据目标字段的语义,对目标字段分类的具体内容进行扩展,使其具有多种表达,比如目标字段分类的具体内容为冒充,则对其进行扩展可以是冒用、假借等,并且为所有这些扩展的内容指定一个唯一的规则名称,如冒充、冒用、假借等的规则名称均为冒充,这样的语义扩展,可以是根据法律领域专业知识设定的简单规则,法律人员通过引用这样的简单规则便可以对目标字段规则表达式进行构建。
105、利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
本申请实施例中,对目标字段解析图进行遍历解析,实际上是对目标字段分类进行遍历解析,依据目标字段分类体系中各目标字段分类之间的依赖关系即前后关系,利用目标字段规则表达式按照目标字段解析图的逻辑关系进行先后顺序的解析,得到最终的解析结果。
在本申请实施例中,根据预设规则针对目标字段构建目标字段规则表达式,本申请中的目标字段规则表达式用于描述法律文本的解析规则,其是根据预设规则来构建的,提高了规则表达式的可读性和复用性,相较于正则表达式,降低了规则的编写难度,法律人员可以直接编写和管理目标字段规则表达式,大大提高了规则库的可维护性和实施成本。
如图2所示,在本申请一些实施例中,步骤103中根据目标字段分类体系,构建目标字段解析图,可以进一步包括:
201、根据目标字段分类体系,将目标字段拆分为至少两个子字段。
通常情况下,一个目标字段的完整的语义包含有主语、谓语和宾语,而在有些目标字段中有可能出现缺少主语的情况,也有可能出现缺少谓语或宾语的情况,因此,根据目标字段语义的分类,构成目标字段分类体系,将目标字段拆分为多个子字段,比如目标字段为“冒充公检法人员”,则将其分别拆分为子字段“冒充”和子字段“公检法人员”。
202、以各子字段间的依赖关系为依据,将各子字段分别设置为目标字段解析图的节点。
本申请实施例中的目标字段解析图的节点包括有前置节点和后置节点,前置节点和后置节点体现了子字段间的依赖关系,需要说明的是,此处的前置和后置是相对某两个具体的子字段而言的,比如根据目标字段“冒充公检法人员”,拆分成的子字段“冒充”和子字段“公检法人员”,其中子字段“冒充”相对于子字段“公检法人员”是前置节点,子字段“公检法人员”相对于子字段“冒充”是后置节点,而若子字段“公检法人员”后还有别的子字段,则子字段“公检法人员”相对于该别的子字段来说便是前置节点,按照上述的依赖关系,将每一个子字段分别设置为目标字段解析图的节点。
203、根据各节点的执行方向,对各节点进行有向连线,得到目标字段解析图。
由步骤202可知,目标字段的子字段间具有前置和后置的依赖关系,因此,对应的目标字段解析图的各节点之间也是具有相应的依赖关系的,子字段间的依赖关系体现为节点间的先后顺序,此处的先后顺序即为各节点的执行方向,按照各节点的执行方向对各节点进行由先到后的连线,并且连线具有方向,由前一节点指向后一节点,构成有向连线,便得到本申请实施例的目标字段解析图。
如图3所示,在本申请一些实施例中,步骤104中预设规则为依据法律领域知识预设的多个简单规则,根据预设规则,针对目标字段构建目标字段规则表达式,可以进一步包括:
301、根据目标字段的语义,引用符合目标字段语义的多个简单规则。
本申请实施例中,根据步骤104,假设目标字段为“冒充公检法工作人员”,则其引用的简单规则可以是“冒充:冒充|冒用|假借”,“公检法工作人员:公安|民警|检察官|检察院|法院|法官|邮政|公检法”。
302、利用多个简单规则构成目标字段规则表达式的多个子规则表达式。
本申请实施例中,子规则表达式可以是用任意括号将每一个简单规则括起来进行标识,比如用尖括号表示引用简单规则构成子规则表达式,比如<冒充><公检法工作人员>等。
303、对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式。
本申请实施例中,拼接词表示为<any>,需要说明的是,对于拼接词的设定,可以根据实际情况进行选择,本实施例不做限定,因此,按照目标字段语义对目标字段“冒充公检法工作人员”连接为:<冒充><any><公检法工作人员>。
在本申请一些实施例中,利用多个简单规则构成目标字段规则表达式的多个子规则表达式;对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式,可以进一步包括:
利用多个简单规则构成目标字段规则表达式的多个子规则表达式,对每一个子规则表达式进行解析测试;
若测试结果为解析错误,则调整对应的子规则表达式,再次进行解析测试;
若测试结果为解析正确,则根据目标字段语义判断是否完成子规则表达式的选择;若否,则根据目标字段语义,引用符合目标字段语义的简单规则,再对简单规则构成的子规则表达式进行解析测试,若是,则得到目标字段规则表达式。
如图4所示,在本申请一些实施例中,利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果,可以进一步包括:
401、依据广度优先搜索算法,设置各节点的入度,入度为指向节点的有向连线的条数。
广度优先搜索算法(Breadth First Search,BFS)又称为宽度优先搜索算法,是最简便的图的搜索算法之一,属于一种盲目搜寻法,目的是系统地展开并检查图中所有的节点,以找寻结果。由于BFS算法能够保证按照一种广度优先的策略来遍历目标字段解析图上的节点,但是不能保证后置节点一定在其所有的前置节点之后被执行,而由于法律文本具有执行的先后顺序,因此,在总体按照广度优先进行遍历的同时,需要设定前置节点一定比其后置节点先执行,因此,根据指向每一个节点的有向连线的条数,设置该节点的入度值。
402、对目标字段解析图进行遍历解析,判断当前遍历的节点的入度是否大于1,若否,则标记当前遍历的节点为已遍历节点,基于目标字段规则表达式对已遍历节点进行解析,若是,则将当前遍历的节点的入度减1,继续下一轮遍历。
403、当各节点均完成遍历后,得到解析结果。
本申请实施例在目标字段解析图的广度优先搜索算法的基础之上,通过引入对入度的判断,解决了目标字段解析图的遍历顺序问题,适用于法律文本等较长且重推理的文本的推理解析,即可以实现需要复杂逻辑推理过程才能解决的法律文本的推理解析。
为了更好实施本申请实施例中的法律文本解析方法,在法律文本解析方法基础之上,本申请实施例还提供一种法律文本解析装置,如图5所示,法律文本解析装置500包括:
获取模块501,用于获取待解析法律文本;
预处理模块502,用于对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
第一构建模块503,用于根据目标字段分类体系,构建目标字段解析图;
第二构建模块504,用于根据预设规则,针对目标字段构建目标字段规则表达式;
解析模块505,用于利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
本申请一些实施例中,第一构建模块503具体用于:
根据目标字段分类体系,将目标字段拆分为至少两个子字段;
以各子字段间的依赖关系为依据,将各子字段分别设置为目标字段解析图的节点;
根据各节点的执行方向,对各节点进行有向连线,得到目标字段解析图。
本申请一些实施例中,预设规则为依据法律领域知识预设的多个简单规则,第二构建模块504具体用于:
根据目标字段的语义,引用符合目标字段语义的多个简单规则;
利用多个简单规则构成目标字段规则表达式的多个子规则表达式;
对多个子规则表达式按照目标字段语义进行连接,得到目标字段规则表达式。
本申请一些实施例中,解析模块505具体用于:
在广度优先搜索算法的基础之上,设置各节点的入度,入度为指向节点的有向连线的条数;
对目标字段解析图进行遍历解析,判断当前遍历的节点的入度是否大于1,若否,则标记当前遍历的节点为已遍历节点,基于目标字段规则表达式对已遍历节点进行解析,若是,则将当前遍历的节点的入度减1,继续下一轮遍历;
当各节点均完成遍历后,得到解析结果。
本申请实施例还提供一种设备,其集成了本申请实施例所提供的任一种法律文本解析装置,设备包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中一个或多个应用程序被存储于存储器中,并配置为由处理器执行上述法律文本解析方法实施例中任一实施例中的法律文本解析方法中的步骤。
本申请实施例还提供一种设备,其集成了本申请实施例所提供的任一种法律文本解析装置。如图6所示,其示出了本申请实施例所涉及的设备的结构示意图,具体来讲:
该设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上计算机可读存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图6中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该设备的控制中心,利用各种接口和线路连接整个设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行设备的各种功能和处理数据,从而对设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;处理器601可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取待解析法律文本;
对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
根据目标字段分类体系,构建目标字段解析图;
根据预设规则,针对目标字段构建目标字段规则表达式;
利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。其上存储有计算机程序,计算机程序被处理器进行加载,以执行本申请实施例所提供的任一种法律文本解析方法中的步骤。例如,计算机程序被处理器进行加载可以执行如下步骤:
获取待解析法律文本;
对待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
根据目标字段分类体系,构建目标字段解析图;
根据预设规则,针对目标字段构建目标字段规则表达式;
利用目标字段规则表达式对目标字段解析图进行遍历解析,得到解析结果。
以上仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种法律文本解析方法,其特征在于,包括:
获取待解析法律文本;
对所述待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
根据所述目标字段分类体系,构建目标字段解析图;
根据预设规则,针对所述目标字段构建目标字段规则表达式;
利用所述目标字段规则表达式对所述目标字段解析图进行遍历解析,得到解析结果。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标字段分类体系,构建目标字段解析图,包括:
根据所述目标字段分类体系,将所述目标字段拆分为至少两个子字段;
以所述各子字段间的依赖关系为依据,将所述各子字段分别设置为所述目标字段解析图的节点;
根据所述各节点的执行方向,对各节点进行有向连线,得到所述目标字段解析图。
3.如权利要求1所述的方法,其特征在于,所述预设规则为依据法律领域知识预设的多个简单规则,所述根据预设规则,针对所述目标字段构建目标字段规则表达式,包括:
根据所述目标字段的语义,引用符合所述目标字段语义的多个所述简单规则;
利用多个所述简单规则构成所述目标字段规则表达式的多个子规则表达式;
对所述多个子规则表达式按照所述目标字段语义进行连接,得到所述目标字段规则表达式。
4.如权利要求3所述的方法,其特征在于,所述利用多个所述简单规则构成所述目标字段规则表达式的多个子规则表达式;对所述多个子规则表达式按照所述目标字段语义进行连接,得到所述目标字段规则表达式,包括:
利用多个所述简单规则构成所述目标字段规则表达式的多个子规则表达式,对所述每一个子规则表达式进行解析测试;
若测试结果为解析错误,则调整对应的子规则表达式,进行所述解析测试;
若测试结果为解析正确,则根据所述目标字段语义判断是否完成所述子规则表达式的选择;若否,则根据所述目标字段语义,引用符合所述目标字段语义的所述简单规则,对所述简单规则构成的所述子规则表达式进行解析测试,若是,则得到所述目标字段规则表达式。
5.如权利要求2所述的方法,其特征在于,所述利用所述目标字段规则表达式对所述目标字段解析图进行遍历解析,得到解析结果,包括:
依据广度优先搜索算法,设置所述各节点的入度,所述入度为指向所述节点的有向连线的条数;
对所述目标字段解析图进行遍历解析,判断当前遍历的节点的入度是否大于1,若否,则标记所述当前遍历的节点为已遍历节点,基于所述目标字段规则表达式对已遍历节点进行解析,若是,则将所述当前遍历的节点的入度减1,继续下一轮遍历;
当所述各节点均完成遍历后,得到所述解析结果。
6.一种法律文本解析装置,其特征在于,包括:
获取模块,用于获取待解析法律文本;
预处理模块,用于对所述待解析法律文本中的目标字段进行梳理,得到目标字段分类体系;
第一构建模块,用于根据所述目标字段分类体系,构建目标字段解析图;
第二构建模块,用于根据预设规则,针对所述目标字段构建目标字段规则表达式;
解析模块,用于利用所述目标字段规则表达式对所述目标字段解析图进行遍历解析,得到解析结果。
7.如权利要求6所述的装置,其特征在于,所述第一构建模块具体用于:
根据所述目标字段分类体系,将所述目标字段拆分为至少两个子字段;
以所述各子字段间的依赖关系为依据,将所述各子字段分别设置为所述目标字段解析图的节点;
根据所述各节点的执行方向,对各节点进行有向连线,得到所述目标字段解析图。
8.如权利要求6所述的装置,其特征在于,所述预设规则为依据法律领域知识预设的多个简单规则,所述第二构建模块具体用于:
根据所述目标字段的语义,引用符合所述目标字段语义的多个所述简单规则;
利用多个所述简单规则构成所述目标字段规则表达式的多个子规则表达式;
对所述多个子规则表达式按照所述目标字段语义进行连接,得到所述目标字段规则表达式。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个应用程序,其中所述一个或多个应用程序被存储于所述存储器中,并配置为由所述处理器执行以实现权利要求1-5中任一项所述的法律文本解析方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1-5任一项所述的法律文本解析方法中的步骤。
CN202010678425.3A 2020-07-14 2020-07-14 法律文本解析方法、装置、设备和存储介质 Pending CN111898361A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010678425.3A CN111898361A (zh) 2020-07-14 2020-07-14 法律文本解析方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010678425.3A CN111898361A (zh) 2020-07-14 2020-07-14 法律文本解析方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN111898361A true CN111898361A (zh) 2020-11-06

Family

ID=73191365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010678425.3A Pending CN111898361A (zh) 2020-07-14 2020-07-14 法律文本解析方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111898361A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN108304386A (zh) * 2018-03-05 2018-07-20 上海思贤信息技术股份有限公司 一种基于逻辑规则推断法律文书判决结果的方法及装置
CN110414007A (zh) * 2019-08-02 2019-11-05 南京擎盾信息科技有限公司 一种基于法理图规则引擎的法律概念识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108073569A (zh) * 2017-06-21 2018-05-25 北京华宇元典信息服务有限公司 一种基于多层级多维度语义理解的法律认知方法、装置和介质
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN108304386A (zh) * 2018-03-05 2018-07-20 上海思贤信息技术股份有限公司 一种基于逻辑规则推断法律文书判决结果的方法及装置
CN110414007A (zh) * 2019-08-02 2019-11-05 南京擎盾信息科技有限公司 一种基于法理图规则引擎的法律概念识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵维纳等: "基于法律文本的藏语句子边界识别", 《第五届全国青年计算语言学研讨会论文集》 *

Similar Documents

Publication Publication Date Title
CN106919689B (zh) 基于术语释义知识单元的专业领域知识图谱动态构建方法
CN111639497B (zh) 一种基于大数据机器学习的异常行为发现方法
CN108664599B (zh) 智能问答方法、装置、智能问答服务器及存储介质
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN109872162A (zh) 一种处理用户投诉信息的风控分类识别方法及系统
CN106934254A (zh) 一种开源许可证的分析方法及装置
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN110147540B (zh) 业务安全需求文档生成方法及系统
KR100800460B1 (ko) 웹 온톨로지 검색/분류 시스템 및 방법
CN114817575B (zh) 基于扩展模型的大规模电力事理图谱处理方法
CN113468317A (zh) 一种简历筛选方法、系统、设备和存储介质
CN110956271B (zh) 一种海量数据的多级分类方法及装置
Li et al. Automatic Classification of Review Comments in Pull-based Development Model.
CN111858834A (zh) 基于ai的案件争议焦点确定方法、装置、设备及介质
Mollas et al. Altruist: Argumentative explanations through local interpretations of predictive models
CN117271767B (zh) 基于多智能体的运维知识库的建立方法
CN109344400A (zh) 一种文献入库的判断方法和装置
CN112231453A (zh) 一种智能问答方法、装置、计算机设备及存储介质
CN111898361A (zh) 法律文本解析方法、装置、设备和存储介质
CN111178043A (zh) 一种识别学术观点句的方法及系统
CN116186759A (zh) 一种面向隐私计算的敏感数据识别与脱敏方法
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN111695117B (zh) 一种webshell脚本检测方法及装置
Sinpang et al. Detecting ambiguity in requirements analysis using Mamdani fuzzy inference
Wen et al. Code similarity detection using ast and textual information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201106

RJ01 Rejection of invention patent application after publication