发明内容
鉴于上述问题,本申请提出了一种案件卷宗处理方法、相关设备及可读存储介质。具体方案如下:
一种案件卷宗处理方法,包括:
获取待处理案件卷宗对应的文本;
确定所述文本中包含的案由以及每个案由对应的事实要素;
针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规;所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系;
基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
可选地,所述法律法规知识库的构建过程如下:
针对每个案由,构建所述案由的案由知识库,所述案由的案由知识库中包含多条知识,每条知识用于指示所述案由的一个事实要素与至少一个法律法规的对应关系;
将构建的所有案由的案由知识库组合生成所述法律法规知识库。
可选地,每个案由的案由知识库的构建过程如下:
获取与所述案由对应的事实要素集合;
基于所述事实要素集合,确定与所述案由相关的法律法规集合;
针对所述事实要素集合中的每一事实要素,从所述案由相关的法律法规集合中确定与所述事实要素对应的至少一个法律法规;
基于各个事实要素分别对应的至少一个法律法规,构建所述案由的案由知识库。
可选地,所述基于所述事实要素集合,确定与所述案由相关的法律法规集合,包括:
基于所述事实要素集合,确定与所述案由相关的候选法律法规集合;
将所述候选法律法规集合中,与所述案由相关性满足预设条件的候选法律法规,最终确定为与所述案由相关的法律法规;
将最终确定为与所述案由相关的法律法规进行组合,得到与所述案由相关的法律法规集合。
可选地,所述基于所述事实要素集合,确定与所述案由相关的候选法律法规集合,包括:
针对所述事实要素集合中的每个事实要素,基于所述事实要素以及所述事实要素的同义词,检索预先收集的法律法规,得到与所述事实要素相关的候选法律法规集合;
将各事实要素相关的候选法律法规集合进行组合,得到与所述案由相关的候选法律法规集合。
可选地,从所述案由相关的法律法规集合中确定与每个事实要素对应的至少一个法律法规,包括:
将所述事实要素,以及所述案由相关的法律法规集合输入预先构建的所述案由的法律法规匹配模型,所述案由的法律法规匹配模型输出所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配结果;
基于所述事实要素与所述案由相关的法律法规集合中各法律法规的匹配结果,确定所述案由相关的法律法规集合中与所述事实要素对应的至少一个法律法规。
可选地,所述案由的法律法规匹配模型的训练方式如下:
确定训练数据集,所述训练数据集中的每个训练数据包括一个与所述案由对应的问题,以及与所述问题的答案对应的法律法规;
确定每个训练数据的标签,每个训练数据的标签为预先标注的所述问题与所述法律法规的匹配结果;
以所述训练数据集,所述案由,以及所述案由对应的事实要素集合为训练样本,以各个训练数据的标签为样本标签,训练得到所述案由的初始法律法规匹配模型;
对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
可选地,所述对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型,包括:
确定优化训练数据集,所述优化训练数据集中包括所述案由对应的人工校对数据,所述人工校对数据包括用于指示所述案由的一个事实要素与一个法律法规对应的正例数据,和/或,用于指示所述案由的一个事实要素与一个法律法规不对应的负例数据;
基于所述优化训练数据集,对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
一种案件卷宗处理装置,包括:
获取单元,用于获取待处理案件卷宗对应的文本;
第一确定单元,用于确定所述文本中包含的案由以及每个案由对应的事实要素;
第二确定单元,用于针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规;所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系;
第三确定单元,用于基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
可选地,所述装置还包括法律法规知识库构建单元;
所述法律法规知识库构建单元包括:
案由的案由知识库构建单元,用于针对每个案由,构建所述案由的案由知识库,所述案由的案由知识库中包含多条知识,每条知识用于指示所述案由的一个事实要素与至少一个法律法规的对应关系;
组合单元,用于将构建的所有案由的案由知识库组合生成所述法律法规知识库。
可选地,所述案由的案由知识库构建单元,包括:
事实要素集合获取单元,用于获取与所述案由对应的事实要素集合;
法律法规集合确定单元,用于基于所述事实要素集合,确定与所述案由相关的法律法规集合;
对应关系确定单元,用于针对所述事实要素集合中的每一事实要素,从所述案由相关的法律法规集合中确定与所述事实要素对应的至少一个法律法规;
案由的案由知识库构建子单元,用于基于各个事实要素分别对应的至少一个法律法规,构建所述案由的案由知识库。
可选地,所述法律法规集合确定单元,包括:
候选法律法规集合确定单元,用于基于所述事实要素集合,确定与所述案由相关的候选法律法规集合;
法律法规集合确定子单元,用于将所述候选法律法规集合中,与所述案由相关性满足预设条件的候选法律法规,最终确定为与所述案由相关的法律法规;将最终确定为与所述案由相关的法律法规进行组合,得到与所述案由相关的法律法规集合。
可选地,所述候选法律法规集合确定单元,具体用于:
针对所述事实要素集合中的每个事实要素,基于所述事实要素以及所述事实要素的同义词,检索预先收集的法律法规,得到与所述事实要素相关的候选法律法规集合;将各事实要素相关的候选法律法规集合进行组合,得到与所述案由相关的候选法律法规集合。
可选地,所述对应关系确定单元,具体用于:
将所述事实要素,以及所述案由相关的法律法规集合输入预先构建的所述案由的法律法规匹配模型,所述案由的法律法规匹配模型输出所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配结果;
基于所述事实要素与所述案由相关的法律法规集合中各法律法规的匹配结果,确定所述案由相关的法律法规集合中与所述事实要素对应的至少一个法律法规。
可选地,所述装置还包括:案由的法律法规匹配模型训练单元:
所述案由的法律法规匹配模型训练单元包括:
训练数据集确定单元,用于确定训练数据集,所述训练数据集中的每个训练数据包括一个与所述案由对应的问题,以及与所述问题的答案对应的法律法规;
标签确定单元,用于确定每个训练数据的标签,每个训练数据的标签为预先标注的所述问题与所述法律法规的匹配结果;
初始法律法规匹配模型训练单元,用于以所述训练数据集,所述案由,以及所述案由对应的事实要素集合为训练样本,以各个训练数据的标签为样本标签,训练得到所述案由的初始法律法规匹配模型;
初始法律法规匹配模型优化训练单元,用于对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
可选地,所述初始法律法规匹配模型优化训练单元,包括:
优化训练数据集确定单元,用于确定优化训练数据集,所述优化训练数据集中包括所述案由对应的人工校对数据,所述人工校对数据包括用于指示所述案由的一个事实要素与一个法律法规对应的正例数据,和/或,用于指示所述案由的一个事实要素与一个法律法规不对应的负例数据;
优化训练单元,用于基于所述优化训练数据集,对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
一种案件卷宗处理设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如上所述的案件卷宗处理方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如上所述的案件卷宗处理方法的各个步骤。
借由上述技术方案,本申请公开了一种案件卷宗处理方法、相关设备及可读存储介质,上述方案中,预先构建法律法规知识库,该法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系。基于该法律法规知识库,在获取待处理案件卷宗对应的文本之后,先确定文本中包含的案由以及每个案由对应的事实要素,然后,针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库即可确定与该案由对应,且与该事实要素对应的法律法规,最终,基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。基于上述方案,在需要确定某个待处理案件卷宗的适用法律法规时,通过预先构建的法律法规知识库即可自动确定,避免了受法律专家主观情感因素的影响,保证案件判决的公平性。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来,通过下述实施例对本申请提供的案件卷宗处理方法进行介绍。
参照图1,图1为本申请实施例公开的案件卷宗处理方法的流程示意图,该方法可以包括:
步骤S101:获取待处理案件卷宗对应的文本。
在本申请中,待处理案件卷宗对应的文本可以为待处理案件卷宗对应的电子文本,也可以为待处理案件卷宗对应的纸质文本。
在法律领域,案件类型分为三类:刑事案件、民事案件、行政案件。在本申请中,待处理案件卷宗可以为任一案件类型的案件卷宗。
步骤S102:确定所述文本中包含的案由以及每个案由对应的事实要素。
需要说明的是,案由指各类型案件的下一层级(案件的小分类),可以是案件性质、内容的简要概括,如,故意伤害、盗窃、诈骗等是刑事案件包含的案由;追索劳动报酬、房屋租赁合同纠纷等是民事案件包含的案由;交通运输行政许可、政府信息公开等是行政案件包含的案由。
在本申请中,可以通过访问预先存储的数据库或文件,得到待处理案件卷宗所对应文本中包含的案由以及每个案由对应的事实要素,数据库或文件可以包含各类卷宗对应的文本、该文本中包含的案由以及每个案由对应的事实要素三者之间的对应关系,该对应关系可以是由法律专家或文本分析工具对各类卷宗对应的文本进行分析所得。另一种实现方式中,也可以预先构建案件卷宗文本处理模型,该模型可以以案件卷宗文本样本为训练样本,以样本标注的案由以及每个案由对应的事实要素为样本标签训练得到,则本申请中,可以基于预先构建的案件卷宗文本处理模型对所述待处理案件卷宗对应的文本进行处理,确定所述文本中包含的案由以及每个案由对应的事实要素,对此,本申请不进行任何限定。
步骤S103:针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规。
在本申请中,法律法规知识库与传统的单纯用于存储信息的数据库不同,本申请中的法律法规知识库是由数据库技术和人工智能技术共同发展而来,通常指基于知识构建的并具有一定智能性的知识库或系统。
目前,在金融、医疗等领域,知识库中包括多条知识,每条知识是以实体为中心,通过实体间的关系相连接,其形式一般为“实体1,实体2,关系”或“实体,属性”,如“姚明,叶莉,夫妻”、“奥巴马,美国总统”。
不同于金融、医疗等领域的知识库,本申请中,所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系。
在本申请中,可以基于案由和事实要素检索预先构建的法律法规知识库,确定与所述案由对应,且与所述事实要素对应的法律法规。
法律法规知识库的构建方式将通过后面的实施例详细说明。
步骤S104:基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
在本申请中,作为一种可实施方式,可以将确定出的所有法律法规作为所述待处理案件卷宗的适用法律法规。
为便于理解,假设待处理案件卷宗对应的文本中包含A、B、C三个案由,案由A对应的事实要素有A1和A2,案由B对应的事实要素有B1、B2、B3,案由C对应的事实要素有C1,针对每个案由对应的每个事实要素,确定出与所述案由对应,且与所述事实要素对应的法律法规如下表所示,则,所述待处理案件卷宗的适用法律法规为S0、S1、S2、S3、S5、S7、S8、S10。
案由 |
事实要素 |
法律法规 |
A |
A1 |
S0、S1、S2、S3 |
A |
A2 |
S0、S1 |
B |
B1 |
S5、S8 |
B |
B2 |
S2 |
B |
B3 |
S10 |
C |
C1 |
S7 |
作为另一种可实施方式,可以从确定出的法律法规中筛选出部分法律法规,作为所述待处理案件卷宗的适用法律法规。筛选方式可以有多种,比如,可以针对确定出的每条法律法规,计算所述法律法规与待处理案件卷宗的关联度,取关联度靠前的预设数量个法律法规,作为所述待处理案件卷宗的适用法律法规。再比如,可以提取待处理案件卷宗的关键字,针对确定出的每条法律法规,提取所述法律法规的关键字,并计算所述法律法规的关键字与待处理案件卷宗的关键字之间的相似度,取相似度靠前的预设数量个法律法规,作为待处理案件卷宗的适用法律法规,等等,对此,本申请不进行任何限定。
其中,可以采用机器学习模型计算法律法规与待处理案件卷宗的关联度,以及,计算法律法规的关键字与待处理案件卷宗的关键字之间的相似度的,对此,本申请不进行任何限定。
本实施例公开了一种案件卷宗处理方法,预先构建法律法规知识库,该法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系。基于该法律法规知识库,在获取待处理案件卷宗对应的文本之后,先确定文本中包含的案由以及每个案由对应的事实要素,然后,针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库即可确定与该案由对应,且与该事实要素对应的法律法规,最终,基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。基于上述方案,在需要确定某个待处理案件卷宗的适用法律法规时,通过预先构建的法律法规知识库即可自动确定,避免了受法律专家主观情感因素的影响,保证案件判决的公平性。
在本申请的另一个实施例中,对步骤S103中用到的预先构建的法律法规知识库的构建过程进行介绍,该过程可以包括如下步骤:
步骤S201:针对每个案由,构建所述案由的案由知识库。
在本申请中,需要对各案件类型的各案由,均构建其案由知识库。每个案由的案由知识库中包含多条知识,每条知识用于指示该案由的一个事实要素与至少一个法律法规的对应关系。
步骤S202:将构建的所有案由的案由知识库组合生成所述法律法规知识库。
在本实施例中,公开了一种法律法规知识库的构建方法,先针对每个案件类型的每个案由,构建该案由的案由知识库,将各案件类型的各案由的案由知识库进行组合,即可得到法律法规知识库。该方法中,将法律法规知识库的构建过程拆分为多个案由的案由知识库的构建过程,能够降低法律法规知识库的构建复杂度,提升构建效率。
在本申请的另一个实施例中,对步骤S201中涉及的每个案由的案由知识库的构建过程进行介绍,该过程可以包括如下步骤:
步骤S301:获取与所述案由对应的事实要素集合。
在本申请中,事实要素是指涉法事实要素或法律事实要素,即引起法律关系发生、变更和消灭的客观事实情况,是案件事实得以成立的必要条件。
例如,在刑事案件中,事实要素主要涵盖犯罪构成的要件事实,可以包括作为罪行轻重的量刑情节的事实,排除某行为之违法行为、可罚性的事实,免除或减轻刑事责任的事实以及刑事诉讼程序事实等等。
在民事案件中,事实要素包括实体法的事实、程序法的事实、免证事实三个部分。
在行政案件中,事实要素包括被诉行政行为合法性与合理性相关的事实、行政赔偿构成要件相关的事实和行政诉讼程序事实等等。
不同类型案件的具体相关事实要素可以参照相关法律解释,本实施例不再展开说明。
在本申请中,可以由法律专家或文本分析工具对每一案件类型的每一案由的卷宗对应的文本进行分析,定义其对应的事实要素集合。作为一种可实施方式,各案由对应的事实要素集合可以预先存储,在本步骤中,可以通过访问预先存储的各案由对应的事实要素集合,从而获取每个案由对应的事实要素集合。
步骤S302:基于所述事实要素集合,确定与所述案由相关的法律法规集合。
作为一种可实施方式,基于所述事实要素集合,确定与所述案由相关的法律法规集合的过程可以包括以下步骤:
步骤S3021:基于所述事实要素集合,确定与所述案由相关的候选法律法规集合。
作为一种可实施方式,基于所述事实要素集合,确定与所述案由相关的候选法律法规集合的过程可以为:针对所述事实要素集合中的每个事实要素,基于所述事实要素以及所述事实要素的同义词,检索预先收集的法律法规,得到与所述事实要素相关的候选法律法规集合;各事实要素相关的候选法律法规集合组合得到与所述案由相关的候选法律法规集合。
为便于理解,以一个案由A为例,确定案由A相关的候选法律法规集合的过程可以如下:
通过NLP(NaturalLanguage Processing,自然语言处理)工具(如,同义词词林、近义词工具包等),对于案由A对应的事实要素集合中的每个事实要素进行同义转写,得到每个事实要素的同义词。假设Ti为A对应的事实要素集合中的一个事实要素,其同义转写后得到Ti1...Tin共n种表达,这n种表达中包含事实要素Ti以及事实要素Ti的同义词,对于每种表达,可基于BM25F、TF_IDF等检索算法,从预先收集的法律法规中进行检索,得到该表达对应的候选法律法规集合,最终得到Ti的候选法律法规集合Ri,具体如下:
Ri=Ri1∪Ri2∪...∪Rin,i∈[1,T],n∈[1,N]
案由A相关的候选法律法规集合R’,具体如下:
R'=R1∪R2∪...∪Rt,t∈[1,T]
其中,R’为案由A相关的候选法律法规集合,T为案由A对应的事实要素集合中包含的事实要素的数量,Ri为第i个事实要素的候选法律法规集合,N为第i个事实要素同义转写后得到的表达的数量。U表示取并集。
步骤S3022:将所述候选法律法规集合中,与所述案由相关性满足预设条件的候选法律法规,最终确定为与所述案由相关的法律法规;
需要说明的是,基于所述事实要素集合,确定与所述案由相关的候选法律法规集合中,可能包含部分其他案由的法律法规,因此,需要对案由相关的候选法律法规集合进行进一步精炼和筛选。
针对每个案由,其相关的候选法律法规集合中存在以下3个类别的法律法规:强相关、弱相关,以及不相关。其中,强相关表示该法律法规仅适用于当前案由,弱相关表示该法律法规适用于当前案由,也可能适用于其他案由,属于通用类法律法规,如《合同法》中的一些法条,适用于各类涉及合同的案由(如,民间借贷、买卖合同纠纷、劳务纠纷等),不相关表示该法律法规不适用于当前案由,需要从其候选法律法规集合中删除。
本申请中将案由相关的候选法律法规集合中包含的法律法规分为强相关、弱相关以及不相关三个类别,并将强相关和弱相关这两个类别下的法律法规最终确定为与所述案由相关的法律法规。
作为一种可实施方式,本申请中可以采用聚类的方式将案由对应的候选法律法规集合中包含的法律法规分为强相关、弱相关以及不相关三个类别。
针对每个案由,本申请中可以预先构建该案由的聚类模型,该案由聚类模型是以训练用法律法规为训练样本,以训练用法律法规标记的与该案由的相关性类别为样本标签训练得到。作为一种可实施方式,该案由的聚类模型可以预先通过k-means聚类算法训练得到,其中k=3。
针对案由的候选法律法规集合中包含的每个法律法规,先构建该法律法规的向量;然后把每个法律法规的向量输入预先构建的该案由的聚类模型,得到该法律法规的类别。
需要说明的是,在本申请中,可以采用tf-idf模型和word2vec模型相结合的方式构建法律法规的向量,具体的,可以采用tf-idf模型确定法律法规的词频,采用word2vec模型确定法律法规的语义向量,然后,基于法律法规的词频和法律法规的语义向量确定法律法规的向量。
为便于理解,对于法律法规w,采用tf-idf模型确定法律法规w的逆文档词频为fw,采用word2vec模型确定法律法规w的词袋空间语义向量为[w1,w2,w3,...wn](n为word2vec模型的维度),则法律法规w的向量可以表示为法律法规w的词频与语义向量的点乘形式,即fw*w=[fw*w1,fw*w2,fw*w3,...,fw*wn]。
步骤S3023:将最终确定与所述案由相关的法律法规进行组合,得到与所述案由相关的法律法规集合。
在本实施方式中,基于步骤S3021至步骤S3023,确定案由相关的法律法规集合的过程中,由于基于案由与法律法规的相关性,对案由相关的候选法律法规集合进行了再次筛选,因此,使得确定的案由相关的法律法规集合具有较高的准确性,保证了后续过程中构建案由的案由知识库的准确性。
步骤S303:针对所述事实要素集合中的每一事实要素,从所述案由相关的法律法规集合中确定与所述事实要素对应的至少一个法律法规。
作为一种可实施方式,可以针对所述事实要素集合中的每一事实要素,计算该事实要素与案由相关的法律法规集合中每一法律法规的匹配度,取匹配度靠前的预设数量个法律法规,作为与该事实要素对应的至少一个法律法规。
需要说明的是,针对所述事实要素集合中的每一事实要素,计算该事实要素与案由相关的法律法规集合中每一法律法规的匹配度可以基于机器学习模型实现。
因此,作为另一种可实施方式,针对所述事实要素集合中的每一事实要素,从所述案由相关的法律法规集合中确定与所述事实要素对应的至少一个法律法规的具体实现过程可以包括如下步骤:
步骤S3031:将所述事实要素,以及所述案由相关的法律法规集合输入预先构建的所述案由的法律法规匹配模型,所述案由的法律法规匹配模型输出所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配结果。
需要说明的是,所述案由的法律法规匹配模型输出的所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配结果,可以为所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配概率。
所述案由的法律法规匹配模型的训练过程将通过后面的实施例详细说明。
步骤S3032:基于所述事实要素与所述案由相关的法律法规集合中各法律法规的匹配结果,确定所述案由相关的法律法规集合中与所述事实要素对应的至少一个法律法规。
需要说明的是,当所述事实要素与所述案由相关的法律法规集合中一法律法规的匹配概率大于预设阈值时,说明该法律法规与该事实要素对应,否则,说明该法律法规与该事实要素不对应。
在本实施方式中,针对所述事实要素集合中的每一事实要素,基于步骤S3031至步骤S3032,基于案由的法律法规匹配模型,得到该事实要素与案由相关的法律法规集合中每一法律法规的匹配结果,基于匹配结果能够快速确定出该事实要素对应的至少一个法律法规,提升了案由的案由知识库的构建效率。
步骤S304:基于各个事实要素分别对应的至少一个法律法规,构建所述案由的案由知识库。
在本申请中,可以基于各个事实要素分别对应的至少一个法律法规,形成多条知识,每条知识用于指示所述案由、一个事实要素、至少一个法律法规的对应关系,这些知识组合成所述案由的案由知识库。
在本申请的另一个实施例中,对所述案由的法律法规匹配模型的训练方式进行详细介绍,其训练过程可以包括如下步骤:
步骤S401:确定训练数据集,所述训练数据集中的每个训练数据包括一个与所述案由对应的问题,以及与所述问题的答案对应的法律法规。
在本申请中,可以预先收集与所述案由对应的法律咨询数据,法律咨询数据由一个问题描述和一个或多个答案构成,例如“问题-答案1-答案2-……”。通过对各答案对应的法律法规进行抽取,得到训练数据,每个训练数据的形式可以为“问题-法律法规1-法律法规2-……”。
需要说明的是,在本申请中,可以通过正则表达式匹配的方法对各答案对应的法律法规进行抽取,当然,也可以采用其他方法对各答案对应的法律法规进行抽取,比如,预先构建的神经网络模型。对此,本申请不进行任何限定。
进一步需要说明的是,一般基于法律咨询数据确定的训练数据为正例数据,即,问题与所述问题的答案对应的法律法规匹配,在本申请中,还可以从其他渠道得到一些与所述问题不匹配的法律法规,组成负例数据。
步骤S402:确定每个训练数据的标签,每个训练数据的标签为预先标注的所述问题与所述法律法规的匹配结果。
在本申请中,每个训练数据的标签可以采用二分类的形式预先进行标注,比如,问题与法律法规匹配,则标签为1,问题与法律法规不匹配,则标签为0。标签可以以标志位的形式存在于每个训练数据中,可以通过读取标志位,确定每个训练数据的标签。或者,也可以以附加位形式增加至每个训练数据,可以通过读取附加位,确定每个训练数据的标签。
步骤S403:以所述训练数据集,所述案由,以及所述案由对应的事实要素集合为训练样本,以各个训练数据的标签为样本标签,训练得到所述案由的初始法律法规匹配模型。
在本申请中,为了保证事实要素与问题间的语义一致性,可以在输入案由的初始法律法规匹配模型前对问题进行预处理,针对每个训练数据,本案将该训练数据中的问题、对应的案由,以及与所述案由对应的事实要素集合中的每个事实要素进行向量拼接,得到初始法律法规匹配模型的输入之一,该训练数据中的与所述问题对应的法律法规作为初始法律法规匹配模型的另一输入。
为便于理解,假设q为问题,Ai表示案由(i=1,2,...,I,表示共有I种不同案由),Fij表示案由Ai的第j个要素(j=1,2,...,J,表示案由Ai包含J个要素),则输入初始法律法规匹配模型的向量可以表示为[q,Ai,Fij]=[q1,q2,q3,...qn,Ai1,Ai2,...,Fij1,Fij2,...]。
需要说明的是,初始法律法规匹配模型的基础模型可以为自然语言推理神经网络模型、文本匹配神经网络模型等,自然语言推理神经网络模型、文本匹配神经网络模型等都可以基于BERT实现,其输入为两个向量,输出为两个向量的联合语义特征,通过增加分类模块对该特征进行二分类,得到分类结果,与样本标签比对,根据比对结果调整模型参数,直至模型收敛,实现对初始法律法规匹配模型的训练。
步骤S404:对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
作为一种可实施方式,所述对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型的过程可以包括以下步骤:
步骤S4041:确定优化训练数据集,所述优化训练数据集中包括所述案由对应的人工校对数据,所述人工校对数据包括用于指示所述案由的一个事实要素与一个法律法规对应的正例数据,和/或,用于指示所述案由的一个事实要素与一个法律法规不对应的负例数据。
在本申请中,可以基于所述案由的初始法律法规匹配模型得到所述案由的初始法律法规知识库,由法律专家对该初始法律法规知识库中的知识进行校对,即判断每条知识是否正确,如果正确,则生成所述案由的一个事实要素与一个法律法规对应的正例数据,如果错误,则生成所述案由的一个事实要素与一个法律法规不对应的负例数据,另外,法律专家还可判断该初始法律法规知识库中的知识是否完善,如果不完善可以补充遗漏的法律法规,并生成所述案由的一个事实要素与一个法律法规对应的正例数据。
需要说明的是,优化训练数据集还可以包括部分步骤S401中确定的训练数据。
步骤S4042:基于所述优化训练数据集,对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
需要说明的是,基于所述优化训练数据集,对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型可以参见步骤S403,但是与步骤S403不同的是,如果训练数据为人工校对数据,则输入向量无需拼接案由向量和问题向量,只需输入事实要素向量,如果训练数据为步骤S401中确定的训练数据,输入向量需要拼接问题向量和事实要素向量,无需拼接案由向量。
下面对本申请实施例公开的案件卷宗处理装置进行描述,下文描述的案件卷宗处理装置与上文描述的案件卷宗处理方法可相互对应参照。
参照图2,图2为本申请实施例公开的一种案件卷宗处理装置结构示意图。如图2所示,该案件卷宗处理装置可以包括:
获取单元10,用于获取待处理案件卷宗对应的文本;
第一确定单元11,用于确定所述文本中包含的案由以及每个案由对应的事实要素;
第二确定单元12,用于针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规;所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系;
第三确定单元13,用于基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
可选地,所述装置还包括法律法规知识库构建单元;
所述法律法规知识库构建单元包括:
案由的案由知识库构建单元,用于针对每个案由,构建所述案由的案由知识库,所述案由的案由知识库中包含多条知识,每条知识用于指示所述案由的一个事实要素与至少一个法律法规的对应关系;
组合单元,用于将构建的所有案由的案由知识库组合生成所述法律法规知识库。
可选地,所述案由的案由知识库构建单元,包括:
事实要素集合获取单元,用于获取与所述案由对应的事实要素集合;
法律法规集合确定单元,用于基于所述事实要素集合,确定与所述案由相关的法律法规集合;
对应关系确定单元,用于针对所述事实要素集合中的每一事实要素,从所述案由相关的法律法规集合中确定与所述事实要素对应的至少一个法律法规;
案由的案由知识库构建子单元,用于基于各个事实要素分别对应的至少一个法律法规,构建所述案由的案由知识库。
可选地,所述法律法规集合确定单元,包括:
候选法律法规集合确定单元,用于基于所述事实要素集合,确定与所述案由相关的候选法律法规集合;
法律法规集合确定子单元,用于将所述候选法律法规集合中,与所述案由相关性满足预设条件的候选法律法规,最终确定为与所述案由相关的法律法规;将最终确定为与所述案由相关的法律法规进行组合,得到与所述案由相关的法律法规集合。
可选地,所述候选法律法规集合确定单元,具体用于:
针对所述事实要素集合中的每个事实要素,基于所述事实要素以及所述事实要素的同义词,检索预先收集的法律法规,得到与所述事实要素相关的候选法律法规集合;将各事实要素相关的候选法律法规集合进行组合,得到与所述案由相关的候选法律法规集合。
可选地,所述对应关系确定单元,具体用于:
将所述事实要素,以及所述案由相关的法律法规集合输入预先构建的所述案由的法律法规匹配模型,所述案由的法律法规匹配模型输出所述事实要素与所述案由相关的法律法规集合中每一法律法规的匹配结果;
基于所述事实要素与所述案由相关的法律法规集合中各法律法规的匹配结果,确定所述案由相关的法律法规集合中与所述事实要素对应的至少一个法律法规。
可选地,所述装置还包括:案由的法律法规匹配模型训练单元:
所述案由的法律法规匹配模型训练单元包括:
训练数据集确定单元,用于确定训练数据集,所述训练数据集中的每个训练数据包括一个与所述案由对应的问题,以及与所述问题的答案对应的法律法规;
标签确定单元,用于确定每个训练数据的标签,每个训练数据的标签为预先标注的所述问题与所述法律法规的匹配结果;
初始法律法规匹配模型训练单元,用于以所述训练数据集,所述案由,以及所述案由对应的事实要素集合为训练样本,以各个训练数据的标签为样本标签,训练得到所述案由的初始法律法规匹配模型;
初始法律法规匹配模型优化训练单元,用于对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
可选地,所述初始法律法规匹配模型优化训练单元,包括:
优化训练数据集确定单元,用于确定优化训练数据集,所述优化训练数据集中包括所述案由对应的人工校对数据,所述人工校对数据包括用于指示所述案由的一个事实要素与一个法律法规对应的正例数据,和/或,用于指示所述案由的一个事实要素与一个法律法规不对应的负例数据;
优化训练单元,用于基于所述优化训练数据集,对所述案由的初始法律法规匹配模型进行优化训练,得到所述案由的法律法规匹配模型。
参照图3,图3为本申请实施例提供的案件卷宗处理设备的硬件结构框图,参照图3,案件卷宗处理设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取待处理案件卷宗对应的文本;
确定所述文本中包含的案由以及每个案由对应的事实要素;
针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规;所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系;
基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取待处理案件卷宗对应的文本;
确定所述文本中包含的案由以及每个案由对应的事实要素;
针对每个案由对应的每个事实要素,基于预先构建的法律法规知识库确定与所述案由对应,且与所述事实要素对应的法律法规;所述法律法规知识库中包含多条知识,每条知识用于指示一个案由、一个事实要素与至少一个法律法规的对应关系;
基于确定出的法律法规,确定所述待处理案件卷宗的适用法律法规。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。