CN110895703B - 法律文书案由识别方法及装置 - Google Patents
法律文书案由识别方法及装置 Download PDFInfo
- Publication number
- CN110895703B CN110895703B CN201811062228.8A CN201811062228A CN110895703B CN 110895703 B CN110895703 B CN 110895703B CN 201811062228 A CN201811062228 A CN 201811062228A CN 110895703 B CN110895703 B CN 110895703B
- Authority
- CN
- China
- Prior art keywords
- case
- legal document
- category
- classification
- historical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供的法律文书案由识别方法及装置,获取目标法律文书,利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。所述案由分类模型,充分结合了司法领域中法律文书案由类别的多层级特性,使得本发明在利用该案由分类模型,对目标法律文书所属的案由类别进行识别时,所得到识别结果的准确性更高,识别效果更好。
Description
技术领域
本发明涉及数据处理领域,更具体的说,涉及法律文书案由识别方法及装置。
背景技术
在大数据时代,通过对一个文本进行分门别类,几乎是所有领域都需要的做的基本工作。法律文书案由识别,实际上就是为用户给出的每个法律文书找到所属的案由类别。
法律文书案由识别的传统方案,是先制定案由分类规则,再输入法律文书去匹配预先制定的案由分类规则,最后得出法律文书所属的案由类别,但这种方法费时费力且识别效果一般。在大数据时代背景下,通常可以借助机器学习的方法,利用训练好的分类模型来实现文本分类,从而节省大量的人工成本与时间成本。但是,现有的文本分类方案,并没有考虑到司法领域法律文书的特殊性,若直接采用现有的文本分类方案来识别法律文书所属的案由类别,则会导致识别结果准确性较低,识别效果较差。
因此,目前迫切需要一种能够切实、有效地提高法律文书案由识别效果的技术方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的法律文书案由识别方法及装置。
为实现上述目的,本发明提供如下技术方案:
一种法律文书案由识别方法,所述方法包括:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
优选的,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
优选的,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
优选的,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,在所述获取目标法律文书之后,所述方法还包括:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
优选的,所述预置的分类模型包括:支持向量机SVM分类模型。
一种法律文书案由识别装置,所述装置包括:
目标文件获取单元,用于获取目标法律文书;
案由类别识别单元,用于利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行前述所述的法律文书案由识别方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前述所述的法律文书案由识别方法。
借由上述技术方案,本发明提供的法律文书案由识别方法及装置,获取目标法律文书,并利用预置的案由分类模型识别所述目标法律文书所属的案由类别,其中,所述案由分类模型,充分结合了司法领域中法律文书案由类别的多层级特性,使得在利用该案由分类模型,对目标法律文书所属的案由类别进行识别时,所得到识别结果的准确性更高,识别效果更好。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本申请实施例提供的法律文书案由识别方法的流程图;
图2为本申请实施例提供的案由分类模型训练过程的流程图;
图3为本申请实施例提供的训练样本预处理过程的流程图;
图4为本申请实施例提供的目标法律文书预处理过程的流程图;
图5为本申请实施例提供的法律文书案由识别业务流程的示例图;
图6为本申请实施例提供的法律文书案由识别装置的一种结构示意图;
图7为本申请实施例提供的法律文书案由识别装置的另一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,图1为本申请实施例提供的法律文书案由识别方法的流程图。
如图1所示,所述方法包括:
S101:获取目标法律文书。
目标法律文书,是指待识别案由类别的法律文书。案由,是指人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。例如,民事案件的案由类别通常包括荣誉权纠纷、离婚纠纷、抚养费纠纷、所有权确认纠纷等。
S102:利用预置的案由分类模型,识别所述目标法律文书所属的案由类别。
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
在司法领域中,案由类别通常可分为多个层级,例如,一级案由、二级案由等。例如,在民事案件的案由类别中,人格权纠纷、婚姻家庭纠纷、物权保护纠纷等为一级案由,生命权、健康权、身体权纠纷、姓名权纠纷、名誉权纠纷等为一级案由“人格权纠纷”下对应的二级案由。
针对司法领域中案由类别的多层级特性,本发明以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,来对预设的分类模型进行迭代训练,其中结合了案由类别的多层级特性,使得训练好的案由分类模型,充分融入了司法领域法律文书案由类别的特点,从而提高了法律文书案由识别的准确性。
本实施例提供的法律文书案由识别方法,获取目标法律文书,并利用预置的案由分类模型识别所述目标法律文书所属的案由类别,其中,所述案由分类模型,充分结合了司法领域中法律文书案由类别的多层级特性,使得在利用该案由分类模型,对目标法律文书所属的案由类别进行识别时,所得到识别结果的准确性更高,识别效果更好。
针对案由分类模型,本申请实施例还提供了相应的案由分类模型训练过程。所述案由分类模型训练过程,可在所述利用预置的案由分类模型,识别所述目标法律文书所属的案由类别的步骤(S101)之前执行,以获得可供使用的案由分类模型。
请参阅图2,图2为本申请实施例提供的案由分类模型训练过程的流程图。
如图2所示,所述案由分类模型训练过程可包括:
S201:获取历史法律文书与预设的案由图谱。
历史法律文书,是指历史产生的法律文书,可用于作为训练样本;案由图谱,是指由多层级案由类别组成的知识图谱,可以是通过人工编辑得到的。
所述案由图谱中包括多层级案由类别,不同层级的案由类别之间具有从属关系。例如,一个一级案由下包括至少一个二级案由。
S202:根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别。
根据所述案由图谱中的多层级案由类别,对历史法律文书所属的案由类别进行标记,标记出历史法律文书所属的各层级案由类别。例如,某一份历史法律文书所属的一级案由为“人格权纠纷”,所属的二级案由为“姓名权纠纷”。
S203:将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,是指从最高层级开始,将所述历史法律文书所属的最高层级案由类别作为样本标记,对预设的分类模型进行训练,然后再将所述历史法律文书所属的次一层级案由类别作为样本标记,对前一次训练得到的分类模型再次进行训练,以此类推,直至将所述历史法律文书所属的最低层级案由类别作为样本标记,对前一次训练得到的分类模型再次进行训练,最终得到训练好的案由分类模型。
一示例中,所述多层级案由类别至少包括:父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;相应的,所述步骤S203可具体包括:
a1、将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
a2、将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
本实施例提供的案由分类模型训练过程,先获取历史法律文书与预设的案由图谱,再根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别,然后将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,最终得到训练好的案由分类模型,其中采用逐层级式的多次迭代训练过程,使得训练粒度更小,使得案由分类模型的分类效果更强,从而能够很大程度地提高法律文书案由识别的准确性。
在实际应用中,在对预设的分类模型进行迭代训练之前,本申请实施例还提供了训练样本预处理过程,通过训练样本预处理过程,不仅可以使训练样本适配于分类模型的输入,而且还可以提高训练样本的辨识度,进而提高分类模型的训练效果。具体地,所述训练样本预处理过程,可以在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别的步骤(S202)之后执行。
请参阅图3,图3为本申请实施例提供的训练样本预处理过程的流程图。
如图3所示,所述训练样本预处理过程包括:
S301:获取所述历史法律文书的词向量,形成第一词集。
针对已经标记好案由类别的历史法律文书,先进行分词处理,再对分词词语进行结构化表示,如构建词向量空间模型,这样便可以将历史法律文书的分词词语转换成相应的词向量,以便于让计算机能够理解自然语言。例如,“我、爱、中华”在词向量中表现为词向量(1,2,1)。
所述历史法律文书的词向量,就是指所述历史法律文书的分词词语转换成的词向量,基于这些词向量形成了第一词集。也即,所述第一词集中包括所述历史法律文书的词向量。
S302:从所述第一词集中,删除停用词向量与单字词向量,形成第二词集。
停用词向量,是指停用词的词向量;单字词向量,是指单字词的词向量。在自然语言处理方面,停用词与单字词通常属于无用词,将停用词与单字词删除,能够有效节省存储空间并提高信息处理效率。
从第一词集中删除停用词向量与单字词向量后,剩余的词向量便形成了第二词集。
S303:从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集。
其中,所述目标案由类别为所述历史法律文书所属的任一案由类别。
针对属于目标案由类别的历史法律文书中出现的各词向量的总词频,进行统计,确定出目标案由类别对应的高频词向量(即高频词的词向量),形成所述目标案由类别对应的第三词集。
高频词向量,可以是指总词频大于预设词频阈值的词向量,也可以是指预设数目个总词频最高的词向量。
基于相同的处理方式,可以得到所有目标案由类别对应的第三词集。
S304:从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集。
所有目标案由类别均对应的词向量,就是在所有目标案由类别下的历史法律文书中均存在的词向量,这些词向量并不能起到区分不同案由的作用,所以,从所述第三词集中删除所有目标案由类别均对应的词向量,能够提高由剩余词向量所形成的第四词集的案由分类能力。
S305:将所有目标案由类别对应的第四词集,合并为特征词集。
每一个目标案由类别均对应有一个第四词集,合并所有目标案由类别对应的第四词集,便可以得到了一个总的特征词集,该特征词集中包含了最能反映案由特征的词向量(也即特征词向量)。
S306:根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
根据特征词集所包含的词向量,将所述历史法律文书转换成向量形式的历史法律文书,能够样本向量的案由分类能力。
一示例中,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书可包括:
b1、利用TF-IDF(term frequency–inverse document frequency,词频-逆文本频率)算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
将特征词集中的词向量,统一映射到同一个TF-IDF词向量空间中,使用TF-IDF公式来计算各词向量的权值,并对所述特征词集中的词向量进行加权处理,能够得到加权后的特征词集,实现词向量的特征表示。
在TF-IDF公式中,多个法律文书中某词出现的频率越高,它的区分度则越小,权值也越低;而在一个法律文书中,某词出现的频率越高,区分度则越大,权值也越大。词向量的特征表示,目的在于区分特征词集中不同词向量对于法律文书案由分类的重要度。
b2、根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书,提高了历史法律文书向量的区分能力。
一示例中,在训练样本预处理过程中,还可以包括数据归一化处理,将相关数据限制在预设范围内。
当采用词频进行比较时,很容易发生较大的偏差。例如,A词和B词都是对于文书分类很重要的词,但A词在所有文书中出现的频率很高,但在具体某一文书中出现频率却很少;而B词在所有文书中出现的频率比A词低,但在某一具体文档中出现的最小频率却比A词高,如果直接对A词与B词的词频进行统计,则会弄错A词和B词的权值大小,所以需要先针对A词与B词的词频进行数据归一化处理,提高赋权的准确性,进而使文本分类更加精确。
本实施例提供的训练样本预处理过程,获取所述历史法律文书的词向量,并从中删除停用词向量与单字词向量,且从中选取目标案由类别对应的高频词向量,再删除所有目标案由类别均对应的词向量,并将剩余的词向量合并为特征词集,最后根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书,从而不仅可以使训练样本适配于分类模型的输入,而且还可以提高训练样本的辨识度,进而提高分类模型的训练效果。
在模型训练过程中,需要对训练样本进行预处理;在模型使用过程中,同样需要对目标法律文书进行预处理。具体地,目标法律文书预处理过程,可以在所述获取目标法律文书的步骤(S101)之后执行。
请参阅图4,图4为本申请实施例提供的目标法律文书预处理过程的流程图。
如图4所示,所述目标法律文书预处理过程包括:
S401:获取所述目标法律文书的词向量。
该步骤S401与前述实施例中的步骤S301相类似,具体可参考前述实施例中的内容,在此不再赘述。
S402:根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量。
与训练样本预处理过程不同的是,基于训练样本预处理过程中得到的特征词集,可以直接从目标法律文书的词向量中,筛选出所述法律文书的特征词向量,而无需进行停用词向量与单字词向量的删除、高频词向量的选取等操作,从而提高了目标法律文书的预处理效率。
S403:根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
该步骤S403与前述实施例中的步骤S306相类似,具体可参考前述实施例中的内容,在此不再赘述。
本实施例提供的目标法律文书预处理过程,利用训练样本预处理过程中得到的特征词集,直接提取目标法律文书的特征词向量,并根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书,提高了目标法律文书的预处理效率,进而提高了法律文书案由识别效率。
请参阅图5,图5为本申请实施例提供的法律文书案由识别业务流程的示例图。
在法律文书案由识别业务流程中,主要分为训练过程与分类过程。
训练过程主要包括:样本结构化处理、样本特征提取、样本优化以及根据案由图谱构造分类器。
其中,样本结构化处理是指,将历史法律文书进行分词处理,并将分词词语转换成相应的词向量;样本特征提取是指,从历史法律文书的词向量中提取出最能反映案由特征的词向量;样本优化是指,针对训练样本进行加权、归一化等处理,提高样本的分类能力;根据案由图谱构造分类器是指,根据案由图谱,利用经过上述处理后的训练样本,对预设的分类模型进行训练,得到案由分类模型。
分类过程主要包括:新文书预处理与文书案由识别。
其中,新文书预处理是指,针对目标法律文书进行预处理,以得到适配于案由分类模型输入的目标法律文书;文书案由识别是指,利用案由分类模型,识别所述目标法律文书所属的案由类别。
本实施例提供的法律文书案由识别业务流程,基于模型训练与案由图谱的紧密结合,优化了案由分类模型的训练过程,提高了利用案由分类模型识别法律文书案由类别的准确率,提高了法律文书案由识别效果。
本申请前述实施例中涉及到的预设的分类模型,可以是支持向量机(SVM)分类模型。支持向量机(SVM)算法基于结构风险最小化原理,将数据集合压缩到支持向量集合,学习得到分类决策函数,能够解决需要无穷大样本数量的问题,它只需要将有限数量的文本通过计算抽象成向量化的训练样本,便可以具有较高的分类准确率。
将案由图谱中案由类别的层级特性,紧密结合到针对SVM分类模型的训练过程中,极大程度地提高了案由分类模型的案由类别识别能力。在实际应用中,采用本发明的技术方案,利用案由图谱与SVM分类模型训练得到的案由分类模型,其法律文书案由识别的准确率,能够达到96.5%以上,达到了现有方案所不能及的识别效果。
本发明实施例还提供了法律文书案由识别装置,所述法律文书案由识别装置可用于实施本发明实施例提供的法律文书案由识别方法,下文描述的法律文书案由识别装置内容,可与上文描述的法律文书案由识别方法内容相互对应参照。
请参阅图6,图6为本申请实施例提供的法律文书案由识别装置的一种结构示意图。
如图6所示,所述装置包括:
目标文件获取单元100,用于获取目标法律文书。
案由类别识别单元200,用于利用预置的案由分类模型,识别所述目标法律文书所属的案由类别。
其中,所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
本实施例提供的法律文书案由识别装置,获取目标法律文书,并利用预置的案由分类模型识别所述目标法律文书所属的案由类别,其中,所述案由分类模型,充分结合了司法领域中法律文书案由类别的多层级特性,使得在利用该案由分类模型,对目标法律文书所属的案由类别进行识别时,所得到识别结果的准确性更高,识别效果更好。
请参阅图7,图7为本申请实施例提供的法律文书案由识别装置的另一种结构示意图。
如图7所示,本实施例的法律文书案由识别装置,除了包括前述实施例中的目标文件获取单元100、案由类别识别单元200外,还可以包括:分类模型训练单元300。
所述模型训练单元300可包括:
材料获取单元,用于获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别。
样本标记单元,用于根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别。
迭代训练单元,用于将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
一示例中,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述迭代训练单元具体用于:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
一示例中,所述模型训练单元300还可包括:样本预处理单元。
所述样本预处理单元,用于:
在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
一示例中,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书可包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
一示例中,所述装置还可以包括:目标文件预处理单元。
所述目标文件预处理单元用于:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
一示例中,所述预置的分类模型包括:支持向量机SVM分类模型。
本实施例提供的法律文书案由识别装置中包括模型训练单元,通过所述模型训练单元,先获取历史法律文书与预设的案由图谱,再根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别,然后将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,最终得到训练好的案由分类模型,其中采用逐层级式的多次迭代训练过程,使得训练粒度更小,使得案由分类模型的分类效果更强,从而能够很大程度地提高法律文书案由识别的准确性。
本发明实施例提供的法律文书案由识别装置,包括处理器和存储器,上述目标文件获取单元100、案由类别识别单元200、分类模型训练单元300、材料获取单元、样本标记单元、迭代训练单元、样本预处理单元和目标文件预处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决目前法律文书案由识别效果较差的技术问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述法律文书案由识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述法律文书案由识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
优选的,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
优选的,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
优选的,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,在所述获取目标法律文书之后,所述方法还包括:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
优选的,所述预置的分类模型包括:支持向量机SVM分类模型。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练得到的。
优选的,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型。
优选的,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
优选的,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
优选的,在所述获取目标法律文书之后,所述方法还包括:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
优选的,所述预置的分类模型包括:支持向量机SVM分类模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (8)
1.一种法律文书案由识别方法,其特征在于,所述方法包括:
获取目标法律文书;
利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型基于所述各层级案由类别依次进行迭代训练得到的,所述多层级案由类别用于通过案由类别的多层级特性,使得所述案由分类模型融入了司法领域法律文书案由类别的特点;
其中,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型;
其中,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
2.如权利要求1所述的方法,其特征在于,在所述根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别之后,所述案由分类模型的训练过程还包括:
获取所述历史法律文书的词向量,形成第一词集;
从所述第一词集中,删除停用词向量与单字词向量,形成第二词集;
从所述第二词集中,选取目标案由类别对应的高频词向量,形成所述目标案由类别对应的第三词集;其中,所述目标案由类别为所述历史法律文书所属的任一案由类别;
从所述第三词集中,删除所有目标案由类别均对应的词向量,形成所述目标案由类别对应的第四词集;
将所有目标案由类别对应的第四词集,合并为特征词集;
根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
3.如权利要求2所述的方法,其特征在于,所述根据所述特征词集,将所述历史法律文书转换成向量形式的历史法律文书包括:
利用TF-IDF算法,对所述特征词集中的词向量进行加权处理,得到加权后的特征词集;
根据所述加权后的特征词集,将所述历史法律文书转换成向量形式的历史法律文书。
4.如权利要求2所述的方法,其特征在于,在所述获取目标法律文书之后,所述方法还包括:
获取所述目标法律文书的词向量;
根据所述特征词集,从所述目标法律文书的词向量中,筛选所述目标法律文书的特征词向量;
根据所述目标法律文书的特征词向量,将所述目标法律文书转换成向量形式的目标法律文书。
5.如权利要求1所述的方法,其特征在于,所述预置的分类模型包括:支持向量机SVM分类模型。
6.一种法律文书案由识别装置,其特征在于,所述装置包括:
目标文件获取单元,用于获取目标法律文书;
案由类别识别单元,用于利用预置的案由分类模型,识别所述目标法律文书所属的案由类别;
所述案由分类模型为,以标记有多层级案由类别的历史法律文书作为训练样本,并依据所述多层级案由类别的层级顺序,以所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型基于所述各层级案由类别依次进行迭代训练得到的,所述多层级案由类别用于通过案由类别的多层级特性,使得所述案由分类模型融入了司法领域法律文书案由类别的特点;
其中,所述案由分类模型的训练过程包括:
获取历史法律文书与预设的案由图谱,所述案由图谱中包括多层级案由类别;
根据所述案由图谱,标记所述历史法律文书所属的多层级案由类别;
将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型;
其中,所述多层级案由类别至少包括父案由类别与子案由类别;所述子案由类别为所述父案由类别的子类别;所述将所述历史法律文书作为训练样本,并依据所述案由图谱中多层级案由类别的层级顺序,将所述历史法律文书所属的各层级案由类别分别作为样本标记,对预设的分类模型进行迭代训练,得到案由分类模型包括:
将所述历史法律文书作为训练样本,将所述历史法律文书所属的父案由类别作为样本标记,对预设的分类模型进行训练,得到初步分类模型;
将所述历史法律文书作为训练样本,将所述历史法律文书所属的子案由类别作为样本标记,对所述初步分类模型进行训练,得到案由分类模型。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1~5中任一项所述的法律文书案由识别方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1~5中任一项所述的法律文书案由识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811062228.8A CN110895703B (zh) | 2018-09-12 | 2018-09-12 | 法律文书案由识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811062228.8A CN110895703B (zh) | 2018-09-12 | 2018-09-12 | 法律文书案由识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110895703A CN110895703A (zh) | 2020-03-20 |
CN110895703B true CN110895703B (zh) | 2023-05-23 |
Family
ID=69784981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811062228.8A Active CN110895703B (zh) | 2018-09-12 | 2018-09-12 | 法律文书案由识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110895703B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360648A (zh) * | 2021-06-03 | 2021-09-07 | 山东大学 | 基于相关性图学习的案由分类方法及系统 |
CN113722488A (zh) * | 2021-09-01 | 2021-11-30 | 北京市律典通科技有限公司 | 民事案由信息识别训练方法、装置及案由提取方法 |
CN117874230A (zh) * | 2023-12-21 | 2024-04-12 | 汉王科技股份有限公司 | 案由类别获取方法、装置、电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN107133283A (zh) * | 2017-04-17 | 2017-09-05 | 北京科技大学 | 一种法律本体知识库自动构建方法 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
-
2018
- 2018-09-12 CN CN201811062228.8A patent/CN110895703B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095996A (zh) * | 2016-06-22 | 2016-11-09 | 量子云未来(北京)信息科技有限公司 | 用于文本分类的方法 |
CN107133283A (zh) * | 2017-04-17 | 2017-09-05 | 北京科技大学 | 一种法律本体知识库自动构建方法 |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110895703A (zh) | 2020-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9058327B1 (en) | Enhancing training of predictive coding systems through user selected text | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
US20120136812A1 (en) | Method and system for machine-learning based optimization and customization of document similarities calculation | |
CN110895703B (zh) | 法律文书案由识别方法及装置 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN113743111A (zh) | 基于文本预训练和多任务学习的金融风险预测方法及装置 | |
CN114595689A (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN110263817B (zh) | 一种基于用户账号的风险等级划分方法及装置 | |
CN107908649B (zh) | 一种文本分类的控制方法 | |
CN105787004A (zh) | 一种文本分类方法及装置 | |
CN110941645A (zh) | 一种自动判定串案的方法、装置、存储介质及处理器 | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
Chen et al. | Improving Classification of Protein Interaction Articles Using Context Similarity‐Based Feature Selection | |
Dai et al. | Approach for text classification based on the similarity measurement between normal cloud models | |
CN110968691B (zh) | 司法热点确定方法及装置 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
CN113641903A (zh) | 基于人工智能的业务匹配方法及服务器 | |
CN105824871A (zh) | 一种图片检测方法与设备 | |
CN113408263A (zh) | 刑期预测方法、装置、存储介质及电子设备 | |
Wang et al. | An Automated Approach to Domain-specific Term Extraction for Programming Language | |
CN117171653B (zh) | 一种识别信息关系的方法、装置、设备及存储介质 | |
CN116932767B (zh) | 基于知识图谱的文本分类方法、系统、存储介质及计算机 | |
CN116136866B (zh) | 基于知识图谱的中文新闻摘要事实性知识校正方法和装置 | |
CN115099795B (zh) | 企业内部数字资源管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |