CN108021545B

CN108021545B - 一种司法文书的案由提取方法及装置

Info

Publication number: CN108021545B
Application number: CN201610955229.XA
Authority: CN
Inventors: 石鹏; 贾凯; 王福伟
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2021-08-10
Anticipated expiration: 2036-11-03
Also published as: CN108021545A

Abstract

本发明公开了一种司法文书的案由提取方法及装置，涉及计算机技术领域，主要目的在于按照语序对案由关键词进行匹配提取司法文书中可能存在的案由，避免了因为语序问题导致的错误提取。本发明主要的技术方案为：利用司法文书样本中的案由信息获取案由关键词样本集合，该案由关键词样本集合中为不同类型的司法文书样本中的案由关键词样本；根据所述案由关键词样本对批量司法文书进行分词，得到所述批量司法文书的案由关键词词库，所述案由关键词词库中包含有案由关键词以及对应的总词频；按语序提取目标司法文书中的案由关键词；根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由。本发明主要用于司法文书处理。

Description

一种司法文书的案由提取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种司法文书的案由提取方法及装置。

背景技术

案由，是人民法院对诉讼案件所涉及的法律关系的性质进行概括后形成的案件名称。目前，国内的司法案件主要类型包含民事、刑事、行政等类型案件，其中，民事及刑事案件由于国家已经颁布对应的法典，明确定义了其案由条目，因此，民事及刑事案件审理过程对应的司法文书中，相关案件的案由信息必须是对应民法，刑法中已经定义的案由条目，因此对民事、刑事案件司法文书的案由信息可以通过有限的精确匹配方式来得到准确的信息。但是，行政类型的案件，由于其涉及的范围较广泛（如知识产权案件、行政纠纷案件，政府信息公开，环保行为，城市、土地管理等均属于行政案件的范畴），因此，目前并没有类似民事，刑事这样的行政领域的法典来定义行政案由信息。

目前对于行政类型案件的相关司法文书的案由信息提取仍然依靠人工进行统计，或者是基于分词过后的案件关键词来计算匹配度。但是，对于依靠人工提取案由信息，需要投入大量的司法专业人员的人力及时间，而这是一个以人力穷举的过程，并且根据不同人对司法解释的不同理解，其案由信息提取的标准也存在较大的差异，同时人为误差也是人工提取过程中所无法避免。而对于基于分词过后的案件关键词计算匹配度，主要是通过对案件的相关司法文书进行分词并与行政案件关键词进行相似度计算来匹配出相关的案件案由信息，然而这种信息提取的方式将使分词过后的案件关键词将丢失原有句子中的语序信息，导致案由信息不能正确概括表达案件的内容，例如，“张三打李四”这个句子，分词结果很可能是“张三”、“打”、“李四”三个词，如果基于分词结果来匹配案由，则“张三打李四”及“李四打张三”这两个句子都将被匹配，而这两个句子的信息所表达的意思则是完全不同的。此外，现有的案由信息提取方式中一般只对应提取一条匹配度最高的案由，而对于行政类型的案件中往往会同时存在多个案由，这是现有提取方式所无法提取的。

发明内容

有鉴于此，本发明提供一种司法文书的案由提取方法及装置，主要目的在于按照语序对案由关键词进行匹配提取司法文书中可能存在的案由，避免了因为语序问题导致的错误提取。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供了一种司法文书的案由提取方法，该方法包括：

利用司法文书样本中的案由信息获取案由关键词样本集合，所述案由关键词样本集合中为不同类型的司法文书样本中的案由关键词样本；

根据所述案由关键词样本对批量司法文书进行分词，得到所述批量司法文书的案由关键词词库，所述案由关键词词库中包含有案由关键词以及对应的总词频；

按语序提取目标司法文书中的案由关键词，所述目标司法文书为所述批量司法文书中的一篇司法文书；

根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由。

另一方面，本发明还提供了一种司法文书的案由提取装置，该装置包括：

获取单元，用于利用司法文书样本中的案由信息获取案由关键词样本集合，所述案由关键词样本集合中为不同类型的司法文书样本中的案由关键词样本；

分词单元，用于根据所述获取单元获取的案由关键词样本对批量司法文书进行分词，得到所述批量司法文书的案由关键词词库，所述案由关键词词库中包含有案由关键词以及对应的总词频；

提取单元，用于按语序提取目标司法文书中的案由关键词，所述目标司法文书为所述批量司法文书中的一篇司法文书；

确定单元，用于根据所述提取单元提取的相邻案由关键词的共现频率与所述分词单元统计的总词频确定所述目标司法文书中的案由。

依据上述本发明所提出的司法文书的案由提取方法及装置，通过选取不同的司法文书样本来确定不同类型的案由关键词样本集合，并根据该集合中的案由关键词对批量的司法文书进行处理，获取其中存在的案由关键词以及所对应的总词频数。再针对批量司法文书中的目标司法文书按照语序关系确定相邻案由关键词的共现频率，结合案由关键词在批量司法文书中的总词频来共同确定目标司法文书中构成案由的案由关键词词组。相对于现有的根据关键词简单匹配的方式，本发明通过增加案由关键词在目标司法文书中出现的语序维度的判断，来确定案由关键词所组成的案由信息所表达的意思与目标司法文书相一致，从而提高案由提取的正确率。此外，通过使用不同类型的司法文书样本能够获取到更加专业、精确的案由关键词，从而使得在提取目标司法文书中的案由关键词时的效率更高，提取更准确。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种司法文书的案由提取方法的流程图；

图2示出了本发明实施例提出的另一种司法文书的案由提取方法的流程图；

图3示出了本发明实施例提出的一种司法文书的案由提取装置的组成框图；

图4示出了本发明实施例提出的另一种司法文书的案由提取装置的组成框图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种司法文书的案由提取的方法，如图1所示，该方法应用于司法文书的案由提取，针对不同类型案件的司法文书提取与该案对应的案由信息，具体步骤包括：

101、利用司法文书样本中的案由信息获取案由关键词样本集合。

由于司法案件的类型众多，主要可以分为民事、刑事、行政等类型，并且针对不同类型的案件还可以进一步的细分案件，如在行政类型的案件中还可以分为知识产权案件、行政纠纷案件，政府信息公开，环保行为等等不同的类型。不同类型案件由于所对应司法文书的内容也有所区别，因此，针对不同类型的司法文书应该使用不同的案由关键词进行案由提取。

本发明实施例通过使用不同类型的司法文书作为样本，来确定该类型的案由关键词样本。再将案由关键词样本以集合的形式进行保存，作为该类型司法案件的案由关键词的总词库。对于该类型待提取案由的司法文书，其案由可以由该案由关键词样本集合中的案由关键词所组成。

需要说明的是，案由关键词样本集合所对应的案件类型并不限定为某一类型的司法案件，也可以对于与多种类型的司法案件。

102、根据案由关键词样本对批量司法文书进行分词，得到该批量司法文书的案由关键词词库。

在得到案由关键词样本集合后，就可以对该类型的司法文书进行批量的处理，通过对司法文书进行分词，筛选出批量的司法文书中所包含的案由关键词有哪些。其中，案由关键词样本不仅可以用于限定司法文书中案由关键词的范围，还可以用于分词的一种限定条件，从而降低分词的错误概率。例如，“不服判决”在没有限定的情况下，其分词的结果可能为“不”“服”“判决”，而通过关键词样本的限定，其分词的结果就是“不服”“判决”。显然后一种的分词方式更适合司法文书中案由分词的需要。

对批量的司法文书进行分词后，会确定出这批司法文书中所有出现过的案由关键词，同时统计出每一个案由关键词所出现的总次数，即总词频。将案由关键词与该词的总词频相对应地生成一个案由关键词词库。该词库中主要记录的是案由关键词与其总词频，此外，也可以记录一些案由关键词的相关信息，如案由关键词在多少篇司法文书中出现过、每篇司法文书中出现了多少次等数据。

103、按语序提取目标司法文书中的案由关键词。

在得到案由关键词词库后，是针对目标司法文书提取案由的操作，首先，还是对目标司法文书进行分词，这里需要说明的事，本步骤中的分词操作需要按照目标司法文书中的语序进行分词，记录每一个分词的先后顺序。如此，在筛选出案由关键词后，各案由关键词也是按照其在原司法文书中的语序进行的循序排列，需要注意的是，此处分词后对于相同的案由关键词不需进行去重处理，只需得到按语序排列的案由关键词序列。

本步骤中的目标司法文书为步骤102中批量司法文书中的一篇司法文书。

104、根据相邻案由关键词的共现频率与其总词频确定目标司法文书中的案由。

在确定了目标司法文书中的案由关键词序列后，根据序列中案由关键词的排位，依次计算相邻两个案由关键词组成的关键词词组成为该目标司法文书案由的概率值。将得到的概率值与经验阈值进行比较，将连续大于经验阈值的案由关键词词组生成一条案由。例如，案由关键词序列为A，B，C，D，E，F，G，A，C，E（每个字母代表一个案由关键词），经验阈值为0.7，当A，B的组合概率为0.75、B，C的组合概率为0.84、C，D的组合概率为0.9、D，E的组合概率为0.2、E，F的组合概率为0.8、F，G的组合概率为0.95、G，A的组合概率为0.4、A，C的组合概率为0.1、C，E的组合概率为0.7时，那么，ABCD的组合就为一条案由，EFG的组合为第二条案由，CE组合为第三条案由。而当所有的相邻案由关键词的概率值都小于经验阈值时，则该目标司法文书的案由提取为失败。

其中，本发明实施例中相邻案由关键词的概率值计算是由相邻案由关键词在目标司法文书中的共现频率与相邻案由关键词中的后一个案由关键词在批量司法文书中的总词频的比值，即计算相邻案由关键词在目标司法案由关键词序列中共同出现的次数与后一个案由关键词在案由关键词词库中记录的总词频的比值。

结合上述的实现方式可以看出，本发明实施例所采用的司法文书的案由提取方法，通过选取不同的司法文书样本来确定不同类型的案由关键词样本集合，并根据该集合中的案由关键词对批量的司法文书进行处理，获取其中存在的案由关键词以及所对应的总词频数。再针对批量司法文书中的目标司法文书按照语序关系确定相邻案由关键词的共现频率，结合案由关键词在批量司法文书中的总词频来共同确定目标司法文书中构成案由的案由关键词词组。相对于现有的根据关键词简单匹配的方式，本发明实施例通过增加案由关键词在目标司法文书中出现的语序维度的判断，来确定案由关键词所组成的案由信息所表达的意思与目标司法文书相一致，从而提高案由提取的正确率。此外，通过使用不同类型的司法文书样本能够获取到更加专业、精确的案由关键词，从而使得在提取目标司法文书中的案由关键词时的效率更高，提取更准确。

上述实施例中所给出的概率值计算可以通过N-Gram模型计算得到，其中，N-Gram模型是大词汇连续语音识别中常用的一种语言模型，也称汉语语言模型。该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。比较常用的是二元的Bi-Gram模型和三元的Tri-Gram模型。

以下为了更加详细地说明本发明提出的一种司法文书的案由提取方法，特别是在N-Gram模型下计算相邻案由关键词组成为案由的概率值的过程，本发明实施例还提出了一种司法文书的案由提取方法，如图2所示，该方法在对司法文书的案由提取时所包括步骤为：

201、利用司法文书样本中的案由信息获取案由关键词样本集合。

获取案由关键词样本集合的具体方式为：首先对司法文书样本进行预处理，提取样本中描述案由信息的段落。在司法文书中，关于案由的描述通常是在独立的段落或部分中进行叙述的。因此，通过确定司法文书样本中的案由描述信息段落，再对该段落进行分词来获取案由关键词样本，不仅可以减少分词的信息量，提高信息检索效率，还可以去掉司法文书中与案由信息不相关的信息，提高案由信息的检索准确率。

需要说明的是，案由关键词样本集合中的案由关键词样本的数量将决定后续对目标司法文书案由提取的准确性，因此，司法文书样本的数量与案由关键词样本的数量为正相关，应尽可能多的提供司法文书样本来扩大案由关键词样本集合中案由关键词样本的数量。

202、根据案由关键词样本对批量司法文书进行分词，得到该批量司法文书的案由关键词词库。

本步骤中对于批量司法文书进行分词同样可以先对批量司法文书进行预处理，提取出其中的案由描述信息段落，再对这些案由描述信息段落进行分词，利用案由关键词样本筛选分词结果中的存在的案由关键词，同时，去除特定词性的词语，如标点符号、助词、副词、代词等信息，并以得到的案由关键词创建一个案由关键词词库，该词库中至少包含有案由关键词的总词频，该总词频是指案由关键词在批量司法文书分词得到的总数量。案由关键词词库如下表所示：

表1：案由关键词词库示例

案由关键词	总词频
		不服	37752
工伤	2356
		复议	22141
决定	467239
		行政	1428722
判决	67891
		…	…

203、按语序提取目标司法文书中的案由关键词。

本步骤同上述103步骤，具体内容可参见上述描述，此处不再赘述。

204、通过N-Gram模型确定目标司法文书中的案由条目。

根据203中得到的案由关键词序列，通过N-Gram模型计算得到目标司法文书中的案由条目。由于N-Gram模型比较常用的是二元的Bi-Gram模型和三元的Tri-Gram模型，因此，下面分别对Bi-Gram模型与Tri-Gram模型举例说明其案由提取的过程。

在Bi-Gram模型下，一句话中的每个词的出现仅仅依赖于它前面出现的一个词。用公式表示则如下：

P(句子) ≈ P(词1词2词3…词n)=P(词1)P(词2|词1)P(词3|词2)…P(词n|词n-1)，其中P表示概率值。

因此要验证目标信息，即相邻案由关键词，是否为一个有效的行政案由信息，只需要将这段目标信息放入上述的公式中，分词后计算批量司法文书中每个词出现的概率乘积即可，即计算P(词n|词n-1)，在数学中较简单的做法是采用最大似然估计，用公式表达如下：

P(词n|词n-1) = (C(词n-1词n))/(C(词n-1))，其中，P代表概率值，C代表该词在批量司法文书中出现的次数。

下面以表1中给出的样本数据对目标司法文书中的案由描述信息段落按语序分词，得到案由关键词序列，对该段序列提取案由信息，假设案由关键词样本集合中的词数为60万，目标司法文书的案由段落中包含的案由关键词序列为：（……，不服，工伤，复议，决定，行政，判决，……），对于这个案由关键词序列，根据批量司法文书中每个词的词频及前一个词的依赖信息，该依赖信息就是案由关键词与其前一个案由关键词的共现词频，计算词频C(词n-1词n)，得到如下表2所示的结果集：

表2：目标司法文书中案由关键词序列词频表（二元）

	不服	工伤	复议	决定	行政	判决
							不服	0	672	125	431	12731	2165
工伤	9	0	6828	534	2169	128
							复议	18	23	0	10651	4	531
决定	103	107	235	0	13	22
							行政	13	6	12921	17521	0	63091
判决	341	1	3211	15	5	0

对于该案由关键词序列根据下列公式进行计算：

P(句子) ≈ P(词1词2词3…词n)=P(词1)P(词2|词1)P(词3|词2)…P(词n|词n-1)；

P(词n|词n-1) = (C(词n-1词n))/(C(词n-1))；

计算过程中，每一个案由关键词，如果前面没有选中的案由关键词，则该案由关键词直接保留，否则，对每一个案由关键词的计算结果值，与一个预设的阈值进行比较，该阈值为一个经验值，例如0.01，高于该阈值，则该项对应的案由关键词词组保留，否则丢弃。具体的计算结果如下：

P（不服）=37752/600000=0.06292

P（复议|工伤）=6828/22141=0.308387

P（决定|复议）=10651/467239=0.022796

P（行政|决定）=13/1428722=0.0000096

P（判决|行政）=63091/67891=0.9293

由上面这组数据，可以得到如下关键词取舍的过程：

1）初始案由信息队列为空；

2）“不服”：第一个关键词，保留，当前案由信息队列：“不服”。

3）“复议”：0.308387>0.01，保留，当前案由信息队列：“不服工伤复议”。

4）“决定”：0.022796>0.01，保留，当前案由队列：“不服工伤复议决定”。

5）“行政”：0.0000096<0.01，当前案由信息队列中的信息“不服工伤复议决定”作为案由备选项提出，同时清空案由信息队列，将当前关键词“行政”放入队列，当前案由信息队列：“行政”。

6）“判决”：0.9293>0.01，保留，当前案由信息队列：“行政判决”。

如果此时案由关键词序列结束，则当前案由信息队列中的信息“行政判决”也保留为案由备选项。

通过Bi-Gram模型的计算得到的案由条目的备选项为“不服工伤复议决定”和“行政判决”两条。

下面，在Tri-Gram模型下，一句话中的每个词的出现依赖于它前面顺序出现的两个词。用公式表示则如下：

P(句子) ≈ P(词1词2词3…词n)=P(词1)P(词2|词1)P(词3|词1，词2)P(词4|词2，词3)…P(词n|词n-2,词n-1)；

P(词n|词n-2,词n-1)=C((词n-2,词n-1),词n)/c(词n-2,词n-1)。

以上通过介绍N-Gram模型中的两种常用的计算方式来确定目标司法文书中的案由条目，经过上述的步骤，对一篇可能存在多个案由的行政司法文书中的所有可能案由信息的提取就完成了。当目标司法文书没有案由被提取时，确定该篇司法文书的案由提取失败，需要重新提取。

205、根据预置案由提取规则筛选所确定的目标司法文书中的案由。

在上述204中所提取的目标司法文书的案由条目为备选案由，还需要根据预置的案由提取规则进行进一步的筛选。因为当组成案由的案由关键词过少时，可能无法表达出相应的案件信息，因此，设置案由关键词的数量就属于预置案由提取规则中的一种。例如，当设置案由关键词的数量不能少于3个时，上述例子中的案由“行政判决”将被删除，只有保留“不服工伤复议决定”一条为满足该案件的案由。

此外，根据不同类型案件的不同业务需求还可以设置不同的案由提取规则。当然该设置的案由提取规则是人为设置的，在不需要加入规则时可以不设置相关的提取规则。

进一步的，作为对上述方法的实现，本发明实施例提供了一种司法文书的案由提取装置，该装置实施例与前述方法实施例对应，为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置用于司法文书的数字化处理设备中，如图3所示，该装置包括：

获取单元31，用于利用司法文书样本中的案由信息获取案由关键词样本集合，所述案由关键词样本集合中为不同类型的司法文书样本中的案由关键词样本；

分词单元32，用于根据所述获取单元31获取的案由关键词样本对批量司法文书进行分词，得到所述批量司法文书的案由关键词词库，所述案由关键词词库中包含有案由关键词以及对应的总词频；

提取单元33，用于按语序提取目标司法文书中的案由关键词，所述目标司法文书为所述分词单元32处理的批量司法文书中的一篇司法文书；

确定单元34，用于根据所述提取单元33提取的相邻案由关键词的共现频率与所述分词单元统计的总词频确定所述目标司法文书中的案由。

进一步的，如图4所示，所述确定单元34包括：

统计模块341，用于按照语序统计案由关键词与其前一个案由关键词的共现频率；

计算模块342，用于计算所述统计模块341统计的共现频率与所述案由关键词的总词频的比值，得到由所述案由关键词与其前一个案由关键词组成的词组的概率值；

判断模块343，用于判断当所述计算模块342计算出的词组的概率值大于阈值时，将所述词组确定为案由词组；

确定模块344，用于按照语序组合所述判断模块343得到的连续的案由词组，得到一条所述目标司法文书中的案由。

进一步的，如图4所示，所述获取单元31包括：

获取模块311，用于获取所述司法文书样本中的案由描述信息段落；

分词模块312，用于对所述获取模块311获取的案由描述信息段落进行分词，得到所述案由关键词样本。

进一步的，如图4所示，所述分词单元32包括：

分词模块321，用于对所述批量司法文书中的案由描述信息段落进行分词；

筛选模块322，用于根据所述案由关键词样本筛选所述分词模块321得到的批量司法文书中的案由关键词，生成案由关键词词库；

统计模块323，用于统计所述筛选模块322筛选出的案由关键词词库中各案由关键词在所述批量司法文书中的总词频。

进一步的，如图4所示，所述装置还包括：

筛选单元35，用于在确定单元34根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由之后，根据预置案由提取规则筛选所确定的目标司法文书中的案由。

综上所述，本发明实施例所采用的司法文书的案由提取方法及装置，通过选取不同的司法文书样本来确定不同类型的案由关键词样本集合，并根据该集合中的案由关键词对批量的司法文书进行处理，获取其中存在的案由关键词以及所对应的总词频数。再针对批量司法文书中的目标司法文书按照语序关系确定相邻案由关键词的共现频率，结合案由关键词在批量司法文书中的总词频来共同确定目标司法文书中构成案由的案由关键词词组。相对于现有的根据关键词简单匹配的方式，本发明实施例通过增加案由关键词在目标司法文书中出现的语序维度的判断，来确定案由关键词所组成的案由信息所表达的意思与目标司法文书相一致，从而提高案由提取的正确率。此外，通过使用不同类型的司法文书样本能够获取到更加专业、精确的案由关键词，从而使得在提取目标司法文书中的案由关键词时的效率更高，提取更准确。而在加入预置案由提取规则后，还能够对得到的案由进行进一步的筛选，得到更加符合目标司法文书的案由，从而提高案由提取的准确性。

所述司法文书的案由提取装置包括处理器和存储器，上述获取单元、记录单元、存储单元和播放单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现简化司法文书的案由提取器的播放，特别是针对在司法文书的案由提取意外中断时的视频续播功能。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：获取视频的打开路径，所述打开路径为用户所选择的视频在播放器中的存储路径；记录所述视频的播放进度，所述播放进度为所述视频在播放器中已播放的时间长度；将所述打开路径和所述播放进度保存至播放器开启加载文件中，所述播放器开启加载文件是在播放器启动时需要加载的配置文件；在所述播放器启动时，根据所述播放器开启加载文件中视频的打开路径和播放进度播放所述视频。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体 (transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种司法文书的案由提取方法，其特征在于，所述方法包括：

根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由，包括：按照语序统计案由关键词与其前一个案由关键词的共现频率；计算所述共现频率与所述案由关键词的总词频的比值，得到由所述案由关键词与其前一个案由关键词组成的词组的概率值；当所述词组的概率值大于阈值时，将所述词组确定为案由词组；按照语序组合连续的案由词组得到一条所述目标司法文书中的案由。

2.根据权利要求1所述的方法，其特征在于，利用司法文书样本中的案由信息获取案由关键词样本集合包括：

获取所述司法文书样本中的案由描述信息段落；

对所述案由描述信息段落进行分词，得到所述案由关键词样本。

3.根据权利要求1所述的方法，其特征在于，根据所述案由关键词样本对批量司法文书进行分词，得到所述批量司法文书的案由关键词词库包括：

对所述批量司法文书中的案由描述信息段落进行分词；

根据所述案由关键词样本筛选批量司法文书中的案由关键词，生成案由关键词词库；

统计所述案由关键词词库中各案由关键词在所述批量司法文书中的总词频。

4.根据权利要求1所述的方法，其特征在于，在根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由之后，所述方法还包括：

根据预置案由提取规则筛选所确定的目标司法文书中的案由。

5.一种司法文书的案由提取装置，其特征在于，所述装置包括：

确定单元，用于根据所述提取单元提取的相邻案由关键词的共现频率与所述分词单元统计的总词频确定所述目标司法文书中的案由；

所述确定单元包括：

统计模块，用于按照语序统计案由关键词与其前一个案由关键词的共现频率；计算模块，用于计算所述统计模块统计的共现频率与所述案由关键词的总词频的比值，得到由所述案由关键词与其前一个案由关键词组成的词组的概率值；判断模块，用于判断当所述词组的概率值大于阈值时，将所述词组确定为案由词组；确定模块，用于按照语序组合连续的案由词组得到一条所述目标司法文书中的案由。

6.根据权利要求5所述的装置，其特征在于，所述获取单元包括：

获取模块，用于获取所述司法文书样本中的案由描述信息段落；

分词模块，用于对所述获取模块获取的案由描述信息段落进行分词，得到所述案由关键词样本。

7.根据权利要求5所述的装置，其特征在于，所述分词单元包括：

分词模块，用于对所述批量司法文书中的案由描述信息段落进行分词；

筛选模块，用于根据所述案由关键词样本筛选批量司法文书中的案由关键词，生成案由关键词词库；

统计模块，用于统计所述筛选模块筛选出的案由关键词词库中各案由关键词在所述批量司法文书中的总词频。

8.根据权利要求5所述的装置，其特征在于，所述装置还包括：

筛选单元，用于在确定单元根据相邻案由关键词的共现频率与所述总词频确定所述目标司法文书中的案由之后，根据预置案由提取规则筛选所确定的目标司法文书中的案由。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求4中任意一项所述的司法文书的案由提取方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至权利要求4中任意一项所述的司法文书的案由提取方法。