CN107153689A

CN107153689A - 一种基于主题相似度的案件检索方法

Info

Publication number: CN107153689A
Application number: CN201710298924.8A
Authority: CN
Inventors: 耿伟; 周宇; 司华建; 贾真
Original assignee: Anhui Fu Chi Information Technology Co Ltd
Current assignee: Anhui Fu Chi Information Technology Co Ltd
Priority date: 2017-04-29
Filing date: 2017-04-29
Publication date: 2017-09-12

Abstract

本发明公开了一种基于主题相似度的案件检索方法，属于数据检索技术领域，方法包括以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块；基于领域词表，利用主题模型分别抽取各文书段块的主题词，得到各文书段块的主题词块和非主题词块；根据各文书段块主题词块、非主题词块中的特征词，构建特征倒排索引；将特征倒排索引映射为特征向量，并利用主题相似度模型计算查询语句与文书数据集中各文书的相似度；对查询语句与文书数据集中各文书的相似度进行排序，并输出排序结果完成文书检索。本发明从司法特征词和司法主题两个维度来描述文书，提高了类案检索的效率和准确性。

Description

一种基于主题相似度的案件检索方法

技术领域

本发明涉及数据检索技术领域，特别涉及一种基于主题相似度的案件检索方法。

背景技术

随着社会信息的公开化、透明化，案件的审判结果也越来越受到社会的关注。对于同一个案件，不同的法官的裁量尺度的差别也往往不一样。如果能够在判决案件之前，及时的推荐以往的相似案件，无疑会起到一个很好的参考作用。

目前的司法类案件检索，普遍采用的是基于tf-idf的向量空间模型相似度计算方法，这种方法以关键词在文本中出现的频率及文本集中出现该词的反文档频率来表征词权重，通过计算向量之间的余弦相似度来计算文本的相似度，进而根据文本的相似度来进行检索。但是，由于以下原因：一、对于司法文书数据集而言，词项的数目和文书数目都很大，采用词频向量模型，必须将文书表示为词项数目和文书数目的矩阵，具有非常高的特征维度。二、特征矩阵极度稀疏，计算效率较低。三、在相似度的计算过程中，无关词项参与相似度模型的计算，造成干扰导致检索效果差。

因此，现有的基于关键词的全文检索方法，具有检索效率低、检索结果不准确以及专业性差等缺点。

发明内容

本发明的目的在于提供一种很基于主题相似度的案件检索方法，以提高案件检索的效率和准确度。

为实现以上目的，本发明提供一种基于主题相似度的案件检索方法，该方法包括：

以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块；

基于领域词表，利用主题模型分别抽取各文书段块的主题词，得到各文书段块的主题词块和非主题词块；

根据各文书段块主题词块、非主题词块中的特征词，构建特征倒排索引；

将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度；

对用户查询语句与文书数据集中各文书的相似度进行排序，并输出排序结果完成案件检索。

进一步地，主题相似度模型具体为：

其中，Q表示用户查询语句，q_j表示Q中第j个关键词，d表示文书，P(q_j/Q)＝C(q_j,Q)/|Q|，C(q_j,Q)表示q_j在用户查询语句Q中出现的次数，|Q|表示用户查询词语数。

进一步地，将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度，具体包括：

利用所述主题相似度模型，分别计算特征向量中主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度；

对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和，得到用户查询语句与文书的相似度。

进一步地，在以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块之前，还包括：

基于停用词词典，去除文本中的停用词；

对去除停用词的文书进行分词处理，得到文书的分词结果。

进一步地，在利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前，还包括：

基于停用词词典，去除用户查询语句中的停用词；

对去除停用词后的用户查询语句进行分词处理，得到用户查询语句的分词结果；

基于所述领域词表，对用户查询语句的分词结果进行筛选，得到所述用户查询语句的关键词。

进一步地，该方法还包括：

结合信息点对所述文书数据集中的文书数据进行过滤，得到过滤后的文书数据；

相应地，所述的将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度，还包括：

使用所述的主题相似度模型计算用户查询语句与过滤后文书的相似度。

与现有技术相比，本发明存在以下技术效果：第一、本发明在原有的自动抽取算法的基础上，以司法文书的布局和要点词为约束条件，确保文书关键段块抽取的准确性。第二、对关键段块抽取主题词时，采用司法领域的领域词表对段块中的特征词进行筛选，去除了无关词项的干扰，降低了特征词的维度，提高了类案检索效率和检索专业性。第三、从司法主题和司法特征词两个维度来描述司法文书，提高了文书描述的精确度，并且在计算相似度时，兼顾主题词块和非主题词块的相似度计算，极大的提高了类案检索的准确率和召回率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是本发明一实施例中一种基于主题相似度的案件检索方法的流程示意图；

图2是本发明一实施例中司法文书的描述示意图；

图3是本发明一实施例中司法文书隐含主题层次的结构示意图；

图4是本发明一实施例中离线构建特征词倒排索引的流程示意图；

图5是本发明一实施例中基于主题词相似度对司法类案件进行检索的流程示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于主题相似度的案件检索方法，该方法包括如下步骤S1至S5：

S1、以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块；

其中，文书的布局指的是：司法文书在排布时固定的组成部分，一般包括案件事实、争议焦点以及裁判结果等部分，要点词指的是案件事实、争议焦点以及节裁判结果等内容中涉及的重要词汇。

例如，司法文书中案件事实、争议焦点以及裁判结果等组成部分一般有固定的位置，但是由于司法文书种类的不同，上述固定位置可能会出现偏差，此时通过各部分的要点词汇进行进一步限定，可保证司法文书关键段块抽取的准确性。

需要说明的是，本实施例中所抽取的案件事实、争议焦点以及裁判结果三个关键段块仅为举例说明，本领域技术人员可以根据实际情况的需要抽取不同数量、不同组成部分的关键段块。

S2、基于领域词表，利用主题模型分别抽取各文书段块的主题词，得到各文书段块的主题词块和非主题词块；

需要说明的是，如图2所示，在司法领域，通过领域词表规范的词条来描述专业领域内的主题词。将一篇司法文书中重要的词语挑选出来，使用主题词来表示一个概念、一个方面，这些主题词构成主题词块。主题词块具有清晰的层次结构，依次为文书集合层、主题层和特征词层，司法文书可以由这些主题词和领域词语的条件概率表示。

S3、根据各文书段块主题词块、非主题词块中的特征词，构建特征倒排索引；

具体地，将司法文书建模到司法主题词、司法特征词的二维特征空间，保留描述司法文书的本质特征信息，并采用倒排索引结果存储，有助于高效地处理大规模司法文书数据。

S4、将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度；

S5、对用户查询语句与文书数据集中各文书的相似度进行排序，并输出排序结果完成案件检索。

本实施例中，如图3至图4所示，基于司法领域的领域词表，从司法裁判的领域业务知识体系出发，构造描述案件的争议焦点、裁判结果和案件事实等关键段块，每个段块由两个词块组成，一个词块是属于领域词表的主题词构成的主题词块，另一个词块是由非主题词构成的非主题词块。

第一方面，主题词块是以司法领域的领域词表匹配得到，去除了无关词项，不仅确保了主题词块的精确性，而且降低了主题词块中特征词的维度，降低了计算量。第二，将司法文书表示为司法主题词块和特征词两个维度，与原有的将司法文书表示为词项数目和文书数目的矩阵相比，降低了特征维度，减小了运算量，实现高效处理大规模司法文书数据的目标。

进一步地，主题相似度模型具体为：

进一步地，步骤S4：“将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度”，具体包括如下细分步骤：

对同一文书段块的主题词块与用户查询语句的相似度、非主题词块与用户查询语句的相似度进行加权求和，得到用户查询语句与司法文书的相似度。

需要说明的是，本实施例中将司法文书的每一文书段块分割为两个词块即主题词块和非主题词块，在计算主题词块与查询语句的相似度时，通过主题词块和查询语句的相关度来衡量，在计算非主题词块和查询语句的相似度时，利用传统的语言模型进行衡量。然后，将两个词块和查询语句的相似度加权求和，来衡量整个司法文书的相似度，即如下式所示：

其中，表示第i个文书段块的主题词块，表示第i个文书段块的非主题词块，θ表示主题词块的加权系数，(1-θ)表示非主题词块的加权系数，表示查询语句和第i个文书段块的主题词块的相似度，表示查询语句和第i个文书段块的非主题词块的相似度。

进一步地，如图4所示，在步骤S1：“以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块”之前，该方法还包括如下步骤：

基于停用词词典，去除文本中的停用词；

对去除停用词的文书进行分词处理，得到文书的分词结果。

需要说明的是，本实施例中在对司法文书的关键段块进行抽取之前，对司法文书进行预处理，去除文书中停用词，并对文书中的语句进行分词，以便于实现对文书关键段块的准确抽取。

进一步地，如图5所示，在步骤S4中利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前，还包括如下步骤：

基于停用词词典，去除查询语句中的停用词；

对去除停用词后的查询语句进行分词处理，得到查询语句的分词结果；

基于所述领域词表，对查询语句的分词结果进行筛选，得到所述查询语句的关键词。

进一步地，该方法还包括如下步骤：

结合信息点对文书数据进行过滤，得到过滤后的文书数据；

使用主题相似度模型计算用户查询语句与过滤后文书的相似度。

需要说明的是，该处的信息点包括所属区域、法院、审判时间、案件类型等信息，通过结合信息点对司法文书数据进行过滤，可以过滤掉一部分与查询案件无关的文书数据，比如，在用户输入的查询语句中，查询的是某一区域的刑事案件，则结合信息点将不属于该区域的、不是刑事类的案件过滤掉，缩小了查找的范围。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于主题相似度的案件检索方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述的主题相似度模型具体为：

<mrow> <mi>s</mi> <mi>c</mi> <mi>o</mi> <mi>r</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>Q</mi> <mo>,</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>&Element;</mo> <mi>Q</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>/</mo> <mi>Q</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>q</mi> <mi>j</mi> </msub> <mo>/</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>,</mo> </mrow>

3.如权利要求1或2所述的方法，其特征在于，所述的将特征倒排索引映射为特征向量，并利用主题相似度模型计算用户查询语句与文书数据集中各文书的相似度，具体包括：

4.如权利要求2所述的方法，其特征在于，在所述的以文书的布局和要点词为约束条件，利用自动抽取算法，抽取文书的案件事实、争议焦点以及裁判结果三个段块之前，还包括：

基于停用词词典，去除文本中的停用词；

对去除停用词的文书进行分词处理，得到文书的分词结果。

5.如权利要求2所述的方法，其特征在于，在所述的利用主题相似度模型计算用户查询语句和文书数据集中各个文书的相似度之前，还包括：

基于停用词词典，去除用户查询语句中的停用词；

6.如权利要求2所述的方法，其特征在于，还包括：