CN107807962B

CN107807962B - 一种使用lda主题模型对法律判决文书进行相似度匹配的方法

Info

Publication number: CN107807962B
Application number: CN201710940104.4A
Authority: CN
Inventors: 汪洋; 王佳梁
Original assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Current assignee: CHINA SOFTWARE AND TECHNOLOGY SERVICE Co Ltd
Priority date: 2017-10-11
Filing date: 2017-10-11
Publication date: 2018-11-30
Anticipated expiration: 2037-10-11
Also published as: CN107807962A

Abstract

本发明公开了一种使用LDA主题模型对法律判决文书进行相似度匹配的方法。本方法为：对判决文书库中每一待处理的法律判决文书，抽取对该法律判决文书中法律事实部分的段落中每一句子，使用LDA方法抽象事实提取，得到句子对应的一个抽象事实类，将各句子的抽象事实类构成的抽象事实类集作为法律判决文书的抽象事实类集；将各法律判决文书的抽象事实类集去重合并，构成一抽象事实类总集；从输入的查询请求中的法律事实段落的每个句子中抽取关键词；根据查询请求中各句子的抽象事实类得到该查询请求对应的一抽象事实类集；将得到的抽象事实类集与每一法律裁判文书的抽象事实类集中的各抽象事实类进行对比，得到该查询请求匹配的法律判决文书。

Description

一种使用LDA主题模型对法律判决文书进行相似度匹配的方法

技术领域

本发明属于自然语言处理领域，具体为一种专业领域文档的查找和分类方法，尤其涉及一种使用LDA主题模型对法律判决文书进行相似度匹配的方法。

背景技术

在目前案件审理流程过程中，法官和律师都会在以往的判决文书库里面查找相似度高的案件进行参考。

在现阶段的同类案件的查找方法只有两种：

1)通过国家法律体系里面规定的案由(民事案件)和罪名(刑事案件)进行文书索引，但是这种分类索引体系较为粗犷，在同一个案由或同一个罪名下的案件所涉及的实际事实情况千差万别。因此在这种查找方法并不能给法官或者律师在查找相似案件的时候提供相似度匹配比较高的同类案件。

2)通过关键字进行查找。这种查找方式最大的缺点是结果不稳定，不同的关键字组合查找出来的结果差异性非常大，法官或律师需要不断尝试多种关键字组合，而且最终也不一定可以找到可以使用的相似性高的结果。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种使用LDA主题模型对法律判决文书进行相似度匹配的方法。

本发明通过对已有的法律判决文书里面的案件事实描述部分进行概括和抽象，归类出法律判决文书里面所描述的事实情况类型；然后对不同的律法判决文书的抽象事实类型进行比较得出文书相似性指标，进而推导出不同法律判决文书的相似性。

本发明的技术方案为：

一种使用LDA主题模型对法律判决文书进行相似度匹配的方法，其步骤包括：

1)对判决文书库中每一待处理的法律判决文书进行抽象事实建模；即对每一法律判决文书，抽取该法律判决文书中法律事实部分的段落，并将抽取的段落切分为若干句子，然后对每一句子，使用LDA方法进行抽象事实提取，得到该句子对应的一个抽象事实类，将各句子的抽象事实类构成的抽象事实类集作为该法律判决文书的抽象事实类集，其中，每个抽象事实类对应一个唯一的词概率分布；将该法律判决文书与该抽象事实类总集进行映射，完成该法律判决文书的抽象事实建模；

2)将各法律判决文书的抽象事实类集进行去重合并，构成一抽象事实类总集；

3)从输入的查询请求中的法律事实段落的每个句子中抽取关键词；对于该查询请求中的任一句子s，根据公式计算该句子s在所述抽象事实类总集里的每个抽象事实类上的概率评分，取概率评分最高对应的抽象事实类作为句子s的抽象事实类，根据该查询请求中各句子的抽象事实类得到该查询请求对应的一抽象事实类集；N_w是句子s中的关键词w在当前句子中出现的次数，ρ_w是在抽象事实类θ中的关键词w的概率分布，是句子s对抽象事实类θ的概率评分，ρ_w∈θ；

4)将步骤3)得到的抽象事实类集与步骤1)中每一法律裁判文书的抽象事实类集中的各抽象事实类进行对比，然后找到相似度最高的抽象事实类集对应的法律判决文书作为该查询请求匹配的法律判决文书。

进一步的，所述步骤4)中，得到该查询请求匹配的法律判决文书的方法为：将每一法律判决文书的抽象事实类集对应到N维向量空间中的一点，得到N维向量空间里的M个对应点，N为抽象事实类总集中抽象事实类的个数；将步骤3)得到的抽象事实类集映射该N维向量空间中记作点Q；然后计算点Q和该M个点中每一点的相似度，将相似度最高的点对应的法律裁判文书作为该查询请求匹配的法律判决文书。

进一步的，该查询请求为一法律判决文书或者法律判决文书的法律事实部分；抽取该查询请求中的法律事实段落，并将抽取的段落切分为若干句子并从句子中抽取所述关键词。

进一步的，所述步骤1)中，对抽取出的段落进行清洗、分词、去除停用词；然后对处理后的段落进行句子切分。

进一步的，所述步骤1)中，使用LDA方法进行抽象事实提取时，LDA方法的超参数α值小于0.001。

本发明的有益效果是：

本发明通过抽象提取法律事实描述进行对比的方法可以极大提高法律文书描述的准确性，从而缩小文书的搜索结果的范围，提高搜索结果的准确性。

附图说明

图1为模型训练和模型使用的流程图。

具体实施方式

为了便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本实施方式的数据来源是法律文书网公开的房屋买卖合同纠纷案由下的法律判决文书，对其进行数据清洗，清洗的过程是先去除可见和不可见标点符号，然后进行句子中文分词，分词完成后进行停用词去除。经过清洗后的部分段落为：

“第6109句：上述事实原被告人陈述提供本院调取相关证据材料予以佐证

第6110句：审理查明被告平安县交通局签订团体购房协议书

第6111句：原告属平安县交通局团购客户原被告签订商品房买卖合同原告购买被告位于金阳光如意城楼单元室住宅楼商品房建筑面积单价

第6112句：合同约定买受人付清首付款办理公积金贷款内转入被告公司账户

第6113句：买受人时间付款逾期之内自本应付款期限实际全额支付款止买受人出卖人支付逾期应付款违约金合同继续履行逾期超过出卖人有权解除合同

第6114句：出卖人解除合同买受人累计应付款出卖人支付违约金

第6115句：买受人愿意继续履行合同出卖人合同继续履行自本应付款期限实际全额支付应付款止买受人出卖人支付逾期应付款违约金

第6116句：出卖人应当日前国家地方人民政府规定具备商品房经验收合格条件符合本合同约定商品房交付买受人使用

第6117句：出卖人逾期交房逾期时间处理作累加逾期超过实际交付止出卖人买受人支付交房价款违约金合同继续履行

第6118句：逾期超过日后买受人有权解除合同

第6119句：买受人解除合同出卖人应当买受人解除合同通知到达之日起天内退还全部付款买受人累计付款买受人支付违约金

第6120句：买受人要求继续履行合同合同继续履行实际交付止出卖人买受人支付交房价款违约金”。

对700余篇房屋买卖合同纠纷判决文书进行抽象事实抽取后每个抽象事实类里面前7个出现概率最大的词：

每个抽象事实类的词概率分布：

抽象事实类：0

词：符合规定证明文件合格出示使用出卖。

概率：[0.05570853 0.05100161 0.04284766 0.04132109 0.038253540.03786065 0.03472414]。

抽象事实类：1

词：出具收到同日载明收条被告房款。

概率：[0.23862425 0.23389651 0.15468771 0.13104155 0.126793280.03021956 0.02511034]。

抽象事实类：3

词：价格银行按揭抵押权成交归还欠款。

概率：[0.2145027 0.21193395 0.16388393 0.1107992 0.10962076 0.083816840.02733357]。

抽象事实类：6

词：上述事实房屋买卖当事人陈述质证协议书双方。

概率：[0.13940871 0.10852623 0.09235085 0.08893671 0.088539040.07844726 0.07414962]。

抽象事实类：9

词：证明事实收据认定系提供法律。

概率：[0.1395818 0.09086082 0.08311664 0.07589858 0.072774050.06940879 0.05579367]。

抽象事实类：11

词：入住涉案变更情况楼房证人房屋。

概率：[0.08913313 0.07306877 0.07142411 0.05569215 0.047100520.04453333 0.04227732]。

抽象事实类：12

词：登记产权房产房屋备案所有权证办理。

概率：[0.07961872 0.06962327 0.06090386 0.04845708 0.045003360.04468825 0.04368679]。

抽象事实类：17

词：交当日收取物业月份原告出具。

概率：[0.25510675 0.23505801 0.12276751 0.10166183 0.070367110.03982394 0.03960768]。

从上述抽取结果中可以看出每个抽象事实都有很明显的差异性，从而可以确定使用抽象事实的方法可以较好的提取法律文书中的事实特征。

如图1所示，本发明的整个流程分为两个部分，第一个是法律文书抽象事实的建模，第二个是抽象事实在文书查找中的使用。

(1)法律文书抽象事实的建模步骤：

1.找到法律判决文书中的法律事实部分，对表述法律事实部分的段落进行抽取和整合。

2.对抽取出的段落进行清洗，去除不可见符号，然后进行分词，最后去除停用词。

3.对已进行清洗的段落以句号进行切分，整理成为以句子为中心的训练语料。

4.对前面清洗过后的每句话使用通用LDA方法进行抽象事实(主题)类提取，通过观察可以看出每个法律事实的句子都只表述了一个唯一的事实(主题)类，所以在训练LDA时的超参数α的值需要设置在0.001以下。最终通过LDA方法对每一个句子提取出一个抽象事实(主题)类。最终生成一个法律方面的抽象事实(主题)类总集，并且每个抽象事实(主题)类有一个唯一的词概率分布。当训练完毕抽象事实类总集的抽象事实类个数和总集中每个抽象事实类中的词概率分布将不再改变。

5.对每篇法律判决文书和从本法律文书事实部分中提取出的抽象事实类进行映射，也就说是每篇法律判决文书可以对应到一个抽象事实类集，从而完成每篇法律判决文书的抽象事实建模。

(2)抽象事实在文书查找中的使用步骤：

6.对所需要查找对比的法律判决文书或者手动输入的事实进行事实段落的抽取。

7.对抽取的段落进行清洗和句子切分，并使用tf-idf方法对每个句子进行句子关键词抽取。

8.使用句子中的关键词对照步骤4生成的抽象事实类总集中每一个抽象事实类的词概率分布，把当前句中每个关键词在当前句子里出现次数乘上从抽象事实类总集中抽取的一个抽象事实类里对应该关键词的词概率分布，最后把句中每个关键词都做同样计算并把计算结果相加，就得到了当前句子对当前抽象事实类的概率评分，然后用同样的方法对当前句子在抽象事实类总集里的每个抽象事实类上都能得到一个概率评分(相似度评分)，取概率评分最高对应的抽象事实类作为当前句子的抽象事实类，最终对每一个句子都重复上述工作，直到每个句子都可对应到一个唯一的抽象事实类。从而把待查文书或手输句子映射到一个抽象事实类集，该抽象事实类集中的每一个抽象事实类都从属于步骤4生成的抽象事实类总集中。上述计算概率评分的公式如下：

其中，N_w是句子s中的关键词w在当前句子中出现的次数，ρ_w是在抽象事实类θ中的关键词w的概率分布，是句子s对抽象事实类θ的概率评分(相似度评分)。

9.将步骤8提取出的待查文书或手输句子对应的抽象事实类集和步骤5生成的每篇法律裁判文书的抽象事实类集进行对比，然后找到相似度最高的抽象事实类集对应的法律判决文书，从而找到抽象事实层面相似度最高法律文书。其具体对比方法是，首先对步骤5生成的每篇法律判决文书的抽象事实类集进行向量空间建模，其方法是：假设N是步骤4生成的抽象事实类总集中抽象事实类的个数，那么本发明生成一个N维的向量，该向量的每一个维度对应一个唯一的抽象事实类。每篇文书拥有一个自己的N维向量，在该向量上对自己拥有的抽象事实类对应的维度上标记1，在自己不拥有的抽象事实类上标记0。以此，每篇裁判文书都对应到N维向量空间中的一点，如果有M篇法律判决文书那么在N维向量空间里就有M个对应点。接着把待查文书或手输句子的抽象事实类集也通过上述方法映射到这个N维向量空间中记作点Q，然后计算点Q和前面M个点的余弦相似度，最终在M个点里面和点Q余弦夹角最小的点对应的法律裁判文书就是前面所说的在抽象事实层面上相似度最高的点对应的法律裁判文书。

以上包含了本发明优选实施例的说明，这是为了详细说明本发明的技术特征，并不是想要将发明内容限制在实施例所描述的具体形式中，依据本发明内容主旨进行的其他修改和变型也受本专利保护。本发明内容的主旨是由权利要求书所界定，而非有实施例的具体描述所界定。

Claims

1.一种使用LDA主题模型对法律判决文书进行相似度匹配的方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，所述步骤4)中，得到该查询请求匹配的法律判决文书的方法为：将每一法律判决文书的抽象事实类集对应到N维向量空间中的一点，得到N维向量空间里的M个对应点，N为抽象事实类总集中抽象事实类的个数；将步骤3)得到的抽象事实类集映射该N维向量空间中记作点Q；然后计算点Q和该M个点中每一点的相似度，将相似度最高的点对应的法律裁判文书作为该查询请求匹配的法律判决文书。

3.如权利要求1或2所述的方法，其特征在于，该查询请求为一法律判决文书或者法律判决文书的法律事实部分；抽取该查询请求中的法律事实段落，并将抽取的段落切分为若干句子并从句子中抽取所述关键词。

4.如权利要求1所述的方法，其特征在于，所述步骤1)中，对抽取出的段落进行清洗、分词、去除停用词；然后对处理后的段落进行句子切分。

5.如权利要求1所述的方法，其特征在于，所述步骤1)中，使用LDA方法进行抽象事实提取时，LDA方法的超参数α值小于0.001。