CN108596360A

CN108596360A - 一种基于机器学习的判决预测方法及系统

Info

Publication number: CN108596360A
Application number: CN201810218371.5A
Authority: CN
Inventors: 刘帅朋; 孔庆超; 王磊; 罗引
Original assignee: Beijing Zhongke Song Polytron Technologies Inc
Current assignee: Beijing Zhongke Song Polytron Technologies Inc
Priority date: 2018-03-16
Filing date: 2018-03-16
Publication date: 2018-09-28
Anticipated expiration: 2038-03-16
Also published as: CN108596360B

Abstract

本发明涉及一种基于机器学习的判决预测方法及系统，该预测方法包括：得到判决文书的第一候选关键词；将第一预测权重值与实际权重值的偏离程度小于第一预设阈值，且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词；将判决文书与相应的关键词进行训练得到判决模型；通过判决模型和待判决文书得到判决建议文书，根据判决建议文书得到判决建议。本发明实施例通过对已有的判决文书进行处理得到其中的关键词，并利用判决和关键词的对应关系进行训练得到相应的判决模型，在需要进行审判时，将待判决文件输入所述判决模型，进而得到符合条件的判决文件，从而为法官提供判决建议，保证案件的审判无差错，量刑适中，做到同案同判和司法公正。

Description

一种基于机器学习的判决预测方法及系统

技术领域

本发明涉及判决辅助判决预测技术领域，尤其涉及一种基于机器学习的判决预测方法及系统。

背景技术

随着法院信息化建设的持续不断地发展，法院保存了海量信息，比如全国法院每天都会产生大量的判决文书(比如：裁定文书，调解文书，判决文书等)，据统计，目前的各类判决文书有上千万份，而且每天还在不断快速增加。判决文书是最重要的一类判决文书，它通常由3部分组成：(1)庭审记录；(2)本院认为；(3)案件的判决结果。

随着国家法治建设的深入推进，法院目前对法官的审判结果实行终身责任制。因此法官需要对案件的审判无差错，量刑适中，做到同案同判和司法公正。但目前由于案多人少，法官面临审判时间长，效率低等问题。

发明内容

为了解决现有技术存在的问题，本发明的至少一个实施例提供了一种基于机器学习的判决预测方法，包括：

对预存储的每一个判决文书进行数据清洗，得到每一个所述判决文书的第一候选关键词；

基于所述判决文书计算所述第一候选关键词的第一预测权重值，并计算所述第一预测权重值与实际权重值的偏离程度；

将所述偏离程度小于第一预设阈值，且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词；将所述判决文书与相应的关键词进行训练得到判决模型；

录入待判决文书，通过所述判决模型和待判决文书得到判决建议文书，根据所述判决建议文书得到判决建议。

基于上述技术方案，本发明实施例还可以做出如下改进。

可选的，所述通过所述判决模型和待判决文书得到相应的所述判决文书，作为判决建议文书，根据所述判决建议文书得到判决建议，具体包括：

对所述待判决文书进行数据清洗，得到所述判决文书的第二候选关键词；

基于所述待判决文书计算所述第二候选关键词的第二预测权重值，并计算所述第二预测权重值与实际权重值的偏离程度；将偏离程度小于第一预设阈值，且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词；

将所述搜索关键词输入所述判决模型，得到相应的所述判决文书，作为判决建议文书；

归纳总结所述判决建议文书，得出所述待判决文书的判决建议。

可选的，该判决预测方法还包括：

通过如下计算公式计算所述第一预测权重值：

其中，W为所述第一预测权重值；t为所述第一候选关键词在所述判决文书中出现的次数；D为所述语料库中所述判决文书的总数；N为包含所述第一候选关键词的所述判决文书的数量；w为根据所述第一候选关键词的重要程度预设置的权重值；

通过如下计算公式计算所述第二预测权重值：

其中，W'为所述第二预测权重值；t'为所述第二候选关键词在所述待判决文书中出现的次数；D为所述语料库中所述判决文书的总数；N'为包含所述第二候选关键词的所述判决文书的数量；w'为根据所述第二候选关键词的重要程度预设置的权重值。

可选的，该判决预测方法还包括：

通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度：

其中，P(t，n)为所述第一预测权重值与实际权重值的偏离程度，c为所述第一候选关键词，n表示所述判决文书的类别；X为包含c且属于n的判决文书的数量；M表示包含c且不属于n的判决文书的数量；N表示不包含c且属于n的判决文书的数量；Y表示不包含c且不属于n的判决文书的数量；

通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度：

其中，P'(t，n)为所述第二预测权重值与实际权重值的偏离程度，c'为所述第二候选关键词，n表示所述判决文书的类别；X'为包含c'且属于n的判决文书的数量；M'表示包含c'且不属于n的判决文书的数量；N'表示不包含c'且属于n的判决文书的数量；Y'表示不包含c'且不属于n的判决文书的数量。

可选的，所述对预存储的每一个判决文书进行数据清洗，具体包括：

对所述预存储判决文书进行文本分词，得到备选词组合；

去除所述备选词组合中的停用词，得到所述判决文书的第一候选关键词。

本发明实施例还提供了一种基于机器学习的判决预测系统，包括：语料库、数据处理子系统、数据计算子系统和数据录入子系统；

所述数据处理子系统，用于对所述语料库中预存储的每一个判决文书进行数据清洗，得到每一个所述判决文书的第一候选关键词；

所述数据计算子系统，用于基于所述判决文书计算所述第一候选关键词的第一预测权重值，并计算所述第一预测权重值与实际权重值的偏离程度；

所述数据处理子系统，还用于将所述偏离程度小于第一预设阈值，且所述第一预测权重值大于第二预设阈值的所述第一候选关键词作为关键词；

所述数据处理子系统，还用于将所述判决文书与相应的关键词进行训练得到判决模型；

所述数据处理子系统，还用于接收数据录入子系统录入的待判决文书，并通过所述判决模型和待判决文书得到相应的所述判决文书，作为判决建议文书，根据所述判决建议文书得到判决建议。

可选的，所述数据处理子系统，具体用于，对所述待判决文书进行数据清洗，得到所述判决文书的第二候选关键词；通过所述数据计算子系统基于所述待判决文书计算所述第二候选关键词的第二预测权重值，并计算所述第二预测权重值与实际权重值的偏离程度；将偏离程度小于第一预设阈值，且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词；将所述搜索关键词输入所述判决模型，得到相应的所述判决文书，作为判决建议文书；归纳总结所述判决建议文书，得出所述待判决文书的判决建议。

可选的，所述数据计算子系统，具体用于，通过如下计算公式计算所述第一预测权重值：

所述数据计算子系统，还用于通过如下计算公式计算所述第二预测权重值：

可选的，所述数据计算子系统，具体用于，通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度：

所述数据计算子系统，还用于通过如下计算公式计算所述第二预测权重值与实际权重值的偏离程度：

可选的，所述数据处理子系统，具体用于，对所述预存储判决文书进行文本分词，得到备选词组合；去除所述备选词组合中的停用词，得到所述判决文书的第一候选关键词。

本发明的上述技术方案与现有技术相比具有如下优点：本发明实施例通过对已有的判决文书进行处理得到其中的关键词，并利用判决和关键词的对应关系进行训练得到相应的判决模型，在需要进行审判时，将待判决文件输入所述判决模型，进而得到符合条件的判决文件，从而为法官提供判决建议，保证案件的审判无差错，量刑适中，做到同案同判和司法公正。

附图说明

图1是本发明实施例提供的一种基于机器学习的判决预测方法流程示意图；

图2是本发明又一实施例提供的一种基于机器学习的判决预测方法流程示意图；

图3是本发明另一实施例提供的一种基于机器学习的判决预测系统结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种基于机器学习的判决预测方法，包括：

对预存储的每一个判决文书进行数据清洗，得到每一个判决文书的第一候选关键词；

具体的，通过对判决文书进行数据清洗，清除该判决文书中的无关词语，如停用词或连接词之类的与实际内容无关的词汇，对预存储判决文书进行文本分词，不同的语句构造的句子中，不同的分割方式造成语义的不同，在此处进行文本分词可采用正向/反向最大匹配、长词优先等分词策略，以保证语义最大保留，得到备选词组合；去除备选词组合中的停用词，得到判决文书的第一候选关键词。

基于判决文书计算第一候选关键词的第一预测权重值，并计算第一预测权重值与实际权重值的偏离程度；

具体的，通过如下计算公式计算第一预测权重值：

其中，W为第一预测权重值；t为第一候选关键词在判决文书中出现的次数；D为语料库中判决文书的总数；N为包含第一候选关键词的判决文书的数量；w为根据第一候选关键词的重要程度预设置的权重值；从计算公式中可以表明该第一候选关键词的第一预测权重值与该第一候选关键词在判决文书中出现的次数成正比，与包含该第一候选关键词的判决文书的数量呈反比，最后将其与预设置的权重值相乘，该预设置的权重值是根据过往判决中关键词的比例得出的，避免部分案件中的内容不一致导致第一候选关键词的预测权重值较低，导致第一候选关键词丢失。

通过如下计算公式计算第一预测权重值与实际权重值的偏离程度：

其中，P(t，n)为第一预测权重值与实际权重值的偏离程度，c为第一候选关键词，n表示判决文书的类别；X为包含c且属于n的判决文书的数量；M表示包含c且不属于n的判决文书的数量；N表示不包含c且属于n的判决文书的数量；Y表示不包含c且不属于n的判决文书的数量；在本计算公式中，通过该关键词在所有的判决文件中的包含和不包含的关系程度，计算该第一候选关键词的偏离程度进行计算，偏离程度越大说明该第一候选关键词越不可能是关键词。

将偏离程度小于第一预设阈值，且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词；将判决文书与相应的关键词进行训练得到判决模型；

具体的，根据两个计算公式分别计算第一候选关键词的预测权重值和偏离程度，由此筛选出真实的关键词，将该关键词与对应的判决文书进行训练，得到相应的判决模型，以方便后续待判决案件从中筛选出与待判决案件相类似的案件的判决文书。

录入待判决文书，通过判决模型和待判决文书得到判决建议文书，根据判决建议文书得到判决建议；

具体的，通过将待判决文书输入判决模型，从中与待判决文件相似的判决文书，将相似的判决文书的审判结果进行汇总，得到该待判决案件的判决建议。

上述实施例中，通过对已有的判决文件进行数据清洗，分别得到不同判决文件的候选关键词，每个判决文件的候选关键词的数量较多，其中有一些并不是关键词，因此通过计算候选关键词的权重值，并通过该候选关键词在不同判决文件中的包含关系，从侧面计算该候选关键词与真实值的偏离程度，以验证该候选关键词权重值是否可用，从而得到其中符合条件的候选关键词作为关键词，通过该关键词与相应的判决文书通过机器学习进行训练得到相应的判决模型，其中，机器学习包括：向量机、逻辑回归和深度学习等机器学习方法，将待判决的文书输入判决模型，通过待判决文书的关键词得到与待判决文件相似的判决文书，将相似的判决文书的审判结果进行汇总，得到该待判决案件的判决建议。

如图2所示，在一个具体的实施例中，通过判决模型和待判决文书得到相应的判决文书，作为判决建议文书，根据判决建议文书得到判决建议，具体包括：

对待判决文书进行数据清洗，得到判决文书的第二候选关键词；

基于待判决文书计算第二候选关键词的第二预测权重值，并计算第二预测权重值与实际权重值的偏离程度；将偏离程度小于第一预设阈值，且第二预测权重值大于第二预设阈值的第二候选关键词作为搜索关键词；

将搜索关键词输入判决模型，得到相应的判决文书，作为判决建议文书；

归纳总结判决建议文书，得出待判决文书的判决建议。

在本实施例中，通过如下计算公式计算第二预测权重值：

其中，W'为第二预测权重值；t'为第二候选关键词在待判决文书中出现的次数；D为语料库中判决文书的总数；N'为包含第二候选关键词的判决文书的数量；w'为根据第二候选关键词的重要程度预设置的权重值。

在本实施例中，通过如下计算公式计算第二预测权重值与实际权重值的偏离程度：

其中，P'(t，n)为第二预测权重值与实际权重值的偏离程度，c'为第二候选关键词，n表示判决文书的类别；X'为包含c'且属于n的判决文书的数量；M'表示包含c'且不属于n的判决文书的数量；N'表示不包含c'且属于n的判决文书的数量；Y'表示不包含c'且不属于n的判决文书的数量。

如图3所示，本发明实施例还提供了一种基于机器学习的判决预测系统，包括：语料库、数据处理子系统、数据计算子系统和数据录入子系统；

在本实施例中，数据处理子系统，用于对语料库中预存储的每一个判决文书进行数据清洗，得到每一个判决文书的第一候选关键词；

具体的，数据处理子系统，具体用于，对预存储判决文书进行文本分词，得到备选词组合；去除备选词组合中的停用词，得到判决文书的第一候选关键词。

在本实施例中，数据计算子系统，用于基于判决文书计算第一候选关键词的第一预测权重值，并计算第一预测权重值与实际权重值的偏离程度；

具体的，通过如下计算公式计算第一预测权重值：

其中，W为第一预测权重值；t为第一候选关键词在判决文书中出现的次数；D为语料库中判决文书的总数；N为包含第一候选关键词的判决文书的数量；w为根据第一候选关键词的重要程度预设置的权重值；

具体的，通过如下计算公式计算第一预测权重值与实际权重值的偏离程度：

其中，P(t，n)为第一预测权重值与实际权重值的偏离程度，c为第一候选关键词，n表示判决文书的类别；X为包含c且属于n的判决文书的数量；M表示包含c且不属于n的判决文书的数量；N表示不包含c且属于n的判决文书的数量；Y表示不包含c且不属于n的判决文书的数量。

在本实施例中，数据处理子系统，还用于将偏离程度小于第一预设阈值，且第一预测权重值大于第二预设阈值的第一候选关键词作为关键词。

在本实施例中，数据处理子系统，还用于将判决文书与相应的关键词进行训练得到判决模型。

在本实施例中，数据处理子系统，还用于接收数据录入子系统录入的待判决文书，并通过判决模型和待判决文书得到相应的判决文书，作为判决建议文书，根据判决建议文书得到判决建议；

具体的，对待判决文书进行数据清洗，得到判决文书的第二候选关键词；通过数据计算子系统基于待判决文书计算第二候选关键词的第二预测权重值，并计算第二预测权重值与实际权重值的偏离程度，具体的，通过如下计算公式计算第二预测权重值：

其中，W'为第二预测权重值；t'为第二候选关键词在待判决文书中出现的次数；D为语料库中判决文书的总数；N'为包含第二候选关键词的判决文书的数量；w'为根据第二候选关键词的重要程度预设置的权重值；通过如下计算公式计算第二预测权重值与实际权重值的偏离程度：

其中，P'(t，n)为第二预测权重值与实际权重值的偏离程度，c'为第二候选关键词，n表示判决文书的类别；X'为包含c'且属于n的判决文书的数量；M'表示包含c'且不属于n的判决文书的数量；N'表示不包含c'且属于n的判决文书的数量；Y'表示不包含c'且不属于n的判决文书的数量；将偏离程度小于第一预设阈值，且第二预测权重值大于第二预设阈值的第二候选关键词作为搜索关键词；将搜索关键词输入判决模型，得到相应的判决文书，作为判决建议文书；归纳总结判决建议文书，得出待判决文书的判决建议。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于机器学习的判决预测方法，其特征在于，包括：

2.根据权利要求1所述的基于机器学习的判决预测方法，其特征在于，所述通过所述判决模型和待判决文书得到相应的所述判决文书，作为判决建议文书，根据所述判决建议文书得到判决建议，具体包括：

3.根据权利要求2所述的基于机器学习的判决预测方法，其特征在于，该判决预测方法还包括：

通过如下计算公式计算所述第一预测权重值：

通过如下计算公式计算所述第二预测权重值：

4.根据权利要求3所述的基于机器学习的判决预测方法，其特征在于，该判决预测方法还包括：

5.根据权利要求1-4中任一所述的基于机器学习的判决预测方法，其特征在于，所述对预存储的每一个判决文书进行数据清洗，具体包括：

对所述预存储判决文书进行文本分词，得到备选词组合；

6.一种基于机器学习的判决预测系统，其特征在于，包括：语料库、数据处理子系统、数据计算子系统和数据录入子系统；

7.根据权利要求6所述的基于机器学习的判决预测系统，其特征在于，所述数据处理子系统，具体用于，对所述待判决文书进行数据清洗，得到所述判决文书的第二候选关键词；通过所述数据计算子系统基于所述待判决文书计算所述第二候选关键词的第二预测权重值，并计算所述第二预测权重值与实际权重值的偏离程度；将偏离程度小于第一预设阈值，且所述第二预测权重值大于第二预设阈值的所述第二候选关键词作为搜索关键词；将所述搜索关键词输入所述判决模型，得到相应的所述判决文书，作为判决建议文书；归纳总结所述判决建议文书，得出所述待判决文书的判决建议。

8.根据权利要求7所述的基于机器学习的判决预测系统，其特征在于，所述数据计算子系统，具体用于，通过如下计算公式计算所述第一预测权重值：

9.根据权利要求7所述的基于机器学习的判决预测系统，其特征在于，所述数据计算子系统，具体用于，通过如下计算公式计算所述第一预测权重值与实际权重值的偏离程度：

10.根据权利要求6-9中任一所述的基于机器学习的判决预测系统，其特征在于，所述数据处理子系统，具体用于，对所述预存储判决文书进行文本分词，得到备选词组合；去除所述备选词组合中的停用词，得到所述判决文书的第一候选关键词。