CN112711700A

CN112711700A - 一种公益诉讼案例推荐方法及系统

Info

Publication number: CN112711700A
Application number: CN201911017832.3A
Authority: CN
Inventors: 韦成勇; 朱泽德; 司华建; 陈大庆; 周宇
Original assignee: Fuchi Technology Beijing Co ltd
Current assignee: Fuchi Technology Beijing Co ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2021-04-27

Abstract

本发明公开了一种公益诉讼案例推荐方法及系统，属于信息推荐技术领域，包括抽取公益诉讼线索的特征词作为待匹配特征词，根据待匹配特征词和案例库中每个案例的特征词，计算公益诉讼线索与每个案例的特征词匹配度；识别出公益诉讼线索的实体作为待匹配实体，根据待匹配实体与案例库中每个案例的实体，计算公益诉讼线索与每个案例的实体匹配度；预测公益诉讼线索的类别作为待匹配类别，根据待匹配类别与案例库中每个案例所属类别，计算公益诉讼线索与每个案例的类别匹配度；对特征词匹配度、实体匹配度和类别匹配度进行加权求和，得到公益诉讼线索与案例库中每个案例的匹配度得分；根据匹配度得分推荐与公益诉讼线索相关的案例。

Description

一种公益诉讼案例推荐方法及系统

技术领域

本发明涉及信息推荐技术领域，特别涉及一种公益诉讼案例推荐方法及系统。

背景技术

由于审理案件的数量日益增多，各法律相关检索网站提供了对公开的裁判文书的检索查询服务，同时，最高人民法院也在不断的发布各裁判文书中的各类典型案例作为指导性案例。但其仍需工作人员进行大量详细的阅读，才有可能得出类似的判案参考，需要耗费大量时间。而采用基于关键词的匹配技术来实现公益诉讼案例的推荐，其效果达不到要求，无法起到辅助案件审理的作用。

发明内容

本发明的目的在于克服现有技术存在的不足或缺陷，以自动推荐相似的公益诉讼案例，提高办案效率。

为实现以上目的，本发明采用一种公益诉讼案例推荐方法，包括如下步骤：

获取公益诉讼线索；

抽取所述公益诉讼线索的特征词作为待匹配特征词，并根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度md_f；

识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度md_e；

预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度md_c；

对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分；

根据匹配度得分推荐与所述公益诉讼线索相关的案例。

进一步地，在所述获取公益诉讼线索之前，还包括离线构建所述案例库，具体包括：

利用命名实体识别模型对历史公益诉讼案例进行处理，得到每个案例对应的主体并存储至所述案例库；

利用文本多标签分类模型对历史公益诉讼案例进行处理，得到公益诉讼类别并存储至所述案例库；

抽取历史公益诉讼案例的特征词，并将特征词存储至所述案例库。

进一步地，所述抽取所述公益诉讼线索的特征词，包括：

构建公益诉讼特征词库，该公益诉讼特征词库中存储有用于表示公益诉讼领域的特征词；

基于TF-IDF算法对所述公益诉讼线索进行关键词抽取，得到所述公益诉讼线索对应的关键词；

分别计算每个特征词的词向量以及关键词的词向量；

根据特征词的词向量和关键词的词向量，计算特征词与关键词的向量余弦相似度；

将向量余弦相似度由高到低进行排序，并将前M个余弦向量相似度所对应的特征词作为所述公益诉讼线索的特征词。

进一步地，所述分别计算每个特征词的词向量以及关键词的词向量，包括：

预先构建词向量库，该词向量库存储有与公益诉讼线索及公益诉讼案例对应的各分词及各分词对应的词向量；

判断在所述词向量库中是否能查找到所述特征词或所述关键词；

若是，则直接将所述词向量库中该特征词或关键词的词向量赋值给所述特征词或关键词；

若否，则对所述特征词或关键词进行分词处理，得到各分词；

判断在所述词向量库中是否能查找到每个所述分词；

若是，则从所述词向量库中获取每个分词的词向量并进行加权平均，将加权平均结果赋值给所述特征词或关键词；

若否，剔除未查找到的分词，从所述词向量库中获取剩余分词的词向量并进行加权平均，将加权平均结果赋值给所述特征词或关键词。

进一步地，所述根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度，包括：

获取所述公益诉讼线索与所述案例库中同一案例具有的相同特征词的数量x；

根据所述公益诉讼线索的特征词数量o与相同的特征词数量x，计算所述公益诉讼线索与该案例的特征词匹配度md_f＝x/o。

进一步地，所述识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度，包括：

利用离线训练好的实体识别模型抽取所述公益诉讼线索的实体，得到p个实体，该抽取的实体包括地名、组织机构名和人名；

获取所述公益诉讼线索与所述案例库中同一案例具有的相同实体的数量y；

根据所述公益诉讼线索的实体数量p与相同实体的数量y，计算所述公益诉讼线索与该案例的实体匹配度md_e＝y/p。

进一步地，所述预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度，包括：

利用预先训练好的文本多分类模型对所述公益诉讼线索的类别进行预测，得到q个类别数；

获取所述公益诉讼线索与所述案例库中同一案例具有的相同类别的数量z；

根据所述公益诉讼线索的类别数量q与相同类别的数量z，计算所述公益诉讼线索与该案例的实体匹配度md_c＝z/q。

进一步地，所述对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分，包括：

sc＝w_f×md_f+w_e×md_e+w_c×md_c；

其中，w_f表示特征词匹配度md_f的权重，w_e表示实体匹配度md_e的权重，w_c表示类别匹配度md_c的权重。

另一方面，采用一种公益诉讼案例推荐系统，包括：获取模块、抽取模块、识别模块、预测模块、得分计算模块和推荐模块；

获取模块用于获取公益诉讼线索；

抽取模块用于抽取所述公益诉讼线索的特征词作为待匹配特征词，并根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度md_f；

识别模块用于识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度md_e；

预测模块用于预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度md_c；

得分计算模块用于对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分；

推荐模块用于根据匹配度得分推荐与所述公益诉讼线索相关的案例。

进一步地，还包括案例库构建模块，包括第一存储单元、第二存储单元和第三存储单元；

第一存储单元用于利用命名实体识别模型对历史公益诉讼案例进行处理，得到每个案例对应的主体并存储至所述案例库；

第二存储单元用于利用文本多标签分类模型对历史公益诉讼案例进行处理，得到公益诉讼类别并存储至所述案例库；

第三存储单元用于抽取历史公益诉讼案例的特征词，并将特征词存储至所述案例库。

与现有技术相比，本发明存在以下技术效果：本发明基于公益诉讼业务知识及数据特征，从实体匹配度、类别匹配度和特征词匹配度等多个维度分析公益诉讼线索与案例库中案例的相似度，实现自动推荐相似的公益诉讼案例进行参考，辅助办案，提高办案效率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种公益诉讼案例推荐方法的流程示意图；

图2是一种公益诉讼案例推荐方法的原理图；

图3是一种公益诉讼案例推荐系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种公益诉讼案例推荐方法，包括如下步骤S1至S6：

S1、获取公益诉讼线索；

S2、抽取所述公益诉讼线索的特征词作为待匹配特征词，并根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度md_f；

S3、识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度md_e；

S4、预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度md_c；

S5、对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分；

S6、根据匹配度得分推荐与所述公益诉讼线索相关的案例。

具体来说，上述图1所示步骤为在线处理步骤，如图2所示，在进行在线挖掘处理之前，还包括离线构建所属案例库，具体如下：

(1)构建公益诉讼案例库，该公益诉讼案例库中存储有已有的公益诉讼案例。

(2)获取公益诉讼案例的实体并存储至案例库：

基于已有的公益诉讼文本数据训练实体识别模型ner，实体识别模型ner用于识别公益诉讼文本数据中的实体，这里的实体类别包括机构、人名、地点，共计三类。其中实体识别模型ner主要由深度学习神经网络结构及权重参数组成，训练实体识别模型可采用自然语言处理领域的常规技术，如基于Bi-LSTM+CRF的深度学习技术。

然后利用训练好的实体识别模型对公益诉讼案例库中的每个案例进行实体识别，将识别出的每个案例的实体存储至案例库。

需要说明的是，已有的公益诉讼文本数据包括但不限于：最高检及地方检发布的典型公益诉讼案例、国家公布的公益诉讼相关的判决文书案例等。

(3)获取公益诉讼案例的类别并存储至案例库：

基于已有的公益诉讼文本数据训练文本多标签分类模型classifier；基于训练好的文本多标签分类模型对公益诉讼案例库中的每个案例进行分类，将得到的每个案例的类别并存储至案例库中。这里的公益诉讼类别包括水污染、大气污染、噪声污染等共计34个类别。其中，文本多标签分类模型classifier主要由深度学习神经网络结构及权重参数组成，主要用来对文本进行分类(每个文本所属的类别个数不一)。文本多标签分类模型可采用自然语言处理领域的常规技术，如基于Bi-LSTM的深度学习技术、基于SVM的机器学习技术。

(4)获取公益诉讼案例的特征词并存储至案例库：

4-1)构建词向量库，对互联网文本及公益诉讼案例文本进行分词，形成对应的词库；对分词后的文本进行词向量训练，得到词库中各词对应的词向量，词向量维度可设为200。将每一个训练好的词向量存储在词向量库中。

其中，分词、词向量训练均可采用自然语言处理领域的常规技术，如jieba分词技术、基于gensim的词向量训练技术等。

4-2)构建公益诉讼特征词库，公益诉讼特征词库中存储的特征词用于表示公益诉讼领域的特征，比如公益诉讼领域表示场景、情节、事物的词，比如“工业园”、“污染”、“噪声”，通过梳理公益诉讼案例及相关公益诉讼法律法规可总结得到所述特征词，另外该公益诉讼特征词库规模不宜过大，控制在300个词以内。

4-3)计算公益诉讼特征词库中的特征词对应的向量，计算过程如下：

判断在所述词向量库中是否能查找到所述特征词；

若是，则直接将所述词向量库中该特征词的词向量赋值给所述特征词，得到特征词的词向量；

若否，则对所述特征词进行分词处理，得到与所述特征词对应的各分词；

判断在所述词向量库中是否能查找到每个所述分词；

若是，则从所述词向量库中获取每个分词的词向量并进行加权平均，将加权平均结果赋值给所述特征词词；

若否，剔除未查找到的分词，从所述词向量库中获取剩余分词的词向量并进行加权平均，将加权平均结果赋值给所述特征词

4-4)计算公益诉讼案例库中每个案例的特征词，具体为：基于TF-IDF算法对公益诉讼案例库中的每个案例进行关键词抽取，将关键词的TF-IDF值由大到小进行排序，并返回TF-IDF值靠前的topN个关键词。这里提到的关键词是指表示文本主旨大义的词，topN一般取值为10。

需要说明的是，基于TF-IDF算法的关键词抽取可采用自然语言处理领域的常规技术，如jieba中的anlyse.extract_tags模块。

4-5)计算每个案例对应的每个关键词的词向量，计算方法同步骤4-3)中特征词的词向量的计算过程，得到的关键词的词向量依次记为

计算公益诉讼特征词库中的每个特征词与关键词的向量余弦相似度并由高到低进行排序，选取相似度最高的topM个特征词作为该公益诉讼线索的特征词，topM一般取值为5。其中，单个特征词与关键词的向量余弦相似度计算逻辑为：

计算特征词与每个关键词的向量余弦相似度并由高到低进行排序，选取值最大的作为特征词与关键词的向量余弦相似度，记为Similarity_{feature_word·keyword}，计算公式如下：

其中，n表示关键词数量，V_{feature_word}表示特征词的词向量，

表示第k_n个关键词的词向量。

将得到的每个案例对应的topM个特征词进行存储至所述案例库。

具体来说，上述步骤S2：抽取所述公益诉讼线索的特征词作为待匹配特征词，具体包括如下步骤：

分别计算每个特征词的词向量以及关键词的词向量；

需要说明的是，本实施例中对公益诉讼线索进行特征词提取的过程与对公益诉讼案例库中的每个案例进行特征词提取的过程相同，该处不再详细叙述。

具体来说，上述步骤S2中：根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度md_f，具体包括如下步骤：

具体来说，上述步骤S3：识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度，具体包括如下步骤：

利用上述离线训练好的实体识别模型抽取所述公益诉讼线索的实体，得到p个实体，该抽取的实体包括地名、组织机构名和人名；

具体来说，上述步骤S4：预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度，具体包括如下步骤：

具体来说，上述步骤S5：对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分，包括：

sc＝w_f×md_f+w_e×md_e+w_c×md_c；

这里需要说明的是，特征词匹配度md_f的权重、实体匹配度md_e的权重和类别匹配度md_c的权重均是通过实验统计得到。

具体来说，上述步骤S6：根据匹配度得分推荐与所述公益诉讼线索相关的案例，具体为：对公益诉讼线索与公益诉讼案例库中每个案例的匹配度得分由高到低进行排序，选取匹配度得分sc值靠前的topI个结果，作为基于该公益诉讼线索推荐的公益诉讼案例结果。

如图3所示，本实施例还公开了一种公益诉讼案例推荐系统，包括获取模块10、抽取模块20、识别模块30、预测模块40、得分计算模块50和推荐模块60；

获取模块10用于获取公益诉讼线索；

抽取模块20用于抽取所述公益诉讼线索的特征词作为待匹配特征词，并根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度md_f；

识别模块30用于识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度md_e；

预测模块40用于预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度md_c；

得分计算模块50用于对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分；

推荐模块60用于根据匹配度得分推荐与所述公益诉讼线索相关的案例。

具体来说，该系统还包括离线构建模块，该离线构建模块用于构建案例库，具体为：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种公益诉讼案例推荐方法，其特征在于，包括：

获取公益诉讼线索；

根据匹配度得分推荐与所述公益诉讼线索相关的案例。

2.如权利要求1所述的公益诉讼案例推荐方法，其特征在于，在所述获取公益诉讼线索之前，还包括离线构建所述案例库，具体包括：

3.如权利要求1所述的公益诉讼案例推荐方法，其特征在于，所述抽取所述公益诉讼线索的特征词，包括：

分别计算每个特征词的词向量以及关键词的词向量；

4.如权利要求3所述的公益诉讼案例推荐方法，其特征在于，所述分别计算每个特征词的词向量以及关键词的词向量，包括：

判断在所述词向量库中是否能查找到每个所述分词；

5.如权利要求4所述的公益诉讼案例推荐方法，其特征在于，所述根据待匹配特征词和案例库中每个案例的特征词，计算所述公益诉讼线索与每个案例的特征词匹配度，包括：

6.如权利要求1所述的公益诉讼案例推荐方法，其特征在于，所述识别出所述公益诉讼线索的实体作为待匹配实体，并根据待匹配实体与所述案例库中每个案例的实体，计算所述公益诉讼线索与每个案例的实体匹配度，包括：

7.如权利要求1所述的公益诉讼案例推荐方法，其特征在于，所述预测所述公益诉讼线索的类别作为待匹配类别，并根据待匹配类别与所述案例库中每个案例所属类别，计算所述公益诉讼线索与每个案例的类别匹配度，包括：

8.如权利要求1所述的公益诉讼案例推荐方法，其特征在于，所述对所述特征词匹配度md_f、实体匹配度md_e和类别匹配度md_c进行加权求和，得到所述公益诉讼线索与所述案例库中每个案例的匹配度得分，包括：

sc＝w_f×md_f+w_e×md_e+w_c×md_c；

9.一种公益诉讼案例推荐系统，其特征在于，包括：获取模块、抽取模块、识别模块、预测模块、得分计算模块和推荐模块；

获取模块用于获取公益诉讼线索；

10.如权利要求9所述的公益诉讼案例推荐系统，其特征在于，还包括案例库构建模块，包括第一存储单元、第二存储单元和第三存储单元；