CN112711693B

CN112711693B - 一种基于多特征融合的诉讼线索挖掘方法及系统

Info

Publication number: CN112711693B
Application number: CN201911017853.5A
Authority: CN
Inventors: 司华建; 韦成勇; 陈大庆; 朱泽德; 周宇
Original assignee: Fuchi Technology Beijing Co ltd
Current assignee: Fuchi Technology Beijing Co ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2024-04-09
Anticipated expiration: 2039-10-24
Also published as: CN112711693A

Abstract

本发明公开了一种基于多特征融合的诉讼线索挖掘方法及系统，属于数据挖据技术领域，包括：获取待挖掘的文本数据，该文本数据的存储结构包括标题和内容；对文本数据的内容进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限，若是进行实体识别，否则丢弃数据；对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体，若是进行相似度计算，否则丢弃数据；对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，若是确定为有效公益诉讼线索，否则丢弃数据。本发明基于多特征融合从互联网数据中挖掘出有效的公益诉讼线索，拓展公益诉讼线索来源。

Description

一种基于多特征融合的诉讼线索挖掘方法及系统

技术领域

本发明涉及数据挖据技术领域，特别涉及一种基于多特征融合的诉讼线索挖掘方法及系统。

背景技术

办理好公益诉讼案件，线索来源成为公益诉讼工作的重中之重，在具体实践工作中，公益线索发现难、收集难，需要多渠道全方位收集公益诉讼线索，实现公益诉讼工作的稳步推进。

目前，获取公益诉讼线索的方式一般为：借助行政执法监督平台，链接公益诉讼领域涉及的行政机关信息系统，建立公益诉讼线索收集中心，再通过人工或智能手段对线索收集中心的线索进行评估，获取有价值线索。但这种方式搜索的公益诉讼线索来源单一，线索量也相对较少，且无法有效保证公益线索的有效性，因此案件办案效率的提升效果甚微。

发明内容

本发明的目的在于解决现有技术中存在的问题，以从互联网数据中识别出有效的公益诉讼线索。

为实现以上目的，本发明采用一种基于多特征融合的诉讼线索挖掘方法，包括如下步骤：

S1、获取待挖掘的文本数据，该文本数据的存储结构包括标题和内容；

S2、对文本数据的内容进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限，若是则执行步骤S3，若否则执行步骤S6；

S3、对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体，若是则执行步骤S4，若否则执行步骤S6；

S4、对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，若是则执行步骤S5，若否则执行步骤S6；

S5、将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索；

S6、丢弃所述文本数据。

进一步地，所述获取待挖掘的文本数据，包括：

采用网络爬虫技术，从互联网数据中获取所述待挖掘的文本数据。

进一步地，在所述获取待挖掘的文本数据之后，还包括：

对所述待挖掘的文本数据进行清洗处理，得到清洗后的文本数据；

相应地，所述对所述文本数据进行情感分析，具体为对清洗后的文本数据进行情感分析。

进一步地，所述清洗处理方式包括：

对于有所述标题数据无内容数据的文本数据，利用标题数据直接填充内容；

对于有所述内容数据无标题数据的文本数据，利用内容数据直接填充标题；

对于所述文本数据中的无关符号进行删除。

进一步地，所述对文本数据进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限，包括：

获取训练数据集，该训练数据集中的每条数据标注正向标签或负标签；

利用训练数据集对包含注意力机制的深度神经网络模型进行训练，得到用于分析文本数据情感得分的情感分析模型；

利用情感分析模型对所述文本进行情感分析，并将情感分析的负向得分与所述第一置信度门限进行比较。

进一步地，所述有效实体包括地名、组织结构名及人名中的至少一个。

进一步地，所述对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，包括：

获取已知为有效公益诉讼线索的文本数据作为参考文本；

根据所述每条文本数据的标题和参考文本的标题，分别计算得到每条文本数据的标题向量和参考文本的标题向量；

计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度；

将所有得到的余弦相似度中的最大值与所述第二置信度门限进行比较。

进一步地，所述根据所述每条文本数据的标题和参考文本的标题，分别计算得到每条文本数据的标题向量和参考文本的标题向量，包括：

采用Jieba分词器分别对所述文本数据的标题和参考文本的标题进行分词，分别得到对应的第一分词集合和第二分词集合；

利用预训练词向量模型分别计算第一分词集合中各词的词向量和第二分词集合中各词的词向量；

将第一分词集合中各词的词向量对应位相加，得到文本数据的标题向量；

将第二分词集合中各词的词向量对应位相加，得到参考文本的标题向量。

另一方面，采用一种基于多特征融合的诉讼线索挖掘系统，包括：待挖掘数据获取模块、情感分析模块、命名实体识别模块、相似度计算模块、确定模块和丢弃模块；

待挖掘数据获取模块用于获取待挖掘的文本数据，该文本数据的存储结构包括标题和内容；

情感分析模块用于对文本数据的内容进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限；

命名实体识别模块用于在情感分析模块输出结果为是时，对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体；

相似度计算模块用于在命名实体识别模块输出结果为是时，对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限；

确定模块用于在相似度计算模块输出结果为是时，将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索；

丢弃模块用于在情感分析模块输出结果为否时或命名实体识别模块输出结果为否时或相似度计算模块输出结果为否时，将文本数据丢弃。

与现有技术相比，本发明存在以下技术效果：本发明对于待挖掘的文本数据，从不同维度分析其特征，包括情感分析、实体识别、语义相似度等，从而从互联网数据中挖掘出有效的公益诉讼线索，拓展公益诉讼线索来源，增大公益诉讼线索的数量，辅助检察机关提升监督力度和效率。

附图说明

下面结合附图，对本发明的具体实施方式进行详细描述：

图1是一种基于多特征融合的诉讼线索挖掘方法的流程示意图；

图2是对文本数据的内容进行情感分析的流程示意图；

图3是对文本数据的内容进行命名实体识别的流程示意图；

图4是对文本数据的标题进行语义相似度计算的流程示意图；

图5是数据标题向量计算流程示意图；

图6是一种基于多特征融合的诉讼线索挖掘系统的结构示意图。

具体实施方式

为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。

如图1所示，本实施例公开了一种基于多特征融合的诉讼线索挖掘方法，包括如下步骤S1至S6：

S6、丢弃所述文本数据。

需要说明的是，有效的公益诉讼线索具有明显的负面情感表现，通过分析文本数据的情感负向得分，即可初步判断当前的数据是否为疑似公益诉讼线索，然后通过命名实体识别和语义相似度对文本数据进行进一步分析，以实现从互联网数据中挖掘出有效的公益诉讼线索。

具体来说，本实施例利用网络爬虫技术从全网获取的文本数据，存储结构包括标题Title和内容Content，其存储样例如表1所示：

表1

优选地，在实际应用中，从互联网(包括微信、微博、论坛、网站等)获取的文本数据格式会存在很多垃圾数据，这些垃圾数据影响后续公益诉讼线索挖掘的准确性，因此需要对获取的文本数据进行清洗处理，利用清洗后的文本数据进行公益诉讼线索的挖掘，可以大幅度提高线索挖掘准确率，所述清洗处理方式如表2所示：

表2

特征	清洗方法
		有标题没有内容	用标题直接填充内容
有内容没有标题	用内容直接填充标题
		文本中包含无关符号:<br>、<html>	去掉无关符号
换行符	去掉换行符

表2中展示的清洗方式具体为：(1)对于有所述标题数据无内容数据的文本数据，利用标题数据直接填充内容；

(2)对于有所述内容数据无标题数据的文本数据，利用内容数据直接填充标题；

(3)对于所述文本数据中的无关符号进行删除，这里无关符号包括：<br>、<html>、换行符等。

如图2所示，上述步骤S2：对文本数据的内容进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限，具体包括如下步骤S21至S24：

S21、构建情感分析模型，该情感分析模型采用具有注意力机制(Attention)的深度神经网络双向LSTM，长短时记忆网络(Long Short Term Memory Network,LSTM)，是一种改进之后的循环神经网络，可以解决RNN无法处理长距离的依赖的问题。

S22、获取训练数据，该训练数据为从电商网站、外卖网站、微博等获取的文本数据，然后人工标注出文本数据的正向标签或负向标签，然后将训练数据划分为训练样本集和测试样本集。

S23、训练情感分析模型，利用训练样本集对情感分析模型进行训练，确定情感分析模型的参数；然后利用测试样本集对情感分析模型进行测试，得出合适的第一置信度门限threshold1。本实施例中总结出的第一置信度门限值为0.1，本领域技术人员也可以根据实际情况，得出不同的第一置信度门限的经验值。

S24、利用情感分析模型对所述文本进行情感分析，并将情感分析的负向得分S_sentiment与所述第一置信度门限threshold1进行比较：

即，若负向得分小于或等于第一置信度门限，则判断当前的文本数据为疑似公益诉讼线索数据，进入命名实体识别处理步骤。

如图3所示，由于有效的公益诉讼线索一般都会出现地名、机构名、人名等，因此本实施例将文本数据是否出现这些有效实体作为有效公益诉讼线索的另一判断特征，对负向得分小于或等于第一置信度门限的文本数据进行进一步判断。具体地，上述步骤S3：对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体，具体包括如下步骤S31至S34：

S31、构建命名实体识别模型，该命名实体识别模型为采用融合双向LSTM、条件随机场CRF、Google开源的Bert的常用算法所构建。

S32、获取训练数据，采用业界常用的BIO体系对训练数据进行标注，包括地名(LOC)、组织结构(ORG)以及人名(PER)。

S33、训练命名实体识别模型，利用训练数据对命名实体识别模型进行训练，确定命名实体识别模型的参数。

S34、利用命名实体识别模型对负向得分小于或等于第一置信度门限的文本数据进行识别：

即，包含上述有效实体的文本数据进入语义相似度判断的处理步骤，不包含上述任一有效实体的文本数据直接丢弃。

如图4所示，上述步骤S4：对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，包括如下步骤S41至S44：

S41、获取已知为有效公益诉讼线索的文本数据作为参考文本；

S42、根据所述每条文本数据的标题和参考文本的标题，分别计算得到每条文本数据的标题向量和参考文本的标题向量。

具体如图5所示，根据参考文本的标题，计算参考文本的标题向量的具体过程如下：

采用Jieba分词器对参考文本的标题进行分词，得到第二分词集合；

采用预训练词向量模型计算第二分词集合中各词的词向量；

其中，参考文本指的是一批经过人工审核后确认为公益诉讼线索的文本数据，取该文本数据的标题作为参考文本。假如参考文本中有M条有效公益诉讼线索，则得到M个200维的标题向量。

具体地，根据所述每条文本数据的标题，计算每条文本数据对应的标题向量的过程如下：

采用Jieba分词器对所述文本数据的标题进行分词，得到第一分词集合；

利用预训练词向量模型计算第一分词集合中各词的词向量；

将第一分词集合中各词的词向量对应位相加，得到文本数据的标题向量。

具体地，本实施例中采用的预训练词向量模型为腾讯预训练词向量模型(200维)，同样地，本领域技术人员可根据实际情况选用其他词向量模型。

S43、计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度；

S44、将所有得到的余弦相似度中的最大值S_w2v与所述第二置信度门限threshold2进行比较有：

即，最大值S_w2v大于或等于第二置信度门限threshold2时，确定该文本数据为最终的有效公益诉讼线索，在最大值S_w2v小于第二置信度门限threshold2时，该文本数据为无效数据，直接舍弃。

需要说明的是，第二置信度门限threshold2为利用标注的数据进行标题向量计算，并与参考文本标题向量进行余弦相似度计算，并进行不断调试总结得到的合适的经验值，本实施例中取0.85。

如图6所示，本实施例还公开了一种基于多特征融合的诉讼线索挖掘系统，包括：待挖掘数据获取模块10、情感分析模块20、命名实体识别模块30、相似度计算模块40、确定模块50和丢弃模块60；

待挖掘数据获取模块10用于获取待挖掘的文本数据，该文本数据的存储结构包括标题和内容；

情感分析模块20用于对文本数据的内容进行情感分析，并判断情感分析负向得分是否大于设置的第一置信度门限；

命名实体识别模块30用于在情感分析模块20输出结果为是时，对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体；

相似度计算模块40用于在命名实体识别模块30输出结果为是时，对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限；

确定模块50用于在相似度计算模块40输出结果为是时，将语义相似度大于设置的第二置信度门限的文本数据作为有效的诉讼线索；

丢弃模块60用于在情感分析模块20输出结果为否时或命名实体识别模块30输出结果为否时或相似度计算模块40输出结果为否时，将文本数据丢弃。

具体来说，该系统还包括与待挖掘数据获取模块10连接的数据处理模块，该数据处理模块用于对待挖掘的文本数据格式进行清洗。所述清洗处理方式包括：对于有所述标题数据无内容数据的文本数据，利用标题数据直接填充内容；对于有所述内容数据无标题数据的文本数据，利用内容数据直接填充标题；对于所述文本数据中的无关符号进行删除。

具体来说，情感分析模块20包括第一训练数据获取单元、第一训练单元和第一比较单元；

第一训练数据获取单元用于获取训练数据集，该训练数据集中的每条数据标注正向标签或负标签；

第一训练单元用于利用训练数据集对包含注意力机制的深度神经网络模型进行训练，得到用于分析文本数据情感得分的情感分析模型；

第一比较单元用于利用情感分析模型对所述文本进行情感分析，并将情感分析的负向得分与所述第一置信度门限进行比较。

具体来说，相似度计算模块40包括参考文本获取单元、标题向量计算单元、相似度计算单元和第二比较单元；

参考文本获取单元用于获取已知为有效公益诉讼线索的文本数据作为参考文本；

标题向量计算单元用于根据所述每条文本数据的标题和参考文本的标题，分别计算得到每条文本数据的标题向量和参考文本的标题向量；

相似度计算单元用于计算每条文本数据的标题向量与参考文本的标题向量的余弦相似度；

第二比较单元用于将所有得到的余弦相似度中的最大值与所述第二置信度门限进行比较。

本实施例通过从互联网中获取文本数据，并分析文本数据的情感特征、实体特征以及相似度特征，通过综合分析这些特征，可以准确挖掘出有效的公益诉讼线索，扩大检察机关监督案件的来源，有利于辅助检察机关提升监督力度和效率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多特征融合的诉讼线索挖掘方法，其特征在于，包括如下步骤：

S2、对文本数据的内容进行情感分析，并判断情感分析负向得分是否小于等于设置的第一置信度门限，若是则执行步骤S3，若否则执行步骤S6；

S3、对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体，若是则执行步骤S4，若否则执行步骤S6，所述有效实体包括地名、组织结构名及人名中的至少一个；

S4、对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，若是则执行步骤S5，若否则执行步骤S6，其中，将获取的已知为有效公益诉讼线索的文本数据作为参考文本；

S6、丢弃所述文本数据。

2.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，所述获取待挖掘的文本数据，包括：

3.如权利要求2所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，在所述获取待挖掘的文本数据之后，还包括：

4.如权利要求3所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，所述清洗处理方式包括：

对于所述文本数据中的无关符号进行删除。

5.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，所述对文本数据进行情感分析，并判断情感分析负向得分是否小于等于设置的第一置信度门限，包括：

6.如权利要求1所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，所述对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，包括：

获取已知为有效公益诉讼线索的文本数据作为参考文本；

7.如权利要求6所述的基于多特征融合的诉讼线索挖掘方法，其特征在于，所述根据所述每条文本数据的标题和参考文本的标题，分别计算得到每条文本数据的标题向量和参考文本的标题向量，包括：

8.一种基于多特征融合的诉讼线索挖掘系统，其特征在于，包括：待挖掘数据获取模块、情感分析模块、命名实体识别模块、相似度计算模块、确定模块和丢弃模块；

情感分析模块用于对文本数据的内容进行情感分析，并判断情感分析负向得分是否小于等于设置的第一置信度门限；

命名实体识别模块用于在情感分析模块输出结果为是时，对文本数据的内容进行命名实体识别，并判断识别结果中是否包含有效实体，所述有效实体包括地名、组织结构名及人名中的至少一个；

相似度计算模块用于在命名实体识别模块输出结果为是时，对文本数据的标题和参考文本的标题进行语义相似度计算，并判断语义相似度是否大于设置的第二置信度门限，其中，将获取的已知为有效公益诉讼线索的文本数据作为参考文本；