CN111309911B

CN111309911B - 面向司法领域的案件话题发现方法

Info

Publication number: CN111309911B
Application number: CN202010096028.5A
Authority: CN
Inventors: 余正涛; 张玉; 毛存礼; 郭军军; 黄于欣; 张勇丙
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2022-06-14
Anticipated expiration: 2040-02-17
Also published as: CN111309911A

Abstract

本发明涉及面向司法领域的案件话题发现方法，属于自然语言处理技术领域。本发明首先从案件相关的舆情中抽取舆情标题，经由bert模型编码后得到同等长度的语义向量，并且加入舆情发布时间的约束，使用增量聚类的方式得到不同话题，然后使用每个话题下所有的舆情进行关键字提取，进行编码后用于话题合并，最终生成有效话题。本发明对于不同案件下的相关舆情，可以生成准确的话题类别，为后续的话题表征等工作提供了强有力的支撑。

Description

面向司法领域的案件话题发现方法

技术领域

本发明涉及面向司法领域的案件话题发现方法，属于自然语言处理技术领域。

背景技术

话题发现是自然语言处理领域中的主要任务之一。能够从大量文本数据中生成高质量的话题，对于后续的话题表征工作来说是重要支撑。话题是一个事件背后的舆情分布情况，而案件话题发现是针对案件背后的舆情，这些舆情文本没有固定格式，内容的重心也各有不同，如何结合案件舆情的文本特点进行有效聚类，这是本任务的重点和难点。因此，本发明提出了面向司法领域的案件话题发现方法，利用案件文本的特点，有效的从案件下的众多舆情中发现高质量话题。

发明内容

本发明提供了面向司法领域的案件话题发现方法，以用于如何结合案件舆情的文本特点进行有效聚类，从而有效的从案件下的众多舆情中发现高质量话题。

本发明的技术方案是：面向司法领域的案件话题发现方法，所述面向司法领域的案件话题发现方法的具体步骤如下：

Step1、首先得到每个案件下相关的舆情，抽取所有标题，进行去噪处理后得短文本数据；

Step2、对短文本数据使用bert模型进行编码，生成语义向量X＝{x₁,x₂,...x_M}；

Step3、使用语义向量X进行聚类，并根据舆情发布时间建立惩罚机制，得到不同的话题类别，并储存簇心；

Step4、拿到不同话题下的所有标题短文本，统计得到关键字，处理后进行语义编码，得到话题的核心语义向量C；

Step5、使用每个话题的核心语义向量C进行话题合并，并改变簇心向量；

Step6、定时更新舆情，对于新进入的舆情，进行增量聚类，且重复上述步骤。

作为本发明的优选方案，所述步骤Step1的具体步骤为：首先拿到案件相关的舆情标题，对标题进行降噪处理，包括数据集所有单词全部转小写、去掉所有的@符号以及后续部分无关内容去(包括去停用词)；处理后得到的短文本列表作为数据进行初次聚类。

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、Step2中编码模型采用的bert模型，将标题短文本输入该模型后得到746维的语义向量，然后用该向量和所有已存在的聚类簇心向量进行欧式距离计算；其中，首次聚类时无聚类簇心，则直接将该向量保存为簇心向量，其对应舆情的发布时间保存为聚类中心时间；

Step3.2、拿到当前舆情的发布时间，根据该时间和所有已存在的话题类别的聚类时间中心的距离建立时间距离惩罚机制，并根据参数来设置惩罚力度，得到该条舆情与已存在话题类别的距离权重w；

Step3.3、使用计算得到的欧式距离和距离权重w相乘，得到该条舆情和已存在话题类别的加权距离，然后遍历得到最小的加权距离所属的话题类别，并拿最小加权距离与预设阈值进行比较，小于预设阈值则归为一类，若大于或等于预设阈值则计算次小值，以此类推，当该条舆情归属与某一话题类别后，根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量，并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间；若最终该条舆情无可归属话题类别，则新建簇心，保存该条舆情的语义向量为簇心向量。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、拿到不同话题类别下的所有舆情标题短文本作为统计数据；

Step4.1、使用jieba分词工具进行分词、去停用词、统计词频；

Step4.3、拿到前7个出现频率较高的词作为关键词保存，并将其组合成新的辅助短文本，输入到bert模型中，拿到746维的话题核心语义向量。

作为本发明的优选方案，所述步骤Step5的具体步骤为：

Step5.1、使用话题核心语义向量进行距离计算，得到话题之间的欧式距离；

Step5.2、拿话题之间的欧式距离与预设阈值进行对比，低于预设阈值的话题之间进行两两合并；

Step5.3、将要合并的两个话题的簇心向量按所属舆情个数进行权重加成，在相加，做为合并后的话题簇心向量；

Step5.3、将合并后的新话题所属的所有舆情发布时间进行统计，拿到时间中点作为新话题类别的聚类中心时间。

本发明的有益效果是：

1、本发明将增量聚类的思想应用到司法领域，可以实时监督发现话题，又结合词频统计生成辅助句进行话题合并，模型简单易于实现且得到的话题质量较高；

2、本发明提出的面向司法领域的案件话题发现方法，对于不同案件下的相关舆情舆情，可以生成准确的话题类别，为后续的话题表征等工作提供了强有力的支撑。

附图说明

图1为本发明中的总的流程图；

图2为本发明中的一种话题发现方法流程图；

图3为本发明中的一种话题合并方法流程图。

具体实施方式

实施例1：如图1-3所示，面向司法领域的案件话题发现方法，所述面向司法领域的案件话题发现方法的具体步骤如下：

作为本发明的优选方案，所述步骤Step3的具体步骤：

Step3.1、Step2中编码模型采用的bert模型，将标题短文本输入该模型后得到746维的语义向量x_i，然后用该向量和所有已存在的聚类簇心向量C＝{c₁,c₂,...,c_n}进行欧式距离计算；得到两向量之间的距离D＝{d₁,d₂,...,d_n}；其中，首次聚类时无聚类簇心，则直接将该向量保存为簇心向量，即c_i＝x_i，其对应舆情的发布时间保存为聚类中心时间t_i；

Step3.2、拿到当前舆情的发布时间T，根据该时间和所有已存在的话题类别的聚类时间中心t的距离建立时间距离惩罚机制，并根据参数来设置惩罚力度s，得到该条舆情与已存在话题类别的距离权重w，具体公式如下：

Step3.3、使用计算得到的欧式距离d_i和距离权重w_i相乘，得到该条舆情和已存在话题类别的加权距离d_wi，然后遍历得到最小的加权距离d_w-min所属的话题类别，并拿最小加权距离d_w-min与预设阈值K进行比较，小于预设阈值则归为一类，若大于或等于预设阈值则计算次小值，以此类推，当该条舆情归属与某一话题类别后，根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量，并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间；若最终该条舆情无可归属话题类别，则新建簇心，保存该条舆情的语义向量为簇心向量。

作为本发明的优选方案，所述步骤Step4的具体步骤为：

Step4.1、使用jieba分词工具进行分词、去停用词、统计词频；

作为本发明的优选方案，所述步骤Step5的具体步骤为：

实施例2：如图3所示，面向司法领域的案件话题发现方法，本实施例与实施例1相同，不同之处在于，图3为案件话题合并流程图，主要是对类似话题进行合并，以减少话题数量并提高话题质量，具体实施步骤如下：

首先拿到已经存在的所有话题，然后对每个话题下所有的舆情标题进行分词统计，因为同一话题下的舆情标题具有非常高的相似性，因此取前7个高频词组成该话题的辅助句。然后将每个话题的辅助句分别通过bert模型，得到每个话题的语义向量。最后对所有话题的语义向量进行两两比较，算出欧式距离并与预设阈值进行比较，小于阈值则进行话题合并，并将两个话题的簇心向量进行平均作为新话题的话题簇心。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.面向司法领域的案件话题发现方法，其特征在于：所述面向司法领域的案件话题发现方法的具体步骤如下：

Step6、定时更新舆情，对于新进入的舆情，进行增量聚类，且重复上述步骤；

所述步骤Step3的具体步骤：

Step3.3、使用计算得到的欧式距离和距离权重w相乘，得到该条舆情和已存在话题类别的加权距离，然后遍历得到最小的加权距离所属的话题类别，并拿最小加权距离与预设阈值进行比较，小于预设阈值则归为一类，若大于或等于预设阈值则计算次小值，以此类推，当该条舆情归属与某一话题类别后，根据该话题类别已存在的舆情数量和该条舆情的语义向量进行修改簇心向量，并取该话题类别下的所有舆情的发布时间的中心时间作为聚类中心时间；若最终该条舆情无可归属话题类别，则新建簇心，保存该条舆情的语义向量为簇心向量；

所述步骤Step5的具体步骤为：

Step5.3、将要合并的两个话题的簇心向量按所属舆情个数进行权重加乘，再相加，作为合并后的话题簇心向量；

Step5.4、将合并后的新话题所属的所有舆情发布时间进行统计，拿到时间中点作为新话题类别的聚类中心时间。

2.根据权利要求1所述的面向司法领域的案件话题发现方法，其特征在于：所述步骤Step1的具体步骤为：首先拿到案件相关的舆情标题，对标题进行降噪处理，包括数据集所有单词全部转小写、去掉所有的@符号以及去停用词；处理后得到的短文本列表作为数据进行初次聚类。

3.根据权利要求1所述的面向司法领域的案件话题发现方法，其特征在于：所述步骤Step4的具体步骤为：

Step4.1、使用jieba分词工具进行分词、去停用词、统计词频；