CN115630160A

CN115630160A - 一种基于半监督共现图模型的争议焦点聚类方法及系统

Info

Publication number: CN115630160A
Application number: CN202211568275.6A
Authority: CN
Inventors: 李鑫; 谷依韩; 翁洋; 杨鑫
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-01-20
Anticipated expiration: 2042-12-08
Also published as: CN115630160B

Abstract

本发明公开了一种基于半监督共现图模型的争议焦点聚类方法及系统，获取第一数据集，所述第一数据集为争议焦点短文本；对所述第一数据集进行预处理，获得第二数据集，并基于所述第二数据集，构建半监督共现图模型；按照词频由高到低的方法，从所述半监督共现图模型中提取主题词群；根据争议焦点的类别，对所述主题词群进行类别分配。本发明的有益效果为通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理，提避免了文本数据出现的稀疏性以及高维性，提高了对争议焦点处理的准确性。

Description

一种基于半监督共现图模型的争议焦点聚类方法及系统

技术领域

本发明涉及裁判文书分类和检索技术领域，具体而言，涉及一种基于半监督共现图模型的争议焦点聚类方法及系统。

背景技术

裁判文书的公开，既为人民群众预测裁判结果、建立合理预期提供了可能性，又为人民群众朴素地判断结果公正与否提供了路径。于审判人员而言，在“案多人少”的背景下借鉴已决类似案件的裁判规则、裁判尺度，是提高案件审判效率的重要手段，也是降低职业风险的路径之一。不论是人民群众还是审判人员，从海量的公开案件中找到与当前案件类似的已决历史案件，是分析、借鉴、参考类似案例的基础。

在互联网上公布裁判文书的举措，使得人民群众能轻易地搜索案件，但是如何在如此海量的文书中获得类案搜索结果，是一个重要且基础的问题。可以通过层级、裁判时间、案件类型、案由等结构化化信息进行案件检索，但这些信息要么与案件实体特征关联性不强，要么所指向的案件数量过多，超出人力可阅读的数量范畴，无法实现结果准确、数量可控的类案检索，与类案检索的目标相去较远。

争议焦点是纠纷各方冲突的核心，举证质证、辩论、裁判说理无不以此为核心，是作为判断、检索类案的维度之一。争议焦点主要存在于民事案件裁判文书中，呈现出显著的类型化特征。相似的争议焦点对应的案件一般具有更高的相似度，至少在争议焦点指向的事实、法律适用上具有较高的相似度，在检索过程中选择待决案件所属的争议焦点类别，可以大大减小案件范围，实现更快速准确的类案检索。

因此，在常规的技术中，通常运用机器学习的方法来识别表达形式不同、但法律层面上语义内容相似的同质化的争议焦点组，将裁判文书的检索结构进一步细化，以此作为基于争议焦点的类案检索的基础是非常重要的；但是在采用这种方法对争议焦点进行处理的过程中，将争议焦点作为文本数据，在将文本数据向量化，不仅容易出现稀疏性与高维性的现象，且降低了传统聚类算法在文本数据上的准确度。

有鉴于此，特提出本申请。

发明内容

本发明所要解决的技术问题是现有技术中，采用传统机器学习方法对争议焦点处理造成争议焦点文本的稀疏性以及高维性，目的在于提供一种基于半监督共现图模型的争议焦点聚类方法及系统，能够提高在对争议焦点处理的过程中，避免出现争议焦点短文本的稀疏性以及高维性。

本发明通过下述技术方案实现：

一种基于半监督共现图模型的争议焦点聚类方法，方法步骤包括：

获取第一数据集，所述第一数据集为争议焦点短文本；

对所述第一数据集进行预处理，获得第二数据集，并基于所述第二数据集，构建半监督共现图模型；

按照词频由高到低的方法，从所述半监督共现图模型中提取主题词群；

根据争议焦点的类别，对所述主题词群进行类别分配。

传统的在对争议焦点进行分组的时候，通常采用的是通过机器学习的方法识别表达形式不同、但法律层面上语义内容相似的同质化的争议焦点组，将裁判文书的检索结构进一步细化，但是在采用这种方法对争议焦点短文本进行处理的时候，通常在处理的过程中，容易出现稀疏性与高维性，降低了对文本数据处理的准确度；本发明提供了一种基于半监督共现图模型的争议焦点聚类方法，通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理，避免了文本数据出现的稀疏性以及高维性，提高了对争议焦点处理的准确性。

优选地，对所述第一数据进行预处理的子步骤包括：

去除所述第一数据集中的标点符号、数字以及特殊字符，获得第一子数据集；

将所述第一子数据集进行分词处理，获得第二子数据集；

采用停用词表识别所述第二子数据集中的停用词，将所述第二子数据集中的停用词进行删除，获得第二数据集。

优选地，基于所述第二数据集，构建半监督共现图模型的具体子步骤包括：

提取所述第二数据集中，争议焦点词的频数以及词与词之间的共现频数；

基于所述频数以及共现频数，构建所述半监督共现图模型。

优选地，所述主题词群的提取方法包括：

按照词频由高到低的方法，识别所述半监督共现图模型中的种子词，所述种子词为一个主题词群中出现频率最高的词；

将与所述种子词紧密相连的词作为种子词的附属词，将种子词与其附属词构建为一个主题词群；

在所述半监督共现图模型中，对剩余的词重复上述步骤，直到所述半监督共现图模型中的词识别完毕，获得主题词群。

优选地，所述主题词群提取还包括判断所述主题词群是否需要细分，具体操作步骤包括：

选择任意一个主题词群，判断该主题词群内的种子词出现的频数是否大于参数ω，若是，则该种子词是该主题词群这个类别的代表词，不需要进行细分；

否则，则根据在所述主题词群中，种子词与附属词的平均频数将该种子词在所在的主题词群中进行划分。

优选地，对所述第二数据集中的领域特定停用词进行识别，具体识别计算式为：

为示性函数，即当

时为1，否则为0；

为标记数据中

中词w的频数，α是衡量词w在标记数据

是否为一个常见词的参数，β是衡量词w在所有类别标记数据是否为常见词汇的参数，γ是衡量词w在所有类别的标记数据中频率差距是否过大的参数。

优选地，对所述主题词群进行类别分配的具体操作步骤包括：

获取争议焦点的类别，基于所述争议焦点的类别，提取在所述主题词群中，与所述争议焦点的类别重合词数最多的主题词群；

判断该主题词群的个数，判断该争议焦点的主题词群。

优选地，判断该主题词群的个数，判断该争议焦点的主题词群的具体子步骤包括：

若该主题词群为一个，则该主题词为该争议焦点的主题词群；

若该主题词群为多个，则将多个主题词群中，与争议焦点重合词数最少的主题词群作为该争议焦点的主题词群。

优选地，所述争议焦点短文本具体为非通用法律类争议焦点短文本以及事实类争议焦点短文本。

本发明还提供了一种基于半监督共现图模型的争议焦点聚类系统，包括数据获取模块、模型构建模块、主题词提取模块以及类别分配模块，

所述数据获取模块，用于获取第一数据集，所述第一数据集为争议焦点短文本；

所述模型构建模块，用于对所述第一数据集进行预处理，获得第二数据集，并基于所述第二数据集，构建半监督共现图模型；

所述主题词提取模块，用于按照词频由高到低的方法，从所述半监督共现图模型中提取主题词群；

所述类别分配模块，用于根据争议焦点的类别，对所述主题词群进行类别分配。

本发明与现有技术相比，具有如下的优点和有益效果：

本发明实施例提供的一种基于半监督共现图模型的争议焦点聚类方法及系统，通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理，提避免了文本数据出现的稀疏性以及高维性，提高了对争议焦点处理的准确性。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为聚类方法示意图；

图2为聚类流程示意图；

图3为模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

在以下描述中，为了提供对本发明的透彻理解阐述了大量特定细节。然而，对于本领域普通技术人员显而易见的是：不必采用这些特定细节来实行本发明。在其他实施例中，为了避免混淆本本发明，未具体描述公知的结构、电路、材料或方法。

在整个说明书中，对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着：结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此，在整个说明书的各个地方出现的短语“一个实施例”、“实施例”、“一个示例”或“示例”不一定都指同一实施例或示例。此外，可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外，本领域普通技术人员应当理解，在此提供的示图都是为了说明的目的，并且示图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。

实施例一

本实施例公开了一种基于半监督共现图模型的争议焦点聚类方法，本实施例主要是针对现有技术中，采用机器学习方法处理争议焦点短文本出现的稀疏性以及高维性，降低了对争议焦点分类的准确性，本实施例通过采用半监督共现图模型的方法对争议焦点的文本数据进行处理，提避免了文本数据出现的稀疏性以及高维性，提高了对争议焦点处理的准确性，具体的流程如图1、图2所示，方法步骤包括：

S1：获取第一数据集，所述第一数据集为争议焦点短文本；

在步骤S1中，本实施例的争议焦点短文本具体为非通用法律类争议焦点短文本以及事实类争议焦点短文本，因为在非通用法律类争议焦点短文本以及事实类争议焦点短文本中，不同案由涉及的非通用法律类争议焦点和事实类争议焦点组各有不同，难以提前进行整理。其中，在相同三级案由下的四级案由与该三级案由的事实类争议焦点组可能存在重复，进行类案检索的价值较大。而非通用法律类争议焦点，则具有较大的借鉴意义。

S2：对所述第一数据集进行预处理，获得第二数据集，并基于所述第二数据集，构建半监督共现图模型；

对所述第一数据进行预处理的子步骤包括：

去除所述第一数据集中的标点符号、数字以及特殊字符，获得第一子数据集；这类信息对于争议焦点聚类，换句话说，对于识别争议焦点之间的相似性的贡献较小，且带来了较大的误差与噪声影响，删除此类信息与保留相对比裨益更大；

将所述第一子数据集进行分词处理，获得第二子数据集；争议焦点是一句描述争议双方冲突核心的句子，然而与许多的自然语言处理方法类似，本实施例中的方法也将数据表示为词集的形式；

采用停用词表识别所述第二子数据集中的停用词，将所述第二子数据集中的停用词进行删除，获得第二数据集；分词之后的词集中还有一些对于识别争议焦点类别没有作用或者作用很小，出现频率较高的停用词，停用词所带来的语义信息远远大于其所含的噪声，为了避免这种影响，需将其删除。

基于所述第二数据集，构建半监督共现图模型的具体子步骤包括：

基于所述频数以及共现频数，构建所述半监督共现图模型。

在半监督共现图模型的构建过程中，构建的最终模型的表达式为G=(V,E)，图中的节点v∈V代表一个词，点的权重f(v)为对应的词在语料库D中出现的频数，两个节点w，v之间的边e∈E则是代表对应的两个词w，v在D中所有的争议焦点中的共现联系，其权重f(w,v)为词w，v在D中所有争议焦点的共现频数之和，两个词每同时在一个争议焦点中出现一次，即为共现一次，其中构建的半监督共现图模型，主要是为了捕获争议焦点中词的重要性与词之间的关联程度，以用来找寻争议焦点中可能的主题，具体模型的示意图如图3所示，词“破裂”和词“夫妻”则为种子词，在该图中，其中框代表节点，其中框内的数字为词的频数信息，节点与节点之间的数字代表对应的词之间的共现频数，不同虚线框内的两个区域为识别出的两个不同的主题词群。

在对短文本处理的过程中，除了通常运用的停用词表对相关的停用词删除外，在针对某个类别文献的时候，会出现该类别相关的停用词，叫做领域特定停用词，领域特定停用词的存在，会对争议焦点短文本数据的处理带来影响，降低其处理的准确性，因此，在对第二数据集处理的时候，除了对停用词进行处理外，还需要对领域特定停用词进行删除，具体操作如下：

对所述第二数据集中的领域特定停用词进行识别，具体识别计算式为：

为示性函数，即当

时为1，否则为0；

为标记数据中

中词w的频数，α是衡量词w在标记数据

是否为一个常见词的参数，β是衡量词w在所有类别标记数据是否为常见词汇的参数，γ是衡量词w在所有类别的标记数据中频率差距是否过大的参数；若词w满足该准则，则将词w认为停用词，并将其在图对应的节点与边删除。

在对所有停用词进行处理的过程中，本实施例采用的是标记的方法对停用词进行处理，假设全部的争议焦点数据，即语料库为

，含有n个争议焦点数据，其中带有类别信息的标记数据为

，即为停用词类别的数据信息，其中每个

为同一个类别的全部标记数据组成，且有

，争议焦点d中含有的词为

。

S3：按照词频由高到低的方法，从所述半监督共现图模型中提取主题词群；

在步骤S3中，是将词频最高的点先识别为种子词同时与种子词的紧密相连的词可以认为是种子词的附属词，种子词与附属词共同构成一个类别的主题词群，具体提取方法包括：

具体判别词v为种子词w的附属词的方法为准则2：

，

以图模型中频数最高的词作为种子词，并根据上述准则找到种子词的附属词共同作为一个主题词群，这便有了第一个主题词群。

随后，将抽取出的主题词群中的词标记为种子词非备选词，在图模型中没有标记为种子词非备选词的节点中找到频数最高的词作为种子词，在根据该准则寻找附属词，重复上述过程，找到所有的主题表示词群

。

从不同类别的争议焦点例子：“夫妻感情是否破裂”与“夫妻感情是否破裂，是否符合法定的解除婚姻关系的条件”中可以看出，不同类别可能会共享高频词，这些词在不同类别的争议焦点中频繁出现，的确能够代表不同类别，在算法中容易将这些不同的类别识别为同一类。为避免这种现象，本实施例结合了部分放学的先验知识，根据少量标记数据来半监督地判定得到的主题词群是否还需要进行划分，具体操作步骤包括：

考虑主题词群

的种子词

在这些标记数据类别中的的频数，若在某个类中种子词平均频数大于一个参数ω，则认为该种子词应该是标记数据中这个类别的代表词，如果不止一个类别如此，则根据种子词与附属词在这些类别中的平均频数而将该种子词所在的主题表示词再进行划分，不妨设：

，其中

，

分别为标记数据

中的争议焦点数量与

中词

的频数。若

，那么令

，则所有的

，

构成

的一个有重叠的划分，并且把该划分作为新的主题表示词群代替

，得到最后的主题表示词。这时每个主题表示词群可以看作一个类别的主题，出于种子词的频数的考虑，种子词频数靠后的主题表示词可以进行增删，灵活调整类别的个数，并将最后得到的所有主题词群结果记为

。

S4：根据争议焦点的类别，对所述主题词群进行类别分配。

在步骤S4中，先求出与一个争议焦点重合词数最多的主题词群，如果这样的词群仅有一个，那么就把这个词群当作该争议焦点的主题词，若重合词数量最多的词群不止一个，那么再考虑词群中词的个数，把词数最少的词群作为该争议焦点的主题词。

对所述主题词群进行类别分配的具体操作步骤包括：

判断该主题词群的个数，判断该争议焦点的主题词群。

判断该主题词群的个数，判断该争议焦点的主题词群的具体子步骤包括：

若该主题词群为多个，则将多个主题词群中，与争议焦点重合词数最少的主题词群作为该争议焦点的主题词群；具体判断的方法为：

，其中

表示主题词群

中词的数量，

表示争议焦点d与主题词群

中重合的词的数量。

本实施例公开的一种基于半监督共现图模型的争议焦点聚类方法，具有较好的解释性，较快的运算速度，易直观调整类别数量，解决了短文本聚类中的高维性与稀疏性；算法整合了先验知识，进行了特定案由下的停用词识别，主题词群的细分，更加充分利用已有信息；以直观明了的方式来确定种子词与附属词，并大致能对较为重要的类别进行优先提取；类别分配根据主题词群进行，更加方便后续的使用与维护。

实施例二

本实施例公开了一种基于半监督共现图模型的争议焦点聚类系统，本实施例是为了实现如实施例一中的聚类方法，包括数据获取模块、模型构建模块、主题词提取模块以及类别分配模块，

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。