CN112579780A

CN112579780A - 基于Single-pass的聚类方法、系统、装置、存储介质

Info

Publication number: CN112579780A
Application number: CN202011563949.4A
Authority: CN
Inventors: 代少兵
Original assignee: Qingniuzhisheng Technology Co ltd
Current assignee: Qingniuzhisheng Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-30
Anticipated expiration: 2040-12-25
Also published as: CN112579780B

Abstract

本发明涉及基于Single‑pass的聚类方法、系统、装置、存储介质，所提供方法具体是：设置新一轮循环中初次聚类的相似度；进而，根据Single‑pass以及初次聚类的相似度，进行聚类；进而，若有未被聚类的：根据上一次聚类的相似度以及预设的降值规则，获取相似度；将上一次聚类所得的短文本主题导入新一次聚类中，根据相似度以及Single‑pass，对上一次未被聚类的进行聚类；进而，判断获取相似度的步骤的执行次数是否已达到预设的总次数；进而，若未达到，跳转到获取相似度的步骤；若已达到，判断是否满足进行新一轮循环的条件；若满足，取倒数第二次聚类的相似度为最佳相似度；若不满足，跳转到设置相似度的步骤。同时解决了阈值难以确定以及长尾的问题。

Description

基于Single-pass的聚类方法、系统、装置、存储介质

技术领域

本发明涉及数据处理技术领域，更具体地说，涉及基于Single-pass的聚类方法、系统、装置、存储介质。

背景技术

提供信息化服务的过程中，是否可以快速、准确地处理、分析网络文本信息尤为重要；其中，短文本聚类分析是常见的分析场景，通过聚类可以快速获取短文本的主题；由于聚类结果有较好的可解释性，因此，常会选用Single-pass或层次聚类。

然而，仅使用Single-pass进行聚类，容易出现长尾问题，大量句子未被聚类；仅使用层次聚类，一是难以确定合适的阈值，二是不具备有效的指标用于评估阈值选择的合理性。

因此，仍需对聚类方法做改进，以解决上述问题。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供基于Single-pass的聚类方法、基于Single-pass的聚类系统、基于Single-pass的聚类装置，以及计算机可读存储介质。

本发明解决其技术问题所采用的技术方案是：

第一，提供了一种基于Single-pass的聚类方法，其中，包括如下步骤：

设置新一轮循环中初次聚类的相似度；其中，新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等；

根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类；

若有未被聚类的短文本：根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；将上一次聚类所得的短文本主题导入新一次聚类中，根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；

判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数，其中，预设的总次数不小于2；

若未达到，跳转到获取新一次聚类的相似度的步骤；

若已达到，判断是否满足进行新一轮循环的条件；其中，进行新一轮循环的条件包括同时满足：本轮循环中，最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍，其中，N≥2；

若满足条件，取倒数第二次聚类的相似度为最佳相似度；

若不满足条件，跳转到设置新一轮循环中初次聚类的相似度的步骤。

第二，提供了基于Single-pass的聚类系统，基于上述的基于Single-pass的聚类方法，其中，所述系统包括：

设置单元，用于设置新一轮循环中初次聚类的相似度；其中，新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等；

聚类单元，用于根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类；

第一获取单元，用于根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；

导入单元，用于将上一次聚类所得的短文本主题导入新一次聚类中；

所述聚类单元，还用于根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；

判断单元，用于判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数，其中，预设的总次数不小于2；

跳转单元，用于跳转到获取新一次聚类的相似度的步骤；

所述判断单元，还用于判断是否满足进行新一轮循环的条件；其中，进行新一轮循环的条件包括同时满足：本轮循环中，最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍，其中，N≥2；

读取单元，用于取倒数第二次聚类的相似度为最佳相似度；

所述跳转单元，还用于跳转到设置新一轮循环中初次聚类的相似度的步骤。

第三，提供了基于Single-pass的聚类装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述方法的步骤。

第四，提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上述方法的步骤。

本发明的有益效果在于：设置新一轮循环中初次聚类的相似度；进而，根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类；进而，若有未被聚类的短文本：根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；将上一次聚类所得的短文本主题导入新一次聚类中，根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；进而，判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数；进而，若未达到，跳转到获取新一次聚类的相似度的步骤；若已达到，判断是否满足进行新一轮循环的条件；其中，进行新一轮循环的条件包括同时满足：本轮循环中，最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍；若满足条件，取倒数第二次聚类的相似度为最佳相似度；若不满足条件，跳转到设置新一轮循环中初次聚类的相似度的步骤。前述方法，对层级聚类及Single-pass进行了结合，同时解决了阈值难以确定以及长尾的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将结合附图及实施例对本发明作进一步说明，下面描述中的附图仅仅是本发明的部分实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图：

图1是本发明实施例一提供的基于Single-pass的聚类方法的流程图；

图2是本发明实施例二提供的基于Single-pass的聚类方法的组成示意图；

图3是本发明实施例二提供的基于Single-pass的聚类装置的组成示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明的部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有付出创造性劳动的前提下所获得的所有其他实施例，都属于本发明的保护范围。

实施例一

本发明实施例提供了基于Single-pass的聚类方法，如图1所示，包括如下步骤：

步骤S1：设置新一轮循环中初次聚类的相似度；其中，新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等。

本实施例中，设置新一轮循环中初次聚类的相似度之前，还包括：对短文本进行预处理；获取各个短文本的bert embedding。

本实施例中，各轮循环初次聚类的相似度不同，以便可以形成多份聚类结果，便于更全面地进行比对，并观察分类情况。

步骤S2：根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类。

步骤S3：若有未被聚类的短文本：根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；将上一次聚类所得的短文本主题导入新一次聚类中，根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类。

本实施例中，降值规则包括：新一次聚类的相似度＝上一次聚类的相似度-A，其中，A为恒定的正值。

本实施例中，导入上一次聚类所得的短文本主题，节省了重复建立短文本主题的过程，提高了效率；降低相似度，以便有更多的短文本可以被聚类，以便解决长尾问题。

步骤S4：判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数，其中，预设的总次数不小于2。

本实施例中，优选的，预设的总次数为2，既有较好的聚类效果，又保证了效率。

步骤S5：

若未达到，跳转到获取新一次聚类的相似度的步骤；

若满足条件，取倒数第二次聚类的相似度为最佳相似度；

本实施例所提供方法具体是：设置新一轮循环中初次聚类的相似度；进而，根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类；进而，若有未被聚类的短文本：根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；将上一次聚类所得的短文本主题导入新一次聚类中，根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；进而，判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数；进而，若未达到，跳转到获取新一次聚类的相似度的步骤；若已达到，判断是否满足进行新一轮循环的条件；其中，进行新一轮循环的条件包括同时满足：本轮循环中，最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍；若满足条件，取倒数第二次聚类的相似度为最佳相似度；若不满足条件，跳转到设置新一轮循环中初次聚类的相似度的步骤。前述方法，对层级聚类及Single-pass进行了结合，同时解决了阈值难以确定以及长尾的问题。

实施例二

本发明实施例提供了基于Single-pass的聚类系统，基于实施例一所提供的基于Single-pass的聚类方法，如图2所示，系统包括：

设置单元10，用于设置新一轮循环中初次聚类的相似度；其中，新一轮循环中初次聚类的相似度、上一轮循环中初次聚类的相似度不相等；

聚类单元11，用于根据Single-pass以及新一轮循环中初次聚类的相似度，对全部短文本进行聚类；

第一获取单元12，用于根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；

导入单元13，用于将上一次聚类所得的短文本主题导入新一次聚类中；

聚类单元，还用于根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；

判断单元14，用于判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数，其中，预设的总次数不小于2；

跳转单元15，用于跳转到获取新一次聚类的相似度的步骤；

判断单元，还用于判断是否满足进行新一轮循环的条件；其中，进行新一轮循环的条件包括同时满足：本轮循环中，最后一次聚类的最后一类为该次聚类中首次设立的新类、倒数第二次聚类中倒数第二次设立的新类与最后一次聚类的最后一类不同、最后一次聚类的最后一类所含短文本数量为倒数第二次聚类中倒数第二次设立的新类所含短文本数量的N倍，其中，N≥2；

读取单元16，用于取倒数第二次聚类的相似度为最佳相似度；

跳转单元，还用于跳转到设置新一轮循环中初次聚类的相似度的步骤。

优选的，降值规则包括：新一次聚类的相似度＝上一次聚类的相似度-A，其中，A为恒定的正值。

优选的，预设的总次数为2。

优选的，聚类系统还包括：

预处理单元17，用于对短文本进行预处理；

第二获取单元18，用于获取各个短文本的bert embedding。

本实施例所提供系统的工作过程是：借助设置单元设置新一轮循环中初次聚类的相似度；进而，根据Single-pass以及新一轮循环中初次聚类的相似度，聚类单元对全部短文本进行聚类；进而，若有未被聚类的短文本：第一获取单元根据上一次聚类的相似度以及预设的降值规则，获取新一次聚类的相似度；导入单元将上一次聚类所得的短文本主题导入新一次聚类中，聚类单元根据新一次聚类的相似度以及Single-pass，对上一次未被聚类的全部短文本进行聚类；进而，判断单元判断本轮循环中获取新一次聚类的相似度的步骤的执行次数是否已达到预设的总次数；进而，若未达到，跳转单元跳转到获取新一次聚类的相似度的步骤；若已达到，判断单元还判断是否满足进行新一轮循环的条件；若满足条件，读取单元取倒数第二次聚类的相似度为最佳相似度；若不满足条件，跳转单元跳转到设置新一轮循环中初次聚类的相似度的步骤。前述工作过程，对层级聚类及Single-pass进行了结合，同时解决了阈值难以确定以及长尾的问题。

实施例三

本发明实施例提供了基于Single-pass的聚类装置，如图3所示，包括存储器20、处理器21以及存储在存储器20中并可在处理器21上运行的计算机程序22，处理器21执行计算机程序22时实现实施例一所提供的方法。

实施例四

本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现实施例一所提供的方法。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于Single-pass的聚类方法，其特征在于，包括如下步骤：

若未达到，跳转到获取新一次聚类的相似度的步骤；

若满足条件，取倒数第二次聚类的相似度为最佳相似度；

2.根据权利要求1所述的基于Single-pass的聚类方法，其特征在于，降值规则包括：新一次聚类的相似度＝上一次聚类的相似度-A，其中，A为恒定的正值。

3.根据权利要求1所述的基于Single-pass的聚类方法，其特征在于，预设的总次数为2。

4.根据权利要求1所述的基于Single-pass的聚类方法，其特征在于，设置新一轮循环中初次聚类的相似度的步骤之前，所述方法还包括：

对短文本进行预处理；

获取各个短文本的bert embedding。

5.一种基于Single-pass的聚类系统，基于权利要求1-4任一所述的基于Single-pass的聚类方法，其特征在于，所述系统包括：

跳转单元，用于跳转到获取新一次聚类的相似度的步骤；

读取单元，用于取倒数第二次聚类的相似度为最佳相似度；

6.根据权利要求5所述的基于Single-pass的聚类系统，其特征在于，降值规则包括：新一次聚类的相似度＝上一次聚类的相似度-A，其中，A为恒定的正值。

7.根据权利要求5所述的基于Single-pass的聚类系统，其特征在于，预设的总次数为2。

8.根据权利要求5所述的基于Single-pass的聚类系统，其特征在于，所述聚类系统还包括：

预处理单元，用于对短文本进行预处理；

第二获取单元，用于获取各个短文本的bert embedding。

9.一种基于Single-pass的聚类装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述方法的步骤。