CN112650853A

CN112650853A - 短文本聚类方法、装置、电子设备、存储介质及程序产品

Info

Publication number: CN112650853A
Application number: CN202110039760.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Lakala Payment Co ltd
Current assignee: Lakala Payment Co ltd
Priority date: 2021-01-13
Filing date: 2021-01-13
Publication date: 2021-04-13

Abstract

本公开实施例公开了一种短文本聚类方法、装置、电子设备、存储介质及程序产品，所述方法包括：获取两个或多个短文本，对于所述短文本进行分词处理，得到所述短文本对应的词集合；基于所述词集合计算所述短文本之间的相似性；基于所述短文本和短文本之间的相似性生成短文本关系图，基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

Description

短文本聚类方法、装置、电子设备、存储介质及程序产品

技术领域

本公开实施例涉及数据处理技术领域，具体涉及一种短文本聚类方法、装置、电子设备、存储介质及程序产品。

背景技术

随着互联网技术的高速普及以及信息技术的飞速发展，需要被分析的数据量越来越庞大，数据之间的关系也变得越来越复杂。聚类分析是一种常见的数据分析方法，其是以相似性为基础，将数据划分为多个数据群，每个数据群内部数据之间的相似性要高于不同数据群间数据之间的相似性。当前社交媒体的发展使得文本数据量飞速增长，且通常以短文本的形式出现，比如微博、产品评论以及商品搜索文本等等，这些文本信息在信息推荐以及信息风控中通常是较为重要的信息，现有技术中通常使用传统的基于数据信息转换的文本聚类方法对于文本信息进行聚类处理，以进行后续的推荐或风控操作，但该方法处理过程繁杂，数据量大，计算复杂度高，计算时间长，因此，如何快速挖掘出短文本之间的相似性成为一个新的挑战。

发明内容

本公开实施例提供一种短文本聚类方法、装置、电子设备、存储介质及程序产品。

第一方面，本公开实施例中提供了一种短文本聚类方法。

具体的，所述短文本聚类方法，包括：

获取两个或多个短文本，对于所述短文本进行分词处理，得到所述短文本对应的词集合；

基于所述词集合计算所述短文本之间的相似性；

基于所述短文本和短文本之间的相似性生成短文本关系图，基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

结合第一方面，本公开实施例在第一方面的第一种实现方式中，所述得到所述短文本对应的词集合之后，还包括：

对于所述词集合中的词进行去重。

结合第一方面和第一方面的第一种实现方式，本公开实施例在第一方面的第二种实现方式中，所述基于所述词集合计算所述短文本之间的相似性，被实施为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述基于所述短文本和短文本之间的相似性生成短文本关系图，被实施为：

以所述短文本为节点，连接节点形成边，以短文本之间的相似性作为相应边的权重，生成所述短文本关系图。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果，被实施为：

基于所述短文本关系图，利用社区挖掘算法对于所述短文本进行聚类，得到短文本聚类结果。

结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式，本公开在第一方面的第五种实现方式中，还包括：

根据所述短文本聚类结果执行预设操作。

第二方面，本公开实施例中提供了一种短文本聚类装置。

具体的，所述短文本聚类装置，包括：

分词模块，被配置为获取两个或多个短文本，对于所述短文本进行分词处理，得到所述短文本对应的词集合；

计算模块，被配置为基于所述词集合计算所述短文本之间的相似性；

聚类模块，被配置为基于所述短文本和短文本之间的相似性生成短文本关系图，基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

结合第二方面，本公开实施例在第二方面的第一种实现方式中，所述分词模块之后，还包括：

去重模块，被配置为对于所述词集合中的词进行去重。

结合第二方面和第二方面的第一种实现方式，本公开实施例在第二方面的第二种实现方式中，所述计算模块被配置为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述聚类模块中基于所述短文本和短文本之间的相似性生成短文本关系图的部分，被配置为：

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式，本公开在第二方面的第四种实现方式中，所述聚类模块中基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果的部分，被配置为：

结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式，本公开在第二方面的第五种实现方式中，还包括：

执行模块，被配置为根据所述短文本聚类结果执行预设操作。

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条支持短文本聚类装置执行上述短文本聚类方法的计算机指令，所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述短文本聚类装置还可以包括通信接口，用于短文本聚类装置与其他设备或通信网络通信。

第四方面，本公开实施例提供了一种计算机可读存储介质，用于存储短文本聚类装置所用的计算机指令，其包含用于执行上述短文本聚类方法为短文本聚类装置所涉及的计算机指令。

第五方面，本公开实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述短文本聚类方法的步骤。

本公开实施例提供的技术方案可包括以下有益效果：

上述技术方案借助图来展示短文本之间的关系形成短文本关系图，并基于短文本关系图对于所述短文本进行聚类。该技术方案处理过程简单，数据量小，计算复杂度低，计算时间短，能够快速挖掘出短文本之间的相似性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开实施例。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开实施例的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开一实施方式的短文本聚类方法的流程图；

图2示出根据本公开一实施方式的短文本聚类方法的整体流程图；

图3示出根据本公开一实施方式的短文本关系示意图；

图4示出根据本公开一实施方式的短文本聚类装置的结构框图；

图5是适于用来实现根据本公开一实施方式的短文本聚类方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开实施例的示例性实施方式，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施方式无关的部分。

在本公开实施例中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开实施例。

本公开实施例提供的技术方案借助图来展示短文本之间的关系形成短文本关系图，并基于短文本关系图对于所述短文本进行聚类。该技术方案处理过程简单，数据量小，计算复杂度低，计算时间短，能够快速挖掘出短文本之间的相似性。

图1示出根据本公开一实施方式的短文本聚类方法的流程图，如图1所示，所述短文本聚类方法包括以下步骤S101-S103：

在步骤S101中，获取两个或多个短文本，对于所述短文本进行分词处理，得到所述短文本对应的词集合；

在步骤S102中，基于所述词集合计算所述短文本之间的相似性；

在步骤S103中，基于所述短文本和短文本之间的相似性生成短文本关系图，基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

上文提及，随着互联网技术的高速普及以及信息技术的飞速发展，需要被分析的数据量越来越庞大，数据之间的关系也变得越来越复杂。聚类分析是一种常见的数据分析方法，其是以相似性为基础，将数据划分为多个数据群，每个数据群内部数据之间的相似性要高于不同数据群间数据之间的相似性。当前社交媒体的发展使得文本数据量飞速增长，且通常以短文本的形式出现，比如微博、产品评论以及商品搜索文本等等，这些文本信息在信息推荐以及信息风控中通常是较为重要的信息，现有技术中通常使用传统的基于数据信息转换的文本聚类方法对于文本信息进行聚类处理，以进行后续的推荐或风控操作，但该方法处理过程繁杂，数据量大，计算复杂度高，计算时间长，因此，如何快速挖掘出短文本之间的相似性成为一个新的挑战。

考虑到上述问题，在该实施方式中，提出一种短文本聚类方法，该方法借助图来展示短文本之间的关系形成短文本关系图，并基于短文本关系图对于所述短文本进行聚类。该技术方案处理过程简单，数据量小，计算复杂度低，计算时间短，能够快速挖掘出短文本之间的相似性。

在本公开一实施方式中，所述短文本聚类方法可适用于可执行短文本聚类的计算设备或服务器等等。

在本公开一实施方式中，所述短文本指的是内容较少，由几个字、十几个字或几十个字组成的文本，通常出现于论坛/BBS、留言及回复、咨询、建议及意见反馈、手机短信/网络小纸条、即时聊天记录等场景中。

在本公开一实施方式中，可利用现有技术中常用的分词方法对于所述短文本进行分词处理，以得到与所述短文本对应的、由分词处理得到的词语组成的词集合。假设对于短文本：“文本1信息1数据1”，经过分词处理后可得到词语：“文本”，“信息”，“数据”，“1”，“1”，“1”，进而可组成词集合：[“文本”，“信息”，“数据”，“1”，“1”，“1”]，若所述短文本的数量为N，则得到的词集合的数量亦为N。

在本公开一实施方式中，所述短文本关系图指的是用于表征短文本之间的关系信息的图，其中，所述短文本关系图中包括节点和连接节点之间的边。

在上述实施方式中，在获取得到两个或多个待聚类的短文本之后，首先对于所述短文本进行分词处理，得到与所述短文本对应的由经分词处理得到的词语组成的词集合；然后基于所述词集合计算所述短文本之间的相似性，当所述短文本的数量为N时，通过短文本之间相似性的计算，可得到一个N*N的相似性矩阵；基于所述短文本和短文本之间的相似性生成能够保证所述短文本之间的关系信息的短文本关系图，最后基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

在本公开一实施方式中，所述得到所述短文本对应的词集合之后，还包括以下步骤：

对于所述词集合中的词进行去重。

考虑到每一短文本中可能存在大量重复的词语，为了提高后续短文本相似性的计算准确性，同时减少短文本相似性的计算复杂度、计算量和计算时间，在该实施方式中，在得到所述短文本对应的词集合之后，还对于所述词集合中的词进行去重。比如，对于上文所示的词集合：[“文本”，“信息”，“数据”，“1”，“1”，“1”]，经过去重处理可得到去重后的词集合：[“文本”，“信息”，“数据”，“1”]。

在本公开一实施方式中，所述步骤S102，即基于所述词集合计算所述短文本之间的相似性的步骤，可被实施为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

在该实施方式中，选择杰卡德相似性来衡量所述短文本之间的相似关系，当然，也可以使用其他相似性来替代，本公开对于所述短文本之间相似关系的体现方式不作特别限定。

其中，所述杰卡德相似性可利用下式计算：

其中，J(A,B)表示两个待比较对象A与B之间的杰卡德相似性，J(A,B)的值越大，说明A与B之间越相似，J(A,B)的值越小，说明A与B之间相差越远。

当然，所述杰卡德相似性也可以利用下式来考量：

其中，d_j(A,B)表示两个待比较对象A与B之间的杰卡德距离，与所述杰卡德相似性J(A,B)相反，d_j(A,B)的值越大，说明A与B之间相差越远，d_j(A,B)的值越小，说明A与B之间越相似。

在本公开一实施方式中，所述步骤S103中基于所述短文本和短文本之间的相似性生成短文本关系图的步骤，可被实施为：

在该实施方式中，在生成所述短文本关系图时，可以以所述短文本为节点，将两节点连接起来形成边，而每条边对应的权重则为所述边连接的两个节点对应的短文本之间的相似性。

在本公开一实施方式中，所述步骤S103中基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果的步骤，可被实施为：

在该实施方式中，利用社区挖掘算法，基于所述短文本关系图对于所述短文本实现聚类，以得到短文本聚类结果。其中，所述社区挖掘算法是现有技术中常用的关系挖掘算法，本领域技术人员对于其实现原理应当较为熟悉，本公开对其不再赘述。

在本公开一实施方式中，所述方法还可包括以下步骤：

根据所述短文本聚类结果执行预设操作。

在该实施方式中，在对于所述短文本进行聚类之后，就可根据所述短文本聚类结果执行相应的预设操作，比如数据分析操作、数据统计操作、根据数据分析结果进行推荐操作、根据数据分析结果进行警告、禁言或拦截等控制操作等等。

图2示出根据本公开一实施方式的短文本聚类方法的整体流程图，如图2所示，在对于短文本进行聚类时，首先获取两个或多个短文本，然后对于所述短文本进行分词处理，得到所述短文本对应的词集合；对于所述词集合中的词进行去重；然后基于所述词集合计算所述短文本之间的相似性；以所述短文本为节点，连接节点形成边，以短文本之间的相似性作为相应边的权重，生成所述短文本关系图；最后基于所述短文本关系图，利用社区挖掘算法对于所述短文本进行聚类，得到短文本聚类结果。

接下来以一示例对于上述短文本聚类方法进行解释和说明。

假设待聚类的短文本有6个：短文本1，郑州宏光顺程商贸有限公司；短文本2，郑州宏光顺程商贸有限公司2；短文本3，文峰区鑫磊文印广告制作部；短文本4，文峰区鑫磊文印广告制作部2；短文本5，许昌胖东来超市金三角店；和短文本6，许昌胖东来金三角店。首先对于上述短文本分别进行分词和去重处理，得到6个与所述短文本对应的词集合：词集合1，['郑州','宏','光顺','程','商贸','有限公司']；词集合2，['郑州','宏','光顺','程','商贸','有限公司','2']；词集合3，['文峰区','鑫磊','文印','广告','制作','部']；词集合4，['文峰区','鑫磊','文印','广告','制作','部','2']；词集合5，['许昌','胖','东来','超市','金三角','店']；和词集合6，['许昌','胖','东来','金三角','店']。然后基于所述词集合分别计算两两短文本之间的相似性，得到一个6*6的相似度矩阵：

然后以所述6个短文本为节点，连接6个节点形成边，将6个短文本之间的相似性作为相应边的权重，生成短文本关系图，如图3所示。最后基于所述短文本关系图，利用社区挖掘算法对于所述短文本进行聚类，得到短文本聚类结果：短文本组1：{郑州宏光顺程商贸有限公司，郑州宏光顺程商贸有限公司2}；短文本组2：{文峰区鑫磊文印广告制作部，文峰区鑫磊文印广告制作部2}；和短文本组3：{许昌胖东来超市金三角店，许昌胖东来金三角店}。

下述为本公开装置实施例，可以用于执行本公开方法实施例。

图4示出根据本公开一实施方式的短文本聚类装置的结构框图，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图4所示，所述短文本聚类装置包括：

分词模块401，被配置为获取两个或多个短文本，对于所述短文本进行分词处理，得到所述短文本对应的词集合；

计算模块402，被配置为基于所述词集合计算所述短文本之间的相似性；

聚类模块403，被配置为基于所述短文本和短文本之间的相似性生成短文本关系图，基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果。

考虑到上述问题，在该实施方式中，提出一种短文本聚类装置，该装置借助图来展示短文本之间的关系形成短文本关系图，并基于短文本关系图对于所述短文本进行聚类。该技术方案处理过程简单，数据量小，计算复杂度低，计算时间短，能够快速挖掘出短文本之间的相似性。

在本公开一实施方式中，所述短文本聚类装置可实现为可执行短文本聚类的计算设备或服务器等等。

在本公开一实施方式中，所述分词模块401之后，还包括：

去重模块，被配置为对于所述词集合中的词进行去重。

在本公开一实施方式中，所述计算模块402可被配置为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

其中，所述杰卡德相似性可利用下式计算：

当然，所述杰卡德相似性也可以利用下式来考量：

在本公开一实施方式中，所述聚类模块403中基于所述短文本和短文本之间的相似性生成短文本关系图的部分，可被配置为：

在本公开一实施方式中，所述聚类模块403中基于所述短文本关系图对于所述短文本进行聚类，得到短文本聚类结果的部分，可被配置为：

在本公开一实施方式中，所述装置还可包括：

本公开实施例还公开了一种电子设备，所述电子设备包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现上述任一方法步骤。

如图5所示，计算机系统500包括处理单元501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述实施方式中的各种处理。在RAM503中，还存储有计算机系统500操作所需的各种程序和数据。处理单元501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中，所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施方式，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施方式包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行所述短文本聚类方法的程序代码。在这样的实施方式中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。

本公开实施例还公开了一种计算机程序产品，所述计算机程序产品包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述任一方法步骤。

附图中的流程图和框图，图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，路程图或框图中的每个方框可以代数据对象一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地数据对象示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开实施例的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种短文本聚类方法，包括：

基于所述词集合计算所述短文本之间的相似性；

2.根据权利要求1所述的方法，所述得到所述短文本对应的词集合之后，还包括：

对于所述词集合中的词进行去重。

3.根据权利要求1或2所述的方法，所述基于所述词集合计算所述短文本之间的相似性，被实施为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

4.根据权利要求1-3任一所述的方法，所述基于所述短文本和短文本之间的相似性生成短文本关系图，被实施为：

5.一种短文本聚类装置，包括：

6.根据权利要求5所述的装置，所述分词模块之后，还包括：

去重模块，被配置为对于所述词集合中的词进行去重。

7.根据权利要求5或6所述的装置，所述计算模块被配置为：

基于所述词集合计算所述短文本之间的杰卡德相似性。

8.一种电子设备，包括存储器和处理器；其中，

所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-4任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机指令，其中，该计算机指令被处理器执行时实现权利要求1-4任一项所述方法的步骤。

10.一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1-4任一项所述方法的步骤。