CN115098690A

CN115098690A - 一种基于聚类分析的多数据文档分类方法及系统

Info

Publication number: CN115098690A
Application number: CN202211016694.9A
Authority: CN
Inventors: 韩承洁; 朱健; 张鹏; 王碧君; 穆德龙; 杨宗畅; 刘明扬
Original assignee: CITIC Tianjin Financial Technology Service Co Ltd
Current assignee: CITIC Tianjin Financial Technology Service Co Ltd
Priority date: 2022-08-24
Filing date: 2022-08-24
Publication date: 2022-09-23
Anticipated expiration: 2042-08-24
Also published as: CN115098690B

Abstract

本发明提出了一种基于聚类分析的多数据文档分类方法及系统，涉及文档数据处理技术领域，输入用于分类的多个文档，根据不同约束从多个文档中提取M个集合；对多个关键词语分别进行加权计算；根据加权结果，从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序；根据排序的前K个关键词语，将每个集合分类为Q个集群，其中每个集群中包括w个关键词语；根据每个集群的矢量计算集群相似度，将内积值小于设定阈值的多个集群结合而形成大集群；基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和，选出最大关联度加权和对应的大集群所在的集合；重复上述步骤直至所有文档均聚类完成。

Description

一种基于聚类分析的多数据文档分类方法及系统

技术领域

本发明涉及文档数据处理技术领域，具体涉及一种基于聚类分析的多数据文档分类方法及系统。

背景技术

随着信息技术的发展，数据系统中记录文本数据日益增多，这些由管理者用自然语言记录的文本数据蕴含着重要的价值；系统文本数据在实际情况中可能出现没有提前标好标签的情况，在无标签的状况下无法使用有监督的机器学习方法进行分类，此时可以使用无监督的文本聚类算法对系统文本数据进行聚类分析。因此有必要研究系统文本数据的聚类分析。

文本聚类可以将同类的数据聚集在一起，进而将同类型的数据进行集中处理，或用相似的数据解决方法去解决同类问题。聚类信息可以应用于制定同类型数据解决方案、数据解决方案智能推荐等任务，大大提高了系统文本数据挖掘的效率和应用价值。

早期的文本分类主要基于人工定义一些规则来对文本进行分类，这种方法需要对专业知识有所了解，并且需要消耗大量的人力物力。随着机器学习的诞生，文本分类算法进入了研究的高峰，大量的实验结果证明机器学习比其手工方法有着更高的准确度，效率也更高，机器学习因此成为了文本分类的主流方法。机器学习方法主要包括朴素贝叶斯算法、人工神经网络算法、K最邻近(K Nearest Neighbor, KNN)算法、卷积神经网络(Convolutional Neural Network, CNN)和支持向量机分类算法等。朴素贝叶斯方法通过计算文本属于某个类别的概率来确定文本的类别，文本属于某类别的概率又取决于文本中包含的词汇属于某类别概率的综合表现。文本聚类的基本思想为：将相似度高的数据划分为相同类别，不同类别的数据的相似度尽可能小。文本分类的任务就是将文本数据分类，例如，将庞大的新闻数据分为政治，经济，文化，科技等类别。文本分类通常是需要一定的训练数据，这些数据事先己经被分好类，将这些训练数据输入到计算机当中，使用分类的方法进行分类。由于事先知道数据的类别，因此可以得知计算机分类的对错，通过不断的改进分类方法，可以使得计算机分类的准确度得到提高。

现有技术中，例如专利文献CN106815310A公开了一种对海量文档集的层次聚类方法及系统，使用LDA模型对文档集的文档-词项矩阵进行分析，进而生成文档集的文档-主题分布矩阵和主题-词项分布矩阵；对文档集进行Word Embedding模型的训练，进而将文档集的词典中的每个词项映射为一个多维向量；对文档集进行聚类分析后生成对应的层次主题树；基于建立的层次主题树对文档集进行层次聚类。但是该技术方案分类器的训练需要使用大量有类别信息的文本数据作为训练集，在大量文本数据的情况下，标注训练数据将会消耗很多的精力，大大降低分类效率，由此也限制了分类算法的应用领域。

再例如专利文献CN113779246A公开了一种基于句子向量的文本聚类分析方法，句子嵌入程序，得到句子向量；将句子向量作为文本聚类程序的输入，得到文本聚类程序的输出类别标签；运行文本聚类程序；在研究文本向量的生成方法的基础上，深入研究了文本向量化后的聚类方法和相关理论，结合了多种词嵌入和中文分词方法对向量化后的聚类效果进行分析，从海量文本中总结出需求文档的撰写规律。但是该技术方案分类的成本和投入较高，效率不高，且不具备灵活性和自动化处理能力。

发明内容

为了解决上述技术问题，提出了一种基于聚类分析的多数据文档分类方法，包括如下步骤：

步骤S1，输入用于分类的多个文档，并将其存储在文件存储部；

步骤S2，根据不同约束从多个文档中提取M个集合；

步骤S3，对多个关键词语分别进行加权计算；根据加权结果，从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序；

步骤S4，根据排序的前K个关键词语，将每个集合分类为Q个集群，其中每个集群中包括w个关键词语，1≤w≤K；

步骤S5，根据每个集群的矢量计算集群相似度，将内积值小于设定阈值的多个集群结合而形成大集群；

步骤S6，基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和，选出最大关联度加权和对应的大集群所在的集合；

步骤S7，重复步骤S2-S7，直至所有文档均聚类完成。

进一步地，所述步骤S3中，使用加权公式（1）为每个文档的关键词语计算权值：

W_ij=TF_ij×IDF_j (1)；

其中，W_ij是文档i中的关键词语j的权重，TF_ij是文档i中的关键词语j的出现频率，IDF_j是关键词语j在多个文档中出现的文档件数的比值对数；

设具有M个文档，M个文档中的N件文档包含关键词语j，则：

IDF_j＝log N/M （2）；

则，加权公式（1）表示为：W_ij=TF_ij×log N/M (3)。

进一步地，所述步骤S5中，若关键词语j 第一次出现在某个集群中,设其联系到其他Q-1个集群中的第q个集群的概率为

,且：

；其中j＝1、2、…、K；

计算每个集群q的矢量

：

（4）；

表示集群q的权重，

；

为集群q中包含的w个关键词语的权值；

两个集群相似度用各个集群的矢量

和

的内积值r₁₂来表示：

(5)；

其中，

为矢量

和

间的夹角；

将内积值小于设定阈值r_t的多个集群结合而形成大集群，根据大集群所包含各个集群的矢量合成大集群的矢量。

进一步地，所述步骤S6具体包括如下步骤：

步骤S61、计算各个集合之间的大集群X和Y的关联度S：

（6）；

其中，D为大集群的总数；

步骤S62、提取与目标集合的特征属性相匹配的大集群所在的集合；

设与目标集合待匹配的大集群所在的集合为CR={CR₁、…、CR_L、…、CR_D}，待匹配的集合中的正分类大集群为r⁺；负分类大集群为r，正分类关联度影响因子

和负分类关联度影响因子

；

计算待匹配的大集群所在的集合CR与目标集合的关联度加权和W(S)：

（7）；

其中，

和

分别为大集群r⁺和r^-分别与待匹配的大集群的关联度；

最大关联度加权和对应的大集群所在的集合为预测集合Ps:

（8）；

其中，

表示由第k个的待匹配的大集群所在的集合的关联度加权和，L=1,2,... ,D，max()为最大值函数。

本发明还提出了一种基于聚类分析的多数据文档分类系统，用于实现上述的分类方法，包括：文件存储部、集合提取部、关键词提取部、集群分类单元、集群相似度计算部和聚类关联部；

文件存储部，存储用于分类的多个文档；

集合提取部,根据不同约束从多个文档中提取M个集合；

关键词提取部，对多个关键词语分别进行加权计算；根据加权结果，从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序；

集群分类单元，根据排序的前K个关键词语，将每个集合分类为Q个集群；

集群相似度计算部,根据每个集群的矢量计算集群相似度，将内积值小于设定阈值的多个集群结合而形成大集群；

聚类关联部,基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和，选出最大关联度加权和对应的大集群所在的集合。

进一步地，所述约束为时间信息、与目标信息内容相关的约束、在目标地点或位置产生的信息相关的约束中的一种或多种。

相比于现有技术，本发明具有如下有益技术效果：

根据不同约束从多个文档中提取多个集合，对多个关键词语分别进行加权计算；根据加权结果，从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序；根据排序的前K个关键词语，将每个集合分类为多个集群；根据每个集群的矢量计算集群相似度，将内积值小于设定阈值的多个集群结合而形成大集群；基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和，选出最大关联度加权和对应的大集群所在的集合。由于本技术方案是根据集群矢量和大集群相似度得到与目标集合的关联度较强的集合，可解决提取的关键词语义信息冗余的问题，能够更加准确地确定数据文档的聚类类型，使聚类结果能够更接近实际需求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图：

图1为本发明的基于聚类分析的多数据文档分类流程示意图；

图2为本发明的提取与目标集合的特征属性相匹配的大集群所在的集合的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本发明的具体实施例附图中，为了更好、更清楚的描述系统中的各元件的工作原理，表现所述装置中各部分的连接关系，只是明显区分了各元件之间的相对位置关系，并不能构成对元件或结构内的信号传输方向、连接顺序及各部分结构大小、尺寸、形状的限定。

本发明的基于聚类分析的多数据文档分类系统包括：文件存储部、集合提取部、关键词提取部、集群分类单元、集群相似度计算部和聚类关联部；

文件存储部，存储用于分类的多个文档；

集合提取部, 根据不同约束从多个文档中提取M个集合；

集群相似度计算部, 根据每个集群的矢量计算集群相似度，将内积值小于设定阈值的多个集群结合而形成大集群；

聚类关联部, 基于大集群的关联度计算待匹配的大集群所在的集合与目标集合的关联度加权和，选出最大关联度加权和对应的大集群所在的集合。

如图1所示，为本发明的基于聚类分析的多数据文档分类方法流程示意图，包括如下步骤：

步骤S1，输入用于分类的多个文档，并将其存储在文件存储部。

步骤S2，根据不同约束从多个文档中提取M个集合。

步骤S3，对多个关键词语分别进行加权计算；根据加权结果，从每个集合中包含的关键词语中按照权重从大到小的顺序对每个关键词语进行排序。

假定对所有的文档都能明确其具体的语义表示形式，从而可以明确地判断出关键词语 T 在每个出现该词语的文档中所实现的具体语义。

使用加权公式(1)为每个文档的关键词语计算权值：

W_ij=TF_ij×IDF_j (1)；

在式（1）中，W_ij是文档i中的关键词语j的权重，TF_ij是文档i中的关键词语j的出现频率，IDF_j是关键词语j在多个文档中出现的文档件数的比值对数。

设具有M个文档，M个文档中的N件文档包含关键词语j，则：

IDF_j＝log N/M （2）；

则，加权公式（1）可表示为：W_ij=TF_ij×log N/M (3)；

根据加权结果，在每个集合中，按照权重从大到小的顺序对每个关键词语排序。

步骤S4，根据排序的前K个关键词语，将每个集合分类为Q个集群，其中每个集群中包括w个关键词语，1≤w≤K，具体分类方法可采用现有技术中的集群分类规则进行。

步骤S5，根据每个集合中的集群的权重，计算每个集合中的集群相似度。

若关键词语j 第一次出现在某个集群中,设其联系到其他Q-1个集群中的第q个集群的概率为

,且：

；

其中j＝1、2、…、K。

按照下式（4）计算每个集群q的矢量

：

（4）；

表示集群q的权重，

；

为集群q中包含的w个关键词语的权值，均按照式（1）计算。

根据上述式（4）的矢量

判定集群相似度。两个集群相似度使用各个集群的矢量

和

的内积值r₁₂来表示，内积值r₁₂由下式（5）计算：

(5)；

其中，

为矢量

和

间的夹角。

在优选实施例中，可以采用基于关联度的去繁算法来控制大集群的指数级增长，即，如果某个集群是频繁的，那么该集群的所有子集群也是频繁的。如果某个集群是非频繁的，那么该集群所有的子集群也是非频繁的。

步骤S6，基于大集群的关联度，挖掘具有强关联规则的集合间的大集群，彼此建立强关联规则链接，计算M个集合间的相似度，具体包括如下步骤：

步骤S61、计算各个集合之间的大集群的关联度。

关联度S：表示分别位于两个集合中的大集群X和Y的关联规则强弱度，采用下式（6）计算：

（6）；

其中，D为大集群的总数，由于每个集合中形成的大集群数不小于一个，因此，M≤D。

步骤S62、提取与目标集合的特征属性相匹配的大集群所在的集合。

如图2所示，为提取与目标集合的特征属性相匹配的大集群所在的集合的流程图，设与目标集合待匹配的大集群所在的集合为CR={CR₁、…、CR_L、…、CR_D}，其中，待匹配的集合中的正分类大集群为r⁺；负分类大集群为r^-。设置两个影响因子：正分类关联度影响因子

和负分类关联度影响因子

。

（7）；

其中，

和

分别为大集群r⁺和r^-分别与待匹配的大集群的关联度。

最大关联度加权和对应的大集群所在的集合即为预测集合Ps:

（8）；

其中，

预测集合Ps所在的文档则是与目标文档同类型的数据文档，重复上述计算步骤，直至所有数据文档均聚类完成。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。