CN112233741B

CN112233741B - 一种基于聚类的文本分类系统、设备、存储介质

Info

Publication number: CN112233741B
Application number: CN202011063617.XA
Authority: CN
Inventors: 杜登斌; 杜乐; 杜小军
Original assignee: Wuzheng Intelligent Technology Beijing Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2024-03-01
Anticipated expiration: 2040-09-30
Also published as: CN112233741A

Abstract

本发明公开一种基于聚类的文本分类系统、设备、存储介质，所述系统包括：预处理模块：用于对文本数据集中的文本对象及对应的类别标签进行向量化表示，得到文本数据集的特征向量集合；第一聚类模块：用于采用k均值聚类算法对所述特征向量集合进行初步聚类；第二聚类模块：用于采用改进的引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果；文本分类模块：用于获取向量化的待测文本所属聚类类簇，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。本发明基于改进的引力搜索算法实现准确聚类，在聚类类簇内部基于语义相似度进行类别细分，可有效区分相似文本。

Description

一种基于聚类的文本分类系统、设备、存储介质

技术领域

本发明涉及文本处理技术领域，具体一种基于聚类的文本分类系统、设备、存贮介质。

背景技术

随着互联网技术和人工智能技术的发展，各行各业都产生了大量文本数据，通过对这些文本数据的分析处理，可获得其中中蕴含的大量有益信息。比如在医疗行业中，各类病历记录、处方记录、诊断记录都实现了电子化，分过分析医疗行业文本数据，可进一步提高智能化水平，为公众健康提供助力。对于海量的文本数据，对其进行聚类分析是文本数据分析中的一项重要内容，海量的电子病历记录组成了庞大的病历库，对这些电子病历进行分析处理可反过来为疾病的智能化辅助诊断与分析提供依据。

现有技术已出现利用电子病历库开发病历文档分类系统的例子，但是由于疾病种类繁多、症状复杂，部分疾病的症状描述文本相近，疾病辅助诊断系统的精度有待提高，特别是对于症状相似的疾病，往往很难做出有效区分。

发明内容

有鉴于此，本发明提出了一种基于聚类的文本分类系统、设备、存储介质，用于解决现有的文本分类不能有效区分相似文本的问题。

本发明第一方面，公开一种基于聚类的文本分类系统，所述系统包括：

预处理模块：用于对文本数据集中的文本对象及对应的类别标签进行向量化表示，得到文本数据集的特征向量集合；

第一聚类模块：用于采用k均值聚类算法对所述特征向量集合进行初步聚类；

第二聚类模块：用于采用引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果；

文本分类模块：用于获取向量化的待测文本所属聚类类簇，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。

优选的，所述第二聚类模块具体包括：

初始化单元：设n维空间引力系统中有N个粒子，定义第i个粒子的位置为为第i个粒子在第d维中的位置；

迭代更新单元：用于根据粒子位置计算适应度值、计算粒子所受的引力合力、更新粒子空间的速度及位置；选取适应度最好的粒子进行迭代运算直到达到终止条件；

引入莱维飞行进行粒子速度更新，粒子i在第d维空间的速度更新公式为：

其中，rand_i为(0,1)之间的随机数，α为步长控制常量，为点对点乘法，Levy(β)表示参数为β的莱维分布，β∈(0,2)；/>为第d维空间上粒子i在引力合力作用下的加速度。

引入左右方位判断进行粒子位置更新，粒子i在第d维空间的位置更新公式为：

其中，b表示n维随机单位向量， δ为预设的步长，X_l、X_r分别代表对应位置左侧、右侧搜索区域的位置；sign(.)表示符号函数，f为适应度函数。

优选的，所述迭代更新单元中，

其中，Γ为标准的gamma函数，u、v均服从正态分布。

优选的，所述迭代更新单元中，在第d维空间上，第i个粒子受第j个粒子作用力为：

G(t)＝G₀e^-at/T

其中，ε为接近0的常量，G(t)为t时刻引力常数，T为迭代次数；

其中，fit_i(t)为在t时刻粒子i的适应度值，best(t)为t时刻适应度最大值，worst(t)为t时刻适应度最小值；

第i个粒子在第d维空间上受到的引力合力F_i ^d(t)为：则第d维空间上，粒子i在引力合力作用下的加速度/>为：/>

优选的，所述迭代更新单元中，计算粒子适应度值的函数为：

其中K为聚类类簇数，d(X_i,C_j)为第j类中粒子X_i到个对应的聚类中心点C_j的距离。

优选的，所述文本分类模块中，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类具体为：计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度，选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。

本发明第二方面，公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如本发明第一方面所述的系统。

本发明第三方面，公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明第一方面所述的系统。

本发明相对于现有技术具有以下有益效果：

本发明通过K均值聚类算法对文本数据集中的文本进行初步聚类，然后采用基于改进的引力搜索算法对初步聚类结果优化，在速度更新时引入莱维飞行增强算法搜索能力，在位置更新时先进行方位判断，加快收敛速度，在保证全局搜索能力的同时以最快的速度找到最优解。本发明将文本数据集根据文本内容划分成多个类簇，对待分类文本进行类簇划分，在聚类类簇内部再根据语义相似度进行类别细分，本发明可有效区分相似文本，得到精细化的文本分类结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于聚类的文本分类的系统结构示意图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

如图1所示，本发明提出的一种基于聚类的文本分类系统结构示意图，所述系统包括预处理模块100、第一聚类模块200、第二聚类模块300、文本分类模块400；

预处理模块100：用于对文本数据集中的文本对象及对应的类别标签进行向量化表示，得到文本数据集的特征向量集合；

以牙龈出血为主诉症状的电子病历文档为例，牙龈出血是口腔科常见症状之一，是指牙龈自发性的或由于轻微刺激引起的少量流血。常见的牙龈出血症状比如，如果为牙周炎：其早期症状不明显。随着疾病变化，可出现口臭伴牙周袋、牙周溢脓、牙齿松动，有咬合无力、钝痛、牙龈出血等表现；如果为牙龈炎：除口臭外，可出现刷牙或咬硬物时牙龈出血。局部表现为游离龈和龈乳头呈鲜红或暗红色，重症者的炎症充血范围可波及附着龈，另外有牙龈组织肿胀、龈缘变厚、牙间乳头圆钝，与牙面不再紧贴，点彩消失，表面光亮。牙龈变得松软脆弱、缺乏弹性，而且变得坚硬肥厚。龈沟探诊可达3厘米以上、轻探龈沟即可出血、龈沟内渗出液增多等。

牙龈出血也可能与全身性疾病有关，比如，白血病主要有发热、出血、贫血、感染、骨关节疼痛以及肝脾、淋巴结肿大等等。大多数白血病患者常常因为发热、口腔炎症、肛周脓肿、牙龈发炎、牙龈出血表现和肺部感染就诊，这些症状会反映在就诊时的电子病历中。

从电子病历库中获取以牙龈出血为主诉症状的电子病历文档，以及对应的疾病诊断结果，组成文本数据集，文本数据集中各个疾病类别的文本数量应尽量均衡。对每个文本数据，进行分词、去停用词处理，提取关键词，并计算权重向量，结合对应的疾病类别，组成向量空间模型。

第一聚类模块200：用于采用k均值聚类算法对所述特征向量集合进行初步聚类；

第二聚类模块300：用于采用引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果；

所述第二聚类模块具体包括：

所述计算粒子适应度值的函数为：

在第d维空间上，第i个粒子受第j个粒子作用力为：

G(t)＝G₀e^-at/T

第i个粒子在第d维空间上受到的引力合力F_i ^d(t)为：

则第d维空间上，粒子i在引力合力作用下的加速度为：

Levy(β)服从φ的表达式为：

其中，Γ为标准的gamma函数，u、v均服从正态分布。rand_i为(0,1)之间的随机数，α为步长控制常量，为点对点乘法，Levy(β)表示参数为β的莱维分布，β∈(0,2)；/>为第d维空间上粒子i在引力合力作用下的加速度。

本发明通过第一聚类模块对文本数据集进行初步聚类，通过第二聚类模块对初步聚类结果进行优化，在引力搜索算法的速度进化过程中引入莱维飞行的方式，增加粒子的活动和跳跃能力，促使粒子在陷入局部最优时具备跳出局部最优位置的能力；在进行粒子位置更新时先根据当前位置将搜索区域划分成左右区域，分别根据适应度判断左右区域中哪边区域离最佳位置近，当左侧区域适应度较好时，在进行位置更新时移动至后再向左侧叠加一个向量，当右侧区域适应度较好时，在进行位置更新时移动至/>后再向右侧叠加一个向量，使粒子在位置更新时总是向最佳方位调整，既能增加全局搜索能力又能加快收敛速度，从而得到准确地聚类结果。

文本分类模块400：用于获取向量化的待测文本所属聚类类簇，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类。

首先通过预处理模块100对带分类文本进行向量化表示，计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度，选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。

本发明第还公开一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现本发明所述系统中的数据获取模块、特征提取模块、疾病聚类模块、联合诊断模块。

本发明还公开一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现本发明所述系统中的数据获取模块、特征提取模块、疾病聚类模块、联合诊断模块。所述存储介质包括：U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以分布到多个网络单元上。可以根据实际的衙要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类的文本分类系统，其特征在于，所述系统包括：

第二聚类模块：用于采用改进的引力搜索算法对所述初步聚类结果进行优化得到最终聚类结果；

文本分类模块：用于获取向量化的待测文本所属聚类类簇，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类；

所述第二聚类模块具体包括：

其中，rand_i为(0,1)之间的随机数，α为步长控制常量，为点对点乘法，Levy(β)表示参数为β的莱维分布，β∈(0,2)；/>为第d维空间上粒子i在引力合力作用下的加速度；

2.根据权利要求1所述基于聚类的文本分类系统，其特征在于，所述迭代更新单元中，

其中，Γ为标准的gamma函数，u、v均服从正态分布。

3.根据权利要求1所述基于聚类的文本分类系统，其特征在于，所述迭代更新单元中，在第d维空间上，第i个粒子受第j个粒子作用力为：

G(t)＝G₀e^-at/T

第i个粒子在第d维空间上受到的引力合力F_i ^d(t)为：

则第d维空间上，粒子i在引力合力作用下的加速度a_i ^d(t)为：

a_i ^d(t)＝F_i ^d(t)/M_i(t)。

4.根据权利要求3所述基于聚类的文本分类系统，其特征在于，所述迭代更新单元中，计算粒子适应度值的函数为：

其中K为聚类类簇数，d(X_i,C_j)为第j个聚类类簇中，粒子X_i到第j个聚类类簇的聚类中心点C_j的距离。

5.根据权利要求1所述基于聚类的文本分类系统，其特征在于，所述文本分类模块中，在所述聚类类簇内部通过计算语义相似度的方式进行文本分类具体为：

计算向量化的待分类文本与所属的聚类类簇中各个文本特征向量之间的余弦相似度，选取余弦相似度最大的文本特征向量对应的类别作为待分类文本类别。

6.一种电子设备，包括：至少一个处理器、至少一个存储器、通信接口和总线；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令，以实现如权利要求1～5任一项所述的系统。

7.一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机实现权利要求1～5任一项所述的系统。