CN110472046A

CN110472046A - 一种政企服务文本聚类方法

Info

Publication number: CN110472046A
Application number: CN201910626031.0A
Authority: CN
Inventors: 陈远存; 郭肇禄; 罗云; 张文生; 谭力江
Original assignee: Guangdong Aobo Chengdu Westone Information Industry Inc
Current assignee: Guangdong Aobo Chengdu Westone Information Industry Inc
Priority date: 2019-07-11
Filing date: 2019-07-11
Publication date: 2019-11-19
Anticipated expiration: 2039-07-11
Also published as: CN110472046B

Abstract

本发明公开了一种政企服务文本聚类方法。本发明首先采集政企服务文本，然后对政企服务文本进行预处理，再对政企服务文本进行特征提取，并利用适应性正弦余弦算法来优化政企服务文本的聚类中心。在适应性正弦余弦算法中，根据当前种群的适应值反馈信息适应性地生成正弦余弦操作算子的搜索参数，加快适应性正弦余弦算法的收敛速度。本发明利用适应性正弦余弦算法来优化政企服务文本的聚类中心，能够提高政企服务文本的聚类效率。

Description

一种政企服务文本聚类方法

技术领域

本发明涉及大数据处理、文本聚类领域，尤其是涉及一种政企服务文本聚类方法。

背景技术

为了加快经济建设的发展，政务职能部门一直努力做好企业服务工作。随着现代信息技术的发展，政务职能部门不断建立并持续完善政企服务信息系统(也称为政企服务平台、管理系统政企管理系统、政企通、政企互通服务信息化平台)，利用现代信息技术来提升企业服务的效率。在政企服务信息系统中，常常会产生海量的政企服务文本(以政企服务为相关主题的文本)，例如：企业基本情况介绍，企业的经营情况报表，企业办事咨询，业务咨询回复等文本数据，而如何利用好这些海量的政企服务文本是政企服务信息系统常常面临的技术挑战。为了更加有效地提升企业服务水平，政企服务信息系统需要利用人工智能的方法来挖掘这些海量的政企服务文本中所蕴含的知识，并应用所挖掘的知识来优化政企服务流程的各个环节。

在对政企服务文本进行知识挖掘的过程中，往往需要对政企服务文本进行文本聚类，即将政企服务文本划分出若干类别，从而提高在政企服务文本中知识发现的效率。政企服务文本聚类可以转化成为一个优化问题。正弦余弦算法是求解优化问题的一种有效算法[Mirjalili,S.(2016).SCA:a sine cosine algorithm for solving optimizationproblems.Knowledge-Based Systems,96,120-133.].目前，正弦余弦算法在解决一些优化问题中获得了满意的结果。然而，传统的正弦余弦算法在对政企服务文本进行聚类时容易出现搜索效率不高的缺点，从而导致政企服务文本的聚类结果难以满足实际需求。

发明内容

本发明的目的是提供一种政企服务文本聚类方法，它在一定程度上克服了传统政企服务文本聚类方法容易出现搜索效率不高的缺点，本发明能够提高政企服务文本聚类的效率。

本发明的技术方案：一种政企服务文本聚类方法，包括以下步骤：

步骤1，采集政企服务文本；

步骤2，对政企服务文本进行预处理；

步骤3，对政企服务文本进行特征提取得到政企服务文本特征向量；

步骤4，将得到的政企服务文本特征向量设置为聚类数据集；

步骤5，利用适应性正弦余弦算法求解出聚类数据集的聚类中心；

步骤6，利用得到的聚类中心对政企服务文本进行类别划分，即得到政企服务文本的聚类结果；

其中，步骤5所述的利用适应性正弦余弦算法求解出聚类数据集的聚类中心，包括以下步骤：

步骤5.1，设置种群大小PSize，设置最大搜索代数MaxGen；

步骤5.2，初始化当前搜索代数t＝0；

步骤5.3，设置类别数量CLK，然后设置留存系数SF_i ^t＝VRand(0,2)，其中下标i＝1,2,…PSize；VRand表示随机实数产生函数；

步骤5.4，随机生成PSize个个体的当前搜索值；其中，每个个体的当前搜索值都存储了CLK个聚类中心；然后将PSize个个体组成种群；

步骤5.5，按公式(1)计算种群中每个个体的当前搜索值的适应值：

其中，为第i个个体的当前搜索值的适应值；k为类别下标；j为样本下标；TD_j为聚类数据集中的第j个样本；TCM_i,k为第i个个体的当前搜索值所存储的第k个聚类中心；TC_k表示第k个类别；

步骤5.6，保存种群中的最优个体BX^t；

步骤5.7，按公式(2)计算适应性搜索系数ASF_i ^t：

其中pta为[0,1]之间的随机实数；

步骤5.8，以0.5的概率按公式(4)执行适应性正弦操作算子，同时以0.5的概率按公式(5)执行适应性余弦操作算子；其中，公式(4)为：

其中，为种群中的第i个个体的当前搜索值；为种群中的第i个个体的新一代搜索值；sin为正弦函数；r1为[0,2×π]之间的随机实数，并且π为圆周率；r2为[0,2]之间的随机实数；

其中，公式(5)为：

其中，cos为余弦函数；r3为[0,2×π]之间的随机实数；r4为[0,2]之间的随机实数；

步骤5.9，计算种群中每个个体的新一代搜索值的适应值，然后按公式(6)计算新一代留存系数SF_i ^t+1：

其中，为第i个个体的新一代搜索值的适应值；

步骤5.10，保存种群中的最优个体BX^t，然后设置当前搜索代数t＝t+1；

步骤5.11，如果当前搜索代数t小于MaxGen，则转到步骤5.7，否则转到步骤5.12；

步骤5.12，提取出最优个体BX^t的当前搜索值所存储的CLK个聚类中心得到聚类数据集的聚类中心。

本发明应用适应性正弦余弦算法来优化政企服务文本的聚类中心。为了提升适应性正弦余弦算法的搜索效率，在每一代的搜索进程中，根据当前种群的适应值反馈信息适应性地生成正弦余弦操作算子的搜索参数，定向指导搜索方向，从而在一定程度上避免无效搜索操作，加快搜索速度，提高政企服务文本的聚类效率。

附图说明

图1为本发明中适应性正弦余弦算法的流程图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

如图1所示为本发明中适应性正弦余弦算法的流程图，本实施例结合图1，本发明的具体实施步骤如下：

步骤1，从政企服务信息系统中导出政企服务文本；所述政企服务文本包括企业基本情况介绍的文本，企业的经营情况报表，企业办事咨询的文本，业务咨询回复的文本；政企服务文本可由政企服务信息系统中导出；

步骤2，对政企服务文本进行预处理，所述预处理包括但不限于：消除乱码字符，去除格式标记，去除停用词；

步骤3，利用分词工具对政企服务文本进行分词，然后采用TF-IDF方法将政企服务文本转化成为特征向量，所述分词工具包括但不限于LTP、NLPIR、THULAC、jieba、FoolNLTK和HanLP；

步骤4，将得到的政企服务文本特征向量设置为聚类数据集；

步骤5.1，设置种群大小PSize＝200，设置最大搜索代数MaxGen＝10000；

步骤5.2，初始化当前搜索代数t＝0；

步骤5.3，设置类别数量CLK＝5，然后设置留存系数SF_i ^t＝VRand(0,2)，其中下标i＝1,2,…PSize；VRand表示随机实数产生函数，其参数为随机实数的取值范围，如VRand(0,2)为[0,2]之间产生的随机实数；

步骤5.6，保存种群中的最优个体BX^t；

步骤5.7，按公式(2)计算适应性搜索系数ASF_i ^t：

其中pta为[0,1]之间的随机实数；

其中，公式(5)为：

其中，为第i个个体的新一代搜索值的适应值；

进一步地，步骤1中的政企服务信息系统为包括政策信息发布、企业信息收集(企业基本情况介绍的文本，企业的经营情况报表，企业办事咨询的文本，业务咨询回复的文本)、数据分析等功能的系统。

进一步地，步骤6中的政企服务文本的类别包括但不限于咨询类别、回复类别、企业简介类别、职能部门简介类别、办事流程简介类别。

Claims

1.一种政企服务文本聚类方法，其特征在于，包括以下步骤：

步骤1，采集政企服务文本；

步骤2，对政企服务文本进行预处理；

步骤4，将得到的政企服务文本特征向量设置为聚类数据集；

步骤5.1，设置种群大小PSize，设置最大搜索代数MaxGen；

步骤5.2，初始化当前搜索代数t＝0；

步骤5.6，保存种群中的最优个体BX^t；

步骤5.7，按公式(2)计算适应性搜索系数ASF_i ^t：

其中pta为[0,1]之间的随机实数；

其中，公式(5)为：

其中，为第i个个体的新一代搜索值的适应值；