CN110472046A - 一种政企服务文本聚类方法 - Google Patents
一种政企服务文本聚类方法 Download PDFInfo
- Publication number
- CN110472046A CN110472046A CN201910626031.0A CN201910626031A CN110472046A CN 110472046 A CN110472046 A CN 110472046A CN 201910626031 A CN201910626031 A CN 201910626031A CN 110472046 A CN110472046 A CN 110472046A
- Authority
- CN
- China
- Prior art keywords
- government
- value
- enterprise service
- adaptive
- individual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 230000003044 adaptive effect Effects 0.000 claims abstract description 31
- 230000014759 maintenance of location Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 abstract 1
- UONOETXJSWQNOL-UHFFFAOYSA-N tungsten carbide Chemical compound [W+]#[C-] UONOETXJSWQNOL-UHFFFAOYSA-N 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Probability & Statistics with Applications (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种政企服务文本聚类方法。本发明首先采集政企服务文本,然后对政企服务文本进行预处理,再对政企服务文本进行特征提取,并利用适应性正弦余弦算法来优化政企服务文本的聚类中心。在适应性正弦余弦算法中,根据当前种群的适应值反馈信息适应性地生成正弦余弦操作算子的搜索参数,加快适应性正弦余弦算法的收敛速度。本发明利用适应性正弦余弦算法来优化政企服务文本的聚类中心,能够提高政企服务文本的聚类效率。
Description
技术领域
本发明涉及大数据处理、文本聚类领域,尤其是涉及一种政企服务文本聚类方法。
背景技术
为了加快经济建设的发展,政务职能部门一直努力做好企业服务工作。随着现代信息技术的发展,政务职能部门不断建立并持续完善政企服务信息系统(也称为政企服务平台、管理系统政企管理系统、政企通、政企互通服务信息化平台),利用现代信息技术来提升企业服务的效率。在政企服务信息系统中,常常会产生海量的政企服务文本(以政企服务为相关主题的文本),例如:企业基本情况介绍,企业的经营情况报表,企业办事咨询,业务咨询回复等文本数据,而如何利用好这些海量的政企服务文本是政企服务信息系统常常面临的技术挑战。为了更加有效地提升企业服务水平,政企服务信息系统需要利用人工智能的方法来挖掘这些海量的政企服务文本中所蕴含的知识,并应用所挖掘的知识来优化政企服务流程的各个环节。
在对政企服务文本进行知识挖掘的过程中,往往需要对政企服务文本进行文本聚类,即将政企服务文本划分出若干类别,从而提高在政企服务文本中知识发现的效率。政企服务文本聚类可以转化成为一个优化问题。正弦余弦算法是求解优化问题的一种有效算法[Mirjalili,S.(2016).SCA:a sine cosine algorithm for solving optimizationproblems.Knowledge-Based Systems,96,120-133.].目前,正弦余弦算法在解决一些优化问题中获得了满意的结果。然而,传统的正弦余弦算法在对政企服务文本进行聚类时容易出现搜索效率不高的缺点,从而导致政企服务文本的聚类结果难以满足实际需求。
发明内容
本发明的目的是提供一种政企服务文本聚类方法,它在一定程度上克服了传统政企服务文本聚类方法容易出现搜索效率不高的缺点,本发明能够提高政企服务文本聚类的效率。
本发明的技术方案:一种政企服务文本聚类方法,包括以下步骤:
步骤1,采集政企服务文本;
步骤2,对政企服务文本进行预处理;
步骤3,对政企服务文本进行特征提取得到政企服务文本特征向量;
步骤4,将得到的政企服务文本特征向量设置为聚类数据集;
步骤5,利用适应性正弦余弦算法求解出聚类数据集的聚类中心;
步骤6,利用得到的聚类中心对政企服务文本进行类别划分,即得到政企服务文本的聚类结果;
其中,步骤5所述的利用适应性正弦余弦算法求解出聚类数据集的聚类中心,包括以下步骤:
步骤5.1,设置种群大小PSize,设置最大搜索代数MaxGen;
步骤5.2,初始化当前搜索代数t=0;
步骤5.3,设置类别数量CLK,然后设置留存系数SFi t=VRand(0,2),其中下标i=1,2,…PSize;VRand表示随机实数产生函数;
步骤5.4,随机生成PSize个个体的当前搜索值;其中,每个个体的当前搜索值都存储了CLK个聚类中心;然后将PSize个个体组成种群;
步骤5.5,按公式(1)计算种群中每个个体的当前搜索值的适应值:
其中,为第i个个体的当前搜索值的适应值;k为类别下标;j为样本下标;TDj为聚类数据集中的第j个样本;TCMi,k为第i个个体的当前搜索值所存储的第k个聚类中心;TCk表示第k个类别;
步骤5.6,保存种群中的最优个体BXt;
步骤5.7,按公式(2)计算适应性搜索系数ASFi t:
其中pta为[0,1]之间的随机实数;
步骤5.8,以0.5的概率按公式(4)执行适应性正弦操作算子,同时以0.5的概率按公式(5)执行适应性余弦操作算子;其中,公式(4)为:
其中,为种群中的第i个个体的当前搜索值;为种群中的第i个个体的新一代搜索值;sin为正弦函数;r1为[0,2×π]之间的随机实数,并且π为圆周率;r2为[0,2]之间的随机实数;
其中,公式(5)为:
其中,cos为余弦函数;r3为[0,2×π]之间的随机实数;r4为[0,2]之间的随机实数;
步骤5.9,计算种群中每个个体的新一代搜索值的适应值,然后按公式(6)计算新一代留存系数SFi t+1:
其中,为第i个个体的新一代搜索值的适应值;
步骤5.10,保存种群中的最优个体BXt,然后设置当前搜索代数t=t+1;
步骤5.11,如果当前搜索代数t小于MaxGen,则转到步骤5.7,否则转到步骤5.12;
步骤5.12,提取出最优个体BXt的当前搜索值所存储的CLK个聚类中心得到聚类数据集的聚类中心。
本发明应用适应性正弦余弦算法来优化政企服务文本的聚类中心。为了提升适应性正弦余弦算法的搜索效率,在每一代的搜索进程中,根据当前种群的适应值反馈信息适应性地生成正弦余弦操作算子的搜索参数,定向指导搜索方向,从而在一定程度上避免无效搜索操作,加快搜索速度,提高政企服务文本的聚类效率。
附图说明
图1为本发明中适应性正弦余弦算法的流程图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步具体的说明。
实施例:
如图1所示为本发明中适应性正弦余弦算法的流程图,本实施例结合图1,本发明的具体实施步骤如下:
步骤1,从政企服务信息系统中导出政企服务文本;所述政企服务文本包括企业基本情况介绍的文本,企业的经营情况报表,企业办事咨询的文本,业务咨询回复的文本;政企服务文本可由政企服务信息系统中导出;
步骤2,对政企服务文本进行预处理,所述预处理包括但不限于:消除乱码字符,去除格式标记,去除停用词;
步骤3,利用分词工具对政企服务文本进行分词,然后采用TF-IDF方法将政企服务文本转化成为特征向量,所述分词工具包括但不限于LTP、NLPIR、THULAC、jieba、FoolNLTK和HanLP;
步骤4,将得到的政企服务文本特征向量设置为聚类数据集;
步骤5,利用适应性正弦余弦算法求解出聚类数据集的聚类中心;
步骤6,利用得到的聚类中心对政企服务文本进行类别划分,即得到政企服务文本的聚类结果;
其中,步骤5所述的利用适应性正弦余弦算法求解出聚类数据集的聚类中心,包括以下步骤:
步骤5.1,设置种群大小PSize=200,设置最大搜索代数MaxGen=10000;
步骤5.2,初始化当前搜索代数t=0;
步骤5.3,设置类别数量CLK=5,然后设置留存系数SFi t=VRand(0,2),其中下标i=1,2,…PSize;VRand表示随机实数产生函数,其参数为随机实数的取值范围,如VRand(0,2)为[0,2]之间产生的随机实数;
步骤5.4,随机生成PSize个个体的当前搜索值;其中,每个个体的当前搜索值都存储了CLK个聚类中心;然后将PSize个个体组成种群;
步骤5.5,按公式(1)计算种群中每个个体的当前搜索值的适应值:
其中,为第i个个体的当前搜索值的适应值;k为类别下标;j为样本下标;TDj为聚类数据集中的第j个样本;TCMi,k为第i个个体的当前搜索值所存储的第k个聚类中心;TCk表示第k个类别;
步骤5.6,保存种群中的最优个体BXt;
步骤5.7,按公式(2)计算适应性搜索系数ASFi t:
其中pta为[0,1]之间的随机实数;
步骤5.8,以0.5的概率按公式(4)执行适应性正弦操作算子,同时以0.5的概率按公式(5)执行适应性余弦操作算子;其中,公式(4)为:
其中,为种群中的第i个个体的当前搜索值;为种群中的第i个个体的新一代搜索值;sin为正弦函数;r1为[0,2×π]之间的随机实数,并且π为圆周率;r2为[0,2]之间的随机实数;
其中,公式(5)为:
其中,cos为余弦函数;r3为[0,2×π]之间的随机实数;r4为[0,2]之间的随机实数;
步骤5.9,计算种群中每个个体的新一代搜索值的适应值,然后按公式(6)计算新一代留存系数SFi t+1:
其中,为第i个个体的新一代搜索值的适应值;
步骤5.10,保存种群中的最优个体BXt,然后设置当前搜索代数t=t+1;
步骤5.11,如果当前搜索代数t小于MaxGen,则转到步骤5.7,否则转到步骤5.12;
步骤5.12,提取出最优个体BXt的当前搜索值所存储的CLK个聚类中心得到聚类数据集的聚类中心。
进一步地,步骤1中的政企服务信息系统为包括政策信息发布、企业信息收集(企业基本情况介绍的文本,企业的经营情况报表,企业办事咨询的文本,业务咨询回复的文本)、数据分析等功能的系统。
进一步地,步骤6中的政企服务文本的类别包括但不限于咨询类别、回复类别、企业简介类别、职能部门简介类别、办事流程简介类别。
Claims (1)
1.一种政企服务文本聚类方法,其特征在于,包括以下步骤:
步骤1,采集政企服务文本;
步骤2,对政企服务文本进行预处理;
步骤3,对政企服务文本进行特征提取得到政企服务文本特征向量;
步骤4,将得到的政企服务文本特征向量设置为聚类数据集;
步骤5,利用适应性正弦余弦算法求解出聚类数据集的聚类中心;
步骤6,利用得到的聚类中心对政企服务文本进行类别划分,即得到政企服务文本的聚类结果;
其中,步骤5所述的利用适应性正弦余弦算法求解出聚类数据集的聚类中心,包括以下步骤:
步骤5.1,设置种群大小PSize,设置最大搜索代数MaxGen;
步骤5.2,初始化当前搜索代数t=0;
步骤5.3,设置类别数量CLK,然后设置留存系数SFi t=VRand(0,2),其中下标i=1,2,…PSize;VRand表示随机实数产生函数;
步骤5.4,随机生成PSize个个体的当前搜索值;其中,每个个体的当前搜索值都存储了CLK个聚类中心;然后将PSize个个体组成种群;
步骤5.5,按公式(1)计算种群中每个个体的当前搜索值的适应值:
其中,为第i个个体的当前搜索值的适应值;k为类别下标;j为样本下标;TDj为聚类数据集中的第j个样本;TCMi,k为第i个个体的当前搜索值所存储的第k个聚类中心;TCk表示第k个类别;
步骤5.6,保存种群中的最优个体BXt;
步骤5.7,按公式(2)计算适应性搜索系数ASFi t:
其中pta为[0,1]之间的随机实数;
步骤5.8,以0.5的概率按公式(4)执行适应性正弦操作算子,同时以0.5的概率按公式(5)执行适应性余弦操作算子;其中,公式(4)为:
其中,为种群中的第i个个体的当前搜索值;为种群中的第i个个体的新一代搜索值;sin为正弦函数;r1为[0,2×π]之间的随机实数,并且π为圆周率;r2为[0,2]之间的随机实数;
其中,公式(5)为:
其中,cos为余弦函数;r3为[0,2×π]之间的随机实数;r4为[0,2]之间的随机实数;
步骤5.9,计算种群中每个个体的新一代搜索值的适应值,然后按公式(6)计算新一代留存系数SFi t+1:
其中,为第i个个体的新一代搜索值的适应值;
步骤5.10,保存种群中的最优个体BXt,然后设置当前搜索代数t=t+1;
步骤5.11,如果当前搜索代数t小于MaxGen,则转到步骤5.7,否则转到步骤5.12;
步骤5.12,提取出最优个体BXt的当前搜索值所存储的CLK个聚类中心得到聚类数据集的聚类中心。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626031.0A CN110472046B (zh) | 2019-07-11 | 2019-07-11 | 一种政企服务文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626031.0A CN110472046B (zh) | 2019-07-11 | 2019-07-11 | 一种政企服务文本聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472046A true CN110472046A (zh) | 2019-11-19 |
CN110472046B CN110472046B (zh) | 2022-02-22 |
Family
ID=68508010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626031.0A Active CN110472046B (zh) | 2019-07-11 | 2019-07-11 | 一种政企服务文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472046B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309754A (zh) * | 2020-01-22 | 2020-06-19 | 王伟 | 服务数据接入方法、装置、存储介质和电子设备 |
CN111581384A (zh) * | 2020-04-30 | 2020-08-25 | 广东奥博信息产业股份有限公司 | 一种惠企政策文本聚类方法 |
CN112148213A (zh) * | 2020-08-20 | 2020-12-29 | 广东奥博信息产业股份有限公司 | 基于演化优化的标注数据存储服务器分配方法 |
CN113901995A (zh) * | 2021-09-28 | 2022-01-07 | 广东奥博信息产业股份有限公司 | 一种面向环境噪声数据的聚类方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9106061D0 (en) * | 1990-03-30 | 1991-05-08 | Honeywell Inc | Adaptive image segmentation system |
CN107392911A (zh) * | 2017-07-15 | 2017-11-24 | 江西理工大学 | 应用适应性高斯和声搜索的柚子图像分割方法 |
CN108205698A (zh) * | 2017-06-15 | 2018-06-26 | 广东工业大学 | 一种基于正余混沌双弦鲸鱼优化算法的云资源负载预测方法 |
-
2019
- 2019-07-11 CN CN201910626031.0A patent/CN110472046B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9106061D0 (en) * | 1990-03-30 | 1991-05-08 | Honeywell Inc | Adaptive image segmentation system |
CN108205698A (zh) * | 2017-06-15 | 2018-06-26 | 广东工业大学 | 一种基于正余混沌双弦鲸鱼优化算法的云资源负载预测方法 |
CN107392911A (zh) * | 2017-07-15 | 2017-11-24 | 江西理工大学 | 应用适应性高斯和声搜索的柚子图像分割方法 |
Non-Patent Citations (1)
Title |
---|
CHONG ZHOU ET AL.: "A sine cosine mutation based differential evolution", 《INT. J. WIRELESS AND MOBILE COMPUTING》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111309754A (zh) * | 2020-01-22 | 2020-06-19 | 王伟 | 服务数据接入方法、装置、存储介质和电子设备 |
CN111309754B (zh) * | 2020-01-22 | 2020-11-27 | 王伟 | 服务数据接入方法、装置、存储介质和电子设备 |
CN111581384A (zh) * | 2020-04-30 | 2020-08-25 | 广东奥博信息产业股份有限公司 | 一种惠企政策文本聚类方法 |
CN112148213A (zh) * | 2020-08-20 | 2020-12-29 | 广东奥博信息产业股份有限公司 | 基于演化优化的标注数据存储服务器分配方法 |
WO2022037164A1 (zh) * | 2020-08-20 | 2022-02-24 | 广东奥博信息产业股份有限公司 | 基于演化优化的标注数据存储服务器分配方法 |
CN112148213B (zh) * | 2020-08-20 | 2022-11-29 | 广东奥博信息产业股份有限公司 | 基于演化优化的标注数据存储服务器分配方法 |
CN113901995A (zh) * | 2021-09-28 | 2022-01-07 | 广东奥博信息产业股份有限公司 | 一种面向环境噪声数据的聚类方法及系统 |
CN113901995B (zh) * | 2021-09-28 | 2024-04-12 | 广东奥博信息产业股份有限公司 | 一种面向环境噪声数据的聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110472046B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472046B (zh) | 一种政企服务文本聚类方法 | |
CN109445834B (zh) | 基于抽象语法树的程序代码相似性快速比较方法 | |
CN110609759B (zh) | 一种故障根因分析的方法及装置 | |
CN109391706A (zh) | 基于深度学习的域名检测方法、装置、设备和存储介质 | |
CN111177360B (zh) | 一种基于云上用户日志的自适应过滤方法及装置 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN116663019B (zh) | 一种源代码漏洞检测方法、装置和系统 | |
CN112925914A (zh) | 数据安全分级方法、系统、设备及存储介质 | |
CN116107834A (zh) | 日志异常检测方法、装置、设备及存储介质 | |
CN114866966A (zh) | 一种基于大数据的短信用户管理方法 | |
CN112883704B (zh) | 一种大数据相似文本去重预处理方法、装置及终端设备 | |
CN113742763A (zh) | 一种基于政务敏感数据混淆加密方法及系统 | |
CN112348108A (zh) | 一种基于众包模式的样本标注方法 | |
CN112882997A (zh) | 一种基于N-gram与频繁模式挖掘的系统日志解析方法 | |
CN116841869A (zh) | 基于代码结构化信息及审查知识的Java代码审查评论生成方法及装置 | |
CN114385794A (zh) | 企业知识图谱的生成方法、装置、设备和存储介质 | |
CN113095515A (zh) | 业务故障信息处理方法及装置 | |
CN111061871B (zh) | 一种政企服务文本倾向性分析方法 | |
CN113742495B (zh) | 基于预测模型的评级特征权重确定方法及装置、电子设备 | |
CN112686029B (zh) | 用于数据库审计系统的sql新语句识别方法及装置 | |
CN115329380A (zh) | 一种数据库表分类分级方法、装置、设备及存储介质 | |
CN114896618A (zh) | 一种分散文档管理的方法 | |
CN110263156B (zh) | 面向政企服务大数据的智能派单方法 | |
CN113127647A (zh) | 一种基于大数据分析的工艺知识库构建方法 | |
Alzuru et al. | Selfie: Self-aware information extraction from digitized biocollections |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A text clustering method for government enterprise service Effective date of registration: 20220930 Granted publication date: 20220222 Pledgee: Guangdong Shunde Rural Commercial Bank Co.,Ltd. science and technology innovation sub branch Pledgor: GUANGDONG OKING INFORMATION INDUSTRY CO.,LTD. Registration number: Y2022980017199 |