CN106446040A

CN106446040A - 一种基于进化算法的古籍专有名词聚类方法

Info

Publication number: CN106446040A
Application number: CN201610788264.7A
Authority: CN
Inventors: 杨存耿; 谢术清; 杨晓强
Original assignee: Tianjin Saiyinzhe Information Technology Co ltd
Current assignee: Tianjin Saiyinzhe Information Technology Co ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-22

Abstract

本发明属于聚类方法领域，尤其涉及一种基于进化算法的古籍专有名词聚类方法：所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤：步骤1：特征提取。步骤2：分类。步骤3：聚类：根据所处理的数据的一些属性特征，对一些专有名词进行分类，经过分类以后的数据，在各类之间其相似程度很小，而在某一类内部，其数据之间的相似度则很大。分类结束后，每类中的数据由惟一的标志进行标识，类中的数据的共同特征也被提取出来用于对该类的特征描述。步骤4：相关性分析。步骤5：偏差分析。本发明可提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。

Description

一种基于进化算法的古籍专有名词聚类方法

技术领域

本发明属于聚类方法领域，尤其涉及一种基于进化算法的古籍专有名词聚类方法。

背景技术

随着数据库技术和互联网技术普及和发展，人们因为大量数据已经陷入了“数据丰富，知识贫乏”的尴尬境地。面对浩瀚的数据海洋，不知所措。信息量虽然巨大，但对于用户来说，所需要信息只是其中很小的一部分。如何从浩瀚的文本信息资源中准确获取所需信息，已成为信息处理的一个关键问题。为解决这一技术问题，中国专利CN 104657472 A于2015年05月27日公开了一种英文文本聚类方法，该方法首先将英文文本进行预处理成向量空间模型，然后在聚类过程中，第一步是随机选取n个聚类中心，对于聚类中心，利用欧氏距离进行聚类的划分，使同一类的文本归为一个聚类，这样完成得到一个局部最优的聚类划分；第二步是进行进化算法的处理，所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择，通过与文本间距离最近的原则进行聚类划分从而达到全局最优。

因此，基于这些问题，提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法具有重要的现实意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于进化算法的古籍专有名词聚类方法，所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤：

步骤1：特征提取：从与专有名词相关的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。

步骤2：分类：根据专有名词的不同特征式，基于决策树方法，神经网络方法将其划分为不同的数据类。

步骤3：聚类：根据所处理的数据的一些属性特征，对一些专有名词进行分类，经过分类以后的数据，在各类之间其相似程度很小，而在某一类内部，其数据之间的相似度则很大。分类结束后，每类中的数据由惟一的标志进行标识，类中的数据的共同特征也被提取出来用于对该类的特征描述。

步骤4：相关性分析：应用回归分析或信念网络技术，发现特征之间或数据之间的相互依赖关系。

步骤5：偏差分析：针对分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化进行分析，其基本思想是寻找观察结果与参照量之间的有意义的差别。

在上述的基于进化算法的古籍专有名词聚类方法中，进一步的，所述步骤2是随机选取n个数据类，对于数据类利用决策树方法、神经网络方法进行聚类的划分，使同一类的专有名词归为一个聚类，这样完成得到一个局部最优的聚类划分。

在上述的基于进化算法的古籍专有名词聚类方法中，进一步的，所述步骤3是进行进化算法的处理，所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择，通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。

本发明的优点和积极效果是：

本发明利用已有知识进行，通过计算智能技术中的进化计算，进行相关推理和发现，如人之间的亲密度关系、事件相关性、地域相关性等，在分词技术上进行了创新，可以实现全文检索和知识发现，通过机器学习、聚类分析等数据分析与挖掘手段，可以得到更深入的内涵。

具体实施方式

首先，需要说明的是，以下将以示例方式来具体说明本发明的基于进化算法的古籍专有名词聚类方法的具体结构、特点和优点等，然而所有的描述仅是用来进行说明的，而不应将其理解为对本发明形成任何限制。此外，在本文所提及各实施例中予以描述或隐含的任意单个技术特征，或者被显示或隐含在各附图中的任意单个技术特征，仍然可在这些技术特征(或其等同物)之间继续进行任意组合或删减，从而获得可能未在本文中直接提及的本发明的更多其他实施例。另外，为了简化图面起见，相同或相类似的技术特征在同一附图中可能仅在一处进行标示。

需要指出的是，所述步骤2是随机选取n个数据类，对于数据类利用决策树方法、神经网络方法进行聚类的划分，使同一类的专有名词归为一个聚类，这样完成得到一个局部最优的聚类划分。

需要指出的是，所述步骤3是进行进化算法的处理，所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择，通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。

综上所述，本发明可提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。

以上实施例对本发明进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于进化算法的古籍专有名词聚类方法，其特征在于：所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤：

2.根据权利要求1所述的基于进化算法的古籍专有名词聚类方法，其特征在于：所述步骤2是随机选取n个数据类，对于数据类利用决策树方法、神经网络方法进行聚类的划分，使同一类的专有名词归为一个聚类，这样完成得到一个局部最优的聚类划分。

3.根据权利要求1所述的基于进化算法的古籍专有名词聚类方法，其特征在于：所述步骤3是进行进化算法的处理，所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择，通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。