CN106446040A - 一种基于进化算法的古籍专有名词聚类方法 - Google Patents
一种基于进化算法的古籍专有名词聚类方法 Download PDFInfo
- Publication number
- CN106446040A CN106446040A CN201610788264.7A CN201610788264A CN106446040A CN 106446040 A CN106446040 A CN 106446040A CN 201610788264 A CN201610788264 A CN 201610788264A CN 106446040 A CN106446040 A CN 106446040A
- Authority
- CN
- China
- Prior art keywords
- data
- proper noun
- class
- clustering method
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于聚类方法领域,尤其涉及一种基于进化算法的古籍专有名词聚类方法:所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:步骤1:特征提取。步骤2:分类。步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。步骤4:相关性分析。步骤5:偏差分析。本发明可提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。
Description
技术领域
本发明属于聚类方法领域,尤其涉及一种基于进化算法的古籍专有名词聚类方法。
背景技术
随着数据库技术和互联网技术普及和发展,人们因为大量数据已经陷入了“数据丰富,知识贫乏”的尴尬境地。面对浩瀚的数据海洋,不知所措。信息量虽然巨大,但对于用户来说,所需要信息只是其中很小的一部分。如何从浩瀚的文本信息资源中准确获取所需信息,已成为信息处理的一个关键问题。为解决这一技术问题,中国专利CN 104657472 A于2015年05月27日公开了一种英文文本聚类方法,该方法首先将英文文本进行预处理成向量空间模型,然后在聚类过程中,第一步是随机选取n个聚类中心,对于聚类中心,利用欧氏距离进行聚类的划分,使同一类的文本归为一个聚类,这样完成得到一个局部最优的聚类划分;第二步是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与文本间距离最近的原则进行聚类划分从而达到全局最优。
因此,基于这些问题,提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法具有重要的现实意义。
发明内容
本发明的目的在于克服现有技术的不足,提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。
本发明解决其技术问题是采取以下技术方案实现的:
一种基于进化算法的古籍专有名词聚类方法,所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:
步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分为不同的数据类。
步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。
步骤4:相关性分析:应用回归分析或信念网络技术,发现特征之间或数据之间的相互依赖关系。
步骤5:偏差分析:针对分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化进行分析,其基本思想是寻找观察结果与参照量之间的有意义的差别。
在上述的基于进化算法的古籍专有名词聚类方法中,进一步的,所述步骤2是随机选取n个数据类,对于数据类利用决策树方法、神经网络方法进行聚类的划分,使同一类的专有名词归为一个聚类,这样完成得到一个局部最优的聚类划分。
在上述的基于进化算法的古籍专有名词聚类方法中,进一步的,所述步骤3是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。
本发明的优点和积极效果是:
本发明利用已有知识进行,通过计算智能技术中的进化计算,进行相关推理和发现,如人之间的亲密度关系、事件相关性、地域相关性等,在分词技术上进行了创新,可以实现全文检索和知识发现,通过机器学习、聚类分析等数据分析与挖掘手段,可以得到更深入的内涵。
具体实施方式
首先,需要说明的是,以下将以示例方式来具体说明本发明的基于进化算法的古籍专有名词聚类方法的具体结构、特点和优点等,然而所有的描述仅是用来进行说明的,而不应将其理解为对本发明形成任何限制。此外,在本文所提及各实施例中予以描述或隐含的任意单个技术特征,或者被显示或隐含在各附图中的任意单个技术特征,仍然可在这些技术特征(或其等同物)之间继续进行任意组合或删减,从而获得可能未在本文中直接提及的本发明的更多其他实施例。另外,为了简化图面起见,相同或相类似的技术特征在同一附图中可能仅在一处进行标示。
一种基于进化算法的古籍专有名词聚类方法,所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:
步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分为不同的数据类。
步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。
步骤4:相关性分析:应用回归分析或信念网络技术,发现特征之间或数据之间的相互依赖关系。
步骤5:偏差分析:针对分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化进行分析,其基本思想是寻找观察结果与参照量之间的有意义的差别。
需要指出的是,所述步骤2是随机选取n个数据类,对于数据类利用决策树方法、神经网络方法进行聚类的划分,使同一类的专有名词归为一个聚类,这样完成得到一个局部最优的聚类划分。
需要指出的是,所述步骤3是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。
本发明利用已有知识进行,通过计算智能技术中的进化计算,进行相关推理和发现,如人之间的亲密度关系、事件相关性、地域相关性等,在分词技术上进行了创新,可以实现全文检索和知识发现,通过机器学习、聚类分析等数据分析与挖掘手段,可以得到更深入的内涵。
综上所述,本发明可提供一种可以实现全文检索和知识发现的基于进化算法的古籍专有名词聚类方法。
以上实施例对本发明进行了详细说明,但所述内容仅为本发明的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等,均应仍归属于本发明的专利涵盖范围之内。
Claims (3)
1.一种基于进化算法的古籍专有名词聚类方法,其特征在于:所述一种基于进化算法的古籍专有名词聚类方法包括以下步骤:
步骤1:特征提取:从与专有名词相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
步骤2:分类:根据专有名词的不同特征式,基于决策树方法,神经网络方法将其划分为不同的数据类。
步骤3:聚类:根据所处理的数据的一些属性特征,对一些专有名词进行分类,经过分类以后的数据,在各类之间其相似程度很小,而在某一类内部,其数据之间的相似度则很大。分类结束后,每类中的数据由惟一的标志进行标识,类中的数据的共同特征也被提取出来用于对该类的特征描述。
步骤4:相关性分析:应用回归分析或信念网络技术,发现特征之间或数据之间的相互依赖关系。
步骤5:偏差分析:针对分类中的反常实例、例外模式、观测结果对期望值的偏离以及量值随时间的变化进行分析,其基本思想是寻找观察结果与参照量之间的有意义的差别。
2.根据权利要求1所述的基于进化算法的古籍专有名词聚类方法,其特征在于:所述步骤2是随机选取n个数据类,对于数据类利用决策树方法、神经网络方法进行聚类的划分,使同一类的专有名词归为一个聚类,这样完成得到一个局部最优的聚类划分。
3.根据权利要求1所述的基于进化算法的古籍专有名词聚类方法,其特征在于:所述步骤3是进行进化算法的处理,所用到的是联姻的思想以及基因交叉变异的过程进行新一代聚类中心的选择,通过与专有名词间距离最近的原则进行聚类划分从而达到全局最优。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610788264.7A CN106446040A (zh) | 2016-08-31 | 2016-08-31 | 一种基于进化算法的古籍专有名词聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610788264.7A CN106446040A (zh) | 2016-08-31 | 2016-08-31 | 一种基于进化算法的古籍专有名词聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446040A true CN106446040A (zh) | 2017-02-22 |
Family
ID=58164355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610788264.7A Pending CN106446040A (zh) | 2016-08-31 | 2016-08-31 | 一种基于进化算法的古籍专有名词聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446040A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101059425A (zh) * | 2007-05-29 | 2007-10-24 | 浙江大学 | 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
US8811156B1 (en) * | 2006-11-14 | 2014-08-19 | Raytheon Company | Compressing n-dimensional data |
CN104657472A (zh) * | 2015-02-13 | 2015-05-27 | 南京邮电大学 | 一种基于进化算法的英文文本聚类方法 |
-
2016
- 2016-08-31 CN CN201610788264.7A patent/CN106446040A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8811156B1 (en) * | 2006-11-14 | 2014-08-19 | Raytheon Company | Compressing n-dimensional data |
CN101059425A (zh) * | 2007-05-29 | 2007-10-24 | 浙江大学 | 基于多光谱图像的纹理分析鉴别不同品种绿茶的方法和装置 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN104657472A (zh) * | 2015-02-13 | 2015-05-27 | 南京邮电大学 | 一种基于进化算法的英文文本聚类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ritze et al. | Matching web tables to dbpedia-a feature utility study | |
CN101694670B (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
CN104392006B (zh) | 一种事件查询处理方法及装置 | |
CN102663447B (zh) | 基于判别相关分析的跨媒体检索方法 | |
CN103064907A (zh) | 基于无监督的实体关系抽取的主题元搜索系统及方法 | |
Wu et al. | Mining query subtopics from questions in community question answering | |
Wu et al. | Extracting knowledge from web tables based on DOM tree similarity | |
CN108268883B (zh) | 基于开放数据的移动端信息模板自构建系统 | |
CN105677684A (zh) | 一种基于外部数据源对用户生成内容进行语义标注的方法 | |
Sosnowski | Framework of compound object comparators | |
Argueta et al. | Unsupervised graph-based patterns extraction for emotion classification | |
CN113836395B (zh) | 一种基于异构信息网络的服务开发者按需推荐方法及系统 | |
CN106446040A (zh) | 一种基于进化算法的古籍专有名词聚类方法 | |
Sundari et al. | A study of various text mining techniques | |
Nie et al. | An entity relation extraction model based on semantic pattern matching | |
Saad et al. | Efficient content based image retrieval using SVM and color histogram | |
Zhang et al. | Research and implementation of keyword extraction algorithm based on professional background knowledge | |
CN103984733A (zh) | 一种体现查询差异的直接优化性能指标排序方法 | |
Le et al. | Developing a model semantic‐based image retrieval by combining KD‐tree structure with ontology | |
Xu et al. | An Image Classification Method Based on Matching Similarity and TF-IDF Value of Region | |
Fu et al. | A new deep neural network based learning to rank method for information retrieval | |
Casals et al. | SPARQL query execution time prediction using Deep Learning | |
Liu et al. | FallbackWalk: A Random Walk Based Fallback for Heterogeneous Information Network | |
CN110209814B (zh) | 一种利用领域建模从百科知识网站抽取知识主题的方法 | |
CN106156250A (zh) | 一种搜索热点推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170222 |
|
RJ01 | Rejection of invention patent application after publication |