CN109684482A

CN109684482A - 一种基于深度神经网络模型的民族文化资源聚类分析方法

Info

Publication number: CN109684482A
Application number: CN201910042745.7A
Authority: CN
Inventors: 唐明靖; 王俊; 张姝; 唐麟; 张亚明
Original assignee: Yunnan Normal University
Current assignee: Yunnan Normal University
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2019-04-26

Abstract

本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法，属于民族文化资源挖掘技术领域。首先利用分布式网络爬虫技术获取民族文化资源文本数据，然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理，并基于doc2vec实现民族文化资源文本的特征词提取和向量化，再基于K‑means聚类算法对向量化后的民族文化资源文本进行聚类，并利用肘部法则方法确定最优聚类簇数，最终获得民族文化资源文本关联关系。本发明采用无监督训练方法，能揭示民族文化资源文本蕴含的语义信息，便于识别民族文化资源文本间的类别关系，为海量民族文化资源的采集、存储和智能化服务提供技术支持。

Description

一种基于深度神经网络模型的民族文化资源聚类分析方法

技术领域

本发明涉及一种基于深度神经网络模型的民族文化资源聚类分析方法，属于民族文化资源挖掘技术领域。

背景技术

随着社会发展的现代化和国际化程度越来越高，少数民族传统文化的保护与传承面临危机。借助信息技术实现少数民族文化的数字化、共享和传播，成为了少数民族文化保护、传承和开发利用的重要手段。目前，少数民族文化数字化及主要传播手段是各类少数民族文化网站，由于多样性、分散性、群体封闭性等特点，这类民族文化网站的民族文化资源内容相对分散，呈非结构化特征，难以被发现、应用和集成利用。同时，不同的网站和平台对少数民族文化的描述和理解存在不一致，导致民众对少数民族文化的理解和认识存在歧义或差异，不利于民族文化的传播和保护。利用分布式网络爬虫技术、自然语言处理技术、数据挖掘技术和机器学习算法对民族文化资源文本进行采集、解析处理和聚类分析，将有助于海量民族文化资源自动采集、识别和共享，更好地理解民族文化资源文本的深层语义，为民族文化资源智能化服务提供技术支持。

发明内容

本发明要解决的技术问题是提供一种基于深度神经网络模型的民族文化资源聚类分析方法，以民族文化资源文本数据为基础，增强海量民族文化资源的可识别性和可理解性，便于实现海量民族文化资源的智能化共享与推荐。

本发明的技术方案是：一种基于深度神经网络模型的民族文化资源聚类分析方法，首先利用分布式网络爬虫技术获取民族文化资源文本数据，然后利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理，并基于doc2vec实现民族文化资源文本的特征词提取和向量化，再基于K-means聚类算法对向量化后的民族文化资源文本进行聚类，并利用肘部法则方法确定最优聚类簇数，最终获得民族文化资源文本关联关系。

Step1、民族文化资源数据爬取；

通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取海量的少数民族文化资源文本数据。

Step2、民族文化资源预处理；

在完成民族文化资源数据的爬取后，需要对其进行去标记、去停用词、分词等文本预处理操作。所述步骤Step2的具体步骤为：

Step2.1、由于Step1获取的民族文化资源数据是带HTML标签的网页文本，需要对其去标签化、删除head和其它无关区域内容、标签转义等预处理操作，从而提取网页的正文内容。

Step2.2、对Step2.1步骤的输出结果(民族文化资源文本)去除介词、形容词和副词等含义较少的停用词，保留动词和名词等实体词汇；

Step2.3、将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。

Step3、民族文化资源向量化；

在完成民族文化资源文本预处理后，为了进行文本间相似度的度量，进而实现民族文化资源聚类，需要对每个民族文化资源文本进行向量化。所述步骤Step3的具体步骤为：

Step3.1、基于深度神经网络模型Doc2vec，构建Distributed BagofWords Model(DBOW)分布式词袋模型，针对民族文化资源文本进行模型训练和特征提取；

Step3.2、根据Step3.1步骤将民族文化资源文本表述为带id的文本向量；

Step3.3、将Step3.2步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间；

Step3.4、执行n次Step3.1-Step3.3步骤可以得到民族文化资源向量矩阵。n为民族文化资源文本个数，通过向量化后得到如下民族文化资源矩阵：

其中，m为民族文化资源文本的特征词个数。

Step4、民族文化资源聚类；

通过Step3步骤完成民族文化资源文本向量化后，可以得到每个文本对应的特征向量，从而可以通过聚类算法对文本间的主题相似性进行度量，实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果，可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1，循环执行Step4.1-Step4.2步骤m次，具体步骤为：

Step4.1、获取聚类簇数k值，每循环一次k值增1，调用K-means聚类算法对民族文化资源文本向量矩阵进行聚类；

Step4.2、计算误差平方和SSE(sum of the squared errors)；

计算并记录每次聚类过程的误差平方和SSE值，对于民族文化资源文本数据的误差平方和SSE通过公式(1)计算：

其中，C_i为第i个簇，p为C_i簇中的样本点，m_i为C_i簇的所有样本的均值，则SSE表示所有样本的聚类误差，表示聚类效果的优劣。

Step4.3、经过m次循环执行Step4.1-Step4.2步骤后，得到m个k值和SSE值，从而可以画出k值与SSE值的关系图(手肘形状)，选取图中肘部对应的k值作为最近聚类簇数；

Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果，从而识别和发现民族文化资源文本间的深层语义和关联关系，进而为海量民族文化资源挖掘提供支持。

本发明的有益效果是：本发明所采用的构建文本向量方法(doc2vec)，是基于深度神经网络的无简单文本向量训练方法，根据向量空间余弦距离进行向量间的主题相似度计算，能有效降低向量空间维度、提高训练效率，适合进行海量民族资源文本挖掘；所采用的K-means聚类算法和基于肘部法则的最优聚类簇数k值选定方法，有效解决了K-means聚类算法聚类簇数无法确定的问题；通过以上步骤实现了民族文化资源间的区别与关联，揭示了民族文化资源的深层语义，为海量民族文化资源挖掘和智能化服务提供了支持。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种基于深度神经网络模型的民族文化资源聚类分析方法，首先利用分布式网络爬虫技术获取民族文化资源文本数据，其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理，并基于doc2vec实现民族文化资源文本的特征词提取和向量化，然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类，并利用肘部法则方法确定最优聚类簇数，最终获得民族文化资源文本关联关系。

具体步骤为：

Step1、民族文化资源文本数据爬取；

通过分布式网络爬虫技术从少数民族文化相关网站、数据库获取民族文化资源文本数据；

Step2、民族文化资源预处理；

Step2.1、对Step1获取的民族文化资源数据进行预处理，包括去标签化、删除head和其它无关区域内容、标签转义，从而提取文本的正文内容，得到民族文化资源文本；

Step2.2、对Step2.1步骤得到的民族文化资源文本进行去除停用词操作，保留实体词，停用词包括介词、形容词和副词，实体词包括动词和名词；

Step2.3、将经过Step2.2步骤的处理后的民族文化资源文本进行中文分词；

Step3、民族文化资源向量化；

Step3.1、基于深度神经网络模型Doc2vec，构建Distributed Bag of WordsModel(DBOW)分布式词袋模型，针对民族文化资源文本进行模型训练和特征提取；

Step3.3、将Step3.2步骤的输出结果，即民族文化资源文本特征向量归一化到[0,1]区间；

Step3.4、执行n次Step3.1-Step3.3步骤得到民族文化资源向量矩阵，n为民族文化资源文本个数，通过向量化后得到如下民族文化资源矩阵：

其中，m为民族文化资源文本的特征词个数；

Step4、民族文化资源聚类；

Step4.2、计算误差平方和SSE(sum of the squared errors)；

其中，C_i为第i个簇，p为C_i簇中的样本点，m_i为C_i簇的所有样本的均值，则SSE表示所有样本的聚类误差和表示聚类效果的优劣；

Step4.3、经过m次循环执行Step4.1-Step4.2步骤后，得到m个k值和SSE值，从而画出k值与SSE值手肘形状的关系图，选取图中肘部对应的k值作为最近聚类簇数；

实施例1：如图1所示，一种基于深度神经网络模型的民族文化资源聚类分析方法，本实施例分别从中国非物质文化遗产名录数据库系统(http://folkw.com)、国家民委(http://www.seac.gov.cn)、中国民族宗教网(http://www.mzb.com.cn)和云南少数民族网(http://www.yn21st.com)等民族文化专题网站爬取民族文化资源，共获得6232个民族文化资源网页文本。具体过程包括：民族文化资源数据爬取(Step1)，民族文化资源文本预处理(Step2)，民族文化资源文本向量化(Step3)，民族文化资源文本聚类(Step4)，根据聚类结果识别和发现民族文化资源文本间的深层语义和关联关系(Step5)。

所述民族文化资源聚类分析方法的具体步骤如下(具体程序实现采用Python语言)：

Step1、民族文化资源数据爬取；

在OpenStack环境下，利用虚拟化技术，创建5台虚拟机，其中一台为Master节点，其余4台为Slave节点。在每个Slave节点安装爬虫模块Scrapy，实现资源爬取主体功能；在Master节点安装Redis数据库，实现多个分布式爬虫的url队列管理和维护。

Step2、民族文化资源预处理；

Step2.1、调用Python语言的HTML文档解析库BeautifulSoup，对Step1步骤获取的民族文化资源数据进行去标签化、删除head和其它无关区域内容、标签转义等预处理操作，从而提取网页的正文内容；

Step2.2、调用Python语言的自然语言处理工具NLTK模块，去除介词、形容词和副词和含义较少的停用词，保留动词和名词等实体词汇；

Step2.3、调用Python语言的中文分词库jieba，将Step2.2步骤的输出结果(民族文化资源文本)进行中文分词。

Step3、民族文化资源文本向量化；

Step3.1、载入Python的gensim库，通过调用深度神经网络模型Doc2vec库接口，构建文本向量训练模型，对民族文化资源文本进行模型训练和特征提取；

Step3.2、将Step3.1步骤的输出结果(民族文化资源文本特征向量)归一化到[0,1]区间；

Step3.3、经过Step3.1-Step3.2步骤后，得到民族文化资源文本向量矩阵，简单示意如下：

Step4、民族文化资源聚类；

通过Step3步骤完成民族文化资源文本向量化后，可以得到每个文本对应的特征向量，从而可以通过聚类算法对文本间的主题相似性进行度量，实现民族文化资源文本间的关联与区分。为了取得最佳聚类效果，可以利用肘部法则来选取最佳聚类簇数k。设定聚类簇数k值初始值为1，循环执行Step4.1-Step4.2步骤10次，具体步骤为：

Step4.1、载入Python的sklearn库，获取聚类簇数k值(每循环一次k值增1)，调用K-means聚类算法接口对民族文化资源文本向量矩阵进行聚类；

Step4.2、计算误差平方和SSE(sum of the squared errors)；

利用公式(1)计算计算每次聚类过程的误差平方和SSE值，并记录当前k值和SSE值；

Step4.3、经过10次循环执行Step4.1-Step4.2步骤后，得到10个k值和SSE值，画出k值与SSE值的关系图(手肘形状)，选取关系图中肘部对应的k值点作为最近聚类簇数；

Step5、通过Step4可以得到基于主题相似度的民族文化资源聚类结果，并对聚类结果进行PCA降维后调用Python的MATLAB包matplotlib，对聚类效果进行可视化分析。通过分析，分类簇数k值为8时，聚类效果最佳。至此，实现了把6232个民族文化资源网页文本通过无监督学习自动映射到8个资源类别簇，其中一个民族文化资源类别最多包含了1632个民族文化资源文本，最少包含了487个民族文化资源文本。从而识别和发现民族文化资源文本间的深层语义和关联关系，进而为海量民族文化资源挖掘提供支持。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于深度神经网络模型的民族文化资源聚类分析方法，其特征在于：首先利用分布式网络爬虫技术获取民族文化资源文本数据，其次利用自然语言处理技术对民族文化资源文本数据进行文本解析和文本预处理，并基于doc2vec实现民族文化资源文本的特征词提取和向量化，然后基于K-means聚类算法对向量化后的民族文化资源文本进行聚类，并利用肘部法则方法确定最优聚类簇数，最终获得民族文化资源文本关联关系。

2.根据权利要求1所述的基于深度神经网络模型的民族文化资源聚类分析方法，其特征在于具体步骤为：

Step1、民族文化资源文本数据爬取；

Step2、民族文化资源预处理；

Step3、民族文化资源向量化；

Step3.1、基于深度神经网络模型Doc2vec，构建Distributed Bag of Words Model分布式词袋模型，针对民族文化资源文本进行模型训练和特征提取；

其中，m为民族文化资源文本的特征词个数；

Step4、民族文化资源聚类；

Step4.2、计算误差平方和SSE

Step4.3、经过m次循环执行Step4.1-Step4.2步骤后，得到m个k值和SSE值，从而画出k值与SSE值的关系图，选取图中肘部对应的k值作为最近聚类簇数；

Step5、最后得到基于主题相似度的民族文化资源聚类结果。