CN111522945A

CN111522945A - 一种基于卡方检验的诗词风格分析方法

Info

Publication number: CN111522945A
Application number: CN202010277247.3A
Authority: CN
Inventors: 石建
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-04-10
Filing date: 2020-04-10
Publication date: 2020-08-11

Abstract

本发明公开了一种基于卡方检验的诗词风格分析方法，包括以下步骤：步骤1.建立诗人派别分类指标；步骤2.对诗词数据进行选择与爬取；步骤3.对诗词数据进行预处理；步骤4.对诗人数据的选择与爬取；步骤5.对诗人数据进行预处理；步骤6.基于卡方检验的模型构建；步骤7.模型测试与结果检测。本发明能够对大数据量的诗词风格分类进行处理，并且精准分类类型。

Description

一种基于卡方检验的诗词风格分析方法

技术领域

本发明涉及机器学习和数据挖掘领域，具体为一种基于卡方检验的诗词风格分析方法。

背景技术

随着计算社会学的兴起，利用数据挖掘分析社会情感是近期的研究重点，当前的研究主要针对现代文本，对于古代诗歌这类短文本的情感分析相对较少。中华民族的文化博大精深，诗词歌赋已经传承了近千年，人们对诗词的学习与研究从未停止。古诗词贯穿了我们的学习生活，作为中华民族重要的文化资源，对古诗词进行研究和分类以及对诗人进行分类可以更加有利于我们对传统文化和古诗词文化的学习和研究，因此，研究古诗词的类型和诗人的分类已经成为必要的了。

利用数据挖掘算法在对古诗词风格进行分类和对诗人类型分类无疑是最好的选择。通过卡方检验构建模型计算关键词的关联度，并针对每个诗人大量的诗词作品提取关键词计算关键词关联度，将关联度进行匹配，用最准确、最快速和最便捷的方法来对古诗词和诗人类型分类，不仅省时省力，还能提高准确性。但总体而言，在分类古诗词风格时，我们仍然面临着数据量过大、难以处理、分类类型不精准等问题。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种基于卡方检验的诗词风格分析方法，能对大数据量的诗词风格分类进行处理，并且精准分类类型。

为了实现上述发明目的，本发明采用了以下技术方案：一种基于卡方检验的诗词风格分析方法，包括以下步骤：步骤1.建立诗人派别分类指标，具体包括以下步骤：步骤(1-1).确认派别的风格种类，将诗词分为七大类；步骤(1-2).将七类风格的诗词与想表达的情感对应，分析出不同风格的诗词旨在表达何种情感；

步骤2.对诗词数据进行选择与爬取；

步骤3.对诗词数据进行预处理；

步骤4.对诗人数据的选择与爬取；

步骤5.对诗人数据进行预处理；

步骤6.基于卡方检验的模型构建，具体包括以下步骤：步骤(6-1).所有的诗词数量，设为A；包含词语ti但不属于类别ci的诗词数量，设为B；不包含词语ti但属于类别ci的诗词数量，设为C；不包含词语ti且不属于类别ci的诗词数量，设为D；

步骤(6-2).将七种类别的诗词按类别分类，存进列表，建立一个词语列表存放古诗中不重复出现的所有词语；

步骤(6-3).对每个词每个类别计算属于该类别的诗词数量，即为a；新建一个变量储存该类别所有诗词数量，减去存在该词的诗词数量，即为b；新建一个变量储存该类别所有诗词数量，减去存在该词的诗词数量，即为c；新建一个变量储存该类别所有诗词数量，减去存在该词的诗词数量，即为d；

步骤(6-4).词语和类别之间的关联度通过卡方检验计算，计算公式为

其中，A_i为i水平的观察频数，E_i为i水平的期望频数，n为总频数，p_i为i水平的期望频率。I水平的期望频数E_i等于总频数n*i水平的期望概率p_i，k为单元格数；

步骤(6-5).计算每个诗人所有的诗包含的用以训练的词的分别的个数；

步骤(6-6).计算该诗人使用的每个训练词与对应关联度的乘积的和，作为该诗人与每个类别的关联度；

步骤(6-7).对数据进行标准化，可以更加明显的看出诗人与类别的关系大小，输出数值大于0.8的类别作为该诗人所包含的类别；

步骤7.模型测试与结果检测，具体包括以下步骤：步骤(7-1).输入一些风格鲜明的诗人，判断输出是否准确，如；婉约派-李清照、豪放派-辛弃疾、边塞派-王昌龄、浪漫派-李白，对比关联度数值，同时根据历史情况适当调低某些类别的关联度；

步骤(7-2).测试结果将田园派关联度调低至80％，边塞派关联度调低至60％，婉约派关联度调低至80％。

优选的，在步骤1中，将七类风格的诗词与想表达的情感一一对应，具体如下：婉约派：思念；豪放派：豪迈，战争；田园派：山水，田园；现实派：忧国忧民，咏史怀古；浪漫派：抒情，咏物，爱国；咏史派：咏史怀古；边塞派：边塞风景。

优选的，在步骤2中，对诗词数据的选择与爬取具体包括以下步骤：步骤(2-1).选取古诗的类别重复且页数较少的古诗类型；步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗，我们采用python的第三方库re、requests；步骤(2-3).建立字典x1，放入所有需要爬取得类型及其对应的页数，其中ii代表每个类型的名称；步骤(2-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result1的里，基于末页的位置如果小于网站所显示的8页时，result1里的结果显示为空集，否则为整数形式的字符串；步骤(2-5).循环爬取，将结果保存到预先设置成的空文件text1里。

优选的，在步骤3中，对诗词数据进行预处理具体包括以下步骤：步骤(3-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(3-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(3-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e1，在for循环分词结果，用pynlp ir.segments()表示每个词，再删除所有标点符号的“词”，保存到e1中，预处理的结果保存到文件夹里。

优选的，在步骤4中，对诗人数据的选择与爬取具体包括以下步骤：步骤(4-1).选取著名的诗人，并选取唐宋元三朝的著名诗人；步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词，我们采用python的第三方库re、requests；步骤(4-3).建立字典x2，放入所有需要爬取的类型及其对应的数据所在页数，其中ii代表每个类型的名称；步骤(4-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result2的里，基于末页的位置如果小于网站所显示的8页时，result2里的结果显示为空集，否则为整数形式的字符串；步骤(4-5).循环爬取，将结果保存到预先设置成的空文件text2里。

优选的，在步骤5中，对诗人数据进行预处理具体包括以下步骤：步骤(5-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(5-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(5-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e2，在for循环分词结果，用pynlp ir.segments()表示每个词，再删除所有标点符号的“词”，保存到e2中，预处理的结果保存到文件夹里。

与现有技术相比，采用了上述技术方案的基于卡方检验的诗词风格分析方法，具有如下有益效果：采用本发明的基于卡方检验的诗词风格分析方法，通过建立卡方检验的模型，对每个词每个类别计算属于该类别的诗词数量，对大数据量的诗词风格分类进行处理，并精准分类类型。

附图说明

图1为本发明基于卡方检验的诗词风格分析方法实施例的流程示意图；

图2为本实施例中基于卡方检验的诗词风格分析方法模型检测的流程示意图。

具体实施方式

下面结合附图对本发明做进一步描述。

如图1所示为基于卡方检验的诗词风格分析方法的流程示意图，

包括以下步骤：步骤1.建立诗人派别分类指标，具体包括以下步骤：步骤(1-1).确认派别的风格种类，将诗词分为七大类；

步骤(1-2).将七类风格的诗词与想表达的情感对应，具体如下：婉约派：思念；豪放派：豪迈，战争；田园派：山水，田园；现实派：忧国忧民，咏史怀古；浪漫派：抒情，咏物，爱国；咏史派：咏史怀古；边塞派：边塞风景。分析出不同风格的诗词旨在表达何种情感；

步骤2.对诗词数据进行选择与爬取，具体包括以下步骤：步骤(2-1).选取古诗的类别重复且页数较少的古诗类型；步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗，我们采用python的第三方库re、requests；步骤(2-3).建立字典x1，放入所有需要爬取得类型及其对应的页数，其中ii代表每个类型的名称；步骤(2-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result1的里，基于末页的位置如果小于网站所显示的8页时，result1里的结果显示为空集，否则为整数形式的字符串；步骤(2-5).循环爬取，将结果保存到预先设置成的空文件text1里；

步骤3.对诗词数据进行预处理，具体包括以下步骤：步骤(3-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(3-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(3-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e1，在for循环分词结果，用pynlpir.segments()表示每个词，再删除所有标点符号的“词”，保存到e1中，预处理的结果保存到文件夹里；

步骤4.对诗人数据的选择与爬取，具体包括以下步骤：步骤(4-1).选取著名的诗人，并选取唐宋元三朝的著名诗人；步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词，我们采用python的第三方库re、requests；步骤(4-3).建立字典x2，放入所有需要爬取的类型及其对应的数据所在页数，其中ii代表每个类型的名称；步骤(4-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result2的里，基于末页的位置如果小于网站所显示的8页时，result2里的结果显示为空集，否则为整数形式的字符串；步骤(4-5).循环爬取，将结果保存到预先设置成的空文件text2里；

步骤5.对诗人数据进行预处理，具体包括以下步骤：步骤(5-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(5-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(5-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e2，在for循环分词结果，用pynlpir.segments()表示每个词，再删除所有标点符号的“词”，保存到e2中，预处理的结果保存到文件夹里；

步骤6.基于卡方检验的模型构建，如图2所示为基于卡方检验的诗词风格分析方法模型检测的流程示意图，具体包括以下步骤：步骤(6-1).所有的诗词数量，设为A；包含词语ti但不属于类别ci的诗词数量，设为B；不包含词语ti但属于类别ci的诗词数量，设为C；不包含词语ti且不属于类别ci的诗词数量，设为D；

步骤7.模型测试与结果检测，具体包括以下步骤：步骤(7-1).输入一些风格鲜明的诗人，判断输出是否准确，如：婉约派-李清照、豪放派-辛弃疾、边塞派-王昌龄、浪漫派-李白，对比关联度数值，同时根据历史情况适当调低某些类别的关联度；

考虑到本发明本质上属于文本分类，可在优化时考虑贝叶斯和SVM。由于本发明涉及多个变量，表1对各个步骤中的变量进行说明，如表1所示为变量说明表：

步骤3	re	工具包	正则表达式
				requests	工具包	爬虫
	x1	字典变量	储存原始数据
				ii	字符变量	诗词类别
	result1	数据变量	爬取的数据
				text1	文件名	储存爬取数据
	pynlpir	工具包	简单nlp处理
				replace	函数	字符替换
步骤5	ti	字符变量	诗词类别t
				ci	字符变量	诗词类别c
	A_i	数据变量	i水平的观察频数
				E_i	数据变量	i水平的期望频数
	n	数据变量	总频数
				p_i	数据变量	i水平的期望频率
	k	数据变量	单元格数

表1

以上是本发明的优选实施方式，对于本领域的普通技术人员来说不脱离本发明原理的前提下，还可以做出若干变型和改进，这些也应视为本发明的保护范围。

Claims

1.一种基于卡方检验的诗词风格分析方法，其特征在于：包括以下步骤：

步骤1.建立诗人派别分类指标，具体包括以下步骤：步骤(1-1).确认派别的风格种类，将诗词分为七大类；步骤(1-2).将七类风格的诗词与想表达的情感对应，分析出不同风格的诗词旨在表达何种情感；

步骤2.对诗词数据进行选择与爬取；

步骤3.对诗词数据进行预处理；

步骤4.对诗人数据的选择与爬取；

步骤5.对诗人数据进行预处理；

2.根据权利要求1所述的基于卡方检验的诗词风格分析方法，其特征在于：在步骤1中，将七类风格的诗词与想表达的情感一一对应，具体如下；婉约派：思念；豪放派：豪迈，战争；田园派：山水，田园；现实派：忧国忧民，咏史怀古；浪漫派：抒情，咏物，爱国；咏史派：咏史怀古；边塞派：边塞风景。

3.根据权利要求1所述的基于卡方检验的诗词风格分析方法，其特征在于：在步骤2中，对诗词数据的选择与爬取具体包括以下步骤：步骤(2-1).选取古诗的类别重复且页数较少的古诗类型；步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗，我们采用python的第三方库re、requests；步骤(2-3).建立字典x1，放入所有需要爬取得类型及其对应的页数，其中ii代表每个类型的名称；步骤(2-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result1的里，基于末页的位置如果小于网站所显示的8页时，result1里的结果显示为空集，否则为整数形式的字符串；步骤(2-5).循环爬取，将结果保存到预先设置成的空文件text1里。

4.根据权利要求1所述的基于卡方检验的诗词风格分析方法，其特征在于：在步骤3中，对诗词数据进行预处理具体包括以下步骤：步骤(3-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(3-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(3-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e1，在for循环分词结果，用pynlp ir.segments()表示每个词，再删除所有标点符号的“词”，保存到e1中，预处理的结果保存到文件夹里。

5.根据权利要求1所述的基于卡方检验的诗词风格分析方法，其特征在于：在步骤4中，对诗人数据的选择与爬取具体包括以下步骤：步骤(4-1).选取著名的诗人，并选取唐宋元三朝的著名诗人；步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词，我们采用python的第三方库re、requests；步骤(4-3).建立字典x2，放入所有需要爬取的类型及其对应的数据所在页数，其中ii代表每个类型的名称；步骤(4-4).建立for循环，寻找每个类型所对的首页和末页位置，根据其末页，再将其保存到result2的里，基于末页的位置如果小于网站所显示的8页时，result2里的结果显示为空集，否则为整数形式的字符串；步骤(4-5).循环爬取，将结果保存到预先设置成的空文件text2里。

6.根据权利要求1所述的基于卡方检验的诗词风格分析方法，其特征在于：在步骤5中，对诗人数据进行预处理具体包括以下步骤：步骤(5-1).使用python的第三方库pynlpir首先建立列表，并修改编码格式为utf-8，将所有的数据的类型名称存在里面；步骤(5-2).for循环，打开之前保存的文件，并且读取，打开第三方库pynlpir，用库里的函数replace函数删除“[，]，」”等方框，其中，不包含“《》”，精确后面的计算；步骤(5-3).将字符串分成列表，用到split函数，用“，”分词，建立空集e2，在for循环分词结果，用pynlp ir.segments()表示每个词，再删除所有标点符号的“词”，保存到e2中，预处理的结果保存到文件夹里。