CN111522945A - 一种基于卡方检验的诗词风格分析方法 - Google Patents

一种基于卡方检验的诗词风格分析方法 Download PDF

Info

Publication number
CN111522945A
CN111522945A CN202010277247.3A CN202010277247A CN111522945A CN 111522945 A CN111522945 A CN 111522945A CN 202010277247 A CN202010277247 A CN 202010277247A CN 111522945 A CN111522945 A CN 111522945A
Authority
CN
China
Prior art keywords
poems
poetry
data
storing
chi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010277247.3A
Other languages
English (en)
Inventor
石建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong University
Original Assignee
Nantong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong University filed Critical Nantong University
Priority to CN202010277247.3A priority Critical patent/CN111522945A/zh
Publication of CN111522945A publication Critical patent/CN111522945A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了一种基于卡方检验的诗词风格分析方法,包括以下步骤:步骤1.建立诗人派别分类指标;步骤2.对诗词数据进行选择与爬取;步骤3.对诗词数据进行预处理;步骤4.对诗人数据的选择与爬取;步骤5.对诗人数据进行预处理;步骤6.基于卡方检验的模型构建;步骤7.模型测试与结果检测。本发明能够对大数据量的诗词风格分类进行处理,并且精准分类类型。

Description

一种基于卡方检验的诗词风格分析方法
技术领域
本发明涉及机器学习和数据挖掘领域,具体为一种基于卡方检验的诗词风格分析方法。
背景技术
随着计算社会学的兴起,利用数据挖掘分析社会情感是近期的研究重点,当前的研究主要针对现代文本,对于古代诗歌这类短文本的情感分析相对较少。中华民族的文化博大精深,诗词歌赋已经传承了近千年,人们对诗词的学习与研究从未停止。古诗词贯穿了我们的学习生活,作为中华民族重要的文化资源,对古诗词进行研究和分类以及对诗人进行分类可以更加有利于我们对传统文化和古诗词文化的学习和研究,因此,研究古诗词的类型和诗人的分类已经成为必要的了。
利用数据挖掘算法在对古诗词风格进行分类和对诗人类型分类无疑是最好的选择。通过卡方检验构建模型计算关键词的关联度,并针对每个诗人大量的诗词作品提取关键词计算关键词关联度,将关联度进行匹配,用最准确、最快速和最便捷的方法来对古诗词和诗人类型分类,不仅省时省力,还能提高准确性。但总体而言,在分类古诗词风格时,我们仍然面临着数据量过大、难以处理、分类类型不精准等问题。
发明内容
本发明的目的是为了解决现有技术的不足,提供一种基于卡方检验的诗词风格分析方法,能对大数据量的诗词风格分类进行处理,并且精准分类类型。
为了实现上述发明目的,本发明采用了以下技术方案:一种基于卡方检验的诗词风格分析方法,包括以下步骤:步骤1.建立诗人派别分类指标,具体包括以下步骤:步骤(1-1).确认派别的风格种类,将诗词分为七大类;步骤(1-2).将七类风格的诗词与想表达的情感对应,分析出不同风格的诗词旨在表达何种情感;
步骤2.对诗词数据进行选择与爬取;
步骤3.对诗词数据进行预处理;
步骤4.对诗人数据的选择与爬取;
步骤5.对诗人数据进行预处理;
步骤6.基于卡方检验的模型构建,具体包括以下步骤:步骤(6-1).所有的诗词数量,设为A;包含词语ti但不属于类别ci的诗词数量,设为B;不包含词语ti但属于类别ci的诗词数量,设为C;不包含词语ti且不属于类别ci的诗词数量,设为D;
步骤(6-2).将七种类别的诗词按类别分类,存进列表,建立一个词语列表存放古诗中不重复出现的所有词语;
步骤(6-3).对每个词每个类别计算属于该类别的诗词数量,即为a;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为b;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为c;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为d;
步骤(6-4).词语和类别之间的关联度通过卡方检验计算,计算公式为
Figure BDA0002445241900000021
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。I水平的期望频数Ei等于总频数n*i水平的期望概率pi,k为单元格数;
步骤(6-5).计算每个诗人所有的诗包含的用以训练的词的分别的个数;
步骤(6-6).计算该诗人使用的每个训练词与对应关联度的乘积的和,作为该诗人与每个类别的关联度;
步骤(6-7).对数据进行标准化,可以更加明显的看出诗人与类别的关系大小,输出数值大于0.8的类别作为该诗人所包含的类别;
步骤7.模型测试与结果检测,具体包括以下步骤:步骤(7-1).输入一些风格鲜明的诗人,判断输出是否准确,如;婉约派-李清照、豪放派-辛弃疾、边塞派-王昌龄、浪漫派-李白,对比关联度数值,同时根据历史情况适当调低某些类别的关联度;
步骤(7-2).测试结果将田园派关联度调低至80%,边塞派关联度调低至60%,婉约派关联度调低至80%。
优选的,在步骤1中,将七类风格的诗词与想表达的情感一一对应,具体如下:婉约派:思念;豪放派:豪迈,战争;田园派:山水,田园;现实派:忧国忧民,咏史怀古;浪漫派:抒情,咏物,爱国;咏史派:咏史怀古;边塞派:边塞风景。
优选的,在步骤2中,对诗词数据的选择与爬取具体包括以下步骤:步骤(2-1).选取古诗的类别重复且页数较少的古诗类型;步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗,我们采用python的第三方库re、requests;步骤(2-3).建立字典x1,放入所有需要爬取得类型及其对应的页数,其中ii代表每个类型的名称;步骤(2-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result1的里,基于末页的位置如果小于网站所显示的8页时,result1里的结果显示为空集,否则为整数形式的字符串;步骤(2-5).循环爬取,将结果保存到预先设置成的空文件text1里。
优选的,在步骤3中,对诗词数据进行预处理具体包括以下步骤:步骤(3-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(3-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(3-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e1,在for循环分词结果,用pynlp ir.segments()表示每个词,再删除所有标点符号的“词”,保存到e1中,预处理的结果保存到文件夹里。
优选的,在步骤4中,对诗人数据的选择与爬取具体包括以下步骤:步骤(4-1).选取著名的诗人,并选取唐宋元三朝的著名诗人;步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词,我们采用python的第三方库re、requests;步骤(4-3).建立字典x2,放入所有需要爬取的类型及其对应的数据所在页数,其中ii代表每个类型的名称;步骤(4-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result2的里,基于末页的位置如果小于网站所显示的8页时,result2里的结果显示为空集,否则为整数形式的字符串;步骤(4-5).循环爬取,将结果保存到预先设置成的空文件text2里。
优选的,在步骤5中,对诗人数据进行预处理具体包括以下步骤:步骤(5-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(5-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(5-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e2,在for循环分词结果,用pynlp ir.segments()表示每个词,再删除所有标点符号的“词”,保存到e2中,预处理的结果保存到文件夹里。
与现有技术相比,采用了上述技术方案的基于卡方检验的诗词风格分析方法,具有如下有益效果:采用本发明的基于卡方检验的诗词风格分析方法,通过建立卡方检验的模型,对每个词每个类别计算属于该类别的诗词数量,对大数据量的诗词风格分类进行处理,并精准分类类型。
附图说明
图1为本发明基于卡方检验的诗词风格分析方法实施例的流程示意图;
图2为本实施例中基于卡方检验的诗词风格分析方法模型检测的流程示意图。
具体实施方式
下面结合附图对本发明做进一步描述。
如图1所示为基于卡方检验的诗词风格分析方法的流程示意图,
包括以下步骤:步骤1.建立诗人派别分类指标,具体包括以下步骤:步骤(1-1).确认派别的风格种类,将诗词分为七大类;
步骤(1-2).将七类风格的诗词与想表达的情感对应,具体如下:婉约派:思念;豪放派:豪迈,战争;田园派:山水,田园;现实派:忧国忧民,咏史怀古;浪漫派:抒情,咏物,爱国;咏史派:咏史怀古;边塞派:边塞风景。分析出不同风格的诗词旨在表达何种情感;
步骤2.对诗词数据进行选择与爬取,具体包括以下步骤:步骤(2-1).选取古诗的类别重复且页数较少的古诗类型;步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗,我们采用python的第三方库re、requests;步骤(2-3).建立字典x1,放入所有需要爬取得类型及其对应的页数,其中ii代表每个类型的名称;步骤(2-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result1的里,基于末页的位置如果小于网站所显示的8页时,result1里的结果显示为空集,否则为整数形式的字符串;步骤(2-5).循环爬取,将结果保存到预先设置成的空文件text1里;
步骤3.对诗词数据进行预处理,具体包括以下步骤:步骤(3-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(3-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(3-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e1,在for循环分词结果,用pynlpir.segments()表示每个词,再删除所有标点符号的“词”,保存到e1中,预处理的结果保存到文件夹里;
步骤4.对诗人数据的选择与爬取,具体包括以下步骤:步骤(4-1).选取著名的诗人,并选取唐宋元三朝的著名诗人;步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词,我们采用python的第三方库re、requests;步骤(4-3).建立字典x2,放入所有需要爬取的类型及其对应的数据所在页数,其中ii代表每个类型的名称;步骤(4-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result2的里,基于末页的位置如果小于网站所显示的8页时,result2里的结果显示为空集,否则为整数形式的字符串;步骤(4-5).循环爬取,将结果保存到预先设置成的空文件text2里;
步骤5.对诗人数据进行预处理,具体包括以下步骤:步骤(5-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(5-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(5-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e2,在for循环分词结果,用pynlpir.segments()表示每个词,再删除所有标点符号的“词”,保存到e2中,预处理的结果保存到文件夹里;
步骤6.基于卡方检验的模型构建,如图2所示为基于卡方检验的诗词风格分析方法模型检测的流程示意图,具体包括以下步骤:步骤(6-1).所有的诗词数量,设为A;包含词语ti但不属于类别ci的诗词数量,设为B;不包含词语ti但属于类别ci的诗词数量,设为C;不包含词语ti且不属于类别ci的诗词数量,设为D;
步骤(6-2).将七种类别的诗词按类别分类,存进列表,建立一个词语列表存放古诗中不重复出现的所有词语;
步骤(6-3).对每个词每个类别计算属于该类别的诗词数量,即为a;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为b;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为c;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为d;
步骤(6-4).词语和类别之间的关联度通过卡方检验计算,计算公式为
Figure BDA0002445241900000071
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。I水平的期望频数Ei等于总频数n*i水平的期望概率pi,k为单元格数;
步骤(6-5).计算每个诗人所有的诗包含的用以训练的词的分别的个数;
步骤(6-6).计算该诗人使用的每个训练词与对应关联度的乘积的和,作为该诗人与每个类别的关联度;
步骤(6-7).对数据进行标准化,可以更加明显的看出诗人与类别的关系大小,输出数值大于0.8的类别作为该诗人所包含的类别;
步骤7.模型测试与结果检测,具体包括以下步骤:步骤(7-1).输入一些风格鲜明的诗人,判断输出是否准确,如:婉约派-李清照、豪放派-辛弃疾、边塞派-王昌龄、浪漫派-李白,对比关联度数值,同时根据历史情况适当调低某些类别的关联度;
步骤(7-2).测试结果将田园派关联度调低至80%,边塞派关联度调低至60%,婉约派关联度调低至80%。
考虑到本发明本质上属于文本分类,可在优化时考虑贝叶斯和SVM。由于本发明涉及多个变量,表1对各个步骤中的变量进行说明,如表1所示为变量说明表:
步骤3 re 工具包 正则表达式
requests 工具包 爬虫
x1 字典变量 储存原始数据
ii 字符变量 诗词类别
result1 数据变量 爬取的数据
text1 文件名 储存爬取数据
pynlpir 工具包 简单nlp处理
replace 函数 字符替换
步骤5 ti 字符变量 诗词类别t
ci 字符变量 诗词类别c
A_i 数据变量 i水平的观察频数
E_i 数据变量 i水平的期望频数
n 数据变量 总频数
p_i 数据变量 i水平的期望频率
k 数据变量 单元格数
表1
以上是本发明的优选实施方式,对于本领域的普通技术人员来说不脱离本发明原理的前提下,还可以做出若干变型和改进,这些也应视为本发明的保护范围。

Claims (6)

1.一种基于卡方检验的诗词风格分析方法,其特征在于:包括以下步骤:
步骤1.建立诗人派别分类指标,具体包括以下步骤:步骤(1-1).确认派别的风格种类,将诗词分为七大类;步骤(1-2).将七类风格的诗词与想表达的情感对应,分析出不同风格的诗词旨在表达何种情感;
步骤2.对诗词数据进行选择与爬取;
步骤3.对诗词数据进行预处理;
步骤4.对诗人数据的选择与爬取;
步骤5.对诗人数据进行预处理;
步骤6.基于卡方检验的模型构建,具体包括以下步骤:步骤(6-1).所有的诗词数量,设为A;包含词语ti但不属于类别ci的诗词数量,设为B;不包含词语ti但属于类别ci的诗词数量,设为C;不包含词语ti且不属于类别ci的诗词数量,设为D;
步骤(6-2).将七种类别的诗词按类别分类,存进列表,建立一个词语列表存放古诗中不重复出现的所有词语;
步骤(6-3).对每个词每个类别计算属于该类别的诗词数量,即为a;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为b;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为c;新建一个变量储存该类别所有诗词数量,减去存在该词的诗词数量,即为d;
步骤(6-4).词语和类别之间的关联度通过卡方检验计算,计算公式为
Figure FDA0002445241890000011
其中,Ai为i水平的观察频数,Ei为i水平的期望频数,n为总频数,pi为i水平的期望频率。I水平的期望频数Ei等于总频数n*i水平的期望概率pi,k为单元格数;
步骤(6-5).计算每个诗人所有的诗包含的用以训练的词的分别的个数;
步骤(6-6).计算该诗人使用的每个训练词与对应关联度的乘积的和,作为该诗人与每个类别的关联度;
步骤(6-7).对数据进行标准化,可以更加明显的看出诗人与类别的关系大小,输出数值大于0.8的类别作为该诗人所包含的类别;
步骤7.模型测试与结果检测,具体包括以下步骤:步骤(7-1).输入一些风格鲜明的诗人,判断输出是否准确,如;婉约派-李清照、豪放派-辛弃疾、边塞派-王昌龄、浪漫派-李白,对比关联度数值,同时根据历史情况适当调低某些类别的关联度;
步骤(7-2).测试结果将田园派关联度调低至80%,边塞派关联度调低至60%,婉约派关联度调低至80%。
2.根据权利要求1所述的基于卡方检验的诗词风格分析方法,其特征在于:在步骤1中,将七类风格的诗词与想表达的情感一一对应,具体如下;婉约派:思念;豪放派:豪迈,战争;田园派:山水,田园;现实派:忧国忧民,咏史怀古;浪漫派:抒情,咏物,爱国;咏史派:咏史怀古;边塞派:边塞风景。
3.根据权利要求1所述的基于卡方检验的诗词风格分析方法,其特征在于:在步骤2中,对诗词数据的选择与爬取具体包括以下步骤:步骤(2-1).选取古诗的类别重复且页数较少的古诗类型;步骤(2-2).爬取我们所需用于类别评判的不同类型的所有诗,我们采用python的第三方库re、requests;步骤(2-3).建立字典x1,放入所有需要爬取得类型及其对应的页数,其中ii代表每个类型的名称;步骤(2-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result1的里,基于末页的位置如果小于网站所显示的8页时,result1里的结果显示为空集,否则为整数形式的字符串;步骤(2-5).循环爬取,将结果保存到预先设置成的空文件text1里。
4.根据权利要求1所述的基于卡方检验的诗词风格分析方法,其特征在于:在步骤3中,对诗词数据进行预处理具体包括以下步骤:步骤(3-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(3-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(3-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e1,在for循环分词结果,用pynlp ir.segments()表示每个词,再删除所有标点符号的“词”,保存到e1中,预处理的结果保存到文件夹里。
5.根据权利要求1所述的基于卡方检验的诗词风格分析方法,其特征在于:在步骤4中,对诗人数据的选择与爬取具体包括以下步骤:步骤(4-1).选取著名的诗人,并选取唐宋元三朝的著名诗人;步骤(4-2).爬取我们所需用于类别评判的不同诗人的诗词,我们采用python的第三方库re、requests;步骤(4-3).建立字典x2,放入所有需要爬取的类型及其对应的数据所在页数,其中ii代表每个类型的名称;步骤(4-4).建立for循环,寻找每个类型所对的首页和末页位置,根据其末页,再将其保存到result2的里,基于末页的位置如果小于网站所显示的8页时,result2里的结果显示为空集,否则为整数形式的字符串;步骤(4-5).循环爬取,将结果保存到预先设置成的空文件text2里。
6.根据权利要求1所述的基于卡方检验的诗词风格分析方法,其特征在于:在步骤5中,对诗人数据进行预处理具体包括以下步骤:步骤(5-1).使用python的第三方库pynlpir首先建立列表,并修改编码格式为utf-8,将所有的数据的类型名称存在里面;步骤(5-2).for循环,打开之前保存的文件,并且读取,打开第三方库pynlpir,用库里的函数replace函数删除“[,],」”等方框,其中,不包含“《》”,精确后面的计算;步骤(5-3).将字符串分成列表,用到split函数,用“,”分词,建立空集e2,在for循环分词结果,用pynlp ir.segments()表示每个词,再删除所有标点符号的“词”,保存到e2中,预处理的结果保存到文件夹里。
CN202010277247.3A 2020-04-10 2020-04-10 一种基于卡方检验的诗词风格分析方法 Pending CN111522945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010277247.3A CN111522945A (zh) 2020-04-10 2020-04-10 一种基于卡方检验的诗词风格分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010277247.3A CN111522945A (zh) 2020-04-10 2020-04-10 一种基于卡方检验的诗词风格分析方法

Publications (1)

Publication Number Publication Date
CN111522945A true CN111522945A (zh) 2020-08-11

Family

ID=71911680

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010277247.3A Pending CN111522945A (zh) 2020-04-10 2020-04-10 一种基于卡方检验的诗词风格分析方法

Country Status (1)

Country Link
CN (1) CN111522945A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434165A (zh) * 2020-12-17 2021-03-02 广州视源电子科技股份有限公司 一种古诗词分类方法、装置、终端设备及存储介质
CN116628256A (zh) * 2023-05-22 2023-08-22 杭州晨星创文网络科技有限公司 一种用于数据库平台的诗词分类方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110264318A (zh) * 2019-06-26 2019-09-20 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
胡韧奋;诸雨辰;: "唐诗题材自动分类研究" *
蒋彦廷;张健铖;: "基于统计分析的"中国风"歌曲词汇研究" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434165A (zh) * 2020-12-17 2021-03-02 广州视源电子科技股份有限公司 一种古诗词分类方法、装置、终端设备及存储介质
CN112434165B (zh) * 2020-12-17 2023-11-07 广州视源电子科技股份有限公司 一种古诗词分类方法、装置、终端设备及存储介质
CN116628256A (zh) * 2023-05-22 2023-08-22 杭州晨星创文网络科技有限公司 一种用于数据库平台的诗词分类方法及系统

Similar Documents

Publication Publication Date Title
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN107220295B (zh) 一种人民矛盾调解案例搜索和调解策略推荐方法
CN106649260B (zh) 基于评论文本挖掘的产品特征结构树构建方法
US8239189B2 (en) Method and system for estimating a sentiment for an entity
CN104699763B (zh) 多特征融合的文本相似性度量系统
CN109471942B (zh) 基于证据推理规则的中文评论情感分类方法及装置
Trstenjak et al. KNN with TF-IDF based framework for text categorization
US10755045B2 (en) Automatic human-emulative document analysis enhancements
CN107315738B (zh) 一种文本信息的创新度评估方法
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN110543564B (zh) 基于主题模型的领域标签获取方法
CN106708929B (zh) 视频节目的搜索方法和装置
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN110741376A (zh) 用于不同自然语言的自动文档分析
CN109213998A (zh) 中文错字检测方法及系统
CN111522945A (zh) 一种基于卡方检验的诗词风格分析方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
Mohanty et al. Resumate: A prototype to enhance recruitment process with NLP based resume parsing
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN112989813A (zh) 一种基于预训练语言模型的科技资源关系抽取方法及装置
CN106570196B (zh) 视频节目的搜索方法和装置
CN110399493B (zh) 一种基于增量学习的作者消歧方法
Dhar et al. Bengali news headline categorization using optimized machine learning pipeline
CN117216275A (zh) 一种文本处理方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200811

RJ01 Rejection of invention patent application after publication